[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2020024542A - Data analysis device and data analysis method - Google Patents

Data analysis device and data analysis method Download PDF

Info

Publication number
JP2020024542A
JP2020024542A JP2018148304A JP2018148304A JP2020024542A JP 2020024542 A JP2020024542 A JP 2020024542A JP 2018148304 A JP2018148304 A JP 2018148304A JP 2018148304 A JP2018148304 A JP 2018148304A JP 2020024542 A JP2020024542 A JP 2020024542A
Authority
JP
Japan
Prior art keywords
data
feature
cluster
feature amount
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018148304A
Other languages
Japanese (ja)
Other versions
JP7049211B2 (en
Inventor
大河 能見
Taiga Nomi
大河 能見
康暢 梅原
Yasunobu Umehara
康暢 梅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keyence Corp
Original Assignee
Keyence Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keyence Corp filed Critical Keyence Corp
Priority to JP2018148304A priority Critical patent/JP7049211B2/en
Publication of JP2020024542A publication Critical patent/JP2020024542A/en
Application granted granted Critical
Publication of JP7049211B2 publication Critical patent/JP7049211B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】大量のデータから特徴量を自動的に得て重要度の高い特徴量を表示可能にし、新たな知見を得るための手助けができるようにする。
【解決手段】データ分析装置は、上位の重要度を有する特徴量の中から使用者の入力に応じて選択された第1の特徴量と目的変数との関係を示す図を生成することができる。データ分析装置は、基本図に示された複数のクラスターから選択されたクラスターにおいて、目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおいて、目的変数の予測に寄与する特徴量との比較を示す比較図を生成することができる。
【選択図】図18
An object of the present invention is to automatically obtain a feature amount from a large amount of data and to display a feature amount having a high degree of importance, so that it is possible to assist in obtaining new knowledge.
A data analysis device can generate a diagram showing a relationship between a first feature amount selected from feature amounts having higher importance levels in accordance with a user input and an objective variable. . The data analysis device calculates a feature amount that contributes to the prediction of the objective variable in a cluster selected from a plurality of clusters shown in the basic diagram, and a feature amount that contributes to the prediction of the objective variable in all clusters or clusters not selected. A comparison diagram showing the comparison with can be generated.
[Selection diagram] FIG.

Description

本発明は、データ分析装置及びデータ分析方法に関する。   The present invention relates to a data analysis device and a data analysis method.

従来より、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングが知られている。一般的なデータマイニングの手法では、前処理ステップ、特徴抽出ステップ、モデル学習ステップ、後処理ステップの各ステップを順に実行する。前処理ステップでは、分析に必要なデータを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。   2. Description of the Related Art Conventionally, so-called data mining, which attempts to obtain useful knowledge that has been unknown so far from a large amount of information, has been known. In a general data mining method, steps of a preprocessing step, a feature extraction step, a model learning step, and a post-processing step are sequentially executed. In the preprocessing step, data necessary for the analysis is collected, and in order to enhance the effect of the analysis, work such as removing unnecessary noise from the data and filling in missing items is performed. This operation is called ETL: Extract / Transform / Load. In the feature extraction step, a feature amount existing in the original data is processed, and a new feature amount that is more useful for analysis is generated. In the model learning step, the data prepared in the preprocessing step and the feature extraction step are input to a machine learning algorithm to obtain an analysis result. In the post-processing step, processing such as outputting the analysis result obtained in the model learning step to an external device or creating a report based on the analysis result is performed.

ところで、最適な特徴量の設計には、熟練の分析者による試行錯誤が必要で、データ分析に長い時間を要する原因となっていた。このことに対し、例えば、非特許文献1に開示されているように、新たな特徴量をデータから自動的に生成する技術が知られている。これら文献に開示されている技術では、事前に定義された一連の演算子(+,−,×,÷など)を元の特徴量に対して網羅的に適用し、大量の新たな特徴量を自動的に生成することができる。   By the way, the design of the optimal feature amount requires trial and error by a skilled analyst, which causes a long time for data analysis. On the other hand, for example, as disclosed in Non-Patent Document 1, a technique for automatically generating a new feature amount from data is known. In the techniques disclosed in these documents, a series of predefined operators (+, −, ×, ÷, etc.) are comprehensively applied to an original feature amount, and a large amount of new feature amounts are obtained. Can be generated automatically.

「A Randomized Exhaustive Propositionalization Approach for Molecule Classification」2010年5月26日"A Randomized Exhaustive Propositionalization Approach for Molecule Classification" May 26, 2010

しかしながら、上記文献の技術では、複数の演算子の組み合わせの結果得られた新たな特徴量は膨大な数になる。その膨大な数の特徴量の中には、分析に有効でない特徴量も大量に含まれているため、後続のモデル学習ステップに時間がかかるという問題があった。   However, according to the technique of the above-mentioned document, the number of new features obtained as a result of a combination of a plurality of operators is enormous. Since the huge number of feature values include a large amount of feature values that are not effective for analysis, there is a problem that it takes time for the subsequent model learning step.

また、分析の精度向上に役立つ新たな特徴量が生成されたとしても、その生成された特徴量と目的変数との関係や、他の特徴量との関係性が直観的に分からないため、実際に分析結果から知見を得ようとすると、個々の特徴量に関して追加の分析作業を必要としていた。つまり、上記文献の技術を使用したとしても、有用な知見を得るためには、分析者による手作業が結局必要になるので、データ分析に時間がかかるという問題は依然として解決されない。   In addition, even if a new feature that is useful for improving the accuracy of analysis is generated, the relationship between the generated feature and the target variable and the relationship with other features are not intuitively understood. In order to obtain knowledge from analysis results, additional analysis work was required for each feature amount. That is, even if the technique described in the above-mentioned document is used, the manual analysis by the analyst is eventually required in order to obtain useful knowledge, and the problem that data analysis takes a long time remains.

本発明は、かかる点に鑑みてなされたものであり、その目的とするところは、大量のデータから特徴量を得て重要度の高い特徴量を表示可能にし、新たな知見を得るための手助けができるようにすることにある。   The present invention has been made in view of such a point, and an object of the present invention is to obtain a feature amount from a large amount of data, to display a feature amount having a high importance, and to assist in obtaining new knowledge. Is to be able to do it.

上記目的を達成するために、第1の発明は、分析対象データを分析するデータ分析装置において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とする。   In order to achieve the above object, a first invention is a data analysis device for analyzing data to be analyzed, a data input unit for receiving an input of data to be analyzed including a plurality of feature amounts and a target variable; A prediction model generation unit that generates a prediction model for predicting the objective variable from a feature value; an importance calculation unit that calculates importance for prediction by the prediction model for each of the plurality of feature values; A display unit that displays a feature amount having a higher importance based on the importance calculated by the degree calculation unit, and a feature selected in response to a user input from the feature amounts displayed on the display unit. A basic diagram generation unit that divides the analysis target data into a plurality of clusters based on the value of the amount, and generates a basic diagram showing a relationship between each cluster and a representative value of an objective variable of each cluster. A cluster selecting unit that receives selection of any one of the clusters from the plurality of clusters illustrated in the basic diagram; a feature amount that contributes to the prediction of the objective variable in the cluster selected by the cluster selecting unit; In a cluster or a non-selected cluster not selected by the cluster selection unit, a comparison diagram generation unit that generates a comparison diagram showing a comparison with a feature amount contributing to the prediction of the objective variable, the display unit includes: The basic diagram generated by the basic diagram generation unit and the comparison diagram generated by the comparison diagram generation unit can be displayed.

この構成によれば、分析対象データが入力されると、分析対象データに含まれる複数の特徴量から目的変数を予測するための予測モデルが生成される。特徴量は、分析対象データに含まれていたものであってもよいし、新たに生成されたものであってもよい。そして、予測モデルによる予測に対する重要度が、複数の特徴量のそれぞれに対して算出され、算出された複数の特徴量のうち、上位の重要度を有する特徴量が表示部に表示される。このとき、下位の重要度を有する特徴量が表示されていてもよい。いずれにしても、使用者は、表示部を見ることで、重要度の高い特徴量を、重要度の低い特徴量と区別して把握することができる。使用者が、表示部に表示された特徴量の中から所望の特徴量を選択すると、その選択された特徴量の値に基づいて分析対象データが複数のクラスターに分割される。   According to this configuration, when the analysis target data is input, a prediction model for predicting a target variable from a plurality of feature amounts included in the analysis target data is generated. The feature amount may be included in the analysis target data or may be newly generated. Then, the importance for the prediction by the prediction model is calculated for each of the plurality of feature amounts, and among the calculated plurality of feature amounts, the feature amount having the higher importance is displayed on the display unit. At this time, a feature value having lower importance may be displayed. In any case, by viewing the display unit, the user can distinguish and grasp a feature amount having a high importance from a feature amount having a low importance. When the user selects a desired feature amount from the feature amounts displayed on the display unit, the analysis target data is divided into a plurality of clusters based on the value of the selected feature amount.

また、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図が生成され、この基本図に示された複数のクラスターから任意の1つのクラスターの選択が受け付けられると、選択されたクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を示す比較図が生成される。そして、基本図と比較図が表示部に表示される。   In addition, a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster is generated, and when an arbitrary one of the clusters shown in the basic diagram is selected, the selection is made. A comparison diagram is generated that shows a comparison between the feature amount that contributes to the prediction of the objective variable in the cluster that has been made and the feature amount that contributes to the prediction of the objective variable in all clusters or unselected cluster stars. Then, the basic diagram and the comparison diagram are displayed on the display unit.

使用者は、基本図を見ることで、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるので、これに基づいて新たな知見を得ることができる。   By looking at the basic diagram, the user can know the relationship between the clusters obtained by dividing the data to be analyzed and the representative values of the objective variables, and can obtain new knowledge based on this. it can.

また、使用者は、注目したいクラスターがあった場合、そのクラスターを選択すると、そのクラスターにおける目的変数の予測に寄与する特徴量だけでなく、全クラスターにおける目的変数の予測に寄与する特徴量との比較や、選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、これに基づいて新たな知見を得ることができる。   In addition, when there is a cluster that the user wants to pay attention to, when the user selects the cluster, not only the feature amount contributing to the prediction of the objective variable in the cluster but also the feature amount contributing to the prediction of the objective variable in all the clusters is obtained. Since comparison and comparison with a feature value that contributes to the prediction of the objective variable in the non-selected class star can be performed, new knowledge can be obtained based on the comparison.

尚、基本図と比較図とを表示部に同時に表示してもよいし、異なるタイミングで表示してもよい。また、「図」には、グラフや表、文字も含まれる。   The basic diagram and the comparison diagram may be simultaneously displayed on the display unit, or may be displayed at different timings. Further, the “figure” includes a graph, a table, and characters.

第2の発明は、前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とする。   A second invention is characterized in that the display unit is configured to display a plurality of feature values having higher importance levels in order of higher importance.

この構成によれば、上位の重要度を有する複数の特徴量がランキング形式で表示部に表示されることになるので、使用者が複数の特徴量の重要度を相対比較することができる。重要度を高い順に並べる方向としては、例えば上下方向であってもよいし、使用者から見て左右方向であってもよい。   According to this configuration, a plurality of feature values having higher importance are displayed on the display unit in a ranking format, so that the user can relatively compare the importance of the plurality of feature values. The direction in which the degrees of importance are arranged in descending order may be, for example, a vertical direction or a horizontal direction as viewed from the user.

第3の発明は、前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とする。   A third invention is characterized in that the display unit is configured to simultaneously display a feature value having the highest importance and a plurality of feature values less than the highest importance.

この構成によれば、最上位の重要度を有する特徴量がどの特徴量であるか、また、最上位の重要度と次に高い重要度との差を容易に把握することができる。   According to this configuration, it is possible to easily grasp which feature amount has the highest importance, and a difference between the highest importance and the next highest importance.

第4の発明は、前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とする。   A fourth invention is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram indicating a feature amount whose contribution degree is significantly high only in the cluster selected by the cluster selection unit. I do.

この構成によれば、選択されたクラスターに関連性の高い特徴量が自動的に示されるので、複数の特徴量に基づいて新たな知見を得ることができる。   According to this configuration, a feature amount highly relevant to the selected cluster is automatically indicated, so that new knowledge can be obtained based on a plurality of feature amounts.

第5の発明は、前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とする。   According to a fifth aspect, the comparison diagram generation unit is configured to generate the comparison diagram indicating a feature amount not selected by a user among the feature amounts having the higher importance. Features.

この構成によれば、使用者により選択されなかったが、上位の重要度を有する特徴量は目的変数に与える影響が大きいことが考えられるので、この上位の重要度を有する特徴量も比較図として示すことで、複数の特徴量に基づいて新たな知見を得ることができる。   According to this configuration, although not selected by the user, it is conceivable that the feature having the higher importance has a large effect on the objective variable, so the feature having the higher importance is also used as a comparison diagram. By doing so, new knowledge can be obtained based on a plurality of feature amounts.

第6の発明は、前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とする。   In a sixth aspect, the comparison diagram generation unit is configured to generate the comparison diagram indicating a feature amount contributing to the prediction of the objective variable in a missing cluster in which the value of the analysis target data does not exist. It is characterized by having.

この構成によれば、値が存在していない分析対象データ群を欠損クラスターとしたとき、この欠損クラスターも目的変数の予測に寄与する場合があり、比較図に、欠損クラスターにおける目的変数の予測に寄与する特徴量を示すことで、新たな知見を得ることができる。   According to this configuration, when the analysis target data group having no value is set as a missing cluster, the missing cluster may also contribute to the prediction of the objective variable. New knowledge can be obtained by indicating the feature values that contribute.

第7の発明は、分析対象データを分析するデータ分析方法において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法である。   A seventh invention is a data analysis method for analyzing data to be analyzed, a data input step of receiving input of data to be analyzed including a plurality of feature amounts and an objective variable, and predicting the objective variable from the plurality of feature amounts. Predictive model generating step of generating a predictive model for calculating the importance of each of the plurality of feature amounts with respect to prediction by the predictive model; and calculating the importance calculated by the importance calculating step. A feature value displaying step of displaying a feature value having a higher importance based on the degree, and a feature value selected according to a user input from the feature values displayed in the feature value displaying step. The analysis target data is divided into a plurality of clusters on the basis of the above, and a basic diagram showing a relationship between each cluster and a representative value of an objective variable of each cluster is shown. Generating a basic diagram to be formed, a cluster selecting step of receiving selection of any one cluster from a plurality of clusters shown in the basic diagram, and predicting the objective variable in the cluster selected in the cluster selecting step. And a comparison diagram generation step of generating a comparison diagram showing a comparison between feature amounts contributing to the prediction of the objective variable in all clusters or unselected clusters not selected by the cluster selection step. And a comparison diagram display step capable of displaying the basic diagram generated in the basic diagram generation step and the comparison diagram generated in the comparison diagram generation step.

本発明によれば、大量のデータに含まれる重要度の高い特徴量を表示部に表示することができる。そして、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、新たな知見を得るための手助けをすることができる。   ADVANTAGE OF THE INVENTION According to this invention, the feature value with high importance contained in a large amount of data can be displayed on a display part. In addition, it is possible to know the relationship between the clusters obtained by dividing the data to be analyzed and the representative value of the objective variable, and the feature amount contributing to the prediction of the objective variable in the selected cluster, and all clusters or unselected clusters. Can be compared with the feature amount that contributes to the prediction of the objective variable in the cluster, so that it is possible to help to obtain new knowledge.

本発明の実施形態に係るデータ分析装置の概略構成を示す図である。It is a figure showing the schematic structure of the data analysis device concerning the embodiment of the present invention. データ分析装置のブロック図である。It is a block diagram of a data analyzer. データ分析の手順を示すフローチャートである。9 is a flowchart illustrating a procedure of data analysis. データ分析装置の動作を示すフローチャートである。6 is a flowchart illustrating an operation of the data analyzer. データ入力用ユーザーインターフェースを示す図である。FIG. 3 is a diagram illustrating a data input user interface. 2つのファイルにそれぞれ格納されている分析対象データを表形式で示す図である。FIG. 4 is a diagram showing analysis target data stored in two files in a table format. データフロー表示ユーザーインターフェースを示す図である。It is a figure showing a data flow display user interface. 分析対象データをプレビュー表示したデータフロー表示ユーザーインターフェースを示す図である。It is a figure showing the data flow display user interface which performed the preview display of the analysis object data. データ加工ユーザーインターフェースを示す図である。It is a figure showing a data processing user interface. 加工後データをアイコン表示したデータフロー表示ユーザーインターフェースを示す図である。It is a figure showing the data flow display user interface which displayed the data after processing with an icon. 特徴量自動生成ユーザーインターフェースを示す図である。FIG. 4 is a diagram illustrating a feature amount automatic generation user interface. 2つの分析対象データ間で対応関係にある割合の算出方法を説明する図である。FIG. 7 is a diagram illustrating a method of calculating a ratio in which there is a correspondence between two pieces of analysis target data. 価格の列の合計を計算して「master」に加える場合を説明する図である。It is a figure explaining the case where the total of the price column is calculated and added to "master". 日付を表す行との組み合わせに基づいて、集約する行を決定する場合を説明する図である。FIG. 11 is a diagram illustrating a case where a row to be aggregated is determined based on a combination with a row indicating a date. 特徴量表示ユーザーインターフェースを示す図である。It is a figure showing a feature-quantity display user interface. 「直近30日の総来店日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature-value display user interface at the time of selecting "total number of visits in the last 30 days". 詳細メニューから「値の平均値を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。FIG. 11 is a diagram illustrating a feature amount display user interface when “compare average values” is selected from a detailed menu. 比較表が表示された特徴量表示ユーザーインターフェースを示す図である。FIG. 11 is a diagram illustrating a feature amount display user interface on which a comparison table is displayed. 予測精度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。FIG. 11 is a diagram illustrating a feature amount display user interface on which a prediction accuracy comparison graph is displayed. 「最終来店日からの経過日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature-value display user interface when "the number of days passed since the last store visit" is selected. 影響度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure showing the feature-quantity display user interface on which the influence comparison graph was displayed. 詳細メニューから「特徴量の寄与度を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure showing the feature-value display user interface at the time of selecting “comparison of feature-value contribution” from the detailed menu. 寄与度表示グラフが表示された特徴量表示ユーザーインターフェースを示す図である。FIG. 11 is a diagram illustrating a feature amount display user interface on which a contribution degree display graph is displayed. 寄与度の計算方法を説明する図である。It is a figure explaining the calculation method of a contribution. 特徴量の「性別」を選択した場合に表示される特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature-value display user interface displayed when "sex" of a feature-value is selected. 差分の説明グラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure showing the amount-of-features display user interface on which the explanation graph of the difference was displayed. 特徴量の寄与度の変化に関するグラフが表示された特徴量表示ユーザーインターフェースを示す図である。FIG. 11 is a diagram illustrating a feature amount display user interface on which a graph related to a change in the contribution of the feature amount is displayed.

以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. It should be noted that the following description of the preferred embodiments is merely an example in nature, and is not intended to limit the present invention, its application, or its use.

図1は、本発明の実施形態に係るデータ分析装置1の概略構成を示す図であり、図2は、データ分析装置1のブロック図である。このデータ分析装置1は、分析対象データを分析する装置であり、このデータ分析装置1を使用することで、本発明に係るデータ分析方法を実行することができる。データ分析装置1及びデータ分析方法は、例えば、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングを行う際に使用することができる。
(データ分析手順)
図3に示すフローチャートに基づいて、一般的なデータ分析の手順について説明する。開始後、ステップSA1では前処理ステップを実行する。前処理ステップでは、分析に必要なデータ、すなわち分析対象データを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。ステップSA2では特徴抽出ステップを実行する。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。ステップSA3ではモデル学習ステップを実行する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。ステップSA4では後処理ステップを実行する。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
FIG. 1 is a diagram showing a schematic configuration of a data analysis device 1 according to an embodiment of the present invention, and FIG. 2 is a block diagram of the data analysis device 1. The data analysis device 1 is a device for analyzing data to be analyzed. By using the data analysis device 1, the data analysis method according to the present invention can be executed. The data analysis device 1 and the data analysis method can be used, for example, when performing so-called data mining, which attempts to obtain useful knowledge that has been unknown so far from a large amount of information.
(Data analysis procedure)
A general data analysis procedure will be described based on the flowchart shown in FIG. After the start, in step SA1, a preprocessing step is executed. In the pre-processing step, data necessary for the analysis, that is, data to be analyzed is collected, and in order to enhance the effect of the analysis, an operation of removing unnecessary noise from the data and filling in missing items is performed. This operation is called ETL: Extract / Transform / Load. In step SA2, a feature extraction step is performed. In the feature extraction step, a feature amount existing in the original data is processed to generate a new feature amount that is more useful for analysis. At step SA3, a model learning step is executed. In the model learning step, the data prepared in the preprocessing step and the feature extraction step are input to a machine learning algorithm to obtain an analysis result. At step SA4, a post-processing step is executed. In the post-processing step, processing is performed such as outputting the analysis result obtained in the model learning step to an external device or creating a report based on the analysis result.

(データ分析装置1の全体構成)
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。例えば汎用のパーソナルコンピュータに、後述する制御内容を実行するプログラムをインストールすることによってデータ分析装置1とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置1を構成することもできる。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部がモニタ3に内蔵されていてもよい。
(Overall configuration of data analyzer 1)
As shown in FIGS. 1 and 2, the data analysis device 1 includes a device main body 2, a monitor 3, a keyboard 4, and a mouse 5. It is connected to the. For example, a data analysis device 1 can be obtained by installing a program for executing control contents to be described later in a general-purpose personal computer, and the data analysis device 1 is configured by dedicated hardware on which the program is installed. You can also. The device body 2 and the monitor 3 may be integrated, or a part of the device body 2 may be built in the monitor 3.

データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、インターネット回線を介して外部サーバーからのデータのダウンロードが可能になる。   The data analyzer 1 has a built-in communication module (not shown) and is configured to be able to communicate with the outside. Thus, data can be downloaded from an external server via the Internet line.

また、キーボード4及びマウス5は、データ分析装置1を操作する操作手段であるとともに、各種情報を入力する入力手段、選択操作を行う選択手段等でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。   In addition, the keyboard 4 and the mouse 5 are operation means for operating the data analysis device 1, as well as input means for inputting various information, selection means for performing a selection operation, and the like. In addition to or in place of the keyboard 4 and the mouse 5, a touch panel type input device, a voice input device, a pen type input device, or the like can be used.

(モニタ3の構成)
図1に示すモニタ3は、たとえば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体10に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどから構成される。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、各種ユーザーインターフェースやアイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。
(Configuration of monitor 3)
The monitor 3 shown in FIG. 1 is composed of, for example, an organic EL display, a liquid crystal display, or the like, and can be independently referred to as a display unit. The monitor 3 and the display control unit 3a shown in FIG. It can also be called a display unit. The display control unit 3a may be built in the monitor 3 or may be built in the device body 10. The display control unit 3a includes a display DSP for displaying an image on the monitor 3, and the like. The display control unit 3a may include a video memory such as a VRAM for temporarily storing image data when displaying an image. The display control unit 3a transmits a control signal for displaying a predetermined image on the monitor 3 based on a display command (display command) sent from a CPU 11a of the main control unit 11, which will be described later. For example, a control signal for causing the monitor 3 to display various user interfaces, icons, user's operation contents using the keyboard 4 and the mouse 5 is also transmitted. In addition, a pointer and the like that can be operated with the mouse 5 can be displayed on the monitor 3.

モニタ3をタッチ操作パネル型モニタとすることで、モニタ3に各種情報の入力機能を持たせることができる。   When the monitor 3 is a touch operation panel type monitor, the monitor 3 can have a function of inputting various information.

(装置本体2の全体構成)
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。
(Overall configuration of device main body 2)
The device main body 2 shown in FIG. 1 includes a control unit 10 and a storage unit 30. The storage unit 30 includes a hard disk drive, a solid state drive (SSD), and the like. The storage unit 30 is connected to the control unit 10 and is controlled by the control unit 10 so that various data can be stored and the stored data can be read.

(制御ユニット10)
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
(Control unit 10)
Although not specifically shown, the control unit 10 can be configured by an MPU, a system LSI, a DSP, dedicated hardware, or the like. The control unit 10 has various functions as described later, but these may be realized by a logic circuit or may be realized by executing software.

図2に示すように、制御ユニット10は、主制御部11と、データ入力部12と、予測モデル生成部13と、重要度算出部14と、クラスター選択部15と、表示図生成部16と、説明文自動生成部18とを備えている。制御ユニット10の各部は、上述したように分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けてこれらを連携させて1つの処理を実行するように構成してもよい。   As shown in FIG. 2, the control unit 10 includes a main control unit 11, a data input unit 12, a prediction model generation unit 13, an importance calculation unit 14, a cluster selection unit 15, a display diagram generation unit 16, , A description automatic generation unit 18. Although the respective units of the control unit 10 are described separately as described above, the same unit may be configured to execute a plurality of types of processing, or may be further subdivided and linked into one processing. May be executed.

上記各ハードウェアは、バスなどの電気的な通信路(配線)を介し、双方向通信可能または一方向通信可能に接続されている。   Each of the above-described hardware is connected to be capable of two-way communication or one-way communication via an electrical communication path (wiring) such as a bus.

主制御部11は、各種プログラムに基づき数値計算や情報処理を行うとともに、ハードウェア各部の制御を行う。主制御部11は、中央演算処理装置として機能するCPU11aと、主制御部11が各種プログラムを実行する際のワークエリアとして機能するRAM等のワークメモリ11bと、起動プログラムや初期化プログラム等が格納されたROM、フラッシュROMまたはEEPROM等のプログラムメモリ11cとを備えている。   The main control unit 11 performs numerical calculations and information processing based on various programs, and controls each unit of the hardware. The main control unit 11 stores a CPU 11a that functions as a central processing unit, a work memory 11b such as a RAM that functions as a work area when the main control unit 11 executes various programs, and a startup program and an initialization program. And a program memory 11c such as a read-only ROM, a flash ROM, or an EEPROM.

データ入力部12は、複数の特徴量と目的変数とを含む分析対象データの入力を受け付ける部分であり、図5に示すデータ入力用ユーザーインターフェース50をモニタ3に表示させるとともに、データ入力用ユーザーインターフェース50上でなされた使用者の操作を受け付ける。使用者の操作とは、キーボード4の操作や、マウス5の操作(ボタンクリック、ドラッグ&ドロップ、ホイールの回転等を含む)がある。   The data input unit 12 is a unit that receives input of analysis target data including a plurality of feature amounts and objective variables. The data input unit 12 displays the data input user interface 50 shown in FIG. The user's operation performed on 50 is accepted. The user's operation includes an operation of the keyboard 4 and an operation of the mouse 5 (including button click, drag and drop, rotation of a wheel, and the like).

ここで、分析対象データは、複数の特徴量と目的変数とを含むデータであるが、複数の特徴量は、分析対象データにもともと存在しているもの(既存特徴量)、使用者が気付いていなくて分析対象データに暗に含まれているもの(潜在的特徴量)、新たに生成したもの(新たな特徴量)等のいずれか1種または複数種を含むデータであればよい。分析対象データの一部が欠損していてもよく、その場合は、後述するように欠損した項目を埋める作業を行えばよい。   Here, the analysis target data is data including a plurality of feature amounts and objective variables. The plurality of feature amounts originally exist in the analysis target data (existing feature amounts), and the user has noticed. Instead, any data may be used as long as the data includes any one or more of data that is implicitly included in the analysis target data (potential feature value) and data that is newly generated (new feature value). A part of the analysis target data may be missing, and in that case, work to fill in the missing item may be performed as described later.

図5に示すデータ入力用ユーザーインターフェース50には、ファイル選択ボタン50aと、データベース選択ボタン50bと、URL指定ボタン50cと、データベース表示領域50dと、読み込み開始ボタン50eとが設けられている。各ボタンの配置は自由に設定できる。   The data input user interface 50 shown in FIG. 5 is provided with a file selection button 50a, a database selection button 50b, a URL designation button 50c, a database display area 50d, and a read start button 50e. The arrangement of each button can be set freely.

例えば、分析対象データを格納したファイルが外部記憶装置や記憶部30に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータベース表示領域50dへドラッグ&ドロップ操作する。これにより、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。その後、読み込み開始ボタン50eを押すと、データベース表示領域50dに表示されているファイルが記憶部30の所定領域に読み込まれて保存される。   For example, if the file storing the analysis target data is stored in the external storage device or the storage unit 30 and is on the desktop or in an open folder, the user drags the file to the database display area 50d. & Drop operation. Thereby, the file name storing the analysis target data is displayed in the database display area 50d. Thereafter, when the reading start button 50e is pressed, the file displayed in the database display area 50d is read and stored in a predetermined area of the storage unit 30.

分析対象データがデータベース上にある場合には、使用者がデータベース選択ボタン50bを押す。データベース選択ボタン50bが押されると、データベースに接続するための設定画面(図示せず)を表示し、テーブル名の入力や必要に応じてパスワードの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データが所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。   When the data to be analyzed is in the database, the user presses the database selection button 50b. When the database selection button 50b is pressed, a setting screen (not shown) for connecting to the database is displayed, prompting the user to input a table name and, if necessary, a password. After that, when the reading start button 50e is pressed, the data to be analyzed is read and stored in a predetermined area of the storage unit 30 in a predetermined file format, and the file name storing the data to be analyzed is displayed in the database display area 50d. You.

分析対象データがインターネットやサーバー上にある場合には、使用者がURL指定ボタン50cを押す。URL指定ボタン50cが押されると、URL入力画面(図示せず)を表示し、URLの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データがダウンロードされて所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。   When the data to be analyzed is on the Internet or a server, the user presses the URL designation button 50c. When the URL designation button 50c is pressed, a URL input screen (not shown) is displayed to prompt the user to enter a URL. Then, when the reading start button 50e is pressed, the data to be analyzed is downloaded, read and stored in a predetermined area of the storage unit 30 in a predetermined file format, and the file name storing the data to be analyzed is displayed in the database display area 50d. Will be displayed.

分析対象データを格納したファイルは、1つのみであってもよいし、複数であってもよい。この図5では、「transaction」、「master」の2つのファイルにそれぞれ格納されている分析対象データを読み込んだ場合を示している。上述した3つの方法以外の方法でファイルを読み込んでもよい。上記ファイル形式は、csv形式であるが、これ以外の形式であってもよい。   The number of files storing the analysis target data may be only one, or may be plural. FIG. 5 shows a case where the analysis target data stored in the two files “transaction” and “master” are read. The file may be read by a method other than the three methods described above. The file format is the csv format, but may be another format.

図6は、「master」と「transaction」にそれぞれ格納されている分析対象データを示している。この例では、「master」が顧客情報であり、顧客IDに対応付けられて年齢及び性別が記録されているとともに、顧客IDに対応付けられて、当該顧客が離反した顧客かどうかが「離反」列に記録されている。「離反」とは、一度来店したが、その後、来店しなくなったことである。「離反」列に「1」と記録されている顧客は離反した顧客であり、「0」と記録されている顧客は離反していない顧客である。   FIG. 6 shows analysis target data stored in “master” and “transaction”, respectively. In this example, “master” is the customer information, and the age and gender are recorded in association with the customer ID. In addition, in association with the customer ID, whether or not the customer is a customer who has left is “departure”. Recorded in the column. "Leaving" means that the customer visited the store once, but then stopped visiting the store. A customer recorded as “1” in the “Leave” column is a customer who has departed, and a customer recorded as “0” is a customer who has not departed.

「transaction」には、個々の購買履歴が記録されており、「顧客ID」列で、「master」と行ごとの対応関係が紐づけられている。「transaction」には、顧客IDに対応付けられて購入日、カテゴリ及び価格が記録されている。尚、上述したデータは本発明の説明のために用意した例であり、本発明の適用範囲を限定するものではない。本発明は、購買履歴データ以外にも、様々な分析対象データを分析することができるものである。   In “transaction”, individual purchase histories are recorded, and in the “customer ID” column, the correspondence between “master” and each row is linked. In “transaction”, a purchase date, a category, and a price are recorded in association with the customer ID. The data described above is an example prepared for explaining the present invention, and does not limit the scope of the present invention. The present invention can analyze various data to be analyzed other than the purchase history data.

分析対象データの読み込みが完了すると、図7に示すデータフロー表示ユーザーインターフェース51をモニタ3に表示させるとともに、データフロー表示ユーザーインターフェース51上でなされた使用者の操作を受け付ける。データフロー表示ユーザーインターフェース51には、データフロー表示領域51aと、下部表示領域51bと、特徴量自動生成ボタン51cと、データ加工ボタン51dと、データ出力ボタン51eとが設けられている。   When the reading of the analysis target data is completed, the data flow display user interface 51 shown in FIG. 7 is displayed on the monitor 3 and the user operation performed on the data flow display user interface 51 is received. The data flow display user interface 51 includes a data flow display area 51a, a lower display area 51b, an automatic feature amount generation button 51c, a data processing button 51d, and a data output button 51e.

データフロー表示領域51aには、読み込んだ分析対象データがアイコンとして表示される。下部表示領域51bには、読み込んだ分析対象データ同士の関係図(一般的にER図と呼ばれる)が表示される。図2に示すデータ入力部12は、読み込んだ複数の分析対象データで共通の列が存在するか否かを検出する。共通の列が存在するか否かは、例えば列の名称に基づいて判定できる。この例では、図6に示すように「master」及び「transaction」の両方に「顧客ID」という名称の列が存在することから、このことをデータ入力部12が検出する。すると、データ入力部12は、「master」の「顧客ID」と、「transaction」の「顧客ID」とが関連していると判断し、図7に示すように下部表示領域51bに表示される関係図において、「master」の「顧客ID」と、「transaction」の「顧客ID」と線で結んで表示する。   In the data flow display area 51a, the read analysis target data is displayed as icons. In the lower display area 51b, a relationship diagram (generally called an ER diagram) between the read analysis target data is displayed. The data input unit 12 shown in FIG. 2 detects whether or not a common column exists in the plurality of read analysis target data. Whether or not a common column exists can be determined, for example, based on the column name. In this example, as shown in FIG. 6, since a column named “customer ID” exists in both “master” and “transaction”, the data input unit 12 detects this. Then, the data input unit 12 determines that the “customer ID” of “master” is related to the “customer ID” of “transaction”, and is displayed in the lower display area 51b as shown in FIG. In the relation diagram, the “customer ID” of “master” and the “customer ID” of “transaction” are connected by a line and displayed.

以上の処理が、分析対象データの入力を受け付ける処理であり、データ入力部12で行われる。データ入力部12は、キーボード4やマウス5等の入力装置を含んでいてもよい。また、以上の処理は、図4に示すフローチャートにおけるステップSB1のデータ入力ステップに相当する。   The above process is a process for receiving an input of data to be analyzed, and is performed by the data input unit 12. The data input unit 12 may include an input device such as the keyboard 4 and the mouse 5. Further, the above processing corresponds to the data input step of step SB1 in the flowchart shown in FIG.

ステップSB1に続くステップSB2では、データ入力ステップで入力された分析対象データを加工する。まず、図7に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aに表示されている分析対象データのうち、加工したいデータを選択する。データの選択操作は、例えば、加工したいデータに対応するアイコンをクリックする操作を挙げることができる。アイコンをクリックすると、下部表示領域51bの関係図が消去されて、図8に示すように、選択した分析対象データが下部表示領域51bに表示される。このとき、下部表示領域51bには、選択した分析対象データの一部のみをプレビュー表示することができる。   In step SB2 following step SB1, the analysis target data input in the data input step is processed. First, data to be processed is selected from the analysis target data displayed in the data flow display area 51a of the data flow display user interface 51 shown in FIG. The data selection operation includes, for example, an operation of clicking an icon corresponding to data to be processed. When the icon is clicked, the relationship diagram in the lower display area 51b is deleted, and the selected analysis target data is displayed in the lower display area 51b as shown in FIG. At this time, only a part of the selected analysis target data can be preview-displayed in the lower display area 51b.

「transaction」をプレビュー表示して見ると、「カテゴリ」列に「日配品」、「日配品A」という文言が混在している。「日配品」と「日配品A」は、値が互いに異なることになるため、後述するモデル学習時にはこれらは異なるカテゴリとして扱われるが、データ分析上、同一として扱いたいのであれば、これらの表記ゆれを統一する方がより高い精度が得られる。これをデータ加工という。   When "transaction" is preview-displayed, the words "daily goods" and "daily goods A" are mixed in the "category" column. Since “daily goods” and “daily goods A” have different values from each other, they are treated as different categories at the time of model learning, which will be described later. Higher accuracy can be obtained by unifying the notation fluctuation of. This is called data processing.

データ加工を行う際には、図8に示すデータフロー表示ユーザーインターフェース51のデータ加工ボタン51dを押す。データ加工ボタン51dが押されると、図9に示すデータ加工ユーザーインターフェース52をモニタ3に表示させるとともに、データ加工ユーザーインターフェース52上でなされた使用者の操作を受け付ける。データ加工ユーザーインターフェース52には、加工対象データ表示領域52aと、欠損値除去・穴埋めボタン52bと、データ置き換えボタン52cと、列削除ボタン52dと、列追加ボタン52eと、数式入力ボタン52fと、列情報表示ボタン52gと、終了ボタン52hとが設けられている。加工対象データ表示領域52aには、選択した分析対象データが表形式で表示される。表示されている表が大きい場合にはスクロールすることもできる。   When performing data processing, a data processing button 51d of the data flow display user interface 51 shown in FIG. 8 is pressed. When the data processing button 51d is pressed, a data processing user interface 52 shown in FIG. 9 is displayed on the monitor 3, and an operation performed by the user on the data processing user interface 52 is received. In the data processing user interface 52, a processing target data display area 52a, a missing value removal / fill-in button 52b, a data replacement button 52c, a column deletion button 52d, a column addition button 52e, a formula input button 52f, a column An information display button 52g and an end button 52h are provided. In the processing target data display area 52a, the selected analysis target data is displayed in a table format. If the displayed table is large, it can be scrolled.

欠損値除去・穴埋めボタン52bは、分析対象データの欠損値の除去、及び分析対象データの穴埋めをする際に操作するボタンである。欠損値除去・穴埋めボタン52bを操作することで、任意の欠損値を除去したり、欠損した項目を追加することができる。データ置き換えボタン52cは、既存の値を別の値に置き換える際に操作するボタンである。例えば、「カテゴリ」列の「日配品A」のセルを選択してデータ置き換えボタン52cを押し、置き換え文字(値)として「日配品」と入力することで、同じ列の「日配品A」という値が「日配品」という値に自動的に置き換わる。列削除ボタン52dは、任意の列を削除する際に操作するボタンである。任意の列を選択した後、列削除ボタン52dを押すことで選択された列が削除される。列追加ボタン52eは任意の列を追加する際に操作するボタンである。表の任意の列を選択した後、列追加ボタン52eを押すことで選択された列の前後いずれかに列が追加される。数式入力ボタン52fは、セルに数式を入力するためのボタンである。数式入力ボタン52fの操作によって入力された数式によって演算された値になる。列情報表示ボタン52gは、任意の列に所定の情報を追加するためのボタンである。   The missing value removal / fill-in button 52b is a button operated when removing missing values from the analysis target data and filling in the analysis target data. By operating the missing value removal / fill-in button 52b, an arbitrary missing value can be removed or a missing item can be added. The data replacement button 52c is a button operated when replacing an existing value with another value. For example, by selecting the cell of “daily item A” in the “category” column, pressing the data replacement button 52c, and entering “daily item” as a replacement character (value), the “daily item” in the same column is displayed. The value "A" is automatically replaced with the value "daily delivery". The column delete button 52d is a button operated when deleting an arbitrary column. After selecting an arbitrary row, pressing the row delete button 52d deletes the selected row. The column addition button 52e is a button operated when adding an arbitrary column. After selecting an arbitrary column in the table, by pressing a column addition button 52e, a column is added before or after the selected column. The formula input button 52f is a button for inputting a formula into a cell. The value is calculated by the mathematical expression input by operating the mathematical expression input button 52f. The column information display button 52g is a button for adding predetermined information to an arbitrary column.

欠損値除去・穴埋めボタン52b、データ置き換えボタン52c、列削除ボタン52d、列追加ボタン52e、数式入力ボタン52f、列情報表示ボタン52gを操作して分析対象データを加工することができる。従って、データ分析装置1ではETL処理を行うことができ、ETL処理を行うことで分析対象データを分析により適した形に変形することができる。これにより、分析結果の精度をより一層高めることができる。一連の操作が終了したら、図9に示すデータ加工ユーザーインターフェース52の終了ボタン52hを押す。   The analysis target data can be processed by operating the missing value removal / fill-in button 52b, data replacement button 52c, column deletion button 52d, column addition button 52e, formula input button 52f, and column information display button 52g. Therefore, the data analyzer 1 can perform the ETL processing, and by performing the ETL processing, the data to be analyzed can be transformed into a form more suitable for analysis. Thereby, the accuracy of the analysis result can be further improved. When a series of operations is completed, an end button 52h of the data processing user interface 52 shown in FIG. 9 is pressed.

終了ボタン52hが押されると、図10に示すように、データフロー表示ユーザーインターフェース51が再び表示される。データフロー表示ユーザーインターフェース51のデータフロー表示領域51aには、新たなアイコン「transaction−1」が表示される。この「transaction−1」は、「transaction」を加工した後の分析対象データであり、「transaction−1」と「transaction」とが関連線によって結ばれており、関係性をグラフィカルに表示している。よって、使用者は、「transaction−1」が「transaction」の加工後データであること、及び「transaction−1」は加工処理が行われたものであることを直観的に把握できる。以上の一連のETL処理が図4に示すフローチャートのステップSB2のデータ加工処理である。   When the end button 52h is pressed, the data flow display user interface 51 is displayed again as shown in FIG. A new icon "transaction-1" is displayed in the data flow display area 51a of the data flow display user interface 51. The “transaction-1” is the data to be analyzed after processing the “transaction”, and the “transaction-1” and the “transaction” are connected by a related line, and the relationship is graphically displayed. . Therefore, the user can intuitively understand that “transaction-1” is the processed data of “transaction” and that “transaction-1” is the data that has been processed. The above series of ETL processing is the data processing processing in step SB2 of the flowchart shown in FIG.

一連のETL処理が終了すると、図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力するステップに進む。図10に示すデータフロー表示ユーザーインターフェース51の特徴量自動生成ボタン51cを押すと、図11に示す特徴量自動生成ユーザーインターフェース53をモニタ3に表示させるとともに、特徴量自動生成ユーザーインターフェース53上でなされた使用者の操作を受け付ける。   When a series of ETL processing is completed, the process proceeds to a step of inputting a setting relating to feature amount generation in step SB3 of the flowchart shown in FIG. When a feature amount automatic generation button 51c of the data flow display user interface 51 shown in FIG. 10 is pressed, the feature amount automatic generation user interface 53 shown in FIG. 11 is displayed on the monitor 3 and is performed on the feature amount automatic generation user interface 53. Accepts user operations.

特徴量自動生成ユーザーインターフェース53には、データフロー表示領域53aと、下部表示領域53bと、関係性指定領域53cと、目的変数指定領域53dと、詳細設定領域53eと、実行ボタン53fとが設けられている。データフロー表示領域53aは、例えば図10に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aと同様にデータフローが表示される。下部表示領域53bには、図7に示すデータフロー表示ユーザーインターフェース51の下部表示領域51bと同様に、分析対象データ同士の関係図が表示される。   The feature amount automatic generation user interface 53 is provided with a data flow display region 53a, a lower display region 53b, a relationship designation region 53c, a target variable designation region 53d, a detail setting region 53e, and an execution button 53f. ing. The data flow display area 53a displays a data flow, for example, in the same manner as the data flow display area 51a of the data flow display user interface 51 shown in FIG. In the lower display area 53b, similarly to the lower display area 51b of the data flow display user interface 51 shown in FIG. 7, a relationship diagram between the analysis target data is displayed.

図11に示す関係性指定領域53cは、複数の分析対象データ間での対応関係を指定するための領域である。ここでは、「transaction−1」と「master」との対応関係を指定する。一例として、上述したように「transaction−1」の「顧客ID」と「master」の「顧客ID」とが対応した関係にあるので、「transaction−1」の「顧客ID」と「master」の「顧客ID」とを対応関係として指定しているが、これに限らず、「transaction−1」の任意の列と、「master」の任意の列とが対応関係にあるとして指定することもでき、両者の名前が一致している必要はない。   The relationship designation area 53c shown in FIG. 11 is an area for designating the correspondence between a plurality of analysis target data. Here, the correspondence between “transaction-1” and “master” is specified. As an example, as described above, since the “customer ID” of “transaction-1” and the “customer ID” of “master” have a corresponding relationship, the “customer ID” of “transaction-1” and the “customer ID” of “master” Although the "customer ID" is specified as the correspondence, the present invention is not limited to this, and it is also possible to specify that any column of "transaction-1" and any column of "master" have a correspondence. , The names do not need to match.

関係性の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、関係図上でドラッグ操作して線を引くことで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。尚、データが1つしか無い場合には、分析対象データ間での対応関係は指定しない。   The relationship may be specified by selecting from a list of feature values, may be specified by dragging a line on the relationship diagram, or the name may be directly input. May be specified. If there is only one data, the correspondence between the analysis target data is not specified.

関係性指定領域53cの下部には、パーセント表示されている数値がある。この数値は、指定した列によって全体の何割の行が2つの分析対象データ間で対応しているのかを示している。例えば、図12に一例を示すように、第1分析対象データの「ID」列に「1」、「2」、「3」、「4」が1つずつ存在していて、第2分析対象データの「ID」列に「1」が3つ、「3」が1つ、「5」が1つ存在しているとすると、第1分析対象データの「1」が第2分析対象データの「1」にそれぞれ対応し、第1分析対象データの「3」が第2分析対象データの「3」に対応し、それ以外のIDは対応しないことになる。この場合、第1分析対象データでは50%(2/4行)、第2分析対象データでは80%(4/5行)が「ID」列で対応していることになり、全体としては6/9行、つまり、約67%で対応しているということになる。このような計算を行い、計算結果を関係性指定領域53cの下部に表示する。   Below the relationship designation area 53c, there are numerical values displayed in percentage. This numerical value indicates what percentage of the rows correspond to the two data to be analyzed by the designated column. For example, as shown in FIG. 12, one “1”, “2”, “3”, and “4” exist in the “ID” column of the first analysis target data, and the second analysis target data Assuming that there are three “1”, one “3”, and one “5” in the “ID” column of the data, “1” of the first data to be analyzed becomes “1” of the second data to be analyzed. Each corresponds to "1", "3" of the first analysis target data corresponds to "3" of the second analysis target data, and the other IDs do not correspond. In this case, 50% (2/4 rows) correspond to the first analysis target data and 80% (4/5 rows) correspond to the second analysis target data in the “ID” column, and the total is 6%. / 9 rows, that is, about 67% correspond. Such a calculation is performed, and the calculation result is displayed below the relationship designation area 53c.

目的変数指定領域53dは、分析対象となる目的変数を指定するための領域である。目的変数を指定することで、集約先のテーブルを決定することができる。ここでは顧客が離反するかどうかを分析するため、「master」の「離反」列を目的変数として指定している。従って、「transaction−1」の特徴量を集約し、「master」の新たな特徴量として加えることができる。目的変数の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、リストからドラッグ操作することで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。また、データ分析装置1は、目的変数が指定されると、目標変数として指定されたことを表すフラグを内部に設定する。このフラグを設定することで、後述する特徴量を目的変数自身から生成しないようにしている。   The target variable specifying area 53d is an area for specifying a target variable to be analyzed. By specifying the target variable, the table of the aggregation destination can be determined. Here, in order to analyze whether or not the customer has left, the “turn off” column of “master” is designated as the objective variable. Therefore, the feature amounts of “transaction-1” can be aggregated and added as a new feature amount of “master”. The target variable may be specified by selecting from a list of feature values, may be specified by dragging from the list, or may be specified by directly inputting a name. Is also good. When the target variable is specified, the data analyzer 1 sets a flag indicating that the target variable is specified as the target variable. By setting this flag, a feature amount described later is not generated from the target variable itself.

以上の一連の処理が図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力する処理である。   The series of processes described above is a process of inputting the settings related to the generation of the feature amount in step SB3 of the flowchart shown in FIG.

続くステップSB4では、特徴量を生成する処理を実行する。この処理は、特徴量自動生成ユーザーインターフェース53の実行ボタン53fを押すことで開始される。   In a succeeding step SB4, a process of generating a feature amount is executed. This process is started by pressing an execution button 53f of the feature amount automatic generation user interface 53.

すなわち、ステップSB1、2で複数の分析対象データを指定し、ステップSB3で複数の分析対象データ関係性を指定した場合の特徴量の生成方法としては、例えば、AJ Knobbe, "Propositionalisation and Aggregates", 2001 に記載されている技術を使うことができる。図13に示す例は、「transaction」の「価格」の列について合計を計算し、「master」の特徴量として加える場合である。「transaction」の「顧客ID」が「1」の購買履歴を抽出し、「価格」の値を合計して購入金額の合計値を得る。「master」には、「合計の購入金額」の列を生成し、「顧客ID」が「1」の「合計の購入金額」の列に合計値を自動入力する。これは、「master」と「transaction」の間の行の対応関係が「顧客ID」列によって紐づけられていることから可能になる。   That is, when a plurality of data to be analyzed is specified in steps SB1 and SB2 and a plurality of data relationships to be analyzed are specified in step SB3, for example, a method of generating a feature amount includes, for example, AJ Knobbe, "Propositionalisation and Aggregates", The techniques described in 2001 can be used. The example shown in FIG. 13 is a case where the sum is calculated for the column of “price” of “transaction” and is added as a feature amount of “master”. The purchase history in which the "customer ID" of "transaction" is "1" is extracted, and the value of "price" is totaled to obtain the total value of the purchase amount. For “master”, a column of “total purchase price” is generated, and the total value is automatically input to the “total purchase price” column of “customer ID” of “1”. This is possible because the correspondence between the rows between “master” and “transaction” is linked by the “customer ID” column.

集約する行は、例えば日付を表す行との組み合わせに基づいて決定してもよい。例えば、図14に示すように、「transaction」の「顧客ID」が「1」の購買履歴を抽出し、2018年2月1日を起点として直近10日以内の「価格」の値を合計する。「master」には、「直近10日以内の購入金額」の列を生成し、「顧客ID」が「1」の「直近10日以内の購入金額」の列に、直近10日以内の「価格」の合計値を自動入力する。全ての顧客IDについて同様な処理を行うことができる。   The rows to be aggregated may be determined based on, for example, a combination with a row representing a date. For example, as shown in FIG. 14, the purchase history in which the “customer ID” of “transaction” is “1” is extracted, and the values of “price” within the last 10 days starting from February 1, 2018 are summed up. . For “master”, a column of “purchase amount within the last 10 days” is generated, and “customer ID” is “1”, and a column of “purchase amount within the last 10 days” is displayed in the column of “price within the last 10 days”. Is automatically entered. Similar processing can be performed for all customer IDs.

分析対象データが時系列データの場合、このように集計期間を、例えば10日、20日、30日と切り替えることができるように構成されている。集計期間を切り替えることで、同一の集約関数であっても様々な種類の特徴量を生成することができる。期間の単位は、秒、分、時、月、年のいずれであってもよい。例えば、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成することもできる。分析対象データの全集計期間が30日間の場合、0〜10日、11日〜20日、21日〜30日のように分割することができる。この集計期間の分割は、後述する派生図生成部16bが派生図を生成する際に行うように構成できる。   When the analysis target data is time-series data, the aggregation period can be switched to, for example, 10, 20, or 30 days. By switching the aggregation period, various types of feature amounts can be generated even with the same aggregation function. The unit of the period may be any of seconds, minutes, hours, months, and years. For example, it is also possible to adopt a configuration in which the total period of the analysis target data is acquired, and the acquired total period is automatically divided into a plurality of total periods. When the total period of the analysis target data is 30 days, the data can be divided into 0 to 10 days, 11 to 20 days, and 21 to 30 days. This division of the counting period can be configured to be performed when a later-described derived diagram generation unit 16b generates a derived diagram.

特徴量を生成した後、目的変数の予測に対する重要度を、各特徴量に対して評価する。目的変数の予測は、図2に示す予測モデル生成部13によって実行される。これが予測モデル生成ステップである。予測モデル生成部13は、複数の特徴量から目的変数を予測するための予測モデルを生成する。予測モデルは、例えば重回帰分析や決定木によって作ることができる。その生成手法については様々あるが、いずれも従来から知られた手法を用いることができる。   After generating the feature, the importance of the prediction of the objective variable is evaluated for each feature. The prediction of the objective variable is executed by the prediction model generation unit 13 shown in FIG. This is the prediction model generation step. The prediction model generation unit 13 generates a prediction model for predicting a target variable from a plurality of feature amounts. The prediction model can be created by, for example, multiple regression analysis or a decision tree. There are various generation methods, and in each case, a conventionally known method can be used.

予測モデルを生成した後、複数の特徴量それぞれに対して予測モデルによる予測に対する重要度を算出する。これは図2に示す重要度算出部14によって実行される処理であり、重要度算出ステップである。特徴量の重要度はFeature Importanceという名前で知られており、種々の計算方法が提案されており、いずれの計算方法を用いてもよい。例えば、以下の式(1)で表される線形重回帰モデルにおいて、各特徴量x1,x2,…に対する係数a1,a2,…を求め、その絶対値を重要度の値として使ってもよい。   After generating the prediction model, the importance for prediction by the prediction model is calculated for each of the plurality of feature amounts. This is a process executed by the importance calculation section 14 shown in FIG. 2, and is a importance calculation step. The importance of the feature is known as Feature Importance, and various calculation methods have been proposed, and any of the calculation methods may be used. For example, in the linear multiple regression model represented by the following equation (1), coefficients a1, a2,... For each feature x1, x2,... May be obtained, and the absolute values thereof may be used as importance values.

y=a1x1+a2x2+…+anxn ・・・(1)
あるいは、係数をそのまま使うのではなく、各特徴量x1,x2,…の大きさが揃うように補正した正規化係数を重要度に用いてもよい。
y = a1x1 + a2x2 +... + anxn (1)
Alternatively, instead of using the coefficient as it is, a normalized coefficient corrected so that the magnitudes of the feature amounts x1, x2,.

このような重要度の分析を行った後、重要度が上位のものを制御ユニット10が抽出する。このとき、先ほどの集計期間が異なる特徴量については、複数の特徴量が重要度の上位に入る場合でも、最も重要なものだけを残して他は削除する。これは、例えば「直近30日の購入金額」、「直近20日の購入金額」、「直近10日の購入金額」が同時に特徴量の上位に入った場合、それを使用者にそのまま提示すると、ほぼ同じ意味を持った特徴量が重複して表示されることになるため使用者にとって分かりにくくなる。また、上位を、同じ意味を持った特徴量が占めてしまうと、それ以外の有効な特徴量が上位から追い出されてしまうことになり、有効な知見が得られにくくなるからである。   After performing such an analysis of the importance, the control unit 10 extracts the one with the higher importance. At this time, with respect to the feature amounts having different aggregation periods, even if a plurality of feature amounts are ranked higher in importance, the others except for the most important one are deleted. This is because, for example, if the “purchase amount for the last 30 days”, “the purchase amount for the last 20 days”, and the “purchase amount for the last 10 days” are at the top of the feature amount at the same time, if it is presented to the user as it is, Since feature values having substantially the same meaning are displayed repeatedly, it is difficult for the user to understand. In addition, if a feature having the same meaning occupies the upper position, other effective features are expelled from the upper position, and it is difficult to obtain effective knowledge.

「上位」に入る数としては、例えば2以上、5以上、10以上、20以上とすることができる。「上位」に入る数は、制御ユニット10が自動的に設定してもよいし、使用者が任意の数に設定してもよい。   The number in the “higher” may be, for example, 2 or more, 5 or more, 10 or more, or 20 or more. The number in the “upper rank” may be set automatically by the control unit 10 or may be set to an arbitrary number by the user.

以上の一連の処理が図4に示すフローチャートのステップSB4の特徴量の生成処理である。特徴量の生成が完了するとステップSB5に進む。ステップSB5は、ステップSB4で生成した特徴量の情報を出力するステップである。   The above-described series of processes is the feature amount generation process in step SB4 of the flowchart shown in FIG. When the generation of the feature amount is completed, the process proceeds to Step SB5. Step SB5 is a step of outputting information of the feature amount generated in step SB4.

特徴量の生成が完了して上位の特徴量が抽出されると、図15に示す特徴量表示ユーザーインターフェース60をモニタ3に表示させるとともに、特徴量表示ユーザーインターフェース60上でなされた使用者の操作を受け付ける。   When the generation of the feature amount is completed and the upper-level feature amount is extracted, the feature amount display user interface 60 shown in FIG. 15 is displayed on the monitor 3 and the user operation performed on the feature amount display user interface 60 is performed. Accept.

特徴量表示ユーザーインターフェース60には、特徴量表示領域60aと、詳細情報表示領域60bとが設けられている。特徴量表示領域60aと詳細情報表示領域60bとはモニタ3の左右に並ぶように配置することができる。特徴量表示領域60aには、上位の特徴量が表示される。つまり、モニタ5は、重要度算出部14により算出された重要度に基づき、上位の重要度を有する特徴量を表示するものである。このステップが特徴量表示ステップである。   The feature amount display user interface 60 is provided with a feature amount display area 60a and a detailed information display area 60b. The feature amount display area 60a and the detailed information display area 60b can be arranged so as to be arranged on the left and right sides of the monitor 3. In the feature amount display area 60a, higher-order feature amounts are displayed. That is, the monitor 5 displays a feature amount having a higher importance based on the importance calculated by the importance calculator 14. This step is a feature amount display step.

モニタ5は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示する、すなわち、ランキング表示するように構成されている。この例では、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されており、最上位の重要度を有する特徴量が最も上に位置し、最上位の重要度未満の複数の特徴量は、重要度の大きさによって降順に配置される。特徴量は、昇順に配置してもよいし、左右方向に並ぶように配置してもよい。特徴量表示領域60aに表示する特徴量は所定数であればよく、その数は特に限定されない。   The monitor 5 is configured to arrange and display a plurality of feature values having higher importance levels in descending order of importance, that is, to perform a ranking display. In this example, the feature value having the highest importance and a plurality of feature values less than the highest importance are simultaneously displayed, and the feature value having the highest importance is displayed at the top. , And a plurality of feature amounts less than the highest importance are arranged in descending order according to the magnitude of the importance. The feature amounts may be arranged in ascending order or may be arranged so as to be arranged in the left-right direction. The feature amount displayed in the feature amount display area 60a may be a predetermined number, and the number is not particularly limited.

特徴量表示領域60aには、特徴量の名称が表示される名称表示部60cと、重要度が表示される重要度表示部60dとが設けられている。名称表示部60cには、「transaction」、「master」に存在していた特徴量の名称が表示されるようになっている。「transaction」、「master」に存在していた特徴量の名称はそのまま名称表示部60cに表示することができるが、使用者が変更できるようにしてもよい。   The feature amount display area 60a is provided with a name display unit 60c for displaying the name of the feature amount and an importance display unit 60d for displaying the importance. The name of the feature amount existing in “transaction” and “master” is displayed on the name display unit 60c. The names of the feature amounts that existed in “transaction” and “master” can be displayed as they are on the name display unit 60c, but may be changed by the user.

重要度表示部60dには、棒グラフ形式で各特徴量の横に並ぶように、重要度が表示される。棒グラフ形式で表示する場合、長ければ長いほど重要度が高いとすることができる。重要度表示部60dには、各種グラフ形式以外にも重量度を数値で表示してもよいし、数値とグラフとを同時に表示してもよい。   The importance level is displayed in the importance level display section 60d so as to be arranged next to each feature amount in a bar graph format. In the case of displaying in a bar graph format, the longer the value, the higher the importance. The importance degree display unit 60d may display the weight in numerical values other than the various graph formats, or may display the numerical values and the graph at the same time.

特徴量表示領域60aには、特徴量追加ボタン60fが設けられている。特徴量追加ボタン60fを押すと、特徴量表示領域60aに表示されている以外の特徴量が表示され、表示された特徴量の中から使用者が特徴量表示領域60aに表示したい特徴量を選択することができるようになっている。選択された特徴量は、特徴量表示領域60aに表示される。尚、特徴量表示領域60aに表示されている特徴量で不要だと思われる特徴量を削除する、非表示にする等も可能に構成されている。   A feature amount addition button 60f is provided in the feature amount display area 60a. When a feature amount addition button 60f is pressed, feature amounts other than those displayed in the feature amount display area 60a are displayed, and the user selects a feature amount desired to be displayed in the feature amount display area 60a from the displayed feature amounts. You can do it. The selected feature amount is displayed in the feature amount display area 60a. It should be noted that it is also possible to delete or hide a feature that is considered unnecessary in the feature displayed in the feature display area 60a.

(制御ユニット10の詳細動作)
図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量は使用者によって選択することができる。マウス5等を使用して、どの特徴量を選択するか使用者が入力操作を行うと、図16に示すように、特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第1基本図70が表示される。第1基本図70は、図2に示す表示図生成部16の基本図生成部16aが生成する。この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成する部分である。第1の特徴量とは、上記使用者が選択した特徴量のことであり、図16に示す例では、「直近30日の総来店日数」である。使用者が選択した特徴量は強調表示されて他の特徴量との識別が容易になっている。また、第1基本図70は、使用者の入力に応じて選択された特徴量の値に基づいて分析対象データを複数のクラスターに分割しており、各クラスターと、各クラスターの目的変数の代表値との関係を示す図となっている。
(Detailed operation of control unit 10)
The feature displayed on the feature display area 60a of the feature display user interface 60 shown in FIG. 15 can be selected by the user. When the user performs an input operation to select which feature amount using the mouse 5 or the like, the first basic diagram 70 is displayed in the detailed information display area 60b of the feature amount display user interface 60 as shown in FIG. Is displayed. The first basic diagram 70 is generated by the basic diagram generator 16a of the display diagram generator 16 shown in FIG. This process is a basic diagram generation step. In other words, the basic diagram generation unit 16a generates a basic diagram indicating the relationship between the first characteristic amount selected from the characteristic amounts displayed on the monitor 3 in accordance with the user's input and the objective variable. It is. The first feature amount is a feature amount selected by the user, and in the example illustrated in FIG. 16, is the “total number of visiting days in the last 30 days”. The feature quantity selected by the user is highlighted so that it can be easily distinguished from other feature quantities. Also, the first basic diagram 70 divides the analysis target data into a plurality of clusters based on the value of the feature amount selected according to the input of the user, and represents each cluster and a representative of the objective variable of each cluster. It is a diagram showing a relationship with a value.

以下、第1基本図70について詳細に説明する。第1基本図70は、上側領域71と、中間領域72と、下側領域73の3つの領域に分けることができる。上側領域71には、縦軸を離反の割合とし、横軸を直近30日の総来店日数とした折れ線グラフが表示される。離反の割合とは、一度来店したが、その後、来店しなくなった顧客の割合である。横軸では、0日〜30日までを6つの期間(区間)に分割して表示している。折れ線グラフでは、選択した特徴量と、目的変数(離反)との関係性が表示されている。   Hereinafter, the first basic diagram 70 will be described in detail. The first basic diagram 70 can be divided into three regions: an upper region 71, an intermediate region 72, and a lower region 73. In the upper area 71, a line graph is displayed in which the vertical axis represents the rate of separation, and the horizontal axis represents the total number of visiting days of the last 30 days. The ratio of abandonment is the ratio of customers who have visited the store once, but have stopped visiting the store after that. On the horizontal axis, days 0 to 30 are divided into six periods (sections) and displayed. In the line graph, the relationship between the selected feature amount and the objective variable (separation) is displayed.

中間領域72には、縦軸をデータ数とし、横軸を直近30日の総来店日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域71に表示されている折れ線グラフの横軸と共有されている。この棒グラフでは、各区間に存在するデータの数が表現されており、度数分布表となっている。すなわち、制御ユニット10は、第1の特徴量の値に基づいて分析対象データを複数の期間に分割してクラスターを形成し、各クラスターに属する分析対象データの数を示すデータ数表示グラフを生成するように構成されている。そして、モニタ3は、生成されたデータ数表示グラフを表示可能に構成されている。   In the intermediate area 72, a bar graph is displayed in which the vertical axis represents the number of data and the horizontal axis represents the total number of days of visits to the store for the last 30 days. The horizontal axis of this bar graph is shared with the horizontal axis of the line graph displayed in the upper area 71. In this bar graph, the number of data present in each section is expressed, and a frequency distribution table is provided. That is, the control unit 10 divides the analysis target data into a plurality of periods based on the value of the first feature amount to form clusters, and generates a data number display graph indicating the number of analysis target data belonging to each cluster. It is configured to be. The monitor 3 is configured to be able to display the generated data number display graph.

上側領域71の折れ線グラフと、中間領域72の棒グラフとから、「直近30日の総来店日数が多いほど、離反=1のデータの割合が低下する」、「総来店日数が21日〜25日の場合に離反=1の割合が最小となるが、該当するデータ数は少ない」といった傾向を読み取ることができる。   From the line graph in the upper area 71 and the bar graph in the intermediate area 72, "the more the total number of days of visits in the last 30 days, the lower the ratio of data of churn = 1", "the number of days of total visits from 21 to 25 days" In this case, the ratio of separation = 1 is the minimum, but the number of applicable data is small. "

さらに、制御ユニット10は、離反=1の割合の平均値を算出する。平均値は全データの平均値とすることができ、この例では21%である。さらに、全体の平均値(21%)と比べて、目的変数の平均値に有意差があると判定された区間では、系列が強調表示され、さらに説明文がグラフ下部、すなわち、下側領域73に付加される。   Further, the control unit 10 calculates an average value of the ratio of separation = 1. The average value can be the average value of all data, and is 21% in this example. Further, in a section where it is determined that there is a significant difference in the average value of the objective variable compared to the overall average value (21%), the series is highlighted, and the explanatory note is displayed at the bottom of the graph, that is, in the lower area 73. Is added to

有意差が無い場合には強調表示はされない。「有意差が無い」とは、データのバラつきやデータの数などを考慮した上で、その区間の代表値が比較対象の区間の代表値に対して十分な差を持っていると言えない場合のことを指す。また、強調表示とは、例えば、文字を太くする、文字の色の他の文字の色と変える、文字の背景に色を付ける等、他の文字と区別することができる表示である。   If there is no significant difference, no highlight is displayed. "No significant difference" means that the representative value of the section does not have a sufficient difference from the representative value of the section to be compared, taking into account the data variation and the number of data. Refers to. The highlighted display is a display that can be distinguished from other characters, for example, by making the character thicker, changing the character color from another character color, or adding a color to the background of the character.

説明文は、選択された第1の特徴量と目的変数との関係を説明する文であり、図2に示す説明文自動生成部18によって自動的に生成される。説明文自動生成部18は、例えば、データ入力部12で受け付けた分析対象データの名称や、特徴量の名称、特徴量の相対差、データ数等に基づいて、選択された第1の特徴量が目的変数に与える影響の度合い等を説明する文を生成することができる。これにより、使用者が特徴量と目的変数との関係を把握し易くなるとともに、使用者がコメントを作成する手間を省くことができる。   The explanatory sentence is a sentence that explains the relationship between the selected first feature amount and the objective variable, and is automatically generated by the automatic explanatory sentence generating unit 18 shown in FIG. The explanatory sentence automatic generation unit 18 selects the first feature amount based on, for example, the name of the analysis target data received by the data input unit 12, the name of the feature amount, the relative difference between the feature amounts, the number of data, and the like. Can be generated to explain the degree of influence of the. This makes it easier for the user to grasp the relationship between the feature value and the target variable, and saves the user from having to create a comment.

ここで、有意差の判定について説明する。有意差の判定には、統計で一般に使用されるp値やt検定といった指標を使うことができる。例えばt検定は以下の式1で計算される。x,sは注目する系列での目的値の平均と標準偏差、μは目的値の全体平均、nは系列のデータ数である。この値が大きいほど、差が有意であると判定できる。   Here, the determination of the significant difference will be described. An index such as a p-value or a t-test commonly used in statistics can be used to determine a significant difference. For example, the t test is calculated by the following equation 1. x and s are the average and standard deviation of the target values in the series of interest, μ is the overall average of the target values, and n is the number of data in the series. The greater this value is, the more significant the difference can be determined.

これらの指標を使うことで、単純に全体平均からの乖離の度合を見るだけでなく、データの量や個々のデータのバラつきを加味することができるので、偶然大きな乖離が生じているのか、意味のある差が生じているのかを区別することができる。   By using these indices, it is possible to not only simply look at the degree of deviation from the overall average, but also take into account the amount of data and the variability of individual data. It can be distinguished whether a certain difference occurs.

この統計検定を用いた強調表示によって、使用者はデータから真に意味のある場所に着目することができ、自動生成された特徴量から素早く有用な知見を得ることができる。   By highlighting using this statistical test, the user can pay attention to a truly significant place from the data, and can quickly obtain useful knowledge from the automatically generated feature amount.

上側領域71に表示されたグラフの中から任意の区間を選択すると、図17に示すように詳細メニュー74が表示される。詳細メニュー74は、選択した区間に含まれるデータと、全体の傾向とを比較するためのメニューであり、メニュー選択に応じてさらに詳細な情報を表示することができる。詳細メニュー74には、「値の平均値を比較」、「特徴量の寄与度を比較」及び「差分の説明を計算」の3つのメニューが含まれている。   When an arbitrary section is selected from the graph displayed in the upper area 71, a detailed menu 74 is displayed as shown in FIG. The detailed menu 74 is a menu for comparing data included in the selected section with the overall tendency, and can display more detailed information according to the menu selection. The detailed menu 74 includes three menus: “compare the average value”, “compare the contributions of the feature amounts”, and “calculate the description of the difference”.

図17に示すように、例えば、「直近30日の総来店日数〜5日」の区間に対して、「値の平均値を比較」というメニューを選択すると、図18に示すように、選択した区間のデータと全データのそれぞれについて、各特徴量の平均値を比較した比較表75が表示される。   As shown in FIG. 17, for example, when the menu “Compare the average value” is selected for the section “Total number of visits to the last 30 days to 5 days”, as shown in FIG. A comparison table 75 in which the average value of each feature amount is compared for each of the data of the section and all the data is displayed.

詳しくは、使用者が図16に示す第1基本図70に示された複数のクラスターから、いずれか1つのクラスターを選択する操作(クリック操作等)を行うと、この操作が図2に示すクラスター選択部15によって受け付けられる。この処理がクラスター選択ステップである。図2に示す比較図生成部16cは、クラスター選択部15により選択が受け付けられた後、選択されたクラスターにおいて、目的変数の予測に寄与する特徴量と、全クラスターまたはクラスター選択部15により選択されていない選択外のクラスターにおいて、目的変数の予測に寄与する特徴量との比較を示す比較表75(図18に示す)を生成する。この処理が比較図生成ステップである。   Specifically, when the user performs an operation (click operation or the like) of selecting one of the plurality of clusters shown in the first basic diagram 70 shown in FIG. Accepted by the selector 15. This process is a cluster selection step. After the selection is received by the cluster selection unit 15, the comparison diagram generation unit 16 c illustrated in FIG. 2 selects the feature amount that contributes to the prediction of the objective variable in the selected cluster, and selects all the clusters or the cluster selection unit 15. A comparison table 75 (shown in FIG. 18) is generated, which shows a comparison with a feature value that contributes to the prediction of the objective variable in the unselected clusters that have not been selected. This process is a comparison diagram generation step.

詳細は後述するが、比較図生成部16cは、クラスター選択部15により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す比較図を生成するように構成することもできる。また、比較図生成部16cは、上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す比較図を生成するように構成することもできる。さらに、比較図生成部16cは、分析対象データの値が存在していない欠損クラスターにおいて、目的変数の予測に寄与する特徴量を示す比較図を生成するように構成することもできる。   Although the details will be described later, the comparison diagram generation unit 16c may be configured to generate a comparison diagram indicating a feature amount whose contribution degree is significantly high only in the cluster selected by the cluster selection unit 15. Further, the comparison diagram generation unit 16c may be configured to generate a comparison diagram indicating a feature amount that is not selected by the user among feature amounts having higher importance. Further, the comparison diagram generation unit 16c may be configured to generate a comparison diagram indicating a feature amount contributing to the prediction of the objective variable in the missing cluster in which the value of the analysis target data does not exist.

比較表75は、比較図であり、表形式以外にもグラフを表示した比較図であってもよい。そして、モニタ3は、第1基本図70と比較表75と同時または別々に表示可能に構成されており、第1基本図70と、比較表75とを同時または別々に表示する比較図表示ステップを実行することができる。   The comparison table 75 is a comparison diagram, and may be a comparison diagram displaying a graph in addition to the table format. The monitor 3 is configured to be able to display the first basic diagram 70 and the comparison table 75 simultaneously or separately, and to display the first basic diagram 70 and the comparison table 75 simultaneously or separately. Can be performed.

比較表75には、重要度が高くないものを含む全ての特徴量の中から、平均値の乖離が有意に大きいものだけを表示している。ここでの有意性の判定にも、先ほどと同様にp値やt検定を使うことができる。   In the comparison table 75, only the feature amount having a significantly large difference from the average value is displayed from among all the feature amounts including the ones having low importance. The p-value and the t-test can be used for the determination of the significance here as well.

比較表75に表示する特徴量を使用者が選択可能に構成することもできる。比較表75の下部には、特徴量追加ボタン75aが設けられている。特徴量追加ボタン75aを押すと、任意の特徴量を比較軸として追加することができる。比較表75に表示する特徴量を使用者が削除可能に構成することもできる。   The feature amount displayed in the comparison table 75 may be configured to be selectable by the user. In the lower part of the comparison table 75, a feature amount addition button 75a is provided. When the feature amount addition button 75a is pressed, an arbitrary feature amount can be added as a comparison axis. The feature amount displayed in the comparison table 75 may be configured so that the user can delete it.

この例では比較表75に平均値を表示しているが、例えば、分散、中央値、最小値など、平均値以外の統計量を表示してもよい。   In this example, the average value is displayed in the comparison table 75. However, for example, a statistic other than the average value such as a variance, a median value, and a minimum value may be displayed.

これによって、ある特徴量を切り口として興味深いデータ群(本例なら離反率が高い顧客群)が見つかったときに、そのデータ群に固有の性質が何なのかを詳細に掘り下げることができ、その結果、新たな知見を得ることができる。   As a result, when an interesting data group (in this example, a group of customers with a high regression rate) is found using a certain feature as a starting point, it is possible to dig into the details of the unique properties of the data group, and as a result And new knowledge can be obtained.

さらに、比較や分析の軸となる特徴量は自動的に生成されているため、例えば「直近30日の総来店日数が少ない顧客では、野菜と日配品の購入額が特に小さい」といった、熟練の分析者でなければ気づきにくい、深い知見を容易に得ることができる。   Furthermore, since the feature quantity serving as the axis of comparison and analysis is automatically generated, for example, a skill such as "customers who have a small number of total visits in the last 30 days have a particularly small purchase price of vegetables and daily items" It is possible to easily obtain deep knowledge that is difficult to notice unless the analyst is an analyst.

また、特徴量を選択した際に表示されるグラフは、目的変数との関係に加えて、それ以外のグラフを1つ以上含んでいてもよい。例えば、「直近30日の総来店日数」を指定した場合に、図19に示すように、2つ目のグラフとして「30日以外の期間で集計した場合との精度の比較」に関する予測精度比較グラフ76を表示することができる。予測精度比較グラフ76は、図18に示す第1基本図70の下に位置しており、従って第1基本図70が詳細情報表示領域60bに表示された状態から縦スクロールバー60eを操作して下スクロールすることで、予測精度比較グラフ76を表示することができる。第1基本図70と予測精度比較グラフ76とは同時に表示できるようにしてもよい。以上のようにして、第1基本図70と予測精度比較グラフ76とを同時にまたは別々に表示する派生図表示ステップを実行することができる。   Further, the graph displayed when the feature value is selected may include one or more other graphs in addition to the relationship with the objective variable. For example, when “Total number of days visited in the last 30 days” is specified, as shown in FIG. 19, the prediction accuracy comparison regarding “Comparison of accuracy with the case of totaling in periods other than 30 days” as a second graph A graph 76 can be displayed. The prediction accuracy comparison graph 76 is located below the first basic diagram 70 shown in FIG. 18, and therefore, from the state where the first basic diagram 70 is displayed in the detailed information display area 60b, the vertical scroll bar 60e is operated. By scrolling down, the prediction accuracy comparison graph 76 can be displayed. The first basic diagram 70 and the prediction accuracy comparison graph 76 may be displayed simultaneously. As described above, it is possible to execute the derived figure display step of simultaneously or separately displaying the first basic diagram 70 and the prediction accuracy comparison graph 76.

図19に示す予測精度比較グラフ76は、第3の派生図と呼ぶこともできる。第3の派生図は、第1の特徴量(本例では「直近30日の総来店日数」)に基づいて生成された予測モデルの精度と、第1の特徴量と同一カテゴリーに属し、且つ第1の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す図である。「集計期間が異なる」ことは、予測精度比較グラフ76の横軸に示しており、具体的には「10日」、「20日」、…という表示である。この第3の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。これら直近10日の総来店日数、直近20日の総来店日数、直近30日の総来店日数は、「総来店日数」という同一のカテゴリーに属する。   The prediction accuracy comparison graph 76 shown in FIG. 19 can also be called a third derivative diagram. The third derivative figure shows the accuracy of the prediction model generated based on the first feature amount (in this example, “the total number of days visited in the last 30 days”), belongs to the same category as the first feature amount, and FIG. 9 is a diagram illustrating a comparison between the first feature amount and the accuracy of a prediction model generated based on another feature amount having a different aggregation period. The fact that "the aggregation periods are different" is shown on the horizontal axis of the prediction accuracy comparison graph 76, and is specifically displayed as "10 days", "20 days", .... This third derivative drawing is generated by the derivative drawing generator 16b shown in FIG. This process is a derived diagram generation step. The total number of visiting days of the last 10 days, the total number of visiting days of the last 20 days, and the total number of visiting days of the last 30 days belong to the same category of “total number of visiting days”.

派生図生成部16bが第3の派生図を生成する場合には、第1の特徴量と同一カテゴリーに属し、集計期間が異なる別の特徴量に基づいて予測された予測モデルの精度を、第1の特徴量に基づいて生成された予測モデルの精度と比較することができる。これにより、使用者が各予測モデルの精度の相対差を把握した上で、どの予測モデルを使用して分析を行えば精度が高まるか、容易に判断可能になる。   When the derivative drawing generation unit 16b generates the third derivative drawing, the accuracy of the prediction model predicted based on another feature amount belonging to the same category as the first feature amount and having a different aggregation period is calculated. 1 can be compared with the accuracy of the prediction model generated based on the feature amount. This makes it possible for the user to easily determine which prediction model should be used to improve the accuracy after understanding the relative difference in accuracy between the prediction models.

また、派生図生成部16bは、第3の派生図の生成時に、複数の別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能に表現する図を生成する。さらに、派生図生成部16bは、第3の派生図の生成時に、別の特徴量として、所定以上の重要度を有する特徴量に基づいて生成された予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能にする図を生成する。具体的には、グラフであるが、その他にも数値で比較可能な図であってもよい。   Further, when generating the third derived diagram, the derived diagram generating unit 16b calculates the accuracy of each prediction model generated based on a plurality of different feature amounts and the prediction generated based on the first feature amount. Generate a diagram that expresses the accuracy of the model in a comparable manner. Further, when generating the third derived diagram, the derived diagram generating unit 16b determines, as another feature, the accuracy of the prediction model generated based on the feature having a predetermined importance or more, and the first feature. Generating a diagram that allows comparison with the accuracy of the prediction model generated based on. Specifically, it is a graph, but may be a diagram that can be compared with other numerical values.

例えば時間や日数で集計される特徴量については、上述したように、集計期間が異なる特徴量を複数パターン生成し、その中で最適なものを1つ自動的に選択するように構成されている。図19では、選択されなかった集計期間との精度差を相対値で提示することで、「別の集計期間での総来店日数を特徴量として使うとどうなっていたか」を示すことができる。   For example, as described above, a plurality of patterns of feature amounts having different count periods are generated for feature amounts that are totaled by time or number of days, and an optimal one is automatically selected from among them. . In FIG. 19, by presenting the difference in accuracy from the unselected tally period as a relative value, it is possible to indicate "what would have happened if the total number of days visited in another tally period was used as the feature amount".

精度としては、データ分析で一般的に使用されるF値、AUCなどを使う。精度は絶対値でもよく、処理時間やデータ量など、精度以外の観点を組み合わせた指標でもよい。これによって、「なぜ20日でも40日でもなく、30日の総来店日数が出力されたのか?」と考えるユーザーに対して、より納得感を持たせることができる。また、「精度があまり変わらないのであれば集計するデータ量をなるべく少なくしたい」という要望に対して、データ量の影響度合いを提示することで判断基準を提供できる。   As the accuracy, an F value, AUC, or the like generally used in data analysis is used. The accuracy may be an absolute value, or may be an index combining viewpoints other than accuracy, such as processing time and data amount. As a result, the user who thinks, "Why was the total number of visiting days of 30 days, not 20 days or 40 days, output?" Further, in response to a request that “if the accuracy does not change much, it is desirable to reduce the amount of data to be aggregated as much as possible”, a determination criterion can be provided by presenting the degree of influence of the amount of data.

図20は、特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量のうち、「最終来店日からの経過日数」を選択した場合を示している。特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第2基本図77が表示される。第2基本図77は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成しており、第1の特徴量とは、図20に示す例では、「最終来店日からの経過日数」である。   FIG. 20 shows a case where “the number of days elapsed since the last visit to the store” is selected from the feature amounts displayed in the feature amount display area 60 a of the feature amount display user interface 60. A second basic diagram 77 is displayed in the detailed information display area 60b of the feature amount display user interface 60. The second basic diagram 77 is generated by the basic diagram generator 16a of the display diagram generator 16 shown in FIG. 2, and this process is a basic diagram generation step. That is, the basic diagram generation unit 16a generates a basic diagram showing the relationship between the first characteristic amount selected from the characteristic amounts displayed on the monitor 3 according to the user's input and the objective variable. In the example shown in FIG. 20, the first feature amount is “the number of days elapsed since the last visit to the store”.

第2基本図77は、上側領域77aと、中間領域77bと、下側領域77cの3つの領域に分けることができる。上側領域77aには、縦軸を離反の割合とし、横軸を最終来店日からの経過日数とした折れ線グラフが表示される。横軸では、0日〜30日までを6つの期間(区間)に分割して表示している。   The second basic diagram 77 can be divided into three regions: an upper region 77a, an intermediate region 77b, and a lower region 77c. In the upper area 77a, a line graph is displayed in which the vertical axis represents the separation rate and the horizontal axis represents the number of days elapsed since the last visit to the store. On the horizontal axis, days 0 to 30 are divided into six periods (sections) and displayed.

中間領域77bには、縦軸をデータ数とし、横軸を最終来店日からの経過日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域77aに表示されている折れ線グラフの横軸と共有されている。また、下側領域77cには、説明文自動生成部18で自動生成された説明文が表示される。   In the intermediate area 77b, a bar graph is displayed in which the vertical axis represents the number of data and the horizontal axis represents the number of days elapsed since the last visit to the store. The horizontal axis of this bar graph is shared with the horizontal axis of the line graph displayed in the upper area 77a. In the lower area 77c, a description automatically generated by the description automatic generation unit 18 is displayed.

図20に示す例でも、選択した特徴量と目的変数との関係性が表示されているが、強調される系列や、下側領域77cに記載される説明文の内容は、特徴量の性質に応じて図16に示す例とは異なっている。   In the example shown in FIG. 20, the relationship between the selected feature amount and the objective variable is also displayed. However, the series to be emphasized and the contents of the description sentence described in the lower area 77c are different from the characteristics of the feature amount. Accordingly, this is different from the example shown in FIG.

さらに、特徴量の詳細説明を行う2番目のグラフは、図21に示すように、別の特徴量との複合的な影響を示す影響度比較グラフ78となっている。このような影響度比較グラフ78を生成することもでき、このグラフ78は、第1の特徴量及び第2の特徴量を同時に表示した同時表示グラフと呼ぶことができる。生成された同時表示グラフは、モニタ3に表示可能になっている。影響度比較グラフ78は、第2基本図77と同時に表示してもよいし、別々に表示してもよい。影響度比較グラフ78と、第2基本図77と表示するステップが派生図表示ステップである。   Further, the second graph for detailed description of the feature amount is an impact comparison graph 78 showing a composite effect with another feature amount, as shown in FIG. Such an influence comparison graph 78 can also be generated, and this graph 78 can be called a simultaneous display graph that simultaneously displays the first feature amount and the second feature amount. The generated simultaneous display graph can be displayed on the monitor 3. The influence comparison graph 78 may be displayed simultaneously with the second basic diagram 77 or may be displayed separately. The step of displaying the influence comparison graph 78 and the second basic diagram 77 is a derived figure display step.

影響度比較グラフ78は、第1の派生図と呼ぶこともできる。第1の派生図は、第1の特徴量(本例では「最終来店日からの経過日数」)の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか1つのクラスターで、第1の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第2の特徴量(本例では「直近30日の総来店日数」)を抽出し、当該第2の特徴量と目的変数との関係を示す図である。この第1の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。   The influence comparison graph 78 can also be called a first derivative drawing. The first derivative diagram divides the analysis target data into a plurality of clusters based on the value of the first feature amount (in this example, “the number of days elapsed since the last visit to the store”), and represents the representative value of the objective variable of each cluster. Is calculated, and in at least one of the clusters, a second feature value having a representative value of the objective variable determined to have a significant difference from the representative value of the objective variable of the first feature value (this example FIG. 7 is a diagram illustrating the relationship between the second feature amount and the objective variable by extracting “the total number of visiting days in the last 30 days”. This first derivative drawing is generated by the derivative drawing generator 16b shown in FIG. This process is a derived diagram generation step.

すなわち、図2に示す派生図生成部16bが第1の派生図である影響度比較グラフ78(図21に示す)を生成する場合には、例えば、複数の期間に分割した第1の特徴量を得て、各期間の目的変数の代表値として平均値や中央値等を算出し、任意の期間において、第1の特徴量の目的変数の代表値に対して有意な差が存在する目的変数の代表値を有する第2の特徴量を抽出し、この第2の特徴量と目的変数との関係を示すことができる。これにより、第1の特徴量だけでは得ることのできなかった知見を得ることができる。分析対象データを振り分ける条件を区間と呼ぶことができ、区間は、期間だけでなく、例えば、性別、場所等であってもよい。   That is, when the derivative diagram generation unit 16b illustrated in FIG. 2 generates the impact comparison graph 78 (shown in FIG. 21) as the first derivative diagram, for example, the first feature amount divided into a plurality of periods is used. And calculate an average value, a median value, or the like as a representative value of the objective variable in each period. The objective variable having a significant difference from the representative value of the objective variable of the first feature amount in an arbitrary period. , And a relationship between the second feature value and the target variable can be shown. Thereby, it is possible to obtain knowledge that could not be obtained only by the first feature amount. The condition for distributing the analysis target data can be referred to as a section, and the section may be not only a period but also, for example, gender, location, and the like.

また、派生図生成部16bは、第1の特徴量の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターに属する分析対象データの数を示すデータ数表示グラフ78aを生成するように構成されている。分析対象データを複数のクラスターに分割する際、派生図生成部16bは、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割する。これにより、使用者の分割作業の手間を省くことができる。   Further, the derived diagram generation unit 16b divides the analysis target data into a plurality of clusters based on the value of the first feature amount, and generates a data number display graph 78a indicating the number of analysis target data belonging to each cluster. Is configured. When dividing the analysis target data into a plurality of clusters, the derived diagram generation unit 16b acquires all the aggregation periods of the analysis target data, and automatically divides the acquired total aggregation periods into a plurality of aggregation periods. As a result, it is possible to save the user's labor of the division work.

データ数表示グラフ78aは、第1の派生図(影響度比較グラフ78)の下に表示された棒グラフである。そして、モニタ3は、派生図生成部16bにより生成されたデータ数表示グラフ78aを表示可能に構成されている。データ数表示グラフ78aによれば、分析対象データの数を把握することができる。   The data number display graph 78a is a bar graph displayed below the first derivative diagram (impact degree comparison graph 78). The monitor 3 is configured to be able to display the data number display graph 78a generated by the derived diagram generation unit 16b. According to the data number display graph 78a, the number of data to be analyzed can be grasped.

また、分析対象データの数が第1の所定数以下のクラスターが存在することを使用者に通知するように構成することができる。例えば、全データ数の数%以下のデータ数しかないクラスターが存在した場合、当該クラスターを構成するデータ数が全データ数の数%以下であるといった通知をすることで、使用者がクラスターの特徴量の信頼性を判断する際の材料になる。   Further, the configuration may be such that the user is notified that there is a cluster in which the number of data to be analyzed is equal to or less than the first predetermined number. For example, if there is a cluster having a number of data of less than a few percent of the total number of data, the user is notified that the number of data constituting the cluster is less than a few percent of the total number of data, so that the user can recognize the characteristic of the cluster. It is a material for judging the reliability of quantity.

派生図生成部16bは、第1の派生図の生成時に、分析対象データの数が第2の所定数以下の特徴量については、第1の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されている。第2の所定数と、前記第1の所定数とは同じであってもよいし、一方が他方よりも少なくてもよい。例えば、全データ数の数%以下のデータ数しかない特徴量が存在した場合、目的変数の信頼性が乏しいと考えることができ、このような場合には、有意な差が無いと判定することで、分析に用いられないようにすることができる。   At the time of generating the first derived drawing, the derived drawing generating unit 16b regards the feature quantity in which the number of data to be analyzed is equal to or smaller than the second predetermined number to the representative value of the objective variable of the first feature quantity. It is configured to determine that there is no difference. The second predetermined number may be the same as the first predetermined number, or one may be smaller than the other. For example, if there is a feature amount having only a few percent or less of the total number of data, it can be considered that the reliability of the objective variable is poor. In such a case, it is determined that there is no significant difference. Thus, it can be prevented from being used for analysis.

影響度比較グラフ78では、選択した特徴量だけで見ると同一区間のデータであっても、別の特徴量でデータを更に分割することで、目的変数との関係に大きな差異が生じることを示している。図20に示す上側領域77aに表示されている折れ線グラフでは、「最終来店日からの経過日数が小さいほど、離反=1の割合が低下する」という事実を読み取ることができたが、図21に示す影響度比較グラフ78からは更に、「たとえ最終来店日からの経過日数が小さくても、総来店日数が10日未満の顧客は離反率が高い」という新たな知見を得ることができる。   The influence comparison graph 78 shows that even if the data is in the same section when viewed only with the selected feature value, further dividing the data by another feature value causes a large difference in the relationship with the objective variable. ing. In the line graph displayed in the upper area 77a shown in FIG. 20, the fact that "the smaller the number of days elapsed since the last visit to the store, the lower the ratio of churn = 1" could be read. From the impact comparison graph 78 shown, it is possible to further obtain a new finding that "even if the number of days elapsed since the last visit to the store is small, the customer who has visited the store for less than 10 days has a high turnover rate."

この影響度比較グラフ78では、別の特徴量の違いによる区間内の差が有意かどうかを検定し、有意であると判定された区間だけが強調表示されている。ここでは「直近30日の総来店日数」という特徴量を選択した特徴量と組み合わせているが、他の全ての特徴量について組合せのグラフを表示すると表示される数が膨大となる。   In the influence degree comparison graph 78, it is tested whether or not the difference in the section due to another difference in the feature amount is significant, and only the section determined to be significant is highlighted. Here, the feature amount “the total number of days visited in the last 30 days” is combined with the selected feature amount. However, when a graph of the combination of all other feature amounts is displayed, the number displayed is enormous.

そこで、各組合せについて上記有意性の値を計算した上で、有意性が特に高いものだけを選択して表示する。なお、図16に示す例では、この影響度比較グラフ78について説明しなかったが、その理由は、どの組合せで評価した場合でも系列内で有意な差が生じなかったからである。つまり、系列内で有意な差が生じれば、影響度比較グラフ78を自動的に生成して表示させることができるように構成されている。   Therefore, after calculating the value of the significance for each combination, only those having a particularly high significance are selected and displayed. In the example shown in FIG. 16, the influence comparison graph 78 is not described, because there is no significant difference in the series in any combination. That is, when a significant difference occurs in the series, the influence comparison graph 78 can be automatically generated and displayed.

この際、組み合わせる特徴量は、重要度が高い特徴量であってもよいし、重要度が低い特徴量であってもよく、重要度の高低に関係なく決定することができる。   At this time, the feature amount to be combined may be a feature amount with a high importance or a feature amount with a low importance, and can be determined regardless of the level of the importance.

また、組み合わせる特徴量をどの区間で分割するか(図21の場合5日)についても、様々な分割方法のそれぞれで有意性を検証し、有意性が最も高くなる値を選択するように構成することができる。例えば、5日間で分割した場合と、10日間で分割した場合とのそれぞれで有意性を検証することもでき、このような区間の分割方法は制御ユニット10が自動で行うようにしてもよいし、使用者が手動で行うようにしてもよい。   In addition, as to which section (5 days in FIG. 21) the feature quantity to be combined is divided into, the significance is verified by each of various division methods, and a value having the highest significance is selected. be able to. For example, the significance can be verified in each of the case where the data is divided in 5 days and in the case where the data is divided in 10 days, and the control unit 10 may automatically perform such a method of dividing the section. Alternatively, the user may manually perform the setting.

図22に示す特徴量表示ユーザーインターフェース60は、その上側領域71に表示されたグラフの中から任意の区間を選択したことで詳細メニュー74が表示されており、さらに、その詳細メニュー74の中から、「特徴量の寄与度を比較」を選択した場合である。すると、図23に示す寄与度表示グラフ79を特徴量表示ユーザーインターフェース60に表示することができる。この寄与度表示グラフ79では、選択したデータ群と全体との間で、各特徴量の寄与度を比較しており、比較図に相当するものである。よって、寄与度表示グラフ79は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、寄与度表示グラフ79と第2基本図77とを同時にまたは別々に、モニタ3に表示させることが可能になっている。寄与度表示グラフ79と第2基本図77とを同時にまたは別々に表示させる処理が比較図表示ステップである。   In the feature amount display user interface 60 shown in FIG. 22, a detailed menu 74 is displayed by selecting an arbitrary section from the graph displayed in the upper area 71 thereof. , “Comparison of contribution of feature amount” is selected. Then, the contribution degree display graph 79 shown in FIG. 23 can be displayed on the feature amount display user interface 60. In the contribution degree display graph 79, the contribution degree of each feature amount is compared between the selected data group and the whole, and is equivalent to a comparison diagram. Therefore, the contribution degree display graph 79 is generated by the comparison diagram generation unit 16c. This step is a comparison diagram generation step. Further, the contribution degree display graph 79 and the second basic diagram 77 can be displayed on the monitor 3 simultaneously or separately. The process of displaying the contribution degree display graph 79 and the second basic diagram 77 simultaneously or separately is a comparative diagram display step.

ここで、特徴量の寄与度の計算方法について詳細に説明する。線形重回帰分析と呼ばれる分析手法では、以下の形式で表される予測式(2)を用いる。   Here, a method of calculating the contribution of the feature amount will be described in detail. In an analysis technique called linear multiple regression analysis, a prediction formula (2) expressed in the following format is used.

y=a1x1+a2x2+a3x3+…+anxn+b ・・・(2)
yは予測値、x1,x2,…は各特徴量の値(説明変数)、a1,a2,…は各特徴量に対する係数を表す。また、bは定数項である。重回帰分析では、各データについてyの値が目的変数に近づくように、係数aおよび定数項bを学習する。
y = a1x1 + a2x2 + a3x3 +... + anxn + b (2)
.. represent the predicted values, x1, x2,... represent the values (explanatory variables) of the respective feature values, and a1, a2,. B is a constant term. In the multiple regression analysis, the coefficient a and the constant term b are learned so that the value of y approaches the target variable for each data.

上式(2)から、予測値yは各特徴量に関する項(a1x1,a2x2,…)と、定数項の和からなる。項の絶対値が大きな特徴量ほど、予測に対してより大きな影響を与えていると解釈できる。   From the above equation (2), the predicted value y is composed of the sum of terms (a1x1, a2x2,...) Relating to each feature and a constant term. It can be interpreted that the larger the absolute value of the term, the greater the feature value has on the prediction.

そこで、係数と特徴量の値の積aixiのことを、特徴量iに関する寄与度と定義する。この寄与度を、複数のデータに対する予測について平均すると、任意のデータ群について、そのデータ群の予測に対する平均的な寄与度を算出することができる。   Thus, the product axii of the coefficient and the value of the feature amount is defined as a contribution degree regarding the feature amount i. By averaging this contribution for predictions for a plurality of data, it is possible to calculate the average contribution to the prediction of the data group for an arbitrary data group.

例えば図24に示すように、y=3x1−2x2+1の場合、4つのデータで平均を取ると、特徴x1は予測値に対してややプラスの寄与度を持ち、また、特徴x2は予測値に対して大きくマイナスの寄与度を持っていることになる。   For example, as shown in FIG. 24, when y = 3x1-2x2 + 1, when averaging four data, feature x1 has a slightly positive contribution to the predicted value, and feature x2 has a slightly positive contribution to the predicted value. Has a large negative contribution.

本例では上式の線形重回帰分析による寄与度の計算手順について説明したが、非線形のアルゴリズムであっても各予測に対して線形モデルでの近似を行うことで、同様の計算を行うことができる(例:Scott M. Lundberg, ”Consistent Individualized Feature Attribution for Tree Ensembles”(2018))。   In this example, the procedure for calculating the degree of contribution by the linear multiple regression analysis of the above equation was explained.However, even with a non-linear algorithm, similar calculations can be performed by approximating each prediction with a linear model. Yes (eg, Scott M. Lundberg, “Consistent Individualized Feature Attribution for Tree Ensembles” (2018)).

上記で定義される寄与度を選択中のデータについて算出するとともに、全データについても算出し、両者を比較しているのが図23に示す寄与度表示グラフ79である。寄与度表示グラフ79により、例えば、「最低購入金額は全体ではさほど離反に影響しないが、注目するデータ群では大きな影響を与える」、「しかしながら、それでも全体の購入金額の影響のほうが大きい」といった傾向を把握することができ、これが新たな知見になる。   The contribution degree display graph 79 shown in FIG. 23 shows that the contribution degree defined above is calculated for the data being selected and also for all the data, and the two are compared. According to the contribution degree display graph 79, for example, tendencies such as "the minimum purchase amount does not significantly affect the separation, but has a large effect on the data group of interest", "However, the influence of the entire purchase amount is still larger" Can be grasped, and this becomes new knowledge.

本例で表示している特徴量は、重要度が上位の特徴量と、選択したデータ群でのみ寄与度が有意に高い特徴量(最低購入金額)との2つに絞り込んでいるが、これ以外にも寄与度の差が有意に高いものだけを表示してもよい。表示する特徴量は使用者が削除できるようにしてもよい。   The feature values displayed in this example are narrowed down to two features, a feature value having a higher importance and a feature value (minimum purchase price) whose contribution is significantly higher only in the selected data group. In addition, only those having a significantly higher difference in contribution may be displayed. The feature quantity to be displayed may be deleted by the user.

図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量の中から、「性別」を選択すると、図25に示す第3基本図80が特徴量表示ユーザーインターフェース60に表示される。第3基本図80は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。この第3基本図80では、図16に示す例、図20に示す例と違って特徴量が数値ではないため、第3基本図80の表現が棒グラフに変更される。また、項目の「欠損」は、元の分析対象データに値が存在しない場合を表している。図25に示す例では、性別の差によって目的変数の値に有意差が見られなかったため、どの系列も強調されない状態で表示されているが、有意差が見られれば強調表示することができる。   When "sex" is selected from the feature amounts displayed in the feature amount display area 60a of the feature amount display user interface 60 shown in FIG. 15, the third basic diagram 80 shown in FIG. Will be displayed. The third basic diagram 80 is generated by the basic diagram generation unit 16a of the display diagram generation unit 16 shown in FIG. 2, and this process is a basic diagram generation step. In the third basic diagram 80, unlike the example shown in FIG. 16 and the example shown in FIG. 20, the feature amount is not a numerical value, so the expression of the third basic diagram 80 is changed to a bar graph. The item “missing” indicates a case where no value exists in the original analysis target data. In the example shown in FIG. 25, no significant difference was found in the value of the objective variable due to the difference in gender, and therefore, none of the series is displayed in an emphasized state. However, if a significant difference is found, it can be highlighted.

ここで、図25に示す系列「欠損」を選択して図17に示すような詳細メニュー74を表示した後、詳細メニュー74の中から「差分の説明を計算」を選択すると、図26に示す差分の説明グラフ81を特徴量表示ユーザーインターフェース60に表示することができる。この差分の説明グラフ81では、選択したデータ群と全体を比較したとき、目的変数の値の差分が主にどの特徴量で説明付けられるのかを示しており、比較図に相当するものである。よって、図26に示す差分の説明グラフ81は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、差分の説明グラフ81と第3基本図80とを同時にまたは別々に、モニタ3に表示させることが可能になっている。差分の説明グラフ81と第3基本図80とを同時にまたは別々に表示させる処理が比較図表示ステップである。尚、説明付けのための計算には、先述の貢献度の値を使用する。   Here, after selecting the series “missing” shown in FIG. 25 and displaying the detailed menu 74 as shown in FIG. 17, selecting “calculate the explanation of the difference” from the detailed menu 74 results in the processing shown in FIG. An explanation graph 81 of the difference can be displayed on the feature amount display user interface 60. The difference description graph 81 shows which feature value mainly explains the difference in the value of the objective variable when the selected data group is compared with the entire data group, and corresponds to a comparison diagram. Therefore, the difference description graph 81 shown in FIG. 26 is generated by the comparison diagram generation unit 16c. This step is a comparison diagram generation step. Further, the difference explanatory graph 81 and the third basic diagram 80 can be displayed on the monitor 3 simultaneously or separately. The process of displaying the difference explanatory graph 81 and the third basic diagram 80 simultaneously or separately is a comparative diagram display step. Note that the above-described value of the contribution is used for the calculation for the explanation.

ここで、差分の説明の算出方法について説明する。まず、全データと選択したデータ群それぞれについて、先述の貢献度を各特徴量で計算する。   Here, a method of calculating the difference will be described. First, for all data and each selected data group, the above-described contribution is calculated for each feature amount.

y_all = B1all + B2all + B3all + … + Bnall + b ・・・(3)
y_sel = B1sel + B2sel + B3sel + … + Bnsel + b ・・・(4)
y_all,y_selは全データ/選択したデータに対する平均の予測値を表す。Biall,Biselはi番目の特徴量についての全データ/選択したデータの貢献度を表す。
y_all = B1all + B2all + B3all + ... + Bnall + b ... (3)
y_sel = B1sel + B2sel + B3sel + ... + Bnsel + b ... (4)
y_all and y_sel represent average predicted values for all data / selected data. Biall and Bisel represent the contribution of all data / selected data for the i-th feature amount.

(4)−(3)を計算すると、
y_sel = y_all + (B1sel - B1all) + (B2sel - B2all) + … + (Bnsel - Bnall)
・・・(5)
となる。右辺の第2項以降は選択したデータと全データの貢献度の差を表す(これをDiとする)。また、y_sel,y_allは実際の目的変数の平均値y_sel_true,y_all_trueに対して、予測誤差が含まれていると考えられる。
When (4) − (3) is calculated,
y_sel = y_all + (B1sel-B1all) + (B2sel-B2all) +… + (Bnsel-Bnall)
... (5)
Becomes The second and subsequent terms on the right side represent the difference between the contributions of the selected data and all data (this is referred to as Di). Further, y_sel and y_all are considered to include prediction errors with respect to the actual average values y_sel_true and y_all_true of the objective variables.

y_sel_true = y_sel + δ_sel ・・・(6)
y_all_true = y_all + δ_all ・・・(7)
(6)、(7)を(5)に代入すると、
y_sel_true = y_all_true + D1 + D2 + … Dn + (δ_all - δ_sel) ・・・(8)
となる。式(8)から、選択したデータの目的変数の平均値(y_sel_true)は、全データの目的変数の平均値、各々の特徴量の貢献度の差、予測誤差の3つの要素の和であると説明できる。
y_sel_true = y_sel + δ_sel (6)
y_all_true = y_all + δ_all (7)
Substituting (6) and (7) into (5) gives
y_sel_true = y_all_true + D1 + D2 +… Dn + (δ_all-δ_sel) ・ ・ ・ (8)
Becomes From equation (8), the average value of the objective variable of the selected data (y_sel_true) is the sum of the three elements of the average value of the objective variable of all data, the difference in the contribution of each feature, and the prediction error. Explain.

上記のグラフでは、貢献度の差D1,D2,…のうち、値が特に大きいものを個別に表示し、残りの要素と予測誤差は、まとめて「その他/予測誤差」の項目で表示している。   In the above-mentioned graph, among the differences D1, D2,... Of the contributions, those having a particularly large value are individually displayed, and the remaining elements and the prediction errors are collectively displayed in the item of “other / prediction error”. I have.

このように、貢献度の差によって目的変数の差を説明するグラフ81を表示することによって、「性別=欠損のユーザー群の離反率が54%と高いのは何故か?」という疑問に対して、「性別=欠損のユーザーの離反率の高さは、『合計の購入金額』による影響を部分的に受けている」、「ただし、差分のうち15%程度は、主要な特徴量の差分では説明が出来ない」という洞察を得ることができる。   As described above, by displaying the graph 81 explaining the difference between the objective variables based on the difference between the contribution degrees, the question “Why is the gender = the departure rate of the user group with a deficiency as high as 54%?” "The high regression rate for gender-deficient users is partially affected by the" total purchase price "", "However, about 15% of the difference is explained in the main feature difference Can't do it ".

ただし、性別=欠損の系列が元々強調表示されていなかった通り、性別=欠損で離反が大きいことに有意と言えるほどの情報がなく、上記の洞察は誤っている可能性もある。その注意を促す文言も、グラフ81と併せて表示する。   However, as the gender = deficiency series was not originally highlighted, there is not enough information to say that gender = deficiency has a large departure, and the above insights may be incorrect. The wording to call attention is also displayed together with the graph 81.

さらに、性別を説明する別のグラフとして、図27に示すように、特徴量の寄与度の変化に関するグラフ82を表示することができる。これは図20に示す例においてグラフをクリックすることで表示されたものと同じ種類のグラフを性別に対して表示している。   Further, as another graph for explaining the gender, as shown in FIG. 27, a graph 82 relating to a change in the degree of contribution of the feature amount can be displayed. In this example, the same type of graph displayed by clicking the graph in the example shown in FIG. 20 is displayed for gender.

図27に示すグラフ82は、第2の派生図と呼ぶこともできる。第2の派生図は、複数のクラスターのうち、所定のクラスターで目的変数の予測に寄与している特徴量を示す図である。クラスターとは、前記第1の派生図と同じであり、この例では性別の「男」、「女」、「欠損」としているが、期間とすることもできる。第2の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。派生図生成ステップの後、基本図と第2の派生図とを同時にまたは別々に表示する派生図表示ステップを実行することができる。   The graph 82 shown in FIG. 27 can also be called a second derivative diagram. The second derivative diagram is a diagram illustrating feature amounts that contribute to the prediction of the objective variable in a predetermined cluster among a plurality of clusters. The cluster is the same as that of the first derivative figure. In this example, gender is “male”, “female”, and “missing”, but may be a period. The second derivative drawing is generated by the derivative drawing generator 16b shown in FIG. This process is a derived diagram generation step. After the derived diagram generation step, a derived diagram display step of displaying the basic diagram and the second derived diagram simultaneously or separately can be performed.

また、この例では、所定のクラスターで目的変数の予測に寄与している特徴量と、全クラスターを合わせた第1の特徴量とを同時に表示することができるようになっている。   Further, in this example, the feature amount contributing to the prediction of the objective variable in the predetermined cluster and the first feature amount of all the clusters can be simultaneously displayed.

派生図生成部16bが第2の派生図を生成する場合には、上述したようにクラスターとして男、女に分割したとき、性別の違いによって目的変数の予測に対する寄与度合いが大きく変わることがあり、このような目的変数の予測に寄与している特徴量を示すことで、新たな知見を得ることができる。   When the derivative diagram generation unit 16b generates the second derivative diagram, when a cluster is divided into a man and a woman as described above, the degree of contribution to the prediction of the objective variable may greatly change depending on the gender, New knowledge can be obtained by indicating such feature amounts that contribute to the prediction of the objective variable.

また、図27に示すグラフに基づいて、「性別は単独では目的変数の平均値に影響を与えないが、性別の違いによって他の特徴量の寄与の度合が大きく変わるため、結果的に重要な特徴量である」という知見が得られる。   In addition, based on the graph shown in FIG. 27, “Gender alone does not affect the average value of the objective variable, but the degree of contribution of other feature values greatly changes depending on the gender. It is a feature amount. "

(実施形態の作用効果)
以上説明したように、この実施形態に係るデータ分析装置1及びデータ分析方法によれば、大量のデータに含まれる重要度の高い特徴量をモニタ3に表示することができる。そして、特徴量と目的変数との関係を示す基本図や、複数の特徴量と目的変数との関係を示す派生図、所定のクラスターで目的変数の予測に寄与している特徴量を示す派生図、集計期間が異なる特徴量に基づいて生成された予測モデルの精度比較を示す派生図等をモニタ3に表示することができる。
(Operation and effect of the embodiment)
As described above, according to the data analysis device 1 and the data analysis method according to this embodiment, it is possible to display, on the monitor 3, a highly important feature amount included in a large amount of data. Then, a basic diagram showing the relationship between the feature and the objective variable, a derived diagram showing the relationship between a plurality of features and the objective variable, and a derived diagram showing the feature that contributes to the prediction of the objective variable in a predetermined cluster. In addition, it is possible to display a derivative drawing or the like showing the accuracy comparison of the prediction models generated based on the feature amounts having different aggregation periods on the monitor 3.

また、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができる。従って、新たな知見を得るための手助けをすることができる。   In addition, for each cluster obtained by dividing the data to be analyzed, the relationship between the cluster and the representative value of the objective variable can be known. Can be compared with feature values that contribute to the prediction of the objective variable in the cluster. Therefore, it can help to obtain new knowledge.

(その他の実施形態)
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
(Other embodiments)
The embodiments described above are merely examples in all respects and should not be construed as limiting. Furthermore, all modifications and changes belonging to the equivalent scope of the claims are within the scope of the present invention.

上記実施形態では、目的変数と特徴量の関係を示すために折れ線グラフや棒グラフを用いたが、散布図など他の表現方法を用いてもよい。散布図の場合、グラフの系列をクリックする代わりに、グラフ内の領域をドラッグで選択することでデータの一部を選択し、詳細なグラフを更に表示することができる。   In the above embodiment, a line graph or a bar graph is used to show the relationship between the objective variable and the feature value, but another expression method such as a scatter diagram may be used. In the case of a scatter diagram, instead of clicking the series of the graph, a part of the data can be selected by dragging an area in the graph, and a detailed graph can be further displayed.

第1の派生図(図21に示す影響度比較グラフ78)、第2の派生図(図27に示す特徴量の寄与度の変化に関するグラフ82)及び第3の派生図(図19に示す予測精度比較グラフ76)のうち、任意の1つと、基本図70、77、80とをモニタ3に同時に表示してもよいし、異なるタイミングで表示してもよい。派生図生成部16bが第1の派生図、第2の派生図及び第3の派生図の全てを生成してもよく、生成する順番は特に限定されない。また、第1の派生図、第2の派生図及び第3の派生図の全てをモニタ3に表示してもよい。   The first derivative diagram (the influence comparison graph 78 shown in FIG. 21), the second derivative diagram (the graph 82 regarding the change in the contribution of the feature amount shown in FIG. 27), and the third derivative diagram (the prediction shown in FIG. 19) Any one of the accuracy comparison graphs 76) and the basic diagrams 70, 77, and 80 may be simultaneously displayed on the monitor 3, or may be displayed at different timings. The derivative drawing generation unit 16b may generate all of the first derivative drawing, the second derivative drawing, and the third derivative drawing, and the generation order is not particularly limited. Further, all of the first derivative drawing, the second derivative drawing and the third derivative drawing may be displayed on the monitor 3.

また、基本図70、77、80については、本実施形態では3つだけ示しているが、使用者が選択する特徴量に応じて基本図生成部16aが生成する。基本図70、77、80と、第1の派生図、第2の派生図及び第3の派生図とを切り替えて表示する場合、例えば画面切替ボタンのような操作手段を利用することもできる。   Although only three basic diagrams 70, 77, and 80 are shown in the present embodiment, the basic diagram generating unit 16a generates the basic diagrams 70, 77, and 80 according to the feature amount selected by the user. When switching between the basic diagrams 70, 77, and 80 and the first, second, and third derived diagrams for display, operation means such as a screen switching button can be used.

以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる場合に使用することができる。   As described above, the data analysis device and the data analysis method according to the present invention can be used when attempting to obtain useful information that has been unknown so far from a large amount of information.

1 データ分析装置
3 モニタ(表示部)
3a 表示制御部
11 主制御部
12 データ入力部
13 予測モデル生成部
14 重要度算出部
15 クラスター選択部
16a 基本図生成部
16b 派生図生成部
16c 比較図生成部
17 名称自動生成部
18 説明文自動生成部
30 記憶部
70、77、80 基本図
76 予測精度比較グラフ(第3の派生図)
75 比較表(比較図)
78 影響度比較グラフ(第1の派生図)
79 寄与度表示グラフ(比較図)
81 差分の説明グラフ(比較図)
83 特徴量の寄与度の変化に関するグラフ(第2の派生図)
1 data analyzer 3 monitor (display unit)
3a display control unit 11 main control unit 12 data input unit 13 prediction model generation unit 14 importance calculation unit 15 cluster selection unit 16a basic diagram generation unit 16b derived diagram generation unit 16c comparison diagram generation unit 17 automatic name generation unit 18 automatic description text Generation unit 30 Storage units 70, 77, 80 Basic diagram 76 Prediction accuracy comparison graph (third derived diagram)
75 Comparison table (comparison chart)
78 Impact comparison graph (first derivative)
79 Contribution display graph (comparison chart)
81 Difference graph (comparison chart)
83 Graph on the change in the contribution of the feature value (second derived figure)

Claims (7)

分析対象データを分析するデータ分析装置において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、
前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、
前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、
前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、
前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とするデータ分析装置。
In a data analyzer that analyzes data to be analyzed,
A data input unit that receives input of analysis target data including a plurality of feature amounts and objective variables,
A prediction model generation unit that generates a prediction model for predicting the target variable from the plurality of feature amounts,
An importance calculation unit that calculates the importance for prediction by the prediction model for each of the plurality of feature amounts,
Based on the importance calculated by the importance calculation unit, a display unit that displays a feature amount having a higher importance,
The analysis target data is divided into a plurality of clusters based on a value of a feature amount selected according to a user input from among the feature amounts displayed on the display unit, and each cluster and an objective variable of each cluster are divided. A basic diagram generation unit that generates a basic diagram indicating a relationship with a representative value of
A cluster selection unit that receives selection of any one cluster from the plurality of clusters illustrated in the basic diagram;
In the cluster selected by the cluster selection unit, the feature amount contributing to the prediction of the objective variable, and in the entire cluster or in the unselected cluster not selected by the cluster selection unit, the characteristic amount contributing to the prediction of the objective variable A comparison diagram generation unit that generates a comparison diagram indicating a comparison with the amount.
The data analysis device, wherein the display unit is configured to be able to display a basic diagram generated by the basic diagram generation unit and a comparison diagram generated by the comparison diagram generation unit.
請求項1に記載のデータ分析装置において、
前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to claim 1,
The data analysis apparatus according to claim 1, wherein the display unit is configured to display a plurality of feature values having higher importance levels in order of higher importance.
請求項2に記載のデータ分析装置において、
前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to claim 2,
The data analysis device, wherein the display unit is configured to simultaneously display a feature having the highest importance and a plurality of features having a lower importance than the highest.
請求項1から3のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to any one of claims 1 to 3,
The data analysis device, wherein the comparison diagram generation unit is configured to generate the comparison diagram indicating a feature amount having a significantly higher contribution only in the cluster selected by the cluster selection unit.
請求項1から4のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to any one of claims 1 to 4,
The data analysis device, wherein the comparison diagram generation unit is configured to generate the comparison diagram indicating a feature amount not selected by a user among the feature amounts having the higher importance. .
請求項1から5のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to any one of claims 1 to 5,
The comparison diagram generation unit is configured to generate the comparison diagram indicating a feature amount contributing to the prediction of the objective variable in a missing cluster in which the value of the analysis target data does not exist, Data analyzer.
分析対象データを分析するデータ分析方法において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、
前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、
前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、
前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法。
In a data analysis method for analyzing data to be analyzed,
A data input step of receiving input of analysis target data including a plurality of feature amounts and objective variables,
A prediction model generation step of generating a prediction model for predicting the objective variable from the plurality of feature amounts,
An importance calculation step of calculating importance for prediction by the prediction model for each of the plurality of feature amounts;
A feature value display step of displaying a feature value having a higher importance based on the importance calculated by the importance calculation step;
The analysis target data is divided into a plurality of clusters based on the value of the feature amount selected in response to the user's input from the feature amounts displayed in the feature amount display step, and each cluster is divided into a plurality of clusters. A basic diagram generation step of generating a basic diagram showing a relationship between the objective variable and a representative value,
A cluster selection step of receiving a selection of any one cluster from the plurality of clusters shown in the basic diagram;
In the cluster selected in the cluster selection step, a feature amount contributing to the prediction of the objective variable, and in a cluster not selected in the entire cluster or the cluster selection step, a feature contributing to the prediction of the objective variable A comparison diagram generation step of generating a comparison diagram indicating the comparison with the amount;
A data analysis method, comprising: a comparison diagram display step capable of displaying a basic diagram generated in the basic diagram generation step and a comparison diagram generated in the comparison diagram generation step.
JP2018148304A 2018-08-07 2018-08-07 Data analyzer and data analysis method Active JP7049211B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018148304A JP7049211B2 (en) 2018-08-07 2018-08-07 Data analyzer and data analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018148304A JP7049211B2 (en) 2018-08-07 2018-08-07 Data analyzer and data analysis method

Publications (2)

Publication Number Publication Date
JP2020024542A true JP2020024542A (en) 2020-02-13
JP7049211B2 JP7049211B2 (en) 2022-04-06

Family

ID=69618737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018148304A Active JP7049211B2 (en) 2018-08-07 2018-08-07 Data analyzer and data analysis method

Country Status (1)

Country Link
JP (1) JP7049211B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4131091A1 (en) 2021-08-06 2023-02-08 Fujitsu Limited Explanatory information output program, explanatory information output method, and information processing device
JP7528041B2 (en) 2021-09-15 2024-08-05 株式会社東芝 Importance calculation device, method and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070158040A1 (en) * 2003-10-28 2007-07-12 Mokhtar Benaoudia Method and apparatus for estimating an optimal dosage of bleaching agent to be used in a process for producing pulp
JP2007272917A (en) * 2007-05-14 2007-10-18 Fujitsu Ltd Document data providing apparatus, document data providing system, document data providing method, and recording medium on which program for providing document data is recorded
JP2010250769A (en) * 2009-04-20 2010-11-04 Mitsubishi Electric Corp Device, method and program for visualization of analysis result
JP2012256283A (en) * 2011-06-10 2012-12-27 Nomura Research Institute Ltd Kansei analysis system and program
JP2016091343A (en) * 2014-11-06 2016-05-23 日本電気株式会社 Information processing system, information processing method, and program
WO2017168524A1 (en) * 2016-03-28 2017-10-05 株式会社日立製作所 Analysis server device, data analysis system, and data analysis method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070158040A1 (en) * 2003-10-28 2007-07-12 Mokhtar Benaoudia Method and apparatus for estimating an optimal dosage of bleaching agent to be used in a process for producing pulp
JP2007272917A (en) * 2007-05-14 2007-10-18 Fujitsu Ltd Document data providing apparatus, document data providing system, document data providing method, and recording medium on which program for providing document data is recorded
JP2010250769A (en) * 2009-04-20 2010-11-04 Mitsubishi Electric Corp Device, method and program for visualization of analysis result
JP2012256283A (en) * 2011-06-10 2012-12-27 Nomura Research Institute Ltd Kansei analysis system and program
JP2016091343A (en) * 2014-11-06 2016-05-23 日本電気株式会社 Information processing system, information processing method, and program
WO2017168524A1 (en) * 2016-03-28 2017-10-05 株式会社日立製作所 Analysis server device, data analysis system, and data analysis method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4131091A1 (en) 2021-08-06 2023-02-08 Fujitsu Limited Explanatory information output program, explanatory information output method, and information processing device
JP7528041B2 (en) 2021-09-15 2024-08-05 株式会社東芝 Importance calculation device, method and program

Also Published As

Publication number Publication date
JP7049211B2 (en) 2022-04-06

Similar Documents

Publication Publication Date Title
JP7049210B2 (en) Data analyzer and data analysis method
JP7257169B2 (en) data analyzer
JP5400599B2 (en) GUI customization method, system, and program
US9773211B2 (en) Systems and methods for interactive graphs for building penalized regression models
EP1908029A2 (en) Data analysis using graphical visualization
WO2020166299A1 (en) Material characteristics prediction device and material characteristics prediction method
US11188205B2 (en) Configurable patent strength calculator
JP7049211B2 (en) Data analyzer and data analysis method
JP7246956B2 (en) Data analysis device and data analysis method
US11222039B2 (en) Methods and systems for visual data manipulation
JP2012104009A (en) Document management device, control method and computer program for document management device
JP2020154890A (en) Correlation extraction method and correlation extraction program
JP7257168B2 (en) data analyzer
JP2015014856A (en) Method and system for evaluating software development project
JP2020135054A (en) Data analyzer and data analysis method
Harvey et al. Modelling the hare and the tortoise: predicting the range of in-vehicle task times using critical path analysis
US11443145B2 (en) Data analyzing device and data analyzing method
JP7246958B2 (en) Data analysis device and data analysis method
JP2020024544A (en) Data analyzer and method for analyzing data
JP2012038012A (en) Defective factor extraction device, defective factor extraction method, program and recording medium
JP6418537B1 (en) Data prediction system, data prediction method, and data prediction program by regression analysis applying probability density function to explanatory variables
JP7614889B2 (en) Information processing device, information processing system, control method, and program
KR102320133B1 (en) Apparatus and method for predicting occurrence of coronary atherosclerosis
Araújo et al. Machine learning techniques applied to the construction of a new geomechanical quality index
JP2023063162A (en) Prediction model creation method, operating process condition setting method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220325

R150 Certificate of patent or registration of utility model

Ref document number: 7049211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250