JP6622938B1 - Correlation extraction method and correlation extraction program - Google Patents
Correlation extraction method and correlation extraction program Download PDFInfo
- Publication number
- JP6622938B1 JP6622938B1 JP2019053874A JP2019053874A JP6622938B1 JP 6622938 B1 JP6622938 B1 JP 6622938B1 JP 2019053874 A JP2019053874 A JP 2019053874A JP 2019053874 A JP2019053874 A JP 2019053874A JP 6622938 B1 JP6622938 B1 JP 6622938B1
- Authority
- JP
- Japan
- Prior art keywords
- variables
- data
- variable
- combination
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】分析データが異なる種類のデータを含んでいる場合や、これら分析データを構成する各変数の内容を分析者が理解していない場合でも、好適な相関条件を自動抽出する。【解決手段】相関性抽出プログラムは、分析データを構成する複数の変数のうち2変数の指定を受け付ける工程、これら2変数の散布図において分析データの重心を通る各直線を算出する工程、各直線からの偏差が閾値を超えない各データを抽出する工程、各データから各相関係数を算出する工程、単一変数または/および変数の組合せの各条件付き確率を算出する工程、各相関係数と各条件付き確率に基づき、単一変数または/および変数の組合せを表示部に表示する工程をコンピュータに実施させる。【選択図】図2The present invention automatically extracts a suitable correlation condition even when analysis data includes different types of data or when an analyst does not understand the contents of each variable constituting the analysis data. A correlation extraction program includes a step of receiving designation of two variables among a plurality of variables constituting analysis data, a step of calculating each straight line passing through the center of gravity of the analysis data in a scatter diagram of these two variables, Extracting each data whose deviation does not exceed the threshold, calculating each correlation coefficient from each data, calculating each conditional probability of a single variable or / and a combination of variables, each correlation coefficient And causing the computer to perform a step of displaying a single variable or / and a combination of variables on the display unit based on the and the respective conditional probabilities. [Selection] Figure 2
Description
本発明は、相関性抽出方法および相関性抽出プログラムに関する。 The present invention relates to a correlation extraction method and a correlation extraction program.
データ分析においては、目的変数に対して相関が認められる変数を抽出することが重要となる。現状は、多種多様なデータが混在しているため分析者が可視化などの手作業を行い、条件を指定して傾向を見ている。この手作業において、過去の経験則や統計的手法などが用いられる。手作業によるデータ分析において、コンピュータは相関係数を算出し、分析者がデータの傾向を確認している。しかし、上手く条件を指定していない場合、例えば、他の種類までデータに含まれている場合などは、上手く相関性を有する変数が抽出されないおそれがある。 In data analysis, it is important to extract variables that are correlated with objective variables. At present, since a wide variety of data is mixed, analysts perform manual operations such as visualization and specify conditions to see the trend. In this manual work, past rules of thumb and statistical methods are used. In manual data analysis, the computer calculates the correlation coefficient and the analyst confirms the data trend. However, when the conditions are not well specified, for example, when the data is included in other types, there is a possibility that variables having a good correlation may not be extracted.
そこで、分析者の負担を減らすために、データの相関性を自動算出する技術が開示されている。例えば特許文献1の解決手段には、「目的変数の異常値を除去する。目的変数と複数の説明変数の間の関連度を計算し、関連度の高い複数の説明変数を抽出し、それらの間の独立度を計算する。関連度および独立度に基づいて、目的変数に大きな影響を与える可能性の高い説明変数の複数の候補を選択する。累積寄与率に基づいて、説明変数の候補の中から目的変数に対する寄与率の高い説明変数を選択し、回帰式を計算して、目的変数の予測値を求める。目的変数の予測値と実測値との差分を新たな目的変数とし、かつこの差分を求める際に用いた説明変数を除いた残りの説明変数を新たな説明変数として、同様の処理を繰り返す。」と記載されている。
In order to reduce the burden on the analyst, a technique for automatically calculating data correlation has been disclosed. For example, the solving means of
特許文献1に記載されている発明は、一定の条件下で製造しているデータには有効である。しかし、様々なデータが混入している場合には、通常の現象による影響であるか、又はデータ混入による影響であるか判断がつかないため、適用が困難である。
例えば機械の使用時間と部品交換の回数を分析する場合に、異なる部品のデータが混入した状態では、データの特徴が埋もれてしまい、目的変数に大きな影響を与える説明変数を正しく抽出できない可能性がある。更に目的変数に大きな影響を与える説明変数を取り出すだけでは、データの中に隠された知見、例えば、説明変数がある範囲の場合に目的変数に対する影響が大きい等の条件を抽出することができない。
また、データを手作業で分析する場合、分析者がこれらデータを構成する各変数の内容を理解する必要があった。
The invention described in
For example, when analyzing the machine usage time and the number of parts replacement, if the data of different parts is mixed, the characteristics of the data will be buried, and it may not be possible to correctly extract explanatory variables that have a large effect on the objective variable. is there. Furthermore, by extracting only the explanatory variable that has a large influence on the objective variable, it is impossible to extract knowledge hidden in the data, for example, a condition that the influence on the objective variable is large when the explanatory variable is in a certain range.
In addition, when analyzing data manually, it is necessary for an analyst to understand the contents of each variable constituting the data.
そこで、本発明は、分析データが異なる種類のデータを含んでいる場合や、これら分析データを構成する各変数の内容を分析者が理解していない場合でも、好適な相関条件を自動抽出することを課題とする。 Therefore, the present invention automatically extracts suitable correlation conditions even when the analysis data includes different types of data or when the analyst does not understand the contents of each variable constituting the analysis data. Is an issue.
前記した課題を解決するため、本発明の相関性抽出方法は、コンピュータが、分析データを構成する複数の変数のうち2変数の指定を受け付けるステップと、前記2変数の散布図において前記分析データの重心を通る各直線を算出するステップと、各前記直線からの偏差が閾値を超えない各データを抽出するステップと、各前記データから各相関係数を算出するステップと、抽出した各前記データから出現比率が所定値よりも大きい単一変数または/および変数の組合せを取り出すステップと、各前記相関係数と各前記出現比率に基づき、前記単一変数または/および前記変数の組合せを表示部に表示するステップと、を実施することを特徴とする。 In order to solve the above-described problem, the correlation extraction method of the present invention includes a step in which a computer receives designation of two variables among a plurality of variables constituting analysis data, and the analysis data in the scatter diagram of the two variables. Calculating each straight line passing through the center of gravity; extracting each data whose deviation from each straight line does not exceed a threshold; calculating each correlation coefficient from each data; and from each extracted data a step ratio of appearance retrieves allowed combination of large single variable or / and variables than the predetermined value, based on each said correlation coefficient and each said occurrence ratio, displaying a combination of said single variable or / and the variable portion And the step of displaying on the screen.
本発明の相関性抽出プログラムは、コンピュータに、分析データを構成する複数の変数のうち2変数の指定を受け付ける工程、前記2変数の散布図において前記分析データの重心を通る各直線を算出する工程、各前記直線からの偏差が閾値を超えない各データを抽出する工程、各前記データから相関係数を算出する工程、抽出した各前記データから出現比率が所定値よりも大きい単一変数または/および変数の組合せを取り出す工程、各前記相関係数と各前記出現比率に基づき、前記単一変数または/および前記変数の組合せを表示部に表示する工程、を実行させる。
その他の手段については、発明を実施するための形態のなかで説明する。
The correlation extraction program of the present invention is a step of accepting designation of two variables among a plurality of variables constituting analysis data in a computer, and a step of calculating each straight line passing through the center of gravity of the analysis data in the scatter diagram of the two variables. Extracting each data whose deviation from each straight line does not exceed a threshold; calculating a correlation coefficient from each data; a single variable having an appearance ratio larger than a predetermined value from each extracted data; and the step of taking out the allowed combination of variables, on the basis of each of said correlation coefficient and each of said occurrence percentage, the step of displaying the combination of said single variable or / and the variables on the display unit, thereby to execute.
Other means will be described in the embodiment for carrying out the invention.
本発明によれば、分析データが異なる種類のデータを含んでいる場合や、これら分析データを構成する各変数の内容を分析者が理解していない場合でも、好適な相関条件を自動抽出することが可能となる。 According to the present invention, it is possible to automatically extract suitable correlation conditions even when the analysis data includes different types of data or even when the analyst does not understand the contents of each variable constituting the analysis data. Is possible.
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図1は、相関性抽出方法を実行するコンピュータの構成図である。
コンピュータ1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、記憶部16とを備えている。このコンピュータ1は、後記する第1、第2の実施形態に共通するものである。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
FIG. 1 is a configuration diagram of a computer that executes the correlation extraction method.
The
CPU11は、ROM12やRAM13や記憶部16に格納されたプログラムを実行し、ROM12やRAM13や記憶部16に格納されたデータを処理するものである。
ROM12は、不揮発性メモリで構成されており、例えばBIOS(Basic Input/Output System)を格納する。RAM13は、揮発性メモリで構成されており、プログラムが一時的に格納する変数等に用いられる。記憶部16は、例えばハードディスクやSSD(Solid State Drive)などの大容量記憶装置で構成されており、内部に分析データ161と相関性抽出プログラム162を格納している。
The
The
コンピュータ1は更に、入力部14と、表示部15とを備えている。
入力部14は、例えばキーボードやマウスなどであり、このコンピュータ1に各種情報を入力するために用いられる。
表示部15は、例えば液晶ディスプレイなどであり、このコンピュータ1が処理結果などを表示するために用いられる。
The
The
The
《第1の実施形態》
以下、図2から図11により、第1の実施形態の相関性抽出プログラム162について説明する。この相関性抽出プログラム162によれば、分析データ161が異なる種類のデータを含んでいる場合や、これら分析データ161を構成する各変数の内容を分析者が理解していない場合でも、好適な相関条件を自動抽出することができる。
<< First Embodiment >>
The
図2は、相関性抽出処理を示すフローチャートである。このフローチャートを、以下の図3から図6までの各グラフとともに説明する。
CPU11が相関性抽出プログラム162を読み込んで実行することにより、以下の各ステップが実行される。
CPU11は、表示部15に、目的変数のメニューと説明変数のメニューを含む初期設定画面を表示する。この初期設定画面は、後記する図10で説明する。ユーザは、表示部15にメニュー表示された目的変数と説明変数を、入力部14により選択する。これにより、CPU11は、分析データを構成する複数の変数のうち2つの変数を目的変数および説明変数とする指定を受け付けて(S10)、ステップS11〜S19の一連の動作を開始する。
FIG. 2 is a flowchart showing the correlation extraction process. This flowchart will be described together with the following graphs shown in FIGS.
When the
The
ステップS11において、CPU11は、入力された2変数で構成される散布図における分析データ161の重心21(図3参照)を算出する。この重心21について、図3のグラフを用いて説明する。
In step S11, the
図3は、分析データ161の機械使用時間と部品交換回数の散布図における重心21を特定する動作を説明する図である。この散布図の横軸は、機械使用時間である。散布図の縦軸は、部品交換回数である。
FIG. 3 is a diagram for explaining the operation of specifying the center of
具体的にいうと、CPU11は、分析データ161の機械使用時間の平均を算出する。これにより重心21の横軸座標が算出される。次にCPU11は、分析データ161の部品交換回数の平均を算出する。これにより重心21の縦軸座標が算出される。
More specifically, the
ステップS12において、CPU11は、重心21を通る線を引き、これを直線3とする。これにより、CPU11は、機械使用時間と部品交換回数の散布図における重心を通る各直線を算出する。次にCPU11は、ステップS13〜S16において、直線3の回転処理を行う。この線について、図4のグラフを用いて説明する。
In step S <b> 12, the
図4は、選択した2変数の散布図の重心21を通る直線3を引く動作を説明する図である。具体的にいうと、CPU11は、重心21を通る直線3を引く。更にCPU11は、この直線3を0度から1度ずつ回転させ、180度になるまで繰り返す。但し、回転角は1度ごとに限定されず、所定の角度ごとに回転させてもよい。
FIG. 4 is a diagram for explaining an operation of drawing a
この回転処理ごとに、CPU11は、全ての分析データ161のうち直線3に結びつくデータ2が所定割合(例えば25%)になるように抽出する(S13)。このデータ2の抽出処理について、図5のグラフを用いて説明する。
For each rotation process, the
図5は、直線3との偏差が閾値を超えないデータ2を抽出する動作を説明する図である。CPU11は、各データ2と直線3との偏差を算出し、この偏差が閾値を超えないデータ2の数が、例えば分析データ161に含まれるデータ2の数の25%になるよう閾値を設定し、データ2を抽出する。具体的にいうと、CPU11は、各データ2に、このデータ2と直線3との偏差とを対応付ける。更にCPU11は、直線3との偏差の昇順で各データ2を並べ替え、偏差が小さいものから順に25%分のデータ2を抽出すればよい。
FIG. 5 is a diagram for explaining the operation of extracting
CPU11は、ステップS13で抽出したデータ2から、出現比率の大きい単一変数または/および変数の組合せ、およびその範囲と、その条件付き確率とを算出する(S14)。このステップS14の処理は、後記する図7Aと図7Bで詳細に説明する。これにより、図6に示すように、抽出したデータ2が、所定条件を満たすものに更に絞り込まれる。
The
具体的にいうと、ステップS14において、CPU11は、直線3との偏差が閾値を超えないデータ2を抽出し、そのときのデータ2に共通する条件や特徴などを抽出する。ここで共通する条件や特徴とは、例えば生産地域が同一であることや、生産地域および使用地域が同一であること等である。抽出されるデータ数が多いほど、信頼性の高い相関が導出される。よって、信頼性の高い相関が導出される条件を用いることで、必要な条件を自動で抽出可能である。
Specifically, in step S14, the
CPU11は、直線3を更に1度回転させ(S15)、180度まで回転し終えたか否かを判定する(S16)。CPU11は、直線3を180度まで回転し終えていないならば(No)、ステップS13に戻り、直線3を180度まで回転し終えたならば(Yes)、ステップS17に進む。即ちCPU11は、ステップS13〜S16において、重心を通る直線を1度ごとに回転させて各直線3としている。
The
ステップS17において、CPU11は、データ2から相関係数を算出し、この相関係数と条件付確率により、単一変数または/および変数の組合せの評価数値を算出する。
CPU11は、単一変数または/および変数の組合せを評価数値により降順に並べ替え(S18)、並べ替えた単一変数または/および変数の組合せを含む分析結果(図11参照)を表示部15に表示すると(S19)、図2の処理を終了する。
In step S <b> 17, the
The
図7Aと図7Bは、条件を満たす単一変数または/および変数の組合せと、その条件付き確率を抽出する動作を示すフローチャートである。このフローチャートに示した処理は、図2のステップS14の処理に対応する。 FIG. 7A and FIG. 7B are flowcharts showing an operation of extracting a single variable or / and a combination of variables that satisfy a condition and a conditional probability thereof. The process shown in this flowchart corresponds to the process of step S14 in FIG.
CPU11は、直線3の周りのデータを抽出する(S30)。次にCPU11は、抽出したデータについて変数毎の出現比率を算出する(S31)。ここで変数の出現比率とは、この変数の最頻値の比率、または、この変数のヒストグラムのうち個数が多いデータの比率のことをいう。
The
CPU11は、各変数について、ステップS32〜S46の処理を繰り返す。
最初、CPU11は、各変数のうち一つを1個目として選択する(S32)。CPU11は、この変数の出現比率が50%を超えるか否かを判定する(S33)。CPU11は、この変数の出現比率が50%を超えないならば(No)、ステップS34の処理に進み、この変数の出現比率が50%を超えるならば(Yes)、ステップS36の処理に進む。但し、変数の出現比率の閾値については、あらかじめ定めた任意の所定の値でもよい。
CPU11 repeats the process of step S32-S46 about each variable.
First, the
ステップS34において、CPU11は、指定回数よりも範囲を拡げた回数が大きいか否かを判定する。CPU11は、指定回数よりも範囲を拡げた回数が大きくないならば(No)、この変数の範囲を拡げて(S35)、ステップS33の処理に戻る。CPU11は、指定回数よりも範囲を拡げた回数が大きいならば(Yes)、ステップS36の処理に進む。
In step S34, the
ステップS34の変数の範囲を拡げる処理を、図8Aと図8Bを用いて説明する。この図8Aは、変数Aのヒストグラムを示している。変数Aの値の範囲は、式(1)に示すスタージェスの公式を使用することで、好適に範囲を設定することができる。
データ63は、変数Aの最頻値であり、変数Aが10〜20の範囲のデータである。ここではデータ63の出現比率は50%以下なので、変数の範囲が拡げられる。
The
図8Bは、変数Aのデータ63に加えて、次に多いデータ64も範囲に加えられたことを示している。なお、この範囲を拡げる処理は、量的データも質的データも同様である。このように単一変数であっても、範囲を拡げることで出現比率を閾値以上にすることができる。
FIG. 8B shows that in addition to the
図7Aに戻り説明を続ける。ステップS36において、CPU11は、該変数の出現比率を条件付き確率として記録する。また、CPU11は、該変数の相関係数を記録し(S37)、図7BのステップS38の処理に進む。
CPU11は、該変数を除く、その他の変数について、ステップS38〜S44の処理を繰り返す。最初、CPU11は、該変数を除く、その他の変数のうち一つを2個目として選択し(S38)、1個目に選択した該変数と2個目に選択したその他の変数の組合せの出現比率を算出する(S39)。
Returning to FIG. 7A, the description will be continued. In step S36, the
CPU11 repeats the process of step S38-S44 about the other variable except this variable. First, the
CPU11は、変数の組合せの出現比率が40%を超えるか否かを判定する(S40)。CPU11は、変数の組合せの出現比率が40%を超えないならば(No)、ステップS43の処理に進み、変数の組合せの出現比率が40%を超えるならば(Yes)、ステップS41の処理に進む。但し、変数の組合せの出現比率の閾値については、あらかじめ定めた任意の所定の値でもよい。
The
ステップS41において、CPU11は、該変数の出現比率を条件付き確率として記録する。また、CPU11は、該変数の相関係数を記録し(S42)、ステップS43の処理に進む。
In step S41, the
ステップS43において、CPU11は、該変数を除く、次の変数を2個目として選択する。次にCPU11は、該変数を除く、その他の全ての変数について処理を終了したか否か、即ち該変数を除く、次の変数の選択に失敗したか否かを判定する(S44)。CPU11は、該変数を除く、その他の全ての変数について処理を終了していないならば(No)、ステップS39に戻り、該変数を除く、その他の全ての変数について処理を終了したならば(Yes)、ステップS45に進む。
In step S43, the
ステップS45において、CPU11は、1個目として次の変数を選択する。次にCPU11は、全ての変数について処理を終了したか否か、即ち1個目として次の変数の選択に失敗したか否かを判定する(S46)。CPU11は、全ての変数について処理を終了していないならば(No)、図7AのステップS33に戻り、全ての変数について処理を終了したならば(Yes)、図7Bの処理を終了する。但し、変数の最大選択個数は2個に限定されず、任意の所定の値でもよい。
In step S45, the
ステップS39〜S40の変数の組合せの抽出処理を、図9Aと図9Bを用いて説明する。この図9Aは、変数Aのヒストグラムを示している。データ61は、変数Aの最頻値であり、変数Aが10〜20の範囲のデータである。
The variable combination extraction process in steps S39 to S40 will be described with reference to FIGS. 9A and 9B. FIG. 9A shows a histogram of the variable A. The
図9Bは、変数Zのヒストグラムを示している。データ62は、変数Zの最頻値であり、変数Zが20〜30の範囲のデータである。
FIG. 9B shows a histogram of the variable Z. The
CPU11は、変数Aの最頻値であるデータ61を算出して、データ61の出現比率が50%を超えるか否かを判定する。ここでは50%を超えているので、ステップS36に進み、変数の組合せの抽出処理を行う。
The
次にCPU11は、データ61に係る他の変数B〜Zの最頻値を算出し、変数の組合せの出現比率を算出する。具体的にいうと、変数Aが10〜20の範囲かつ変数Bが20〜30の範囲の出現比率は45%である。変数Aが10〜20の範囲かつ変数Cが30〜40の範囲の出現比率は30%である。以下同様に、変数Aが10〜20の範囲かつ変数Zが20〜30の範囲の出現比率は80%である。このようにCPU11は、変数と他の変数との組合せの出現比率を算出する。以下、変数Bと変数A,C〜Zとの組み合わせも同様である。CPU11は、これら2つの変数の組合せを評価数値により降順に並べ替えて、表示部に表示する。これによりCPUは、異なる種類の変数であっても、それらの組合せのうち最も出現比率の高いものを機械的に抽出して表示することができる。
Next, the
図10は、相関性抽出のための初期設定画面4である。
初期設定画面4は、データ選択コンボボックス41、目的変数コンボボックス42、説明変数コンボボックス43、OKボタン44、キャンセルボタン45を含んで構成される。
FIG. 10 shows an initial setting screen 4 for correlation extraction.
The initial setting screen 4 includes a data
データ選択コンボボックス41は、相関性を抽出する対象となる分析データ161を選択するコンボボックス(メニュー)であり、ここでは「A装置の稼働ログ」が選択されている。
目的変数コンボボックス42は、分析データ161に含まれる各変数から、目的変数を選択するコンボボックスであり、ここでは「部品交換回数」が選択されている。
The data
The objective
説明変数コンボボックス43は、分析データ161に含まれる各変数から、説明変数を選択するコンボボックスであり、ここでは「機械使用時間」が選択されている。
OKボタン44は、データ選択コンボボックス41によって選択された分析データ161の相関性抽出を実行するためのボタンである。
The explanatory
The
キャンセルボタン45は、各コンボボックスで選択された内容をキャンセルして、この初期設定画面4を閉じるためのボタンである。
ユーザがこの初期設定画面4を操作することで、分析データ、目的変数および説明変数を設定することができる。
The cancel
When the user operates the initial setting screen 4, analysis data, objective variables, and explanatory variables can be set.
図11は、相関性を抽出した分析結果5を示す図である。この分析結果5は、図2のステップS19の処理にて表示される。
この分析結果5は、番号欄と、対象変数欄と、直線式欄と、評価数値欄と、変数名#1欄および範囲欄#1、変数名#2欄および範囲欄#2を含んでいる。なお、更に右側の変数名#n欄および範囲欄は記載を省略している。
FIG. 11 is a diagram showing the
This
番号欄は、相関性のランキング番号を示している。
対象変数欄は、目的変数名と説明変数名とを示しており、ここでは「部品交換回数×機械使用時間」が示されている。
The number column indicates the correlation ranking number.
The target variable column shows the objective variable name and the explanatory variable name, and here, “number of parts replacement × machine usage time” is shown.
直線式欄は、直線の定数と傾き(一次定数)が示されている。ここでは「y=ax+b」と記載されているが、実際にはaとbに具体的な数値が示されている。
評価数値欄は、単一変数または/および変数の組合せの評価数値が示されている。ここで評価数値とは、相関係数と条件付き確率の積である。
The linear equation column shows the constant and slope (primary constant) of the straight line . Here, “y = ax + b” is described, but actually, specific values are shown in a and b.
In the evaluation numerical value column, evaluation numerical values of single variables or / and combinations of variables are shown. Here, the evaluation numerical value is a product of a correlation coefficient and a conditional probability.
各変数名欄には、このランキングに係る単一変数または/および変数の組合せが示されている。この変数名の右側の各範囲欄には、この変数に係る最頻値を与える範囲が示されている。このように、データを構成する各変数の内容を分析者が理解していない場合でも、好適な相関条件となる単一変数または/および変数の組合せを、評価数値の降順のランキング形式で自動抽出できる。
このことにより、様々なデータが混在している場合でもデータの特徴が埋もれることなく、好適な条件を抽出できる。更に、データの中に隠された知見、例えば説明変数がある範囲の時に目的変数に対する影響が大きい等の条件を抽出することができる。本実施形態の場合、図11に示すように部品交換回数と機械使用時間に関しては、部品番号A01と湿度が20〜30の範囲の条件である時に相関関係が一番高いことがわかる。
Each variable name column shows a single variable or / and a combination of variables related to this ranking. Each range column on the right side of the variable name indicates a range in which the mode value relating to the variable is given. In this way, even if the analyst does not understand the contents of each variable that makes up the data, single variables and / or combinations of variables that are suitable correlation conditions are automatically extracted in the descending ranking format of the evaluation values. it can.
Thereby, even when various data are mixed, suitable conditions can be extracted without burying the characteristics of the data. Furthermore, it is possible to extract knowledge hidden in the data, for example, a condition that the influence on the objective variable is large when the explanatory variable is within a certain range. In the case of the present embodiment, as shown in FIG. 11, regarding the number of parts replacement and the machine usage time, it can be seen that the correlation is highest when the part number A01 and the humidity are in the range of 20-30.
《第2の実施形態》
第2の実施形態は、分析データをクラスタ化したのち、各クラスタにおいて重心を求めて、好適な相関条件となる単一変数または/および変数の組合せを抽出するというものである。
<< Second Embodiment >>
In the second embodiment, after analyzing data is clustered, a centroid is obtained in each cluster, and a single variable or / and a combination of variables serving as suitable correlation conditions are extracted.
図12は、クラスタ化した分析データの相関性抽出処理を示すフローチャートである。
CPU11は、表示部15に、目的変数のメニューと説明変数のメニューを選択可能に表示する。ユーザは、表示部15にメニュー表示された目的変数と説明変数を、入力部14により選択する(S50)。これにより、CPU11は、ステップS51〜S59の一連の動作を開始する。
目的変数と説明変数を選択することにより、図13の2変数の散布図が決定する。分析データ161に含まれる各データ2は、この散布図にプロットされている。なお、図13から図15までのグラフの横軸は、機械使用時間である。グラフの縦軸は、部品交換回数である。
FIG. 12 is a flowchart showing a correlation extraction process for clustered analysis data.
The
By selecting the objective variable and the explanatory variable, the two-variable scatter diagram of FIG. 13 is determined. Each
CPU11は、クラスタ数のkに2の初期値を設定すると(S51)、ステップS52に進み、k−meansによりクラスタリングを実施する。
When the
CPU11は、データ個数が30未満のクラスタ22が有るか否かを判定する(S53)。ここでデータ個数の閾値の30は一例であり、サンプルに必要な数であればよい。サンプルに必要な数は、分析データ161や変数によって可変であってもよい。
The
CPU11は、クラスタ22のデータ個数が何れも30個以上ならば(No)、クラスタ数のkを一つ増加させて(S54)、ステップS52に戻る。CPU11は、クラスタ22のデータ個数が30未満のものが有れば(Yes)、ステップS55の処理に進み、その1つ前の(k−1)個のクラスタ22を処理の対象とする。
If the number of data in the cluster 22 is 30 or more (No), the
クラスタリングを実施した結果の一例を図14に示す。図14は、3つのクラスタ22a,22b,22cに分けられている。各クラスタ22a,22b,22cは、重心21a,21b,21cを含んでいる。以下、各クラスタを区別しないときには、単にクラスタ22と記載する。
CPU11は、各クラスタ22a,22b,22cの重心21a,21b,21cから、それぞれ直線3a,3b,3cを引く。CPU11は、これら直線3a,3b,3cを同時に回転させながら単一変数または/および変数の組合せの相関係数と条件付確率を求める(S56)。これら直線3a,3b,3cは、後記する図15に示されている。このステップS56の処理は、図2のステップS13〜S16の処理に対応する。
An example of the result of clustering is shown in FIG. FIG. 14 is divided into three
The
次にCPU11は、相関係数と条件付確率により、単一変数または/および変数の組合せの評価数値を算出する(S57)。CPU11は、単一変数または/および変数の組合せを評価数値により降順に並べ替え(S58)、並べ替えた単一変数または/および変数の組合せを表示部15に表示し(S59)、図12の処理を終了する。これらステップS57〜S59の処理は、図2のステップS17〜S19の処理に対応する。
Next, the
(変形例)
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば上記した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。
(Modification)
The present invention is not limited to the embodiments described above, and includes various modifications. For example, the above-described embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. A part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. Moreover, it is also possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路などのハードウェアで実現してもよい。上記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈して実行することにより、ソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリ、ハードディスク、SSD(SolidStateDrive)などの記録装置、または、フラッシュメモリカード、DVD(DigitalVersatileDisk)などの記録媒体に置くことができる。 Some or all of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware such as an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by a processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be stored in a recording device such as a memory, a hard disk, or an SSD (SolidStateDrive), or a recording medium such as a flash memory card or a DVD (Digital VersatileDisk).
各実施形態に於いて、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には、殆ど全ての構成が相互に接続されていると考えてもよい。
本発明の変形例として、例えば、次の(a)〜(h)のようなものがある。
In each embodiment, the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.
Examples of modifications of the present invention include the following (a) to (h).
(a) 第1の実施形態では、直線を引く点を重心の1点としているが、第2の実施形態のように複数の点から複数の直線を引いてもよく、限定されない。
(b) クラスタリングの方法は、k−meansに限定されず、任意の方法であってもよい。
(c) 抽出する変数の組合せは任意個数でよいが、経験的に3個までが好適である。
(d) 直線の近傍のデータを抽出したのちの条件抽出の方法は、図7Aと図7Bの処理に限定されず、相関ルール抽出手法を使用して、目的変数および説明変数に相関があるものを抽出してもよい。
(e) 直線を回転させるステップは、1度ごとの回転角に限定されず、所定の角度ごとに回転させてもよい。
(f) 直線との偏差が閾値を超えないデータを25%だけ抽出しているが、25%に限定されず、任意の割合だけ抽出すればよい。
(g) 相関係数と条件付き確率の積の降順で、単一変数または/および変数の組合せを並び替えてランキング表示しているが、これに限られず、単一変数または/および変数の組合せを相関係数で並び替えてランキング表示してもよい。
(h) コンピュータは、分析データを構成する複数の変数のうち2つの変数を目的変数および説明変数とする指定を受け付ける。しかし、これに限られず、コンピュータが、分析データを構成する複数の変数のうち2つの変数を目的変数および説明変数として選択してもよい。
(A) In the first embodiment, the point at which a straight line is drawn is one point of the center of gravity, but a plurality of straight lines may be drawn from a plurality of points as in the second embodiment, and there is no limitation.
(B) The clustering method is not limited to k-means, and may be any method.
(C) The number of combinations of variables to be extracted may be any number, but it is empirically preferred to be three.
(D) The method of condition extraction after extracting data in the vicinity of a straight line is not limited to the processing of FIGS. 7A and 7B, and there is a correlation between the objective variable and the explanatory variable using the correlation rule extraction method. May be extracted.
(E) The step of rotating the straight line is not limited to a rotation angle of 1 degree, and may be rotated every predetermined angle.
(F) Although 25% of the data whose deviation from the straight line does not exceed the threshold is extracted, the data is not limited to 25%, and an arbitrary ratio may be extracted.
(G) in descending order of the product of correlation coefficient and conditional probabilities, although ranking display rearranges combination of single variables and / or variables, not limited to this, the combination of a single variable or / and variables the may be ranking display is sorted by the correlation coefficient.
(H) The computer accepts a designation that sets two variables among the plurality of variables constituting the analysis data as an objective variable and an explanatory variable. However, the present invention is not limited to this, and the computer may select two variables among the plurality of variables constituting the analysis data as the objective variable and the explanatory variable.
1 コンピュータ
11 CPU
12 ROM
13 RAM
14 入力部
15 表示部
16 記憶部
161 分析データ
162 相関性抽出プログラム
2 データ
21,21a〜21c 重心
22a〜22c クラスタ
3,3a〜3c 直線
4 初期設定画面
41 データ選択コンボボックス
42 目的変数コンボボックス
43 説明変数コンボボックス
44 OKボタン
45 キャンセルボタン
5 分析結果
1
12 ROM
13 RAM
14
Claims (10)
分析データを構成する複数の変数のうち2変数の指定を受け付けるステップと、
前記2変数の散布図において前記分析データの重心を通る各直線を算出するステップと、
各前記直線からの偏差が閾値を超えない各データを抽出するステップと、
各前記データから各相関係数を算出するステップと、
抽出した各前記データから出現比率が所定値よりも大きい単一変数または/および変数の組合せを取り出すステップと、
各前記相関係数と各前記出現比率に基づき、前記単一変数または/および前記変数の組合せを表示部に表示するステップと、
を実施することを特徴とする相関性抽出方法。 Computer
A step of accepting designation of two variables among a plurality of variables constituting analysis data;
Calculating each straight line passing through the center of gravity of the analysis data in the scatter diagram of the two variables;
Extracting each data whose deviation from each straight line does not exceed a threshold;
Calculating each correlation coefficient from each said data;
A step of extracting ratio of appearance from each of said data is taken out was combination of large single variable or / and variables than the predetermined value,
Displaying the single variable or / and the combination of variables on a display unit based on each correlation coefficient and each occurrence ratio ;
The correlation extraction method characterized by implementing.
各前記直線を算出するステップにおいて、重心を通る直線を所定の角度ごとに回転させる、
ことを特徴とする請求項1に記載の相関性抽出方法。 The computer
In the step of calculating each said straight line to rotate the straight line passing through the center of gravity for each predetermined angle,
The correlation extracting method according to claim 1.
前記分析データをクラスタ化するステップを実施したのちに、前記分析データを構成する複数の変数のうち2変数を指定するステップを実施し、
各前記直線は、前記2変数の散布図において、前記分析データの各クラスタの重心を通るものである、
ことを特徴とする請求項1または2に記載の相関性抽出方法。 The computer is
To After performing the step of clustering the analytical data, performing the step of specifying the two variables of the plurality of variables that constitute the analytical data,
Each straight line passes through the center of gravity of each cluster of the analysis data in the scatter diagram of the two variables.
The correlation extraction method according to claim 1, wherein
前記単一変数または/および前記変数の組合せを表示部に表示するステップにおいて、前記単一変数または/および前記変数の組合せを、各前記相関係数と各前記出現比率の積の降順で表示する、
ための請求項1から3のうち何れか1項に記載の相関性抽出方法。 The computer
In the step of displaying the single variable or / and the combination of variables on a display unit, the single variable or / and the combination of variables are displayed in descending order of the product of each of the correlation coefficients and each of the appearance ratios. ,
The correlation extraction method according to any one of claims 1 to 3.
前記単一変数または/および前記変数の組合せを表示部に表示するステップにおいて、前記単一変数または/および前記変数の組合せを、各前記相関係数の降順で表示する、
ための請求項1から3のうち何れか1項に記載の相関性抽出方法。 The computer
In step of displaying a combination of said single variable or / and the variables, the combination of said single variable or / and the variables are displayed in descending order of each of the correlation coefficient,
The correlation extraction method according to any one of claims 1 to 3.
前記単一変数または/および前記変数の組合せを取り出すにあたり、前記単一変数または/および前記変数の組合せのデータが所定の階級数に分けられるように設定された各範囲のうち最頻値の範囲における前記データの出現比率が所定値以上ならば、更に他の変数を組み合わせるステップ、
を実施することを特徴とする請求項1から5のうち何れか1項に記載の相関性抽出方法。 The computer
Per To remove the combination of the previous SL single variable or / and the variables of said single variable or / and a combination of data of the variables of the range set so as to be divided into a predetermined number of classes the mode If the appearance ratio of the data in the range is greater than or equal to a predetermined value, further combining other variables,
Correlation extraction method according to any one of the preceding claims out of 5, characterized in that to implement.
前記単一変数を取り出すにあたり、前記単一変数のデータが所定の階級数に分けられるように設定された各範囲のうち最頻値の範囲における前記データの出現比率が所定値未満ならば、前記範囲を拡げるステップ、
を実施することを特徴とする請求項1から6のうち何れか1項に記載の相関性抽出方法。 The computer
Per To remove the front SL single variable, the appearance ratio of the data in the range of the mode among the range of data is set to be divided into a predetermined number classes of the single variable if less than the predetermined value, Expanding the range;
Correlation extraction method according to any one of the claims 1 6, characterized in that to implement.
分析データを構成する複数の変数のうち2変数を選択するステップと、 Selecting two variables out of a plurality of variables constituting the analysis data;
前記2変数の散布図において前記分析データの重心を通る各直線を算出するステップと、 Calculating each straight line passing through the center of gravity of the analysis data in the scatter diagram of the two variables;
各前記直線からの偏差が閾値を超えない各データを抽出するステップと、 Extracting each data whose deviation from each straight line does not exceed a threshold;
各前記データから各相関係数を算出するステップと、 Calculating each correlation coefficient from each said data;
抽出した各前記データから出現比率が所定値よりも大きい単一変数または/および変数の組合せを取り出すステップと、 Extracting a single variable or / and combination of variables having an appearance ratio greater than a predetermined value from each of the extracted data;
各前記相関係数と各前記出現比率に基づき、前記単一変数または/および前記変数の組合せを表示部に表示するステップと、 Displaying the single variable or / and the combination of variables on a display unit based on each correlation coefficient and each occurrence ratio;
を実施することを特徴とする相関性抽出方法。 The correlation extraction method characterized by implementing.
分析データを構成する複数の変数のうち2変数の指定を受け付ける工程、
前記2変数の散布図において前記分析データの重心を通る各直線を算出する工程、
各前記直線からの偏差が閾値を超えない各データを抽出する工程、
各前記データから相関係数を算出する工程、
抽出した各前記データから出現比率が所定値よりも大きい単一変数または/および変数の組合せを取り出す工程、
各前記相関係数と各前記出現比率に基づき、前記単一変数または/および前記変数の組合せを表示部に表示する工程、
を実行させるための相関性抽出プログラム。 On the computer,
A step of accepting designation of two variables among a plurality of variables constituting analysis data;
Calculating each straight line passing through the center of gravity of the analysis data in the scatter diagram of the two variables;
Extracting each data whose deviation from each straight line does not exceed a threshold;
Calculating a correlation coefficient from each of the data,
Extracting a single variable or a combination of variables having an appearance ratio larger than a predetermined value from each of the extracted data ;
Displaying the single variable or / and the combination of variables on a display unit based on each correlation coefficient and each occurrence ratio ;
Correlation extraction program to execute.
分析データを構成する複数の変数のうち2変数を選択する工程、 Selecting two variables from a plurality of variables constituting the analysis data;
前記2変数の散布図において前記分析データの重心を通る各直線を算出する工程、 Calculating each straight line passing through the center of gravity of the analysis data in the scatter diagram of the two variables;
各前記直線からの偏差が閾値を超えない各データを抽出する工程、 Extracting each data whose deviation from each straight line does not exceed a threshold;
各前記データから相関係数を算出する工程、 Calculating a correlation coefficient from each of the data,
抽出した各前記データから出現比率が所定値よりも大きい単一変数または/および変数の組合せを取り出す工程、 Extracting a single variable or a combination of variables having an appearance ratio larger than a predetermined value from each of the extracted data;
各前記相関係数と各前記出現比率に基づき、前記単一変数または/および前記変数の組合せを表示部に表示する工程、 Displaying the single variable or / and the combination of variables on a display unit based on each correlation coefficient and each occurrence ratio;
を実行させるための相関性抽出プログラム。 Correlation extraction program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019053874A JP6622938B1 (en) | 2019-03-20 | 2019-03-20 | Correlation extraction method and correlation extraction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019053874A JP6622938B1 (en) | 2019-03-20 | 2019-03-20 | Correlation extraction method and correlation extraction program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6622938B1 true JP6622938B1 (en) | 2019-12-18 |
JP2020154890A JP2020154890A (en) | 2020-09-24 |
Family
ID=68917252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019053874A Active JP6622938B1 (en) | 2019-03-20 | 2019-03-20 | Correlation extraction method and correlation extraction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6622938B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642823A (en) * | 2020-04-27 | 2021-11-12 | 横河电机株式会社 | Data analysis system, data analysis method, and non-transitory computer-readable medium |
CN113724313A (en) * | 2021-09-01 | 2021-11-30 | 河北工业大学 | Depth image straight line segment identification and extraction method based on correlation analysis |
-
2019
- 2019-03-20 JP JP2019053874A patent/JP6622938B1/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642823A (en) * | 2020-04-27 | 2021-11-12 | 横河电机株式会社 | Data analysis system, data analysis method, and non-transitory computer-readable medium |
CN113642823B (en) * | 2020-04-27 | 2024-04-30 | 横河电机株式会社 | Data analysis system, data analysis method, and non-transitory computer readable medium |
CN113724313A (en) * | 2021-09-01 | 2021-11-30 | 河北工业大学 | Depth image straight line segment identification and extraction method based on correlation analysis |
CN113724313B (en) * | 2021-09-01 | 2024-05-28 | 河北工业大学 | Depth image straight line segment identification and extraction method based on correlation analysis |
Also Published As
Publication number | Publication date |
---|---|
JP2020154890A (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281937B2 (en) | Data analyzing device and data analyzing method | |
WO2020166299A1 (en) | Material characteristics prediction device and material characteristics prediction method | |
JP6622938B1 (en) | Correlation extraction method and correlation extraction program | |
JP6178023B2 (en) | Module division support apparatus, method, and program | |
CN110618926A (en) | Source code analysis method and source code analysis device | |
JP5017434B2 (en) | Information processing apparatus and program | |
JP5415476B2 (en) | NMR data processing apparatus and method | |
JP2009009342A (en) | Information processing unit and program | |
JP6458157B2 (en) | Data analysis apparatus and analysis method | |
US10909177B1 (en) | Percentile determination system | |
JP2020024542A (en) | Data analysis device and data analysis method | |
JP5020491B2 (en) | NMR data processing apparatus and method | |
US11762562B2 (en) | Performance analysis apparatus and performance analysis method | |
KR101765292B1 (en) | Apparatus and method for providing data analysis tool based on purpose | |
JP6371981B2 (en) | Business support system, program for executing business support system, and medium recording the same | |
US11886513B2 (en) | Data analysis system, data analysis method, and computer program product | |
JP7132119B2 (en) | SKILL MAP PROCESSING DEVICE, SKILL MAP PROCESSING METHOD, AND SKILL MAP PROCESSING PROGRAM | |
CN109284354B (en) | Script searching method and device, computer equipment and storage medium | |
CN112419047A (en) | Method and system for predicting overdue of bank personal loan by utilizing characteristic trend analysis | |
EP3671467A1 (en) | Gui application testing using bots | |
JP7542459B2 (en) | Data analysis device, data analysis system and program | |
EP3912026A1 (en) | Process for evaluating software elements within software | |
JP2020166443A (en) | Data processing method recommendation system, data processing method recommendation method, and data processing method recommendation program | |
JP2014238666A (en) | Prediction expression generation method, prediction expression generation device and prediction expression generation program | |
JPWO2019012674A1 (en) | Integrated analysis management system of program and integrated analysis management method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190320 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190320 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6622938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |