[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6969637B2 - 因果関係分析方法および電子デバイス - Google Patents

因果関係分析方法および電子デバイス Download PDF

Info

Publication number
JP6969637B2
JP6969637B2 JP2020127265A JP2020127265A JP6969637B2 JP 6969637 B2 JP6969637 B2 JP 6969637B2 JP 2020127265 A JP2020127265 A JP 2020127265A JP 2020127265 A JP2020127265 A JP 2020127265A JP 6969637 B2 JP6969637 B2 JP 6969637B2
Authority
JP
Japan
Prior art keywords
variables
causal
variable
observed
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020127265A
Other languages
English (en)
Other versions
JP2020194560A (ja
Inventor
ウェンジュアン ウェイ
チュンチェン リュウ
ルー フェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2020194560A publication Critical patent/JP2020194560A/ja
Application granted granted Critical
Publication of JP6969637B2 publication Critical patent/JP6969637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • G06N5/013Automatic theorem proving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本開示は、データマイニングの技術分野に関し、より詳細には、観測変数(observed variables)間の因果関係(causality)を推定するための方法、装置、およびシステムに関する。
ビッグデータ時代では、大量のデータがデータ取得のさまざまな方法で収集され得、データを分析してマイニングすることによって多くの有用な情報が取得され得る。しかしながら、多くの応用分野では、人々は、しばしば、システムの表面的な側面のみを理解し、システムの背後にあるアクションおよびプロセスの複雑なメカニズム(complex mechanism)に対する深い洞察を有していない。多くの場合、人々は経験から複雑なメカニズムを理解することしかできない。
因果構造学習(causal structure learning)は、システムの観測データに基づいて、システムの複雑なメカニズムを自動的に学習し、データ生成プロセスを回復することを目的としている。現在、因果構造学習技術は、製薬、製造、市場分析などの多くの分野に適用されており、システムの性質についての洞察を得、さらに決定を下して価値を生み出している。
データセット内の観測変数は、連続変数または離散変数などの異なるデータタイプのものであり得る。しかしながら、実際には、日常的に収集されるデータセットは、マルチモーダルであり、つまり、データセットは、通常、単一タイプの変数ではなく、連続変数と離散変数とが混合したもので構成される。現在の因果構造学習において、共通モデルは、構造方程式モデル、ベイジアンネットワーク因果モデル(Bayesian network causal model)などを含む。しかしながら、これらの一般的な因果構造学習モデルは、主にシングルモーダルデータセットに重点を置いており、混合データセットに対するこれらのモデルのパフォーマンスは十分でない。
構造方程式モデルは、因果構造学習の一般的な方法であり、例えば、LiNGAMモデル、CAMモデル、ANMモデルなどは、全て、構造方程式モデルに属する。しかしながら、これらのモデルの分析は、連続変数または離散変数に使用され、既存の関連モデルは、連続変数と離散変数とが共存する場合にはうまく機能しない。
ベイジアンネットワーク因果モデルは、他の広く適用されている方法である。従来のベイジアン因果学習は、正確な推論アルゴリズムによる因果構造の高精度解法をサポートする。従来のベイジアンネットワーク因果モデルは、混合変数を処理するとき、通常、連続変数離散化、条件付き確率分布に基づくデータ型変換、および条件付き独立性テストに基づく方法を採用する。しかしながら、上記の方法の全てにはいくつかの問題がある。連続変数離散化の方法では、連続変数は離散変数に変換されるが、連続変数の離散化は連続変数の部分情報の喪失を引き起こす可能性があり、したがって精度の問題が生じる。条件付き確率分布に基づくデータ型変換の方法は、連続変数および離散変数の条件付き確率分布を同じデータ型に変換するが、そのような方法は、時間の複雑さ(time complexity)が高く、大量の変換のために、高次元の複雑な因果構造学習タスク(high dimensional complicated causal structure learning task)に使用することができない。さらに、条件付き独立性テストに基づく方法は、ネットワーク構造の等価クラスを決定することしかできず、ネットワークにおける特定の因果関係を完全に決定することができない。
さらに、Jing XiangとSeyoung Kimらによる「A*Lasso for Learning a Sparse Bayesian Network Structure for Continuous Variables」には、A*Lassoアルゴリズムを使用する因果推論の方法が提案されている。図1に示すように、提案手法では、まず観測データを受信し、次にデータ及びスパース性制約(sparsity constraint)をフィッティングする(fit)際のフィッティング矛盾(fitting inconsistency)に基づいて疎な因果構造をモデル化し、A*Lasso探索(search)による因果推論を実行する。さらに、この方法はまた、因果推論を加速するために、候補因果シーケンス(causal sequence)の数の閾値を設定することによって、最適因果シーケンスによって探索される探索空間(search space)を減少させる。
しかしながら、既存のスパース因果モデル化方法は、主に、全ての変数が連続変数または離散変数であるデータセットを対象としている。しかしながら、連続変数と離散変数とが共存するデータセットの場合、既存の因果モデルまたは推論アルゴリズムは、時間の複雑さが高いため、観測変数の高次元の複雑な因果構造学習をサポートできず、したがって、連続変数の離散化及び条件付き独立判定に基づいて学習された結果は最適ではないため、因果構造学習の精度が低下する可能性がある。
したがって、混合変数の文脈における観測変数間の因果関係を推定する新しい手法が当技術分野で必要とされている。
このような観点から、本開示は、観測変数間の因果関係を推定して、少なくとも部分的に当技術分野における問題を排除または軽減するための方法、装置およびシステムを提示する。
本開示の第1の態様によれば、観測変数間の因果関係を推定するための方法が提供される。この方法では、混合観測変数の観測データを受信することに応答して、連続観測変数および離散観測変数に適した混合因果関係目的関数(mixed causality objective function)が、観測変数の因果ネットワーク構造におけるデータ及びスパース性制約をフィッティングする(fit)際のフィッティング矛盾(fitting inconsistency)に基づいて、決定され得る。特に、混合因果関係目的関数は、連続観測変数の因果関係目的関数と離散観測変数の因果関係目的関数とを含み、フィッティング矛盾は、観測変数の重み係数に基づいて調整され、観測変数の重み係数は、観測変数以外の他の観測変数を用いて対象変数(object variable)をフィッティングするのに必要な最小コストの下限を表し、離散観測変数の重み係数は、連続観測変数の重み係数とは異なる。そして、複数の観測変数間の因果関係を推定するために、有向非巡回グラフの制約の下で混合観測データを用いて、連続観測変数および離散観測変数の両方に適している混合スパース因果推論によって、複数の観測変数についての混合因果関係目的関数を最適に解くことができる。
本開示の第2の態様によれば、観測変数間の因果関係を推定するための装置が提供される。装置は、混合目的関数決定モジュールおよび混合因果推論モジュールを有し得る。混合目的関数決定モジュールは、混合観測変数の観測データの受信に応じて、観測変数の因果ネットワーク構造におけるデータ及びスパース性制約をフィッティングする際のフィッティング矛盾に基づいて、連続観測変数および離散観測変数に適した混合因果関係目的関数を決定する、ように構成され得る。特に、混合因果関係目的関数は、連続観測変数の因果関係目的関数と離散観測変数の因果関係目的関数とを含み、フィッティング矛盾は、観測変数の重み係数に基づいて調整され、観測変数の重み係数は、観測変数以外の他の観測変数を用いて対象変数(object variable)をフィッティングするのに必要な最小コストの下限を表し、離散観測変数の重み係数は、連続観測変数の重み係数とは異なる。混合因果推論モジュールは、複数の観測変数間の因果関係を推定するために、有向非巡回グラフの制約の下で観測データを用いて、連続観測変数および離散観測変数の両方に適している混合スパース因果推論によって、複数の観測変数についての混合因果関係目的関数を最適に解くように構成され得る。
本開示の第3の態様によれば、観測変数間の因果関係を推定するためのシステムが提供される。システムは、プロセッサと、プロセッサによって実行されるときに、プロセッサに本開示の第1の態様にかかる方法のステップを実行させる1つ又は複数のコンピュータプログラムコードを格納したメモリと、を有し得る。
本開示の第4の態様によれば、プロセッサによって実行されるときに、コンピュータデバイスに本開示の第1の態様にかかる方法の動作を実行させるコンピュータプログラムコードを格納した、コンピュータ可読記憶媒体が提供される。
本開示の第5の態様によれば、コンピュータデバイスにロードされるときに、コンピュータデバイスに本開示の第1の態様にかかる方法の動作を実行させるコンピュータプログラムコードを格納した、コンピュータプログラム製品が提供される。
本開示の実施形態では、離散観測変数の因果関係目的関数と連続観測変数の因果関係目的関数の両方を含む混合因果関係目的関数が、混合観測変数の観測データについて構築される。さらに、フィッティング矛盾は観測変数の重み係数によって調整され、混合スパース因果推論が推論プロセスで採用される。したがって、本開示の実施形態で提案される観測変数間の因果関係を推定する解法は、混合観測データの文脈における因果関係推定に適しており、因果ネットワーク構造は観測変数の推定誤差にそれほど敏感ではなく、したがって、正確な因果関係が取得され得る。さらに、以下の実施形態でさらに説明されるように、探索空間のプルーニングはまた、変数グループの順次関係に基づく探索空間プルーニング技術を使用して実行され、問題に対する解決策を加速し最適化することができる。
添付の図面を参照した例示的な実施形態の以下の詳細な説明を通して、本開示の上記および他の特徴がより明らかになるであろう。本開示の図面において、同じ参照符号は同じまたは同様の構成要素を表す。
図1は、従来技術における因果関係を推定する方法を概略的に示す図である。
図2は、本開示の実施形態にかかる、観測変数間の因果関係を推定する方法のフローチャートを概略的に示す図である。
図3は、本開示の実施形態にかかる、スパース因果関係推論の方法のフローチャートを概略的に示す図である。
図4は、本開示の他の実施形態にかかる、スパース因果関係推論の方法のフローチャートを概略的に示す図である。
図5は、本開示の実施形態にかかる、変数グループの順次関係を生成する方法のフローチャートを概略的に示す図である。
図6Aは、本開示の実施形態にかかる、変数グループの順次関係を生成するプロセスにおける、親関係グラフの一例、強連結成分及び新たな有向非巡回グラフを概略的に示す図である。 図6Bは、本開示の実施形態にかかる、変数グループの順次関係を生成するプロセスにおける、親関係グラフの一例、強連結成分及び新たな有向非巡回グラフを概略的に示す図である。 図6Cは、本開示の実施形態にかかる、変数グループの順次関係を生成するプロセスにおける、親関係グラフの一例、強連結成分及び新たな有向非巡回グラフを概略的に示す図である。
図7は、本開示の実施形態による、観測変数間の因果関係を推定するための装置のフローチャートを概略的に示す図である。
図8は、本開示の実施形態による、観測変数間の因果関係を推定するためのシステムの概略図を概略的に示す図である。
以下、図面を参照して、本開示の様々な例示的な実施形態が詳細に説明される。これらの図面及び説明は、例として機能する好ましい実施形態にのみ関連することに留意されたい。本明細書に開示される構造および方法の代替の実施形態は、以下の説明に基づいて容易に想到され得、これらの代替の実施形態は、本開示によって保護される原理から逸脱することなく利用され得ることに、留意されたい。
これらの例示的な実施形態は、単に当業者が本開示をよりよく理解し、さらに実施することを可能にするために記載されており、決して本開示の範囲を限定することを意図していないことが理解されよう。また、図面において、説明の便宜上、任意選択のステップ、モジュールなどは、破線の箱で示されている。
本明細書で使用されるとき、用語「有する/有している(comprise(s)/comprising)」、「含む/含んでいる(include(s)/including)」などは、「有する/含むが、これに限定されない」を意味するオープンエンドの用語として解釈されるべきである。「に基づく(based on)」という用語は、「少なくとも部分的に基づく」と解釈されるべきである。「一実施形態」は、「少なくとも1つの実施形態」と解釈されるべきである。「さらなる実施形態」は、「少なくとも1つのさらなる実施形態」と解釈されるべきである。他の用語の関連定義は、以下の説明において提供されるであろう。
上述したように、現在のスパース因果モデル化方法は、主に、全てのデータが連続変数または離散変数であるデータセットを対象としている。しかしながら、連続変数と離散変数とが共存するデータセットの場合、既存の因果モデルまたは推論アルゴリズムは、時間の複雑さが高いため、観測変数の高次元の複雑な因果構造学習をサポートできず、したがって、連続変数の離散化及び条件付き独立判定に基づいて学習された結果は最適ではないため、因果構造学習の精度が低下する可能性がある。
この目的のために、本開示の実施形態は、上記の問題を少なくとも部分的に軽減するために、混合データ型の文脈で観測変数の因果関係を推定するための新しい方法、装置、およびシステムを提供する。本開示の実施形態によれば、混合変数の重み付き因果ネットワーク構造モデリングの方法が提案され、ここで、混合因果ネットワーク構造(mixed causal network structure)は、フィッティング矛盾(fitting inconsistency)と、スパース性制約と、観測データの重み係数(weighted factor)とを統合することによって構築され、重み係数は、異なる変数タイプの観測変数の分析に対する感度(sensitivity)と、観測変数の誤差の推定に対する感度とを除去するために使用される。一方、混合変数の因果構造学習は、新しい混合因果モデルに基づく混合因果推論アルゴリズム(mixed causal inference algorithm)を用いて行われる。特に、いくつかの実施形態では、最適な親ノードセットは、サブセット全体ではなく、観測変数の任意の親ノードセットと現在のサブセットとの交差(intersection)から選択され得、これにより、探索結果が最適であることを保証するだけでなく、推論プロセスをさらに加速させることができる。
以下、図2〜図8を参照して本開示にかかる観測変数間の因果関係を推定する方法、装置及びシステムについて説明する。しかしながら、これらの説明は単に説明の目的のためであり、本開示はこれらの実施形態および図面に与えられた詳細に限定されないことを理解されたい。
図2は、本開示の実施形態にかかる、観測変数間の因果関係を推定するためのフローチャートの概略図を概略的に示す図である。図2によれば、最初にステップ201において、混合観測変数の観測データを受け取ることに応答して、連続観測変数および離散観測変数に適した混合因果関係目的関数が、観測変数の因果ネットワーク構造に対するデータ及びスパース性制約をフィッティングする(fit)際のフィッティング矛盾(fitting inconsistency)に基づいて決定され、ここで、混合因果関係目的関数は、連続観測変数の因果関係目的関数と離散観測変数の因果関係目的関数とを含む。フィッティング矛盾は、観測変数の重み係数に基づいて調整され、観測変数の重み係数は、観測変数以外の他の観測変数を用いて対象変数(object variable)をフィッティングするのに必要な最小コストの下限を表し、離散観測変数の重み係数は、連続観測変数の重み係数とは異なる。
具体的には、観測データベースは、システム観測データX(X∈RN×D)を格納するように設定され得るが、ここで、XはN×D行列、Nは観測サンプル数、Dは観測変数の次元または観測変数の数である。観測データベースのデータは、第三者によってもたらされてもよいし、他の方法で収集されてもよい。さらに、これらのデータは、生データの統合、縮小およびノイズ除去などのように前処理されてもよい。前処理動作自体は当技術分野において既知であり、ここでは詳述しない。
本開示の実施形態では、複数の観測変数の混合因果関係目的関数は、観測変数の因果ネットワーク構造におけるデータ及びスパース性制約をフィッティングする際のフィッティング矛盾に基づいて構築され得る。しかしながら、従来の目的関数とは異なり、本願で提案された方法は、連続観測変数および離散観測変数に適した混合変数因果モデルを構築し、ここで、因果関係目的関数は、離散型の観測変数についての因果関係目的関数と、連続型の観測変数についての因果関係目的関数とを含む。さらに、フィッティング矛盾は、異なるタイプの観察データ間のフィッティング矛盾の大きさ、及び、同タイプの観測データと比較可能な値の範囲との間のフィッティング矛盾の大きさの両方を調整するように、観測変数の重み係数(略して変数重み係数(variable weighted factor)とも呼ばれる)によって調整され、それにより、観測変数の誤差を推定するための因果ネットワーク構造の感度が低下する。
以下、説明のために、まず、一例を参照しながら、本開示で提案される、混合変数構造学習の適合度(fitting degree)を評価するための混合情報量基準(MIC;Mixed Information Criterion)について、説明する。MICは因果関係目的関数の基礎である。例えば、MICは、以下のように表され得る。
Figure 0006969637
・・・式(1)
方程式の最初の項は、変数重み係数wによって調整されたフィッティング矛盾を表し、2番目の項は、観測変数間の因果関係を特徴付けるために構成された因果関係構造ネットワークにおけるスパース性制約を表す。具体的には、Gは因果ネットワーク構造を表す。X∈Rは、観測変数Xを記述する、N個の観測値から構成されるベクトルを表す。Pa(X)は、因果構造GにおけるXの親ノードを表し、Xと他の変数との間の因果関係を表す。wは、変数間の範囲の違いをバランスさせるためのスカラーパラメータを表し、連続変数及び離散変数の違い、及び、様々な連続変数の値の範囲の違いを含む。LL(X|Pa(X))は、例えば負の対数尤度(損失関数としても知られる)などの、データのフィッティング矛盾に依存する。そして、Pen(X,Pa(X))は、観測変数Xの因果推定におけるスパース性制約、例えば、L0スパース性制約を設定するために使用される。
特に、異なるタイプの観測変数についてのフィッティング矛盾は、様々な方法で計算され得る。連続変数に関して、連続変数とそれらの親ノードとの間に線形関係が存在し、観測変数の誤差がラプラス分布に従うと仮定され得る。したがって、以下の式が得られる。
Figure 0006969637
・・・式(2)
ここで、βは、XとX以外の他の変数X−iとの間の因果関係を示し、解決されるべき因果関係である。εは、変数Xについての観測変数誤差を表し、Laplace(0,b)は、平均値が0でスケールパラメータがbのラプラス分布を表す。この式において、βij=0であれば、変数XはXの親ノードではないことを意味し、したがって(β,X−i)はXの親ノードPa(X)を示す。
ここで、変数誤差分布(variable error distribution)はラプラス分布であるとする。これは、一方では超ガウス分布が特異点に対してよりロバストであり、他方では、条件付き独立判定(conditional independence judgment)の方法が連続変数に使用される場合に誤差がガウス分布に従わない場合に、識別可能な因果構造が得られるからである。ラプラス分布を仮定すると、混合変数の連続変数に対するMIC規則は次のように表され得る。
Figure 0006969637
・・・式(3)
ここで、nは観測データ数を表す。xinは、変数Xのn番目の観測データ値を示す。X−i,nは、変数X以外の他の変数X−iのn番目の観測データ値を表す。biは変数Xに対するラプラス分布のスケールパラメータを表し、βはXと変数X以外の他の変数X−iとの間の因果関係である。
同様に、離散変数については、それらの誤差がロジスティック分布に準拠していると仮定することができ、さらに以下の式が得られ得る。
Figure 0006969637
・・・式(4)
ここで、βは、Xと変数X以外の他の変数X−iとの間の因果関係を示し、解決されるべき因果関係である。εiは変数Xiについての変数誤差(variable error)を表し、Logistic(0,1)は平均値0とスケールパラメータ1を持つロジスティック分布を表す。この場合、混合変数の連続変数についてのMIC規則は次のように表され得る。
Figure 0006969637
・・・式(5)
ここで、nは観測データ数を表す。xinは、変数Xのn番目の観測データ値を示す。X−i,nは、変数X以外の他の変数X−iのn番目の観測データ値を表す。βはXと変数X以外の他の変数X−iとの間の因果関係である。
言い換えると、式(1)の混合情報量基準MICでは、式(3)のMICが連続型の観測データに用いられ、式(5)の基準が離散型の観測データに用いられる。2つの基準の統合された結果は、混合変数構造学習の適合度についてのMICとして機能する。
さらに、式(1)の変数間の値の範囲の違いをバランスさせるための重み係数wについて、計算方法の例を以下に示す。
Figure 0006969637
・・・式(6)
ここで、Pa(X)は、Xに対する潜在親ノード(potential parent node)の最適セットを表し、Xの親ノード集合は、潜在親ノードの最適セットの1つのサブセットであり、つまり、Pa(X)⊆Pa(X)である。したがって、式(1)のLL(X|Pa(X))/wは、は、重み係数によって調整された相対損失を表す。絶対損失と比較して、相対損失は、異なる変数範囲によって引き起こされるデータの差異を減らし、同様に観測変数Xの推定誤差に対するモデルの感度を低下させる。
本開示の実施形態では、上記の式(6)でwを計算するために使用される特定の式は、異なる種類の観測変数によって異なる。たとえば、連続型の観測値について、wは、ラプラスの仮定に基づいて次の式で計算され得る。
Figure 0006969637
・・・式(7)
式(7)は、式(3)と同様であるが、X’を用いる点で異なり、X’は、Xの親ノードであり、X−1のサブセットである。同様に、離散型の観測値について、wは、ロジスティック分布の仮定に基づいて、例えば、次の式で計算され得る。
Figure 0006969637
・・・式(8)
式(7)は、式(5)と実質的に同様であるが、X’を用いる点で異なり、X’は、Xの親ノードであり、X−1のサブセットである。
式(7)及び式(8)から、変数重み係数の計算は、元の目的関数(変数重み係数によって調整されていない目的関数)と同様の構造を採用して、変数xiを考慮せずに、目的の変数を他の変数を用いてフィッティングするのに必要な最小コストのより低い制限を計算することも理解され得る。しかしながら、変数重み係数を計算している場合、最小コストのより低い制限は、有向非巡回グラフを使用せずに得られる。ただし、同様の効果が達成される限り、変数重み係数は他の同様の方法でも決定され得ることに留意されたい。
このようにして、各観測データXについて、その潜在親ノードの最適セットが、上記の式からまず決定され得、それに応じて、重み係数wが、潜在親ノードの決定された最適セットに基づいて決定され得る。すなわち、実際には、潜在親ノードの最適セットの文脈において負の対数尤度が解かれる。したがって、式(6)は、以下のように直接表され得る。
Figure 0006969637
・・・式(9)
さらに、以下の混合因果関係目的関数の例は、本開示における混合変数構造学習の適合度を評価するための混合情報量基準(MIC)に基づいて提供され得る。ここで、スパース因果構造のロバストモデルは、離散型の観測データ及び連続型の観測データの対数尤度、変数重み係数、及びL0スパース性制約を使用して構築される。
Figure 0006969637
・・・式(10)
ここで、
∈Rは、観測変数Xを記述する、N個の観測値から構成されるベクトルを表す。
−i∈RN×(D−1)は、変数Xを除く観測データの全てのデータを表し、行列の各列は、それぞれ、変数X,...Xi−1,Xi+1,,...Xに対応する。
β∈RD−1は、変数Xと他の変数との間の因果強度(causal strength)を記述する推定されるべきパラメータを示す。
||A||は、ベクトルのL0ノルムを示す。
制約G∈DAGは、因果ネットワーク構造を有向非巡回グラフとして拘束するために使用される。
λは、観測変数Xの因果推定に対するスパース性制約の強度を設定するためのスーパーパラメータを示す。
スカラーパラメータとしてのwは、観測変数Xの推定誤差に対するモデルの感度を低減させるための変数重み係数を示す。
はデータの種類を示し、z=1は離散変数を表し、z=0は連続変数を表す。
上記の目的関数(10)から、混合因果関係目的関数は、連続観測変数についての因果関係目的関数と離散観測変数についての因果関係目的関数とを含むことが理解され得る。離散観測変数については、離散観測変数についての因果関係目的関数が用いられ得、連続観測変数については、連続観測変数についての因果関係目的関数が用いられ得る。さらに、連続観測変数及び離散観測変数の変数分布の重み係数wを使用して、フィッティング矛盾も調整される。具体的には、元のフィッティング矛盾が変数重み係数で除算される。しかしながら、同様の効果が達成され得る限り、調整は他の同様の方法でも実行され得ることに留意されたい。
変数推定誤差に対する目的関数の感度を除去して目的関数をよりロバスト化するように、異なるデータタイプのフィッティング矛盾および同じデータタイプのフィッティング矛盾は、変数重み係数wを使用して同等の大きさに変換され得る。
さらに、目的関数(10)から、L0スパース性制約が採用されていることも観察され得る。しかしながら、本発明はこれに限定されるものではない。実際、目的関数(1)もまた、L1スパース性制約を採用することができる。次元を削減するとき、L1スパース性制約は、目的に無関係な要素を削除するだけでなく、場合によっては目的に関連する要因も削除し、それによってスパース次元削減の精度に影響を与えることを明確にすべきである。しかしながら、このような欠陥は、L0スパース性制約によって克服され得る。
次に、ステップ202において、複数の観測変数間の因果関係を推定するように、有向非巡回グラフの制約下での混合観測データを用いて、連続観測変数及び離散観測変数の両方に適した混合スパース因果推論(mixed sparse causal interference)により、複数の観測変数についての混合因果関係目的関数において最適解が得られる。
有向非巡回グラフによって制約される上記の因果関係目的関数は、従来の方法を使用して、再帰(recursion)を用いて最適な因果シーケンス(causal sequence)を解く問題に変換され得る。本開示の実施形態によれば、変換された再帰問題は以下のように記述され得る。
Figure 0006969637
・・・式(11)
Figure 0006969637
・・・式(12)
ここで、Vは一組の全観測変数を表し、Uは一組の未分類観測変数を表す。π は、変数セットUに属し、因果シーケンスにおいて最初にランク付けされる変数を示し、S(β)は、ベクトルβのサポートセットを表す。
従来のA*探索アルゴリズムまたは任意の他の適切なアルゴリズムなど、式(11)を解くための様々な方法がある。しかしながら、連続データ分布および離散データ分布については、それぞれに適した特徴選択基準(feature selection criteria)が採用される。
さらに、因果シーケンス再帰問題が解決されているとき、従来のA*探索アルゴリズムの拡張である拡張A*探索アルゴリズムもまた採用され得る。本明細書に開示された実施形態では、拡張A*探索アルゴリズムに基づく解法が提案されている。拡張A*探索アルゴリズムは、ここでは、因果シーケンスグラフの空間内で最適な因果シーケンス生成経路を探索するために使用される混合A*FoBaアルゴリズムと称され得る。しかしながら、z=1の場合、すなわち離散変数の場合、離散変数に関連するFoBaスパース回帰アルゴリズムが採用され、例えば特徴選択はF1スコアに基づくが、z=0の場合、すなわち連続変数の場合、連続変数に関するFoBaスパース回帰アルゴリズムが採用される。このとき、特徴選択は、例えば、平均絶対誤差(MAE;Mean Absolute Error)に基づき得る。
以下、関数fは、混合A*FoBaアルゴリズムに従って以下のように表され得る。
Figure 0006969637
・・・式(14)
ここで、g(Q)は開始ノードからノードQを介して現在のノードまでに費やされるコストを表し、h(Q)は現在のノードからターゲットノードまでの予測コストを表し、ここで、g(Q)およびh(Q)は、次式に従ってそれぞれ計算され得る。
Figure 0006969637
・・・式(14)
以下の点に留意すべきである。拡張A*探索アルゴリズムによって最適解が見つけられることを保証するために、h()関数は2つの特性、つまり矛盾がないこと(being consistent)及び許容可能であること(being admissible)を満たすべきである。ここで、矛盾がないこととは、任意の2つのノードQおよびQ’(Q’=[Q,x]),h(Q)<h(Q’)+MScore(x|Q)について、h()関数が整合性を満たすと看做され得ることを意味する。許容可能であることは、現在のノードQからターゲットノードまでに必要とされるコストの推定値h(Q)が実際のコストよりも低く見積もられるべきであることを示す。
式(6)から、混合A*FoBa探索アルゴリズムでは、h関数およびg関数が従来のA*探索アルゴリズムとは異なることが分かる。開始ノードから現在のノードまでに費やされたコスト(g関数)および現在のノードからターゲットノードまでの予測コスト(h関数)は、変数重み係数によって調整されたフィッティング矛盾および観測変数の因果ネットワーク構造に対するスパース性制約に基づいて決定される。
以下、図3を用いて本開示の一実施形態に係る混合A*FoBa探索方法の流れの一例について説明する。
図3によれば、最初に、ステップ301で初期化動作が実行される。特に、因果シーケンスセットCLOSE、ソート変数(sorted variable)セットQ、候補因果シーケンス
Figure 0006969637
、および、因果シーケンスセットOPENが、初期化される。
因果シーケンスセットCLOSEは、それに基づいて生成された新しい候補因果シーケンスのソートされたシーケンスセットを格納するために提供され、初期化中に空のセットに初期化され得る。ソート変数セットQは、ソート変数のセットを表し、初期化中に空のセットに初期化され得る。候補因果シーケンス
Figure 0006969637
は、ソート変数の候補シーケンスである。因果関係シーケンスセットOPENは、次の形式を取る。
Figure 0006969637
・・・式(15)
ここで、Qはソート変数セットを表し、f(Q)は上記の式(13)を表し、
Figure 0006969637
は、候補因果シーケンスを表し、以下のように初期化され得る。
Figure 0006969637
・・・式(16)
次に、ステップ302において、最小のf関数値を有するソート変数セットQが、OPENセットから抽出され、ステップ303において、Qのh関数が0であるか否か、すなわち、ターゲットノードへのパスが発見されたか否かが判定される。それがゼロであれば、f関数の最小値に対応する候補因果シーケンスが最適因果シーケンスとして返され、そうでなければ、方法はステップ304に進む。初期操作では、OPENセットはソート変数セットを全く含まないので、方法は新しいソート変数セットを生成するためにステップ304にも進む。
ステップ304において、各観測変数v∈V\Qsについて、新たにソートされた因果シーケンスセットQs’および候補因果シーケンス
Figure 0006969637
が生成され、対応するf(Qs’)が学習される。
Figure 0006969637
・・・式(17)
初期動作について、Qsは空であり、新たにソートされた因果セットおよび対応する候補因果シーケンスは、観測変数vごとに生成され得、対応するf(Qs’)が学習される。
その後、ステップ305において、生成された候補因果シーケンスは、OPENセットを更新するためにOPENセットに追加される。つまり、
Figure 0006969637
次に、ステップ306において、最小のf関数値を有する以前に抽出されたQが、OPENセットからCLOSEセットに転送される、つまり、Q及びその関連情報をOPENセットから削除し、それらをCLOSEセットに追加する。その後、方法は302にジャンプして実行を続ける。
ステップ301から305の動作は、0のh関数値を有するソート変数セットが発見され、対応する候補因果シーケンスが最適因果シーケンスとして返されるまで、繰り返し実行され得る。
説明のため、3つの観測変数が簡単な説明のための例として取られる。しかしながら、観測変数の次元は実際の運用でははるかに高くなることに留意されたい。3つの観測変数セット{v}、{v}および{v}の場合、OPENセットは最初の動作では空であり、新たにソートされた観測変数セット{v}、{v}および{v}が各観測変数v1、v2およびv3それぞれについて生成され、対応する候補因果シーケンスが得られ、対応するf(Qs’)が学習される。生成された候補因果シーケンスは、OPENセットに配置される。第2の動作において、最小のf関数値を有するソート変数セット、例えば{v}が3つの変数セットから発見され、そして{v}のh関数値が決定される。この時点で、h関数値はゼロではない。したがって、{v,v}および{v,v}、対応する候補因果シーケンスv,vおよびv,v、ならびに対応するf(Qs’)のような、2つのソートセットが、続いて生成される。その後、{v}とその関連情報は、OPENセットから削除され、CLOSEセットに配置される。第3の動作において、最小のf関数値を有するシーケンス、例えば{v,v}が、OPENセットから選択され、ソートされたシーケンス{v,v,v}、対応する候補因果シーケンスv,v,vおよび対応するf(Qs’)がさらに生成され、{v、v}およびその関連情報が、OPENセットからCLOSEセットに転送される。第4の動作において、今度は{v,v,v}のように最小のf関数値を有するシーケンスが選択され、そのh関数値はゼロである。したがって、対応する候補因果シーケンスv,v,vは、探索プロセスを完了するように、最適な因果シーケンスとして返され得る。
さらに、反復演算の探索処理中に、探索空間プルーニング(search space pruning)を採用して、スパース因果関係推論(sparse causality inference)を加速することもできる。本開示の実施形態では、従来技術における閾値ベースの探索空間プルーニングの代わりに、変数グループの連続関係に基づく探索空間プルーニングが使用される。言い換えれば、本開示では、変数グループの順次関係(sequential relation)
Figure 0006969637
を導入することが提案され、シーケンスグラフの探索空間は、変数グループの順次関係に従ってプルーニングされる。図4は、探索空間プルーニングが採用された場合の混合A*FoBa探索方法の例示的なフローチャートを示す。
図4によれば、図4のステップ401から407は、図3のステップ301から307と同一であり、ここでは詳述しない。図4と図3との違いは、変数グループの順次関係に基づく探索空間プルーニングのために、ステップ404とステップ405との間に新たに追加された、ステップ408にある。ステップ404において新たなソート因果関係シーケンスセット(new sorted causality sequence set)Qs’および対応する候補となる因果シーケンス
Figure 0006969637
が得られると、ステップ408において、変数グループの順次関係を用いて候補因果シーケンス
Figure 0006969637
がさらに検証され、候補因果シーケンスが変数グループの順次関係と矛盾しないか否かを判定する。候補因果シーケンスと変数グループの順次関係との間に矛盾がない場合、方法はステップ405に進み、そこで新しく生成された候補因果シーケンスがOPENセットに追加される。一方、候補因果シーケンスと変数グループの順次関係との間に矛盾がある場合、本方法はステップ405をスキップして直接ステップ406を実行する。このようにして、探索空間をプルーニングして、最適解を発見するプロセスを加速することができる。
変数グループの順次関係は様々な方法で取得され得る。例えば、関連分野の専門家が、変数グループの順次関係を提供できる。例えば、G1={v,v},G2={v,v}およびG3={v,v,v,v}について、その分野の専門家は変数グループの順次関係
Figure 0006969637
を提示することができる。また、観測データを自動的に学習することによっても、変数グループの関係が得られ得る。以下、図5を参照して、変数グループの順次関係を自動的に学習する方法の一例について説明する。
図5によれば、ステップ501において、最初に、各観測変数v(i∈{1,...、D})について潜在的に最適な親ノードセットPOPが取得される。各観測変数の潜在的に最適な親ノードセットは、従来のA*探索スパース回帰アルゴリズムおよびA*lasso探索アルゴリズムなどを用いるといった、異なる方法で取得され得る。さらに、本開示で提案されている混合A*FoBaスパース回帰アルゴリズムを使用して、セットを取得することもできる。最適な親ノードセットを取得するための詳細な方法は当技術分野において公知であり、ここでは繰り返さない。
次に、ステップ502において、ステップ501で得られた最適な親ノードセット{POPS,...,POPS}に基づいて親関係グラフ(parent relation graph)が生成される。具体的には、各観測変数がグラフでノードに変換され、VからVへのエッジが各観測変数V∈POPSについて生成されて、変数Vが変数Vの潜在的な親ノードであることを記述することができる。図6Aは、6つの変数が関与する、本開示の実施形態による親関係グラフの一例を示す図である。
次に、ステップ503において、ステップ502で生成された親関係グラフから強連結成分SCCが抽出され、{SSC,...,SSC}を取得し、ここで、
Figure 0006969637
、つまり、全ての強連結成分(strongly connected component)の和集合(union)が変数の全体集合(universal set)である。強連結成分は、それ自体でループを形成することができ、他のノードまたは強連結成分とのループを形成できないノードの集合である。図6Bは、図6Aに示す親関係グラフから抽出された強連結成分SCCおよびSCCを模式的に示す図である。
次にステップ504において、ステップ502の親関係グラフが、生成された強連結成分SSCに基づいて、新しい有向非巡回グラフGnewに変換される。方法の一例は、強連結成分SCCのそれぞれを新しいノードNに変換することであり、SCC内のいずれかのノードから親関係グラフ内のSCC内のノードへのエッジがある場合は、NからNへのエッジがGnewに追加される。図6Cは、図6Bの強連結成分に従って生成された新たな有向非巡回グラフを示す。図6Bの強連結成分SCCおよびSCCは、それぞれ2つの新しいノードNおよびNに変換される。図6Aの親関係グラフのSCCにはSSCへのエッジがあるので、2つのノードNとNの間にNからNへのエッジが追加される。これにより、新たな有向非巡回グラフGnewが取得され得る。
最後に、ステップ505において、全ての有向非巡回グラフの強連結成分が抽出され、それらの順次関係が変数グループの順次関係として働く。有向非巡回グラフにおいて変数グループの順次関係
Figure 0006969637
が直接取得され得るので、順次関係
Figure 0006969637
が取得され得る。例えば、図6Cに示す新たな有向非巡回グラフについて、
Figure 0006969637
が取得され得る。
このようにして、探索空間プルーニングのための変数グループの順次関係を得ることができる。しかしながら、本発明はこれに限定されるものではなく、変数グループの順次関係を得るための他のいかなる方法も実現可能であることに留意すべきである。
本開示の実施形態では、離散観測変数の因果関係目的関数と連続観測変数の因果関係目的関数の両方を含む混合因果関係目的関数が、混合観測変数の観測データについて構築される。さらに、フィッティング矛盾は観測変数の重み係数によって調整され、混合スパース因果推論が推論プロセスで採用される。したがって、本開示の実施形態によって提案される観測変数間の因果関係を推定する解法は、混合観測データの文脈における因果関係推定に適しており、因果ネットワーク構造は観測変数の推定誤差にそれほど敏感ではなく、したがって、正確な因果関係が取得され得る。さらに、以下の実施形態でさらに説明されるように、探索空間プルーニングはまた、変数グループの順次関係に基づく探索空間プルーニング技術を使用して達成され、問題に対する解決策を加速し最適化することができる。
図7はまた、本開示の実施形態による、観測変数間の因果関係を推定するための例示的な装置700のブロック図を示す。図7によれば、装置700は、混合目的関数決定モジュール702および混合因果推論モジュール703を含む。
目的関数決定モジュール702は、混合観測変数の観測データの受信に応じて、観測変数の因果ネットワーク構造におけるデータ及びスパース性制約をフィッティングする際のフィッティング矛盾に基づいて、連続観測変数および離散観測変数に適した混合因果関係目的関数を決定する、ように構成されている。混合因果関係目的関数は、連続観測変数の因果関係目的関数と離散観測変数の因果関係目的関数とを含み、フィッティング矛盾は、観測変数の重み係数に基づいて調整され、観測変数の重み係数は、観測変数以外の他の観測変数を用いて対象変数(object variable)をフィッティングするのに必要な最小コストの下限を表す。さらに、離散観測変数の重み係数は、連続観測変数の重み係数とは異なる。観測データベース701は、システム観測データX(X∈RN×D)が格納されるように構成され得る。ここで、XはN×D行列であり、Nは観測サンプル数を示し、Dは観測変数の次元または観測変数の数を示す。観測データベースのデータは、第三者によってもたらされてもよいし、他の方法で収集されてもよい。さらに、データは前処理され得る。
因果推論モジュール703は、複数の観測変数間の因果関係を推定するために、有向非巡回グラフの制約の下で観測データを用いて、連続観測変数および離散観測変数に適している、混合スパース因果推論によって複数の観測変数についての混合因果関係目的関数を最適に解くように構成されている。
本開示にかかる実施形態では、連続観測変数の因果関係目的関数は、観測変数の誤差がラプラス分布であるという仮定に基づいて構築され得、離散観測変数の因果関係目的関数は、観測変数の誤差がロジスティック分布であるという仮定に基づいて構築される。
本開示にかかる実施形態では、連続観測変数の重み係数は、観測変数の誤差がラプラス分布であると仮定して計算され、離散観測変数の重み係数は、観測変数の誤差がロジスティック分布であると仮定して計算される。
本開示にかかる実施形態では、混合因果推論モジュールは、複数の観測変数についての変数モデルの混合スパース因果推論を、再帰を用いて最適因果シーケンスを解く問題に変換するように構成されている。因果推論モジュール703は、観測変数についての因果ネットワーク構造における調整されたフィッティング矛盾およびスパース性制約に基づいて、開始ノードから現在のノードまでのコスト(g関数値)および現在のノードからターゲットノードまでの予測コスト(h関数値)を決定するように構成され得る。再帰を用いて最適因果シーケンスを解く問題に関しては、図3を参照して上記の説明を参照することができる。
本開示にかかる実施形態では、スパース性制約は、L0スパース性制約であり得る。
本開示にかかる実施形態では、装置700は、さらに、探索空間プルーニングモジュール704を有してもよい。探索空間プルーニングモジュール704は、最適因果シーケンス再帰を解決するプロセスにおいて、新たに生成された候補因果シーケンスについて、変数グループの予め定められた順次関係と矛盾しないか否かを判定し、矛盾すると判定された場合に、新たに生成された因果関係シーケンスを放棄するように、構成されている。探索空間プルーニングについては、図4を参照して上記の説明を参照することができる。
本開示にかかる実施形態では、変数グループの予め定められた順次関係は、当業者によって与えられる。本開示のさらなる実施では、変数グループの予め定められた順次関係は、観測データに基づいて自動的に決定される。
本開示によるさらなる実施では、装置700は、順次関係決定モジュール705をさらに有してもよい。順次関係決定モジュール705は、変数グループの予め定められた順次関係を、
各観測変数について潜在的に最適な親ノードセットを取得し、
得られた最適な親ノードセットに基づいて親関係グラフを生成し、
親関係グラフから強連結成分を抽出し、
強連結成分内の各成分を新たなノードに変換し、親関係グラフ内の2つの強連結成分間の連結性の存在下でそれぞれの新たなノード間に対応するエッジを追加することによって、親関係グラフを新たな有向非巡回グラフに変換し、
有向非巡回グラフにおける強連結成分間の順次関係を抽出して、変数グループの予め定められた順次関係とする、
ことによって、自動的に決定するように構成され得る。変数グループの順次関係の自動決定については、図5を参照して上記の説明を参照することができる。
図8は、本開示の一実施形態による、観測変数間の因果関係を推定するためのシステムの概略図を概略的に示す。次に、図8を参照して、本発明の因果推定を実施するためのシステムを説明する。
図8に示すコンピュータシステムは、CPU(Central Processing Unit)801、RAM(Random Access Memory)802、ROM(Read Only Memory)803、システムバス804、ハードディスクコントローラ805、キーボードコントローラ806、シリアルインタフェースコントローラ807、パラレルインタフェースコントローラ808、ディスプレイコントローラ809、ハードディスク810、キーボード811、シリアル周辺機器812、パラレル周辺機器813、及びディスプレイ814を有する。これらの構成要素間で、システムバス804は、CPU801、RAM802、ROM803、ハードディスクコントローラ805、キーボードコントローラ806、シリアルインタフェースコントローラ807、パラレルインタフェースコントローラ808、及びディスプレイコントローラ809と接続している。ハードディスク810は、ハードディスクコントローラ805と接続され、キーボード811は、キーボードコントローラ806と接続され、シリアル周辺機器812は、シリアルインタフェースコントローラ807と接続され、パラレル周辺機器813は、パラレルインタフェースコントローラ808と接続され、ディスプレイ814は、ディスプレイコントローラ809と接続されている。
メモリには、コンピュータによって実行されると、CPUを起動させて、本開示の実施形態で提案された方法の動作、例えば図1から図6を参照して説明した実施形態の動作を実行させる、1つまたは複数のコードが格納され得る。
図8の構造ブロック図は例示の目的で提示されたものであり、決して本発明を限定するものではないことを理解されたい。場合によっては、必要に応じてその中のいくつかの装置を追加または削減することができる。
本開示で提供される解決策は、有利な効果を得るために、製薬、製造、市場分析、交通予測、天気予報、大気質予測などの様々な用途に適用することができることが理解されよう。
さらに、本発明の実施形態は、ソフトウェア、ソフトウェアと組み合わせたハードウェア、及びハードウェアによって実現することができる。ハードウェア部分は、専用ロジックで実装され得、ソフトウェア部分は、メモリに格納され、マイクロプロセッサまたは専用設計ハードウェアなどの適切な命令実行システムによって実行され得る。
当業者は、上記の方法および装置がコンピュータ実行可能命令を使用して実現でき、および/またはプロセッサ制御コード、例えばディスク、CDまたはDVD−ROMのキャリア媒体、読み取り専用メモリ(ファームウェア)のプログラマブルメモリ、または光または電子信号のデータキャリア、に提供されたコードで実行できることを理解することができる。
実装の装置およびその構成要素は、例えば、超大規模集積回路またはゲートアレイ、半導体(論理チップ、トランジスタなど)、またはプログラマブルハードウェアデバイスのハードウェア回路(フィールド・プログラマブル・ゲート・アレイ、プログラマブルロジックデバイスなど)によって実装され得、また、プロセッサによって実行される様々なソフトウェアによって、または、上記のハードウェア回路とファームウェアなどのソフトウェアとの組み合わせによっても実装され得る。
本発明を現在考えられている実施形態を参照して説明してきたが、本発明は本明細書に開示されている実施形態に限定されないことを理解されたい。代わりに、本発明は、添付の特許請求の範囲の精神および範囲内に含まれる様々な修正形態および等価の構成を包含することを意図している。添付の特許請求の範囲は、そのようなすべての修正形態および等価な構造の機能を含む最も広い解釈に従う。

Claims (16)

  1. 因果関係分析方法であって、
    複数の観測変数に対応する観測データを取得することと、
    前記複数の観測変数のデータタイプを決定することと、
    前記データタイプに基づいて、連続観測変数の因果関係目的関数と離散観測変数の因果関係目的関数とを含む因果モデルを用いて前記複数の観測変数間の因果関係を決定することと、
    を有する方法。
  2. 前記複数の観測変数は、連続変数、離散変数、およびそれらの組み合わせのうちの少なくとも1つを含む、
    請求項1に記載の方法。
  3. 前記複数の観測変数の1つが連続変数である場合、連続観測変数の前記因果関係目的関数を用いて、前記複数の観測変数の1つと他の観測変数との因果関係を決定することと、
    前記複数の観測変数の1つが離散変数である場合、離散観測変数の前記因果関係目的関数を用いて、前記複数の観測変数の1つと他の観測変数との因果関係を決定することと、
    をさらに有する、請求項に記載の方法。
  4. 前記因果モデルは、前記複数の観測変数のデータタイプに対応するパラメータをさらに有する、
    請求項に記載の方法。
  5. 連続観測変数の前記因果関係目的関数が、観測変数の誤差がラプラス分布に従うと仮定して構築され、離散観測変数の因果関係目的関数が、観測変数の誤差がロジスティック分布に従うと仮定して構築される、
    請求項に記載の方法。
  6. 連続観測変数の前記因果関係目的関数および離散観測変数の前記因果関係目的関数のそれぞれが尤度関数である、
    請求項1から5のいずれか1項に記載の方法。
  7. 前記因果関係は、有向非巡回グラフ及びスパース性の制約の下で前記因果モデルを用いて決定される、
    請求項1に記載の方法。
  8. 前記因果モデルは、前記複数の観測変数のそれぞれの重み係数のパラメータをさらに有し、前記重み係数は、異なる前記観測変数を前記観測データの大きさに関して比較可能にする、
    請求項1に記載の方法。
  9. 前記重み係数は、観測変数の誤差がロジスティック分布に従うと仮定して計算される、
    請求項に記載の方法。
  10. 前記重み係数は、観測変数の誤差がラプラス分布に従うと仮定して計算される、
    請求項に記載の方法。
  11. 前記因果関係を決定することは、前記複数の観測変数の最適な因果順序(optimal causal order)を決定することをさらに有する、
    請求項1から10のいずれか1項に記載の方法。
  12. 前記複数の観測変数間の前記因果関係を送信すること、
    をさらに有する、請求項1から11のいずれか1項に記載の方法。
  13. 前記観測データは、製薬、製造、市場、交通、気象、および大気質のうちの少なくとも1つに関するデータを有する、
    請求項1から12のいずれか1項に記載の方法。
  14. 前記因果関係と前記観測変数とに基づく分析及び予測のうちの少なくとも1つを実行すること、
    をさらに有する、請求項1から13のいずれか1項に記載の方法。
  15. 分析及び予測のうちの少なくとも1つは、製薬分析、製造分析、市場分析、交通予測、気象予測、および大気質予測のうちの少なくとも1つを含む、
    請求項1から14のいずれか1項に記載の方法。
  16. 複数の観測変数に対応する観測データを取得し、
    前記複数の観測変数のデータタイプを決定し、
    前記データタイプに基づいて、連続観測変数の因果関係目的関数と離散観測変数の因果関係目的関数とを含む因果モデルを用いて前記複数の観測変数間の因果関係を決定する、
    ように構成されたプロセッサを有する、電子デバイス。
JP2020127265A 2018-04-16 2020-07-28 因果関係分析方法および電子デバイス Active JP6969637B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810338823.3A CN110390396B (zh) 2018-04-16 2018-04-16 用于估计观测变量之间的因果关系的方法、装置和系统
CN201810338823.3 2018-04-16
JP2019074897A JP6743934B2 (ja) 2018-04-16 2019-04-10 観測変数間の因果関係を推定するための方法、装置、およびシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019074897A Division JP6743934B2 (ja) 2018-04-16 2019-04-10 観測変数間の因果関係を推定するための方法、装置、およびシステム

Publications (2)

Publication Number Publication Date
JP2020194560A JP2020194560A (ja) 2020-12-03
JP6969637B2 true JP6969637B2 (ja) 2021-11-24

Family

ID=68160054

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019074897A Active JP6743934B2 (ja) 2018-04-16 2019-04-10 観測変数間の因果関係を推定するための方法、装置、およびシステム
JP2020127265A Active JP6969637B2 (ja) 2018-04-16 2020-07-28 因果関係分析方法および電子デバイス

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019074897A Active JP6743934B2 (ja) 2018-04-16 2019-04-10 観測変数間の因果関係を推定するための方法、装置、およびシステム

Country Status (4)

Country Link
US (2) US11341424B2 (ja)
JP (2) JP6743934B2 (ja)
CN (1) CN110390396B (ja)
WO (1) WO2019201081A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390396B (zh) * 2018-04-16 2024-03-19 日本电气株式会社 用于估计观测变量之间的因果关系的方法、装置和系统
WO2019220653A1 (ja) * 2018-05-16 2019-11-21 日本電気株式会社 因果関係推定装置、因果関係推定方法および因果関係推定プログラム
EP3712784A3 (en) * 2019-03-20 2020-11-04 Tata Consultancy Services Limited System and method for signal pre-processing based on data driven models and data dependent model transformation
CA3081164A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for machine learning architecture with variational hyper-rnn
US10956825B1 (en) * 2020-03-16 2021-03-23 Sas Institute Inc. Distributable event prediction and machine learning recognition system
CN113554449A (zh) * 2020-04-23 2021-10-26 阿里巴巴集团控股有限公司 商品变量预测方法、设备以及计算机可读介质
CN111610407B (zh) * 2020-05-18 2022-10-18 国网江苏省电力有限公司电力科学研究院 基于朴素贝叶斯的电缆老化状态评估方法和装置
CN113761073A (zh) * 2020-06-03 2021-12-07 日本电气株式会社 用于信息处理的方法、装置、设备和存储介质
CN113887008A (zh) * 2020-07-01 2022-01-04 日本电气株式会社 信息处理方法、电子设备和计算机存储介质
CN113961556A (zh) * 2020-07-21 2022-01-21 日本电气株式会社 用于信息处理的方法、装置、设备和存储介质
CN112884151B (zh) * 2021-01-27 2022-07-05 武汉理工大学 一种基于因果推理对玻璃熔炉环境控制的方法及系统
CN113656906B (zh) * 2021-07-29 2023-10-03 浙江大学 一种面向燃气轮机的非平稳多变量因果关系分析方法
CN113806452B (zh) * 2021-09-17 2022-10-25 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质
CN114186096A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 信息处理方法及装置
CN114881124B (zh) * 2022-04-21 2023-07-25 北京百度网讯科技有限公司 因果关系图的构建方法、装置、电子设备和介质
TWI839718B (zh) 2022-04-26 2024-04-21 緯創資通股份有限公司 優化方法及其伺服器

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7730063B2 (en) * 2002-12-10 2010-06-01 Asset Trust, Inc. Personalized medicine service
US20110040631A1 (en) * 2005-07-09 2011-02-17 Jeffrey Scott Eder Personalized commerce system
US20120010867A1 (en) * 2002-12-10 2012-01-12 Jeffrey Scott Eder Personalized Medicine System
US7320002B2 (en) * 2004-03-25 2008-01-15 Microsoft Corporation Using tables to learn trees
WO2005124580A1 (en) * 2004-06-15 2005-12-29 The University Of Melbourne A threat assessment system and process
JP4123196B2 (ja) * 2004-06-23 2008-07-23 日本電気株式会社 交通情報予測関数学習装置、交通情報予測装置、交通情報変動法則獲得装置及びその方法
US20070156382A1 (en) 2005-12-29 2007-07-05 Graham James L Ii Systems and methods for designing experiments
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services
JP2009211344A (ja) * 2008-03-04 2009-09-17 Hitachi Electronics Service Co Ltd 階層因果関係マトリクスによる想定問題特定方法
US8396582B2 (en) * 2008-03-08 2013-03-12 Tokyo Electron Limited Method and apparatus for self-learning and self-improving a semiconductor manufacturing tool
CN101354757B (zh) * 2008-09-08 2010-08-18 中国科学院地理科学与资源研究所 一种精细尺度下的动态风险及易损性预测方法
WO2010088460A1 (en) * 2009-01-30 2010-08-05 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and circuits for learning of relation-based networks
US8655821B2 (en) * 2009-02-04 2014-02-18 Konstantinos (Constantin) F. Aliferis Local causal and Markov blanket induction method for causal discovery and feature selection from data
WO2011103526A2 (en) * 2010-02-21 2011-08-25 New York University Methods, computer-accessible medium and systems for facilitating data analysis and reasoning about token/singular causality
JP2014228991A (ja) 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2015042142A1 (en) * 2013-09-17 2015-03-26 Parkervision, Inc. Method, apparatus and system for rendering an information bearing function of time
US10949753B2 (en) * 2014-04-03 2021-03-16 Adobe Inc. Causal modeling and attribution
CN106156067B (zh) * 2015-03-30 2019-11-01 日本电气株式会社 用于为关系数据创建数据模型的方法和系统
US10817794B1 (en) * 2015-06-02 2020-10-27 Cornell University Causality network construction techniques
US10345970B2 (en) * 2016-02-10 2019-07-09 Microsoft Technology Licensing, Llc Piecewise estimation for display noise compensation
CN106156860A (zh) * 2016-06-20 2016-11-23 韩山师范学院 一种快速且适用于高维网络的因果骨架构建方法
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107563596A (zh) * 2017-08-03 2018-01-09 清华大学 一种基于贝叶斯因果网络的评价指标均衡态分析方法
CN110390396B (zh) * 2018-04-16 2024-03-19 日本电气株式会社 用于估计观测变量之间的因果关系的方法、装置和系统

Also Published As

Publication number Publication date
US11341424B2 (en) 2022-05-24
US20190318256A1 (en) 2019-10-17
JP2020194560A (ja) 2020-12-03
US20220076150A1 (en) 2022-03-10
CN110390396B (zh) 2024-03-19
CN110390396A (zh) 2019-10-29
WO2019201081A1 (zh) 2019-10-24
JP2019207685A (ja) 2019-12-05
JP6743934B2 (ja) 2020-08-19

Similar Documents

Publication Publication Date Title
JP6969637B2 (ja) 因果関係分析方法および電子デバイス
JP7392668B2 (ja) データ処理方法および電子機器
CN110163261B (zh) 不平衡数据分类模型训练方法、装置、设备及存储介质
Galelli et al. An evaluation framework for input variable selection algorithms for environmental data-driven models
CN109598346A (zh) 用于估计观测变量之间的因果关系的方法、装置和系统
US11704570B2 (en) Learning device, learning system, and learning method
US20190042956A1 (en) Automatic configurable sequence similarity inference system
KR20160041856A (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
CN109120462A (zh) 机会网络链路的预测方法、装置及可读存储介质
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
JP2017091278A (ja) 学習装置、予測装置、学習方法、予測方法、およびプログラム
US20170076307A1 (en) Price estimation device, price estimation method, and recording medium
CN111937001A (zh) 将未经监督参数学习用于离群值检测以识别生产用生物体
CN108228978A (zh) 结合互补集合经验模态分解的Xgboost时间序列预测方法
JP2020004409A (ja) 情報処理プラットフォーム上でのソフトウェアアプリケーションの実行パラメータの自動かつ自己最適化型決定
US11989656B2 (en) Search space exploration for deep learning
Bakhshipour et al. A Bayesian Generative Adversarial Network (GAN) to Generate Synthetic Time-Series Data, Application in Combined Sewer Flow Prediction
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
US10169509B2 (en) Efficient deployment of table lookup (TLU) in an enterprise-level scalable circuit simulation architecture
JP7306432B2 (ja) 情報処理方法、情報処理装置及びプログラム
CN118414621A (zh) 使用预算感知的贝叶斯优化的超参数选择
CA3160910A1 (en) Systems and methods for semi-supervised active learning
CN113869033A (zh) 融入迭代式句对关系预测的图神经网络句子排序方法
Rivier et al. Surrogate-assisted Bounding-Box approach for optimization problems with tunable objectives fidelity
CN113495986A (zh) 数据处理的方法与装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211011

R150 Certificate of patent or registration of utility model

Ref document number: 6969637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150