[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2013152656A - 説明変数の決定のための情報処理装置、情報処理方法及びプログラム - Google Patents

説明変数の決定のための情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2013152656A
JP2013152656A JP2012013698A JP2012013698A JP2013152656A JP 2013152656 A JP2013152656 A JP 2013152656A JP 2012013698 A JP2012013698 A JP 2012013698A JP 2012013698 A JP2012013698 A JP 2012013698A JP 2013152656 A JP2013152656 A JP 2013152656A
Authority
JP
Japan
Prior art keywords
calculated
value
error
variable
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012013698A
Other languages
English (en)
Other versions
JP5794160B2 (ja
Inventor
Hiroharu Maruhashi
弘治 丸橋
Nobuhiro Yugami
伸弘 湯上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012013698A priority Critical patent/JP5794160B2/ja
Publication of JP2013152656A publication Critical patent/JP2013152656A/ja
Application granted granted Critical
Publication of JP5794160B2 publication Critical patent/JP5794160B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予測モデルに追加すべき説明変数を見つける際に行う計算の量を削減する。
【解決手段】本情報処理装置は、複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出する第1算出部と、算出された誤差に基づき、複数の目的変数を複数のグループに分類する分類部と、複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出する第2算出部と、複数のグループの各々について、代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と代表値との差に基づき、当該グループに属する目的変数の第1の予測モデルに追加する説明変数を決定する決定部とを有する。
【選択図】図1

Description

本技術は、予測モデルの構築技術に関する。
時間の経過に従って変化する目的変数の値(例えば株価)を説明変数の値(例えば過去の株価)を利用して予測するための予測モデルを構築する技術がある。
精度が高い予測モデルを構築するためには、予測モデルに説明変数を追加し、より多くの説明変数の値を利用して目的変数の値を予測することが有効であることが知られている。例えば、A運輸の株価について予測モデルを構築する場合、A運輸の過去の株価だけでなくガソリンの過去の価格を利用すると、予測モデルの精度が向上することがある。
但し、予測モデルに非常に多くの説明変数を追加して精度を高めようとすると、予測モデルの構築に利用する時系列データ(以下、学習データと呼ぶ)に特化した予測モデルになってしまう。そのため、その予測モデルの精度の検証を他の時系列データを用いて行うと、かえって精度が低下していることがある。このような状態は、機械学習の分野では「オーバーフィッティング」と呼ばれている。
予測モデルの精度が最も高くなるような説明変数を選定することは非常に難しい。単純には、説明変数のあらゆる組合せについて予測モデルを構築し、検証を行い、最も精度が高い予測モデルを採用することが考えられる。但し、説明変数の数が多くなると組合せ爆発によって計算量が膨大になるため、現実的ではない。
そこで、従来では、有用性が最も高い説明変数を予測モデルに1つ追加する処理及び説明変数を新たに追加することによって不要になった説明変数を除去する処理を繰り返す技術(ステップワイズ変数選択法)が利用されている。説明変数の有用性を表す指標には、例えば、重回帰モデルとしての有意性のためのF値(F value)、AIC(Akaike's Information Criterion)及びBIC(Bayesian Information Criterion)といったものがある。近年では、AIC及びBICといった指標が利用されることが多い。両者は、誤差を二乗した値の総和が最も小さくなるような説明変数を採用するものである。
しかし、上記の技術にも問題がある。この技術では、総合の計算量はおおよそ(1の説明変数について有用さを表す指標を算出するのに要する計算量)×(目的変数の数)×(説明変数の候補の数)となる。そのため、目的変数の数及び説明変数の数が多くなると、計算量が非常に多くなるという問題がある。
Paul A. Murtaugh (2009). Performance of several variable-selection methods applied to real ecological data. Ecology Letters, 12:1061-1068.
従って、本技術の目的は、一側面では、予測モデルに追加すべき説明変数を見つける際に行う計算の量を削減するための技術を提供することである。
本技術の一態様に係る情報処理装置は、(A)記憶装置と、(B)複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納する第1算出部と、(C)記憶装置に格納されている誤差に基づき複数の目的変数を複数のグループに分類し、当該複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、記憶装置に格納する第2算出部と、(D)複数のグループの各々について、記憶装置に格納されている代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と代表値との差に基づき、当該グループに属する目的変数の第1の予測モデルに追加する説明変数を決定する第1決定部とを有する。
予測モデルに追加すべき説明変数を見つける際に行う計算の量を削減できるようになる。
図1は、本実施の形態に係る情報処理装置の機能ブロック図である。 図2は、グルーピング処理部の機能ブロック図である。 図3は、候補抽出部の機能ブロック図である。 図4は、決定部の機能ブロック図である。 図5は、学習データ格納部に格納されている学習データの一例を示す図である。 図6は、メインの処理フローを示す図である。 図7は、グルーピング処理の概要を説明するための図である。 図8は、グルーピング処理の概要を説明するための図である。 図9は、グルーピング処理の処理フローを示す図である。 図10は、第1モデル格納部に格納されているデータの一例を示す図である。 図11は、第1誤差データ格納部に格納されているデータの一例を示す図である。 図12は、グルーピング結果格納部に格納されているデータの一例を示す図である。 図13は、第1候補抽出処理の概要を説明するための図である。 図14は、第1候補抽出処理の処理フローを示す図である。 図15は、第2モデル格納部に格納されているデータの一例を示す図である。 図16は、第2誤差データ格納部に格納されているデータの一例を示す図である。 図17は、第1評価値格納部に格納されているデータの一例を示す図である。 図18は、第1抽出結果格納部に格納されているデータの一例を示す図である。 図19は、第2候補抽出処理の概要を説明するための図である。 図20は、第2候補抽出処理の処理フローを示す図である。 図21は、第3モデル格納部に格納されているデータの一例を示す図である。 図22は、第3誤差データ格納部に格納されているデータの一例を示す図である。 図23は、第2評価値格納部に格納されているデータの一例を示す図である。 図24は、第2抽出結果格納部に格納されているデータの一例を示す図である。 図25は、候補格納部に格納されているデータの一例を示す図である。 図26は、決定処理の概要を説明するための図である。 図27は、決定処理の処理フローを示す図である。 図28は、第4モデル格納部に格納されているデータの一例を示す図である。 図29は、第4誤差データ格納部に格納されているデータの一例を示す図である。 図30は、第3評価値格納部に格納されているデータの一例を示す図である。 図31は、決定結果格納部に格納されているデータの一例を示す図である。 図32は、表示する画面のデータの一例を示す図である。 図33は、予測モデルに追加する説明変数を銘柄毎に決定する処理の処理フローを示す図である。 図34は、コンピュータの機能ブロックを示す図である。
図1に、本実施の形態に係る情報処理装置1の機能ブロック図を示す。情報処理装置1は、グルーピング処理部2と、グルーピング結果格納部3と、候補抽出部4と、学習データ格納部5と、候補格納部6と、決定部7と、決定結果格納部8と、出力部9とを含む。
グルーピング処理部2は、学習データ格納部5に格納されているデータを用いてグルーピング処理を行い、処理結果をグルーピング結果格納部3に格納する。候補抽出部4は、グルーピング結果格納部3に格納されているデータ及び学習データ格納部5に格納されているデータを用いて第1及び第2候補抽出処理を行い、処理結果を候補格納部6に格納する。決定部7は、グルーピング結果格納部3、学習データ格納部5及び候補格納部6に格納されているデータを用いて決定処理を行い、処理結果を決定結果格納部8に格納する。出力部9は、グルーピング結果格納部3に格納されているデータ、候補格納部6に格納されているデータ及び決定結果格納部8に格納されているデータを用いて表示する画面のデータを生成し、表示装置等に表示させる。
図2に、グルーピング処理部2の機能ブロック図を示す。グルーピング処理部2は、第1モデル生成部21と、第1モデル格納部22と、第1誤差算出部23と、第1誤差データ格納部24と、グループ生成部25とを含む。
第1モデル生成部21は、学習データ格納部5に格納されているデータを用いて処理を行い、処理結果を第1モデル格納部22に格納する。第1誤差算出部23は、学習データ格納部5に格納されているデータ及び第1モデル格納部22に格納されているデータを用いて処理を行い、処理結果を第1誤差データ格納部24に格納する。グループ生成部25は、第1誤差データ格納部24に格納されているデータを用いて処理を行い、処理結果をグルーピング結果格納部3に格納する。
図3に、候補抽出部4の機能ブロック図を示す。候補抽出部4は、第2モデル生成部401と、第2モデル格納部402と、第3モデル格納部403と、第2誤差算出部404と、第2誤差データ格納部405と、第3誤差データ格納部406と、第1評価値算出部407と、第1評価値格納部408と、第2評価値格納部409と、抽出部410と、第1抽出結果格納部411と、第2抽出結果格納部412と、第1特定部413とを含む。
第2モデル生成部401は、グルーピング結果格納部3に格納されているデータ及び学習データ格納部5に格納されているデータを用いて処理を行い、処理結果を第2モデル格納部402及び第3モデル格納部403に格納する。第2誤差算出部404は、第2モデル格納部402に格納されているデータを用いて処理を行い、処理結果を第2誤差データ格納部405に格納する。また、第2誤差算出部404は、第3モデル格納部403に格納されているデータを用いて処理を行い、処理結果を第3誤差データ格納部406に格納する。第1評価値算出部407は、第2誤差データ格納部405に格納されているデータを用いて処理を行い、処理結果を第1評価値格納部408に格納する。また、第1評価値算出部407は、第3誤差データ格納部406に格納されているデータを用いて処理を行い、処理結果を第2評価値格納部409に格納する。抽出部410は、第1評価値格納部408に格納されているデータを用いて処理を行い、処理結果を第1抽出結果格納部411に格納する。また、抽出部410は、第2評価値格納部409に格納されているデータを用いて処理を行い、処理結果を第2抽出結果格納部412に格納する。第1特定部413は、第1抽出結果格納部411に格納されているデータ及び第2抽出結果格納部412に格納されているデータを用いて処理を行い、処理結果を候補格納部6に格納する。
図4に、決定部7の機能ブロック図を示す。決定部7は、第3モデル生成部71と、第4モデル格納部72と、第3誤差算出部73と、第4誤差データ格納部74と、第2評価値算出部75と、第3評価値格納部76と、第2特定部77とを含む。
第3モデル生成部71は、学習データ格納部5に格納されているデータ及び候補格納部6に格納されているデータを用いて処理を行い、処理結果を第4モデル格納部72に格納する。第3誤差算出部73は、学習データ格納部5に格納されているデータ及び第4モデル格納部72に格納されているデータを用いて処理を行い、処理結果を第4誤差データ格納部74に格納する。第2評価値算出部75は、第4誤差データ格納部74に格納されているデータを用いて処理を行い、処理結果を第3評価値格納部76に格納する。第2特定部77は、第3評価値格納部76に格納されているデータを用いて処理を行い、処理結果を決定結果格納部8に格納する。
図5に、学習データ格納部5に格納されている学習データの一例を示す。図5の例では、7月27日から7月31日までの各日付について、今日の株価と、1日前の株価と、2日前の株価とが格納されている。図5の例は特定の銘柄についての株価のデータセットを示しており、学習データ格納部5には、多数の銘柄についての株価のデータセットが格納されるようになっている。
なお、本実施の形態においては、特定の銘柄についての「今日」の株価をその銘柄の「1日前」の株価及び「2日前」の株価を用いて予測モデルを構築した場合において、予測モデルの精度を向上させるために追加する説明変数を選定することを想定している。
次に、図6乃至図33を用いて、図1に示した情報処理装置1の動作について説明する。まず、グルーピング処理部2は、グルーピング処理を実施する(図6:ステップS1)。グルーピング処理については、図7乃至図12を用いて説明する。
まず、グルーピング処理の概要について説明する。グルーピング処理においては、処理対象となる複数の銘柄をグループ分けする。グループ分けの基準となるのは、予測モデルによる予測値と実際の値との誤差である。具体的には、図7に示すように、各日付について予測値と実際の値との誤差を算出し、各日付についての誤差を成分とする誤差ベクトルに基づきグループ分けを行う。
グループ分けは、誤差ベクトルが類似する(すなわち、誤差の変動の傾向が類似している)銘柄が同じグループになるように行う。そして、図8に示すように、同じグループに属する銘柄の誤差ベクトルを用いて代表誤差ベクトルを算出する処理をグループ毎に行う。
次に、グルーピング処理の処理フローについて説明する。グルーピング処理部2における第1モデル生成部21は、学習データ格納部5に学習データが格納されている銘柄のうち未処理の銘柄を1つ特定する(図9:ステップS11)。
第1モデル生成部21は、ステップS11において特定された銘柄の学習データを用いて予測モデルを構築し、構築された予測モデルのデータと銘柄名とを第1モデル格納部22に格納する(ステップS13)。ステップS13においては、ステップS11において特定された銘柄の「今日」の株価を「1日前」の株価及び「2日前」の株価を用いて予測するための予測モデル(例えばAR(AutoRegressive)モデル)を構築する。予測モデルを構築する技術は本実施の形態の主要な部分ではないので、詳細な説明を省略する。
図10に、第1モデル格納部22に格納されているデータの一例を示す。図10の例では、銘柄名と、予測モデルのデータとが格納されている。
そして、第1誤差算出部23は、ステップS13において構築された予測モデルと学習データ格納部5に格納されているデータとを用いて、予測モデルにより算出された値(すなわち予測値)と実際の値との誤差に基づく誤差ベクトルを算出する(ステップS15)。また、第1誤差算出部23は、銘柄名及び算出結果等を第1誤差データ格納部24に格納する。
図11に、第1誤差データ格納部24に格納されているデータの一例を示す。図11の例では、銘柄名と、各日付について株価の実際の値、予測値及び誤差とが格納されている。
図9の説明に戻り、第1モデル生成部21は、未処理の銘柄が有るか判断する(ステップS17)。未処理の銘柄が有る場合(ステップS17:Yesルート)、ステップS11の処理に戻る。
一方、未処理の銘柄が無い場合(ステップS17:Noルート)、グループ生成部25は、第1誤差データ格納部24に格納されている誤差ベクトルのデータを用いて銘柄をグループ分けし、グループ分けの結果をメインメモリ等の記憶装置に一旦格納する(ステップS19)。ステップS19においては、例えばK平均法を用いてグループ分けを行う。なお、例えばクラスタリング等のグループ分けの技術はよく知られているので、ここでは説明を省略する。
グループ生成部25は、各グループについて代表誤差ベクトルを算出し、各グループに属する銘柄の名前及び代表誤差ベクトルの各成分の値をグルーピング結果格納部3に格納する(ステップS21)。ステップS21においては、例えば、グループに属する銘柄の誤差ベクトルの平均を求めることにより代表誤差ベクトルを算出する。そして元の処理に戻る。
図12に、グルーピング結果格納部3に格納されているデータの一例を示す。図12の例では、グループの識別子と、グループに属する銘柄の名前と、各日付についての代表誤差の値とが格納されている。なお、グループの識別子は、各グループに割り当てられた固有の番号である。
以上のようにして、誤差の変動の傾向が類似している銘柄が同じグループになるようにグループ分けを行う。なお、このようにグループ分けを行うのは、ある銘柄の予測モデルに追加することが有効である説明変数は、同じグループに属する他の銘柄の予測モデルに流用できるという考え方に基づいている。
図6の説明に戻り、候補抽出部4は、第1候補抽出処理を実施する(ステップS3)。第1候補抽出処理については、図13乃至図18を用いて説明する。
まず、図13を用いて、第1候補抽出処理の概要について説明する。なお、説明を簡単にするため、代表誤差ベクトルを1次元のベクトルとしている。第1候補抽出処理においては、各グループについて、代表誤差の予測の精度に基づきN(Nは2以上の自然数)個の説明変数の候補を抽出する。すなわち、代表誤差を予測するための予測モデルによる予測値と代表誤差との差の二乗の総和を求めることにより評価値を算出し、算出した評価値が最も小さい候補から順にN個の候補を抽出する。
但し、代表誤差を予測するための予測モデルには、追加する説明変数の候補だけでなく、グループ内の銘柄についてステップS13において生成された予測モデルに含まれる説明変数を利用する。図13の例では、A運輸とB航空が含まれるグループについて、A運輸及びB航空という説明変数の学習データと、追加する説明変数の候補(ガソリン又は米)の学習データとを用いて予測モデルを構築している。このようにするのは、予測モデルに複数の説明変数が含まれていると、説明変数の組合せによっては相乗効果により予測モデルの精度が大きく向上することがあることを考慮しているからである。このようにすることで、例えばA運輸又はB航空という説明変数と一緒に利用されると予測モデルの精度を大きく向上させることができる候補を取りこぼしにくくなる。なお、図13の例では、ガソリンについて算出した評価値は米について算出した評価値よりも小さくなるので、A運輸及びB航空が属するグループに対しては、米よりもガソリンの方が追加する説明変数として好ましいということになる。
次に、第1候補抽出処理の処理フローについて説明する。まず、候補抽出部4における第2モデル生成部401は、グルーピング結果格納部3に登録されているグループのうち未処理のグループを1つ特定する(図14:ステップS31)。
第2モデル生成部401は、ステップS31において特定されたグループに属する銘柄について、ステップS13において構築された予測モデルで用いられている説明変数を抽出する(ステップS33)。例えば図12におけるグループ1について処理する場合には、A運輸及びB航空という説明変数が抽出される。
第2モデル生成部401は、追加する説明変数の候補のうち未処理の候補を1つ特定する(ステップS35)。また、第2モデル生成部401は、抽出された説明変数の学習データと特定された候補の学習データとを用いて、ステップS31において特定されたグループについて算出された代表誤差の値を予測するための予測モデルを構築する(ステップS37)。そして、第2モデル生成部401は、グループの識別子、追加する説明変数の候補及び構築された予測モデルのデータを第2モデル格納部402に格納する。ステップS37においては、グルーピング結果格納部2に格納されている代表誤差の値を用いて処理を行う。
図15に、第2モデル格納部402に格納されているデータの一例を示す。図15の例では、グループの識別子と、追加する説明変数の候補と、予測モデルのデータとが格納されている。
そして、第2誤差算出部404は、ステップS37において構築された予測モデルにより算出された値と代表誤差の値との誤差に基づく誤差ベクトルを算出し、グループの識別子、追加する説明変数の候補及び誤差ベクトルの各成分の値等を第2誤差データ格納部405に格納する(ステップS39)。
図16に、第2誤差データ格納部405に格納されているデータの一例を示す。図16の例では、グループの識別子と、追加する説明変数の候補と、各日付について代表誤差、予測値及び誤差とが格納されている。
そして、第1評価値算出部407は、ステップS39において算出された誤差ベクトルの各成分を二乗してその総和を求めることにより、候補の有用さを表す評価値を算出する(ステップS41)。そして、グループの識別子、追加する説明変数の候補及び評価値を第1評価値格納部408に格納する。
図17に、第1評価値格納部408に格納されているデータの一例を示す。図17の例では、グループの識別子と、追加する説明変数の候補と、評価値とが格納されている。
そして、第2モデル生成部401は、未処理の候補が有るか判断する(ステップS43)。未処理の候補が有る場合には(ステップS43:Yesルート)、次の候補について処理するため、ステップS35の処理に戻る。
一方、未処理の候補が無い場合には(ステップS43:Noルート)、抽出部410は、ステップS31において特定されたグループについて、評価値が小さい順にN個の説明変数の候補を第1評価値格納部408から抽出する(ステップS45)。また、抽出部410は、グループの識別子及び抽出した説明変数の候補を第1抽出結果格納部411に格納する。
図18に、第1抽出結果格納部411に格納されているデータの一例を示す。図18の例では、グループの識別子と、追加する説明変数の候補とが格納されている。
そして、第2モデル生成部401は、未処理のグループが有るか判断する(ステップS47)。未処理のグループが有る場合(ステップS47:Yesルート)、次のグループについて処理するため、ステップS31の処理に戻り、未処理のグループが無い場合(ステップS47:Noルート)、元の処理に戻る。
以上のような処理を実施することで、追加先の予測モデルにおいて用いられている説明変数と一緒に用いられると特に精度を向上させることができる説明変数を特定することができるようになる。
図6の説明に戻り、候補抽出部4は、第2候補抽出処理を実施する(ステップS5)。第2候補抽出処理については、図19乃至図24を用いて説明する。
まず、図19を用いて、第2候補抽出処理の概要について説明する。なお、説明を簡単にするため、代表誤差ベクトルを1次元のベクトルとしている。第2候補抽出処理においても、第1候補抽出処理と同様、各グループについて代表誤差の予測の精度に基づきN(Nは2以上の自然数)個の説明変数の候補を抽出する。すなわち、代表誤差を予測するための予測モデルによる予測値と代表誤差との差の二乗の総和を求めることにより評価値を算出し、算出した評価値が最も小さい候補から順にN個の候補を抽出する。
但し、第2候補抽出処理においては、代表誤差を予測するための予測モデルには、追加する説明変数の候補だけを利用する。図19の例では、A運輸とB航空が含まれるグループについて、追加する説明変数の候補(ガソリン又は米)の学習データだけを用いて予測モデルを構築している。このようにするのは、複数の説明変数による相乗効果が無いと仮定した場合において予測モデルの精度の向上に有用な候補を特定するためである。図19の例では、ガソリンについて算出した評価値は米について算出した評価値よりも小さくなるので、A運輸及びB航空が属するグループに対しては、米よりもガソリンの方が追加する説明変数の候補として好ましいということになる。なお、普通は説明変数の数を増やした方が予測モデルの精度が良くなるので、第1候補抽出処理において算出した評価値よりも大きな値が算出されることになる。
次に、第2候補抽出処理の処理フローについて説明する。まず、候補抽出部4における第2モデル生成部401は、グルーピング結果格納部3に登録されているグループのうち未処理のグループを1つ特定する(図20:ステップS51)。
第2モデル生成部401は、追加する説明変数の候補のうち未処理の候補を1つ特定する(ステップS53)。また、第2モデル生成部401は、特定された候補の学習データを用いて、ステップS51において特定されたグループについて算出された代表誤差の値を予測するための予測モデルを構築する(ステップS55)。そして、第2モデル生成部401は、グループの識別子、追加する説明変数の候補及び構築された予測モデルのデータを第3モデル格納部403に格納する。ステップS55においては、グルーピング結果格納部3に格納されている代表誤差の値を用いて処理を行う。
図21に、第3モデル格納部403に格納されているデータの一例を示す。図21の例では、グループの識別子と、追加する説明変数の候補と、予測モデルのデータとが格納されている。
そして、第2誤差算出部404は、ステップ55において構築された予測モデルにより算出された値と代表誤差の値との誤差に基づく誤差ベクトルを算出する(ステップS57)。そして、第2誤差算出部404は、グループの識別子、追加する説明変数の候補及び誤差ベクトルの各成分の値等を第3誤差データ格納部406に格納する。
図22に、第3誤差データ格納部406に格納されているデータの一例を示す。図22の例では、グループの識別子と、追加する説明変数の候補と、各日付について代表誤差、予測値及び誤差とが格納されている。
そして、第1評価値算出部407は、ステップS57において算出された誤差ベクトルの各成分を二乗してその総和を求めることにより、候補の有用さを表す評価値を算出する(ステップS59)。そして、グループの識別子、追加する説明変数の候補及び評価値を第2評価値格納部409に格納する。
図23に、第2評価値格納部409に格納されているデータの一例を示す。図23の例では、グループの識別子と、追加する説明変数の候補と、評価値とが格納されている。
そして、第2モデル生成部401は、未処理の候補が有るか判断する(ステップS61)。未処理の候補が有る場合には(ステップS61:Yesルート)、次の候補について処理するため、ステップS53の処理に戻る。
一方、未処理の候補が無い場合には(ステップS61:Noルート)、抽出部410は、ステップS51において特定されたグループについて、評価値が小さい順にN個の説明変数の候補を第2評価値格納部409から抽出する(ステップS63)。また、抽出部410は、グループの識別子及び抽出した説明変数の候補を第2抽出結果格納部412に格納する。
図24に、第2抽出結果格納部412に格納されているデータの一例を示す。図24の例では、グループの識別子と、追加する説明変数の候補とが格納されている。
そして、第2モデル生成部401は、未処理のグループが有るか判断する(ステップS65)。未処理のグループが有る場合(ステップS65:Yesルート)、次のグループについて処理するため、ステップS51の処理に戻り、未処理のグループが無い場合(ステップS65:Noルート)、元の処理に戻る。
以上のような処理を実施することで、複数の説明変数による相乗効果が無いと仮定した場合において予測モデルの精度の向上に有用な候補を特定することができるようになる。
図6の説明に戻り、候補抽出部4における第1特定部413は、第1候補抽出処理及び第2候補抽出処理の結果に基づき最終候補をグループ毎に決定し、グループの識別子及び最終候補を候補格納部6に格納する(ステップS7)。具体的には、第1抽出結果格納部411に格納されており且つ第2抽出結果格納部412に格納されている説明変数の候補を最終候補に決定する。
図25に、候補格納部6に格納されているデータの一例を示す。図25の例では、グループの識別子と、追加する説明変数の候補とが格納されている。
そして、決定部7は、決定処理を実施する(ステップS9)。決定処理については、図26乃至図31を用いて説明する。
まず、図26を用いて、決定処理の概要について説明する。決定処理においては、各銘柄について、その銘柄が属するグループについての最終候補の各々を実際に予測モデルに追加して評価値を算出し、評価値が表す有用さが高い説明変数を予測モデルに追加する変数に決定する。例えば、グループ1についてはガソリン及び軽油が最終候補となっている場合には、ガソリン及び軽油の各々を実際に予測モデルに追加して評価値を算出し、評価値が最も小さいものを予測モデルに追加する説明変数に決定する。図26の例では、ガソリンについて算出した評価値は軽油について算出した評価値よりも小さいので、A運輸の予測モデルに追加する説明変数はガソリンに決定する。
次に、決定処理の処理フローについて説明する。まず、決定部7における第3モデル生成部71は、学習データ格納部5に学習データが格納されている銘柄のうち未処理の銘柄を1つ特定する(図27:ステップS71)。また、第3モデル生成部71は、ステップS71において特定された銘柄が属するグループについての最終候補の中から未処理の最終候補を1つ特定する(ステップS73)。ステップS73においては、まずステップS71において特定された銘柄が属するグループをグルーピング結果格納部3から特定し、また特定されたグループに対応する最終候補を候補格納部6から特定し、特定された最終候補の中から未処理の最終候補を特定する。
そして、第3モデル生成部71は、ステップS71において特定された銘柄の学習データとステップS73において特定された最終候補の学習データとを用いて、特定された銘柄の「今日」の株価を予測するための予測モデルを構築する(ステップS75)。そして、第3モデル生成部71は、銘柄名、追加する説明変数の候補及び構築された予測モデルのデータを第4モデル格納部72に格納する。
図28に、第4モデル格納部72に格納されているデータの一例を示す。図28の例では、銘柄名と、追加する説明変数の候補と、予測モデルのデータとが格納されている。
そして、第3誤差算出部73は、特定された銘柄の株価の実際の値とステップS75において構築された予測モデルにより算出された値との誤差に基づく誤差ベクトルを算出し、銘柄名、追加する説明変数の候補及び誤差ベクトルの各成分の値等を第4誤差データ格納部74に格納する(ステップS77)。
図29に、第4誤差データ格納部74に格納されているデータの一例を示す。図29の例では、銘柄名と、追加する説明変数の候補と、各日付について株価の実際の値、予測値及び誤差とが格納されている。
そして、第2評価値算出部75は、ステップS77において算出された誤差ベクトルの各成分を二乗してその総和を求めることにより、候補の有用さを表す評価値を算出し、銘柄名、追加する説明変数の候補及び評価値を第3評価値格納部76に格納する(ステップS79)。
図30に、第3評価値格納部76に格納されているデータの一例を示す。図30の例では、銘柄名と、追加する説明変数の候補と、評価値とが格納されている。
そして、第3モデル生成部71は、候補格納部6に未処理の候補が有るか判断する(ステップS81)。未処理の候補が有る場合(ステップS81:Yesルート)、次の候補について処理するため、ステップS73の処理に戻る。
一方、未処理の候補が無い場合(ステップS81:Noルート)、第2特定部77は、ステップS71において特定された銘柄の予測モデルに追加する説明変数を第3評価値格納部76に格納されている評価値に基づき決定し、銘柄名に対応付けて追加する説明変数を決定結果格納部8に格納する(ステップS83)。具体的には、評価値が最も小さい説明変数に決定する。
図31に、決定結果格納部8に格納されているデータの一例を示す。図31の例では、銘柄名と、予測モデルに追加する説明変数とが格納されている。
そして、第3モデル生成部71は、未処理の銘柄が有るか判断する(ステップS85)。未処理の銘柄が有る場合(ステップS85:Yesルート)、次の銘柄について処理するため、ステップS71の処理に戻る。一方、未処理の銘柄が無い場合(ステップS85:Noルート)、元の処理に戻る。
以上のような処理を実施することにより、各銘柄について最適な説明変数を特定することができるようになる。
図6の説明に戻り、出力部9は、グルーピング結果格納部3に格納されているデータ、候補格納部6に格納されているデータ及び決定結果格納部8に格納されているデータを用いて決定結果を表示するための画面のデータを生成する。そして、生成した画面のデータを表示装置に表示させる(ステップS10)。そして処理を終了する。
図32に、表示される画面の一例を示す。図32の例では、各グループについて、そのグループに属する銘柄の予測モデルに追加する説明変数と、そのグループに属する銘柄の予測モデルに追加する説明変数の候補と、そのグループについて算出した代表誤差ベクトルとが表示されている。
以上のように、予測モデルに追加する説明変数を銘柄毎に決定するのではなく、グループ毎に決定することで、予測モデルに追加する説明変数を決定する際に行う計算の量を減らすことができるようになる。
ここで、予測モデルに追加する説明変数を銘柄毎に決定する場合の処理について、図33を用いて簡単に説明する。まず情報処理装置1における処理部(図示せず)が未処理の銘柄を1つ特定する(図33:ステップS101)。処理部は、追加する説明変数の候補のうち未処理の候補を1つ特定する(ステップS103)。処理部は、特定された銘柄の学習データと特定された候補の学習データとを用いて予測モデルを構築する(ステップS105)。処理部は、構築された予測モデルによる予測値と実際の値とを用いて誤差ベクトルを算出する(ステップS107)。処理部は、誤差ベクトルの各成分の値を二乗してその総和を求めることにより、候補の有用さを表す評価値を算出する(ステップS109)。そして、未処理の候補が有る場合(ステップS111:Yesルート)はステップS103の処理に戻り、未処理の候補が無い場合(ステップS111:Noルート)は評価値が表す有用さが最も高い説明変数を特定する(ステップS113)。そして、未処理の銘柄が有る場合(ステップS115:Yesルート)はステップS101の処理に戻り、未処理の銘柄が無い場合(ステップS115:Noルート)は処理を終了する。
背景技術の欄において述べたように、このようにすると、総合の計算量はおおよそ(1の説明変数について評価値を算出するのに要する計算量)×(目的変数の数(すなわち銘柄の数))×(説明変数の候補の数)となる。そのため、目的変数の数及び説明変数の数が多くなると、計算量が非常に多くなるという問題がある。
一方、上で述べたような本実施の形態の処理によれば、総合の計算量はおおよそ(グルーピング処理に要する計算量)+(1の説明変数について評価値を算出するのに要する計算量)×(グループの数)×(説明変数の候補の数)+(1の説明変数について評価値を算出するのに要する計算量)×(グループの数)×(グループに含まれる銘柄(目的変数)の数)×(説明変数の最終候補の数)となる。これにより、計算量を削減することができるようになる。
以上本技術の一実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は必ずしも実際のプログラムモジュール構成に対応するものではない。
また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、時系列データとして株価のデータを使用したが、使用するデータは株価のデータに限られるわけではなく、他の時系列データに対しても本実施の形態を適用することができる。
なお、使用するデータは時系列データ以外のデータであってもよい。すなわち、目的変数及び説明変数に時間が対応付けられていなくてもよい。
また、ステップS7においては、第1抽出結果格納部411に格納されており且つ第2抽出結果格納部412に格納されている説明変数の候補を最終候補としたが、他の方法で最終候補を決定してもよい。例えば、第1候補抽出処理において算出された評価値と第2候補抽出処理において算出された評価値との和が小さいものから順に所定個数の説明変数を最終候補としてもよい。
また、情報処理装置1の処理を複数の台のコンピュータで実行させるようにしてもよい。
なお、上で述べた情報処理装置1は、コンピュータ装置であって、図34に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本技術の実施の形態をまとめると、以下のようになる。
本実施の形態に係る情報処理装置は、
(A)記憶装置と、(B)複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納する第1算出部と、(C)記憶装置に格納されている誤差に基づき複数の目的変数を複数のグループに分類し、当該複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、記憶装置に格納する第2算出部と、(D)複数のグループの各々について、記憶装置に格納されている代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と代表値との差に基づき、当該グループに属する目的変数の第1の予測モデルに追加する説明変数を決定する第1決定部とを有する。
このように、第1の予測モデルに追加する説明変数を目的変数毎に決定するのではなく、グループ毎に決定することで、第1の予測モデルに追加する説明変数を決定する際に行う計算の量を削減することができるようになる。
また、上で述べた第1決定部が、(d1)複数の説明変数の候補の各々について、当該候補とグループに属する目的変数の第1の予測モデルに含まれる説明変数とを用いて第2の予測モデルを生成し、当該第2の予測モデルによって算出された値と代表値との第1の差を算出し、記憶装置に格納する第3算出部と、(d2)第3算出部により算出された第1の差に基づき、複数の説明変数の候補の中から、グループに属する目的変数の第1の予測モデルに追加する説明変数を決定する第2決定部とを有するようにしてもよい。複数の説明変数が同じ予測モデルに含まれると、相乗効果により予測精度が大きく向上することがある。そのため、上で述べたようにすれば、第1の予測モデルに含まれる説明変数と一緒に利用すると予測精度が大きく向上する説明変数を取りこぼしにくくなる。
また、上で述べた第3算出部が、(d11)複数の説明変数の候補の各々について、当該候補を用いて第2の予測モデルを生成し、当該第2の予測モデルによって算出された値と代表値との第2の差を算出し、記憶装置に格納するようにしてもよい。そして、(E)第3算出部により算出された第1の差及び第2の差に基づき、複数の説明変数の候補の中から、グループに属する目的変数の第1の予測モデルに追加する説明変数を決定する第3決定部をさらに有するようにしてもよい。このようにすれば、第1の予測モデルに含まれる説明変数との相乗効果が無いと仮定した場合に予測精度の向上に有効な説明変数を取りこぼしにくくなる。
また、上で述べた第1決定部が、(d3)第1の予測モデルに追加する説明変数を複数決定するようにしてもよい。そして、上で述べた本情報処理装置が、(F)複数の目的変数の各々について、当該目的変数の第1の予測モデルに含まれる説明変数と当該目的変数が属するグループについて第1決定部によって決定された複数の説明変数の各々とを用いて、当該目的変数の値を予測するための第3の予測モデルを複数生成し、当該第3の予測モデルによって算出された値の各々と当該目的変数の実際の値との誤差を算出し、記憶装置に格納する第4算出部と、(G)複数の目的変数の各々について、第4算出部により算出された誤差に基づき、第1決定部によって決定された複数の説明変数の中から、第1の予測モデルに追加する最も適切な説明変数を決定する第4決定部とをさらに有するようにしてもよい。このようにすれば、各目的変数の予測精度の向上に最も有効な説明変数を特定することができるようになる。
また、上で述べた第2算出部が、(c1)複数の目的変数を、算出された誤差に基づくクラスタリングによって複数のグループに分類するようにしてもよい。例えばK平均法を利用することで複数の目的変数を適切に分類をすることができるようになる。
また、上で述べた誤差の代表値が、グループに属する目的変数について算出された誤差の平均値であってもよい。これにより妥当な値を代表値とすることができるようになる。なお、平均値には限られず、例えば中央値などとしてもよい。
本実施の形態に係る情報処理方法は、(H)複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納し、(I)記憶装置に格納されている誤差に基づき、複数の目的変数を複数のグループに分類し、(J)複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、記憶装置に格納し、(K)複数のグループの各々について、記憶装置に格納されている代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と代表値との差に基づき、当該グループに属する目的変数の第1の予測モデルに追加する説明変数を決定する処理を含む。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
記憶装置と、
複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、前記記憶装置に格納する第1算出部と、
前記記憶装置に格納されている前記誤差に基づき前記複数の目的変数を複数のグループに分類し、当該複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、前記記憶装置に格納する第2算出部と、
前記複数のグループの各々について、前記記憶装置に格納されている前記代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と前記代表値との差に基づき、当該グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する第1決定部と、
を有する情報処理装置。
(付記2)
前記第1決定部が、
複数の説明変数の候補の各々について、当該候補と前記グループに属する目的変数の前記第1の予測モデルに含まれる説明変数とを用いて前記第2の予測モデルを生成し、当該第2の予測モデルによって算出された値と前記代表値との第1の差を算出し、前記記憶装置に格納する第3算出部と、
前記第3算出部により算出された前記第1の差に基づき、前記複数の説明変数の候補の中から、前記グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する第2決定部と、
を有する付記1記載の情報処理装置。
(付記3)
前記第3算出部が、
前記複数の説明変数の候補の各々について、当該候補を用いて前記第2の予測モデルを生成し、当該第2の予測モデルによって算出された値と前記代表値との第2の差を算出し、前記記憶装置に格納し、
前記第3算出部により算出された前記第1の差及び前記第2の差に基づき、前記複数の説明変数の候補の中から、前記グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する第3決定部
をさらに有する付記2記載の情報処理装置。
(付記4)
前記第1決定部が、
前記第1の予測モデルに追加する説明変数を複数決定し、
前記複数の目的変数の各々について、当該目的変数の前記第1の予測モデルに含まれる説明変数と当該目的変数が属するグループについて前記第1決定部によって決定された複数の説明変数の各々とを用いて、当該目的変数の値を予測するための第3の予測モデルを複数生成し、当該第3の予測モデルによって算出された値の各々と当該目的変数の実際の値との誤差を算出し、前記記憶装置に格納する第4算出部と、
前記複数の目的変数の各々について、前記第4算出部により算出された前記誤差に基づき、前記第1決定部によって決定された複数の説明変数の中から、前記第1の予測モデルに追加する最も適切な説明変数を決定する第4決定部と、
をさらに有する付記1乃至3のいずれか1つ記載の情報処理装置。
(付記5)
前記第2算出部が、
前記複数の目的変数を、算出された前記誤差に基づくクラスタリングによって複数のグループに分類する
付記1乃至4のいずれか1つ記載の情報処理装置。
(付記6)
前記誤差の代表値が、前記グループに属する目的変数について算出された前記誤差の平均値である
付記1乃至5いずれか1つ記載の情報処理装置。
(付記7)
複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納し、
前記記憶装置に格納されている前記誤差に基づき、前記複数の目的変数を複数のグループに分類し、
前記複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、前記記憶装置に格納し、
前記複数のグループの各々について、前記記憶装置に格納されている前記代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と前記代表値との差に基づき、当該グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する、
処理をコンピュータが実行する情報処理方法。
(付記8)
複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納し、
前記記憶装置に格納されている前記誤差に基づき、前記複数の目的変数を複数のグループに分類し、
前記複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、前記記憶装置に格納し、
前記複数のグループの各々について、前記記憶装置に格納されている前記代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と前記代表値との差に基づき、当該グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する、
処理をコンピュータに実行させるためのプログラム。
1 情報処理装置 2 グルーピング処理部
3 グルーピング結果格納部 4 候補抽出部
5 学習データ格納部 6 候補格納部
7 決定部 8 決定結果格納部
9 出力部
21 第1モデル生成部 22 第1モデル格納部
23 第1誤差算出部 24 第1誤差データ格納部
25 グループ生成部 401 第2モデル生成部
402 第2モデル格納部 403 第3モデル格納部
404 第2誤差算出部 405 第2誤差データ格納部
406 第3誤差データ格納部 407 第1評価値算出部
408 第1評価値格納部 409 第2評価値格納部
410 抽出部 411 第1抽出結果格納部
412 第2抽出結果格納部 413 第1特定部
71 第3モデル生成部 72 第4モデル格納部
73 第3誤差算出部 74 第4誤差データ格納部
75 第2評価値算出部 76 第3評価値格納部
77 第2特定部

Claims (6)

  1. 記憶装置と、
    複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、前記記憶装置に格納する第1算出部と、
    前記記憶装置に格納されている前記誤差に基づき前記複数の目的変数を複数のグループに分類し、当該複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、前記記憶装置に格納する第2算出部と、
    前記複数のグループの各々について、前記記憶装置に格納されている前記代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と前記代表値との差に基づき、当該グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する第1決定部と、
    を有する情報処理装置。
  2. 前記第1決定部が、
    複数の説明変数の候補の各々について、当該候補と前記グループに属する目的変数の前記第1の予測モデルに含まれる説明変数とを用いて前記第2の予測モデルを生成し、当該第2の予測モデルによって算出された値と前記代表値との第1の差を算出し、前記記憶装置に格納する第3算出部と、
    前記第3算出部により算出された前記第1の差に基づき、前記複数の説明変数の候補の中から、前記グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する第2決定部と、
    を有する請求項1記載の情報処理装置。
  3. 前記第3算出部が、
    前記複数の説明変数の候補の各々について、当該候補を用いて前記第2の予測モデルを生成し、当該第2の予測モデルによって算出された値と前記代表値との第2の差を算出し、前記記憶装置に格納し、
    前記第3算出部により算出された前記第1の差及び前記第2の差に基づき、前記複数の説明変数の候補の中から、前記グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する第3決定部
    をさらに有する請求項2記載の情報処理装置。
  4. 前記第1決定部が、
    前記第1の予測モデルに追加する説明変数を複数決定し、
    前記複数の目的変数の各々について、当該目的変数の前記第1の予測モデルに含まれる説明変数と当該目的変数が属するグループについて前記第1決定部によって決定された複数の説明変数の各々とを用いて、当該目的変数の値を予測するための第3の予測モデルを複数生成し、当該第3の予測モデルによって算出された値の各々と当該目的変数の実際の値との誤差を算出し、前記記憶装置に格納する第4算出部と、
    前記複数の目的変数の各々について、前記第4算出部により算出された前記誤差に基づき、前記第1決定部によって決定された複数の説明変数の中から、前記第1の予測モデルに追加する最も適切な説明変数を決定する第4決定部と、
    をさらに有する請求項1乃至3のいずれか1つ記載の情報処理装置。
  5. 複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納し、
    前記記憶装置に格納されている前記誤差に基づき、前記複数の目的変数を複数のグループに分類し、
    前記複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、前記記憶装置に格納し、
    前記複数のグループの各々について、前記記憶装置に格納されている前記代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と前記代表値との差に基づき、当該グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する、
    処理をコンピュータが実行する情報処理方法。
  6. 複数の目的変数の各々について、当該目的変数の実際の値と当該目的変数の値を予測するための第1の予測モデルによって算出された値との誤差を算出し、記憶装置に格納し、
    前記記憶装置に格納されている前記誤差に基づき、前記複数の目的変数を複数のグループに分類し、
    前記複数のグループの各々について、当該グループに属する目的変数について算出された誤差を用いて当該誤差の代表値を算出し、前記記憶装置に格納し、
    前記複数のグループの各々について、前記記憶装置に格納されている前記代表値を予測するための第2の予測モデルを説明変数を変えつつ複数生成し、生成された複数の第2の予測モデルによって算出された値の各々と前記代表値との差に基づき、当該グループに属する目的変数の前記第1の予測モデルに追加する説明変数を決定する、
    処理をコンピュータに実行させるためのプログラム。
JP2012013698A 2012-01-26 2012-01-26 説明変数の決定のための情報処理装置、情報処理方法及びプログラム Expired - Fee Related JP5794160B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012013698A JP5794160B2 (ja) 2012-01-26 2012-01-26 説明変数の決定のための情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012013698A JP5794160B2 (ja) 2012-01-26 2012-01-26 説明変数の決定のための情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013152656A true JP2013152656A (ja) 2013-08-08
JP5794160B2 JP5794160B2 (ja) 2015-10-14

Family

ID=49048935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012013698A Expired - Fee Related JP5794160B2 (ja) 2012-01-26 2012-01-26 説明変数の決定のための情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5794160B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057118A (ja) * 2014-09-08 2016-04-21 株式会社ペコIpmパイロット 農業用薬物の評価方法
WO2016121328A1 (ja) * 2015-01-28 2016-08-04 日本電気株式会社 予測結果表示システム、予測結果表示方法および予測結果表示プログラム
JP6130977B1 (ja) * 2016-05-24 2017-05-17 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
US9740545B2 (en) 2015-03-20 2017-08-22 Kabushiki Kaisha Toshiba Equipment evaluation device, equipment evaluation method and non-transitory computer readable medium
WO2017212880A1 (ja) * 2016-06-09 2017-12-14 株式会社日立製作所 データ予測システムおよびデータ予測方法
JP2017224268A (ja) * 2016-06-09 2017-12-21 株式会社日立製作所 データ予測システムおよびデータ予測方法
WO2018079225A1 (ja) * 2016-10-31 2018-05-03 日本電気株式会社 自動予測システム、自動予測方法および自動予測プログラム
WO2018186090A1 (ja) 2017-04-06 2018-10-11 テンソル・コンサルティング株式会社 モデル変数候補生成装置および方法
JP2018538587A (ja) * 2016-02-01 2018-12-27 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 リスク評価方法およびシステム
JP2019090826A (ja) * 2019-02-04 2019-06-13 株式会社ペコIpmパイロット 農業用薬物の評価方法
US10373068B2 (en) 2014-11-10 2019-08-06 International Business Machines Corporation Weight adjusted composite model for forecasting in anomalous environments
JP2020181494A (ja) * 2019-04-26 2020-11-05 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
US11514062B2 (en) 2017-10-05 2022-11-29 Dotdata, Inc. Feature value generation device, feature value generation method, and feature value generation program
US11727203B2 (en) 2017-03-30 2023-08-15 Dotdata, Inc. Information processing system, feature description method and feature description program
WO2024257351A1 (ja) * 2023-06-16 2024-12-19 富士通株式会社 推定プログラム、情報処理装置および推定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09167152A (ja) * 1995-12-19 1997-06-24 Hitachi Ltd 対話的モデル作成方法
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees
US20060100836A1 (en) * 2004-11-09 2006-05-11 Amardeep Singh Performance forecasting and bit selection tool for drill bits

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09167152A (ja) * 1995-12-19 1997-06-24 Hitachi Ltd 対話的モデル作成方法
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees
US20060100836A1 (en) * 2004-11-09 2006-05-11 Amardeep Singh Performance forecasting and bit selection tool for drill bits

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057118A (ja) * 2014-09-08 2016-04-21 株式会社ペコIpmパイロット 農業用薬物の評価方法
US10373068B2 (en) 2014-11-10 2019-08-06 International Business Machines Corporation Weight adjusted composite model for forecasting in anomalous environments
WO2016121328A1 (ja) * 2015-01-28 2016-08-04 日本電気株式会社 予測結果表示システム、予測結果表示方法および予測結果表示プログラム
US10949755B2 (en) 2015-01-28 2021-03-16 Nec Corporation Prediction result display system, prediction result display method, and prediction result display program
US9740545B2 (en) 2015-03-20 2017-08-22 Kabushiki Kaisha Toshiba Equipment evaluation device, equipment evaluation method and non-transitory computer readable medium
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
JP2018538587A (ja) * 2016-02-01 2018-12-27 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 リスク評価方法およびシステム
JP6130977B1 (ja) * 2016-05-24 2017-05-17 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
JP2017224268A (ja) * 2016-06-09 2017-12-21 株式会社日立製作所 データ予測システムおよびデータ予測方法
WO2017212880A1 (ja) * 2016-06-09 2017-12-14 株式会社日立製作所 データ予測システムおよびデータ予測方法
US11593690B2 (en) 2016-06-09 2023-02-28 Hitachi, Ltd. Data prediction system and data prediction method
JP7069029B2 (ja) 2016-10-31 2022-05-17 ドットデータ インコーポレイテッド 自動予測システム、自動予測方法および自動予測プログラム
WO2018079225A1 (ja) * 2016-10-31 2018-05-03 日本電気株式会社 自動予測システム、自動予測方法および自動予測プログラム
JPWO2018079225A1 (ja) * 2016-10-31 2019-09-12 日本電気株式会社 自動予測システム、自動予測方法および自動予測プログラム
US11727203B2 (en) 2017-03-30 2023-08-15 Dotdata, Inc. Information processing system, feature description method and feature description program
US11562262B2 (en) 2017-04-06 2023-01-24 Tensor Consulting Co. Ltd. Model variable candidate generation device and method
WO2018186090A1 (ja) 2017-04-06 2018-10-11 テンソル・コンサルティング株式会社 モデル変数候補生成装置および方法
US11514062B2 (en) 2017-10-05 2022-11-29 Dotdata, Inc. Feature value generation device, feature value generation method, and feature value generation program
JP2019090826A (ja) * 2019-02-04 2019-06-13 株式会社ペコIpmパイロット 農業用薬物の評価方法
JP2020181494A (ja) * 2019-04-26 2020-11-05 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
JP7464240B2 (ja) 2019-04-26 2024-04-09 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
WO2024257351A1 (ja) * 2023-06-16 2024-12-19 富士通株式会社 推定プログラム、情報処理装置および推定方法

Also Published As

Publication number Publication date
JP5794160B2 (ja) 2015-10-14

Similar Documents

Publication Publication Date Title
JP5794160B2 (ja) 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
KR102205215B1 (ko) 딥 러닝 기반 자원 가격 예측 방법
Idris et al. Intelligent churn prediction for telecom using GP-AdaBoost learning and PSO undersampling
Huang et al. Forecasting container throughput of Qingdao port with a hybrid model
CN112270546A (zh) 基于stacking算法的风险预测方法、装置和电子设备
JP5881048B2 (ja) 情報処理システム、及び、情報処理方法
US12277407B2 (en) Programming aiding method in a visual programming interface
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及系统
CN110020176A (zh) 一种资源推荐方法、电子设备以及计算机可读存储介质
CN113763031B (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN105447038A (zh) 用于获取用户特征的方法和系统
Bandyopadhyay et al. Beyond node embedding: a direct unsupervised edge representation framework for homogeneous networks
CN109241442A (zh) 基于预测值填充的项目推荐方法、可读存储介质和终端
Cano et al. Training set selection for monotonic ordinal classification
Chen et al. A surrogate-assisted dual-tree genetic programming framework for dynamic resource constrained multi-project scheduling problem
JPWO2018235841A1 (ja) グラフ構造解析装置、グラフ構造解析方法、及びプログラム
CN109285024A (zh) 在线特征确定方法、装置、电子设备及存储介质
CN116127376A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN111930944A (zh) 文件标签分类方法及装置
Kusnawi et al. Leveraging various feature selection methods for churn prediction using various machine learning algorithms
CN114281932A (zh) 工单质检模型的训练方法、装置、设备及存储介质
JP5718166B2 (ja) 設計検証方法及びプログラム
Long et al. A similarity-detection-based evolutionary algorithm for large-scale multimodal multi-objective optimization
CN118295698A (zh) 设计文档的生成方法、装置、电子设备和存储介质
KR102480518B1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150727

R150 Certificate of patent or registration of utility model

Ref document number: 5794160

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees