[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2023109253A - 情報処理装置、指数構築方法及びプログラム - Google Patents

情報処理装置、指数構築方法及びプログラム Download PDF

Info

Publication number
JP2023109253A
JP2023109253A JP2022010667A JP2022010667A JP2023109253A JP 2023109253 A JP2023109253 A JP 2023109253A JP 2022010667 A JP2022010667 A JP 2022010667A JP 2022010667 A JP2022010667 A JP 2022010667A JP 2023109253 A JP2023109253 A JP 2023109253A
Authority
JP
Japan
Prior art keywords
index
text data
trends
express
words used
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022010667A
Other languages
English (en)
Inventor
圭一 五島
Keiichi Goshima
元嗣 新谷
Mototsugu Shintani
佳祐 上田
Keisuke Ueda
肇 渡部
Hajime Watabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Utokyo Economic Consulting Inc
Nihon Keizai Shimbun Inc
Original Assignee
Utokyo Economic Consulting Inc
Nihon Keizai Shimbun Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Utokyo Economic Consulting Inc, Nihon Keizai Shimbun Inc filed Critical Utokyo Economic Consulting Inc
Priority to JP2022010667A priority Critical patent/JP2023109253A/ja
Publication of JP2023109253A publication Critical patent/JP2023109253A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】日本語のテキストデータから景気動向を表現する指数を構築する。【解決手段】極性辞書記憶部1は、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書PDが格納されている。ニュース指数構築部2は、入力される日本語のテキストデータINに含まれる各単語を極性辞書PDに収録された各単語と比較して、テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、テキストデータを構成する文章が表現する景気動向を示す指数を構築する。【選択図】図3

Description

本発明は、情報処理装置、指数構築方法及びプログラムに関する。
伝統的に経済分析に利用されるデータの多くは、マクロ経済統計や金融経済統計等の数値データである。これら数値データに対して、近年注目を集めているのがテキストデータである。政府や企業、家計の経済活動はテキストの形で記録されていることから、テキストデータを利用することでこれまで観察が困難であった経済環境や金融市場の動向を定量化して捉えられる試みが盛んになされている。そして、テキストデータの数値化の際には、計算言語学や自然言語処理等の分野での分析手法や言語資源が応用される。テキストデータの数値化の際には、計算言語学や自然言語処理等の分野での分析手法や言語資源が応用される(非特許文献1及び2)。
Baker, S. R., Bloom, N., and Davis, S. J.,"Measuring Economic Policy Uncertainty.", 2016, The Quarterly Journal of Economics, 131 (4), pp. 1593-1636. Hansen, S. and McMahon, M,"Shocking Language: Understanding the Macroeconomic Effects of Central Bank Communication.", 2016, Journal of International Economics, 99 (S1), pp. S114-S133.
上記のようなテキストデータを用いた手法は、マクロ経済の分析にとって有用であるものの、使用されるテキストデータは英語のものが大多数であり、日本語のテキストデータについては少数である。これは、経済分析に適した日本語の言語資源の不足が理由であり、例えば、英語では経済分析に特化した辞書やルールが入手可能である一方で、日本語の経済辞書は特別な場合を除き存在しない。また、英語と同様の処理を行おうとしても、経済分析に適した単語分割やストップワードの除去等の、日本語のテキストデータを処理するために必要な処理手法の構築が必要なだけでなく、処理結果から分析に資する情報を出力することが求められる。
本発明は、上記の事情に鑑みて成されたものであり、日本語のテキストデータから景気動向を表現する指数を構築することを目的とする。
本発明の一態様である情報処理装置は、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書が格納された極性辞書記憶部と、入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較して、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する指数構築部と、を有する。これにより、日本語のテキストデータから景気動向を表現する指数を構築することができる。
本発明の一態様である指数構築方法は、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込み、入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較し、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築するものである。これにより、日本語のテキストデータから景気動向を表現する指数を構築することができる。
本発明の一態様であるプログラムは、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込む処理と、入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較する処理と、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する処理と、をコンピュータに実行させるものである。これにより、日本語のテキストデータから景気動向を表現する指数を構築することができる。
本発明によれば、日本語のテキストデータから景気動向を表現する指数を構築することができる。
実施の形態1にかかる情報処理装置を実現するためのシステム構成の一例を示す図である。 実施の形態1にかかる情報処理装置の外観構成を示す図である。 実施の形態1にかかる情報処理装置の構成を模式的に示す図である。 極性辞書の作成手順のフローチャートである。 3人のアノテータが付与したラベルごとの単語と多数決の結果の例を示す図である。 ニュース指数構築の手順のフローチャートである。 構築したニュース指数の推移を示す図である。 一般的な指数である景気動向指数、景気ウオッチャー調査(いずれも内閣府)、全国企業短期経済観測調査(いわゆる日銀短観)及び生活意識に関するアンケート調査(いずれも日本銀行)の概要を示す図である。 構築したニュース指数と、一般的な指数である景気動向指数、景気ウオッチャー調査、日銀短観及び生活意識に関するアンケート調査との相関係数を示す図である。 景気のパターン分析とニュース指数との関係を示す図である。 ニュース指数と、景気動向指数及び景気ウオッチャー調査との時差相関を示す図である。 ニュース指数と、全国企業短期経済観測調査(日銀短観)及び生活意識に関するアンケート調査との時差相関を示す図である。
以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。
実施の形態1
図1は、実施の形態1にかかる情報処理装置を実現するためのシステム構成の一例を示す図である。情報処理装置100は、専用コンピュータ、パーソナルコンピュータ(PC)などのコンピュータ10により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図1に示すように、コンピュータ10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12及びRAM(Random Access Memory)13を有し、これらがバス14を介して相互に接続されている。尚、コンピュータを動作させるためのOSソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然有しているものとする。
バス14には、入出力インターフェイス15も接続されている。入出力インターフェイス15には、例えば、キーボード、マウス、センサなどよりなる入力部16、CRT、LCDなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部17、ハードディスクなどより構成される記憶部18、モデム、ターミナルアダプタなどより構成される通信部19などが接続されている。
CPU11は、ROM12に記憶されている各種プログラム、又は記憶部18からRAM13にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置100の各部の処理を実行する。CPU11とは別にGPU(Graphics Processing Unit)を設け、CPU11と同様に、ROM12に記憶されている各種プログラム、又は記憶部18からRAM13にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置100の各部の処理を実行してもよい。GPUは、定型的な処理を並列的に行う用途に適しており、後述するニューラルネットワークにおける処理などに適用することで、CPU11に比べて処理速度を向上させることも可能である。RAM13には又、CPU11及びGPUが各種の処理を実行する上において必要なデータなども適宜記憶される。
通信部19は、例えば図示しないインターネットを介しての通信処理を行ったり、CPU11から提供されたデータを送信したり、通信相手から受信したデータをCPU11、RAM13、記憶部18に出力したりする。記憶部18はCPU11との間でやり取りし、情報の保存・消去を行う。通信部19は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。
入出力インターフェイス15はまた、必要に応じてドライブ20が接続され、例えば、磁気ディスク20A、光ディスク20B、フレキシブルディスク20C、又は半導体メモリ20Dなどが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部18にインストールされる。
情報処理装置100の外観構成について説明する。図2に、実施の形態1にかかる情報処理装置100の外観構成を示す。情報処理装置100は、処理部110、表示部120及び入力部130を有する。処理部110は、上述のCPU11、ROM12、RAM13、バス14、入出力インターフェイス15、記憶部18、通信部19、ドライブ20などを有するハードウェアとして構成される。表示部120は、上述の出力部17に対応し、オペレータが視認可能な形式で画像を表示する、LCDなどの表示装置として構成される。入力部130は上述の入力部16に対応し、マウスやキーボードなどの各種の入力手段により構成される。
次いで、本実施の形態にかかる、景気を評価するためのニュース指数を構築する情報処理装置について説明する。本実施の形態にかかる情報処理装置は、マクロ経済分析、特に景気分析に適した単語が収録された極性辞書を教師データとして教師有り学習を行ってモデルを取得し、このモデルに分析対象のテキストデータを入力して指標を出力するものである。
図3に、実施の形態1にかかる情報処理装置100の構成を模式的に示す。情報処理装置100は、極性辞書記憶部1及び指数構築部2を有する。極性辞書記憶部1は、後に詳述するように、ニュース指数を構築するために用いられる極性辞書PDが格納されている。ニュース指数構築部2は、極性辞書記憶部1から極性辞書PDを読み出し、入力データINと極性辞書の単語同士を比較し、比較結果に基づいてニュース指数を構築する。
次いで、実施の形態1にかかる情報処理装置のニュース指数構築を理解するための前提として、教師データである極性辞書の構築について説明する。極性辞書を構築するために用いる元データとしては、経済記事を専門的に掲載する新聞、雑誌などのテキスト情報が掲載された報道媒体を用いて、これらから経済や景気と関連のある単語を獲得する。
本実施の形態では、例として、教師データを構築するための元データとして、株式会社日本経済新聞社が発行する日本経済新聞の記事データ(朝刊・夕刊・電子版)を利用している。利用する新聞記事データの期間は1981年10月~2020年12月であり、約510万記事が収録されている。この期間の新聞記事データに含まれている単語の延べ数は1,621,203,196、異なり数は1,631,065であった。
以下、極性辞書の作成処理について説明する。図4に、極性辞書の作成手順のフローチャートを示す。極性辞書の作成手順のフローは、以下のステップL1~L7で構成される。
ステップL1
ニュース指数構築部2は、まず、極性辞書記憶部1から極性辞書を読み込む。
ステップL2
まず、「景気」及び「経済」と、これらの合成語が記事に出現した場合、同じ記事に登場する各単語の出現回数をカウントして出現頻度ランキングを作成する。合成語としては、
例えば、「景気動向」、「景気循環」、「経済活動」及び「地域経済」など、経済や景気を記述するために用いられる各種の用語が含まれる。ここで、共起する単語のうち、名詞・動詞・形容詞の3つの品詞かつ基本形のみを収録する。
ここで、共起する単語の基本形を例示する。共起する動詞の基本形としては、例えば、「喘ぐ(あえぐ)」、「上がる(あがる)」、「諦める(あきらめる)」、「失せる(うせる)」、「抑える(おさえる)」、「収まる(おさまる)」、「恐れる(おそれる)」、「怯える(おびえる)」、「下りる(おりる)」及び「終わる(おわる)」などが挙げられる。共起する形容詞の基本形としては、例えば、「明るい(あかるい)」、「新しい(あたらしい)」、「熱い(あつい)」、「呆気ない(あっけない)」、「怪しい(あやしい)」、「粗い(あらい)」、「有難い(ありがたい)」、「慌ただしい(あわただしい)」、「良い(よい)」及び「いち早い(いちはやい)」などが挙げられる。共起する名詞の基本形としては、例えば、「アメリカ大統領選挙」、「イノベーション」、「インフラ」、「インフラ投資」、「インフレ」、「インフレ圧力」、「インフレ抑制」、「エネルギー」、「お金」及び「カネ余り」などが挙げられる。
単語分割、品詞推定および基本形の推定には、例えば、形態素解析用のオープンソース・ソフトウェアである、MeCab とその付属辞書であるmecab-ipadic-NEologdを利用してもよい。
ステップL3
共起回数のランキング上位から順に、所定の数の単語を選択して単語リストを作成する。ここでの単語の選択は、選択結果が偏ることを防止するため、経済に精通した複数の者が単語の選択を行うことが望ましい。例えば、共起回数のランキング上位から、マクロ経済学を専門分野とする者と、金融・ファイナンスを専門分野とする者の2名が、経済や景気と関連が有り、極性辞書に収録すべきと判断した単語を、それぞれ独立に2000単語を選択する。そして、それぞれが選択した2000単語から重複しる単語を排除した後、単語数が3000単語となる様に調整することで、単語リストを作成する。このようにして3000単語を選択した場合の単語リストの品詞の内訳は、形容詞が309語、動詞が989語、名詞が1702語となった。
ステップL4
単語リストに収録されている単語に対して、景気動向の観点から各単語から連想される意味について、ポジティブ・ニュートラル・ネガティブの3つのクラスラベルの付与(アノテーション)を行う。ここでのアノテーションは、例えば、以下のように行うことができる。
アノテーションを行うには、アノテーション結果が偏ることを防止するためと、経済や景気に関する深い理解が必要であるため、マクロ経済分析に精通する複数の専門家がアノテータとなることが望ましい。ここでは、例として、3名の専門家がアノテーションを行うものとする。かつ、アノテータの経歴や立場がアノテーション結果に影響する可能性が想定され、特定のセグメントの専門家の意見のみが反映されてしまうことを防止するため、それぞれ別の職種の専門家(政府・中央銀行エコノミスト、民間金融機関エコノミスト及び報道機関エコノミスト)をアノテータとして選定した。こうして選定したアノテータに対して、以下の4つのアノテーション条件を指示し、アノテーションを実行した。
アノテーション条件1
景気動向の観点から、各単語から連想される意味について、ポジティブ/ネガティブ/ニュートラルの3つに分類する(例:ポジティブ:+1、ニュートラル:0、ネガティブ:-1)。例えば、「悪化」はネガティブ、「回復」はポジティブに分類する。一般的には良い意味でも、景気判断においては悪い意味を有する単語はネガティブに分類し、どちらでもない場合はニュートラルに分類する。また、一般的には悪い意味でも、景気判断においては良い意味を有する単語はポジティブに分類し、どちらでもない場合はニュートラルに分類する。
アノテーション条件2
一般的に、文脈に依存する単語や係り受けによって意味が反転する単語の場合には、可能な限り、景気が良い時期や内容に利用されることが多い単語はポジティブに分類し、悪い時期や内容に利用されることが多い単語はネガティブに分類する。どちらでもない単語については、ニュートラルに分類する。例えば、「不確実」は、一般的には係り受けによってどちらの意味にもなり得るが、景気の文脈だと悪い局面に使用される場合が多いので、ネガティブに分類する。
アノテーション条件3
ポジティブとネガティブとニュートラルの境目、又は、ポジティブとネガティブとニュートラルの境目にあると考えられる単語は、ニュートラルに分類する。
アノテーション条件4
平仮名については、複数の漢字が当てはまる場合であっても、景気の文脈で最も多く使われる使用法に則って分類する。
複数の専門家によるアノテーションを行うと、同じ単語に対して異なるラベルが付されることがある。この場合には、例えば、多数決によって付与するラベルを決定する。図5に、3人のアノテータA~Cが付与したラベルごとの単語と多数決の結果の例を示す。なお、この例において、3人のアノテータのアノテーション結果について、混同行列を計算して、一致度を評価するためにκ係数を計算した。この例では、アノテータ間で不一致だったクラスはポジティブとニュートラルとの間、又は、ネガティブとニュートラルとの間であり、ポジティブとネガティブと間での不一致は少ない傾向が認められた。不一致が認められた単語は、例えば、「カネ余り」、「過熱感」及び「バブル」といった、立場によって判断が分かれると思われるものであった。κ係数を計算すると、AとBと間では0.52、AとCとの間では0.59、BとCとの間では0.49、A~Cとの間では0.53となった。この結果より、本実施の形態におけるアノテーションの結果は、十分に信頼できる水準であることが理解できる。
ステップL5
ニュートラルのラベルが付いた単語を除外して、ポジティブ及びネガティブと判断された初期辞書データを作成する。
ステップL6
次いで、初期辞書データに収録された単語とは別に、極性辞書に収録する単語を追加的に選択する。初期辞書データには、新聞記事などのテキストデータから「景気」及び「経済」とそれらの合成語と共起した単語のみが選択されている。しかし、収録した単語以外でも景気判断に資する有用な単語がある可能性があるため、こうした有用な単語を追加的に収録する。ここでは、単語の埋め込みベクトルと教師あり学習とを用いて、単語の追加収録を行う。具体的な手順は以下のとおりである。
ステップL61
単語の埋め込みベクトルを作成する。単語ベクトルを作成するときの元データは、ステップL1と同様のテキストデータ(上述の例と同様に、日本経済新聞の記事データ)を使用する。ここでは、基本形の単語のみを極性辞書に収録するため、形態素解析によって元データの入力テキストを基本形に変換している。単語ベクトルを作成する手法として、例として、Skip-gram(word2vec)、GloVe及びfastText の3つの手法を使用した。ハイパーパラメータはデフォルトを指定し、ベクトルの次元数は100、200、400及び800の4段階とした。
ステップL62
単語ベクトルを入力、クラスラベルを出力として、2つ以上の異なる手法によって教師あり学習を行う。教師あり学習の手法としては、多項ロジスティック回帰(MLR:Multinorminal Logistic Regression analysis)、サポートベクターマシン(SVM:Support Vector Machine)、順伝播型ニューラルネットワーク(FFNN:FeedForward Neural Network)及びLightGBM(Light Gradient Boosting Machine)などを用いてもよい。SVMを用いる場合、線形カーネル、ガウシアンカーネル、シグモイドカーネル及び多項式カーネルなどのカーネル関数を用いてもよく、かつ、One-vs-the-restによるクラス分類を行ってもよい。クラスラベルの割合が不均衡である場合には、その逆数を乗じることで損失関数への寄与度を調節してもよい。ハイパーパラメータのチューニングは、グリッドサーチを用いてもよい。なお、上記の教師あり学習手法及び設定条件は一例に過ぎず、適宜、種々の教師あり学習手法及び設定条件を適用することが可能である。
ステップL63
2つ以上の異なる教師有り学習手法で学習することで取得した学習結果から選んだ2つの異なる組み合わせについて、5分割の交差検証を行って分類精度の評価を行う。
ステップL64
分類精度の最も高い組み合わせを選択して、収録単語以外の単語のラベル、すなわちラベルがポジティブ、ネガティブ及びニュートラルのいずれであるかを推定する。分類精度を測る指標としては、F-measure、適合率及び再現率の3つの指標について、マクロ平均、マイクロ平均及び加重平均の3つの方法で集計した計9つの指標を用いる。
ステップL65
ラベルの推定結果を用いて、辞書に追加する単語を選択する。例えば、所定のルールにしたがって自動的に単語を選択してもよいし、専門家が単語を選択してもよい。
ステップL7
選択された単語を初期辞書に追加して、教師データとなる極性辞書を作成する。なお、この例においては、極性辞書に収録されたポジティブな単語は名詞198、動詞85及び形容詞38の合計321単語、ネガティブな単語は名詞369、動詞113及び形容詞71の合計553単語となった。
上述の手順に従って作成した極性辞書を教師データとして、ニュース指数を構築する。ここでは、推定対象のデータとして日ごとの新聞記事のテキストデータを用いた例について説明する。図6に、ニュース指数構築の手順のフローチャートを示す。
ステップE1
日ごとの新聞記事のテキストデータを推定対象の入力データとして、入力データ中に現れる極性辞書に収録されているポジティブな単語の数とネガティブな単語の数とをカウントして、以下の式[1]で示すように、t日の入力データについての日次ニュース指数DNIを構築する。
Figure 2023109253000002
式[1]において、PWはt日の入力データに出現したポジティブな単語の数、NWはt日の入力データに出現したネガティブな単語の数である。
ステップE2
指数平滑移動平均を用いて、日次ニュース指数DNIを月次ニュース指数MNIに変換する。
Figure 2023109253000003
式[2]において、αは平滑化係数であり、ここではα=2/(30+1)とする。
以上の手順によって構築したニュース指数と景気動向について検討する。図7に、構築したニュース指数の推移を示す。図7において、網掛けをした範囲は政府が認定した景気後退期を示している。図7では、景気後退期においてニュース指数が低下していることが理解できる。また、2020年度のCOVID-19の感染拡大が認められた2020年1月以降について、ニュース指数が大きく低下していることが認められる。以上より、本実施の形態において構築したニュース指数と景気との間には高い関連性が認められることが分かる。
次いで、構築したニュース指数と景気を示す他の一般的な指数との関連性について検討する。図8に、一般的な指数である景気動向指数、景気ウオッチャー調査(いずれも内閣府)、全国企業短期経済観測調査(いわゆる日銀短観)及び生活意識に関するアンケート調査(いずれも日本銀行)の概要を示す。また、図9に、構築したニュース指数と、一般的な指数である景気動向指数、景気ウオッチャー調査、日銀短観及び生活意識に関するアンケート調査との相関係数を示す。図9からわかるように、構築したニュース指数は、景気を示す他の指数と高い相関が認められ、景気動向を好適に捕捉していることが確認された。
また、景気の循環局面において、景気動向を分析する手法として知られているパターン分析を行うと同時に、ニュース指数を算出して検討を行った。図10に、景気のパターン分析とニュース指数との関係を示す。パターン分析においては、第5ステージが景気のピークに対応するが、図10に示すように、ニュース指数のピークは第3ステージ~第4ステージに位置している。また、第9ステージが景気の底に対応するが、ニュース指数の底は、概ね第8ステージに位置している。このように、ニュース指数の変動は、現実の景気に対して概ね1ステージ~2ステージ程度前に変動が現れる。換言すれば、景気の回復局面、後退局面が、先行してニュース指数に現れる。つまり、ニュース指数には、現実に景気動向に先行してその変動が現れるので、ニュース指数を参照することで、将来の景気動向の変動を予測することが可能となる。
次に、本実施の形態にかかるニュース指数と一般的な指数との時差相関について検討した。以下、では、ニュース指数に対して時差をつけた一般的な指数との相関について検討した。図11に、本実施の形態にかかるニュース指数の月末値と、景気動向指数及び景気ウオッチャー調査との時差相関を示す。景気ウオッチャー調査(図11の現状判断及び先行き判断)との比較においては、相関係数の最大値が時差0ヶ月で最大となっており、ニュース指数と景気ウオッチャー調査との間には、明確な時差は認められなかった。
一方、景気動向指数(図11の先行指数及び一致指数)との比較においては、先行指数との比較では-2ヶ月で相関係数が最大となっており、ニュース指数が先行している。また、一致指数との比較では-4ヶ月で相関係数が最大となり、ニュース指数がさらに先行している。したがって、景気動向指数との比較においてはニュース指数が有意に先行しており、ニュース指数を用いることで将来の景気動向の予測が可能であることが理解できる。
図12に、本実施の形態にかかるニュース指数の四半期末での値と、全国企業短期経済観測調査(日銀短観)及び生活意識に関するアンケート調査との時差相関を示す。日銀短観(図12の大企業_製造業_実績及び予測、大企業_非製造業_実績及び予測)との比較においては、大企業の製造業との比較では実績及び予測ともに-2四半期で相関係数が最大となっており、ニュース指数が先行している。大企業の非製造業との比較では実績及び予測ともに-3四半期で相関係数が最大となっており、こちらもニュース指数が先行している。したがって、日銀短観との比較においてもニュース指数が有意に先行しており、ニュース指数を用いることで将来の景気動向の予測が可能であることが理解できる。
生活意識に関するアンケート調査(図12の景況感_前年比及び予想)との比較においては、景況感の前年比との比較では-1四半期で相関係数が最大となっており、ニュース指数が先行している。したがって、景況感の前年比との比較ではニュース指数が有意に先行しており、ニュース指数を用いることで将来の景気動向の予測が可能であることが理解できる。一方で、景況感の予想との比較では0四半期で相関係数が最大となっており、明確な時差は認められなかった。
以上より、景気動向指数及び生活意識に関するアンケート調査での景況感の予想以外の一般的な指数に対して、本実施の形態にかかるニュース指数は先行しており、ニュース指数を用いることは、将来の景気動向を予測する観点から有利であることが明らかとなった。また、一般的に景気指標は集計から発表までのラグがあるため、同時点の相関係数が最大であった場合においても、経済ニュース指数は実務上の足許予測(ナウキャスティング)の面でも優れている。
その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明を主にハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 極性辞書記憶部
2 ニュース指数構築部
10 コンピュータ
11 CPU
12 ROM
13 RAM
14 バス
15 入出力インターフェイス
16 入力部
17 出力部
18 記憶部
19 通信部
20 ドライブ
20A 磁気ディスク
20B 光ディスク
20C フレキシブルディスク
20D 半導体メモリ
100 情報処理装置
PD 極性辞書
110 処理部
120 表示部
130 入力部

Claims (6)

  1. ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書が格納された極性辞書記憶部と、
    入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較して、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する指数構築部と、を備える、
    情報処理装置。
  2. 前記指数構築部は、
    あるt日の前記テキストデータに含まれる前記ネガティブな景気動向を表現するために用いられる単語の数をNW、前記ポジティブな景気動向を表現するために用いられる単語の数をPWとしたとき、あるt日の前記テキストデータに対応する日次の指数DNIは、以下の式で表される、
    Figure 2023109253000004
    請求項1に記載の情報処理装置。
  3. 前記指数構築部は、
    平滑化係数指数をαとしたとき、平滑化移動平均により、以下の式に基づいて、前記日次の指数DNIから月次の指数MNIを算出する、
    Figure 2023109253000005
    請求項2に記載の情報処理装置。
  4. 平滑化係数指数をαは、2/(30+1)である、
    請求項3に記載の情報処理装置。
  5. ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込み、
    入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較し、
    前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する、
    指数構築方法。
  6. ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込む処理と、
    入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較する処理と、
    前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する処理と、をコンピュータに実行させる、
    プログラム。
JP2022010667A 2022-01-27 2022-01-27 情報処理装置、指数構築方法及びプログラム Pending JP2023109253A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022010667A JP2023109253A (ja) 2022-01-27 2022-01-27 情報処理装置、指数構築方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022010667A JP2023109253A (ja) 2022-01-27 2022-01-27 情報処理装置、指数構築方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023109253A true JP2023109253A (ja) 2023-08-08

Family

ID=87522781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022010667A Pending JP2023109253A (ja) 2022-01-27 2022-01-27 情報処理装置、指数構築方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2023109253A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023054223A (ja) * 2019-03-28 2023-04-13 株式会社三洋物産 遊技機
JP2023054222A (ja) * 2019-03-28 2023-04-13 株式会社三洋物産 遊技機
JP2023060270A (ja) * 2022-04-01 2023-04-27 株式会社三洋物産 遊技機
JP2023060269A (ja) * 2022-04-01 2023-04-27 株式会社三洋物産 遊技機
JP2023063369A (ja) * 2022-01-07 2023-05-09 株式会社三洋物産 遊技機
JP2023071934A (ja) * 2019-02-15 2023-05-23 株式会社三洋物産 遊技機
JP2023105101A (ja) * 2018-12-26 2023-07-28 株式会社三洋物産 遊技機
JP2023105105A (ja) * 2020-05-29 2023-07-28 株式会社三洋物産 遊技機

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017104655A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 情報分析システム、情報分析方法、及び、記録媒体
JP2020095301A (ja) * 2018-12-10 2020-06-18 オープンワーク株式会社 配信可能数決定装置、配信可能数決定方法、配信可能数決定プログラム
WO2020152841A1 (ja) * 2019-01-25 2020-07-30 光伸 廣瀬 政党政治家評価システム、政党政治家評価方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017104655A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 情報分析システム、情報分析方法、及び、記録媒体
JP2020095301A (ja) * 2018-12-10 2020-06-18 オープンワーク株式会社 配信可能数決定装置、配信可能数決定方法、配信可能数決定プログラム
WO2020152841A1 (ja) * 2019-01-25 2020-07-30 光伸 廣瀬 政党政治家評価システム、政党政治家評価方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023105101A (ja) * 2018-12-26 2023-07-28 株式会社三洋物産 遊技機
JP2023071934A (ja) * 2019-02-15 2023-05-23 株式会社三洋物産 遊技機
JP2023054223A (ja) * 2019-03-28 2023-04-13 株式会社三洋物産 遊技機
JP2023054222A (ja) * 2019-03-28 2023-04-13 株式会社三洋物産 遊技機
JP2023105105A (ja) * 2020-05-29 2023-07-28 株式会社三洋物産 遊技機
JP2023063369A (ja) * 2022-01-07 2023-05-09 株式会社三洋物産 遊技機
JP2023060270A (ja) * 2022-04-01 2023-04-27 株式会社三洋物産 遊技機
JP2023060269A (ja) * 2022-04-01 2023-04-27 株式会社三洋物産 遊技機

Similar Documents

Publication Publication Date Title
JP2023109253A (ja) 情報処理装置、指数構築方法及びプログラム
Seifollahi et al. Word sense disambiguation application in sentiment analysis of news headlines: an applied approach to FOREX market prediction
Agarwal et al. Sentiment analysis in stock price prediction: a comparative study of algorithms
EP3867830A1 (en) Adapting prediction models
Zhu et al. Identifying the technology convergence using patent text information: A graph convolutional networks (GCN)-based approach
Wang et al. Risk of bias assessment in preclinical literature using natural language processing
Babayoff et al. The role of semantics in the success of crowdfunding projects
Helmy et al. Depression detection for twitter users using sentiment analysis in English and Arabic tweets
JPWO2016189606A1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
Sarwar et al. Author verification of nahj al-balagha
Gumus et al. Stock market prediction by combining stock price information and sentiment analysis
Jorge-Botana et al. Predicting word maturity from frequency and semantic diversity: a computational study
Gillmann et al. Quantification of Economic Uncertainty: a deep learning approach
Nokhiz et al. Understanding rating behavior based on moral foundations: The case of yelp reviews
Duman Social media analytical CRM: a case study in a bank
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Alabdulkarim et al. Exploring Sentiment Analysis on Social Media Texts
Kumar et al. Analysis of Indian and American poetry using topic modeling and Deep learning
US20170076219A1 (en) Prediction of future prominence attributes in data set
Jiang et al. Sentiment classification based on clause polarity and fusion via convolutional neural network
Karaca Effects of Preprocessing on Text Classification in Balanced and Imbalanced Datasets.
Abimbola et al. Enhancing Legal Sentiment Analysis: A CNN-LSTM Document-Level Model
Bakhit et al. A hybrid neural network model based on transfer learning for Arabic sentiment analysis of customer satisfaction
Liu et al. A new feature selection method for text categorization of customer reviews

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231024