[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2019200784A - 分析方法、分析装置及び分析プログラム - Google Patents

分析方法、分析装置及び分析プログラム Download PDF

Info

Publication number
JP2019200784A
JP2019200784A JP2019084331A JP2019084331A JP2019200784A JP 2019200784 A JP2019200784 A JP 2019200784A JP 2019084331 A JP2019084331 A JP 2019084331A JP 2019084331 A JP2019084331 A JP 2019084331A JP 2019200784 A JP2019200784 A JP 2019200784A
Authority
JP
Japan
Prior art keywords
occurrence matrix
text data
word group
metadata
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019084331A
Other languages
English (en)
Other versions
JP7221526B2 (ja
Inventor
耕爾 野守
Koji Nomori
耕爾 野守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Analytics Design Lab Inc
Original Assignee
Analytics Design Lab Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Analytics Design Lab Inc filed Critical Analytics Design Lab Inc
Publication of JP2019200784A publication Critical patent/JP2019200784A/ja
Application granted granted Critical
Publication of JP7221526B2 publication Critical patent/JP7221526B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】事象の発生の有無に影響を与えるトピックを優先的に抽出する。【解決手段】テキストデータから第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する。具体的には、テキストデータに関連するメタデータが予め設定した事象に該当するとき、当該メタデータに関するテキストデータについて第1の共起行列を作成し、メタデータが前記事象に該当しないとき、当該メタデータに関するテキストデータ、あるいは前記事象の該当有無にかかわらず全てのテキストデータについて第2の共起行列を作成し、第1および第2の共起行列との差を計算する。次に、共起行列を入力とする潜在意味解析法を用いて、各トピックを条件とした第1語群に属する語の第1条件付確率、及び第2語群に属する語の第2条件付確率を求める。次に、各トピックを条件とした各文章の条件付確率を計算し、各テキストデータに対する各トピックのスコアを求める。【選択図】図5

Description

本発明は、事象に影響を与えるトピックをテキストデータから抽出する分析方法、分析装置及び分析プログラムに関する。
昨今では、テキストの電子化の急増とテキストマイニングツールの普及に伴い、テキストデータからいかに有用な知識を抽出するかということが課題となっている。例えば、顧客満足の要因を探るために、アンケートの自由記述や口コミに代表されるコメントのテキストデータから、ターゲットとなる事象、例えば満足度の評価得点に影響を与える評価内容(トピック)を抽出すること、あるいはサービスの解約や会員退会を防止する要因を探るために、コールセンターなどの問い合わせ履歴のテキストデータから、ターゲットとなる事象、例えばサービス解約や会員退会の申し出の有無に影響を与える問い合わせ内容(トピック)を抽出すること、あるいは技術動向を探るために、特許文献に代表される技術文書中のテキストデータから、ターゲットとなる事象、例えば出願年に影響を与える技術内容(トピック)を抽出することなどは重要な課題である。
本発明者は、テキストデータから、単語そのものではなく文章のトピックを抽出する手法として知られるPLSAを応用した分析方法を発明した(特許文献1参照)。PLSAは、元々文章分類のために開発された手法で、文章とそこに出現する単語の間には観測できない潜在的な意味クラスがあることを想定し、文章と単語の共通のトピックとなるような特徴を見つける手法である。
このような分析方法においても、テキストデータからマイニングを行い、潜在的なトピックを抽出することはできるが、上記したターゲットとなる事象に着目したものではない。このため、事象の発生の有無に影響を与えるトピックも、そうでないトピックも同様に抽出してしまい、テキストデータに潜む事象に対する要因関係を顕在化できていない。
特開2016−051220号公報
本発明は、上記事情に鑑みてなされたものであり、事象の発生の有無に影響を与えるトピックを優先的に抽出することができる分析方法、分析装置及び分析プログラムを提供す
ることを目的とする。
上記課題を解決する本発明の第1の態様は、テキストデータ及び前記テキストデータに関するメタデータの分析方法であって、前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成ステップと、前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出ステップと、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、前記共起行列作成ステップは、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析方法にある。
本発明の第2の態様は、第1の態様に記載の分析方法であって、前記テキストデータは、カテゴリに分類されたテキスト部を含み、前記共起行列作成ステップは、第1のカテゴリに分類された前記テキスト部から第1語群に属する語、及び第2のカテゴリに分類された前記テキスト部から第2語群に属する語の組み合わせの個数を表す共起行列を作成し、前記スコア計算ステップでは、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて前記テキストデータに対する各トピックのスコアを求め、前記共起行列作成ステップは、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記第1のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第2のカテゴリに分類された前記テキスト部について第1の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記第1のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第2のカテゴリに分類された前記テキスト部、あるいは前記事象の該当有無にかかわらず全ての前記テキスト部について第2の共起行列を作成し、前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析方法にある。
本発明の第3の態様は、第1の態様に記載の分析方法であって、前記共起行列作成ステップは、前記テキストデータから文章を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成し、前記スコア計算ステップでは、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求め、前記共起行列作成ステップは、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記文章について第1の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記文章、あるいは前記事象の該当有無にかかわらず全ての前記文章について第2の共起行列を作成し、前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析方法にある。
本発明の第4の態様は、第1又は第2の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第1の共起行列に対して補正値を乗じ、前記補正値は、前記第1の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第2の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率であることを特徴とする分析方法にある。
本発明の第5の態様は、第1又は第2の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第2の共起行列に対して補正値を乗じ、前記補正値は、前記第2の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第1の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率であることを特徴とする分析方法にある。
本発明の第6の態様は、第3の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第1の共起行列に対して補正値を乗じ、前記補正値は、前記第1の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第2の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率であることを特徴とする分析方法にある。
本発明の第7の態様は、第3の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第2の共起行列に対して補正値を乗じ、前記補正値は、前記第2の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第1の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率であることを特徴とする分析方法にある。
本発明の第8の態様は、第1から第7の何れか一つの態様に記載の分析方法であって、 前記トピックごとに、前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当する確率を前記メタデータが前記事象に該当する確率で除した事象該当ありの指標値、及び前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当しない確率を前記メタデータが前記事象に該当しない確率で除した事象該当なしの指標値を計算する集計ステップを備えることを特徴とする分析方法にある。
本発明の第9の態様は、テキストデータ、及び前記テキストデータに関するメタデータの分析装置であって、前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出手段と、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、前記共起行列作成手段は、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析装置にある。
本発明の第10の態様は、テキストデータ、及び当該テキストデータに関するメタデータをコンピュータに分析させる分析プログラムであって、前記コンピュータを、前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出手段と、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、前記共起行列作成手段は、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析プログラムにある。
本発明によれば、事象の発生の有無に影響を与えるトピックを優先的に抽出することができる分析方法、分析装置及び分析プログラムが提供される。
本実施形態に係る分析方法を実行する分析プログラムを実行する分析装置の機能ブロック図である。 PLSAの概念図である。 トピックのトレンドを示す図である。 トピックのトレンドを示す図である。 分析装置での処理を示すフローチャートである。
以下、本発明を実施するための形態について説明する。なお、実施形態の説明は例示であり、本発明は以下の説明に限定されない。
〈実施形態1〉
図1は、本実施形態に係る分析方法を実行する分析プログラムを実行する分析装置の機能ブロック図である。分析プログラム10は、分析装置1にインストールされて実行されるものである。分析装置1は、特に図示しないが、CPU、RAM、ハードディスク、入出力装置、通信手段等を備えた一般的なコンピュータである。
ハードディスクには、分析装置1のCPU等を制御するためのオペレーティングシステムがインストールされている。このオペレーティングシステムにより、ハードディスクにインストールされた分析プログラム10がRAMに読み込まれ、RAMに読み込まれた分析プログラムがCPUにより実行される。
このような分析プログラムは、テキストデータ及びメタデータを処理対象とする。テキストデータとは、文章を符号化したデータである。前記テキストデータには、複数の文章が含まれることがあり、本発明でいう文章とは、テキストデータに含まれる一文である。テキストデータの符号化の方式(文字コード)は特に限定はなく、符号化により表される言語の種別も問わない。本実施形態では、テキストデータは日本語の文からなり、UTF−8などの文字コードで表現されている。メタデータとは、テキストデータに関連するデータ、あるいはテキストデータから作成したデータである。
本実施形態では、テキストデータとして、日本の特許出願に添付された要約書の文章を用いる。具体的には、要約書及び特許請求の範囲に「風」及び「空気」を含む10年分(出願日が2006年1月1日から2015年12月31日)の特許出願(30,039件)を抽出し、その特許出願の要約書のうち「解決手段」に記載された文章をテキストデータとする。また、テキストデータに関連するメタデータとして、上記特許出願の公報に記
載された書誌事項を用いる。表1にテキストデータ及びメタデータの一例を示す。
表1には、3つのテキストデータが例示されている。テキストデータIDは、個々のテキストデータを識別する情報であり、ここでは重複しない数値である。テキストデータは、発明の要約文である。メタデータは、一例として、出願人、発明者、出願年を例示してある。これらのテキストデータ及びメタデータは、電子化された特許公報から得ることができる。
このようなテキストデータ及びメタデータを分析対象とする分析装置1は、共起行列作成手段11、トピック抽出手段12、スコア計算手段13、及び集計手段14を備えている。本実施形態では、それらの各手段は、分析装置1で実行される分析プログラム10として実装されている。すなわち、分析プログラム10は、分析装置1を各手段11〜14として機能させるプログラムである。
共起行列作成手段11は、テキストデータから文章を抽出し、各文章から、第1語群及び第2語群を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する。
共起行列の作成方法について説明する。まず、共起行列作成手段11は、テキストデータのメタデータが事象に該当するか否かを判定する。事象とは、テキストデータを2つに分類するために、メタデータに適用される条件である。この事象(条件)に該当したメタデータに関するテキストデータは、後述する第1の共起行列を作成するための入力データとなる。一方、この事象に該当しなかったメタデータに関するテキストデータ、あるいは事象の該当有無にかかわらない全てのテキストデータは、後述する第2の共起行列を作成するための入力データとなる。
事象として「出願年は2013年以後である」を例に取り説明する。表1のテキストデータID「3」については、出願年が2015年である。したがって、テキストデータID「3」のメタデータ(出願年)は当該事象に該当する。このようにメタデータが事象に該当したテキストデータを、「事象が発生したテキストデータ」とも称する。
一方、表1のテキストデータID「1」「2」については、出願年が2010、2009年である。したがって、テキストデータID「1」「2」のメタデータ(出願年)は当該事象に該当しない。このようにメタデータが事象に該当しないテキストデータを、「事象が発生しなかったテキストデータ」とも称する。
このような事象は、予めプログラムなどに設定しておく。事象の選び方には特に限定はない。上述した事象は、出願年が2013年を境にして、後述するトピックに変化があるかを分析するという目的で定めたものである。
共起行列作成手段11は、事象が発生したテキストデータについて第1の共起行列を作成し、かつ、事象が発生しなかったテキストデータについて、あるいは事象の発生有無にかかわらない全てのテキストデータについて第2の共起行列を作成する。
第1の共起行列及び第2の共起行列は、入力データが異なるだけであり、具体的な作成ステップは同じであるから、第1の共起行列を例にとり説明する。
テキストデータには、複数の文章が含まれることがある。本発明でいう文章とは、テキストデータに含まれる一文である。分析装置1で実行される分析プログラム10の共起行列作成手段11は、テキストデータを一つずつ読み込み、各テキストデータについて、句点や「?」「!」など一文の末尾に用いられる文字を基準として文章を出力する。例えば、テキストデータID「1」については、次のように2つの文章が抽出される。
文章IDは、個々の文章を識別する情報であり、ここでは重複しない数値である。各文章IDは、テキストデータIDとの関連も保持されている。したがって、一つの文章IDについては、表1に示したメタデータも関連づけられていることになる。
一つのテキストデータは、発明を特定する事項などが表されたものであるが、各文章に着目すると異なる観点で記載されていることが多い。表2のテキストデータID「1」からは、換気装置の構成について述べた文章(文章ID「1」)、及び換気装置の効果について述べた文章(文章ID「2」)が得られることになる。
後述するトピック抽出手段12では、文章を元にトピックを抽出するが、もし、仮にテキストデータを元にトピックを抽出する場合、テキストデータに異なる観点の文章が複数含まれていると、適切なトピックとはいえない結果となりうる。しかし、本発明では、テキストデータから抽出した文章を元にトピックを抽出するので、後述するトピック抽出手段12による抽出精度を向上させることができる。
このように、テキストデータから抽出された文章から第1語群及び第2語群を抽出する。第1語群及び第2語群は、文章中に含まれる特定の品詞に分類される単語や、係り受け表現(文法的構造を持つ単語と単語のペア)からなる。第1語群と第2語群とで、異なる語群が抽出されるようにする。例えば、文章から「単語」を抽出し、その結果を第1語群とし、文章から「係り受け表現」を抽出し、その結果を第2語群とする。
もちろん、第1語群と第2語群の単語等の選び方は特に限定はない。例えば、文章中に含まれる単語のうち「名詞」で分類される単語を第1語群に、「動詞および形容詞」で分類される単語を第2語群としてもよい。すなわち複数の品詞を用いて第1語群(又は第2語群)を形成してもよい。
共起行列作成手段11は、各文章IDで特定される文章を読み込み、公知の形態素解析手法あるいは構文解析手法を適用することで、一つの文章の中から第1語群及び第2語群を抽出する。
そして、共起行列作成手段11は、文章より抽出された第1語群及び第2語群から、共起行列を集計する。共起行列とは、第1語群に属する語と、第2語群に属する語との組み合わせの個数を表したものである。表3に第1の共起行列(一部)、表4に第2の共起行列(一部)を例示する。以下例では、第1語群に属する語として単語(名詞、動詞、形容詞)を、第2語群に属する語として係り受け表現(名詞と動詞・形容詞の係り受けペア)
を設定している。
第1語群に属する単語として「配置」「供給」「内部」などが行方向に並び、第2語群に属する係り受け表現として「空気−吸い込む」「吸い込む−空気」「連−通す」などが列方向に並んでいる。共起行列作成手段11は、一つの文章の中に、「配置」と「空気−吸い込む」との組み合わせが存在すれば、一つカウントする。この組み合わせを共起ペアと称する。表3の第1の共起行列の例では、「配置」及び「空気−吸い込む」という共起ペアが一つの文章の中に存在する文章数は66件あることになる。
次に、共起行列作成手段11は、第1の共起行列と第2の共起行列の差を計算して共起行列を作成する。この共起行列は、次のトピック抽出手段12の入力データとなる。ここでいう第1の共起行列と第2の共起行列の差とは、第1語群に属する語と、第2語群に属する語が同じものについて、組み合わせ数の差をいう。表3、表4の例では、第1の共起行列及び第2の共起行列の同じ共起ペア同士の差を取る。差の取り方は、差の絶対値としてもよいし、差の二乗としてもよい。いずれにしても差が負にならないようにする。
また、第1の共起行列を得るために用いられたテキストデータの文章数(事象が発生したテキストデータを構成する文章の数)と、第2の共起行列を得るために用いられたテキストデータの文章数(事象が発生しなかったテキストデータを構成する文章の数)とに差がある場合は、第1の共起行列又は第2の共起行列の一方あるいはその両方を補正することが好ましい。
本実施形態で示す例では、第1の共起行列を得るために用いたテキストデータの文章数が11,831件、第2の共起行列を得るために用いたテキストデータの文章数が33,283件であった。この場合、第2の共起行列の全ての共起ペアの個数に、11,831/33,283(≒0.3555)を乗じる補正を行う。つまり、文章数の多いテキストデータから作成された第2の共起行列に対して、その文章数(33,283件)に対する、第1の共起行列の作成に用いられたテキストデータの文章数(11,831件)の比率を補正値とする。表5に、第1の共起行列と、上述したような補正をした第2の共起行列との差の絶対値を取った共起行列(一部)を示す。
このような補正を行うことで、第2の共起行列は、第1の共起行列と同じ11,831件のテキストデータの文章を用いて作成したものと同等と考えられる。このような補正は、第1の共起行列と第2の共起行列のテキストデータの文章数に偏りがある場合に特に有用である。
なお、第1の共起行列の共起ペアに補正値を乗じてもよい。この場合は、第1の共起行列の作成に用いられたテキストデータの文章数(11,831件)に対する、第2の共起行列の作成に用いられたテキストデータの文章数(33,283件)の比率を補正値とする。また、第1の共起行列の共起ペアと第2の共起行列の共起ペアの両方に補正値を乗じてもよい。この場合は、第1の共起行列の共起ペアには、第1の共起行列の作成に用いられたテキストデータの文章数(11,831件)に対する、全テキストデータの文章総数(45,114件)の比率を補正値とし、第2の共起行列の共起ペアには、第2の共起行列の作成に用いられたテキストデータの文章数(33,283件)に対する、全テキストデータの文章総数(45,114件)の比率を補正値とする。
トピック抽出手段12は、前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求める。トピックは、発明に関する文章の主題を表しているといえる。
潜在意味解析法とは、自然言語処理の技法の一つであり、文書群と文書に含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する手法である。潜在意味解析法の具体例としては、LSI(Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)、PLSA(Probabilistic Latent Semantic Analysis)を挙げることができる。
本実施形態では、PLSAを用いて説明する。図2は、PLSAの概念図である。図2(a)に示すように、PLSAは、文書分類に用いられるクラスタリング手法の一つであり、一般には、文章Dと、その文章に含まれる単語Wの間に潜在的なトピックTがあると想定し、文章D及び単語Wの組み合わせで構成されるトピックTを抽出するものである。PLSAによるトピック抽出は、各トピックTに属する文章Dの条件付確率及び各トピックTに属する単語Wの条件付確率及びトピックTの確率がEMアルゴリズムにより計算される。
本実施形態では、このようなPLSAに入力するデータは、上述した共起行列である。PLSAは、このような共起行列を入力として、図2(b)に示すように、第1語群に属する語W1と、第2語群に属する語W2との間に潜在的なトピックTがあると想定し、第1語群に属する語W1と第2語群に属する語W2の組み合わせで構成されるトピックTを抽出するものである。すなわち、トピック抽出手段12は、共起行列を入力としてPLSAを実行することで、各トピックTを条件とした第1語群に属する語W1の第1条件付確率としてP(W1|T)、及び各トピックTを条件とした第2語群に属する語W2の第2条件付確率としてP(W2|T)を計算する。本実施形態の例では、第1語群に属する語として単語(名詞、動詞、形容詞)を、第2語群に属する語として係り受け表現(名詞と動詞・形容詞の係り受けペア)を設定している。PLSAの具体的な計算方法は、「Hofmann, T.:Probabilistic latent semantic analysis, Proc. Of Uncertainty in Artificial Intelligence, pp.289-296, 1999.」などの文献に記載の公知の技法を用いて実行することができる。
表6に、PLSAにより計算されたトピックに属する単語及び係り受け表現を例示する。表6には、複数作成されたトピックのうち、2つのトピックT10とトピックT13に属する単語及び係り受け表現が示されている。それぞれ条件付確率が高い順に単語および係り受け表現を並べている。
トピックT10についてみると、第1条件付確率が最上位である単語は「塵埃」という単語であり、第2条件付確率が最上位である係り受け表現は「付着−塵埃」である。このようなトピックT10に所属する単語及び係り受け表現に基づいて、トピックT10の意味を解釈することができる。例えば、トピックT10は、第1条件付確率が上位である単語に基づけば、塵埃の分離に関するトピックであると解釈することができる。
PLSAは、トピック数を予め設定する必要があり、また、初期値依存性があるため初期値によって結果が異なる。そこで、本実施形態のトピック抽出手段12では、トピック数として範囲を持たせて複数設定し、初期値を変えてそれぞれのトピック数でPLSAを複数回実行し、それぞれの結果の情報量基準の値を計算する。そして、その全結果の中で情報量基準が最適となる結果を採用する。情報量基準の計算は、公知の方法(例えば「小西貞則,北川源四郎:情報量基準,朝倉書店,2004」参照)により行うことができる。なお、トピック数は、このような情報量基準に基づいて決定する場合に限定されず、任意に定めてもよい。
本実施形態では、表7に示すように、トピック抽出手段12により14個のトピックが抽出され、それぞれのトピックの解釈がなされた。表7にトピック抽出手段により抽出されたトピックに解釈を与えたものを例示する。
スコア計算手段13は、第1条件付確率及び第1語群の出現頻度、並びに第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算する。そして、この条件付確率を各文章の発生確率で除した値を、各文章に対する各トピックのスコアとする。そして、そのスコアをテキストデータ単位に集約することで、各テキストデータに対する各トピックのスコアを求める。
各トピックTkを条件とした各文章Shの条件付確率をP(Sh|Tk)とする。各文章の発生確率をP(Sh)とする。各文章に対するトピックのスコアは、P(Sh|Tk)/P(Sh)である。スコア計算手段13は、P(Sh|Tk)及びP(Sh)を次のように計算する。なお、kは、PLSAで作成されたトピックを特定する番号であり、トピックの総数を最大とする自然数である。hは、文章を特定する番号(文章ID)であり、文章の総数を最大とする自然数である。
各文章Shについて、第1語群に設定した単語Wによって定義される文章をSwh、第2語群に設定した係り受け表現Eによって定義される文章をSehとする。P(Sh|Tk)を計算するにあたり、P(Swh|Tk)とP(Seh|Tk)を計算する。これらはそれぞれ上記式(1)(2)で計算される。単語Wiが含まれる文章の数をn(Wi)、係り受け表現Ejが含まれる文章の数をn(Ej)とすると、P(Swh|Wi)はn(Wi)の逆数、P(Seh|Ej)はn(Ej)の逆数として計算される。P(Wi|Tk)とP(Ej|Tk)は、PLSAの実行によって得られる第1条件付確率と第2条件付確率である。
P(Sh|Tk)は、上記式(3)より得られる。P(Sh|Swh)とP(Sh|Seh)は文章Shにおいて重みは同じといえるので、それぞれ0.5とする。P(Sh)は、上記式(4)で計算され、P(Tk)はPLSAの実行により得られる。
上記式(3)のP(Sh|Tk)を、上記式(4)のP(Sh)で除した値が各文章のスコアとなる。本実施形態では、各文章の発生確率を上記式(4)のように計算しているが、例えば一様分布に従うと仮定し、P(Sh)を文章の総数の逆数とするなど、各文章の発生確率の取り方はこれに限らない。
このように、P(Sh|Tk)とP(Sh)との比をもって文章ShにおけるトピックTkのスコアとする。この値が1を超えるということは、文章Shの発生確率はトピックTkを条件とすることで上昇し、トピックTkとの関係が強いということである。このようなスコアを採用することで、各文章ShとトピックTkの関係の強さを把握しやすくすることができる。表8に各文章Shに対する各トピックTkのスコアを例示する。
例えば、文章ID「1」は、トピックT1についてのスコアが3.1であり、トピックT2についてのスコアが0.9であり、このようなスコアが全トピックについて計算されている。
スコア計算手段13は、文章ID単位に計算された各トピックのスコアをテキストデータID単位に集約する。文章単位のスコアをテキストデータ単位に集約する方法としては、最大値や平均値などを計算することが挙げられる。本実施形態では、トピック毎のスコアの最大値を、テキストデータIDの各トピックのスコアとする。
表9を用いて具体的に説明する。IDが「1」であるテキストデータをテキストデータ「1」と表記し、IDが「1」である文章を文章「1」と表記する。
例えば、テキストデータ「1」は、文章「1」、文章「2」から構成されている。この文章「1」、文章「2」のそれぞれに対する各トピックT1〜T14のスコアについて、トピック毎に最大値(文章「1」と文章「2」のうち大きいスコア)を求める。
文章「1」に対するトピックT1のスコアは「3.1」であり、文章「2」に対するトピックT1のスコアは「1.4」である。したがって、「3.1」が最大値となる。この最大値「3.1」がテキストデータ「1」に対するトピックT1のスコアとなる。以下同様に、トピックT2〜T14についてトピック毎に最大値を計算することで、テキストデータ「1」に対する各トピックのスコアを得る。このような最大値を求めてテキストデータに対する各トピックのスコアとする計算を、全テキストデータについて実行する。表9の斜体字で表されたスコアがテキストデータに対する各トピックのスコアである。このようにして、各テキストデータに対して、各トピックのスコアを得ることができる。
このようにして得られたスコアから、トピックの該当の有無を表す1,0の情報を付与してもよい。例えば、閾値を「3」に設定し、スコアが3以上であれば「1」に3未満であれば「0」というフラグ情報を付与してもよい。表10にフラグ情報を示す。
テキストデータ「1」は、トピックT1のスコアが「3.1」であるから(表9参照)、フラグ情報は「1」となり、トピックT2のスコアは「0.9」であるから、フラグ情報は「0」となる。なお、閾値は「3」である必要はない。P(Sh|Tk)/P(Sh)で定義したスコアは1が基準と考えることができるので、閾値を「1」と設定してもよい。
次に、上述したスコアに基づいて、事象の発生の有無によってテキストデータ(特許出願)の件数がどの様に変化するかを集計することについて説明する。
まず、集計手段14は、事象Xの発生の有無とトピックTの関連度を示す指標値として「事象該当ありの指標値」及び「事象該当なしの指標値」を計算する。なおメタデータが事象Xに該当する場合はX=1、該当しない場合はX=0と表記する。
「事象該当ありの指標値」は、トピックTのスコアが所定の閾値以上(T=1と表記する)である条件の下でメタデータが事象Xに該当する確率を、メタデータが事象Xに該当する確率で除した値である。
「トピックTのスコアが所定の閾値以上である条件の下でメタデータが事象Xに該当する確率」をP(X=1|T=1)と表記する。また、「メタデータが事象Xに該当する確率」をP(X=1)と表記する。これらを用いると、「事象該当ありの指標値」は、P(X=1|T=1)/P(X=1)で求められる。
本実施形態で取り上げる事象は「出願年が2013年以後」であるから、P(X=1|T=1)は、トピックTのスコアが所定の閾値以上である条件の下で、出願年が2013年以後である確率を表している。
なお、P(X=1)は、出願年が2013年以後であるテキストデータの件数をテキストデータの総数で除すことで得られる。また、P(X=1|T=1)は、あるトピックTについてのフラグ情報が「1」であるテキストデータの件数のうち、出願年が2013年以後であるテキストデータの件数が占める割合を求めることで得られる。
「事象該当なしの指標値」は、トピックTのスコアが所定の閾値以上である条件の下でメタデータが事象Xに該当しない確率を、メタデータが事象Xに該当しない確率で除した値である。
「トピックTのスコアが所定の閾値以上である条件の下でメタデータが事象Xに該当しない確率」をP(X=0|T=1)と表記する。また、「メタデータが事象Xに該当しない確率」をP(X=0)と表記する。これらを用いると、「事象該当なしの指標値」は、P(X=0|T=1)/P(X=0)で求められる。
本実施形態で取り上げる事象は「出願年が2013年以後」であるから、P(X=0|T=1)は、トピックTのスコアが所定の閾値以上である条件の下で、出願年が2012年以前である確率を表している。
なお、P(X=0)は、出願年が2012年以前であるテキストデータの件数をテキストデータの総数で除すことで得られる。また、P(X=0|T=1)は、あるトピックTについてのフラグ情報が「1」であるテキストデータの件数のうち、出願年が2012年以前であるテキストデータの件数が占める割合を求めることで得られる。
集計手段14は、上記した事象該当ありの指標値と事象該当なしの指標値をトピック毎に計算し、本実施形態の例ではそれらの比率(増減率)を計算する。ここでは、事象該当なしの指標値に対する事象該当ありの指標値の比率(事象該当ありの指標値/事象該当なしの指標値)を計算した。これは、あるトピックが2013年の前後においてどの程度増えたか、又は減ったかを2012年以前と2013年以後の各テキストデータの件数を加味して示すものとなる。このような比率の例を表11に示す。なお、減った場合はマイナスを付している。
トピックT13は、2012年以前と比較して、2013年以後では指標値が48.5%増加し、トピックT08は、2012年以前と比較して、2013年以後では指標値が28.7%減少している。
本実施形態の例では、集計手段14で計算した事象該当ありの指標値と事象該当なしの指標値について、2013年以後と2012年以前とに分けてその比率(増減率)を計算したが、このような態様に限定されない。例えば、図3,図4に示すように、年毎に上記指標値を並べ、各トピックのトレンドを表示するようにしてもよい。
次に、本実施形態に係る分析装置1の動作について説明する。図5は、分析装置での処理を示すフローチャートである。
まず、テキストデータから共起行列を作成する(ステップS1:共起行列作成ステップ)。具体的には、共起行列作成手段11が、テキストデータから文章を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する。具体例については、上述したので説明は省略する。
次に、共起行列を入力として潜在意味解析法を実行する(ステップS2:トピック抽出ステップ)。具体的には、トピック抽出手段12が共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行する。これにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率が得られる。具体例につ
いては、上述したので説明は省略する。
次に、各テキストデータに対する各トピックのスコアを計算する(ステップS3:スコア計算ステップ)。具体的には、スコア計算手段13が、第1条件付確率及び第1語群の出現頻度、並びに第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を各文章に対する各トピックのスコアとして求め、それをテキストデータ単位に集約することで、各テキストデータに対する各トピックのスコアを求める。具体例については上述したので説明は省略する。
次に、スコアに基づいて、トピックごとに事象該当ありの指標値と事象該当なしの指標値を計算する(ステップS4:集計ステップ)。具体例については上述したので説明は省略する。
以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、テキストデータからトピックを抽出し、各テキストデータに対してトピックのスコアを求める。このようなスコアを求める前提となる共起行列は、事象が発生したテキストデータと事象が発生していないテキストデータに分け、第1の共起行列及び第2の共起行列を作成し、これらの差から得られたものである。
このようにして得られた共起行列は、事象の発生有無に関係する共起ペアは頻度が大きくなり、そうでない共起ペアでは頻度が小さくなる。このため、共起行列にPLSAを適用する結果、事象の発生有無に影響を与えるトピックを優先的に抽出することができる。このように、本発明によれば、テキストデータに潜む要因関係(トピックと事象との関係)を顕在化することができる。
また、テキストデータに含まれる文章ごとに共起行列を作成し、トピック抽出手段12により文章を元にトピックを抽出した。これにより、テキストデータに異なる観点の文章が複数含まれている場合であっても、トピック抽出手段12による抽出されたトピックは、異なる観点が混在したような曖昧さが低減され、より明確な内容のトピックを抽出することができる。
本発明では、事象該当ありの指標値と事象該当なしの指標値をトピック毎に計算する。これにより、各トピックが着目する事象の有無(上記実施例では2013年前後の出願年であるか否か)に対してどの程度関連するものなのかを明確にすることができる。
本発明では、第1の共起行列と第2の共起行列との差を取る際に、何れか一方あるいは両方に補正値を乗じて補正した。これにより、事象の発生有無に影響を与えるトピックを、その発生有無のデータ規模によらず抽出することができる。
なお、本発明を上述した実施形態に基づいて説明したが、本発明は上記実施形態に限定されない。例えば、一台の分析装置1において各手段11〜14による処理を実行させたが、このような態様に限らず、複数の分析装置にて各手段を分散して実行させてもよい。
また、上記実施形態では、特許文献を対象としたものであるが、これに限定されない。例えば、顧客から得たアンケートの自由記述結果をテキストデータとし、商品の顧客満足度(ターゲットとなる事象)に影響を与えるトピックを当該テキストデータから抽出するなど、テキストデータの一般に適用することができる。
〈比較例〉
上述した実施形態と同じテキストデータを用いて、第1の共起行列及び第2の共起行列を作成せずに、トピックの抽出及びスコアの集計を行った比較例を示す。具体的には、テキストデータから文章を抽出し、各文章から、第1語群及び第2語群を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する。つまり、共起行列の作成方法自体は、第1の共起行列及び第2の共起行列と同様であり、テキストデータのメタデータが事象に該当するか否かの判定を行わずに、全てのテキストデータを入力データとした点が異なる。
このようにして作成した共起行列について、上述した実施形態と同様にトピック抽出を行った結果を表12に示す。本発明では表7に示したように、14個のトピックが抽出されたが、比較例においては47個のトピックが抽出された。
さらに、得られたトピックについて上述した実施形態と同様にスコア集計した結果を表13に示す。47個のトピックについて、2013年前後における指標値の増減率が得られた。
比較例においては、47個のトピックは、2013年前後の増減率がばらついていることが分かる。一方、表11に示すように、本発明によれば、2013年前後の増減率は高いものと低いものに集中しており、その値も表13よりも高く、事象(2013年前後における出願傾向)に影響を与える14個のトピックが優先的に抽出されている。
〈実施形態2〉
実施形態1では、テキストデータからそこに含まれる文章を抽出し、各文章から共起行列を作成した。しかしながら、本発明はこれに限定されず、テキストデータから共起行列を作成してもよい。以下、本実施形態の分析方法、分析装置、分析プログラムについて説明するが、実施形態1と重複する説明は省略する。
共起行列作成手段11は、テキストデータから第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する。つまり、テキストデータは1又は複数の文章からなるが、文章単位では処理せずに、テキストデータ単位で処理する。なお、例として用いるテキストデータは、実施形態1の表1と同様である。
共起行列の作成方法について説明する。まず、共起行列作成手段11は、テキストデータのメタデータが事象に該当するか否かを判定する。この判定については、実施形態1で説明したので、ここでの説明は省略する。
共起行列作成手段11は、事象が発生した全てのテキストデータから第1語群及び第2語群を抽出する。そして、共起行列作成手段11は、抽出された第1語群及び第2語群から第1の共起行列を集計する。
同様に、共起行列作成手段11は、事象が発生しなかった全てのテキストデータ(または事象の発生有無にかかわらない全てのテキストデータ)から第1語群及び第2語群を抽出する。そして、共起行列作成手段11は、抽出された第1語群及び第2語群から第2の共起行列を集計する。
このようにして、第1語群及び第2語群に属する具体的な語や件数は異なるが、表3及び表4のような第1の共起行列及び第2の共起行列が得られる。表3がテキストデータから作成された第1の共起行列であると仮定すると、「配置」及び「空気−吸い込む」という共起ペアが存在するテキストデータの数は66件であることを表す。
また、第1の共起行列を得るために用いられたテキストデータの数(事象が発生したテキストデータの数)と、第2の共起行列を得るために用いられたテキストデータの数(事象が発生しなかったテキストデータの数)とに差がある場合は、第1の共起行列又は第2の共起行列の一方あるいはその両方を補正することが好ましい。
例えば、第1の共起行列を得るために用いたテキストデータの数がN1件、第2の共起行列を得るために用いたテキストデータの数がN2件であった。N1<N2とする。この場合、第2の共起行列の全ての共起ペアの個数に、N1/N2を乗じる補正を行う。つまり、数の多いテキストデータから作成された第2の共起行列に対して、第2の共起行列の作成に用いられたテキストデータの数(N2)に対する、第1の共起行列の作成に用いられたテキストデータの数(N1)の比率を補正値とする。もちろん、第1の共起行列を補正してもよい。この場合は、第1の共起行列の全ての共起ペアの個数に、補正値N2/N1を乗じる。
このような補正を行うことで、第2の共起行列は、第1の共起行列と同じN1件のテキストデータを用いて作成したものと同等と考えられる。このような補正は、第1の共起行列と第2の共起行列のテキストデータの数に偏りがある場合に特に有用である。
このようにして得られた共起行列に対して、トピック抽出手段12によりトピックの抽出を行う。この抽出については、実施形態1と同様であるのでここでの説明は省略する。
実施形態1では、各トピックを条件とした各文章の条件付確率を計算したが、本実施形態では、各トピックを条件とした各テキストデータの条件付確率を計算する。
具体的には、スコア計算手段13は、第1条件付確率及び第1語群の出現頻度、並びに第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各テキストデータの条件付確率を計算する。そして、この条件付確率を各テキストデータの発生確率で除した値を、各テキストデータに対する各トピックのスコアとする。
各トピックTkを条件とした各テキストデータShの条件付確率をP(Sh|Tk)とする。各テキストデータの発生確率をP(Sh)とする。各テキストデータに対するトピックのスコアは、P(Sh|Tk)/P(Sh)である。スコア計算手段13は、P(Sh|Tk)及びP(Sh)を次のように計算する。なお、kは、PLSAで作成されたトピックを特定する番号であり、トピックの総数を最大とする自然数である。hは、テキストデータを特定する番号(テキストデータID)であり、テキストデータの総数を最大とする自然数である。
各テキストデータShについて、第1語群に設定した単語Wによって定義されるテキストデータをSwh、第2語群に設定した係り受け表現Eによって定義されるテキストデータをSehとする。P(Sh|Tk)を計算するにあたり、P(Swh|Tk)とP(Seh|Tk)を計算する。これらはそれぞれ上記式(1)(2)で計算される。単語Wiが含まれるテキストデータの数をn(Wi)、係り受け表現Ejが含まれるテキストデータの数をn(Ej)とすると、P(Swh|Wi)はn(Wi)の逆数、P(Seh|Ej)はn(Ej)の逆数として計算される。P(Wi|Tk)とP(Ej|Tk)は、PLSAの実行によって得られる第1条件付確率と第2条件付確率である。
P(Sh|Tk)は、上記式(3)より得られる。P(Sh|Swh)とP(Sh|Seh)は文章Shにおいて重みは同じといえるので、それぞれ0.5とする。P(Sh)は、上記式(4)で計算され、P(Tk)はPLSAの実行により得られる。
上記式(3)のP(Sh|Tk)を、上記式(4)のP(Sh)で除した値が各テキストデータのスコアとなる。本実施形態では、各テキストデータの発生確率を上記式(4)のように計算しているが、例えば一様分布に従うと仮定し、P(Sh)をテキストデータの総数の逆数とするなど、各テキストデータの発生確率の取り方はこれに限らない。
このように、P(Sh|Tk)とP(Sh)との比をもってテキストデータShにおけるトピックTkのスコアとする。この値が1を超えるということは、テキストデータShの発生確率はトピックTkを条件とすることで上昇し、トピックTkとの関係が強いということである。このようなスコアを採用することで、各テキストデータShとトピックTkの関係の強さを把握しやすくすることができる。表14に各テキストデータShに対する各トピックTkのスコアを例示する。
例えば、テキストデータID「1」は、トピックT1についてのスコアが3.1であり、トピックT2についてのスコアが0.9であり、このようなスコアが全トピックについて計算されている。
このようにして得られたスコアから、トピックの該当の有無を表す1,0の情報を付与してもよい。例えば、閾値を「3」に設定し、スコアが3以上であれば「1」、3未満であれば「0」というフラグ情報を付与してもよい。表15にフラグ情報を示す。
テキストデータ「1」は、トピックT1のスコアが「3.1」であるから(表14参照)、フラグ情報は「1」となり、トピックT2のスコアは「0.9」であるから、フラグ情報は「0」となる。
集計手段については、上記スコアを元にして、実施形態1と同様に処理することができるので、ここでの説明は省略する。
以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、実施形態1と同様の作用効果を奏する。また、本実施形態では、文章ごとではなく、テキストデータから共起行列を作成する。このため、本実施形態の分析方法等は、テキストデータに異なる観点の文章が複数含まれていない場合に、特に有用である。
〈実施形態3〉
実施形態1ではテキストデータから抽出された文章を対象として共起行列を作成し、実施形態2ではテキストデータを対象として共起行列を作成したが、本発明はこれらに限定されない。
本実施形態のテキストデータは、カテゴリに分類されたテキスト部(1又は複数の文章からなる)を複数備えた構造となっている。表16にテキストデータを例示する。
表16に示すように、テキストデータは、複数のテキスト部からなり、各テキスト部は、カテゴリに分類されている。例えば、特許出願の明細書等に関するテキストデータには、タイトル(発明の名称)、課題、解決手段、効果などのカテゴリに分類されたテキスト部が含まれている。
共起行列作成手段11は、複数のカテゴリのうち特定の2個のカテゴリを用いる。この2個のカテゴリは、ユーザーに指定されたものである。それらの2個のカテゴリのうちの一つを第1のカテゴリ、他の一つを第2のカテゴリと称する。
共起行列作成手段11は、第1のカテゴリに分類されたテキスト部から第1語群に属する語、及び第2のカテゴリに分類されたテキスト部から第2語群に属する語の組み合わせの個数を表す共起行列を作成する。
具体的には、まず、共起行列作成手段11は、テキストデータのメタデータが事象に該当するか否かを判定する。この判定については、実施形態1で説明したので、ここでの説明は省略する。
共起行列作成手段11は、事象が発生した全てのテキストデータのうち、第1のカテゴリに分類されたテキスト部から第1語群を抽出し、第2のカテゴリに分類されたテキスト部から第2語群を抽出する。そして、共起行列作成手段11は、抽出された第1語群及び第2語群から第1の共起行列を集計する。
同様に、共起行列作成手段11は、事象が発生しなかった全てのテキストデータ(または事象の発生有無にかかわらない全てのテキストデータ)のうち、第1のカテゴリに分類されたテキスト部から第1語群を抽出し、第2のカテゴリに分類されたテキスト部から第2語群を抽出する。そして、共起行列作成手段11は、抽出された第1語群及び第2語群から第2の共起行列を集計する。
表17は、第1のカテゴリを「タイトル」とし、第2のカテゴリを「解決手段」とし、第1語群を「名詞」とし、第2語群を「係り受け表現」として作成した第1の共起行列を例示している。
例えば、第1のカテゴリ「タイトル」に分類されたテキスト部に「燃焼」という名詞が含まれ、かつ、第2のカテゴリ「解決手段」に分類されたテキスト部に「空気−吸い込む」という係り受け表現が含まれるような共起ペアが存在するテキストデータの数は66件であることを表す。第2の共起行列については特に例示しないが、表17と同様の結果が得られる。
また、第1の共起行列を得るために用いられたテキストデータの数(事象が発生したテキストデータの数)と、第2の共起行列を得るために用いられたテキストデータの数(事象が発生しなかったテキストデータの数)とに差がある場合は、第1の共起行列又は第2の共起行列の一方あるいはその両方を補正することが好ましい。補正の方法は、実施形態2と同様である。
以後の処理は実施形態2と同様である。具体的には、本実施形態の分析方法、分析装置及び分析プログラムは、共起行列作成手段11が第1の共起行列及び第2の共起行列に基づいて共起行列を作成し、トピック抽出手段12がトピックを抽出し、スコア計算手段13がスコアを計算し、集計手段14が集計を行う。
以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、実施形態1及び実施形態2と同様の作用効果を奏する。また、本実施形態では、カテゴリに分けられたテキスト部を含む、構造化されたテキストデータを対象として分析する場合に特に有用である。
なお、本発明では、メタデータは、事象に該当するか否かによって第1の共起行列及び第2の共起行列を作成するために用いられる。しかしながら、本実施形態のようにカテゴライズされたテキスト部を用いる場合においては、メタデータをカテゴライズされたテキスト部として用いてもよい。
表18は、メタデータをカテゴライズされたテキスト部としても用いる場合のテキストデータの例を示している。表16と同様に、メタデータとして「出願人」「発明者」「出願年」がある。一方、これらの「出願人」「発明者」「出願年」は、テキストデータに含まれるカテゴリとしても用いることができる。出願人の「A」や「B」はカテゴリ「出願人」のテキスト部の具体例である。発明者についても同様である。
表19に、第1のカテゴリを「出願人」とし、第2のカテゴリを「解決手段」とし、第1語群を「名詞(人名・法人名)」とし、第2語群を「係り受け表現」とし、表18のテキストデータから作成した第1の共起行列を例示する。
第2の共起行列についても同様に作成し、実施形態2と同様に以後の処理を行う。具体的には、本実施形態の分析方法、分析装置及び分析プログラムは、共起行列作成手段11が第1の共起行列及び第2の共起行列に基づいて共起行列を作成し、トピック抽出手段12がトピックを抽出し、スコア計算手段13がスコアを計算し、集計手段14が集計を行う。
1 分析装置
10 分析プログラム
11 共起行列作成手段
12 トピック抽出手段
13 スコア計算手段
14 集計手段

Claims (10)

  1. テキストデータ及び前記テキストデータに関するメタデータの分析方法であって、
    前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成ステップと、
    前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出ステップと、
    前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、
    前記共起行列作成ステップは、
    前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、
    前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、
    前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
    ことを特徴とする分析方法。
  2. 請求項1に記載の分析方法であって、
    前記テキストデータは、カテゴリに分類されたテキスト部を含み、
    前記共起行列作成ステップは、第1のカテゴリに分類された前記テキスト部から第1語群に属する語、及び第2のカテゴリに分類された前記テキスト部から第2語群に属する語の組み合わせの個数を表す共起行列を作成し、
    前記スコア計算ステップでは、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて前記テキストデータに対する各トピックのスコアを求め、
    前記共起行列作成ステップは、
    前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記第1のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第2のカテゴリに分類された前記テキスト部について第1の共起行列を作成し、
    前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記第1のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第2のカテゴリに分類された前記テキスト部、あるいは前記事象の該当有無にかかわらず全ての前記テキスト部について第2の共起行列を作成し、
    前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
    ことを特徴とする分析方法。
  3. 請求項1に記載の分析方法であって、
    前記共起行列作成ステップは、前記テキストデータから文章を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成し、
    前記スコア計算ステップでは、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求め、
    前記共起行列作成ステップは、
    前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記文章について第1の共起行列を作成し、
    前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記文章、あるいは前記事象の該当有無にかかわらず全ての前記文章について第2の共起行列を作成し、
    前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
    ことを特徴とする分析方法。
  4. 請求項1又は請求項2に記載する分析方法において、
    前記共起行列作成ステップでは、前記第1の共起行列に対して補正値を乗じ、
    前記補正値は、前記第1の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第2の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率である
    ことを特徴とする分析方法。
  5. 請求項1又は請求項2に記載する分析方法において、
    前記共起行列作成ステップでは、前記第2の共起行列に対して補正値を乗じ、
    前記補正値は、前記第2の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第1の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率である
    ことを特徴とする分析方法。
  6. 請求項3に記載する分析方法において、
    前記共起行列作成ステップでは、前記第1の共起行列に対して補正値を乗じ、
    前記補正値は、前記第1の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第2の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率である
    ことを特徴とする分析方法。
  7. 請求項3に記載する分析方法において、
    前記共起行列作成ステップでは、前記第2の共起行列に対して補正値を乗じ、
    前記補正値は、前記第2の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第1の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率である
    ことを特徴とする分析方法。
  8. 請求項1から請求項7の何れか一項に記載する分析方法において、
    前記トピックごとに、
    前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当する確率を前記メタデータが前記事象に該当する確率で除した事象該当ありの指標値、及び
    前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当しない確率を前記メタデータが前記事象に該当しない確率で除した事象該当なしの指標値を計算する集計ステップを備える
    ことを特徴とする分析方法。
  9. テキストデータ、及び前記テキストデータに関するメタデータの分析装置であって、
    前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、
    前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語
    の第2条件付確率を求めるトピック抽出手段と、
    前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、
    前記共起行列作成手段は、
    前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、
    前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、
    前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
    ことを特徴とする分析装置。
  10. テキストデータ、及び当該テキストデータに関するメタデータをコンピュータに分析させる分析プログラムであって、
    前記コンピュータを、
    前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、
    前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出手段と、
    前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、
    前記共起行列作成手段は、
    前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、
    前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、
    前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
    ことを特徴とする分析プログラム。
JP2019084331A 2018-05-09 2019-04-25 分析方法、分析装置及び分析プログラム Active JP7221526B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018090885 2018-05-09
JP2018090885 2018-05-09

Publications (2)

Publication Number Publication Date
JP2019200784A true JP2019200784A (ja) 2019-11-21
JP7221526B2 JP7221526B2 (ja) 2023-02-14

Family

ID=68613158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019084331A Active JP7221526B2 (ja) 2018-05-09 2019-04-25 分析方法、分析装置及び分析プログラム

Country Status (1)

Country Link
JP (1) JP7221526B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743409A (zh) * 2020-08-28 2021-12-03 北京沃东天骏信息技术有限公司 一种文本识别方法和装置
CN115455987A (zh) * 2022-11-14 2022-12-09 合肥高维数据技术有限公司 基于字频词频的字符分组方法、存储介质及电子设备
KR20230000397A (ko) * 2021-06-24 2023-01-02 주식회사 렉스퍼 LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치
CN118170865A (zh) * 2024-03-11 2024-06-11 杭州正义先铎网络科技有限公司 一种基于自然语言处理技术的文本数据采集和分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185135A (ja) * 2002-11-29 2004-07-02 Mitsubishi Electric Corp 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体
JP2006277767A (ja) * 2006-06-19 2006-10-12 Central Res Inst Of Electric Power Ind 情報潮流検出・提示方法およびその装置ならびに記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185135A (ja) * 2002-11-29 2004-07-02 Mitsubishi Electric Corp 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体
JP2006277767A (ja) * 2006-06-19 2006-10-12 Central Res Inst Of Electric Power Ind 情報潮流検出・提示方法およびその装置ならびに記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743409A (zh) * 2020-08-28 2021-12-03 北京沃东天骏信息技术有限公司 一种文本识别方法和装置
KR20230000397A (ko) * 2021-06-24 2023-01-02 주식회사 렉스퍼 LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치
KR102594734B1 (ko) 2021-06-24 2023-10-26 주식회사 렉스퍼 LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치
CN115455987A (zh) * 2022-11-14 2022-12-09 合肥高维数据技术有限公司 基于字频词频的字符分组方法、存储介质及电子设备
CN118170865A (zh) * 2024-03-11 2024-06-11 杭州正义先铎网络科技有限公司 一种基于自然语言处理技术的文本数据采集和分析方法

Also Published As

Publication number Publication date
JP7221526B2 (ja) 2023-02-14

Similar Documents

Publication Publication Date Title
US10255354B2 (en) Detecting and combining synonymous topics
Gu et al. " what parts of your apps are loved by users?"(T)
Mudinas et al. Combining lexicon and learning based approaches for concept-level sentiment analysis
Aisopos et al. Sentiment analysis of social media content using n-gram graphs
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
JP2019200784A (ja) 分析方法、分析装置及び分析プログラム
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
Giannakopoulos et al. Representation models for text classification: a comparative analysis over three web document types
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Adam et al. Sentiment analysis on movie review using Naïve Bayes
US11436278B2 (en) Database creation apparatus and search system
Iqbal et al. Bias-aware lexicon-based sentiment analysis
Ali et al. Sentiment summerization and analysis of Sindhi text
CN112989816B (zh) 文本内容质量评估方法及系统
Subha et al. Quality factor assessment and text summarization of unambiguous natural language requirements
Cho et al. Enhancing lexicon-based review classification by merging and revising sentiment dictionaries
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Bettiche et al. Opinion mining in social networks for Algerian dialect
WO2024037483A1 (zh) 文本处理方法、装置、设备及介质
Consuegra-Ayala et al. Automatic annotation of protected attributes to support fairness optimization
Saad et al. Revised mutual information approach for german text sentiment classification
Panahandeh et al. Correction of spaces in Persian sentences for tokenization
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230126

R150 Certificate of patent or registration of utility model

Ref document number: 7221526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150