JP4303921B2

JP4303921B2 - テキストマイニングシステム及び方法並びにプログラム

Info

Publication number: JP4303921B2
Application number: JP2002214324A
Authority: JP
Inventors: 佳代子磯尾; 恭子牧野; 誠司岩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-08-08
Filing date: 2002-07-23
Publication date: 2009-07-29
Anticipated expiration: 2022-07-23
Also published as: CN1402153A; US20030041062A1; JP2003122775A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストマイニングシステム及び方法並びにプログラムに関する。
【０００２】
【従来の技術】
テキストマイニング技術の具体例として、テキストデータに基づいて文脈を理解し、テキストデータの要約抽出、テキストデータの分類、テキストデータの検索などを行う技術、テキストデータから知識を抽出する技術、テキストで記述されている情報（定性情報）から数量化した情報（定量情報）を取得する技術などがある。広義には、テキストデータについてのデータマイニングにより得られる結果の分析を行う技術もテキストマイニング技術に含まれる。
【０００３】
テキストマイニングシステム（マイニングエンジン）は、概念定義辞書を利用して分析処理を実行する。
【０００４】
図８は、従来のテキストマイニングシステムの構成を例示するブロック図である。
【０００５】
このテキストマイニングシステム１は、主に入力部２と、情報抽出部３と、出力部４と、概念定義辞書５を具備している。
【０００６】
概念定義辞書５には、各種データが記録される。概念定義辞書５には、テキストで記述される情報の構成要素となる各種のテキスト要素とその属性情報（例えば属性ＩＤ）とが登録される。概念定義辞書５に登録されているテキスト要素と属性ＩＤは、分析処理の判断基準として利用される。なお、テキスト要素として、例えば単語、句、節、文などが登録される。
【０００７】
例えば、「一歩リード」というテキスト要素に属性ＩＤ「G001」が対応付けされている。また、「ＰＯＳは順調」というテキスト要素に属性ＩＤ「G009」が対応付けされている。各属性ＩＤは、各テキスト要素の性質を表し、分析処理に利用される。
【０００８】
入力部２は、分析対象のデータである収集された日報データ６１〜６ｎを入力する。
【０００９】
情報抽出部３は、入力された日報データ６１〜６ｎから概念定義辞書５に登録されているテキスト要素を含む日報データを抽出する。そして、情報抽出部３は、抽出した日報データとそれに含まれているテキスト要素の属性ＩＤとに基づいて、テキストマイニングを行う。例えば、属性ＩＤが「良い情報」である旨を示すテキスト要素を含んでいる日報データを、「良い日報」と判断し、抽出する。
【００１０】
出力部４は、情報抽出部３によるテキストマイニング結果を表示する。
【００１１】
これにより、日報データ６１〜６ｎのうち「良い日報」であると判断された日報データ７を表示することが可能である。
【００１２】
上記のようなテキストマイニングシステム１において、テキストマイニングの内容を変化させたい場合には、概念定義辞書５の登録内容を変更（例えば修正、訂正、補充、削除、編集など）する必要がある。
【００１３】
例えば、概念定義辞書５に登録されているテキスト要素のうちいくつかのテキスト要素のみを利用してテキストマイニングを行いたい場合がある。
【００１４】
この場合、利用を望むテキスト要素とそのテキスト要素に関する属性ＩＤなどの情報のみからなる辞書を新たに作成し、情報抽出部３がこの新たに作成された辞書をアクセスするように、辞書の指定を変更する必要がある。
【００１５】
概念定義辞書５を変更する場合には、例えばテキストエディタを利用して概念定義辞書プログラムを編集する必要がある。又は辞書変更を指示するコマンドを入力する必要がある。
【００１６】
【発明が解決しようとする課題】
テキストマイニングシステム１の構造を熟知していない者が概念定義辞書５の内容、又は情報抽出部３がアクセスする辞書の設定を、変更することは困難である。
【００１７】
したがって、概念定義辞書プログラムをテキストエディタで変更する作業、コマンド入力により概念定義辞書５を変更する作業、及び利用する辞書の指定作業は、テキストマイニングシステム１の構造に熟知した技術者が行う必要がある。
【００１８】
また、テキストマイニングシステム１の構造に熟知している者がテキストエディタ等によって編集作業を行う場合であっても、コーディングミス等に基づくバグが発生することがある。
【００１９】
本発明は、以上のような実情に鑑みてなされたもので、テキストマイニングに利用するテキスト要素を容易に変更可能とするテキストマイニングシステム及び方法並びにプログラムに関する。
【００２０】
【課題を解決するための手段】
本発明を実現するにあたって講じた具体的手段について以下に説明する。
【００２１】
本発明は、コンピュータシステムによって構成されるテキストマイニングシステムに関する。
【００２２】
本発明のテキストマイニングシステムは、「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶する辞書装置と、辞書装置にグループ情報を登録する第１のユーザから、辞書装置の複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、第１のユーザによって指定されたグループ情報を関連付けて記憶する記憶手段と、データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第２のユーザから、辞書装置の複数の辞書情報のうちテキストマイニングに用いる辞書情報の指定と、テキストマイニングに用いるグループ情報の指定を受け付けるためのグループ指定手段と、グループ指定手段において指定された辞書装置のテキストマイニングに用いる辞書情報から、グループ指定手段において指定されたテキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出する抽出手段と、抽出手段によって抽出されたテキスト要素に基づいて、データベースに記憶されているテキストマイニング対象のテキストデータに対して、テキストマイニングを実行するテキストマイニング手段とを具備する。
【００２３】
なお、グループ情報の指定は、ユーザから受け付けてもよいし、外部の装置、プログラムなどから受け付けてもよい。
【００２４】
本発明では、指定されたグループ情報に関連付けされているテキスト要素のみが抽出され、テキストマイニングに利用される。
【００２５】
したがって、辞書の変更作業を行わなくてもテキストマイニングに利用するテキスト要素を容易に変更することができる。また、新たに辞書を作成し、この新たに作成した辞書をテキストマイニングに利用する辞書として指定する作業も必要ない。
【００２６】
なお、上記本発明のテキストマイニングシステムを実現させるためのプログラム又はプログラムを記録したコンピュータ読み取り可能な記録媒体を、発明の対象としてもよい。
【００２７】
このプログラム又はこのプログラムを記録した記録媒体を用いることによって、計算機システム、サーバやクライアント等の計算機に対して、簡単に上述した動作を実施可能な機能を付加することができる。
【００２８】
また、上記本発明のテキストマイニングシステムで実現されるテキストマイニング方法を発明の対象としてもよい。
【００２９】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態について説明する。
【００３０】
（第１の実施の形態）
本実施の形態においては、テキストマイニングシステムの構造に詳しくない者であっても、ＧＵＩ（Graphical User Interface）を使用し、テキストマイニングに利用するテキスト要素を容易に指定可能とするデータ要素指定プログラムについて説明する。
【００３１】
なお、以下の各実施の形態においては、分析対象データがテキストデータの場合について説明している。しかしながら、分析対象データは、例えば、画像データ、音声データなどのようにテキストデータ以外のデータ、様々な種別のデータの組み合わせ、であってもよい。
【００３２】
また、以下の各実施の形態においては、対象データがテキストデータの場合について説明するため、辞書にはテキスト要素とその属性ＩＤとが記録されている。しかしながら、例えば、分析対象のデータが画像データ、音声データなどの場合、辞書には画像データ、音声データであるデータ要素とその属性ＩＤとが記録される。このように、辞書に記録されるデータ要素の種別は、分析対象データの種別と整合性があればよい。
【００３３】
図１は、本実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図である。
【００３４】
データ要素指定プログラム８は、記録媒体９に記録されており、計算機システム１０に読み込まれることにより、計算機システム１０上で記憶機能１１、グループ指定機能１２、抽出機能１３を実現する。
【００３５】
記憶機能１１は、テキスト要素に対して、そのテキスト要素の属性ＩＤとそのテキスト要素の属するグループを示すグループ情報とを関連付けた情報を概念定義辞書１４に記憶する。記憶機能１１は、例えばユーザ１５又は他の装置からの入力にしたがって各情報の関連付けを行い、登録を行う。
【００３６】
ユーザ１５は、記憶機能１１のＧＵＩ機能を用いて入力を行う。例えば、関連付けた情報を入力するためのテーブルを表示し、ユーザはそのテーブルに各情報を記述する。記憶機能１１は、テーブルに記述された内容を読み込み、概念定義辞書１４に登録する。
【００３７】
概念定義辞書１４では、例えば関連付けた情報がテーブル形式で管理される。本実施の形態においては、概念定義辞書１４内に複数の辞書情報Ｇ１、Ｇ２が含まれているとする。
【００３８】
表１は、概念定義辞書１４に含まれている辞書情報Ｇ１を例示している。
【００３９】
【表１】

【００４０】
表１に示す辞書情報Ｇ１は、重要度分類辞書である。各テキスト要素が重要度「高」「中」「低」でグループ分けされている。グループ情報は、重要度の種別を表す。
【００４１】
例えば、テキスト要素「一歩リード」に対して、「良い情報」を示す属性ＩＤ「G001」及びグループ情報「低」が関連付けされている。他のテキスト要素と属性ＩＤとグループ情報についても同様の関係である。
【００４２】
表２は、概念定義辞書１４に含まれている辞書情報Ｇ２を例示している。
【００４３】
【表２】

【００４４】
表２に示す辞書情報Ｇ２は、品名分類辞書である。各テキスト要素が品名「雑誌」「飲料」でグループ分けされている。グループ情報は、品名の種別を表す。
【００４５】
グループ指定機能１２は、テキストマイニングに利用するテキスト要素のグループ情報をユーザに指定させるための画面を表示し、ユーザから指定を受け付ける。
【００４６】
図２は、このグループ指定機能１２によって表示される画面を例示する図である。
【００４７】
このグループ指定画面１６上には、分析対象とする日報データの日付の指定領域、概念定義辞書１４に含まれている複数の辞書情報Ｇ１、Ｇ２のうちどの辞書情報を利用するかを指定する領域、そしてグループ情報を指定するためのチェックボックスが配置されている。この例では、日付「１月２２日」、辞書情報「Ｇ１」、グループ情報「高」「中」が指定されている。
【００４８】
グループ指定機能１２は、グループ指定画面１６で指定された日付「１月２２日」に関する日報データの入力命令を入力部２ａに出力し、グループ指定画面１６で辞書情報「Ｇ１」とグループ情報「高」「中」が指定されたことを示す通知を抽出機能１３に提供する。
【００４９】
抽出機能１３は、概念定義辞書１４をアクセスし、ユーザに指定された辞書情報Ｇ１からユーザに指定されたグループ情報「高」「中」に関連付けされているテキスト要素とその属性ＩＤとを抽出し、情報抽出部３ａに提供する。
【００５０】
日報データベース１７は、日報データを記録する。
【００５１】
表３は、日報データベース１７に記録されている日報データの例を示す。
【００５２】
【表３】

【００５３】
なお、日報番号「N001」〜「N005」の日報データは、日付「１月２２日」に対応しているとする。
【００５４】
テキストマイニングシステム１ａは、入力部２ａ、情報抽出部３ａ、出力部４ａとを具備する。
【００５５】
入力部２ａは、グループ指定機能１２からの命令にしたがって、指定された日付「１月２２日」に関する日報データを日報データベース１７から入力する。
【００５６】
情報抽出部３ａは、入力部２ａから取得した日報データに対して、上記抽出機能１３から提供されたテキスト要素と属性ＩＤとに基づいて、先の図８で説明した分析と同様のテキストマイニングを実行し、分析結果ファイルを作成する。
【００５７】
表４は、情報抽出部３ａにより作成された分析結果ファイルの内容を示す。
【００５８】
この分析結果ファイルでは、日報番号、日報データ、分析結果情報とが関連付けされている。具体的には、分析結果ファイルの内容は、「日報番号」、「日報データ」、「分析結果情報」の項目を持つテーブルである。
【００５９】
【表４】

【００６０】
分析結果情報は、ユーザに指定された日付「１月２２日」に関する日報データに含まれており、ユーザに指定されたグループ情報「高」「中」に関連付けされているテキスト要素の属性ＩＤである。なお、ユーザに指定された日付の日報データであるが、ユーザに指定されたグループ情報「高」「中」に関連付けされているテキスト要素を含まない日報データの分析結果情報は「NULL」となる。
【００６１】
出力部４ａは、情報抽出部３ａから分析結果ファイルを入力し、分析結果情報が「NULL」でない日報データ、すなわち分析結果情報に属性ＩＤが挿入されている日報データのみを表示する。
【００６２】
表５は、ユーザ１５が日付「１月２２日」と辞書情報「Ｇ１」とグループ情報「高」「中」を指定した場合の分析結果を示す。
【００６３】
【表５】

【００６４】
この表５では、日付「１月２２日」に関する日報データからグループ情報「高」「中」に関連付けされているテキスト要素を含む日報データのみが抽出されている。
【００６５】
表６は、ユーザが日付「１月２２日」と辞書情報「Ｇ１」とグループ情報「中」を指定した場合の分析結果を示す。
【００６６】
【表６】

【００６７】
この表６では、日付「１月２２日」の日報データからグループ情報「中」に関連付けされているテキスト要素を含む日報データが抽出されている。
【００６８】
図３は、上記データ要素指定プログラム８とテキストマイニングシステム１ａとにより実行されるデータ分析方法に関するフロー図である。
【００６９】
まず、ユーザ１５の操作により、テキスト要素に対してそのテキスト要素の属性ＩＤとグループ情報とを関連付けた情報が、計算機システム１０の概念定義辞書１４に記憶される（Ｓ１）。
【００７０】
ユーザ１５がデータ分析の開始を指示すると、グループ指定機能１２によってグループ指定画面１６が表示される（Ｓ２）。
【００７１】
ユーザ１５は、このグループ指定画面１６上で自己の望む分析に利用する各種情報を指定する。
【００７２】
ユーザ１５に指定された内容は、グループ指定機能１２によって受け付けられる（Ｓ３）。
【００７３】
すると、指定されたグループ情報に関連付けされているテキスト要素と属性ＩＤとが指定された辞書情報から抽出機能１３によって抽出され、情報抽出部３ａに提供される（Ｓ４）。
【００７４】
また、指定された日付の日報データが日報データベース１７から入力部２ａによって入力される（Ｓ５）。
【００７５】
そして、入力部２ａによって入力された所定の日付の日報データと抽出機能１３から提供されたテキスト要素と属性ＩＤとに基づいて、情報抽出部３ａによってデータ分析が実行され（Ｓ６）、分析結果が出力部４ａによって出力される（Ｓ７）。
【００７６】
なお、ステップＳ４とステップＳ５とは、逆の順序で実行されてもよく、並列に実行されてもよい。
【００７７】
以上説明したように、本実施の形態においては、テキスト要素とその属性ＩＤに予めグループ情報が関連付けされる。ユーザ１５は、分析処理を実行する場合にこの分析処理に利用するテキスト要素のグループ情報を指定する。
【００７８】
これにより、ユーザ１５は、テキストエディタを用いて概念定義辞書１４の内容を変更する必要がなく、グループ情報を指定することにより分析に利用するテキスト要素を容易に切り換えることができる。
【００７９】
したがって、ユーザの望む分析を容易に実現することができる。
【００８０】
また、辞書情報を一つにまとめても、複数の分析処理を実行することができる。
【００８１】
また、データ要素指定プログラム８の記憶機能１１を利用することで、テキストマイニングシステム１ａの構造に詳しくない者であっても、ＧＵＩを利用し、容易に概念定義辞書１４を構成する各種辞書情報の内容を分析内容に応じて変更できる。
【００８２】
また、記憶機能１１によりユーザ１５は容易に概念定義辞書１４を変更可能であるためコーディングミス等に基づくバグの発生を防止できる。
【００８３】
（第２の実施の形態）
本実施の形態においては、上記第１の実施の形態の変形例について説明する。
【００８４】
図４は、本実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図である。なお、この図４において図１と同一の部分については同一の符号を付してその説明を省略し、ここでは異なる部分についてのみ詳しく説明する。
【００８５】
本実施の形態に係るデータ要素指定プログラム８は、グループ情報の指定又は概念定義辞書１４の変更内容を、ユーザ１５から入力するのではなく分析結果集計プログラム２１によって実現される機能から入力する点が異なる。
【００８６】
分析結果集計プログラム２１は、計算機システム１０上で結果集計機能２２、指定内容決定機能２３を実現する。
【００８７】
結果集計機能２２は、過去のテキストマイニング結果を入力し、このテキストマイニング結果に含まれているテキスト要素を抽出する。
【００８８】
結果集計機能２２によるテキスト要素の抽出は、テキストマイニング結果から概念定義辞書１４に記録されているテキスト要素を抽出する方法によって実現してもよい。その他にも、結果集計機能２２によるテキスト要素の抽出は、テキストマイニング結果に含まれている日報データを所定の規則にしたがってテキスト要素単位に分けて抽出する方法によって実現してもよい。例えば所定の規則には、単語を切り出すための規則などが利用される。
【００８９】
また、結果集計機能２２は、抽出されたテキスト要素がテキストマイニング結果に含まれる頻度を示す出現頻度、抽出されたテキスト要素の出現時間などの情報を集計する。
【００９０】
例えば、日報データに付されている時間情報やテキストマイニングの実行時間を示す情報は、抽出されたテキスト要素の出現時間を示す情報として利用される。
【００９１】
指定内容決定機能２３は、集計された情報に基づいて、過去のテキストマイニング結果に含まれているテキスト要素にグループ情報を関連付ける。例えば、過去のテキストマイニング結果に含まれているあるテキスト要素に対し、その出現頻度に応じてグループ情報「出現頻度多」「出現頻度中」「出現頻度少」のうちのいずれかを関連付ける。また、過去のテキストマイニング結果に含まれているあるテキスト要素に対し、出現時刻に応じてグループ情報「所定期間内」「所定期間外」のうちのいずれかを関連付ける。
【００９２】
そして、指定内容決定機能２３は、その関連付けた内容を記憶機能１１又はグループ指定機能１２に通知する。
【００９３】
図５は、上記データ要素指定プログラム８とテキストマイニングシステム１ａと分析結果集計プログラム２１とにより実行されるデータ分析方法に関するフロー図である。
【００９４】
まず、テキスト要素に対してそのテキスト要素の属性ＩＤとグループ情報とを関連付けた情報が計算機システム１０の概念定義辞書１４に記憶される（Ｔ１）。
【００９５】
テキストマイニングシステム１ａによるデータ分析が実行されると（Ｔ２）、その分析結果が分析結果集計プログラム２１に入力され（Ｔ３）、この分析結果集計プログラム２１による集計処理が実行され（Ｔ４）、分析結果に含まれているテキスト要素に対してグループ情報を関連付けた情報が求められる（Ｔ５）。
【００９６】
テキスト要素に対してグループ情報を関連付けた情報は、データ要素指定プログラム８の記憶機能１１によって計算機システム１０の概念定義辞書１４に記憶される（Ｔ６）。
【００９７】
また、分析結果集計プログラム２１による集計処理で扱われる所定のグループ情報がデータ要素指定プログラム８のグループ指定機能１２に対して指定される（Ｔ７）。
【００９８】
すると、指定されたグループ情報に関連付けされているテキスト要素が辞書情報から抽出機能１３によって抽出され、情報抽出部３ａに提供される（Ｔ８）。
【００９９】
また、日報データが日報データベース１７から入力部２ａによって入力される（Ｔ９）。
【０１００】
そして、入力部２ａによって入力された日報データと抽出機能１３から提供されたテキスト要素とに基づいて、情報抽出部３ａによってデータ分析が実行され（Ｔ１０）、分析結果が出力部４ａによって出力される（Ｔ１１）。
【０１０１】
なお、ステップＴ６とステップＴ７とは、逆の順序で実行されてもよく、並列に実行されてもよい。
【０１０２】
また、ステップＴ８とステップＴ９とは、逆の順序で実行されてもよく、並列に実行されてもよい。
【０１０３】
また、結果集計機能２２は、集計結果などを表やグラフの形式でユーザ１５に提示し、ユーザ１５は、その内容に基づいて指定内容決定機能２３に対し、グループ情報などの各種決定事項を入力するとしてもよい。
【０１０４】
本実施の形態においては、分析結果集計プログラム２１によって自動的にテキスト要素がグループ化され、所定のグループに属するテキスト要素のみを利用してテキストマイニングを行うことができる。
【０１０５】
例えば、先の分析で一定レベル以上使用されたテキスト要素のみを利用してテキストマイニングを行い、それ以外の使用回数が一定レベルに満たないテキスト要素を排除してテキストマイニングを行うことができる。
【０１０６】
（第３の実施の形態）
本実施の形態においては、上記第１又は第２の実施の形態に係るデータ要素指定プログラム８の変形例について説明する。
【０１０７】
表７は、本実施の形態に係るデータ要素指定プログラムの記憶機能によって記憶される辞書情報の内容を示す。
【０１０８】
【表７】

【０１０９】
本実施の形態においては、テキスト要素に一以上のグループ情報を付した辞書情報が概念定義辞書に記録される。
【０１１０】
グループ情報には、例えば、重要度分類に関する「高」「中」「低」、良否分類に関する「よい」「悪い」、品名分類に関する「飲料」「雑誌」が利用される。
【０１１１】
このように、一つの辞書情報に各種の分類を含ませることで（上記第１の実施の形態における複数の辞書情報を組み合わせることで）、一つの辞書情報で様々な種別のデータ分析を行うことができる。
【０１１２】
また、従来においては、複数の辞書情報を用意し、分析の内容に応じてテキストマイニングに利用する辞書情報を切り換えていたが、本実施の形態においては、一つの辞書情報を用いて様々なテキストマイニングを行うことができる。したがって、分析処理で利用する辞書情報をユーザが指定する必要がなく、ユーザの操作を簡略化できる。
【０１１３】
（第４の実施の形態）
本実施の形態においては、上記第３の実施の形態に係るデータ要素指定プログラムの変形例について説明する。本実施の形態の構成には、上記図１又は図４と同様の構成を適用できる。
【０１１４】
本実施の形態においては、グループを階層的に組み合わせてグループ情報が構成される。
【０１１５】
表８は、本実施の形態に係るデータ要素指定プログラムの記憶機能によって記憶される辞書情報の内容を示す。
【０１１６】
【表８】

【０１１７】
本実施の形態においては、階層構造を持つグループ情報をテキスト要素に付した辞書情報が概念定義辞書に記憶される。
【０１１８】
例えば、テキスト要素は、第１に、良否分類に関するグループ「よい」「悪い」で分けられる。第２に、グループ「よい」に属するテキスト要素は、重要度分析に関する３つのグループ「高」「中」「低」に分けられ、細分化される。
【０１１９】
よい意味を示すテキスト要素の中にも重要度の高いテキスト要素、低いテキスト要素などがある。
【０１２０】
本実施の形態においては、上記の表８に示す辞書情報を適用することにより、ユーザは、例えばよい意味を示すテキスト要素の中から重要度の高いテキスト要素のみを用いてデータ分析を行うことができる。
【０１２１】
上記表８における属性番号は、テキスト要素の属するグループの階層状態を表す。属性番号は、グループ情報と同様にテキスト要素に関係付けされている。
【０１２２】
例えば、グループ「よい」には、番号「G」が割り当てられる。グループ「高」には番号「H」が割り当てられる。グループ「中」には番号「M」が割り当てられる。グループ「低」には番号「L」が割り当てられる。上位のグループの番号と下位のグループの番号とは、「-」で結合される。
【０１２３】
テキスト要素は、一以上のグループ情報と関連付けされ、辞書情報に記録されてもよい。
【０１２４】
例えば、テキスト要素「互角の売れ行き」に対して、グループ情報「よい−低」と「悪い」を付してもよい。
【０１２５】
また、本実施の形態においては、階層構造を持つグループ情報と、階層構造を持たないグループ情報とが、同じ辞書情報に登録されてもよい。
【０１２６】
表９に、階層構造を持つグループ情報と階層構造を持たないグループ情報とが混在する辞書情報の内容を示す。
【０１２７】
【表９】

【０１２８】
この表９の例において、テキスト要素は、第１に、グループ「飲料」「雑誌」「よい」「悪い」で分けられる。第２に、グループ「飲料」に属するテキスト要素は、グループ「全般」「茶」「果物」に分けられ、グループ「よい」に属するテキスト要素は、グループ「高」「中」「低」に分けられる。
【０１２９】
すなわち、この表９においては、グループ「飲料」「よい」を表すグループ情報は階層構造を持ち、グループ「雑誌」「悪い」を表すグループ情報は、階層構造を持たない。
【０１３０】
上位のグループ「飲料」「よい」「雑誌」「悪い」には、それぞれ属性番号「D」「G」「MA」「B」が割り当てられる。
【０１３１】
また、下位のグループ「全般」「茶」「果物」「高」「中」「低」には、それぞれ属性番号「A」「T」「F」「H」「M」「L」が割り当てられる。下位のグループが存在しない場合には、属性番号「NULL」が割り当てられる。
【０１３２】
なお、上記グループ情報の階層は、「よい−高」のように２階層に限定されるものではなく、「よい−高−継続」「よい−高−短期」などのように３階層以上としてもよい。
【０１３３】
図６は、本実施の形態に係る辞書情報を用いて分析を行う場合に、ユーザからグループの指定を受け付ける画面の一例を示す図である。
【０１３４】
ユーザは、グループ指定画面２４にしたがって、分析対象の日報データを指定し、分析に用いる辞書情報を指定し、上位のグループを少なくとも一つ指定する。指定された上位のグループが下位のグループを持つ場合、本実施の形態に係るグループ指定機能は、下位のグループを指定するための選択肢２４ａ、２４ｂを表示する。
【０１３５】
ユーザは、選択肢２４ａ、２４ｂ上で、下位のグループを指定する。
【０１３６】
本実施の形態に係る抽出機能は、このグループ指定画面２４上で指定されたグループに属するテキスト要素を抽出する。抽出されたテキスト要素は、日報データの分析に用いられる。
【０１３７】
以上説明した本実施の形態においては、概念定義辞書に登録されるテキスト要素に関連付けされるグループ情報が階層構造を持つ。
【０１３８】
これにより、ユーザは、例えば上位のグループのみを指定して分析を行い、さらにその分析結果に応じて下位のグループを指定して分析を行うことができ、分析結果を絞り込むことができる。そして、ユーザは、自己の意思に沿った分析を行うことができる。
【０１３９】
なお、上記各実施の形態に係るデータ要素指定プログラムにより実行される各機能は、同様の作用を実現可能であれば配置を変更させてもよく、また各機能を自由に組み合わせてもよい。
【０１４０】
また、上記各実施の形態において、計算機システム１０は複数の計算機により構成され、各プログラムは複数の計算機に分散して配置され、互いに連携を取りつつ処理を実行するとしてもよい。
【０１４１】
上記各実施の形態に係るデータ要素指定プログラムは、例えば磁気ディスク（フレキシブルディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリなどの記録媒体９に書き込んでコンピュータに適用可能である。またこのプログラムは、通信媒体により伝送してコンピュータに適用することも可能である。上記の各種機能を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、プログラムによって動作が制御されることにより、上述した機能を実現する。
【０１４２】
また、上記各実施の形態に係るデータ要素指定プログラムの実現する機能と同様の動作を行う手段を備えたデータ分析装置を利用しても、同様の効果を得ることができる。
【０１４３】
（第５の実施の形態）
本実施の形態においては、上記各実施の形態に係るデータ要素指定プログラムの利用態様について説明する。
【０１４４】
図７は、本実施の形態に係るデータ要素指定プログラムの利用態様を例示するブロック図である。この図７において、図１と同一の部分については同一の符号を付している。
【０１４５】
この図７において、テキストマイニングシステム１ａにより実施されるサービスは、ＡＳＰ（アプリケーション・サービス・プロバイダ）１８によりユーザ１５に提供される。
【０１４６】
また、データ要素指定プログラムにより実施されるサービスも、ＡＳＰ１８により提供される。
【０１４７】
ユーザ１５は、自己のクライアント１９から例えばインターネットなどのようなネットワーク２０を経由してＡＳＰ１８の管理するテキストマイニングシステム１ａを利用することで、日報データの分析を容易に実施できる。
【０１４８】
また、ユーザ１５は、分析に利用するテキスト要素を変更したい場合又は辞書情報の内容を変更したい場合に、ＡＳＰ１８の管理するデータ要素指定プログラム８を利用することで、容易にテキスト要素又は辞書情報を変更することができる。
【０１４９】
そして、ＡＳＰ１８のサービスの提供を受けることで、ユーザ１５は、自己でテキストマイニングシステム１ａ及びデータ要素指定プログラム８を運用する場合よりも保守、運用の面で効率的に分析サービスを利用できる。
【０１５０】
【発明の効果】
以上詳記したように本発明においては、テキスト要素とグループ情報とを予め関連付けておき、テキストマイニングを実行する場合にこのテキストマイニングに利用するテキスト要素のグループ情報を指定する。
【０１５１】
これにより、テキスト要素を登録している辞書情報をテキストエディタにより変更することなく、テキストマイニングに利用するテキスト要素を変更できる。
【０１５２】
また、辞書情報を一つにまとめても、複数の内容の分析処理を実行することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図。
【図２】グループ指定機能によって表示される画面を例示する図。
【図３】同実施の形態に係るデータ要素指定プログラムとテキストマイニングシステムとにより実行されるデータ分析方法に関するフロー図。
【図４】本発明の第２の実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図。
【図５】同実施の形態に係るデータ要素指定プログラムとテキストマイニングシステムと分析結果集計プログラムとにより実行されるデータ分析方法に関するフロー図。
【図６】本発明の第４の実施の形態に係るグループ指定機能によって表示される画面を例示する図。
【図７】本発明の第５の実施の形態に係るデータ要素指定プログラムの利用態様を例示するブロック図。
【図８】従来のテキストマイニングシステムの構成を例示するブロック図。
【符号の説明】
１、１ａ…テキストマイニングシステム
２、２ａ…入力部
３、３ａ…情報抽出部
４、４ａ…出力部
５…概念定義辞書
６１〜６ｎ…日報データ
８…データ要素指定プログラム
９…記録媒体
１０…計算機システム
１１…記憶機能
１２…グループ指定機能
１３…抽出機能
１４…概念定義辞書
１６、２４…グループ指定画面
１７…日報データベース
１８…ＡＳＰ
２１…分析結果集計プログラム
２２…結果集計機能
２３…指定内容決定機能

Claims

コンピュータシステムによって構成されるテキストマイニングシステムにおいて、
「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶する辞書装置と、
前記辞書装置にグループ情報を登録する第１のユーザから、前記辞書装置の前記複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、前記第１のユーザによって指定されたグループ情報を関連付けて記憶する記憶手段と、
データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第２のユーザから、前記辞書装置の前記複数の辞書情報のうち前記テキストマイニングに用いる辞書情報の指定と、前記テキストマイニングに用いるグループ情報の指定を受け付けるためのグループ指定手段と、
前記グループ指定手段において指定された前記辞書装置の前記テキストマイニングに用いる辞書情報から、前記グループ指定手段において指定された前記テキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出する抽出手段と、
前記抽出手段によって抽出されたテキスト要素に基づいて、前記データベースに記憶されている前記テキストマイニング対象のテキストデータに対して、テキストマイニングを実行するテキストマイニング手段と
を具備するテキストマイニングシステム。
請求項１記載のテキストマイニングシステムにおいて、
前記テキストマイニング手段は、前記データベースに記憶されている前記テキストマイニング対象のテキストデータの中から、前記抽出手段によって抽出されたテキスト要素を含むテキストデータを抽出する処理を実行し、
前記テキストマイニング手段によって得られたテキストマイニング結果から、前記辞書装置に記憶されているテキスト要素を抽出し、当該抽出されたテキスト要素が前記テキストマイニング結果に出現する出現頻度を集計する結果集計手段と、
前記結果集計手段による集計結果に基づいて、前記結果集計手段によって抽出されたテキスト要素に対して、前記結果集計手段によって抽出されたテキスト要素の出現頻度に応じていくつかのグループ情報のうちのいずれかを関係付けて前記辞書装置に記憶する指定内容決定手段と
をさらに具備するテキストマイニングシステム。
コンピュータシステムによるテキストマイニング方法において、
前記コンピュータシステムは、「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶装置に記憶し、
前記コンピュータシステムは、前記辞書装置にグループ情報を登録する第１のユーザから、前記辞書装置の前記複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、前記第１のユーザによって指定されたグループ情報を関連付けて記憶し、
前記コンピュータシステムは、データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第２のユーザから、前記辞書装置の前記複数の辞書情報のうち前記テキストマイニングに用いる辞書情報の指定と、前記テキストマイニングに用いるグループ情報の指定を受け付け、
前記コンピュータシステムは、前記辞書装置に記憶されている指定された前記テキストマイニングに用いる辞書情報の中から、指定された前記テキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出し、
前記コンピュータシステムは、抽出されたテキスト要素に基づいて、前記データベースに記憶されている前記テキストマイニング対象のテキストデータに対して、テキストマイニングを実行する
ことを特徴とするテキストマイニング方法。
「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶する辞書装置をアクセスするコンピュータを、
前記辞書装置にグループ情報を登録する第１のユーザから、前記辞書装置の前記複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、前記第１のユーザによって指定されたグループ情報を関連付けて記憶する記憶手段、
データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第２のユーザから、前記辞書装置の前記複数の辞書情報のうち前記テキストマイニングに用いる辞書情報の指定と、前記テキストマイニングに用いるグループ情報の指定を受け付けるためのグループ指定手段、
前記グループ指定手段において指定された前記辞書装置の前記テキストマイニングに用いる辞書情報から、前記グループ指定手段において指定された前記テキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出する抽出手段、
前記抽出手段によって抽出されたテキスト要素に基づいて、前記データベースに記憶されている前記テキストマイニング対象のテキストデータに対して、テキストマイニングを実行するテキストマイニング手段
として機能させるためのプログラム。