[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4303921B2 - テキストマイニングシステム及び方法並びにプログラム - Google Patents

テキストマイニングシステム及び方法並びにプログラム Download PDF

Info

Publication number
JP4303921B2
JP4303921B2 JP2002214324A JP2002214324A JP4303921B2 JP 4303921 B2 JP4303921 B2 JP 4303921B2 JP 2002214324 A JP2002214324 A JP 2002214324A JP 2002214324 A JP2002214324 A JP 2002214324A JP 4303921 B2 JP4303921 B2 JP 4303921B2
Authority
JP
Japan
Prior art keywords
text
dictionary
information
text mining
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002214324A
Other languages
English (en)
Other versions
JP2003122775A (ja
Inventor
佳代子 磯尾
恭子 牧野
誠司 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002214324A priority Critical patent/JP4303921B2/ja
Priority to US10/212,726 priority patent/US20030041062A1/en
Priority to CN02127761A priority patent/CN1402153A/zh
Publication of JP2003122775A publication Critical patent/JP2003122775A/ja
Application granted granted Critical
Publication of JP4303921B2 publication Critical patent/JP4303921B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキストマイニングシステム及び方法並びにプログラムに関する。
【0002】
【従来の技術】
テキストマイニング技術の具体例として、テキストデータに基づいて文脈を理解し、テキストデータの要約抽出、テキストデータの分類、テキストデータの検索などを行う技術、テキストデータから知識を抽出する技術、テキストで記述されている情報(定性情報)から数量化した情報(定量情報)を取得する技術などがある。広義には、テキストデータについてのデータマイニングにより得られる結果の分析を行う技術もテキストマイニング技術に含まれる。
【0003】
テキストマイニングシステム(マイニングエンジン)は、概念定義辞書を利用して分析処理を実行する。
【0004】
図8は、従来のテキストマイニングシステムの構成を例示するブロック図である。
【0005】
このテキストマイニングシステム1は、主に入力部2と、情報抽出部3と、出力部4と、概念定義辞書5を具備している。
【0006】
概念定義辞書5には、各種データが記録される。概念定義辞書5には、テキストで記述される情報の構成要素となる各種のテキスト要素とその属性情報(例えば属性ID)とが登録される。概念定義辞書5に登録されているテキスト要素と属性IDは、分析処理の判断基準として利用される。なお、テキスト要素として、例えば単語、句、節、文などが登録される。
【0007】
例えば、「一歩リード」というテキスト要素に属性ID「G001」が対応付けされている。また、「POSは順調」というテキスト要素に属性ID「G009」が対応付けされている。各属性IDは、各テキスト要素の性質を表し、分析処理に利用される。
【0008】
入力部2は、分析対象のデータである収集された日報データ61〜6nを入力する。
【0009】
情報抽出部3は、入力された日報データ61〜6nから概念定義辞書5に登録されているテキスト要素を含む日報データを抽出する。そして、情報抽出部3は、抽出した日報データとそれに含まれているテキスト要素の属性IDとに基づいて、テキストマイニングを行う。例えば、属性IDが「良い情報」である旨を示すテキスト要素を含んでいる日報データを、「良い日報」と判断し、抽出する。
【0010】
出力部4は、情報抽出部3によるテキストマイニング結果を表示する。
【0011】
これにより、日報データ61〜6nのうち「良い日報」であると判断された日報データ7を表示することが可能である。
【0012】
上記のようなテキストマイニングシステム1において、テキストマイニングの内容を変化させたい場合には、概念定義辞書5の登録内容を変更(例えば修正、訂正、補充、削除、編集など)する必要がある。
【0013】
例えば、概念定義辞書5に登録されているテキスト要素のうちいくつかのテキスト要素のみを利用してテキストマイニングを行いたい場合がある。
【0014】
この場合、利用を望むテキスト要素とそのテキスト要素に関する属性IDなどの情報のみからなる辞書を新たに作成し、情報抽出部3がこの新たに作成された辞書をアクセスするように、辞書の指定を変更する必要がある。
【0015】
概念定義辞書5を変更する場合には、例えばテキストエディタを利用して概念定義辞書プログラムを編集する必要がある。又は辞書変更を指示するコマンドを入力する必要がある。
【0016】
【発明が解決しようとする課題】
テキストマイニングシステム1の構造を熟知していない者が概念定義辞書5の内容、又は情報抽出部3がアクセスする辞書の設定を、変更することは困難である。
【0017】
したがって、概念定義辞書プログラムをテキストエディタで変更する作業、コマンド入力により概念定義辞書5を変更する作業、及び利用する辞書の指定作業は、テキストマイニングシステム1の構造に熟知した技術者が行う必要がある。
【0018】
また、テキストマイニングシステム1の構造に熟知している者がテキストエディタ等によって編集作業を行う場合であっても、コーディングミス等に基づくバグが発生することがある。
【0019】
本発明は、以上のような実情に鑑みてなされたもので、テキストマイニングに利用するテキスト要素を容易に変更可能とするテキストマイニングシステム及び方法並びにプログラムに関する。
【0020】
【課題を解決するための手段】
本発明を実現するにあたって講じた具体的手段について以下に説明する。
【0021】
本発明は、コンピュータシステムによって構成されるテキストマイニングシステムに関する。
【0022】
本発明のテキストマイニングシステムは、「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶する辞書装置と、辞書装置にグループ情報を登録する第1のユーザから、辞書装置の複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、第1のユーザによって指定されたグループ情報を関連付けて記憶する記憶手段と、データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第2のユーザから、辞書装置の複数の辞書情報のうちテキストマイニングに用いる辞書情報の指定と、テキストマイニングに用いるグループ情報の指定を受け付けるためのグループ指定手段と、グループ指定手段において指定された辞書装置のテキストマイニングに用いる辞書情報から、グループ指定手段において指定されたテキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出する抽出手段と、抽出手段によって抽出されたテキスト要素に基づいて、データベースに記憶されているテキストマイニング対象のテキストデータに対して、テキストマイニングを実行するテキストマイニング手段とを具備する。
【0023】
なお、グループ情報の指定は、ユーザから受け付けてもよいし、外部の装置、プログラムなどから受け付けてもよい。
【0024】
本発明では、指定されたグループ情報に関連付けされているテキスト要素のみが抽出され、テキストマイニングに利用される。
【0025】
したがって、辞書の変更作業を行わなくてもテキストマイニングに利用するテキスト要素を容易に変更することができる。また、新たに辞書を作成し、この新たに作成した辞書をテキストマイニングに利用する辞書として指定する作業も必要ない。
【0026】
なお、上記本発明のテキストマイニングシステムを実現させるためのプログラム又はプログラムを記録したコンピュータ読み取り可能な記録媒体を、発明の対象としてもよい。
【0027】
このプログラム又はこのプログラムを記録した記録媒体を用いることによって、計算機システム、サーバやクライアント等の計算機に対して、簡単に上述した動作を実施可能な機能を付加することができる。
【0028】
また、上記本発明のテキストマイニングシステムで実現されるテキストマイニング方法を発明の対象としてもよい。
【0029】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態について説明する。
【0030】
(第1の実施の形態)
本実施の形態においては、テキストマイニングシステムの構造に詳しくない者であっても、GUI(Graphical User Interface)を使用し、テキストマイニングに利用するテキスト要素を容易に指定可能とするデータ要素指定プログラムについて説明する。
【0031】
なお、以下の各実施の形態においては、分析対象データがテキストデータの場合について説明している。しかしながら、分析対象データは、例えば、画像データ、音声データなどのようにテキストデータ以外のデータ、様々な種別のデータの組み合わせ、であってもよい。
【0032】
また、以下の各実施の形態においては、対象データがテキストデータの場合について説明するため、辞書にはテキスト要素とその属性IDとが記録されている。しかしながら、例えば、分析対象のデータが画像データ、音声データなどの場合、辞書には画像データ、音声データであるデータ要素とその属性IDとが記録される。このように、辞書に記録されるデータ要素の種別は、分析対象データの種別と整合性があればよい。
【0033】
図1は、本実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図である。
【0034】
データ要素指定プログラム8は、記録媒体9に記録されており、計算機システム10に読み込まれることにより、計算機システム10上で記憶機能11、グループ指定機能12、抽出機能13を実現する。
【0035】
記憶機能11は、テキスト要素に対して、そのテキスト要素の属性IDとそのテキスト要素の属するグループを示すグループ情報とを関連付けた情報を概念定義辞書14に記憶する。記憶機能11は、例えばユーザ15又は他の装置からの入力にしたがって各情報の関連付けを行い、登録を行う。
【0036】
ユーザ15は、記憶機能11のGUI機能を用いて入力を行う。例えば、関連付けた情報を入力するためのテーブルを表示し、ユーザはそのテーブルに各情報を記述する。記憶機能11は、テーブルに記述された内容を読み込み、概念定義辞書14に登録する。
【0037】
概念定義辞書14では、例えば関連付けた情報がテーブル形式で管理される。本実施の形態においては、概念定義辞書14内に複数の辞書情報G1、G2が含まれているとする。
【0038】
表1は、概念定義辞書14に含まれている辞書情報G1を例示している。
【0039】
【表1】
Figure 0004303921
【0040】
表1に示す辞書情報G1は、重要度分類辞書である。各テキスト要素が重要度「高」「中」「低」でグループ分けされている。グループ情報は、重要度の種別を表す。
【0041】
例えば、テキスト要素「一歩リード」に対して、「良い情報」を示す属性ID「G001」及びグループ情報「低」が関連付けされている。他のテキスト要素と属性IDとグループ情報についても同様の関係である。
【0042】
表2は、概念定義辞書14に含まれている辞書情報G2を例示している。
【0043】
【表2】
Figure 0004303921
【0044】
表2に示す辞書情報G2は、品名分類辞書である。各テキスト要素が品名「雑誌」「飲料」でグループ分けされている。グループ情報は、品名の種別を表す。
【0045】
グループ指定機能12は、テキストマイニングに利用するテキスト要素のグループ情報をユーザに指定させるための画面を表示し、ユーザから指定を受け付ける。
【0046】
図2は、このグループ指定機能12によって表示される画面を例示する図である。
【0047】
このグループ指定画面16上には、分析対象とする日報データの日付の指定領域、概念定義辞書14に含まれている複数の辞書情報G1、G2のうちどの辞書情報を利用するかを指定する領域、そしてグループ情報を指定するためのチェックボックスが配置されている。この例では、日付「1月22日」、辞書情報「G1」、グループ情報「高」「中」が指定されている。
【0048】
グループ指定機能12は、グループ指定画面16で指定された日付「1月22日」に関する日報データの入力命令を入力部2aに出力し、グループ指定画面16で辞書情報「G1」とグループ情報「高」「中」が指定されたことを示す通知を抽出機能13に提供する。
【0049】
抽出機能13は、概念定義辞書14をアクセスし、ユーザに指定された辞書情報G1からユーザに指定されたグループ情報「高」「中」に関連付けされているテキスト要素とその属性IDとを抽出し、情報抽出部3aに提供する。
【0050】
日報データベース17は、日報データを記録する。
【0051】
表3は、日報データベース17に記録されている日報データの例を示す。
【0052】
【表3】
Figure 0004303921
【0053】
なお、日報番号「N001」〜「N005」の日報データは、日付「1月22日」に対応しているとする。
【0054】
テキストマイニングシステム1aは、入力部2a、情報抽出部3a、出力部4aとを具備する。
【0055】
入力部2aは、グループ指定機能12からの命令にしたがって、指定された日付「1月22日」に関する日報データを日報データベース17から入力する。
【0056】
情報抽出部3aは、入力部2aから取得した日報データに対して、上記抽出機能13から提供されたテキスト要素と属性IDとに基づいて、先の図8で説明した分析と同様のテキストマイニングを実行し、分析結果ファイルを作成する。
【0057】
表4は、情報抽出部3aにより作成された分析結果ファイルの内容を示す。
【0058】
この分析結果ファイルでは、日報番号、日報データ、分析結果情報とが関連付けされている。具体的には、分析結果ファイルの内容は、「日報番号」、「日報データ」、「分析結果情報」の項目を持つテーブルである。
【0059】
【表4】
Figure 0004303921
【0060】
分析結果情報は、ユーザに指定された日付「1月22日」に関する日報データに含まれており、ユーザに指定されたグループ情報「高」「中」に関連付けされているテキスト要素の属性IDである。なお、ユーザに指定された日付の日報データであるが、ユーザに指定されたグループ情報「高」「中」に関連付けされているテキスト要素を含まない日報データの分析結果情報は「NULL」となる。
【0061】
出力部4aは、情報抽出部3aから分析結果ファイルを入力し、分析結果情報が「NULL」でない日報データ、すなわち分析結果情報に属性IDが挿入されている日報データのみを表示する。
【0062】
表5は、ユーザ15が日付「1月22日」と辞書情報「G1」とグループ情報「高」「中」を指定した場合の分析結果を示す。
【0063】
【表5】
Figure 0004303921
【0064】
この表5では、日付「1月22日」に関する日報データからグループ情報「高」「中」に関連付けされているテキスト要素を含む日報データのみが抽出されている。
【0065】
表6は、ユーザが日付「1月22日」と辞書情報「G1」とグループ情報「中」を指定した場合の分析結果を示す。
【0066】
【表6】
Figure 0004303921
【0067】
この表6では、日付「1月22日」の日報データからグループ情報「中」に関連付けされているテキスト要素を含む日報データが抽出されている。
【0068】
図3は、上記データ要素指定プログラム8とテキストマイニングシステム1aとにより実行されるデータ分析方法に関するフロー図である。
【0069】
まず、ユーザ15の操作により、テキスト要素に対してそのテキスト要素の属性IDとグループ情報とを関連付けた情報が、計算機システム10の概念定義辞書14に記憶される(S1)。
【0070】
ユーザ15がデータ分析の開始を指示すると、グループ指定機能12によってグループ指定画面16が表示される(S2)。
【0071】
ユーザ15は、このグループ指定画面16上で自己の望む分析に利用する各種情報を指定する。
【0072】
ユーザ15に指定された内容は、グループ指定機能12によって受け付けられる(S3)。
【0073】
すると、指定されたグループ情報に関連付けされているテキスト要素と属性IDとが指定された辞書情報から抽出機能13によって抽出され、情報抽出部3aに提供される(S4)。
【0074】
また、指定された日付の日報データが日報データベース17から入力部2aによって入力される(S5)。
【0075】
そして、入力部2aによって入力された所定の日付の日報データと抽出機能13から提供されたテキスト要素と属性IDとに基づいて、情報抽出部3aによってデータ分析が実行され(S6)、分析結果が出力部4aによって出力される(S7)。
【0076】
なお、ステップS4とステップS5とは、逆の順序で実行されてもよく、並列に実行されてもよい。
【0077】
以上説明したように、本実施の形態においては、テキスト要素とその属性IDに予めグループ情報が関連付けされる。ユーザ15は、分析処理を実行する場合にこの分析処理に利用するテキスト要素のグループ情報を指定する。
【0078】
これにより、ユーザ15は、テキストエディタを用いて概念定義辞書14の内容を変更する必要がなく、グループ情報を指定することにより分析に利用するテキスト要素を容易に切り換えることができる。
【0079】
したがって、ユーザの望む分析を容易に実現することができる。
【0080】
また、辞書情報を一つにまとめても、複数の分析処理を実行することができる。
【0081】
また、データ要素指定プログラム8の記憶機能11を利用することで、テキストマイニングシステム1aの構造に詳しくない者であっても、GUIを利用し、容易に概念定義辞書14を構成する各種辞書情報の内容を分析内容に応じて変更できる。
【0082】
また、記憶機能11によりユーザ15は容易に概念定義辞書14を変更可能であるためコーディングミス等に基づくバグの発生を防止できる。
【0083】
(第2の実施の形態)
本実施の形態においては、上記第1の実施の形態の変形例について説明する。
【0084】
図4は、本実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図である。なお、この図4において図1と同一の部分については同一の符号を付してその説明を省略し、ここでは異なる部分についてのみ詳しく説明する。
【0085】
本実施の形態に係るデータ要素指定プログラム8は、グループ情報の指定又は概念定義辞書14の変更内容を、ユーザ15から入力するのではなく分析結果集計プログラム21によって実現される機能から入力する点が異なる。
【0086】
分析結果集計プログラム21は、計算機システム10上で結果集計機能22、指定内容決定機能23を実現する。
【0087】
結果集計機能22は、過去のテキストマイニング結果を入力し、このテキストマイニング結果に含まれているテキスト要素を抽出する。
【0088】
結果集計機能22によるテキスト要素の抽出は、テキストマイニング結果から概念定義辞書14に記録されているテキスト要素を抽出する方法によって実現してもよい。その他にも、結果集計機能22によるテキスト要素の抽出は、テキストマイニング結果に含まれている日報データを所定の規則にしたがってテキスト要素単位に分けて抽出する方法によって実現してもよい。例えば所定の規則には、単語を切り出すための規則などが利用される。
【0089】
また、結果集計機能22は、抽出されたテキスト要素がテキストマイニング結果に含まれる頻度を示す出現頻度、抽出されたテキスト要素の出現時間などの情報を集計する。
【0090】
例えば、日報データに付されている時間情報やテキストマイニングの実行時間を示す情報は、抽出されたテキスト要素の出現時間を示す情報として利用される。
【0091】
指定内容決定機能23は、集計された情報に基づいて、過去のテキストマイニング結果に含まれているテキスト要素にグループ情報を関連付ける。例えば、過去のテキストマイニング結果に含まれているあるテキスト要素に対し、その出現頻度に応じてグループ情報「出現頻度多」「出現頻度中」「出現頻度少」のうちのいずれかを関連付ける。また、過去のテキストマイニング結果に含まれているあるテキスト要素に対し、出現時刻に応じてグループ情報「所定期間内」「所定期間外」のうちのいずれかを関連付ける。
【0092】
そして、指定内容決定機能23は、その関連付けた内容を記憶機能11又はグループ指定機能12に通知する。
【0093】
図5は、上記データ要素指定プログラム8とテキストマイニングシステム1aと分析結果集計プログラム21とにより実行されるデータ分析方法に関するフロー図である。
【0094】
まず、テキスト要素に対してそのテキスト要素の属性IDとグループ情報とを関連付けた情報が計算機システム10の概念定義辞書14に記憶される(T1)。
【0095】
テキストマイニングシステム1aによるデータ分析が実行されると(T2)、その分析結果が分析結果集計プログラム21に入力され(T3)、この分析結果集計プログラム21による集計処理が実行され(T4)、分析結果に含まれているテキスト要素に対してグループ情報を関連付けた情報が求められる(T5)。
【0096】
テキスト要素に対してグループ情報を関連付けた情報は、データ要素指定プログラム8の記憶機能11によって計算機システム10の概念定義辞書14に記憶される(T6)。
【0097】
また、分析結果集計プログラム21による集計処理で扱われる所定のグループ情報がデータ要素指定プログラム8のグループ指定機能12に対して指定される(T7)。
【0098】
すると、指定されたグループ情報に関連付けされているテキスト要素が辞書情報から抽出機能13によって抽出され、情報抽出部3aに提供される(T8)。
【0099】
また、日報データが日報データベース17から入力部2aによって入力される(T9)。
【0100】
そして、入力部2aによって入力された日報データと抽出機能13から提供されたテキスト要素とに基づいて、情報抽出部3aによってデータ分析が実行され(T10)、分析結果が出力部4aによって出力される(T11)。
【0101】
なお、ステップT6とステップT7とは、逆の順序で実行されてもよく、並列に実行されてもよい。
【0102】
また、ステップT8とステップT9とは、逆の順序で実行されてもよく、並列に実行されてもよい。
【0103】
また、結果集計機能22は、集計結果などを表やグラフの形式でユーザ15に提示し、ユーザ15は、その内容に基づいて指定内容決定機能23に対し、グループ情報などの各種決定事項を入力するとしてもよい。
【0104】
本実施の形態においては、分析結果集計プログラム21によって自動的にテキスト要素がグループ化され、所定のグループに属するテキスト要素のみを利用してテキストマイニングを行うことができる。
【0105】
例えば、先の分析で一定レベル以上使用されたテキスト要素のみを利用してテキストマイニングを行い、それ以外の使用回数が一定レベルに満たないテキスト要素を排除してテキストマイニングを行うことができる。
【0106】
(第3の実施の形態)
本実施の形態においては、上記第1又は第2の実施の形態に係るデータ要素指定プログラム8の変形例について説明する。
【0107】
表7は、本実施の形態に係るデータ要素指定プログラムの記憶機能によって記憶される辞書情報の内容を示す。
【0108】
【表7】
Figure 0004303921
【0109】
本実施の形態においては、テキスト要素に一以上のグループ情報を付した辞書情報が概念定義辞書に記録される。
【0110】
グループ情報には、例えば、重要度分類に関する「高」「中」「低」、良否分類に関する「よい」「悪い」、品名分類に関する「飲料」「雑誌」が利用される。
【0111】
このように、一つの辞書情報に各種の分類を含ませることで(上記第1の実施の形態における複数の辞書情報を組み合わせることで)、一つの辞書情報で様々な種別のデータ分析を行うことができる。
【0112】
また、従来においては、複数の辞書情報を用意し、分析の内容に応じてテキストマイニングに利用する辞書情報を切り換えていたが、本実施の形態においては、一つの辞書情報を用いて様々なテキストマイニングを行うことができる。したがって、分析処理で利用する辞書情報をユーザが指定する必要がなく、ユーザの操作を簡略化できる。
【0113】
(第4の実施の形態)
本実施の形態においては、上記第3の実施の形態に係るデータ要素指定プログラムの変形例について説明する。本実施の形態の構成には、上記図1又は図4と同様の構成を適用できる。
【0114】
本実施の形態においては、グループを階層的に組み合わせてグループ情報が構成される。
【0115】
表8は、本実施の形態に係るデータ要素指定プログラムの記憶機能によって記憶される辞書情報の内容を示す。
【0116】
【表8】
Figure 0004303921
【0117】
本実施の形態においては、階層構造を持つグループ情報をテキスト要素に付した辞書情報が概念定義辞書に記憶される。
【0118】
例えば、テキスト要素は、第1に、良否分類に関するグループ「よい」「悪い」で分けられる。第2に、グループ「よい」に属するテキスト要素は、重要度分析に関する3つのグループ「高」「中」「低」に分けられ、細分化される。
【0119】
よい意味を示すテキスト要素の中にも重要度の高いテキスト要素、低いテキスト要素などがある。
【0120】
本実施の形態においては、上記の表8に示す辞書情報を適用することにより、ユーザは、例えばよい意味を示すテキスト要素の中から重要度の高いテキスト要素のみを用いてデータ分析を行うことができる。
【0121】
上記表8における属性番号は、テキスト要素の属するグループの階層状態を表す。属性番号は、グループ情報と同様にテキスト要素に関係付けされている。
【0122】
例えば、グループ「よい」には、番号「G」が割り当てられる。グループ「高」には番号「H」が割り当てられる。グループ「中」には番号「M」が割り当てられる。グループ「低」には番号「L」が割り当てられる。上位のグループの番号と下位のグループの番号とは、「-」で結合される。
【0123】
テキスト要素は、一以上のグループ情報と関連付けされ、辞書情報に記録されてもよい。
【0124】
例えば、テキスト要素「互角の売れ行き」に対して、グループ情報「よい−低」と「悪い」を付してもよい。
【0125】
また、本実施の形態においては、階層構造を持つグループ情報と、階層構造を持たないグループ情報とが、同じ辞書情報に登録されてもよい。
【0126】
表9に、階層構造を持つグループ情報と階層構造を持たないグループ情報とが混在する辞書情報の内容を示す。
【0127】
【表9】
Figure 0004303921
【0128】
この表9の例において、テキスト要素は、第1に、グループ「飲料」「雑誌」「よい」「悪い」で分けられる。第2に、グループ「飲料」に属するテキスト要素は、グループ「全般」「茶」「果物」に分けられ、グループ「よい」に属するテキスト要素は、グループ「高」「中」「低」に分けられる。
【0129】
すなわち、この表9においては、グループ「飲料」「よい」を表すグループ情報は階層構造を持ち、グループ「雑誌」「悪い」を表すグループ情報は、階層構造を持たない。
【0130】
上位のグループ「飲料」「よい」「雑誌」「悪い」には、それぞれ属性番号「D」「G」「MA」「B」が割り当てられる。
【0131】
また、下位のグループ「全般」「茶」「果物」「高」「中」「低」には、それぞれ属性番号「A」「T」「F」「H」「M」「L」が割り当てられる。下位のグループが存在しない場合には、属性番号「NULL」が割り当てられる。
【0132】
なお、上記グループ情報の階層は、「よい−高」のように2階層に限定されるものではなく、「よい−高−継続」「よい−高−短期」などのように3階層以上としてもよい。
【0133】
図6は、本実施の形態に係る辞書情報を用いて分析を行う場合に、ユーザからグループの指定を受け付ける画面の一例を示す図である。
【0134】
ユーザは、グループ指定画面24にしたがって、分析対象の日報データを指定し、分析に用いる辞書情報を指定し、上位のグループを少なくとも一つ指定する。指定された上位のグループが下位のグループを持つ場合、本実施の形態に係るグループ指定機能は、下位のグループを指定するための選択肢24a、24bを表示する。
【0135】
ユーザは、選択肢24a、24b上で、下位のグループを指定する。
【0136】
本実施の形態に係る抽出機能は、このグループ指定画面24上で指定されたグループに属するテキスト要素を抽出する。抽出されたテキスト要素は、日報データの分析に用いられる。
【0137】
以上説明した本実施の形態においては、概念定義辞書に登録されるテキスト要素に関連付けされるグループ情報が階層構造を持つ。
【0138】
これにより、ユーザは、例えば上位のグループのみを指定して分析を行い、さらにその分析結果に応じて下位のグループを指定して分析を行うことができ、分析結果を絞り込むことができる。そして、ユーザは、自己の意思に沿った分析を行うことができる。
【0139】
なお、上記各実施の形態に係るデータ要素指定プログラムにより実行される各機能は、同様の作用を実現可能であれば配置を変更させてもよく、また各機能を自由に組み合わせてもよい。
【0140】
また、上記各実施の形態において、計算機システム10は複数の計算機により構成され、各プログラムは複数の計算機に分散して配置され、互いに連携を取りつつ処理を実行するとしてもよい。
【0141】
上記各実施の形態に係るデータ要素指定プログラムは、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体9に書き込んでコンピュータに適用可能である。またこのプログラムは、通信媒体により伝送してコンピュータに適用することも可能である。上記の各種機能を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、プログラムによって動作が制御されることにより、上述した機能を実現する。
【0142】
また、上記各実施の形態に係るデータ要素指定プログラムの実現する機能と同様の動作を行う手段を備えたデータ分析装置を利用しても、同様の効果を得ることができる。
【0143】
(第5の実施の形態)
本実施の形態においては、上記各実施の形態に係るデータ要素指定プログラムの利用態様について説明する。
【0144】
図7は、本実施の形態に係るデータ要素指定プログラムの利用態様を例示するブロック図である。この図7において、図1と同一の部分については同一の符号を付している。
【0145】
この図7において、テキストマイニングシステム1aにより実施されるサービスは、ASP(アプリケーション・サービス・プロバイダ)18によりユーザ15に提供される。
【0146】
また、データ要素指定プログラムにより実施されるサービスも、ASP18により提供される。
【0147】
ユーザ15は、自己のクライアント19から例えばインターネットなどのようなネットワーク20を経由してASP18の管理するテキストマイニングシステム1aを利用することで、日報データの分析を容易に実施できる。
【0148】
また、ユーザ15は、分析に利用するテキスト要素を変更したい場合又は辞書情報の内容を変更したい場合に、ASP18の管理するデータ要素指定プログラム8を利用することで、容易にテキスト要素又は辞書情報を変更することができる。
【0149】
そして、ASP18のサービスの提供を受けることで、ユーザ15は、自己でテキストマイニングシステム1a及びデータ要素指定プログラム8を運用する場合よりも保守、運用の面で効率的に分析サービスを利用できる。
【0150】
【発明の効果】
以上詳記したように本発明においては、テキスト要素とグループ情報とを予め関連付けておき、テキストマイニングを実行する場合にこのテキストマイニングに利用するテキスト要素のグループ情報を指定する。
【0151】
これにより、テキスト要素を登録している辞書情報をテキストエディタにより変更することなく、テキストマイニングに利用するテキスト要素を変更できる。
【0152】
また、辞書情報を一つにまとめても、複数の内容の分析処理を実行することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図。
【図2】グループ指定機能によって表示される画面を例示する図。
【図3】同実施の形態に係るデータ要素指定プログラムとテキストマイニングシステムとにより実行されるデータ分析方法に関するフロー図。
【図4】本発明の第2の実施の形態に係るデータ要素指定プログラムを実行する計算機システムの構成例を示すブロック図。
【図5】同実施の形態に係るデータ要素指定プログラムとテキストマイニングシステムと分析結果集計プログラムとにより実行されるデータ分析方法に関するフロー図。
【図6】本発明の第4の実施の形態に係るグループ指定機能によって表示される画面を例示する図。
【図7】本発明の第5の実施の形態に係るデータ要素指定プログラムの利用態様を例示するブロック図。
【図8】従来のテキストマイニングシステムの構成を例示するブロック図。
【符号の説明】
1、1a…テキストマイニングシステム
2、2a…入力部
3、3a…情報抽出部
4、4a…出力部
5…概念定義辞書
61〜6n…日報データ
8…データ要素指定プログラム
9…記録媒体
10…計算機システム
11…記憶機能
12…グループ指定機能
13…抽出機能
14…概念定義辞書
16、24…グループ指定画面
17…日報データベース
18…ASP
21…分析結果集計プログラム
22…結果集計機能
23…指定内容決定機能

Claims (4)

  1. コンピュータシステムによって構成されるテキストマイニングシステムにおいて、
    「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶する辞書装置と、
    前記辞書装置にグループ情報を登録する第1のユーザから、前記辞書装置の前記複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、前記第1のユーザによって指定されたグループ情報を関連付けて記憶する記憶手段と、
    データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第2のユーザから、前記辞書装置の前記複数の辞書情報のうち前記テキストマイニングに用いる辞書情報の指定と、前記テキストマイニングに用いるグループ情報の指定を受け付けるためのグループ指定手段と、
    前記グループ指定手段において指定された前記辞書装置の前記テキストマイニングに用いる辞書情報から、前記グループ指定手段において指定された前記テキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出する抽出手段と、
    前記抽出手段によって抽出されたテキスト要素に基づいて、前記データベースに記憶されている前記テキストマイニング対象のテキストデータに対して、テキストマイニングを実行するテキストマイニング手段と
    を具備するテキストマイニングシステム
  2. 請求項1記載のテキストマイニングシステムにおいて、
    前記テキストマイニング手段は、前記データベースに記憶されている前記テキストマイニング対象のテキストデータの中から、前記抽出手段によって抽出されたテキスト要素を含むテキストデータを抽出する処理を実行し、
    前記テキストマイニング手段によって得られたテキストマイニング結果から、前記辞書装置に記憶されているテキスト要素を抽出し、当該抽出されたテキスト要素が前記テキストマイニング結果に出現する出現頻度集計する結果集計手段と、
    前記結果集計手段による集計結果に基づいて、前記結果集計手段によって抽出されたテキスト要素に対して、前記結果集計手段によって抽出されたテキスト要素の出現頻度に応じていくつかのグループ情報のうちのいずれかを関係付けて前記辞書装置に記憶する指定内容決定手段と
    をさらに具備するテキストマイニングシステム
  3. コンピュータシステムによるテキストマイニング方法において、
    前記コンピュータシステムは、「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶装置に記憶し、
    前記コンピュータシステムは、前記辞書装置にグループ情報を登録する第1のユーザから、前記辞書装置の前記複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、前記第1のユーザによって指定されたグループ情報を関連付けて記憶し、
    前記コンピュータシステムは、データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第2のユーザから、前記辞書装置の前記複数の辞書情報のうち前記テキストマイニングに用いる辞書情報の指定と、前記テキストマイニングに用いるグループ情報の指定を受け付け、
    前記コンピュータシステムは、前記辞書装置に記憶されている指定された前記テキストマイニングに用いる辞書情報の中から、指定された前記テキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出し、
    前記コンピュータシステムは、抽出されたテキスト要素に基づいて、前記データベースに記憶されている前記テキストマイニング対象のテキストデータに対して、テキストマイニングを実行する
    ことを特徴とするテキストマイニング方法。
  4. 「単語、句、節、文のいずれかであるテキスト要素」と「当該テキスト要素の属するグループを示すグループ情報」とを関連付けた複数個の情報をテーブル形式で管理する辞書情報を、複数個記憶する辞書装置をアクセスするコンピュータを、
    前記辞書装置にグループ情報を登録する第1のユーザから、前記辞書装置の前記複数の辞書情報に含まれているテキスト要素のいずれかに対するグループ情報の指定を受け付けた場合に、このテキスト要素に対して、前記第1のユーザによって指定されたグループ情報を関連付けて記憶する記憶手段、
    データベースに記憶されているテキストマイニング対象のテキストデータに対してテキストマイニングを行う第2のユーザから、前記辞書装置の前記複数の辞書情報のうち前記テキストマイニングに用いる辞書情報の指定と、前記テキストマイニングに用いるグループ情報の指定を受け付けるためのグループ指定手段、
    前記グループ指定手段において指定された前記辞書装置の前記テキストマイニングに用いる辞書情報から、前記グループ指定手段において指定された前記テキストマイニングに用いるグループ情報に関連付けられているテキスト要素を抽出する抽出手段、
    前記抽出手段によって抽出されたテキスト要素に基づいて、前記データベースに記憶されている前記テキストマイニング対象のテキストデータに対して、テキストマイニングを実行するテキストマイニング手段
    として機能させるためのプログラム。
JP2002214324A 2001-08-08 2002-07-23 テキストマイニングシステム及び方法並びにプログラム Expired - Fee Related JP4303921B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002214324A JP4303921B2 (ja) 2001-08-08 2002-07-23 テキストマイニングシステム及び方法並びにプログラム
US10/212,726 US20030041062A1 (en) 2001-08-08 2002-08-07 Computer readable medium, system, and method for data analysis
CN02127761A CN1402153A (zh) 2001-08-08 2002-08-08 数据分析系统和方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001241131 2001-08-08
JP2001-241131 2001-08-08
JP2002214324A JP4303921B2 (ja) 2001-08-08 2002-07-23 テキストマイニングシステム及び方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003122775A JP2003122775A (ja) 2003-04-25
JP4303921B2 true JP4303921B2 (ja) 2009-07-29

Family

ID=26620212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002214324A Expired - Fee Related JP4303921B2 (ja) 2001-08-08 2002-07-23 テキストマイニングシステム及び方法並びにプログラム

Country Status (3)

Country Link
US (1) US20030041062A1 (ja)
JP (1) JP4303921B2 (ja)
CN (1) CN1402153A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5359399B2 (ja) * 2009-03-11 2013-12-04 ソニー株式会社 テキスト分析装置および方法、並びにプログラム
JP5254402B2 (ja) * 2011-06-07 2013-08-07 株式会社東芝 注目評価対象抽出装置及びプログラム
JP5656946B2 (ja) 2012-09-27 2015-01-21 株式会社東芝 データ分析装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
AU2001234628A1 (en) * 2000-01-28 2001-08-07 Ibeam Broadcasting Corporation Method and system for real-time distributed data mining and analysis for networks

Also Published As

Publication number Publication date
CN1402153A (zh) 2003-03-12
US20030041062A1 (en) 2003-02-27
JP2003122775A (ja) 2003-04-25

Similar Documents

Publication Publication Date Title
US10331635B2 (en) Adapting data quality rules based upon user application requirements
JP6165913B1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2008032393A1 (en) Information processing method and device for work process analysis
KR102374401B1 (ko) 메뉴 생성 시스템
JP2005078111A (ja) データ分類処理装置、データ分類方法、プログラム及び可搬記憶媒体
JP2015075970A (ja) 表形式データ処理プログラム、方法、及び装置
JP5327230B2 (ja) 運用管理支援プログラム、該プログラムを記録した記録媒体、運用管理支援装置、および運用管理支援方法
Steele Bibliographic citation management software as a tool for building knowledge
JP6898542B2 (ja) 情報処理装置、その制御方法、及びプログラム
JP4303921B2 (ja) テキストマイニングシステム及び方法並びにプログラム
JP2001216311A (ja) イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP6971719B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
WO2021205823A1 (ja) 生産知識管理システム、生産知識管理方法及び生産知識管理プログラム
JP2004185346A (ja) プロジェクト作業支援方法およびシステム
JP4805491B2 (ja) 辞書管理プログラム及びコンピュータシステム
JP2006244283A (ja) データベース管理装置およびデータベース管理方法
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP2015162170A (ja) 情報処理装置、及び制御方法
JP2020205014A (ja) サーバ
JP4025572B2 (ja) 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体
JP2008262324A (ja) 情報処理装置及び情報処理方法及びプログラム
JP7243196B2 (ja) 情報処理装置及びプログラム
JPH06195379A (ja) 事例ベース及びその入力・蓄積装置
JP4181330B2 (ja) 要約作成プログラム及びシステム並びにコンピュータによる要約作成方法
JP2024132683A (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090427

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4303921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140501

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees