JP5039159B2

JP5039159B2 - 情報分類システム、情報分類方法及びプログラム

Info

Publication number: JP5039159B2
Application number: JP2010042947A
Authority: JP
Inventors: 淳哉佐々木
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2010-02-26
Filing date: 2010-02-26
Publication date: 2012-10-03
Anticipated expiration: 2030-02-26
Also published as: JP2011180748A

Description

本開示は、文書分類・分析技術に係り、例えば、クラスタリングを用いた相関分析における重要語・不要語の自動抽出、相関表示に関する。

公開特許公報などの特許情報の分析の際に、１つの文書中の異なる２つの部分（例えば「背景技術」や「発明が解決しようとする課題」など）にそれぞれ着目し、各部分について、形態素解析により索引語を選定し、さらに、クラスタリングを用いて分類し、特許マップを作成する手法がある。

従来の文書分類・分析技術における情報分類システムには、クラスタリングや相関表示を用いたものがある（例えば、特許文献１参照。）。

特開２００５−８５１１２号公報

クラスタリングを行うと、分類結果であるクラスタ（または、カテゴリ）が自動的に生成されるが、適切なカテゴリが作成されないために、文書中の異なる２つの部分から見たときの特徴（例えば、相関や依存関係）が、うまく把握できない場合がある。このような場合は、例えば重要語や不要語、同義語などの辞書を作成して索引語に適用することにより、生成されるカテゴリを制御することが可能である。

しかし、そのような辞書を作成するのには手間がかかり、分析の対象とする特許データの内容によっては必要とされる辞書の内容も異なり、結果として思ったような分類結果が得られないことが多い。

すなわち、不要語・重要語を自動的に導出しクラスタリングを行なうことにより、利用者にとって有益な分類結果を生成することが課題となる。

上記課題を解決するために、
本発明に係る情報分類システムは、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とを実行する処理装置を備える。

また、本発明に係る情報分類方法は、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とを実行する処理装置を備えるコンピュータによる情報分類方法である。

また、本発明に係るプログラムは、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とをコンピュータの処理装置に実行させる。

クラスタリングによる文書の分類結果である２軸表示の画像図。情報分類システムの全体構成図。情報分類システムの処理のフローチャート。重要語・不要語抽出処理部２０４およびクラスタ生成処理部２０５の機能ブロック図。索引語候補選定手段２０５Ａが索引語候補集合を作成する処理のフローチャート。文書数集計部２０６の処理のフローチャート。索引語候補選定手段２０５Ａが重要語・不要語を反映した索引語候補集合を作成する処理のフローチャート。Ｄｆ１，２（ｍｉ，ｍｊ）のマトリックスの具体例を示す図。

以下、本実施形態に係る実施例について、図面を参照して説明する。

情報分類システムによる分析対象として、例えば、公開特許公報（以下、単に「文書」という。）を考える。１つの文書には「背景技術」や「発明が解決しようとする課題」といった見出しによって特定される、互いに異なる範囲（または部分）が含まれている。

多数の文書について、それら文書の部分に記載されている内容である単語・文章といったテキストを分析対象のデータとして、文書全体ではなく各部分ごとに、それぞれ“索引語”に基づくクラスタリングを行い、文書を分類する。

図１は、クラスタリングによる文書の分類結果である２軸表示の画像図である。

ここで軸とは、「背景技術」や「発明が解決しようとする課題」など文書の一部を指定するものである。縦軸１０１は「背景技術」についてのクラスタリングの結果であり、横軸１０２は「発明が解決しようとする課題」についてのクラスタリングの結果である。

縦軸１０１においては、「加熱」という索引語（または、ターム）によるクラスタと、その下位の階層に「蒸気」、「電子レンジ」、「高周波」、「設定操作」という各クラスタが生成されている。

横軸１０２は、同一の文書について、縦軸１０１とは異なる部分である「発明が解決しようとする課題」に記載されている内容に基づいたクラスタリングの結果になっている。

そして、各軸の項目に関する交点である各セルには、数が表示されている。この数は、当該縦軸・横軸の各項目に分類される（または、所属する）文書数をあらわしている。

このような分析および分類を行うための情報分類システムについて、以下説明する。

図２は、情報分類システムの全体構成図である。

情報分類システム２００は、２軸表示軸選択部２０１、２軸表示部２０２、２軸表示情報作成部２０３、重要語・不要語抽出部２０４、クラスタ生成処理部２０５、文書数集計部２０６、文書取得部２０７、形態素解析部２０８、データ登録部２０９、文書ＤＢ２１０、形態素解析辞書２１１、クラスタリング結果格納ＤＢ２１２を有する。

情報分類システム２００は、コンピュータ等により構成される。２軸表示軸選択部２０１はマウス・キーボード等の入力装置等により実現される。２軸表示部２０２はディスプレイ装置等により実現される。２軸表示情報作成部２０３ないし形態素解析部２０８の各機能ブロックまたは処理モジュールはメモリ（図示せず）に記憶されたプログラムであって、ＣＰＵ（中央処理装置。図示せず）に読み込まれ実行されることによりこれら各機能が実現される。データ登録部２０９は通信装置等により実現される。文書ＤＢ２１０ないしクラスタリング結果格納ＤＢ２１２の各種データベースは記憶装置に記憶される。

ユーザが２軸表示軸選択部２０１を用いて２軸表示を行なう２つの軸を選択することにより処理が開始する。

２軸表示情報作成部２０３は、ユーザが選択した軸の情報を受け取ると、クラスタリングの処理および分類結果の作成をするために、クラスタ生成処理部２０５を呼び出す。

クラスタ生成処理部２０５は、重要語・不要語抽出部２０４の処理と連携してクラスタを生成し、その結果をクラスタリング結果格納ＤＢ２１２に格納する。

文書数集計部２０６は、クラスタリング結果格納ＤＢ２１２の内容を参照し、ユーザにより選択された２軸の各分類項目の文書集合同士の積集合の記事数を集計することにより、２軸表示に必要な情報を２軸表示情報作成部２０３に渡す。２軸表示部２０２は、分類結果の相関関係を、積集合の記事数により円の大きさ、色、網掛けなど表示形態を変化させて、グラフィカルに表示する。

なお、分析対象となる文書のデータは、あらかじめデータ２０９により文書ＤＢ２１０に登録されており、選択された軸に対応するクラスタリングの対象となる範囲が特定できる形で構成されて格納されているものとする。

クラスタ生成処理部２０５は、クラスタを生成するために、文書取得部２０７および形態素解析部２０８を呼び出す。文書取得部２０７は、文書ＤＢ２１０から分析対象の文書を取り出し、クラスタ生成処理部２０５に渡す。形態素解析部２０８は、文書のテキストに対して形態素解析辞書２１１の辞書引きを行い、各文書の形態素（例えば単語）、当該形態素に係る位置情報を取り出し、クラスタ生成処理部２０５に渡す。

図３は情報分類システムの処理のフローチャートである。

開始後、ユーザが２軸表示軸選択部２０１において分類対象とする軸を２つ選択すると（Ｓ３０１）、２軸表示情報作成部２０３は、選択された２つの軸の情報を、クラスタ生成処理部２０５に渡し、クラスタリングを実行させる。以下、選択された２軸に対応する分類対象をそれぞれクラスタリング範囲１およびクラスタリング範囲２という。

以下、各軸で索引語候補集合を作成する処理（Ｓ３０２）について、詳細に説明する。

図４は、重要語・不要語抽出処理部２０４およびクラスタ生成処理部２０５の機能ブロック図である。

クラスタ生成処理部２０５は、基本的には、特許文献１に示されているものと同様に、文書ＤＢ２１０に格納される全文書に含まれる形態素インデックスに含む形態素から索引語候補を選定する索引語候補選定手段２０５Ａ、この索引語候補選定手段２０５Ａにより選定された索引語候補の集合から、ある文書の形態素をもとに他の文書の形態素（自文書の他の形態素も含む）の間に共起関係が成立するか否かを判断し、共起関係が成立すれば当該共起関係にある各文書の形態素の組、つまりターム集合を作成するターム集合作成手段２０５Ｂ、このターム集合作成手段２０５Ｂで作成されたターム集合の中の各要素である形態素同士の出現相関を計算する出現相関処理手段２０５Ｃ及びこの出現相関処理手段２０５Ｃによって得られる形態素同士の出現相関に基づいて索引語の階層関係を作成し、クラスタリング結果格納ＤＢ２１２に記憶する階層関係作成手段２０５Ｄが設けられている。

本実施形態において、索引語候補選定手段２０５Ａは、文書ＤＢ２１０から取得される全文書に含まれる形態素ｍｉの集合{ｍ１,.., ｍｋｋ}について、ｍｉが出現する文書数を計算し、出現頻度がある閾値Ｐ１以上であるものを索引語の候補として選定する。すなわち、この索引語候補の集合Ｅ＝｛ｅ１，…，ｅｋ｝を作成するものである。

また、本実施形態において、ターム集合作成手段２０５Ｂは、実質的に、クラスタリング結果を生成するものであり、その結果をクラスタリング結果格納ＤＢ２１２に格納する。

また、本実施形態において、出現相関処理手段２０５Ｃおよび階層関係作成手段２０５Ｄは、必要に応じて適宜備えるものとしてもよい。

また、本実施形態において、クラスタ生成処理部２０５の索引語候補選定手段２０５Ａは、その処理の過程で、重要語・不要語抽出部２０４により重要語・不要語の抽出を行い、クラスタの生成過程でこれらを利用する。

図５は、索引語候補選定手段２０５Ａが索引語候補集合を作成する処理のフローチャートである。基本的には、特許文献１の図５の左半分に示されるものと同様である。

まず、索引語候補選定手段２０５Ａの処理が開始すると、全文書に含まれる形態素の集合
Ｍ＝｛ｍｌ，…，ｍｋｋ｝を、文書取得部２０７を経由して読出して取得し、バッファメ
モリ（図示せず）に記憶した後（Ｓ５０１）、第1のカウンタ（図示せず）にｉ＝１を設
定した後（Ｓ５０２）、ある１つの文書の形態素ｍｉに対する出現文書の数Ｎｉを計数す
る（Ｓ５０３）。

そして、形態素ｍｉの出現文書数Ｎｉが予め設定されているパラメータＰ１個以上出現し
ているか否かを判断し（Ｓ５０４）、形態素ｍｉがＰ１個以上出現している場合は（Ｓ４
０５：ＹＥＳ）、該当形態素ｍｉ及び出現文書数ｃｉをバッファメモリなどに格納して記
憶する（Ｓ５０５）。

ステップＳ５０４において形態素ｍｉがＰ１個以上ではない場合またはステップＳ５０５
にてバッファメモリに該当形態素ｍｉ及び出現文書数ｃｉ（＝ｃ１）を格納した後、最後
の形態素ｍｋｋまで出現文書数を調べたか否かを判断し（Ｓ５０６）、まだ未処理の形態
素が残っている場合は（Ｓ５０６：ＮＯ）、第1のカウンタに＋１をインクリメントし（
Ｓ５０７）、ステップＳ５０３に戻り、同様の処理を繰り返し実行する。

以上のようにして最後の形態素ｍｋｋについて各文書の出現文書数ｃｉ（＝ｃｋｋ）を計数すると（Ｓ５０６：ＹＥＳ）、終了する。

以上の処理により、索引語候補選定手段２０５Ａは、出現頻度が閾値Ｐ１以上である索引語を選定し、索引語候補集合Ｅ＝｛ｅ１，…，ｅｋ｝を作成する。

次に、文書集計部２０６が、文書のクラスタリング範囲１のテキストにｍｉを含み、かつ、文書のクラスタリング範囲２のテキストにmjを含む文書の数Ｄｆ１，２（ｍｉ，ｍｊ）を計算する。

図６は、文書数集計部２０６の処理のフローチャートである。

開始後、変数ｉを１で初期化する（Ｓ６０１）。変数ｊを１で初期化する（Ｓ６０２）。形態素ｍｉがクラスタリング範囲１に出現する文書の集合を取得する（Ｓ６０３）。また、形態素ｍｊがクラスタリング範囲２に出現する文書の集合を取得する（Ｓ６０４）。

そして、これらの積集合を計算する（Ｓ６０５）。この積集合における文書数を集計し、Ｄｆ１，２（ｍｉ，ｍｊ）なる変数に記憶する（Ｓ６０６）。

そして、変数ｊについて、値ｋに達したか否かを判定する（Ｓ６０７）。変数ｊが値ｋ未満であれば（Ｓ６０７：ＮＯ）、変数ｊに＋１をインクリメントし（Ｓ６０８）、ステップＳ６０３に戻り、同様の処理を繰り返し実行する（第一のループ）。

変数ｊが値ｋに達したならば（Ｓ６０７：ＹＥＳ）、変数ｉについて、値ｋに達したか否かを判定する（Ｓ６０９）。変数ｉが値ｋ未満であれば（Ｓ６０９：ＮＯ）、変数ｉに＋１をインクリメントし（Ｓ６１０）、ステップＳ６０２に戻り、同様の処理を繰り返し実行する（第二のループ）。

変数ｉが値ｋに達したならば（Ｓ６０９：ＹＥＳ）、Ｄｆ１，２（ｍｉ，ｍｊ）の全情報を計算するために必要な処理（第一のループ及び第二のループ）を終了する。

このように計算したＤｆ１，２（ｍｉ，ｍｊ）に基づいて、重要語・不要語抽出部２０４は、次の様にして重要語や不要語を決定する。

Ｄｆ１，２（ｍｉ，ｍｊ）を値が大きい順にソートする。そのうちｍｉ≠ｍｊで値が大きい上位Nd件のものは重要語にすべき単語と判断し、クラスタリング範囲１において形態素ｍｉを、同様に、クラスタリング範囲２において形態素ｍｊを重要語とすべくそれぞれ重要語フラグF important 1(ｍｉ), F important 2(ｍｊ)を立てる。この処理が重要語抽出処理である。

一方、Ｄｆ１，２（ｍｉ，ｍｊ）のうちｍｉ＝ｍｊでその値がｍｉ, ｍｊの行と列方向に計算した平均値avg (ｍｉ)=(Σk +Df1,2(ｍｉ,ｍｋ) + Σk Df1,2(ｍｋ, ｍｉ))/2Nより大きいものについては不要語の候補と判断し、不要語フラグF ignore 1(ｍｉ), F ignore 2(ｍｉ)を立てる。

ただし、クラスタリング範囲１、クラスタリング範囲２のそれぞれにおいて、先に判定した重要語フラグF important 1(ｍｉ), F important 2(ｍｊ)が立っているものについては、この処理を行わない。この処理が不要語抽出処理である。

以上の処理により、重要語・不要語抽出部２０４は、重要語と不要語とを抽出する。

重要語や不要語が決定された後、索引語候補選定手段２０５Ａは、重要語や不要語の結果を反映したクラスタリング範囲Rにおける索引語候補集合E Rを作成する。

図７は、索引語候補選定手段２０５Ａが重要語・不要語を反映した索引語候補集合を作成する処理のフローチャートである。

はじめに、形態素ｍｉの出現文書数ｃｉの平均値Ａを計算する（Ｓ７０１）。そして、変数ｉを１で初期化して（Ｓ７０２）、各形態素ｍｉについてループし以下の処理を行う。

不要語フラグF ignore R(ｍｉ)について判定する（Ｓ７０３）。不要語フラグが立っている場合は（Ｓ７０３：ＹＥＳ）、以下の処理をスキップし（E Rへの追加を行わない）、ステップＳ７０８へジャンプする。

不要語フラグが立っていない場合は（Ｓ７０３：ＮＯ）、重要語フラグF important R(ｍｉ)について判定する（Ｓ７０４）。

重要語フラグが立っていない場合は（Ｓ７０４：ＮＯ）、通常の平均値Ａおよびあらかじめ定められたパラメータＰ２、Ｐ３を用いる（Ｓ７０５）。このパラメータＰ２、Ｐ３は、形態素ｍｉを索引語候補集合に追加するかどうかの選定条件を定めるパラメータ（閾値）であって、それぞれ下限値及び上限値を意味し、“幅”を設定するものである。

重要語フラグが立っている場合は（Ｓ７０４：ＹＥＳ）、平均値ＡおよびパラメータＰ２,Ｐ３を、重要語を反映した値に一時的に変更する（Ｓ７０６）。

そして、形態素ｍｉのクラスタリング範囲Rにおける文書出現数Ni RがP2<Ni R<P3であり、パラメータP1以上の文書出現数ciがci>Aである場合は（Ｓ７０７：ＹＥＳ）、E Rへ形態素ｍｉを追加する（Ｓ７０８）。

ここで、ステップＳ７０６において、一時的な値とは、例えば以下のように設定する。

P2 ＝ P2 * 0.5
P3 ＝ P3 * 2
A ＝ A * 0.5
このように、閾値をゆるく（すなわちＰ２とＰ３との幅を大きく、かつ、下限Ａを小さく）設定することにより、Ｓ７０８において、E Rへ形態素ｍｉが追加されやすくなる。

Ｓ７０７の条件を満たさない場合は（Ｓ７０７：ＮＯ）、形態素miをE Rへ追加しない。

そして、変数ｉについて、値ｋｋに達したか否かを判定する（Ｓ７０９）。変数ｉが値ｋｋ未満であれば（Ｓ７０９：ＮＯ）、変数ｉに＋１をインクリメントし（Ｓ７１０）、ステップＳ７０３に戻り、同様の処理を繰り返し実行する。

変数ｉが値ｋに達したならば（Ｓ７０９：ＹＥＳ）、処理を終了する。

以上の処理により、索引語候補選定手段２０５Ａが重要語・不要語を反映した索引語候補集合を作成する。

以上が、各軸で索引語候補集合を作成する処理の詳細である（図３のＳ３０２）。

この後の、ターム集合作成手段２０５Ｂがクラスタリング範囲Rにおける索引語候補集合E Rから共起関係を抽出しターム集合を作成する処理（Ｓ３０３）、出現相関処理手段２０５Ｃがターム集合同士の出現相関を計算する処理（Ｓ３０４）、および階層関係作成手段２０５Ｄが要素同士の相関に基づき索引語の階層関係を作成する処理（Ｓ３０５）については、特許文献１に示されたものと同様の処理となるため説明を割愛する。

そして、この後、選択した２軸のクラスタ同士で積集合を計算し２軸表示を行う（Ｓ３０６）。

具体的には、文書数集計部２０６が、クラスタリング範囲1で生成されたクラスタT1 i、およびクラスタリング範囲2で生成されたクラスタT2 iのそれぞれに所属する文書をクラスタリング結果格納ＤＢから取得して、それらの積集合を計算し、その文書の数Nijを数える。その数に基づき、文書数集計部２０６が、縦軸・横軸をクラスタリング範囲１・クラスタリング範囲２（軸１・軸２）のクラスタとしたマトリックスを作成する。２軸表示情報作成部２０３は、このマトリックスに基づいて表示用の情報を作成し、２軸表示部２０２がその表示を行なう（図１参照。）。

図８は、Ｄｆ１，２（ｍｉ，ｍｊ）のマトリックスの具体例を示す図である。

図８のＤｆ１，２（ｍｉ，ｍｊ）のマトリックスは内部情報であって、図１とは異なり、画面に表示されるわけではない（図１は、Ｄｆ１，２（ｍｉ，ｍｊ）のマトリックスに基づいたクラスタリングによる文書の分類結果として、各クラスタに属する文書の数Ｎｉｊを示したものである。）。

この図８の例では、クラスタリング範囲１についてはWiの軸８０ｉが対応し、クラスタリング範囲２についてはWjの軸８０ｊが対応する。

この例では、（Wi,Wj）の組みのうち（頻度,検索）のセル８０５２と（頻度,文書）のセル８０５３とが重要語抽出処理の条件に当てはまり（図８に網掛けで表示）、「頻度」８０ｉ５がクラスタリング範囲１（Wiの軸８０ｉ）の重要語となり、「検索」８０ｊ２と「文書」８０ｊ３とがクラスタリング範囲２（Wjの軸８０ｊ）の重要語となる。

一方、（装置,装置）のセル８０１１と（文書,文書）のセル８０３３とが不要語抽出処理の条件に当てはまるが（図８に重要語とは異なる網掛けで表示）、クラスタリング範囲２（Wjの軸８０ｊ）において「文書」８０ｊ３は重要語となっているため、クラスタリング範囲２（Wjの軸８０ｊ）では不要語にはならない。不要語は、クラスタリング範囲１（Wiの軸８０ｉ）においては「装置」８０ｉ１および「文書」８０ｉ３となり、クラスタリング範囲２（Wjの軸８０ｊ）においては「装置」８０ｊ１となる。

以上説明したように、本実施例によれば、不要語・重要語を自動的に導出しクラスタリングを行なうことにより、利用者にとって有益な分類結果を生成することができる。

Claims

文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
・不要語抽出処理部と、
記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
語に基づいてクラスタリングを行うクラスタ生成処理部と、
第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
ける文書数をそれぞれ集計する文書数集計部とを備え、
前記重要語・不要語抽出処理部は、前記積集合における文書数が所定値以上であるものに
おいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特定範囲に
おける重要語とし、当該第二の単語を第二の特定範囲における重要語として、それぞれ抽
出する情報分類システム。
前記重要語・不要語抽出処理部は、前記積集合における文書数が所定値以上であるものに
おいて、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語と異な
る場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語を第二
の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項１に記載の
情報分類システム。
文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
・不要語抽出処理ステップと、
記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
語に基づいてクラスタリングを行うクラスタ生成処理ステップと、
第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
ける文書数をそれぞれ集計する文書数集計ステップとを有し、
前記重要語・不要語抽出処理ステップは、前記積集合における文書数が所定値以上である
ものにおいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特定
範囲における重要語とし、当該第二の単語を第二の特定範囲における重要語として、それ
ぞれ抽出するコンピュータによる情報分類方法。
前記重要語・不要語抽出処理ステップは、前記積集合における文書数が所定値以上である
ものにおいて、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語
と異なる場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語
を第二の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項３に
記載の情報分類方法。
文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
・不要語抽出処理手順と、
記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
語に基づいてクラスタリングを行うクラスタ生成処理手順と、
第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
ける文書数をそれぞれ集計する文書数集計手順と、
前記重要語・不要語抽出処理手順において、前記積集合における文書数が所定値以上であ
るものにおいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特
定範囲における重要語とし、当該第二の単語を第二の特定範囲における重要語として、そ
れぞれ抽出する手順とをコンピュータに実行させるためのプログラム。
前記重要語・不要語抽出処理手順は、前記積集合における文書数が所定値以上であるもの
において、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語と異
なる場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語を第
二の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項５に記載
のプログラム。