JP3726263B2

JP3726263B2 - 文書分類方法及び装置

Info

Publication number: JP3726263B2
Application number: JP2002056238A
Authority: JP
Inventors: 隆彦川谷
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2002-03-01
Filing date: 2002-03-01
Publication date: 2005-12-14
Anticipated expiration: 2022-03-01
Also published as: EP1365329B1; CN1458580A; CN100397332C; US20030167267A1; JP2003256441A; EP1365329A2; US7185008B2; EP1365329A3; DE60329550D1

Description

【０００１】
【産業上の利用分野】
本発明は文書の分類をはじめとする自然言語処理に関するものであり、特に文書集合間の差異を的確に抽出できるようにすることによって前記処理の高性能化を図るものである。
【０００２】
【従来の技術】
文書分類は文書を予め決められたグループに振り分ける技術であり、情報の流通が増すにつれ、重要性が高まってきている。文書分類としてはこれまでに、ベクトル空間法、k-最近隣法（kNN法）、ナイーブベイズ法、決定木法、サポートベクターマシン法、ブースティング法など実に様々な方法が研究開発されてきた。文書の文書分類処理に関する最近の動向については、情報処理学会誌第42巻第1号（2001年1月）に掲載されている「テキスト分類‐学習理論の見本市‐」（著者：永田昌明、平博順）に詳しい。どのような分類法も、文書クラスに関する情報を何らかの形で記述し、入力文書と照合している。以下これをクラスモデルと呼ぶ。このクラスモデルは、例えば、ベクトル空間法では各クラスに属する文書の平均ベクトルにより、k-最近隣法では各クラスに属する文書のベクトルの集合により、ブースティング法では単純な仮説の集合により表現されている。正確な分類を図るにはクラスモデルは各クラスを正確に記述したものでなければならない。現在まで提案されている分類法も高度なものほどクラスモデルは各クラスを正確に記述していると云ってよいであろう。
【０００３】
【発明が解消しようとする課題】
しかしながら、多くの分類法ではクラスモデルの記述の正確さは指向しているが、クラスモデルにクラス間の重なりがあることには配慮してない。ベクトル空間法にせよ、k-最近隣法にせよあるクラスのクラスモデルには他のクラスとマッチする情報も含まれてしまっている。クラスモデル間に重なりが存在すれば、ある入力文書とその入力文書が属さないクラスとの間で類似性が存在することになり、これは誤分類の原因となりうる。誤分類の原因を取り除くためには、クラスモデルがクラス間で重ならないよう、各クラス固有の情報を求めてクラスモデルを記述する必要がある。
【０００４】
【課題を解決するための手段】
上記のような状況に鑑み、本発明では、各クラスについて着目クラスには現れるが他のクラスでは現れにくい特徴、及び他のクラスでは現れるが着目クラスでは現れにくい特徴を求める手段を講じ、また、このような特徴を効果的に用いることができるようメインとサブの2段からなる分類系を構築する。メインの分類系では既存の高い性能を発揮することができる分類法を採用し、サブの分類系で前記特徴を用いるようにする。ここでは、メインの分類系は、入力文書と各クラスとの類似度をもとに分類を行うものとして説明を続ける。
【０００５】
先ず、サブの分類系で用いる特徴を、各文書がどのクラスに帰属するかを示すラベルの付与された全訓練文書集合を用いてどのように求めるかを述べる。先ず、全訓練文書をメインの分類系で分類を行い、クラス毎に閾値を越える文書を抽出する。これらの文書の中で属するクラスに正しく分類された集合（以下着目クラス集合と呼ぶ）及び他のクラスに属するにもかかわらず着目クラスに分類された集合（以下対抗文書集合と呼ぶ）を生成する。また、各文書は文ベクトルの集合で表現しておく。各文ベクトルの各成分は、その文に出現する各用語の頻度、もしくはそれに応じた量であり、次元数は全訓練文書集合に現れる用語種類数、もしくは選択された用語の種類数である。ある射影軸に全文書の全文ベクトルを射影したとし、着目クラスの文書集合からの射影値の2乗和と対抗文書集合のそれとの比を、その射影軸に反映される両集合間の違いの程度を示す評価基準とする。この評価基準を最大にする射影軸を用いてサブの分類系で用いる特徴を求める。
【０００６】
このような射影軸は一般固有値問題の固有ベクトルとして複数求めることができる。すなわち、評価基準として、（着目クラスからの射影値の2乗和）／（対抗文書集合からの射影値の2乗和）とすると、求められた射影軸は着目クラスの文書集合からの射影値の2乗和は大きく、対抗文書集合からの射影値の2乗和は小さくなるので、対抗文書には現れにくく、着目クラスには現れ易い情報を反映するものとなる。そこでこのような射影軸を正のトピック差分因子ベクトルと呼ぶこととする。反対に、評価基準を、（対抗文書集合からの射影値の2乗和）／（着目クラスからの射影値の2乗和）とすると、求められた射影軸は着目クラスには現れにくく、対抗文書には現れ易い情報を反映するものとなる。これを負のトピック差分因子ベクトルと呼ぶ。
サブの分類系では、クラス毎に、メインの分類系で求められた類似度に、入力文書の各文ベクトルと一定個の正のトピック差分因子ベクトルとの内積の重み付き2乗和を加え、同様に入力文書の各文ベクトルと一定個の負のトピック差分因子ベクトルとの内積の重み付き2乗和を差し引く。このように補正された類似度とクラス毎に決められた閾値とを比較し、入力文書が閾値を越えるクラスに帰属すると判定する。
【０００７】
前述のように本発明では、メインの分類系で求められた類似度をサブの分類系で補正している。サブの分類系で、あるクラスにおいて入力文書の各文ベクトルと一定個の正のトピック差分因子ベクトルとの内積の重み付き2乗和を求めたとき、正のトピック差分因子ベクトルはそのクラスに存在する特徴を規定することになるので、入力文書がそのクラスに帰属するときは多くの場合大きな値をとり、類似度は大きな値に補正される。入力文書がそのクラスに帰属しないときは多くの場合小さな値をとり、類似度の変化は小さい。また、入力文書の各文ベクトルと一定個の負のトピック差分因子ベクトルとの内積の重み付き2乗和を求めたとき、負のトピック差分因子ベクトルはそのクラスに存在すべきでない特徴を規定するので、入力文書がそのクラスに帰属するときは多くの場合小さな値をとり、類似度の変化は小さい。しかし、入力文書がそのクラスに帰属しないときは大きな値をとることが多く、類似度は小さな値に補正される。類似度の補正はこのように行われるので、多くの場合、補正の結果、入力文書の帰属するクラスの類似度は大きくなり、また、帰属しないクラスの類似度は小さくなるので、分類の精度が高められる。
【０００８】
【実施例】
図１に本願発明のブロック図を示す。先ず、文書入力部（110）に分類すべき文書を入力する。データ処理部（120）では、入力された文書に用語抽出・文書セグメント抽出などのデータ処理を行う。分類エンジン（130）では、分類クラス情報部（140）を参照し、メインの分類系で類似度を計算しさらにサブの分類系でその補正を行う。補正された類似度を用いて入力された文書の属するクラスを決定し、分類クラス出力部（150）へ出力する。図２は本発明の文書入力からクラス決定に至るまでの全体のフローチャートを示す。11は文書入力、12は用語抽出・選択、13は文書セグメントベクトル抽出、14は類似度計算、15は類似度補正、16はクラス決定である。11から14までが前記メインの分類系に相当し、15及び16がサブの分類系に相当する。以下、英文文書を例に実施例を説明する。
【０００９】
先ず、文書入力11において分類の対象となる文書が入力される。用語抽出・選択12では、先ず文書から単語、数式、記号系列などを抽出する。ここでは、単語や記号系列を総称して全て用語と呼ぶ。英文の場合、単語同士を分けて書く正書法が確立しているので用語の検出は容易である。また、用語抽出・選択12では、入力文書に現れる用語の中から、予め決定しておいた分類に用いる用語のリストに含まれる用語を抽出する。分類に用いる用語の選択はラベルの付与された大量の訓練文書集合を用いて行うことができ、tf-idf法、χ²統計量を用いる方法、相互情報量を用いる方法などが良好な結果を与える方法として知られている。
文書セグメントベクトル抽出13は、文書を文書セグメントに分割し、文書セグメント毎にベクトルを作成する。文書の文書セグメントへの分割で最も基本的な処理は文単位の分割である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。
【００１０】
その他の文書セグメントへの分割法としては、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく分割する方法などが考えられる。これらの分割も容易である。文書全体をひとつの文書セグメントとすることもありうる。次に、文書セグメント毎にベクトルを作成する。ベクトルの成分は分類に用いる各用語の文書セグメントにおける頻度である。或いは、これに重みを乗じてもよい。重みの与え方も様々な方法が研究されており、有効な方法が知られている。文書セグメントベクトルを全て加え合わせて生成したベクトルを文書ベクトルと呼ぶ。以下、文ベクトルを文書セグメントベクトルとして話を進める。K個の文からなる入力文書X（図３（ａ））が入力され、そのk番目の文ベクトルをx_k（図３（ｂ））、文書ベクトルをx（図３（ｃ））で表す。（図３（ｂ））の下段の数字は、文ベクトルの成分の一例である。これらの数字は文ベクトルx_kの各成分に対応する用語の頻度を表わす。
【００１１】
類似度計算14（図２）は入力文書の各クラスに対する類似度を計算する。類似度を求める方法も色々な方法が知られている。ベクトル空間モデルの場合は、訓練コーパスを用いて各クラスの平均文書ベクトルを求め保持しておく。クラスｌの平均ベクトルをm_lとすると、入力文書のクラスlに対する類似度sim(X,ｌ)は、
【００１２】
【数１】

で表すことができる。ここで‖x‖はxのノルムを表す。
以下図４に示すフローチャートに従がってｋNN法の説明をする。ｋNN法においては、訓練文書集合におけるt番目の文書をY_t、その文書ベクトルをy_tとして、入力文書Xの文書Y_tに対する類似度sim(X, Y_t)を
【００１３】
【数２】

により求める。入力文書Xの全ての訓練文書に対する類似度を求めた後（142）、入力文書Xと類似度の大きかったk個の文書を選択する（144）。k個の選択された文書の中で、文書に付属されたラベルに従がって各文書をクラス毎にソートする（146）。次いで、入力文書のクラスｌに対する類似度sim(X,ｌ)を計算する（148）。sim(X,ｌ)はクラスｌにソートされた文書と入力文書Xとの類似度の総和で定義される。即ち、
【００１４】
【数３】

で求められる。ここでΩ_lはクラスｌに属する訓練文書の集合である。
類似度補正15（図２）では、クラス毎に保持されていた、正のトピック差分因子ベクトルと負のトピック差分因子ベクトルを用いて類似度の補正を行う。類似度の補正に用いるクラスlの正のトピック差分因子ベクトルを{α_i}(i=1,..,L_G)、負のトピック差分因子ベクトルを{β_i}(i=1,..,L_P)とする。クラスlに対する補正後の類似度をsim_C (X,ｌ)とすると、これは
【００１５】
【数４】

で与えられる。ここで、a、bは値が正のパラメータであり、L_P、L_Gとともに予め決定しておくものである。a、b、L_P、L_Gの値は、{α_i}、{β_i}の算出には用いなかった文書集合を用い、a、b、L_P、L_Gのそれぞれの値を順に変えながらその文書集合に対する性能を求め、最もＦ値の高かった値の組み合わせを選択することで決定できる。ここで、Ｆ値は次のように定義される。
精度＝分類の結果各文書に正しく付与されたクラスの総数／分類の結果各文書に付与されたクラスの総数
再現率＝分類の結果各文書に正しく付与されたクラスの総数／各文書が本来属しているクラスの総数
F値＝精度×再現率×2／（精度＋再現率）
補正後の類似度は次式によって行ってもよい。
【００１６】
【数５】

この場合、a_i、b_iはi次の正・負のトピック差分因子に対する重みである。L_P、L_Gが与えられたとき、a_i、b_iは線形判別分析を用いて最適な値を求めることができる。具体的には、先ず、{α_i}、{β_i}の算出には用いなかった文書ごとに、L_P+L_G+1次元のベクトルを用意し、成分として、（ｘ_k ^T α_i）²（ｉ＝1,..,L_G）、（ｘ_k ^T β_i）²（ｉ＝1,..,L_P）、sim (X,ｌ)を与える。そして、クラスｌの文書集合と他のクラスに属する文書集合の間で線形判別分析を実行し、クラスｌの文書集合と他のクラスに属する文書集合とを最適に分離する重みを各成分に対して決定する。他のクラスに属する文書集合とは分類処理２２（図５）における分類結果において、クラスｌに対する類似度sim(X,ｌ)がある閾値を越えている他のクラスに属する文書を指す。線形判別分析では、一般に、２つのグループのベクトル集合を最適に分離する射影軸を求めることができると言われている。射影軸は、各グループの平均ベクトルの差分ベクトルに、両グループの共分散行列を加え得合わせた行列の逆行列を乗じて求めることができる。その後、（ｘ_k ^T α_i）²、（ｉ＝1,..,L_G）及び（ｘ_k ^T β_i）²、（ｉ＝1,..,L_P）に対する重みをsim (X,ｌ)に対する重みで割ることにより、a_i、b_iを決定することができる。これをあらゆるL_P、L_Gの値の組み合わせに対して実行し、分類結果が最もよくなるものを採用すればよい。
【００１７】
クラス決定16（図２）では、各クラスに対して予め決めておいた閾値と補正後の類似度とを比較し、入力文書の帰属するクラスを決定する。具体的には、クラスlに対する補正後の類似度がクラスlに対する閾値よりも大きければ入力文書はクラスlに帰属すると判定する。
図５は、図２ブロック１５における類似度を補正する為の正のトピック差分因子ベクトルと負のトピック差分因子ベクトルを決定する手順に関するフローチャートである。21で訓練文書集合を用意する。22は分類処理、23は対抗文書集合編集、24はトピック差分因子分析である。
【００１８】
訓練文書集合21では、正、負のトピック差分因子ベクトルを決定するための訓練文書集合を用意し、各文書について文書ベクトル、文書セグメントベクトルを求めておく。クラスｌに帰属するM個の文書の集合をDとする（図6（ａ））。Dのm番目の文書D_mがK_D (m)個の文から成っているものとして、k番目の文ベクトルをd_mk（図6（ｂ））で表す。分類処理22では図２に示す手順に従って各訓練文書を入力文書としてそれ以外の全訓練文書との類似度を求めクラスを決定する（図２、ブロック１４及びブロック１６）。この操作を全訓練文書に対して行い分類を行う。但し、図２のブロック15における類似度補正は行わない。
【００１９】
ブロック２２（図５）の分類処理について図７のフローチャートで説明する。
２２１：全訓練文書に対して用語抽出・文書セグメント抽出などのデータ処理を行う。
２２２：入力文書として各訓練文書を選択する。２２３：入力文書と他の訓練文書との類似度を計算し、数３に従がって各クラスに対する類似度を求める。。
２２４：全ての訓練文書に対して各クラスの類似度を求める。
２２５：クラス毎に着目クラスの閾値を超えた文書を着目クラス文書集合と対抗文書集合に分ける。
【００２０】
以下、図５のフローチャートについて詳しく説明する。対抗文書集合編集23（図５）は、分類処理22における分類結果をもとに、他のクラスに誤分類された、もしくは誤分類されそうになった対抗文書の集合をクラス毎に作成する。クラスｌに対する対抗文書の抽出は、クラスｌに対する類似度sim(X,ｌ)がある閾値を越えている文書を選択することにより行われる。閾値の決定は選択される対抗文書の数によって恣意的に決定してよい。ここでは、クラスｌに対する対抗文書集合TがN個の文書から成るものとする。Tのn番目の文書T_nがK_T(n)個の文から成っているものとして、k番目の文ベクトルをt_nk（図6（ｃ））で表す。なお、文書集合Dは、クラスｌに対する類似度が上記の閾値を越え、かつクラスｌに属する文書の集合としてもよい。
【００２１】
トピック差分因子分析24（図５）は各クラスに属する文書集合、対抗文書集合を用いて正、負のトピック差分因子ベクトルを算出する。トピック差分因子ベクトルとして求めるべき射影軸をαとする。文書集合D、Tの全文ベクトルをαへ射影したときの射影値の2乗和をP_D、P_Tとすると、正のトピック差分因子ベクトルは評価基準J(α)=P_D(α)/P_T(α)を最大にするようなαとして求められる。J(α)を最大にするαは文書集合Dの文ベクトルの射影値の2乗和は大きく、文書集合Tの文ベクトルの射影値の2乗和は小さくなるはずなので、文書集合Dには存在しうるが文書集合Tには存在しにくい特徴を反映することになる。P_D(α)、P_T(α)は
【００２２】
【数６】

【００２３】
【数７】

【００２４】
【数８】

【００２５】
【数９】

と表されるので、評価基準J(α)は
【００２６】
【数１０】

と書くことができる。数１０で与えられる評価基準J(α)を最大にするαは、数１０をαで微分し零とおくことにより求めることが出来る。すなわち
【００２７】
【数１１】

なる一般固有値問題の固有ベクトルとして与えられる。数１１の固有ベクトルは一般に複数求めることができ、それらから１次からL_G次までを選択したものが図２のブロック15における正のトピック差分因子ベクトル{α_i}(i=1,..,L_G)となる。また、求めるべきもうひとつの射影軸をβとし、評価基準をJ(β)=P_T(β)/P_D(β)とすると、J(β)を最大にするβは文書集合Tには存在しうるが文書集合Dには存在しにくい特徴を表すことになる。この場合には評価基準J(β)を最大にするβは、数１１と同様に
【００２８】
【数１２】

なる一般固有値問題の固有ベクトルとして与えられる。数１２から求められる複数の固有ベクトルの中から１次からL_P次までを選択したものが図２のブロック15における負のトピック差分因子ベクトル{β_i}(i=1,..,L_P)となる。また、数１１の場合、固有ベクトルが求められるためには行列S_Tは正則行列でなければならない。しかし、実際には訓練文書集合における文の数が用語数よりも小さい、特定の用語対が常に共起するような場合にはS_Tは正則行列として求められない。このような場合S_Tを次式により正則化することにより固有ベクトルを求めることができる。
【００２９】
【数１３】

但し、σ²はパラメータ、I は単位行列である。数１３を用いる場合には評価基準J(α)は
【００３０】
【数１４】

としたことに相当する。
なお、上記の実施例では、文書や文の長さは考慮に入っていない。そのため、入力文書の各クラスに対する類似度は文書の長さに依存しないように求められたにしても、長い文書ほど類似度の補正量が大きくなる、もしくは長い文ほど類似度の補正量に与える影響が大きくなるという問題も発生する。そのため、図２のブロック15において、数４の代わりに
【００３１】
【数１５】

を用いてもよい。前述のようにKは入力文書Xにおける文の数である。これにより、文書の長さの影響を軽減できる。これは、数５に対しても同様である。
あるいは、入力文書のk番目の文に現れる用語の数をN_kとすると、数４の代わりに
【００３２】
【数１６】

を用いてもよい。これにより、文の長さのバラツキの影響を軽減できる。これは、数５に対しても同様である。
また、図３（ｂ）における入力文書の文ベクトルx_kを
【００３３】
【数１７】

のように正規化し、数４、数５、数１５及び数１６に用いてもよい。このときには、図６におけるd_mk、t_nkを同様に正規化して、正及び負のトピック差分因子ベクトルを求める必要がある。
【００３４】
【発明の効果】
以上述べたように本発明によれば、各クラスの固有の情報を分類に用いることができるようになるので、分類の精度を著しく高めることができる。Reuters-21578（訓練文書数7770、カテゴリー数87、テスト文書数3019）を用いた実験では、本願発明の補正を行わない従来のkNN法のデータは、精度85.93%、再現率81.57%、F値83.69%であるが、数１６による類似度の補正を行うことにより、精度90.03%、再現率84.40%、F値87.14%に高められた。

精度、再現率、F値の定義は前述の通りであり、また、Reuters21578ではひとつの文書は複数のクラスに属しうる。
【図面の簡単な説明】
【図１】本願発明のブロック図を示す。
【図２】本発明の実施例を示すフローチャートである。
【図３】文書ベクトルを説明する図である。
【図４】ｋＮＮ法に従がった入力文書の類似度（図２の１４）を求めるフローチャートである。
【図５】類似度を補正する為に、着目クラスの文書集合と着目クラスに誤ったもしくは誤りそうになった文書集合を用いて、正及び負のトピック差分因子ベクトルを求める手順を示すフローチャートである。
【図６】クラスlに属する文書の構成を示す図である。
【図７】分類処理（図５、ブロック２２）に関するフローチャートである。
【符号の説明】
１１０：文書入力部
１２０：データ処理部
１３０：分類エンジン
１４０：分類クラス情報部
１５０：分類クラス出力部

Claims

文書入力部、データ処理部、分類エンジン、分類クラス情報部、及び分類クラス出力部を有し、与えられた入力文書を所定の文書クラスに分類する装置において、以下の（ａ）から（ｇ）のステップを有する文書分類方法、
（ａ）前記入力文書に出現する用語から分類に用いる用語を選択するステップと
（ｂ）前記入力文書を所定の単位の文書セグメントに区分けするステップと、
（ｃ）前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルを生成し、全ての前記文書セグメントベクトルを加え合わせた文書ベクトルを生成するステップと、
（ｄ）前記文書クラス毎に予め分類クラス情報部に保持されている情報を用いて入力文書と各クラスの類似度を求めるステップと、
（ｅ）所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ難くかつ正しく分類された集合には現れ易い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている１つ以上の正のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度に加えるステップと、
（ｆ）所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ易くかつ正しく分類された集合には現れ難い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている１つ以上の負のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度から差し引くステップと、
（ｇ）前記値が補正された各クラスの類似度から入力文書が帰属するクラスを決定するステップ。
類似度の補正に用いる各クラスの正、負のトピック差分因子ベクトルは、
（ａ）所与の訓練文書集合に属する各訓練文書と各クラスとの類似度を求め、前記各訓練文書を各クラスに分類するステップと、
（ｂ）前記訓練文書集合に対する分類結果から各クラスに対し、他のクラスに属するにもかかわらず各クラスに予め用意された閾値を越える対抗文書の集合を求めるステップと、
（ｃ）各クラスの正のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分子とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分母とした値を最大とする射影軸として求めるステップと、
（ｄ）各クラスの負のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分母とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分子とした値を最大とする射影軸として求めるステップと、
によって決定する請求項１に記載の文書分類方法。
前記文書セグメントベクトル及び前記文書ベクトルを、前記文書セグメントベクトル及び前記文書ベクトルのノルムで除することにより、正規化することを特徴とする、
前記請求項１及び２に記載の文書分類方法。
１つ以上の前記正もしくは前記負のトピック差分因子ベクトルの各々と各前記文書セグメントベクトルとの内積の重み付き2乗和を各前記文書セグメントに含まれる用語の数で除することにより正規化することを特徴とする、
請求項１に記載の文書分類方法。
前記請求項１において、１つ以上の前記正もしくは前記負のトピック差分因子ベクトルの各々と各前記文書セグメントベクトルとの内積の重み付き2乗和は入力文書に含まれる前記文書セグメントの数で除することにより正規化することを特徴とする文書分類方法。
文書入力部、データ処理部、分類エンジン、分類クラス情報部、及び分類クラス出力部を有し、以下の（ａ）から（ｇ）の手段を有する、与えられた入力文書を所定の文書クラスに分類する装置、
（ａ）文書入力部に入力された前記入力文書に出現する用語から分類に用いる用語を選択する手段と、
（ｂ）前記入力文書を適当な単位の文書セグメントに区分けする手段と、
（ｃ）前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルを生成し、前記文書セグメントベクトルを加え合わせた文書ベクトルを生成する手段と、
（ｄ）前記文書クラス毎に予め分類クラス情報部に保持されている情報を用いて入力文書と各クラスの類似度を求める手段と、
（ｅ）所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ難くかつ正しく分類された集合には現れ易い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている１つ以上の正のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度に加える手段と、
（ｆ）所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ易くかつ正しく分類された集合には現れ難い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている１つ以上の負のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度から差し引く手段と、
（ｇ）前記値が補正された各クラスの類似度から入力文書が帰属するクラスを決定し出力する手段。
前記類似度の補正に用いる各クラスの正、負のトピック差分因子ベクトルを、
（ａ）所与の訓練文書集合に属する各訓練文書と各クラスとの類似度を求め、前記各訓練文書を各クラスに分類する手段と、
（ｂ）前記訓練文書集合に対する分類結果から各クラスに対し、他のクラスに属するにもかかわらず各クラスに予め用意された閾値を越える対抗文書の集合を求める手段と、
（ｃ）各クラスの正のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分子とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分母とした値を最大とする射影軸として求める手段と、
（ｄ）各クラスの負のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分母とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分子とした値を最大とする射影軸として求める手段と、
によって決定する請求項６に記載の装置。
コンピュータを、以下の（ａ）から（ｇ）の手段として機能させるための、入力文書を所与の文書クラスに分類するプログラム、
（ａ）前記入力文書に出現する用語から分類に用いる用語を選択する手段と
（ｂ）前記入力文書を所定の単位の文書セグメントに区分けする手段と、
（ｃ）前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルを生成し、全ての前記文書セグメントベクトルを加え合わせた文書ベクトルを生成する手段と、
（ｄ）前記文書クラス毎に予め分類クラス情報部に保持されている情報を用いて入力文書と各クラスの類似度を求める手段と、
（ｅ）所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ難くかつ正しく分類された集合には現れ易い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている１つ以上の正のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度に加える手段と、
（ｆ）所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ易くかつ正しく分類された集合には現れ難い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている１つ以上の負のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度から差し引く手段と、
（ｇ）前記値が補正された各クラスの類似度から入力文書が帰属するクラスを決定する手段。
コンピュータを、以下の（ａ）から（ｄ）の手段として機能させるための、各クラスの正及び負のトピック差分因子ベクトルを求める請求項８に記載のプログラム、
（ａ）所与の訓練文書集合に属する各訓練文書と各クラスとの類似度を求め、前記各訓練文書を各クラスに分類する手段と、
（ｂ）前記訓練文書集合に対する分類結果から各クラスに対し、他のクラスに属するにもかかわらず各クラスに予め用意された閾値を越える対抗文書の集合を求める手段と、
（ｃ）各クラスの正のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分子とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分母とした値を最大とする射影軸として求める手段と、
（ｄ）各クラスの負のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分母とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分子とした値を最大とする射影軸として求める手段。