JP3726263B2 - 文書分類方法及び装置 - Google Patents
文書分類方法及び装置 Download PDFInfo
- Publication number
- JP3726263B2 JP3726263B2 JP2002056238A JP2002056238A JP3726263B2 JP 3726263 B2 JP3726263 B2 JP 3726263B2 JP 2002056238 A JP2002056238 A JP 2002056238A JP 2002056238 A JP2002056238 A JP 2002056238A JP 3726263 B2 JP3726263 B2 JP 3726263B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- class
- classification
- vector
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
【産業上の利用分野】
本発明は文書の分類をはじめとする自然言語処理に関するものであり、特に文書集合間の差異を的確に抽出できるようにすることによって前記処理の高性能化を図るものである。
【0002】
【従来の技術】
文書分類は文書を予め決められたグループに振り分ける技術であり、情報の流通が増すにつれ、重要性が高まってきている。文書分類としてはこれまでに、ベクトル空間法、k-最近隣法(kNN法)、ナイーブベイズ法、決定木法、サポートベクターマシン法、ブースティング法など実に様々な方法が研究開発されてきた。文書の文書分類処理に関する最近の動向については、情報処理学会誌第42巻第1号(2001年1月)に掲載されている「テキスト分類‐学習理論の見本市‐」(著者:永田昌明、平博順)に詳しい。どのような分類法も、文書クラスに関する情報を何らかの形で記述し、入力文書と照合している。以下これをクラスモデルと呼ぶ。このクラスモデルは、例えば、ベクトル空間法では各クラスに属する文書の平均ベクトルにより、k-最近隣法では各クラスに属する文書のベクトルの集合により、ブースティング法では単純な仮説の集合により表現されている。正確な分類を図るにはクラスモデルは各クラスを正確に記述したものでなければならない。現在まで提案されている分類法も高度なものほどクラスモデルは各クラスを正確に記述していると云ってよいであろう。
【0003】
【発明が解消しようとする課題】
しかしながら、多くの分類法ではクラスモデルの記述の正確さは指向しているが、クラスモデルにクラス間の重なりがあることには配慮してない。ベクトル空間法にせよ、k-最近隣法にせよあるクラスのクラスモデルには他のクラスとマッチする情報も含まれてしまっている。クラスモデル間に重なりが存在すれば、ある入力文書とその入力文書が属さないクラスとの間で類似性が存在することになり、これは誤分類の原因となりうる。誤分類の原因を取り除くためには、クラスモデルがクラス間で重ならないよう、各クラス固有の情報を求めてクラスモデルを記述する必要がある。
【0004】
【課題を解決するための手段】
上記のような状況に鑑み、本発明では、各クラスについて着目クラスには現れるが他のクラスでは現れにくい特徴、及び他のクラスでは現れるが着目クラスでは現れにくい特徴を求める手段を講じ、また、このような特徴を効果的に用いることができるようメインとサブの2段からなる分類系を構築する。メインの分類系では既存の高い性能を発揮することができる分類法を採用し、サブの分類系で前記特徴を用いるようにする。ここでは、メインの分類系は、入力文書と各クラスとの類似度をもとに分類を行うものとして説明を続ける。
【0005】
先ず、サブの分類系で用いる特徴を、各文書がどのクラスに帰属するかを示すラベルの付与された全訓練文書集合を用いてどのように求めるかを述べる。先ず、全訓練文書をメインの分類系で分類を行い、クラス毎に閾値を越える文書を抽出する。これらの文書の中で属するクラスに正しく分類された集合(以下着目クラス集合と呼ぶ)及び他のクラスに属するにもかかわらず着目クラスに分類された集合(以下対抗文書集合と呼ぶ)を生成する。また、各文書は文ベクトルの集合で表現しておく。各文ベクトルの各成分は、その文に出現する各用語の頻度、もしくはそれに応じた量であり、次元数は全訓練文書集合に現れる用語種類数、もしくは選択された用語の種類数である。ある射影軸に全文書の全文ベクトルを射影したとし、着目クラスの文書集合からの射影値の2乗和と対抗文書集合のそれとの比を、その射影軸に反映される両集合間の違いの程度を示す評価基準とする。この評価基準を最大にする射影軸を用いてサブの分類系で用いる特徴を求める。
【0006】
このような射影軸は一般固有値問題の固有ベクトルとして複数求めることができる。すなわち、評価基準として、(着目クラスからの射影値の2乗和)/(対抗文書集合からの射影値の2乗和)とすると、求められた射影軸は着目クラスの文書集合からの射影値の2乗和は大きく、対抗文書集合からの射影値の2乗和は小さくなるので、対抗文書には現れにくく、着目クラスには現れ易い情報を反映するものとなる。そこでこのような射影軸を正のトピック差分因子ベクトルと呼ぶこととする。反対に、評価基準を、(対抗文書集合からの射影値の2乗和)/(着目クラスからの射影値の2乗和)とすると、求められた射影軸は着目クラスには現れにくく、対抗文書には現れ易い情報を反映するものとなる。これを負のトピック差分因子ベクトルと呼ぶ。
サブの分類系では、クラス毎に、メインの分類系で求められた類似度に、入力文書の各文ベクトルと一定個の正のトピック差分因子ベクトルとの内積の重み付き2乗和を加え、同様に入力文書の各文ベクトルと一定個の負のトピック差分因子ベクトルとの内積の重み付き2乗和を差し引く。このように補正された類似度とクラス毎に決められた閾値とを比較し、入力文書が閾値を越えるクラスに帰属すると判定する。
【0007】
前述のように本発明では、メインの分類系で求められた類似度をサブの分類系で補正している。サブの分類系で、あるクラスにおいて入力文書の各文ベクトルと一定個の正のトピック差分因子ベクトルとの内積の重み付き2乗和を求めたとき、正のトピック差分因子ベクトルはそのクラスに存在する特徴を規定することになるので、入力文書がそのクラスに帰属するときは多くの場合大きな値をとり、類似度は大きな値に補正される。入力文書がそのクラスに帰属しないときは多くの場合小さな値をとり、類似度の変化は小さい。また、入力文書の各文ベクトルと一定個の負のトピック差分因子ベクトルとの内積の重み付き2乗和を求めたとき、負のトピック差分因子ベクトルはそのクラスに存在すべきでない特徴を規定するので、入力文書がそのクラスに帰属するときは多くの場合小さな値をとり、類似度の変化は小さい。しかし、入力文書がそのクラスに帰属しないときは大きな値をとることが多く、類似度は小さな値に補正される。類似度の補正はこのように行われるので、多くの場合、補正の結果、入力文書の帰属するクラスの類似度は大きくなり、また、帰属しないクラスの類似度は小さくなるので、分類の精度が高められる。
【0008】
【実施例】
図1に本願発明のブロック図を示す。先ず、文書入力部(110)に分類すべき文書を入力する。データ処理部(120)では、入力された文書に用語抽出・文書セグメント抽出などのデータ処理を行う。分類エンジン(130)では、分類クラス情報部(140)を参照し、メインの分類系で類似度を計算しさらにサブの分類系でその補正を行う。補正された類似度を用いて入力された文書の属するクラスを決定し、分類クラス出力部(150)へ出力する。 図2は本発明の文書入力からクラス決定に至るまでの全体のフローチャートを示す。11は文書入力、12は用語抽出・選択、13は文書セグメントベクトル抽出、14は類似度計算、15は類似度補正、16はクラス決定である。11から14までが前記メインの分類系に相当し、15及び16がサブの分類系に相当する。以下、英文文書を例に実施例を説明する。
【0009】
先ず、文書入力11において分類の対象となる文書が入力される。用語抽出・選択12では、先ず文書から単語、数式、記号系列などを抽出する。ここでは、単語や記号系列を総称して全て用語と呼ぶ。英文の場合、単語同士を分けて書く正書法が確立しているので用語の検出は容易である。また、用語抽出・選択12では、入力文書に現れる用語の中から、予め決定しておいた分類に用いる用語のリストに含まれる用語を抽出する。分類に用いる用語の選択はラベルの付与された大量の訓練文書集合を用いて行うことができ、tf-idf法、χ2統計量を用いる方法、相互情報量を用いる方法などが良好な結果を与える方法として知られている。
文書セグメントベクトル抽出13は、文書を文書セグメントに分割し、文書セグメント毎にベクトルを作成する。文書の文書セグメントへの分割で最も基本的な処理は文単位の分割である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。
【0010】
その他の文書セグメントへの分割法としては、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく分割する方法などが考えられる。これらの分割も容易である。文書全体をひとつの文書セグメントとすることもありうる。次に、文書セグメント毎にベクトルを作成する。ベクトルの成分は分類に用いる各用語の文書セグメントにおける頻度である。或いは、これに重みを乗じてもよい。重みの与え方も様々な方法が研究されており、有効な方法が知られている。文書セグメントベクトルを全て加え合わせて生成したベクトルを文書ベクトルと呼ぶ。以下、文ベクトルを文書セグメントベクトルとして話を進める。K個の文からなる入力文書X(図3(a))が入力され、そのk番目の文ベクトルをxk(図3(b))、文書ベクトルをx(図3(c))で表す。(図3(b))の下段の数字は、文ベクトルの成分の一例である。これらの数字は文ベクトルxkの各成分に対応する用語の頻度を表わす。
【0011】
類似度計算14(図2)は入力文書の各クラスに対する類似度を計算する。類似度を求める方法も色々な方法が知られている。ベクトル空間モデルの場合は、訓練コーパスを用いて各クラスの平均文書ベクトルを求め保持しておく。クラスlの平均ベクトルをmlとすると、入力文書のクラスlに対する類似度sim(X,l)は、
【0012】
【数1】
で表すことができる。ここで‖x‖はxのノルムを表す。
以下図4に示すフローチャートに従がってkNN法の説明をする。kNN法においては、訓練文書集合におけるt番目の文書をYt、その文書ベクトルをytとして、入力文書Xの文書Ytに対する類似度sim(X, Yt)を
【0013】
【数2】
により求める。入力文書Xの全ての訓練文書に対する類似度を求めた後(142)、入力文書Xと類似度の大きかったk個の文書を選択する(144)。k個の選択された文書の中で、文書に付属されたラベルに従がって各文書をクラス毎にソートする(146)。次いで、入力文書のクラスlに対する類似度sim(X,l)を計算する(148)。sim(X,l)はクラスlにソートされた文書と入力文書Xとの類似度の総和で定義される。即ち、
【0014】
【数3】
で求められる。ここでΩlはクラスlに属する訓練文書の集合である。
類似度補正15(図2)では、クラス毎に保持されていた、正のトピック差分因子ベクトルと負のトピック差分因子ベクトルを用いて類似度の補正を行う。類似度の補正に用いるクラスlの正のトピック差分因子ベクトルを{αi}(i=1,..,LG)、負のトピック差分因子ベクトルを{βi}(i=1,..,LP)とする。クラスlに対する補正後の類似度をsimC (X,l)とすると、これは
【0015】
【数4】
で与えられる。ここで、a、bは値が正のパラメータであり、LP、LGとともに予め決定しておくものである。a、b、LP、LGの値は、{αi}、{βi}の算出には用いなかった文書集合を用い、a、b、LP、LGのそれぞれの値を順に変えながらその文書集合に対する性能を求め、最もF値の高かった値の組み合わせを選択することで決定できる。ここで、F値は次のように定義される。
精度=分類の結果各文書に正しく付与されたクラスの総数/分類の結果各文書に付与されたクラスの総数
再現率=分類の結果各文書に正しく付与されたクラスの総数/各文書が本来属しているクラスの総数
F値=精度×再現率×2/(精度+再現率)
補正後の類似度は次式によって行ってもよい。
【0016】
【数5】
この場合、ai、biはi次の正・負のトピック差分因子に対する重みである。LP、LGが与えられたとき、ai、biは線形判別分析を用いて最適な値を求めることができる。具体的には、先ず、{αi}、{βi}の算出には用いなかった文書ごとに、LP+LG+1次元のベクトルを用意し、成分として、(xk T αi)2(i=1,..,LG)、(xk T βi)2(i=1,..,LP)、sim (X,l)を与える。そして、クラスlの文書集合と他のクラスに属する文書集合の間で線形判別分析を実行し、クラスlの文書集合と他のクラスに属する文書集合とを最適に分離する重みを各成分に対して決定する。他のクラスに属する文書集合とは分類処理22(図5)における分類結果において、クラスlに対する類似度sim(X,l)がある閾値を越えている他のクラスに属する文書を指す。線形判別分析では、一般に、2つのグループのベクトル集合を最適に分離する射影軸を求めることができると言われている。射影軸は、各グループの平均ベクトルの差分ベクトルに、両グループの共分散行列を加え得合わせた行列の逆行列を乗じて求めることができる。その後、(xk T αi)2、(i=1,..,LG)及び(xk T βi)2、(i=1,..,LP)に対する重みをsim (X,l)に対する重みで割ることにより、ai、biを決定することができる。これをあらゆるLP、LGの値の組み合わせに対して実行し、分類結果が最もよくなるものを採用すればよい。
【0017】
クラス決定16(図2)では、各クラスに対して予め決めておいた閾値と補正後の類似度とを比較し、入力文書の帰属するクラスを決定する。具体的には、クラスlに対する補正後の類似度がクラスlに対する閾値よりも大きければ入力文書はクラスlに帰属すると判定する。
図5は、図2ブロック15における類似度を補正する為の正のトピック差分因子ベクトルと負のトピック差分因子ベクトルを決定する手順に関するフローチャートである。21で訓練文書集合を用意する。22は分類処理、23は対抗文書集合編集、24はトピック差分因子分析である。
【0018】
訓練文書集合21では、正、負のトピック差分因子ベクトルを決定するための訓練文書集合を用意し、各文書について文書ベクトル、文書セグメントベクトルを求めておく。クラスlに帰属するM個の文書の集合をDとする(図6(a))。Dのm番目の文書DmがKD (m)個の文から成っているものとして、k番目の文ベクトルをdmk(図6(b))で表す。分類処理22では図2に示す手順に従って各訓練文書を入力文書としてそれ以外の全訓練文書との類似度を求めクラスを決定する(図2、ブロック14及びブロック16)。この操作を全訓練文書に対して行い分類を行う。但し、図2のブロック15における類似度補正は行わない。
【0019】
ブロック22(図5)の分類処理について図7のフローチャートで説明する。
221: 全訓練文書に対して用語抽出・文書セグメント抽出などのデータ処理を行う。
222:入力文書として各訓練文書を選択する。223:入力文書と他の訓練文書との類似度を計算し、数3に従がって各クラスに対する類似度を求める。。
224:全ての訓練文書に対して各クラスの類似度を求める。
225:クラス毎に着目クラスの閾値を超えた文書を着目クラス文書集合と対抗文書集合に分ける。
【0020】
以下、図5のフローチャートについて詳しく説明する。対抗文書集合編集23(図5)は、分類処理22における分類結果をもとに、他のクラスに誤分類された、もしくは誤分類されそうになった対抗文書の集合をクラス毎に作成する。クラスlに対する対抗文書の抽出は、クラスlに対する類似度sim(X,l)がある閾値を越えている文書を選択することにより行われる。閾値の決定は選択される対抗文書の数によって恣意的に決定してよい。ここでは、クラスlに対する対抗文書集合TがN個の文書から成るものとする。Tのn番目の文書TnがKT(n)個の文から成っているものとして、k番目の文ベクトルをtnk(図6(c))で表す。なお、文書集合Dは、クラスlに対する類似度が上記の閾値を越え、かつクラスlに属する文書の集合としてもよい。
【0021】
トピック差分因子分析24(図5)は各クラスに属する文書集合、対抗文書集合を用いて正、負のトピック差分因子ベクトルを算出する。トピック差分因子ベクトルとして求めるべき射影軸をαとする。文書集合D、Tの全文ベクトルをαへ射影したときの射影値の2乗和をPD、PTとすると、正のトピック差分因子ベクトルは評価基準J(α)=PD(α)/PT(α)を最大にするようなαとして求められる。J(α)を最大にするαは文書集合Dの文ベクトルの射影値の2乗和は大きく、文書集合Tの文ベクトルの射影値の2乗和は小さくなるはずなので、文書集合Dには存在しうるが文書集合Tには存在しにくい特徴を反映することになる。PD(α)、PT(α)は
【0022】
【数6】
【0023】
【数7】
【0024】
【数8】
【0025】
【数9】
と表されるので、評価基準J(α)は
【0026】
【数10】
と書くことができる。数10で与えられる評価基準J(α)を最大にするαは、数10をαで微分し零とおくことにより求めることが出来る。すなわち
【0027】
【数11】
なる一般固有値問題の固有ベクトルとして与えられる。数11の固有ベクトルは一般に複数求めることができ、それらから1次からLG次までを選択したものが図2のブロック15における正のトピック差分因子ベクトル{αi}(i=1,..,LG)となる。また、求めるべきもうひとつの射影軸をβとし、評価基準をJ(β)=PT(β)/PD(β)とすると、J(β)を最大にするβは文書集合Tには存在しうるが文書集合Dには存在しにくい特徴を表すことになる。この場合には評価基準J(β)を最大にするβは、数11と同様に
【0028】
【数12】
なる一般固有値問題の固有ベクトルとして与えられる。数12から求められる複数の固有ベクトルの中から1次からLP次までを選択したものが図2のブロック15における負のトピック差分因子ベクトル{βi}(i=1,..,LP)となる。 また、数11の場合、固有ベクトルが求められるためには行列STは正則行列でなければならない。しかし、実際には訓練文書集合における文の数が用語数よりも小さい、特定の用語対が常に共起するような場合にはSTは正則行列として求められない。このような場合STを次式により正則化することにより固有ベクトルを求めることができる。
【0029】
【数13】
但し、σ2はパラメータ、I は単位行列である。数13を用いる場合には評価基準J(α)は
【0030】
【数14】
としたことに相当する。
なお、上記の実施例では、文書や文の長さは考慮に入っていない。そのため、入力文書の各クラスに対する類似度は文書の長さに依存しないように求められたにしても、長い文書ほど類似度の補正量が大きくなる、もしくは長い文ほど類似度の補正量に与える影響が大きくなるという問題も発生する。そのため、図2のブロック15において、数4の代わりに
【0031】
【数15】
を用いてもよい。前述のようにKは入力文書Xにおける文の数である。これにより、文書の長さの影響を軽減できる。これは、数5に対しても同様である。
あるいは、入力文書のk番目の文に現れる用語の数をNkとすると、数4の代わりに
【0032】
【数16】
を用いてもよい。これにより、文の長さのバラツキの影響を軽減できる。これは、数5に対しても同様である。
また、図3(b)における入力文書の文ベクトルxkを
【0033】
【数17】
のように正規化し、数4、数5、数15及び数16に用いてもよい。このときには、図6におけるdmk、tnkを同様に正規化して、正及び負のトピック差分因子ベクトルを求める必要がある。
【0034】
【発明の効果】
以上述べたように本発明によれば、各クラスの固有の情報を分類に用いることができるようになるので、分類の精度を著しく高めることができる。Reuters-21578(訓練文書数7770、カテゴリー数87、テスト文書数3019)を用いた実験では、本願発明の補正を行わない従来のkNN法のデータは、精度85.93%、再現率81.57%、F値83.69%であるが、数16による類似度の補正を行うことにより、精度90.03%、再現率84.40%、F値87.14%に高められた。
精度、再現率、F値の定義は前述の通りであり、また、Reuters21578ではひとつの文書は複数のクラスに属しうる。
【図面の簡単な説明】
【図1】 本願発明のブロック図を示す。
【図2】 本発明の実施例を示すフローチャートである。
【図3】 文書ベクトルを説明する図である。
【図4】 kNN法に従がった入力文書の類似度(図2の14)を求めるフローチャートである。
【図5】 類似度を補正する為に、着目クラスの文書集合と着目クラスに誤ったもしくは誤りそうになった文書集合を用いて、正及び負のトピック差分因子ベクトルを求める手順を示すフローチャートである。
【図6】 クラスlに属する文書の構成を示す図である。
【図7】 分類処理(図5、ブロック22)に関するフローチャートである。
【符号の説明】
110:文書入力部
120:データ処理部
130:分類エンジン
140:分類クラス情報部
150:分類クラス出力部
Claims (9)
- 文書入力部、データ処理部、分類エンジン、分類クラス情報部、及び分類クラス出力部を有し、与えられた入力文書を所定の文書クラスに分類する装置において、以下の(a)から(g)のステップを有する文書分類方法、
(a)前記入力文書に出現する用語から分類に用いる用語を選択するステップと
(b)前記入力文書を所定の単位の文書セグメントに区分けするステップと、
(c)前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルを生成し、全ての前記文書セグメントベクトルを加え合わせた文書ベクトルを生成するステップと、
(d)前記文書クラス毎に予め分類クラス情報部に保持されている情報を用いて入力文書と各クラスの類似度を求めるステップと、
(e)所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ難くかつ正しく分類された集合には現れ易い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている1つ以上の正のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度に加えるステップと、
(f)所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ易くかつ正しく分類された集合には現れ難い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている1つ以上の負のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度から差し引くステップと、
(g)前記値が補正された各クラスの類似度から入力文書が帰属するクラスを決定するステップ。 - 類似度の補正に用いる各クラスの正、負のトピック差分因子ベクトルは、
(a)所与の訓練文書集合に属する各訓練文書と各クラスとの類似度を求め、前記各訓練文書を各クラスに分類するステップと、
(b)前記訓練文書集合に対する分類結果から各クラスに対し、他のクラスに属するにもかかわらず各クラスに予め用意された閾値を越える対抗文書の集合を求めるステップと、
(c)各クラスの正のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分子とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分母とした値を最大とする射影軸として求めるステップと、
(d)各クラスの負のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分母とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分子とした値を最大とする射影軸として求めるステップと、
によって決定する請求項1に記載の文書分類方法。 - 前記文書セグメントベクトル及び前記文書ベクトルを、前記文書セグメントベクトル及び前記文書ベクトルのノルムで除することにより、正規化することを特徴とする、
前記請求項1及び2に記載の文書分類方法。 - 1つ以上の前記正もしくは前記負のトピック差分因子ベクトルの各々と各前記文書セグメントベクトルとの内積の重み付き2乗和を各前記文書セグメントに含まれる用語の数で除することにより正規化することを特徴とする、
請求項1に記載の文書分類方法。 - 前記請求項1において、1つ以上の前記正もしくは前記負のトピック差分因子ベクトルの各々と各前記文書セグメントベクトルとの内積の重み付き2乗和は入力文書に含まれる前記文書セグメントの数で除することにより正規化することを特徴とする文書分類方法。
- 文書入力部、データ処理部、分類エンジン、分類クラス情報部、及び分類クラス出力部を有し、以下の(a)から(g)の手段を有する、与えられた入力文書を所定の文書クラスに分類する装置、
(a)文書入力部に入力された前記入力文書に出現する用語から分類に用いる用語を選択する手段と、
(b)前記入力文書を適当な単位の文書セグメントに区分けする手段と、
(c)前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルを生成し、前記文書セグメントベクトルを加え合わせた文書ベクトルを生成する手段と、
(d)前記文書クラス毎に予め分類クラス情報部に保持されている情報を用いて入力文書と各クラスの類似度を求める手段と、
(e)所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ難くかつ正しく分類された集合には現れ易い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている1つ以上の正のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度に加える手段と、
(f)所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ易くかつ正しく分類された集合には現れ難い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている1つ以上の負のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度から差し引く手段と、
(g)前記値が補正された各クラスの類似度から入力文書が帰属するクラスを決定し出力する手段。 - 前記類似度の補正に用いる各クラスの正、負のトピック差分因子ベクトルを、
(a)所与の訓練文書集合に属する各訓練文書と各クラスとの類似度を求め、前記各訓練文書を各クラスに分類する手段と、
(b)前記訓練文書集合に対する分類結果から各クラスに対し、他のクラスに属するにもかかわらず各クラスに予め用意された閾値を越える対抗文書の集合を求める手段と、
(c)各クラスの正のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分子とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分母とした値を最大とする射影軸として求める手段と、
(d)各クラスの負のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分母とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分子とした値を最大とする射影軸として求める手段と、
によって決定する請求項6に記載の装置。 - コンピュータを、以下の(a)から(g)の手段として機能させるための、入力文書を所与の文書クラスに分類するプログラム、
(a)前記入力文書に出現する用語から分類に用いる用語を選択する手段と
(b)前記入力文書を所定の単位の文書セグメントに区分けする手段と、
(c)前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントベクトルを生成し、全ての前記文書セグメントベクトルを加え合わせた文書ベクトルを生成する手段と、
(d)前記文書クラス毎に予め分類クラス情報部に保持されている情報を用いて入力文書と各クラスの類似度を求める手段と、
(e)所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ難くかつ正しく分類された集合には現れ易い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている1つ以上の正のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度に加える手段と、
(f)所与の訓練文書を用いて分類を行い、所定のクラスに正しく分類された集合、及び、他のクラスに属するにも関わらず所定のクラスに誤って分類された集合に基づいて前記文書クラス毎に予め生成され、前記誤って分類された集合には現れ易くかつ正しく分類された集合には現れ難い情報を反映し、分類クラス情報部に前記文書クラス毎に保持されている1つ以上の負のトピック差分因子ベクトルの各々と、各前記文書セグメントベクトルとの内積の重み付き2乗和を前記各クラスの類似度から差し引く手段と、
(g)前記値が補正された各クラスの類似度から入力文書が帰属するクラスを決定する手段。 - コンピュータを、以下の(a)から(d)の手段として機能させるための、各クラスの正及び負のトピック差分因子ベクトルを求める請求項8に記載のプログラム、
(a)所与の訓練文書集合に属する各訓練文書と各クラスとの類似度を求め、前記各訓練文書を各クラスに分類する手段と、
(b)前記訓練文書集合に対する分類結果から各クラスに対し、他のクラスに属するにもかかわらず各クラスに予め用意された閾値を越える対抗文書の集合を求める手段と、
(c)各クラスの正のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分子とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分母とした値を最大とする射影軸として求める手段と、
(d)各クラスの負のトピック差分因子ベクトルを、そのクラスに属する全てのもしくは選択された文書の各文書セグメントベクトルを射影した時の2乗和を分母とし、そのクラスの各対抗文書の各文書セグメントベクトルを射影した時の2乗和を分子とした値を最大とする射影軸として求める手段。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002056238A JP3726263B2 (ja) | 2002-03-01 | 2002-03-01 | 文書分類方法及び装置 |
DE60329550T DE60329550D1 (de) | 2002-03-01 | 2003-02-26 | Dokumentklassifikationsverfahren und -anordnung |
EP03251175A EP1365329B1 (en) | 2002-03-01 | 2003-02-26 | Document classification method and apparatus |
US10/373,689 US7185008B2 (en) | 2002-03-01 | 2003-02-27 | Document classification method and apparatus |
CNB031068146A CN100397332C (zh) | 2002-03-01 | 2003-03-03 | 文档分类方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002056238A JP3726263B2 (ja) | 2002-03-01 | 2002-03-01 | 文書分類方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003256441A JP2003256441A (ja) | 2003-09-12 |
JP3726263B2 true JP3726263B2 (ja) | 2005-12-14 |
Family
ID=27800082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002056238A Expired - Fee Related JP3726263B2 (ja) | 2002-03-01 | 2002-03-01 | 文書分類方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7185008B2 (ja) |
EP (1) | EP1365329B1 (ja) |
JP (1) | JP3726263B2 (ja) |
CN (1) | CN100397332C (ja) |
DE (1) | DE60329550D1 (ja) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040083191A1 (en) * | 2002-10-25 | 2004-04-29 | Christopher Ronnewinkel | Intelligent classification system |
JP2005044330A (ja) * | 2003-07-24 | 2005-02-17 | Univ Of California San Diego | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
JP2005158010A (ja) * | 2003-10-31 | 2005-06-16 | Hewlett-Packard Development Co Lp | 分類評価装置・方法及びプログラム |
US20050228790A1 (en) * | 2004-04-12 | 2005-10-13 | Christopher Ronnewinkel | Coherent categorization scheme |
US7373358B2 (en) | 2004-04-12 | 2008-05-13 | Sap Aktiengesellschaft | User interface for maintaining categorization schemes |
US20050228774A1 (en) * | 2004-04-12 | 2005-10-13 | Christopher Ronnewinkel | Content analysis using categorization |
US20050229150A1 (en) * | 2004-04-12 | 2005-10-13 | Christopher Ronnewinkel | Design-time creation of run-time modules that use categorization |
JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
CA2574554A1 (en) * | 2004-07-21 | 2006-01-26 | Equivio Ltd. | A method for determining near duplicate data objects |
US7440944B2 (en) * | 2004-09-24 | 2008-10-21 | Overture Services, Inc. | Method and apparatus for efficient training of support vector machines |
US7523085B2 (en) * | 2004-09-30 | 2009-04-21 | Buzzmetrics, Ltd An Israel Corporation | Topical sentiments in electronically stored communications |
US7814105B2 (en) * | 2004-10-27 | 2010-10-12 | Harris Corporation | Method for domain identification of documents in a document database |
US7499591B2 (en) * | 2005-03-25 | 2009-03-03 | Hewlett-Packard Development Company, L.P. | Document classifiers and methods for document classification |
US9158855B2 (en) | 2005-06-16 | 2015-10-13 | Buzzmetrics, Ltd | Extracting structured data from weblogs |
US7725485B1 (en) | 2005-08-01 | 2010-05-25 | Google Inc. | Generating query suggestions using contextual information |
US7512580B2 (en) * | 2005-08-04 | 2009-03-31 | Sap Ag | Confidence indicators for automated suggestions |
US8176004B2 (en) | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
US7747495B2 (en) | 2005-10-24 | 2010-06-29 | Capsilon Corporation | Business method using the automated processing of paper and unstructured electronic documents |
US7974984B2 (en) * | 2006-04-19 | 2011-07-05 | Mobile Content Networks, Inc. | Method and system for managing single and multiple taxonomies |
US7954052B2 (en) * | 2006-07-07 | 2011-05-31 | International Business Machines Corporation | Method for processing a web page for display in a wiki environment |
US8196039B2 (en) * | 2006-07-07 | 2012-06-05 | International Business Machines Corporation | Relevant term extraction and classification for Wiki content |
US8560956B2 (en) | 2006-07-07 | 2013-10-15 | International Business Machines Corporation | Processing model of an application wiki |
US20080010387A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method for defining a Wiki page layout using a Wiki page |
US20080010345A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for data hub objects |
US20080010388A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for server wiring model |
US8775930B2 (en) * | 2006-07-07 | 2014-07-08 | International Business Machines Corporation | Generic frequency weighted visualization component |
US20080010338A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client and server interaction |
US8219900B2 (en) * | 2006-07-07 | 2012-07-10 | International Business Machines Corporation | Programmatically hiding and displaying Wiki page layout sections |
US20080010386A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client wiring model |
WO2008029150A1 (en) * | 2006-09-07 | 2008-03-13 | Xploite Plc | Categorisation of data using a model |
US8396878B2 (en) | 2006-09-22 | 2013-03-12 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files |
US9015172B2 (en) | 2006-09-22 | 2015-04-21 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search service system |
US7917492B2 (en) * | 2007-09-21 | 2011-03-29 | Limelight Networks, Inc. | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system |
US8966389B2 (en) * | 2006-09-22 | 2015-02-24 | Limelight Networks, Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
US8204891B2 (en) * | 2007-09-21 | 2012-06-19 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search-service system |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US7783640B2 (en) * | 2006-11-03 | 2010-08-24 | Oracle International Corp. | Document summarization |
US8027977B2 (en) * | 2007-06-20 | 2011-09-27 | Microsoft Corporation | Recommending content using discriminatively trained document similarity |
US20090063470A1 (en) | 2007-08-28 | 2009-03-05 | Nogacom Ltd. | Document management using business objects |
TW200928793A (en) * | 2007-12-26 | 2009-07-01 | Ruei-Jau Chen | Algorithm method capable of enhancing accuracy and computation speed of the computation of corrected sums of products (CSP) of computing hardware |
US8296301B2 (en) | 2008-01-30 | 2012-10-23 | Commvault Systems, Inc. | Systems and methods for probabilistic data classification |
JP5467643B2 (ja) * | 2010-04-28 | 2014-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書の類似度を判定する方法、装置及びプログラム。 |
US20120041955A1 (en) * | 2010-08-10 | 2012-02-16 | Nogacom Ltd. | Enhanced identification of document types |
US8452774B2 (en) * | 2011-03-10 | 2013-05-28 | GM Global Technology Operations LLC | Methodology to establish term co-relationship using sentence boundary detection |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
US9256862B2 (en) * | 2012-02-10 | 2016-02-09 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
US9152953B2 (en) * | 2012-02-10 | 2015-10-06 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
US8831361B2 (en) | 2012-03-09 | 2014-09-09 | Ancora Software Inc. | Method and system for commercial document image classification |
US10043264B2 (en) | 2012-04-19 | 2018-08-07 | Applied Materials Israel Ltd. | Integration of automatic and manual defect classification |
US9715723B2 (en) | 2012-04-19 | 2017-07-25 | Applied Materials Israel Ltd | Optimization of unknown defect rejection for automatic defect classification |
US9607233B2 (en) * | 2012-04-20 | 2017-03-28 | Applied Materials Israel Ltd. | Classifier readiness and maintenance in automatic defect classification |
US9348899B2 (en) | 2012-10-31 | 2016-05-24 | Open Text Corporation | Auto-classification system and method with dynamic user feedback |
CN103049263B (zh) * | 2012-12-12 | 2015-06-10 | 华中科技大学 | 一种基于相似性的文件分类方法 |
US10114368B2 (en) | 2013-07-22 | 2018-10-30 | Applied Materials Israel Ltd. | Closed-loop automatic defect inspection and classification |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
CN105335390A (zh) * | 2014-07-09 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 对象的分类方法、业务的推送方法及服务器 |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US20160162576A1 (en) * | 2014-12-05 | 2016-06-09 | Lightning Source Inc. | Automated content classification/filtering |
US9870420B2 (en) * | 2015-01-19 | 2018-01-16 | Google Llc | Classification and storage of documents |
CN106708485B (zh) * | 2015-11-13 | 2020-07-14 | 北大方正集团有限公司 | 电子字帖热度管理方法及系统 |
JP6635966B2 (ja) * | 2017-03-28 | 2020-01-29 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
JP6974751B2 (ja) * | 2017-03-28 | 2021-12-01 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
CN110019655A (zh) * | 2017-07-21 | 2019-07-16 | 北京国双科技有限公司 | 先例案件获取方法及装置 |
US11481389B2 (en) * | 2017-12-18 | 2022-10-25 | Fortia Financial Solutions | Generating an executable code based on a document |
KR102264232B1 (ko) * | 2018-05-31 | 2021-06-14 | 주식회사 마인즈랩 | 단어, 문장 특징값 및 단어 가중치 간의 상관관계를 학습한 인공 신경망에 의해 생성된 설명이 부가된 문서 분류 방법 |
CN109684121A (zh) * | 2018-12-20 | 2019-04-26 | 鸿秦(北京)科技有限公司 | 一种文件恢复方法及系统 |
JP7138981B1 (ja) | 2021-08-11 | 2022-09-20 | Croco株式会社 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2978044B2 (ja) * | 1993-10-18 | 1999-11-15 | シャープ株式会社 | 文書分類装置 |
US5671333A (en) * | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
JP3810469B2 (ja) * | 1996-03-06 | 2006-08-16 | ヒューレット・パッカード・カンパニー | パターン認識方法 |
GB9625284D0 (en) * | 1996-12-04 | 1997-01-22 | Canon Kk | A data processing method and apparatus for identifying a classification to which data belongs |
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
JPH1153394A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
JP2000194723A (ja) * | 1998-12-25 | 2000-07-14 | Just Syst Corp | 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
JP2001331514A (ja) * | 2000-05-19 | 2001-11-30 | Ricoh Co Ltd | 文書分類装置及び文書分類方法 |
JP3701197B2 (ja) * | 2000-12-28 | 2005-09-28 | 松下電器産業株式会社 | 分類への帰属度計算基準作成方法及び装置 |
-
2002
- 2002-03-01 JP JP2002056238A patent/JP3726263B2/ja not_active Expired - Fee Related
-
2003
- 2003-02-26 EP EP03251175A patent/EP1365329B1/en not_active Expired - Lifetime
- 2003-02-26 DE DE60329550T patent/DE60329550D1/de not_active Expired - Lifetime
- 2003-02-27 US US10/373,689 patent/US7185008B2/en not_active Expired - Fee Related
- 2003-03-03 CN CNB031068146A patent/CN100397332C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1365329B1 (en) | 2009-10-07 |
CN1458580A (zh) | 2003-11-26 |
CN100397332C (zh) | 2008-06-25 |
US20030167267A1 (en) | 2003-09-04 |
JP2003256441A (ja) | 2003-09-12 |
EP1365329A2 (en) | 2003-11-26 |
US7185008B2 (en) | 2007-02-27 |
EP1365329A3 (en) | 2006-11-22 |
DE60329550D1 (de) | 2009-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3726263B2 (ja) | 文書分類方法及び装置 | |
JP2978044B2 (ja) | 文書分類装置 | |
Fujino et al. | A hybrid generative/discriminative approach to semi-supervised classifier design | |
US8019699B2 (en) | Machine learning system | |
Silva et al. | The importance of stop word removal on recall values in text categorization | |
EP1528486A2 (en) | Classification evaluation system, method, and program | |
US7769759B1 (en) | Data classification based on point-of-view dependency | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
WO2007070370A2 (en) | Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN101138001A (zh) | 学习处理方法和学习处理装置以及程序 | |
JP4332129B2 (ja) | 文書分類プログラム、文書分類方法および文書分類装置 | |
CN108733652B (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
CN111522953B (zh) | 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
JP2005182696A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
Wakaki et al. | Rough set-aided feature selection for automatic web-page classification | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN111563361A (zh) | 文本标签的提取方法及装置、存储介质 | |
CN107679112B (zh) | 一种面向设计知识推送的加权特征知识适用概率匹配方法 | |
JP3889663B2 (ja) | 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050916 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |