[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP3701197B2 - 分類への帰属度計算基準作成方法及び装置 - Google Patents

分類への帰属度計算基準作成方法及び装置 Download PDF

Info

Publication number
JP3701197B2
JP3701197B2 JP2000401947A JP2000401947A JP3701197B2 JP 3701197 B2 JP3701197 B2 JP 3701197B2 JP 2000401947 A JP2000401947 A JP 2000401947A JP 2000401947 A JP2000401947 A JP 2000401947A JP 3701197 B2 JP3701197 B2 JP 3701197B2
Authority
JP
Japan
Prior art keywords
attribution
calculation
degree
document
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000401947A
Other languages
English (en)
Other versions
JP2002202983A (ja
Inventor
貴雄 福重
祐司 菅野
泰樹 飯塚
公一 玉利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000401947A priority Critical patent/JP3701197B2/ja
Priority to US10/028,816 priority patent/US6704905B2/en
Priority to CNB011454083A priority patent/CN1193310C/zh
Publication of JP2002202983A publication Critical patent/JP2002202983A/ja
Application granted granted Critical
Publication of JP3701197B2 publication Critical patent/JP3701197B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書を分類への帰属度に応じて分類する際の帰属度計算基準を作成する方法と、その装置に関し、特に、帰属度計算基準の効率的な作成を可能にするものである。
【従来の技術】
従来、新聞記事などの文書を分類する場合に、特開平11−53394号公報や特開2000−194723号公報に見られるように、ベクトル空間法を用いて文書を分類する方法が知られている。
【0002】
ベクトル空間法では、例えば、辞書のt個の索引語の各々TiにベクトルViを対応させてt次元のベクトル空間を定義し、各文書Drを、索引語の出現頻度に基づいて、次のように文書ベクトルで表現する。
【0003】
Dr=Σ ar i・Vi (Σはi=1からtまで加算)
ここで、係数ar iは、文書ベクトルの長さを1に正規化した状態での、文書Drにおける索引語Tiの頻度を表す値である。
図4では、文書番号11934の文書を、文書ベクトルの各軸の値で表示した場合を示している。
【0004】
ベクトル空間法を用いる文書分類方法では、この文書ベクトルと、分類の基準となる基準ベクトルとの内積を求めたり、双方のベクトルの距離を算出することにより、文書ベクトルと基準ベクトルとの類似度を計算し、この類似度の大きさから、文書がその分類に帰属するかどうかを判定する。
【0005】
なお、文書ベクトルを並べて作った文書・単語行列を、特異値分解により低階数近似し、ベクトルの次元を小さくしても良い。この場合、文書ベクトルの各要素は、単語そのものの頻度ではなく、重みつきの単語の集合に対する、当該文書の関連性の強さとなるが、分類において距離を求めたり、内積を求めたりする操作は、同様に行うことができる。
【0006】
この場合、分類の基準ベクトルの決め方や、分類に含める類似度の大きさ(閾値)の決め方により、文書がその分類に帰属するかどうかが変わってくる。この分類の基準ベクトルや類似度の閾値を帰属度計算基準と呼ぶ。この帰属度計算基準が的確に設定されていなければ、各文書を正しく分類することはできない。
【0007】
【発明が解決しようとする課題】
従来、この帰属度計算基準を作成する方法としては、まず、予め設定した帰属度計算基準で文書を分類し、その結果を見て帰属度計算基準を手直しし、この試行錯誤を、満足できる分類に行き着くまで繰り返すと云う方法が専ら採られている。帰属度計算基準を手直しする方法としては、ユーザが直接手直しする方法と、システムの分類結果をユーザが修正し、機械学習によってシステムが帰属度計算基準を再計算する方法とがあった。
【0008】
しかし、ユーザが直接手直しする方法の場合、数多くある設定値のうち、どれをどのように直せばよいか、ユーザに明らかでなく、また、システムの分類結果をユーザが修正する場合でも、数多くある分類結果のうち、どれを選んで正誤を判定すれば良いのか、ユーザに明らかでなかった。そのため、帰属度計算基準の修正は手間が掛かり、また、必ずしも常によい結果に辿りつくとは限らない作業であった。
【0009】
本発明は、こうした従来の問題点を解決するものであり、ユーザによる試行錯誤を減らし、効率的に帰属度計算基準作成できるように、ユーザの帰属度計算基準の作成を支援する装置を提供し、さらに、この帰属度計算基準を用いて文書を分類する装置を提供することを目的としている。
【0010】
【課題を解決するための手段】
そこで、本発明では、一つ以上の文書からなる文書集合中の各文書に対して、一つ以上の分類からなる分類集合中の各分類への帰属度を計算するための帰属度計算基準を作成する帰属度計算基準作成装置において、帰属度計算基準作成に用いる文書集合を保持する文書集合保持手段と、初期状態では帰属度計算基準の初期値を保持し、帰属度計算基準が更新されるごとに、更新された帰属度計算基準を保持する帰属度計算基準保持手段と、前記文書集合保持手段に保持された各文書に対して、前記帰属度計算基準保持手段に保持された帰属度計算基準を適用して、各分類に対する帰属度を計算する帰属度計算手段と、前記帰属度計算手段により計算された各文書の各分類に対する帰属度計算結果を保持する帰属度計算結果保持手段と、前記帰属度計算結果保持手段に保持された各文書の帰属度計算結果から評価の対象とする文書の帰属度計算結果を選択するための評価対象選択基準を保持する評価対象選択基準保持手段と、前記評価対象選択基準保持手段に保持された複数の評価対象選択基準の中から評価対象選択基準を指定する評価対象選択基準指定手段と、前記帰属度計算結果保持手段に保持された各文書の帰属度計算結果の中から、前記評価対象選択基準指定手段により指定された評価対象選択基準を満たす文書の帰属度計算結果を評価対象として選択する評価対象選択手段と、前記評価対象選択手段により選択された文書の帰属度計算結果を表示する帰属度計算結果表示手段と、前記帰属度計算結果表示手段に表示された前記文書の帰属度計算結果に対する評価結果が前記帰属度計算結果表示手段のGUIを通じて指定されると、前記評価結果に従い、評価対象の文書に対して当該分類に対する帰属度を付与し直す計算結果評価手段と、前記計算結果評価手段が付与し直した評価対象文書の帰属度評価結果として保持する評価結果保持手段と、少なくとも前記評価結果保持手段に保持された評価対象文書の評価結果を利用して帰属度計算基準を再計算する帰属度計算基準再計算手段と、前記帰属度計算基準再計算手段により再計算された帰属度計算基準再計算結果を保持する帰属度計算基準再計算結果保持手段と、前記帰属度計算基準再計算結果保持手段に保持された帰属度計算基準によって前記帰属度計算基準保持手段に保持された帰属度計算基準を更新する帰属度計算基準更新手段とを設けている
【0011】
そのため、この装置では、帰属度計算結果に対する評価によって帰属度計算基準を更新することを繰り返すことにより、高精度の帰属度計算基準を効率的に作成することができる。
【0012】
【発明の実施の形態】
(第1の実施形態)
第1の実施形態の帰属度計算基準作成装置は、GUI(graphical user interface)を利用して、帰属度計算結果を評価するユーザの動作を支援する。
【0013】
この装置は、図1に示すように、帰属度計算基準の作成に用いる文書集合を保持する文書集合保持部1と、帰属度計算基準の初期値を作成する帰属度計算基準初期値作成部15と、帰属度計算基準の初期値や更新された帰属度計算基準を保持する帰属度計算基準保持部13と、帰属度計算基準作成対象の分類を指定する対象分類指定部2と、文書集合保持部1に保持された各文書に対して、帰属度計算基準保持部13に保持された帰属度計算基準を適用して、指定された分類に対する帰属度を計算する帰属度計算部3と、帰属度計算部3の帰属度計算結果と文書ベクトルや各文書に関する諸データとを合わせて保持する帰属度計算結果保持部4と、帰属度計算結果を評価するための計算結果を選択する基準(評価対象選択基準)が保持された評価対象選択基準保持部12と、ユーザが評価対象選択基準を指定する評価対象選択基準指定部11と、ユーザが評価対象選択基準指定部11から指定した評価対象選択基準に対応する帰属度計算結果を表示する帰属度計算結果表示部10と、指定された評価対象選択基準に基づいて帰属度計算結果保持部4に保持された帰属度計算結果の中から評価対象となる帰属度計算結果を選択する評価対象選択部5と、評価対象選択部5により選択された帰属度計算結果をユーザが評価し、評価対象の文書に対して帰属度を付与し直す計算結果評価部6と、計算結果評価部6による評価結果を保持する評価結果保持部7と、評価結果保持部7に保持された帰属度計算結果の評価結果を利用して帰属度計算基準を再計算する帰属度計算基準再計算部8と、帰属度計算基準再計算部8が再計算した帰属度計算基準再計算結果を保持する帰属度計算基準再計算結果保持部9と、帰属度計算基準再計算結果保持部9によって保持された帰属度計算基準で帰属度計算基準保持部13に保持された帰属度計算基準を置きかえる帰属度計算基準更新部14とを備えている。
【0014】
この装置は、図2のフロー図に示すように、まず、帰属度計算基準の初期値を適用して、文書集合保持部1に保持された文書に対し、分類への帰属度を計算する。ユーザは、その中の一部の文書を対象に、帰属度を評価して帰属度を付け直す。このとき、装置は、各種の情報を提供して、ユーザが帰属度計算基準の更新に資する文書を選択できるように支援する。
【0015】
ユーザが評価対象の文書の帰属度を付与すると、装置は、その評価結果に基づいて帰属度計算基準を更新する。また、帰属度計算基準が更新されると、それを用いて、各文書に対する分類への帰属度が計算され、さらに、評価、帰属度計算基準の更新、の手順が、満足できる評価が得られるまで繰り返される。
【0016】
この装置の動作について、図2のフロー図に従って詳しく説明する。
文書集合保持部1には、図4に示すように、帰属度計算基準の作成に供する各文書の文書ベクトルが格納されている。各文書ベクトルの長さは1に規格化されている。図4は「根室本線と三陸鉄道で列車が脱線」と云う見出しの記事の文書ベクトルを示している。
【0017】
ステップ1:ユーザは、対象分類指定部2から、帰属度計算基準を作成しようとする分類名を入力する。ここでは「列車の脱線」と云う分類名を入力したものとする。
ステップ2:帰属度計算基準初期値作成部15から、分類「列車の脱線」の帰属度計算基準の初期値となる基準ベクトルと帰属度の閾値とが与えられる。分類の基準ベクトルは、この分類に帰属する各文書の平均ベクトルにより設定する。平均ベクトルは、対象の文書ベクトルの単純平均を取り、ベクトルの長さが1となるように正規化して算出する。図5に、分類「列車の脱線」の平均ベクトルを例示している。
【0018】
但し、初期値における平均ベクトルは、正確なものである必要は無く(今後の評価、帰属度計算基準の更新の繰り返しで精度が向上するため)、ユーザがこの分類に帰属すると推定した1つの文書の文書ベクトルや、複数の文書の平均ベクトル、あるいは、対象文書すべてについての平均ベクトルなどを用いることができる。
【0019】
帰属度の閾値は、帰属度のランク別に与える。ここでは、図6に示すように、帰属度を1(帰属する)と0(帰属しない)の二ランクに分けるものとし、平均ベクトルと各文書ベクトルとの距離を小さい順に並べたとき、40%のラインを閾値として、0〜40%の範囲に入る文書を帰属度1に、40〜100%の範囲に入る文書を帰属度0に振り分けるものとする。
【0020】
なお、帰属度のランクは、10段階や100段階など、多段階に設定しても良い。また、閾値の決め方は、ユーザが任意に指定することができ、平均ベクトルと各文書ベクトルとの距離の絶対順位や、距離の値そのもの、あるいは距離の偏差値などを用いて指定しても良い。また、距離の代わりに、平均ベクトルと各文書ベクトルとの内積など、ベクトル空間法でよく用いられる量を使用することもできる。
【0021】
また、閾値として、文書集合保持部1に保持された文書全体中の当該分類に属する文書(「正解」)の割合(の関数)を用いても良い。この場合、最初の段階では、正解の数は分からないので、ユーザが適当に推定し(そのためのサンプル提示を行っても良い)、評価の進行に従って、正解の割合を更新し、それに伴って、帰属度計算基準の再計算時に、閾値を更新するようにしてもよい。
【0022】
帰属度計算基準初期値作成部15で作成された帰属度計算基準の初期値は帰属度計算基準保持部13に格納される。
【0023】
ステップ3:帰属度計算部3は、帰属度計算基準保持部13に格納された帰属度計算基準を用いて、文書集合保持部1に保持された各文書の帰属度を計算する。
帰属度の計算は(式1)によって行われる。
score(doc,cat)=scorecat(d(doc,cat)) (式1)
ここで、score(doc,cat):文書docの分類catへの帰属度
scorecat(d):分類catにおける距離dの文書の帰属度
d(doc,cat):文書docと分類catとの距離
d(doc,cat)は、(式2)から求める。
d(doc,cat)=√(Σ(doci−m(cat)i2) (式2)
(Σはi=1からdimまで加算)
ここで、dim:文書ベクトルの次元(=平均ベクトルの次元)
doci:文書docのベクトル第i軸の値
m(cat)i:分類catの平均ベクトルの第i軸の値
例えば、文書11934(図4)の分類「列車の脱線」(図5)の距離は、
Figure 0003701197
となる。
【0024】
図3は、帰属度計算の処理手順を示している。
ステップ10:各文書のベクトルの、平均ベクトルとの距離を求める。
ステップ11:距離の小さい順に並べた文書番号リストを作る。
ステップ12:閾値(40%)を基に、帰属度1とすべき文書数d(1)を求める。
ステップ13:距離の小さい順に、d(1)番目までの文書を帰属度1とする。
ステップ14:最後の文書と同じ距離の文書があれば、それらについても帰属度1とする。
ステップ15:残りの文書は、帰属度0とする。
【0025】
ここでは、ステップ12のd(1)番目の文書における平均ベクトルとの距離が0.81であったとする。文書11934の分類「列車の脱線」への帰属度は、文書11934と分類「列車の脱線」の平均ベクトルとの距離0.90が0.81より大きいため、
score(11934,列車の脱線)=0
となる。
【0026】
帰属度計算部3による帰属度計算の結果は、帰属度計算結果保持部4で保持される。また、帰属度計算結果保持部4には、文書ベクトルや各文書に関する諸データも合わせて保持される。
【0027】
ステップ4:ユーザは、計算結果を評価するために、評価対象とする文書を選択するための評価対象選択基準を評価対象選択基準指定部11から指定する。
【0028】
図7は、帰属度計算結果表示部10のGUIにより表示される評価対象選択基準指定画面を示している。評価対象選択基準指定部11からの評価対象選択基準の指定は、この画面上で、評価対象選択基準を指定する操作によって行われる。
【0029】
この評価対象選択基準指定画面の「分類名」には、対象の分類名を入力する。「評価対象数」には、入力された分類への帰属度を計算した文書数が帰属度計算結果保持部4から取得されて表示される。
【0030】
「選び方」は、評価対象とする文書の選び方を指定し、「距離が近い順」を指定した場合は、距離が近い順に連続して、指定した個数の文書が評価対象として選択され、「距離が遠い順」を指定した場合は、距離が遠い順に連続して、指定した個数の文書が評価対象として選択される。また、他の条件(例えば、軸に関する条件)と組み合わせた場合は、他の条件を満たすものの中から、距離が近い順、あるいは遠い順に、指定した個数の文書が評価対象として選択される。また、「選び方」は、「範囲指定」で選ぶことも可能であり、評価対象の「選び方」としては、「距離が近い順」「距離が遠い順」「範囲指定」のうちのどれかを選択する。なお、「距離が近い順」または「距離が遠い順」を選択したときは、帰属度計算結果保持部4に保持された計算結果が表示される場合に、選択した順で表示される。
【0031】
範囲指定の「グラフ表示」は、グラフを利用した評価対象選択画面を表示するときに選択する。
「距離指定」は、評価対象選択基準として、距離の範囲を指定し、その範囲に含まれる文書の計算結果を表示するときに選択する。この距離の範囲はグラフ上で指定することができ、グラフ上で指定した距離の範囲に対応する区間の数値が連動して表示される。
【0032】
「軸指定」は、評価対象選択基準として、ベクトル軸と、その軸上の値の範囲とを指定し、その範囲に含まれる文書の計算結果を表示するときに選択する。この値の範囲はグラフ上で指定することができ、グラフ上で指定した値の範囲に対応する区間の数値が連動して表示される。
【0033】
「確信度指定」は、評価対象選択基準として、後述するように、文書が分類に属すかどうかを確率的手法で求めたときの確率(確信度)の範囲を指定し、その範囲に含まれる文書の計算結果を表示するときに選択する。この確信度の範囲はグラフ上で指定することができ、グラフ上で指定した確信度の範囲に対応する区間の数値が連動して表示される。
【0034】
「値指定」は、グラフ上のスケールを数値で表示する場合に選択し、「偏差値指定」は、グラフ上のスケールを偏差値で表示する場合に選択する。
「分布関数指定」は、評価対象選択基準として、評価対象の文書数を分布関数に従って指定する場合に選択する。このとき、「選択」ボタンを押すと、適用する分布関数の選択画面が表示される。
【0035】
「評価済みの文書」は、帰属度計算基準の更新と帰属度計算結果の評価とを繰り返す場合に、その評価対象に評価済みの文書を「含める」か「含めない」か「評価済みのみ」とするかを指定する。「評価対象取得」は、この画面で指定した評価対象選択基準に従って評価対象を取得する場合に押す。また、「オプション設定」は、複数の評価対象選択基準を組み合わせて評価対象を限定するような場合に選択する。
【0036】
こうした様々な評価対象選択基準は、評価対象選択基準保持部12に保持されており、この評価対象選択基準保持部12の情報を反映して、帰属度計算結果表示部10がGUIにより図7の評価対象選択基準指定画面を生成する。評価対象選択基準としては、さらに、「分類××に関して、帰属度が一定範囲にある文書を選択する」とか、「分類××に関して、帰属度が上位○位である文書を選択する」とか、「分類××に関して、帰属度順に○文書おきの文書を選択する」などの基準を設けることも可能である。
【0037】
ステップ5:図7の画面上で、評価対象選択基準を指定した後、「評価対象取得」ボタンを押し、評価対象を選択する評価対象選択画面を表示する。
図8は、図7の評価対象選択基準指定画面で、「距離が近い順」「グラフ表示」及び「値指定」を指定して、「距離指定」を選択したときの評価対象選択画面を示している。
【0038】
この画面には、X軸に距離の値、Y軸に文書数を表すグラフが表示され、X軸に沿って、範囲の最小値及び最大値を示す矢印が表示される。この矢印はマウスをドラッグして移動することができ、この矢印のX軸上の位置を示す距離の値が対象区間として表示され、この区間に含まれる文書数が区間内文書数として表示される。なお、評価対象選択基準指定画面で「偏差値指定」を選択した場合には、X軸上の数値が偏差値となる。
【0039】
また、画面上には、指定した分類での帰属度ごとの文書数が表示される。また、「文書表示」ボタンが表示され、このボタンを押すと、選択している範囲の文書が一覧表示される。
【0040】
また、図9は、図7の評価対象選択基準指定画面で「グラフ表示」及び「値指定」を指定して、第18軸の「軸指定」を選択したときの評価対象選択画面を示している。グラフ表示のX軸は第18軸の値であり、グラフとして、全体の文書の分布と帰属度1の文書の分布とが表示されている。それぞれのグラフは色を変えて表示しても良い。
【0041】
また、図10は、図7の評価対象選択基準指定画面上で「分布関数指定」を指定して選択ボタンを押したときの分布関数選択画面を示している。この分布関数選択画面の「一様選択」「左優先」「右優先」「両端重視」及び「中央重視」の各分布関数は評価対象選択基準保持部12に保持されている。また、「自由指定」の分布関数は、ユーザがGUIにより分布関数の型を編集することができる。
【0042】
図7の評価対象選択基準指定画面で「グラフ表示」、「値指定」及び「分布関数指定」を指定して「距離指定」を選択し、また、分布関数選択画面上で「左優先」の分布関数を選択したとすると、図8の矢印で指定した指定区間から取得する文書数は、グラフで表示するその区間の文書数そのものでは無く、前記文書数に左優先の分布関数を乗じて算出される。
【0043】
図11は、この関係を説明している。図11(a)は、指定区間の文書数を示し、図11(b)は、選択された左優先の分布関数を示している。指定区間内の相対位置xの文書からの取得数は、次の(式3)により設定される。
Figure 0003701197
図12には、左優先の分布関数を使って、指定区間の文書数から文書取得数を算出した実例を示している。
【0044】
なお、ここでは、分布関数の値を対応する位置の文書数に乗じて、取得文書数を決定したが、対応する位置の文書数に依らず、分布関数の形のみによって、取得文書数を決定するようにしても良い。
【0045】
また、評価対象とした文書の分布が、指定した形になるように、新たな対象を選ぶようにしてもよい。例えば、これまで選んだ対象が、現在の基準で上位に偏っているような場合、分布関数として一様(フラットな)関数を指定し、今回評価の対象となる文書を加えた結果が、現在の基準で偏りのない(一様)分布になるように(即ち、今回の評価対象の選択では、下位の文書を多く選ぶように)してもよい。
【0046】
また、評価対象選択画面には、図13に示すように、評価が既に行われた文書と評価が行われていない文書とを区別して表示しても良い。図13では、帰属度1と帰属度0とに区分し、帰属度1が付与されている文書の中で、評価の結果として帰属度1が付与された文書を判定1とし、帰属度0が付与されている文書の中で、評価の結果として帰属度0が付与された文書を判定0とし、これまで評価対象となっていない文書を未判定とし、また、評価入力画面や文書一覧で選択中の文書を判定中として、各文書数を表示している。
【0047】
評価対象選択画面の「文書表示」を押すと、図14に示すように、評価対象選択画面で選択された文書の文書番号、距離及び見出しが一覧表示される。図14(a)は、左優先分布関数を選択し、且つ、文書取得総数を10文書としたときの一覧表示画面を示し、図14(b)は、分布関数指定を行わずに上位から10文書を選択した場合の一覧表示画面を示している。左優先の分布関数指定を行う場合(図14(a))には、距離の大きい正解も含まれるが、分布関数指定を行わない場合には、距離の小さい正解だけが選択される。
【0048】
ステップ6:ユーザは、一覧表示された文書を個々に参照し、帰属度の適否を評価する。図15は、評価入力画面を示している。見出しをクリックすると、図16に示すように、本文が別ウィンドウに表示される。ユーザは、この文書が分類「列車の脱線」に属すと評価した場合は評価入力画面(図12)の評価欄に1を入れ、属さないと評価した場合は0を入れる。なお、既に評価が付けられている場合には、その評価が評価欄に表示される。
【0049】
この評価入力画面の「OK」を押すと、評価が入力されているもののみ、評価結果保持部7に保持される。
【0050】
なお、帰属度計算結果表示部10は、単に計算結果の文書を表示するブラウザとして利用することも可能であり、この場合、評価入力画面から見出しをクリックして本文を表示させる。また、評価欄には評価を入れずに「OK」を押す。
【0051】
評価結果保持部7には、図17に示すように、評価結果が蓄積される。同じ文書の同じ分類に対する評価結果は上書きされる。評価入力画面(図15)で評価結果が空欄のままのデータは蓄積されない。なお、評価が明示的に与えられなかった文書については、現在の帰属度計算結果の値をそのまま評価としても良い。その場合、文書表示時に、あらかじめ評価欄に帰属度計算結果を表示しておくのが良い。
【0052】
ステップ7:また、ユーザは、計算結果に全て満足したときは、帰属度計算基準の作成処理を終了する。
ステップ8:ユーザが評価を行い、その評価結果が入力された場合には、帰属度計算基準再計算部8は、評価結果保持部7に保持された文書の文書ベクトルを用いて分類の平均ベクトルを再計算する。分類Cの平均ベクトルの第i成分をμCiとすると、(式4)により算出する。
μCi=mCi/√(ΣmCj 2) (式4)
(Σはjについて加算)
ここで、mCiは、分類Cに属すという評価結果が評価結果保持部7に保持されている文書の文書ベクトルにおける第i成分の平均である。なお、この場合、帰属度に応じて重み付きで平均を取っても良い。
【0053】
分類「列車の脱線」の平均ベクトルが再計算の前後で図18のように変化したとする。
帰属度計算基準再計算部8は、再計算した帰属度計算基準を帰属度計算基準再計算結果保持部9に格納し、帰属度計算基準更新部14は、帰属度計算基準保持部13に保持された帰属度計算基準を、帰属度計算基準再計算結果保持部9に格納された帰属度計算基準で更新する。
次いで、ステップ3以降の手順を繰り返す。
【0054】
帰属度計算部3は、更新された帰属度計算基準を用いて、図3の手順で各文書の帰属度を再計算する。このとき、閾値(40%)に対応する新たな平均ベクトルとの距離が0.85になったとする。文書11934(図4)の分類「列車の脱線」の距離は、
Figure 0003701197
となり、0.80<0.85であるため、
score(11934,列車の脱線)=1
となる。
【0055】
このように、この装置では、GUIを利用して、帰属度計算結果表示部10が提示する画面上で様々な評価対象基準を指定し、種々の観点から帰属度計算結果を見直すことができる。そのため、帰属度計算基準を効率的、且つ、正確に更新することが可能である。
【0056】
なお、以上の説明では、分類の平均ベクトルの値を一意に決まるものとしてきたが、平均ベクトル自体、ある中心の周りの一定の範囲に確率的に分布するとしてもよい。この場合、各文書から分類の平均までの距離も、確率的に分布することになり、各文書が各分類に属すかどうかも確率的な値となる。この確率を確信度として表す。
【0057】
一般に、一つの分類について考えた場合でも、文書によって、分類の平均との距離の分布形状は異なり得る。また、平均の分布の中心との距離(これまで平均との距離としてきた値)が等しい文書間においても、分布の形状は異なり得る。
図19(a)(b)は、平均ベクトルμの中心μ^との距離d^が等しい文書A、Bにおいて、平均ベクトルとの距離の分布が異なる場合を示している。図19(b)では、分かり易くするため、二次元の座標で、文書Aの座標位置をxa、文書Bの座標位置をxbで表し、平均ベクトルμの分布を斜線を引いた楕円で表している。このように平均ベクトルの分布がX1軸方向に細長い楕円状に一様に分布している場合、xa、xbは、共に楕円の中心μ^から等距離にあるが、X2軸方向に離れたxaから楕円内の各点への距離は、比較的狭い範囲に収まるのに対して、X1軸方向に離れたxbから楕円内の各点への距離は、広い範囲に分布する。文書A、Bにおける平均ベクトルとの距離の分布は図19(a)のようになる。
【0058】
いま、分類Cに属すための閾値となる距離が、距離d0の位置に来たとする。文書A、Bそれぞれの分類Cの平均ベクトルへの距離がd0以下になる確率は、図19(a)の各面積から、図19(c)のようになるので、分類Cに属す確信度は、図19(d)に示すように、文書Aでは0.8、文書Bでは0.67となる。この場合、d^はd0より小さいので、帰属度では共に1と表される。
【0059】
このように、確信度を用いることにより、各文書の分類に対する状態を高精度に表すことができる。この確信度に基づいて評価対象を選択する場合は、評価対象選択基準指定画面から「確信度指定」を選択する。また、帰属度計算基準再計算部8は、(式4)により分類の平均ベクトルを再計算したとき、(式4)で求めた値の周囲に平均ベクトルが確率的に分布しているものとして平均ベクトルを設定する。
【0060】
また、帰属度計算基準の一部として、分類間の帰属度に関する制約を規定することができる。例えば、分類「列車の脱線」への帰属度が1なら、分類「話や行為の脱線」に対する帰属度を0にする、と云うような制約である。このような分類間の帰属度に関する制約は、式に記述(前述の例では(「話や行為の脱線」に対する帰属度=0 if 「列車の脱線」==1)と云う式に記述)し、分類間制約関係エディタを使って、帰属度計算基準保持部13や計算結果評価部6に入力され、保持される。この場合、計算結果評価部6は、ユーザがある文書に関して、分類「列車の脱線」に対する帰属度を1と評価したとき、前記制約に基づいて、その文書の分類「話や行為の脱線」に対する評価結果を自動的に0と決定する。
【0061】
図20には、このように分類に対する評価が他の分類に対する評価と連動する場合の例を示している。
【0062】
計算結果評価部6は、ある文書のある分類に対する評価が入力されたとき、保持する制約を参照し、当該文書の関連する分類に対する評価を計算し、それを以って同等の評価が入力されたものと見なす。なお、このとき、計算結果評価部6は、ユーザに確認を求めたり、メッセージを出すようにしても良い。また、既入力の評価と矛盾が生じる場合をチェックし、このときだけユーザに確認を求めるようにしても良い。
【0063】
こうした制約としては、評価が相補的な場合のほか、評価が継承される場合などがある。
こうした制約を帰属度計算基準の一部として設定することにより、ユーザの評価回数を減らすことができる。
【0064】
(第2の実施形態)
第2の実施形態の帰属度計算基準作成装置は、図21に示すように、文書間の類似度を計算する文書類似度計算部16を備えている。その他の構成は第1の実施形態(図1)と変わりがない。
【0065】
この装置では、評価対象選択基準指定部11が、類似度計算の核となる元文書の文書番号を文書類似度計算部16に渡す。文書類似度計算部16は、文書集合保持部1から各文書の文書ベクトルを取得して、元文書とその他の文書との類似度、即ち、文書ベクトル間の距離を算出する。次いで、文書類似度計算部16は、帰属度計算結果保持部4に保持された各文書の帰属度を参照し、元文書と異なる帰属度が付された文書については、元文書との類似度が高い(距離が近い)順に並べ、また、元文書と同一の帰属度が付された文書については、元文書との類似度が低い(距離が遠い)順に並べて評価対象選択部5に渡す。評価対象選択部5は、文書類似度計算部16から渡された文書類似度計算結果に含まれる文書数を所定数に絞って評価対象とする。
【0066】
図22は、文書類似度計算結果を基に選択された評価対象を例示している。ここでは、元文書(文書番号85590)の帰属度の評価が1であるため、元文書との類似度が高くて、帰属度0と判定されている文書が類似度の高い順に表示され、また、元文書との類似度が低くて、帰属度1と判定されている文書が類似度の低い順に表示されている。
【0067】
ユーザは、この評価対象の帰属度を見直す。この場合、元文書と類似しているのに帰属度が異なるものや、元文書と類似していないのに帰属度が一致するものは、帰属度の判定が間違っている可能性が高い。従って、この評価対象を見直すことにより、効率的に帰属度計算基準を改善することができる。
【0068】
また、ユーザは、評価対象選択画面で、分類に属する文書の中から帰属度の境界に最も近い文書を元文書として選択し、あるいは、分類に属しない文書の中から帰属度の境界に最も近い文書を元文書として選択し、その文書番号を評価対象選択基準指定部11より文書類似度計算部16に渡すようにしても良い。こうした手順を踏むことによって帰属度計算基準の改善を一層効率化することができる。
【0069】
(第3の実施形態)
第3の実施形態の帰属度計算基準作成装置は、図23に示すように、前回の帰属度計算結果と今回の帰属度計算結果とを比較する帰属度計算結果比較部17を備えている。その他の構成は第1の実施形態(図1)と変わりがない。
【0070】
この装置の帰属度計算結果比較部17は、帰属度計算結果保持部4に格納された帰属度計算結果を保持し、帰属度計算基準が更新され、帰属度計算結果保持部4に新たな帰属度計算結果が格納されると、帰属度計算結果保持部4から新たな帰属度計算結果を読み出し、帰属度計算基準の更新前後における帰属度計算結果を比較して評価対象選択部5に提示する。
【0071】
図24は、帰属度計算結果比較部17の比較結果に基づいて、帰属度計算結果表示部10に表示される画面例を示している。グラフには、更新前の帰属度1の文書、及び更新前の帰属度0の文書が、更新後の距離においてどのように分布しているかが表示されている。グラフ上、更新前の帰属度1の文書であって更新後の帰属度の境界より右にある文書は、更新により帰属度が1から0に変わった文書であり、逆に、更新前の帰属度0の文書であって更新後の帰属度の境界より左にある文書は、更新により帰属度が0から1に変わった文書である。このように、帰属度計算基準の更新で帰属度が変化した文書や、変化しなかった文書を、グラフやチェックボタンを選択して画面上に表示させることができる。
【0072】
また、図25は、帰属度計算結果比較部17の比較結果に基づいて、帰属度計算結果表示部10に表示される他の画面例を示している。グラフには、帰属度計算基準の更新前と更新後とに分けて、文書集合全体、評価1の文書及び評価2の文書の文書数の分布が表示されている。このグラフから、評価対象の選択範囲や評価終了の時期などを判断することができる。
【0073】
(第4の実施形態)
第4の実施形態の帰属度計算基準作成装置は、図26に示すように、文書集合からキーワードを抽出するキーワード生成部19と、文書集合保持部1に保持された文書を指定された条件で検索する文書検索部18とを備えている。その他の構成は第1の実施形態(図1)と変わりがない。
【0074】
図27は、この装置の評価対象選択基準指定画面を示している。この画面は、第1の実施形態の同一画面(図7)と比べて、検索条件の入力画面と、キーワードの提示領域とを備えている点が相違している。
【0075】
ユーザが、評価対象選択基準指定画面上で、「距離指定」や「軸指定」により範囲指定を行い、また、評価済みの文書を「含める」「含めない」または「評価済みのみ」を指定して、キーワードの提示領域をクリックすると、キーワード生成部19は、指定に従って、範囲指定された評価済みの文書、または帰属度計算が行われた文書から、特徴的なキーワードを抽出する。抽出されたキーワードは、評価対象選択基準指定画面のキーワードの提示領域に表示される。
【0076】
ユーザが、表示されたキーワードを検索条件に指定して、検索を指示すると、文書検索部18は、この検索条件で文書集合保持部1に保持された文書を検索し、検索結果を評価対象選択部5に渡す。評価対象選択部5は、文書検索部18が検索した文書を評価対象とし、ユーザは、この評価対象の帰属度を評価する。
【0077】
このように、この装置では、キーワードを利用して帰属度計算基準の更新を効率化することができる。
【0078】
また、例えば、特定の軸の成分を調べたときに、評価1の文書群での平均と、評価0の文書群での平均とが大きく離れている場合、それぞれの平均のまわりの文書からキーワードを提示させ、その内容を確認して、軸の重みを重くしたり、軽くしたりすることなどもできる。
【0079】
(第5の実施形態)
第5の実施形態の帰属度計算基準作成装置は、図28に示すように、各分類の帰属度計算基準の適合性を評価する帰属度計算基準評価部20を備えている。その他の構成は第1の実施形態(図1)と変わりがない。
【0080】
この装置では、帰属度計算部3が、ユーザによる帰属度の評価済みの文書を対象として、帰属度計算基準に基づいて帰属度を計算する。帰属度計算基準評価部20は、この帰属度計算結果と、ユーザが評価した帰属度とを照合して、各分類の帰属度計算基準の有効性を評価する。
【0081】
この評価の基準には、次の(式5)で示す評価的中率を用いる。
評価的中率=(評価と帰属度計算結果とが一致している文書数)/(評価が与えられている文書数) (式5)
各分類の帰属度計算基準を作成する過程で、帰属度計算基準評価部20により、この評価的中率を調べる。そして、評価的中率が低い分類に対して、優先して帰属度計算基準を改善し、全体の分類力レベルの早期底上げを図る。
【0082】
図29は、この場合の手順を示している。
ステップ20:いくつかの分類に対して、分類名を指定して、それぞれ、ある程度まで帰属度計算基準を作成する。
ステップ21:帰属度計算基準評価部20により、各分類の帰属度計算基準を評価する。
ステップ22:分類名と判別的中率とをユーザに示し、帰属度計算基準を改良する分類名を指定させる。
ステップ23:指定された分類に対して、帰属度計算基準を改良する。
【0083】
なお、評価的中率が低い分類を検索し、その分類を廃止するために、この評価的中率を用いることも可能である。
【0084】
このように、この装置では、帰属度計算基準評価部20の評価結果に基づいて、帰属度計算基準の改善に注力すべき分類を絞り込むことが可能になり、帰属度計算基準作成作業を効率化し、高精度の帰属度計算基準を生成することが可能になる。
【0085】
(第6の実施形態)
第6の実施形態の帰属度計算基準作成装置は、図30に示すように、ベクトル軸の有効性を表す情報を生成する帰属度計算基準再計算支援部21と、ユーザの指示に基づいて帰属度計算基準の再計算を制御する帰属度計算基準再計算制御部22とを備えている。その他の構成は第1の実施形態(図1)と変わりがない。 この装置では、帰属度計算基準再計算支援部21から、ベクトルの各次元を表す軸が分類にどの程度役立っているかを示す情報が提示され、ユーザは、この情報を参照して、帰属度計算基準再計算制御部22から、分類に使用する次元数を絞り、また、有効性に応じた各次元への重み付けを行う。
【0086】
典型的な作成方法においては、文書ベクトルのベクトル成分である軸は、単語に対応し、そのベクトル成分の値は、その単語の出現頻度に対応している。この装置では、分類の帰属度計算基準として相応しくない、差別化の機能が薄い単語をユーザが除外できる。この単語を「素性」と云い、単語の出現頻度に相当するベクトル成分の値を「素性の値」と云うことにする。
【0087】
帰属度計算基準再計算支援部21は、評価結果保持部7に保持されたユーザの評価済みの各文書、あるいは、帰属度計算結果保持部4に保持された帰属度計算が行われた各文書の軸番号に対応する素性の値を取得し、各軸番号ごとに、且つ、帰属度別に、素性の値の分散を計算する。
【0088】
図31は、帰属度計算基準再計算支援部21の計算結果が表示された画面を示している。ここでは、ユーザにより帰属度1と評価された文書、及び、帰属度0と評価された文書の各々を対象として、軸ごとの分散が計算されており、分散値とその軸番号とが、分散値の小さい順に表示され、また、その中から選択された軸番号477の分散がグラフ表示されている。
【0089】
また、図32は、帰属度計算基準再計算支援部21の計算結果が表示された他の画面を示している。ここでは、横軸に帰属度1の文書を対象とする素性の値の分散値を表示し、縦軸に帰属度0の文書を対象とする素性の値の分散値を表示するグラフに、各軸ごとの分散値がプロットされている。この点をポインタで選択すると、該当する軸の軸番号、縦軸での分散値及び横軸での分散値が数値で表示される。
【0090】
ユーザは、こうした表示から、分散値が小さく、且つ、帰属度1における分散と帰属度0における分散とが重なり合わない素性を有効性が高い素性として認識することができ、逆に、帰属度1における分散と帰属度0における分散とが重なり合う素性を有効性が低い素性として認識することができる。
【0091】
帰属度計算基準再計算支援部21では、また、各素性の有効性を定量化するために、各素性の重み(軸の重み)を計算する。
【0092】
軸の重みを計算する計算式は、種々設定することができる。
(例1)
Figure 0003701197
(例2)
Figure 0003701197
(例3)
Figure 0003701197
ここで、(例1)は、帰属度1の文書における素性の分散のみに着目して軸の重みを求めている。(例2)では、さらに、帰属度1の文書の素性と帰属度0の文書の素性との平均離間距離を勘案している。(例3)では、さらに、この離間距離を、帰属度0の文書における素性の分散を勘案して評価している。
【0093】
図33には、帰属度1及び帰属度0に判定された文書の各素性の値の平均値及び分散値とともに、(式6)(式7)(式8)のそれぞれで算出した軸の重みを対比して示している。
【0094】
(式7)で求めた軸の重みは、帰属度計算基準の平均ベクトルの成分として取り込む有効性の高い素性を選定するための基準に適している。また、(式6)で求めた軸の重みは、距離計算に使用する重みとして適している。
【0095】
ユーザが、(式7)で求めた軸の重みを参考に、帰属度計算基準の平均ベクトルの成分に使用する素性を指定すると、帰属度計算基準再積算制御部22は、その指示に従って帰属度計算基準再計算部8における帰属度計算基準の再計算を制御する。
【0096】
また、ユーザが、帰属度計算基準の平均ベクトル成分の素性に対して、(式6)による重み付けを指示すると、帰属度計算基準再積算制御部22は、帰属度計算基準再計算支援部21から得た各素性に対する重みの計算値を帰属度計算基準再計算部8に出力し、帰属度計算基準再計算部8は、重み付き平均ベクトルを計算する。重み付き平均ベクトルμは、平均ベクトルの第i成分に重みwiを掛け、全体の長さが1になるように正規化して求めることができる。この重みは、帰属度計算基準のパラメータとして帰属度計算基準保持部13で保持される。
【0097】
また、重みを使った距離計算では、各文書dの文書ベクトルの第i成分に重みwiを掛け、全体の長さが1になるように正規化して重み付き文書ベクトルxdを生成し、この重み付き文書ベクトルxdと、前記重み付き平均ベクトルμとの通常の距離を算出し、これを文書ベクトルと分類の平均ベクトルとの重み付き距離とする。
【0098】
このように、帰属度計算基準の平均ベクトルの成分として、有効性が高い素性のみを、その有効性に応じた重みを付けて用いることにより、高精度の帰属度計算基準を作成することが可能になる。
【0099】
(第7の実施形態)
第7の実施形態では、文書検索で求めた文書集合を用いて帰属度計算基準を作成する装置について説明する。
【0100】
この装置は、図34に示すように、文書が蓄積された文書DB23と、文書DB23の文書を検索する文書検索部24と、検索条件を入力する検索条件入力部25とを備えている。その他の構成は第1の実施形態(図1)と変わりがない。
【0101】
図35に、この装置の動作フローを示している。
ステップ30:ユーザは、検索条件入力部25から検索条件を入力する。
図36は、検索条件入力部25の検索条件入力画面を示している。ユーザは、この画面から「分類名」「絞込み条件」及び「文書取得条件」を入力する。
ステップ31:文書検索部24は、絞込み条件及び文書取得条件として入力された「脱線」及び「列車」と云う語を含む文書を文書DB23から検索し、文書集合保持部1に保持された文書集合に追加する。
ステップ32:検索条件として絞り込み条件が入力されている場合は、
ステップ33:その絞り込み条件と、入力された分類名とが、帰属度計算基準初期値作成部15を通じて帰属度計算基準保持部13に送られ、その分類に対応付けた帰属度計算基準として登録される。図37は、登録された帰属度計算基準を示している。
ステップ34:さらに文書集合を拡張する場合は、ステップ30からの手順を繰り返す。文書集合を拡張しない場合は、
ステップ35:帰属度計算基準の作成が行われる。
【0102】
この帰属度計算基準の作成において、帰属度計算部3は、検索条件入力部25から登録された帰属度計算基準を含めずに帰属度を計算し、次いで、検索条件入力部25から登録された検索条件により帰属度を求め、双方の帰属度を合成して最終的な帰属度を得る。検索条件からの帰属度の求め方や、合成の仕方は、任意に別途定めることができる。
【0103】
ここでは、検索条件によって求める帰属度は、検索条件の語「脱線」を本文中に含む文書では帰属度1、そうでなければ帰属度0とする。また、合成は、検索条件を含めずに求めた帰属度(ベクトル空間法により求めた帰属度)と、検索条件から求めた帰属度との最小値を最終的な帰属度として合成するものとする。
【0104】
この合成の関係を、図38に示している。こうした合成を行うことにより、例えば、脱線以外の列車の事故に関する文書のように、「脱線」と云う文字は含まないが、他の語の出現状況が脱線事故の文書と似ている文書では、「脱線」と云う文字列の検索条件から求める帰属度が0になり、最終的な帰属度は0になる。また、行為の行き過ぎを意味する「脱線」と云う文字を含むが、脱線事故の文書とは他の語の使い方が異なる文書では、「脱線」と「列車」の両方を含む文書で作られる(距離を使った)分類基準での帰属度が0になり、最終的な帰属度は0になる。「列車」では無く「電車」と云う表現を用いて「脱線」事故が記述されている文書の場合には、「列車」と「電車」の違いはあるものの、他の語の使い方は大差ないため、分類基準からの帰属度は(1)になり、結果の帰属度も1になる。
【0105】
このように、この装置では、文書検索を使って文書集合を求めることができ、また、この文書検索時の検索式を帰属度計算基準に継承することができる。
【0106】
この装置では、分類ごとに検索条件を変えることにより、文書集合保持部に分類ごとの文書を集めて帰属度計算基準を作成することができる。
【0107】
なお、検索条件の内、文書取得条件は、文書取得のみに使う検索条件であり、帰属度計算基準には影響を与えない。
【0108】
また、この例では、検索結果を、指定した語句を含むか含まないかの二段階に区別しているが、例えば、指定した語句の包含数などに応じて多段階に区分し、一定の段階の文書のみを検索結果に含めるようにしても良い。また、検索条件は、文字列だけでなく、文字列を使った正規表現や、書誌事項などを使用することもできる。
【0109】
また、一つの分類に対して、文書取得用の条件として指定する語を変えて複数の文書集合を取得し、各文書集合からそれぞれ分類基準を作成して帰属度計算基準保持部に保持(格納)し、実際の分類時の帰属度の計算では、各分類基準から計算した帰属度のうち最も大きいものを、検索条件を含めずに求めた帰属度として利用するようにしてもよい。例えば、「脱線」と云う分類に関して、「列車」と云う文字を含む文書で作った分類基準と、「電車」と云う文字を含む文書で作った分類基準とを持ち、実際の分類時の帰属度は各々の分類基準を用いて計算し、そのうち、大きい方を帰属度として採用するようにしても良い。
【0110】
(第8の実施形態)
第8の実施形態では、作成した帰属度計算基準を用いて、文書の分類に対する帰属度を計算する装置について説明する。
【0111】
この装置は、図39に示すように、文書を蓄積する文書DB23と、帰属度計算基準を保持する帰属度計算基準保持部13と、文書DB23に蓄積された文書を検索条件に従って検索する文書検索部24と、文書の帰属度を計算する帰属度計算部3と、帰属度計算部3の計算結果を保持する帰属度計算結果保持部4と、帰属度計算結果を出力する帰属度計算結果出力部26とを備えている。
【0112】
図40は、この装置の動作フローを示している。
ステップ40:帰属度計算基準保持部13に保持された帰属度計算基準に検索条件が付随している場合には、
ステップ41:文書検索部24は、文書DB23から取り出した文書が、帰属度計算基準保持部13から取得した検索条件を満たしているかどうか識別し、満たさないときは、
ステップ44:帰属度を0とする。
【0113】
また、ステップ41において、検索条件を満たしているときは、
ステップ42:帰属度計算部3は、帰属度計算基準保持部13から取得した分類の帰属度計算基準を用いて、対象文書の文書ベクトルと当該分類の平均ベクトルとの重み付き距離を求め、
ステップ43:帰属度に関する距離の閾値を参照し、距離から帰属度を計算し、
ステップ44:帰属度を出力する。
【0114】
この装置は、対象となる文書DB中の各文書に対して、各分類に対する帰属度を上記手順で計算し、出力する。
【0115】
なお、この手順では、検索条件からの帰属度を、検索条件を満たしたとき1、満たさないとき0として、検索条件から求めた帰属度と、ベクトル空間法で求めた帰属度との最小値を最終的な帰属度としている。
なお、各実施形態で示した構成を幾つか組み合わせて実施することも勿論可能である。
【0116】
【発明の効果】
以上の説明から明らかなように、本発明の帰属度計算基準作成装置では、ユーザの試行錯誤を減らし、効率的に、且つ、高精度に帰属度計算基準を作成することができる。
【図面の簡単な説明】
【図1】第1の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図2】第1の実施形態の帰属度計算基準作成装置の動作を示すフロー図、
【図3】第1の実施形態の帰属度計算基準作成装置の帰属度計算手順を示すフロー図、
【図4】第1の実施形態の帰属度計算基準作成装置の文書集合保持部に保持される文書ベクトルを示す図、
【図5】第1の実施形態の帰属度計算基準作成装置の帰属度計算基準保持部に保持される平均ベクトルを示す図、
【図6】第1の実施形態の帰属度計算基準作成装置の帰属度計算基準保持部に保持される帰属度を決める閾値を示す図、
【図7】第1の実施形態の帰属度計算基準作成装置の評価対象選択基準指定画面例、
【図8】第1の実施形態の帰属度計算基準作成装置の評価対象選択画面例、
【図9】第1の実施形態の帰属度計算基準作成装置の評価対象選択画面例、
【図10】第1の実施形態の帰属度計算基準作成装置の分布関数選択画面例、
【図11】第1の実施形態の帰属度計算基準作成装置での分布関数を利用した選択を説明する図、
【図12】第1の実施形態の帰属度計算基準作成装置での分布関数を利用した選択例、
【図13】第1の実施形態の帰属度計算基準作成装置の評価対象選択画面の変形例、
【図14】第1の実施形態の帰属度計算基準作成装置での選択結果を示す図、
【図15】第1の実施形態の帰属度計算基準作成装置の評価入力画面例、
【図16】第1の実施形態の帰属度計算基準作成装置の文書表示画面例、
【図17】第1の実施形態の帰属度計算基準作成装置の評価結果保持部で保持される評価結果を示す図、
【図18】第1の実施形態の帰属度計算基準作成装置での帰属度計算基準再計算結果を示す図、
【図19】第1の実施形態の帰属度計算基準作成装置での確信度を説明する図、
【図20】第1の実施形態の帰属度計算基準作成装置での分類に対する評価が他の分類に対する評価と連動する例を示す図、
【図21】第2の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図22】第2の実施形態の帰属度計算基準作成装置の文書類似度計算結果の表示画面例、
【図23】第3の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図24】第3の実施形態の帰属度計算基準作成装置での帰属度推移表示例、
【図25】第3の実施形態の帰属度計算基準作成装置での評価結果の推移表示例、
【図26】第4の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図27】第4の実施形態の帰属度計算基準作成装置の評価対象選択基準指定画面例、
【図28】第5の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図29】第5の実施形態の帰属度計算基準作成装置の動作を示すフローク図、
【図30】第6の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図31】第6の実施形態の帰属度計算基準作成装置での軸選定のための表示例、
【図32】第6の実施形態の帰属度計算基準作成装置での軸選定のための表示例、
【図33】第6の実施形態の帰属度計算基準作成装置での重み計算例、
【図34】第7の実施形態の帰属度計算基準作成装置の構成を示すブロック図、
【図35】第7の実施形態の帰属度計算基準作成装置の動作を示すフローク図、
【図36】第7の実施形態の帰属度計算基準作成装置の検索条件入力画面例、
【図37】第7の実施形態の帰属度計算基準作成装置の検索条件登録状態を示す図、
【図38】第7の実施形態の帰属度計算基準作成装置での帰属度計算を示す図、
【図39】第8の実施形態の帰属度計算装置の構成を示すブロック図、
【図40】第8の実施形態の帰属度計算装置の動作を示すフロー図である。
【符号の説明】
1 文書集合保持部
2 対象分類指定部
3 帰属度計算部
4 帰属度計算結果保持部
5 評価対象選択部
6 計算結果評価部
7 評価結果保持部
8 帰属度計算基準再計算部
9 帰属度計算基準再計算結果保持部
10 帰属度計算結果表示部
11 評価対象選択基準指定部
12 評価対象選択基準保持部
13 帰属度計算基準保持部
14 帰属度計算基準更新部
15 帰属度計算基準初期値作成部
16 文書類似度計算部
17 帰属度計算結果比較部
18 文書検索部
19 キーワード生成部
20 帰属度計算基準評価部
21 帰属度計算基準再計算支援部
22 帰属度計算基準再計算制御部
23 文書DB
24 文書検索部
25 検索条件入力部
26 帰属度計算結果出力部

Claims (31)

  1. 一つ以上の文書からなる文書集合中の各文書に対して、一つ以上の分類からなる分類集合中の各分類への帰属度を計算するための帰属度計算基準を作成する帰属度計算基準作成装置であって、
    帰属度計算基準作成に用いる文書集合を保持する文書集合保持手段と、
    初期状態では帰属度計算基準の初期値を保持し、前記帰属度計算基準が更新されるごとに、更新された前記帰属度計算基準を保持する帰属度計算基準保持手段と、
    前記文書集合保持手段に保持された各文書に対して、前記帰属度計算基準保持手段に保持された帰属度計算基準を適用して、各分類に対する帰属度を計算する帰属度計算手段と、
    前記帰属度計算手段により計算された各文書の各分類に対する帰属度計算結果を保持する帰属度計算結果保持手段と、
    前記帰属度計算結果保持手段に保持された各文書の帰属度計算結果から評価の対象とする文書の帰属度計算結果を選択するための評価対象選択基準を保持する評価対象選択基準保持手段と、
    前記評価対象選択基準保持手段に保持された複数の評価対象選択基準の中から評価対象選択基準を指定する評価対象選択基準指定手段と、
    前記帰属度計算結果保持手段に保持された各文書の帰属度計算結果の中から、前記評価対象選択基準指定手段により指定された評価対象選択基準を満たす文書の帰属度計算結果を評価対象として選択する評価対象選択手段と、
    前記評価対象選択手段により選択された文書の帰属度計算結果を表示する帰属度計算結果表示手段と、
    前記帰属度計算結果表示手段に表示された前記文書の帰属度計算結果に対する評価結果が前記帰属度計算結果表示手段のGUIを通じて指定されると、前記評価結果に従い、評価対象の文書に対して当該分類に対する帰属度を付与し直す計算結果評価手段と、
    前記計算結果評価手段が付与し直した評価対象文書の帰属度評価結果として保持する評価結果保持手段と、
    少なくとも前記評価結果保持手段に保持された評価対象文書の評価結果を利用して帰属度計算基準を再計算する帰属度計算基準再計算手段と、
    前記帰属度計算基準再計算手段により再計算された帰属度計算基準再計算結果を保持する帰属度計算基準再計算結果保持手段と、
    前記帰属度計算基準再計算結果保持手段に保持された帰属度計算基準によって前記帰属度計算基準保持手段に保持された帰属度計算基準を更新する帰属度計算基準更新手段と
    を備えことを特徴とする帰属度計算基準作成装置。
  2. 前記帰属度計算基準再計算手段は、前記評価結果保持手段に帰属度評価結果が保持されている文書と分類との組の当該評価結果を、評価結果が保持されていない組の帰属度計算結果よりも優先させて帰属度計算基準の再計算を行うことを特徴とする請求項1に記載の帰属度計算基準作成装置。
  3. 前記計算結果評価手段は、前記帰属度計算基準中に分類間の帰属度に関する制約が記述されている場合に、前記分類間の一方の分類への評価結果が与えられた文書に対して、前記分類間の他方の分類への評価として、前記制約により決定された値を与えることを特徴とする請求項1に記載の帰属度計算基準作成装置。
  4. 前記評価対象選択基準指定手段から、帰属度計算で用いられた各文書の素性の名と素性値の範囲とが指定されると、前記評価対象選択手段は、指定された素性に関する素性値が指定された範囲内にある文書に対する帰属度計算結果を評価対象とすることを特徴とする請求項に記載の帰属度計算基準作成装置。
  5. 前記評価対象選択基準指定手段から、文書集合に対する指定と、素性値として数値を取る素性に対する素性値の範囲の指定とを行い、前記範囲、素性値から前記文書集合における当該素性の素性値の平均を引いた値を前記文書集合における当該素性の素性値の標準偏差で割った値により指定することを特徴とする請求項に記載の帰属度計算基準作成装置。
  6. 前記帰属度計算手段は、帰属度計算結果に、文書の分類に対する帰属度と共に当該計算結果に対する確信度を付与し、前記評価対象選択基準指定手段から、確信度に関する範囲が指定されると、前記評価対象選択手段は、指定された範囲の確信度を持つ帰属度計算結果を評価対象とすることを特徴とする請求項に記載の帰属度計算基準作成装置。
  7. 文書間の類似度を計算する文書類似度計算手段を備え、前記評価対象選択基準指定手段から、文書に関する指定と類似度の範囲に関する指定とが行われると、前記評価対象選択手段は、指定された文書と指定された範囲内の類似度とを持つ文書に対する帰属度計算結果を評価対象とすることを特徴とする請求項に記載の帰属度計算基準作成装置。
  8. 前記評価対象選択基準指定手段から、分類名と帰属度の範囲と類似度の範囲とが指定されると、前記評価対象選択手段は、評価結果において当該分類に対する帰属度の範囲が指定された範囲内にある文書に対して、指定された範囲内の類似度を持つ文書のうち、帰属度計算により計算された当該分類に対する帰属度が、指定された範囲内にない文書に対する帰属度計算結果を評価対象とすることを特徴とする請求項に記載の帰属度計算基準作成装置。
  9. 前記帰属度計算結果表示手段は、前記評価対象選択基準指定手段における評価対象選択基準の指定状況に連動して表示結果を変化させることを特徴とする請求項に記載の帰属度計算基準作成装置。
  10. 前記帰属度計算結果表示手段は、前記評価対象選択手段により選択された文書の帰属度計算結果を識別可能な方法で表示し、さらに前記計算結果評価手段による評価が行われていない評価対象と、各時点で評価が行われている評価対象と、評価が終了した評価対象とを識別可能な方法で表示し、さらに、評価が終了した評価対象については、評価によって与えられた帰属度の範囲に応じて、識別可能な方法で表示することを特徴とする請求項に記載の帰属度計算基準作成装置。
  11. 前記帰属度計算結果表示手段は、評価対象文書の帰属度計算結果に対する評価が行われている過程で、GUIによる選択と連動して、各時点において評価対象として選択されている帰属度計算結果に対応する文書の各素性値や文書の文字列自体を表示することを特徴とする請求項10に記載の帰属度計算基準作成装置。
  12. 帰属度計算基準の更新時において、更新前の帰属度計算結果と、更新後の帰属度計算結果とを比較する帰属度計算結果比較手段を備え、前記評価対象選択手段は、前記帰属度計算結果比較手段による比較結果と前記評価対象選択基準指定手段によって指定された評価対象選択基準とを組み合わせて評価対象を選択することを特徴とする請求項に記載の帰属度計算基準作成装置。
  13. 前記評価対象選択基準保持手段は、前記評価対象選択基準として分布関数を保持し、前記評価対象選択手段は、前記評価対象選択基準指定手段指定した分布関数に対応する数の前記評価対象を選択することを特徴とする請求項に記載の帰属度計算基準作成装置。
  14. 帰属度計算基準の更新時において、更新前の帰属度計算結果と、更新後の帰属度計算結果とを比較する帰属度計算結果比較手段を備え、前記帰属度計算結果表示手段は、帰属度計算基準の更新前と更新後の帰属度計算結果及び前記帰属度計算結果比較手段により得られる比較結果を視覚的に表示することを特徴とする請求項に記載の帰属度計算基準作成装置。
  15. 前記帰属度計算結果表示手段は、前記評価結果保持手段に評価結果が保持されている文書に対する帰属度計算結果、及び、帰属度計算基準の更新前後における帰属度計算結果の変化を視覚的に表示することを特徴とする請求項14に記載の帰属度計算基準作成装置。
  16. 分類に対する帰属度計算基準の適合度を計算して結果を表示する帰属度計算基準評価手段を備え、前記帰属度計算手段は、各分類に対して、前記評価結果保持手段に当該分類に関する帰属度評価結果が保持されている文書に対して、評価結果が保持されていない文書に対して行われる帰属度計算方法と同じ方法により帰属度を計算し、前記帰属度計算基準評価手段は、前記帰属度計算手段が計算した値と、前記評価結果保持手段に保持されている帰属度評価結果とを比較して、分類別の帰属度計算基準の適合度を出力することを特徴とする請求項に記載の帰属度計算基準作成装置。
  17. 前記評価対象選択基準指定手段は、前記帰属度計算基準評価手段から、各分類に対する帰属度計算基準の適合度を受け取り、前記評価対象選択基準指定手段に、帰属度計算基準の適合度の範囲を指定して、帰属度計算基準の適合度が指定した範囲にある分類に対する帰属度計算結果を評価対象として提示することを特徴とする請求項16に記載の帰属度計算基準作成装置。
  18. 前記帰属度計算基準再計算手段による帰属度計算基準の再計算を、入力された指示に基づいて制御する帰属度計算基準再計算制御手段を備え、入力操作により、前記帰属度計算基準再計算手段による帰属度計算基準の再計算を直接制御できるようにしたことを特徴とする請求項1に記載の帰属度計算基準作成装置。
  19. 前記帰属度計算基準保持手段に保持された帰属度計算基準と、前記帰属度計算結果保持手段に保持された帰属度計算結果と、前記評価結果保持手段に保持された評価結果とを参照し、帰属度計算基準再計算に利用するための情報を生成して提示する帰属度再計算支援手段を備え、前記帰属度計算基準再計算制御手段からの帰属度計算基準再計算の制御を支援することを特徴とする請求項18に記載の帰属度計算基準作成装置。
  20. 前記帰属度再計算支援手段は、帰属度再計算結果を用いた場合の帰属度計算結果を求めて、前記帰属度計算結果保持手段に保持されている帰属度計算結果との比較を行った結果を提示し、前記帰属度計算基準更新手段は、前記帰属度再計算制御手段が帰属度再計算結果の利用指示を受けた場合にのみ、前記帰属度計算基準保持手段の内容を更新することを特徴とする請求項19に記載の帰属度計算基準作成装置。
  21. 前記帰属度再計算支援手段は、各文書の持つ各素性に対して、各分類への帰属度計算における有効度を計算して提示し、前記帰属度計算基準再計算制御手段は、各分類への帰属度計算において各素性を使用するかどうかを指定することを特徴とする請求項20に記載の帰属度計算基準作成装置。
  22. 前記帰属度計算基準再計算制御手段は、各分類への帰属度計算において使用すると指定した素性のうち、値として数値を取る素性について素性ごとに重みを指定し、前記帰属度計算手段は、帰属度計算において、当該素性の未編集の値の代わりに、前記の重みを掛けた値を用いることを特徴とする請求項21に記載の帰属度計算基準作成装置。
  23. 前記帰属度再計算支援手段は、各素性に対して、前記文書集合保持手段に保持されている各文書の取る値の分布及び、前記評価結果保持手段に評価結果が保持されている文書に対する当該素性の各分類への帰属度評価結果別の分布とを視覚的に提示することを特徴とする請求項22に記載の帰属度計算基準作成装置。
  24. 前記帰属度再計算支援手段は、各分類への帰属度計算において各素性値の未編集値に掛ける重みの候補を提示し、重みの候補が一定の値以下になるような素性に関しては、帰属度計算において利用しないことを提案することを特徴とする請求項22に記載の帰属度計算基準作成装置。
  25. 前記帰属度再計算支援手段は、前記帰属度再計算制御手段から重みの範囲が指定されると、帰属度計算において素性値の未編集値に掛ける重みの候補が指定された範囲内にある素性の一覧を提示し、前記帰属度再計算制御手段は、入力された指示を受けて前記一覧から重みを編集する素性を選択することを特徴とする請求項22に記載の帰属度計算基準作成装置。
  26. 前記帰属度再計算支援手段は、重みの候補の値に関する素性名の分布を視覚的に表示しGUIを使って前記表示から素性名選択されると、前記帰属度再計算制御手段は、それに従って重みを編集する素性を選択することを特徴とする請求項 に記載の帰属度計算基準作成装置。
  27. 一つ以上の文書を含む文書データベースと、前記文書データベースに対する文書検索条件を指定する検索条件指定手段と、前記検索条件指定手段からの指定に従って前記文書データベースに対して文書検索を行い、その結果に基づいて前記文書データベースから文書集合を取得する文書検索手段とを備え、前記文書検索手段により取得された文書集合を前記文書集合保持手段に保持する文書集合とすることを特徴とする請求項1に記載の帰属度計算基準作成装置。
  28. 前記検索条件指定手段から、帰属度計算基準作成の対象となる各分類ごとに独自の検索条件を指定して前記文書集合保持手段に保持する文書集合を変え、当該分類の帰属度計算基準として、当該検索条件を充足しない文書に対しては当該分類に対する帰属度を0にするという制約つきで帰属度計算基準の作成を行うことを特徴とする請求項27に記載の帰属度計算基準作成装置。
  29. 前記検索条件指定手段から、帰属度計算基準作成の対象となる各分類ごとに、一つ以上の検索条件を指定し、各検索条件に従って前記文書検索手段が得た文書集合を基に、当該分類の帰属度計算基準として、当該検索条件を充足しない文書に対しては当該分類に対する帰属度を0にするという制約つきで帰属度計算基準の作成を行い、作成された各帰属度計算基準を、最大値をとるという演算によって結合した結果を当該分類に対する帰属度計算基準とすることを特徴とする請求項27に記載の帰属度計算基準作成装置。
  30. 前記検索条件指定手段から、帰属度計算基準作成の対象となる一つの分類に対して異なる検索条件を指定し、各検索条件に従って前記文書検索手段が得た文書集合を基に、当該分類に関する複数の帰属度計算基準の作成を行い、作成された各帰属度計算基準を適用して計算した帰属度の最大値を当該分類に対する帰属度とすることを特徴とする請求項27に記載の帰属度計算基準作成装置。
  31. 請求項1から請求項30のいずれかの帰属度計算基準作成装置と、前記帰属度計算基準作成装置により作成した帰属度計算基準を保持した帰属度計算基準保持手段と、帰属度計算対象となる文書を取得する文書入力手段と、前記文書入力手段により取得された文書に対して、前記帰属度計算基準保持手段に保持された帰属度計算基準を適用して各分類に対する帰属度を計算する帰属度計算手段と、前記帰属度計算手段により計算された帰属度を出力する帰属度出力手段を備え、与えられた文書の、各分類への帰属度計算結果をもって文書分類結果とすることを特徴とする文書分類装置。
JP2000401947A 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置 Expired - Lifetime JP3701197B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000401947A JP3701197B2 (ja) 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置
US10/028,816 US6704905B2 (en) 2000-12-28 2001-12-28 Text classifying parameter generator and a text classifier using the generated parameter
CNB011454083A CN1193310C (zh) 2000-12-28 2001-12-28 文本分类参数生成器和使用所生成参数的文本分类器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000401947A JP3701197B2 (ja) 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置

Publications (2)

Publication Number Publication Date
JP2002202983A JP2002202983A (ja) 2002-07-19
JP3701197B2 true JP3701197B2 (ja) 2005-09-28

Family

ID=18866314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000401947A Expired - Lifetime JP3701197B2 (ja) 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置

Country Status (3)

Country Link
US (1) US6704905B2 (ja)
JP (1) JP3701197B2 (ja)
CN (1) CN1193310C (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
US8132250B2 (en) * 2002-03-08 2012-03-06 Mcafee, Inc. Message profiling systems and methods
JP4082059B2 (ja) * 2002-03-29 2008-04-30 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
JP2004094728A (ja) * 2002-09-02 2004-03-25 Hitachi Ltd 情報配信方法、その装置及びそのプログラム
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US20050137912A1 (en) * 2003-03-31 2005-06-23 Rao R. B. Systems and methods for automated classification of health insurance claims to predict claim outcome
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
JP2005122295A (ja) * 2003-10-14 2005-05-12 Fujitsu Ltd 関係図作成プログラム、関係図作成方法、および関係図作成装置
US7333985B2 (en) * 2003-12-15 2008-02-19 Microsoft Corporation Dynamic content clustering
EP1752884B1 (en) 2004-06-03 2013-04-03 Japan Science and Technology Agency High-speed high-accuracy matrix singular value decomposition method, program, and device.
US8635690B2 (en) 2004-11-05 2014-01-21 Mcafee, Inc. Reputation based message processing
WO2006087854A1 (ja) 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
EP1861774A4 (en) 2005-03-11 2009-11-11 Yahoo Inc SYSTEM AND METHOD FOR MANAGING LISTINGS
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
WO2006110832A2 (en) * 2005-04-12 2006-10-19 Jesse Sukman System for extracting relevant data from an intellectual property database
US9792359B2 (en) 2005-04-29 2017-10-17 Entit Software Llc Providing training information for training a categorizer
US9047290B1 (en) * 2005-04-29 2015-06-02 Hewlett-Packard Development Company, L.P. Computing a quantification measure associated with cases in a category
US7593904B1 (en) 2005-06-30 2009-09-22 Hewlett-Packard Development Company, L.P. Effecting action to address an issue associated with a category based on information that enables ranking of categories
US8719073B1 (en) 2005-08-25 2014-05-06 Hewlett-Packard Development Company, L.P. Producing a measure regarding cases associated with an issue after one or more events have occurred
US8612844B1 (en) * 2005-09-09 2013-12-17 Apple Inc. Sniffing hypertext content to determine type
US7797282B1 (en) 2005-09-29 2010-09-14 Hewlett-Packard Development Company, L.P. System and method for modifying a training set
US7437338B1 (en) 2006-03-21 2008-10-14 Hewlett-Packard Development Company, L.P. Providing information regarding a trend based on output of a categorizer
US7668789B1 (en) 2006-03-30 2010-02-23 Hewlett-Packard Development Company, L.P. Comparing distributions of cases over groups of categories
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
JP4495691B2 (ja) * 2006-05-15 2010-07-07 三菱電機インフォメーションシステムズ株式会社 影響因子推定装置及び影響因子推定プログラム
US20080103849A1 (en) * 2006-10-31 2008-05-01 Forman George H Calculating an aggregate of attribute values associated with plural cases
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US8214497B2 (en) 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
JP5161867B2 (ja) * 2007-02-19 2013-03-13 株式会社ソニー・コンピュータエンタテインメント コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
US20080320088A1 (en) * 2007-06-19 2008-12-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Helping valuable message content pass apparent message filtering
US8984133B2 (en) * 2007-06-19 2015-03-17 The Invention Science Fund I, Llc Providing treatment-indicative feedback dependent on putative content treatment
US9374242B2 (en) * 2007-11-08 2016-06-21 Invention Science Fund I, Llc Using evaluations of tentative message content
US8682982B2 (en) * 2007-06-19 2014-03-25 The Invention Science Fund I, Llc Preliminary destination-dependent evaluation of message content
US8082225B2 (en) * 2007-08-31 2011-12-20 The Invention Science Fund I, Llc Using destination-dependent criteria to guide data transmission decisions
US8065404B2 (en) * 2007-08-31 2011-11-22 The Invention Science Fund I, Llc Layering destination-dependent content handling guidance
JP2009093552A (ja) * 2007-10-11 2009-04-30 Fujitsu Ltd 情報収集プログラム、情報収集装置及び方法
US7930389B2 (en) * 2007-11-20 2011-04-19 The Invention Science Fund I, Llc Adaptive filtering of annotated messages or the like
JP4994199B2 (ja) * 2007-11-26 2012-08-08 ヤフー株式会社 機械学習装置及び機械学習方法
JP2009251796A (ja) * 2008-04-03 2009-10-29 Asahi Kasei Corp 文書データ区分装置およびその方法とプログラム
JP5127553B2 (ja) * 2008-05-02 2013-01-23 株式会社リコー 情報処理装置、情報処理方法、プログラム及び記録媒体
US8364693B2 (en) * 2008-06-13 2013-01-29 News Distribution Network, Inc. Searching, sorting, and displaying video clips and sound files by relevance
US20100325372A1 (en) * 2009-06-17 2010-12-23 Housty Oswin E Parallel training of dynamic random access memory channel controllers
US9213756B2 (en) * 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
CN102053992B (zh) * 2009-11-10 2014-12-10 阿里巴巴集团控股有限公司 聚类方法和系统
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US8140567B2 (en) 2010-04-13 2012-03-20 Microsoft Corporation Measuring entity extraction complexity
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
CN102033949B (zh) * 2010-12-23 2012-02-29 南京财经大学 基于修正的k近邻文本分类方法
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
CN102622373B (zh) * 2011-01-31 2013-12-11 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
US9323769B2 (en) * 2011-03-23 2016-04-26 Novell, Inc. Positional relationships between groups of files
JP5714472B2 (ja) * 2011-11-30 2015-05-07 株式会社日立製作所 製品情報管理装置、方法、及びプログラム
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US9589184B1 (en) 2012-08-16 2017-03-07 Groupon, Inc. Method, apparatus, and computer program product for classification of documents
US9384179B2 (en) * 2012-09-07 2016-07-05 American Chemical Society Automated composition evaluator
US20140280152A1 (en) * 2013-03-15 2014-09-18 Samsung Electronics Co., Ltd. Computing system with relationship model mechanism and method of operation thereof
US20150006545A1 (en) * 2013-06-27 2015-01-01 Kodak Alaris Inc. System for ranking and selecting events in media collections
JP6292911B2 (ja) * 2014-02-07 2018-03-14 キヤノン株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
WO2016111007A1 (ja) * 2015-01-09 2016-07-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
US10089589B2 (en) * 2015-01-30 2018-10-02 Sap Se Intelligent threshold editor
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
JP6871799B2 (ja) * 2017-04-28 2021-05-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
CN107506434A (zh) * 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
CN108090218B (zh) * 2017-12-29 2022-08-23 北京百度网讯科技有限公司 基于深度强化学习的对话系统生成方法和装置
CN108628971B (zh) * 2018-04-24 2021-11-12 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN113555110B (zh) * 2021-07-15 2024-06-25 北京鹰瞳科技发展股份有限公司 一种训练多疾病转诊模型的方法及设备
JP7351324B2 (ja) * 2021-07-28 2023-09-27 カシオ計算機株式会社 情報処理方法、情報処理装置及びプログラム
FR3137472A1 (fr) * 2022-07-01 2024-01-05 Orange Procédé d’appariement d’un ensemble à évaluer et d’une liste de référence, moteur d’appariement et programme d’ordinateur correspondants.

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5671333A (en) 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
AU4495597A (en) * 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
JPH1153394A (ja) 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194723A (ja) 1998-12-25 2000-07-14 Just Syst Corp 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Also Published As

Publication number Publication date
US20020152051A1 (en) 2002-10-17
CN1363899A (zh) 2002-08-14
JP2002202983A (ja) 2002-07-19
CN1193310C (zh) 2005-03-16
US6704905B2 (en) 2004-03-09

Similar Documents

Publication Publication Date Title
JP3701197B2 (ja) 分類への帰属度計算基準作成方法及び装置
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
CN109299245B (zh) 知识点召回的方法和装置
US20070016556A1 (en) Destination searching system and method
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
WO2013140636A1 (ja) 検索装置、検索方法およびプログラム
RU2007114029A (ru) Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети
US11188567B2 (en) Data analysis support apparatus and data analysis support system
JP3735335B2 (ja) 類似性判断のための例題ベース検索方法及び検索システム
US7386544B2 (en) Database search system
WO2016057000A1 (en) Customs tariff code classification
CN105786898B (zh) 一种领域本体的构建方法和装置
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP4894510B2 (ja) 文献検索プログラム、文献検索装置、文献検索方法
KR101401225B1 (ko) 문서 분석 시스템
JP7098502B2 (ja) 報告書作成装置、方法、およびプログラム
JP2003141129A (ja) 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20220156271A1 (en) Systems and methods for determining the probability of an invention being granted a patent
US20090037487A1 (en) Prioritizing documents
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
CN101655850B (zh) 知识提取过程生成设备和知识提取过程调整设备及其方法
CN107679112B (zh) 一种面向设计知识推送的加权特征知识适用概率匹配方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100722

Year of fee payment: 5