[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5039159B2 - 情報分類システム、情報分類方法及びプログラム - Google Patents

情報分類システム、情報分類方法及びプログラム Download PDF

Info

Publication number
JP5039159B2
JP5039159B2 JP2010042947A JP2010042947A JP5039159B2 JP 5039159 B2 JP5039159 B2 JP 5039159B2 JP 2010042947 A JP2010042947 A JP 2010042947A JP 2010042947 A JP2010042947 A JP 2010042947A JP 5039159 B2 JP5039159 B2 JP 5039159B2
Authority
JP
Japan
Prior art keywords
word
important
specific range
unnecessary
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010042947A
Other languages
English (en)
Other versions
JP2011180748A (ja
Inventor
淳哉 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010042947A priority Critical patent/JP5039159B2/ja
Publication of JP2011180748A publication Critical patent/JP2011180748A/ja
Application granted granted Critical
Publication of JP5039159B2 publication Critical patent/JP5039159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、文書分類・分析技術に係り、例えば、クラスタリングを用いた相関分析における重要語・不要語の自動抽出、相関表示に関する。
公開特許公報などの特許情報の分析の際に、1つの文書中の異なる2つの部分(例えば「背景技術」や「発明が解決しようとする課題」など)にそれぞれ着目し、各部分について、形態素解析により索引語を選定し、さらに、クラスタリングを用いて分類し、特許マップを作成する手法がある。
従来の文書分類・分析技術における情報分類システムには、クラスタリングや相関表示を用いたものがある(例えば、特許文献1参照。)。
特開2005−85112号公報
クラスタリングを行うと、分類結果であるクラスタ(または、カテゴリ)が自動的に生成されるが、適切なカテゴリが作成されないために、文書中の異なる2つの部分から見たときの特徴(例えば、相関や依存関係)が、うまく把握できない場合がある。このような場合は、例えば重要語や不要語、同義語などの辞書を作成して索引語に適用することにより、生成されるカテゴリを制御することが可能である。
しかし、そのような辞書を作成するのには手間がかかり、分析の対象とする特許データの内容によっては必要とされる辞書の内容も異なり、結果として思ったような分類結果が得られないことが多い。
すなわち、不要語・重要語を自動的に導出しクラスタリングを行なうことにより、利用者にとって有益な分類結果を生成することが課題となる。
上記課題を解決するために、
本発明に係る情報分類システムは、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とを実行する処理装置を備える。
また、本発明に係る情報分類方法は、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とを実行する処理装置を備えるコンピュータによる情報分類方法である。
また、本発明に係るプログラムは、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とをコンピュータの処理装置に実行させる。
クラスタリングによる文書の分類結果である2軸表示の画像図。 情報分類システムの全体構成図。 情報分類システムの処理のフローチャート。 重要語・不要語抽出処理部204およびクラスタ生成処理部205の機能ブロック図。 索引語候補選定手段205Aが索引語候補集合を作成する処理のフローチャート。 文書数集計部206の処理のフローチャート。 索引語候補選定手段205Aが重要語・不要語を反映した索引語候補集合を作成する処理のフローチャート。 Df1,2(mi,mj)のマトリックスの具体例を示す図。
以下、本実施形態に係る実施例について、図面を参照して説明する。
情報分類システムによる分析対象として、例えば、公開特許公報(以下、単に「文書」という。)を考える。1つの文書には「背景技術」や「発明が解決しようとする課題」といった見出しによって特定される、互いに異なる範囲(または部分)が含まれている。
多数の文書について、それら文書の部分に記載されている内容である単語・文章といったテキストを分析対象のデータとして、文書全体ではなく各部分ごとに、それぞれ“索引語”に基づくクラスタリングを行い、文書を分類する。
図1は、クラスタリングによる文書の分類結果である2軸表示の画像図である。
ここで軸とは、「背景技術」や「発明が解決しようとする課題」など文書の一部を指定するものである。縦軸101は「背景技術」についてのクラスタリングの結果であり、横軸102は「発明が解決しようとする課題」についてのクラスタリングの結果である。
縦軸101においては、「加熱」という索引語(または、ターム)によるクラスタと、その下位の階層に「蒸気」、「電子 レンジ」、「高周波」、「設定 操作」という各クラスタが生成されている。
横軸102は、同一の文書について、縦軸101とは異なる部分である「発明が解決しようとする課題」に記載されている内容に基づいたクラスタリングの結果になっている。
そして、各軸の項目に関する交点である各セルには、数が表示されている。この数は、当該縦軸・横軸の各項目に分類される(または、所属する)文書数をあらわしている。
このような分析および分類を行うための情報分類システムについて、以下説明する。
図2は、情報分類システムの全体構成図である。
情報分類システム200は、2軸表示軸選択部201、2軸表示部202、2軸表示情報作成部203、重要語・不要語抽出部204、クラスタ生成処理部205、文書数集計部206、文書取得部207、形態素解析部208、データ登録部209、文書DB210、形態素解析辞書211、クラスタリング結果格納DB212を有する。
情報分類システム200は、コンピュータ等により構成される。2軸表示軸選択部201はマウス・キーボード等の入力装置等により実現される。2軸表示部202はディスプレイ装置等により実現される。2軸表示情報作成部203ないし形態素解析部208の各機能ブロックまたは処理モジュールはメモリ(図示せず)に記憶されたプログラムであって、CPU(中央処理装置。図示せず)に読み込まれ実行されることによりこれら各機能が実現される。データ登録部209は通信装置等により実現される。文書DB210ないしクラスタリング結果格納DB212の各種データベースは記憶装置に記憶される。
ユーザが2軸表示軸選択部201を用いて2軸表示を行なう2つの軸を選択することにより処理が開始する。
2軸表示情報作成部203は、ユーザが選択した軸の情報を受け取ると、クラスタリングの処理および分類結果の作成をするために、クラスタ生成処理部205を呼び出す。
クラスタ生成処理部205は、重要語・不要語抽出部204の処理と連携してクラスタを生成し、その結果をクラスタリング結果格納DB212に格納する。
文書数集計部206は、クラスタリング結果格納DB212の内容を参照し、ユーザにより選択された2軸の各分類項目の文書集合同士の積集合の記事数を集計することにより、2軸表示に必要な情報を2軸表示情報作成部203に渡す。2軸表示部202は、分類結果の相関関係を、積集合の記事数により円の大きさ、色、網掛けなど表示形態を変化させて、グラフィカルに表示する。
なお、分析対象となる文書のデータは、あらかじめデータ209により文書DB210に登録されており、選択された軸に対応するクラスタリングの対象となる範囲が特定できる形で構成されて格納されているものとする。
クラスタ生成処理部205は、クラスタを生成するために、文書取得部207および形態素解析部208を呼び出す。文書取得部207は、文書DB210から分析対象の文書を取り出し、クラスタ生成処理部205に渡す。形態素解析部208は、文書のテキストに対して形態素解析辞書211の辞書引きを行い、各文書の形態素(例えば単語)、当該形態素に係る位置情報を取り出し、クラスタ生成処理部205に渡す。
図3は情報分類システムの処理のフローチャートである。
開始後、ユーザが2軸表示軸選択部201において分類対象とする軸を2つ選択すると(S301)、2軸表示情報作成部203は、選択された2つの軸の情報を、クラスタ生成処理部205に渡し、クラスタリングを実行させる。以下、選択された2軸に対応する分類対象をそれぞれクラスタリング範囲1およびクラスタリング範囲2という。
以下、各軸で索引語候補集合を作成する処理(S302)について、詳細に説明する。
図4は、重要語・不要語抽出処理部204およびクラスタ生成処理部205の機能ブロック図である。
クラスタ生成処理部205は、基本的には、特許文献1に示されているものと同様に、文書DB210に格納される全文書に含まれる形態素インデックスに含む形態素から索引語候補を選定する索引語候補選定手段205A、この索引語候補選定手段205Aにより選定された索引語候補の集合から、ある文書の形態素をもとに他の文書の形態素(自文書の他の形態素も含む)の間に共起関係が成立するか否かを判断し、共起関係が成立すれば当該共起関係にある各文書の形態素の組、つまりターム集合を作成するターム集合作成手段205B、このターム集合作成手段205Bで作成されたターム集合の中の各要素である形態素同士の出現相関を計算する出現相関処理手段205C及びこの出現相関処理手段205Cによって得られる形態素同士の出現相関に基づいて索引語の階層関係を作成し、クラスタリング結果格納DB212に記憶する階層関係作成手段205Dが設けられている。
本実施形態において、索引語候補選定手段205Aは、文書DB210から取得される全文書に含まれる形態素miの集合{m1,.., mkk}について、miが出現する文書数を計算し、出現頻度がある閾値P1以上であるものを索引語の候補として選定する。すなわち、この索引語候補の集合E={e1,…,ek}を作成するものである。
また、本実施形態において、ターム集合作成手段205Bは、実質的に、クラスタリング結果を生成するものであり、その結果をクラスタリング結果格納DB212に格納する。
また、本実施形態において、出現相関処理手段205Cおよび階層関係作成手段205Dは、必要に応じて適宜備えるものとしてもよい。
また、本実施形態において、クラスタ生成処理部205の索引語候補選定手段205Aは、その処理の過程で、重要語・不要語抽出部204により重要語・不要語の抽出を行い、クラスタの生成過程でこれらを利用する。
図5は、索引語候補選定手段205Aが索引語候補集合を作成する処理のフローチャートである。基本的には、特許文献1の図5の左半分に示されるものと同様である。
まず、索引語候補選定手段205Aの処理が開始すると、全文書に含まれる形態素の集合
M={ml,…,mkk}を、文書取得部207を経由して読出して取得し、バッファ
モリ(図示せず)に記憶した後(S501)、第1のカウンタ(図示せず)にi=1を設
定した後(S502)、ある1つの文書の形態素miに対する出現文書の数Niを計数す
る(S503)。
そして、形態素miの出現文書数Niが予め設定されているパラメータP1個以上出現し
ているか否かを判断し(S504)、形態素miがP1個以上出現している場合は(S4
05:YES)、該当形態素mi及び出現文書数ciをバッファメモリなどに格納して記
憶する(S505)。
ステップS504において形態素miがP1個以上ではない場合またはステップS505
にてバッファメモリに該当形態素mi及び出現文書数ci(=c1)を格納した後、最後
の形態素mkkまで出現文書数を調べたか否かを判断し(S506)、まだ未処理の形態
素が残っている場合は(S506:NO)、第1のカウンタに+1をインクリメントし(
S507)、ステップS503に戻り、同様の処理を繰り返し実行する。
以上のようにして最後の形態素mkkについて各文書の出現文書数ci(=ckk)を計数すると(S506:YES)、終了する。
以上の処理により、索引語候補選定手段205Aは、出現頻度が閾値P1以上である索引語を選定し、索引語候補集合E={e1,…,ek}を作成する。
次に、文書集計部206が、文書のクラスタリング範囲1のテキストにmiを含み、かつ、文書のクラスタリング範囲2のテキストにmjを含む文書の数Df1,2(mi,mj)を計算する。
図6は、文書数集計部206の処理のフローチャートである。
開始後、変数iを1で初期化する(S601)。変数jを1で初期化する(S602)。形態素miがクラスタリング範囲1に出現する文書の集合を取得する(S603)。また、形態素mjがクラスタリング範囲2に出現する文書の集合を取得する(S604)。
そして、これらの積集合を計算する(S605)。この積集合における文書数を集計し、Df1,2(mi,mj)なる変数に記憶する(S606)。
そして、変数jについて、値kに達したか否かを判定する(S607)。変数jが値k未満であれば(S607:NO)、変数jに+1をインクリメントし(S608)、ステップS603に戻り、同様の処理を繰り返し実行する(第一のループ)。
変数jが値kに達したならば(S607:YES)、変数iについて、値kに達したか否かを判定する(S609)。変数iが値k未満であれば(S609:NO)、変数iに+1をインクリメントし(S610)、ステップS602に戻り、同様の処理を繰り返し実行する(第二のループ)。
変数iが値kに達したならば(S609:YES)、Df1,2(mi,mj)の全情報を計算するために必要な処理(第一のループ及び第二のループ)を終了する。
このように計算したDf1,2(mi,mj)に基づいて、重要語・不要語抽出部204は、次の様にして重要語や不要語を決定する。
Df1,2(mi,mj)を値が大きい順にソートする。そのうちmi≠mjで値が大きい上位Nd件のものは重要語にすべき単語と判断し、クラスタリング範囲1において形態素miを、同様に、クラスタリング範囲2において形態素mjを重要語とすべくそれぞれ重要語フラグF important 1(mi), F important 2(mj)を立てる。この処理が重要語抽出処理である。
一方、Df1,2(mi,mj)のうちmi=mjでその値がmi, mjの行と列方向に計算した平均値avg (mi)=(Σk +Df1,2(mi,mk) + Σk Df1,2(mk, mi))/2Nより大きいものについては不要語の候補と判断し、不要語フラグF ignore 1(mi), F ignore 2(mi)を立てる。
ただし、クラスタリング範囲1、クラスタリング範囲2のそれぞれにおいて、先に判定した重要語フラグF important 1(mi), F important 2(mj)が立っているものについては、この処理を行わない。この処理が不要語抽出処理である。
以上の処理により、重要語・不要語抽出部204は、重要語と不要語とを抽出する。
重要語や不要語が決定された後、索引語候補選定手段205Aは、重要語や不要語の結果を反映したクラスタリング範囲Rにおける索引語候補集合E Rを作成する。
図7は、索引語候補選定手段205Aが重要語・不要語を反映した索引語候補集合を作成する処理のフローチャートである。
はじめに、形態素miの出現文書数ciの平均値Aを計算する(S701)。そして、変数iを1で初期化して(S702)、各形態素miについてループし以下の処理を行う。
不要語フラグF ignore R(mi)について判定する(S703)。不要語フラグが立っている場合は(S703:YES)、以下の処理をスキップし(E Rへの追加を行わない)、ステップS708へジャンプする。
不要語フラグが立っていない場合は(S703:NO)、重要語フラグF important R(mi)について判定する(S704)。
重要語フラグが立っていない場合は(S704:NO)、通常の平均値Aおよびあらかじめ定められたパラメータP2、P3を用いる(S705)。このパラメータP2、P3は、形態素miを索引語候補集合に追加するかどうかの選定条件を定めるパラメータ(閾値)であって、それぞれ下限値及び上限値を意味し、“幅”を設定するものである。
重要語フラグが立っている場合は(S704:YES)、平均値AおよびパラメータP2,P3を、重要語を反映した値に一時的に変更する(S706)。
そして、形態素miのクラスタリング範囲Rにおける文書出現数Ni RがP2<Ni R<P3であり、パラメータP1以上の文書出現数ciがci>Aである場合は(S707:YES)、E Rへ形態素miを追加する(S708)。
ここで、ステップS706において、一時的な値とは、例えば以下のように設定する。
P2 = P2 * 0.5
P3 = P3 * 2
A = A * 0.5
このように、閾値をゆるく(すなわちP2とP3との幅を大きく、かつ、下限Aを小さく)設定することにより、S708において、E Rへ形態素miが追加されやすくなる。
S707の条件を満たさない場合は(S707:NO)、形態素miをE Rへ追加しない。
そして、変数iについて、値kkに達したか否かを判定する(S709)。変数iが値kk未満であれば(S709:NO)、変数iに+1をインクリメントし(S710)、ステップS703に戻り、同様の処理を繰り返し実行する。
変数iが値kに達したならば(S709:YES)、処理を終了する。
以上の処理により、索引語候補選定手段205Aが重要語・不要語を反映した索引語候補集合を作成する。
以上が、各軸で索引語候補集合を作成する処理の詳細である(図3のS302)。
この後の、ターム集合作成手段205Bがクラスタリング範囲Rにおける索引語候補集合E Rから共起関係を抽出しターム集合を作成する処理(S303)、出現相関処理手段205Cがターム集合同士の出現相関を計算する処理(S304)、および階層関係作成手段205Dが要素同士の相関に基づき索引語の階層関係を作成する処理(S305)については、特許文献1に示されたものと同様の処理となるため説明を割愛する。
そして、この後、選択した2軸のクラスタ同士で積集合を計算し2軸表示を行う(S306)。
具体的には、文書数集計部206が、クラスタリング範囲1で生成されたクラスタT1 i、およびクラスタリング範囲2で生成されたクラスタT2 iのそれぞれに所属する文書をクラスタリング結果格納DBから取得して、それらの積集合を計算し、その文書の数Nijを数える。その数に基づき、文書数集計部206が、縦軸・横軸をクラスタリング範囲1・クラスタリング範囲2(軸1・軸2)のクラスタとしたマトリックスを作成する。2軸表示情報作成部203は、このマトリックスに基づいて表示用の情報を作成し、2軸表示部202がその表示を行なう(図1参照。)。
図8は、Df1,2(mi,mj)のマトリックスの具体例を示す図である。
図8のDf1,2(mi,mj)のマトリックスは内部情報であって、図1とは異なり、画面に表示されるわけではない(図1は、Df1,2(mi,mj)のマトリックスに基づいたクラスタリングによる文書の分類結果として、各クラスタに属する文書の数Nijを示したものである。)。
この図8の例では、クラスタリング範囲1についてはWiの軸80iが対応し、クラスタリング範囲2についてはWjの軸80jが対応する。
この例では、(Wi,Wj)の組みのうち(頻度,検索)のセル8052と(頻度,文書)のセル8053とが重要語抽出処理の条件に当てはまり(図8に網掛けで表示)、「頻度」80i5がクラスタリング範囲1(Wiの軸80i)の重要語となり、「検索」80j2と「文書」80j3とがクラスタリング範囲2(Wjの軸80j)の重要語となる。
一方、(装置,装置)のセル8011と(文書,文書)のセル8033とが不要語抽出処理の条件に当てはまるが(図8に重要語とは異なる網掛けで表示)、クラスタリング範囲2(Wjの軸80j)において「文書」80j3は重要語となっているため、クラスタリング範囲2(Wjの軸80j)では不要語にはならない。不要語は、クラスタリング範囲1(Wiの軸80i)においては「装置」80i1および「文書」80i3となり、クラスタリング範囲2(Wjの軸80j)においては「装置」80j1となる。
以上説明したように、本実施例によれば、不要語・重要語を自動的に導出しクラスタリングを行なうことにより、利用者にとって有益な分類結果を生成することができる。

Claims (6)

  1. 文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
    各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
    ・不要語抽出処理部と、
    記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
    語に基づいてクラスタリングを行うクラスタ生成処理部と
    第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
    する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
    ける文書数をそれぞれ集計する文書数集計部とを備え、
    前記重要語・不要語抽出処理部は、前記積集合における文書数が所定値以上であるものに
    おいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特定範囲に
    おける重要語とし、当該第二の単語を第二の特定範囲における重要語として、それぞれ抽
    する情報分類システム。
  2. 前記重要語・不要語抽出処理部は、前記積集合における文書数が所定値以上であるものに
    おいて、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語と異な
    る場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語を第二
    の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項に記載の
    情報分類システム。
  3. 文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
    各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
    ・不要語抽出処理ステップと、
    記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
    語に基づいてクラスタリングを行うクラスタ生成処理ステップと、
    第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
    する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
    ける文書数をそれぞれ集計する文書数集計ステップとを有し、
    前記重要語・不要語抽出処理ステップは、前記積集合における文書数が所定値以上である
    ものにおいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特定
    範囲における重要語とし、当該第二の単語を第二の特定範囲における重要語として、それ
    ぞれ抽出するコンピュータによる情報分類方法。
  4. 前記重要語・不要語抽出処理ステップは、前記積集合における文書数が所定値以上である
    ものにおいて、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語
    と異なる場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語
    を第二の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項3に
    記載の情報分類方法
  5. 文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
    各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
    ・不要語抽出処理手順と、
    記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
    語に基づいてクラスタリングを行うクラスタ生成処理手順と、
    第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
    する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
    ける文書数をそれぞれ集計する文書数集計手順と、
    前記重要語・不要語抽出処理手順において、前記積集合における文書数が所定値以上であ
    るものにおいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特
    定範囲における重要語とし、当該第二の単語を第二の特定範囲における重要語として、そ
    れぞれ抽出する手順とをコンピュータに実行させるためのプログラム。
  6. 前記重要語・不要語抽出処理手順は、前記積集合における文書数が所定値以上であるもの
    において、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語と異
    なる場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語を第
    二の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項5に記載
    のプログラム
JP2010042947A 2010-02-26 2010-02-26 情報分類システム、情報分類方法及びプログラム Active JP5039159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010042947A JP5039159B2 (ja) 2010-02-26 2010-02-26 情報分類システム、情報分類方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010042947A JP5039159B2 (ja) 2010-02-26 2010-02-26 情報分類システム、情報分類方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011180748A JP2011180748A (ja) 2011-09-15
JP5039159B2 true JP5039159B2 (ja) 2012-10-03

Family

ID=44692201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010042947A Active JP5039159B2 (ja) 2010-02-26 2010-02-26 情報分類システム、情報分類方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5039159B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5963328B2 (ja) 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム

Also Published As

Publication number Publication date
JP2011180748A (ja) 2011-09-15

Similar Documents

Publication Publication Date Title
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
KR102055899B1 (ko) 맥락을 이용하여 문서를 검색하는 시스템 및 방법
US9454602B2 (en) Grouping semantically related natural language specifications of system requirements into clusters
US11204707B2 (en) Scalable binning for big data deduplication
US20140095493A1 (en) Document relevancy analysis within machine learning systems
WO2008103961A1 (en) Diverse topic phrase extraction
AU2018205185A1 (en) Scalable font pairing with asymmetric metric learning
US20150324091A1 (en) Detecting valuable sections in webpage
CN106156357A (zh) 文本数据定向搜索方法
WO2011001584A1 (ja) 情報分類装置、情報分類方法及び情報分類プログラム
WO2020157728A1 (en) Search and ranking of records across different databases
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
Komninos et al. Structured generative models of continuous features for word sense induction
JP5039159B2 (ja) 情報分類システム、情報分類方法及びプログラム
JP2009252185A (ja) 情報検索装置、情報検索方法、制御プログラム及び記録媒体
CN106934007B (zh) 关联信息的推送方法及装置
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质
CN110020195A (zh) 文章推荐方法及装置、存储介质、电子设备
EP4002151A1 (en) Data tagging and synchronisation system
WO2015159702A1 (ja) 部分情報抽出システム
JP2004326600A (ja) 構造化文書のクラスタリング装置
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
US11755818B2 (en) Computer-readable recording medium storing design document management program, design document management method, and information processing apparatus

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111128

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5039159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350