JP3607462B2 - 関連キーワード自動抽出装置及びこれを用いた文書検索システム - Google Patents
関連キーワード自動抽出装置及びこれを用いた文書検索システム Download PDFInfo
- Publication number
- JP3607462B2 JP3607462B2 JP17682297A JP17682297A JP3607462B2 JP 3607462 B2 JP3607462 B2 JP 3607462B2 JP 17682297 A JP17682297 A JP 17682297A JP 17682297 A JP17682297 A JP 17682297A JP 3607462 B2 JP3607462 B2 JP 3607462B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- search
- unit
- related keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/917—Text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【産業上の利用分野】
本発明は、特定の文書集合から、その文書集合を特徴づける語句をキーワードとして抽出するための関連キーワード自動抽出装置、および前記関連キーワード自動抽出装置を利用した文書検索装置に関する。
【0002】
【従来の技術】
文書検索装置において、ユーザが必要とする文書を得るためには、適切な検索語を利用した検索式を入力する必要があるが、ユーザ自身が適切な検索語を想起し難い、という問題がある。そこで従来、ユーザが入力した検索語に対して、関連語辞書などを利用して検索語に関連する語を提示することにより、ユーザの再検索を助ける手法などが取られてきた。しかしながら、こうした手法はあらかじめ静的にさだめられた関連語辞書の性質に依存するため、検索対象となる文書の特性に即した関連語が得られない。また、得られた単語で検索した結果少なくとも1件以上の文書が得られることが保証されない、という欠点があった。
【0003】
【発明が解決しようとする課題】
本発明は前記の課題を解決するもので、特定された文書集合における各単語の出現頻度・分布などの統計情報と、検索対象文書全体における単語の統計情報とを考慮して単語の重要度を算出し、これにもとづいて単語をその重要度によってランキングし、ランクの一部である単語群を抽出することにより、実際の検索対象文書の特性に即し、かつ品質の高い関連キーワード群を高速かつ動的に抽出できる、関連キーワード自動抽出装置を提供することを目的とする。
【0004】
また、前記関連キーワード自動抽出装置から得られた関連キーワード群を利用して検索を実行した場合、少なくとも1件以上の検索結果が得られることを保証する文書検索装置及びこれらを用いた文書検索システムを提供することを目的とするものである。
【0005】
【課題を解決するための手段】
本発明は、上記目的を達成するため、関連キーワード自動抽出装置として、各文書に付与された属性情報やユーザが入力した検索式などに基づいて文書の部分集合を特定する文書集合選定部と、各単語の対象文書全体における統計情報や各文書ごとに出現する単語とその統計情報を管理する単語統計情報管理部と、各単語の全文書または各文書内統計情報を基に、特定された文書の部分集合に出現する各単語の重要度を算出して重要度の順に整列する単語ランキング部とを設け、単語統計情報管理部により、文書全体、および特定された文書部分集合における各単語の統計情報を高速に求めることが可能であり、特定された文書集合に出現する各単語を、その重要度の順に高速にランキングし、その一部を関連キーワードとして提示することができる。
【0006】
さらに、前記構成に加えて、単語の属性情報や文書内の出現位置を管理する手段などを設けることにより、単語の重みを変化させ、あるいはランキング後の単語群から特定の条件を満たす単語を削除することで、抽出される単語群の関連語としての精度を向上させることができ、また、抽出された単語群を、語の属性や統計的性質により分類することで、よりわかりやすい関連キーワード提示を行なうことができる。
【0007】
また本発明は、上記目的を達成するため、関連キーワード自動抽出装置と連携した文書検索装置を含む文書検索システムを構成し、抽出された関連キーワードを入力として再利用することにより、抽出された関連キーワードが対象文書の特性に合ったものであり、かつ検索対象が同一の文書群であるならば、そのキーワードによって検索結果が少なくとも1件以上得られることが保障されるため、効率的かつ容易に再検索を行なうことができる。
【0008】
【発明の実施の形態】
本発明の請求項1に記載の発明は、辞書を用いて対象文書集合の各文書に出現する単語または単語の組の出現頻度や分布などの統計情報があらかじめ抽出されている文書集合に対して、各文書に付与された属性情報やユーザが入力した検索式などに基づいて文書の部分集合を特定する文書集合選定部と、各単語の対象文書全体における統計情報、および各文書ごとの当該文書に出現する単語とその統計情報を管理する単語統計情報管理部と、各単語の全文書および各文書ごとの統計情報を基に、特定された部分集合に出現する各単語の重要度を算出して重要度の順に整列する単語ランキング部とを備えたものであり、整列された単語群のうちの特定部分のみについて、単語もしくは単語とその重要度の組を抽出し、これを再利用可能な形で提示するとともに、特定された部分集合Aに対して、これに含まれる部分集合Bが文書集合選定部により特定された場合に、部分集合Aに含まれる文書群に出現する単語の統計情報と部分集合Bに含まれる文書群に出現する単語の統計情報との両方を利用して部分集合Bに出現する各単語の重要度を算出して単語ランキングに反映するようにしたものである。
【0010】
本発明の請求項2に記載の発明は、請求項1に記載の関連キーワード自動抽出装置において、文書集合選定部に各文書の重みを付与する機能を設け、特定された文書集合の各文書に含まれる単語の重要度に当該文書の重みを加味することにより当該単語の重要度を算出して単語ランキングに反映するようにしたものである。
【0011】
本発明の請求項3に記載の発明は、請求項1または2に記載の関連キーワード自動抽出装置において、対象文書集合全体において出現度合いが高頻度または低頻度である単語をあらかじめ定められた閾値を考慮して関連キーワード抽出の対象から除外することにより、再利用の際に有効性の高い単語のみが選別できるようにしたものである。
【0013】
本発明の請求項4に記載の発明は、請求項1乃至3のいずれかに記載の関連キーワード自動抽出装置において、単語の出現位置や出現する文脈の情報を管理する出現情報管理部を有し、単語の重要度にその単語の出現情報の種類に応じてあらかじめ定められた重みを加味することにより当該単語の重要度を算出して単語ランキングに反映するようにしたものである。
【0014】
本発明の請求項5に記載の発明は、請求項1乃至4のいずれかに記載の関連キーワード自動抽出装置において、単語の品詞など、各単語の属性情報を管理する言語属性管理部を有し、当該単語の属性に応じてあらかじめ定められた重みを加味することにより当該単語の重要度を算出して単語ランキングに反映するようにしたものである。
【0015】
本発明の請求項6に記載の発明は、請求項1乃至5のいずれかに記載の関連キーワード自動抽出装置において、抽出された単語同士、またはあらかじめ指定された単語群と抽出された単語との間の文字列としての包含関係を、定められた条件により判定する文字列包含関係判定部を有し、当該単語同士に文字列としての包含関係があると判定された場合に、指定された条件に従って、長単位の文字列のみ、もしくは短単位の文字列のみ、もしくは重要度の高い方の文字列のみ、もしくは短単位の文字列および長単位の文字列と短単位の文字列との差分の双方、のいずれかを選択することにより、再利用の際に有効性の高い単語のみが選別できるようにしたものである。
【0020】
本発明の請求項7に記載の発明は、文書検索システムとして、辞書を用いて対象文書集合の各文書に出現する単語または単語の組の出現頻度や分布などの統計情報があらかじめ抽出されている文書集合に対して、文書検索に必要な条件式を入力する検索条件入力部と、入力された検索条件にしたがって対象文書集合から文書の検索を行なう文書検索部と、文書検索部において検索された文書について、入力された検索式と文書との間の適合度を計算する文書ランキング部とを有して成る文書検索装置と、前記文書検索装置に接続された関連キーワード自動抽出装置とから構成され、前記関連キーワード自動抽出装置には、請求項1乃至6のいずれかに記載の関連キーワード自動抽出装置が用いられたものであり、前記文書検索装置の文書ランキング部から出力されたランキング結果を関連キーワード自動抽出装置へ送付し、また関連キーワード自動抽出装置から文書検索装置の検索条件入力部へ関連キーワードをフィードバックしてキーワード検索を行なうようにしたものである。
【0021】
本発明の請求項8に記載の発明は、請求項7記載の文書検索システムにおいて、文書検索装置と関連キーワード自動抽出装置との間には文書集合選定部が設けられ、文書検索装置の文書ランキング部から出力されたランキング結果は文書集合選定部に送付されて文書の特定が行なわれ、前記関連キーワード自動抽出装置には、文書集合選定部が特定した文書の部分集合が入力されるようにしたものである。
【0023】
本発明の請求項9に記載の発明は、文書検索システムとして、文書検索に必要な条件式を入力する検索条件入力部と、入力された検索条件にしたがって対象文書集合から文書の検索を行なう文書検索部とを有して成る文書検索装置と、前記文書検索装置に接続された関連キーワード自動抽出装置とから構成され、前記関連キーワード自動抽出装置には、請求項1乃至6のいずれかに記載の関連キーワード自動抽出装置が用いられたものであり、前記文書検索装置の検索条件入力部は、ユーザが検索条件を入力するのに加えて関連キーワード自動抽出装置から送られてきた関連キーワードを検索条件として入力してキーワード検索を行なうようにしたものである。
【0025】
以下に、本発明の具体的な実施の形態について、添付の図面を参照して説明する。
【0026】
(実施の形態1)
最初に、本発明の第1の実施の形態について説明する。図1は本発明の第1の実施の形態に係る関連キーワード自動抽出装置の構成を示したブロック図である。まず、対象となる文書集合11に対し、辞書12を利用して、前処理として動作する統計情報抽出部13により、文書集合全体における単語の頻度・分布などの単語統計情報14、および各文書ごとの当該文書に含まれる単語の統計情報である文書内単語統計情報15を抽出しておく。図2(a)は単語統計情報の構造を示すテーブル構成図であり、図2(b)は文書内単語統計情報の構造を示すテーブル構成図である。単語統計情報14は、統計情報抽出部13によって抽出された単語の統計情報を例えば図2(a)に示すようなテーブルとして格納する。このテーブルを利用することにより、例えば単語「インターネット」の全文書中での総出現頻度や出現文書数を高速に求めることができる。また、文書内単語統計情報15は各文書ごとの単語の統計情報を例えば図2(b)に示すようなテーブルとして格納する。これにより、例えば文書番号0010には単語「インターネット」が5回、単語「WWW」が2回出現する、といった各文書ごとの統計情報を高速に求めることができる。
【0027】
関連キーワード自動抽出装置16は、文書全体の単語統計情報14および文書内単語統計情報15を管理する単語統計情報管理部17と、単語の重要度を算出する単語ランキング部18と、対象文書の部分集合を特定する文書集合選定部19と、文書集合選定部19への選定条件を入力する手段である条件入力部20とから構成される。
【0028】
かかる構成を有する関連キーワード自動抽出装置16の動作について以下説明する。最初に、条件入力部20に対して入力された条件により、文書集合選定部19が文書集合を特定する。文書集合は、次の3種類の手段のいずれかまたはその組み合わせにより特定される。
(1)文書の属性により文書集合を特定する。この場合、文書集合選定部19は文書の所属するジャンルなど、文書にあらかじめ付与された属性値により文書を選択する手段を有し、条件入力部20により指定された属性値に合致する文書群を部分集合として採用する。
(2)検索式により文書集合を特定する。この場合、文書集合選定部19は条件入力部20で入力された検索式に適合する文書を特定する文書検索手段を有し、これを利用して検索の結果得られる文書群を部分集合として採用する。なおその際、文書検索手段に検索式との適合度を判定して文書を適合度の順にランキングする機能があるならば、検索結果のうちの特定部分、例えば上位10文書を部分集合として採用しても良い。
(3)ユーザにより指定された文書集合。この場合、文書集合選定部19は条件入力部20においてユーザが直接指定した(複数の)文書を部分集合として採用する。
【0029】
文書集合選定部19は、以上により選定された文書集合を各文書を一意に決定する識別子の集合、例えば文書番号のリストとして単語統計情報管理部17に渡す。単語統計情報管理部17は、特定された文書集合に対して、文書ごとに文書番号から文書内単語統計情報14を調べ、当該文書に出現する単語とそれぞれの文書内の出現頻度を得る。次に得られた単語すべてについて単語統計情報15を調べ、当該単語の全文書における頻度や分布情報を得る。
【0030】
ここで得られた各種統計情報は単語ランキング部18に渡され、各単語の重要度が算出される。ある単語Wの重要度S(W)は、例えば次のようにして算出することができる。
【数1】
ただし
C :定数
n :特定された文書集合に含まれる文書数
TFj(W):文書Dj における単語Wの出現頻度
FN(W) :特定された文書集合中で単語Wを含む文書数
である。
【0031】
またIDF(W)は、単語Wのidf値と呼ばれる指標であり、例えば以下の式により計算される。
IDF(W)= 1−log(DF(W)/N)
ただし、
DF(W):文書全体において単語Wが出現する文書数
N :全文書数
である。
【0032】
IDF(W)は、単語Wがより多くの文書に出現する(すなわちより一般的な語である)場合にその値が小さくなる。これにより、対象文書全体において比較的よく出現する語の重要度を低く抑えることができる。さらにFN(W)を考慮することで、特定された文書集合に多く現れる単語の重要度を高くでき、結果その特定文書集合に特徴的な語に高い重要度を与えることができる。なお、上記算出法において、TF(W)をその単語が含まれる文書の文書サイズ(文字数や含まれる単語の異なり数など)や単語の総出現頻度などで正規化してもよい。
【0033】
単語ランキング部18は、特定された部分集合中の全文書に含まれる全単語について重要度計算を行い、その後全単語を重要度の順に整列する。最後に、整列された単語群から特定部分、例えば上位10単語を採用し、単語、もしくは単語とその重要度の組として提示する。なお、抽出の際に重要度だけでなく、重要度算出に利用した各種統計情報などを同時に提示してもよい。また、抽出された関連キーワードとその重要度の組を、例えばユーザの履歴として蓄積していくこともできる。このようにすることにより、ユーザの興味の範囲や嗜好などをキーワードとその重みのベクトルとして表現することが可能となり、このベクトルを他の操作、例えば文書集合の検索に利用するなど、広い応用が可能である。
【0034】
以上の計算式を利用すると、例えば図3に示す例のようにして関連キーワード自動抽出を行うことができる。この図3は関連キーワード自動抽出動作の処理手順の流れを示す図である。図3において、文書番号リスト31が入力された単語統計情報管理部17は、該当する文書番号(例えば0010、0341等)に出現する単語およびその頻度を文書ごとに出力し、文書内単語統計情報33,34,35を得る。同時に、ここで求められたすべての単語に対して、全文書中での統計情報32を得る。次にこれらの統計情報32、33、34、35が単語ランキング部18に渡される。単語ランキング部18では、各種統計情報32〜35を基に、例えば前記の式を利用して各単語の重要度を計算する。図3の場合だと、以下のようになる(ただし、Cを1、Nを10000とする)。
【0035】
単語ランキング部18では以上のように求められた重要度により単語を整列し、整列後の単語リスト37を得る。ここで、ランキングされた単語の上位3語を抽出するという指定になっているとすれば、単語リスト37における上位3語である「JAVA」「アプレット」「インターネット」が関連キーワードとして抽出される。
【0036】
以上では辞書に登録された一単語を抽出の対象としてきたが、一般に単語だけでなく、単語の組でもよい。単語の組とは、名詞の連続により構成される複合語や、助詞「の」で結ばれる名詞の組、助詞「を」「が」で結ばれる名詞と動詞の組などを指す。これらの統計情報が単語と同様に事前に抽出できているのであれば、上記で示した手法がそのまま適用でき、単語の組を関連キーワードとして抽出することができる。
【0037】
なお、関連キーワード入力装置16は、文書集合選定部19および条件入力部20を別構成としてもよい。特に文書集合選定部19が検索式による文書検索手段を有する場合には、後出の図7に示すような別構成とすることで、文書検索装置による文書番号を入力として受け、出力される関連キーワードを文書検索装置の検索式入力部に反映させることができる。
【0038】
このように、本実施の形態によれば、対象となる文書のうちの一部である文書の部分集合が特定された際、当該部分集合に含まれる各文書に出現する各単語それぞれについて重要度を計算して重要度の順に整列し、整列された単語群のうちの一部を抽出して関連キーワードとすることで、動的かつ高速に対象となる文書の特性に即した関連キーワードを求めることができるという効果を持つ。
【0039】
また、上記のようにして得られた関連キーワードは、同一文書を対象とする文書検索装置への入力として利用することができ、その場合、対象文書の特性にあった的確なキーワードを再利用できるだけでなく、当該関連キーワードは必ず対象文書に含まれることが保証されるため、これを利用して検索した場合に必ず検索結果が得られるという効果も持つ。
【0040】
また、得られた関連キーワードを同一の対象文書集合または別の対象文書集合を対象とする文書検索装置への入力として利用することができ、その場合には、関連キーワード抽出の対象となった文書集合において特徴的であるキーワードをもとに、同一または別の文書集合を検索することができ、特に別の文書集合を検索対象とする文書検索装置の場合に、当該キーワードを異なった特性を持つ文書集合に対しても適用することができるという効果をもつ。
【0041】
また、抽出されたキーワードをユーザに提示して選択させるという構成とすることで、ユーザが再検索を実行する際、キーボードから再度検索条件を入力する代わりに、関連キーワードを、例えばマウスのクリックなど単純な操作で選択することが可能となり、再検索における操作を軽減して検索の効率を高めると同時に、検索の操作に不慣れなユーザでも簡単に利用できるという効果を持つ。
【0042】
また、抽出された関連キーワードにその重要度も付加して提示することにより、例えば検索条件との適合度を計算して文書をランキングするような文書検索装置において、検索条件中の各単語に対して重みを付与することができる文書検索装置であれば、抽出されたキーワードとその重要度をそのまま入力とすることで、より高精度の検索結果を得ることができるという効果を持つ。
【0043】
また、抽出された関連キーワードとその重要度の組を、例えばユーザの履歴として蓄積していくことにより、ユーザの興味の範囲や嗜好などをキーワードとその重みのベクトルとして表現することが可能となり、このベクトルを他の文書集合の検索に利用するなど、広い応用が可能であるという効果も持つ。
【0044】
(実施の形態2)
次に、本発明の第2の実施の形態について実施の形態1に示したブロック図と同じ図1を利用して説明する。この第2の実施の形態では、文書集合選定部19が2種類の文書集合Aおよび文書集合Bを特定する。ここで、文書集合Bは文書集合Aの部分集合となっている。例えば、ある検索式で検索を行った結果得られる文書集合Aと、そのうちで関連する文書群としてユーザが指定した文書集合Bとが特定される場合や、文書の属性により特定された文書集合Aと、その中でさらに検索式により絞り込まれた文書集合Bとが特定される場合などである。
【0045】
この場合、例えば以下の式により算出される単語の分布指標を当該単語の重要度に乗算するなどの手法により、単語の重要度を算出する。
DI(A,B,W)= {(NA/DA(W))*(DB(W)/NB)}
ただし、
DA(W):部分集合Aにおける単語Wの出現する文書数
DB(W):部分集合Bにおける単語Wの出現する文書数
NA:部分集合Aの総文書数
NB:部分集合Bの総文書数
【0046】
これは、部分集合Bにおいて高い頻度で出現し、かつ部分集合Aにおける出現頻度が低いものほど高い値となる。上式において高い値となる語は部分集合Aにおいて部分集合Bの弁別性に大きく寄与するものであり、部分集合Bをより特徴づけるキーワードであるといえる。
例えば、図3に示す例において、文書番号リスト31が部分集合Bであるとし、これを含む部分集合A(総文書数100とする)も同時に指定されている場合で、部分集合A中の各単語の出現文書数が以下の通りであるとする。
【0047】
この場合各単語の重要度S2(W)は、実施の形態1で説明した各単語の重要度S(W)に各単語の重みDI(A,B,W)を乗算した値となり、以下のように計算される。
となり、重要度の順に整列すると
の順となる。したがって、上位3語を関連キーワードとして抽出するのであれば、「JAVA」「アプレット」「SUN」が関連キーワードとなる。
【0048】
上記の計算式は一例であり、部分集合Bにおいて高い頻度で出現し、かつ部分集合Aにおける出現頻度が低いものほど高い値となるような他の計算式を利用してもよい。
【0049】
このように、本実施の形態によれば、特定された2種類の部分集合間における頻度分布の差異を考慮することにより、より高精度な関連キーワードを得ることができるという効果を持つ。
【0050】
(実施の形態3)
次に、本発明の第3の実施の形態について実施の形態1に示したブロック図と同じ図1を利用して説明する。この第3の実施の形態では、文書集合選定部19に各文書の重みを付与する機能を設ける。例えば、ユーザが文書を指定する場合に、各文書に対して関連度を指標として5段階の評価値を与える場合や、検索式による検索の結果得られる文書が検索式との適合度によりランキングされている場合に1位に10点、2位に9点、といった重みを与える場合などである。単語ランキング部は各文書に付与された重みを、当該文書に含まれる単語に対して、例えば乗算するなどして加味し重要度算出を行う。なお、各文書に与える重みは負の値であってもよい。例えば、ユーザが文書を特定する際、関連する文書には2点、まったく関連しない文書には−1点を与える、という重み付与も許す。これにより、関連する文書にも関連しない文書にも含まれる(かつあまり一般的でない)語の重要度を低くすることができる。
【0051】
このように、本実施の形態によれば、特定した文書集合に含まれる各文書に対して重みを与えることにより、より重要な文書に含まれる単語ほど高い重要度となるような計算式とすることで、文書それぞれの重要度を勘案した高精度な関連キーワードが得られるという効果を持つ。
【0052】
(実施の形態4)
次に、本発明の第4の実施の形態について説明する。図4は本発明の第4の実施の形態に係る関連キーワード自動抽出装置のブロック図である。この第4の実施の形態では、第1の実施の形態の構成に加えて閾値設定部22を有して成り、この閾値設定部は単語統計情報管理部17との間でデータの送受ができるようになっている。また、この実施の形態においては、単語統計情報管理部17には閾値による単語除外機能が付与されている。かかる構成において、単語統計情報管理部17は各単語の統計情報を出力する際、あらかじめ定められた閾値設定22を参照し、極端に高頻度または低頻度の単語はその場で候補から除外して単語ランキング部18に当該単語の情報を出力しない構成とすることができる。例えば、閾値1を「全文書の50%以上に出現する単語」と設定し、閾値2を「1文書にしか出現しない単語」と設定することで、これらの単語が重要度算出に与える悪影響を事前に防ぐことができ、かつ処理の高速化を図ることができる。
【0053】
なおその際、単語の長さなど当該単語の特徴量に応じて、閾値を何種類かに設定してもよい。例えば、日本語の場合で「二文字以上の語は全体の50%以上、一文字の語は全体の30%以上」といった閾値設定を行うことで、各語の特性にあわせて除外する単語の範囲を設定する。
【0054】
このように、本実施の形態によれば、対象文書集合全体において出現度合いが高頻度または低頻度である単語をあらかじめ定められた閾値を考慮して除外することにより、キーワード抽出処理を高速化でき、かつ再利用の際に有効性の高い単語のみが選別できるという効果を持つ。
【0055】
(実施の形態5)
次に、本発明の第5の実施の形態について説明する。図5は本発明の第5の実施の形態に係る関連キーワード自動抽出装置の構成を示すブロック図である。この第5の実施の形態に係る関連キーワード自動抽出装置は、第1の実施の形態において説明したような、文書全体の単語統計情報14および文書内単語統計情報15を管理する単語統計情報管理部17、単語ランキング部18、対象文書の部分集合を特定する文書集合選定部19、および文書集合選定部19への選定条件入力手段である条件入力部20を有する基本構成に加えて、単語ランキング部18と連動して単語の属性などの各種情報を利用することにより、抽出される関連キーワード群の質を向上させることを目的とするものである。図5において、符号25は出現情報管理部、26は単語属性情報管理部、27は文字列包含関係判定部であり、これらの機能部は関連キーワード自動抽出装置29に含まれて単語ランキング部と連動する。また28は代表語付与部であり、この代表語付与部28は単語ランキング部18からデータを受けて関連キーワードを出力する。また、関連キーワード自動抽出装置29に対して、外部機能部として、対象文書集合11からのデータを基に単語が出現する位置の情報を抽出する単語出現位置情報抽出部23が設けられ、この単語出現位置情報抽出部23からは出現位置情報24が出力される。この出現情報は出現情報管理部25へ送付される。
【0056】
かかる構成を有する本発明の第5の実施の形態について、その動作を説明する。この実施の形態の動作においては、まず対象となる文書集合11に対し、辞書12を利用して、前処理として動作する統計情報抽出部13により、対象文書集合11全体における単語の出現頻度・分布などの単語統計情報14、および各文書ごとの当該文書に含まれる単語の統計情報である文書内単語統計情報15を抽出しておく。同時に、必要があれば単語位置情報抽出部23により、単語の出現位置情報24も抽出しておく。図6は単語出現位置情報抽出部23によって抽出された出現位置情報24のデータ構造の一例を表すテーブル構成図である。出現位置情報は例えば図6に示すようなテーブルとして格納される。各文書ごとにその文書に出現する単語と出現位置(例えば文書の先頭からのバイトオフセット)、出現区分などが格納される。
【0057】
そして関連キーワード自動抽出動作に際しては、各単語に対して出現情報管理部25に問い合わせを行い、当該単語の出現位置や出現文脈などの情報を得、これを重要度算出に加味する。例えば、検索対象とする文書すべてが、タイトル (または見出し)、サブタイトル、本文、といった要素から構成されている文書である場合、当該単語がこれら要素のうちいずれに含まれているかによって、
タイトルに含まれる場合には3点
サブタイトルに含まれる場合には2点
本文に含まれる場合には1点
といったような「重み」を各単語の重要度に乗算する、といった手法で重要度を算出する。
【0058】
あるいは、出現位置の情報を利用してもよい。例えば部分集合が検索式により特定される場合で、この検索式に含まれる単語が参照可能である場合、検索式に含まれる単語と、現在重要度計算の対象となっている単語との間の文字数が、
2文字以内なら3点
10文字以内なら2点
10文字以上なら1点
といったような「重み」を当該単語の重要度に乗算する、といった手法で重要度を算出することも可能である。
【0059】
また、本実施の形態の別の態様として、各単語に対して、単語属性情報管理部26に問い合わせを行い、当該単語の品詞や分類など、その単語の属性を得、これを重要度算出に加味する。例えば、当該単語の品詞に着目し、
固有名詞ならば5点
普通名詞ならば4点
形容詞、形容動詞ならば2点
動詞、副詞ならば1点
その他自立語でないもの(助詞、助動詞など)ならば0点
といったような「重み」を各単語の重要度に乗算する、といった手法で重要度を算出することも可能である。
【0060】
また、本実施の形態の別の態様として、ある2つの単語間の文字列としての包含関係を判定する文字列包含関係判定部27を用いて、抽出された単語同士、もしくはあらかじめ指定された単語群のうちの一単語と抽出された単語との間に包含関係があるか否かを判定し、包含関係があると判定された場合に、抽出する単語を制限する。ここであらかじめ指定された単語群とは、例えば部分集合の特定に検索式を利用した場合の検索式に含まれる単語などである。包含関係の判定においては、あらかじめ定められた設定により、以下の判定基準のいずれか一つ (または一つ以上)を満たす場合を包含関係と認定することができる。
(1)単語Aと単語Bとが前方において一致しかつ単語Aが単語Bより短い場合、
(2)単語Aと単語Bとが後方において一致しかつ単語Aが単語Bより短い場合、
(3)単語Aが単語Bの部分でありかつ前方、後方ともに一致しない場合、
(4)単語Aと単語Bとの関係が(1)〜(3)のいずれかを満たし、かつ単語Bの構成要素と完全に一致する場合、
【0061】
例えば、(1)の基準では「東京都」に対する「東京」が部分語と判定される。以下、同様にして、(2)の基準では「新発売」に対する「発売」が、(3)の基準では「大感謝祭」に対する「感謝」が、それぞれ部分語と判定される。 (4)の基準は、英語における部分語判定の際に重要であり、この基準に従えば ”artificial intelligence” に対して ”art” や ”tell” は部分語とはならないが、”artificail” や ”intelligence” は部分語と判定される。
【0062】
上記基準により、部分語関係にあると判定された2つの語について、そのどちらを関連キーワードとして採用するかについても、以下のいずれかの基準(あらかじめ設定されているものとする)に従う。
(1) 長単位の単語を採用する
(2) 短単位の単語を採用する
(3) 重要度の高い単語を採用する
(4) 短単位の単語および長単位の単語と短単位の単語との差分を採用する
【0063】
例えば、単語「東京都」が重要度10で、単語「東京」が重要度7でそれぞれ抽出され、かつ両者に部分語関係が成立した場合、(1)の基準に従うと文字列として長い「東京都」が採用され、(2)の基準に従うと文字列として短い「東京」が採用され、(3)の基準に従うとより重要度の高い「東京都」が採用されることになる。(4)の基準は、例えば単語 ”artificial intelligence” と ”artificial” との間に部分語関係が成立した場合に、”artificial” および ”intelligence” を関連キーワードとして採用するものであり、主に英語文書において効果的である。
【0064】
あらかじめ指定された単語群との間に部分語関係が成立する単語の場合、 (3)以外の手法が利用できる。その場合、「短単位(もしくは長単位)であれば関連キーワードとして採用しない」といった処理となる。抽出された単語同士に部分語関係が成立する場合には、いずれの手法も利用可能である。
【0065】
また、本実施の形態の別の態様として、抽出された関連キーワード群を、各語の属性や統計情報を利用して分類して提示する。語の属性として品詞を利用すると、例えば固有名詞とそれ以外に分類して提示することができる。あるいは、語の属性としてシソーラス辞書を利用し、各語をシソーラスにおける分類に対応する形で分類して提示することも可能である。また、統計情報を利用した分類とは、例えば特定された文書集合における各語の出現文書数により分類する手法などがあげられる。その場合、例えば「出現文書数が文書集合の8割以上であるか否か」といった基準で分類することで、その語が再検索に利用される際の絞り込みの効果を事前に確認することができる。なお、分類にあたり語の属性としてシソーラス辞書を利用する場合、分類された単語群に対して、シソーラスの上位ノードに相当する語を代表語として与え、単語群をその語で代表させることも可能である。同様に、単語の統計情報14を利用する場合には、分類された単語群において、例えば最も出現頻度の高い語を代表語として採用してもよい。
【0066】
このように、本実施の形態によれば、単語が出現した位置の情報を利用することで、文書の構造や単語間の距離の情報を考慮した関連キーワードの抽出が行なえ、高精度な関連キーワード抽出が可能となるという効果を持つ。
【0067】
また、単語の品詞など、各単語の属性情報を考慮することにより、各属性の特徴に応じた関連キーワードの抽出が行なえ、高精度な関連キーワード抽出が可能となるという効果を持つ。
【0068】
また、単語間の文字列としての包含関係を考慮することにより、同じような意味や用途である単語を排除して関連キーワードの抽出が行なえ、関連キーワード全体としての冗長性を抑えることができるという効果を持つ。
【0069】
また、抽出された関連キーワードを分類し、必要があれば各分類に対応する代表語を設定することで、抽出されたキーワードの一覧性や傾向、再利用の際の有効性などをあらかじめ確認して関連キーワードの抽出が行なえ、関連キーワードとしての使いやすさを向上することができるという効果を持つ。
【0070】
(実施の形態6)
次に、本発明の第6の実施の形態について説明する。図7は本発明の第6の実施の形態に係る文書検索装置の構成およびこれと関連キーワード自動抽出装置とを組み合わせて実現した文書検索システムの構成を示すブロック図である。この文書検索装置41は、前記第1,第2,第3、第4または第5の実施の形態に係る関連キーワード自動抽出装置と連携して動作するものである。
【0071】
本実施形態における文書検索装置41は、文書検索に必要な条件式を入力する検索条件入力部44と、入力された検索条件にしたがって文書の検索を行なう文書検索部45と、文書検索部45において検索された文書について入力された検索式と文書との間の適合度を計算する文書ランキング部46とを有して成る。この文書検索装置41は、連携して動作する関連キーワード自動抽出装置48と同一の対象文書集合11を検索対象とするものであり、単語統計情報抽出に利用するのと同一の辞書12を利用して、あらかじめ索引生成部42により作成された文書検索用の索引43を利用して検索を行う。また、本実施形態における関連キーワード自動抽出装置48は、文書集合選定部47を別構成としたものであり、関連キーワード自動抽出装置48には、文書集合選定部47が特定した文書の部分集合の各要素に対応する文書の識別子の集合(一意である文書番号のリストなど)が入力される。
【0072】
以上の構成を備えた本実施の形態について、その動作を説明する。最初に検索条件入力部44に入力された検索条件をもとに、文書検索部45が検索用索引43を参照して検索条件に適合する文書を特定する。ここで得られた文書集合をそのまま検索結果文書50としてもよいが、さらに文書ランキング部46において、入力された検索式と文書との間の適合度を計算して適合度の高い順に文書を整列したものを検索結果とする、といった構成にしてもよい。こうして得られた検索結果の文書集合50は、ユーザに検索結果として返すのと同時に、文書集合選定部47に渡される。文書選定部47では、文書ランキング部46から渡された文書集合のすべてまたは一部を関連キーワード自動抽出装置48への入力として採用する。文書が適合度の順にランキングされているのであれば、検索結果の文書集合のうち例えば上位10文書を選定する、という構成にしてもよい。また、あらかじめ文書ごとに付与された属性情報が利用できるのであれば、これを利用して特定の属性値を持つ文書のみを選定する、という構成としてもよい。
【0073】
文書集合選定部47により特定された文書の部分集合は関連キーワード自動抽出装置48に送られ、前記第1,第2,第3,第4または第5の実施の形態に示したような手順で関連キーワード群49を抽出する。こうして得られた関連キーワード群49は検索条件入力部44に戻され、ユーザに提示される。ユーザは提示された関連キーワード群から必要なものを選択して新たな検索条件とし、再度検索を実行させることができる。
これにより、本実施の形態によれば、関連キーワード自動抽出装置によって上記のようにして得られた関連キーワードは、同一文書を対象とする文書検索装置への入力として利用することができ、その場合、対象文書の特性にあった的確なキーワードを再利用できるだけでなく、当該関連キーワードは必ず対象文書に含まれることが保証されるため、これを利用して検索した場合に必ず検索結果が得られるという効果も持つ。
【0074】
(実施の形態7)
次に、本発明の第7の実施の形態について説明する。図8は本発明の第7の実施の形態に係る文書検索装置の構成およびこれと関連キーワード自動抽出装置とを組み合わせて実現した文書検索システムの構成を示すブロック図である。この文書検索装置51は、第6の実施の形態に係る文書検索装置41と同様、前記第1,第2,第3、第4または第5の実施の形態に係る関連キーワード自動抽出装置と連携して動作するものである。
【0075】
本実施形態における文書検索装置51は、文書検索に必要な条件式を入力する検索条件入力部54と、入力された検索条件にしたがって文書の検索を行なう文書検索部55とを有して成る。本実施形態における文書検索装置51は、連携して動作する関連キーワード自動抽出装置52とは異なる対象文書集合56を検索対象とするものであり、文書検索部55が対象文書集合56に接続される構成となっている。なお、その検索手法についての詳細は問わない。
【0076】
以上の構成を備えた本実施形態における動作について、以下説明する。最初に指定された条件にしたがって関連キーワード自動抽出装置52が動作し、関連キーワード群53を出力する。文書検索装置51における検索条件入力部54は、関連キーワード群53を入力としてユーザに提示し、ユーザは提示された関連キーワードのうち必要なもののみを選択して、検索対象となる対象文書集合56に対する検索を実行し、検索結果文書57を得ることができる。
【0077】
このように、本実施の形態によれば、関連キーワード自動抽出装置52によって得られた関連キーワードを同一の対象文書集合または別の対象文書集合を対象とする文書検索装置51への入力として利用することができ、その場合には、関連キーワード抽出の対象となった文書集合において特徴的であるキーワードをもとに、同一または別の文書集合を検索することができ、特に別の文書集合を検索対象とする文書検索装置の場合に、当該キーワードを異なった特性を持つ文書集合に対しても適用することができるという効果をもつ。
【0078】
【発明の効果】
以上説明したように、本発明によれば、関連キーワード自動抽出装置を、文書の部分集合を特定する文書集合選定部と、対象文書全体または個々の文書ごとに出現する単語とその統計情報を管理する単語統計情報管理部と、文書の部分集合に出現する各単語の重要度を算出して重要度の順に整列する単語ランキング部ととにより構成したため、文書全体、および特定された文書部分集合における各単語の統計情報を高速に求めることが可能であり、特定された文書集合に出現する各単語を、その重要度に基づいて高速にランキングし、その一部を関連キーワードとして提示することができる。
【0079】
また、前記構成に加えて、単語の属性情報や文書内の出現位置を管理する手段などを設けることにより、単語の重みを変化させ、あるいはランキング後の単語群から特定の条件を満たす単語を削除することで、抽出される単語群の関連語としての精度を向上させることができる。また、抽出された単語群を、語の属性や統計的性質により分類することで、よりわかりやすい関連キーワード提示を行なうことができる。
【0080】
さらに、関連キーワード自動抽出装置と連携した文書検索装置を含む文書検索システムを構成し、抽出された関連キーワードを入力として再利用することにより、抽出された関連キーワードが対象文書の特性に合ったものであり、かつ検索対象が同一の文書群であるならば、そのキーワードによって検索結果が少なくとも1件以上得られることが保障されるため、効率的かつ容易に再検索を行なうことができる等の効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1乃至第3の実施の形態に係る関連キーワード自動抽出装置の構成を示すブロック図
【図2】(a) 前記実施の形態における単語統計情報の構造を示すテーブル構成図
(b) 前記実施の形態における文書内単語統計情報の構造を示すテーブル構成図
【図3】前記実施の形態における関連キーワード自動抽出動作の処理手順の流れを示す図
【図4】本発明の第4の実施の形態に係る関連キーワード自動抽出装置の構成を示すブロック図
【図5】本発明の第5の実施の形態に係る関連キーワード自動抽出装置の構成を示すブロック図
【図6】前記実施の形態における単語出現位置情報抽出部によって抽出された出現位置情報のデータ構造の一例を表すテーブル構成図
【図7】本発明の第6の実施の形態に係る文書検索装置の構成構成およびこれと関連キーワード自動抽出装置とを組み合わせて実現した文書検索システムの構成を示すブロック図
【図8】本発明の第7の実施の形態に係る文書検索装置の構成およびこれと関連キーワード自動抽出装置とを組み合わせて実現した文書検索システムの構成を示すブロック図
【符号の説明】
11、56 対象文書集合
12 辞書
13 統計情報抽出部
14 単語統計情報
15 文書内単語統計情報
16、29、48、52 関連キーワード自動抽出装置
17 単語統計情報管理部
18 単語ランキング部
19 文書集合選定部
20 条件入力部
21、49、53 関連キーワード群
22 閾値設定
23 単語出現位置情報抽出部
24 出現位置情報
25 出現情報管理部
26 単語属性情報管理部
27 文字列包含関係判定部
28 代表語付与部
41、51 文書検索装置
42 索引生成部
43 検索用索引
44、54 検索条件入力部
45、55 文書検索部
46 文書ランキング部
47 文書集合選定部
50、57 検索結果文書
Claims (9)
- 辞書を用いて対象文書集合の各文書に出現する単語または単語の組の出現頻度や分布などの統計情報があらかじめ抽出されている文書集合に対して、各文書に付与された属性情報やユーザが入力した検索式などに基づいて文書の部分集合を特定する文書集合選定部と、各単語の対象文書全体における統計情報、および各文書ごとの当該文書に出現する単語とその統計情報を管理する単語統計情報管理部と、各単語の全文書および各文書ごとの統計情報を基に、特定された部分集合に出現する各単語の重要度を算出して重要度の順に整列する単語ランキング部とを有し、整列された単語群のうちの特定部分のみについて、単語もしくは単語とその重要度の組を抽出し、これを再利用可能な形で提示するとともに、特定された部分集合Aに対して、これに含まれる部分集合Bが文書集合選定部により特定された場合に、部分集合Aに含まれる文書群に出現する単語の統計情報と部分集合Bに含まれる文書群に出現する単語の統計情報との両方を利用して部分集合Bに出現する各単語の重要度を算出して単語ランキングに反映することを特徴とする関連キーワード自動抽出装置。
- 文書集合選定部に各文書の重みを付与する機能を設け、特定された文書集合の各文書に含まれる単語の重要度に当該文書の重みを加味することにより当該単語の重要度を算出して単語ランキングに反映することを特徴とする請求項1に記載の関連キーワード自動抽出装置。
- 対象文書集合全体において出現度合いが高頻度または低頻度である単語をあらかじめ定められた閾値を考慮して除外することにより、再利用の際に有効性の高い単語のみが選別できることを特徴とする請求項1または2に記載の関連キーワード自動抽出装置。
- 単語の出現位置や出現する文脈の情報を管理する出現情報管理部を有し、単語の重要度にその単語の出現情報の種類に応じてあらかじめ定められた重みを加味することにより当該単語の重要度を算出して単語ランキングに反映することを特徴とする請求項1乃至3のいずれかに記載の関連キーワード自動抽出装置。
- 単語の品詞など、各単語の属性情報を管理する言語属性管理部を有し、当該単語の属性に応じてあらかじめ定められた重みを加味することにより当該単語の重要度を算出して単語ランキングに反映することを特徴とする請求項1乃至4のいずれかに記載の関連キーワード自動抽出装置。
- 抽出された単語同士、またはあらかじめ指定された単語群と抽出された単語との間の文字列としての包含関係を、定められた条件により判定する文字列包含関係判定部を有し、当該単語同士に文字列としての包含関係があると判定された場合に、指定された条件に従って、長単位の文字列のみ、もしくは短単位の文字列のみ、もしくは重要度の高い方の文字列のみ、もしくは短単位の文字列および長単位の文字列と短単位の文字列との差分の双方、のいずれかを選択することにより、再利用の際に有効性の高い単語のみが選別できることを特徴とする請求項1乃至5のいずれかに記載の関連キーワード自動抽出装置。
- 辞書を用いて対象文書集合の各文書に出現する単語または単語の組の出現頻度や分布などの統計情報があらかじめ抽出されている文書集合に対して、文書検索に必要な条件式を入力する検索条件入力部と、入力された検索条件にしたがって対象文書集合から文書の検索を行なう文書検索部と、文書検索部において検索された文書について、入力された検索式と文書との間の適合度を計算する文書ランキング部とを有して成る文書検索装置と、前記文書検索装置に接続された関連キーワード自動抽出装置とから構成され、
前記関連キーワード自動抽出装置には、請求項1乃至6のいずれかに記載の関連キーワード自動抽出装置が用いられ、また、
前記文書検索装置の文書ランキング部から出力されたランキング結果を前記関連キーワード自動抽出装置へ送付し、また前記関連キーワード自動抽出装置から前記文書検索装置の検索条件入力部へ関連キーワードをフィードバックしてキーワード検索を行なうようにしたことを特徴とする文書検索システム。 - 前記文書検索装置と前記関連キーワード自動抽出装置との間には文書集合選定部が設けられ、前記文書検索装置の文書ランキング部から出力されたランキング結果は前記文書集合選定部に送付されて文書の特定が行なわれ、前記関連キーワード自動抽出装置には、文書集合選定部が特定した文書の部分集合が入力されることを特徴とする請求項7記載の文書検索システム。
- 文書検索に必要な条件式を入力する検索条件入力部と、入力された検索条件にしたがって対象文書集合から文書の検索を行なう文書検索部とを有して成る文書検索装置と、前記文書検索装置に接続された関連キーワード自動抽出装置とから構成され、
前記関連キーワード自動抽出装置には、請求項1乃至6のいずれかに記載の関連キーワード自動抽出装置が用いられ、
前記文書検索装置の検索条件入力部は、ユーザが検索条件を入力するのに加えて前記関連キーワード自動抽出装置から送られてきた関連キーワードを検索条件として入力してキーワード検索を行なうようにしたことを特徴とする文書検索システム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17682297A JP3607462B2 (ja) | 1997-07-02 | 1997-07-02 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
US09/106,748 US6212517B1 (en) | 1997-07-02 | 1998-06-30 | Keyword extracting system and text retrieval system using the same |
DE69833238T DE69833238T2 (de) | 1997-07-02 | 1998-07-01 | System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung |
EP98112174A EP0889419B1 (en) | 1997-07-02 | 1998-07-01 | Keyword extracting system and text retrieval system using the same |
CNB981159095A CN1198225C (zh) | 1997-07-02 | 1998-07-02 | 关键字提取系统及采用该系统的文本检索系统 |
KR1019980027734A KR100304335B1 (ko) | 1997-07-02 | 1998-07-02 | 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17682297A JP3607462B2 (ja) | 1997-07-02 | 1997-07-02 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1125108A JPH1125108A (ja) | 1999-01-29 |
JP3607462B2 true JP3607462B2 (ja) | 2005-01-05 |
Family
ID=16020456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17682297A Expired - Lifetime JP3607462B2 (ja) | 1997-07-02 | 1997-07-02 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US6212517B1 (ja) |
EP (1) | EP0889419B1 (ja) |
JP (1) | JP3607462B2 (ja) |
KR (1) | KR100304335B1 (ja) |
CN (1) | CN1198225C (ja) |
DE (1) | DE69833238T2 (ja) |
Families Citing this family (160)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3664874B2 (ja) * | 1998-03-28 | 2005-06-29 | 松下電器産業株式会社 | 文書検索装置 |
IL126373A (en) * | 1998-09-27 | 2003-06-24 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents |
JP2000132560A (ja) * | 1998-10-23 | 2000-05-12 | Matsushita Electric Ind Co Ltd | 中国語テレテキスト処理方法及び装置 |
JP3760057B2 (ja) * | 1998-11-19 | 2006-03-29 | 株式会社日立製作所 | 複数文書データベースを対象とした文書検索方法および文書検索サービス |
JP3603721B2 (ja) * | 1999-02-25 | 2004-12-22 | 日本電信電話株式会社 | データ検索支援方法及び装置及びデータ検索支援プログラムを格納した記憶媒体 |
US6408294B1 (en) * | 1999-03-31 | 2002-06-18 | Verizon Laboratories Inc. | Common term optimization |
US8275661B1 (en) | 1999-03-31 | 2012-09-25 | Verizon Corporate Services Group Inc. | Targeted banner advertisements |
WO2000058863A1 (en) | 1999-03-31 | 2000-10-05 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
US8572069B2 (en) | 1999-03-31 | 2013-10-29 | Apple Inc. | Semi-automatic index term augmentation in document retrieval |
JP2000298677A (ja) * | 1999-04-14 | 2000-10-24 | Canon Inc | 情報検索方法、情報検索装置および記憶媒体 |
JP3368237B2 (ja) * | 1999-04-14 | 2003-01-20 | キヤノン株式会社 | コード処理方法、端末装置及び記憶媒体 |
JP3327877B2 (ja) | 1999-04-14 | 2002-09-24 | キヤノン株式会社 | 情報提供方法、情報提供システム、端末装置および情報提供プログラムを格納した記憶媒体 |
JP3747133B2 (ja) | 1999-04-14 | 2006-02-22 | キヤノン株式会社 | 携帯端末及びその制御方法及びその記憶媒体 |
JP3376311B2 (ja) | 1999-04-14 | 2003-02-10 | キヤノン株式会社 | 情報提供方法および情報提供システム |
JP3558267B2 (ja) * | 1999-05-06 | 2004-08-25 | 株式会社エヌ・ティ・ティ・データ | 文書検索装置 |
WO2000068757A2 (en) * | 1999-05-07 | 2000-11-16 | Carlos Cardona | System and method for database retrieval, indexing and statistical analysis |
US7844594B1 (en) | 1999-06-18 | 2010-11-30 | Surfwax, Inc. | Information search, retrieval and distillation into knowledge objects |
US6718363B1 (en) * | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
JP3725373B2 (ja) * | 1999-08-04 | 2005-12-07 | 富士通株式会社 | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
US6701310B1 (en) * | 1999-11-22 | 2004-03-02 | Nec Corporation | Information search device and information search method using topic-centric query routing |
US6751612B1 (en) * | 1999-11-29 | 2004-06-15 | Xerox Corporation | User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine |
US20020059223A1 (en) * | 1999-11-30 | 2002-05-16 | Nash Paul R. | Locator based assisted information browsing |
NL1013793C1 (nl) * | 1999-12-08 | 2001-06-11 | Eidetica B V | Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. |
US6845369B1 (en) * | 2000-01-14 | 2005-01-18 | Relevant Software Inc. | System, apparatus and method for using and managing digital information |
JP4608740B2 (ja) * | 2000-02-21 | 2011-01-12 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
US7428500B1 (en) | 2000-03-30 | 2008-09-23 | Amazon. Com, Inc. | Automatically identifying similar purchasing opportunities |
US7007232B1 (en) * | 2000-04-07 | 2006-02-28 | Neoplasia Press, Inc. | System and method for facilitating the pre-publication peer review process |
US7555557B2 (en) * | 2000-04-07 | 2009-06-30 | Avid Technology, Inc. | Review and approval system |
US6912525B1 (en) * | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
US7062483B2 (en) * | 2000-05-18 | 2006-06-13 | Endeca Technologies, Inc. | Hierarchical data-driven search and navigation system and method for information retrieval |
US7035864B1 (en) | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
US7617184B2 (en) * | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US6876997B1 (en) | 2000-05-22 | 2005-04-05 | Overture Services, Inc. | Method and apparatus for indentifying related searches in a database search system |
US6883001B2 (en) * | 2000-05-26 | 2005-04-19 | Fujitsu Limited | Document information search apparatus and method and recording medium storing document information search program therein |
JP3870666B2 (ja) * | 2000-06-02 | 2007-01-24 | 株式会社日立製作所 | 文書検索方法および装置並びにその処理プログラムを記録した記録媒体 |
KR100408965B1 (ko) * | 2000-06-26 | 2003-12-06 | 주식회사쓰리소프트 | 검색조건을 추천하는 검색결과 제공방법 및 검색서버 |
KR20000063310A (ko) * | 2000-06-26 | 2000-11-06 | 민재기 | 통신망을 통한 명사의 순위 검색 시스템과 그 방법 |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6598040B1 (en) * | 2000-08-14 | 2003-07-22 | International Business Machines Corporation | Method and system for processing electronic search expressions |
JP2002189754A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
EP1217508A1 (en) | 2000-12-21 | 2002-06-26 | Xerox Corporation | Systems and computer program products for the display and operation of virtual three-dimensional books |
US7203673B2 (en) * | 2000-12-27 | 2007-04-10 | Fujitsu Limited | Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents |
WO2002069203A2 (en) * | 2001-02-28 | 2002-09-06 | The Johns Hopkins University | Method for identifying term importance to a sample text using reference text |
JP4671212B2 (ja) * | 2001-03-26 | 2011-04-13 | 株式会社リコー | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
US6681219B2 (en) * | 2001-03-29 | 2004-01-20 | Matsushita Electric Industrial Co., Ltd. | Method for keyword proximity searching in a document database |
CA2373568C (en) | 2001-04-26 | 2008-06-17 | Hitachi, Ltd. | Method of searching similar document, system for performing the same and program for processing the same |
US6795820B2 (en) * | 2001-06-20 | 2004-09-21 | Nextpage, Inc. | Metasearch technique that ranks documents obtained from multiple collections |
EP1276061A1 (en) * | 2001-07-09 | 2003-01-15 | Accenture | Computer based system and method of determining a satisfaction index of a text |
US6732092B2 (en) | 2001-09-28 | 2004-05-04 | Client Dynamics, Inc. | Method and system for database queries and information delivery |
CN1327334C (zh) * | 2001-11-08 | 2007-07-18 | 住友电气工业株式会社 | 文件分组装置 |
JP2003316807A (ja) * | 2002-04-23 | 2003-11-07 | Communication Research Laboratory | 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体 |
US7131117B2 (en) * | 2002-09-04 | 2006-10-31 | Sbc Properties, L.P. | Method and system for automating the analysis of word frequencies |
US7440941B1 (en) * | 2002-09-17 | 2008-10-21 | Yahoo! Inc. | Suggesting an alternative to the spelling of a search query |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7346493B2 (en) | 2003-03-25 | 2008-03-18 | Microsoft Corporation | Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system |
US7194460B2 (en) * | 2003-03-31 | 2007-03-20 | Kabushiki Kaisha Toshiba | Search device, search system, and search method |
JP4049317B2 (ja) | 2003-05-14 | 2008-02-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索支援装置およびプログラム |
US7359905B2 (en) * | 2003-06-24 | 2008-04-15 | Microsoft Corporation | Resource classification and prioritization system |
GB2403558A (en) * | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Document searching and method for presenting the results |
JP4552401B2 (ja) * | 2003-08-19 | 2010-09-29 | 富士ゼロックス株式会社 | 文書処理装置および方法 |
US20050060290A1 (en) * | 2003-09-15 | 2005-03-17 | International Business Machines Corporation | Automatic query routing and rank configuration for search queries in an information retrieval system |
US20050091194A1 (en) * | 2003-10-10 | 2005-04-28 | Jupp Peter A. | List acquisition method and system |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
KR100462292B1 (ko) * | 2004-02-26 | 2004-12-17 | 엔에이치엔(주) | 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템 |
US7672927B1 (en) | 2004-02-27 | 2010-03-02 | Yahoo! Inc. | Suggesting an alternative to the spelling of a search query |
US7716216B1 (en) | 2004-03-31 | 2010-05-11 | Google Inc. | Document ranking based on semantic distance between terms in a document |
JP4569178B2 (ja) * | 2004-06-03 | 2010-10-27 | 富士ゼロックス株式会社 | 分類符号処理装置 |
JP4569179B2 (ja) * | 2004-06-03 | 2010-10-27 | 富士ゼロックス株式会社 | ドキュメント検索装置 |
US7594277B2 (en) * | 2004-06-30 | 2009-09-22 | Microsoft Corporation | Method and system for detecting when an outgoing communication contains certain content |
JP4525224B2 (ja) * | 2004-07-26 | 2010-08-18 | 富士ゼロックス株式会社 | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
US7110949B2 (en) * | 2004-09-13 | 2006-09-19 | At&T Knowledge Ventures, L.P. | System and method for analysis and adjustment of speech-enabled systems |
US7043435B2 (en) * | 2004-09-16 | 2006-05-09 | Sbc Knowledgfe Ventures, L.P. | System and method for optimizing prompts for speech-enabled applications |
WO2006047790A2 (en) * | 2004-10-27 | 2006-05-04 | Client Dynamics, Inc. | Enhanced client relationship management systems and methods with a recommendation engine |
JP2006155275A (ja) * | 2004-11-30 | 2006-06-15 | Denso It Laboratory Inc | 情報抽出方法及び情報抽出装置 |
US7493273B1 (en) * | 2005-01-19 | 2009-02-17 | Earthtrax, Inc. | Method, medium, and apparatus for identifying similar auctions |
JP2006215916A (ja) * | 2005-02-04 | 2006-08-17 | Denso It Laboratory Inc | 映像閲覧装置及び映像閲覧方法 |
JP2006285460A (ja) * | 2005-03-31 | 2006-10-19 | Konica Minolta Holdings Inc | 情報検索システム |
JP2006331245A (ja) * | 2005-05-30 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索方法およびプログラム |
KR100657318B1 (ko) * | 2005-06-29 | 2006-12-14 | 삼성전자주식회사 | 이미지 선택방법 및 장치 |
JP4504878B2 (ja) * | 2005-06-30 | 2010-07-14 | 株式会社野村総合研究所 | 文書処理装置 |
WO2007011140A1 (en) * | 2005-07-15 | 2007-01-25 | Chutnoon Inc. | Method of extracting topics and issues and method and apparatus for providing search results based on topics and issues |
JP4314221B2 (ja) | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
US20070078833A1 (en) * | 2005-10-03 | 2007-04-05 | Powerreviews, Inc. | System for obtaining reviews using selections created by user base |
US7730081B2 (en) * | 2005-10-18 | 2010-06-01 | Microsoft Corporation | Searching based on messages |
US8019752B2 (en) * | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
JP4719921B2 (ja) * | 2005-11-15 | 2011-07-06 | 独立行政法人情報通信研究機構 | データ表示装置およびデータ表示プログラム |
US7620651B2 (en) * | 2005-11-15 | 2009-11-17 | Powerreviews, Inc. | System for dynamic product summary based on consumer-contributed keywords |
JP4172801B2 (ja) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
US7627559B2 (en) * | 2005-12-15 | 2009-12-01 | Microsoft Corporation | Context-based key phrase discovery and similarity measurement utilizing search engine query logs |
US8065286B2 (en) | 2006-01-23 | 2011-11-22 | Chacha Search, Inc. | Scalable search system using human searchers |
US7962466B2 (en) * | 2006-01-23 | 2011-06-14 | Chacha Search, Inc | Automated tool for human assisted mining and capturing of precise results |
US8266130B2 (en) * | 2006-01-23 | 2012-09-11 | Chacha Search, Inc. | Search tool providing optional use of human search guides |
US20070174258A1 (en) * | 2006-01-23 | 2007-07-26 | Jones Scott A | Targeted mobile device advertisements |
US8117196B2 (en) * | 2006-01-23 | 2012-02-14 | Chacha Search, Inc. | Search tool providing optional use of human search guides |
JP4699909B2 (ja) * | 2006-01-25 | 2011-06-15 | 株式会社野村総合研究所 | キーワード対応関係分析装置及び分析方法 |
JP2007265068A (ja) * | 2006-03-29 | 2007-10-11 | National Institute Of Information & Communication Technology | 文書差分検出装置及びプログラム |
US7716229B1 (en) | 2006-03-31 | 2010-05-11 | Microsoft Corporation | Generating misspells from query log context usage |
JP2007323238A (ja) * | 2006-05-31 | 2007-12-13 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
JP4948071B2 (ja) * | 2006-07-28 | 2012-06-06 | 三菱スペース・ソフトウエア株式会社 | コンテンツ検索装置及びコンテンツ検索プログラム |
WO2008059515A2 (en) * | 2006-08-01 | 2008-05-22 | Divyank Turakhia | A system and method of generating related words and word concepts |
CN100444591C (zh) * | 2006-08-18 | 2008-12-17 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
WO2008050649A1 (fr) * | 2006-10-23 | 2008-05-02 | Nec Corporation | Système, procédé et programme de récapitulation de contenu |
US20080113801A1 (en) * | 2006-11-13 | 2008-05-15 | Roland Moreno | Game based on combinations of words and implemented by computer means |
US8676802B2 (en) * | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
US7630978B2 (en) * | 2006-12-14 | 2009-12-08 | Yahoo! Inc. | Query rewriting with spell correction suggestions using a generated set of query features |
KR100906928B1 (ko) * | 2007-03-26 | 2009-07-10 | 엔에이치엔비즈니스플랫폼 주식회사 | 비즈니스 키워드에 대한 연관 요소를 반영하는 검색어 추천 서비스 방법, 컴퓨터 판독 가능 기록 매체 및 그 시스템 |
JP5332128B2 (ja) * | 2007-03-30 | 2013-11-06 | 富士通株式会社 | 情報検索装置、情報検索方法およびそのプログラム |
US20080300971A1 (en) * | 2007-05-30 | 2008-12-04 | Microsoft Corporation | Advertisement approval based on training data |
US20080313202A1 (en) * | 2007-06-12 | 2008-12-18 | Yakov Kamen | Method and apparatus for semantic keyword clusters generation |
JP4323561B2 (ja) * | 2007-08-08 | 2009-09-02 | パナソニック株式会社 | 番組検索支援装置およびその方法 |
JP4771485B2 (ja) * | 2007-08-20 | 2011-09-14 | 日本電信電話株式会社 | 文書間距離演算装置、プログラムおよび記録媒体 |
US8108405B2 (en) * | 2007-10-05 | 2012-01-31 | Fujitsu Limited | Refining a search space in response to user input |
US8694483B2 (en) * | 2007-10-19 | 2014-04-08 | Xerox Corporation | Real-time query suggestion in a troubleshooting context |
JP5315664B2 (ja) * | 2007-10-29 | 2013-10-16 | 沖電気工業株式会社 | 位置表現検出装置、プログラム、及び、記憶媒体 |
US7856434B2 (en) * | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
JP5104329B2 (ja) * | 2008-01-16 | 2012-12-19 | 大日本印刷株式会社 | ドキュメント検索システム |
US20090241165A1 (en) * | 2008-03-19 | 2009-09-24 | Verizon Business Network Service, Inc. | Compliance policy management systems and methods |
JP2009245179A (ja) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | 文書検索支援装置 |
JP4587236B2 (ja) * | 2008-08-26 | 2010-11-24 | Necビッグローブ株式会社 | 情報検索装置、情報検索方法、およびプログラム |
JP5380989B2 (ja) * | 2008-09-30 | 2014-01-08 | カシオ計算機株式会社 | 辞書機能を備えた電子装置およびプログラム |
US8468158B2 (en) * | 2008-11-06 | 2013-06-18 | Yahoo! Inc. | Adaptive weighted crawling of user activity feeds |
US8892574B2 (en) | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
US8112393B2 (en) * | 2008-12-05 | 2012-02-07 | Yahoo! Inc. | Determining related keywords based on lifestream feeds |
CN102308525B (zh) * | 2008-12-22 | 2014-11-26 | 意大利电信股份公司 | 通信网络中的数据丢失的测量 |
KR101065091B1 (ko) | 2009-02-17 | 2011-09-16 | 엔에이치엔(주) | 기여 점수에 기초한 문서 순위 결정 시스템 및 방법 |
JP5321258B2 (ja) * | 2009-06-09 | 2013-10-23 | 日本電気株式会社 | 情報収集システムおよび情報収集方法ならびにそのプログラム |
JP5261326B2 (ja) * | 2009-08-28 | 2013-08-14 | 日本電信電話株式会社 | 情報検索装置、情報検索プログラム |
CN102053977A (zh) * | 2009-11-04 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种搜索结果生成方法及信息搜索系统 |
US20120254071A1 (en) * | 2009-12-17 | 2012-10-04 | Nec Corporation | Text mining system, text mining method and recording medium |
US8788342B2 (en) | 2010-03-04 | 2014-07-22 | Yahoo! Inc. | Intelligent feature expansion of online text ads |
JP5362651B2 (ja) * | 2010-06-07 | 2013-12-11 | 日本電信電話株式会社 | 重要語句抽出装置及び方法及びプログラム |
CN102289436B (zh) * | 2010-06-18 | 2013-12-25 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN102014199A (zh) * | 2010-09-16 | 2011-04-13 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息显示方法及终端 |
KR101086566B1 (ko) | 2010-09-27 | 2011-11-23 | 엔에이치엔(주) | 문서 순위 점수의 동적 갱신을 위한 방법 및 장치 |
WO2012115031A1 (ja) * | 2011-02-22 | 2012-08-30 | 三菱電機株式会社 | 検索システム、検索システムの検索方法、情報処理装置、検索プログラム、対応キーワード管理装置および対応キーワード管理プログラム |
JP5044707B1 (ja) * | 2011-03-31 | 2012-10-10 | 株式会社東芝 | 情報処理システム、情報処理装置およびプログラム |
JP5248655B2 (ja) * | 2011-05-18 | 2013-07-31 | 株式会社東芝 | 情報処理装置およびプログラム |
US20130024459A1 (en) * | 2011-07-20 | 2013-01-24 | Microsoft Corporation | Combining Full-Text Search and Queryable Fields in the Same Data Structure |
US8572096B1 (en) * | 2011-08-05 | 2013-10-29 | Google Inc. | Selecting keywords using co-visitation information |
JP5639549B2 (ja) * | 2011-08-22 | 2014-12-10 | 日本電信電話株式会社 | 情報検索装置及び方法及びプログラム |
US20130110839A1 (en) * | 2011-10-31 | 2013-05-02 | Evan R. Kirshenbaum | Constructing an analysis of a document |
JP5595426B2 (ja) * | 2012-01-05 | 2014-09-24 | 日本電信電話株式会社 | 単語抽出方法及び装置及びプログラム |
JP5597653B2 (ja) * | 2012-01-05 | 2014-10-01 | 日本電信電話株式会社 | 単語抽出装置及び方法及びプログラム |
JP2012216239A (ja) * | 2012-07-12 | 2012-11-08 | Toshiba Corp | 情報処理装置、プログラムおよび情報検索方法 |
CN103678365B (zh) | 2012-09-13 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 数据的动态获取方法、装置及系统 |
TW201411379A (zh) * | 2012-09-14 | 2014-03-16 | Hon Hai Prec Ind Co Ltd | 搜索系統及方法 |
US9678993B2 (en) | 2013-03-14 | 2017-06-13 | Shutterstock, Inc. | Context based systems and methods for presenting media file annotation recommendations |
JP2014178965A (ja) * | 2013-03-15 | 2014-09-25 | Ntt Docomo Inc | 意味属性推定装置、意味属性推定方法及び意味属性推定プログラム |
US8935272B2 (en) | 2013-03-17 | 2015-01-13 | Alation, Inc. | Curated answers community automatically populated through user query monitoring |
CN104281603B (zh) * | 2013-07-05 | 2018-01-19 | 北大方正集团有限公司 | 字频分级统计方法及系统 |
JP6107513B2 (ja) * | 2013-07-29 | 2017-04-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
KR101541306B1 (ko) * | 2013-11-11 | 2015-08-04 | 주식회사 엘지씨엔에스 | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 |
US9875246B2 (en) | 2014-10-02 | 2018-01-23 | Liquid Presentation LLC | System and method for generating and displaying a cocktail recipe presentation |
JP5818391B2 (ja) * | 2014-10-29 | 2015-11-18 | シャープ株式会社 | 情報処理システムおよび電子機器 |
WO2017131753A1 (en) * | 2016-01-29 | 2017-08-03 | Entit Software Llc | Text search of database with one-pass indexing including filtering |
WO2020213776A1 (ko) * | 2019-04-19 | 2020-10-22 | 한국과학기술원 | 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기 |
JP6764973B1 (ja) * | 2019-04-25 | 2020-10-07 | みずほ情報総研株式会社 | 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム |
CN112084771B (zh) * | 2020-07-22 | 2024-06-18 | 浙江工业大学 | 一种基于地址的单字权重统计方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520362A (ja) * | 1991-07-10 | 1993-01-29 | Tokyo Electric Power Co Inc:The | 文書テキスト間の連鎖自動作成システム |
US5278980A (en) | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
JP2542464B2 (ja) * | 1991-09-20 | 1996-10-09 | 日本電信電話株式会社 | 文書検索装置 |
JPH05135107A (ja) * | 1991-11-14 | 1993-06-01 | Ricoh Co Ltd | 文書検索装置 |
JP2583386B2 (ja) | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
JP3361563B2 (ja) * | 1993-04-13 | 2003-01-07 | 松下電器産業株式会社 | 形態素解析装置及びキーワード抽出装置 |
JP3220885B2 (ja) | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
JPH07192010A (ja) * | 1993-12-27 | 1995-07-28 | Canon Inc | 文書処理装置 |
JPH08221448A (ja) * | 1995-02-10 | 1996-08-30 | Canon Inc | キーワード抽出装置 |
JPH08272822A (ja) * | 1995-03-29 | 1996-10-18 | Fuji Xerox Co Ltd | 文書登録装置及び文書検索装置 |
WO1997012334A1 (en) | 1995-09-25 | 1997-04-03 | International Compu Research, Inc. | Matching and ranking legal citations |
US5826261A (en) * | 1996-05-10 | 1998-10-20 | Spencer; Graham | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query |
-
1997
- 1997-07-02 JP JP17682297A patent/JP3607462B2/ja not_active Expired - Lifetime
-
1998
- 1998-06-30 US US09/106,748 patent/US6212517B1/en not_active Expired - Lifetime
- 1998-07-01 EP EP98112174A patent/EP0889419B1/en not_active Expired - Lifetime
- 1998-07-01 DE DE69833238T patent/DE69833238T2/de not_active Expired - Lifetime
- 1998-07-02 KR KR1019980027734A patent/KR100304335B1/ko not_active IP Right Cessation
- 1998-07-02 CN CNB981159095A patent/CN1198225C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0889419A2 (en) | 1999-01-07 |
US6212517B1 (en) | 2001-04-03 |
DE69833238T2 (de) | 2006-09-28 |
CN1206158A (zh) | 1999-01-27 |
KR100304335B1 (ko) | 2001-11-22 |
KR19990013736A (ko) | 1999-02-25 |
JPH1125108A (ja) | 1999-01-29 |
CN1198225C (zh) | 2005-04-20 |
EP0889419B1 (en) | 2006-01-18 |
EP0889419A3 (en) | 2000-03-22 |
DE69833238D1 (de) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3607462B2 (ja) | 関連キーワード自動抽出装置及びこれを用いた文書検索システム | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
JP3759242B2 (ja) | 特徴確率自動生成方法及びシステム | |
Yih et al. | Finding advertising keywords on web pages | |
US6594658B2 (en) | Method and apparatus for generating query responses in a computer-based document retrieval system | |
EP0751469B1 (en) | Automatic method of extracting summarization using feature probabilities | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
US6286000B1 (en) | Light weight document matcher | |
EP1012750A1 (en) | Information retrieval | |
CA2334616A1 (en) | Method and system for retrieving relevant documents from a database | |
JPH03172966A (ja) | 類似文書検索装置 | |
Fall et al. | Literature survey: Issues to be considered in the automatic classification of patents | |
JPH09101991A (ja) | 情報フィルタリング装置 | |
JP2001084255A (ja) | 文書検索装置および方法 | |
JP3198932B2 (ja) | 文書検索装置 | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
Kalaivani et al. | The effect of stop word removal and stemming in datapreprocessing | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Baruah et al. | Text summarization in Indian languages: a critical review | |
JP2970443B2 (ja) | 文書検索装置 | |
JP2006501545A (ja) | オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置 | |
Zheng et al. | An improved focused crawler based on text keyword extraction | |
JP3562243B2 (ja) | 文書検索装置 | |
Duan et al. | Dependency relation based detection of lexicalized user goals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040727 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041007 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071015 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081015 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091015 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091015 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101015 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111015 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121015 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |