[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2010282403A - 文書検索方法 - Google Patents

文書検索方法 Download PDF

Info

Publication number
JP2010282403A
JP2010282403A JP2009134934A JP2009134934A JP2010282403A JP 2010282403 A JP2010282403 A JP 2010282403A JP 2009134934 A JP2009134934 A JP 2009134934A JP 2009134934 A JP2009134934 A JP 2009134934A JP 2010282403 A JP2010282403 A JP 2010282403A
Authority
JP
Japan
Prior art keywords
document
search
question
index
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009134934A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2009134934A priority Critical patent/JP2010282403A/ja
Publication of JP2010282403A publication Critical patent/JP2010282403A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供する。
【解決手段】Q&Aシステム2で生じた質問文書Qnとこれに応答する回答文書Anとを対象として文書解析を行い、検索インデックスSIを作成する。この検索インデックスSIの重み付けは、単語出現頻度だけでなく、疑問又は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げる等の工夫をする。また、データベース3中の文書ファイルを対象として文書インデックスDIが作成される。文書インデックスも、単に単語出現頻度のみに依存した重み付けではなく、同一人物の作成に係る文書群において、複数の文書において使用されている単語について重み付けを上げる等の工夫をする。この検索インデックスSIと文書インデックスDIとを、検索アルゴリズムMに当て嵌めて合致度が算出され、データベース3中から質問文書に対するBEST文書が抽出される。
【選択図】図5

Description

本発明は、検索元の検索インデックスと検索先の文書インデックスとを適正に設定することで、ユーザが望む文書ファイルを的確に抽出することができるようにする文書検索方法に関する。
インターネット上や社内ネットワークのようなローカルネット上において、Q&Aシステムと呼ばれる通信ネットワークシステムが普及している。一般にQ&Aシステムは、あるユーザが質問文書を当該システム上に入力すると、前記質問をシステム上で閲覧した他のユーザが、自身の知識に基づき自発的に、前記質問に対する回答文書を当該システム上に入力するという運用がなされる。システムのユーザは、解決したい問題や知見したい情報についての質問を投稿すれば、それらに対する何らかのソリューションを当該システムから得ることができるという利点がある。
しかし、上記のQ&Aシステムでは、特定の質問文書に対するレスポンスという形で投稿される特定の回答文書という、非常に限られた範囲からしか回答を得ることができない。すなわち、求める問いに対するベストの回答文書が投稿されるとは限らず、さらには質問文書に対してレスポンスが付かない場合すらあり、ユーザは所望の情報を得ることができないことが多々ある。
ユーザが所望の情報を得る他の手法として、質問事象に関し自身が想起できるキーワードを設定して、所定のデータベースに検索をかける方法も存在する。この方法は、キーワードの入力という簡易な操作で情報を取得可能ではあるが、質問者の主観に依存して検索キーワードが設定されることから、ベストの回答を取得するための適切なキーワードが設定されないことが多く、なかなか所望の情報が得られないという不具合がある。そもそも質問者は、何が問題解決のキーワードであるかを認識していない場合が多く、適切なキーワード設定はもともと期待できない。
特許文献1には、新規の質問が発生したときに、当該質問文書に用いられているキーワードを用いてデータベースを検索し、過去の同様な質問及び回答のペアを抽出する検索方法が開示されている。この検索方法によれば、同種の質問に対する過去のQ&A事例が提示されることから、ベストの回答が得られやすくなることは確かである。
このような検索方法においては、検索元の質問文書に基づき作成される検索インデックス(キーワード)と、検索先のデータベースに蓄積されている多数の文書ファイルに基づき予め作成されている文書インデックスとを、所定の検索アルゴリズムを用いて照合させ、類似度の高い文書ファイルをヒット文書として抽出する手法が取られている。
特開2006−92473号公報
上記の検索方法によれば、ある程度の精度で質問文書に類似した文書を抽出することは可能である。しかし、ユーザが真に欲する回答文書を抽出することができる確率は、それほど高いものではなかった。すなわち、ユーザが抱える問題の解決に繋がる重要文書の抽出が、従来の検索方法では充分に行えないという問題があった。
本発明の目的は、上記の問題に鑑み、ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供することにある。
上記目的を達成する本発明の一の局面に係る文書検索方法は、検索先の第1データベースに蓄積されている多数の文書ファイルに基づき、文書インデックスを作成するステップと、検索元のクエリに基づき検索インデックスを設定するステップと、前記検索インデックスと前記文書インデックスとを照合させて、前記クエリに応じた文書ファイルを抽出するステップとを含み、前記文書インデックスを作成するステップは、前記第1データベースの中から、同一人が作成した文書群を抽出するステップと、前記文書群の各文書を文書解析し、これら文書中で使用されている単語を特定するステップと、前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いを求めるステップと、前記出現度合いが所定値よりも高い単語について重み付けを上げて、前記文書インデックスの重み付けを設定するステップと、を含むことを特徴とする(請求項1)。
この方法によれば、第1データベースの中から、同一人が作成した文書群が抽出され、前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いが求められる。一般に、ある事柄(単語)に関連する文書を多数記述している人物は、その事柄についての専門家であると推定することができる。そのような文書は、信憑性が高く、充実した文書であると期待できる。従って、同一人の作成に係る文書において出現の頻度が高い単語について重み付けを上げて文書インデックスを作成することで、その単語を含むクエリが与えられたときに、その者の作成に係る文書ファイル、つまり専門家の作成に係る文書ファイルの類似度を高くし、抽出され易くすることができる。これにより、ユーザが望む重要文書の抽出確率を向上させることができる。
上記方法において、前記単語を特定するステップにおいて、特定される単語が、名詞単語であることが望ましい(請求項2)。名詞単語は、他の品詞の単語に比較して、その事柄に端的に繋がることを表現している場合が多い。従って、この方法によれば、的確な文書インデックスの作成に寄与する。
この場合、前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞を備える文に含まれる前記名詞単語について重み付けを上げることが望ましい(請求項3)。例えば、「・・・ので、」、「・・・ため、」といった原因乃至は理由を示す接続助詞を含む文には、ある事柄についての主要な記述が含まれている可能性が高い。従って、このような文に含まれる名詞単語について重み付けを上げることで、かかる文を含む文書ファイルが抽出され易いようにすることができる。
或いは、前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞の直前に存在する前記名詞単語について重み付けを上げることが望ましい(請求項4)。一般に、原因乃至は理由を示す接続助詞の直前に、事柄のキーとなる名詞単語が配置されるケースが多い。従って、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることができる。
上記いずれかの方法において、前記検索元のクエリが、前記第1データベースとは異なる第2データベースに投稿された1の質問文書であって、前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書を文書解析して特定された単語に基づき作成されるようにすることができる(請求項5)。この方法によれば、ユーザが第2データベースに質問文書を投稿したことを端緒として、第1データベース中に潜在している有益な回答文書を抽出することが可能となる。
或いは、前記検索元のクエリが、さらに、前記質問文書に対して前記第2データベースに投稿された1又は複数の回答文書を含み、前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書及び回答文書を文書解析して特定された単語に基づき作成されるようにすることができる(請求項6)。
一般に質問者は、質問事象に関しあまり知識を持たず適切なキーワードを想起することが困難で、自ずと質問文書に用いられる単語も適切でない場合が往々として生じる。これに対し、回答者は、質問事象に関して比較的詳しい知識を有し(それゆえ回答文書を自発的に投稿する)、回答文書において質問事象に対する適切なキーワードが使用される可能性が高い。従って、回答文書に基づき検索インデックスを作成することで、質問事象に対して的確性を高めることができる。
この場合、前記質問文書において、疑問乃至は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項7)。例えば、「・・・でしょうか」というような疑問乃至は質問を示す終助詞を備える文には、ユーザが知見したい質問の本質的な記述が含まれている可能性が高い。従って、このような文に含まれる名詞単語について重み付けを上げ検索インデックスを作成することで、質問の本旨に沿った内容を含む文書ファイルが抽出され易いようにすることができる。
或いは、前記質問文書において、疑問乃至は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項8)。一般に、疑問乃至は質問を示す終助詞の直前に、質問事象のキーとなる名詞単語が配置されるケースが多い。従って、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることができる。
上記方法において、前記質問文書及び回答文書の全てにおいて前記単語の出現度合いを求め、前記出現度合いに応じて当該単語の重み付けを設定し、前記検索インデックスが作成されることが望ましい(請求項9)。この方法によれば、質問文書及び回答文書の全てを通して単語の出現頻度が評価されるので、客観性に優れた検索インデックスを作成することができる。
又は、前記回答文書が複数存在する場合において全ての回答文書に前記単語の出現度合いを求め、複数の前記回答文書に出現する単語について重み付けを上げて、前記検索インデックスの重み付けが設定されることが望ましい(請求項10)。複数の回答文書に同様に出現する単語は、その事柄において要点を為すと推定される。従って、そのような単語の重み付けを上げることで、的確な検索インデックスを作成することができる。
さらに、前記質問文書がタイトルを含む場合において、該タイトルに含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項11)。多くの場合、タイトルには質問の要点となる名詞単語が含まれるので、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与する。
本発明によれば、ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供することができる。従って、インターネット上に存在するQ&Aサイトの利用価値を高め、該サイトを活性化させることが可能となる。
図1は、本発明の文書検索方法が適用されるネットワークシステムのハードウェア構成を概略的に示す構成図である。 本発明の文書検索方法の概要を示す模式的なフローチャートである。 従来の検索インデックスの作成手法を説明するための模式図である。 従来の文書インデックスの作成手法を説明するための模式図である。 本発明の文書検索方法を概略的に示す模式図である。 検索インデックスの作成手法の実施形態を説明するための模式図である。 文書インデックスの作成手法の実施形態を説明するための模式図である。 検索モデルの例を示す表形式の図である。 ネットワークシステムの機能構成を示す機能ブロック図である。 ネットワークシステムの動作を示すフローチャートである。 検索インデックス作成動作の詳細を示すフローチャートである。 文書インデックス作成動作の詳細を示すフローチャートである。 文書検索の具体例を示す模式図である。
以下、図面に基づいて本発明の実施形態につき詳細に説明する。
図1は、本発明の文書検索方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、検索エンジン1と、インターネット(又はローカルな通信ネットワーク)上においてユーザ同士の質問文書及び回答文書の投稿を受け付けるQ&Aシステム2と、インターネット上において利用可能なデータベース3と、ユーザが利用する端末装置4とが、インターネットINを介してデータ通信可能に接続されてなる。
Q&Aシステム2は、インターネット上に展開された特定のウエブサイトであって、1人のユーザの質問文書の投稿(文書データ等の入力)を受け付けてこれを掲載すると共に、当該質問文書に対する他のユーザの回答文書、前記1人のユーザの再質問文書やお礼文書等も掲載するコミュニティサイトである。現行で運用されている同種のシステムとしては、例えば「Yahoo!知恵袋(登録商標)」、「教えて!Goo」、「OKwave」などを例示することができる。
データベース3は、インターネットに接続され、各種のHTMLファイルや画像ファイルなどが大量に記憶されているデータベースである。ここでは簡略的に図示しているが、データベース3は各々ドメイン名を持つ多数のウエブサイトの集合を示している。このようなデータベース3としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。
端末装置4は、Q&Aシステム2に会員登録されている多数のユーザに保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機41、42、43、44、45、・・・4nである。端末装置4は、インターネットINを介してデータベース3の各種ウエブサイトにもアクセス可能とされている。Q&Aシステム2のユーザは、各自の通信端末機41〜4nを介して、Q&Aシステム2に質問文書を投稿したり、その質問文書に対して回答文書を投稿したり、この回答文書に対して適宜なコメント文書を投稿したり、或いはこれら文書を単に閲覧したりすることが可能とされている。
検索エンジン1は、Q&Aシステム2及びデータベース3の双方にデータ通信可能に接続され、文書検索処理、インデックス作成処理及び文書解析処理等が実行可能なサーバ装置である。検索エンジン1は、あるユーザがQ&Aシステム2に投稿した1の質問文書に対する最適な回答内容を含む文書等(以下「BEST文書」と言うことがある)を、データベース3の中から、或いはQ&Aシステム2及びデータベース3の双方から検索する処理を行う。
図2は、検索エンジン1が実行する文書検索方法の概要を示す模式的なフローチャートである。検索エンジン1は、Q&Aシステム2に備えられているデータベースから、1の質問文書と、これに応答して投稿された1又は複数の回答文書とを抽出し、これら文書に対して先ず形態素解析等を含む文書解析処理を行う(ステップS1)。文書解析の対象とする文書は、回答文書のみでも良いが、検索に有益な単語を広くピックアップするという観点からは、質問文書及び回答文書の双方を対象とすることがより望ましい。
次いで検索エンジン1は、上記の文書解析処理で得られた単語をベースにして検索インデックスを作成する(ステップS2)。この検索インデックスは、主に質問事象に関連深い単語群からなり、各単語に所定の重み付けが付与されたものである。そして、当該検索インデックスを用いて、大量のデータを含むデータベース3に対して文書の検索処理を行う(ステップS3)。この検索処理の対象に、Q&Aシステム2に備えられているデータベースを含めるようにしても良い。
なお、データベース3の側においても、検索エンジン1による定期的な処理で、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)が行われている。この文書インデックスは、文書ファイルから抽出された単語群からなり、各単語に所定の重み付けが付与されたものである。検索元のステップS3における検索処理では、前記検索インデックスと検索先の文書インデックスとを使用し、所定の検索アルゴリズムを適用してクエリに対して類似度が高い文書ファイルをデータベース3から抽出する。ステップS3の検索処理で得られた結果は、前記1の質問文書を投稿したユーザの端末装置4に出力される(ステップS4)。
以上が、本実施形態に係る文書検索方法の概要であるが、ここで本実施形態との比較のために、検索インデックス及び文書インデックスの作成の従来手法について説明する。図3は、従来の検索インデックスの作成手法を、図4は、従来の文書インデックスの作成手法を説明するための模式図である。
図3には、Q&Aシステム2に投稿される質問文書及び回答文書の具体例を示している。ここでは、質問タイトルが「パソコンにモデムを接続するとモデムのランプが消える」という質問事象についての一つの質問文書と、これに対する3つの回答文書を例示している。ここでは、質問文書に対する回答を、Q&Aシステム2に投稿される本来の回答文書からだけではなく、汎用のデータベース3内の文書ファイル群(回答文書候補)からも抽出する例を示している。
検索インデックス作成の従来手法は、質問文書から例えば名詞単語を抽出し、その単語の質問文書中における出現頻度を重みとして作成する方法である。例えば、質問文書中の「モデム」という単語に着目すると、この単語は質問文書中に4回登場するので、その頻度(重み)=4として検索インデックスが作成される。例えば「USB」という単語ならば、質問文書中に1回しか登場しないので、重み=1となる。
図4に示すように、文書インデックスも同様にして作成される。すなわち、データベース3に含まれる回答文書候補の各文書ファイルから、例えば名詞単語を抽出し、その単語の当該文書ファイル中における出現頻度を重みとして文書インデックスが作成される。図4では、回答文書候補である「Aさんの文書」に、例えば「モデム」という単語が3回登場し、「ドライバ」という単語が1回登場している。従って、「モデム」の頻度(重み)=3、「ドライバ」の重み=1として文書インデックスが作成される。
このようにして作成された検索インデックスと文書インデックスとを、検索モデルと呼ばれる文書合致度算出式(検索アルゴリズム)に当て嵌めて、質問文書と回答文書候補との合致度が算出される。そして、この合致度が高い順に、ヒット文書のリストが作成されるものである。
このような単語出現頻度のみに依存した重み付けを採用した文書検索方法でも、ある程度の文書抽出精度は担保することはできる。しかし、質問者が真に望む、問題解決に繋がるBEST文書の抽出精度を高くするには限界がある。要因の一つは、質問に関わる事象に関して、その事象についての専門家が作成した文書も、素人が作成した文書も、単語の出現頻度が同じであれば同列に扱われてしまう点にある。当然、専門家の作成に係る文書の方が、質問者にとってのBEST文書である確率がはるかに高いのであるが、従来の検索方法では両者を実質的に区別することはできない。
本発明の実施形態に係る検索インデックス及び文書インデックスの作成方法は、このような問題を解消し、ユーザが真に欲する回答文書を抽出できる確率を向上させる重み付けを行う点に特徴を有する。図5は、本発明の実施形態に係る文書検索方法を概略的に示す図である。
本実施形態の文書検索方法では、Q&Aシステム2で生じた質問文書Qnとこれに応答する回答文書Anとを対象として文書解析を行い、検索インデックスSIを作成する。この検索インデックスSIは、従来方法のように単語出現頻度のみに依存した重み付けではなく、それ以外の要素を考慮して作成される特殊重み付けが付加された検索インデックスである。また、データベース3中の文書ファイルを対象として文書インデックスDIが作成される。この文書インデックスもまた、単に単語出現頻度のみに依存した重み付けではなく、それ以外の要素を考慮して作成される特殊重み付けが付加された文書インデックスである。このような検索インデックスSIと文書インデックスDIとを、検索アルゴリズムMに当て嵌めて合致度が算出され、データベース3中から質問文書に対するBEST文書が抽出される。
本実施形態では、上記インデックスの特殊重み付けの要素として次の(1)〜(8)の項目が考慮される。
[検索インデックスSIについて]
(1)質問文書のタイトルに含まれる名詞単語につき、重み付けを上げる。
(2)質問文書だけではなく回答文書も全て含めて、単語の出現頻度を算出する。
(3)質問文書において、疑問又は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げる。
(4)質問文書において、疑問又は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げる。
(5)複数の回答文書に出現する単語について、重み付けを上げる。
[文書インデックスDIについて]
(6)原因乃至は理由を示す接続助詞を備える文に含まれる名詞単語について重み付けを上げる。
(7)原因乃至は理由を示す接続助詞の直前に存在する名詞単語について重み付けを上げる。
(8)同一人物の作成に係る文書群において、複数の文書において使用されている単語について重み付けを上げる。
(9)文書のタイトルに含まれる名詞単語につき、重み付けを上げる。
図6は、検索インデックスSIの作成手法の実施形態を説明するための模式図である。ここで例示している質問タイトル、質問文書及び回答文書は、図3のものと同じである。上記の項目(1)の設定理由は、一般に質問タイトルには質問の要点となる名詞単語が含まれるので、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与すると考えられるからである。図6の例では、質問タイトルには、例えば符号51で示す「モデム」という名詞単語が出現する。この「モデム」について、1回出現すると単に頻度=1とカウントするのではなく、重みを少し上げてカウントすることで、当該名詞単語の重要性を検索インデックスSIに反映させるようにする。
上記の項目(2)は、質問文書及び回答文書の全てを通して単語の出現頻度を評価することで、客観性に優れた検索インデックスを作成することを企図した項目である。一般に、Q&Aシステム2において、質問事象について詳しい知識を持たない質問者は、適切なキーワードを設定できないことが多い。一方、回答者は、相応の知識を有することが想定されるので、その事象について適切なキーワードを用いて回答文書を作成している可能性が高い。一方、質問文書及び回答文書の双方において頻出している如き単語は、その事象において重要性が極めて高いと評価できる。図6の例では、例えば「モデム」という単語は、質問タイトル及び質問文書に出現しているだけでなく、回答文書1〜3の全てに登場している。従って、この「モデム」には、高い重み付けが与えられる。
上記の項目(3)は、例えば、「・・・でしょうか」、「・・・ですか」、「・・・ますか」というような疑問乃至は質問を示す終助詞を備える文には、ユーザが知見したい質問の本質的な記述が含まれている可能性が高いという推定に基づく項目である。図6の例では、符号54で示す「でしょうか」という語を含む文55は、「B社製モデムはサポートしていないのでしょうか」というものであるが、この文55に含まれる符号51、52、53でそれぞれ示す「モデム」、「B社」、「サポート」という名詞単語の重み付けが上げられる。これにより、質問の本旨に沿った内容を含む文書ファイルが抽出され易いようにすることができる。なお、この例では名詞単語「モデム」の重み付けが、上記項目(1)、(2)による上昇に加えて重畳的に上昇されることになる。
上記の項目(4)は、疑問乃至は質問を示す終助詞の直前に、質問事象のキーとなる名詞単語が配置されるケースが多く、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることを企図した項目である。図6の例では、文55において、符号54で示す「でしょうか」という語の直前に位置する符号53の名詞単語「サポート」が該当する。従って「サポート」については、項目(3)による重み付けに加えて、より高い重み付けが付与される。
上記の項目(5)は、複数の回答文書に同様に出現する単語は、その事柄において要点を為すとの推定に基づいた項目である。上述の通り、回答文書は、質問事象について相応の知識を有する者が作成することが想定されるので、このような回答文書に頻出する単語は、質問事象の要点を表現している可能性が高いと言える。図6で示す例では、符号56で示す名詞単語「ドライバ」が、回答文書1及び回答文書2で出現しており、この「ドライバ」については重み付けが上げられる。
図7は、文書インデックスDIの作成手法の実施形態を説明するための模式図である。上記の項目(6)は、例えば、「・・・ので、」、「・・・ため、」といった原因乃至は理由を示す接続助詞を含む文には、ある事柄についての主要な記述が含まれている可能性が高いとの推定に基づく項目である。図7では、一人のユーザである「Aさん」の作成に係る1つの文書60と、同じ「Aさん」の作成に係るその他の文書群60Aとを例示している。これら文書の文書ファイルは、データベース3に蓄積されている。ここで文書60に着目すると、符号61で示す「ため」という接続助詞を含む文62は、「A社製パソコンはB社製モデムを標準サポートしていないため、」というものであるが、この文62に含まれる符号63、64でそれぞれ示す「モデム」、「サポート」という名詞単語、さらには「A社」、「B社」、「パソコン」といった名詞単語の重み付けを上げて文書インデックスDIが作成される。これにより、検索インデックスSIが、例えば高い重みで「モデム」という単語を含むとき、文書60が抽出され易いようにすることができる。
上記の項目(7)は、上掲の「・・・ため」のような、原因乃至は理由を示す接続助詞の直前に、事柄のキーとなる名詞単語が配置されるケースが多いことに着目した項目である。図7の文書60では、文62において、符号61で示す「ため」という接続助詞の直前に位置する符号64の名詞単語「サポート」が該当する。従って「サポート」については、項目(6)による重み付けに加えて、より高い重み付けが付与される。このようにして文書インデックスDIを作成しておけば、上記の項目(4)のルールに従って作成された検索インデックスSIとの合致率が高くなる。
上記の項目(8)は、ある事柄(単語)に関連する文書を多数記述している人物は、その事柄についての専門家であるとの推定に基づく項目である。図7に示すように、「Aさん」は、データベース3に蓄積された一つの文書60において、符号63、65でそれぞれ示すように「モデム」、「ドライバ」という名詞単語を使用している。また、データベース3に蓄積された「Aさん」の作成に係るその他の文書群60Aにおいても、符号63で示す名詞単語「モデム」は文書601〜603の全てで、符号65で示す名詞単語「ドライバ」は文書602、603でも使用されている。
これらの文書群から、「Aさん」という人物は、「モデム」、「ドライバ」という用語が汎用される事柄についての専門家と推定することができ、「Aさん」の作成に係る文書は、信憑性が高く、充実した文書であると期待できる。かかる文書は、質問事象の解決に繋がる重要文書である可能性が高い。そこで、ここでは「モデム」、「ドライバ」という名詞単語の重み付けを上げて文書インデックスを作成する。これにより、名詞単語「モデム」、「ドライバ」を含むクエリ(検索インデックスSI)が与えられたときに、その者の作成に係る文書ファイル、つまり専門家であると推定される「Aさん」の作成に係る文書ファイルの類似度を高くし、抽出され易くすることができる。
上記の項目(9)は、項目(1)と実質的に同じ観点に立脚したもので、一般に文書タイトルにはその文書の内容の要点となる名詞単語が含まれ、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与する可能性が高いからである。
次に、図8は、検索モデルの例を示す表形式の図である。ここでは、図7に示す検索アルゴリズムMとして適用可能な検索モデルを例示している。この種の検索モデルとして最も普及しているベクトル空間モデルは、コサイン尺度である。本発明者の研究によれば、コサイン尺度は、複数の単語を含むクエリを与えたときに、より多くの種類の単語が合致する文書である程、合致度合いが高くなる傾向がある。すなわち、まんべんなく単語が合致している文書が、クエリを満たす度合いが高いと評価する傾向がある。
しかし、ある種の問題に対する回答文書を得ようとするQ&Aシステム等においては、まんべんなく単語が合致している文書よりも、キーとなる特定の単語について合致している文書の方が、有益な場合が多い。この点に鑑み、既存の検索モデルを試行したところ、Dice係数は、ある文書に対して、合致する単語の種類は少なくても、特定の単語の合致度が高ければ、クエリを満たす度合いが高いと評価する傾向があること、つまり、まんべんなく単語が合致しているというよりも、重みの高い単語同士の合致率が高い程、順位の高い文書と扱うことができる検索モデルであることを本発明者は見出した。従って、本実施形態では、Dice係数モデルを、検索アルゴリズムとして用いることが検索精度を上げる点で好ましい。勿論、重みの高い単語同士の合致率が高い文書を順位の高い文書と評価できる限りにおいて、他の検索アルゴリズムも好ましく用いることができる。
続いて、本実施形態に係るネットワークシステムSの詳細構成を説明する。図9は、ネットワークシステムSの機能構成を示す機能ブロック図である。検索エンジン1は、例えば上記の文書解析処理及び検索処理等を行うCPU(中央演算処理装置)を備えた大型のコンピュータ装置である。前記CPUは、上記の処理を行うべくプログラミングされたソフトウェアが実行されることで、図9に示す機能部を具備するように動作する。検索エンジン1は、機能的に第1処理部11、第2処理部12、検索処理部13及び出力処理部15を備えている。
先に図1に基づき説明した通り、ネットワークシステムSには、上記の検索エンジン1以外に、Q&Aシステム2、データベース3(第1データベース)及び端末装置4が含まれている。Q&Aシステム2は、ユーザが質問文書や回答文書等を入力するQ&Aサイト21と、これら質問文書及び回答文書等を記憶するQ&A文書データベース22(第2データベース)とを備える。データベース3は、各種の文書データが記憶された複数のウエブサイト(ウエブサーバ)31、32、・・・3nを含む。また、端末装置4は、キーボードやマウス等からなる操作部41と、液晶ディスプレイパネル等からなる表示部42と、プリンタ等からなる出力部43とを備えている。
検索エンジン1の第1処理部11は、検索元となる質問文書(クエリ)や回答文書等に基づいて、検索インデックスを作成する処理を行う。第1処理部11は、文書抽出部111、文書解析部112及び検索インデックス作成部113を備えている。
文書抽出部111は、Q&Aシステム2のQ&A文書データベース22に記憶されている1の質問文書と、この質問文書に対応付けてQ&Aサイト21に投稿された1又は複数の回答文書とのペアを抽出する。文書抽出部111は、質問文書を起点としてQ&Aサイト21上に形成されたスレッド全体の文書を取り込むようにしても良いし、質問文書に対して直接回答している文書を取り込むようにしても良い。
文書解析部112は、文書抽出部111が抽出した質問文書及び回答文書に対して少なくとも形態素解析を含む文書解析して、自立する単語を抽出する処理を行う。具体的には文書解析部112は、各解析対象文書の正規化処理、文書構造解析処理などを行う。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。このような文書構造解析処理のため、文書解析部12は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用する。
検索インデックス作成部113は、文書解析部112により抽出された単語から検索インデックスを作成する処理を行う。例えば、文書解析部112が「モデム」、「ドライバ」、「サポート」などを自立する単語として抽出した場合、検索インデックス作成部113は、これら単語の出現頻度に基づく重み付けと、上記で説明した項目(1)〜(5)に従って付加される重み付けとを加算して、検索インデックスを作成する。この検索インデックスは、図略のメモリ部で保管される。
第2処理部12は、検索先となる文書ファイル、つまりデータベース3に蓄積されている文書ファイルを文書解析して、文書インデックスを作成する処理を行う。第2処理部12は、DB文書抽出部121、DB文書解析部122及び文書インデックス作成部123を備えている。
DB文書抽出部121は、データベース3(ウエブサイト31、32、・・・3n)に格納されている文書ファイルを、ユーザID等に関連付けて、同一人の作成に係る文書群の単位で抽出する。この抽出は、所定の周期で定期的に実行される。
DB文書解析部122は、複数のウエブサイト31、32、・・・3nに各々存在する文書を統合・編集してデータを共通化し、これらの文書に対して、正規化処理、形態素解析及び同義語処理などの文書解析処理を行う。この処理は、上述の文書解析部112のものと同様である。かかる文書解析処理により、文書タイトルや著者、自立する単語(キーワード)が導出される。
文書インデックス作成部123は、DB文書解析部122により抽出された単語から、文書インデックスを作成する処理を行う。例えばDB文書解析部122が、「モデム」、「ドライバ」、「サポート」などを自立する単語として抽出した場合、文書インデックス作成部123は、これら単語の出現頻度に基づく重み付けと、上記で説明した項目(6)〜(9)に従って付加される重み付けとを加算して、文書インデックスを作成する。この文書インデックスは、図略のメモリ部で保管される。
上記の項目(8)の重み付けを設定する場合、文書インデックス作成部123は、同一人の作成に係る文書群の各文書で使用されている単語を特定し、一の文書で特定された単語が他の文書において出現している出現度合いを求める。図7の例では、文書60において出現する「モデム」という単語が、他の文書601〜603においても出現しているか否かを判定し、その出現度合いを求める。そして、前記出現度合いが所定値よりも高い単語について重み付けを上げて、文書インデックスの重み付けを設定する。図7では、「モデム」という単語は、他の文書601〜603の全てに登場するので、「モデム」の重み付けは相応の高い値に設定される。
検索処理部13は、データベース3を検索対象として、検索インデックス作成部113が作成した検索インデックスと、文書インデックス作成部123が作成した文書インデックスとを、検索アルゴリズムに当て嵌めて合致度を算出する検索処理を行う。検索アルゴリズムとしては、コサイン尺度、Dice係数、Jaccard係数、Tスコア、相互情報量、Simpson係数などを例示できるが、上述の通り好ましい検索アルゴリズムはDice係数である。検索処理部13は、前記検索処理によって合致度が所定値よりも高いと判定された文書ファイルのタイトル等を抽出する。
出力処理部14は、検索処理部13によるデータベース3の検索によりヒットした文書(推奨文書)のリストを作成する。このリストは、クエリに対する合致が高い順に並べられたリストであって、当該質問文書を投稿したユーザの端末装置4へ送信される。
端末装置4の表示部42には、出力処理部14から送信される検索ヒット文書(推奨文書)のリストが表示される。ユーザは、操作部41により、前記リスト中から所望の文書に選択指示を与える操作を行うことができる。選択指示が与えられると、端末装置4はデータベース3に直接アクセスし、選択に係る文書に対してブラウジング(出力要求)し、その内容を表示部42に表示させる。さらに、操作部41からプリント要求が与えられた場合は、出力部43から当該文書のプリント処理を行う。
上記で説明した検索エンジン1の処理動作を、図10に示すフローチャートに基づいて説明する。第1処理部11の文書抽出部111により、Q&A文書データベース22から質問文書が抽出され、該質問文書に対して文書解析部112により文書解析処理として順次、正規化処理(ステップS11)、形態素解析処理(ステップS12)、及び同義語処理(ステップS13)が実行される。
また、前記質問文書に関連付けられて、Q&A文書データベース22に回答文書が記録されていれば、この回答文書に対しても、正規化処理(ステップS14)、形態素解析処理(ステップS15)、及び同義語処理(ステップS16)が実行される。これにより、質問文書及び回答文書について検索キーワードとなり得る単語が抽出される。なお、文書抽出部11による質問文書及び回答文書の抽出は、Q&Aサイト21へ入力される毎でも良いし、定時的(例えば毎日24:00時など)であっても良い。
次いで、検索インデックス作成部113により、先の文書解析処理により抽出された単語をベースとして、該単語の出現頻度、及び上記の項目(1)〜(5)に基づいた重み付けを付加して、検索インデックスが作成される(ステップS18)。この検索インデックスは、図略のメモリ部で一時的に保管される。
一方、第2処理部12の側では、定時的な処理により、データベース3に含まれる文書のインデックスが並行して作成される。すなわちDB文書抽出部121がデータベース3から文書ファイルをユーザID毎に文書群を抽出し、DB文書解析部122がデータベース3内の文書データを共通化するため、統合・編集処理を行う(ステップS21)。そして、これらの文書に対して、DB文書解析部122が、正規化処理(ステップS22)、形態素解析処理(ステップS23)、及び同義語処理(ステップS24)を含む文書解析処理を行う。
そして、文書インデックス作成部123により、文書解析処理により抽出された単語等に基づいて、文書インデックスが作成される(ステップS25)。この文書インデックスは、先の文書解析処理により抽出された単語をベースとして、該単語の出現頻度、及び上記の項目(6)〜(9)に基づいた重み付けを付加して作成される。作成された文書インデックスは、図略のメモリ部に記憶される(ステップS26)。
続いて、検索処理部13が、ステップS18で作成された検索インデックスを用いて、ステップS25で作成された文書インデックスに対する文書検索を行う(ステップS31)。この文書検索によりヒットした文書(推奨文書)のリストが、出力処理部14により作成される(ステップS32)。そして、該リストは、質問文書を投稿したユーザの端末装置4へ送信される(ステップS33)。
端末装置4の操作部41により、前記リスト中から所望の文書に選択指示を与えられた場合(ステップS34)、端末装置4はデータベース3に当該選択文書の出力要求を行う。この出力要求に呼応して、選択文書の内容が表示部42に表示されたり、或いは出力部43により当該文書のプリント処理が行われたりする(ステップS35)。
図11は、図10のステップS17の検索インデックス作成処理(検索インデックス作成部113の動作)の一例を示すフローチャートである。先ず、各質問文書の投稿毎に与えられる質問要求番号に対応したカウンタqが、q=0と設定される(ステップS41)。その後、カウンタq=q+1とインクリメントされ(ステップS42)、q番目の質問文書及び回答文書の文書解析データが取得される(ステップS43)。
続いて、質問文書及び回答文書毎に名詞単語、終助詞が特定され(ステップS44)、名詞単語の出現度合いが導出される(ステップS45)。この処理で得られる出現度合いの値は、上記の項目(2)に基づく重み付けに使用される。さらに、「・・・でしょうか」というような終助詞を含む文の特定、及び終助詞と名詞単語との位置関係が特定される(ステップS46)。この処理で得られるデータは、上記の項目(3)、(4)に基づく重み付けに使用される。
次に、回答文書の数が1を超過しているか否かが判定される(ステップS47)。2以上存在する場合(ステップS47でYES)、複数の回答文書間における名詞単語の出現度合いが導出される(ステップS48)。この処理で得られる出現度合いの値は、上記の項目(5)に基づく重み付けに使用される。なお、回答文書の数が1以下である場合は(ステップS47でNO)、ステップS48はスキップされる。
その後、質問文書にタイトルが存在するか否かが確認される(ステップS49)。図6に例示するような「質問タイトル」が存在する場合は、そのタイトルに使用されている名詞単語が特定される(ステップS50)。この処理で得られるデータは、上記の項目(1)に基づく重み付けに使用される。タイトルが存在しない場合は(ステップS49でNO)、ステップS50はスキップされる。
しかる後、各々の名詞単語に重み付けが設定される(ステップS51)。勿論、名詞単語以外の単語も検索インデックスに加えると共に、これらにも重み付けを付与するようにしても良い。この重み付けの詳細は、上記の項目(1)〜(5)でそれぞれ説明した通りである。そして、この重み付けを含む検索インデックスの関連データがメモリに記録される(ステップS52)。以下、カウンタqが最終であるか否かが判定され(ステップS53)、最終である場合は(ステップS53でYES)、処理を終了する。一方、最終でない場合は(ステップS53でNO)、ステップS42に戻って、q+1番目の質問要求に対して同様の処理が繰り返される。
図12は、図10のステップS25の文書インデックス作成処理(文書インデックス作成部123の動作)の一例を示すフローチャートである。先ず、データベース3への文書の投稿者毎に付与される作成者IDに対応したカウンタpが、p=0と設定される(ステップS61)。その後、カウンタp=p+1とインクリメントされ(ステップS62)、p番目の作成者を対象とした処理が以下で実施される。
当該作成者がデータベース3へ投稿した文書毎に付与される文書IDに対応したカウンタdが、d=0と設定される(ステップS64)。その後、カウンタd=d+1とインクリメントされ(ステップS64)、当該作成者についてのd番目の文書ファイルデータが取得される(ステップS65)。
続いて、d番目の文書ファイルについて名詞単語、接続助詞が特定され(ステップS66)、名詞単語の出現度合いが導出される(ステップS67)。この処理で得られる出現度合いの値は、上記の項目(8)に基づく重み付けに使用される。さらに、「・・・ため」というような接続助詞を含む文の特定、及び接続助詞と名詞単語との位置関係が特定される(ステップS68)。この処理で得られるデータは、上記の項目(6)、(7)に基づく重み付けに使用される。
その後、d番目の文書ファイルにタイトルが存在するか否かが確認される(ステップS69)。当該文書ファイルにタイトルが存在する場合(ステップS69でYES)は、そのタイトルに使用されている名詞単語が特定される(ステップS70)。この処理で得られるデータは、上記の項目(9)に基づく重み付けに使用される。タイトルが存在しない場合は(ステップS69でNO)、ステップS70はスキップされる。
その後、各々の名詞単語に一次的な重み付けが設定される(ステップS71)。この重み付けの詳細は、上記の項目(6)、(7)、(9)でそれぞれ説明した通りである。そして、この重み付けを含む文書インデックスの関連データがメモリに記録される(ステップS72)。続いて、カウンタdが最終であるか否かが判定され(ステップS73)、最終でない場合は(ステップS73でNO)、ステップS64に戻って、d+1番目の文書ファイルに対して同様の処理が繰り返される。
一方、カウンタdが最終である場合は(ステップS73でYES)、続いてp番目の作成者が投稿した全ての文書ファイル間において共通して使用されている単語が存在するか否かが確認される(ステップS74)。これは、上記の項目(8)に対応した処理である。共通単語が存在する場合(ステップS74でYES)、その単語に二次的な重み付けが設定される(ステップS75)。この重み付けの詳細は、上記の項目(8)及び図7で説明した通りである。そして、この重み付けを含む文書インデックスの関連データがメモリに記録される(ステップS76)。
以下、カウンタpが最終であるか否かが判定され(ステップS77)、最終である場合は(ステップS77でYES)、処理を終了する。一方、最終でない場合は(ステップS77でNO)、ステップS62に戻って、p+1番目の作成者の作成に係る文書ファイルに対して同様の処理が繰り返される。
図13は、本実施形態に基づく文書検索の具体例を示す模式的に示す図である。Q&Aシステム2に存在する検索元文書(質問文書及び回答文書)に基づいて作成される検索インデックスSIは、単語a、単語b、単語cについて、各々1.023、0.221、6.809という重み付けが付与されている。また、データベース3に存在する検索先文書(文書ファイル)に基づいて作成される文書インデックスDIも、文書1、文書2、文書3・・・について、図表に示すように単語a、単語b、単語cについて重み付けが付与されている。
このような検索インデックスSIと、各文書の文書インデックスDIとが、Dice係数の検索モデルに従った文書合致度算出式に入力される。そして、文書1、文書2、文書3・・・毎に、合致度が算出される。そして、合致度が高い順にソートされ、ヒット文書のランキング表示データが作成される。図13の例では、重みの高い単語の合致率が高い場合に高合致度となるDice係数が採用されていることもあり、単語cの重みが高い検索インデックスSIであることから、同じく単語cの重みが突出している文書2について合致度が最も高い結果となっている。
以上説明した本実施形態に係るネットワークシステムSによれば、ユーザが望む重要文書を、Q&Aシステム2からだけではなく、大規模なデータベース3から的確に抽出することができる文書検索方法を提供することができる。従って、インターネット上に存在するQ&Aサイト21の利用価値を高め、該サイトを活性化させることが可能となる。
S ネットワークシステム
1 検索エンジン
11 第1処理部
111 文書抽出部
112 文書解析部
113 検索インデックス作成部
12 第2処理部
121 DB文書抽出部
122 DB文書解析部
123 文書インデックス作成部
13 検索処理部
14 出力処理部
2 Q&Aシステム
21 Q&Aサイト
22 Q&A文書データベース22(第2データベース)
3 データベース(第1データベース)
4 端末装置
41 操作部
42 表示部
43 出力部

Claims (11)

  1. 検索先の第1データベースに蓄積されている多数の文書ファイルに基づき、文書インデックスを作成するステップと、
    検索元のクエリに基づき検索インデックスを設定するステップと、
    前記検索インデックスと前記文書インデックスとを照合させて、前記クエリに応じた文書ファイルを抽出するステップとを含み、
    前記文書インデックスを作成するステップは、
    前記第1データベースの中から、同一人が作成した文書群を抽出するステップと、
    前記文書群の各文書を文書解析し、これら文書中で使用されている単語を特定するステップと、
    前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いを求めるステップと、
    前記出現度合いが所定値よりも高い単語について重み付けを上げて、前記文書インデックスの重み付けを設定するステップと、
    を含むことを特徴とする文書検索方法。
  2. 前記単語を特定するステップにおいて、特定される単語が、名詞単語であることを特徴とする請求項1に記載の文書検索方法。
  3. 前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞を備える文に含まれる前記名詞単語について重み付けを上げることを特徴とする請求項2に記載の文書検索方法。
  4. 前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞の直前に存在する前記名詞単語について重み付けを上げることを特徴とする請求項2に記載の文書検索方法。
  5. 前記検索元のクエリが、前記第1データベースとは異なる第2データベースに投稿された1の質問文書であって、
    前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書を文書解析して特定された単語に基づき作成されることを特徴とする請求項1〜4のいずれかに記載の文書検索方法。
  6. 前記検索元のクエリが、さらに、前記質問文書に対して前記第2データベースに投稿された1又は複数の回答文書を含み、
    前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書及び回答文書を文書解析して特定された単語に基づき作成されることを特徴とする請求項1〜4のいずれかに記載の文書検索方法。
  7. 前記質問文書において、疑問乃至は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることを特徴とする請求項5又は6に記載の文書検索方法。
  8. 前記質問文書において、疑問乃至は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げて、前記検索インデックスが作成されることを特徴とする請求項5又は6に記載の文書検索方法。
  9. 前記質問文書及び回答文書の全てにおいて前記単語の出現度合いを求め、
    前記出現度合いに応じて当該単語の重み付けを設定し、前記検索インデックスが作成されることを特徴とする請求項6に記載の文書検索方法。
  10. 前記回答文書が複数存在する場合において全ての回答文書に前記単語の出現度合いを求め、
    複数の前記回答文書に出現する単語について重み付けを上げて、前記検索インデックスの重み付けが設定されることを特徴とする請求項6に記載の文書検索方法。
  11. 前記質問文書がタイトルを含む場合において、該タイトルに含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることを特徴とする請求項5又は6に記載の文書検索方法。
JP2009134934A 2009-06-04 2009-06-04 文書検索方法 Pending JP2010282403A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009134934A JP2010282403A (ja) 2009-06-04 2009-06-04 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009134934A JP2010282403A (ja) 2009-06-04 2009-06-04 文書検索方法

Publications (1)

Publication Number Publication Date
JP2010282403A true JP2010282403A (ja) 2010-12-16

Family

ID=43539078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009134934A Pending JP2010282403A (ja) 2009-06-04 2009-06-04 文書検索方法

Country Status (1)

Country Link
JP (1) JP2010282403A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013136634A1 (ja) * 2012-03-13 2013-09-19 三菱電機株式会社 ドキュメント検索装置およびドキュメント検索方法
JP2014512600A (ja) * 2011-03-31 2014-05-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 関連知識情報を獲得・検索する方法及び装置
JP2019139746A (ja) * 2018-02-09 2019-08-22 株式会社日立製作所 情報検索システムおよび方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014512600A (ja) * 2011-03-31 2014-05-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 関連知識情報を獲得・検索する方法及び装置
WO2013136634A1 (ja) * 2012-03-13 2013-09-19 三菱電機株式会社 ドキュメント検索装置およびドキュメント検索方法
JPWO2013136634A1 (ja) * 2012-03-13 2015-08-03 三菱電機株式会社 ドキュメント検索装置およびドキュメント検索方法
JP2019139746A (ja) * 2018-02-09 2019-08-22 株式会社日立製作所 情報検索システムおよび方法

Similar Documents

Publication Publication Date Title
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
Bhagavatula et al. Methods for exploring and mining tables on wikipedia
Markov et al. Data mining the Web: uncovering patterns in Web content, structure, and usage
US8051080B2 (en) Contextual ranking of keywords using click data
US7617176B2 (en) Query-based snippet clustering for search result grouping
AU2010343183B2 (en) Search suggestion clustering and presentation
US8086605B2 (en) Search engine with augmented relevance ranking by community participation
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
US7996379B1 (en) Document ranking using word relationships
US20110307432A1 (en) Relevance for name segment searches
WO2008106667A1 (en) Searching heterogeneous interrelated entities
Li et al. Getting work done on the web: supporting transactional queries
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP2010282403A (ja) 文書検索方法
JP2012104051A (ja) 文書インデックス作成装置
Secker et al. AISIID: An artificial immune system for interesting information discovery on the web
Agosti Information access through search engines and digital libraries
Weiss et al. Information retrieval and text mining
Alashti et al. Parsisanj: an automatic component-based approach toward search engine evaluation
CN118132818B (zh) 基于意象差异的旅游区域资源评估方法
Varnaseri et al. The assessment of the effect of query expansion on improving the performance of scientific texts retrieval in Persian
Sinha Retrievability in IR