[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4746439B2 - 文書検索サーバおよび文書検索方法 - Google Patents

文書検索サーバおよび文書検索方法 Download PDF

Info

Publication number
JP4746439B2
JP4746439B2 JP2006038024A JP2006038024A JP4746439B2 JP 4746439 B2 JP4746439 B2 JP 4746439B2 JP 2006038024 A JP2006038024 A JP 2006038024A JP 2006038024 A JP2006038024 A JP 2006038024A JP 4746439 B2 JP4746439 B2 JP 4746439B2
Authority
JP
Japan
Prior art keywords
search
document
degree
contribution
conformity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006038024A
Other languages
English (en)
Other versions
JP2007219722A (ja
Inventor
裕樹 舩越
寛 松田
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2006038024A priority Critical patent/JP4746439B2/ja
Publication of JP2007219722A publication Critical patent/JP2007219722A/ja
Application granted granted Critical
Publication of JP4746439B2 publication Critical patent/JP4746439B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は文書検索技術に関し、特にスコアリングに基づき適合文書の表示順を決定する文書検索装置およびそれに適用される文書検索方法に関する。
インターネットなどのネットワークの充実に伴い、PC(Personal Computer)や携帯電話などの情報端末からウェブサイトやデータベースへアクセスして必要な情報を取得することが日常的に行われるようになった。一方でネットワーク上で提供される情報は膨大化の一途をたどり、それらの情報の中から必要な情報を取得する際の効率性が求められるようになってきた。そのような状況下において、ウェブサイトやネットワーク上に開示された情報を検索する検索エンジンから、各種のデータベースを検索する検索システムまで、文書検索の機能は適切かつ最新の情報取得には欠かせないものとなっている。
一般的に文書検索は、ユーザが入力した検索条件に基づきサーバなどに蓄積した文書から適合文書を抽出する。複数の適合文書が存在する場合は、検索クエリとの類似性や重要性を、様々な指標に基づきスコアリングすることによって評価する。そして例えばそのスコアの高い順に、適合文書の題名やURL(Uniform Resource Locator)などの情報を検索結果として表示する。スコアリングの手法は様々であるが、いずれにしろユーザが入力した検索条件に対し的確に、効率よく応答することが重要となる。近年では複数の検索エンジンを用いて並列に検索を行わせ、得られた結果をさらにひとつのスコアリング手法によって再評価してスコア順に結果を表示する技術も提案されている(例えば非特許文献1参照)。
喜多利樹,亀井俊之,井上克己、羽根田博正, ユーザの嗜好を取り入れたメタサーチエンジンの効率化,情報処理学会 研究報告 システムソフトウェアオペレーティング・システム,Vol. 2001,No. 065
適合文書のスコアリングには、各キーワードの重要度や文書に対するアクセス数などシステム独自の指標が用いられ、それらの指標がいかにスコアに反映されるかはシステム内部での判断となる。そして、例えばユーザが重要と考えるキーワードがスコアリングにおいては重要度が低いと判断され、本来の検索意図と全く異なる文書ばかりが先に表示されてしまうこともある。非特許文献1は、検索結果として表示する文書ごとに、スコアリングに用いた各単語の重要度を一部表示し、ユーザがその順位を変更することによりさらに再検索を行う技術を提案している。この技術においてはひとつの文書における単語の重要度の順位変更が可能であるが、その操作が検索結果全体に及ぼす影響が予測できず、本来意図に適合していた文書がさらに下位に移行してしまう危険性がある。
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザが意図した検索結果を効率的に取得できる技術を提供することにある。
本発明のある態様は、文書検索サーバに関する。この文書検索サーバは、ユーザが入力した検索式を受け付ける検索受付部と、複数の文書に係る情報を記憶する文書情報記憶部と、検索受付部が受け付けた検索式と文書情報記憶部に記憶した文書に係る情報とを比較し、検索式に適合する適合文書を抽出する適合文書抽出部と、検索式と適合文書との適合の度合いを、複数の指標に対する評価点に基づき数値化する適合度判定部と、適合度判定部が数値化した前記適合の度合いの順位の高い順に並べられた適合文書に係る情報の少なくとも一部と、複数の指標に対する評価点に係る情報を表すグラフとを含む文書データを出力する結果出力部と、を備え、適合度判定部は、ユーザのグラフに対する操作入力を受け付け、当該操作入力に応じて重み付けを行った複数の指標に対する評価点に基づき、適合の度合いを再度数値化し、結果出力部は、適合度判定部が再度数値化した適合の度合いの順位の高い順に並べられた適合文書に係る情報の少なくとも一部を含む文書データを再度出力することを特徴とする。
ここで「グラフ」は棒グラフ、円グラフ、折れ線グラフ、レーダーチャートなど一般的にグラフとして認められるもの、または、単に複数の円や矩形などの図形を並べたものでもよく、複数の指標に対する評価点の相対的な大きさを、図形の大きさ、色、形などで表現できればいずれの図形でもよい。また、当該図形を操作するための図形も含んでよい。また「グラフに対する操作」とは、ポインティングデバイスやキーボードなどの入力装置による図形の一部のクリック、クリックアンドドロップ、ダブルクリック、右クリック、数値入力など、当該入力装置によって可能な入力操作をグラフ上で行うことである。操作方法と重み付け処理との対応はあらかじめ設定する。
本発明の別の態様は、文書検索方法に関する。この文書検索方法は、ユーザが入力した検索式に基づきデータベースから複数の適合文書を抽出し、各適合文書の適合の度合いを数値化し、その順位の高い順に適合文書に係る情報を表示する文書検索方法であって、適合文書に係る情報とともに適合の度合いを数値化する際に導入した複数の指標に対する評価点に係る情報を表すグラフを表示するステップと、ユーザのグラフに対する操作入力を受け付け、当該操作入力に応じて重み付けを行った複数の指標に対する評価点に基づき、適合の度合いを再度数値化するステップと、再度数値化された適合の度合いの順位の高い順に適合文書に係る情報を再度表示するステップと、を含むことを特徴とする。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、ユーザは検索を効率的に行い所望の情報を容易に得ることができる。
図1は本実施の形態における検索システムの全体的な構成を示している。検索システム100は、検索条件入力や結果表示のための複数の情報端末50a、50b、50c、情報端末50a、50b、50cとネットワーク40を介して接続し、検索機能を提供する検索サーバ10を含む。情報端末50a、50b、50cはPC、携帯電話、検索装置など、ユーザが使用でき、ネットワーク40に有線または無線で接続して入力された検索クエリを送信し、送信された検索結果を表示することのできる情報処理装置であればよい。検索システム100に含まれる情報端末50a、50b、50cの数は3つに限られず、以後、それらを総称して単に情報端末50と呼ぶ。ネットワーク40はインターネットのほか、LAN(Local Area Network)などいずれの規模でもよい。また、ネットワーク40を介さず、検索サーバ10と情報端末50を検索装置として一体化してもよい。
情報端末50は、検索サーバ10にアクセスして検索受け付け画面を表示する。検索受け付け画面に対して入力された検索クエリなどの検索条件は、検索サーバ10に送信される。検索対象はウェブページやウェブ上で公開されている文書など、WWW(World Wide Web)コンテンツでもよいし、ある論文集の電子データに含まれる論文や、新聞の電子データに含まれる記事など、ローカルなサーバに蓄積された文書データでもよい。
検索サーバ10は、データベースに蓄積した検索対象文書から検索条件に適合する文書を検出し、その文書の題名やURLなどの情報を表示するための文書データを情報端末50に送信する。複数の文書が検出された場合は、検索クエリと文書との類似性が高い順に表示が行われるようにする。検索サーバ10はこの検索結果表示とともに、その検索結果へ至った経緯として、類似性の評価に用いた検索語の、類似性への寄与度を図形化して情報端末50に表示させる。本実施の形態では検索語ごとの寄与度を棒グラフで表す。そしてユーザが寄与度を変更すると、検索サーバ10はそれを反映した検索処理を再度行う。
図2は情報端末50と検索サーバ10のより詳細な構成を示している。情報端末50はユーザが検索条件や寄与度変更要求を入力する入力部52、検索受け付け画面や検索結果表示画面を表示する表示部56、入力部52および表示部56の制御や、検索サーバ10とのデータの送受信を行うデータ制御部54を含む。
検索サーバ10は、情報端末50からの検索クエリなどの検索条件を受け付ける検索受付部12、情報端末からの寄与度変更要求を受け付ける寄与度変更処理部14、検索対象の文書情報や索引語の重要度を記憶する文書情報記憶部20、文書情報記憶部20から適合文書を抽出するとともに、検索語の重要度や寄与度変更などの情報に基づき類似度を判定する検索処理部16、および検索結果などを表示させるための文書データを情報端末50へ送信する結果出力部18を含む。
入力部52はキーボード、マウス、トラックボール、トラックパッドなど一般的に用いられる入力装置のいずれか、またはその組み合わせでよく、特に寄与度変更において表示部56に表示された棒グラフをカーソル操作できる装置を含む。文書情報記憶部20は、ハードディスクや、DVD(Digital Versatile Disk)、CD(Compact Disk)などの記録媒体の読取装置などのいずれでもよく、データ量や検索処理の形態に応じたハードウェアから適宜選択する。
文書情報記憶部20には、索引付けされた文書の情報と、題名やURLなど文書固有の情報との対応付けを文書情報として記憶する。索引付けのデータ構造として本実施の形態ではベクトル空間法を用いる。ベクトル空間法では、各文書から形態素解析により抽出された各索引語の重要度を、文書ごとにベクトルとして記憶させる。そして検索処理部16は、文書情報記憶部20が記憶する文書ごとの検索語の重要度ベクトルと、検索クエリが形成するベクトルとの余弦を類似度として算出する。ベクトル空間法については後に詳述する。
図2において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、言語処理機能のあるプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
上記の構成によって実現される本実施の形態の動作について説明する。図3は情報端末50および検索サーバ10において実行される検索処理の手順を示している。まずユーザは情報端末50の表示部56に表示された検索受付画面に対し、入力部52によって検索条件を入力する(S10)。検索条件は、検索クエリとして複数の単語の羅列や複数の単語を含む自然文のいずれかを含む。検索条件には検索形態によって、検索対象とする文書のカテゴリや言語など、絞込みを行うための付随条件を入力してもよい。データ制御部54は入力された検索条件を、検索サーバ10に送信する(S12)。
検索サーバ10では、検索受付部12が検索条件を受け付けると(S14)、検索処理部16に対し当該検索条件に基づく検索処理を要求する。この際検索クエリが自然文である場合は、単語の抽出処理を行う。また、検索クエリに含まれる単語の類義語や訳語などを取得する拡張処理を行ってもよい。以後、検索クエリに含まれる単語や拡張後の単語を総称して検索語と呼ぶ。検索処理部16は検索条件に基づき文書情報記憶部20に記憶された情報から検索処理を次のように行う(S16〜S20)。まず検索対象である文書の絞込み条件がある場合は、それに従い文書の絞込みを行う。そして例えば索引語と検索語とを照合して、検索語が全て含まれる適合文書の情報を抽出していく(S16)。そして適合文書が複数抽出された場合は、検索クエリと各文書との類似度をベクトル空間法により計算してスコアリングを行い、類似度の高い順に並べ替えを行う(S18)。
ここで類似度の算出に用いられるベクトル空間法について説明する。まず文書情報記憶部20に記憶されたある文書jの重要度ベクトルdは式1のようになる。
Figure 0004746439
ここでuij(1≦i≦n)は文書jに含まれるn個の索引語iの重要度を表す。索引語の重要度は例えばTFーIDF(Term Frequency - Inverse Document Frequency)法を導入することができる。TFーIDF法によれば文書jにおける索引語iの重要度uijは次のように定義される。
Figure 0004746439
ここでTFijは文書jにおいて索引語iが出現する頻度、IDFは文書情報記憶部20に記憶されている文書集合における索引語iの局所性を表す指標であり、Nは文書集合に属する文書の数、Nは索引後iを含む文書数である。ただし索引語の重要度を表す式はこれに限定されず、種々の重要度評価手法から適宜選択してよい。
一方、検索クエリが生成する検索ベクトルを次のように定義する。
Figure 0004746439
ここでw(1≦i≦n)は索引語iが検索クエリに含まれているか否かを表す数値で、含まれていれば「1」、含まれていなければ「0」とする。
ベクトルdおよびqを導入すると、検索クエリに対する文書jの類似度Sは以下のように求められる。
Figure 0004746439
検索処理部16は上述のように類似度Sの値が大きい順に文書jの並べ替えを行う。検索処理部16はさらに、類似度上位M件の文書の類似度Sに対する検索語の寄与度を、検索語ごとに算出する(S20)。寄与度とは、どの検索語がどの程度重要視されたうえで当該M件の文書が「上位」となったかを数値で表したものであり、検索結果への検索語の影響の度合いを示すものである。索引語iの寄与度vとして例えば次のような値を導入できる。
Figure 0004746439
ここでtikは類似度がk位の文書における索引語iの類似度への寄与度を表し、検索クエリに含まれない索引語の寄与度は「0」となる。ここでMは例えば検索結果として1画面に表示する文書の数などでよい。
検索処理部16が以上の計算を行い、検索に適合した文書の類似度による表示順、題名など表示させる文書の情報、および各検索語の寄与度のデータを取得すると、結果出力部18はそれらのデータを情報端末50に表示するための文書データを生成し、情報端末50に送信する(S22)。情報端末50のデータ制御部54は、類似度の高い順に並べられた適合文書の情報と、各検索語の寄与度を示す棒グラフとを表示する当該文書データを検索結果として表示部56に出力する(S24)。
ユーザは表示部56に表示された検索結果を閲覧する際、検索語の寄与度が自分の検索意図に適合しているかどうかを確認し、不適合であれば棒グラフを操作することによって望ましい寄与度となるように変更を行う。例えば、自分が検索語の中心として考えていた単語の寄与度が小さい、すなわち軽視されたうえでの検索結果であった場合、検索結果の上位に表示されている文書が所望の文書である可能性が低くなる。このときユーザは、中心としたい検索語の寄与度を寄与度の最も大きい検索語と同一にするなどの操作を行う。操作手法の例については後に述べる。
ユーザが寄与度の変更操作を行わなかった場合は(S26のN)、検索処理を終了する。ユーザが寄与度の変更操作を行った場合は(S26のY)、操作内容を情報端末50から検索サーバ10に送信する(S28)。検索サーバ10の寄与度変更処理部14は、送信された棒グラフの操作内容に基づき索引語の重要度に対するフィードバック係数を算出する(S30)。例えばユーザが、ある検索語tの寄与度を、寄与度が最大の検索語imaxの寄与度と同一にする操作を行った場合、各索引語iに対するフィードバック係数λを次のように算出する。
Figure 0004746439
次に検索処理部16は、検索クエリが生成する検索ベクトルqにフィードバック係数λを作用させた、フィードバック後の検索ベクトルq’を次のように算出したうえで、式4と同様の計算をq’により行い、類似度を再計算する(S32)。
Figure 0004746439
これによりユーザの寄与度操作を反映した重要度を検索語に与えたうえで類似度計算が各適合文書に対して行われる。
そして検索処理部16は再計算された類似度に基づき適合文書の並べ替えを行い、並べ替えた結果、新たに類似度の上位M件となった文書における検索語の寄与度を、検索語ごとに再度算出する(S33)。続いて結果出力部18はS22と同様に、再計算された類似度の高い順に並べられた適合文書の情報と、各検索語の寄与度を示す棒グラフとを表示するための新たな文書データを情報端末50に送信する(S34)。情報端末50のデータ制御部54は当該文書データを再検索の結果として表示部56に出力し(S36)、検索処理を終了する。ユーザは必要に応じて寄与度の再操作を行ってもよく、このときは情報端末50および検索サーバ10においてS28からS36の処理を繰り返す。
図4はS24において表示部56に表示される画面の例を示している。検索画面150は検索条件入力欄152および検索結果表示欄160に大別できる。検索条件入力欄152はS10の検索条件の入力時にも表示部56に表示され、検索クエリ入力欄154および「検索」実行ボタン156を含む。ユーザは検索クエリ入力欄154に検索条件として検索クエリを入力する。図4の例では「カモシカの列車事故」との自然文が入力されている。S10においてはユーザが「検索」実行ボタン156上にカーソル170を移動させマウスをクリックするなどの確定入力を行うと、S12の検索条件送信が行われる。
検索結果表示欄160は寄与度棒グラフ162、寄与度変更つまみ163、寄与度値表示欄164、「再検索」実行ボタン166、および文書情報欄168を含む。寄与度棒グラフ162は、全ての検索語の寄与度vの全体に対する割合が棒の長さで表され、その値の大きい順に並べられている。そしてその下に設けられた寄与度値表示欄164には、寄与度vの実際の値が表示される。ここで寄与度vは、文書情報欄168に表示されている、上位M件、例えば10件の文書における各検索語の重要度の合計により計算される。図4の例では検索文「カモシカの列車事故」から抽出された検索語、「事故」、「列車」、「カモシカ」の寄与度が、この順で大きいこと、「カモシカ」の寄与度が他の検索語と比較して小さいこと、が直感的に視認できる。
なお図4では、検索文「カモシカの列車事故」に含まれる単語のみが検索語として表示されているが、検索サーバ10における検索処理において自動的に検索語の拡張処理が行われ、類義語なども検索語として追加された場合は、追加された検索語についても寄与度棒グラフ162を表示する。また寄与度棒グラフ162は、寄与度が上位の検索語のみを表示する場合、全検索語について表示する場合など、異なるモードを設定してもよい。
文書情報欄168には例えば類似度の上位10件の適合文書の題名およびURLが表示される。図4の例における検索結果は、寄与度の大きい検索語である「事故」および「列車」に関する文書が上位となり、寄与度の小さい「カモシカ」に関する文書が下位となる傾向を有する。従ってもしユーザが「カモシカ」を中心とした情報を得たいと考えていた場合、この検索結果表示では所望の文書の情報を得るまでに順位を下方まで辿らなければならないことが考えられる。このときユーザは、上述のとおり寄与度棒グラフ162に対して操作を行い、寄与度の調整を行う。
本実施の形態では、寄与度棒グラフ162に対して複数の操作を受け付ける。例えばある検索語の寄与度棒グラフ162上にカーソル170を移動させ確定入力を行うと、検索サーバ10は、当該検索語の寄与度が、最大の寄与度を有する検索語の寄与度と同程度となるように再検索を行う。この処理は、式6で示したフィードバック係数で類似度を再計算することによって実現される。図4の例では「カモシカ」の棒グラフ上にカーソル170を移動させ確定入力を行うことにより、「カモシカ」の寄与度が「事故」の寄与度と同程度となるように再検索が行われる。これにより「カモシカ」に関連した文書が上位となる検索結果が表示される。
また、各検索語の寄与度棒グラフ162の右に表示される寄与度変更つまみ163をカーソル170でドラッグさせるなどして上下に移動させることにより、寄与度値表示欄164に示された寄与度の数値を任意に増減できるようにする。その後に「再検索」実行ボタン166にカーソル170を移動させ確定入力を行うと、変更前の寄与度と変更後の寄与度の割合に応じてフィードバック係数が算出され、類似度が再計算される。また寄与度変更つまみ163上にカーソル170を移動させマウスをダブルクリックすることにより、その検索語の寄与度が負の数値となるようにする。この操作によってフィードバック係数が負の値となると、その検索語を含まない文書の類似度が高くなる。この状態でも寄与度変更つまみ163を上下させて数値を増減できるようにする。
さらに寄与度値表示欄164に表示された数値を直接修正できるようにしてもよい。この場合も寄与度変更つまみ163の操作と同様に、「再検索」実行ボタン166にカーソル170を移動させ確定入力を行うと、変更前の寄与度と変更後の寄与度の割合に応じてにフィードバック係数が算出され、類似度が再計算される。
さらに例えばある検索語の寄与度棒グラフ162上にカーソル170を移動させてマウスを右クリックすると、その検索語に対する処理のメニューを一覧できるポップアップウィンドウ(不図示)が表示されるようにしてもよい。メニューには上述した処理を実行するコマンドを含めてもよい。またメニューに「削除」コマンドを設け、当該検索語を検索条件から削除できるようにしてもよい。このとき検索サーバ10は、変更後の検索語に基づく適合文書の抽出から検索処理を行う。
一方、メニューに「辞書」コマンドを設けてもよい。「辞書」コマンドが選択されると、情報端末50のデータ制御部54は、情報端末50に設けた記憶装置(不図示)などに記憶された辞書を読み出し、当該検索語の関連語を辞書引きして、検出された関連語のリスト表示を行う。そしてその中からの選択入力によって検索語を追加できるようにしてもよい。このとき検索サーバ10は、変更後の検索語に基づく適合文書の抽出から検索処理を行う。
さらにメニューに「付随条件づけ」コマンドを設けてもよい。「付随条件づけ」コマンドが選択されると、当該索引語に対しては拡張処理をしない、当該索引語を含む文書にのみ絞込条件を設定するなど、検索語ごとに付随条件を設定できるようにする。このとき検索サーバ10は、設定された付随条件に従った適合文書の抽出から検索処理を行う。
「削除」コマンドの選択と同様の処理は、削除したい検索語の寄与度棒グラフ162上にカーソル170を移動させて、検索画面150上に表示された「ゴミ箱」アイコン(不図示)までクリックアンドドロップで棒グラフごと移動させることにより行ってもよい。また「辞書」コマンドの選択と同様の処理は、検索語ごとに表示される「辞書」アイコン(不図示)上にカーソル170を移動させて確定入力することよって行ってもよい。
また、ある検索語の寄与度棒グラフ162上にカーソル170を移動させ、その寄与度棒グラフ162を他の検索語の寄与度棒グラフ162までクリックアンドドロップで移動させると、検索サーバ10では、移動させた寄与度棒グラフ162の検索語の寄与度が、移動先の寄与度棒グラフ162の検索語の寄与度と同程度になるように再検索を行うようにしてもよい。
以上述べた本実施の形態によれば、検索条件の入力から検索結果の表示に至る過程で考慮される各検索語の重要度を、類似度に対する寄与度の形式で検索結果とともに表示する。これにより本来は自動的に決定されていた検索語の重要度を確認でき、ユーザは自分の意図した検索処理がなされているかを認識することができる。また寄与度を棒グラフで表すことにより、寄与度の順位と相対的な割合を直感的に視認することができる。これによりユーザは自分の意図と実際の検索処理との差異を認識しやすい。また検索語全体のバランスを考慮しながら寄与度の変更に係る処理を行うことができる。
さらに棒グラフという2次元図形に対しては、ポインティングデバイスによって様々な操作を行うことができる。結果として、寄与度や検索語自体に対する多様な変更をほとんどポインティングデバイスのみの操作で行うことができ、ユーザは容易に自分の意図する検索処理へ導くことができる。例えばニーズが高いと思われる、寄与度の低い1つの検索語の寄与度を最大寄与度とする処理には、一度のクリックを行うという、より容易な操作を設定できる。さらに検索語の削除や類義語の追加、検索語ごとの条件設定など、寄与度以外の検索条件変更にも対応できる。このように多くの処理項目に対する操作の設定を、柔軟に行うことができる。一方で、寄与度の数値を入力したり、寄与度を負の値としたりすることもできるため、より詳細な寄与度の設定を行うことにより精度の高い検索処理が可能となる。
また本実施の形態では拡張された語も含め全検索語の寄与度を棒グラフで表示するため、本来必要であったが寄与度が微小となってしまった検索語を拾い上げ、寄与度を大きくしたうえで再検索を行うことができ、ユーザの意図を反映させやすい。
さらに本実施の形態では、類似度が上位である複数の文書における検索語の重要度を合計した値を寄与度として表示する。これにより、検索結果の全体的な傾向として寄与度を変更できるため、一の文書における検索語の重要度を変更する場合と比較すると、局所的に生じた結果を変更することによって予想外の他の文書の順位が大きく変動してしまうなどの不具合が発生しにくく、検索結果を自分の意図したものへと収束させやすい。また再検索の結果、新たに類似度が上位となった文書における検索語の寄与度を再計算して表示することにより、ユーザは再検索時の寄与度の傾向などを確認でき、必要に応じてさらに寄与度を変更できるため、容易に自分の意図した検索へ導くことができる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
本実施の形態では寄与度の表示方法として一本の棒グラフを導入したが、本発明はそれに限られない。例えば寄与度の高い順に検索語ごとの棒グラフを別の列に表示してもよい。または寄与度の高い順に、全検索語の寄与度の割合を円グラフで表示してもよい。さらに各検索語を軸としたレーダーチャートで表示してもよい。いずれの場合においても、本実施の形態で説明したのと同様にポインティングデバイスを操作することにより、寄与度の変更などを受け付けるようにする。これにより本実施の形態と同様の効果を得ることができる。
さらに本実施の形態では寄与度として、各検索語のTF値とIDF値の積を、類似度が上位の文書で合計した値を導入したが、本発明はそれに限られない。例えば検索語の出現頻度、検索語の各文書における出現位置に基づく重み付けの合計、文書表示における検索語の大きさ、色、タグなどの強調に基づく重み付けの合計などでもよい。これらの特性を寄与度として選択した場合は、類似度もその特性を考慮して計算される。この場合も、寄与度を棒グラフなどで検索結果とともに表示することによって、寄与度の変更処理および類似度の再計算などを行えるようにする。これにより本実施の形態と同様の効果を得ることができる。
また棒グラフを操作するなどして寄与度の変更を行った際に、変更後の検索語の組み合わせや寄与度の変更内容などの変更履歴を、情報端末の図示しない記憶装置などに自動的に記憶させるようにしてもよい。そして以後の検索処理において、同じ検索語の組み合わせが発生した場合に、過去に同様の検索が行われた旨の通知を表示し、そのときと同じ変更処理をおこなうかをユーザに選択させてもよい。そしてユーザが同じ変更処理を希望した場合は、記憶装置から該当する履歴を読み出し、自動的に変更を行うようにしてもよい。これにより、ユーザが過去の検索結果を再度確認したい場合などに、同一の変更内容を自動で設定でき、再現性の高い検索を行うことができる。
また本実施の形態では、検索語の重要度という指標に基づく、検索クエリと文書との類似度のスコアリングについて説明したが、複数の文書のスコアリングであれば本発明はそれに限られない。例えば検索語の重要度以外に、文書に対するリンク数や、アクセス数など文書を評価できる特性を指標として考慮しながら文書のスコアリングを行う場合は、それらの指標に対する評価値を複数の文書で合計して棒グラフで表示する。そして棒グラフに対する操作を受け付けることによって指標の重み付けを変更したり指標を削除したりして、再検索できるようにしてもよい。
本実施の形態における検索システムの全体的な構成を示す図である。 本実施の形態の情報端末と検索サーバのより詳細な構成を示す図である。 本実施の形態の情報端末および検索サーバにおいて実行される検索処理の手順を示すフローチャートである。 本実施の形態において情報端末の表示部に表示される画面の例を示す図である。
符号の説明
10 検索サーバ、 12 検索受付部、 14 寄与度変更処理部、 16 検索処理部、 18 結果出力部、 20 文書情報記憶部、 40 ネットワーク、 50 情報端末、 52 入力部、 54 データ制御部、 56 表示部、 100 検索システム、 154 検索クエリ入力欄、 162 寄与度棒グラフ、 164 寄与度値表示欄。

Claims (7)

  1. ユーザが入力した検索式を受け付ける検索受付部と、
    複数の文書に含まれる語ごとの文書内での重要度を表す数値を前記文書ごとに記憶する文書情報記憶部と、
    前記検索受付部が受け付けた前記検索式と前記文書情報記憶部に記憶した前記文書に係る情報とを比較し、前記検索式に適合する適合文書を抽出する適合文書抽出部と、
    前記検索式から取得した複数の検索語の、前記適合文書内での重要度を、前記文書情報記憶部に記憶された前記重要度を表す数値を参照して算出し、前記検索式と前記適合文書との適合の度合いを、前記検索語の重要度に基づき数値化する適合度判定部と、
    前記適合の度合いが所定の順位以上である複数の適合文書における、前記適合の度合いに対する前記検索語の寄与度を算出し、前記適合度判定部が数値化した前記適合の度合いの順位の高い順に並べられた前記適合文書に係る情報の少なくとも一部と、前記寄与度を前記検索語ごとに合計した合算値を表すグラフとを含む文書データを出力する結果出力部と、
    を備え、
    前記適合度判定部は、ユーザの前記グラフに対する、前記検索語の寄与度を変更するための操作入力を受け付け、当該操作入力に応じて変更された寄与度に基づいて重み付けを行った前記検索語の重要度に基づき、前記適合の度合いを再度数値化し、
    前記結果出力部は、前記適合度判定部が再度数値化した前記適合の度合いの順位の高い順に並べられた前記適合文書に係る情報の少なくとも一部を含む文書データを再度出力することを特徴とする文書検索サーバ。
  2. 前記結果出力部は、前記適合度判定部がユーザの前記グラフに対する操作入力を受け付けて再度数値化した前記適合の度合いが、所定の順位以上である複数の適合文書における前記合算値を表すグラフをさらに含む文書データを再度出力することを特徴とする請求項に記載の文書検索サーバ。
  3. 前記結果出力部が出力する文書データは、各検索語の前記合算値の、全検索語での合計に対する割合を表すグラフを含むことを特徴とする請求項またはに記載の文書検索サーバ。
  4. 前記結果出力部が出力する文書データは、各検索語の前記合算値の数値表示をさらに含み、
    前記適合度判定部は、ユーザの前記数値表示に対する、前記検索後の寄与度を変更するための変更入力をさらに受け付け、当該変更入力に応じて変更された寄与度に基づいて重み付けを行った前記検索語の重要度に基づき、前記適合の度合いを再度順位付けすることを特徴とする請求項2または3に記載の文書検索サーバ。
  5. 前記適合文書抽出部は、前記検索語を追加又は削除するための操作入力を受け付け、当該操作入力に応じて前記検索語を追加又は削除して前記適合文書の抽出を再度行い、
    前記適合度判定部は、前記適合文書抽出部によって再度抽出された前記適合文書と前記検索式との適合の度合いを数値化することを特徴とする請求項1に記載の文書検索サーバ。
  6. コンピュータに備えられた検索受付部が、ユーザが入力した検索式を受け付けるステップと、
    コンピュータに備えられた適合文書抽出部が、前記検索受付部が受け付けた前記検索式と、複数の文書に含まれる語ごとの文書内での重要度を表す数値を前記文書ごとに記憶する文書情報記憶部に記憶された情報とを比較し、前記検索式に適合する複数の適合文書を抽出するステップと、
    と、
    コンピュータに備えられた適合度判定部が、前記検索式から取得した複数の検索語の、前記適合文書内での重要度を、前記文書情報記憶部に記憶された前記重要度を表す数値を参照して算出し、前記検索式と各適合文書の適合の度合いを、前記検索語の重要度に基づき数値化するステップと、
    コンピュータに備えられた結果出力部が、前記適合の度合いが所定の順位以上である複数の適合文書における、前記適合の度合いに対する前記検索語の寄与度を算出し、前記適合度判定部が数値化した前記適合の度合いの順位の高い順に並べられた前記適合文書に係る情報の少なくとも一部と、前記寄与度を前記検索語ごとに合計した合算値を表すグラフを表示するステップと、
    前記適合度判定部が、ユーザの前記グラフに対する、前記検索語の寄与度を変更するための操作入力を受け付け、当該操作入力に応じて変更された寄与度に基づいて重み付けを行った前記検索語の重要度に基づき、前記適合の度合いを再度数値化するステップと、
    前記結果出力部が、再度数値化された前記適合の度合いの順位の高い順に前記適合文書に係る情報を再度表示するステップと、
    を含むことを特徴とする文書検索方法。
  7. ユーザが入力した検索式を受け付ける機能と、
    受け付けた前記検索式と、複数の文書に含まれる語ごとの文書内での重要度を表す数値を前記文書ごとに記憶する文書情報記憶部に記憶された情報とを比較し、前記検索式に適合する複数の適合文書を抽出する機能と、
    前記検索式から取得した複数の検索語の、前記適合文書内での重要度を、前記文書情報記憶部に記憶された前記重要度を表す数値を参照して算出し、前記検索式と各適合文書の適合の度合いを、前記検索語の重要度に基づき数値化する機能と、
    前記適合の度合いが所定の順位以上である複数の適合文書における、前記適合の度合いに対する前記検索語の寄与度を算出し、前記適合の度合いの順位の高い順に並べられた前記適合文書に係る情報の少なくとも一部と、前記寄与度を前記検索語ごとに合計した合算値を表すグラフとを含む文書データを出力する機能と、
    ユーザの前記グラフに対する、前記検索語の寄与度を変更するための操作入力を受け付け、当該操作入力に応じて変更された寄与度に基づいて重み付けを行った前記検索語の重要度に基づき、前記適合の度合いを再度数値化する機能と、
    再度数値化された前記適合の度合いの順位の高い順に並べられた前記適合文書に係る情報の少なくとも一部を含む文書データを再度出力する機能と、
    をコンピュータに実現させるためのコンピュータプログラム。
JP2006038024A 2006-02-15 2006-02-15 文書検索サーバおよび文書検索方法 Expired - Fee Related JP4746439B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006038024A JP4746439B2 (ja) 2006-02-15 2006-02-15 文書検索サーバおよび文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006038024A JP4746439B2 (ja) 2006-02-15 2006-02-15 文書検索サーバおよび文書検索方法

Publications (2)

Publication Number Publication Date
JP2007219722A JP2007219722A (ja) 2007-08-30
JP4746439B2 true JP4746439B2 (ja) 2011-08-10

Family

ID=38496975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006038024A Expired - Fee Related JP4746439B2 (ja) 2006-02-15 2006-02-15 文書検索サーバおよび文書検索方法

Country Status (1)

Country Link
JP (1) JP4746439B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210130976A (ko) 2020-04-23 2021-11-02 주식회사 케이티 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4915021B2 (ja) * 2008-09-10 2012-04-11 ヤフー株式会社 検索装置、および検索装置の制御方法
JP5591622B2 (ja) * 2010-08-10 2014-09-17 日本電信電話株式会社 文書検索方法、文書検索システム、文書検索プログラム
US9626455B2 (en) * 2014-05-01 2017-04-18 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations
US9864775B2 (en) * 2015-03-26 2018-01-09 International Business Machines Corporation Query strength indicator
JP6164436B1 (ja) * 2016-01-18 2017-07-19 データ・サイエンティスト株式会社 ウェブページ解析装置、ウェブページ解析方法、及びプログラム
JP6577922B2 (ja) * 2016-09-07 2019-09-18 日本電信電話株式会社 検索装置、方法、及びプログラム
JP6790942B2 (ja) * 2017-03-16 2020-11-25 富士通株式会社 検索支援プログラム、検索支援装置および検索支援方法
JP7187816B2 (ja) * 2017-10-13 2022-12-13 富士通株式会社 検索方法、検索プログラム及び検索装置
US20230015324A1 (en) * 2019-12-03 2023-01-19 Ntt Docomo, Inc. Retrieval device
JP7413776B2 (ja) * 2019-12-27 2024-01-16 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム
JP7388256B2 (ja) * 2020-03-10 2023-11-29 富士通株式会社 情報処理装置及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172698A (ja) * 1998-12-04 2000-06-23 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003256472A (ja) * 2002-02-28 2003-09-12 Hitachi Ltd 文書検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172698A (ja) * 1998-12-04 2000-06-23 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003256472A (ja) * 2002-02-28 2003-09-12 Hitachi Ltd 文書検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210130976A (ko) 2020-04-23 2021-11-02 주식회사 케이티 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
JP2007219722A (ja) 2007-08-30

Similar Documents

Publication Publication Date Title
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
US8200695B2 (en) Database for uploading, storing, and retrieving similar documents
US7769771B2 (en) Searching a document using relevance feedback
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
JP3717808B2 (ja) 情報検索システム
US20120330946A1 (en) Intuitive, contextual information search and presentation systems and methods
JP5550669B2 (ja) 検索装置、検索方法およびプログラム
US20040230570A1 (en) Search processing method and apparatus
JP4937812B2 (ja) 検索システム
US20120078979A1 (en) Method for advanced patent search and analysis
JP5197680B2 (ja) 特徴情報作成装置、方法及びプログラム
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2009122940A (ja) 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム
JP5579140B2 (ja) 文書検索装置及び方法及びプログラム
JP2011203776A (ja) 類似画像検索装置、方法及びプログラム
JP5139883B2 (ja) 検索システム
JP5193669B2 (ja) 検索システム
JP6534454B2 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
JP2008250625A (ja) 検索システム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
KR100375926B1 (ko) 인터넷 기반의 가중치 속성을 사용한 정보 검색 방법
JP2007034772A (ja) Webサイト検索結果の最適表示システム及びその装置及びその方法及びそのプログラム
JP2019003406A (ja) 情報収集装置、情報収集方法、および情報収集プログラム
KR101078966B1 (ko) 문서 분석 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110513

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees