JP3347088B2 - 関連情報検索方法およびシステム - Google Patents
関連情報検索方法およびシステムInfo
- Publication number
- JP3347088B2 JP3347088B2 JP03416699A JP3416699A JP3347088B2 JP 3347088 B2 JP3347088 B2 JP 3347088B2 JP 03416699 A JP03416699 A JP 03416699A JP 3416699 A JP3416699 A JP 3416699A JP 3347088 B2 JP3347088 B2 JP 3347088B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- data
- search
- ordering
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【産業上の利用分野】本発明は、大量の文書に対応した
情報検索方法およびシステムに関し、特に異なる順序付
けにより並べ替えた(ソートした)検索結果間の演算に
より最終の検索結果を得る、情報検索方法およびシステ
ムに関する発明である。
情報検索方法およびシステムに関し、特に異なる順序付
けにより並べ替えた(ソートした)検索結果間の演算に
より最終の検索結果を得る、情報検索方法およびシステ
ムに関する発明である。
【0002】
【従来の技術】インターネット検索のように、大量の文
書からキーワードによって情報検索を行う場合には検索
結果が数万件になることは希ではない。このような膨大
な検索結果からユーザが関心のある文書を見つけるため
には、以下のような検索手段が知られている。 ・検索エンジンが提供する検索結果の上位何件かを見て
検索条件を変更する。 ・検索エンジンの提供するメニューによって並べ方を変
える。 前者の方法には、ユーザが実際に検索式を変更する以外
にも、検索エンジンが表示するキーワードごとに必須/
含んではいけないといった指定をおこなう方法や、サン
プルとなる文書を与えてその文書に近い内容のものを上
位にランク付けする方法が含まれる。このような方法は
関連度フィードバックとして知られているが、例えば、
できるだけ最新の内容でかつコンピュータ分野に関連が
深いもの、といった複数の観点からの関連度の指定には
対応できなかった。後者のメニュー方式には、文書タイ
プ別検索、ウェブサイト別分類検索などがある。しか
し、この方法も求める文書タイプに応じた分類としては
便利であるが、大量のWebページの検索には有効ではな
い。
書からキーワードによって情報検索を行う場合には検索
結果が数万件になることは希ではない。このような膨大
な検索結果からユーザが関心のある文書を見つけるため
には、以下のような検索手段が知られている。 ・検索エンジンが提供する検索結果の上位何件かを見て
検索条件を変更する。 ・検索エンジンの提供するメニューによって並べ方を変
える。 前者の方法には、ユーザが実際に検索式を変更する以外
にも、検索エンジンが表示するキーワードごとに必須/
含んではいけないといった指定をおこなう方法や、サン
プルとなる文書を与えてその文書に近い内容のものを上
位にランク付けする方法が含まれる。このような方法は
関連度フィードバックとして知られているが、例えば、
できるだけ最新の内容でかつコンピュータ分野に関連が
深いもの、といった複数の観点からの関連度の指定には
対応できなかった。後者のメニュー方式には、文書タイ
プ別検索、ウェブサイト別分類検索などがある。しか
し、この方法も求める文書タイプに応じた分類としては
便利であるが、大量のWebページの検索には有効ではな
い。
【0003】その他、複数の検索方式を用いて検索結果
を結合する方法として、参考文献1(特開平10−14
3530)がある。この参考文献1は検索エンジンを複
数個組み合わせてより関連度の高い検索結果を得るとい
う方法に近い手法である。しかしながら、参考文献1の
ような方法では、複数の検索方式により、得られる検索
結果は非常に大量になることが多い。仮に検索結果を結
合することによって、より多くの正解を得られたとして
も、上位の検索結果がすべてユーザの要求に最も関連す
る順序に並ぶとことは期待できない。ユーザはその膨大
な検索結果から本当に必要なデータを見つけるために順
次スキャンしていかないといけない。検索結果を結合す
る場合、常にデータベース全体の検索結果を求めて、そ
れを論理結合する必要があるため、処理にかかる負荷は
膨大なものとなる。
を結合する方法として、参考文献1(特開平10−14
3530)がある。この参考文献1は検索エンジンを複
数個組み合わせてより関連度の高い検索結果を得るとい
う方法に近い手法である。しかしながら、参考文献1の
ような方法では、複数の検索方式により、得られる検索
結果は非常に大量になることが多い。仮に検索結果を結
合することによって、より多くの正解を得られたとして
も、上位の検索結果がすべてユーザの要求に最も関連す
る順序に並ぶとことは期待できない。ユーザはその膨大
な検索結果から本当に必要なデータを見つけるために順
次スキャンしていかないといけない。検索結果を結合す
る場合、常にデータベース全体の検索結果を求めて、そ
れを論理結合する必要があるため、処理にかかる負荷は
膨大なものとなる。
【0004】また従来の検索技術は、 ・対象となるデータ集合の最初の何要素かを特定の順序
あるいは様々な順序で並べたい(ソート)したい。 ・可能な絞り込みの後でもまだすべての要素を調べるに
は量が多すぎるので、さらに関連度の高い順序で並べた
い。 という極めて自然な要求に答える手段を提供しない。
あるいは様々な順序で並べたい(ソート)したい。 ・可能な絞り込みの後でもまだすべての要素を調べるに
は量が多すぎるので、さらに関連度の高い順序で並べた
い。 という極めて自然な要求に答える手段を提供しない。
【0005】
【発明が解決しようとする課題】従って、本発明が解決
しようとする課題は、特定の文書の集合を様々な順序で
並べ替える検索方法及びシステムを提供することであ
る。また別の課題は、ユーザにとって関連度の高い検索
結果を与える順序を合成して、新たな順序づけを定義で
きる、検索方法及びシステムを提供することである。ま
た別の課題は、対話的に順序付けを組み合わせることに
よって最適な検索結果の並べ方を追加指定することがで
きる、検索方法及びシステムを提供することである。ま
た別の課題は、特定の検索結果を固定したまま、それを
様々な順序で並べ替えて提示する検索方法及びシステム
を提供することである。また別の課題は、収集データ数
が多くなればなるほど、並べ替えによる重要なデータの
発見が期待できる検索方法及びシステムを提供すること
である。また別の課題は、最初の検索で求められた検索
結果の並べ替えだけ済む、実用性やスケーラビリティが
高い、検索方法及びシステムを提供することである。
しようとする課題は、特定の文書の集合を様々な順序で
並べ替える検索方法及びシステムを提供することであ
る。また別の課題は、ユーザにとって関連度の高い検索
結果を与える順序を合成して、新たな順序づけを定義で
きる、検索方法及びシステムを提供することである。ま
た別の課題は、対話的に順序付けを組み合わせることに
よって最適な検索結果の並べ方を追加指定することがで
きる、検索方法及びシステムを提供することである。ま
た別の課題は、特定の検索結果を固定したまま、それを
様々な順序で並べ替えて提示する検索方法及びシステム
を提供することである。また別の課題は、収集データ数
が多くなればなるほど、並べ替えによる重要なデータの
発見が期待できる検索方法及びシステムを提供すること
である。また別の課題は、最初の検索で求められた検索
結果の並べ替えだけ済む、実用性やスケーラビリティが
高い、検索方法及びシステムを提供することである。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、大量のデータ(文書)に対して情報検索を行う場合
に、複数の順序付け(重み付け)を用いる。これにより、
単一の順序では関連のあるデータが上位に集まらない場
合に、別の観点からの順序付けにより元の順序では下位
に属していた関連のあるデータの発見を容易にする。さ
らに、複数の順序付けで上位にランクされるものの、
和、差、積などを求める。これにより重要なデータを上
位にまとめる手段を提供する。
に、大量のデータ(文書)に対して情報検索を行う場合
に、複数の順序付け(重み付け)を用いる。これにより、
単一の順序では関連のあるデータが上位に集まらない場
合に、別の観点からの順序付けにより元の順序では下位
に属していた関連のあるデータの発見を容易にする。さ
らに、複数の順序付けで上位にランクされるものの、
和、差、積などを求める。これにより重要なデータを上
位にまとめる手段を提供する。
【0007】より具体的には、文書集合から所望の情報
に関連する文書を検索するにあたり、文書集合に対して
複数の順序付けを用いてソートし、複数のソート結果の
上位の文書集合を決定し、複数のソート結果の上位の文
書集合間で演算を行ない、演算により上位に順序付けら
れた文書を検索結果とするように構成する。この時、複
数の順序付けとは、文書作成日時、文書サイズ、文書更
新頻度、文書に含まれるリンク数、所望の情報に関連す
る用語の含有度、または所望の情報に関連するキーワー
ドの数などを指し、また演算とは、複数のソート結果の
上位の文書集合間において、文書集合間の和、文書集合
間の積、または文書集合間の差を指す。すなわち、検索
結果を絞り込み、徐々に候補を削減するのではなく、特
定の(検索結果を固定した)文書集合を、様々な順序で
並べ替えた複数の集合間で、演算を行い最終の検索結果
を得る。また対話的にこのような順序付けを組み合わせ
ることによって最適な検索結果の並べ方を追加指定でき
るようにする。
に関連する文書を検索するにあたり、文書集合に対して
複数の順序付けを用いてソートし、複数のソート結果の
上位の文書集合を決定し、複数のソート結果の上位の文
書集合間で演算を行ない、演算により上位に順序付けら
れた文書を検索結果とするように構成する。この時、複
数の順序付けとは、文書作成日時、文書サイズ、文書更
新頻度、文書に含まれるリンク数、所望の情報に関連す
る用語の含有度、または所望の情報に関連するキーワー
ドの数などを指し、また演算とは、複数のソート結果の
上位の文書集合間において、文書集合間の和、文書集合
間の積、または文書集合間の差を指す。すなわち、検索
結果を絞り込み、徐々に候補を削減するのではなく、特
定の(検索結果を固定した)文書集合を、様々な順序で
並べ替えた複数の集合間で、演算を行い最終の検索結果
を得る。また対話的にこのような順序付けを組み合わせ
ることによって最適な検索結果の並べ方を追加指定でき
るようにする。
【0008】このように、複数の順序付けを利用するこ
とで、大量のデータに対する情報検索の結果を、ユーザ
が求める観点での関連度の高いデータが上位になるよう
に順序付けることが可能になる。本発明では標準的に提
供される順序付け(検索式との一致度の順)以外のデー
タを並べる順序付けとして、上記のように、各データの
作成された日付順、各データのサイズ順、更新頻度の高
い順、含まれるリンクの多い順、特定の分野に含まれる
用語を高頻度、特定の分野に含まれる用語を多数含む
順、指定したキーワードを多く含む順など様々なものが
順序付けを提供する。図1に本発明の検索方式の概要を
示す。標準的に提供される順序付け、たとえば実験、成
功などの検索式で一致度の高い順に文書が検索された文
書集合のほか、複数の順序付けデータ(この場合、日付
順、医学用語)における上位の文書集合の順序を合成す
ることにより、最終の検索結果として、最近の医学分野
での実験成功例の文書集合が得られる。これらに限定さ
れず多様な分野での順序付けも同様に可能である。さら
にすべての順序付けには降順/昇順の2種類があり、さ
らに日付やサイズの場合は、1995年や1MBといった特定
の値に近い/遠い順という指定を行うこともできる。同
様にして、すべての順序付けは、特定の値でなく任意の
要素を指定し、それが1位になり、その他の要素は、1位
の要素と近い順に並ぶように変形することもできる。
とで、大量のデータに対する情報検索の結果を、ユーザ
が求める観点での関連度の高いデータが上位になるよう
に順序付けることが可能になる。本発明では標準的に提
供される順序付け(検索式との一致度の順)以外のデー
タを並べる順序付けとして、上記のように、各データの
作成された日付順、各データのサイズ順、更新頻度の高
い順、含まれるリンクの多い順、特定の分野に含まれる
用語を高頻度、特定の分野に含まれる用語を多数含む
順、指定したキーワードを多く含む順など様々なものが
順序付けを提供する。図1に本発明の検索方式の概要を
示す。標準的に提供される順序付け、たとえば実験、成
功などの検索式で一致度の高い順に文書が検索された文
書集合のほか、複数の順序付けデータ(この場合、日付
順、医学用語)における上位の文書集合の順序を合成す
ることにより、最終の検索結果として、最近の医学分野
での実験成功例の文書集合が得られる。これらに限定さ
れず多様な分野での順序付けも同様に可能である。さら
にすべての順序付けには降順/昇順の2種類があり、さ
らに日付やサイズの場合は、1995年や1MBといった特定
の値に近い/遠い順という指定を行うこともできる。同
様にして、すべての順序付けは、特定の値でなく任意の
要素を指定し、それが1位になり、その他の要素は、1位
の要素と近い順に並ぶように変形することもできる。
【0009】演算の種類(順序付けの合成)としては、
次のような順序付けの合成が可能である。(但し複数の
順序付けをA,Bとする)、 ・ AとBの和 (A+B): Aの上位またはBの上位である要素
が上位になる順序付け。 ・ AとBの積 (A*B): Aの上位かつBの上位である要素が
上位になる順序付け。 ・ AとBの差 (A-B/B-A): Aの上位でBの上位ではない要
素が上位になる順序付け、およびその逆。 また文書集合を特徴づける手段として有力なベクター空
間モデルに対しては、様々な順序付けを生成することも
可能である。図2に順序の合成例を示す。順序A、Bに
よりソートされた文書集合に対して、和、積、差の例が
示されている。合成の結果はある閾値で足きりされ、上
位にランクしたものが最終の検索結果となる。これらの
演算はユーザが自由に選択可能である。
次のような順序付けの合成が可能である。(但し複数の
順序付けをA,Bとする)、 ・ AとBの和 (A+B): Aの上位またはBの上位である要素
が上位になる順序付け。 ・ AとBの積 (A*B): Aの上位かつBの上位である要素が
上位になる順序付け。 ・ AとBの差 (A-B/B-A): Aの上位でBの上位ではない要
素が上位になる順序付け、およびその逆。 また文書集合を特徴づける手段として有力なベクター空
間モデルに対しては、様々な順序付けを生成することも
可能である。図2に順序の合成例を示す。順序A、Bに
よりソートされた文書集合に対して、和、積、差の例が
示されている。合成の結果はある閾値で足きりされ、上
位にランクしたものが最終の検索結果となる。これらの
演算はユーザが自由に選択可能である。
【0010】
【発明の実施の形態】図3に本発明の検索システムのブ
ロック図を示す。本発明の検索システムは、データ集合
から順序付けのためのメタデータを抽出し、検索時に評
価可能な順序付けのセットを用意するオフライン・デー
タ抽出部302と、ユーザが情報検索を行った結果を様
々に並べ替えるための対話的データ操作部308から構
成される。
ロック図を示す。本発明の検索システムは、データ集合
から順序付けのためのメタデータを抽出し、検索時に評
価可能な順序付けのセットを用意するオフライン・デー
タ抽出部302と、ユーザが情報検索を行った結果を様
々に並べ替えるための対話的データ操作部308から構
成される。
【0011】ブロック301は、データベース/文書デ
ータ (カタログ情報を含む)検索対象となるデータの集
合である。更新頻度、最終更新日といったデータそのも
のの外部で定義される情報はあらかじめ個別のデータの
カタログ情報として管理されているものと仮定する。ブ
ロック302は、元データを収集するときに、検索に必
要な索引や順序付けに必要な情報を抽出するオフライン
・データ抽出部である。オフライン・データ抽出部30
2は、テキスト処理ブロック303と、メタデータ管理
304から構成される。ブロック303は、辞書・シソ
ーラスを利用してテキスト中の単語の認識とその属性の
付与、タグの処理などを行うテキスト処理部である。ブ
ロック304は、順序付けで必要となる情報(更新日
付、テキストのバイト数、リンクの数など)を記憶して
いる文書メタデータである。ブロック305は、単語と
その属性や同義語、上位・下位語、関連語などを記述し
たリソースとなる、辞書/シソーラスである。ブロック
306は、単語や文字列などからそれが含まれるデー
タ、文書へのポインタを得るためのリソースとなる、索
引である。ブロック307は、各データや文書を特定の
順序で並べるために必要な属性とその属性値に付与する
重みを記述したリソースとなる順序付けデータである。
ータ (カタログ情報を含む)検索対象となるデータの集
合である。更新頻度、最終更新日といったデータそのも
のの外部で定義される情報はあらかじめ個別のデータの
カタログ情報として管理されているものと仮定する。ブ
ロック302は、元データを収集するときに、検索に必
要な索引や順序付けに必要な情報を抽出するオフライン
・データ抽出部である。オフライン・データ抽出部30
2は、テキスト処理ブロック303と、メタデータ管理
304から構成される。ブロック303は、辞書・シソ
ーラスを利用してテキスト中の単語の認識とその属性の
付与、タグの処理などを行うテキスト処理部である。ブ
ロック304は、順序付けで必要となる情報(更新日
付、テキストのバイト数、リンクの数など)を記憶して
いる文書メタデータである。ブロック305は、単語と
その属性や同義語、上位・下位語、関連語などを記述し
たリソースとなる、辞書/シソーラスである。ブロック
306は、単語や文字列などからそれが含まれるデー
タ、文書へのポインタを得るためのリソースとなる、索
引である。ブロック307は、各データや文書を特定の
順序で並べるために必要な属性とその属性値に付与する
重みを記述したリソースとなる順序付けデータである。
【0012】ブロック308は、ユーザからの指示によ
ってデータや文書を検索し、関連度の高いものに絞り込
むための手段を提供する対話的なインタフェースを提供
する、対話的データ操作部である。ブロック309は、
メニューや検索式によってユーザから検索対象の指示を
受け付ける、検索要求入力手段である。ブロック310
は、索引などを利用して検索要求に合致するデータや文
書の集合を求める、検索要求処理手段である。ブロック
311は、検索結果の各要素を並べる順序について、ユ
ーザによる選択を受け付ける、順序選択部である。ブロ
ック312は、ある順序付けで並べられた検索結果か
ら、ユーザの選択により特定の要素を最上位にするよう
な別の順序付けを求める、要素選択部である。ブロック
313は、ユーザが指定する複数の順序付けから、その
和や積によって新たな順序付けを合成する、順序合成部
である。ブロック314は、ユーザの検索要求に合致す
るデータや文書の集合であるところの、検索結果であ
る。ブロック315は、順序合成により、現在の検索結
果に適用されている一時的な順序付けの情報を記憶する
ためのリソースとなる、合成順序付けデータである。ブ
ロック316は、検索結果と与えられた順序付け(複数
可)のもとで、その検索結果の要素を順に表示する。複
数の順序付けが指定されているときには複数の結果表示
を同時に提示する、検索要求表示手段である。
ってデータや文書を検索し、関連度の高いものに絞り込
むための手段を提供する対話的なインタフェースを提供
する、対話的データ操作部である。ブロック309は、
メニューや検索式によってユーザから検索対象の指示を
受け付ける、検索要求入力手段である。ブロック310
は、索引などを利用して検索要求に合致するデータや文
書の集合を求める、検索要求処理手段である。ブロック
311は、検索結果の各要素を並べる順序について、ユ
ーザによる選択を受け付ける、順序選択部である。ブロ
ック312は、ある順序付けで並べられた検索結果か
ら、ユーザの選択により特定の要素を最上位にするよう
な別の順序付けを求める、要素選択部である。ブロック
313は、ユーザが指定する複数の順序付けから、その
和や積によって新たな順序付けを合成する、順序合成部
である。ブロック314は、ユーザの検索要求に合致す
るデータや文書の集合であるところの、検索結果であ
る。ブロック315は、順序合成により、現在の検索結
果に適用されている一時的な順序付けの情報を記憶する
ためのリソースとなる、合成順序付けデータである。ブ
ロック316は、検索結果と与えられた順序付け(複数
可)のもとで、その検索結果の要素を順に表示する。複
数の順序付けが指定されているときには複数の結果表示
を同時に提示する、検索要求表示手段である。
【0013】なお、個別のデータのカタログ情報以外の
情報については、テキスト処理部303によってテキス
ト解析が行われ、単語分割、リンク(Webページならアン
カー)抽出といった要素の認識によって、それぞれメタ
データ管理部304の特定の属性/属性値として管理さ
れる。日付順やサイズ順といった順序付けは、この属性
値から自然数への写像を行い、これを昇順/降順に整列
することに対応する。
情報については、テキスト処理部303によってテキス
ト解析が行われ、単語分割、リンク(Webページならアン
カー)抽出といった要素の認識によって、それぞれメタ
データ管理部304の特定の属性/属性値として管理さ
れる。日付順やサイズ順といった順序付けは、この属性
値から自然数への写像を行い、これを昇順/降順に整列
することに対応する。
【0014】単語の出現頻度に基づく順序付けについて
は、個別の単語の出現頻度を{単語/出現頻度}の対とし
てすべてメタデータ管理部304で記録する方式では、
数百万以上の文書あるいはレコードを実時間で整列した
り上位K個の要素を求めることは困難である。これらの
データは通常キーワード検索のための検索エンジンの索
引として管理されており、特定の文書からそれに含まれ
る単語とその出現頻度を逆引きすることは記憶域および
処理時間の面で現実的でない。好ましくはベクター空間
モデルを利用し、各Webページをそこに含まれる用語の
頻度ベクトルで表現した配列をもとにして検索条件との
合致度の高いページを計算する。このような配列では、
用語数 N x 文書数 M という巨大な空間 Vを、固有値分
解(Singular Value Decomposition)の手法によって数十
から数百程度の主成分に圧縮して近似する。本発明の場
合、この配列 Vを利用して以下のような分野別/用語別
の順序付けの作成を可能にしている。これらの順序付け
の作成はすべてオフライン作業なので、検索実行時の効
率に影響を与えない。
は、個別の単語の出現頻度を{単語/出現頻度}の対とし
てすべてメタデータ管理部304で記録する方式では、
数百万以上の文書あるいはレコードを実時間で整列した
り上位K個の要素を求めることは困難である。これらの
データは通常キーワード検索のための検索エンジンの索
引として管理されており、特定の文書からそれに含まれ
る単語とその出現頻度を逆引きすることは記憶域および
処理時間の面で現実的でない。好ましくはベクター空間
モデルを利用し、各Webページをそこに含まれる用語の
頻度ベクトルで表現した配列をもとにして検索条件との
合致度の高いページを計算する。このような配列では、
用語数 N x 文書数 M という巨大な空間 Vを、固有値分
解(Singular Value Decomposition)の手法によって数十
から数百程度の主成分に圧縮して近似する。本発明の場
合、この配列 Vを利用して以下のような分野別/用語別
の順序付けの作成を可能にしている。これらの順序付け
の作成はすべてオフライン作業なので、検索実行時の効
率に影響を与えない。
【0015】(1) 特定の分野(あるいはユーザのファイ
ル)に現れる用語の集合が与えられたとき、上記の配列
Vの行をこの用語に対応するもののみに縮退し、上記の
固有値分解の手法を適用する。これにより、その分野に
関する各文書の特徴ベクトルを計算しておくことができ
る。個別の検索結果における各文書の関連度は、検索に
使われた用語のベクトル(を主成分に圧縮したもの)と、
各文書の特徴ベクトルとの距離によって決定できる。あ
るいは、もとの特徴ベクトルから、この分野に関する文
書集合の中心(centroid)を求めて、各文書の中心からの
距離を事前に計算しておいてもよい。この場合は、文書
の順序付けは検索条件とは無関係に一定になるが、整列
の計算は高速になる。 (2) 特定の文書の集合が与えられたときには、配列 V
の列をこの文書に対応するものに縮退して、同様の処理
を行う。これにより、コンピュータ新製品紹介という観
点での関連度、報道文書という観点での関連度、といっ
た順序付けが可能になる。 (3) 両者の組み合わせにより、特定の文書集合で特定
の用語に関して関連度の高いものを順序付ける。また、
順序付けのかわりに階層/非階層型のクラスタリングを
採用することもできる。この場合は、文書の特徴ベクト
ルをもとに、文書集合をクラスタに分類してユーザに提
示する。順序付けを定義する関数を、クラスタリングに
おける関連度(類似度)を与える関数に置き換える。例
えば類似度として2つの特徴ベクトルの距離( cosine )
を計算するようにしてもよい。
ル)に現れる用語の集合が与えられたとき、上記の配列
Vの行をこの用語に対応するもののみに縮退し、上記の
固有値分解の手法を適用する。これにより、その分野に
関する各文書の特徴ベクトルを計算しておくことができ
る。個別の検索結果における各文書の関連度は、検索に
使われた用語のベクトル(を主成分に圧縮したもの)と、
各文書の特徴ベクトルとの距離によって決定できる。あ
るいは、もとの特徴ベクトルから、この分野に関する文
書集合の中心(centroid)を求めて、各文書の中心からの
距離を事前に計算しておいてもよい。この場合は、文書
の順序付けは検索条件とは無関係に一定になるが、整列
の計算は高速になる。 (2) 特定の文書の集合が与えられたときには、配列 V
の列をこの文書に対応するものに縮退して、同様の処理
を行う。これにより、コンピュータ新製品紹介という観
点での関連度、報道文書という観点での関連度、といっ
た順序付けが可能になる。 (3) 両者の組み合わせにより、特定の文書集合で特定
の用語に関して関連度の高いものを順序付ける。また、
順序付けのかわりに階層/非階層型のクラスタリングを
採用することもできる。この場合は、文書の特徴ベクト
ルをもとに、文書集合をクラスタに分類してユーザに提
示する。順序付けを定義する関数を、クラスタリングに
おける関連度(類似度)を与える関数に置き換える。例
えば類似度として2つの特徴ベクトルの距離( cosine )
を計算するようにしてもよい。
【0016】対話的データ操作部308は、ユーザの検
索結果データを選択された順序によって表示する順序選
択部311、ユーザの指定によって複数の順序付けから
新たな順序付けを生成/表示する順序合成部313、選
択された要素を中心に興味のあるデータを上位に集める
要素選択部312から構成される。順序選択部311で
は、検索エンジンが返す検索結果の順序と並列に表示さ
れる別の順序付けを指定できる。検索結果を一度に複数
の順序付けで表示するか、常に最後に選ばれた順序付け
で表示するかはユーザの指定または実装によって選択可
能である。
索結果データを選択された順序によって表示する順序選
択部311、ユーザの指定によって複数の順序付けから
新たな順序付けを生成/表示する順序合成部313、選
択された要素を中心に興味のあるデータを上位に集める
要素選択部312から構成される。順序選択部311で
は、検索エンジンが返す検索結果の順序と並列に表示さ
れる別の順序付けを指定できる。検索結果を一度に複数
の順序付けで表示するか、常に最後に選ばれた順序付け
で表示するかはユーザの指定または実装によって選択可
能である。
【0017】実時間処理を考慮すると、例えば最初の検
索結果の上位K個にのみ順序付けを適用するといった制
限を設けることで高速化を実現できる。次に、ユーザの
指定により2つの順序Fa,Fbを合成する順序合成部313
は、様々な形で実現が可能であるが、たとえば簡潔に以
下のように実装できる。それぞれの順序が各データdに
上位の要素ほど大きな整数 Fa(d),Fb(d)を与えるものと
仮定して、以下ののような線形1次方程式で新たな順序
関数を定義する。(ただしA, B, Cは定数)
索結果の上位K個にのみ順序付けを適用するといった制
限を設けることで高速化を実現できる。次に、ユーザの
指定により2つの順序Fa,Fbを合成する順序合成部313
は、様々な形で実現が可能であるが、たとえば簡潔に以
下のように実装できる。それぞれの順序が各データdに
上位の要素ほど大きな整数 Fa(d),Fb(d)を与えるものと
仮定して、以下ののような線形1次方程式で新たな順序
関数を定義する。(ただしA, B, Cは定数)
【0018】 1) FaとFbの和 (Fa+Fb): A1*Fa(d) + B1*Fb(d) 2) FaとFbの積 (Fa*Fb): A2*(Fa(d)-C) + B2*(Fb(d)-D) 3) FaとFbの差 (Fa-Fb/Fb-Fa): A3*Fa(d) - B3*Fb(d)お
よび B4*Fb(d) - A4*Fa(d)
よび B4*Fb(d) - A4*Fa(d)
【0019】A1-4, B1-4は、それぞれFa,Fbの順序が上
位の要素に与える値がほぼ同じような値になるように調
整するための係数であり、C,Dは、Fa,Fbでそれぞれ上位
L番目の要素がとる値に設定する。これにより順序の合
成は高速に、かつ任意の数の順序付けに対して定義でき
る。順序を逆にするには、Fa(d),Fb(d)の符号を逆にす
ればよく、指定した特定の要素eが最上位になるように
するためには、以下のような新たな順序関数を定義する
とよい。
位の要素に与える値がほぼ同じような値になるように調
整するための係数であり、C,Dは、Fa,Fbでそれぞれ上位
L番目の要素がとる値に設定する。これにより順序の合
成は高速に、かつ任意の数の順序付けに対して定義でき
る。順序を逆にするには、Fa(d),Fb(d)の符号を逆にす
ればよく、指定した特定の要素eが最上位になるように
するためには、以下のような新たな順序関数を定義する
とよい。
【0020】Fc(d) = Fa(e) - Fa(d) if Fa(d) >= Fa
(e), Fa(d) - Fa(e) otherwise
(e), Fa(d) - Fa(e) otherwise
【0021】要素選択部312は、上のような新たな順
序関数を用いて選択されたデータと近い順序値をとるデ
ータを上位に並べることができる。検索エンジンが関連
度フィードバックを実現している場合には、このデータ
ともとの検索式から、新たな順序付けで検索結果を表示
することができる。本発明の順序付け方式により、検索
エンジンが検索結果を最初に並べた時に上位に必ずしも
関連度の高いデータが存在しない時に、ユーザが多数の
データを自ら調べるかわりに、別の観点による順序を指
定することで、効率的に関連度の高いデータを見つける
ことができる。さらに関連度フィードバックを利用すれ
ば、その関連度の高いデータを検索条件に追加すること
で、重要なデータが上位に集まるような検索条件に高速
に到達できる。
序関数を用いて選択されたデータと近い順序値をとるデ
ータを上位に並べることができる。検索エンジンが関連
度フィードバックを実現している場合には、このデータ
ともとの検索式から、新たな順序付けで検索結果を表示
することができる。本発明の順序付け方式により、検索
エンジンが検索結果を最初に並べた時に上位に必ずしも
関連度の高いデータが存在しない時に、ユーザが多数の
データを自ら調べるかわりに、別の観点による順序を指
定することで、効率的に関連度の高いデータを見つける
ことができる。さらに関連度フィードバックを利用すれ
ば、その関連度の高いデータを検索条件に追加すること
で、重要なデータが上位に集まるような検索条件に高速
に到達できる。
【0022】次に、図4に本発明の検索方法のフローチ
ャートを示す。まずステップ401において、検索要求
処理手段310において、検索要求入力手段309を通
して検索式を得る。これを検索式Qとする。次に、ステ
ップ402において、検索式Qを索引306に基づき評
価し、解となる文書の集合である検索結果314を生成
する。これをSとする。そしてステップ403で、検索
結果314に含まれる各要素(文書、diとする)と検索
式Qとの関連度を、システムで定義されている標準的な
関連度計算方式R0によって計算する。関連度計算方式と
は、順序付けデータ307の1つのデータ(単語・属性
ごとの重みを指定したベクトルや行列として表現され
る)を用いて文書の重みを計算する方式である。標準的
な関連度の計算には、このデータ307の1つが割り当
てられている。次にステップ404において、ステップ
403によって検索結果314の各要素diに関連度(重
み)が対応づけられるので、この重みの順に要素を並べ
替える。このとき、ある閾値を順序付けに対応づけてお
き、その閾値以下の重みをもつ要素を検索式Qと無関係
であるとして排除してもよい。ステップ402の解のサ
イズを抑えるために、このステップ402〜404を一
括して適用してもよい。各要素の関連度が計算された検
索結果Sは、検索要求表示手段316によって可視化さ
れる。そしてステップ405では、今までに使われた関
連度計算方式で満足な要素(文書)の並びが得られたか
どうかをユーザに確認する。もしまだ満足な要素の並び
が得られていないときには、順序付けデータ307から
新たに別の関連度計算を行うためにステップ406に進
む。現在の要素の並びが満足であれば、ステップ409
に進む。
ャートを示す。まずステップ401において、検索要求
処理手段310において、検索要求入力手段309を通
して検索式を得る。これを検索式Qとする。次に、ステ
ップ402において、検索式Qを索引306に基づき評
価し、解となる文書の集合である検索結果314を生成
する。これをSとする。そしてステップ403で、検索
結果314に含まれる各要素(文書、diとする)と検索
式Qとの関連度を、システムで定義されている標準的な
関連度計算方式R0によって計算する。関連度計算方式と
は、順序付けデータ307の1つのデータ(単語・属性
ごとの重みを指定したベクトルや行列として表現され
る)を用いて文書の重みを計算する方式である。標準的
な関連度の計算には、このデータ307の1つが割り当
てられている。次にステップ404において、ステップ
403によって検索結果314の各要素diに関連度(重
み)が対応づけられるので、この重みの順に要素を並べ
替える。このとき、ある閾値を順序付けに対応づけてお
き、その閾値以下の重みをもつ要素を検索式Qと無関係
であるとして排除してもよい。ステップ402の解のサ
イズを抑えるために、このステップ402〜404を一
括して適用してもよい。各要素の関連度が計算された検
索結果Sは、検索要求表示手段316によって可視化さ
れる。そしてステップ405では、今までに使われた関
連度計算方式で満足な要素(文書)の並びが得られたか
どうかをユーザに確認する。もしまだ満足な要素の並び
が得られていないときには、順序付けデータ307から
新たに別の関連度計算を行うためにステップ406に進
む。現在の要素の並びが満足であれば、ステップ409
に進む。
【0023】ステップ406では、ユーザにシステムの
提供する順序付けデータ307の一覧を表示し、選択さ
せる。順序付けデータ以外に、ユーザは、今までに選択
された順序付けに現れる1つの要素dを選択し、これを
一位に順序付けるように変更することを指示することが
できる。ステップ407において、ステップ406で新
たに順序付けデータが選ばれたときには、これを Rj と
し、順序選択311により、ステップ403〜404と
同じ手順で、検索結果 S の各要素 di を Rj のもとで
関連度を計算する。もしもある要素dが選ばれたとき
は、要素選択312によりこの要素の重みを最大にする
ように順序付けを変化させ(このような重みを変化させ
る方法は複数の方法で実現できる。順序付けデータの単
語や属性の重みを変えたり、d の関連度を最大にするよ
うに関連度計算の定数を加減するといった方法が可能で
ある)、各要素 di の関連度を再計算する。ステップ4
08では、ステップ407で再計算された要素 di の関
連度にしたがって、新たに順序付けされた要素を表示す
る。次にステップ409において、複数の関連度の観点
からそれぞれ順序付けされた要素の並びがともに満足な
ものであれば、それらの関連付けを合成し、新たに1つ
の順序付けによって要素を並び替えるかどうかを選択さ
せるためにステップ410に進み、順序合成メニューを
表示する。現在の要素の並びで満足なとき、あるいは現
在の検索を終えるときには、終了する。ステップ410
では、順序合成メニューで今までに使われた順序付けデ
ータ307の2つの順序付け Ri, Rjと、和や差といっ
た合成方式を選択させる。次にステップ411で、ステ
ップ410で選択された順序付けと合成方式に基づいて
順序合成313において検索結果Sの各要素 di に新た
な関連度を計算する。このときに合成された順序付けデ
ータ M は、合成順序付けデータ315として検索セッ
ションを通して有効であるように保持される。最後に、
ステップ412では、ステップ411で指定された関連
度を計算し、検索要求表示手段316において検索結果
S の各要素 di を表示する。
提供する順序付けデータ307の一覧を表示し、選択さ
せる。順序付けデータ以外に、ユーザは、今までに選択
された順序付けに現れる1つの要素dを選択し、これを
一位に順序付けるように変更することを指示することが
できる。ステップ407において、ステップ406で新
たに順序付けデータが選ばれたときには、これを Rj と
し、順序選択311により、ステップ403〜404と
同じ手順で、検索結果 S の各要素 di を Rj のもとで
関連度を計算する。もしもある要素dが選ばれたとき
は、要素選択312によりこの要素の重みを最大にする
ように順序付けを変化させ(このような重みを変化させ
る方法は複数の方法で実現できる。順序付けデータの単
語や属性の重みを変えたり、d の関連度を最大にするよ
うに関連度計算の定数を加減するといった方法が可能で
ある)、各要素 di の関連度を再計算する。ステップ4
08では、ステップ407で再計算された要素 di の関
連度にしたがって、新たに順序付けされた要素を表示す
る。次にステップ409において、複数の関連度の観点
からそれぞれ順序付けされた要素の並びがともに満足な
ものであれば、それらの関連付けを合成し、新たに1つ
の順序付けによって要素を並び替えるかどうかを選択さ
せるためにステップ410に進み、順序合成メニューを
表示する。現在の要素の並びで満足なとき、あるいは現
在の検索を終えるときには、終了する。ステップ410
では、順序合成メニューで今までに使われた順序付けデ
ータ307の2つの順序付け Ri, Rjと、和や差といっ
た合成方式を選択させる。次にステップ411で、ステ
ップ410で選択された順序付けと合成方式に基づいて
順序合成313において検索結果Sの各要素 di に新た
な関連度を計算する。このときに合成された順序付けデ
ータ M は、合成順序付けデータ315として検索セッ
ションを通して有効であるように保持される。最後に、
ステップ412では、ステップ411で指定された関連
度を計算し、検索要求表示手段316において検索結果
S の各要素 di を表示する。
【0024】図5に、本発明の検索システムによる検索
結果例を示す。図5における例は、情報分野ニュースの
一覧を検索対象として、「コンピュータ」で検索した結
果(図4のステップ404に相当)と、「ソフトウェ
ア」分野の重みを高くして計算した関連度の高い順の結
果(図4のステップ408に相当)があり、これらに対
して演算の種類として和(+)を選択した、順序付けの
合成(図4のステップ412に相当)場合の検索例であ
る。これにより、コンピュータ関連ニュースで特にソフ
トウェア分野との関連性の高いニュースが上位に集まる
検索結果が得られる。
結果例を示す。図5における例は、情報分野ニュースの
一覧を検索対象として、「コンピュータ」で検索した結
果(図4のステップ404に相当)と、「ソフトウェ
ア」分野の重みを高くして計算した関連度の高い順の結
果(図4のステップ408に相当)があり、これらに対
して演算の種類として和(+)を選択した、順序付けの
合成(図4のステップ412に相当)場合の検索例であ
る。これにより、コンピュータ関連ニュースで特にソフ
トウェア分野との関連性の高いニュースが上位に集まる
検索結果が得られる。
【0025】図6には、本発明の検索システムにおいて
使用されるシステムのハードウェア構成の一実施例を示
す。システム100は、中央処理装置(CPU)1とメ
モリ4とを含んでいる。CPU1とメモリ4は、バス2
を介して、補助記憶装置としてのハードディスク装置1
3(またはMO、CD−ROM23、DVD等の記憶媒
体駆動装置)とIDEコントローラ25を介して接続し
てある。同様にCPU1とメモリ4は、バス2を介し
て、補助記憶装置としてのハードディスク装置30(ま
たはMO28、CD−ROM23、DVD等の記憶媒体
駆動装置)とSCSIコントローラ27を介して接続し
てある。フロッピーディスク装置20はフロッピーディ
スクコントローラ19を介してバス2へ接続されてい
る。好ましくは補助記憶装置に、文書データ301、辞
書シソーラス305、索引306、順序付けデータ30
7、文書メタデータ304が記憶される。
使用されるシステムのハードウェア構成の一実施例を示
す。システム100は、中央処理装置(CPU)1とメ
モリ4とを含んでいる。CPU1とメモリ4は、バス2
を介して、補助記憶装置としてのハードディスク装置1
3(またはMO、CD−ROM23、DVD等の記憶媒
体駆動装置)とIDEコントローラ25を介して接続し
てある。同様にCPU1とメモリ4は、バス2を介し
て、補助記憶装置としてのハードディスク装置30(ま
たはMO28、CD−ROM23、DVD等の記憶媒体
駆動装置)とSCSIコントローラ27を介して接続し
てある。フロッピーディスク装置20はフロッピーディ
スクコントローラ19を介してバス2へ接続されてい
る。好ましくは補助記憶装置に、文書データ301、辞
書シソーラス305、索引306、順序付けデータ30
7、文書メタデータ304が記憶される。
【0026】フロッピーディスク装置20には、フロッ
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置13(またはMO、CD−ROM、
DVD等の記憶媒体)、ROM14には、オペレーティ
ングシステムと協働してCPU等に命令を与え、本発明
を実施するためのコンピュータ・プログラムのコード若
しくはデータを記録することができ、メモリ4にロード
されることによって実行される。このコンピュータ・プ
ログラムのコードは圧縮し、または、複数に分割して、
複数の媒体に記録することもできる。通常、検索結果3
14は、補助記憶装置に記憶するが、メモリ4が十分お
おきければメモリ4内だけで記憶、演算を行なうように
してもよい。
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置13(またはMO、CD−ROM、
DVD等の記憶媒体)、ROM14には、オペレーティ
ングシステムと協働してCPU等に命令を与え、本発明
を実施するためのコンピュータ・プログラムのコード若
しくはデータを記録することができ、メモリ4にロード
されることによって実行される。このコンピュータ・プ
ログラムのコードは圧縮し、または、複数に分割して、
複数の媒体に記録することもできる。通常、検索結果3
14は、補助記憶装置に記憶するが、メモリ4が十分お
おきければメモリ4内だけで記憶、演算を行なうように
してもよい。
【0027】システム100は更に、ユーザ・インター
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス(マウス、ジョイスティック等)
7またはキーボード6や、検索結果などの視覚データを
ユーザに提示するためのディスプレイ12を有すること
ができる。また、パラレルポート16を介してプリンタ
を接続することや、シリアルポート15を介してモデム
を接続することが可能である。このシステム100は、
シリアルポート15およびモデムまたは通信アダプタ1
8(イーサネットやトークンリング・カード)等を介して
ネットワークに接続し、他のコンピュータ等と通信を行
うことが可能である。たとえば、文書データ301など
をインターネットからダウンロードしたり、ローカルエ
リアネットワークにより分散されたサーバなどから文書
データ301、順序付けデータ307などを参照するよ
うにしてもよい。またシリアルポート15若しくはパラ
レルポート16に、遠隔送受信機器を接続して、赤外線
若しくは電波によりデータの送受信を行うことも可能で
ある。
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス(マウス、ジョイスティック等)
7またはキーボード6や、検索結果などの視覚データを
ユーザに提示するためのディスプレイ12を有すること
ができる。また、パラレルポート16を介してプリンタ
を接続することや、シリアルポート15を介してモデム
を接続することが可能である。このシステム100は、
シリアルポート15およびモデムまたは通信アダプタ1
8(イーサネットやトークンリング・カード)等を介して
ネットワークに接続し、他のコンピュータ等と通信を行
うことが可能である。たとえば、文書データ301など
をインターネットからダウンロードしたり、ローカルエ
リアネットワークにより分散されたサーバなどから文書
データ301、順序付けデータ307などを参照するよ
うにしてもよい。またシリアルポート15若しくはパラ
レルポート16に、遠隔送受信機器を接続して、赤外線
若しくは電波によりデータの送受信を行うことも可能で
ある。
【0028】スピーカ23は、オーディオ・コントロー
ラ21によってD/A(デジタル/アナログ変換)変換
された音声信号を、アンプ22を介して受領し、音声と
して出力する。また、オーディオ・コントローラ21
は、マイクロフォン24から受領した音声情報をA/D
(アナログ/デジタル)変換し、システム外部の音声情
報をシステムにとり込むことを可能にしている。Via
Voice(IBM社の商標)などのアプリケーション
を用いて音声により検索コマンドを発して、順序付けの
選択、演算の選択、検索の実行を行なうようにしてもよ
い。
ラ21によってD/A(デジタル/アナログ変換)変換
された音声信号を、アンプ22を介して受領し、音声と
して出力する。また、オーディオ・コントローラ21
は、マイクロフォン24から受領した音声情報をA/D
(アナログ/デジタル)変換し、システム外部の音声情
報をシステムにとり込むことを可能にしている。Via
Voice(IBM社の商標)などのアプリケーション
を用いて音声により検索コマンドを発して、順序付けの
選択、演算の選択、検索の実行を行なうようにしてもよ
い。
【0029】このように、本発明の検索システムに用い
ることのできるハードウェア構成は、通常のパーソナル
コンピュータ(PC)やワークステーション、ノートブ
ックPC、パームトップPC、ネットワークコンピュー
タ、コンピュータを内蔵したテレビ等の各種家電製品、
通信機能を有するゲーム機、電話、FAX、携帯電話、
PHS、電子手帳、等を含む通信機能有する通信端末、
または、これらの組合せによって実施可能であることを
容易に理解できるであろう。ただし、これらの構成要素
は例示であり、その全ての構成要素が本発明の必須の構
成要素となるわけではない。
ることのできるハードウェア構成は、通常のパーソナル
コンピュータ(PC)やワークステーション、ノートブ
ックPC、パームトップPC、ネットワークコンピュー
タ、コンピュータを内蔵したテレビ等の各種家電製品、
通信機能を有するゲーム機、電話、FAX、携帯電話、
PHS、電子手帳、等を含む通信機能有する通信端末、
または、これらの組合せによって実施可能であることを
容易に理解できるであろう。ただし、これらの構成要素
は例示であり、その全ての構成要素が本発明の必須の構
成要素となるわけではない。
【0030】
【発明の効果】本発明は、すべてのインターネット検索
エンジンに対して適用可能なだけでなく、データベース
のレコードを柔軟に順序付けて表示することにも利用で
きるため、情報検索一般のフロントエンドとして非常に
有効な検索手法を提供する。単にキーワードによる検索
とその一致度による順序付けでは、キーとなる単語を適
度に含んだ無用の文書(SPAM)を完全に排除することが
困難であるが、本発明の方法を用いることにより、本当
に興味のある文書を見つけやすくなる。さらに、本発明
は検索エンジンの高度化、差別化の強力な手段を提供で
きるだけでなく、大量のデータを蓄積した検索エンジン
のもつ情報検索能力を飛躍的に高めるための有力な道具
となる。
エンジンに対して適用可能なだけでなく、データベース
のレコードを柔軟に順序付けて表示することにも利用で
きるため、情報検索一般のフロントエンドとして非常に
有効な検索手法を提供する。単にキーワードによる検索
とその一致度による順序付けでは、キーとなる単語を適
度に含んだ無用の文書(SPAM)を完全に排除することが
困難であるが、本発明の方法を用いることにより、本当
に興味のある文書を見つけやすくなる。さらに、本発明
は検索エンジンの高度化、差別化の強力な手段を提供で
きるだけでなく、大量のデータを蓄積した検索エンジン
のもつ情報検索能力を飛躍的に高めるための有力な道具
となる。
【図1】本発明の検索方式の概要を示す図である。
【図2】本発明の順序の合成例を示す図である。
【図3】本発明の検索システムのブロック図である。
【図4】本発明の検索方法のフローチャートである。
【図5】本発明の検索システムによる検索結果例であ
る。
る。
【図6】本発明の検索システムにおいて使用されるシス
テムのハードウェア構成の一実施例を示す図である。
テムのハードウェア構成の一実施例を示す図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小林 メイ 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (56)参考文献 特開 平2−206872(JP,A) 特開 平4−112372(JP,A) 特開 平5−108717(JP,A) 特開 平5−216937(JP,A) 特開 平6−4584(JP,A) 特開 平8−292960(JP,A) 特開 平9−114848(JP,A) 特開 平9−319757(JP,A) 特開 平10−143530(JP,A) 特許2692028(JP,B2) 発明協会公開技報公技番号93−022464 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30
Claims (8)
- 【請求項1】文書データ、該文書データの索引、および
各文書データを順序付ける複数の順序付けデータを用い
て、文書データから関連情報検索を行うシステムであっ
て、 (1)ユーザから検索要求を受け付ける手段と、 (2)前記検索要求に合致する文書集合を前記文書デー
タと前記索引を用いて検索を行う手段と、 (3)各文書データを特定の順序で並べるために必要な
属性とその属性値に付与する重みの情報を有する複数の
順序付けデータを用いて、ユーザが選択した複数の順序
付けに応じて、各々前記文書集合をソートする手段と、 (4)前記ソート結果の上位の文書集合間を演算により
合成する手段と、 を有する、関連情報検索システム。 - 【請求項2】前記複数の順序付けの属性が、文書作成日
時、文書サイズ、文書更新頻度、文書に含まれるリンク
数、所望の情報に関連する用語の含有度、または所望の
情報に関連するキーワードの数を有する、請求項1記載
のシステム。 - 【請求項3】前記演算が、前記ソート結果の上位の文書
集合間において、該文書集合間の和、該文書集合間の
積、または該文書集合間の差である、請求項1記載のシ
ステム。 - 【請求項4】前記検索要求に合致する検索は、前記文書
データから、検索に使用される用語のベクトルと各文書
の特徴ベクトルとの距離、あるいは関連度を求める関数
式によって決定される文書の関連度を計算することによ
り行われる、請求項1記載のシステム。 - 【請求項5】文書データ、該文書データの索引、および
各文書データを順序付ける複数の順序付けデータを用い
て、文書データから関連情報検索を行う方法であって、 (1)ユーザから検索要求を受け付ける段階と、 (2)前記検索要求に合致する文書集合を前記文書デー
タと前記索引を用いて検索を行う段階と、 (3)各文書データを特定の順序で並べるために必要な
属性とその属性値に付与する重みの情報を有する複数の
順序付けデータを用いて、ユーザが選択した複数の順序
付けに応じて、各々前記文書集合をソートする段階と、 (4)前記ソート結果の上位の文書集合間を演算により
合成する段階と、 を有する、関連情報検索方法。 - 【請求項6】前記複数の順序付けの属性が、文書作成日
時、文書サイズ、文書更新頻度、文書に含まれるリンク
数、所望の情報に関連する用語の含有度、または所望の
情報に関連するキーワードの数を有する、請求項5記載
の方法。 - 【請求項7】前記演算が、前記ソート結果の上位の文書
集合間において、該文書集合間の和、該文書集合間の
積、または該文書集合間の差である、請求項5記載の方
法。 - 【請求項8】文書データ、該文書データの索引、および
各文書データを順序付ける複数の順序付けデータを用い
て、文書データから関連情報検索を行うプログラムを記
録した、コンピュータ読取り可能な記録媒体であって、
該プログラムがコンピュータに、 (1)ユーザから検索要求を受け付ける機能と、 (2)前記検索要求に合致する文書集合を前記文書デー
タと前記索引を用いて検索を行う機能と、 (3)各文書データを特定の順序で並べるために必要な
属性とその属性値に付与する重みの情報を有する複数の
順序付けデータを用いて、ユーザが選択した複数の順序
付けに応じて、各々前記文書集合をソートする機能と、 (4)前記ソート結果の上位の文書集合間を演算により
合成する機能とを実現させる、コンピュータ読取り可能
な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03416699A JP3347088B2 (ja) | 1999-02-12 | 1999-02-12 | 関連情報検索方法およびシステム |
US09/502,159 US6654742B1 (en) | 1999-02-12 | 2000-02-11 | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03416699A JP3347088B2 (ja) | 1999-02-12 | 1999-02-12 | 関連情報検索方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000242647A JP2000242647A (ja) | 2000-09-08 |
JP3347088B2 true JP3347088B2 (ja) | 2002-11-20 |
Family
ID=12406634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03416699A Expired - Fee Related JP3347088B2 (ja) | 1999-02-12 | 1999-02-12 | 関連情報検索方法およびシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US6654742B1 (ja) |
JP (1) | JP3347088B2 (ja) |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
JP2001282603A (ja) * | 2000-03-29 | 2001-10-12 | Toshihiro Wakayama | 情報コンテンツの連携管理システム |
US6829734B1 (en) * | 2000-04-04 | 2004-12-07 | International Business Machines Corporation | Method for discovering problem resolutions in a free form computer helpdesk data set |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
KR100422710B1 (ko) * | 2000-11-25 | 2004-03-12 | 엘지전자 주식회사 | 다중 가중치 구조를 사용한 멀티미디어 검색 방법 |
US7113935B2 (en) | 2000-12-06 | 2006-09-26 | Epicrealm Operating Inc. | Method and system for adaptive prefetching |
US20020103798A1 (en) * | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US7010527B2 (en) * | 2001-08-13 | 2006-03-07 | Oracle International Corp. | Linguistically aware link analysis method and system |
US7028026B1 (en) * | 2002-05-28 | 2006-04-11 | Ask Jeeves, Inc. | Relevancy-based database retrieval and display techniques |
US8090717B1 (en) | 2002-09-20 | 2012-01-03 | Google Inc. | Methods and apparatus for ranking documents |
US7568148B1 (en) * | 2002-09-20 | 2009-07-28 | Google Inc. | Methods and apparatus for clustering news content |
US7103609B2 (en) * | 2002-10-31 | 2006-09-05 | International Business Machines Corporation | System and method for analyzing usage patterns in information aggregates |
US7644361B2 (en) * | 2002-12-23 | 2010-01-05 | Canon Kabushiki Kaisha | Method of using recommendations to visually create new views of data across heterogeneous sources |
JP4243958B2 (ja) * | 2003-01-30 | 2009-03-25 | 株式会社リコー | 文書検索装置、プログラム、及び記録媒体 |
US7577655B2 (en) * | 2003-09-16 | 2009-08-18 | Google Inc. | Systems and methods for improving the ranking of news articles |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US20050114317A1 (en) * | 2003-11-26 | 2005-05-26 | Bhide Manish A. | Ordering of web search results |
US7461090B2 (en) * | 2004-04-30 | 2008-12-02 | Microsoft Corporation | System and method for selection of media items |
US7349901B2 (en) | 2004-05-21 | 2008-03-25 | Microsoft Corporation | Search engine spam detection using external data |
US7725463B2 (en) * | 2004-06-30 | 2010-05-25 | Microsoft Corporation | System and method for generating normalized relevance measure for analysis of search results |
US7774340B2 (en) * | 2004-06-30 | 2010-08-10 | Microsoft Corporation | Method and system for calculating document importance using document classifications |
US7328136B2 (en) * | 2004-09-15 | 2008-02-05 | Council Of Scientific & Industrial Research | Computer based method for finding the effect of an element in a domain of N-dimensional function with a provision for N+1 dimensions |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
JP4634821B2 (ja) * | 2005-02-24 | 2011-02-16 | 株式会社日立製作所 | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
US8423541B1 (en) * | 2005-03-31 | 2013-04-16 | Google Inc. | Using saved search results for quality feedback |
JP4525433B2 (ja) * | 2005-04-08 | 2010-08-18 | 日本電信電話株式会社 | 文書集約装置及びプログラム |
US20060265388A1 (en) * | 2005-05-20 | 2006-11-23 | Woelfel Joseph K | Information retrieval system and method for distinguishing misrecognized queries and unavailable documents |
JP4772378B2 (ja) * | 2005-05-26 | 2011-09-14 | 株式会社東芝 | Webページから時系列データを生成する方法及び装置 |
US8996514B1 (en) | 2005-06-15 | 2015-03-31 | Google Inc. | Mobile to non-mobile document correlation |
US7725485B1 (en) * | 2005-08-01 | 2010-05-25 | Google Inc. | Generating query suggestions using contextual information |
US20070033656A1 (en) * | 2005-08-02 | 2007-02-08 | International Business Machines Corporation | Access control technique for resolving grants to users and groups of users on objects and groups of objects |
AR056123A1 (es) * | 2005-10-04 | 2007-09-19 | Thomson Global Resources | Sistemas, metodos y software para determinar la ambiguedad de terminos medicos |
US7676517B2 (en) * | 2005-10-14 | 2010-03-09 | Microsoft Corporation | Search results injected into client applications |
US20070112867A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for rank-based response set clustering |
US20070112898A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for probe-based clustering |
CN100524307C (zh) * | 2006-06-27 | 2009-08-05 | 国际商业机器公司 | 一种建立文档间关联关系的方法和装置 |
WO2008011537A2 (en) * | 2006-07-19 | 2008-01-24 | Chacha Search, Inc. | Method, system, and computer readable medium useful in managing a computer-based system for servicing user initiated tasks |
BRPI0713830A2 (pt) * | 2006-07-24 | 2017-10-17 | Chacha Search Inc | "método, mémoria que pode ser lida por computador para controlar um computador incluindo um banco de dados de guia, memória que pode ser lida por computador para controlar um computador incluindo um banco de dados de treinamento de vídeo e sistema" |
US7805438B2 (en) * | 2006-07-31 | 2010-09-28 | Microsoft Corporation | Learning a document ranking function using fidelity-based error measurements |
US8230361B2 (en) * | 2006-09-28 | 2012-07-24 | Google Inc. | Content feed user interface |
US20080114738A1 (en) * | 2006-11-13 | 2008-05-15 | Gerald Chao | System for improving document interlinking via linguistic analysis and searching |
US8510349B1 (en) * | 2006-12-06 | 2013-08-13 | Zillow, Inc. | Multi-faceted search |
US8099429B2 (en) * | 2006-12-11 | 2012-01-17 | Microsoft Corporation | Relational linking among resoures |
US8312009B1 (en) * | 2006-12-27 | 2012-11-13 | Google Inc. | Obtaining user preferences for query results |
US7617194B2 (en) * | 2006-12-29 | 2009-11-10 | Microsoft Corporation | Supervised ranking of vertices of a directed graph |
US7693833B2 (en) | 2007-02-01 | 2010-04-06 | John Nagle | System and method for improving integrity of internet search |
US8005823B1 (en) | 2007-03-28 | 2011-08-23 | Amazon Technologies, Inc. | Community search optimization |
US20080243830A1 (en) * | 2007-03-30 | 2008-10-02 | Fatdoor, Inc. | User suggested ordering to influence search result ranking |
US8060634B1 (en) | 2007-09-26 | 2011-11-15 | Google Inc. | Determining and displaying a count of unread items in content feeds |
US10025871B2 (en) | 2007-09-27 | 2018-07-17 | Google Llc | Setting and displaying a read status for items in content feeds |
JP5187313B2 (ja) * | 2007-10-12 | 2013-04-24 | 日本電気株式会社 | 文書重要度算出システム、文書重要度算出方法およびプログラム |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8332411B2 (en) * | 2007-10-19 | 2012-12-11 | Microsoft Corporation | Boosting a ranker for improved ranking accuracy |
US7779019B2 (en) | 2007-10-19 | 2010-08-17 | Microsoft Corporation | Linear combination of rankers |
KR101473347B1 (ko) * | 2008-01-23 | 2014-12-16 | 삼성전자 주식회사 | 컨텐츠 검색 방법 및 시스템 |
US8010535B2 (en) * | 2008-03-07 | 2011-08-30 | Microsoft Corporation | Optimization of discontinuous rank metrics |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US20090287668A1 (en) * | 2008-05-16 | 2009-11-19 | Justsystems Evans Research, Inc. | Methods and apparatus for interactive document clustering |
US8825640B2 (en) * | 2009-03-16 | 2014-09-02 | At&T Intellectual Property I, L.P. | Methods and apparatus for ranking uncertain data in a probabilistic database |
CN101930438B (zh) | 2009-06-19 | 2016-08-31 | 阿里巴巴集团控股有限公司 | 一种搜索结果生成方法及信息搜索系统 |
US20110238608A1 (en) * | 2010-03-25 | 2011-09-29 | Nokia Corporation | Method and apparatus for providing personalized information resource recommendation based on group behaviors |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
JP5601121B2 (ja) * | 2010-09-27 | 2014-10-08 | カシオ計算機株式会社 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
JP5601123B2 (ja) * | 2010-09-28 | 2014-10-08 | カシオ計算機株式会社 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
US8527497B2 (en) | 2010-12-30 | 2013-09-03 | Facebook, Inc. | Composite term index for graph data |
US8965904B2 (en) * | 2011-11-15 | 2015-02-24 | Long Van Dinh | Apparatus and method for information access, search, rank and retrieval |
US20130132107A1 (en) * | 2011-11-22 | 2013-05-23 | International Business Machines Corporation | Browsing a collection of federated clinical documents |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
CN103902549B (zh) * | 2012-12-25 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 搜索数据排序的方法和装置,数据搜索的方法和装置 |
US9311069B2 (en) | 2013-03-13 | 2016-04-12 | Google Inc. | Search in application launcher |
CN103294506A (zh) * | 2013-05-07 | 2013-09-11 | 北京卓易讯畅科技有限公司 | 确定目标应用的多个版本应用所对应优先级的方法与设备 |
US9589033B1 (en) * | 2013-10-14 | 2017-03-07 | Google Inc. | Presenting results from multiple search engines |
EP2869213A1 (en) * | 2013-10-31 | 2015-05-06 | Alcatel Lucent | Media content ordering system and method for ordering media content |
US10019520B1 (en) * | 2013-12-13 | 2018-07-10 | Joy Sargis Muske | System and process for using artificial intelligence to provide context-relevant search engine results |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US10733164B2 (en) | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US11281639B2 (en) * | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US10229143B2 (en) | 2015-06-23 | 2019-03-12 | Microsoft Technology Licensing, Llc | Storage and retrieval of data from a bit vector search index |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
CN107463569A (zh) * | 2016-06-02 | 2017-12-12 | 索意互动(北京)信息技术有限公司 | 一种文献分析方法与装置 |
US10572221B2 (en) | 2016-10-20 | 2020-02-25 | Cortical.Io Ag | Methods and systems for identifying a level of similarity between a plurality of data representations |
RU2656982C1 (ru) * | 2017-03-27 | 2018-06-07 | Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" | Способ информационного поиска лингвистических моделей выражения деловых отношений в документах архивного фонда |
US10650191B1 (en) | 2018-06-14 | 2020-05-12 | Elementary IP LLC | Document term extraction based on multiple metrics |
US11403300B2 (en) * | 2019-02-15 | 2022-08-02 | Wipro Limited | Method and system for improving relevancy and ranking of search result |
CN115698980A (zh) * | 2020-06-11 | 2023-02-03 | 株式会社岛津制作所 | 用于评价文档检索的性能的方法、系统以及装置 |
US11734332B2 (en) | 2020-11-19 | 2023-08-22 | Cortical.Io Ag | Methods and systems for reuse of data item fingerprints in generation of semantic maps |
JP2022103681A (ja) * | 2020-12-28 | 2022-07-08 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、情報処理方法、プログラム |
JP7355452B2 (ja) * | 2021-07-26 | 2023-10-03 | データ・サイエンティスト株式会社 | 情報処理システム、情報処理方法及びプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241671C1 (en) * | 1989-10-26 | 2002-07-02 | Encyclopaedia Britannica Educa | Multimedia search system using a plurality of entry path means which indicate interrelatedness of information |
JP2783435B2 (ja) | 1989-11-22 | 1998-08-06 | エスケ−化研株式会社 | 高粘性材料塗付装置 |
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
JP3465070B2 (ja) | 1994-11-14 | 2003-11-10 | 三井化学株式会社 | 環状オレフィン系樹脂で被覆された表面加工紙 |
JPH08304372A (ja) | 1995-04-27 | 1996-11-22 | Shimadzu Corp | ガスクロマトグラフ装置 |
US5873076A (en) * | 1995-09-15 | 1999-02-16 | Infonautics Corporation | Architecture for processing search queries, retrieving documents identified thereby, and method for using same |
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
JPH10143530A (ja) | 1996-11-15 | 1998-05-29 | Omron Corp | 文書検索システムおよび文書検索方法 |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US5907840A (en) * | 1997-07-25 | 1999-05-25 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
US5983216A (en) * | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6073130A (en) * | 1997-09-23 | 2000-06-06 | At&T Corp. | Method for improving the results of a search in a structured database |
US6256622B1 (en) * | 1998-04-21 | 2001-07-03 | Apple Computer, Inc. | Logical division of files into multiple articles for search and retrieval |
EP1006458A1 (en) * | 1998-12-01 | 2000-06-07 | BRITISH TELECOMMUNICATIONS public limited company | Methods and apparatus for information retrieval |
US6327590B1 (en) * | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
-
1999
- 1999-02-12 JP JP03416699A patent/JP3347088B2/ja not_active Expired - Fee Related
-
2000
- 2000-02-11 US US09/502,159 patent/US6654742B1/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
発明協会公開技報公技番号93−022464 |
Also Published As
Publication number | Publication date |
---|---|
JP2000242647A (ja) | 2000-09-08 |
US6654742B1 (en) | 2003-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3347088B2 (ja) | 関連情報検索方法およびシステム | |
US7693910B2 (en) | Method of searching documents and a service for searching documents | |
JP3717808B2 (ja) | 情報検索システム | |
US7424469B2 (en) | System and method for blending the results of a classifier and a search engine | |
EP1358584B1 (en) | An adaptive document ranking method based on user behavior | |
JP4583003B2 (ja) | 検索処理方法及びプログラム | |
CN112035598A (zh) | 一种智能语义检索方法、系统和电子设备 | |
US20050165819A1 (en) | Document tabulation method and apparatus and medium for storing computer program therefor | |
US20020091678A1 (en) | Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium | |
US20050060290A1 (en) | Automatic query routing and rank configuration for search queries in an information retrieval system | |
US20040002945A1 (en) | Program for changing search results rank, recording medium for recording such a program, and content search processing method | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN101567011A (zh) | 文档处理装置和文档处理方法 | |
US20070214124A1 (en) | Information processing device and method, and program | |
US11669530B2 (en) | Information push method and apparatus, device, and storage medium | |
JPH1145257A (ja) | Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000227922A (ja) | 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体 | |
JP2003316819A (ja) | オブジェクト分類検索装置及びそれを実行するためのプログラム | |
JPH11338873A (ja) | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 | |
JP3503506B2 (ja) | 情報検索方法、情報検索装置及び情報検索プログラムを記録した記録媒体 | |
JP7264115B2 (ja) | 情報検索システム | |
JPH11154164A (ja) | 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体 | |
CN112883143A (zh) | 一种基于Elasticsearch的数字展会搜索方法与系统 | |
JP4189251B2 (ja) | キーワード解析方法及びそれに使用するプログラム | |
Hung et al. | Reorganization of search results based on semantic clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |