JP2003345810A - 文書検索方法、文書検索システム及び文書検索結果示方システム - Google Patents
文書検索方法、文書検索システム及び文書検索結果示方システムInfo
- Publication number
- JP2003345810A JP2003345810A JP2002153927A JP2002153927A JP2003345810A JP 2003345810 A JP2003345810 A JP 2003345810A JP 2002153927 A JP2002153927 A JP 2002153927A JP 2002153927 A JP2002153927 A JP 2002153927A JP 2003345810 A JP2003345810 A JP 2003345810A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- category
- degree
- belonging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索結果に応じて分類体系を自動的に決め、
その分類体系に従って検索結果を一覧表示することで、
検索結果の絞り込み等の対話的な検索を支援する。 【解決手段】 検索された文書集合をクラスタリングに
よりまとめることにより、検索された文書集合を代表す
るカテゴリ集合を自動的に抽出し、検索された各文書に
ついて、前記カテゴリそれぞれへの帰属度を計算し、そ
の配分を棒グラフで一覧表示する。更に、指定したカテ
ゴリへの帰属度に応じて、検索結果を並べ替える機能を
有する。
その分類体系に従って検索結果を一覧表示することで、
検索結果の絞り込み等の対話的な検索を支援する。 【解決手段】 検索された文書集合をクラスタリングに
よりまとめることにより、検索された文書集合を代表す
るカテゴリ集合を自動的に抽出し、検索された各文書に
ついて、前記カテゴリそれぞれへの帰属度を計算し、そ
の配分を棒グラフで一覧表示する。更に、指定したカテ
ゴリへの帰属度に応じて、検索結果を並べ替える機能を
有する。
Description
【0001】
【発明の属する技術分野】本発明は、検索結果などの文
書集合を代表するカテゴリを自動抽出し、文書集合をそ
れらカテゴリに自動分類して表示する方法に関する。
書集合を代表するカテゴリを自動抽出し、文書集合をそ
れらカテゴリに自動分類して表示する方法に関する。
【0002】
【従来の技術】様々な文書が電子データ化されるにつ
れ、文書検索の必要性も増してきている。ところが、検
索者はなかなか思い通りの検索要求(検索式)を作成す
ることができず、望み通りの検索結果が得られないこと
も多い。このような状況では、検索結果を分析して、次
の検索戦略を立てることが必須となる。
れ、文書検索の必要性も増してきている。ところが、検
索者はなかなか思い通りの検索要求(検索式)を作成す
ることができず、望み通りの検索結果が得られないこと
も多い。このような状況では、検索結果を分析して、次
の検索戦略を立てることが必須となる。
【0003】文書検索の分野で近年注目されている方法
は、検索結果を自動分類して、検索結果の絞り込み支援
に使う方法である。例えば、「Scatter/Gather法」”Sc
atter/Gather : A Cluster-based Approach to Browsin
g Large Document Collections”, ACM SIGIR’92, pp3
18-329, 1992(以下、先行技術1と呼ぶ)や、特開20
01−134582号公報「ニュース話題ジャンル推定
装置及び個人用話題提示装置」(以下、先行技術2と呼
ぶ)がある。
は、検索結果を自動分類して、検索結果の絞り込み支援
に使う方法である。例えば、「Scatter/Gather法」”Sc
atter/Gather : A Cluster-based Approach to Browsin
g Large Document Collections”, ACM SIGIR’92, pp3
18-329, 1992(以下、先行技術1と呼ぶ)や、特開20
01−134582号公報「ニュース話題ジャンル推定
装置及び個人用話題提示装置」(以下、先行技術2と呼
ぶ)がある。
【0004】
【発明が解決しようとする課題】先行技術1では、検索
結果をクラスタリングにより自動的に分類して表示す
る。ところが、各文書は単一のカテゴリにしか分類され
ない。しかし、たいていの文書は複数のトピックを持ち
明確に単一のカテゴリに分類される状況は稀である。そ
のため、各文書を単一のカテゴリにのみ分類してしまう
と、検索結果をカテゴリによって絞り込んだ際に、必要
な文書を見落としてしまう可能性がある。
結果をクラスタリングにより自動的に分類して表示す
る。ところが、各文書は単一のカテゴリにしか分類され
ない。しかし、たいていの文書は複数のトピックを持ち
明確に単一のカテゴリに分類される状況は稀である。そ
のため、各文書を単一のカテゴリにのみ分類してしまう
と、検索結果をカテゴリによって絞り込んだ際に、必要
な文書を見落としてしまう可能性がある。
【0005】先行技術2では、新聞記事をジャンル(カ
テゴリ)に分類する際に、先行技術1とは異なり複数ジ
ャンルへの分類を許している。ところが、先行技術2で
のジャンルは、「政治」「経済」「スポーツ」など新聞
記事に特化して予め決まっている。これらは粗い大分類
であり、分類の数も5個と少ない。検索結果の絞り込み
という用途を前提にすると、分類は検索結果に依存して
変化すべきである。例えば、検索結果の文書集合が円安
に関する記事であれば、「経済」でも更に細かい分類が
必要となるであろう。また、先行技術2では、ジャンル
を指定するとそれに関連する新聞記事のリストが提示さ
れるが、提示された各新聞記事とジャンルとの関連度が
表示されていない。よって、検索結果を見たあとにジャ
ンルを指定して検索結果を並べ替える等のフィードバッ
クが困難である。
テゴリ)に分類する際に、先行技術1とは異なり複数ジ
ャンルへの分類を許している。ところが、先行技術2で
のジャンルは、「政治」「経済」「スポーツ」など新聞
記事に特化して予め決まっている。これらは粗い大分類
であり、分類の数も5個と少ない。検索結果の絞り込み
という用途を前提にすると、分類は検索結果に依存して
変化すべきである。例えば、検索結果の文書集合が円安
に関する記事であれば、「経済」でも更に細かい分類が
必要となるであろう。また、先行技術2では、ジャンル
を指定するとそれに関連する新聞記事のリストが提示さ
れるが、提示された各新聞記事とジャンルとの関連度が
表示されていない。よって、検索結果を見たあとにジャ
ンルを指定して検索結果を並べ替える等のフィードバッ
クが困難である。
【0006】本発明は、このような従来技術の問題点に
鑑み、検索結果を代表するカテゴリ集合を自動的に決
め、そのカテゴリ集合に従って検索結果を分類表示する
ことで、検索結果の絞り込み等の対話的な検索を支援す
るシステムを提供することを目的とする。
鑑み、検索結果を代表するカテゴリ集合を自動的に決
め、そのカテゴリ集合に従って検索結果を分類表示する
ことで、検索結果の絞り込み等の対話的な検索を支援す
るシステムを提供することを目的とする。
【0007】
【課題を解決するための手段】前記目的を達成するため
には、まず、検索結果の分類基準となるカテゴリ集合は
検索結果に応じたものでなければならない。カテゴリ集
合は事前に準備された静的なものよりもむしろ、検索結
果に応じて新たに作り出される動的なものであるべきで
ある。次に、検索結果の各文書がこれらカテゴリのいず
れか一つのみに属する場合は稀であるため、文書が複数
カテゴリへ分類される状況を一覧性を持って表示するこ
とが必要となる。更に、検索者からのフィードバックと
して、検索者が注目したカテゴリに応じて検索結果を並
べ替える機能が必要となる。
には、まず、検索結果の分類基準となるカテゴリ集合は
検索結果に応じたものでなければならない。カテゴリ集
合は事前に準備された静的なものよりもむしろ、検索結
果に応じて新たに作り出される動的なものであるべきで
ある。次に、検索結果の各文書がこれらカテゴリのいず
れか一つのみに属する場合は稀であるため、文書が複数
カテゴリへ分類される状況を一覧性を持って表示するこ
とが必要となる。更に、検索者からのフィードバックと
して、検索者が注目したカテゴリに応じて検索結果を並
べ替える機能が必要となる。
【0008】本発明では、これらの要求に応えるため、
検索された文書集合を代表する複数のカテゴリをクラス
タリングにより自動抽出し、検索された各文書につい
て、前記複数カテゴリそれぞれに帰属する帰属度を計算
する。また、これらの帰属度を画面上に表示し、利用者
が指定したカテゴリについて、検索された複数文書を、
指定カテゴリへの帰属度に応じて並べ替える。これによ
り、利用者は、検索結果に適したカテゴリ体系により検
索結果を概観することができ、かつ、注目するカテゴリ
で検索結果をまとめることができる。
検索された文書集合を代表する複数のカテゴリをクラス
タリングにより自動抽出し、検索された各文書につい
て、前記複数カテゴリそれぞれに帰属する帰属度を計算
する。また、これらの帰属度を画面上に表示し、利用者
が指定したカテゴリについて、検索された複数文書を、
指定カテゴリへの帰属度に応じて並べ替える。これによ
り、利用者は、検索結果に適したカテゴリ体系により検
索結果を概観することができ、かつ、注目するカテゴリ
で検索結果をまとめることができる。
【0009】すなわち、本発明による文書検索方法は、
検索要求に従って文書データベースを検索するステップ
と、検索によって得られた複数の文書をそれぞれ出現単
語を要素とする単語ベクトルによって表すステップと、
単語ベクトルを用いたクラスタリング法によって複数の
文書を複数の文書群(カテゴリ)に分類分けするステッ
プと、複数の文書群をそれぞれ出現単語を要素とする単
語ベクトルによって表すステップと、文書を表す単語ベ
クトルと文書群を表す単語ベクトルとを用いて、各文書
が前記複数の文書群に帰属する度合いを計算するステッ
プと、検索によって得られた複数の文書を識別する情報
と各文書の前記複数の文書群それぞれへの帰属度合いと
を関連付けて出力するステップとを含む。
検索要求に従って文書データベースを検索するステップ
と、検索によって得られた複数の文書をそれぞれ出現単
語を要素とする単語ベクトルによって表すステップと、
単語ベクトルを用いたクラスタリング法によって複数の
文書を複数の文書群(カテゴリ)に分類分けするステッ
プと、複数の文書群をそれぞれ出現単語を要素とする単
語ベクトルによって表すステップと、文書を表す単語ベ
クトルと文書群を表す単語ベクトルとを用いて、各文書
が前記複数の文書群に帰属する度合いを計算するステッ
プと、検索によって得られた複数の文書を識別する情報
と各文書の前記複数の文書群それぞれへの帰属度合いと
を関連付けて出力するステップとを含む。
【0010】各文書の複数の文書群への帰属度合いは、
文書を表す単語ベクトルと文書群を表す単語ベクトルと
の間の距離に基づいて計算できる。各文書群のカテゴリ
は、その文書群を表す単語ベクトル中の単語によって表
現することができ、それを見て利用者は自動的に生成さ
れたカテゴリの概要を知ることができる。また、検索に
よって得られた文書の中から所望の内容に近い文書が見
つかった場合、その文書が帰属しているカテゴリに注目
し、検索された文書をそのカテゴリへの帰属度が高い順
に並べ替えることで検索結果の絞り込みを行うことがで
きる。
文書を表す単語ベクトルと文書群を表す単語ベクトルと
の間の距離に基づいて計算できる。各文書群のカテゴリ
は、その文書群を表す単語ベクトル中の単語によって表
現することができ、それを見て利用者は自動的に生成さ
れたカテゴリの概要を知ることができる。また、検索に
よって得られた文書の中から所望の内容に近い文書が見
つかった場合、その文書が帰属しているカテゴリに注目
し、検索された文書をそのカテゴリへの帰属度が高い順
に並べ替えることで検索結果の絞り込みを行うことがで
きる。
【0011】本発明による文書検索システムは、検索要
求に従って文書データベースを検索する文書検索部と、
検索によって得られた複数の文書を、文書間の類似度を
もとに、予め指定された数の文書群(カテゴリ)に分類
分けする分類手段と、検索によって得られた各文書が前
記各文書群それぞれに帰属する度合いを計算する帰属度
計算部とを備える。
求に従って文書データベースを検索する文書検索部と、
検索によって得られた複数の文書を、文書間の類似度を
もとに、予め指定された数の文書群(カテゴリ)に分類
分けする分類手段と、検索によって得られた各文書が前
記各文書群それぞれに帰属する度合いを計算する帰属度
計算部とを備える。
【0012】検索結果のカテゴリ分けは、例えば、文書
や文書群を単語ベクトルとして表し、クラスタリング法
を用いて行えばよい。帰属度計算部は、文書を表す単語
ベクトルと文書群を表す単語ベクトルとの間の距離に基
づいて各文書が各文書群に帰属する度合いを計算するこ
とができる。
や文書群を単語ベクトルとして表し、クラスタリング法
を用いて行えばよい。帰属度計算部は、文書を表す単語
ベクトルと文書群を表す単語ベクトルとの間の距離に基
づいて各文書が各文書群に帰属する度合いを計算するこ
とができる。
【0013】本発明による文書検索結果表示システム
は、検索によって得られた複数の文書に関する情報を表
示する検索結果表示システムにおいて、検索によって得
られた文書それぞれについて、検索によって得られた複
数の文書間の類似度をもとに動的に算出された複数のカ
テゴリへの帰属度を表示することを特徴とする。
は、検索によって得られた複数の文書に関する情報を表
示する検索結果表示システムにおいて、検索によって得
られた文書それぞれについて、検索によって得られた複
数の文書間の類似度をもとに動的に算出された複数のカ
テゴリへの帰属度を表示することを特徴とする。
【0014】カテゴリ毎の帰属度は棒グラフや円グラフ
にて表示することができ、その際、異なるカテゴリを異
なる色によって区別して表示すると、各文書のカテゴリ
への帰属度が一目瞭然となる。
にて表示することができ、その際、異なるカテゴリを異
なる色によって区別して表示すると、各文書のカテゴリ
への帰属度が一目瞭然となる。
【0015】文書と検索要求との関連度を合わせて表示
し、検索要求との関連度に応じた長さの棒を前記カテゴ
リ毎の帰属度に比例した配分に振り分けて棒グラフ表示
してもよい。検索によって得られた複数の文書は、最
初、検索要求との関連度が高い順に並べて表示してお
き、必要なとき、カテゴリを指定し、その指定されたカ
テゴリへの帰属度が高い順に並べ替えて表示できるよう
にするのが好適である。また、カテゴリの内容あるいは
広がりを認識することができるように、カテゴリを指定
したとき、指定されたカテゴリを特徴付ける単語群を表
示する機能を有するのが好ましい。
し、検索要求との関連度に応じた長さの棒を前記カテゴ
リ毎の帰属度に比例した配分に振り分けて棒グラフ表示
してもよい。検索によって得られた複数の文書は、最
初、検索要求との関連度が高い順に並べて表示してお
き、必要なとき、カテゴリを指定し、その指定されたカ
テゴリへの帰属度が高い順に並べ替えて表示できるよう
にするのが好適である。また、カテゴリの内容あるいは
広がりを認識することができるように、カテゴリを指定
したとき、指定されたカテゴリを特徴付ける単語群を表
示する機能を有するのが好ましい。
【0016】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明のシステム構成例
を示す図である。図1のシステム構成例では、本発明
を、ネットワーク113を介したサーバ/クライアント
形式で実装し、サーバからクライアントへの検索サービ
スとして実施する。クライアント計算機101は、検索
結果を表示する検索結果表示部102、文書毎に各カテ
ゴリへの帰属度を表示する帰属度表示部103、カテゴ
リに関する情報を表示するカテゴリ情報表示部104を
備え、表示装置、キーボード、マウス等の入出力機器に
接続されている。サーバ計算機105は、文書データベ
ース114に接続され、クライアント計算機から送られ
てきた検索要求に従って文書データベース114を検索
する文書検索部106、検索によって得られた文書集合
をもとにカテゴリ集合を決定するカテゴリ決定部10
7、検索された各文書が各カテゴリに帰属する度合いを
計算する帰属度計算部108、カテゴリに関する情報を
計算するカテゴリ情報計算部109、検索結果の文書集
合をカテゴリの指定に従って並べ替えるカテゴリ別文書
並べ替え部110、カテゴリ集合の計算や各文書の各カ
テゴリへの帰属度の計算過程で用いられるベクトル間距
離計算部111、文書から抽出された各単語に重み付け
をする単語重み付け部112を備えている。なお、サー
バ計算機105と文書データベース114との接続はネ
ットワーク113を介して行ってもよい。
施の形態を説明する。図1は、本発明のシステム構成例
を示す図である。図1のシステム構成例では、本発明
を、ネットワーク113を介したサーバ/クライアント
形式で実装し、サーバからクライアントへの検索サービ
スとして実施する。クライアント計算機101は、検索
結果を表示する検索結果表示部102、文書毎に各カテ
ゴリへの帰属度を表示する帰属度表示部103、カテゴ
リに関する情報を表示するカテゴリ情報表示部104を
備え、表示装置、キーボード、マウス等の入出力機器に
接続されている。サーバ計算機105は、文書データベ
ース114に接続され、クライアント計算機から送られ
てきた検索要求に従って文書データベース114を検索
する文書検索部106、検索によって得られた文書集合
をもとにカテゴリ集合を決定するカテゴリ決定部10
7、検索された各文書が各カテゴリに帰属する度合いを
計算する帰属度計算部108、カテゴリに関する情報を
計算するカテゴリ情報計算部109、検索結果の文書集
合をカテゴリの指定に従って並べ替えるカテゴリ別文書
並べ替え部110、カテゴリ集合の計算や各文書の各カ
テゴリへの帰属度の計算過程で用いられるベクトル間距
離計算部111、文書から抽出された各単語に重み付け
をする単語重み付け部112を備えている。なお、サー
バ計算機105と文書データベース114との接続はネ
ットワーク113を介して行ってもよい。
【0017】文書データベース114は、データベース
管理者によって定期的あるいは不定期に更新され、クラ
イアント計算機101からサーバ計算機にアクセスして
文書データベース114を利用する利用者は、その検索
量に応じて、あるいは所定の期間毎に定額の利用料を管
理者に支払う。
管理者によって定期的あるいは不定期に更新され、クラ
イアント計算機101からサーバ計算機にアクセスして
文書データベース114を利用する利用者は、その検索
量に応じて、あるいは所定の期間毎に定額の利用料を管
理者に支払う。
【0018】本システムによる文書検索処理の概要は以
下のとおりである。個々の処理の詳細については後述す
る。まず、クライアント計算機101は利用者が入力し
た検索要求をサーバ計算機105にネットワーク113
を介して送る。サーバ計算機105は、文書検索部10
6において、クライアント計算機から送られてきた検索
要求と関連度の大きい文書集合を文書データベース11
4より検索する。次に、サーバ計算機上のカテゴリ決定
部107においてカテゴリ集合を決め、同じくサーバ計
算機上の帰属度計算部108において用いて各文書が各
カテゴリに帰属する帰属度を計算する。各文書について
計算された、検索要求との関連度、各カテゴリへの帰属
度は、ネットワーク113を介してクライアント計算機
101に返される。クライアント計算機101は、検索
結果表示部102を用いて検索結果を表示する。また、
各文書について、帰属度表示部103を用いて棒グラフ
等で関連度、帰属度を表示する。
下のとおりである。個々の処理の詳細については後述す
る。まず、クライアント計算機101は利用者が入力し
た検索要求をサーバ計算機105にネットワーク113
を介して送る。サーバ計算機105は、文書検索部10
6において、クライアント計算機から送られてきた検索
要求と関連度の大きい文書集合を文書データベース11
4より検索する。次に、サーバ計算機上のカテゴリ決定
部107においてカテゴリ集合を決め、同じくサーバ計
算機上の帰属度計算部108において用いて各文書が各
カテゴリに帰属する帰属度を計算する。各文書について
計算された、検索要求との関連度、各カテゴリへの帰属
度は、ネットワーク113を介してクライアント計算機
101に返される。クライアント計算機101は、検索
結果表示部102を用いて検索結果を表示する。また、
各文書について、帰属度表示部103を用いて棒グラフ
等で関連度、帰属度を表示する。
【0019】カテゴリの情報を見る際は、クライアント
計算機101が利用者から「カテゴリ情報の表示」命令
を受けとり、命令の種類と対象カテゴリのIDをサーバ
計算機105に送る。サーバ計算機105は、カテゴリ
情報計算部109において代表単語を計算してクライア
ント計算機101に返し、クライアント計算機101は
カテゴリ情報表示部104を用いてその情報を表示す
る。
計算機101が利用者から「カテゴリ情報の表示」命令
を受けとり、命令の種類と対象カテゴリのIDをサーバ
計算機105に送る。サーバ計算機105は、カテゴリ
情報計算部109において代表単語を計算してクライア
ント計算機101に返し、クライアント計算機101は
カテゴリ情報表示部104を用いてその情報を表示す
る。
【0020】また、クライアント計算機101が利用者
から「カテゴリによる並べ替え」命令を受けとると、命
令の種類と対象カテゴリのIDをサーバ計算機105に
送る。サーバ計算機105は、カテゴリ別文書並べ替え
部110で文書を並べ替えて、新たな並びをクライアン
ト計算機101に返し、クライアント計算機101はそ
の情報を表示する。
から「カテゴリによる並べ替え」命令を受けとると、命
令の種類と対象カテゴリのIDをサーバ計算機105に
送る。サーバ計算機105は、カテゴリ別文書並べ替え
部110で文書を並べ替えて、新たな並びをクライアン
ト計算機101に返し、クライアント計算機101はそ
の情報を表示する。
【0021】以下、クライアント計算機101及びサー
バ計算機105の各部の機能、処理の流れ及び結果表示
画面の例について詳細に説明する。図2及び図3は、本
発明による処理の過程を模式的に示したフロー図及びブ
ロック図である。まず、表示対象となる文書集合20
2,301が与えられる。本実施形態では、利用者が指
定した何らかの検索要求に従って、文書データベース1
14から検索された文書集合を表示対象とするが、本発
明は、検索結果として得られた文書集合以外の文書集合
にも適用可能である。図2において、各文書に付与され
た参照符号201で表される数値は検索要求との関連度
である。
バ計算機105の各部の機能、処理の流れ及び結果表示
画面の例について詳細に説明する。図2及び図3は、本
発明による処理の過程を模式的に示したフロー図及びブ
ロック図である。まず、表示対象となる文書集合20
2,301が与えられる。本実施形態では、利用者が指
定した何らかの検索要求に従って、文書データベース1
14から検索された文書集合を表示対象とするが、本発
明は、検索結果として得られた文書集合以外の文書集合
にも適用可能である。図2において、各文書に付与され
た参照符号201で表される数値は検索要求との関連度
である。
【0022】次に、カテゴリ決定部107で、分類の基
準となるカテゴリ集合302を決める(203)。百科
事典などのように予めカテゴリの集合が決まっている場
合もあるが、本発明では、対象の文書集合に応じて動的
にカテゴリ集合を決める。よって、本発明でのカテゴリ
集合は与えられた文書集合に特化したものとなってい
る。カテゴリ集合を自動的に決める手法としては、既存
のクラスタリング手法を用いる。一例として、カテゴリ
決定部107で階層的ボトムアップクラスタリング法を
利用した例を説明する。
準となるカテゴリ集合302を決める(203)。百科
事典などのように予めカテゴリの集合が決まっている場
合もあるが、本発明では、対象の文書集合に応じて動的
にカテゴリ集合を決める。よって、本発明でのカテゴリ
集合は与えられた文書集合に特化したものとなってい
る。カテゴリ集合を自動的に決める手法としては、既存
のクラスタリング手法を用いる。一例として、カテゴリ
決定部107で階層的ボトムアップクラスタリング法を
利用した例を説明する。
【0023】階層的ボトムアップクラスタリング法で
は、初期状態として、各文書が自分自身のみからなるク
ラスタを作る。つまり文書の数のクラスタが存在する。
図2では、文書aからgに相当する7個のクラスタが存
在する。ここで、各文書(クラスタ)は、出現単語を要
素とするベクトルで表現される。ベクトルの各要素であ
る単語には、単語重み付け部112により重みが付与さ
れる。重み付けの方法にも様々な手法が提案されている
が、本発明ではその手法は問わない。幾つかの方法は"I
NTRODUCTION TO MODERN INFORMATION RETRIEVAL", Salt
on, G. and McGill M., McGraw-Hill Publishing Co.,1
983に詳しいが、ほとんどの手法は単語の出現頻度に基づ
いて重みを計算している。
は、初期状態として、各文書が自分自身のみからなるク
ラスタを作る。つまり文書の数のクラスタが存在する。
図2では、文書aからgに相当する7個のクラスタが存
在する。ここで、各文書(クラスタ)は、出現単語を要
素とするベクトルで表現される。ベクトルの各要素であ
る単語には、単語重み付け部112により重みが付与さ
れる。重み付けの方法にも様々な手法が提案されている
が、本発明ではその手法は問わない。幾つかの方法は"I
NTRODUCTION TO MODERN INFORMATION RETRIEVAL", Salt
on, G. and McGill M., McGraw-Hill Publishing Co.,1
983に詳しいが、ほとんどの手法は単語の出現頻度に基づ
いて重みを計算している。
【0024】次に、全てのクラスタ対に対して、ベクト
ル間距離計算部111を用いてクラスタ間の距離を計算
する。距離としては、ベクトル間の余弦(コサイン)を
計算することが多い。全クラスタ対の中で、最短距離の
クラスタ対をまとめて一つのクラスタに併合する。図2
の場合、文書aからなるクラスタと文書cからなるクラ
スタがまず併合される。併合したクラスタも単語を要素
とするベクトルとなる。次に、併合したクラスタと残り
の各クラスタとの距離を計算して距離情報を更新する。
このようにして、最終的に1個のクラスタになるまで併
合を続ける。今、文書集合全体を3個のクラスタにまと
めると仮定すると、211の段階でまとまっている3個
のクラスタ204,205,206を使えばよい。
ル間距離計算部111を用いてクラスタ間の距離を計算
する。距離としては、ベクトル間の余弦(コサイン)を
計算することが多い。全クラスタ対の中で、最短距離の
クラスタ対をまとめて一つのクラスタに併合する。図2
の場合、文書aからなるクラスタと文書cからなるクラ
スタがまず併合される。併合したクラスタも単語を要素
とするベクトルとなる。次に、併合したクラスタと残り
の各クラスタとの距離を計算して距離情報を更新する。
このようにして、最終的に1個のクラスタになるまで併
合を続ける。今、文書集合全体を3個のクラスタにまと
めると仮定すると、211の段階でまとまっている3個
のクラスタ204,205,206を使えばよい。
【0025】カテゴリ集合が決まったら、帰属度計算部
108を用いて、各文書が各カテゴリに帰属する度合い
を計算する(207)。その結果、各カテゴリへの帰属
度付きの文書集合303が得られる。クラスタリングが
終わった時点で各文書はいずれかのカテゴリに属してい
るはずであるが、このままでは他のカテゴリへの帰属度
がゼロになってしまう。ある文書が一つのカテゴリのみ
に分類されるという状況は稀であり、ほとんどの場合、
文書は複数のカテゴリに分類される。本発明では、一度
カテゴリ集合を作ったあと、各文書が各カテゴリに帰属
する度合いを再計算することにより、複数カテゴリへの
分類を実現している。文書がカテゴリへ帰属する帰属度
については、両者とも単語のベクトルで表現されている
ため、ベクトル間距離計算部111で計算した両ベクト
ル間の距離(余弦)を用いる。もちろん別の方式で帰属
度を計算しても構わない。
108を用いて、各文書が各カテゴリに帰属する度合い
を計算する(207)。その結果、各カテゴリへの帰属
度付きの文書集合303が得られる。クラスタリングが
終わった時点で各文書はいずれかのカテゴリに属してい
るはずであるが、このままでは他のカテゴリへの帰属度
がゼロになってしまう。ある文書が一つのカテゴリのみ
に分類されるという状況は稀であり、ほとんどの場合、
文書は複数のカテゴリに分類される。本発明では、一度
カテゴリ集合を作ったあと、各文書が各カテゴリに帰属
する度合いを再計算することにより、複数カテゴリへの
分類を実現している。文書がカテゴリへ帰属する帰属度
については、両者とも単語のベクトルで表現されている
ため、ベクトル間距離計算部111で計算した両ベクト
ル間の距離(余弦)を用いる。もちろん別の方式で帰属
度を計算しても構わない。
【0026】クライアント計算機101では、サーバ計
算機105から受信した情報を処理し、検索結果表示部
102で検索結果の文書集合を表示し、帰属度表示部1
03において、文書毎に、各カテゴリへの帰属度を、棒
グラフ、円グラフなどを用いて表示する。図2の右側に
は棒グラフで表示した例を示す。検索結果の文書集合を
表示する場合は、検索要求との関連度も同時に表示す
る。
算機105から受信した情報を処理し、検索結果表示部
102で検索結果の文書集合を表示し、帰属度表示部1
03において、文書毎に、各カテゴリへの帰属度を、棒
グラフ、円グラフなどを用いて表示する。図2の右側に
は棒グラフで表示した例を示す。検索結果の文書集合を
表示する場合は、検索要求との関連度も同時に表示す
る。
【0027】帰属度表示部103では、例えば次のよう
な方法で帰属度を表示する。今、検索要求との関連度が
0.8であり、カテゴリ1への帰属度が0.6、カテゴ
リ2への帰属度が0.3、カテゴリ3への帰属度が0.
2の場合を考える。ここで、関連度や帰属度は全て0か
ら1の間の実数値をとるものとする。
な方法で帰属度を表示する。今、検索要求との関連度が
0.8であり、カテゴリ1への帰属度が0.6、カテゴ
リ2への帰属度が0.3、カテゴリ3への帰属度が0.
2の場合を考える。ここで、関連度や帰属度は全て0か
ら1の間の実数値をとるものとする。
【0028】棒グラフで表示する場合は、まずカテゴリ
の色を決める。今、カテゴリ1を赤、カテゴリ2を緑、
カテゴリ3を青とする。また、棒の最大長を1とする
と、検索要求との関連度0.8が赤緑青の全長となる。
この0.8を赤緑青で振り分ける。帰属度に比例した配
分で振り分けるとすると、今の場合、赤は、0.8*0.8/
(0.8+0.6+0.3)の長さを持つ。同様にして、緑は、0.8*
0.6/(0.8+0.6+0.3)、青は0.8*0.3/(0.8+0.6+0.3)の長さ
を持つ。最終的には各色によって、図2の208,20
9,210のように表示される。この方法をカテゴリ長
計算法1と呼ぶ。赤緑青の全長が検索要求との関連度に
比例するため、全長が長い文書ほど検索要求と関連して
いることがわかる。また、赤緑青の割合は、その文書と
各カテゴリとの関連度を示しているため、色の長さを見
ることでどのカテゴリにどれくらいの度合いで属してい
るのが一目でわかるようになっている。
の色を決める。今、カテゴリ1を赤、カテゴリ2を緑、
カテゴリ3を青とする。また、棒の最大長を1とする
と、検索要求との関連度0.8が赤緑青の全長となる。
この0.8を赤緑青で振り分ける。帰属度に比例した配
分で振り分けるとすると、今の場合、赤は、0.8*0.8/
(0.8+0.6+0.3)の長さを持つ。同様にして、緑は、0.8*
0.6/(0.8+0.6+0.3)、青は0.8*0.3/(0.8+0.6+0.3)の長さ
を持つ。最終的には各色によって、図2の208,20
9,210のように表示される。この方法をカテゴリ長
計算法1と呼ぶ。赤緑青の全長が検索要求との関連度に
比例するため、全長が長い文書ほど検索要求と関連して
いることがわかる。また、赤緑青の割合は、その文書と
各カテゴリとの関連度を示しているため、色の長さを見
ることでどのカテゴリにどれくらいの度合いで属してい
るのが一目でわかるようになっている。
【0029】以上の計算法の場合、検索要求との関連度
が低い文書は赤緑青の全長が短かくなるため、カテゴリ
間の細かい差異を見ることが困難になる。よって、検索
結果との関連度は数字で表現し、棒グラフはあくまでカ
テゴリへ帰属度のみを表示するのも一つの方法である。
この方法をカテゴリ長計算法2と呼ぶ。図4の表示がこ
の場合に相当する。カテゴリ長計算法1とカテゴリ長計
算法2は利用者が選択できる。
が低い文書は赤緑青の全長が短かくなるため、カテゴリ
間の細かい差異を見ることが困難になる。よって、検索
結果との関連度は数字で表現し、棒グラフはあくまでカ
テゴリへ帰属度のみを表示するのも一つの方法である。
この方法をカテゴリ長計算法2と呼ぶ。図4の表示がこ
の場合に相当する。カテゴリ長計算法1とカテゴリ長計
算法2は利用者が選択できる。
【0030】これまでは便宜上3個のカテゴリを仮定し
たが、本発明はカテゴリの数に制限はなく、利用者はい
つでもカテゴリの数を変更することができる。例えば、
4個のカテゴリを考慮する場合は、カテゴリ決定部(ク
ラスタリング)107で4個のクラスタを選び、4色の
棒グラフで表示すれば良い。図5は、3個のカテゴリか
ら4個のカテゴリに変更する処理を模式的に示した図で
ある。3個のカテゴリの場合は501の段階でまとまっ
ている3個のクラスタを使えばよかったが、4個のカテ
ゴリの場合は、一段階前の502の段階でまとまってい
る4個のクラスタを使えばよい。実際には503,50
4からなる2個のクラスタが新たに分割されることにな
る。最後に、各文書が各クラスタに帰属する帰属度を計
算して4色の棒グラフで表示する(505)。
たが、本発明はカテゴリの数に制限はなく、利用者はい
つでもカテゴリの数を変更することができる。例えば、
4個のカテゴリを考慮する場合は、カテゴリ決定部(ク
ラスタリング)107で4個のクラスタを選び、4色の
棒グラフで表示すれば良い。図5は、3個のカテゴリか
ら4個のカテゴリに変更する処理を模式的に示した図で
ある。3個のカテゴリの場合は501の段階でまとまっ
ている3個のクラスタを使えばよかったが、4個のカテ
ゴリの場合は、一段階前の502の段階でまとまってい
る4個のクラスタを使えばよい。実際には503,50
4からなる2個のクラスタが新たに分割されることにな
る。最後に、各文書が各クラスタに帰属する帰属度を計
算して4色の棒グラフで表示する(505)。
【0031】また、分類表示法は棒グラフ以外でも実現
可能である。例えば円グラフで表示した例を図6と図7
に示す。この場合、図7のように円の直径で検索要求と
の関連度を表現しても良いし、図6のように円の直径は
一定として、赤緑青の総面積で検索要求との関連度を表
現しても良い。カラーバーや円グラフのように色分けで
分類表示する他にも、関連度に応じた量で各色を混ぜて
中間色で表示する方法も可能である。
可能である。例えば円グラフで表示した例を図6と図7
に示す。この場合、図7のように円の直径で検索要求と
の関連度を表現しても良いし、図6のように円の直径は
一定として、赤緑青の総面積で検索要求との関連度を表
現しても良い。カラーバーや円グラフのように色分けで
分類表示する他にも、関連度に応じた量で各色を混ぜて
中間色で表示する方法も可能である。
【0032】ここで、図8に、クライアント計算機10
1の検索結果表示インターフェイスの例を示す。検索要
求ウィンドウ801に検索要求を入力し、検索ボタン8
02を押すことで検索が開始され、検索結果表示ウィン
ドウ803に検索結果が表示される。ここで、804は
検索要求との関連度であり、805はカテゴリとの帰属
度を棒グラフ表示したものである。806は分類表示の
方法を指定する選択ウィンドウである。例えば、「棒グ
ラフ」か「円グラフ」が選択できる。807は分類の個
数を指定する選択ウィンドウであり、図では「3」が選
択されている。808は、各カテゴリの長さ(面積)の
計算方法を指定する選択ウィンドウであり、図ではカテ
ゴリ長計算法1が選択されている。
1の検索結果表示インターフェイスの例を示す。検索要
求ウィンドウ801に検索要求を入力し、検索ボタン8
02を押すことで検索が開始され、検索結果表示ウィン
ドウ803に検索結果が表示される。ここで、804は
検索要求との関連度であり、805はカテゴリとの帰属
度を棒グラフ表示したものである。806は分類表示の
方法を指定する選択ウィンドウである。例えば、「棒グ
ラフ」か「円グラフ」が選択できる。807は分類の個
数を指定する選択ウィンドウであり、図では「3」が選
択されている。808は、各カテゴリの長さ(面積)の
計算方法を指定する選択ウィンドウであり、図ではカテ
ゴリ長計算法1が選択されている。
【0033】検索結果表示ウィンドウ803に表示され
ている各文書のタイトルをクリックすることで文書の全
文が別ウィンドウに表示される。本発明の場合、検索結
果を表示しているため、文書の初期並びは検索要求との
関連度の順である。利用者はこのように並んだ文書を調
べていき、ある時点で自分の要求に合う文書を見つけ
る。ここで、見つけた文書の棒グラフ表示や円グラフ表
示を見ることで、利用者は自分の興味を引く文書がどの
カテゴリに属しているかを知ることができる。その際
は、各カテゴリがどのような意味を持っているかを把握
することが必要である。特に本発明のようにカテゴリが
自動的に決定される場合はなおさらである。
ている各文書のタイトルをクリックすることで文書の全
文が別ウィンドウに表示される。本発明の場合、検索結
果を表示しているため、文書の初期並びは検索要求との
関連度の順である。利用者はこのように並んだ文書を調
べていき、ある時点で自分の要求に合う文書を見つけ
る。ここで、見つけた文書の棒グラフ表示や円グラフ表
示を見ることで、利用者は自分の興味を引く文書がどの
カテゴリに属しているかを知ることができる。その際
は、各カテゴリがどのような意味を持っているかを把握
することが必要である。特に本発明のようにカテゴリが
自動的に決定される場合はなおさらである。
【0034】本発明では、カテゴリ情報表示部104に
より、各カテゴリの代表単語をカテゴリ情報として見る
ことができる。図9に示す検索結果表示インターフェイ
スは、棒グラフの注目カテゴリに相当する部分をクリッ
クしてポップアップメニュー901を表示し、メニュー
から「カテゴリの情報を見る」の項目を選択すること
で、カテゴリ情報のウィンドウ902がポップアップす
る様子を示している。カテゴリの代表単語を表示するた
めには、何らかの形でカテゴリにおける単語の代表度を
計算する必要がある。本発明では、カテゴリは文書クラ
スタ、つまり単語のベクトルであるため、クラスタリン
グの段階において既に単語重み付け部112で単語が重
み付けされている。よって、重みが大きい単語を表示す
ることでカテゴリの意味を知ることができる。もちろん
他の方法によってカテゴリ情報を表示することも可能で
ある。
より、各カテゴリの代表単語をカテゴリ情報として見る
ことができる。図9に示す検索結果表示インターフェイ
スは、棒グラフの注目カテゴリに相当する部分をクリッ
クしてポップアップメニュー901を表示し、メニュー
から「カテゴリの情報を見る」の項目を選択すること
で、カテゴリ情報のウィンドウ902がポップアップす
る様子を示している。カテゴリの代表単語を表示するた
めには、何らかの形でカテゴリにおける単語の代表度を
計算する必要がある。本発明では、カテゴリは文書クラ
スタ、つまり単語のベクトルであるため、クラスタリン
グの段階において既に単語重み付け部112で単語が重
み付けされている。よって、重みが大きい単語を表示す
ることでカテゴリの意味を知ることができる。もちろん
他の方法によってカテゴリ情報を表示することも可能で
ある。
【0035】利用者は、自分の興味を引くカテゴリを見
つけたら、カテゴリ別文書並べ替え部110により、注
目するカテゴリに関連する文書を上位に集めることがで
きる。具体的には、注目カテゴリの長さ(面積)の順に
文書を並べ換える。図9の表示画面903は、棒グラフ
の赤で表されるカテゴリに相当する部分をクリックして
ポップアップメニュー901を表示し、「カテゴリで並
べ替える」を選択して文書を並べ替えた結果を示してい
る。図のように、赤色で表されるカテゴリへの帰属度が
高い順に文書が並べ替えて表示されている。
つけたら、カテゴリ別文書並べ替え部110により、注
目するカテゴリに関連する文書を上位に集めることがで
きる。具体的には、注目カテゴリの長さ(面積)の順に
文書を並べ換える。図9の表示画面903は、棒グラフ
の赤で表されるカテゴリに相当する部分をクリックして
ポップアップメニュー901を表示し、「カテゴリで並
べ替える」を選択して文書を並べ替えた結果を示してい
る。図のように、赤色で表されるカテゴリへの帰属度が
高い順に文書が並べ替えて表示されている。
【0036】このような並べ替えをすることにより、あ
るカテゴリに関連する文書を集めることができるため、
検索結果の絞り込みが容易に行える。また、動的に設定
されるカテゴリによって情報が整理されるため、それま
では思い及ばなかった観点を見つけることができる場合
もある。並べ替えは繰り返し適用できるので、結果に満
足がいかない場合は、注目するカテゴリを変えて並べ替
えたり、並べ替えの方法を変えたりして試行錯誤するこ
ともできる。
るカテゴリに関連する文書を集めることができるため、
検索結果の絞り込みが容易に行える。また、動的に設定
されるカテゴリによって情報が整理されるため、それま
では思い及ばなかった観点を見つけることができる場合
もある。並べ替えは繰り返し適用できるので、結果に満
足がいかない場合は、注目するカテゴリを変えて並べ替
えたり、並べ替えの方法を変えたりして試行錯誤するこ
ともできる。
【0037】文書データベース114は、データベース
管理者によってアップデート等のメンテナンスが実施さ
れ、ユーザからデータベース管理者にメンテナンス料が
支払われる。図10に、文書データベースのメンテナン
ス実行とメンテナンス料支払いの仕組みの一例を示す。
データベース管理者1001は定期的あるいは不定期に
文書データベース114の情報更新やメンテナンスを実
行する。例えば半年に一度、文書データのアップデート
を実施するとすれば、アップデートによって加わったそ
の半年分の差分データはアップデートデータ114aと
して管理される。データベース管理者1001による文
書データベースのアップデートが行われた後、ユーザが
文書データベースにアクセスすると、サーバ計算機10
5はクライアント計算機101の画面上で、文書データ
ベースに更新データがあること、そしてアップデート分
の情報を利用する場合には追加料金の支払いが必要にな
ることを通知する。
管理者によってアップデート等のメンテナンスが実施さ
れ、ユーザからデータベース管理者にメンテナンス料が
支払われる。図10に、文書データベースのメンテナン
ス実行とメンテナンス料支払いの仕組みの一例を示す。
データベース管理者1001は定期的あるいは不定期に
文書データベース114の情報更新やメンテナンスを実
行する。例えば半年に一度、文書データのアップデート
を実施するとすれば、アップデートによって加わったそ
の半年分の差分データはアップデートデータ114aと
して管理される。データベース管理者1001による文
書データベースのアップデートが行われた後、ユーザが
文書データベースにアクセスすると、サーバ計算機10
5はクライアント計算機101の画面上で、文書データ
ベースに更新データがあること、そしてアップデート分
の情報を利用する場合には追加料金の支払いが必要にな
ることを通知する。
【0038】ユーザが追加料金の支払いを了承して、ク
ライアント計算機101の画面上で銀行口座やクレジッ
トカード等による料金支払いの手続を取ると、サーバ計
算機が保持しているアクセス権情報1003が更新さ
れ、そのユーザはアップデートデータ114aを利用で
きるようになる。ユーザが追加料金の支払い手続を行わ
なければ、アップデートデータ114aを利用すること
はできない。サーバ計算機105は、どのユーザがどの
範囲のデータを利用できるかに関し、アクセス権情報1
003を参照して管理する。ユーザが追加料金の支払い
手続を行った場合、その情報はデータベース管理者10
01に渡され、データベース管理者1001は金融機関
1002に振込依頼を行い、所定の手続の後、金融機関
1002からデータベース管理者1001に料金の振込
が行われる。一方、金融機関は、ユーザに振込完了の報
告を行う。
ライアント計算機101の画面上で銀行口座やクレジッ
トカード等による料金支払いの手続を取ると、サーバ計
算機が保持しているアクセス権情報1003が更新さ
れ、そのユーザはアップデートデータ114aを利用で
きるようになる。ユーザが追加料金の支払い手続を行わ
なければ、アップデートデータ114aを利用すること
はできない。サーバ計算機105は、どのユーザがどの
範囲のデータを利用できるかに関し、アクセス権情報1
003を参照して管理する。ユーザが追加料金の支払い
手続を行った場合、その情報はデータベース管理者10
01に渡され、データベース管理者1001は金融機関
1002に振込依頼を行い、所定の手続の後、金融機関
1002からデータベース管理者1001に料金の振込
が行われる。一方、金融機関は、ユーザに振込完了の報
告を行う。
【0039】図11は、アクセス権情報の一例を示す図
である。アクセス権情報1003には、ユーザ毎にどの
アップデートデータまで利用できるかを示す情報が納め
られている。図示した例の場合、○印はアクセス権を有
することを示し、ユーザID“AAAA”のユーザは“UPDA
TE 1”の差分データ、“UPDATE 2”の差分データ及び
“UPDATE 3”の差分データを利用することができる。一
方、ユーザID“BBBB”のユーザは“UPDATE 1”の差分
データは利用できるが、“UPDATE 2”及び“UPDATE 3”
の差分データは利用することができない。このアクセス
権情報の内容は、料金の支払い状況に応じて順次更新さ
れる。
である。アクセス権情報1003には、ユーザ毎にどの
アップデートデータまで利用できるかを示す情報が納め
られている。図示した例の場合、○印はアクセス権を有
することを示し、ユーザID“AAAA”のユーザは“UPDA
TE 1”の差分データ、“UPDATE 2”の差分データ及び
“UPDATE 3”の差分データを利用することができる。一
方、ユーザID“BBBB”のユーザは“UPDATE 1”の差分
データは利用できるが、“UPDATE 2”及び“UPDATE 3”
の差分データは利用することができない。このアクセス
権情報の内容は、料金の支払い状況に応じて順次更新さ
れる。
【0040】本発明のクライアント計算機が有する機能
及びサーバ計算機が有する機能は、プログラムによって
実現することができる。このプログラムは、CD−RO
M、DVD−ROM、MO、フロッピー(登録商標)デ
ィスク等の記録媒体を介して計算機にロードして実行す
ることもできるし、ネットワークを介して計算機にロー
ドして実行することもできる。
及びサーバ計算機が有する機能は、プログラムによって
実現することができる。このプログラムは、CD−RO
M、DVD−ROM、MO、フロッピー(登録商標)デ
ィスク等の記録媒体を介して計算機にロードして実行す
ることもできるし、ネットワークを介して計算機にロー
ドして実行することもできる。
【0041】
【発明の効果】本発明によると、利用者は、カテゴリ情
報により、検索結果の概観を把握することができ、注目
するカテゴリで検索結果をまとめることができる。これ
により、検索結果を絞り込んだり、検索結果における思
い及ばなかった観点を見つけることができる。カテゴリ
集合は検索結果から動的に抽出されるため、事前に用意
されたカテゴリ集合とは異なり、常に検索結果に合った
ものとなっている。
報により、検索結果の概観を把握することができ、注目
するカテゴリで検索結果をまとめることができる。これ
により、検索結果を絞り込んだり、検索結果における思
い及ばなかった観点を見つけることができる。カテゴリ
集合は検索結果から動的に抽出されるため、事前に用意
されたカテゴリ集合とは異なり、常に検索結果に合った
ものとなっている。
【図1】本発明の検索結果表示装置をネットワークを介
してサーバ/クライアント形式で実施する際の構成図。
してサーバ/クライアント形式で実施する際の構成図。
【図2】本発明の実施形態を模式的に示したフロー図。
【図3】本発明の実施形態を示したブロック図。
【図4】カテゴリへの帰属度のみを表示する棒グラフ表
示例を示す図。
示例を示す図。
【図5】本発明の検索結果表示装置のシステム構成図。
【図6】円グラフ表示例(面積で関連度を表現)を示す
図。
図。
【図7】円グラフ表示例(直径で関連度を表現)を示す
図。
図。
【図8】検索結果表示インターフェイスの例を示す図。
【図9】検索結果表示インターフェイスにおけるインタ
ラクションの例を示す図。
ラクションの例を示す図。
【図10】データベースのメンテナンス実行とメンテナ
ンス料支払いの仕組みの一例を示す模式図。
ンス料支払いの仕組みの一例を示す模式図。
【図11】アクセス権情報の一例を示す図。
101:クライアント計算機
105:サーバ計算機
113:ネットワーク
114:文書データベース
201:検索要求との関連度
202:文書集合(検索結果)
203:カテゴリ集合の決定(クラスタリング)
204:カテゴリ1(赤)
205:カテゴリ2(緑)
206:カテゴリ3(青)
207:文書がカテゴリに帰属する帰属度の計算
208:棒グラフ(赤)
209:棒グラフ(緑)
210:棒グラフ(青)
211:3個のクラスタにまとまっている段階
801:検索要求ウィンドウ
802:検索ボタン
803:検索結果表示ウィンドウ
804:検索要求との関連度
805:棒グラフ(帰属度)
806:表示法(棒グラフまたは円グラフ)選択ウィン
ドウ 807:カテゴリ数選択ウィンドウ 808:カテゴリの長さ(面積)計算法指定ウィンドウ 901:カテゴリ別メニュー用ポップアップウィンドウ 902:カテゴリ情報表示用ポップアップウィンドウ 903:カテゴリで並べ替えた結果
ドウ 807:カテゴリ数選択ウィンドウ 808:カテゴリの長さ(面積)計算法指定ウィンドウ 901:カテゴリ別メニュー用ポップアップウィンドウ 902:カテゴリ情報表示用ポップアップウィンドウ 903:カテゴリで並べ替えた結果
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 西岡 真吾
東京都国分寺市東恋ヶ窪一丁目280番地
株式会社日立製作所中央研究所内
(72)発明者 久光 徹
東京都国分寺市東恋ヶ窪一丁目280番地
株式会社日立製作所中央研究所内
(72)発明者 今一 修
東京都国分寺市東恋ヶ窪一丁目280番地
株式会社日立製作所中央研究所内
Fターム(参考) 5B075 ND03 NK02 NK46 NR12 NS02
PQ14 PQ23 PQ36 PQ46 PQ74
PR06 QM08
Claims (19)
- 【請求項1】 検索要求に従って文書データベースを検
索するステップと、 検索によって得られた複数の文書をそれぞれ出現単語を
要素とする単語ベクトルによって表すステップと、 前記単語ベクトルを用いたクラスタリング法によって前
記複数の文書を複数の文書群に分類分けするステップ
と、 前記複数の文書群をそれぞれ出現単語を要素とする単語
ベクトルによって表すステップと、 前記文書を表す単語ベクトルと前記文書群を表す単語ベ
クトルとを用いて、各文書が前記複数の文書群に帰属す
る度合いを計算するステップと、 前記検索によって得られた複数の文書を識別する情報と
各文書の前記複数の文書群それぞれへの帰属度合いとを
関連付けて出力するステップとを含むことを特徴とする
文書検索方法。 - 【請求項2】 請求項1記載の文書検索方法において、
各文書が前記複数の文書群に帰属する度合いを、文書を
表す単語ベクトルと文書群を表す単語ベクトルとの間の
距離に基づいて計算することを特徴とする文書検索方
法。 - 【請求項3】 請求項1記載の文書検索方法において、
指定された文書群を表す単語ベクトル中の単語を当該文
書群のカテゴリとして出力するステップと有することを
特徴とする文書検索方法。 - 【請求項4】 請求項1記載の文書検索方法において、
前記検索によって得られた複数の文書を、指定された文
書群への帰属度が高い順に並べ替えるステップを有する
ことを特徴とする文書検索方法。 - 【請求項5】 検索要求に従って文書データベースを検
索する文書検索部と、 検索によって得られた複数の文書を、文書間の類似度を
もとに、予め指定された数の文書群に分類分けする分類
手段と、 検索によって得られた各文書が前記各文書群それぞれに
帰属する度合いを計算する帰属度計算部とを備えること
を特徴とする文書検索システム。 - 【請求項6】 請求項5記載の文書検索システムにおい
て、前記分類手段は、前記検索によって得られた複数の
文書をクラスタリング法によって分類分けすることを特
徴とする文書検索システム。 - 【請求項7】 請求項5記載の文書検索システムにおい
て、文書あるいは文書群を単語ベクトルとして表す手段
を備えることを特徴とする文書検索システム。 - 【請求項8】 請求項7記載の文書検索システムにおい
て、前記帰属度計算部は、文書を表す単語ベクトルと文
書群を表す単語ベクトルとの間の距離に基づいて各文書
が各文書群に帰属する度合いを計算することを特徴とす
る文書検索システム。 - 【請求項9】 請求項7記載の文書検索システムにおい
て、指定された文書群を表す単語ベクトル中の単語を当
該文書群のカテゴリとして出力する手段を備えることを
特徴とする文書検索システム。 - 【請求項10】 請求項5記載の文書検索システムにお
いて、前記検索によって得られた複数の文書を、指定さ
れた文書群への帰属度が高い順に並べ替える手段を備え
ることを特徴とする文書検索システム。 - 【請求項11】 請求項5記載の文書検索システムにお
いて、前記文書データベースはデータ更新によって追加
された差分の文書データを有し、前記差分の文書データ
を利用可能なユーザを登録したアクセス権情報を有する
ことを特徴とする文書検索システム。 - 【請求項12】 検索によって得られた複数の文書に関
する情報を表示する検索結果表示システムにおいて、 前記検索によって得られた文書それぞれについて、前記
検索によって得られた複数の文書間の類似度をもとに動
的に算出された複数のカテゴリへの帰属度を表示するこ
とを特徴とする文書検索結果表示システム。 - 【請求項13】 請求項12記載の文書検索結果表示シ
ステムにおいて、前記カテゴリ毎の帰属度を棒グラフま
たは円グラフにて表示することを特徴とする文書検索結
果表示システム。 - 【請求項14】 請求項12記載の文書検索結果表示シ
ステムにおいて、異なるカテゴリを異なる色によって区
別して表示することを特徴とする文書検索結果表示シス
テム。 - 【請求項15】 請求項12記載の文書検索結果表示シ
ステムにおいて、文書と検索要求との関連度を合わせて
表示することを特徴とする文書検索結果表示システム。 - 【請求項16】 請求項15記載の文書検索結果表示シ
ステムにおいて、検索要求との関連度に応じた長さの棒
を前記カテゴリ毎の帰属度に比例した配分に振り分けて
棒グラフ表示することを特徴とする文書検索結果表示シ
ステム。 - 【請求項17】 請求項12記載の文書検索結果表示シ
ステムにおいて、前記検索によって得られた複数の文書
を、検索要求との関連度が高い順に並べて表示する機能
を有することを特徴とする文書検索結果表示システム。 - 【請求項18】 請求項12記載の文書検索結果表示シ
ステムにおいて、前記検索によって得られた複数の文書
を、指定されたカテゴリへの帰属度が高い順に並べ替え
て表示する機能を有することを特徴とする文書検索結果
表示システム。 - 【請求項19】 請求項12記載の文書検索結果表示シ
ステムにおいて、指定されたカテゴリを特徴付ける単語
群を表示する機能を有することを特徴とする文書検索結
果表示システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002153927A JP2003345810A (ja) | 2002-05-28 | 2002-05-28 | 文書検索方法、文書検索システム及び文書検索結果示方システム |
US10/374,090 US20030225755A1 (en) | 2002-05-28 | 2003-02-27 | Document search method and system, and document search result display system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002153927A JP2003345810A (ja) | 2002-05-28 | 2002-05-28 | 文書検索方法、文書検索システム及び文書検索結果示方システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003345810A true JP2003345810A (ja) | 2003-12-05 |
Family
ID=29561334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002153927A Pending JP2003345810A (ja) | 2002-05-28 | 2002-05-28 | 文書検索方法、文書検索システム及び文書検索結果示方システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20030225755A1 (ja) |
JP (1) | JP2003345810A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039862A (ja) * | 2004-07-26 | 2006-02-09 | Mitsubishi Electric Corp | データ類別装置 |
JP2008243127A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
WO2008146456A1 (ja) * | 2007-05-28 | 2008-12-04 | Panasonic Corporation | 情報探索支援方法および情報探索支援装置 |
JP2009528630A (ja) * | 2006-03-01 | 2009-08-06 | カン・ジョ・エムジイエムティ・リミテッド ライアビリティ カンパニー | 関連するトピックを表示するサーチ・エンジンの方法及びシステム |
JP2010205072A (ja) * | 2009-03-04 | 2010-09-16 | Yahoo Japan Corp | ネットショッピング管理装置 |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
Families Citing this family (150)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
EP1620816B1 (en) * | 2003-04-25 | 2013-12-25 | Thomson Reuters Global Resources | Distributed search methods, architectures, systems, and software |
US8600963B2 (en) * | 2003-08-14 | 2013-12-03 | Google Inc. | System and method for presenting multiple sets of search results for a single query |
US7606794B2 (en) * | 2004-11-11 | 2009-10-20 | Yahoo! Inc. | Active Abstracts |
KR101393839B1 (ko) | 2004-11-11 | 2014-05-12 | 야후! 인크. | 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템 |
US20060101012A1 (en) * | 2004-11-11 | 2006-05-11 | Chad Carson | Search system presenting active abstracts including linked terms |
US20060136406A1 (en) * | 2004-12-17 | 2006-06-22 | Erika Reponen | Spatial search and selection feature |
US20060206460A1 (en) * | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
US7844599B2 (en) * | 2005-08-24 | 2010-11-30 | Yahoo! Inc. | Biasing queries to determine suggested queries |
WO2007147015A2 (en) * | 2006-06-13 | 2007-12-21 | Microsoft Corporation | Search engine dash-board |
US8301616B2 (en) * | 2006-07-14 | 2012-10-30 | Yahoo! Inc. | Search equalizer |
US8930331B2 (en) | 2007-02-21 | 2015-01-06 | Palantir Technologies | Providing unique views of data based on changes or rules |
US7809610B2 (en) * | 2007-04-09 | 2010-10-05 | Platformation, Inc. | Methods and apparatus for freshness and completeness of information |
US20090089293A1 (en) * | 2007-09-28 | 2009-04-02 | Bccg Ventures, Llc | Selfish data browsing |
JP5046863B2 (ja) | 2007-11-01 | 2012-10-10 | 株式会社日立製作所 | 情報処理システム及びデータ管理方法 |
US8112404B2 (en) * | 2008-05-08 | 2012-02-07 | Microsoft Corporation | Providing search results for mobile computing devices |
US9383911B2 (en) | 2008-09-15 | 2016-07-05 | Palantir Technologies, Inc. | Modal-less interface enhancements |
US20100161631A1 (en) * | 2008-12-19 | 2010-06-24 | Microsoft Corporation | Techniques to share information about tags and documents across a computer network |
US9223770B1 (en) * | 2009-07-29 | 2015-12-29 | Open Invention Network, Llc | Method and apparatus of creating electronic forms to include internet list data |
US9104695B1 (en) | 2009-07-27 | 2015-08-11 | Palantir Technologies, Inc. | Geotagging structured data |
JP5542017B2 (ja) * | 2010-09-15 | 2014-07-09 | アルパイン株式会社 | 名称検索装置 |
US9069843B2 (en) * | 2010-09-30 | 2015-06-30 | International Business Machines Corporation | Iterative refinement of search results based on user feedback |
US8799240B2 (en) | 2011-06-23 | 2014-08-05 | Palantir Technologies, Inc. | System and method for investigating large amounts of data |
US9092482B2 (en) | 2013-03-14 | 2015-07-28 | Palantir Technologies, Inc. | Fair scheduling for mixed-query loads |
US9547693B1 (en) | 2011-06-23 | 2017-01-17 | Palantir Technologies Inc. | Periodic database search manager for multiple data sources |
US8732574B2 (en) | 2011-08-25 | 2014-05-20 | Palantir Technologies, Inc. | System and method for parameterizing documents for automatic workflow generation |
US8504542B2 (en) | 2011-09-02 | 2013-08-06 | Palantir Technologies, Inc. | Multi-row transactions |
US9348677B2 (en) | 2012-10-22 | 2016-05-24 | Palantir Technologies Inc. | System and method for batch evaluation programs |
WO2014100202A1 (en) * | 2012-12-18 | 2014-06-26 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for patent-related document analysis and searching |
US11232137B2 (en) | 2012-12-18 | 2022-01-25 | RELX Inc. | Methods for evaluating term support in patent-related documents |
US9501507B1 (en) | 2012-12-27 | 2016-11-22 | Palantir Technologies Inc. | Geo-temporal indexing and searching |
US9380431B1 (en) | 2013-01-31 | 2016-06-28 | Palantir Technologies, Inc. | Use of teams in a mobile application |
US10037314B2 (en) | 2013-03-14 | 2018-07-31 | Palantir Technologies, Inc. | Mobile reports |
US8937619B2 (en) | 2013-03-15 | 2015-01-20 | Palantir Technologies Inc. | Generating an object time series from data objects |
US8788405B1 (en) | 2013-03-15 | 2014-07-22 | Palantir Technologies, Inc. | Generating data clusters with customizable analysis strategies |
US10275778B1 (en) | 2013-03-15 | 2019-04-30 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures |
US8868486B2 (en) | 2013-03-15 | 2014-10-21 | Palantir Technologies Inc. | Time-sensitive cube |
US8917274B2 (en) | 2013-03-15 | 2014-12-23 | Palantir Technologies Inc. | Event matrix based on integrated data |
US9965937B2 (en) | 2013-03-15 | 2018-05-08 | Palantir Technologies Inc. | External malware data item clustering and analysis |
US8909656B2 (en) | 2013-03-15 | 2014-12-09 | Palantir Technologies Inc. | Filter chains with associated multipath views for exploring large data sets |
US9690831B2 (en) * | 2013-04-19 | 2017-06-27 | Palo Alto Research Center Incorporated | Computer-implemented system and method for visual search construction, document triage, and coverage tracking |
US8799799B1 (en) * | 2013-05-07 | 2014-08-05 | Palantir Technologies Inc. | Interactive geospatial map |
US9335897B2 (en) | 2013-08-08 | 2016-05-10 | Palantir Technologies Inc. | Long click display of a context menu |
US9223773B2 (en) | 2013-08-08 | 2015-12-29 | Palatir Technologies Inc. | Template system for custom document generation |
US8713467B1 (en) | 2013-08-09 | 2014-04-29 | Palantir Technologies, Inc. | Context-sensitive views |
US9785317B2 (en) | 2013-09-24 | 2017-10-10 | Palantir Technologies Inc. | Presentation and analysis of user interaction data |
US8938686B1 (en) | 2013-10-03 | 2015-01-20 | Palantir Technologies Inc. | Systems and methods for analyzing performance of an entity |
US8812960B1 (en) | 2013-10-07 | 2014-08-19 | Palantir Technologies Inc. | Cohort-based presentation of user interaction data |
US8924872B1 (en) | 2013-10-18 | 2014-12-30 | Palantir Technologies Inc. | Overview user interface of emergency call data of a law enforcement agency |
US9116975B2 (en) | 2013-10-18 | 2015-08-25 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores |
US9021384B1 (en) | 2013-11-04 | 2015-04-28 | Palantir Technologies Inc. | Interactive vehicle information map |
US8868537B1 (en) | 2013-11-11 | 2014-10-21 | Palantir Technologies, Inc. | Simple web search |
US9105000B1 (en) | 2013-12-10 | 2015-08-11 | Palantir Technologies Inc. | Aggregating data from a plurality of data sources |
US10025834B2 (en) | 2013-12-16 | 2018-07-17 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US9552615B2 (en) | 2013-12-20 | 2017-01-24 | Palantir Technologies Inc. | Automated database analysis to detect malfeasance |
US10356032B2 (en) | 2013-12-26 | 2019-07-16 | Palantir Technologies Inc. | System and method for detecting confidential information emails |
US8832832B1 (en) | 2014-01-03 | 2014-09-09 | Palantir Technologies Inc. | IP reputation |
US9043696B1 (en) | 2014-01-03 | 2015-05-26 | Palantir Technologies Inc. | Systems and methods for visual definition of data associations |
US9483162B2 (en) | 2014-02-20 | 2016-11-01 | Palantir Technologies Inc. | Relationship visualizations |
US9009827B1 (en) | 2014-02-20 | 2015-04-14 | Palantir Technologies Inc. | Security sharing system |
US9727376B1 (en) | 2014-03-04 | 2017-08-08 | Palantir Technologies, Inc. | Mobile tasks |
US8924429B1 (en) | 2014-03-18 | 2014-12-30 | Palantir Technologies Inc. | Determining and extracting changed data from a data source |
US9857958B2 (en) | 2014-04-28 | 2018-01-02 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive access of, investigation of, and analysis of data objects stored in one or more databases |
US9626455B2 (en) | 2014-05-01 | 2017-04-18 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations |
US9009171B1 (en) | 2014-05-02 | 2015-04-14 | Palantir Technologies Inc. | Systems and methods for active column filtering |
US9535974B1 (en) | 2014-06-30 | 2017-01-03 | Palantir Technologies Inc. | Systems and methods for identifying key phrase clusters within documents |
US9129219B1 (en) | 2014-06-30 | 2015-09-08 | Palantir Technologies, Inc. | Crime risk forecasting |
US9619557B2 (en) | 2014-06-30 | 2017-04-11 | Palantir Technologies, Inc. | Systems and methods for key phrase characterization of documents |
US10572496B1 (en) | 2014-07-03 | 2020-02-25 | Palantir Technologies Inc. | Distributed workflow system and database with access controls for city resiliency |
US9256664B2 (en) | 2014-07-03 | 2016-02-09 | Palantir Technologies Inc. | System and method for news events detection and visualization |
US9785773B2 (en) | 2014-07-03 | 2017-10-10 | Palantir Technologies Inc. | Malware data item analysis |
US9021260B1 (en) | 2014-07-03 | 2015-04-28 | Palantir Technologies Inc. | Malware data item analysis |
US9202249B1 (en) | 2014-07-03 | 2015-12-01 | Palantir Technologies Inc. | Data item clustering and analysis |
US9454281B2 (en) | 2014-09-03 | 2016-09-27 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US9501851B2 (en) | 2014-10-03 | 2016-11-22 | Palantir Technologies Inc. | Time-series analysis system |
US9767172B2 (en) | 2014-10-03 | 2017-09-19 | Palantir Technologies Inc. | Data aggregation and analysis system |
US9785328B2 (en) | 2014-10-06 | 2017-10-10 | Palantir Technologies Inc. | Presentation of multivariate data on a graphical user interface of a computing system |
US9984133B2 (en) | 2014-10-16 | 2018-05-29 | Palantir Technologies Inc. | Schematic and database linking system |
US9229952B1 (en) | 2014-11-05 | 2016-01-05 | Palantir Technologies, Inc. | History preserving data pipeline system and method |
US9043894B1 (en) | 2014-11-06 | 2015-05-26 | Palantir Technologies Inc. | Malicious software detection in a computing system |
US9348920B1 (en) | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
US9367872B1 (en) | 2014-12-22 | 2016-06-14 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures |
US10362133B1 (en) | 2014-12-22 | 2019-07-23 | Palantir Technologies Inc. | Communication data processing architecture |
US10552994B2 (en) | 2014-12-22 | 2020-02-04 | Palantir Technologies Inc. | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items |
US9335911B1 (en) | 2014-12-29 | 2016-05-10 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US9870205B1 (en) | 2014-12-29 | 2018-01-16 | Palantir Technologies Inc. | Storing logical units of program code generated using a dynamic programming notebook user interface |
US9817563B1 (en) | 2014-12-29 | 2017-11-14 | Palantir Technologies Inc. | System and method of generating data points from one or more data stores of data items for chart creation and manipulation |
US10372879B2 (en) | 2014-12-31 | 2019-08-06 | Palantir Technologies Inc. | Medical claims lead summary report generation |
US10387834B2 (en) | 2015-01-21 | 2019-08-20 | Palantir Technologies Inc. | Systems and methods for accessing and storing snapshots of a remote application in a document |
US20180011920A1 (en) * | 2015-01-29 | 2018-01-11 | Hewlett-Packard Development Company, L.P. | Segmentation based on clustering engines applied to summaries |
US9727560B2 (en) | 2015-02-25 | 2017-08-08 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
EP3070622A1 (en) | 2015-03-16 | 2016-09-21 | Palantir Technologies, Inc. | Interactive user interfaces for location-based data analysis |
US9886467B2 (en) | 2015-03-19 | 2018-02-06 | Plantir Technologies Inc. | System and method for comparing and visualizing data entities and data entity series |
US9460175B1 (en) | 2015-06-03 | 2016-10-04 | Palantir Technologies Inc. | Server implemented geographic information system with graphical interface |
US9384203B1 (en) | 2015-06-09 | 2016-07-05 | Palantir Technologies Inc. | Systems and methods for indexing and aggregating data records |
US9454785B1 (en) | 2015-07-30 | 2016-09-27 | Palantir Technologies Inc. | Systems and user interfaces for holistic, data-driven investigation of bad actor behavior based on clustering and scoring of related data |
US10489413B2 (en) * | 2015-08-03 | 2019-11-26 | Amadeus S.A.S. | Handling data requests |
US9996595B2 (en) | 2015-08-03 | 2018-06-12 | Palantir Technologies, Inc. | Providing full data provenance visualization for versioned datasets |
US9456000B1 (en) | 2015-08-06 | 2016-09-27 | Palantir Technologies Inc. | Systems, methods, user interfaces, and computer-readable media for investigating potential malicious communications |
US9600146B2 (en) | 2015-08-17 | 2017-03-21 | Palantir Technologies Inc. | Interactive geospatial map |
US10489391B1 (en) | 2015-08-17 | 2019-11-26 | Palantir Technologies Inc. | Systems and methods for grouping and enriching data items accessed from one or more databases for presentation in a user interface |
US10102369B2 (en) | 2015-08-19 | 2018-10-16 | Palantir Technologies Inc. | Checkout system executable code monitoring, and user account compromise determination system |
US10853378B1 (en) | 2015-08-25 | 2020-12-01 | Palantir Technologies Inc. | Electronic note management via a connected entity graph |
US11150917B2 (en) | 2015-08-26 | 2021-10-19 | Palantir Technologies Inc. | System for data aggregation and analysis of data from a plurality of data sources |
US10402385B1 (en) | 2015-08-27 | 2019-09-03 | Palantir Technologies Inc. | Database live reindex |
US9485265B1 (en) | 2015-08-28 | 2016-11-01 | Palantir Technologies Inc. | Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces |
US10706434B1 (en) | 2015-09-01 | 2020-07-07 | Palantir Technologies Inc. | Methods and systems for determining location information |
US9639580B1 (en) | 2015-09-04 | 2017-05-02 | Palantir Technologies, Inc. | Computer-implemented systems and methods for data management and visualization |
US9576015B1 (en) | 2015-09-09 | 2017-02-21 | Palantir Technologies, Inc. | Domain-specific language for dataset transformations |
US9454564B1 (en) | 2015-09-09 | 2016-09-27 | Palantir Technologies Inc. | Data integrity checks |
US10296617B1 (en) | 2015-10-05 | 2019-05-21 | Palantir Technologies Inc. | Searches of highly structured data |
US9542446B1 (en) | 2015-12-17 | 2017-01-10 | Palantir Technologies, Inc. | Automatic generation of composite datasets based on hierarchical fields |
US10109094B2 (en) | 2015-12-21 | 2018-10-23 | Palantir Technologies Inc. | Interface to index and display geospatial data |
US9823818B1 (en) | 2015-12-29 | 2017-11-21 | Palantir Technologies Inc. | Systems and interactive user interfaces for automatic generation of temporal representation of data objects |
US10089289B2 (en) | 2015-12-29 | 2018-10-02 | Palantir Technologies Inc. | Real-time document annotation |
US9612723B1 (en) | 2015-12-30 | 2017-04-04 | Palantir Technologies Inc. | Composite graphical interface with shareable data-objects |
US10698938B2 (en) | 2016-03-18 | 2020-06-30 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US10068199B1 (en) | 2016-05-13 | 2018-09-04 | Palantir Technologies Inc. | System to catalogue tracking data |
US10324609B2 (en) | 2016-07-21 | 2019-06-18 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US10719188B2 (en) | 2016-07-21 | 2020-07-21 | Palantir Technologies Inc. | Cached database and synchronization system for providing dynamic linked panels in user interface |
US9686357B1 (en) | 2016-08-02 | 2017-06-20 | Palantir Technologies Inc. | Mapping content delivery |
US10437840B1 (en) | 2016-08-19 | 2019-10-08 | Palantir Technologies Inc. | Focused probabilistic entity resolution from multiple data sources |
US10318630B1 (en) | 2016-11-21 | 2019-06-11 | Palantir Technologies Inc. | Analysis of large bodies of textual data |
US10515433B1 (en) | 2016-12-13 | 2019-12-24 | Palantir Technologies Inc. | Zoom-adaptive data granularity to achieve a flexible high-performance interface for a geospatial mapping system |
US10270727B2 (en) | 2016-12-20 | 2019-04-23 | Palantir Technologies, Inc. | Short message communication within a mobile graphical map |
US10460602B1 (en) | 2016-12-28 | 2019-10-29 | Palantir Technologies Inc. | Interactive vehicle information mapping system |
US10579239B1 (en) | 2017-03-23 | 2020-03-03 | Palantir Technologies Inc. | Systems and methods for production and display of dynamically linked slide presentations |
US10895946B2 (en) | 2017-05-30 | 2021-01-19 | Palantir Technologies Inc. | Systems and methods for using tiled data |
US11334216B2 (en) | 2017-05-30 | 2022-05-17 | Palantir Technologies Inc. | Systems and methods for visually presenting geospatial information |
US10956406B2 (en) | 2017-06-12 | 2021-03-23 | Palantir Technologies Inc. | Propagated deletion of database records and derived data |
US10403011B1 (en) | 2017-07-18 | 2019-09-03 | Palantir Technologies Inc. | Passing system with an interactive user interface |
US10371537B1 (en) | 2017-11-29 | 2019-08-06 | Palantir Technologies Inc. | Systems and methods for flexible route planning |
US11599706B1 (en) | 2017-12-06 | 2023-03-07 | Palantir Technologies Inc. | Systems and methods for providing a view of geospatial information |
US10586044B2 (en) * | 2017-12-12 | 2020-03-10 | Institute For Information Industry | Abnormal behavior detection model building apparatus and abnormal behavior detection model building method thereof |
US10698756B1 (en) | 2017-12-15 | 2020-06-30 | Palantir Technologies Inc. | Linking related events for various devices and services in computer log files on a centralized server |
US11599369B1 (en) | 2018-03-08 | 2023-03-07 | Palantir Technologies Inc. | Graphical user interface configuration system |
US10896234B2 (en) | 2018-03-29 | 2021-01-19 | Palantir Technologies Inc. | Interactive geographical map |
US10830599B2 (en) | 2018-04-03 | 2020-11-10 | Palantir Technologies Inc. | Systems and methods for alternative projections of geographical information |
US11585672B1 (en) | 2018-04-11 | 2023-02-21 | Palantir Technologies Inc. | Three-dimensional representations of routes |
US10754822B1 (en) | 2018-04-18 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for ontology migration |
US10885021B1 (en) | 2018-05-02 | 2021-01-05 | Palantir Technologies Inc. | Interactive interpreter and graphical user interface |
US10429197B1 (en) | 2018-05-29 | 2019-10-01 | Palantir Technologies Inc. | Terrain analysis for automatic route determination |
US11119630B1 (en) | 2018-06-19 | 2021-09-14 | Palantir Technologies Inc. | Artificial intelligence assisted evaluations and user interface for same |
CN109597929A (zh) * | 2018-09-21 | 2019-04-09 | 北京字节跳动网络技术有限公司 | 搜索结果的展示方法、装置、终端及可读介质 |
US10467435B1 (en) | 2018-10-24 | 2019-11-05 | Palantir Technologies Inc. | Approaches for managing restrictions for middleware applications |
US11025672B2 (en) | 2018-10-25 | 2021-06-01 | Palantir Technologies Inc. | Approaches for securing middleware data access |
EP3989084A4 (en) * | 2019-06-19 | 2022-06-22 | NEC Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND RECORDING MEDIA |
US11687717B2 (en) * | 2019-12-03 | 2023-06-27 | Morgan State University | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents |
US20220237198A1 (en) * | 2021-01-22 | 2022-07-28 | Element Standard, Inc. | System and method for creating and managing actionable data |
US20220237221A1 (en) * | 2021-01-22 | 2022-07-28 | Element Standard, Inc. | System and method for identifying and extracting information |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5972634A (en) * | 1994-10-19 | 1999-10-26 | The General Hospital Corporation | Diagnostic assay for Alzheimer's disease: assessment of Aβ abnormalities |
US7263659B2 (en) * | 1998-09-09 | 2007-08-28 | Ricoh Company, Ltd. | Paper-based interface for multimedia information |
JP4052608B2 (ja) * | 1998-06-02 | 2008-02-27 | 株式会社キーエンス | 多光軸光電スイッチ |
US20020178119A1 (en) * | 2001-05-24 | 2002-11-28 | International Business Machines Corporation | Method and system for a role-based access control model with active roles |
US7221474B2 (en) * | 2001-07-27 | 2007-05-22 | Hewlett-Packard Development Company, L.P. | Method for visualizing large volumes of multiple-attribute data without aggregation using a pixel bar chart |
US6829599B2 (en) * | 2002-10-02 | 2004-12-07 | Xerox Corporation | System and method for improving answer relevance in meta-search engines |
-
2002
- 2002-05-28 JP JP2002153927A patent/JP2003345810A/ja active Pending
-
2003
- 2003-02-27 US US10/374,090 patent/US20030225755A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039862A (ja) * | 2004-07-26 | 2006-02-09 | Mitsubishi Electric Corp | データ類別装置 |
JP4536445B2 (ja) * | 2004-07-26 | 2010-09-01 | 三菱電機株式会社 | データ類別装置 |
JP2009528630A (ja) * | 2006-03-01 | 2009-08-06 | カン・ジョ・エムジイエムティ・リミテッド ライアビリティ カンパニー | 関連するトピックを表示するサーチ・エンジンの方法及びシステム |
JP2008243127A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
WO2008146456A1 (ja) * | 2007-05-28 | 2008-12-04 | Panasonic Corporation | 情報探索支援方法および情報探索支援装置 |
US8099418B2 (en) | 2007-05-28 | 2012-01-17 | Panasonic Corporation | Information search support method and information search support device |
JP2010205072A (ja) * | 2009-03-04 | 2010-09-16 | Yahoo Japan Corp | ネットショッピング管理装置 |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20030225755A1 (en) | 2003-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003345810A (ja) | 文書検索方法、文書検索システム及び文書検索結果示方システム | |
US11068494B2 (en) | Interface including graphic representation of relationships between search results | |
US7840524B2 (en) | Method and apparatus for indexing, searching and displaying data | |
US7693910B2 (en) | Method of searching documents and a service for searching documents | |
EP0722145B1 (en) | Information retrieval system and method of operation | |
US6094648A (en) | User interface for document retrieval | |
USRE44794E1 (en) | Method and apparatus for representing and navigating search results | |
JP3049636B2 (ja) | データ分析方法 | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
CN101111837B (zh) | 查询自动分类的搜索处理 | |
JP3717808B2 (ja) | 情報検索システム | |
US20050160080A1 (en) | System and method of context-specific searching in an electronic database | |
US20040230570A1 (en) | Search processing method and apparatus | |
CN101458703A (zh) | 用于控制相对重要性的标签表示或标签组表示大小调整 | |
WO2005073881A1 (en) | Apparatus and method for organizing and presenting content | |
US7523109B2 (en) | Dynamic grouping of content including captive data | |
US20050160082A1 (en) | System and method of context-specific searching in an electronic database | |
JP2009238241A (ja) | データベースのデータを検索するための方法と装置 | |
US20040015485A1 (en) | Method and apparatus for improved internet searching | |
US6311198B1 (en) | Method and system for threading documents | |
KR20010104873A (ko) | 메타 검색엔진을 이용한 인터넷 사이트 검색 서비스 시스템 | |
JP2005107688A (ja) | 情報表示方法及びシステム及び情報表示プログラム | |
US6961724B1 (en) | Method and apparatus for image retrieval | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
JPH11154164A (ja) | 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070123 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070703 |