[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4805267B2 - トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 - Google Patents

トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 Download PDF

Info

Publication number
JP4805267B2
JP4805267B2 JP2007525718A JP2007525718A JP4805267B2 JP 4805267 B2 JP4805267 B2 JP 4805267B2 JP 2007525718 A JP2007525718 A JP 2007525718A JP 2007525718 A JP2007525718 A JP 2007525718A JP 4805267 B2 JP4805267 B2 JP 4805267B2
Authority
JP
Japan
Prior art keywords
query
document
token
documents
instructions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007525718A
Other languages
English (en)
Other versions
JP2008510228A5 (ja
JP2008510228A (ja
Inventor
ディーン,ジェフリー,アドゲート
ハーアー,ポール,ジー.
サーシノグル,オルカン
シンガル,アミターブ,ケイ.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008510228A publication Critical patent/JP2008510228A/ja
Publication of JP2008510228A5 publication Critical patent/JP2008510228A5/ja
Application granted granted Critical
Publication of JP4805267B2 publication Critical patent/JP4805267B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願
本出願は、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、米国特許出願第10/917,745号明細書(2004年8月13日出願)、及び「トークンスペースレポジトリと共に使用されるドキュメント圧縮システム及び方法(Document Compression System and Method For Use With Tokenspace Repository)」と題された、米国特許出願第10/917,739号明細書(2004年8月13日出願)に関する。これらの出願は、その全体が参照により本明細書に援用されている。
技術分野
開示されている実施形態は、一般に、データ処理システム及び方法、詳細には、関連付けられたインデックスを有するドキュメントコレクション(以下、「トークンスペースレポジトリ」とも呼ぶ)と共に使用される多段クエリ処理システム及び方法に関する。
背景
情報検索システム(たとえば、サーチエンジン)は、ドキュメントコーパス(たとえば、ワールドワイドウェブ)から生成されたドキュメントのインデックスにクエリを突き合わせる。代表的な逆インデックスは、それぞれのドキュメント内のワードを、ドキュメント内のそれらの場所に対するポインタと共に、含む。ドキュメント処理システムは、自動又は手動プロセスを使用して、ドキュメントコーパスから検索された、ドキュメント、ページ、又はサイトのコンテンツを処理することにより、逆引きインデックスを準備する。ドキュメント処理システムはまた、ドキュメントのコンテンツ又はコンテンツの一部分を、クエリプロセッサがクエリに応答する場合に使用するためにレポジトリ内に格納することがある。
クエリ結果がそのクエリに関連していることを確実にするために、より高度なクエリサーチ及びスコアリング技術が常に必要とされている。スコアリング技術によっては、たとえば、ドキュメント内で見つかったクエリ用語又はキーワードのコンテキストを判断するために、候補ドキュメントの部分的な再構築が必要である。しかし残念ながら、このような高度な技術を導入した場合に、追加処理及びそれに伴うオーバーヘッドによりサーチ性能が低下する恐れがある。
発明の概要
開示されている実施形態は、トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法を含む。多段クエリ処理システム及び方法により、多層マッピングスキームによって容易になった増分ドキュメントの再構築(incremental document reconstruction)による「スニペット(snippet)」の生成を含む、多段クエリスコアリングが使用可能となる。多段クエリ処理システムの1つ以上の段階で、1セットの関連性スコアが、順序付きリストとしてユーザに提示するための1サブセットのドキュメントを選択するのに使用される。その1セットの関連性スコアは、多段クエリ処理システムの前の段階で判断された1セット以上の関連性スコアから、一部導き出され得る。いくつかの実施形態においては、多段クエリ処理システムは、ユーザクエリで2つ以上のパスを実行することと、順序付きリスト内のドキュメントの関連性を向上させるために、それぞれのパスからの情報を使用して、その後のパスで使用するユーザクエリを拡張することとが可能である。
図全体を通じて、対応する部品には同様の参照符号が付されている。
実施形態の説明
システム概説
図1は、情報検索システム100の実施形態を示すブロック図である。情報検索システム100は、ドキュメント処理システム102とクエリ処理システム104とを含む。情報検索システム100は、クエリに応答して情報を検索することが可能な、任意のシステムであり得る。これは、インターネット(たとえば、ワールドワイドウェブを介する)又はイントラネットなどの1つ以上のネットワークで、又は(たとえば、ファイル、電子メール、アプリケーションなどの)ユーザのコンピュータで局所的に、明示的な又は非明示的なドキュメントのサーチを遂行するための1つ以上のコンピュータシステムを含むが、これらに限定されるものではない。用語「ドキュメント」とは、ドキュメント、ウェブページ、Eメール、特定用途向けドキュメント及びデータ構造、インスタントメッセージング(IM)メッセージ、オーディオファイル、ビデオファイル、及び1つ以上のコンピュータシステムに常駐する他の任意のデータ又はアプリケーションを意味することに留意されたい。
ドキュメント処理システム
ドキュメント処理システム102は、一般に、1つ以上のドキュメントレポジトリ106と、レキシコンジェネレータ(lexicon generator)108と、符号化/復号化システム110と、トークンスペースレポジトリ112とを含む。符号化/復号化システム110は、1つ以上のドキュメントレポジトリ106からドキュメントを検索し、そのドキュメントを構文解析(parse)してトークンを得て、レキシコンジェネレータ108からのマッピングを使用して、そのトークンを圧縮形式に符号化し、次いで、その符号化されたトークンをトークンスペースレポジトリ112内に格納する。
「トークン」は、ドキュメント内で通常見られる、任意のオブジェクトであり得る。これは、用語、成句、区切り、HTMLタグなどを含むが、これらに限定されるものではない。1セットのドキュメントは、構文解析された後、トークンシーケンスとして表される。さらに、トークンシーケンス内のそれぞれのトークンが、トークン位置を有し、これは、1セットのドキュメント内のトークンの位置をも表す。たとえば、1セットのドキュメント内の第1のトークンには0の位置が割り当てられ、1セットのドキュメント内の第2のトークンには1の位置が割り当てられるなどのように続いていく。
いくつかの実装形態においては、ドキュメントを復号するのに使用されるコンピュータとは完全に異なるセットのコンピュータが、ドキュメントを符号化するのに使用されることに留意されたい。たとえば、ウェブクローリングシステムが、ドキュメントを符号化するドキュメント処理システム102を含み、クエリ処理システム104が、符号化されたドキュメントの選択された部分を復号することがある。このような実装形態においては、ドキュメント処理システム102によって構築(build)されたドキュメント逆インデックス及びトークンスペースレポジトリ112、又はそのコピーが、クエリ処理システム104によって使用される。
レキシコンジェネレータ108は、ドキュメントを構文解析することにより、1セットのドキュメントを符号化するのに使用されるマッピングを生成する。レキシコンジェネレータ108によって作成された第1のマッピングは、本明細書においては、グローバルレキシコンと呼ばれる。これは、セットドキュメント内のすべての互いに異なるトークン(本明細書においては、ユニークトークンと呼ばれる)を識別し、グローバルトークン識別子をそれぞれのユニークトークンに割り当てる。レキシコンジェネレータ108によって作成された第2のマッピングは、実際には、マッピングのシーケンスであり、そのそれぞれが、本明細書においては、ミニレキシコンと呼ばれる。それぞれの各ミニレキシコンは、1セットのドキュメント内の位置の各範囲を符号化し、復号するためにのみ使用される。グローバルレキシコン及びミニレキシコンの生成及び使用について、以下により詳細に説明する。
クエリ処理システム
クエリ処理システム104は、符号化/復号化システム110に結合された1つ以上のクエリプロセッサ114と、トークンスペース逆インデックス116とを含む。トークンスペース逆インデックス116は、1セットのドキュメント内のすべてのGTokenIDを、ドキュメント内のそれらの位置にマッピングする。概念的には、逆インデックス116は、それぞれのGTokenIDのためのトークン位置のリストを含む。効率化のために、それぞれのGTokenIDのためのトークン位置のリストは、逆インデックスによって占有されるスペースの量を減少させるよう符号化される。
いくつかの実施形態においては、1つ以上のクエリプロセッサ114は、クエリを構文解析して、1つ以上のクエリプロセッサ114によりクエリ表現(たとえば、ブーリアンツリー表現)に変換される多くのクエリ用語を得る。クエリ用語は、図4について詳しく記載するように、トークン位置を検索するために、トークンスペース逆インデックス116に索引を付けるのに使用される。いくつかの実施形態においては、トークン位置は、図5について記載するように、多段クエリ処理システムにおいて、クエリに関連するドキュメントをスコアリングするのに使用される。クエリプロセッサ114は、クエリ用語に応答して、1つ以上の通信モード(たとえば、ディスプレイデバイス、オーディオなど)を介してユーザに提示される、ドキュメントの順序付きリストを生成する。
レキシコンジェネレータ
図2は、図1のレキシコンジェネレータ108の実施形態を示す概念ブロック図である。レキシコンジェネレータ108は、グローバルレキシコンビルダ202とミニレキシコンビルダ204とを含む。
グローバルレキシコンビルダ
グローバルレキシコンビルダ202は、ドキュメントレポジトリ106からドキュメントを検索し、ユニークなグローバルトークン識別子(GTokenID)をドキュメント内に含まれているそれぞれのユニークトークンに割り当てることによりグローバルレキシコン206を生成する。いくつかの実施形態においては、ドキュメントレポジトリ106は、(時にパーティションと呼ばれる)多くの部分に論理的に又は物理的に分けられ、それぞれのパーティションについて、別個のグローバルレキシコン206が生成される。一実施形態においては、数十億のドキュメントの1セットが数千のパーティションに分割され、そのそれぞれが処理されて、グローバルレキシコン206を生成する。代表的なグローバルレキシコン206が、数百万のユニークトークンを含み得る。
いくつかの実施形態においては、符号化されるべき1セットのドキュメント(たとえば、1つのパーティション内のドキュメント)が、1つ以上の基準に従ってソートされ、その後、そのドキュメントが構文解析されてトークンが得られ、そのトークンが処理される。ドキュメントをこのようにソートすることにより、トークン化されたドキュメントの効率的な符号化が容易となり得る。何故なら、同様のセットのワードを使用するドキュメントが、その1セットのドキュメント内の互いの近くに位置決めされるからである。この結果、それぞれのミニレキシコン(以下に記載する)が、平均して、1セットのドキュメントの、通常より大きい部分をカバーする。より具体的には、ドキュメントを符号化することにより、より少ないスペースしか占有されなくなる。一実施形態においては、1セットのドキュメントは、まず言語によってソートされ、次いで、それぞれの言語のドキュメントが、URLのホスト名部分のフィールドを逆順に用いてURLによってソートされる。たとえば、言語によってソートされた後、すべてのフランス語のドキュメントはグループ化され、次いで、そのフランス語のドキュメントは、URLによってソートされる。URLによってソートする場合、それぞれのURLは、最初、h1.h2...hy.hz/nl/n2...のパターンを有する。ここで、h1.h2...hy.hzは、URLのホスト名部分を有し、/n1/n2は、URLの残りの部分を表す。URLは、URLによってソートされる前に、パターンhz.hy...h2.h1/n1/n2...に再マッピングされる。たとえば、URL「www.google.com/about.html」は、「com.google.www/about.html」に再マッピングされる。URLによってソートされる前に、URLのホスト名フィールドを逆順にすることにより、ドキュメントは、互いに近い論理に従ってソートされる。したがって、(特定の言語のための1群のドキュメント内の)同様のタイプのドキュメントがグループ化され、それぞれのドキュメントタイプの1群のドキュメント内では、それぞれのウェブサイトのドキュメントがグループ化され、それぞれのウェブサイトのドキュメント内では、ウェブサイトの様々なブランチのためのドキュメントがグループ化されるなどのように続いていく。
いくつかの実施形態においては、ドキュメントは、1つ以上のクラスタ化技術を使用して順序付けられる。ドキュメント内に含まれている用語、ワード、又は成句が、ドキュメントを様々な概念に関係するクラスタに編成するのに使用され得る。たとえば、ドキュメントについての一般的な情報(たとえば、識別されたドキュメントに埋め込まれた或いは関連付けられたメタデータ)、識別されたドキュメントからサンプリングされたコンテンツ、及び/又はドキュメントについてのカテゴリ情報が、ドキュメントを順序付けるのに使用され得る。
いくつかの実施形態においては、ドキュメントを構文解析している間、グローバルレキシコンビルダ202は、1セットのドキュメント内のそれぞれのユニークトークンの発生数などの、それぞれの識別されたユニークトークンについての情報(図2に図示せず)、及び、(あれば)そのユニークトークンに関連付けられた言語を格納する。ユニークトークンに関連付けられた言語は、そのトークンが見つかったドキュメントに関連付けられた言語に基づいて判断されることがある。特定のトークンがより多くの言語に関連付けられたドキュメント内で見つかった場合には、そのトークンに関連付けられた言語は、任意の好適な方法を使用して判断されることがある。1つの好適な方法は、ユニークトークンを識別するために1セットのドキュメントを構文解析する場合に使用される、統計的な方法である。それぞれのトークンが、最初、見つかった第1のドキュメントの言語に割り当てられ、次いで、そのトークンに割り当てられた現在の言語以外の言語のドキュメント内で発生するトークンのそれぞれのその後の発生について、そのトークンは、0と1との間でランダムに(又は擬似ランダムに)選択された数が1/N未満である場合にのみ、他の言語に再び割り当てられる(ここで、Nは、トークンの現在の発生カウント数である)。他の実施形態においては、任意の同様の、或いは好適な言語割当てメカニズムが、言語をそれぞれのユニークトークンに関連付けるのに使用され得る。いくつかの実施形態においては、言語は、区切り記号を表すユニークトークンに関連付けられない。さらに別の実施形態においては、言語があらゆるユニークトークンに関連付けられるが、N(たとえば、256)個の最も頻繁に発生するトークンを処理する場合には、言語の関連付けは無視される。この結果、区切りトークンに関連付けられた言語は、効果的に無視される。
いくつかの実施形態においては、ユニークトークンのリスト、及び関連付けられた頻度及び言語情報は、ユニークトークンの発生頻度に基づいてソートされる。次いで、エントリは、任意に、1セットのドキュメントの、スペース効率の良い符号化を容易にするようさらにソートされ得る。たとえば、一実施形態においては、すべてのユニークトークンが、まず発生頻度によってソートされる。次いで、この結果生じたユニークトークンのソートリストが、バンドに分割される。たとえば、トップバンドであるバンド0は、トップの255又は256のトークン(即ち、最高頻度のカウント数のトークン)を有することがある。第2のバンドであるバンド1は、バンド0内のトークンを除く、トップ214(即ち、65,536)のトークンを有することがある。第3のバンドであるバンド2は、ユニークトークンのソートリスト内の次の214(即ち、65,536)のトークンを有することがある。勿論、他の実施形態においては、それぞれのバンド内のトークンの数が異なることがある。次に、それぞれのバンド内のトークンが、第2のセットの基準に従ってソートされる。たとえば、一実施形態においては、第1のバンド内のトークンは、アルファベット順に、つまり数値又はアルファベット値によってソートされる。他のバンドのそれぞれは、まず言語によって、次いでアルファベット順にソートされる。この結果、バンド0以外のそれぞれのバンド内のソートされたトークンは、言語によってグループ化され、それぞれの言語グループ内では、トークンがアルファベット順にソートされる。他の実施形態においては、バンドのそれぞれにおいてユニークトークンをソートするために、他のソート基準が使用されることがある。
ソートプロセスでは、それぞれがリスト内の各位置を有する、ユニークトークンのソートリストを作成する。次いで、それぞれのソートされたユニークトークンに、ユニークなグローバルトークン識別子(以下、「GTokenID」とも呼ぶ)が割り当てられる。GTokenIDは、ドキュメント処理システム102を実装するのに使用されるプラットフォームに応じて、任意の好適なデータタイプ及び幅を含み得る(たとえば、32ビットの符号のない整数)。いくつかの実施形態においては、GTokenIDは、ソートされたユニークトークンに増加順に割り当てられるので、高頻度のトークンには小さい値のGTokenIDが割り当てられ、低頻度のトークンには大きい値のGTokenIDが割り当てられる。より具体的には、一実施形態においては、トークンのソートリスト内のそれぞれのトークンには、そのユニークトークンのソートリスト内の数値位置に等しい32ビットのグローバルトークン識別子が割り当てられる。したがって、リスト内の第1のトークンには、0(即ち、16進法では00000000)に等しいGTokenIDが割り当てられ、リスト内の第2のトークンには、1に等しいGTokenIDが割り当てられるなどのように続いていく。この結果生じた、GTokenIDのユニークトークン値への1セットのマッピングは、本明細書においては、グローバルレキシコン206と呼ばれる。いくつかの実施形態においては、グローバルレキシコン206は、実際には2つのマッピング構造を有し、その1つはGTokenIDをトークンにマッピングし、別のものはトークンをGTokenIDにマッピングする。トークンのGTokenIDへのマッピングは、符号化プロセス中に使用され、GTokenIDのトークンへのマッピングは、ドキュメントの一部分を復号する場合に使用される。
以下に詳しく説明するように、頻度に基づいてユニークトークンを順序付けることは、ミニレキシコン208を格納するのに必要なスペースの量を減少するのに役立つ。このことは、ユニークトークンのバンドが発生頻度以外の基準に基づいてソートされる実施形態にも当てはまる。何故なら、より低いGTokenIDに割り当てられたバンド内のトークンは、より高いGTokenIDに割り当てられたバンド内のトークンより高い発生頻度を有するからである。
いくつかの実施形態においては、HTMLタグ及び区切りなどの平均的なトークンより頻繁に発生する「特別な」トークンに、グローバルレキシコン206内のGTokenIDの接頭部205の部分(prefix 205 portion)を占有するGTokenIDが割り当てられる(たとえば、GTokenID−GTokenIDN−1)。他のすべてのGTokenIDが、接頭部205に割振られた最後の特別なGTokenIDによってオフセットされ得る。
上記の説明においては、GTokenIDは、32ビットの符号のない整数値などの、固定長値として記載されている。しかし、これらの同じGTokenIDは、可変長識別子として考えることもできる。何故なら、GTokenIDが格納されるよう符号化された場合には、ゼロに等しい最上位のバイト(又はビット)が、符号化中に切り捨てられる又はマスクされることがあるからである。たとえば、いくつかの実施形態においては、2未満の値を有するすべてのGTokenIDは1バイト値として符号化され、216未満の値を有するすべてのGTokenIDは2バイト値として符号化され、224未満の値を有するすべてのGTokenIDは3バイト値として符号化される。このようにして、1セットのドキュメント内で最高の発生頻度を有するトークンが、より低い発生頻度を有するトークンより短い長さのGTokenIDによって表される。
以下に記載する実施形態においては、トークンスペースレポジトリには、可変長GTokenIDではなく、固定長LTokenIDが存在する(is populated)。しかし、トークンスペースレポジトリ内のLTokenIDを再び元のトークン(勿論、これも可変長である)にマッピングする場合、多数の「ミニレキシコン」を格納する必要があり、ミニレキシコンのコンテンツは、GTokenIDを有する。ミニレキシコンを効率的に格納するために、それぞれのミニレキシコン内のGTokenIDが可変長値として扱われることがある。代替形態として、それぞれのミニレキシコン内のGTokenIDが、まずデルタ符号化されるリストとして扱われ、次いで、この結果生じたデルタ値が、可変長符号化スキームを使用して符号化される。
ミニレキシコンビルダ
グローバルレキシコン206が生成された後、1セットのミニレキシコン208が、符号化/復号化システム110によって使用されるミニレキシコンビルダ204によって生成される。ミニレキシコン208内のそれぞれのエントリが、GTokenIDとこれに対応するローカルトークン識別子(LTokenID)とを含む。それぞれのエントリのためのLTokenIDは、ミニレキシコン208内のエントリの位置によって暗黙に定義されるので、明示的に格納される必要がない。それぞれの各ミニレキシコン208は、トークン化されたドキュメント内の、互いに異なる各特有の範囲のトークン位置を符号化し、復号するためにのみ使用されるので、同じセットのLTokenIDをそれぞれのミニレキシコン208によって使用することが可能となる。たとえば、ミニレキシコンビルダ204がドキュメントを通じて構文解析する時に出会う最初のP個のユニークトークンのために、P(たとえば、256)エントリを有する第1のミニレキシコン208(たとえば、ミニレキシコンA)が生成される。最初のP個のユニークトークンに出会うと、第1のミニレキシコン208が有効であるトークン位置の範囲のための、開始トークン位置、Start_Posを含む、「有効範囲マップ(valid range map)」210の第1のエントリが作られる。第1のミニレキシコン208内のP個のLTokenIDのそれぞれが、ユニークなGTokenIDに割り当てられる。LTokenIDのすべてがGTokenIDに割り当てられた場合には、第2のミニレキシコン208(たとえば、ミニレキシコンB)が、ミニレキシコンビルダ204が出会う次のP個のユニークトークンのために生成され、第2のミニレキシコン208が有効である位置の範囲の、開始トークン位置、Start_Posを含む、有効範囲マップ210の第2のエントリが作られる。したがって、Start_PosからStart_Pos−1までの範囲内に入るトークン化されたドキュメント内の位置を有するトークンが、図2に示されているように、ミニレキシコンBを使用して復号され得る。
具体例を示すために、一実施形態においては、それぞれのミニレキシコン内のLTokenIDは、0〜255の値を有し、それぞれが8ビットの符号のない整数で表され、GTokenIDは、32ビットの符号のない整数である。第1のミニレキシコンが、トークン位置0から開始して、予め定義された数P(たとえば、256)の互いに異なるトークンが識別されるまで、1セットのドキュメントを走査することによって生成される。P個の互いに異なるトークンのためのGTokenIDは、リストに集められる(assembled in a list)。いくつかの実施形態においては、リスト内のGTokenIDは、リストのトップに最小のGTokenIDがくるように、数値によってソートされる。次いで、LTokenIDは、リスト内のGTokenIDの位置に従って、リスト内のGTokenIDに割り当てられる。たとえば、リスト内の第1のGTokenIDには、0のLTokenIDが割り当てられ、リスト内の次のGTokenIDには、1のLTokenIDが割り当てられるなど、と続いていく。この結果生じた、LTokenIDのGTokenIDへのマッピングは、ミニレキシコン208と呼ばれる。Start_PosからStart_Posへのトークン位置の範囲は、ミニレキシコンに関連付けられる。第2のミニレキシコンが、第1のミニレキシコンに関連付けられた最後の位置の直後の位置Start_Posから開始して、1セットのドキュメントを走査することによって生成される。走査は、予め定義された数Pの互いに異なるトークンが識別されるまで継続する。この時点で、第2のミニレキシコンが、上述したのと同じプロセスを使用して生成される。ミニレキシコンビルダ204は、引き続き、ドキュメント内のすべてのトークンがミニレキシコン208にマッピングされるまで、1セットのドキュメント内のトークン位置の次の範囲のために、ミニレキシコン208のシーケンスを生成する。
代替実施形態においては、それぞれのミニレキシコン208内の最初のF個のLTokenIDは、1セットのドキュメント内の、F個の最も普及しているトークンのために予約される。これらのF個のLTokenIDについて、LTokenIDは、常にGTokenIDに等しい。この割当てスキームにより、ドキュメントの速い復号化が容易となる。(F−1)以下の値を有する(トークンスペースレポジトリ内の)LTokenIDが復号される時はいつでも、LTokenIDをこれに対応するGTokenIDにマッピングする必要なく、グローバルレキシコンに従って直接トークンにマッピングすることができる。
同じセットのLTokenID(たとえば、0〜255)が、それぞれのミニレキシコン208内で使用される。ドキュメントの圧縮を容易にするために、LTokenIDは、GTokenID(たとえば、4バイト)より小さい幅(たとえば、1バイト)を有する。これらの幅の差(たとえば、3バイト)は、トークン化されたドキュメントをトークンスペースレポジトリ112内に格納するのに使用される、トークン毎のバイト数の減少を表している。それぞれのLTokenIDが1バイトを占有する実施形態においては、10億のトークンを有する1セットのドキュメントは、他のサポーティングデータ構造(supporting data structures)(本文書において、後に記載する)によって占有されるスペースを無視すれば、トークンスペースレポジトリ112内の10億バイト(1GB)を占有する。
ミニレキシコン208を生成するプロセスが完了した場合には、トークン化されたドキュメント内のあらゆるトークンが、そのトークン化されたドキュメント内のその位置に基づいてミニレキシコン208に関連付けられる。トークンが1つ以上の位置範囲内に発生した場合、トークン化されたドキュメント内のそれぞれのユニークトークンが1つ以上のミニレキシコン208に関連付けられることがあることに留意されたい。一実施形態においては、平均的なドキュメントは約1100のトークンを有し、平均的なミニレキシコン208は、約1000のトークンにまたがる。
それぞれのミニレキシコン208が生成された後、1セットのドキュメントのこれに対応する部分のトークンが、符号化/復号化システム110によりLTokenIDにマッピングされ、その後の検索のためにトークンスペースレポジトリ112に格納される。このマッピングにより、ドキュメントレポジトリ106内のあらゆるトークンが、トークンスペースレポジトリ112内の固定長(たとえば、1バイト)のLTokenIDにマッピングされる。したがって、復号化/復元中に、トークンスペースレポジトリ112内の1つのトークン位置から別のトークン位置にジャンプすることができ、テーブル又はこれに相当するデータ構造をスキップする必要がない。そのようなスキップは、復号化プロセスの速度を下げる恐れがある。
いくつかの実施形態においては、ミニレキシコン208は、圧縮形式に符号化され、ドキュメントの再構築が必要となるまで、格納される。一実施形態においては、それぞれのミニレキシコン208内のGTokenIDのソートリストはデルタ符号化され、次いで、この結果生じたデルタ値のリストが、圧縮形式に、好ましくはミニレキシコンの速くかつ効率的な復号化及び再構築を容易にする形式に符号化される。好適なデータ構造及び符号化/復号化方法が、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、同時係属中の米国特許出願第10/917,745号明細書(2004年8月13日出願)に記載されている。
特定のドキュメントを復元するために、そのドキュメントのためのトークン位置の範囲に関連付けられたミニレキシコン208が復元され、ミニレキシコン208のエントリから構築された翻訳テーブル又はマッピングが得られる。このマッピングは、LTokenIDをこれに対応するGTokenIDに翻訳する。したがって、トークンスペースレポジトリ112内のトークン化されたドキュメントを復号することが、そのドキュメント用のトークンスペースレポジトリ112内に格納されている固定長LTokenIDを読み取り、そしてLTokenIDをこれに対応するGTokenIDに翻訳するためにドキュメント内のそれぞれのトークン位置のためのミニレキシコンにアクセスすることによって、達成される。次いで、GTokenIDは、グローバルレキシコン206を使用して、これに対応するトークン(たとえば、テキスト及び区切り)にマッピングされ、これにより、ドキュメントのすべて又は一部分が再構築される。
符号化システム
図3Aは、トークンスペースレポジトリのためのドキュメントを符号化するための符号化システム300の実施形態を示すブロック図である。符号化システム300は、オプションとしてのプリプロセッサ302と、オプションとしてのデルタエンコーダ304と、可変長データエンコーダ306とを含む。可変長データは、整数、文字列、浮動小数点数、固定小数点数などの様々なデータタイプを制限することなく含み得る。可変長データは、テキスト、画像、図形、オーディオサンプルなどを含むが、これらに制限されるものではない。
いくつかの実施形態においては、情報のリストがプリプロセッサ302によって受信され、プリプロセッサ302は、効率的な符号化のために情報を順序付ける。プリプロセッサ302は、1つ以上のソートアルゴリズムを使用して、データを単調なシーケンスに順序付けることがある。たとえば、1セットの整数が値によってソートされた場合、隣接する整数の大きさが接近し、したがって、デルタエンコーダ304が、符号化するために小さい値の整数であるデルタ値を生成することが可能となる。順序付けられたデータは、デルタエンコーダ304によって受信され、このデルタエンコーダは、順序付けられたデータの隣接する対の間の差を計算し、小さい値の整数を得る。小さい値の整数は、可変長データエンコーダ306によって受信され、この可変長データエンコーダは、データを効率的に復号され得る圧縮形式に符号化する。好適な可変長データエンコーダ306の一例が、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、同時係属中の米国特許出願第10/917,745号明細書(2004年8月13日出願)に詳しく記載されている。
ドキュメント処理システム102によって生成された様々な情報は、符号化システム300のすべて又は一部を使用して符号化され得る。いくつかの実施形態においては、それぞれのミニレキシコン208内のGTokenIDは、大きさの最も近い整数値がデルタ符号化されることを確実にするよう、プリプロセッサ302を使用してソートされる。次いで、順序付けられたGTokenIDが、デルタエンコーダ304によってデルタ符号化され、差値又は残値が提供される。次いで、その差値が、可変長データエンコーダ306を使用して、圧縮形式にグループ(たとえば、4つの値のグループ)で符号化される(encoded in groups)。いくつかの実施形態においては、図4について詳しく記載するように、逆インデックス内のトークン位置のリストも同様に、速くかつ効率的な位置の復号化が容易となるように符号化される。
可変長データエンコーダ306は、速くかつ効率的な復号化を容易にする圧縮形式を提供するが、他の公知の符号化スキームも、情報のリストを圧縮するために、ドキュメント処理システム102において使用され得る(たとえば、CCITT−G4、LZWなど)。
復号化システム
図3Bは、トークンスペースレポジトリ内のドキュメントを復号するための復号化システム308の実施形態を示すブロック図である。復号化システム308は、可変長データデコーダ310と、オプションとしてのデルタデコーダ312とを含む。いくつかの実施形態においては、符号化されたグループのデータが、可変長データデコーダ310によって受信される。可変長データデコーダ310は、1つ以上のオフセット/マスクテーブルの利用して、グループを復号する。復号されたデータは、デルタデコーダ312によって受信され、デルタデコーダ312は、ランニングサム(running sum)を計算し、これにより、元の情報のリストに相当する、デルタ復号されたデータが作成される。グループ符号化された可変長整数値を復号する際にオフセット/マスクテーブルを使用することが、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、同時係属中の米国特許出願第10/917,745号明細書(2004年8月13日出願)に詳しく記載されている。
属性符号化/復号化システム
図3Cは、ドキュメント属性を符号化する/復号するための属性符号化/復号化システム314の実施形態を示すブロック図である。属性符号化/復号化システム314は、符号化/復号化システム320を含む。符号化/復号化システム320は、属性情報322を符号化し、属性テーブル316内に格納するための属性レコード318を得る。ドキュメントの属性はトークン毎に判断され、0又は1ビット値が、所与のトークンのそれぞれの属性の有無を表すのに使用される。たとえば、属性テーブル内の属性レコード318が、A×Kビットマップとして概念的に表されることがある。ここで、Aは符号化された属性の数であり、Kはその属性がレコード318によって表されたトークンの数である。次いで、Aが8であり、Kが32である場合、それぞれの属性レコード318は、32のトークンのそれぞれについて8つの属性を格納する。それぞれの属性レコード318が、属性テーブルによって占有されるスペースの量を圧縮するように、また、クエリ処理中に、選択された属性レコードを非常に速く復号することが可能となるように、符号化される。属性レコード318を符号化する及び復号するための1つの好適な方法が、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、同時係属中の米国特許出願第10/917,745号明細書(2004年8月13日出願)に記載されている。代替形態として、それぞれの属性レコード内の情報は、ランレングス符号化されることがある。
属性テーブル316内に記録された1セットの属性は、1つ以上のフォント属性(たとえば、太字、下線付きなど)と、1つ以上のドキュメント位置属性(たとえば、タイトル、ヘッディング)と、メタデータと、1セットのドキュメント内のトークンの間を区別するのに使用され得る他の任意の機能又は特性を含み得る。いくつかの実施形態においては、上述したように、1セットのドキュメント内のトークンの属性は、トークン化されたドキュメントが符号化され、トークンスペースレポジトリ内に格納されるのと同時に、識別され符号化される。符号化された属性は、図5について詳しく記載するように、関連性スコアリングの1つ以上の段階において使用される。
ドキュメントレポジトリの符号化及び復号化システム−第2の実施形態
図8A及び図8Bは、トークン化されたドキュメントのコレクション(「トークンスペースレポジトリ」)が、上述した方法とはやや異なる方法で符号化される実施形態を示すブロック図である。上述したように、グローバルレキシコンビルダ202が、1セットのドキュメント106をトークン化し、すべてのユニークトークンを識別し、グローバルトークン識別子をすべてのユニークトークンに割り当てる。その結果がグローバルレキシコン206である。次に、(トークン化された)1セットのドキュメントが、領域レキシコンビルダ804によって処理される。概念的には、1セットのドキュメントは、領域820に分割され、それぞれの領域820がブロック822に分割される。領域レキシコンビルダ804は、それぞれの領域のための「レキシコン」又はディクショナリ830を構築し、符号化システム810が、それぞれの領域の1セットの符号化されたトークン832、さらに、それぞれの領域の1セットのブロックオフセット834を生成する。領域レキシコン830、符号化されたトークン832、ブロックオフセット834(次に、このそれぞれについてより詳細に記載する)が共に、1セットのドキュメントの各領域820の符号化された表現(representation)を形成する。
一実施形態においては、1セットのドキュメントは領域820に分割され、そのそれぞれ(おそらく最後の領域を除いて)が、8192のトークン(又は他の任意の適切なサイズ)などの、所定の固定サイズを有する。領域820のそれぞれのブロック822も、64のトークン(又は他の任意の適切なサイズ)などの、予め定義された固定サイズを有する。
一実施形態においては、各領域820のための「レキシコン」830は、最高の繰り返し速度を有する最長のトークンシーケンスの順序付きリスト(an ordered listing of the longest sequences of tokens having the highest repeat rates)、又は任意の同様の構造である。レキシコン830は、領域内の候補トークンストリングのテーブルを構築し、領域内のそれらの繰り返しカウント数を判断し、次いで、最大のレキシコンサイズに到達するまで最良の候補を選択することによって、構築されてもよい。例示的実施形態においては、最大のレキシコンサイズは、64のトークンであるが、他の実施形態においては、他の任意の適切なサイズ限度が使用されることがある。次に記載するように、レキシコン830は、各領域820のブロック822のそれぞれを符号化するためのコンテキストとして使用され、領域の非常に圧縮された表現を可能とする。いくつかの実施形態においては、領域レキシコン830の1つ以上が、たとえば、本文書の上記で言及した、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、米国特許出願第10/917,745号明細書(2004年8月13日出願)に記載されている符号化方法を使用して、圧縮形式に符号化されることがある。
図9A及び図9Bについて述べると、一実施形態においては、符号化システム810は、以下の通り、トークンのそれぞれのブロック822を符号化する。対応する領域のレキシコン830は、そのブロックのトークンの直前に先行する、1セットのトークンとして扱われる。そのブロックのトークンは、各トークン及びできる限り多くのその後のトークンと、先行するトークンシーケンス(レキシコン830を含む)内の最も長く一致するトークンシーケンスとを突き合わせながら、最初から最後へと順に処理される。一致する先行シーケンスが見つかった場合には、「コピーコード」が生成される。見つからなかった場合には、そのトークンを表すために「リテラルコード」が生成される。次いで、現行コードによってカバーされるすべてのトークンが、そのブロック内の(あれば)次のトークンのその後の処理のための、先行トークンとして扱われる。図9Bに示されているように、ブロック内の1セットのトークンを表すそれぞれの「コード」が、タイプフィールド902を含むことがある。コードが「リテラルコード」である場合、そのコードの第2の部分904は、グローバルトークン識別子を表す。いくつかの実施形態においては、このタイプフィールド902は、グローバルトークン識別子を表すのに必要なビット数を示す。たとえば、一実施形態においては、タイプコード902は、それぞれが対応するグローバルトークン識別子長を有する、最大7つの互いに異なるリテラルコードを示し得る。他の実施形態においては、互いに異なるタイプコードの数は、8より多い場合もあれば少ない場合もある(たとえば、1つがコピーコードを示し、残りがリテラルコードを示す)。リテラルコードが「コピーコード」である場合、そのコードの第2の部分906は、ポインタ908と長さ910とを含むことがある。ここで、ポインタ908は、先行テキスト内のどこで開始すべきかを示し、長さ910は、一致するシーケンスの長さ(即ち、復号化中にコピーされるトークンの数)を示す。したがって、場所31で現在の位置に先行するトークンから開始して、たとえば4つのトークンの一致するシーケンスが、符号化システム810によって見つかった場合、このシーケンスのためのコードは、
<type=copy,ptr=31,length=4>
となる。
(ビットで測定される)コピーコードの長さは、領域レキシコン830の最大トークン長及びブロックの最大トークン長と、一致するシーケンスの最大許容長と、互いに異なるコードの数とに依存する。一例においては、タイプフィールド902は3ビット(8タイプコードが可能となる)であり、ポインタフィールド908は7ビット、長さフィールド910は2ビットであり、全部で12ビットである。他の実施形態においては、コピーコードのそれぞれのフィールドの他のビット長が使用されることがある。(ビットで測定される)それぞれのリテラルコードの長さは、リテラルコードのタイプによって指定される。
再び図8Bについて述べると、符号化システム810は、領域のブロックを符号化する時に、1セットのブロックオフセット834を生成する。ブロックオフセット834は、領域のそれぞれのブロックの符号化されたトークンの場所を示す。一実施形態においては、領域の第1のブロックのブロックオフセットは、トークンレポジトリに対するポインタであり、領域のための他のブロックオフセットのそれぞれは、領域内の第1のブロックの開始位置に対する相対オフセットである。一実施形態においては、領域レキシコン830及びブロックオフセット834は、固定領域サイズによって分割された領域820の開始位置に従って索引が付けられた、テーブル又はこれに相当するデータ構造内に格納される。別の観点からは、それぞれの領域820に領域番号が割り当てられ、かかる領域番号は、固定領域サイズによって分割された場合の領域の開始位置を含む。領域レキシコン830及びブロックオフセット834が格納されているデータ構造には、領域番号によって索引が付けられる。
領域820のブロック822を復号することが、これに対応する領域の領域レキシコン830の位置を突き止めることと、領域のためのブロックオフセット834を使用して、符号化されたブロックの位置を突き止めることと、次いで、グローバルトークン識別子のシーケンスを作成するために、そのブロックの1セットのコードを復号することとによって、達成される。次いで、この結果生じたグローバルトークン識別子のシーケンス又はその任意のサブセットは、グローバルレキシコン206を使用して、対応する1セットの記号又は用語に転換することができる。
クエリ処理システム
図4は、トークンスペースレポジトリと共に使用されるクエリ処理システム104の第1段階の実施形態を示すブロック図である。クエリ処理システム104は、グローバルレキシコン402と、トークンスペース逆インデックス408と、第1段階ルックアップテーブル406と、第2段階ルックアップテーブル410とを含む。クエリ用語又はストリングが、グローバルレキシコン402によって受信され、グローバルレキシコン402は、グローバルレキシコン402のエントリから構築された翻訳テーブル又はマッピングを使用して、クエリ用語をGTokenIDに翻訳する。GTokenIDは、逆インデックス408によって受信される。逆インデックス408は、GTokenIDを逆インデックス408内に格納されているインデックスレコード412にマッピングするためのマップ404を含む。マップ404を使用して識別されるそれぞれのインデックスレコード412は、トークンスペースレポジトリ112内のトークン位置に直接対応する、トークン位置のリストを含む。いくつかの実施形態においては、逆インデックス408は、グローバルレキシコンが生成された後に生成され、ミニレキシコンを生成するのに使用されるのドキュメントを介して同じパス中に(during the same pass through the documents that is used to generate the mini-lexicons)生成されることがある。
いくつかの実施形態においては、逆インデックス408は、第1段階ルックアップテーブル406に、インデックスとして使用され得る位置のリストを提供する。クエリが多くの用語を含む場合には、多くの位置のリストが、逆インデックス408によって作成される。位置のリスト内のそれぞれの位置に対応するエントリのためにDocIDマップ410全体をサーチしなければならないことを回避するために、第1段階ルックアップテーブル406は、トークンスペースレポジトリ内のそれぞれの位置のブロックに対する(for each block of positions in the tokenspace repository)、1つのエントリを有する。たとえば、それぞれのブロックが、32,768位置のサイズを有し、それぞれのエントリが、対応する位置のブロックに対して、DocIDルックアップテーブル410内の第1のエントリに対するポインタを有することがある。したがって、第1段階ルックアップテーブル406は、位置のリストを、第2段階ルックアップテーブル410(これは、時にDocIDテーブル410と呼ばれる)内のドキュメント識別子(DocID)エントリ412の始点位置に翻訳する。代替形態として、テーブル406及び410は、合わせて、DocIDルックアップテーブルと呼ばれることがある。第2段階ルックアップテーブル410内のそれぞれのエントリ412は、DocID(ドキュメント識別子)と、対応するドキュメントのための開始レポジトリ位置とを含む。任意のドキュメント内の最後のトークンは、第2段階ルックアップテーブル内の次のエントリ412によって識別される開始位置の直前の位置である。DocIDのための始点位置Start_PosA−Zは、第2のルックアップテーブル410によって受信される。第2のルックアップテーブル410は、始点位置をクエリ用語のそれぞれのためのDocIDのリストに翻訳する。
いくつかの実施形態においては、第1段階クエリプロセッサは、結果セットを作成するためのロジック416を含む。DocIDのリストは、DocIDの結果セットを形成するために、クエリ又はクエリツリーによって指定されたブーリアン論理に従って、ロジック416によって併合される。ロジック416はまた、任意に、結果セット内のDocIDに対応するドキュメント内に置かれていないトークン位置を消去するために、トークン位置のリストにフィルタをかけることがある。さらに、スコア(時に、クエリスコアと呼ばれる)を結果セット内のそれぞれのDocIDに関連付けるために、DocID及びDocIDによって識別されたそれぞれのドキュメント内のトークン位置を使用して、スコアリング関数が結果セットに適用されることがある。
多段クエリ処理
図5は、トークンスペースレポジトリ524と共に使用される多段クエリ処理システム500の実施形態を示すブロック図である。いくつかの実施形態においては、クエリ処理システム500は、第1段階クエリプロセッサ510と、第2段階クエリプロセッサ514と、第3段階クエリプロセッサ518と、第4段階クエリプロセッサ520とを含む、クエリ処理及び関連性スコアを生成する4つの段階を含む。アプリケーションによって、より多くの又はより少ないクエリプロセッサ段階がシステム500において使用され得ることに留意されたい。それぞれの段階において、アプリケーションによって、ユーザに戻され得る及び/又は以前の段階で生成された関連性スコアと組み合わせられ得る、1セット以上の関連性スコアが計算される。
クエリ処理−段階I
第1段階クエリプロセッサ510については、図4において一般に記載した。クエリストリング502は、トークン化され、クエリパーサ504により構文解析され、クエリ用語が得られる(即ち、クエリ内のそれぞれの互いに異なる用語がトークンとして扱われる)。トークン化されたクエリ用語は、図2及び図4について上述したように、グローバルレキシコン508により、翻訳テーブル又はマッピングを使用して、対応するGTokenIDに翻訳される。ユーザは、ブーリアン、隣接演算子、又は近接演算子を含む、クエリストリング内の特別な演算子を用いることがあるので、システム500は、クエリを構文解析して、クエリ用語及び演算子を得る。これらの演算子は、予約区切り(たとえば、引用符)、又は特別な形式(たとえば、AND、OR)の予約用語の形態で発生することがある。自然言語処理(NLP)システムの場合には、演算子は、たとえどのように表現されていても(たとえば、前置詞、接続詞、順序付けなど)、使用される言語において非明示的に認識され得る。ストップワード(たとえば、「a」、「the」など)を削除する及び用語の余分なものを切り捨てる(即ち、ワードの接尾語を取り除く)などの、他のクエリ処理も、第1段階クエリプロセッサ510内に含まれることがある。
次に、GTokenIDのリストは、クエリエキスパンダ506によって処理される。クエリエキスパンダ506は、クエリストリング内で使用される任意の演算子(たとえば、ブーリアン式)を考慮するクエリツリー又は他のクエリ表示を生成する。任意に、クエリエキスパンダ506はまた、様々な方法でクエリを拡張することがある。たとえば、クエリ用語が、その用語及び1つ以上の同義語又はそのクエリ用語に関係する他の用語を含むサブツリーに転換されることがあり、サブツリー内の用語は、OR演算子又は親ノードにより互いに関係する。
以下により詳細に記載するが、いくつかの実施形態においては、クエリが、図5に示されているクエリ処理段階のシーケンスにより、一回以上処理される。(最後以外の)それぞれのパスで、追加のクエリ拡張用語が生成され(以下に説明する)、次いで、これらの追加用語がクエリツリーに追加される。クエリツリーはまた、スコアリングツリーとしても使用され、重みがクエリツリー内の用語に関連付けられる。拡張されたクエリツリーはまた、補足用語と用語のサブツリーとを含み得る。これらは、クエリに対応するドキュメント内に存在する必要はないが、クエリに対応するドキュメントの関連性をスコアリングする際に使用される。1つ以上のクエリ用語がある場合、サーチ結果を向上させるために、第1のパス中にクエリ用語のための重みが計算されることがある。
いくつかの実施形態においては、システム500を通る第1のパスで、ドキュメントコーパスからのドキュメントのランダムサンプルを処理する。ランダムサンプルのサイズは、1つ以上のより小さいランダムサンプルに基づいて選択され得る。かかる、より小さいランダムサンプルは、ドキュメントコーパス全体にわたってクエリにマッチするいくつかのドキュメントを予想するために、システム500によって使用され得る。他の実施形態においては、第1のドキュメントコーパス(たとえば、1セットのクエリセッション)が、システム500を通る第1のパスにおいて使用され、第2の異なるコーパスが、システム500を通る第2の又はその後のパスにおいて使用される。以前のセットのクエリセッションを使用することにより、システム500が、同様のクエリで一般に同時に用いられる(commonly co-occur in similar queries)他の関連用語を判断することが可能となる。これらの関連用語は、その後のパスのためにクエリを拡張するよう、クエリエキスパンダ506によって使用され得る。
第1段階クエリプロセッサ510は、クエリ用語を使用して、トークンスペース逆引きインデックス512をサーチし、クエリに一致するドキュメントを識別する。第1段階クエリプロセッサ510は、クエリツリー内の用語のトークン位置(トークンスペースレポジトリ位置とも呼ばれる)のリストを作成するために、逆インデックス512にアクセスし、そのトークン位置に対応するドキュメントのDocIDのセットを作成するために、DocIDマップ516にアクセスする。更に、第1段階プロセッサ510は、クエリに応答するDocIDのセットを生成するために、クエリ又はクエリツリーによって指定されたブーリアン論理を遂行する。いくつかの実施形態においては、第1段階クエリプロセッサ510はまた、1つ以上のスコアリングアルゴリズムに基づいて、クエリとそれぞれのドキュメントとの間の第1のセットの関連性スコアSを計算する。一般に、スコアリングアルゴリズムは、1つ以上のクエリ特徴に基づいて一致するドキュメントの関連性ランキングを提供する。クエリ特徴は、クエリ用語の有無、用語頻度、ブーリアン論理の充足性、クエリ用語の重み、ドキュメントの普及度(popularity)(たとえば、ドキュメントの重要度又は普及度又は相関度という、クエリとは無関係なスコア)、クエリ用語間の近接度、コンテキスト、属性などを含むが、これらに限定されるものではない。一実施形態においては、第1のセットの関連性スコアSは、クエリ用語の存在、用語頻度、及びドキュメントの普及度を含む、1セットの因子に基づく。
いくつかの実施形態においては、第1のセットの関連性スコアSは、順序付きリストとしてユーザに提示するためのドキュメントを選択するのに使用され得る。次いで、ユーザは、選択されたドキュメントに対する内部ポインタ(internal pointers)を単にクリックして、たどることができる。他の実施形態においては、第1のセットの関連性スコアSは、DocID及びこれに対応する位置と共に、さらなる処理のために第2段階クエリプロセッサ514に提供される。
クエリ処理−段階II
第2段階クエリプロセッサ514は、第1段階クエリプロセッサ510から、1セットのDocID、これに対応するドキュメントのトークンスペースレポジトリ位置のリスト、及び、第1のセットの関連性スコアSを受信する。第2段階クエリプロセッサ514は、その位置のリストを使用して、ドキュメント内で見つかったクエリ用語の近接度又は相対位置に基づく第2のセットの関連性スコアSを生成する。ドキュメント内でクエリ内の用語が互いの近くで発生した場合には、用語がより大きい距離を隔てて発生した場合に比べて、そのドキュメントがそのクエリに関連している可能性が高い。したがって、第2のセットの関連性スコアSは、クエリ用語が互いに隣接して又は密接して発生した場合、用語が距離を隔てて発生するドキュメントと比較して、ドキュメントをより高くランク付けするのに使用される。いくつかの実施形態においては、第2のセットの関連性スコアSは、ユーザに順序付きリストとして提示するための、トップX個のドキュメントを選択するのに使用され得る。次いで、ユーザは、選択されたドキュメントに対する内部ポインタを単にクリックして、たどることができる。いくつかの実施形態においては、第2のセットの関連性スコアSは、ユーザに提示するために及び/又は第3段階クエリプロセッサ518によってさらに処理するために、(第2のセットの関連性スコアSに従って順序付けられた)ドキュメントの順序付きリストを生成すべく、(たとえば、第2段階クエリプロセッサ514によって使用される追加のスコアリング因子に従ってスコアSを調整することにより)第1のセットの関連性スコアSから一部導き出される。
クエリ処理−段階III
いくつかの実施形態においては、図3Cについて上述したように、第2段階クエリプロセッサ514は、属性テーブル522内で符号化されている用語属性(たとえば、フォント属性、タイトル、ヘッディング、メタデータなど)を取り扱うために、第3段階クエリプロセッサ518に結合される。第3段階クエリプロセッサ518は、第2段階クエリプロセッサ514から、1セットのDocID、これに対応するドキュメントのためのトークンスペースレポジトリ位置のリスト、及び、第2のセットの関連性スコアSを受信する。代替形態として、第3段階クエリプロセッサは、第1のセットの関連性スコアS及び第2のセットの関連性スコアSを受信する。
いくつかの研究においては、ドキュメント内の用語の場所がそのドキュメントの重要性を示すことが示されている。たとえば、クエリ用語に一致するドキュメントのタイトルに発生する用語が、そのドキュメントの本体に発生するクエリ用語より重く重み付けされることがある。同様に、ドキュメントのヘッディングセクション又は第1のパラグラフに発生するクエリ用語は、そのドキュメント内のより目立たない位置に発生する用語より、クエリに対するそのドキュメントの関連性をより示している可能性がある。関連性の指標として使用される他の属性には、太字のテキスト、下線付きテキスト、及びフォントサイズが含まれる。したがって、第3のセットのスコアSは、クエリ用語に一致するドキュメント内のトークンの属性を使用して判断される。図3Cを参照すると、ドキュメント内のクエリ用語の属性(即ち、クエリ用語に一致する又は関連するトークンの属性)にアクセスするために、ドキュメント内のクエリ用語のトークン位置が、属性テーブル316(図5の522)に索引を付けるのに使用される。より具体的には、その属性が各属性レコード318によって符号化されるトークンの数がKである場合、Kによって分割されるトークン位置は、属性テーブル316に索引を付けるのに使用される。いくつかの実施形態においては、識別された属性レコード318は、符号化され圧縮された形態で格納されており、したがって、各クエリ用語に関連付けられた属性を判断するために復号されなければならない。
いくつかの実施形態においては、第3のセットの関連性スコアSが、ユーザに順序付きリストとして提示するためのトップY個のドキュメントを選択するのに使用され得る。次いで、ユーザは、選択されたドキュメントに対する内部ポインタをクリックして、たどることができる。いくつかの実施形態においては、第3のセットの関連性スコアSは、ユーザに提示するためのドキュメントの順序付きリストを生成するために、及び/又は第4段階クエリプロセッサ520によってさらに処理するために、第1及び第2のセットの関連性スコアS及びSの1つ以上から一部導き出される。一実施形態においては、スコアSは、第3段階クエリプロセッサ518によって作成された追加のスコアリング因子に従って、Sスコアを調整することによって作成される。
クエリ処理−段階IV
第4段階クエリプロセッサ520は、第3段階クエリプロセッサ518から、1セットのDocID、そのDocIDに対応するドキュメント内の位置のリスト、及び、第3のセットの関連性スコアSを受信する。第4段階クエリプロセッサ520は、任意に、第1の及び/又は第2のセットの関連性スコアS及びSも受信することがある。第4段階クエリプロセッサ520は復号化システム527に結合され、この復号化システム527は、1つ以上のミニレキシコンマップ523、トークンスペースレポジトリ524、及び1つ以上のグローバルレキシコンマップ508に結合される。ミニレキシコンマップ523、トークンスペースレポジトリ524、及びグローバルレキシコンマップ508についてはすべて、図1及び図2において上述した。
第4段階クエリプロセッサ520は、コンテキストに基づいて第4のセットの関連性スコアSを生成し、また、結果セット内に列挙されたドキュメントの1つ以上のための「スニペット」を生成することがある。スニペットとは、ドキュメントからのテキストの小さい部分であり、通常、サーチされているキーワードの周囲に現れるテキストを含む。一実施形態においては、結果セット内に列挙されたドキュメントのためのスニペットを生成するために、クエリプロセッサは、ドキュメント内に存在するそれぞれのクエリ用語の最初の発生箇所(first occurrence)の前後に位置する予め定義された数のトークンを復号し、これにより、ドキュメントの1つ以上のテキスト部分が再構築され、次いで、スニペットに含むための1サブセットのテキスト部分が選択される。結果セット内の位置のリストを使用して、復号化システム527は、ドキュメント内のクエリ用語の発生箇所に先行し、又は後行するドキュメントの一部分を復号することが必要なミニレキシコン523を選択し得る。図2について上述したように、選択されたミニレキシコン523及びグローバルレキシコン508は、トークンスペースレポジトリ内のLTokenIDをGTokenIDに翻訳し、次いで、そのGTokenIDをトークンに翻訳するのに使用される。
いくつかの実施形態においては、第4のセットの関連性スコアSが、ユーザに順序付きリストとして提示するためのトップZ個のドキュメントを選択するのに使用され得る。次いで、ユーザは、選択されたドキュメントに対する内部ポインタをクリックして、たどることができる。いくつかの実施形態においては、第4のセットの関連性スコアSは、ユーザに提示するためのドキュメントの順序付きリストを生成するために、及び/又は関連性フィードバックモジュール517によるさらなる処理のために、第1、第2、及び第3のセットの関連性スコアS、S及びSの1つ以上から一部導き出される。代替実施形態においては、最後の段階クエリプロセッサは、先行するクエリプロセッサ段階で作成された関連性スコアにおいて最高のスコアを有するドキュメントのためのスニペットを生成するが、新しいセットの関連性スコアSを生成しない。
いくつかの実施形態においては、最終セットの関連性スコアが、関連性フィードバックモジュール517に提供され、関連性フィードバックモジュール517は、最後のクエリ段階で作成された結果セット内のドキュメントに基づいて1つ以上の新しいクエリ拡張用語を生成する。たとえば、関連性フィードバックモジュール517は、1つ以上の公知の関連性フィードバックアルゴリズムを実施し得る。これは、フルドキュメントアプローチに基づく擬似関連性フィードバックアルゴリズム(全ウェブページに基づく擬似関連性フィードバック)、ドキュメントオブジェクトモデル(DOM)セグメンテーション、ビジョンベースページセグメンテーション(VIPS)、概念ラティスを使用する概念関連性フィードバック(conceptual relevance feedback using concept lattices)などを含むが、これらに限定されるものではない。関連性フィードバックアルゴリズムは、先のクエリ処理段階から検査された(vetted)ドキュメントを分析し、その分析結果に基づいてクエリ拡張用語を生成し得る。新しいクエリ拡張用語は、クエリエキスパンダ506に提供され、クエリエキスパンダ506は、クエリプロセッサ510、514、518、及び520の1つ以上によって処理される新しいクエリ表現を生成する。したがって、多段クエリ処理システム500は、クエリで2つ以上のパスを実行し、それぞれのパスからの情報を使用して、改良されたクエリを生成することが可能であり、この結果、最終的に、ユーザはより関連するドキュメントを受信する。
一実施形態においては、最後のクエリ段階プロセッサ520は、クエリの第1のパス処理を遂行する場合に、長いスニペットを作成する。スニペットは、たとえばドキュメント内のクエリ用語のそれぞれの発生箇所に先行する、又は後行するN(たとえば、10〜40)トークンを含む。スニペットは、予め定義された長さを超えた場合、切り捨てが行われることがある。クエリ及び最後のクエリ段階520によって作成された長いスニペットは、1セットのクエリ拡張用語、及び任意に1セットのクエリ用語の重みを生成するために、関連性スコアと共に、関連性フィードバックモジュール517に提供される。拡張されたクエリの第2のパス処理中に、最後のクエリ段階520は、長さが好適であり、最高の又は最良のスコアを有する結果セットのドキュメントのリストとともに表示するのに適した、短いスニペットを作成する。
一実施形態においては、クエリ処理システムは、L個のパラレルクエリ処理サブシステムを含み、そのそれぞれが、ドキュメントコレクションの各サブセットのための、逆インデックス512とトークンスペースレポジトリ524とを含む。たとえば、クエリ処理システムは、1000を超えるパラレルクエリ処理サブシステムを含むことがある。関連性フィードバックモジュール517(図5)は、すべてのクエリ処理サブシステムによって共用されることがある。クエリ処理システムを通る第1のパス中に、クエリはパラレルクエリ処理サブシステムの小さい部分によって処理され、第2のパス中に、クエリはクエリ処理システム全体によって処理される。たとえば、クエリ処理システムは、Sサブセット(たとえば、32サブセット)に分割され、それぞれのクエリが、ハッシュ関数を正規化したバージョンのクエリに適用した結果に従って、サブセットの1つに割り当てられ、次いで、モジュロ関数をハッシュ関数によって作成された結果に適用する。クエリ処理システムの各サブセットは、クエリ処理システムの「パーティション」と呼ばれることがあり、各クエリ処理サブシステムは、「サブパーティション」と呼ばれることがある。
クエリの第1のパス処理の主要目的は、クエリの第2のパス処理によって作成されるクエリ結果の品質を向上させるために、1セットのクエリ拡張用語、及びクエリ用語の重みを作成することである。クエリ処理システム内のドキュメントがクエリ処理サブシステム全体にかなりランダムに分散されている限り、クエリは、1セットのクエリ拡張用語を作成するために、ほんの少数のサブシステムによって処理されるだけで良い。クエリ拡張用語は、拡張クエリツリー又はクエリ表現を作成するために、クエリエキスパンダ506によって使用され、次いで、上述したように、(クエリの第2のパス処理における)クエリ処理段階で処理される。たとえば、クエリ「new york pictures」は、「new york(pictures or images or image or picture)」に拡張されることがある。第2のパス中の最後のクエリ段階で作成された結果セット及びスニペットは、(クエリがそこから受信された)コンピュータ又はデバイスによって表示するために(又は、より一般に提示するために)フォーマット化されることがある。
一実施形態においては、クエリの第1のパス処理は、その後のパスとは異なるデータベースで遂行される。たとえば、第1のパスのための初期データベースは、以前に処理されたクエリのデータベースであり、その後のパスのために使用されるデータベースは、クエリ用語をデータベース内のドキュメントにマッピングするための逆インデックスを有する1セットのドキュメントであり得る。
ドキュメント処理サーバ
図6は、トークンスペースレポジトリサーバ600の実施形態を示すブロック図である。サーバ600は、スタンドアロンコンピュータシステム、又は多くのコンピュータシステムを含む分散型処理システムの一部であり得る。サーバ600は、一般に、1つ以上の演算処理装置(CPU)604と、1つ以上のネットワーク又は他の通信インターフェース608と、メモリ602と、これらの構成要素と相互接続するための1つ以上の通信バス606とを含む。サーバ600は、任意に、ユーザインターフェース、たとえばディスプレイ及びキーボードを含むことがある。メモリ602は、高速ランダムアクセスメモリを含み、また、1つ以上の磁気ディスク記憶装置などの不揮発性メモリを含むことがある。メモリ602は、中央演算処理装置604から遠隔に置かれている大容量記憶装置を含むことがある。
メモリ602は、オペレーティングシステム610(たとえば、リナックス又はユニックス)、ネットワーク通信モジュール612、レキシコンジェネレータ614(たとえば、レキシコンジェネレータ108)、符号化システム616(たとえば、符号化システム300)、1つ以上のグローバルレキシコン618(たとえば、グローバルレキシコン206)、1つ以上のミニレキシコン620(たとえば、ミニレキシコン208)、トークンスペースレポジトリ622(たとえば、トークンスペースレポジトリ112)、属性レコード624(たとえば、属性レコードテーブル316)、及び

有効範囲マップ626(たとえば、有効範囲マップ210)を格納する。これらの構成要素のそれぞれのオペレーションについては、図1〜図5において上述した。
クエリ処理サーバ
図7は、クエリ処理サーバ700の実施形態を示すブロック図である。サーバ700は、スタンドアロンコンピュータシステム、又は多くのコンピュータシステムを含む分散型処理システムの一部であり得る。サーバ700は、一般に、1つ以上の演算処理装置(CPU)704と、1つ以上のネットワーク又は他の通信インターフェース708と、メモリ702と、これらの構成要素と相互接続するための1つ以上の通信バス706とを含む。サーバ700は、任意に、ユーザインターフェース、たとえばディスプレイ及びキーボードを含むことがある。メモリ702は、高速ランダムアクセスメモリを含み、また、1つ以上の磁気ディスク記憶装置などの不揮発性メモリを含むことがある。メモリ702は、中央演算処理装置704から遠隔に置かれている大容量記憶装置を含むことがある。
メモリ702は、オペレーティングシステム710(たとえば、リナックス又はユニックス)、ネットワーク通信モジュール712、トークンスペース逆インデックス714(たとえば、トークンスペース逆インデックス408)、復号化システム716(たとえば、復号化システム308)、1つ以上のレキシコン翻訳テーブル又はマッピング718(たとえば、グローバルレキシコン206及びミニレキシコン208から導き出された)、有効範囲マップ720(たとえば、有効範囲マップ210)、DocIDマップ722(たとえば、DocIDマップ410)、クエリパーサ724(たとえば、クエリパーサ504)、クエリツリー726、1つ以上のクエリプロセッサ728(たとえば、クエリプロセッサ510、514、518、及び520)、属性レコード730(たとえば、属性レコードテーブル316)、及びトークンスペースレポジトリ732(たとえば、トークンスペースレポジトリ112)を格納する。これらの構成要素のそれぞれのオペレーションについては、図1〜図5において上述した。
上記の説明は、例示目的であり、特有の実施形態を参照しながら記載してきた。しかし、例を用いた上記の説明は、網羅的なものではなく、また本発明を開示されている形態だけに制限するものでもない。上記の教示を考慮すれば、多くの変更形態及び変形形態が可能となる。本発明の原理及びその実際的な適用形態を最もうまく説明するために、いろいろな実施形態が選ばれ、記載されている。したがって、当業者には、本発明及び様々な実施形態を、考えられる特定の使用に適した様々な変更形態と共に最良の方法で利用することが可能である。
情報検索システムの実施形態を示すブロック図である。 図1のレキシコンジェネレータの実施形態を示す概念ブロック図である。 トークンスペースレポジトリ用のドキュメントを符号化するための符号化システムの実施形態を示すブロック図である。 トークンスペースレポジトリのドキュメントを復号するための復号化システムの実施形態を示すブロック図である。 ドキュメント属性を符号化する/復号するための属性符号化/復号化システムの実施形態を示すブロック図である。 トークンスペースレポジトリと共に使用されるクエリ処理システムの実施形態を示すブロック図である。 トークンスペースレポジトリと共に使用される多段クエリ処理システムの実施形態を示すブロック図である。 トークンスペースレポジトリサーバの実施形態を示すブロック図である。 クエリ処理サーバの実施形態を示すブロック図である。 トークン化されたドキュメントレポジトリの第2の実施形態を示すブロック図である。 図1のレキシコンジェネレータの第2の実施形態を示す概念ブロック図である。 レキシコンジェネレータの実施形態において使用される符号化プロセスを示す概念図である。 符号化されたトークンを表すための例示的データ構造を示す図である。

Claims (21)

  1. 多段クエリ処理システムにおいてクエリを処理する方法であって、
    前記多段クエリ処理システムは、1つ以上のプロセッサと、前記方法を実行するために前記1つ以上のプロセッサによって実行される1つ以上のプログラムを格納するメモリとを有し、
    前記1つ以上のプロセッサによって実行される第1のクエリ処理ステップであって、
    前記1つ以上のプロセッサが、1つ以上のクエリ用語に応答してインデックスから第1のセットのドキュメント識別子を検索するステップと、
    前記1つ以上のプロセッサが、クエリ用語の存在、用語頻度、ドキュメントの普及度のうち1つ以上に基づいて、前記第1のセットのドキュメント識別子の少なくとも1サブセットに対応する第1のセットの圧縮ドキュメントのために第1のセットの関連性スコアを生成し、前記第1のセットの関連性スコアを前記メモリに格納するステップと、を含む第1のクエリ処理ステップと、
    前記1つ以上のプロセッサによって実行される第2のクエリ処理ステップであって、
    前記1つ以上のプロセッサが、トークン位置のリスト、ドキュメントにおけるクエリ用語間の距離、ドキュメントにおけるトークンの属性、前記第1のセットの圧縮ドキュメントの1ドキュメントにおいて使用されるクエリ用語の周囲に現れるテキストのうち1つ以上に基づいて、前記第1のセットの圧縮ドキュメントのために第2のセットの関連性スコアを生成し、前記第2のセットの関連性スコアを前記メモリに格納するステップを含む第2のクエリ処理ステップと、
    前記1つ以上のプロセッサが、前記メモリから前記第1及び第2のセットの関連性スコアを読み出し、前記第1及び第2のセットの関連性スコアに基づいて更に処理するためにドキュメントの順序付きリストを生成するステップと、
    前記1つ以上のプロセッサが、前記順序付きリストのドキュメントから、追加のクエリ用語を自動的に生成するステップと、
    前記1つ以上のプロセッサが、前記追加のクエリ用語を使用して、新しいクエリを作成するステップと、
    前記1つ以上のプロセッサが、前記インデックスから第2のセットのドキュメント識別子を検索するために、かつ、前記追加のクエリ用語に少なくとも一部基づく第3のセットの関連性スコアを生成するために、前記新しいクエリを処理するステップと
    前記1つ以上のプロセッサが、前記第3のセットの関連性スコアを用いて、ユーザに提示するための1セットの上位のドキュメントを選択するステップと、
    を含む方法。
  2. 前記第2のセットの関連性スコアは、ドキュメントにおけるトークンの属性に少なくとも基づいており、前記属性は、ドキュメントにおけるトークンのフォント属性を含んでいる、請求項1記載の方法。
  3. 前記第1のセットのドキュメント識別子は、1セットの圧縮ドキュメントを格納するトークンスペースレポジトリにおける、クエリ用語に対応するトークンの場所に対応している、請求項1記載の方法。
  4. 前記第1のセットのドキュメント識別子を検索するステップは、前記インデックスを用いて前記1以上のクエリ用語のトークン位置のリストを生成し、前記トークン位置に対応する1セットのドキュメント識別子を作成するためのマップにアクセスするステップを含む、請求項1記載の方法。
  5. 前記1つ以上のプロセッサが、第2のセットのトークンを回復するために、前記1セットの圧縮ドキュメントの少なくとも一部分を復元するステップであって、前記第2のセットの回復されたトークンが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメントの位置に関連付けられる、ステップと、
    前記1つ以上のプロセッサが、前記第2のセットの回復されたトークンを使用して、前記1セットの圧縮ドキュメントの1つ以上の部分を再構築するステップとをさらに含む請求項1乃至4のいずれか1項に記載の方法。
  6. 前記1つ以上のプロセッサが、前記順序付きリストの上位のドキュメントのセットにおいて、前記再構築された部分をユーザに提示するステップをさらに含む請求項5に記載の方法。
  7. 前記第3のセットの関連性スコアが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の前記クエリ用語の1つ以上の位置に基づく請求項1乃至4のいずれか1項に記載の方法。
  8. 1つ以上のプロセッサと、少なくとも1つの前記プロセッサによって実行される1つ以上のプログラムを格納するメモリと、を有する多段クエリ処理システムであって、
    前記1つ以上のプログラムは、
    第1のクエリ処理段階のための命令であって、
    1つ以上のクエリ用語に応答してインデックスから第1のセットのドキュメント識別子を検索するための命令と、
    クエリ用語の存在、用語頻度、ドキュメントの普及度のうち1つ以上に基づいて、前記第1のセットのドキュメント識別子の少なくとも1サブセットに対応する第1のセットの圧縮ドキュメントのために第1のセットの関連性スコアを生成し、前記第1のセットの関連性スコアを前記メモリに格納するための命令とを含む、第1のクエリ処理段階を実行するための命令と、
    第2のクエリ処理段階のための命令であって、
    トークン位置のリスト、ドキュメントにおけるクエリ用語間の距離、ドキュメントにおけるトークンの属性、前記第1のセットの圧縮ドキュメントの1ドキュメントにおいて使用されるクエリ用語の周囲に現れるテキストのうち1つ以上に基づいて、前記第1のセットの圧縮ドキュメントのために第2のセットの関連性スコアを生成し、前記第2のセットの関連性スコアを前記メモリに格納するための命令を含む、第2のクエリ処理段階を実行するための命令と、
    前記メモリから前記第1及び第2のセットの関連性スコアを読み出し、前記第1及び第2のセットの関連性スコアに基づいて更に処理するためにドキュメントの順序付きリストを生成するための命令と、
    前記順序付きリストのドキュメントから、追加のクエリ用語を自動的に生成するための命令と、
    前記追加のクエリ用語を使用して、新しいクエリを作成するための命令と、
    前記インデックスから第2のセットのドキュメント識別子を検索するために、かつ、前記追加のクエリ用語に少なくとも一部基づいて第3のセットの関連性スコアを生成するために、前記新しいクエリを処理するための命令と、
    前記第3のセットの関連性スコアを用いて、ユーザに提示するための1セットの上位のドキュメントを選択するための命令と、を含む、多段クエリ処理システム。
  9. 前記第2のセットの関連性スコアは、ドキュメントにおけるトークンの属性に少なくとも基づいており、前記属性は、ドキュメントにおけるトークンのフォント属性を含んでいる、請求項8記載のシステム。
  10. 前記第1のセットのドキュメント識別子は、1セットの圧縮ドキュメントを格納するトークンスペースレポジトリにおける、クエリ用語に対応するトークンの場所に対応している、請求項8記載のシステム。
  11. 前記第1のセットのドキュメント識別子を検索するための命令は、前記インデックスを用いて前記1以上のクエリ用語のトークン位置のリストを生成し、前記トークン位置に対応する1セットのドキュメント識別子を作成するためのマップにアクセスする命令を含む、請求項8記載のシステム
  12. 前記1つ以上のプログラムは、
    第2のセットのトークンを回復するために、前記1セットの圧縮ドキュメントの少なくとも一部分を復元する命令であって、前記第2のセットの回復されたトークンが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の位置に関連付けられる、命令と、
    前記第2のセットの回復されたトークンを使用して、前記1セットの圧縮ドキュメントの1つ以上の部分を再構築する命令とをさらに含む請求項8乃至11にいずれか1項に記載のシステム。
  13. 前記1つ以上のプログラムは、
    前記順序付きリストの上位のドキュメントのセットにおいて、前記再構築された部分をユーザに提示する手段をさらに含む請求項12に記載のシステム。
  14. 前記第3のセットの関連性スコアが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の前記クエリ用語の1つ以上の位置に基づく請求項8乃至11にいずれか1項に記載のシステム。
  15. 1つ以上のプロセッサによって実行される1つ以上の格納されたプログラムを有する、コンピュータ読取可能記憶媒体であって、前記1つ以上のプログラムが、
    第1のクエリ処理段階のためのコンピュータ実行可能命令であって、
    1つ以上のクエリ用語に応答してインデックスから第1のセットのドキュメント識別子を検索するための命令と、
    クエリ用語の存在、用語頻度、ドキュメントの普及度のうち1つ以上に基づいて、前記第1のセットのドキュメント識別子の少なくとも1サブセットに対応する第1のセットの圧縮ドキュメントのために第1のセットの関連性スコアを生成し、前記第1のセットの関連性スコアを前記メモリに格納するための命令とを含む、第1のクエリ処理段階のためのコンピュータ実行可能命令と
    第2のクエリ処理段階のためのコンピュータ実行可能命令であって、
    トークン位置のリスト、ドキュメントにおけるクエリ用語間の距離、ドキュメントにおけるトークンの属性、前記第1のセットの圧縮ドキュメントの1ドキュメントにおいて使用されるクエリ用語の周囲に現れるテキストのうち1つ以上に基づいて、前記第1のセットの圧縮ドキュメントのために第2のセットの関連性スコアを生成し、前記第2のセットの関連性スコアを前記メモリに格納するための命令を含む、第2のクエリ処理段階を実行するためのコンピュータ実行可能命令と、
    前記メモリから前記第1及び第2のセットの関連性スコアを読み出し、前記第1及び第2のセットの関連性スコアに基づいて更に処理するためにドキュメントの順序付きリストを生成するためのコンピュータ実行可能命令と、
    前記順序付きリストのドキュメントから、追加のクエリ用語を自動的に生成するためのコンピュータ実行可能命令と、
    前記追加のクエリ用語を使用して、新しいクエリを作成するためのコンピュータ実行可能命令と、
    前記インデックスから第2のセットのドキュメント識別子を検索するために、かつ、前記追加のクエリ用語に少なくとも一部基づいて第3のセットの関連性スコアを生成するために、前記新しいクエリを処理するためのコンピュータ実行可能命令と、
    前記第3のセットの関連性スコアを用いて、ユーザに提示するための1セットの上位のドキュメントを選択するためのコンピュータ実行可能命令と、
    を含む、コンピュータ読取可能記憶媒体。
  16. 前記第2のセットの関連性スコアは、ドキュメントにおけるトークンの属性に少なくとも基づいており、前記属性は、ドキュメントにおけるトークンのフォント属性を含んでいる、請求項15記載のコンピュータ読取可能記憶媒体。
  17. 前記第1のセットのドキュメント識別子は、1セットの圧縮ドキュメントを格納するトークンスペースレポジトリにおける、クエリ用語に対応するトークンの場所に対応している、請求項15記載のコンピュータ読取可能記憶媒体。
  18. 前記第1のセットのドキュメント識別子を検索するための命令は、前記インデックスを用いて前記1以上のクエリ用語のトークン位置のリストを生成し、前記トークン位置に対応する1セットのドキュメント識別子を作成するためのマップにアクセスする命令を含む、請求項15記載のコンピュータ読取可能記憶媒体。
  19. 前記1つ以上のプログラムはさらに、
    第2のセットのトークンを回復するために、前記1セットの圧縮ドキュメントの少なくとも一部分を復元するためのコンピュータ実行可能命令であって、前記第2のセットの回復されたトークンが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメントの位置に関連付けられる、命令と、
    前記第2のセットの回復されたトークンを使用して、前記1セットの圧縮ドキュメントの1つ以上の部分を再構築するためのコンピュータ実行可能命令とをさらに含む請求項15乃至18のいずれか1項に記載のコンピュータ読取可能記憶媒体。
  20. 前記1つ以上のプログラムは、
    前記順序付きリストの上位のドキュメントのセットにおいて、前記再構築された部分をユーザに提示するためのコンピュータ実行可能命令をさらに含む請求項19に記載のコンピュータ読取可能記憶媒体。
  21. 前記第3のセットの関連性スコアが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の前記クエリ用語の1つ以上の位置に基づく請求項15乃至18のいずれか1項に記載のコンピュータ読取可能記憶媒体。
JP2007525718A 2004-08-13 2005-08-08 トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 Active JP4805267B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/917,746 US8407239B2 (en) 2004-08-13 2004-08-13 Multi-stage query processing system and method for use with tokenspace repository
US10/917,746 2004-08-13
PCT/US2005/028192 WO2006020595A1 (en) 2004-08-13 2005-08-08 Multi-stage query processing system and method for use with tokenspace repository

Publications (3)

Publication Number Publication Date
JP2008510228A JP2008510228A (ja) 2008-04-03
JP2008510228A5 JP2008510228A5 (ja) 2008-09-25
JP4805267B2 true JP4805267B2 (ja) 2011-11-02

Family

ID=35462201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007525718A Active JP4805267B2 (ja) 2004-08-13 2005-08-08 トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法

Country Status (6)

Country Link
US (2) US8407239B2 (ja)
EP (1) EP1779273B1 (ja)
JP (1) JP4805267B2 (ja)
KR (1) KR101157693B1 (ja)
CN (3) CN101799834A (ja)
WO (1) WO2006020595A1 (ja)

Families Citing this family (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US20070050467A1 (en) * 2005-04-06 2007-03-01 Chris Borrett Digital asset management system, including customizable metadata model for asset cataloging and permissioning of digital assets, such as for use with digital images and songs
US8209724B2 (en) * 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US20080235209A1 (en) * 2007-03-20 2008-09-25 Samsung Electronics Co., Ltd. Method and apparatus for search result snippet analysis for query expansion and result filtering
US8200688B2 (en) * 2006-03-07 2012-06-12 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US8863221B2 (en) * 2006-03-07 2014-10-14 Samsung Electronics Co., Ltd. Method and system for integrating content and services among multiple networks
US8115869B2 (en) 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata
US8843467B2 (en) * 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
US8510453B2 (en) * 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US7805424B2 (en) * 2006-04-12 2010-09-28 Microsoft Corporation Querying nested documents embedded in compound XML documents
US20070271228A1 (en) * 2006-05-17 2007-11-22 Laurent Querel Documentary search procedure in a distributed system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
WO2008058218A2 (en) * 2006-11-08 2008-05-15 Seeqpod, Inc. Matching and recommending relevant videos and media to individual search engine results
US7908281B2 (en) * 2006-11-22 2011-03-15 Architecture Technology Corporation Dynamic assembly of information pedigrees
US8935269B2 (en) * 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US20090055393A1 (en) * 2007-01-29 2009-02-26 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices based on metadata information
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008124536A1 (en) 2007-04-04 2008-10-16 Seeqpod, Inc. Discovering and scoring relationships extracted from human generated lists
US9286385B2 (en) 2007-04-25 2016-03-15 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
WO2009003124A1 (en) 2007-06-26 2008-12-31 Seeqpod, Inc. Media discovery and playlist generation
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8176068B2 (en) 2007-10-31 2012-05-08 Samsung Electronics Co., Ltd. Method and system for suggesting search queries on electronic devices
US8775441B2 (en) * 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8126929B2 (en) * 2008-03-27 2012-02-28 International Business Machines Corporation Method and apparatus for encoding list of variable length structures to support bi-directional scans
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
US20100042610A1 (en) * 2008-08-15 2010-02-18 Microsoft Corporation Rank documents based on popularity of key metadata
US8938465B2 (en) * 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101514756B1 (ko) 2008-10-23 2015-04-23 아브 이니티오 테크놀로지 엘엘시 데이터 요소를 클러스터링하는 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US20110022600A1 (en) * 2009-07-22 2011-01-27 Ecole Polytechnique Federale De Lausanne Epfl Method of data retrieval, and search engine using such a method
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US8739262B2 (en) * 2009-12-18 2014-05-27 Sabre Glbl Inc. Tokenized data security
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US20110184946A1 (en) * 2010-01-28 2011-07-28 International Business Machines Corporation Applying synonyms to unify text search with faceted browsing classification
US10956475B2 (en) * 2010-04-06 2021-03-23 Imagescan, Inc. Visual presentation of search results
US9489350B2 (en) 2010-04-30 2016-11-08 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US9623119B1 (en) * 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8806615B2 (en) * 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
US10515147B2 (en) * 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US8798366B1 (en) 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
BR112013016608A2 (pt) * 2011-01-04 2016-09-27 Thomson Licensing translação automática de critério de busca por plugue universal e reprodução
US8510860B2 (en) 2011-03-15 2013-08-13 Architecture Technology Corporation Local storage of information pedigrees
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US9824138B2 (en) * 2011-03-25 2017-11-21 Orbis Technologies, Inc. Systems and methods for three-term semantic search
DE102011101146A1 (de) * 2011-05-11 2012-11-15 Abb Technology Ag Mehrstufiges Verfahren und Einrichtung zum interaktiven Auffinden von Gerätedaten eines Automatisierungssystem
US8812496B2 (en) * 2011-10-24 2014-08-19 Xerox Corporation Relevant persons identification leveraging both textual data and social context
KR102031392B1 (ko) 2011-11-15 2019-11-08 아브 이니티오 테크놀로지 엘엘시 후보 쿼리들에 기반한 데이터 클러스터링
US8862605B2 (en) * 2011-11-18 2014-10-14 International Business Machines Corporation Systems, methods and computer program products for discovering a text query from example documents
US20130246336A1 (en) 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
WO2013123632A1 (en) * 2012-02-20 2013-08-29 Thomson Licensing Component sorting based encoding for 3d mesh compression
US9177171B2 (en) * 2012-03-11 2015-11-03 International Business Machines Corporation Access control for entity search
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8805848B2 (en) * 2012-05-24 2014-08-12 International Business Machines Corporation Systems, methods and computer program products for fast and scalable proximal search for search queries
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US8751477B2 (en) * 2012-10-05 2014-06-10 Iac Search & Media, Inc. Quality control system for providing results in response to queries
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9235626B2 (en) 2013-03-13 2016-01-12 Google Inc. Automatic generation of snippets based on context and user interest
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10366149B2 (en) * 2013-03-15 2019-07-30 Wolfram Research, Inc. Multimedia presentation authoring tools
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
CN103136372B (zh) * 2013-03-21 2016-03-02 陕西通信信息技术有限公司 网络可信性行为管理中url快速定位、分类和过滤方法
US9268823B2 (en) 2013-05-10 2016-02-23 International Business Machines Corporation Partial match derivation using text analysis
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US20140366091A1 (en) * 2013-06-07 2014-12-11 Amx, Llc Customized information setup, access and sharing during a live conference
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9298852B2 (en) 2013-06-27 2016-03-29 Google Inc. Reranking query completions
US10169711B1 (en) 2013-06-27 2019-01-01 Google Llc Generalized engine for predicting actions
US9195703B1 (en) 2013-06-27 2015-11-24 Google Inc. Providing context-relevant information to users
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN104378295B (zh) * 2013-08-12 2019-03-26 中兴通讯股份有限公司 表项管理装置及表项管理方法
US9146918B2 (en) 2013-09-13 2015-09-29 International Business Machines Corporation Compressing data for natural language processing
US9229987B2 (en) 2013-09-30 2016-01-05 Protegrity Corporation Mapping between tokenization domains
US10210156B2 (en) 2014-01-10 2019-02-19 International Business Machines Corporation Seed selection in corpora compaction for natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10362133B1 (en) * 2014-12-22 2019-07-23 Palantir Technologies Inc. Communication data processing architecture
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10242008B2 (en) 2015-07-06 2019-03-26 International Business Machines Corporation Automatic analysis of repository structure to facilitate natural language queries
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105335493B (zh) * 2015-10-21 2017-08-29 广州神马移动信息科技有限公司 一种分层过滤文档的方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
RU2632134C2 (ru) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система обработки поисковых запросов
WO2017131753A1 (en) * 2016-01-29 2017-08-03 Entit Software Llc Text search of database with one-pass indexing including filtering
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10282369B2 (en) * 2017-03-08 2019-05-07 Centri Technology, Inc. Fast indexing and searching of encoded documents
US10423638B2 (en) 2017-04-27 2019-09-24 Google Llc Cloud inference system
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11411578B1 (en) * 2017-12-31 2022-08-09 Teradata Us, Inc. Bit reordering compression
US10990630B2 (en) * 2018-02-27 2021-04-27 International Business Machines Corporation Generating search results based on non-linguistic tokens
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111368057B (zh) * 2020-03-05 2023-08-22 腾讯科技(深圳)有限公司 词组查询方法、装置、计算机设备以及存储介质
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20240086911A1 (en) * 2022-09-12 2024-03-14 Bank Of America Corporation Systems, methods, and apparatuses for tracking and logging resource transfers via a distributed network
US11861320B1 (en) * 2023-02-27 2024-01-02 Casetext, Inc. Text reduction and analysis interface to a text generation modeling system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208453A (ja) * 1992-08-13 1994-07-26 Xerox Corp テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法
JPH09218881A (ja) * 1996-02-09 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> 追加検索語候補提示方法、文書検索方法およびそれらの装置
JP2000137730A (ja) * 1998-11-02 2000-05-16 Ricoh Co Ltd 文書検索装置、文書検索方法及び文書検索プログラムを記録した媒体
JP2003242170A (ja) * 2002-02-15 2003-08-29 Ricoh Co Ltd 文書検索装置、文書検索方法および記録媒体

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU603453B2 (en) 1987-05-25 1990-11-15 Megaword International Pty. Ltd. A method of processing a text in order to store the text in memory
JPH03266039A (ja) 1990-03-16 1991-11-27 Fujitsu Ltd フリーフォーマットデータリンク処理方式
CA2124752C (en) 1993-06-30 2005-04-12 Mark Zbikowski Meta-data structure and handling
US5488364A (en) 1994-02-28 1996-01-30 Sam H. Eulmi Recursive data compression
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
US5855015A (en) * 1995-03-20 1998-12-29 Interval Research Corporation System and method for retrieval of hyperlinked information resources
JP3108015B2 (ja) * 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
JPH1049549A (ja) 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5946716A (en) 1996-05-30 1999-08-31 Hewlett-Packard Company Sectored virtual memory management system and translation look-aside buffer (TLB) for the same
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US5991713A (en) 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
US6055526A (en) * 1998-04-02 2000-04-25 Sun Microsystems, Inc. Data indexing technique
US6388585B1 (en) 1998-08-11 2002-05-14 Matsushita Electric Ind Co Ltd Method for data compression and decompression using decompression instructions
US6885319B2 (en) 1999-01-29 2005-04-26 Quickshift, Inc. System and method for generating optimally compressed data from a plurality of data compression/decompression engines implementing different data compression algorithms
US6631373B1 (en) 1999-03-02 2003-10-07 Canon Kabushiki Kaisha Segmented document indexing and search
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
AU2001249123A1 (en) * 2000-03-15 2001-09-24 Hiawatha Island Software Co., Inc. System and method for providing computer network search services
US6553457B1 (en) 2000-04-19 2003-04-22 Western Digital Technologies, Inc. Tag memory disk cache architecture
US6728722B1 (en) 2000-08-28 2004-04-27 Sun Microsystems, Inc. General data structure for describing logical data spaces
US6563439B1 (en) 2000-10-31 2003-05-13 Intel Corporation Method of performing Huffman decoding
US20020091671A1 (en) 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US7092936B1 (en) 2001-08-22 2006-08-15 Oracle International Corporation System and method for search and recommendation based on usage mining
US6832294B2 (en) 2002-04-22 2004-12-14 Sun Microsystems, Inc. Interleaved n-way set-associative external cache
US20030204500A1 (en) * 2002-04-25 2003-10-30 Jean-Francois Delpech Process and apparatus for automatic retrieval from a database and for automatic enhancement of such database
US8374958B2 (en) 2002-08-29 2013-02-12 Alcatel Lucent Method and apparatus for the payment of internet content
JP4154971B2 (ja) 2002-09-18 2008-09-24 富士ゼロックス株式会社 画像処理装置
US7287025B2 (en) 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
US20040225497A1 (en) 2003-05-05 2004-11-11 Callahan James Patrick Compressed yet quickly searchable digital textual data format
US20050210009A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for intellectual property management
US8612208B2 (en) * 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US20060036599A1 (en) * 2004-08-09 2006-02-16 Glaser Howard J Apparatus, system, and method for identifying the content representation value of a set of terms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208453A (ja) * 1992-08-13 1994-07-26 Xerox Corp テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法
JPH09218881A (ja) * 1996-02-09 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> 追加検索語候補提示方法、文書検索方法およびそれらの装置
JP2000137730A (ja) * 1998-11-02 2000-05-16 Ricoh Co Ltd 文書検索装置、文書検索方法及び文書検索プログラムを記録した媒体
JP2003242170A (ja) * 2002-02-15 2003-08-29 Ricoh Co Ltd 文書検索装置、文書検索方法および記録媒体

Also Published As

Publication number Publication date
KR20070049664A (ko) 2007-05-11
CN101036143A (zh) 2007-09-12
US20060036593A1 (en) 2006-02-16
KR101157693B1 (ko) 2012-06-21
CN102142038A (zh) 2011-08-03
US8407239B2 (en) 2013-03-26
JP2008510228A (ja) 2008-04-03
CN102142038B (zh) 2014-05-28
US20130212092A1 (en) 2013-08-15
EP1779273A1 (en) 2007-05-02
WO2006020595A1 (en) 2006-02-23
CN101799834A (zh) 2010-08-11
EP1779273B1 (en) 2019-06-19
US9146967B2 (en) 2015-09-29

Similar Documents

Publication Publication Date Title
JP4805267B2 (ja) トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法
US9619565B1 (en) Generating content snippets using a tokenspace repository
US8175875B1 (en) Efficient indexing of documents with similar content
JP5415529B2 (ja) 検索インデックスフォーマットの最適化
US6212525B1 (en) Hash-based system and method with primary and secondary hash functions for rapidly identifying the existence and location of an item in a file
US8838551B2 (en) Multi-level database compression
Williams et al. What's Next? Index Structures for Efficient Phrase Querying.
US7319994B1 (en) Document compression scheme that supports searching and partial decompression
He et al. Compact full-text indexing of versioned document collections
Cannane et al. General‐purpose compression for efficient retrieval
Kocberber et al. Compressed multi-framed signature files: an index structure for fast information retrieval
Al-Jedady et al. Fast arabic query matching for compressed arabic inverted indices
KR19990084950A (ko) 역화일을 이용한 데이터 부분검색 장치 및 그 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080808

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110810

R150 Certificate of patent or registration of utility model

Ref document number: 4805267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250