JP4805267B2 - トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 - Google Patents
トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 Download PDFInfo
- Publication number
- JP4805267B2 JP4805267B2 JP2007525718A JP2007525718A JP4805267B2 JP 4805267 B2 JP4805267 B2 JP 4805267B2 JP 2007525718 A JP2007525718 A JP 2007525718A JP 2007525718 A JP2007525718 A JP 2007525718A JP 4805267 B2 JP4805267 B2 JP 4805267B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- document
- token
- documents
- instructions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 97
- 238000000034 method Methods 0.000 title claims description 37
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 22
- 238000013507 mapping Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本出願は、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、米国特許出願第10/917,745号明細書(2004年8月13日出願)、及び「トークンスペースレポジトリと共に使用されるドキュメント圧縮システム及び方法(Document Compression System and Method For Use With Tokenspace Repository)」と題された、米国特許出願第10/917,739号明細書(2004年8月13日出願)に関する。これらの出願は、その全体が参照により本明細書に援用されている。
開示されている実施形態は、一般に、データ処理システム及び方法、詳細には、関連付けられたインデックスを有するドキュメントコレクション(以下、「トークンスペースレポジトリ」とも呼ぶ)と共に使用される多段クエリ処理システム及び方法に関する。
情報検索システム(たとえば、サーチエンジン)は、ドキュメントコーパス(たとえば、ワールドワイドウェブ)から生成されたドキュメントのインデックスにクエリを突き合わせる。代表的な逆インデックスは、それぞれのドキュメント内のワードを、ドキュメント内のそれらの場所に対するポインタと共に、含む。ドキュメント処理システムは、自動又は手動プロセスを使用して、ドキュメントコーパスから検索された、ドキュメント、ページ、又はサイトのコンテンツを処理することにより、逆引きインデックスを準備する。ドキュメント処理システムはまた、ドキュメントのコンテンツ又はコンテンツの一部分を、クエリプロセッサがクエリに応答する場合に使用するためにレポジトリ内に格納することがある。
開示されている実施形態は、トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法を含む。多段クエリ処理システム及び方法により、多層マッピングスキームによって容易になった増分ドキュメントの再構築(incremental document reconstruction)による「スニペット(snippet)」の生成を含む、多段クエリスコアリングが使用可能となる。多段クエリ処理システムの1つ以上の段階で、1セットの関連性スコアが、順序付きリストとしてユーザに提示するための1サブセットのドキュメントを選択するのに使用される。その1セットの関連性スコアは、多段クエリ処理システムの前の段階で判断された1セット以上の関連性スコアから、一部導き出され得る。いくつかの実施形態においては、多段クエリ処理システムは、ユーザクエリで2つ以上のパスを実行することと、順序付きリスト内のドキュメントの関連性を向上させるために、それぞれのパスからの情報を使用して、その後のパスで使用するユーザクエリを拡張することとが可能である。
システム概説
図1は、情報検索システム100の実施形態を示すブロック図である。情報検索システム100は、ドキュメント処理システム102とクエリ処理システム104とを含む。情報検索システム100は、クエリに応答して情報を検索することが可能な、任意のシステムであり得る。これは、インターネット(たとえば、ワールドワイドウェブを介する)又はイントラネットなどの1つ以上のネットワークで、又は(たとえば、ファイル、電子メール、アプリケーションなどの)ユーザのコンピュータで局所的に、明示的な又は非明示的なドキュメントのサーチを遂行するための1つ以上のコンピュータシステムを含むが、これらに限定されるものではない。用語「ドキュメント」とは、ドキュメント、ウェブページ、Eメール、特定用途向けドキュメント及びデータ構造、インスタントメッセージング(IM)メッセージ、オーディオファイル、ビデオファイル、及び1つ以上のコンピュータシステムに常駐する他の任意のデータ又はアプリケーションを意味することに留意されたい。
ドキュメント処理システム102は、一般に、1つ以上のドキュメントレポジトリ106と、レキシコンジェネレータ(lexicon generator)108と、符号化/復号化システム110と、トークンスペースレポジトリ112とを含む。符号化/復号化システム110は、1つ以上のドキュメントレポジトリ106からドキュメントを検索し、そのドキュメントを構文解析(parse)してトークンを得て、レキシコンジェネレータ108からのマッピングを使用して、そのトークンを圧縮形式に符号化し、次いで、その符号化されたトークンをトークンスペースレポジトリ112内に格納する。
クエリ処理システム104は、符号化/復号化システム110に結合された1つ以上のクエリプロセッサ114と、トークンスペース逆インデックス116とを含む。トークンスペース逆インデックス116は、1セットのドキュメント内のすべてのGTokenIDを、ドキュメント内のそれらの位置にマッピングする。概念的には、逆インデックス116は、それぞれのGTokenIDのためのトークン位置のリストを含む。効率化のために、それぞれのGTokenIDのためのトークン位置のリストは、逆インデックスによって占有されるスペースの量を減少させるよう符号化される。
図2は、図1のレキシコンジェネレータ108の実施形態を示す概念ブロック図である。レキシコンジェネレータ108は、グローバルレキシコンビルダ202とミニレキシコンビルダ204とを含む。
グローバルレキシコンビルダ202は、ドキュメントレポジトリ106からドキュメントを検索し、ユニークなグローバルトークン識別子(GTokenID)をドキュメント内に含まれているそれぞれのユニークトークンに割り当てることによりグローバルレキシコン206を生成する。いくつかの実施形態においては、ドキュメントレポジトリ106は、(時にパーティションと呼ばれる)多くの部分に論理的に又は物理的に分けられ、それぞれのパーティションについて、別個のグローバルレキシコン206が生成される。一実施形態においては、数十億のドキュメントの1セットが数千のパーティションに分割され、そのそれぞれが処理されて、グローバルレキシコン206を生成する。代表的なグローバルレキシコン206が、数百万のユニークトークンを含み得る。
グローバルレキシコン206が生成された後、1セットのミニレキシコン208が、符号化/復号化システム110によって使用されるミニレキシコンビルダ204によって生成される。ミニレキシコン208内のそれぞれのエントリが、GTokenIDとこれに対応するローカルトークン識別子(LTokenID)とを含む。それぞれのエントリのためのLTokenIDは、ミニレキシコン208内のエントリの位置によって暗黙に定義されるので、明示的に格納される必要がない。それぞれの各ミニレキシコン208は、トークン化されたドキュメント内の、互いに異なる各特有の範囲のトークン位置を符号化し、復号するためにのみ使用されるので、同じセットのLTokenIDをそれぞれのミニレキシコン208によって使用することが可能となる。たとえば、ミニレキシコンビルダ204がドキュメントを通じて構文解析する時に出会う最初のP個のユニークトークンのために、P(たとえば、256)エントリを有する第1のミニレキシコン208(たとえば、ミニレキシコンA)が生成される。最初のP個のユニークトークンに出会うと、第1のミニレキシコン208が有効であるトークン位置の範囲のための、開始トークン位置、Start_PosAを含む、「有効範囲マップ(valid range map)」210の第1のエントリが作られる。第1のミニレキシコン208内のP個のLTokenIDのそれぞれが、ユニークなGTokenIDに割り当てられる。LTokenIDのすべてがGTokenIDに割り当てられた場合には、第2のミニレキシコン208(たとえば、ミニレキシコンB)が、ミニレキシコンビルダ204が出会う次のP個のユニークトークンのために生成され、第2のミニレキシコン208が有効である位置の範囲の、開始トークン位置、Start_PosBを含む、有効範囲マップ210の第2のエントリが作られる。したがって、Start_PosBからStart_PosC−1までの範囲内に入るトークン化されたドキュメント内の位置を有するトークンが、図2に示されているように、ミニレキシコンBを使用して復号され得る。
図3Aは、トークンスペースレポジトリのためのドキュメントを符号化するための符号化システム300の実施形態を示すブロック図である。符号化システム300は、オプションとしてのプリプロセッサ302と、オプションとしてのデルタエンコーダ304と、可変長データエンコーダ306とを含む。可変長データは、整数、文字列、浮動小数点数、固定小数点数などの様々なデータタイプを制限することなく含み得る。可変長データは、テキスト、画像、図形、オーディオサンプルなどを含むが、これらに制限されるものではない。
図3Bは、トークンスペースレポジトリ内のドキュメントを復号するための復号化システム308の実施形態を示すブロック図である。復号化システム308は、可変長データデコーダ310と、オプションとしてのデルタデコーダ312とを含む。いくつかの実施形態においては、符号化されたグループのデータが、可変長データデコーダ310によって受信される。可変長データデコーダ310は、1つ以上のオフセット/マスクテーブルの利用して、グループを復号する。復号されたデータは、デルタデコーダ312によって受信され、デルタデコーダ312は、ランニングサム(running sum)を計算し、これにより、元の情報のリストに相当する、デルタ復号されたデータが作成される。グループ符号化された可変長整数値を復号する際にオフセット/マスクテーブルを使用することが、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、同時係属中の米国特許出願第10/917,745号明細書(2004年8月13日出願)に詳しく記載されている。
図3Cは、ドキュメント属性を符号化する/復号するための属性符号化/復号化システム314の実施形態を示すブロック図である。属性符号化/復号化システム314は、符号化/復号化システム320を含む。符号化/復号化システム320は、属性情報322を符号化し、属性テーブル316内に格納するための属性レコード318を得る。ドキュメントの属性はトークン毎に判断され、0又は1ビット値が、所与のトークンのそれぞれの属性の有無を表すのに使用される。たとえば、属性テーブル内の属性レコード318が、A×Kビットマップとして概念的に表されることがある。ここで、Aは符号化された属性の数であり、Kはその属性がレコード318によって表されたトークンの数である。次いで、Aが8であり、Kが32である場合、それぞれの属性レコード318は、32のトークンのそれぞれについて8つの属性を格納する。それぞれの属性レコード318が、属性テーブルによって占有されるスペースの量を圧縮するように、また、クエリ処理中に、選択された属性レコードを非常に速く復号することが可能となるように、符号化される。属性レコード318を符号化する及び復号するための1つの好適な方法が、「可変長データを符号化する及び復号するシステム及び方法(System and Method For Encoding And Decoding Variable−Length Data)」と題された、同時係属中の米国特許出願第10/917,745号明細書(2004年8月13日出願)に記載されている。代替形態として、それぞれの属性レコード内の情報は、ランレングス符号化されることがある。
図8A及び図8Bは、トークン化されたドキュメントのコレクション(「トークンスペースレポジトリ」)が、上述した方法とはやや異なる方法で符号化される実施形態を示すブロック図である。上述したように、グローバルレキシコンビルダ202が、1セットのドキュメント106をトークン化し、すべてのユニークトークンを識別し、グローバルトークン識別子をすべてのユニークトークンに割り当てる。その結果がグローバルレキシコン206である。次に、(トークン化された)1セットのドキュメントが、領域レキシコンビルダ804によって処理される。概念的には、1セットのドキュメントは、領域820に分割され、それぞれの領域820がブロック822に分割される。領域レキシコンビルダ804は、それぞれの領域のための「レキシコン」又はディクショナリ830を構築し、符号化システム810が、それぞれの領域の1セットの符号化されたトークン832、さらに、それぞれの領域の1セットのブロックオフセット834を生成する。領域レキシコン830、符号化されたトークン832、ブロックオフセット834(次に、このそれぞれについてより詳細に記載する)が共に、1セットのドキュメントの各領域820の符号化された表現(representation)を形成する。
<type=copy,ptr=31,length=4>
となる。
図4は、トークンスペースレポジトリと共に使用されるクエリ処理システム104の第1段階の実施形態を示すブロック図である。クエリ処理システム104は、グローバルレキシコン402と、トークンスペース逆インデックス408と、第1段階ルックアップテーブル406と、第2段階ルックアップテーブル410とを含む。クエリ用語又はストリングが、グローバルレキシコン402によって受信され、グローバルレキシコン402は、グローバルレキシコン402のエントリから構築された翻訳テーブル又はマッピングを使用して、クエリ用語をGTokenIDに翻訳する。GTokenIDは、逆インデックス408によって受信される。逆インデックス408は、GTokenIDを逆インデックス408内に格納されているインデックスレコード412にマッピングするためのマップ404を含む。マップ404を使用して識別されるそれぞれのインデックスレコード412は、トークンスペースレポジトリ112内のトークン位置に直接対応する、トークン位置のリストを含む。いくつかの実施形態においては、逆インデックス408は、グローバルレキシコンが生成された後に生成され、ミニレキシコンを生成するのに使用されるのドキュメントを介して同じパス中に(during the same pass through the documents that is used to generate the mini-lexicons)生成されることがある。
図5は、トークンスペースレポジトリ524と共に使用される多段クエリ処理システム500の実施形態を示すブロック図である。いくつかの実施形態においては、クエリ処理システム500は、第1段階クエリプロセッサ510と、第2段階クエリプロセッサ514と、第3段階クエリプロセッサ518と、第4段階クエリプロセッサ520とを含む、クエリ処理及び関連性スコアを生成する4つの段階を含む。アプリケーションによって、より多くの又はより少ないクエリプロセッサ段階がシステム500において使用され得ることに留意されたい。それぞれの段階において、アプリケーションによって、ユーザに戻され得る及び/又は以前の段階で生成された関連性スコアと組み合わせられ得る、1セット以上の関連性スコアが計算される。
第1段階クエリプロセッサ510については、図4において一般に記載した。クエリストリング502は、トークン化され、クエリパーサ504により構文解析され、クエリ用語が得られる(即ち、クエリ内のそれぞれの互いに異なる用語がトークンとして扱われる)。トークン化されたクエリ用語は、図2及び図4について上述したように、グローバルレキシコン508により、翻訳テーブル又はマッピングを使用して、対応するGTokenIDに翻訳される。ユーザは、ブーリアン、隣接演算子、又は近接演算子を含む、クエリストリング内の特別な演算子を用いることがあるので、システム500は、クエリを構文解析して、クエリ用語及び演算子を得る。これらの演算子は、予約区切り(たとえば、引用符)、又は特別な形式(たとえば、AND、OR)の予約用語の形態で発生することがある。自然言語処理(NLP)システムの場合には、演算子は、たとえどのように表現されていても(たとえば、前置詞、接続詞、順序付けなど)、使用される言語において非明示的に認識され得る。ストップワード(たとえば、「a」、「the」など)を削除する及び用語の余分なものを切り捨てる(即ち、ワードの接尾語を取り除く)などの、他のクエリ処理も、第1段階クエリプロセッサ510内に含まれることがある。
第2段階クエリプロセッサ514は、第1段階クエリプロセッサ510から、1セットのDocID、これに対応するドキュメントのトークンスペースレポジトリ位置のリスト、及び、第1のセットの関連性スコアS1を受信する。第2段階クエリプロセッサ514は、その位置のリストを使用して、ドキュメント内で見つかったクエリ用語の近接度又は相対位置に基づく第2のセットの関連性スコアS2を生成する。ドキュメント内でクエリ内の用語が互いの近くで発生した場合には、用語がより大きい距離を隔てて発生した場合に比べて、そのドキュメントがそのクエリに関連している可能性が高い。したがって、第2のセットの関連性スコアS2は、クエリ用語が互いに隣接して又は密接して発生した場合、用語が距離を隔てて発生するドキュメントと比較して、ドキュメントをより高くランク付けするのに使用される。いくつかの実施形態においては、第2のセットの関連性スコアS2は、ユーザに順序付きリストとして提示するための、トップX個のドキュメントを選択するのに使用され得る。次いで、ユーザは、選択されたドキュメントに対する内部ポインタを単にクリックして、たどることができる。いくつかの実施形態においては、第2のセットの関連性スコアS2は、ユーザに提示するために及び/又は第3段階クエリプロセッサ518によってさらに処理するために、(第2のセットの関連性スコアS2に従って順序付けられた)ドキュメントの順序付きリストを生成すべく、(たとえば、第2段階クエリプロセッサ514によって使用される追加のスコアリング因子に従ってスコアS1を調整することにより)第1のセットの関連性スコアS1から一部導き出される。
いくつかの実施形態においては、図3Cについて上述したように、第2段階クエリプロセッサ514は、属性テーブル522内で符号化されている用語属性(たとえば、フォント属性、タイトル、ヘッディング、メタデータなど)を取り扱うために、第3段階クエリプロセッサ518に結合される。第3段階クエリプロセッサ518は、第2段階クエリプロセッサ514から、1セットのDocID、これに対応するドキュメントのためのトークンスペースレポジトリ位置のリスト、及び、第2のセットの関連性スコアS2を受信する。代替形態として、第3段階クエリプロセッサは、第1のセットの関連性スコアS1及び第2のセットの関連性スコアS2を受信する。
第4段階クエリプロセッサ520は、第3段階クエリプロセッサ518から、1セットのDocID、そのDocIDに対応するドキュメント内の位置のリスト、及び、第3のセットの関連性スコアS3を受信する。第4段階クエリプロセッサ520は、任意に、第1の及び/又は第2のセットの関連性スコアS1及びS2も受信することがある。第4段階クエリプロセッサ520は復号化システム527に結合され、この復号化システム527は、1つ以上のミニレキシコンマップ523、トークンスペースレポジトリ524、及び1つ以上のグローバルレキシコンマップ508に結合される。ミニレキシコンマップ523、トークンスペースレポジトリ524、及びグローバルレキシコンマップ508についてはすべて、図1及び図2において上述した。
図6は、トークンスペースレポジトリサーバ600の実施形態を示すブロック図である。サーバ600は、スタンドアロンコンピュータシステム、又は多くのコンピュータシステムを含む分散型処理システムの一部であり得る。サーバ600は、一般に、1つ以上の演算処理装置(CPU)604と、1つ以上のネットワーク又は他の通信インターフェース608と、メモリ602と、これらの構成要素と相互接続するための1つ以上の通信バス606とを含む。サーバ600は、任意に、ユーザインターフェース、たとえばディスプレイ及びキーボードを含むことがある。メモリ602は、高速ランダムアクセスメモリを含み、また、1つ以上の磁気ディスク記憶装置などの不揮発性メモリを含むことがある。メモリ602は、中央演算処理装置604から遠隔に置かれている大容量記憶装置を含むことがある。
有効範囲マップ626(たとえば、有効範囲マップ210)を格納する。これらの構成要素のそれぞれのオペレーションについては、図1〜図5において上述した。
図7は、クエリ処理サーバ700の実施形態を示すブロック図である。サーバ700は、スタンドアロンコンピュータシステム、又は多くのコンピュータシステムを含む分散型処理システムの一部であり得る。サーバ700は、一般に、1つ以上の演算処理装置(CPU)704と、1つ以上のネットワーク又は他の通信インターフェース708と、メモリ702と、これらの構成要素と相互接続するための1つ以上の通信バス706とを含む。サーバ700は、任意に、ユーザインターフェース、たとえばディスプレイ及びキーボードを含むことがある。メモリ702は、高速ランダムアクセスメモリを含み、また、1つ以上の磁気ディスク記憶装置などの不揮発性メモリを含むことがある。メモリ702は、中央演算処理装置704から遠隔に置かれている大容量記憶装置を含むことがある。
Claims (21)
- 多段クエリ処理システムにおいてクエリを処理する方法であって、
前記多段クエリ処理システムは、1つ以上のプロセッサと、前記方法を実行するために前記1つ以上のプロセッサによって実行される1つ以上のプログラムを格納するメモリとを有し、
前記1つ以上のプロセッサによって実行される第1のクエリ処理ステップであって、
前記1つ以上のプロセッサが、1つ以上のクエリ用語に応答してインデックスから第1のセットのドキュメント識別子を検索するステップと、
前記1つ以上のプロセッサが、クエリ用語の存在、用語頻度、ドキュメントの普及度のうち1つ以上に基づいて、前記第1のセットのドキュメント識別子の少なくとも1サブセットに対応する第1のセットの圧縮ドキュメントのために第1のセットの関連性スコアを生成し、前記第1のセットの関連性スコアを前記メモリに格納するステップと、を含む第1のクエリ処理ステップと、
前記1つ以上のプロセッサによって実行される第2のクエリ処理ステップであって、
前記1つ以上のプロセッサが、トークン位置のリスト、ドキュメントにおけるクエリ用語間の距離、ドキュメントにおけるトークンの属性、前記第1のセットの圧縮ドキュメントの1ドキュメントにおいて使用されるクエリ用語の周囲に現れるテキストのうち1つ以上に基づいて、前記第1のセットの圧縮ドキュメントのために第2のセットの関連性スコアを生成し、前記第2のセットの関連性スコアを前記メモリに格納するステップを含む第2のクエリ処理ステップと、
前記1つ以上のプロセッサが、前記メモリから前記第1及び第2のセットの関連性スコアを読み出し、前記第1及び第2のセットの関連性スコアに基づいて更に処理するためにドキュメントの順序付きリストを生成するステップと、
前記1つ以上のプロセッサが、前記順序付きリストのドキュメントから、追加のクエリ用語を自動的に生成するステップと、
前記1つ以上のプロセッサが、前記追加のクエリ用語を使用して、新しいクエリを作成するステップと、
前記1つ以上のプロセッサが、前記インデックスから第2のセットのドキュメント識別子を検索するために、かつ、前記追加のクエリ用語に少なくとも一部基づく第3のセットの関連性スコアを生成するために、前記新しいクエリを処理するステップと、
前記1つ以上のプロセッサが、前記第3のセットの関連性スコアを用いて、ユーザに提示するための1セットの上位のドキュメントを選択するステップと、
を含む方法。 - 前記第2のセットの関連性スコアは、ドキュメントにおけるトークンの属性に少なくとも基づいており、前記属性は、ドキュメントにおけるトークンのフォント属性を含んでいる、請求項1記載の方法。
- 前記第1のセットのドキュメント識別子は、1セットの圧縮ドキュメントを格納するトークンスペースレポジトリにおける、クエリ用語に対応するトークンの場所に対応している、請求項1記載の方法。
- 前記第1のセットのドキュメント識別子を検索するステップは、前記インデックスを用いて前記1以上のクエリ用語のトークン位置のリストを生成し、前記トークン位置に対応する1セットのドキュメント識別子を作成するためのマップにアクセスするステップを含む、請求項1記載の方法。
- 前記1つ以上のプロセッサが、第2のセットのトークンを回復するために、前記1セットの圧縮ドキュメントの少なくとも一部分を復元するステップであって、前記第2のセットの回復されたトークンが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメントの位置に関連付けられる、ステップと、
前記1つ以上のプロセッサが、前記第2のセットの回復されたトークンを使用して、前記1セットの圧縮ドキュメントの1つ以上の部分を再構築するステップとをさらに含む請求項1乃至4のいずれか1項に記載の方法。 - 前記1つ以上のプロセッサが、前記順序付きリストの上位のドキュメントのセットにおいて、前記再構築された部分をユーザに提示するステップをさらに含む請求項5に記載の方法。
- 前記第3のセットの関連性スコアが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の前記クエリ用語の1つ以上の位置に基づく請求項1乃至4のいずれか1項に記載の方法。
- 1つ以上のプロセッサと、少なくとも1つの前記プロセッサによって実行される1つ以上のプログラムを格納するメモリと、を有する多段クエリ処理システムであって、
前記1つ以上のプログラムは、
第1のクエリ処理段階のための命令であって、
1つ以上のクエリ用語に応答してインデックスから第1のセットのドキュメント識別子を検索するための命令と、
クエリ用語の存在、用語頻度、ドキュメントの普及度のうち1つ以上に基づいて、前記第1のセットのドキュメント識別子の少なくとも1サブセットに対応する第1のセットの圧縮ドキュメントのために第1のセットの関連性スコアを生成し、前記第1のセットの関連性スコアを前記メモリに格納するための命令とを含む、第1のクエリ処理段階を実行するための命令と、
第2のクエリ処理段階のための命令であって、
トークン位置のリスト、ドキュメントにおけるクエリ用語間の距離、ドキュメントにおけるトークンの属性、前記第1のセットの圧縮ドキュメントの1ドキュメントにおいて使用されるクエリ用語の周囲に現れるテキストのうち1つ以上に基づいて、前記第1のセットの圧縮ドキュメントのために第2のセットの関連性スコアを生成し、前記第2のセットの関連性スコアを前記メモリに格納するための命令を含む、第2のクエリ処理段階を実行するための命令と、
前記メモリから前記第1及び第2のセットの関連性スコアを読み出し、前記第1及び第2のセットの関連性スコアに基づいて更に処理するためにドキュメントの順序付きリストを生成するための命令と、
前記順序付きリストのドキュメントから、追加のクエリ用語を自動的に生成するための命令と、
前記追加のクエリ用語を使用して、新しいクエリを作成するための命令と、
前記インデックスから第2のセットのドキュメント識別子を検索するために、かつ、前記追加のクエリ用語に少なくとも一部基づいて第3のセットの関連性スコアを生成するために、前記新しいクエリを処理するための命令と、
前記第3のセットの関連性スコアを用いて、ユーザに提示するための1セットの上位のドキュメントを選択するための命令と、を含む、多段クエリ処理システム。 - 前記第2のセットの関連性スコアは、ドキュメントにおけるトークンの属性に少なくとも基づいており、前記属性は、ドキュメントにおけるトークンのフォント属性を含んでいる、請求項8記載のシステム。
- 前記第1のセットのドキュメント識別子は、1セットの圧縮ドキュメントを格納するトークンスペースレポジトリにおける、クエリ用語に対応するトークンの場所に対応している、請求項8記載のシステム。
- 前記第1のセットのドキュメント識別子を検索するための命令は、前記インデックスを用いて前記1以上のクエリ用語のトークン位置のリストを生成し、前記トークン位置に対応する1セットのドキュメント識別子を作成するためのマップにアクセスする命令を含む、請求項8記載のシステム。
- 前記1つ以上のプログラムは、
第2のセットのトークンを回復するために、前記1セットの圧縮ドキュメントの少なくとも一部分を復元する命令であって、前記第2のセットの回復されたトークンが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の位置に関連付けられる、命令と、
前記第2のセットの回復されたトークンを使用して、前記1セットの圧縮ドキュメントの1つ以上の部分を再構築する命令とをさらに含む請求項8乃至11にいずれか1項に記載のシステム。 - 前記1つ以上のプログラムは、
前記順序付きリストの上位のドキュメントのセットにおいて、前記再構築された部分をユーザに提示する手段をさらに含む請求項12に記載のシステム。 - 前記第3のセットの関連性スコアが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の前記クエリ用語の1つ以上の位置に基づく請求項8乃至11にいずれか1項に記載のシステム。
- 1つ以上のプロセッサによって実行される1つ以上の格納されたプログラムを有する、コンピュータ読取可能記憶媒体であって、前記1つ以上のプログラムが、
第1のクエリ処理段階のためのコンピュータ実行可能命令であって、
1つ以上のクエリ用語に応答してインデックスから第1のセットのドキュメント識別子を検索するための命令と、
クエリ用語の存在、用語頻度、ドキュメントの普及度のうち1つ以上に基づいて、前記第1のセットのドキュメント識別子の少なくとも1サブセットに対応する第1のセットの圧縮ドキュメントのために第1のセットの関連性スコアを生成し、前記第1のセットの関連性スコアを前記メモリに格納するための命令とを含む、第1のクエリ処理段階のためのコンピュータ実行可能命令と、
第2のクエリ処理段階のためのコンピュータ実行可能命令であって、
トークン位置のリスト、ドキュメントにおけるクエリ用語間の距離、ドキュメントにおけるトークンの属性、前記第1のセットの圧縮ドキュメントの1ドキュメントにおいて使用されるクエリ用語の周囲に現れるテキストのうち1つ以上に基づいて、前記第1のセットの圧縮ドキュメントのために第2のセットの関連性スコアを生成し、前記第2のセットの関連性スコアを前記メモリに格納するための命令を含む、第2のクエリ処理段階を実行するためのコンピュータ実行可能命令と、
前記メモリから前記第1及び第2のセットの関連性スコアを読み出し、前記第1及び第2のセットの関連性スコアに基づいて更に処理するためにドキュメントの順序付きリストを生成するためのコンピュータ実行可能命令と、
前記順序付きリストのドキュメントから、追加のクエリ用語を自動的に生成するためのコンピュータ実行可能命令と、
前記追加のクエリ用語を使用して、新しいクエリを作成するためのコンピュータ実行可能命令と、
前記インデックスから第2のセットのドキュメント識別子を検索するために、かつ、前記追加のクエリ用語に少なくとも一部基づいて第3のセットの関連性スコアを生成するために、前記新しいクエリを処理するためのコンピュータ実行可能命令と、
前記第3のセットの関連性スコアを用いて、ユーザに提示するための1セットの上位のドキュメントを選択するためのコンピュータ実行可能命令と、
を含む、コンピュータ読取可能記憶媒体。 - 前記第2のセットの関連性スコアは、ドキュメントにおけるトークンの属性に少なくとも基づいており、前記属性は、ドキュメントにおけるトークンのフォント属性を含んでいる、請求項15記載のコンピュータ読取可能記憶媒体。
- 前記第1のセットのドキュメント識別子は、1セットの圧縮ドキュメントを格納するトークンスペースレポジトリにおける、クエリ用語に対応するトークンの場所に対応している、請求項15記載のコンピュータ読取可能記憶媒体。
- 前記第1のセットのドキュメント識別子を検索するための命令は、前記インデックスを用いて前記1以上のクエリ用語のトークン位置のリストを生成し、前記トークン位置に対応する1セットのドキュメント識別子を作成するためのマップにアクセスする命令を含む、請求項15記載のコンピュータ読取可能記憶媒体。
- 前記1つ以上のプログラムはさらに、
第2のセットのトークンを回復するために、前記1セットの圧縮ドキュメントの少なくとも一部分を復元するためのコンピュータ実行可能命令であって、前記第2のセットの回復されたトークンが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメントの位置に関連付けられる、命令と、
前記第2のセットの回復されたトークンを使用して、前記1セットの圧縮ドキュメントの1つ以上の部分を再構築するためのコンピュータ実行可能命令とをさらに含む請求項15乃至18のいずれか1項に記載のコンピュータ読取可能記憶媒体。 - 前記1つ以上のプログラムは、
前記順序付きリストの上位のドキュメントのセットにおいて、前記再構築された部分をユーザに提示するためのコンピュータ実行可能命令をさらに含む請求項19に記載のコンピュータ読取可能記憶媒体。 - 前記第3のセットの関連性スコアが、前記第2のセットのドキュメント識別子に対応する前記1セットの圧縮ドキュメント内の前記クエリ用語の1つ以上の位置に基づく請求項15乃至18のいずれか1項に記載のコンピュータ読取可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/917,746 US8407239B2 (en) | 2004-08-13 | 2004-08-13 | Multi-stage query processing system and method for use with tokenspace repository |
US10/917,746 | 2004-08-13 | ||
PCT/US2005/028192 WO2006020595A1 (en) | 2004-08-13 | 2005-08-08 | Multi-stage query processing system and method for use with tokenspace repository |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008510228A JP2008510228A (ja) | 2008-04-03 |
JP2008510228A5 JP2008510228A5 (ja) | 2008-09-25 |
JP4805267B2 true JP4805267B2 (ja) | 2011-11-02 |
Family
ID=35462201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007525718A Active JP4805267B2 (ja) | 2004-08-13 | 2005-08-08 | トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8407239B2 (ja) |
EP (1) | EP1779273B1 (ja) |
JP (1) | JP4805267B2 (ja) |
KR (1) | KR101157693B1 (ja) |
CN (3) | CN101799834A (ja) |
WO (1) | WO2006020595A1 (ja) |
Families Citing this family (167)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7584175B2 (en) * | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US8051096B1 (en) | 2004-09-30 | 2011-11-01 | Google Inc. | Methods and systems for augmenting a token lexicon |
US20070050467A1 (en) * | 2005-04-06 | 2007-03-01 | Chris Borrett | Digital asset management system, including customizable metadata model for asset cataloging and permissioning of digital assets, such as for use with digital images and songs |
US8209724B2 (en) * | 2007-04-25 | 2012-06-26 | Samsung Electronics Co., Ltd. | Method and system for providing access to information of potential interest to a user |
US20080235209A1 (en) * | 2007-03-20 | 2008-09-25 | Samsung Electronics Co., Ltd. | Method and apparatus for search result snippet analysis for query expansion and result filtering |
US8200688B2 (en) * | 2006-03-07 | 2012-06-12 | Samsung Electronics Co., Ltd. | Method and system for facilitating information searching on electronic devices |
US8863221B2 (en) * | 2006-03-07 | 2014-10-14 | Samsung Electronics Co., Ltd. | Method and system for integrating content and services among multiple networks |
US8115869B2 (en) | 2007-02-28 | 2012-02-14 | Samsung Electronics Co., Ltd. | Method and system for extracting relevant information from content metadata |
US8843467B2 (en) * | 2007-05-15 | 2014-09-23 | Samsung Electronics Co., Ltd. | Method and system for providing relevant information to a user of a device in a local network |
US8510453B2 (en) * | 2007-03-21 | 2013-08-13 | Samsung Electronics Co., Ltd. | Framework for correlating content on a local network with information on an external network |
US7805424B2 (en) * | 2006-04-12 | 2010-09-28 | Microsoft Corporation | Querying nested documents embedded in compound XML documents |
US20070271228A1 (en) * | 2006-05-17 | 2007-11-22 | Laurent Querel | Documentary search procedure in a distributed system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
WO2008058218A2 (en) * | 2006-11-08 | 2008-05-15 | Seeqpod, Inc. | Matching and recommending relevant videos and media to individual search engine results |
US7908281B2 (en) * | 2006-11-22 | 2011-03-15 | Architecture Technology Corporation | Dynamic assembly of information pedigrees |
US8935269B2 (en) * | 2006-12-04 | 2015-01-13 | Samsung Electronics Co., Ltd. | Method and apparatus for contextual search and query refinement on consumer electronics devices |
US20090055393A1 (en) * | 2007-01-29 | 2009-02-26 | Samsung Electronics Co., Ltd. | Method and system for facilitating information searching on electronic devices based on metadata information |
US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008124536A1 (en) | 2007-04-04 | 2008-10-16 | Seeqpod, Inc. | Discovering and scoring relationships extracted from human generated lists |
US9286385B2 (en) | 2007-04-25 | 2016-03-15 | Samsung Electronics Co., Ltd. | Method and system for providing access to information of potential interest to a user |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
US8768932B1 (en) * | 2007-05-14 | 2014-07-01 | Google Inc. | Method and apparatus for ranking search results |
WO2009003124A1 (en) | 2007-06-26 | 2008-12-31 | Seeqpod, Inc. | Media discovery and playlist generation |
US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8176068B2 (en) | 2007-10-31 | 2012-05-08 | Samsung Electronics Co., Ltd. | Method and system for suggesting search queries on electronic devices |
US8775441B2 (en) * | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US8126929B2 (en) * | 2008-03-27 | 2012-02-28 | International Business Machines Corporation | Method and apparatus for encoding list of variable length structures to support bi-directional scans |
US9253154B2 (en) | 2008-08-12 | 2016-02-02 | Mcafee, Inc. | Configuration management for a capture/registration system |
US20100042610A1 (en) * | 2008-08-15 | 2010-02-18 | Microsoft Corporation | Rank documents based on popularity of key metadata |
US8938465B2 (en) * | 2008-09-10 | 2015-01-20 | Samsung Electronics Co., Ltd. | Method and system for utilizing packaged content sources to identify and provide information based on contextual information |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101514756B1 (ko) | 2008-10-23 | 2015-04-23 | 아브 이니티오 테크놀로지 엘엘시 | 데이터 요소를 클러스터링하는 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체 |
US8473442B1 (en) | 2009-02-25 | 2013-06-25 | Mcafee, Inc. | System and method for intelligent state management |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US20110022600A1 (en) * | 2009-07-22 | 2011-01-27 | Ecole Polytechnique Federale De Lausanne Epfl | Method of data retrieval, and search engine using such a method |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US20130166303A1 (en) * | 2009-11-13 | 2013-06-27 | Adobe Systems Incorporated | Accessing media data using metadata repository |
US8739262B2 (en) * | 2009-12-18 | 2014-05-27 | Sabre Glbl Inc. | Tokenized data security |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US20110184946A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Applying synonyms to unify text search with faceted browsing classification |
US10956475B2 (en) * | 2010-04-06 | 2021-03-23 | Imagescan, Inc. | Visual presentation of search results |
US9489350B2 (en) | 2010-04-30 | 2016-11-08 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US9623119B1 (en) * | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
US8806615B2 (en) * | 2010-11-04 | 2014-08-12 | Mcafee, Inc. | System and method for protecting specified data combinations |
US10515147B2 (en) * | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US9069767B1 (en) | 2010-12-28 | 2015-06-30 | Amazon Technologies, Inc. | Aligning content items to identify differences |
US9846688B1 (en) | 2010-12-28 | 2017-12-19 | Amazon Technologies, Inc. | Book version mapping |
US8798366B1 (en) | 2010-12-28 | 2014-08-05 | Amazon Technologies, Inc. | Electronic book pagination |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
BR112013016608A2 (pt) * | 2011-01-04 | 2016-09-27 | Thomson Licensing | translação automática de critério de busca por plugue universal e reprodução |
US8510860B2 (en) | 2011-03-15 | 2013-08-13 | Architecture Technology Corporation | Local storage of information pedigrees |
US9881009B1 (en) | 2011-03-15 | 2018-01-30 | Amazon Technologies, Inc. | Identifying book title sets |
US9824138B2 (en) * | 2011-03-25 | 2017-11-21 | Orbis Technologies, Inc. | Systems and methods for three-term semantic search |
DE102011101146A1 (de) * | 2011-05-11 | 2012-11-15 | Abb Technology Ag | Mehrstufiges Verfahren und Einrichtung zum interaktiven Auffinden von Gerätedaten eines Automatisierungssystem |
US8812496B2 (en) * | 2011-10-24 | 2014-08-19 | Xerox Corporation | Relevant persons identification leveraging both textual data and social context |
KR102031392B1 (ko) | 2011-11-15 | 2019-11-08 | 아브 이니티오 테크놀로지 엘엘시 | 후보 쿼리들에 기반한 데이터 클러스터링 |
US8862605B2 (en) * | 2011-11-18 | 2014-10-14 | International Business Machines Corporation | Systems, methods and computer program products for discovering a text query from example documents |
US20130246336A1 (en) | 2011-12-27 | 2013-09-19 | Mcafee, Inc. | System and method for providing data protection workflows in a network environment |
WO2013123632A1 (en) * | 2012-02-20 | 2013-08-29 | Thomson Licensing | Component sorting based encoding for 3d mesh compression |
US9177171B2 (en) * | 2012-03-11 | 2015-11-03 | International Business Machines Corporation | Access control for entity search |
US9015080B2 (en) | 2012-03-16 | 2015-04-21 | Orbis Technologies, Inc. | Systems and methods for semantic inference and reasoning |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8805848B2 (en) * | 2012-05-24 | 2014-08-12 | International Business Machines Corporation | Systems, methods and computer program products for fast and scalable proximal search for search queries |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US8751477B2 (en) * | 2012-10-05 | 2014-06-10 | Iac Search & Media, Inc. | Quality control system for providing results in response to queries |
US9189531B2 (en) | 2012-11-30 | 2015-11-17 | Orbis Technologies, Inc. | Ontology harmonization and mediation systems and methods |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9235626B2 (en) | 2013-03-13 | 2016-01-12 | Google Inc. | Automatic generation of snippets based on context and user interest |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10366149B2 (en) * | 2013-03-15 | 2019-07-30 | Wolfram Research, Inc. | Multimedia presentation authoring tools |
US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
CN103136372B (zh) * | 2013-03-21 | 2016-03-02 | 陕西通信信息技术有限公司 | 网络可信性行为管理中url快速定位、分类和过滤方法 |
US9268823B2 (en) | 2013-05-10 | 2016-02-23 | International Business Machines Corporation | Partial match derivation using text analysis |
US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
US20140366091A1 (en) * | 2013-06-07 | 2014-12-11 | Amx, Llc | Customized information setup, access and sharing during a live conference |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9298852B2 (en) | 2013-06-27 | 2016-03-29 | Google Inc. | Reranking query completions |
US10169711B1 (en) | 2013-06-27 | 2019-01-01 | Google Llc | Generalized engine for predicting actions |
US9195703B1 (en) | 2013-06-27 | 2015-11-24 | Google Inc. | Providing context-relevant information to users |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
CN104378295B (zh) * | 2013-08-12 | 2019-03-26 | 中兴通讯股份有限公司 | 表项管理装置及表项管理方法 |
US9146918B2 (en) | 2013-09-13 | 2015-09-29 | International Business Machines Corporation | Compressing data for natural language processing |
US9229987B2 (en) | 2013-09-30 | 2016-01-05 | Protegrity Corporation | Mapping between tokenization domains |
US10210156B2 (en) | 2014-01-10 | 2019-02-19 | International Business Machines Corporation | Seed selection in corpora compaction for natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10362133B1 (en) * | 2014-12-22 | 2019-07-23 | Palantir Technologies Inc. | Communication data processing architecture |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10242008B2 (en) | 2015-07-06 | 2019-03-26 | International Business Machines Corporation | Automatic analysis of repository structure to facilitate natural language queries |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN105335493B (zh) * | 2015-10-21 | 2017-08-29 | 广州神马移动信息科技有限公司 | 一种分层过滤文档的方法及装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
RU2632134C2 (ru) * | 2015-12-28 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система обработки поисковых запросов |
WO2017131753A1 (en) * | 2016-01-29 | 2017-08-03 | Entit Software Llc | Text search of database with one-pass indexing including filtering |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10282369B2 (en) * | 2017-03-08 | 2019-05-07 | Centri Technology, Inc. | Fast indexing and searching of encoded documents |
US10423638B2 (en) | 2017-04-27 | 2019-09-24 | Google Llc | Cloud inference system |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US11411578B1 (en) * | 2017-12-31 | 2022-08-09 | Teradata Us, Inc. | Bit reordering compression |
US10990630B2 (en) * | 2018-02-27 | 2021-04-27 | International Business Machines Corporation | Generating search results based on non-linguistic tokens |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN111368057B (zh) * | 2020-03-05 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 词组查询方法、装置、计算机设备以及存储介质 |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US20240086911A1 (en) * | 2022-09-12 | 2024-03-14 | Bank Of America Corporation | Systems, methods, and apparatuses for tracking and logging resource transfers via a distributed network |
US11861320B1 (en) * | 2023-02-27 | 2024-01-02 | Casetext, Inc. | Text reduction and analysis interface to a text generation modeling system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208453A (ja) * | 1992-08-13 | 1994-07-26 | Xerox Corp | テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法 |
JPH09218881A (ja) * | 1996-02-09 | 1997-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 追加検索語候補提示方法、文書検索方法およびそれらの装置 |
JP2000137730A (ja) * | 1998-11-02 | 2000-05-16 | Ricoh Co Ltd | 文書検索装置、文書検索方法及び文書検索プログラムを記録した媒体 |
JP2003242170A (ja) * | 2002-02-15 | 2003-08-29 | Ricoh Co Ltd | 文書検索装置、文書検索方法および記録媒体 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU603453B2 (en) | 1987-05-25 | 1990-11-15 | Megaword International Pty. Ltd. | A method of processing a text in order to store the text in memory |
JPH03266039A (ja) | 1990-03-16 | 1991-11-27 | Fujitsu Ltd | フリーフォーマットデータリンク処理方式 |
CA2124752C (en) | 1993-06-30 | 2005-04-12 | Mark Zbikowski | Meta-data structure and handling |
US5488364A (en) | 1994-02-28 | 1996-01-30 | Sam H. Eulmi | Recursive data compression |
JPH08255155A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 全文登録語検索装置および方法 |
US5855015A (en) * | 1995-03-20 | 1998-12-29 | Interval Research Corporation | System and method for retrieval of hyperlinked information resources |
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
JPH1049549A (ja) | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
US5946716A (en) | 1996-05-30 | 1999-08-31 | Hewlett-Packard Company | Sectored virtual memory management system and translation look-aside buffer (TLB) for the same |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6233575B1 (en) | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US5987457A (en) * | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US5991713A (en) | 1997-11-26 | 1999-11-23 | International Business Machines Corp. | Efficient method for compressing, storing, searching and transmitting natural language text |
US6055526A (en) * | 1998-04-02 | 2000-04-25 | Sun Microsystems, Inc. | Data indexing technique |
US6388585B1 (en) | 1998-08-11 | 2002-05-14 | Matsushita Electric Ind Co Ltd | Method for data compression and decompression using decompression instructions |
US6885319B2 (en) | 1999-01-29 | 2005-04-26 | Quickshift, Inc. | System and method for generating optimally compressed data from a plurality of data compression/decompression engines implementing different data compression algorithms |
US6631373B1 (en) | 1999-03-02 | 2003-10-07 | Canon Kabushiki Kaisha | Segmented document indexing and search |
US6353825B1 (en) * | 1999-07-30 | 2002-03-05 | Verizon Laboratories Inc. | Method and device for classification using iterative information retrieval techniques |
AU2001249123A1 (en) * | 2000-03-15 | 2001-09-24 | Hiawatha Island Software Co., Inc. | System and method for providing computer network search services |
US6553457B1 (en) | 2000-04-19 | 2003-04-22 | Western Digital Technologies, Inc. | Tag memory disk cache architecture |
US6728722B1 (en) | 2000-08-28 | 2004-04-27 | Sun Microsystems, Inc. | General data structure for describing logical data spaces |
US6563439B1 (en) | 2000-10-31 | 2003-05-13 | Intel Corporation | Method of performing Huffman decoding |
US20020091671A1 (en) | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
US7092936B1 (en) | 2001-08-22 | 2006-08-15 | Oracle International Corporation | System and method for search and recommendation based on usage mining |
US6832294B2 (en) | 2002-04-22 | 2004-12-14 | Sun Microsystems, Inc. | Interleaved n-way set-associative external cache |
US20030204500A1 (en) * | 2002-04-25 | 2003-10-30 | Jean-Francois Delpech | Process and apparatus for automatic retrieval from a database and for automatic enhancement of such database |
US8374958B2 (en) | 2002-08-29 | 2013-02-12 | Alcatel Lucent | Method and apparatus for the payment of internet content |
JP4154971B2 (ja) | 2002-09-18 | 2008-09-24 | 富士ゼロックス株式会社 | 画像処理装置 |
US7287025B2 (en) | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
US20040225497A1 (en) | 2003-05-05 | 2004-11-11 | Callahan James Patrick | Compressed yet quickly searchable digital textual data format |
US20050210009A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for intellectual property management |
US8612208B2 (en) * | 2004-04-07 | 2013-12-17 | Oracle Otc Subsidiary Llc | Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query |
US20060036599A1 (en) * | 2004-08-09 | 2006-02-16 | Glaser Howard J | Apparatus, system, and method for identifying the content representation value of a set of terms |
-
2004
- 2004-08-13 US US10/917,746 patent/US8407239B2/en active Active
-
2005
- 2005-08-08 EP EP05784308.8A patent/EP1779273B1/en active Active
- 2005-08-08 KR KR1020077005777A patent/KR101157693B1/ko active IP Right Grant
- 2005-08-08 WO PCT/US2005/028192 patent/WO2006020595A1/en active Application Filing
- 2005-08-08 CN CN201010144526A patent/CN101799834A/zh active Pending
- 2005-08-08 JP JP2007525718A patent/JP4805267B2/ja active Active
- 2005-08-08 CN CN201110121210.2A patent/CN102142038B/zh active Active
- 2005-08-08 CN CNA2005800341289A patent/CN101036143A/zh active Pending
-
2013
- 2013-03-26 US US13/851,036 patent/US9146967B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208453A (ja) * | 1992-08-13 | 1994-07-26 | Xerox Corp | テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法 |
JPH09218881A (ja) * | 1996-02-09 | 1997-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 追加検索語候補提示方法、文書検索方法およびそれらの装置 |
JP2000137730A (ja) * | 1998-11-02 | 2000-05-16 | Ricoh Co Ltd | 文書検索装置、文書検索方法及び文書検索プログラムを記録した媒体 |
JP2003242170A (ja) * | 2002-02-15 | 2003-08-29 | Ricoh Co Ltd | 文書検索装置、文書検索方法および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR20070049664A (ko) | 2007-05-11 |
CN101036143A (zh) | 2007-09-12 |
US20060036593A1 (en) | 2006-02-16 |
KR101157693B1 (ko) | 2012-06-21 |
CN102142038A (zh) | 2011-08-03 |
US8407239B2 (en) | 2013-03-26 |
JP2008510228A (ja) | 2008-04-03 |
CN102142038B (zh) | 2014-05-28 |
US20130212092A1 (en) | 2013-08-15 |
EP1779273A1 (en) | 2007-05-02 |
WO2006020595A1 (en) | 2006-02-23 |
CN101799834A (zh) | 2010-08-11 |
EP1779273B1 (en) | 2019-06-19 |
US9146967B2 (en) | 2015-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4805267B2 (ja) | トークンスペースレポジトリと共に使用される多段クエリ処理システム及び方法 | |
US9619565B1 (en) | Generating content snippets using a tokenspace repository | |
US8175875B1 (en) | Efficient indexing of documents with similar content | |
JP5415529B2 (ja) | 検索インデックスフォーマットの最適化 | |
US6212525B1 (en) | Hash-based system and method with primary and secondary hash functions for rapidly identifying the existence and location of an item in a file | |
US8838551B2 (en) | Multi-level database compression | |
Williams et al. | What's Next? Index Structures for Efficient Phrase Querying. | |
US7319994B1 (en) | Document compression scheme that supports searching and partial decompression | |
He et al. | Compact full-text indexing of versioned document collections | |
Cannane et al. | General‐purpose compression for efficient retrieval | |
Kocberber et al. | Compressed multi-framed signature files: an index structure for fast information retrieval | |
Al-Jedady et al. | Fast arabic query matching for compressed arabic inverted indices | |
KR19990084950A (ko) | 역화일을 이용한 데이터 부분검색 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080808 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101110 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110204 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4805267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |