JP4263371B2

JP4263371B2 - 文書をパージングするシステム及び方法

Info

Publication number: JP4263371B2
Application number: JP2000611158A
Authority: JP
Inventors: クロードヴォーゲル
Original assignee: セミオコーポレイション
Priority date: 1999-04-09
Filing date: 2000-04-06
Publication date: 2009-05-13
Anticipated expiration: 2020-04-06
Also published as: HK1047802B; HK1047802A1; EP1214643A4; US6424982B1; JP2008251003A; WO2000062155A1; ATE489681T1; JP2002541580A; AU4334500A; CA2366485C; CA2366485A1; EP1214643B1; EP1214643A1; DE60045283D1

Description

【０００１】
【技術分野】
本発明は、一般に、文書を処理するためのシステム及び方法に係り、より詳細には、文書の文脈を指示する文書内の複数のフレーズを識別するためのシステム及び方法に係る。
【０００２】
【背景技術】
コンピュータデータベースを使用したテキストデータ情報の広範囲な記憶及び検索には種々のファクタが作用している。コンピュータハードドライブのコストの低下に結び付いたハードドライブの記憶容量の急激な増加、及びコンピュータ通信の送信速度の増加がファクタとなっている。更に、コンピュータの処理速度の増加、及びブルテンボードやインターネットのようなコンピュータ通信ネットワークの拡張もファクタとなっている。それ故、人々は、これらデータベースに記憶された大量のテキストデータにアクセスすることができる。しかしながら、大量のテキストデータの記憶及び及びアクセスはテクノロジーによって容易になったが、現在入手できる大量のデータによって新たな問題が生じている。
【０００３】
特に、大量のデータを有するコンピュータデータベースのテキストデータにアクセスしようとする人は、余計な情報を検索することなく希望の情報を迅速且つ効率的に検索するためにデータ分析システムを必要とする。更に、システムのユーザは、文書全体を実際に見ることなく文書を理解できるように、各大きな文書を、その文書を特徴付ける複数のフレーズ（１つ以上のワード）に凝縮するための効率的なシステムを必要とする。各文書を複数のキーフレーズに凝縮するためのシステムは、パージングシステム又はパーザとして知られている。
【０００４】
１つの典型的なパーザでは、パーザが、文書内でしばしば繰り返されるフレーズを識別するよう試み、そして文書を特徴付けるフレーズをキーフレーズとして識別する。このようなシステムに伴う問題は、文書における各フレーズの繰り返しをカウントしなければならないので、非常に低速なことである。又、このシステムは、多量のメモリも必要とする。パーズされるべきデータの量が増加するにつれて、このパーザの低い速度が受け入れられないものとなる。別の典型的なパーザは、キーフレーズを識別するために３段階のプロセスを実行する。第１に、文書の各ワードに、そのワードのスピーチの部分（即ち、名詞、形容詞、副詞、動詞等）に基づいてタグが指定され、そしてスピーチのある部分、例えば、冠詞や形容詞は、その文書を特徴付けるフレーズのリストから除去される。次いで、ワードの１つ以上のシーケンス（テンプレート）を使用して、文書に何の理解も付加しないフレーズを識別しそして除去することができる。最終的に、スピーチの適当な部分であってテンプレートの１つに入らないフレーズは、文書を特徴付けるキーフレーズとして受け入れられる。しかし、この従来型のパーザも低速であり、パーズされるべきデータの量が増加するにつれて受け入れられない。
【０００５】
これら従来の全てのパーザシステムにおいて、パーザは、文書内の特定ワードの特徴（繰り返しの頻度又はスピーチの部分）に基づいて、文書を小さな断片に分断するよう試みる。問題は、言語が一般に容易に分類されるものではないことであり、それ故、従来のパーザは、文書を正確にパーズせず、又は文書をパーズするのに長い時間を必要とする。更に、従来のパーザシステムは、どれも、文書からキーフレーズをパージングする方法として言語の複雑な特徴を利用しようと試みるために、非常に低速である。従来のパーザに伴うこれらの問題は、パーズされねばならない文書の数が増加するにつれて、よりシビアになる。今日、パーズされねばならない文書の数は、とりわけ、インターネットやワールドワイドウェブのために甚だしい割合で増加し続けている。それ故、これらの従来のパーザは、受け入れられない。従って、従来のパージングシステムに伴う上記問題及び制約を解消するパージングシステム及び方法を提供することが要望され、本発明は、この目的に向けられる。
【０００６】
【発明の開示】
本発明によれば、センテンス又はパラグラフ内のブレークキャラクタ又はブレークワード（以下「ブレークキャラクタ／ワード」と称する。）を用いて文書を複数のキーフレーズにパーズするパーザシステム及び方法が提供される。本発明によるパーザシステムは、非常に高速であり、速度に対して精度を著しく犠牲にしない。文書内のブレークキャラクタ／ワードは、句読点、ある終止ワード、及び動詞及び冠詞のようなある形式のワードを含む。パーザシステムは、ブレークキャラクタ／ワードを受け取る前に１つ以上のワードを受け取るバッファを備えている。このバッファがブレークキャラクタ／ワードを受け取ると、パーザは、ブレークキャラクタ／ワードの前のフレーズがセーブされるかどうかをブレークキャラクタ／ワードの形式に基づいて決定する。特に、ブレークキャラクタ／ワードが句読点である場合には、パーザは、ブレークキャラクタ／ワードの前の１つ以上のワードをキーフレーズとして保持する。ブレークキャラクタ／ワードが別の形式のキャラクタである場合には、ブレークキャラクタ／ワードの前のフレーズがセーブされてもされなくてもよい。フレーズの使命が決定されると、バッファはフラッシュされ、１つ以上のワードの次のシーケンスがバッファに読み込まれ、それもパーズされる。このようにして、文書内の複数のフレーズが、文書のセンテンス及びパラグラフ内のブレークキャラクタ／ワードに基づいて文書から迅速に抽出される。
【０００７】
従って、本発明によれば、テキストの断片を、文書を特徴付ける１つ以上のフレーズにパージングするシステムが提供される。このシステムは、テキストの断片からの１つ以上のワードを読み込むためのバッファと、このバッファに含まれたフレーズを識別するためのパーザとを備え、上記フレーズは、ブレークキャラクタ／ワード間における２つ以上のワードのシーケンスである。パーザは、更に、識別されたフレーズに続くブレークキャラクタ／ワードの形式を決定する手段と、ブレークキャラクタ／ワードの決定された形式に基づいてバッファからキーフレーズをセーブする手段とを含む。キーフレーズは、データベースに記憶される。
【０００８】
【発明を実施するための最良の形態】
本発明は、英語の文書をパージングするシステムに特に適用でき、本発明は、これについて説明する。しかしながら、本発明のシステム及び方法は、他の言語や、テキストデータの種々の異なる断片にも利用できることが明らかである。本発明をよく理解するために、テキスト処理システムについて以下に説明する。
図１は、テキスト処理システム１０のブロック図である。このテキスト処理システム１０は、パーザシステム１２と、クラスタライザー１４と、マップジェネレータ１６と、データベース（ＤＢ）１８とを備えている。このテキスト処理システムは、物語、新聞記事又は文書のようなテキストの１つ以上の断片を受け取り、そして文書内のキーフレーズ間の関係をグラフ的に示すマップを発生する。テキストの各断片は、パーザシステム１２によって受け取られ、該パーザシステムは、到来するテキストの各断片を処理し、そしてテキストの各断片に対しその断片を特徴付ける１つ以上のキーフレーズを発生する。これらキーフレーズは、データベース１８に記憶される。パーザシステムに関する詳細は、図２ないし５を参照して説明する。テキストの各断片からキーフレーズが抽出されると、クラスタライザー１４は、フレーズ間の関係に基づいてキーフレーズの１つ以上のクラスタを発生する。発生されたクラスタは、データベース１８にも記憶される。マップジェネレータ１６は、発生されたクラスタをデータベース内のテキストの断片に対して使用して、データベースのテキストの種々の断片内のキーフレーズの互いに関係を示すグラフ的マップを発生し、システムのユーザがテキスト断片のキーフレーズを見ることによりデータベースを通して容易にサーチできるようにする。クラスタライザー及びマップジェネレータの詳細は、本発明の譲受人が所有する参考としてここに取り上げる米国特許出願第０８／８０１，９７０号に開示されている。テキスト処理システムは、クライアントコンピュータがインターネットのような公衆コンピュータネットワークを経てサーバーにアクセスするようなクライアント／サーバー型コンピュータシステムを含む種々の形態で実施することができる。パーザ、クラスタライザー及びマップジェネレータは、テキスト処理システム１０の中央処理ユニット（図示せず）により実行されるソフトウェアアプリケーションでよい。本発明によるパーザシステム１２を以下に詳細に述べる。
【０００９】
図２は、本発明によるパージングシステム１２のブロック図である。パージングシステム１２は、バッファ２０と、パーザ２２と、ルールデータベース（ルールＤＢ）２４とを備えている。バッファは、文書である到来するテキストの断片の１つ以上のワードを記憶し、これらワードは、ルールＤＢ２４に含まれたルールを使用してパーザ２２により分析される。パーザシステム１２の出力は、パーズされる文書を特徴付ける１つ以上のフレーズである（各フレーズは、１つ以上のワードを含む）。特に、パーザは、本発明により文書内のブレークキャラクタ／ワードに基づいて文書内のフレーズを分離する。より詳細には、ブレークキャラクタ／ワードが識別されるまで１つ以上のワードが文書からバッファに読み込まれる。従って、パーザシステム１２は、ブレークキャラクタ／ワード間にあるフレーズを識別する。次いで、ブレークキャラクタ／ワードの形式に基づいて、フレーズがキーフレーズとしてセーブされるか又は削除される。パーザシステム１２は、例えば、サーバーコンピュータのマイクロプロセッサ（図示せず）によって実行されるソフトウェアの１つ以上の断片として実施されてもよく、サーバーコンピュータは、インターネット、ローカルエリアネットワーク又はワイドエリアネットワークのようなコンピュータネットワークを経て複数のクライアントコンピュータによりアクセスすることができる。パーザ２２は、ブレークキャラクタ／ワードを使用してテキストの断片からキーフレーズを迅速に抽出するのが効果的である。本発明によるブレークキャラクタ／ワードについて以下に述べる。
【００１０】
ブレークキャラクタ／ワードは、句読点のような明確なブレークキャラクタ／ワードと、数字 (number)と、数字 (number)を含むワードと、終止キャラクタ／ワードとを含む。上記終止キャラクタ／ワードは、更に、ソフト終止ブレークキャラクタ／ワード又はハード終止ブレークキャラクタ／ワードとして分類される。これらの異なるブレークキャラクタ／ワードを各々以下に説明する。明確なブレークキャラクタ／ワードは、ピリオド、カンマ、セミコロン、コロン、感嘆符、右又は左のかっこ、左又は右の中かっこ、左又は右の大かっこ、リターンキャラクタ又はラインフィードキャラクタのような種々の句読記号を含む。終止キャラクタは、作成されたリストでもよいし、又はスラッシュ（／）及びアンパーサンド記号（＆）を含んでもよい。数文字（ digit)、文字、外来文字、並びに、アポストロフィー、ダッシュ及び他の終止キャラクタのようなブレークキャラクタ／ワードによって分離子が定義されてもよい。テキストの断片における種々のワードは、冠詞、接続詞、ハード及びソフトの終止ブレークキャラクタ／ワード、語学上の指標、構文的分類、例えば、名詞、動詞、不規則動詞、形容詞及び副詞として分類されてもよい。
【００１１】
ワードの始めにあるアポストロフィー又はダッシュは、ブレークキャラクタ／ワードとして処理され（以下参照）、ワードの終りにあるアポストロフィー又はダッシュも、ブレークキャラクタ／ワードとして処理され、そしてワードの中間にアポストロフィー又はダッシュをもつワードは、バッファ内のフレーズに追加される。全てのハード又はソフトの終止キャラクタ／ワード及び明確なブレークキャラクタ／ワードは、以下に述べるように処理される。ワードレベルのパージングにおいては、ワードの第１キャラクタが大文字かどうかテストすることにより適切な名詞が保持される。更に、大文字しかもたないワード及び数字のワードは、全て、バッファに保持される。任意であるが、数字のストリングは、終止キャラクタとして分類及び処理されてもよい。強制的なワードレベルパージングルールは、次の通りである。フレーズの始めに現れる接続詞ワードは削除されるが、「The」が後に続く接続詞ワードは、バッファに保持される。ハード終止ブレークキャラクタ／ワードの場合には、そのハード終止ブレークキャラクタ／ワードに接続された最後のフレーズが削除され、そして残りのバッファが処理される。ソフト終止ブレークキャラクタ／ワードは、ブレークキャラクタ／ワードとして処理される。繰り返されるキャラクタ／ワードは、ソフト又はハードの終止キャラクタ／ワードとして処理される。
【００１２】
パージングに対して望ましくないワードを更に除去するために、ある任意のフレーズレベルのパージングルールを使用することができる。特に、６個のワードといった所定の長さより長いフレーズが削除されてもよいし、全て大文字のワードをもつフレーズが削除されてもよいし、そして全て数字のワードをもつフレーズが削除されてもよい。上記の全パージングルールは、図２に示すパージングルールデータベース２４に記憶される。ここで、図３を参照して、パーザシステム１２を詳細に説明する。
図３は、文書をパージングするための本発明の方法４０を示すフローチャートである。この方法は、ステップ４２において、文書の第１ワードが文書データベース又はサーバーのメモリからバッファにロードされたときに開始される。次いで、パーザは、ステップ４４において、ワードがブレークキャラクタ／ワードであるかどうか決定する。又、パーザは、パージングプロセスのこの段階において、あるキャラクタ又はワードを削除することもできる。ワードがブレークキャラクタ／ワードでない場合には、ステップ４２へ戻り、文書の次のワードがバッファに読み込まれる。ワードをバッファに読み込むこのプロセスは、ブレークキャラクタ／ワードに遭遇するまで繰り返され、従って、バッファは、ワードのシーケンスの前にブレークキャラクタ／ワードを有し且つワードのシーケンスの後にブレークキャラクタ／ワードを有するワードのシーケンス（フレーズ）を含む。このようにして、文書は、ブレークキャラクタ／ワードで互いに分離されたフレーズへとパーズされる。
【００１３】
ブレークキャラクタ／ワードに遭遇した場合には、パーザは、ステップ４６において、そのブレークキャラクタ／ワードが明確なブレークキャラクタ／ワードであるかどうか決定し、そして明確なブレークキャラクタ／ワードが存在する場合には、ステップ４８においてそのブレークキャラクタ／ワードを削除し、バッファに含まれたフレーズを抽出する。バッファから抽出されたフレーズは、将来の使用のためにデータベースに記憶される。次いで、ステップ５０において、バッファがフラッシュされてバッファからワードが除去され、そしてバッファは、ステップ４２及び４４において、別のブレークキャラクタ／ワードが識別されるまで新たなワードをそこにロードし始める。ステップ４６に戻ると、ブレークキャラクタ／ワードが明確なブレークキャラクタ／ワードでない場合に、パーザは、ステップ５２において、ブレークキャラクタ／ワードがソフト終止ブレークキャラクタ／ワードであるかどうか決定する。ブレークキャラクタ／ワードがソフト終止ブレークキャラクタ／ワードである場合には、ステップ５４において、ソフト終止ブレークキャラクタ／ワードが削除されそしてバッファのフレーズがデータベースに記憶され、ステップ５０においてバッファがフラッシュされ、そしてバッファには文書から新たなワードが補給される。ブレークキャラクタ／ワードがソフト終止ブレークキャラクタ／ワードでない（即ちブレークキャラクタ／ワードがハード終止ブレークキャラクタ／ワードである）場合には、そのハード終止ブレークキャラクタ／ワード及びバッファのフレーズがステップ５６において削除され、バッファはステップ５０においてフラッシュされ、そしてステップ４２及び４４において文書から新たなワードが補給される。このように、文書からのフレーズは、本発明により、ブレークキャラクタ／ワード及びブレークキャラクタ／ワードの形式を使用して抽出され、フレーズが互いに分離されると共に、どのフレーズをデータベースにセーブすべきか決定される。本発明によるパーザは、従来のシステムのように文書の各ワードの特徴を分析してキーフレーズを識別するように試みるものではなく、従来のパーザより非常に迅速に且つ従来のパーザと同程度の精度で文書からフレーズを抽出するものである。次に、図４及び図５Ａ−５Ｌを参照して本発明によるパーザの動作例を説明する。
【００１４】
図４は、本発明によるパージングシステムによりパーズされる文書６０の一例であり、一方、図５Ａ−５Ｌは、図４に示した文書６０のパージング中におけるバッファの動作を示す。この例では、文書は、短い電子ニュースストーリーであるが、パーザは、他のテキスト断片からフレーズを抽出することもできる。実際に、本発明によるパーザは、１Ｍバイトデータ／秒までの速度で種々の形式の文書からフレーズを抽出することができる。図示された特定のストーリーは、ＮＥＣにより開発された新規な「蛇状」ロボットについて述べている。図５Ａ−Ｌは、上記ストーリーに対する本発明によるバッファの動作をテーブル６８において示す。より詳細には、このテーブルの第１の欄７０は、バッファに読み込まれた現在ワードを含み、第２の欄７２は、本発明のパーザによるワードの形式の決定を含み、第３の欄７４は、特定の時間におけるバッファの内容を含み、第４の欄７６は、ワードインデックス（即ち文書から抽出されるフレーズ）を含み、そして第５の欄７８は、パージングプロセスに関するコメントを含む。
【００１５】
図５Ａに示すように、バッファに読み込まれた第１ワードは、ストーリーの始めにある一連のアスタリスクであり、これは、パーザによりブレークキャラクタ／ワード（句読点）と分類され、バッファから削除される。次のワードは、「Computer」であり、これは、ブレークキャラクタ／ワードではないのでバッファに入力され、そして次のワード「Select」も、ブレークキャラクタ／ワードではないのでバッファに入力される。従って、バッファは、区分８０に示すように、フレーズ「Computer Select」を含む。文書における次のワードは、カンマであり、パーザによりブレークキャラクタ／ワードとして分類される。ブレークキャラクタ／ワードは、句読点（明確な中断）であるから、ワードインデックス欄７６に示すように、バッファのワードがデータベースにセーブされ、そしてバッファはフラッシュされる。ここで、新たなワードがバッファに読み込まれてパーズされる。バッファに読み込まれた次のワードは、「October」であり、これは、日付に関連したものであるからハード終止ブレークキャラクタ／ワードであり、削除される。バッファにより受け取られる次のワードは「１９９５」であり、これは数字であるからブレークキャラクタ／ワードであり、これも削除される。バッファにより受け取られる次のワードは「COPYRIGHT」であり、これは終止キャラクタ／ワードとして識別され、削除される。次のワードは「Newsbytes」であり、これは、ブレークキャラクタ／ワードではないので、バッファに記憶される。次のワード「Inc.」も、バッファに記憶される。次のワードは、ブレークキャラクタ／ワードのピリオドであり、従って、バッファの内容「Newsbytes Inc.」が、ワードインデックス欄に示すようにデータベースにセーブされ、ブレークキャラクタ／ワードが削除されそしてバッファがフラッシュされる。
【００１６】
バッファによって受け取られる次の２つのワードは、「１９９５」と、一連のアスタリスクであり、これらは両方ともブレークキャラクタ／ワードであり削除される。バッファにより受け取られる次の２つのワードは、「Newsbytes」及び「Newsbytes」であり、これらは両方ともバッファに記憶される。次に受け取られるワードは、ハード終止ブレークキャラクタ／ワードの「August」であり、従って、バッファの内容及びハード終止ブレークキャラクタ／ワードは削除される。バッファにより受け取られる次の３つのワードは、全てブレークキャラクタ／ワード（即ち数字又は句読点）であり、削除される。次のワードは、区画８２に数字を含むワードであり、これは、バッファに記憶されるが、次のキャラクタがブレークキャラクタ／ワードであるときには削除される。というのは、バッファは単一のワードしか含まないからである。図５Ｂ−５Ｌから明らかなように、パージングプロセスは、文書全体にわたって続けられ、ワードインデックス欄７６に示すように、キーフレーズのリストが文書から抽出されて、データベースにセーブされる。
【００１７】
要約すれば、文書又はテキストの断片を特徴付けるフレーズが、本発明により文書から迅速に抽出される。本発明は、文書又はテキストの断片におけるブレークキャラクタ／ワードを使用して、フレーズを互いに分離し、そして文書に対するキーフレーズを抽出する。上記の例では、抽出されたフレーズ、例えば、「Newsbytes Inc.」、「snake-like robot」、「NEC Corporation」、「robotically controlled electronic snake」、「disaster relief work」及び「world's first active universal joint」は、これらキーフレーズのみを見る人が、文書全体を見なくても文書の内容を理解できるようにする。本発明によるパージングシステムは、従来の他のパージングシステムよりも非常に迅速にキーフレーズの抽出を実行し、これは、パージングに用いられるテキストデータ及び文書の全量が、例えばインターネットユーザの急増により指数関数的な割合で増加したときに、重要となる。
以上、本発明の特定の実施形態を参照して詳細に説明したが、当業者であれば、本発明の精神及び範囲から逸脱せずに種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。
【図面の簡単な説明】
【図１】テキスト処理システムのブロック図である。
【図２】本発明によるパージングシステムのブロック図である。
【図３】文書をパージングするための本発明の方法を示すフローチャートである。
【図４】本発明のパージングシステムによりパーズされるべき文書の一例を示す図である。
【図５Ａ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｂ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｃ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｄ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｅ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｆ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｇ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｈ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｉ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｊ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｋ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｌ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。

Claims

テキストの断片を、文書を特徴付ける１つ以上のキーフレーズへとパージングするコンピュータシステムであって、
上記システムが、
ブレークキャラクタ／ワードが識別されるまでテキストの断片からの１つ以上のワードを読み込むためのバッファを備え、
上記バッファに含まれたフレーズを識別するためのパーザを備え、上記フレーズは、ブレークキャラクタ／ワード間における２つ以上のワードのシーケンスであり、
上記パーザは、識別されたフレーズに続くブレークキャラクタ／ワードの形式を決定する手段と、ブレークキャラクタ／ワードの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズをキーフレーズとしてセーブするか又は削除する手段とを含み、上記決定されたブレークキャラクタ／ワードの形式は、ソフト終止ブレークキャラクタ／ワード、明確なブレークキャラクタ／ワード及びハード終止ブレークキャラクタ／ワードを含む複数の形式の１つである、
ことを特徴とするコンピュータシステム。
上記バッファは、更に、上記セーブされたキーフレーズがデータベースに記憶されるか又はバッファのフレーズが削除されたときにバッファをフラッシュする手段を含む請求項１に記載のコンピュータシステム。
上記決定手段は、フレーズがバッファから削除されてデータベースに記憶されないことを指示するハード終止ブレークキャラクタ／ワードを識別する手段を含む請求項２に記載のコンピュータシステム。
上記明確なブレークキャラクタ／ワードは、句読点から成る請求項３に記載のコンピュータシステム。
テキストの断片をキーフレーズへとパージングするためにテキストの断片に適用すべき１つ以上のパージングルールを記憶するルールデータベースを更に備えた請求項１に記載のコンピュータシステム。
上記ルールデータベースは、バッファの各ワードに適用されるワードレベルパージングルールと、テキストの断片に選択的に適用される任意のフレーズレベルパージングルールとを含む請求項５に記載のコンピュータシステム。
上記フレーズレベルパージングルールは、所定数のワードよりも長いフレーズを削除するルール、大文字のワードのみをもつフレーズを削除するルール及び数字を表すワードのみをもつフレーズを削除するルールの１つ以上のルールから成る請求項６に記載のコンピュータシステム。
テキストの断片を、文書を特徴付ける１つ以上のキーフレーズへとパージングするコンピュータにおいて実行されるパージング方法であって、
上記方法が、
ブレークキャラクタ／ワードが識別されるまでテキストの断片からの１つ以上のワードをバッファに読み込む段階を含み、
バッファに含まれたフレーズを識別する段階を含み、このフレーズは、ブレークキャラクタ／ワード間における２つ以上のワードのシーケンスであり、
その識別されたフレーズに続くブレークキャラクタ／ワードの形式を決定する段階を含み、上記決定されたブレークキャラクタ／ワードの形式は、ソフト終止ブレークキャラクタ／ワード、明確なブレークキャラクタ／ワード及びハード終止ブレークキャラクタ／ワードを含む複数の形式の１つであり、そして
上記ブレークキャラクタ／ワードの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズをキーフレーズとしてセーブするか又は削除する段階を含む、
ことを特徴とする方法。
上記セーブされたキーフレーズがデータベースに記憶されるか又はバッファのフレーズが削除されたときにバッファをフラッシュする段階を更に含む請求項８に記載の方法。
上記決定する段階は、フレーズがバッファから削除されてデータベースに記憶されないことを指示するハード終止ブレークキャラクタ／ワードを識別する段階を含む請求項９に記載の方法。
上記明確なブレークキャラクタ／ワードは、句読点から成る請求項１０に記載の方法。
テキストの断片をキーフレーズへとパージングするためにテキストの断片に適用すべき１つ以上のパージングルールを、ルールデータベースに記憶する段階を更に含む請求項８に記載の方法。
上記ルールデータベースは、バッファの各ワードに適用されるワードレベルパージングルールと、テキストの断片に選択的に適用される任意のフレーズレベルパージングルールとを含む請求項１２に記載の方法。
上記フレーズレベルパージングルールは、所定数のワードよりも長いフレーズを削除するルール、大文字のワードのみをもつフレーズを削除するルール及び数字を表すワードのみをもつフレーズを削除するルールの１つ以上のルールから成る請求項１３に記載の方法。
テキストの断片を、文書を特徴付ける１つ以上のキーフレーズへとパージングするコンピュータシステムであって、
上記コンピュータシステムが、
ネットワークから受け取ったテキストの断片のワードを記憶するメモリと、アプリケーションを実行するように構成された処理ユニットとを備え、
上記アプリケーションが、
ブレークキャラクタ／ワードが識別されるまでテキストの断片からの１つ以上のワードを読み込むためのバッファを備え、
上記バッファに含まれたフレーズを識別するためのパーザを備え、上記フレーズは、ブレークキャラクタ／ワード間における２つ以上のワードのシーケンスであり、
上記パーザは、識別されたフレーズに続くブレークキャラクタ／ワードの形式を決定するブレークキャラクタ／ワード識別器と、上記ブレークキャラクタ／ワードの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズをキーフレーズとしてセーブするか又は削除する処理ユニットとを含み、上記決定されたブレークキャラクタ／ワードの形式は、ソフト終止ブレークキャラクタ／ワード、ハード終止ブレークキャラクタ／ワード及び明確なブレークキャラクタ／ワードを含む複数の形式の１つであり、
更に、上記セーブしたキーフレーズを記憶するためのデータベースを備えた、
ことを特徴とするコンピュータシステム。
テキストの断片を、文書を特徴付ける１つ以上のキーフレーズへとパージングするコンピュータにおいて実行されるパージング方法であって、
上記方法が、
ブレークキャラクタ／ワードが識別されるまでテキストの断片からの１つ以上のワードをバッファに読み込む段階を含み、
バッファに含まれたフレーズを識別する段階を含み、このフレーズは、ブレークキャラクタ／ワード間における２つ以上のワードのシーケンスであり、
バッファにおいてフレーズの後に明確なブレークキャラクタ／ワードが識別されるのに応答してそのフレーズをキーフレーズとしてセーブする段階を含み、
バッファにおいてフレーズの後にソフト終止ブレークキャラクタ／ワードが識別されるのに応答してそのフレーズをキーフレーズとしてセーブする段階を含み、
バッファにおいてフレーズの後にハード終止ブレークキャラクタ／ワードが識別されるのに応答してそのフレーズをバッファから削除する段階を含み、
フレーズが削除又はセーブされるとワードをバッファからフラッシュする段階を含む、
ことを特徴とする方法。