JP4263371B2 - 文書をパージングするシステム及び方法 - Google Patents
文書をパージングするシステム及び方法 Download PDFInfo
- Publication number
- JP4263371B2 JP4263371B2 JP2000611158A JP2000611158A JP4263371B2 JP 4263371 B2 JP4263371 B2 JP 4263371B2 JP 2000611158 A JP2000611158 A JP 2000611158A JP 2000611158 A JP2000611158 A JP 2000611158A JP 4263371 B2 JP4263371 B2 JP 4263371B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- phrase
- buffer
- words
- break character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000012634 fragment Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000010926 purge Methods 0.000 claims description 8
- 238000011010 flushing procedure Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For And Details Of Packaging Control (AREA)
Description
【技術分野】
本発明は、一般に、文書を処理するためのシステム及び方法に係り、より詳細には、文書の文脈を指示する文書内の複数のフレーズを識別するためのシステム及び方法に係る。
【0002】
【背景技術】
コンピュータデータベースを使用したテキストデータ情報の広範囲な記憶及び検索には種々のファクタが作用している。コンピュータハードドライブのコストの低下に結び付いたハードドライブの記憶容量の急激な増加、及びコンピュータ通信の送信速度の増加がファクタとなっている。更に、コンピュータの処理速度の増加、及びブルテンボードやインターネットのようなコンピュータ通信ネットワークの拡張もファクタとなっている。それ故、人々は、これらデータベースに記憶された大量のテキストデータにアクセスすることができる。しかしながら、大量のテキストデータの記憶及び及びアクセスはテクノロジーによって容易になったが、現在入手できる大量のデータによって新たな問題が生じている。
【0003】
特に、大量のデータを有するコンピュータデータベースのテキストデータにアクセスしようとする人は、余計な情報を検索することなく希望の情報を迅速且つ効率的に検索するためにデータ分析システムを必要とする。更に、システムのユーザは、文書全体を実際に見ることなく文書を理解できるように、各大きな文書を、その文書を特徴付ける複数のフレーズ(1つ以上のワード)に凝縮するための効率的なシステムを必要とする。各文書を複数のキーフレーズに凝縮するためのシステムは、パージングシステム又はパーザとして知られている。
【0004】
1つの典型的なパーザでは、パーザが、文書内でしばしば繰り返されるフレーズを識別するよう試み、そして文書を特徴付けるフレーズをキーフレーズとして識別する。このようなシステムに伴う問題は、文書における各フレーズの繰り返しをカウントしなければならないので、非常に低速なことである。又、このシステムは、多量のメモリも必要とする。パーズされるべきデータの量が増加するにつれて、このパーザの低い速度が受け入れられないものとなる。別の典型的なパーザは、キーフレーズを識別するために3段階のプロセスを実行する。第1に、文書の各ワードに、そのワードのスピーチの部分(即ち、名詞、形容詞、副詞、動詞等)に基づいてタグが指定され、そしてスピーチのある部分、例えば、冠詞や形容詞は、その文書を特徴付けるフレーズのリストから除去される。次いで、ワードの1つ以上のシーケンス(テンプレート)を使用して、文書に何の理解も付加しないフレーズを識別しそして除去することができる。最終的に、スピーチの適当な部分であってテンプレートの1つに入らないフレーズは、文書を特徴付けるキーフレーズとして受け入れられる。しかし、この従来型のパーザも低速であり、パーズされるべきデータの量が増加するにつれて受け入れられない。
【0005】
これら従来の全てのパーザシステムにおいて、パーザは、文書内の特定ワードの特徴(繰り返しの頻度又はスピーチの部分)に基づいて、文書を小さな断片に分断するよう試みる。問題は、言語が一般に容易に分類されるものではないことであり、それ故、従来のパーザは、文書を正確にパーズせず、又は文書をパーズするのに長い時間を必要とする。更に、従来のパーザシステムは、どれも、文書からキーフレーズをパージングする方法として言語の複雑な特徴を利用しようと試みるために、非常に低速である。従来のパーザに伴うこれらの問題は、パーズされねばならない文書の数が増加するにつれて、よりシビアになる。今日、パーズされねばならない文書の数は、とりわけ、インターネットやワールドワイドウェブのために甚だしい割合で増加し続けている。それ故、これらの従来のパーザは、受け入れられない。従って、従来のパージングシステムに伴う上記問題及び制約を解消するパージングシステム及び方法を提供することが要望され、本発明は、この目的に向けられる。
【0006】
【発明の開示】
本発明によれば、センテンス又はパラグラフ内のブレークキャラクタ又はブレークワード(以下「ブレークキャラクタ/ワード」と称する。)を用いて文書を複数のキーフレーズにパーズするパーザシステム及び方法が提供される。本発明によるパーザシステムは、非常に高速であり、速度に対して精度を著しく犠牲にしない。文書内のブレークキャラクタ/ワードは、句読点、ある終止ワード、及び動詞及び冠詞のようなある形式のワードを含む。パーザシステムは、ブレークキャラクタ/ワードを受け取る前に1つ以上のワードを受け取るバッファを備えている。このバッファがブレークキャラクタ/ワードを受け取ると、パーザは、ブレークキャラクタ/ワードの前のフレーズがセーブされるかどうかをブレークキャラクタ/ワードの形式に基づいて決定する。特に、ブレークキャラクタ/ワードが句読点である場合には、パーザは、ブレークキャラクタ/ワードの前の1つ以上のワードをキーフレーズとして保持する。ブレークキャラクタ/ワードが別の形式のキャラクタである場合には、ブレークキャラクタ/ワードの前のフレーズがセーブされてもされなくてもよい。フレーズの使命が決定されると、バッファはフラッシュされ、1つ以上のワードの次のシーケンスがバッファに読み込まれ、それもパーズされる。このようにして、文書内の複数のフレーズが、文書のセンテンス及びパラグラフ内のブレークキャラクタ/ワードに基づいて文書から迅速に抽出される。
【0007】
従って、本発明によれば、テキストの断片を、文書を特徴付ける1つ以上のフレーズにパージングするシステムが提供される。このシステムは、テキストの断片からの1つ以上のワードを読み込むためのバッファと、このバッファに含まれたフレーズを識別するためのパーザとを備え、上記フレーズは、ブレークキャラクタ/ワード間における2つ以上のワードのシーケンスである。パーザは、更に、識別されたフレーズに続くブレークキャラクタ/ワードの形式を決定する手段と、ブレークキャラクタ/ワードの決定された形式に基づいてバッファからキーフレーズをセーブする手段とを含む。キーフレーズは、データベースに記憶される。
【0008】
【発明を実施するための最良の形態】
本発明は、英語の文書をパージングするシステムに特に適用でき、本発明は、これについて説明する。しかしながら、本発明のシステム及び方法は、他の言語や、テキストデータの種々の異なる断片にも利用できることが明らかである。本発明をよく理解するために、テキスト処理システムについて以下に説明する。
図1は、テキスト処理システム10のブロック図である。このテキスト処理システム10は、パーザシステム12と、クラスタライザー14と、マップジェネレータ16と、データベース(DB)18とを備えている。このテキスト処理システムは、物語、新聞記事又は文書のようなテキストの1つ以上の断片を受け取り、そして文書内のキーフレーズ間の関係をグラフ的に示すマップを発生する。テキストの各断片は、パーザシステム12によって受け取られ、該パーザシステムは、到来するテキストの各断片を処理し、そしてテキストの各断片に対しその断片を特徴付ける1つ以上のキーフレーズを発生する。これらキーフレーズは、データベース18に記憶される。パーザシステムに関する詳細は、図2ないし5を参照して説明する。テキストの各断片からキーフレーズが抽出されると、クラスタライザー14は、フレーズ間の関係に基づいてキーフレーズの1つ以上のクラスタを発生する。発生されたクラスタは、データベース18にも記憶される。マップジェネレータ16は、発生されたクラスタをデータベース内のテキストの断片に対して使用して、データベースのテキストの種々の断片内のキーフレーズの互いに関係を示すグラフ的マップを発生し、システムのユーザがテキスト断片のキーフレーズを見ることによりデータベースを通して容易にサーチできるようにする。クラスタライザー及びマップジェネレータの詳細は、本発明の譲受人が所有する参考としてここに取り上げる米国特許出願第08/801,970号に開示されている。テキスト処理システムは、クライアントコンピュータがインターネットのような公衆コンピュータネットワークを経てサーバーにアクセスするようなクライアント/サーバー型コンピュータシステムを含む種々の形態で実施することができる。パーザ、クラスタライザー及びマップジェネレータは、テキスト処理システム10の中央処理ユニット(図示せず)により実行されるソフトウェアアプリケーションでよい。本発明によるパーザシステム12を以下に詳細に述べる。
【0009】
図2は、本発明によるパージングシステム12のブロック図である。パージングシステム12は、バッファ20と、パーザ22と、ルールデータベース(ルールDB)24とを備えている。バッファは、文書である到来するテキストの断片の1つ以上のワードを記憶し、これらワードは、ルールDB24に含まれたルールを使用してパーザ22により分析される。パーザシステム12の出力は、パーズされる文書を特徴付ける1つ以上のフレーズである(各フレーズは、1つ以上のワードを含む)。特に、パーザは、本発明により文書内のブレークキャラクタ/ワードに基づいて文書内のフレーズを分離する。より詳細には、ブレークキャラクタ/ワードが識別されるまで1つ以上のワードが文書からバッファに読み込まれる。従って、パーザシステム12は、ブレークキャラクタ/ワード間にあるフレーズを識別する。次いで、ブレークキャラクタ/ワードの形式に基づいて、フレーズがキーフレーズとしてセーブされるか又は削除される。パーザシステム12は、例えば、サーバーコンピュータのマイクロプロセッサ(図示せず)によって実行されるソフトウェアの1つ以上の断片として実施されてもよく、サーバーコンピュータは、インターネット、ローカルエリアネットワーク又はワイドエリアネットワークのようなコンピュータネットワークを経て複数のクライアントコンピュータによりアクセスすることができる。パーザ22は、ブレークキャラクタ/ワードを使用してテキストの断片からキーフレーズを迅速に抽出するのが効果的である。本発明によるブレークキャラクタ/ワードについて以下に述べる。
【0010】
ブレークキャラクタ/ワードは、句読点のような明確なブレークキャラクタ/ワードと、数字 (number)と、数字 (number)を含むワードと、終止キャラクタ/ワードとを含む。上記終止キャラクタ/ワードは、更に、ソフト終止ブレークキャラクタ/ワード又はハード終止ブレークキャラクタ/ワードとして分類される。これらの異なるブレークキャラクタ/ワードを各々以下に説明する。明確なブレークキャラクタ/ワードは、ピリオド、カンマ、セミコロン、コロン、感嘆符、右又は左のかっこ、左又は右の中かっこ、左又は右の大かっこ、リターンキャラクタ又はラインフィードキャラクタのような種々の句読記号を含む。終止キャラクタは、作成されたリストでもよいし、又はスラッシュ(/)及びアンパーサンド記号(&)を含んでもよい。数文字( digit)、文字、外来文字、並びに、アポストロフィー、ダッシュ及び他の終止キャラクタのようなブレークキャラクタ/ワードによって分離子が定義されてもよい。テキストの断片における種々のワードは、冠詞、接続詞、ハード及びソフトの終止ブレークキャラクタ/ワード、語学上の指標、構文的分類、例えば、名詞、動詞、不規則動詞、形容詞及び副詞として分類されてもよい。
【0011】
ワードの始めにあるアポストロフィー又はダッシュは、ブレークキャラクタ/ワードとして処理され(以下参照)、ワードの終りにあるアポストロフィー又はダッシュも、ブレークキャラクタ/ワードとして処理され、そしてワードの中間にアポストロフィー又はダッシュをもつワードは、バッファ内のフレーズに追加される。全てのハード又はソフトの終止キャラクタ/ワード及び明確なブレークキャラクタ/ワードは、以下に述べるように処理される。ワードレベルのパージングにおいては、ワードの第1キャラクタが大文字かどうかテストすることにより適切な名詞が保持される。更に、大文字しかもたないワード及び数字のワードは、全て、バッファに保持される。任意であるが、数字のストリングは、終止キャラクタとして分類及び処理されてもよい。強制的なワードレベルパージングルールは、次の通りである。フレーズの始めに現れる接続詞ワードは削除されるが、「The」が後に続く接続詞ワードは、バッファに保持される。ハード終止ブレークキャラクタ/ワードの場合には、そのハード終止ブレークキャラクタ/ワードに接続された最後のフレーズが削除され、そして残りのバッファが処理される。ソフト終止ブレークキャラクタ/ワードは、ブレークキャラクタ/ワードとして処理される。繰り返されるキャラクタ/ワードは、ソフト又はハードの終止キャラクタ/ワードとして処理される。
【0012】
パージングに対して望ましくないワードを更に除去するために、ある任意のフレーズレベルのパージングルールを使用することができる。特に、6個のワードといった所定の長さより長いフレーズが削除されてもよいし、全て大文字のワードをもつフレーズが削除されてもよいし、そして全て数字のワードをもつフレーズが削除されてもよい。上記の全パージングルールは、図2に示すパージングルールデータベース24に記憶される。ここで、図3を参照して、パーザシステム12を詳細に説明する。
図3は、文書をパージングするための本発明の方法40を示すフローチャートである。この方法は、ステップ42において、文書の第1ワードが文書データベース又はサーバーのメモリからバッファにロードされたときに開始される。次いで、パーザは、ステップ44において、ワードがブレークキャラクタ/ワードであるかどうか決定する。又、パーザは、パージングプロセスのこの段階において、あるキャラクタ又はワードを削除することもできる。ワードがブレークキャラクタ/ワードでない場合には、ステップ42へ戻り、文書の次のワードがバッファに読み込まれる。ワードをバッファに読み込むこのプロセスは、ブレークキャラクタ/ワードに遭遇するまで繰り返され、従って、バッファは、ワードのシーケンスの前にブレークキャラクタ/ワードを有し且つワードのシーケンスの後にブレークキャラクタ/ワードを有するワードのシーケンス(フレーズ)を含む。このようにして、文書は、ブレークキャラクタ/ワードで互いに分離されたフレーズへとパーズされる。
【0013】
ブレークキャラクタ/ワードに遭遇した場合には、パーザは、ステップ46において、そのブレークキャラクタ/ワードが明確なブレークキャラクタ/ワードであるかどうか決定し、そして明確なブレークキャラクタ/ワードが存在する場合には、ステップ48においてそのブレークキャラクタ/ワードを削除し、バッファに含まれたフレーズを抽出する。バッファから抽出されたフレーズは、将来の使用のためにデータベースに記憶される。次いで、ステップ50において、バッファがフラッシュされてバッファからワードが除去され、そしてバッファは、ステップ42及び44において、別のブレークキャラクタ/ワードが識別されるまで新たなワードをそこにロードし始める。ステップ46に戻ると、ブレークキャラクタ/ワードが明確なブレークキャラクタ/ワードでない場合に、パーザは、ステップ52において、ブレークキャラクタ/ワードがソフト終止ブレークキャラクタ/ワードであるかどうか決定する。ブレークキャラクタ/ワードがソフト終止ブレークキャラクタ/ワードである場合には、ステップ54において、ソフト終止ブレークキャラクタ/ワードが削除されそしてバッファのフレーズがデータベースに記憶され、ステップ50においてバッファがフラッシュされ、そしてバッファには文書から新たなワードが補給される。ブレークキャラクタ/ワードがソフト終止ブレークキャラクタ/ワードでない(即ちブレークキャラクタ/ワードがハード終止ブレークキャラクタ/ワードである)場合には、そのハード終止ブレークキャラクタ/ワード及びバッファのフレーズがステップ56において削除され、バッファはステップ50においてフラッシュされ、そしてステップ42及び44において文書から新たなワードが補給される。このように、文書からのフレーズは、本発明により、ブレークキャラクタ/ワード及びブレークキャラクタ/ワードの形式を使用して抽出され、フレーズが互いに分離されると共に、どのフレーズをデータベースにセーブすべきか決定される。本発明によるパーザは、従来のシステムのように文書の各ワードの特徴を分析してキーフレーズを識別するように試みるものではなく、従来のパーザより非常に迅速に且つ従来のパーザと同程度の精度で文書からフレーズを抽出するものである。次に、図4及び図5A−5Lを参照して本発明によるパーザの動作例を説明する。
【0014】
図4は、本発明によるパージングシステムによりパーズされる文書60の一例であり、一方、図5A−5Lは、図4に示した文書60のパージング中におけるバッファの動作を示す。この例では、文書は、短い電子ニュースストーリーであるが、パーザは、他のテキスト断片からフレーズを抽出することもできる。実際に、本発明によるパーザは、1Mバイトデータ/秒までの速度で種々の形式の文書からフレーズを抽出することができる。図示された特定のストーリーは、NECにより開発された新規な「蛇状」ロボットについて述べている。図5A−Lは、上記ストーリーに対する本発明によるバッファの動作をテーブル68において示す。より詳細には、このテーブルの第1の欄70は、バッファに読み込まれた現在ワードを含み、第2の欄72は、本発明のパーザによるワードの形式の決定を含み、第3の欄74は、特定の時間におけるバッファの内容を含み、第4の欄76は、ワードインデックス(即ち文書から抽出されるフレーズ)を含み、そして第5の欄78は、パージングプロセスに関するコメントを含む。
【0015】
図5Aに示すように、バッファに読み込まれた第1ワードは、ストーリーの始めにある一連のアスタリスクであり、これは、パーザによりブレークキャラクタ/ワード(句読点)と分類され、バッファから削除される。次のワードは、「Computer」であり、これは、ブレークキャラクタ/ワードではないのでバッファに入力され、そして次のワード「Select」も、ブレークキャラクタ/ワードではないのでバッファに入力される。従って、バッファは、区分80に示すように、フレーズ「Computer Select」を含む。文書における次のワードは、カンマであり、パーザによりブレークキャラクタ/ワードとして分類される。ブレークキャラクタ/ワードは、句読点(明確な中断)であるから、ワードインデックス欄76に示すように、バッファのワードがデータベースにセーブされ、そしてバッファはフラッシュされる。ここで、新たなワードがバッファに読み込まれてパーズされる。バッファに読み込まれた次のワードは、「October」であり、これは、日付に関連したものであるからハード終止ブレークキャラクタ/ワードであり、削除される。バッファにより受け取られる次のワードは「1995」であり、これは数字であるからブレークキャラクタ/ワードであり、これも削除される。バッファにより受け取られる次のワードは「COPYRIGHT」であり、これは終止キャラクタ/ワードとして識別され、削除される。次のワードは「Newsbytes」であり、これは、ブレークキャラクタ/ワードではないので、バッファに記憶される。次のワード「Inc.」も、バッファに記憶される。次のワードは、ブレークキャラクタ/ワードのピリオドであり、従って、バッファの内容「Newsbytes Inc.」が、ワードインデックス欄に示すようにデータベースにセーブされ、ブレークキャラクタ/ワードが削除されそしてバッファがフラッシュされる。
【0016】
バッファによって受け取られる次の2つのワードは、「1995」と、一連のアスタリスクであり、これらは両方ともブレークキャラクタ/ワードであり削除される。バッファにより受け取られる次の2つのワードは、「Newsbytes」及び「Newsbytes」であり、これらは両方ともバッファに記憶される。次に受け取られるワードは、ハード終止ブレークキャラクタ/ワードの「August」であり、従って、バッファの内容及びハード終止ブレークキャラクタ/ワードは削除される。バッファにより受け取られる次の3つのワードは、全てブレークキャラクタ/ワード(即ち数字又は句読点)であり、削除される。次のワードは、区画82に数字を含むワードであり、これは、バッファに記憶されるが、次のキャラクタがブレークキャラクタ/ワードであるときには削除される。というのは、バッファは単一のワードしか含まないからである。図5B−5Lから明らかなように、パージングプロセスは、文書全体にわたって続けられ、ワードインデックス欄76に示すように、キーフレーズのリストが文書から抽出されて、データベースにセーブされる。
【0017】
要約すれば、文書又はテキストの断片を特徴付けるフレーズが、本発明により文書から迅速に抽出される。本発明は、文書又はテキストの断片におけるブレークキャラクタ/ワードを使用して、フレーズを互いに分離し、そして文書に対するキーフレーズを抽出する。上記の例では、抽出されたフレーズ、例えば、「Newsbytes Inc.」、「snake-like robot」、「NEC Corporation」、「robotically controlled electronic snake」、「disaster relief work」及び「world's first active universal joint」は、これらキーフレーズのみを見る人が、文書全体を見なくても文書の内容を理解できるようにする。本発明によるパージングシステムは、従来の他のパージングシステムよりも非常に迅速にキーフレーズの抽出を実行し、これは、パージングに用いられるテキストデータ及び文書の全量が、例えばインターネットユーザの急増により指数関数的な割合で増加したときに、重要となる。
以上、本発明の特定の実施形態を参照して詳細に説明したが、当業者であれば、本発明の精神及び範囲から逸脱せずに種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。
【図面の簡単な説明】
【図1】 テキスト処理システムのブロック図である。
【図2】 本発明によるパージングシステムのブロック図である。
【図3】 文書をパージングするための本発明の方法を示すフローチャートである。
【図4】 本発明のパージングシステムによりパーズされるべき文書の一例を示す図である。
【図5A】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5B】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5C】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5D】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5E】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5F】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5G】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5H】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5I】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5J】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5K】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5L】 図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
Claims (16)
- テキストの断片を、文書を特徴付ける1つ以上のキーフレーズへとパージングするコンピュータシステムであって、
上記システムが、
ブレークキャラクタ/ワードが識別されるまでテキストの断片からの1つ以上のワードを読み込むためのバッファを備え、
上記バッファに含まれたフレーズを識別するためのパーザを備え、上記フレーズは、ブレークキャラクタ/ワード間における2つ以上のワードのシーケンスであり、
上記パーザは、識別されたフレーズに続くブレークキャラクタ/ワードの形式を決定する手段と、ブレークキャラクタ/ワードの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズをキーフレーズとしてセーブするか又は削除する手段とを含み、上記決定されたブレークキャラクタ/ワードの形式は、ソフト終止ブレークキャラクタ/ワード、明確なブレークキャラクタ/ワード及びハード終止ブレークキャラクタ/ワードを含む複数の形式の1つである、
ことを特徴とするコンピュータシステム。 - 上記バッファは、更に、上記セーブされたキーフレーズがデータベースに記憶されるか又はバッファのフレーズが削除されたときにバッファをフラッシュする手段を含む請求項1に記載のコンピュータシステム。
- 上記決定手段は、フレーズがバッファから削除されてデータベースに記憶されないことを指示するハード終止ブレークキャラクタ/ワードを識別する手段を含む請求項2に記載のコンピュータシステム。
- 上記明確なブレークキャラクタ/ワードは、句読点から成る請求項3に記載のコンピュータシステム。
- テキストの断片をキーフレーズへとパージングするためにテキストの断片に適用すべき1つ以上のパージングルールを記憶するルールデータベースを更に備えた請求項1に記載のコンピュータシステム。
- 上記ルールデータベースは、バッファの各ワードに適用されるワードレベルパージングルールと、テキストの断片に選択的に適用される任意のフレーズレベルパージングルールとを含む請求項5に記載のコンピュータシステム。
- 上記フレーズレベルパージングルールは、所定数のワードよりも長いフレーズを削除するルール、大文字のワードのみをもつフレーズを削除するルール及び数字を表すワードのみをもつフレーズを削除するルールの1つ以上のルールから成る請求項6に記載のコンピュータシステム。
- テキストの断片を、文書を特徴付ける1つ以上のキーフレーズへとパージングするコンピュータにおいて実行されるパージング方法であって、
上記方法が、
ブレークキャラクタ/ワードが識別されるまでテキストの断片からの1つ以上のワードをバッファに読み込む段階を含み、
バッファに含まれたフレーズを識別する段階を含み、このフレーズは、ブレークキャラクタ/ワード間における2つ以上のワードのシーケンスであり、
その識別されたフレーズに続くブレークキャラクタ/ワードの形式を決定する段階を含み、上記決定されたブレークキャラクタ/ワードの形式は、ソフト終止ブレークキャラクタ/ワード、明確なブレークキャラクタ/ワード及びハード終止ブレークキャラクタ/ワードを含む複数の形式の1つであり、そして
上記ブレークキャラクタ/ワードの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズをキーフレーズとしてセーブするか又は削除する段階を含む、
ことを特徴とする方法。 - 上記セーブされたキーフレーズがデータベースに記憶されるか又はバッファのフレーズが削除されたときにバッファをフラッシュする段階を更に含む請求項8に記載の方法。
- 上記決定する段階は、フレーズがバッファから削除されてデータベースに記憶されないことを指示するハード終止ブレークキャラクタ/ワードを識別する段階を含む請求項9に記載の方法。
- 上記明確なブレークキャラクタ/ワードは、句読点から成る請求項10に記載の方法。
- テキストの断片をキーフレーズへとパージングするためにテキストの断片に適用すべき1つ以上のパージングルールを、ルールデータベースに記憶する段階を更に含む請求項8に記載の方法。
- 上記ルールデータベースは、バッファの各ワードに適用されるワードレベルパージングルールと、テキストの断片に選択的に適用される任意のフレーズレベルパージングルールとを含む請求項12に記載の方法。
- 上記フレーズレベルパージングルールは、所定数のワードよりも長いフレーズを削除するルール、大文字のワードのみをもつフレーズを削除するルール及び数字を表すワードのみをもつフレーズを削除するルールの1つ以上のルールから成る請求項13に記載の方法。
- テキストの断片を、文書を特徴付ける1つ以上のキーフレーズへとパージングするコンピュータシステムであって、
上記コンピュータシステムが、
ネットワークから受け取ったテキストの断片のワードを記憶するメモリと、アプリケーションを実行するように構成された処理ユニットとを備え、
上記アプリケーションが、
ブレークキャラクタ/ワードが識別されるまでテキストの断片からの1つ以上のワードを読み込むためのバッファを備え、
上記バッファに含まれたフレーズを識別するためのパーザを備え、上記フレーズは、ブレークキャラクタ/ワード間における2つ以上のワードのシーケンスであり、
上記パーザは、識別されたフレーズに続くブレークキャラクタ/ワードの形式を決定するブレークキャラクタ/ワード識別器と、上記ブレークキャラクタ/ワードの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズをキーフレーズとしてセーブするか又は削除する処理ユニットとを含み、上記決定されたブレークキャラクタ/ワードの形式は、ソフト終止ブレークキャラクタ/ワード、ハード終止ブレークキャラクタ/ワード及び明確なブレークキャラクタ/ワードを含む複数の形式の1つであり、
更に、上記セーブしたキーフレーズを記憶するためのデータベースを備えた、
ことを特徴とするコンピュータシステム。 - テキストの断片を、文書を特徴付ける1つ以上のキーフレーズへとパージングするコンピュータにおいて実行されるパージング方法であって、
上記方法が、
ブレークキャラクタ/ワードが識別されるまでテキストの断片からの1つ以上のワードをバッファに読み込む段階を含み、
バッファに含まれたフレーズを識別する段階を含み、このフレーズは、ブレークキャラクタ/ワード間における2つ以上のワードのシーケンスであり、
バッファにおいてフレーズの後に明確なブレークキャラクタ/ワードが識別されるのに応答してそのフレーズをキーフレーズとしてセーブする段階を含み、
バッファにおいてフレーズの後にソフト終止ブレークキャラクタ/ワードが識別されるのに応答してそのフレーズをキーフレーズとしてセーブする段階を含み、
バッファにおいてフレーズの後にハード終止ブレークキャラクタ/ワードが識別されるのに応答してそのフレーズをバッファから削除する段階を含み、
フレーズが削除又はセーブされるとワードをバッファからフラッシュする段階を含む、
ことを特徴とする方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/288,994 | 1999-04-09 | ||
US09/288,994 US6424982B1 (en) | 1999-04-09 | 1999-04-09 | System and method for parsing a document using one or more break characters |
PCT/US2000/009357 WO2000062155A1 (en) | 1999-04-09 | 2000-04-06 | System and method for parsing a document |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008063725A Division JP2008251003A (ja) | 1999-04-09 | 2008-03-13 | 文書をパージングするシステム及び方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002541580A JP2002541580A (ja) | 2002-12-03 |
JP2002541580A5 JP2002541580A5 (ja) | 2007-06-07 |
JP4263371B2 true JP4263371B2 (ja) | 2009-05-13 |
Family
ID=23109550
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000611158A Expired - Fee Related JP4263371B2 (ja) | 1999-04-09 | 2000-04-06 | 文書をパージングするシステム及び方法 |
JP2008063725A Pending JP2008251003A (ja) | 1999-04-09 | 2008-03-13 | 文書をパージングするシステム及び方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008063725A Pending JP2008251003A (ja) | 1999-04-09 | 2008-03-13 | 文書をパージングするシステム及び方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6424982B1 (ja) |
EP (1) | EP1214643B1 (ja) |
JP (2) | JP4263371B2 (ja) |
AT (1) | ATE489681T1 (ja) |
AU (1) | AU4334500A (ja) |
CA (1) | CA2366485C (ja) |
DE (1) | DE60045283D1 (ja) |
HK (1) | HK1047802B (ja) |
WO (1) | WO2000062155A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665681B1 (en) * | 1999-04-09 | 2003-12-16 | Entrieva, Inc. | System and method for generating a taxonomy from a plurality of documents |
US8327265B1 (en) * | 1999-04-09 | 2012-12-04 | Lucimedia Networks, Inc. | System and method for parsing a document |
US7814408B1 (en) | 2000-04-19 | 2010-10-12 | Microsoft Corporation | Pre-computing and encoding techniques for an electronic document to improve run-time processing |
US6789229B1 (en) | 2000-04-19 | 2004-09-07 | Microsoft Corporation | Document pagination based on hard breaks and active formatting tags |
US7047491B2 (en) * | 2000-12-05 | 2006-05-16 | Schubert Daniel M | Electronic information management system for abstracting and reporting document information |
EP1237094A1 (en) * | 2001-01-22 | 2002-09-04 | Sun Microsystems, Inc. | A method for determining rubies |
US7010478B2 (en) * | 2001-02-12 | 2006-03-07 | Microsoft Corporation | Compressing messages on a per semantic component basis while maintaining a degree of human readability |
JP4843867B2 (ja) * | 2001-05-10 | 2011-12-21 | ソニー株式会社 | 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 |
FR2825496B1 (fr) * | 2001-06-01 | 2003-08-15 | Synomia | Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises |
AUPR958901A0 (en) | 2001-12-18 | 2002-01-24 | Telstra New Wave Pty Ltd | Information resource taxonomy |
US20040133595A1 (en) * | 2003-01-08 | 2004-07-08 | Black Karl S. | Generation of persistent document object models |
US20050210046A1 (en) * | 2004-03-18 | 2005-09-22 | Zenodata Corporation | Context-based conversion of language to data systems and methods |
US7756869B2 (en) * | 2004-04-30 | 2010-07-13 | The Boeing Company | Methods and apparatus for extracting referential keys from a document |
US20050289185A1 (en) * | 2004-06-29 | 2005-12-29 | The Boeing Company | Apparatus and methods for accessing information in database trees |
US7765214B2 (en) | 2005-05-10 | 2010-07-27 | International Business Machines Corporation | Enhancing query performance of search engines using lexical affinities |
EP1724694A3 (en) * | 2005-05-10 | 2007-05-09 | International Business Machines Corporation | A method to enhance query performance of search engines using lexical affinities |
US7747937B2 (en) * | 2005-08-16 | 2010-06-29 | Rojer Alan S | Web bookmark manager |
US20080000145A1 (en) * | 2006-06-18 | 2008-01-03 | Marc Weinberger | Animal trap remover |
US8762969B2 (en) * | 2008-08-07 | 2014-06-24 | Microsoft Corporation | Immutable parsing |
US20140108006A1 (en) * | 2012-09-07 | 2014-04-17 | Grail, Inc. | System and method for analyzing and mapping semiotic relationships to enhance content recommendations |
US9898523B2 (en) | 2013-04-22 | 2018-02-20 | Abb Research Ltd. | Tabular data parsing in document(s) |
WO2020056199A1 (en) * | 2018-09-14 | 2020-03-19 | Jpmorgan Chase Bank, N.A. | Systems and methods for automated document graphing |
US11449676B2 (en) | 2018-09-14 | 2022-09-20 | Jpmorgan Chase Bank, N.A. | Systems and methods for automated document graphing |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
JPH0969101A (ja) * | 1995-08-31 | 1997-03-11 | Hitachi Ltd | 構造化文書生成方法および装置 |
US5819260A (en) * | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5963965A (en) * | 1997-02-18 | 1999-10-05 | Semio Corporation | Text processing and retrieval system and method |
-
1999
- 1999-04-09 US US09/288,994 patent/US6424982B1/en not_active Expired - Lifetime
-
2000
- 2000-04-06 WO PCT/US2000/009357 patent/WO2000062155A1/en active Application Filing
- 2000-04-06 JP JP2000611158A patent/JP4263371B2/ja not_active Expired - Fee Related
- 2000-04-06 DE DE60045283T patent/DE60045283D1/de not_active Expired - Lifetime
- 2000-04-06 CA CA2366485A patent/CA2366485C/en not_active Expired - Fee Related
- 2000-04-06 AT AT00923179T patent/ATE489681T1/de not_active IP Right Cessation
- 2000-04-06 AU AU43345/00A patent/AU4334500A/en not_active Abandoned
- 2000-04-06 EP EP00923179A patent/EP1214643B1/en not_active Expired - Lifetime
-
2002
- 2002-12-19 HK HK02109225.6A patent/HK1047802B/zh not_active IP Right Cessation
-
2008
- 2008-03-13 JP JP2008063725A patent/JP2008251003A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
HK1047802B (zh) | 2011-05-20 |
HK1047802A1 (en) | 2003-03-07 |
EP1214643A4 (en) | 2009-03-04 |
US6424982B1 (en) | 2002-07-23 |
JP2008251003A (ja) | 2008-10-16 |
WO2000062155A1 (en) | 2000-10-19 |
ATE489681T1 (de) | 2010-12-15 |
JP2002541580A (ja) | 2002-12-03 |
AU4334500A (en) | 2000-11-14 |
CA2366485C (en) | 2011-12-13 |
CA2366485A1 (en) | 2000-10-19 |
EP1214643B1 (en) | 2010-11-24 |
EP1214643A1 (en) | 2002-06-19 |
DE60045283D1 (ja) | 2011-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4263371B2 (ja) | 文書をパージングするシステム及び方法 | |
Grover et al. | LT TTT-a flexible tokenisation tool | |
US6654717B2 (en) | Multi-language document search and retrieval system | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
US7092871B2 (en) | Tokenizer for a natural language processing system | |
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
US8327265B1 (en) | System and method for parsing a document | |
JP5740029B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
JP3557605B2 (ja) | 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム | |
EP2354967A1 (en) | Semantic textual analysis | |
US6415250B1 (en) | System and method for identifying language using morphologically-based techniques | |
US7069207B2 (en) | Linguistically intelligent text compression | |
US20030125928A1 (en) | Method for retrieving similar sentence in translation aid system | |
JP2000200291A (ja) | 選択された文字列をテキスト内で自動検出する方法 | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
US6125377A (en) | Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
WO2003003241A1 (en) | Predictive cascading algorithm for multi-parser architecture | |
JP3360803B2 (ja) | 関連する単語の意味の決定方法の実施に使用される記録媒体およびそのシステム | |
Yamada | A controlled skip parser | |
JPH1083399A (ja) | 機械翻訳装置及び翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2897942B2 (ja) | 日本語形態素解析システム及び形態素解析方式 | |
JP2002183133A (ja) | 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体 | |
JP2009009583A (ja) | 構文パースを用いてセグメント化されていないテキストをセグメント化する方法 | |
JPH0744566A (ja) | 抄録作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070406 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070501 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070801 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071025 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080602 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080708 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081212 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |