[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPH11259524A - Information retrieval system, information processing method in information retrieval system and record medium - Google Patents

Information retrieval system, information processing method in information retrieval system and record medium

Info

Publication number
JPH11259524A
JPH11259524A JP10073103A JP7310398A JPH11259524A JP H11259524 A JPH11259524 A JP H11259524A JP 10073103 A JP10073103 A JP 10073103A JP 7310398 A JP7310398 A JP 7310398A JP H11259524 A JPH11259524 A JP H11259524A
Authority
JP
Japan
Prior art keywords
information
concept
context
extracting
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10073103A
Other languages
Japanese (ja)
Inventor
Hidenori Yatake
英紀 八竹
Kazuto Kojiya
和人 糀谷
Shoji Kitagawa
昇治 北川
Masamitsu Kamo
正充 加茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP10073103A priority Critical patent/JPH11259524A/en
Publication of JPH11259524A publication Critical patent/JPH11259524A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To prevent the omission of information for indicating relation between keywords, to effectively utilize the concept information and to perform highly accurate information retrieval. SOLUTION: By a concept extraction device 101, the concept information for which the information is structured by a concept unit or an attribute unit is extracted based on keyword information extracted from a natural language document and the information for indicating the relation between the keywords. The extracted concept information is registered to a data base 104 by a concept registration device 102 and required concept information is retrieved from the registered concept information corresponding to the retrieval request of a user by a concept retrieval device 103. Then, the concept information including the respective syntax, semantic, context and structural information for indicating the relation between the keywords is extracted and registered, the relation information between the keywords is utilized and the retrieval whose condition is the information of the concept unit or the attribute unit is performed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報検索システ
ム、情報検索システムにおける情報処理方法および該方
法を実行させるためのプログラムを記録した記録媒体に
係り、特に、情報抽出の段階で、キーワードを抽出する
代わりに、構文解析、意味解析、文脈解析および構造解
析等を行ってキーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を可能とした情報検索システム、情報検索システム
における情報処理方法および記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information retrieval system, an information processing method in the information retrieval system, and a recording medium on which a program for executing the method is recorded. Instead, perform syntactic analysis, semantic analysis, context analysis and structural analysis, etc. to extract and register conceptual information including syntactic, semantic, contextual and structural information representing the relationship between keywords, The present invention relates to an information search system, an information processing method in an information search system, and a recording medium that prevent a loss of information representing a relationship between keywords and enable highly accurate information search by effectively utilizing the conceptual information.

【0002】[0002]

【従来の技術】まず、従来の情報検索システムの一例
(以下、従来例という)として、「WWWページ検索シ
ステム」について説明する。なお、WWWページ検索シ
ステムに関しては、第1の文献『William B.Frakes, Re
cardo Baeza-Yates編; " Information Retrieval, Data
Structures & Algorithms", PRENTICE HALL, ISBN 0-1
3-463837-9』を参照されたい。
2. Description of the Related Art First, a WWW page search system will be described as an example of a conventional information search system (hereinafter, referred to as a conventional example). The WWW page search system is described in the first document "William B. Frakes, Re.
cardo Baeza-Yates edition; "Information Retrieval, Data
Structures & Algorithms ", PRENTICE HALL, ISBN 0-1
3-463837-9].

【0003】図49は、本従来例のWWWページ検索シ
ステムのシステム構成を表す構成図である。また、図5
0には、本従来例のWWWページ検索システムにおける
情報登録を行う際の処理手順を説明するフローチャート
を示す。
FIG. 49 is a configuration diagram showing a system configuration of a WWW page search system of the conventional example. FIG.
0 shows a flowchart for explaining a processing procedure when registering information in the WWW page search system of the conventional example.

【0004】本従来例のWWWページ検索システムは、
インターネット4915につながる複数台のコンピュー
タ上に構築され、該複数台のコンピュータの外部記憶装
置上に分散して蓄積された自然言語を含む文書群491
3から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。このよう
なWWWページ検索システムの製品としては、例えば
「マイクロソフト・インデックス・サーバ(Microsoft
Index Server)」等が存在するし、またサービスとして
は、「ヤフー(Yahoo(http://www.yahoo.com/)」等が存
在する。
The WWW page search system of the prior art is
A document group 491 including a natural language which is constructed on a plurality of computers connected to the Internet 4915 and which is distributed and stored on an external storage device of the plurality of computers.
3 is a system constructed for the purpose of immediately finding the location of information desired by the user. As a product of such a WWW page search system, for example, “Microsoft Index Server (Microsoft
Index Server), and a service such as "Yahoo (http://www.yahoo.com/)" exists.

【0005】この種の情報検索システムにおいては、一
般的に、情報の登録および検索が行えるようになってい
て、情報検索は、ユーザがキーボード4912を介して
入力した検索文を元に、データベース4908に蓄積さ
れているインデックスを引くことによって行われ、検索
条件に該当する自然言語文書の所在情報(或いは文書そ
のもの)がディスプレイ4911上に表示される。ま
た、情報登録処理を起動する動作は、情報検索システム
によって様々なものが考えられるが、ここでは、例えば
次のようなものを提示しておく。第1に、ユーザが文書
の所在情報をキーボード4912を介して入力し情報登
録を行うもの、第2に、「エージェント」や「ロボッ
ト」と呼ばれる探索エンジンが、インターネットのWW
Wのハイパーリンク上をユーザから指定された範囲で探
索しながら情報を自動登録するものである。
[0005] In this type of information search system, registration and search of information can be generally performed. The information search is performed based on a search sentence input by a user via a keyboard 4912 in a database 4908. The location information (or the document itself) of the natural language document corresponding to the search condition is displayed on the display 4911. Various operations for activating the information registration process can be considered depending on the information retrieval system. Here, for example, the following is presented. First, a user inputs location information of a document via a keyboard 4912 to register information. Second, a search engine called "agent" or "robot" is used by a WW of the Internet.
The information is automatically registered while searching on the W hyperlink in the range specified by the user.

【0006】これらの起動動作によって起動された情報
登録処理は、データベース4908上に検索文から文書
所在情報に変換できるようなデータを蓄積し、情報検索
に備える。なお、情報検索を行うユーザ(利用者)と情
報登録を行うユーザ(管理者)とを明確に分けて考える
情報検索システムも多い。
[0006] The information registration process activated by these activation operations accumulates data that can be converted from a search sentence into document location information on the database 4908, and prepares for information retrieval. Note that there are many information search systems in which a user (user) performing information search and a user (administrator) performing information registration are considered clearly.

【0007】次に、本従来例のWWWページ検索システ
ムにおける情報登録処理の一般的手順を、図50に示す
フローチャートを参照して説明する。まず、キーワード
抽出装置4901において、自然言語文書群4913か
らキーワードの抽出が行われる。
Next, a general procedure of information registration processing in the WWW page search system of the conventional example will be described with reference to a flowchart shown in FIG. First, in the keyword extraction device 4901, a keyword is extracted from the natural language document group 4913.

【0008】まず最初に、ステップ5001では、形態
素解析装置4902により、解析対象の自然言語文書5
002を形態素に分解する。すなわち、自然言語文書5
002は形態素(単語)の集合に変換される。この形態
素への分解作業は、英語においては、スペースやピリオ
ド等の幾つかの記号で区切られた文字列を抽出する処理
に等しい。また、日本語の形態素解析については、処理
は複雑であるが、一般的な手法として、例えば、第2の
文献『吉村、日高、吉田 ;”文節数最小法を用いたべた
書き日本語文の形態素解析”, 情報処理学会論文誌Vol.
24, No.1, pp.40-46(1983)』等に述べられているものが
ある。
First, in step 5001, the morphological analysis device 4902 causes the natural language document 5 to be analyzed to be analyzed.
002 is decomposed into morphemes. That is, natural language document 5
002 is converted into a set of morphemes (words). This disassembly into morphemes is, in English, equivalent to a process of extracting a character string delimited by several symbols such as spaces and periods. The processing of Japanese morphological analysis is complicated, but as a general method, for example, the second document "Yoshimura, Hidaka, Yoshida;" Morphological Analysis ”, IPSJ Transactions Vol.
24, No. 1, pp. 40-46 (1983)].

【0009】次のステップ5003では、ストップワー
ド除去装置4903によるストップワード除去の処理に
よって、ステップ5002で抽出された形態素の集合に
ついて、キーワードとして必要でない形態素が省かれ
る。ストップワードは、余りに一般的すぎてどの文書に
でも現れそうな単語等であり、例えば、英語の場合に
は、「is」,「the」,「have」,「go」等がストップワ
ードに該当し、日本語の場合でも助詞、助動詞、格助詞
等はストップワードとして除去される。なお、これらの
ストップワードは、一般的にはストップワードリストと
いう辞書に登録されている。
In the next step 5003, the stop word removal processing by the stop word removal device 4903 eliminates morphemes that are not required as keywords from the set of morphemes extracted in step 5002. Stopwords are words that are too common and likely to appear in any document. For example, in English, "is", "the", "have", "go", etc. are stopwords. However, even in Japanese, particles, auxiliary verbs, case particles, etc. are removed as stop words. These stop words are generally registered in a dictionary called a stop word list.

【0010】次にステップ5004では、ステミング処
理装置4904によって行われるステミング処理によ
り、ストップワード除去後の形態素集合が正規化され
る。つまり、活用形を標準形に正規化したり、表記上の
ゆれを正規化したりする。なお、このステミング処理は
省略されることもある。
Next, in step 5004, the morpheme set after the stop word is removed is normalized by the stemming processing performed by the stemming processing device 4904. That is, it normalizes the inflected form to the standard form, and normalizes fluctuations in notation. Note that this stemming process may be omitted.

【0011】さらにステップ5005では、キーワード
への重み付け装置4905によって行われるキーワード
への重み付け処理により、キーワードに対する重みが導
入される場合もある。つまり、このキーワードへの重み
付け処理も省略可能な処理ステップである。なお、重み
の求め方は種々あるが、一例を挙げれば、対象の自然言
語文書群4913において均一に出現するキーワードは
余り重要ではないとみなして、該キーワードの重みを下
げるなどの方法がある。
In step 5005, a keyword weight may be introduced by a keyword weighting process performed by the keyword weighting device 4905. That is, the weighting process for the keyword is also a process step that can be omitted. Note that there are various ways of obtaining the weight, but for example, there is a method in which a keyword appearing uniformly in the target natural language document group 4913 is regarded as not so important and the weight of the keyword is reduced.

【0012】以上のステップ5001,5003,50
04,5005の処理によって、1つの自然言語文書5
002はキーワード集合5006に変換されることとな
る。ここで、キーワード集合とは、ステップ5005の
キーワードへの重み付け処理を行わなかった場合には純
粋なキーワードの集合であり、重み付け処理を行った場
合にはキーワードと重みの数値による組の集合である。
The above steps 5001, 5003, 50
04,5005, one natural language document 5
002 is converted into a keyword set 5006. Here, the keyword set is a set of pure keywords when the weighting process is not performed on the keyword in step 5005, and is a set of pairs of keywords and weights when the weighting process is performed. .

【0013】また、ここで求められたキーワード集合5
006は、ステップ5007で取得された文書の所在情
報(文書ID)5008とセットにして、ステップ50
09において、データベース4908に登録される。こ
こで、文書ID5008は、WWWの場合にはURLと
呼ばれる「http://…」といったアドレス情報が該当す
る。
Also, the keyword set 5 obtained here
006 is set as the location information (document ID) 5008 of the document acquired in step 5007 and
At 09, it is registered in the database 4908. Here, in the case of WWW, the document ID 5008 corresponds to address information such as “http: // ...” called a URL.

【0014】ステップ5009のデータベース登録処理
は、キーワード登録装置4906によって行われる処理
であり、一般的には、図51に示すような「転置インデ
ックス」などのデータ構造が作成されて、キーワードか
ら文書の所在情報が検索できるデータとして情報登録が
行われる。ここで、転置インデックスを用いた情報検索
については、第3の文献『長尾真編;”自然言語処
理”, 岩波書店, 1996, ISBN 4-00-010355-5, 第11
章』に詳しく述べられている。また、図51に示した転
置インデックスの具体例は、ステップ5005によるキ
ーワードへの重み付け処理を行った場合の一例であり、
キーワード毎に各文書に対する重みを求めることができ
るデータ構造である。なお、重み処理を行わない場合に
は、図51におけるキーワード毎の各文書に対する重み
数値が、「文書に含まれる」または「含まれない」を表
す2値のフラグになる。
The database registration process at step 5009 is a process performed by the keyword registration device 4906. Generally, a data structure such as an "inverted index" as shown in FIG. Information registration is performed as data from which location information can be searched. Here, the information retrieval using the transposed index is described in the third document, Makoto Nagao, “Natural Language Processing”, Iwanami Shoten, 1996, ISBN 4-00-010355-5, No. 11
Chapters are described in detail. Further, the specific example of the transposed index shown in FIG. 51 is an example in the case where the keyword weighting process in step 5005 is performed.
This is a data structure that can determine the weight for each document for each keyword. If the weighting process is not performed, the weighting value for each document for each keyword in FIG. 51 is a binary flag representing “included in document” or “not included”.

【0015】次に、本従来例のWWWページ検索システ
ムにおける情報検索処理の一般的手順を、図53に示す
フローチャートを参照して説明する。
Next, a general procedure of information retrieval processing in the WWW page retrieval system of the conventional example will be described with reference to a flowchart shown in FIG.

【0016】情報検索において、ユーザがキーボード4
912を介して入力する検索文には、主として2種類の
検索文があり、この検索文の種類によって処理が一部異
なる。1つは自然言語による検索文をそのまま入力する
場合で、例えば「日本の人口統計について教えてくださ
い。」などという文章を入力する。もう1つは、ある定
められた文法に基づいてキーワード検索文を入力する場
合で、例えば「&」という文字を論理積を表す特殊記号
と定義して、複数のキーワードが共に含まれる文書のみ
を取り出すという文法が定められている情報検索システ
ムにおいて、「日本&人口&統計」などと入力すること
で、これら3つのキーワード「日本」,「人口」および
「統計」が共に含まれる文書を検索するといった処理と
なる。どちらの検索文が入力できるかについては、情報
検索システムに依存し、一方しか入力できないものもあ
れば、両方共入力可能で何れか一つを切り替えながら使
用するものもある。なお、該切り替え手法については、
ボタンを介してユーザが指定するなどの方法が一般的で
ある。また、図53のフローチャートでは、ステップ5
301において、これらの検索文の種類を判定して処理
を分岐させるようになっている。
In the information search, the user operates the keyboard 4
There are mainly two types of search sentences input through the 912, and the processing partially differs depending on the type of the search sentence. One is to input a search sentence in natural language as it is, for example, input a sentence such as "Tell me about Japanese demographics." The other is a case where a keyword search sentence is input based on a predetermined grammar. For example, a character “&” is defined as a special symbol representing a logical product, and only a document including a plurality of keywords is included. In an information retrieval system that defines a grammar for retrieval, entering "Japan & Population &Statistics" or the like searches for documents that include all three keywords "Japan", "population" and "statistics". Such processing is performed. Which search sentence can be input depends on the information search system, and there are cases where only one can be input, and cases where both can be input and one of them is used while switching. In addition, regarding the switching method,
In general, a method such as designation by a user via a button is used. Also, in the flowchart of FIG.
In 301, the types of these search sentences are determined, and the processing branches.

【0017】ステップ5301の判定において、検索文
が自然言語検索文である場合には、情報登録処理(図5
0参照)と同様に、キーワード抽出装置4901によっ
てキーワードを抽出する。ただし、情報検索処理におい
てはキーワードへの重み付け装置4905は使用されな
い。
If it is determined in step 5301 that the search sentence is a natural language search sentence, an information registration process (FIG. 5)
0), the keyword is extracted by the keyword extracting device 4901. However, the keyword weighting device 4905 is not used in the information search process.

【0018】まず、ステップ5302において、入力さ
れた自然言語検索文5303は形態素解析装置4902
によって形態素に分解される。分解された形態素の集合
は、ステップ5304において、ストップワード除去装
置4903によって不要な形態素が除去され、次にステ
ップ5307で、ステミング処理装置4904によって
正規化が行われる。なお、ステミング処理(ステップ5
307)は省略可能である。この段階で抽出されたキー
ワードの集合を、ここでは検索キーワード集合5308
と呼ぶ。
First, in step 5302, the input natural language search sentence 5303 is converted into a morphological analyzer 4902.
Decomposes into morphemes. From the set of decomposed morphemes, in step 5304, unnecessary morphemes are removed by the stop word remover 4903, and then, in step 5307, normalization is performed by the stemming processor 4904. Note that the stemming process (Step 5)
307) can be omitted. The set of keywords extracted at this stage is referred to as a search keyword set 5308 here.
Call.

【0019】またステップ5301の判定において、検
索文がキーワード検索文の場合には、ステップ5305
において、キーワード検索文解析装置4916により、
入力されたキーワード検索文5306が文法解析され
る。ここでの文法は情報検索システムに依存するが、一
般的には、論理積(AND)、論理和(OR)、否定
(NOT)の演算や、優先順位付け(『()』による階
層化)等を特殊記号(演算子)で表せる場合が多い。
If it is determined in step 5301 that the search sentence is a keyword search sentence, step 5305
In, by the keyword search sentence analysis device 4916,
The input keyword search sentence 5306 is grammatically analyzed. The grammar here depends on the information retrieval system, but in general, logical AND (AND), logical OR (OR), NOT (NOT) operations, and prioritization (hierarchization by "()") Etc. can often be represented by special symbols (operators).

【0020】また、キーワード検索文の場合にも、自然
言語検索文の場合と同様に、次のステップ5307でス
テミング処理が行われて、検索キーワード集合5308
に変換される。この場合、検索キーワード集合5308
は、単なるキーワードの集合だけではなく上記演算子の
情報を保持している必要がある。なお、検索キーワード
集合5308を何らかの処理によって自動生成し、該検
索キーワード集合5308をを使用して検索を行うよう
な情報検索システムも、本従来例の情報検索システムと
同等のものとみなせる。この場合、キーワード検索文解
析装置4916は不要となる。
In the case of a keyword search sentence, similarly to the case of a natural language search sentence, a stemming process is performed in the next step 5307, and a search keyword set 5308 is set.
Is converted to In this case, the search keyword set 5308
Needs to hold the information of the above operators, not just a set of keywords. An information search system in which the search keyword set 5308 is automatically generated by some processing and a search is performed using the search keyword set 5308 can be regarded as equivalent to the information search system of the conventional example. In this case, the keyword search sentence analyzer 4916 becomes unnecessary.

【0021】以上のように、自然言語検索文やキーワー
ド検索文によって指定された検索内容は、一旦、検索キ
ーワード集合5308に変換された後、ステップ530
9において、キーワード検索装置4907により、該検
索キーワード集合5308を元にしたデータベース49
08を対象とした検索処理が行われる。そしてその結果
が、ステップ5310でディスプレイ4911上に表示
されることになる。
As described above, the search content specified by the natural language search sentence or the keyword search sentence is once converted into a search keyword set 5308, and then the process proceeds to step 530.
9, the keyword search device 4907 uses the database 49 based on the search keyword set 5308.
A search process for 08 is performed. Then, the result is displayed on the display 4911 in step 5310.

【0022】情報検索処理の内容は、上記演算子として
何を許すかや、自然言語検索文5303から抽出した単
なるキーワードの集合をどのように検索に用いるかによ
って様々であり、情報検索システムに依存する。例え
ば、単なるキーワードの集合は全て論理積(AND)で
つないだものと同じと考えるとか、1つでも多くのキー
ワードを含む文書の検索点数を高くするとか、といった
処理のバリエーションがある。一般的には、図51の転
置インデックスを用いて、キーワードがどの文書に含ま
れていたかをチェックする処理が含まれることになる
(上記第3の文献第11章を参照)。情報検索処理の一
例として、例えば、図51の転置インデックスに対して
「キーワード1 キーワード2」と指定され、演算子が
特に指定されていない場合には、それぞれの文書のキー
ワードに対する重みを足しあわせてキーワード数で割
り、文書1は (0.2+0)÷2=0.1、文書2は (0.5+0.3)÷
2=0.4、文書3は (0.6+0.1)÷2=0.35 などとして、検
索値(適合度)を求める手法もある。この場合、文書2
が上記検索文に最も適合しているということになる。
The contents of the information search process vary depending on what is allowed as the above-mentioned operator and how a simple set of keywords extracted from the natural language search sentence 5303 is used for the search. I do. For example, there are variations in processing such as assuming that a mere set of keywords is the same as those connected by a logical product (AND) or increasing the search score of a document including at least one keyword. Generally, a process for checking which document contains the keyword by using the transposed index in FIG. 51 is included (see Chapter 11 of the third document). As an example of the information retrieval process, for example, when “Keyword 1 Keyword 2” is specified for the transposed index in FIG. 51 and no operator is specified, the weights of the keywords of the respective documents are added. Dividing by the number of keywords, Document 1 is (0.2 + 0) ÷ 2 = 0.1, Document 2 is (0.5 + 0.3) ÷
There is also a method of obtaining a search value (degree of relevance) by setting 2 = 0.4 and document 3 as (0.6 + 0.1) ÷ 2 = 0.35. In this case, Document 2
Is the most suitable for the search sentence.

【0023】[0023]

【発明が解決しようとする課題】以上説明したように、
従来例のWWWページ検索システムにおいては、登録す
べき文書から、キーワードを抽出する技術をベースとし
て、キーワードから文書所在や適合度を求めることがで
きる索引(インデックス)をデータベースに作成し、そ
れを用いた検索を可能にしている。これは「テキストが
表現している内容をキーワードの集合という形で近似的
に表現できる」という考え方が背景になっている。しか
しながら、このような従来の情報検索技術においては、
キーワード集合による近似的表現とすることで、キーワ
ード間の関係を表す構文的、意味的、文脈的および構造
的な各情報が無視されることとなって、情報検索の精度
が低下するという問題点がある。以下、この問題につい
て具体例を挙げて説明する。
As described above,
In a conventional WWW page search system, an index (index) for obtaining a document location and a degree of relevance from a keyword is created in a database based on a technique for extracting a keyword from a document to be registered. Search is possible. This is based on the idea that the content expressed by text can be approximately expressed in the form of a set of keywords. However, in such conventional information search technology,
The problem is that syntactic, semantic, contextual, and structural information representing the relationship between keywords is ignored by using an approximate expression based on keyword sets, and the accuracy of information retrieval is reduced. There is. Hereinafter, this problem will be described with a specific example.

【0024】例えば、自然言語文書の一例として図4に
示されるような「オムロン製品情報」に関する文書が与
えられたとする。この文書を上記従来技術(図50のフ
ローチャート)で情報登録すると、図52に示されるよ
うなキーワード集合が得られ、図4の文書は図52のキ
ーワード集合として近似的に表現されることになる。し
かしながら、このキーワード集合では、既に、以下に示
すような情報が欠落している。
For example, it is assumed that a document related to “Omron product information” as shown in FIG. 4 is given as an example of a natural language document. When this document is registered as information by the above-mentioned conventional technique (the flowchart of FIG. 50), a keyword set as shown in FIG. 52 is obtained, and the document of FIG. 4 is approximately expressed as the keyword set of FIG. . However, in this keyword set, the following information is already missing.

【0025】第1に「段落に関する文脈情報の欠落」で
ある。図4の文書において「オムロン製品情報」という
のは文書全体のタイトルであって、以下に続く文書内容
はすべてオムロンの製品についての情報であるという文
脈を与えるが、図52のキーワード集合ではその文脈が
わからない。
The first is "lack of context information about a paragraph". In the document of FIG. 4, "Omron product information" is the title of the entire document, and gives the context that all the following document contents are information on Omron products. I don't know.

【0026】第2に「箇条書きに関する文脈情報の欠
落」である。図4の文書においては、(a), (b), (c) と
いった箇条書きがあって、「血圧計」,「体温計」およ
び「低周波治療器」というキーワードがそれぞれの箇条
書きの見出し語になっている。これは、これらの箇条書
きの各項目に、それぞれ「血圧計」、「体温計」および
「低周波治療器」のことが述べられているという文脈を
与えるが、図52のキーワード集合ではその文脈がわか
らない。
The second is "lack of context information related to itemization". In the document of FIG. 4, there are bullets such as (a), (b), and (c), and the keywords "sphygmomanometer", "thermometer", and "low-frequency treatment device" are headwords of each bullet. It has become. This gives the context that the items in these bullet points refer to “blood pressure monitor”, “thermometer”, and “low frequency treatment device”, respectively. do not know.

【0027】第3に「箇条書きに関する構造情報の欠
落」である。図4の文書においては、(a) の項目のさら
なる下位構造として、記号「●」で示された箇条書きの
項目が2つ存在することで、それら2つは独立した2つ
の製品について述べているということがわかるが、図4
のキーワード集合ではその単位がわからなくなってい
る。
The third is "lack of structural information related to itemization". In the document of FIG. 4, as a further substructure of the item of (a), there are two itemized items indicated by the symbol "●", and these two items describe two independent products. Figure 4
The unit of the keyword set is unknown.

【0028】第4に「表に関する文脈・構造情報の欠
落」である。 (1.4.4)図3において、(a)の血圧計の医
療用具承認番号は表で示され、各列に見出し語が付いて
いることで、それぞれの型式の製品に対する医療用具承
認番号を正しく把握できるが、図4においてはそれがわ
からなくなっている。
The fourth is "lack of context / structure information related to table". (1.4.4) In FIG. 3, the medical device approval numbers of the sphygmomanometer of (a) are shown in a table, and the heading is attached to each column, so that the medical device approval numbers for the respective types of products are correct. Although it can be understood, it is not understood in FIG.

【0029】第5に「構文的・意味的情報の欠落」であ
る。図4の文書においては、各製品の発売情報が自然言
語文で表現されているため、構文的・意味的情報によ
り、それぞれの単語や文がどの製品について述べたもの
であるのかがわかるが、図4のキーワード集合ではそれ
が曖昧になってしまっている。
Fifth, "lack of syntactic and semantic information". In the document of FIG. 4, since the release information of each product is represented by a natural language sentence, it is possible to know which product each word or sentence is described by syntactic and semantic information. In the keyword set of FIG. 4, it is ambiguous.

【0030】以上の第1から第5までに示したような情
報欠落、すなわち、構文的、意味的、文脈的および構造
的な各情報が欠落しているため、ユーザの意図を正しく
把握した検索結果を得ることは難しい。
Since the information lack as described in the first to fifth, that is, the syntactic, semantic, contextual, and structural information are missing, a search that correctly grasps the user's intention is performed. It is difficult to get results.

【0031】例えば、「12,500円の体温計について知り
たい」という意図の検索文として、「12,500円&体温
計」という検索文を与えた場合、図4の文書には12,500
円の体温計の情報は存在しないにも関わらず、図52の
キーワード集合にはこの2つのキーワードが両方とも含
まれるため、図4の自然言語文書を当該検索に適合させ
てしまうことになる。
For example, if a search sentence “12,500 yen & thermometer” is given as a search sentence “I want to know about a thermometer of 12,500 yen”, the document in FIG.
Although there is no information of a thermometer of a circle, both of these two keywords are included in the keyword set of FIG. 52, so that the natural language document of FIG. 4 is adapted to the search.

【0032】本発明は、このような従来の問題点に着目
してなされたもので、その目的とするところは、情報抽
出の段階で、キーワードを抽出する代わりに、構文解
析、意味解析、文脈解析および構造解析等を行ってキー
ワード間の関係を表す構文的、意味的、文脈的および構
造的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索を可能とした情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することにある。
The present invention has been made in view of such conventional problems. The purpose of the present invention is to perform syntax analysis, semantic analysis, and context analysis instead of extracting keywords at the information extraction stage. Analyze and analyze the structure to extract and register syntactic, semantic, contextual, and structural information representing the relationship between keywords to prevent the loss of information representing the relationship between keywords. Another object of the present invention is to provide an information search system, an information processing method and a recording medium in the information search system, which enable highly accurate information search by effectively utilizing the concept information.

【0033】[0033]

【課題を解決するための手段】上記課題を解決するため
に、本出願の請求項1に記載の発明は、自然言語文書中
から抽出したキーワード情報および該キーワード間の関
係を表す情報に基づいて、概念単位または属性単位に前
記情報を構造化した概念情報を抽出する概念抽出装置
と、前記概念抽出装置により抽出した概念情報をデータ
ベースに登録する概念登録装置と、ユーザの検索要求に
したがって前記データベースに登録された概念情報から
必要な概念情報を検索する概念検索装置とを具備し、前
記キーワード間の関係情報を活用して前記概念単位また
は前記属性単位の情報を条件とした検索を行うことにあ
る。
Means for Solving the Problems In order to solve the above-mentioned problems, the invention described in claim 1 of the present application is based on keyword information extracted from a natural language document and information representing the relationship between the keywords. A concept extraction device for extracting concept information obtained by structuring the information in concept units or attribute units, a concept registration device for registering concept information extracted by the concept extraction device in a database, and the database in accordance with a user's search request. And a concept search device for searching for necessary concept information from the concept information registered in the database, and performing a search conditioned on the information of the concept unit or the attribute unit using the relationship information between the keywords. is there.

【0034】また、本出願の請求項2に記載の発明は、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に前記情報を構造化した概念情報を抽出する
概念抽出装置と、前記概念抽出装置により抽出した概念
情報をデータベースに登録する概念登録装置と、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に前記情報を構造化した検索概念
情報を抽出し、該抽出した検索概念情報にしたがって前
記データベースに登録された概念情報から必要な概念情
報を検索する概念検索装置とを具備し、前記キーワード
間の関係情報を活用して前記概念単位または前記属性単
位の情報を条件とした検索を行うことにある。
Further, the invention described in claim 2 of the present application is as follows:
A concept extraction device that extracts concept information in which the information is structured in concept units or attribute units, based on keyword information extracted from a natural language document and information representing relationships between the keywords, and a concept extraction device that extracts the concept information. A concept registration device for registering the concept information in a database, and keyword information extracted from a natural language search sentence given by a user and information representing a relationship between the keywords, and structured the information into concept or attribute units. A concept search device for extracting search concept information and searching for necessary concept information from the concept information registered in the database according to the extracted search concept information, and utilizing the relationship information between the keywords. The object of the present invention is to perform a search based on information on a concept unit or the attribute unit.

【0035】また、本出願の請求項3に記載の発明は、
前記概念登録装置が、前記概念抽出装置により抽出した
概念情報を、前記自然言語文書の文書所在情報との組に
よる転置インデックス形式で、或いは、前記文書所在情
報および該文書中に前記概念情報のどの属性が記述され
ていたかを表す対応属性情報との組による転置インデッ
クス形式で、前記データベースに登録することを特徴と
する請求項1または2に記載の情報検索システムにあ
る。
The invention described in claim 3 of the present application provides
The concept registration device converts the concept information extracted by the concept extraction device into an inverted index format based on a set of document location information of the natural language document, or any of the document location information and the concept information in the document. 3. The information retrieval system according to claim 1, wherein the information is registered in the database in an inverted index format based on a set of corresponding attribute information indicating whether the attribute has been described.

【0036】また、本出願の請求項4に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報を記述した動詞格フレーム辞書と、前
記意味素の表層的定義を行う意味素辞書と、前記動詞に
対応する格要素を特定する格要素特定装置と、前記格要
素と概念との対応情報に基づいて概念情報を作成する格
要素からの概念作成装置とを具備し、動詞が依存する意
味素の情報を活用して概念情報を抽出することを特徴と
する請求項1、2または3に記載の情報検索システムに
ある。
The invention described in claim 4 of the present application provides
The concept extraction device describes a morphological analysis device that extracts a morpheme from the natural language document, a verb extraction device that extracts only a verb component in the extracted morpheme, and information of a semantic on which the verb depends. A verb case frame dictionary, a semantic dictionary for performing surface definition of the semantic, a case element specifying device for specifying a case element corresponding to the verb, and conceptual information based on correspondence information between the case element and the concept. 4. The information retrieval system according to claim 1, further comprising: a concept creation device for generating a concept from a case element, wherein the concept information is extracted by utilizing information of a semantic on which a verb depends. It is in.

【0037】また、本出願の請求項5に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する表層格の情報を記述した動詞格フレーム辞書と、前
記動詞に対応する格要素を特定する格要素特定装置と、
前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置とを具備し、動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことを特徴とする請求項1、2または3に記載の情報検
索システムにある。
The invention described in claim 5 of the present application provides
The concept extraction device describes a morphological analysis device that extracts a morpheme from the natural language document, a verb extraction device that extracts only a verb component in the extracted morpheme, and describes information of a surface case on which a verb depends. A verb case frame dictionary, a case element specifying device that specifies a case element corresponding to the verb,
A device for generating concept information based on correspondence information between the case element and the concept, comprising: a device for generating concept information based on correspondence information between the case element and the concept, wherein the concept information is extracted by utilizing information of a surface case element on which a verb depends. An information retrieval system according to claim 1, 2 or 3.

【0038】また、本出願の請求項6に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報と表層格の情報を記述した動詞格フレ
ーム辞書と、前記意味素の表層的定義を行う意味素辞書
と、前記動詞に対応する格要素を特定する格要素特定装
置と、前記格要素と概念との対応情報に基づいて概念情
報を作成する格要素からの概念作成装置とを具備し、動
詞が依存する意味素の情報と表層格の情報を活用して概
念情報を抽出することを特徴とする請求項1、2または
3に記載の情報検索システムにある。
The invention described in claim 6 of the present application provides
A morphological analyzer for extracting a morpheme from the natural language document, a verb extracting device for extracting only a verb component in the extracted morpheme, information of a semantic on which the verb depends, and a surface case Verb case frame dictionary that describes the information of a verb, a semantic dictionary that performs a surface definition of the semantic, a case element specifying device that specifies a case element corresponding to the verb, and correspondence information between the case element and the concept 2. A concept creation device for creating concept information based on a verb, wherein the concept information is extracted by utilizing information of a semantic on which a verb depends and information of a surface case. , 2 or 3.

【0039】また、本出願の請求項7に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された各形態素
(以下、着目要素という)の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識と、前記各対
応カラムへの対応度を算出して最も対応度の高い対応カ
ラムに形態素を抽出する対応カラム決定装置とを具備す
ることを特徴とする請求項1、2または3に記載の情報
検索システムにある。
The invention described in claim 7 of the present application provides
A morphological analyzer that extracts the morpheme from the natural language document, a condition of a semantic element of each extracted morpheme (hereinafter, referred to as a target element), and a co-occurrence in which the target element co-occurs Information extraction that describes the condition of the element, the condition of the attached element of the noted element and the co-occurring element, the condition of the appearance position of the co-occurring element, and the information of the column of the corresponding concept (hereinafter referred to as corresponding column) 4. The apparatus according to claim 1, further comprising: a knowledge and a corresponding column determination device that calculates a degree of correspondence to each corresponding column and extracts a morpheme from a corresponding column having the highest degree of correspondence. 5. In the information retrieval system.

【0040】また、本出願の請求項8に記載の発明は、
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、意味素と対応する概念のカラムの情報を記述した文
脈情報抽出知識を備えて、前記自然言語文書中の文から
文脈情報を抽出して、前記文脈階層構造情報中に文脈情
報を保存する文脈情報抽出装置と、前記文脈階層構造情
報および該文脈階層構造情報の下位の文脈領域から上位
の文脈領域に或いは上位の文脈領域から下位の文脈領域
にそれぞれ保存された文脈情報を活用して、概念情報が
記述されている領域を決定しながら前記概念情報を抽出
する概念記述領域決定型概念情報抽出装置とを具備する
ことを特徴とする請求項1、2または3に記載の情報検
索システムにある。
Further, the invention described in claim 8 of the present application is as follows:
The concept extraction device regards the natural language document as a hierarchical context region, and obtains a context region extraction knowledge describing a start point condition, an end point condition, and a candidate for a lower-order context region for each pulse region. A context hierarchy analysis device for analyzing the hierarchy of the document structure of the natural language document to create context hierarchy information; and a context information extraction knowledge describing semantic and corresponding column information of a concept. A context information extraction device for extracting context information from a sentence in the natural language document and storing context information in the context hierarchy information; and a context information extraction device and a lower level of the context hierarchy information. Utilizing the context information stored in the context area from the context area to the upper context area or from the upper context area to the lower context area, the area where the concept information is described Constant while in the information retrieval system of claim 1, 2 or 3, characterized in that it comprises a conceptual description area determined type conceptual information extraction device for extracting the conceptual information.

【0041】また、本出願の請求項9に記載の発明は、
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、前記自然言語文書中から形態素を抜き出す形態素解
析装置と、前記抜き出された各形態素(以下、着目要素
という)の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム(以下、対応カラムという)の情報
を記述した情報抽出知識と、前記各対応カラムへの対応
度を算出して最も対応度の高い対応カラムに形態素を抽
出する対応カラム決定装置と、を備えて前記自然言語文
書中の文から文脈情報を抽出して、前記文脈階層構造情
報中に文脈情報を保存する文脈情報抽出装置と、前記文
脈階層構造情報および該文脈階層構造情報の下位の文脈
領域から上位の文脈領域に或いは上位の文脈領域から下
位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出装
置とを具備することを特徴とする請求項1、2または3
に記載の情報検索システムにある。
The invention described in claim 9 of the present application is
The concept extraction device regards the natural language document as a hierarchical context region, and obtains a context region extraction knowledge describing a start point condition, an end point condition, and a candidate for a lower-order context region for each pulse region. A context hierarchy analysis device that analyzes the hierarchy of the document structure of the natural language document to create context hierarchy information; a morphological analysis device that extracts morphemes from the natural language document; Condition of each morpheme (hereinafter referred to as a focused element), condition of a co-occurring element co-occurring with the focused element, condition of an adjunct element to the focused element and the co-occurring element, and And the information extraction knowledge describing the information of the column of the corresponding concept (hereinafter referred to as “corresponding column”), and the degree of correspondence to each of the corresponding columns is calculated. A corresponding column determination device that extracts a morpheme in a high corresponding column, and a context information extraction device that extracts context information from a sentence in the natural language document and stores context information in the context hierarchical structure information. The concept information is described by utilizing the context hierarchical structure information and the context information stored in the lower context area from the lower context area of the context hierarchical structure information or in the lower context area from the upper context area. 4. A concept description area determining type conceptual information extracting apparatus for extracting the conceptual information while determining an area in which the information is stored.
In the information retrieval system described in 1.

【0042】また、本出願の請求項10に記載の発明
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項7ま
たは9に記載の情報検索システムにある。
Further, according to the invention as set forth in claim 10 of the present application, the information extraction knowledge includes a condition of the semantic element of the element of interest, a condition of the co-occurring element, a condition of the accessory element, and a condition of the co-occurring element. 10. The information retrieval system according to claim 7, wherein the condition of the appearance position is described as pattern description knowledge such as a regular expression.

【0043】また、本出願の請求項11に記載の発明
は、前記概念抽出装置が、前記情報抽出知識のある知識
が合致した場合に、該知識と共起しやすい知識を活性化
させ、共起しにくい知識は抑制化する知識間相関ルール
を具備することを特徴とする請求項7、9または10に
記載の情報検索システムにある。
Further, according to the invention as set forth in claim 11 of the present application, the concept extraction device activates knowledge that is likely to co-occur with the knowledge when the knowledge of the information extraction knowledge matches. 11. The information retrieval system according to claim 7, wherein the knowledge that is unlikely to be generated is provided with an inter-knowledge correlation rule that suppresses the knowledge.

【0044】また、本出願の請求項12に記載の発明
は、前記対応カラム決定装置が、前記対応度の算出を各
情報抽出知識毎に並列に、または前記対応カラムの決定
を各形態素毎に並列に処理することを特徴とする請求項
7、9、10または11に記載の情報検索システムにあ
る。
According to a twelfth aspect of the present invention, the correspondence column determination device determines the correspondence degree in parallel for each information extraction knowledge or determines the correspondence column for each morpheme. 12. The information retrieval system according to claim 7, wherein the information retrieval system performs processing in parallel.

【0045】また、本出願の請求項13に記載の発明
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて、前記必須属性の抽出、複数の概念単位を
含まないことのチェック、並びに、新規の情報を含んで
いることのチェックを行って概念情報の必要十分性をチ
ェックすることを特徴とする請求項8、9、10、11
または12に記載の情報検索システムにある。
According to a thirteenth aspect of the present invention, the concept extracting device comprises a concept knowledge key in which essential attributes of a concept characterizing the concept to be extracted are described. When the concept information extracting device extracts the concept information while determining the concept description area, the concept attribute knowledge is used to extract the essential attributes, check that a plurality of concept units are not included, and add a new concept unit. 12. The concept information is checked to determine whether the concept information is necessary or sufficient.
Or the information retrieval system described in 12.

【0046】また、本出願の請求項14に記載の発明
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて抽出済みの概念情報の重複を解消すること
を特徴とする請求項8、9、10、11、12または1
3に記載の情報検索システムにある。
According to a fourteenth aspect of the present invention, the concept extracting apparatus further comprises a concept knowledge key in which essential attributes of the concept characterizing the concept to be extracted are described. 11. The concept information extracting apparatus according to claim 8, wherein when extracting the concept information while determining the concept description area, the concept information extracting apparatus uses the concept key knowledge to eliminate duplication of the extracted concept information. , 11, 12 or 1
3. The information retrieval system according to item 3.

【0047】また、本出願の請求項15に記載の発明
は、前記概念抽出装置が、前記自然言語文書中から形態
素を抜き出す形態素解析装置と、構文を解析する構文解
析装置と、前記構文解析装置の結果からガ格・ヲ格、主
語・述語、係り・受け等の構文要素のうち予め設定され
た構文要素を抽出して概念情報を作成する構文要素から
の概念作成装置とを具備し、前記構文解析結果のみから
概念情報を抽出することを特徴とする請求項1、2また
は3に記載の情報検索システムにある。
[0047] In the invention according to claim 15 of the present application, the concept extraction device extracts a morpheme from the natural language document, a syntax analysis device that analyzes a syntax, and the syntax analysis device. And a concept creation device from syntax elements for creating concept information by extracting preset syntax elements from syntax elements such as ga-case / ヲ -case, subject / predicate, dependency / acceptance, etc., 4. The information retrieval system according to claim 1, wherein concept information is extracted only from a result of the syntax analysis.

【0048】また、本出願の請求項16に記載の発明
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザの検索要求にしたがって前記データベ
ースに登録された概念情報から必要な概念情報を検索す
る概念検索ステップとを具備し、前記キーワード間の関
係情報を活用して前記概念単位または前記属性単位の情
報を条件とした検索を行うことを特徴とする情報検索シ
ステムにおける情報処理方法にある。
Further, according to the invention as set forth in claim 16 of the present application, based on keyword information extracted from a natural language document and information indicating a relationship between the keywords, the information is structured in units of concepts or attributes. A concept extracting step of extracting the concept information extracted, a concept registering step of registering the concept information extracted by the concept extracting step in a database, and necessary concept information from the concept information registered in the database according to a user's search request. A concept search step for searching, and performing a search using the information of the concept unit or the attribute unit as a condition using the relationship information between the keywords. .

【0049】また、本出願の請求項17に記載の発明
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザが与える自然言語検索文中から抽出し
たキーワード情報および該キーワード間の関係を表す情
報に基づいて、概念単位または属性単位に前記情報を構
造化した検索概念情報を抽出し、該抽出した検索概念情
報にしたがって前記データベースに登録された概念情報
から必要な概念情報を検索する概念検索ステップとを具
備し、前記キーワード間の関係情報を活用して前記概念
単位または前記属性単位の情報を条件とした検索を行う
ことを特徴とする情報検索システムにおける情報処理方
法にある。
Further, according to the invention described in claim 17 of the present application, based on keyword information extracted from a natural language document and information representing the relationship between the keywords, the information is structured in units of concepts or attributes. A concept extracting step of extracting the concept information extracted by the concept extracting step, a concept registering step of registering the concept information extracted by the concept extracting step in a database, and a keyword information extracted from a natural language search sentence given by a user and a relationship between the keywords. Concept search for extracting search concept information obtained by structuring the information in concept units or attribute units based on the information, and searching for necessary concept information from the concept information registered in the database according to the extracted search concept information The concept unit or the attribute by utilizing the relationship information between the keywords. In an information processing method in an information retrieval system and performs a search in which the position information and conditions.

【0050】また、本出願の請求項18に記載の発明
は、前記概念登録ステップが、前記概念抽出ステップに
より抽出した概念情報を、前記自然言語文書の文書所在
情報との組による転置インデックス形式で、或いは、前
記文書所在情報および該文書中に前記概念情報のどの属
性が記述されていたかを表す対応属性情報との組による
転置インデックス形式で、前記データベースに登録する
ことを特徴とする請求項16または17に記載の情報検
索システムにおける情報処理方法にある。
Further, in the invention according to claim 18 of the present application, the concept registering step converts the concept information extracted by the concept extracting step into an inverted index form by a combination with the document location information of the natural language document. 17. The method according to claim 16, wherein the document is registered in the database in an inverted index format based on a combination of the document location information and corresponding attribute information indicating which attribute of the concept information is described in the document. Or an information processing method in the information search system according to item 17.

【0051】また、本出願の請求項19に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報を記述した動詞格フ
レーム辞書と、前記意味素の表層的定義を行う意味素辞
書とを参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、前記格要素と概念との対応情報
に基づいて概念情報を作成する格要素からの概念作成ス
テップとを具備し、動詞が依存する意味素の情報を活用
して概念情報を抽出することを特徴とする請求項16、
17または18に記載の情報検索システムにおける情報
処理方法にある。
In the invention described in claim 19 of the present application, the concept extracting step includes a morphological analysis step of extracting a morpheme from the natural language document, and extracting only a verb component in the extracted morpheme. A verb case frame dictionary that describes information on semantics on which the verb depends, and a semantic dictionary that performs surface definition of the semantics, and specifies a case element corresponding to the verb. A case element specifying step, and a step of creating a concept from a case element that creates concept information based on the correspondence information between the case element and the concept. 17. The method according to claim 16, wherein
17. An information processing method in the information search system described in 17 or 18.

【0052】また、本出願の請求項20に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する表層格の情報を記述した動詞格フ
レーム辞書を参照して、前記動詞に対応する格要素を特
定する格要素特定ステップと、前記格要素と概念との対
応情報に基づいて概念情報を作成する格要素からの概念
作成ステップとを具備し、動詞が依存する表層格要素の
情報を活用して概念情報を抽出することを特徴とする請
求項16、17または18に記載の情報検索システムに
おける情報処理方法にある。
Further, in the invention according to claim 20 of the present application, the concept extracting step includes a morphological analysis step of extracting a morpheme from the natural language document, and extracting only a verb component in the extracted morpheme. A verb extraction step, a case element specifying step of specifying a case element corresponding to the verb with reference to a verb case frame dictionary describing information of a surface case on which the verb depends, and a correspondence between the case element and the concept. A step of creating a concept from a case element for creating concept information based on the information, wherein the concept information is extracted by utilizing information of a surface case element on which a verb depends. 18. An information processing method in the information search system according to item 18.

【0053】また、本出願の請求項21に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報と表層格の情報を記
述した動詞格フレーム辞書と、前記意味素の表層的定義
を行う意味素辞書とを参照して、前記動詞に対応する格
要素を特定する格要素特定ステップと、前記格要素と概
念との対応情報に基づいて概念情報を作成する格要素か
らの概念作成ステップとを具備し、動詞が依存する意味
素の情報と表層格の情報を活用して概念情報を抽出する
ことを特徴とする請求項16、17または18に記載の
情報検索システムにおける情報処理方法にある。
Further, in the invention according to claim 21 of the present application, the concept extracting step includes a morphological analysis step of extracting a morpheme from the natural language document, and extracting only a verb component in the extracted morpheme. A verb extraction step, a verb case frame dictionary that describes information of a semantic on which the verb depends and information of a surface case, and a semantic dictionary that performs a surface definition of the semantic, and corresponds to the verb. A case element specifying step of specifying a case element to perform, and a concept creation step from a case element for creating concept information based on the correspondence information between the case element and the concept, and information of a semantic on which the verb depends. 19. The information processing method in the information search system according to claim 16, wherein concept information is extracted by utilizing surface case information.

【0054】また、本出願の請求項22に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた各形態素(以下、着目要素という)の意味素の条件
と、前記着目要素が共起する共起要素の条件と、前記着
目要素および前記共起要素の付属要素の条件と、前記共
起要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、前記各対応カラムへの対応度を算出して最
も対応度の高い対応カラムに形態素を抽出する対応カラ
ム決定ステップとを具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法にある。
Further, in the invention according to claim 22 of the present application, the concept extracting step includes a morphological analysis step of extracting a morpheme from the natural language document, and the extracted morphemes (hereinafter, referred to as a target element). ), The condition of the co-occurring element co-occurring with the noted element, the condition of the attached element of the noted element and the co-occurring element, and the condition of the appearance position of the co-occurring element. Correspondence column determination for calculating the degree of correspondence to each corresponding column and extracting a morpheme to the corresponding column with the highest degree of correspondence by referring to information extraction knowledge describing information of a concept column (hereinafter, corresponding column) 2. The method according to claim 1, further comprising the steps of:
An information processing method in the information search system described in 6, 17 or 18.

【0055】また、本出願の請求項23に記載の発明
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、意味素と対応する概念のカラムの情報を
記述した文脈情報抽出知識を参照して、前記自然言語文
書中の文から文脈情報を抽出し、前記文脈階層構造情報
中に文脈情報を保存する文脈情報抽出ステップと、前記
文脈階層構造情報および該文脈階層構造情報の下位の文
脈領域から上位の文脈領域に或いは上位の文脈領域から
下位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出ス
テップとを具備することを特徴とする請求項16、17
または18に記載の情報検索システムにおける情報処理
方法にある。
Further, in the invention according to claim 23 of the present application, the concept extraction step regards the natural language document as a hierarchical context region, and sets conditions of a start point and an end point of each of the time domain regions. A context hierarchy analysis step of analyzing the hierarchy of the document structure of the natural language document and creating context hierarchy information by referring to context area extraction knowledge describing conditions and candidates for a lower context area; Context information for extracting context information from a sentence in the natural language document with reference to context information extraction knowledge describing information of a column of a concept corresponding to a semantic element, and storing context information in the context hierarchical structure information Extracting, from the context hierarchy structure information and the lower context region of the context hierarchy structure information to the upper context region or from the upper context region to the lower context region. A concept description area determining type concept information extracting step of extracting the concept information while determining an area in which the concept information is described by utilizing the stored context information. 16, 17
Or the information processing method in the information search system described in 18.

【0056】また、本出願の請求項24に記載の発明
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、前記自然言語文書中から形態素を抜き出
す形態素解析ステップと、前記抜き出された各形態素
(以下、着目要素という)の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識を参照して、
前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定ステッ
プとを備えて前記自然言語文書中の文から文脈情報を抽
出して、前記文脈階層構造情報中に文脈情報を保存する
文脈情報抽出ステップと、前記文脈階層構造情報および
該文脈階層構造情報の下位の文脈領域から上位の文脈領
域に或いは上位の文脈領域から下位の文脈領域にそれぞ
れ保存された文脈情報を活用して、概念情報が記述され
ている領域を決定しながら前記概念情報を抽出する概念
記述領域決定型概念情報抽出ステップとを具備すること
を特徴とする請求項16、17または18に記載の情報
検索システムにおける情報処理方法にある。
Further, in the invention according to claim 24 of the present application, the concept extraction step regards the natural language document as a hierarchical context region, and sets conditions for a start point and an end point for each of the time domain regions. A context hierarchy analysis step of analyzing the hierarchy of the document structure of the natural language document and creating context hierarchy information by referring to context area extraction knowledge describing conditions and candidates for a lower context area; A morphological analysis step of extracting a morpheme from the natural language document, a condition of a semantic element of each extracted morpheme (hereinafter, referred to as a target element), a condition of a co-occurrence element in which the target element co-occurs, The condition of the element of interest and the attached element of the co-occurrence element, the condition of the appearance position of the co-occurrence element, and the information of the column of the corresponding concept (hereinafter, corresponding column) are described. With reference to the information extraction knowledge,
A corresponding column determining step of calculating a degree of correspondence to each corresponding column and extracting a morpheme to a corresponding column having the highest degree of correspondence, extracting context information from a sentence in the natural language document, and A context information extracting step of storing context information in structure information; and storing the context hierarchy structure information and a lower context region of the context hierarchy structure information in a higher context region or a higher context region in a lower context region, respectively. 18. A concept description area determining type concept information extracting step of extracting the concept information while determining an area in which the concept information is described by utilizing the context information thus obtained. Or the information processing method in the information search system described in 18.

【0057】また、本出願の請求項25に記載の発明
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項22
または24に記載の情報検索システムにおける情報処理
方法にある。
Further, in the invention according to claim 25 of the present application, the information extraction knowledge is such that the condition of the semantic element of the element of interest, the condition of the co-occurrence element, the condition of the ancillary element, and the condition of the co-occurrence element 23. The condition of the appearance position is described as pattern description knowledge such as a regular expression.
Or an information processing method in the information search system described in 24.

【0058】また、本出願の請求項26に記載の発明
は、前記概念抽出ステップが、前記情報抽出知識のある
知識が合致した場合に、該知識と共起しやすい知識を活
性化させ、共起しにくい知識は抑制化する知識間相関ル
ールを参照することを特徴とする請求項22、24また
は25に記載の情報検索システムにおける情報処理方法
にある。
Further, in the invention according to claim 26 of the present application, the concept extracting step activates knowledge that is likely to co-occur with the knowledge when the knowledge of the information extraction knowledge matches. 26. The information processing method in the information search system according to claim 22, wherein knowledge that is unlikely to be generated refers to an inter-knowledge correlation rule to be suppressed.

【0059】また、本出願の請求項27に記載の発明
は、前記対応カラム決定ステップが、前記対応度の算出
を各情報抽出知識毎に並列に、または前記対応カラムの
決定を各形態素毎に並列に処理することを特徴とする請
求項22、24、25または26に記載の情報検索シス
テムにおける情報処理方法にある。
Further, in the invention according to claim 27 of the present application, the correspondence column determination step includes calculating the correspondence degree in parallel for each information extraction knowledge or determining the correspondence column for each morpheme. 27. An information processing method in an information retrieval system according to claim 22, wherein the information processing is performed in parallel.

【0060】また、本出願の請求項28に記載の発明
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて、前記必須属性の抽出、複数の概
念単位を含まないことのチェック、並びに、新規の情報
を含んでいることのチェックを行って概念情報の必要十
分性をチェックすることを特徴とする請求項23、2
4、25、26または27に記載の情報検索システムに
おける情報処理方法にある。
Further, in the invention according to claim 28 of the present application, the concept description area determining type concept information extracting step includes:
When extracting concept information while determining the concept description area,
Using the concept key knowledge describing the essential attribute of the concept characterizing the concept to be extracted, extraction of the essential attribute, checking that plural concept units are not included, and checking that new information is included 23. Checking the necessity and sufficientness of the concept information by performing
An information processing method in the information search system described in 4, 25, 26 or 27.

【0061】また、本出願の請求項29に記載の発明
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて抽出済みの概念情報の重複を解消
することを特徴とする請求項23、24、25、26、
27または28に記載の情報検索システムにおける情報
処理方法にある。
According to the invention described in claim 29 of the present application, the concept description area determination type concept information extracting step includes the following steps:
When extracting concept information while determining the concept description area,
27. The method according to claim 23, wherein duplication of extracted concept information is eliminated by using concept key knowledge describing essential attributes of the concept characterizing the concept to be extracted.
27. An information processing method in the information search system described in 27 or 28.

【0062】さらに、本出願の請求項30に記載の発明
は、請求項16、17、18、19、20、21、2
2、23、24、25、26、27、28または29に
記載の情報検索システムにおける情報処理方法をコンピ
ュータに実行させるためのプログラムとして記憶したコ
ンピュータにより読み取り可能な記録媒体にある。
Further, the invention described in claim 30 of the present application is directed to claims 16, 17, 18, 19, 20, 21, 2.
A computer-readable recording medium stored as a program for causing a computer to execute the information processing method in the information search system according to 2, 23, 24, 25, 26, 27, 28, or 29.

【0063】そして、この請求項1、請求項16または
請求項30に記載の発明によれば、概念抽出装置(概念
抽出ステップ)により、自然言語文書中から抽出したキ
ーワード情報および該キーワード間の関係を表す情報に
基づいて、概念単位または属性単位に情報を構造化した
概念情報を抽出し、該抽出した概念情報を概念登録装置
(概念登録ステップ)によってデータベースに登録し、
概念検索装置(概念検索ステップ)により、ユーザの検
索要求にしたがってデータベースに登録された概念情報
から必要な概念情報を検索する。
According to the invention described in claim 1, 16 or 30, the concept extracting device (concept extracting step) extracts the keyword information extracted from the natural language document and the relation between the keywords. Based on the information representing the information, concept information in which information is structured in concept units or attribute units is extracted, and the extracted concept information is registered in a database by a concept registration device (concept registration step),
The concept search device (concept search step) searches for necessary concept information from the concept information registered in the database in accordance with the search request of the user.

【0064】このように、キーワード間の関係を表す構
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、キーワード間の関係情報を活用
して概念単位または属性単位の情報を条件とした検索を
行うので、キーワード間の関係を表す情報の欠落を防ぐ
と共に、該概念情報を有効に活用して精度の高い情報検
索を実現できる。
As described above, the concept information including the syntactic, semantic, contextual, and structural information representing the relationship between the keywords is extracted and registered, and the concept information or the concept unit is utilized by utilizing the relationship information between the keywords. Since the search is performed on the basis of the information of the attribute unit, it is possible to prevent the loss of the information indicating the relationship between the keywords, and realize the highly accurate information search by effectively utilizing the concept information.

【0065】また、請求項2、請求項17または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)により、自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置(概念
登録ステップ)によってデータベースに登録し、概念検
索装置(概念検索ステップ)により、ユーザが与える自
然言語検索文中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した検索概念情報を抽出し、
該抽出した検索概念情報にしたがってデータベースに登
録された概念情報から必要な概念情報を検索する。
According to the invention described in claim 2, claim 17 or claim 30, the concept extracting device (concept extracting step) converts the keyword information extracted from the natural language document and the relationship between the keywords. Based on the information to be represented, concept information in which information is structured in concept units or attribute units is extracted, and the extracted concept information is registered in a database by a concept registration device (concept registration step). ), Based on the keyword information extracted from the natural language search sentence given by the user and the information indicating the relationship between the keywords, to extract search concept information in which information is structured in concept units or attribute units,
The necessary concept information is searched from the concept information registered in the database according to the extracted search concept information.

【0066】このように、キーワード間の関係を表す構
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、また自然言語検索文についても
検索概念情報を抽出して、キーワード間の関係情報を活
用して概念単位または属性単位の情報を条件とした検索
を行うので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を実現できる。
As described above, the concept information including the syntactic, semantic, contextual, and structural information representing the relationship between the keywords is extracted and registered, and the search concept information is also extracted for the natural language search sentence. Then, a search is performed on the basis of the information of the concept unit or the attribute by utilizing the relationship information between the keywords, so that the lack of the information representing the relationship between the keywords is prevented, and the concept information is effectively utilized. A highly accurate information search can be realized.

【0067】また、請求項3、請求項18または請求項
30に記載の発明によれば、概念登録装置(概念登録ス
テップ)において、抽出した概念情報を、自然言語文書
の文書所在情報との組による転置インデックス形式で、
或いは、文書所在情報および該文書中に前記概念情報の
どの属性が記述されていたかを表す対応属性情報との組
による転置インデックス形式で、データベースに登録す
る。
According to the invention described in claim 3, claim 18 or claim 30, in the concept registration device (concept registration step), the extracted concept information is combined with the document location information of the natural language document. In the inverted index format by
Alternatively, it is registered in the database in an inverted index format based on a combination of document location information and corresponding attribute information indicating which attribute of the concept information is described in the document.

【0068】これにより、上記概念情報に基づく精度の
高い検索に加えて、概念情報を出力結果とするだけでは
なく元の文書の情報をも活用できるので、検索結果とし
て出力し得る情報量を増やすことができ、また、概念情
報の一部である属性情報がどの文書に記述されていたか
を特定できるので、適切な文書のみを検索結果として提
示することが可能となる。
As a result, in addition to the highly accurate search based on the concept information, not only the concept information can be used as the output result, but also the information of the original document can be used, thereby increasing the amount of information that can be output as the search result. Since it is possible to specify in which document the attribute information which is a part of the concept information is described, it is possible to present only an appropriate document as a search result.

【0069】また特に、概念情報をリレーショナルデー
タベースのレコードで表現することとすれば、概念情報
の格納に公知のリレーショナルデータベースを流用し、
周知のリレーショナルデータベースの高速検索技術(イ
ンデックス等)を活用して高速検索を可能にしたり、S
QLや、GUIを用いたリレーショナルデータベースの
データ編集ツールを用いて、抽出した概念情報をメンテ
ナンスすることを容易にすることも可能である。
In particular, if the concept information is expressed by a record of the relational database, a known relational database is used for storing the concept information,
Utilizing well-known relational database high-speed search technology (index etc.) to enable high-speed search,
It is also possible to easily maintain the extracted conceptual information by using a data editing tool of a relational database using QL or GUI.

【0070】また、複数種類の概念情報を複数のテーブ
ルとして表現し、情報抽出知識の対象カラム(対応カラ
ム、抽出カラム、対象カラム等)の記述に、カラム名の
みではなくテーブル名をも記述することで、複数種類の
概念情報を同時に抽出することが可能になる。
Further, a plurality of types of concept information are expressed as a plurality of tables, and not only the column names but also the table names are described in the description of the target columns (corresponding columns, extraction columns, target columns, etc.) of the information extraction knowledge. This makes it possible to simultaneously extract a plurality of types of concept information.

【0071】さらに、同時に抽出した複数の概念情報の
リレーションのためのキーとなるカラムを設定すること
によって、リレーショナルデータベースにおけるテーブ
ルジョインを可能とし、複数の概念情報にわたる複雑な
検索要求を受け付けることが可能になる。
Further, by setting a column serving as a key for a relation between a plurality of conceptual information extracted at the same time, a table join in a relational database can be performed, and a complicated search request over a plurality of conceptual information can be accepted. become.

【0072】また、請求項4、請求項19または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する意味素の情報を
記述した動詞格フレーム辞書と意味素の表層的定義を行
う意味素辞書とを参照して、動詞に対応する格要素を特
定し、格要素からの概念作成装置(格要素からの概念作
成ステップ)により、格要素と概念との対応情報に基づ
いて概念情報を作成する。
According to the invention described in claim 4, claim 19 or claim 30, in the concept extracting device (concept extracting step), the morpheme is analyzed from the natural language document by the morphological analyzing device (morphological analyzing step). A verb case that extracts only the verb component in the morpheme extracted by the extraction and verb extraction device (verb extraction step), and describes the information of the semantic on which the verb depends by the case element identification device (case element identification step) The case element corresponding to the verb is specified by referring to the frame dictionary and the semantic dictionary for superficially defining the semantic element, and the case element-based concept creating device (case creating step from the case element) is used. Concept information is created based on correspondence information between a concept and a concept.

【0073】このように、動詞が依存する意味素の情報
を活用して、キーワード間の関係を表す構文的および意
味的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係情報を活用した検索を行うので、キーワー
ド間の関係を表す情報、特に構文的・意味的情報の欠落
を防ぐと共に、該概念情報を有効に活用して精度の高い
情報検索を実現できる。
As described above, utilizing the information of the semantics on which the verb depends, the concept information including the syntactic and semantic information representing the relation between the keywords is extracted and registered, and the relation information between the keywords is extracted. Since the search utilizing the keyword is performed, it is possible to prevent a loss of information representing the relationship between keywords, particularly syntactic and semantic information, and to realize a highly accurate information search by effectively utilizing the conceptual information.

【0074】また、請求項5、請求項20または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する表層格の情報を
記述した動詞格フレーム辞書を参照して動詞に対応する
格要素を特定し、格要素からの概念作成装置(格要素か
らの概念作成ステップ)により、格要素と概念との対応
情報に基づいて概念情報を作成する。
According to the invention described in claim 5, claim 20, or claim 30, in the concept extracting device (concept extracting step), the morpheme is extracted from the natural language document by the morphological analyzing device (morphological analyzing step). A verb case that extracts only the verb component in the morpheme extracted by the extraction and verb extraction device (verb extraction step), and describes information of the surface case on which the verb depends by a case element identification device (case element identification step) The case element corresponding to the verb is specified with reference to the frame dictionary, and the concept information is created based on the correspondence information between the case element and the concept by the concept creating apparatus from the case element (the step of creating the concept from the case element). .

【0075】このように、動詞が依存する表層格要素の
情報を活用して意味素辞書を具備することなしに、キー
ワード間の関係を表す構文的および意味的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用した検索を行うので、キーワード間の関係を表す
情報、特に構文的・意味的情報の欠落を防ぐと共に、該
概念情報を有効に活用してより簡潔な構成で精度の高い
情報検索を実現できる。
As described above, the concept information including the syntactic and semantic information representing the relationship between the keywords is extracted without utilizing the information of the surface case element on which the verb depends, without having a semantic dictionary. And perform a search utilizing the relationship information between the keywords, so that the information representing the relationship between the keywords, particularly syntactic and semantic information, is prevented from being lost, and the concept information is effectively used to make the search more concise. With a simple configuration, highly accurate information retrieval can be realized.

【0076】また、請求項6、請求項21または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する意味素の情報と
表層格の情報を記述した動詞格フレーム辞書と意味素の
表層的定義を行う意味素辞書とを参照して、動詞に対応
する格要素を特定し、格要素からの概念作成装置(格要
素からの概念作成ステップ)により、格要素と概念との
対応情報に基づいて概念情報を作成する。
According to the invention described in claim 6, 21 or 30, in the concept extracting device (concept extracting step), the morpheme is analyzed from the natural language document by the morphological analyzing device (morphological analyzing step). Extraction and extraction of only verb components in morphemes extracted by a verb extraction device (verb extraction step), and information of semantics and surface case information on which the verb depends by a case element identification device (case element identification step) A case element corresponding to a verb is specified with reference to a verb case frame dictionary describing the verb and a semantic dictionary for surface definition of the semantic, and a concept creating apparatus from the case element (a concept creating step from the case element) ), Concept information is created based on correspondence information between case elements and concepts.

【0077】このように、動詞が依存する意味素の情報
と表層格の情報を活用して、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録するので、表層格を表す格助詞が省略された文の場
合や、同一の意味素が複数含まれる文の場合等にも格要
素を特定することが可能となり、またキーワード間の関
係情報を活用した検索を行うので、キーワード間の関係
を表す情報、特に構文的・意味的情報の欠落を防ぐと共
に、該概念情報を有効に活用して精度の高い情報検索を
実現できる。
As described above, the concept information including the syntactic and semantic information representing the relationship between the keywords is extracted and registered by utilizing the information of the semantics on which the verb depends and the information of the surface case. , It is possible to specify case elements even in sentences in which case particles representing surface cases are omitted, or in cases where the same semantic element is included in multiple sentences. Therefore, it is possible to prevent a loss of information representing the relationship between keywords, particularly syntactic / semantic information, and to realize highly accurate information retrieval by effectively utilizing the concept information.

【0078】また、請求項7、請求項22または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、抜き
出された各形態素(以下、着目要素という)の意味素の
条件と、着目要素が共起する共起要素の条件と、着目要
素および共起要素の付属要素の条件と、共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識を参照して、
対応カラム決定装置(対応カラム決定ステップ)によ
り、各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する。
According to the invention described in claim 7, 22, or 30, in the concept extracting device (concept extracting step), the morpheme is extracted from the natural language document by the morphological analyzing device (morphological analyzing step). Conditions of semantic elements of extracted and extracted morphemes (hereinafter, referred to as target elements), conditions of co-occurring elements where the target elements co-occur, conditions of auxiliary elements of the target elements and co-occurring elements, and co-occurrences With reference to the condition of the appearance position of the element and the information extraction knowledge that describes the information of the column of the corresponding concept (hereinafter, corresponding column),
The corresponding column determining device (corresponding column determining step) calculates the degree of correspondence to each corresponding column and extracts a morpheme into the corresponding column having the highest degree of correspondence.

【0079】これにより、動詞述語文、形容詞述語文、
名詞述語文、単語のみの文、名詞句のみの文、体言止め
の文等からの概念情報の抽出を行うことができ、該概念
情報を有効に活用して精度の高い情報検索を実現でき
る。
Thus, a verb predicate sentence, an adjective predicate sentence,
It is possible to extract concept information from a noun predicate sentence, a sentence containing only words, a sentence containing only noun phrases, a sentence containing no words, and the like, and highly accurate information retrieval can be realized by effectively utilizing the concept information.

【0080】特に、情報抽出知識内の情報登録の際に使
用する知識と情報検索の際に使用する知識とを同一の書
式で作成し、登録・検索の意図情報を付加して情報抽出
知識を構築し、対応カラム決定装置(対応カラム決定ス
テップ)におけるカラムへの対応度を求める処理の際
に、登録対応度と検索対応度を別々に集計できるように
すれば、登録・検索時の処理や知識を同等に扱うことが
できる。
In particular, the knowledge used for information registration in the information extraction knowledge and the knowledge used for information search are created in the same format, and the intention information for registration / search is added to create the information extraction knowledge. By constructing and calculating the degree of correspondence to a column in the corresponding column determination device (corresponding column determination step), if the registration correspondence and the search correspondence can be separately tabulated, processing during registration / search can be performed. Knowledge can be treated equally.

【0081】また特に、対応カラム決定装置(対応カラ
ム決定ステップ)において、対応カラムへの対応度を求
めるために各対応カラムの対応度の初期値を決め、情報
抽出知識の一要素に合致する度に対応度を一定量ずつ加
算していき、最終的に最も対応度の大きい対応カラムに
形態素を抽出することを決定するようにすれば、情報抽
出知識中に加算する対応度のデータを保持する必要がな
く、記憶領域を節約できる。
In particular, in the corresponding column determining apparatus (corresponding column determining step), an initial value of the degree of correspondence of each corresponding column is determined in order to obtain the degree of correspondence to the corresponding column, and the degree of matching with one element of the information extraction knowledge is determined. If the degree of correspondence is added by a fixed amount at a time, and it is determined that a morpheme is to be finally extracted in the corresponding column having the highest degree of correspondence, the data of the degree of correspondence to be added is retained in the information extraction knowledge. There is no need to save storage space.

【0082】さらに、情報抽出知識中に各知識の確信度
(あるいは重要度)の情報を持ち、対応カラム決定装置
(対応カラム決定ステップ)において、対応カラムへの
対応度を求めるために、各対応カラムの対応度の初期値
を決め、情報抽出知識の一要素に合致する度にその知識
の確信度を対応度に加算していき、最終的に最も対応度
の大きい対応カラムに形態素を抽出するようにすれば、
各情報抽出知識に重み付けをすることができることによ
り、抽出精度および検索精度を高めることができ、また
確信度の変更による知識のチューニングを容易に行うこ
とができる。
Further, the information extraction knowledge has information on the degree of certainty (or importance) of each knowledge, and the corresponding column determination device (corresponding column determination step) uses each correspondence to determine the degree of correspondence to the corresponding column. Determine the initial value of the degree of correspondence of the column, add the certainty of that knowledge to the degree of correspondence whenever it matches one element of the information extraction knowledge, and finally extract the morpheme to the corresponding column with the highest degree of correspondence By doing so,
By being able to weight each information extraction knowledge, extraction accuracy and search accuracy can be improved, and knowledge tuning can be easily performed by changing the certainty factor.

【0083】また、請求項8、請求項23または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置(文脈階層構造解析ステップ)によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、意味素と対応する概念のカラ
ムの情報を記述した文脈情報抽出知識を参照して、文脈
情報抽出装置(文脈情報抽出ステップ)により、自然言
語文書中の文から文脈情報を抽出して文脈階層構造情報
中に該文脈情報を保存し、概念記述領域決定型概念情報
抽出装置(概念記述領域決定型概念情報抽出ステップ)
では、前記文脈階層構造情報および該文脈階層構造情報
の下位の文脈領域から上位の文脈領域に或いは上位の文
脈領域から下位の文脈領域にそれぞれ保存された文脈情
報を活用して、概念情報が記述されている領域を決定し
ながら前記概念情報を抽出する。
According to the invention described in claim 8, 23, or 30, the concept extracting apparatus (concept extracting step) regards the natural language document as a hierarchical context area, and sets each of the time domain areas. The context hierarchical structure analysis device (context hierarchical structure analysis step) refers to the context region extraction knowledge describing the start point condition, the end point condition, and the candidate for the lower-order context region for the document of the natural language document. Analyze the hierarchy of the structure to create context hierarchical structure information, refer to the context information extraction knowledge that describes the semantic and corresponding column information of the concept, and use the context information extraction device (context information extraction step). Extracts context information from a sentence in a natural language document, stores the context information in context hierarchical structure information, and outputs a concept description area determining type concept information extraction device (concept description). Region determining type conceptual information extraction step)
The concept information is described by utilizing the context hierarchical structure information and the context information stored in the lower context area from the lower context area of the context hierarchical structure information or in the lower context area from the upper context area. The concept information is extracted while deciding the region in which the image data is set.

【0084】このように、文書構造の持つ階層性を解析
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。また、文脈情報抽出知
識を意味素と対応する概念のカラムの情報による構築が
容易な単純な知識として、単語のみの文、名詞句のみの
文、体言止めの文等からの文脈情報の抽出をより簡単な
構成で可能にしている。
As described above, the hierarchical structure of the document structure is analyzed, and conceptual information including syntactic, semantic, contextual, and structural information representing the relationship between keywords is extracted and registered. By using the relationship information between them to perform a search based on information in terms of concepts or attributes, context information about paragraphs and bullets, structural information about bullets,
It is possible to prevent the lack of information indicating the relationship between keywords, such as context / structure information about tables and syntactic / semantic information, and to achieve more accurate information retrieval by effectively utilizing context information and concept information. . In addition, the context information extraction knowledge is simple knowledge that can be easily constructed by using the information of the column of the concept corresponding to the semantic element, and the extraction of context information from sentences only with words, sentences only with noun phrases, sentences with no words, etc. This is possible with a simpler configuration.

【0085】特に、文脈情報抽出知識の開始ポイントお
よび終了ポイントにタグの情報を含ませれば、HTML
やSGML等のマークアップ言語からの文脈階層構造情
報の作成が可能となる。
In particular, if tag information is included in the start point and end point of context information extraction knowledge, HTML
And context hierarchical structure information from a markup language such as SGML or SGML.

【0086】また、請求項9、請求項24または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置(文脈階層構造解析ステップ)によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、文脈情報抽出装置(文脈情報
抽出ステップ)においては、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、抜き出された各形態素(以下、着目要素という)の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、対応カラム決定装置(対応カラム決定ステ
ップ)により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出することによ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に文脈情報を保存し、概念記述領域決定型
概念情報抽出装置(概念記述領域決定型概念情報抽出ス
テップ)では、文脈階層構造情報および該文脈階層構造
情報の下位の文脈領域から上位の文脈領域に或いは上位
の文脈領域から下位の文脈領域にそれぞれ保存された文
脈情報を活用して、概念情報が記述されている領域を決
定しながら前記概念情報を抽出する。
According to the ninth, twenty-fourth, or thirty-third aspect of the present invention, in the concept extracting device (concept extracting step), the natural language document is regarded as a hierarchical context region, and each of the time domain regions is determined. The context hierarchical structure analysis device (context hierarchical structure analysis step) refers to the context region extraction knowledge describing the start point condition, the end point condition, and the candidate for the lower-order context region for the document of the natural language document. Context hierarchy structure information is created by analyzing the hierarchy of the structure, and in the context information extraction device (context information extraction step), a morpheme is extracted from the natural language document by the morphological analysis device (morphological analysis step) and extracted. Condition of each morpheme (hereinafter, referred to as a target element), a condition of a co-occurrence element in which the target element co-occurs, The corresponding column determining device (corresponding to the corresponding column determining device (corresponding to the corresponding column determining device) Column determination step), the degree of correspondence to each corresponding column is calculated, and the morpheme is extracted to the corresponding column having the highest degree of correspondence. In the concept description area determining type concept information extracting device (conceptual description area determining type concept information extracting step), context hierarchical structure information and a lower context area of the context hierarchical structure information are transferred to a higher context area. Alternatively, the concept information is extracted while utilizing the context information stored in the lower context area from the upper context area while determining the area where the concept information is described.

【0087】このように、文書構造の持つ階層性を解析
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。特に、共起要素を複数
規定できたり、共起要素の出現位置をより柔軟に記述で
きることで、動詞述語文、形容詞述語文、名詞述語文、
単語のみの文、名詞句のみの文、体言止めの文等からの
高い精度での文脈情報の抽出が可能である。
As described above, the hierarchical structure of the document structure is analyzed, and conceptual information including syntactic, semantic, contextual, and structural information representing the relationship between keywords is extracted and registered. By using the relationship information between them to perform a search based on information in terms of concepts or attributes, context information about paragraphs and bullets, structural information about bullets,
It is possible to prevent the lack of information indicating the relationship between keywords, such as context / structure information about tables and syntactic / semantic information, and to achieve more accurate information retrieval by effectively utilizing context information and concept information. . In particular, multiple co-occurrence elements can be specified, and the appearance position of co-occurrence elements can be described more flexibly, so that verb predicate sentences, adjective predicate sentences, noun predicate sentences,
It is possible to extract context information with high accuracy from sentences including only words, sentences including only noun phrases, sentences with no words, and the like.

【0088】また、請求項10、請求項25または請求
項30に記載の発明によれば、情報抽出知識を、着目要
素の意味素の条件、共起要素の条件、付属要素の条件お
よび共起要素の出現位置の条件を、正規表現等のパター
ン記述知識として記述して構築する。共起要素を複数規
定できたり、共起要素の出現位置をより柔軟に記述でき
ることで、動詞述語文、形容詞述語文、名詞述語文、単
語のみの文、名詞句のみの文、体言止めの文等からの概
念情報または文脈情報の抽出をより高い精度で行うこと
ができ、該概念情報または文脈情報を有効に活用して精
度の高い情報検索を実現できる。
According to the tenth, twenty-fifth, and thirty-third aspects of the present invention, the information extraction knowledge is used to determine the semantic condition of the element of interest, the condition of the co-occurring element, the condition of the adjunct element, and the The condition of the appearance position of the element is described and constructed as pattern description knowledge such as a regular expression. By being able to specify multiple co-occurrence elements and describing the appearance position of co-occurrence elements more flexibly, verb predicate sentences, adjective predicate sentences, noun predicate sentences, sentences containing only words, sentences containing only noun phrases, sentences with no speech It is possible to extract the concept information or the context information from the information with high accuracy, and to realize the information search with high accuracy by effectively utilizing the concept information or the context information.

【0089】また、請求項11、請求項26または請求
項30に記載の発明によれば、概念抽出装置(概念抽出
ステップ)において、情報抽出知識のある知識が合致し
た場合に、該知識と共起しやすい知識を活性化させ、共
起しにくい知識は抑制化する知識間相関ルールを参照す
る。これにより、高い精度で対応カラムの決定が可能に
なり、結果として、高い精度の情報検索を行うことがで
きる。
According to the eleventh, twenty-sixth, or thirty-third aspects of the present invention, in the concept extracting device (concept extracting step), when the knowledge of the information extraction knowledge matches, the information extraction knowledge is shared with the knowledge. The knowledge that is likely to be activated is activated, and the knowledge that is unlikely to co-occur is referred to the inter-knowledge correlation rule that is suppressed. As a result, the corresponding column can be determined with high accuracy, and as a result, information search with high accuracy can be performed.

【0090】また、請求項12、請求項27または請求
項30に記載の発明によれば、対応カラム決定装置(対
応カラム決定ステップ)において、対応度の算出を各情
報抽出知識毎に並列に、または対応カラムの決定を各形
態素毎に並列に処理する。このように、各情報抽出知識
が独立して処理される特徴を利用して、並列コンピュー
タ等を用いて並列処理で対応度の算出処理を行うことに
より高速処理が可能となり、また、各形態素が独立して
処理される特徴を利用して、並列コンピュータ等を用い
て並列処理で対応カラムの決定処理を行うことにより高
速処理が可能となる。
According to the invention described in claim 12, 27 or 30, in the corresponding column determining apparatus (corresponding column determining step), the degree of correspondence is calculated in parallel for each information extraction knowledge. Alternatively, the determination of the corresponding column is processed in parallel for each morpheme. In this way, by utilizing the feature that each information extraction knowledge is processed independently, high-speed processing can be performed by performing the processing of calculating the degree of correspondence by parallel processing using a parallel computer or the like. High-speed processing can be performed by performing the corresponding column determination processing in parallel using a parallel computer or the like by using the features processed independently.

【0091】また、請求項13、請求項28または請求
項30に記載の発明によれば、概念記述領域決定型概念
情報抽出装置(概念記述領域決定型概念情報抽出ステッ
プ)において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて、前記必須属性の
抽出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックする。これにより、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能となる。
According to the thirteenth, twenty-eighth, or thirty-third aspects of the present invention, a concept description area determining type concept information extracting apparatus (a concept description area determining type concept information extracting step) stores a concept description area. When extracting concept information while determining, using concept key knowledge describing essential attributes of the concept characterizing the concept to be extracted, extracting the essential attributes, checking that a plurality of concept units are not included, and Check that the new information is included, and check the necessity and sufficiency of the conceptual information. As a result, the accuracy of information extraction in concept units is improved, and as a result, information retrieval with high accuracy is possible.

【0092】また、請求項14、請求項29または請求
項30に記載の発明によれば、概念記述領域決定型概念
情報抽出装置(概念記述領域決定型概念情報抽出ステッ
プ)において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて抽出済みの概念情
報の重複を解消する。これにより、概念単位の情報抽出
の精度が高められ、結果として高い精度の情報検索が可
能となる。
According to the invention described in claim 14, 29 or 30, the concept description area determining type concept information extracting apparatus (concept description area determining type concept information extracting step) stores the concept description area in the concept description area determining type concept information extracting step. When extracting concept information while deciding, the duplication of the extracted concept information is eliminated by using concept key knowledge describing essential attributes of the concept characterizing the concept to be extracted. As a result, the accuracy of information extraction in concept units is improved, and as a result, information retrieval with high accuracy is possible.

【0093】さらに、本出願の請求項15に記載の発明
によれば、概念抽出装置において、形態素解析装置によ
り自然言語文書中から形態素を抜き出し、構文解析装置
により構文を解析し、構文要素からの概念作成装置によ
り、構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する。このように、意味素辞
書を具備することなしに、構文解析結果のみからキーワ
ード間の関係を表す構文的な情報を含む概念情報を抽出
して登録し、キーワード間の関係情報を活用した検索を
行うので、キーワード間の関係を表す情報、特に構文的
情報の欠落を防ぐと共に、該概念情報を有効に活用して
より簡潔な構成で精度の高い情報検索を実現できる。
Further, according to the invention described in claim 15 of the present application, in the concept extracting device, the morpheme is extracted from the natural language document by the morphological analysis device, the syntax is analyzed by the syntax analysis device, and the By the concept creation device, the ga-case / ガ -case, subject / predicate,
Concept information is created by extracting a pre-set syntax element from the syntax elements such as interlocking and receiving. As described above, without providing a semantic dictionary, the concept information including the syntactic information representing the relationship between keywords is extracted and registered from only the syntax analysis result, and the search utilizing the relationship information between keywords is performed. As a result, it is possible to prevent a loss of information representing the relationship between keywords, particularly syntactic information, and realize a highly accurate information search with a simpler configuration by effectively utilizing the concept information.

【0094】[0094]

【発明の実施の形態】以下、本発明に係る情報検索シス
テム、情報検索システムにおける情報処理方法および記
録媒体の実施の形態について、次の[目次]の順に図面
を参照して詳細に説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of an information retrieval system, an information processing method and a recording medium in the information retrieval system according to the present invention will be described below in detail with reference to the drawings in the following order of contents.

【0095】[目次] 1.実施形態の概要 1−1.システムの構成 1−2.情報登録処理 1−3.情報検索処理 2.概念集合の表現 3.概念情報の抽出 3−1.意味解析を用いた概念情報の抽出 3−2.文脈解析および構造解析を用いた概念情報の抽
出 (1)文脈階層構造解析 (2)文脈情報抽出 (3)概念記述領域決定と概念情報抽出 4.概念情報の登録 5.概念情報の検索 6.実施形態の効果
[Table of Contents] 1. Overview of Embodiment 1-1. Configuration of system 1-2. Information registration process 1-3. 1. Information search processing 2. Representation of concept set Extraction of concept information 3-1. Extraction of concept information using semantic analysis 3-2. 3. Extraction of concept information using context analysis and structural analysis (1) Context hierarchical structure analysis (2) Context information extraction (3) Concept description area determination and concept information extraction Registration of conceptual information 5. Search for conceptual information Effects of the embodiment

【0096】1.実施形態の概要 1−1.システムの構成 図1は本発明の一実施形態に係る情報検索システムの構
成図である。なお、本実施形態の情報検索システムも、
従来例と同様に「WWW(World Wide Web)ページ検索
システム」に適用した事例であり、同図において図49
(従来例)と重複する部分には同一の符号を附する。
1. 1. Overview of Embodiment 1-1. System Configuration FIG. 1 is a configuration diagram of an information search system according to an embodiment of the present invention. Note that the information search system of the present embodiment also
This is an example applied to a “WWW (World Wide Web) page search system” as in the conventional example, and FIG.
The same reference numerals are given to portions overlapping with (conventional example).

【0097】本実施形態のWWWページ検索システム
は、インターネット112につながる複数台のコンピュ
ータ上に構築され、該複数台のコンピュータの外部記憶
装置上に分散して蓄積された自然言語を含む文書群11
0から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。
The WWW page search system according to the present embodiment is constructed on a plurality of computers connected to the Internet 112, and includes a document group 11 containing a natural language distributed and stored on an external storage device of the plurality of computers.
This system is constructed for the purpose of immediately finding the location of information desired by the user from 0.

【0098】図1において、本実施形態のWWWページ
検索システムは、特徴的な構成要素として、概念抽出装
置101、概念登録装置102、概念検索装置103、
データベース104および概念検索文解析装置105を
具備する他、従来例と同様に、CPU106、メインメ
モリ107、ディスプレイ108およびキーボード10
9を備えて構成され、データベース104を除く各構成
要素はデータバス111を介して相互に接続された構成
となっている。
In FIG. 1, the WWW page search system according to the present embodiment includes a concept extraction device 101, a concept registration device 102, a concept search device 103,
In addition to having a database 104 and a concept search sentence analyzer 105, the CPU 106, main memory 107, display 108 and keyboard 10
9 except that the components except the database 104 are interconnected via a data bus 111.

【0099】概念抽出装置101においては、自然言語
文書110中からキーワードおよび該キーワード間の関
係を表す情報を抽出し、概念単位や属性単位に情報を構
造化した「概念情報」にまとめあげる概念抽出処理が行
われる。これにより、自然言語文書110は概念の集合
に変換される。
The concept extracting apparatus 101 extracts a keyword and information representing the relationship between the keywords from the natural language document 110 and collects the information into “concept information” in which information is structured in concept units or attribute units. Is performed. As a result, the natural language document 110 is converted into a set of concepts.

【0100】また、概念登録装置102においては、概
念抽出装置101によって抽出された概念情報をデータ
ベース104に登録して保存する。また、自然言語文書
110の文書所在情報を取得して、抽出した概念情報と
文書所在情報との組による概念情報転置インデックスと
してデータベース104に登録・保存することも可能で
あり、さらに、自然言語文書110中に概念情報のどの
属性が記述されていたかを表す対応属性情報を付加し
て、概念情報、文書所在情報および対応属性情報の組に
よる概念情報転置インデックスとしてデータベース10
4に登録・保存することも可能である。
In the concept registration device 102, the concept information extracted by the concept extraction device 101 is registered and stored in the database 104. It is also possible to acquire the document location information of the natural language document 110 and register and store it in the database 104 as a concept information inverted index based on a set of the extracted concept information and document location information. Corresponding attribute information indicating which attribute of the concept information is described in 110 is added to the database 10 as a concept information inverted index based on a set of the concept information, the document location information and the corresponding attribute information.
4 can also be registered and stored.

【0101】また、概念検索装置103においては、登
録・保存されているデータベース104中の概念情報か
ら検索要求にしたがって必要な概念情報を検索する。検
索要求は、従来例と同様に自然言語による検索文を入力
するものと、所定文法に基づく概念検索文を入力するも
のとの2種類がある。
The concept search device 103 searches for necessary concept information from the registered and stored concept information in the database 104 in accordance with a search request. There are two types of search requests, one for inputting a search sentence in natural language, as in the conventional example, and the other for inputting a concept search sentence based on a predetermined grammar.

【0102】また、概念検索文解析装置104において
は、ユーザが与える自然言語検索文中から抽出したキー
ワード情報および該キーワード間の関係を表す情報に基
づいて、概念単位または属性単位に情報を構造化した検
索概念情報(検索概念集合)を抽出し、該抽出した検索
概念情報にしたがってデータベース104に登録された
概念情報から必要な概念情報を検索する。
In the concept search sentence analyzing apparatus 104, the information is structured in concept units or attribute units based on the keyword information extracted from the natural language search sentence given by the user and the information indicating the relationship between the keywords. The search concept information (search concept set) is extracted, and necessary concept information is searched from the concept information registered in the database 104 according to the extracted search concept information.

【0103】さらに、データベース104において、概
念情報をリレーショナルデータベースのレコードで表現
することにより、概念情報の格納に従前のリレーショナ
ルデータベースを流用し、公知のリレーショナルデータ
ベースの高速検索技術(インデックスなど)を活用して
高速検索を可能にしたり、データベース言語SQLや、
GUI(グラフィック・ユーザ・インタフェース)を用
いたリレーショナルデータベースのデータ編集ツールを
用いて、抽出した概念情報をメンテナンスすることを容
易にすることも可能である。
Further, in the database 104, the concept information is represented by a record of the relational database, so that the relational database before storing the concept information is diverted, and a well-known relational database high-speed search technology (index or the like) is used. To enable high-speed search, database language SQL,
It is also possible to easily maintain the extracted conceptual information by using a data editing tool of a relational database using a GUI (graphic user interface).

【0104】1−2.情報登録処理 次に、本実施形態のWWWページ検索システムにおける
情報登録処理について、図2に示す情報登録処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。
1-2. Information Registration Process Next, the information registration process in the WWW page search system according to the present embodiment will be described in detail with reference to the flowchart of FIG. 2 illustrating the procedure of the information registration process.

【0105】まず、ステップ201では、概念抽出装置
101により自然言語文書202から概念抽出が行われ
る。この結果、自然言語文書202は概念の集合203
に変換される。当該ステップにおける概念抽出の方法、
並びに、概念集合203の保持方法については様々な手
法が考えられるが、概念抽出方法については「3.概念
情報の抽出」で、概念集合の保持方法については「2.
概念集合の表現」でそれぞれ後述する。また、概念抽出
装置101のより詳細な構成および作用等についても
「3.概念情報の抽出」で詳述する。
First, in step 201, the concept extraction device 101 extracts a concept from a natural language document 202. As a result, the natural language document 202 becomes a set 203 of concepts.
Is converted to The method of concept extraction in the step,
Various methods are conceivable for the method of holding the concept set 203. The concept extraction method is described in “3. Extraction of Concept Information”, and the concept set holding method is described in “2.
Expressions of concept sets ". Further, a more detailed configuration, operation, and the like of the concept extracting apparatus 101 will be described in “3. Extraction of Concept Information”.

【0106】一方、ステップ204では、概念登録装置
102により自然言語文書110の文書所在情報(文書
ID)205を取得する。ここで、自然言語文書110
の文書所在情報205は、WWWページ検索システムの
場合にはURL(Uniform Resource Locator)が該当す
る。
On the other hand, in step 204, document location information (document ID) 205 of the natural language document 110 is obtained by the concept registration device 102. Here, the natural language document 110
The document location information 205 corresponds to a URL (Uniform Resource Locator) in the case of a WWW page search system.

【0107】次に、ステップ206では、概念登録装置
102により、ステップ201で抽出された概念集合2
03およびステップ204で取得された文書所在情報2
05がセットにされてデータベース104に登録され
る。すなわち、従来の転置インデックス(図51参照)
におけるキーワード部分を概念情報で置き換えたデータ
構造の概念情報転置インデックス(図38参照)が登録
される。データベース104への概念情報の登録方法お
よび登録されるデータ構造に関する詳細については
「4.概念情報の登録」で説明する。
Next, in step 206, the concept registration device 102 extracts the concept set 2 extracted in step 201.
03 and document location information 2 obtained in step 204
05 are set and registered in the database 104. That is, the conventional inverted index (see FIG. 51)
The concept information transposed index (see FIG. 38) of the data structure in which the keyword portion in the is replaced with the concept information is registered. Details of a method of registering concept information in the database 104 and a data structure to be registered will be described in “4. Registration of concept information”.

【0108】1−3.情報検索処理 次に、本実施形態のWWWページ検索システムにおける
情報検索処理について、図3に示す情報検索処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。
1-3. Information Search Process Next, the information search process in the WWW page search system according to the present embodiment will be described in detail with reference to the flowchart of FIG. 3 illustrating the procedure of the information search process.

【0109】従来例の場合と同様に、情報検索処理にお
いてユーザがキーボード109を介して入力する検索文
には、主に2種類あり、この検索文の種類によって処理
が一部異なる。1つは従来例と同様に、自然言語での検
索文をそのまま入力する場合であり、もう1つは所定の
文法に基づいて概念検索文を入力する場合である。概念
検索文は、従来例におけるキーワード検索文とは異なる
ものになるが、抽出された情報に直接アクセスして条件
を指定できるようなものと言う意味では同様なものとし
て捉えることができる。具体的には、SQLのようなも
のがその一例となるが、これに関する詳細は「5.概念
情報の検索」で述べる。
As in the case of the conventional example, there are mainly two types of search text input by the user via the keyboard 109 in the information search process, and the processing partially differs depending on the type of the search text. One is a case where a search sentence in a natural language is directly input, as in the conventional example, and the other is a case where a concept search sentence is input based on a predetermined grammar. Although the concept search sentence is different from the keyword search sentence in the conventional example, the concept search sentence can be regarded as similar in the sense that the extracted information can be directly accessed to specify the condition. Specifically, an example such as SQL is an example, and details regarding this will be described in “5. Search for Conceptual Information”.

【0110】図3のフローチャートでは、ステップ30
1において、これらの検索文の種類(自然言語検索文か
または概念検索文か)を判定して処理を分岐させてい
る。
In the flowchart of FIG.
In 1, the type of the search sentence (natural language search sentence or concept search sentence) is determined, and the process is branched.

【0111】検索文が自然言語検索文303である場合
には、ステップ302に進んで、概念抽出装置101に
よって検索概念を抽出する。検索概念の抽出方法および
内部表現方法にはいろいろな手法が考えられるが、これ
らについては「5.概念情報の検索」で述べる。
If the search sentence is a natural language search sentence 303, the process proceeds to step 302, where the concept extraction device 101 extracts a search concept. Various methods can be considered for the extraction method of the search concept and the internal expression method. These methods will be described in “5. Search for Concept Information”.

【0112】この段階で抽出された検索概念の集合を、
ここでは検索概念集合306と呼ぶ。
The set of search concepts extracted at this stage is
Here, it is called a search concept set 306.

【0113】また、検索文が概念検索文305である場
合には、ステップ304に進んで、入力された概念検索
文305は概念検索文解析装置105によって文法解析
され、検索概念集合306に変換される。ここでの文法
はシステム依存であるが、SQLの検索文のような能力
を持った文法が定義されているものとする。この場合、
検索概念集合306は、単なる概念の集合だけではな
く、何を検索するのか、条件は何なのか等の情報を保持
しているものとなる。なお、詳細は「5.概念情報の検
索」で述べる。
If the search sentence is a concept search sentence 305, the process proceeds to step 304, where the input concept search sentence 305 is grammatically analyzed by the concept search sentence analyzer 105 and converted into a search concept set 306. You. Although the grammar here depends on the system, it is assumed that a grammar having a capability like an SQL search sentence is defined. in this case,
The search concept set 306 is not only a set of concepts, but also holds information such as what to search and what conditions are. The details will be described in “5. Search for conceptual information”.

【0114】さらに、キーボード109からの入力がな
くても、何らかの方法によって検索概念集合306を自
動生成するようなシステムも本発明の対象となる。例え
ば、人間同士がやり取りする電子メールを監視して、電
子メールの内容から自動的に関連情報を検索するための
検索概念集合306を作成するなどが考えられる。この
ようにすると、ユーザがキーボード109を介して検索
文を入力する作業が削減できるという利点がある。
Further, a system that automatically generates the search concept set 306 by any method without input from the keyboard 109 is also an object of the present invention. For example, it is conceivable to monitor an electronic mail exchanged between humans and create a search concept set 306 for automatically searching for relevant information from the contents of the electronic mail. In this way, there is an advantage that the user can reduce the work of inputting a search sentence via the keyboard 109.

【0115】以上のようにして、自然言語検索文303
または概念検索文305によって指定された検索内容
は、一旦、検索概念集合306に変換され、ステップ3
07では、これを元にして概念検索装置103によりデ
ータベース104からの検索処理が行われる。そして、
ステップ308で、その結果がディスプレイ108上に
表示されることになる。
As described above, the natural language search sentence 303
Alternatively, the search content specified by the concept search sentence 305 is temporarily converted into a search concept set 306, and step 3
At 07, a search process from the database 104 is performed by the concept search device 103 based on this. And
At step 308, the result will be displayed on the display 108.

【0116】2.概念集合の表現 「1−2.情報登録処理」の説明で述べたように、抽出
した概念集合203をどういった形態で保持するかとい
うことについては様々な方法が考えられるが、ここで
は、その一例としてデータベースのレコード様のデータ
構造によって概念集合203を表現する方法について述
べる。なお、概念表現を自然言語文書202から抽出す
る方法については、次の「3.概念情報の抽出」で述べ
る。
[0116] 2. Expression of concept set As described in the description of “1-2. Information registration processing”, various methods can be considered as to in what form the extracted concept set 203 is held. As an example, a method of expressing the concept set 203 by a data structure like a record in a database will be described. The method of extracting the concept expression from the natural language document 202 will be described in the next section “3. Extraction of Concept Information”.

【0117】以下では、データベースのレコード様のデ
ータ構造によって概念集合203を表現する方法につい
て述べる。この方法では、概念集合203はレコードの
集合となるので、データベース104のテーブルが概念
集合に当たる。例えば、従来例でも引用した図4の自然
言語文書は、概念抽出処理(図2のステップ201)に
よって、図5に示すような概念集合のテーブルに変換さ
れる。すなわち図5において、各製品を表しているレコ
ードが抽出した概念に相当する。
In the following, a method for expressing the concept set 203 by a record-like data structure of the database will be described. In this method, since the concept set 203 is a set of records, the table of the database 104 corresponds to the concept set. For example, the natural language document of FIG. 4 cited in the conventional example is converted into a concept set table as shown in FIG. 5 by a concept extraction process (step 201 in FIG. 2). That is, in FIG. 5, the record representing each product corresponds to the extracted concept.

【0118】図5のように抽出された概念集合は、従来
例のキーワード集合(図52参照)に比べて、以下の2
点で情報の質が異なっている。まず第1に、「概念単位
の情報構造化」であり、概念単位(ここでは製品単位)
に情報が分離され、データベース104のレコードとし
て抽出されている。また第2に、「概念の属性単位の情
報構造化と属性の意味把握」であり、概念の保持する属
性単位(ここではテーブルのカラムに相当する)に情報
が分離されている。別の見方をすれば、概念に関係する
キーワードが、概念との関係単位に整理されていると見
ることもできる。同時に、この場合、カラムにカラム名
がついていることからもわかるように、概念との関係の
種類(或いは意味)が把握されていることがわかる。
The concept set extracted as shown in FIG. 5 is different from the conventional keyword set (see FIG. 52) in the following two points.
The quality of information is different. The first is “information structuring in concept units”, which are concept units (here, product units).
The information is separated and extracted as a record in the database 104. The second is "information structuring of attribute units of concepts and grasping of meanings of attributes", in which information is separated into attribute units (corresponding to columns of a table in this case) held by the concepts. From another point of view, it can be seen that the keywords related to the concept are arranged in units related to the concept. At the same time, in this case, as can be seen from the column name given to the column, it is understood that the type (or meaning) of the relationship with the concept is grasped.

【0119】このような情報の質の違いによって、従来
例のキーワード集合(図52参照)において欠落してい
た情報が保存されていると考えることができる。具体的
には以下のような特徴的な事項を挙げることができる。
Due to such a difference in the quality of the information, it can be considered that the information missing in the conventional keyword set (see FIG. 52) is stored. Specifically, the following characteristic items can be mentioned.

【0120】第1に、自然言語文書(図4)のタイトル
の「オムロン製品情報」によって与えられた、該タイト
ル以下の文書内容が全てオムロンの製品について述べら
れているという文脈情報は、従来例の図52では欠落し
ていたが、本実施形態の図5では「メーカー」のカラム
として情報が保存されている。
First, the context information given by the “Omron Product Information” of the title of the natural language document (FIG. 4), in which all the document contents under the title describe Omron's products, is a conventional example. 52 is omitted in FIG. 52, but the information is stored as a column of “manufacturer” in FIG. 5 of the present embodiment.

【0121】第2に、自然言語文書(図4)において、
(a), (b), (c) の箇条書きの見出し語によって与えられ
た、それぞれの箇条書き項目の製品種別の文脈情報は、
従来例の図52では欠落していたが、本実施形態の図5
では「製品」のカラムとして情報が保存されている。
Second, in a natural language document (FIG. 4),
The product category context information for each bulleted item, given by the bulleted headings (a), (b), and (c),
Although missing in FIG. 52 of the conventional example, FIG.
In, information is stored as a column of “product”.

【0122】第3に、自然言語文書(図4)において、
「●」で示された項目によって、(a)の中に独立した2
つの製品情報があるという構造情報は、従来例の図52
では欠落していたが、本実施形態の図5ではそれぞれ別
のレコードとして情報が保存されることで保たれてい
る。
Third, in a natural language document (FIG. 4),
Depending on the item indicated by "●", two independent items in (a)
The structure information that there is one product information is shown in FIG.
However, in FIG. 5 of the present embodiment, the information is stored as separate records.

【0123】第4に、自然言語文書(図4)において、
表で示された各製品の血圧計の医療用具承認番号は、従
来例の図52ではどの番号がどの製品に対するかの情報
が欠落していたが、本実施形態の図5ではそれぞれの製
品に対する「医療用具承認番号」カラムとして保存され
ている。
Fourth, in a natural language document (FIG. 4),
Regarding the medical device approval number of the sphygmomanometer of each product shown in the table, information on which product corresponds to which product is missing in FIG. 52 of the conventional example, but in FIG. Stored as the “Medical Device Approval Number” column.

【0124】第5に、自然言語文書(図4)において、
自然言語文で表現されていた各製品の発売に関する情報
は、従来例の図52ではどの製品に対するものかが情報
欠落していたが、本実施形態の図5ではそれぞれの製品
に対する「型式」,「発売日」,「価格」カラム等とし
て保存されている。
Fifth, in a natural language document (FIG. 4),
In the conventional example shown in FIG. 52, information on the release of each product expressed in a natural language sentence lacks information on which product, but in FIG. 5 of the present embodiment, the “model”, Stored as "Release date" and "Price" columns.

【0125】上記第1から第5までのような情報欠落の
防止によって、ユーザの意図を正しく把握した検索結果
を得ることが可能になる。例えば、「12,500円の血圧
計」は「HEM737」であるということがわかるし、文書の
所在情報と共にデータベースに保管してあれば、文書3
を見つけ出してくることも可能である。逆に「12,500円
の体温計」の情報はないということがわかるため、従来
例のように、誤って図4の自然言語文書を検索に適合さ
せてしまうこともない。
By preventing the information loss as described above from the first to the fifth, it is possible to obtain a search result that correctly grasps the user's intention. For example, it can be seen that “12,500 yen sphygmomanometer” is “HEM737”, and if it is stored in a database together with document location information, document 3
It is also possible to find out. On the contrary, since it is understood that there is no information of "12,500 yen thermometer", unlike the conventional example, the natural language document of FIG.

【0126】なお、図5では、製品に関するテーブルだ
けで概念情報の説明をおこなったが、実際には企業に関
するテーブルなど、複数のテーブルが同時に存在しても
良い。なおかつ、あるテーブルのキー項目を他のテーブ
ルのカラムに記述することにより、リレーショナルデー
タベースのようにリレーションを定義することもでき
る。例えば、企業テーブルがあって、企業名カラムがキ
ーカラムとしてあり、企業テーブルの1つのレコードと
してオムロンのデータがあり、企業名が「オムロン」と
なっている場合、製品テーブルのメーカーカラムで「オ
ムロン」と指定すれば、それは企業テーブルのオムロン
に関するデータとリレーションをはっていることにな
る。つまり、これら2つのテーブルに対して同時に情報
抽出することによって、より複雑なデータ検索にも耐え
られる情報検索装置を実現することができる。この場
合、概念をフレーム理論のフレームで概念を表現したの
と等価の効果が得られる。
In FIG. 5, the concept information is explained only with the table relating to the product. However, in practice, a plurality of tables such as a table relating to a company may exist simultaneously. Further, by describing key items of a certain table in columns of another table, a relation can be defined like a relational database. For example, if there is a company table, the company name column is a key column, and one record of the company table is OMRON data, and the company name is “Omron”, the manufacturer column of the product table is “Omron” Would be related to OMRON data in the company table. That is, by simultaneously extracting information from these two tables, it is possible to realize an information retrieval apparatus that can withstand more complicated data retrieval. In this case, an effect equivalent to expressing the concept in the frame of the frame theory can be obtained.

【0127】3.概念情報の抽出 次に、概念抽出処理(図2のステップ202)のより詳
細な説明として、概念情報を抽出する方法を、主にデー
タベースのレコード様のデータを概念情報として抽出す
る方法を一例に詳述する。
[0127] 3. Extraction of Concept Information Next, as a more detailed explanation of the concept extraction process (step 202 in FIG. 2), a method of extracting concept information, and a method of mainly extracting data like a record in a database as concept information will be described as an example. It will be described in detail.

【0128】3−1.意味解析を用いた概念情報の抽出 まず、意味解析(格解析)を行って概念情報を抽出する
方法について述べる。図6は意味解析を用いた概念抽出
装置のシステム構成図であり、図7は意味解析を用いた
概念情報抽出処理を説明するフローチャートである。
3-1. Extraction of conceptual information using semantic analysis First, a method of performing conceptual analysis (case analysis) to extract conceptual information will be described. FIG. 6 is a system configuration diagram of a concept extraction device using semantic analysis, and FIG. 7 is a flowchart illustrating a concept information extracting process using semantic analysis.

【0129】図5において、本実施形態の概念抽出装置
は、自然言語文書中から形態素を抜き出す形態素解析装
置601と、形態素中の動詞成分のみを抜き出す動詞抽
出装置602と、動詞が依存する格要素の意味素の情報
や表層格の条件の情報等を記述した動詞格フレーム辞書
605と、意味素の表層的定義を行う意味素辞書606
と、動詞に対応する格要素を特定する格要素特定装置6
03と、格要素と概念情報との対応情報を保持する格要
素・概念対応情報607と、格要素・概念対応情報60
7に基づいて概念情報を作成する格要素からの概念作成
装置604を備えて構成されている。
In FIG. 5, the concept extracting apparatus of this embodiment includes a morphological analyzer 601 for extracting morphemes from a natural language document, a verb extracting apparatus 602 for extracting only verb components in morphemes, and a case element on which the verb depends. Verb case frame dictionary 605 that describes semantic information and surface case condition information, etc., and semantic dictionary 606 that performs surface definition of semantics
Element specifying device 6 for specifying a case element corresponding to a verb
03, case element / concept correspondence information 607 holding correspondence information between case elements and concept information, and case element / concept correspondence information 60
7 is provided with a concept creation device 604 for creating concept information based on the C.7.

【0130】本実施形態の概念抽出装置では、動詞が依
存する意味素の情報を活用して概念情報を抽出すること
が可能である。また、意味素辞書の参照なしに動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことが可能である。さらに、動詞が依存する意味素と表
層格の両方の情報を活用して概念情報を抽出し、表層格
をあらわす格助詞が省略された文の場合や、同一の意味
素が複数含まれる文の場合などにも格要素を特定するこ
とが可能である。
In the concept extracting apparatus of the present embodiment, it is possible to extract concept information by utilizing information of semantics on which a verb depends. Further, it is possible to extract concept information by utilizing information of surface case elements on which a verb depends without reference to a semantic dictionary. Furthermore, it extracts concept information by utilizing both the semantic and surface case information on which the verb depends, and in the case of a sentence in which case particles representing the surface case are omitted, or in the case of sentences containing multiple identical semantic words. In such cases, it is possible to specify the case element.

【0131】次に、本実施形態の概念抽出装置における
意味解析を用いた概念情報抽出処理について、図7のフ
ローチャートを参照して説明する。まず、第1の具体例
として、図8に示すような自然言語文書702が与えら
れたとき、本実施形態の概念抽出装置は、概念情報を抽
出した結果として、図9に示すような概念情報711
(製品テーブル)を出力する。以下、この第1の具体例
について、図7のフローチャートの各ステップの動作に
したがって説明する。
Next, the concept information extracting process using the semantic analysis in the concept extracting apparatus of the present embodiment will be described with reference to the flowchart of FIG. First, as a first specific example, when a natural language document 702 as shown in FIG. 8 is given, the concept extracting apparatus according to the present embodiment extracts concept information as shown in FIG. 711
(Product table) is output. Hereinafter, the first specific example will be described according to the operation of each step of the flowchart in FIG.

【0132】まず、ステップ701では、自然言語文書
702(図8参照)を形態素解析装置601により形態
素解析して、形態素703を出力する。そして、ステッ
プ704では、動詞抽出装置602により形態素703
から動詞を抽出する。この場合には動詞「発売する」が
抽出される。
First, in step 701, a morphological analysis is performed on the natural language document 702 (see FIG. 8) by the morphological analyzer 601 to output a morpheme 703. Then, in step 704, the verb extraction device 602 uses the morpheme 703
Extract verbs from In this case, the verb “release” is extracted.

【0133】次に、ステップ705においては、格要素
特定装置603により、動詞格フレーム辞書605を用
いて、動詞「発売する」が依存する格要素の条件を調べ
る。図10には、概念への対応情報を付加した動詞格フ
レーム辞書605を例示する。同図の動詞格フレーム辞
書605は動詞格フレーム辞書および概念への対応情報
を備えて構成されている。概念への対応情報については
後述するとして、ここでは、動詞格フレーム辞書の構成
について説明する。一般的な動詞格フレーム辞書は、図
10に示したように、動詞が依存する格要素の意味素や
表層格の条件が記述されている部分と考えて良い。便宜
上、図10においては各格要素に[1]から[5]までの番号
をつけている。
Next, in step 705, the case element specifying device 603 examines the condition of the case element on which the verb “release” depends by using the verb case frame dictionary 605. FIG. 10 illustrates a verb case frame dictionary 605 to which correspondence information to a concept is added. The verb case frame dictionary 605 shown in the figure is configured to include a verb case frame dictionary and information corresponding to a concept. The correspondence information to the concept will be described later, and the configuration of the verb case frame dictionary will be described here. As shown in FIG. 10, a general verb case frame dictionary may be considered as a portion in which the semantic of the case element on which the verb depends and the condition of the surface case are described. For convenience, in FIG. 10, each case element is numbered from [1] to [5].

【0134】次に、ステップ707においては、格要素
特定装置603により、動詞格フレーム辞書605と、
形態素解析(ステップ701)で抽出された形態素70
3とを比較し、意味素または表層格の情報から、それぞ
れの格要素に対応した形態素を特定する。
Next, in step 707, the case element specifying device 603 stores the verb case frame dictionary 605 and
The morpheme 70 extracted by the morpheme analysis (step 701)
Then, the morpheme corresponding to each case element is specified from the information of the semantic element or the surface case.

【0135】まず、意味素の情報から格要素に対応した
形態素を特定するには、意味素辞書606が参照され
る。すなわち、意味素は、図11に示すような意味素辞
書606(一般的には意味解析辞書等と呼ばれる)に定
義されている。この意味素辞書606には、意味素に含
まれる単語或いはパターンが記述されており、該単語や
パターンにマッチすれば、形態素はその意味素であると
みなされる。例えば、「1997年7月1日」は意味素辞書
606に記述されている「<整数>年<整数>月<整数
>日」というパターンにマッチするので「<日時>」の
意味素であることがわかる。なお、図11において、
<...>は意味素を表し、<...>:: ...によって意味素
の定義を表している。また、orは選言要素を表す特殊
文字列として使用され、(…)は説明による定義を表し
ている。また、:は同様な定義がいろいろな意味素に対
してされていることを表し、…は定義内容がその他にも
考えられることを表している。その他の文字は文字その
ものを表しているものとする。
First, in order to specify a morpheme corresponding to a case element from information of a semantic element, the semantic element dictionary 606 is referred to. That is, the semantics are defined in a semantic dictionary 606 (generally called a semantic analysis dictionary or the like) as shown in FIG. The semantic dictionary 606 describes words or patterns included in the semantics. If the words or patterns match, the morpheme is regarded as the semantic. For example, “July 1, 1997” is a semantic of “<date>” because it matches the pattern “<integer> year <integer> month <integer> day” described in the semantic dictionary 606. You can see that. In FIG. 11,
<...> represents a semantic, and <...> :: ... represents the definition of the semantic. Also, or is used as a special character string representing a disjunctive element, and (...) represents a definition by explanation. In addition,: indicates that the same definition is made for various semantics, and ... indicates that the definition content can be considered other. The other characters represent the characters themselves.

【0136】また、意味素辞書606にマッチしなかっ
た未知語等の形態素でも、表層格の情報がマッチすれば
格要素を特定することができる。表層格は、日本語の場
合には格助詞の「は」,「が」,「を」,「で」,
「に」,「から」等によって決定され、「は」,「が」
は「ガ格」、「を」は「ヲ格」等となる。ただし、動詞
が依存する表層格は受動態や埋め込み文などによって変
化するため、受動態や埋め込み文用に別途辞書を作成す
る場合もある。
In addition, even if a morpheme such as an unknown word does not match the semantic dictionary 606, the case element can be specified if the information of the surface case matches. The surface case is the case particle "ha", "ga", "wo", "de",
Determined by "ni", "kara", etc., "ha", "ga"
Is "ga" and "wo" is "ヲ". However, since the surface case on which the verb depends depends on the passive voice and the embedded sentence, a separate dictionary may be created for the passive voice and the embedded sentence.

【0137】上述のように、意味素だけで格要素を特定
したり、表層格だけで格要素を特定する方法もある。し
かしながら、意味素が同じ複数の格要素に依存する動詞
の場合には、意味素だけでは格要素の特定は難しく、ま
た、表層格は実際の自然言語文では省略されることも多
いため、このような場合には表層格だけでは格要素の特
定は難しくなる。本実施形態では、このような場合でも
意味素と表層格を同時に活用して判断することにより、
格要素を特定することができる。
As described above, there is a method of specifying a case element only by a semantic element, or specifying a case element only by a surface case. However, in the case of a verb whose semantic depends on the same case elements, it is difficult to identify the case element only by the semantic, and the surface case is often omitted in actual natural language sentences. In such a case, it becomes difficult to specify the case element using only the surface case. In this embodiment, even in such a case, the judgment is made by simultaneously utilizing the semantic element and the surface case,
Case elements can be specified.

【0138】上記の処理により、自然言語文書702
(図8参照)に対して、次のような格要素が抽出され
る。すなわち、図10の格要素番号に対応して、[1] オ
ムロン,[2] 血圧計,[3] 「HEM-739」,[4] 1997年7月
1日,[5] 16000円 の格要素となる。
With the above processing, the natural language document 702
(See FIG. 8), the following case elements are extracted. That is, [1] Omron, [2] Sphygmomanometer, [3] "HEM-739", [4] July 1997, corresponding to the case element numbers in FIG.
One day, [5] is 16,000 yen.

【0139】さらに、ステップ709では、格要素から
の概念作成装置604により、格要素・概念対応情報6
07を参照して概念情報への代入が行われ、概念情報7
11を得る。図10に示したように、本実施形態で使用
する動詞格フレーム辞書605は、一般的な動詞格フレ
ーム辞書に、概念への対応情報として「対応カラム」の
情報を付加した構成を備え、格要素・概念対応情報60
7を動詞格フレーム辞書605内に具備している。すな
わち、格要素からの概念作成装置604においては、動
詞格フレーム辞書605の概念への対応情報を参照し
て、ステップ707で特定した番号[1] から[5] までの
格要素を、図9に示す「製品テーブル」のそれぞれの対
応カラムに代入していく。例えば、番号[1] で抽出され
た格要素「オムロン」は、動詞格フレーム辞書605の
対応カラムの欄に記述された「製品テーブル.メーカ
ー」という情報にしたがって、「製品テーブル」の「メ
ーカー」カラムに代入される。ここで、動詞格フレーム
辞書605の対応カラムの欄にテーブル名を明記してい
るのは、抽出すべき概念情報が複数のテーブルとして得
られるような場合などにも対応できるようにするためで
ある。
Further, in step 709, the case element / concept correspondence information 6
07, the assignment to the concept information is performed.
Get 11. As shown in FIG. 10, the verb case frame dictionary 605 used in the present embodiment has a configuration in which information of “corresponding column” is added to a general verb case frame dictionary as information corresponding to a concept. Element / concept correspondence information 60
7 is provided in the verb case frame dictionary 605. That is, in the case element concept creating apparatus 604, the case elements from the numbers [1] to [5] identified in step 707 are referred to by referring to the correspondence information to the concept in the verb case frame dictionary 605 in FIG. Is assigned to each corresponding column of the “product table” shown in FIG. For example, the case element “Omron” extracted by the number [1] is determined by the “manufacturer” of the “product table” according to the information “product table.maker” described in the corresponding column of the verb case frame dictionary 605. Assigned to the column. Here, the reason why the table name is specified in the column of the corresponding column of the verb case frame dictionary 605 is to make it possible to cope with a case where the conceptual information to be extracted is obtained as a plurality of tables. .

【0140】以上説明した手順を踏むことにより、自然
言語文書702(図8参照)から概念情報711(図9
参照)を抽出することができる。
By following the procedure described above, the concept information 711 (see FIG. 9) can be obtained from the natural language document 702 (see FIG. 8).
Reference) can be extracted.

【0141】なお、純粋な意味解析は動詞格フレームと
意味素の情報のみで解析する場合も多く、表層格情報な
どを用いるのは、どちらかというと統語解析(すなわち
構文解析)の範疇に入る。ここでは、概念情報のカラム
として概念の属性的なものを例に挙げているが、こうい
った統語解析の結果(すなわちガ格・ヲ格、主語・述
語、係り・受けなど)の観点から、整理した概念情報を
抽出するのも当然可能である。この場合、意味素辞書6
06を備える必要がなくなり、構文解析のみ行えば良い
ので、知識構築の手間がかからないという利点がある。
In many cases, pure semantic analysis is performed using only verb case frames and semantic information, and the use of surface case information or the like falls in the category of syntactic analysis (ie, syntactic analysis). . Here, the attribute information of the concept is used as an example of the column of the concept information. Naturally, it is also possible to extract the organized concept information. In this case, the semantic dictionary 6
Since it is not necessary to provide the value of "06" and only the syntax analysis needs to be performed, there is an advantage in that knowledge construction is not required.

【0142】次に、第2の具体例として、図12に示す
ような自然言語文書702が与えられたとき、本実施形
態の概念抽出装置は、概念情報を抽出した結果として、
図13に示すような概念情報711(製品テーブル)を
出力する。以下、この第2の具体例について説明する。
Next, as a second specific example, when a natural language document 702 as shown in FIG. 12 is given, the concept extracting apparatus of the present embodiment extracts the concept information as a result.
The concept information 711 (product table) as shown in FIG. 13 is output. Hereinafter, the second specific example will be described.

【0143】第1の具体例(図8)と違って、図12の
自然言語文書には動詞がない。若しくは、英語で言うと
ころの「be動詞」であるとみなせる。このようなbe
動詞等のようにさまざまな状況で用いられる動詞の場
合、動詞が依存する格要素を特定することが難しく、動
詞格フレーム辞書605は作成しにくい。たとえ作成で
きたとしても、多様な意味素が対応可能なため、役に立
たないことも多い。
Unlike the first specific example (FIG. 8), the natural language document of FIG. 12 has no verb. Alternatively, it can be regarded as a "be verb" in English. Such a be
In the case of a verb such as a verb used in various situations, it is difficult to specify the case element on which the verb depends, and it is difficult to create the verb case frame dictionary 605. Even if it can be created, it is often useless because various semantics can be handled.

【0144】このような問題を解決するために、図10
に示した動詞格フレーム辞書605を、もうすこし一般
化することを試みる。動詞格フレーム辞書605で行っ
ていることは、図14のような意味素間の相関関係を、
「発売する」という動詞が表す動作の事象の観点から整
理し、動詞が依存する格要素という形で検索できるよう
にしたものである。すなわち、図14の例では、「発
売」1401を中心として、それに関連した意味素の
「企業」1402から「型式」1406までを格要素と
して検索できるようにしたものである。
To solve such a problem, FIG.
An attempt is made to generalize the verb case frame dictionary 605 shown in FIG. What is performed by the verb case frame dictionary 605 is as follows.
It is organized from the viewpoint of the action event represented by the verb “release”, and can be searched in the form of case elements on which the verb depends. That is, in the example of FIG. 14, the search can be performed from the "release" 1401 and the related semantics "company" 1402 to "model" 1406 as case elements.

【0145】動詞を中心とした整理を行うのは、動詞に
よって状況が限定され、そこに関連する格要素の候補を
限定しやすいからであった。しかし、be動詞等のよう
に、動詞を限定しても、それに関連する格要素候補が限
定できない場合には、無理に動詞を中心と考えず、他の
名詞などを中心に考えても同等の効果が得られると考え
られる。したがって、このような場合には、図10に示
した動詞格フレームの動詞の代わりに名詞を用いて、名
詞格フレームを作成することで、自然言語文書(図12
参照)から概念情報(図13参照)の抽出を可能にする
ことができる。
The reason why the rearrangement is performed mainly on the verb is that the situation is limited by the verb, and it is easy to limit the candidates of the case element related thereto. However, even if the verb is limited, as in the case of the be verb, etc., if the case element candidates related to the verb cannot be limited, the verb is not forcibly considered, and even if other nouns, etc. It is considered that the effect is obtained. Therefore, in such a case, a noun case frame is created by using a noun instead of the verb of the verb case frame shown in FIG.
) Can be extracted from the conceptual information (see FIG. 13).

【0146】さらに一般化すれば、動詞,名詞等に関わ
らず、自然言語文書におけるある形態素(構成素)は、
他の形態素(構成素)に対して依存関係(或いは共起関
係)を要求するため、それらを「情報抽出知識」として
作成しておけば、あとはそれらの知識を適用して最も妥
当性の高い格要素(或いは共起要素)を決定し、その結
果を用いて概念情報を抽出するということが可能にな
る。「3−2.文脈解析および構造解析を用いた概念情
報の抽出」で説明する図23および図24の文脈情報抽
出知識は、この情報抽出知識の一例ということができ
る。
More specifically, morphemes (constituents) in a natural language document are irrespective of verbs, nouns, etc.
In order to request dependency (or co-occurrence) for other morphemes (constituents), create them as "information extraction knowledge", and then apply those knowledges to determine the most appropriate It is possible to determine a high case element (or co-occurrence element) and extract the concept information using the result. The context information extraction knowledge of FIGS. 23 and 24 described in “3-2. Extraction of Concept Information Using Context Analysis and Structure Analysis” can be regarded as an example of this information extraction knowledge.

【0147】3−2.文脈解析および構造解析を用いた
概念情報の抽出 「3−1.意味解析を用いた概念情報の抽出」では、意
味解析を用いて自然言語文書から概念情報を抽出する方
法について述べたが、これによって解決できるのは、主
に、「発明が解決しようとする課題」で述べた情報欠落
のうち「第5の構文的・意味的情報の欠落」の問題につ
いてだけである。音声言語において問題となるのは主に
この「構文的・意味的情報の欠落」であるが、文字言語
においては、他の「段落に関する文脈情報の欠落」,
「箇条書きに関する文脈情報の欠落」,「箇条書きに関
する構造情報の欠落」,「表に関する文脈・構造情報の
欠落」についても重要な問題である。このような他の情
報欠落についても解決しつつ、図4に示した自然言語文
書から図5に示した概念集合を抽出するためには、以下
に示すような文脈解析や構造解析が必要となる。
3-2. Extraction of conceptual information using context analysis and structural analysis In “3-1. Extraction of conceptual information using semantic analysis”, a method of extracting conceptual information from natural language documents using semantic analysis was described. The problem that can be solved is mainly the problem of "the fifth lack of syntactic and semantic information" in the information lack described in the "problem to be solved by the invention". The main problem in spoken languages is this "lack of syntactic and semantic information", but in the text language, other "lack of contextual information about paragraphs"
“Lack of contextual information about bullets”, “lack of structural information about bullets”, and “lack of contextual / structural information about tables” are also important issues. In order to extract the concept set shown in FIG. 5 from the natural language document shown in FIG. 4 while solving such other missing information, the following context analysis and structure analysis are required. .

【0148】本実施形態における文脈解析および構造解
析の処理においては、文書或いは文書群を階層化された
文脈領域と考える。ここで、「文脈領域」とは、文書或
いは文書群中に現れる「文書」,「段落」,「行」,
「箇条書き」,「箇条書き項目」,「表」,「表の
行」,「表の列」,「表のセル」,「ハイパーリンク」
といった構造のことである。それぞれの文脈領域は下位
の文脈領域を内部に含むことができる。また、下位の文
脈領域は上位の文脈領域を自動的に参照することがで
き、参照先の上位の文脈領域で抽出されている概念情報
を文脈情報として活用することができる。
In the processing of the context analysis and the structure analysis in the present embodiment, a document or a document group is considered as a hierarchical context area. Here, the "context area" means "document", "paragraph", "line",
"Bulleted list", "bulleted item", "table", "table row", "table column", "table cell", "hyperlink"
Such a structure. Each context region may include a lower context region therein. Further, the lower context area can automatically refer to the upper context area, and the concept information extracted in the upper context area of the reference destination can be used as the context information.

【0149】図15には、本実施形態における文脈・構
造解析を用いた概念情報抽出装置のシステム構成図を示
し、図16には、文脈・構造解析を用いた概念情報抽出
処理を説明するフローチャートを示す。
FIG. 15 is a system configuration diagram of a concept information extracting apparatus using context / structure analysis in the present embodiment, and FIG. 16 is a flowchart for explaining concept information extraction processing using context / structure analysis. Is shown.

【0150】図15において、本実施形態の概念抽出装
置は、自然言語文書群を階層化された文脈領域としてと
らえ、各分脈領域についての開始ポイントの条件、終了
ポイントの条件および下位となる文脈領域の候補につい
て記述した文脈領域抽出知識を備えて、自然言語文書の
文書構造が持つ階層性を解析して文脈階層構造情報を作
成する文脈階層構造解析装置1501と、意味素と対応
する概念のカラムの情報を記述した文脈情報抽出知識を
備えて、構築が容易な単純な知識で、単語のみの文、名
詞句のみの文または体言止めの文等からの文脈情報の抽
出を可能にし、前記文脈階層構造情報中に文脈情報を保
存する文脈情報抽出装置1502と、概念記述領域を決
定しながら概念情報を抽出する際に、文脈階層構造を活
用して下位の文脈領域から上位の文脈領域に保存された
文脈情報を参照したり、上位の文脈領域から下位の文脈
領域に保存された文脈情報を活用して、より精度の高い
概念抽出を行う概念記述領域決定型概念情報抽出装置1
503とを備えて構成(第1の構成)されている。な
お、ここで、「文脈階層構造」とは、自然言語文書中に
現れる種々の論理的構造、すなわち文書、段落、箇条書
き、箇条書き項目、表、表内の行,列およびセル等をい
い、また他の使用した語句の詳細については、後述の説
明において明かにする。
In FIG. 15, the concept extracting apparatus of the present embodiment regards a group of natural language documents as a hierarchical context area, and sets a start point condition, an end point condition, and a subordinate context area for each of the time domain areas. A context hierarchical structure analysis device 1501 that prepares context hierarchical structure information by analyzing the hierarchy of the document structure of a natural language document with context region extraction knowledge describing the candidate With the knowledge of context information extraction describing the information of the information, it is possible to extract the context information from a sentence containing only words, a sentence containing only noun phrases, a sentence containing no words, etc. A context information extraction device 1502 for storing context information in the hierarchical structure information; and a lower-level context utilizing a context hierarchical structure when extracting concept information while determining a concept description area. Concept description area determination type that performs more accurate concept extraction by referring to the context information stored in the upper context area from the area and utilizing the context information stored in the lower context area from the upper context area Concept information extraction device 1
503 (first configuration). Here, the “context hierarchical structure” refers to various logical structures appearing in a natural language document, that is, a document, a paragraph, a bullet, a bulleted item, a table, a row, a column and a cell in the table. The details of other words used will be clarified in the following description.

【0151】次に、本実施形態の概念抽出装置における
文脈・構造解析を用いた概念情報抽出処理について、図
16のフローチャートを参照して説明する。具体例とし
て、図4に示すような自然言語文書が与えられたとき、
概念情報を抽出した結果として、図5に示すような概念
集合を出力する場合を考える。
Next, the concept information extracting process using the context / structure analysis in the concept extracting apparatus of the present embodiment will be described with reference to the flowchart of FIG. As a specific example, when a natural language document as shown in FIG. 4 is given,
Consider a case where a concept set as shown in FIG. 5 is output as a result of extracting the concept information.

【0152】(1)文脈階層構造解析 まず、ステップ701では、文脈階層構造解析装置15
01により、自然言語文書(図4参照)について文脈領
域の階層構造が認識される。図17および図18には、
図4の自然言語文書について文脈構造解析を行った結果
を示す。ここで、図17は自然言語文書と文脈領域との
対応関係を示し、図18は文脈階層構造を表す内部デー
タ構造を示している。
(1) Context Hierarchical Structure Analysis First, in step 701, the context hierarchical structure analyzing device 15
01 recognizes the hierarchical structure of the context area in the natural language document (see FIG. 4). 17 and 18,
5 shows a result of performing a context structure analysis on the natural language document of FIG. 4. Here, FIG. 17 shows a correspondence between a natural language document and a context area, and FIG. 18 shows an internal data structure representing a context hierarchical structure.

【0153】図17におけるAR1〜AR25の文脈領
域は、それぞれ図18の内部データ構造におけるノード
ND1〜ND25に対応している。すなわち、内部デー
タ構造は文脈領域を表しており、図18より、それぞれ
の文脈領域が下位の文脈領域を持つこと、並びに、下位
の文脈領域から上位の文脈領域への参照が可能であり、
該参照が図18中の矢印で表記されていることがわか
る。段落ND2や箇条書きND3等の文脈領域について
は、参照可能な上位文脈領域は1つだけであるが、表の
セルND13〜ND19等については、行(ND9〜N
D11)と列(ND12,ND13)の2つの文脈領域
を上位領域として参照できる。また、図17および図1
8の具体例には出てこないが、ハイパーリンク等は任意
個数の文脈領域を上位領域として参照できる。
The context areas AR1 to AR25 in FIG. 17 correspond to the nodes ND1 to ND25 in the internal data structure in FIG. 18, respectively. That is, the internal data structure represents a context area, and from FIG. 18, each context area has a lower context area, and it is possible to refer to the upper context area from the lower context area.
It can be seen that the reference is indicated by an arrow in FIG. For context areas such as paragraphs ND2 and bullet points ND3, there is only one upper context area that can be referred to, but for table cells ND13 to ND19 and the like, rows (ND9 to N
D11) and two context areas (ND12, ND13) can be referred to as upper areas. 17 and FIG.
Although not shown in the specific example of FIG. 8, a hyperlink or the like can refer to an arbitrary number of context regions as upper regions.

【0154】このように図4の自然言語文書を解析して
図17および図18に示す解析結果を得る手法は幾つか
考えられる。例えば、文書が罫線等を用いた表を含んで
いる場合に該表部分を認識する方法として、特開平2−
116970号公報の『表内データ自動抽出処理方式』
に述べられているような方法を用いても良いし、また、
タグを含まない自然言語文書の場合に箇条書きの部分を
認識する方法として、特開平7−295981号公報の
『箇条書処理機能付き自然言語処理装置』に述べられて
いるような方法を用いても良い。
There are several methods for analyzing the natural language document shown in FIG. 4 and obtaining the analysis results shown in FIGS. 17 and 18. For example, when a document includes a table using ruled lines or the like, a method for recognizing the table portion is disclosed in
No. 116970, "Automatic Extraction Processing Method for In-Table Data"
May be used, or
As a method of recognizing a bulleted part in the case of a natural language document that does not include a tag, a method described in “Natural language processing device with bullet processing function” in JP-A-7-295981 may be used. good.

【0155】本実施形態では「WWWページ検索システ
ム」への適用を想定しているので、ここでは特に、入力
がHTML(HyperText Markup Language)のようなタ
グ付けされた自然言語文書である場合の文脈階層構造の
解析手法について述べる。なお、HTMLはSGMLか
ら発展したマークアップ言語であるが、HTMLについ
ては http://www.w3.org/MarkUp/ などを参照された
い。図19には、図4の自然言語文書をHTMLで記述
したときの自然言語文書を例示する。
In the present embodiment, application to a “WWW page search system” is assumed, and therefore, in this case, especially when the input is a tagged natural language document such as HTML (HyperText Markup Language), The analysis method of the hierarchical structure is described. Note that HTML is a markup language developed from SGML, but please refer to http://www.w3.org/MarkUp/ for HTML. FIG. 19 illustrates a natural language document when the natural language document of FIG. 4 is described in HTML.

【0156】図17に例示した自然言語文書のように、
HTML記述では、各分脈領域に対応する部分はタグに
よって区切られている。例えば、「<TABLE>」と「</TAB
LE>」で囲まれた領域は「表」の文脈領域(AR8)に
対応している。また、階層構造もタグの階層構造によっ
て表現されている。例えば、「<OL>」「</OL>」によっ
て囲まれた箇条書きの文脈領域(AR3)の中に、「<U
L>」「</UL>」で囲まれた箇条書きの文脈領域(AR
5,AR21,AR24)が階層的に存在する。したが
って、タグの種別およびタグの始めと終わりの指定に応
じて、文脈領域、該文脈領域の開始ポイントおよび終了
ポイント、並びに、下位文脈領域を特定するための文脈
領域の抽出知識を図20に示すように持つことができ
る。ただし、箇条書き項目の開始ポイントを示す「<LI
>」等は、終了記号である「</LI>」を省略できたりする
ため、箇条書き項目の終了ポイントとして「<LI>」等も
候補としなければならない。
As shown in the natural language document illustrated in FIG.
In the HTML description, a portion corresponding to each of the regional regions is separated by a tag. For example, "<TABLE>" and "</ TAB
The area surrounded by “LE>” corresponds to the context area (AR8) of “table”. The hierarchical structure is also expressed by the hierarchical structure of the tags. For example, in the itemized context area (AR3) surrounded by "<OL>" and "</ OL>", "<U
L> ”and“ </ UL> ”in a bulleted context area (AR
5, AR21, AR24) exist hierarchically. Accordingly, FIG. 20 shows the context region, the start point and end point of the context region, and the context region extraction knowledge for specifying the lower context region according to the tag type and the start and end of the tag. So you can have. However, "<LI" indicates the starting point of a bulleted item.
Since “>” can end the terminating symbol “</ LI>”, “<LI>” must also be a candidate as the end point of the bulleted item.

【0157】以上のように、文脈領域、開始ポイント、
終了ポイントおよび下位文脈領域等の対応関係を抽出知
識(図20)として持っておくことによって、文脈階層
構造の解析を行うことができる。
As described above, the context area, the starting point,
By storing the correspondence between the end point and the lower context area as extracted knowledge (FIG. 20), the context hierarchical structure can be analyzed.

【0158】図21には、この文脈階層構造の解析処理
(ステップ1601)の処理手順を説明するフローチャ
ートを示す。まず、ステップ2101では、「文書」の
文脈領域を作成して、これをカレント文脈とする。次
に、ステップ2102では、入力となる自然言語文書の
先頭位置をポイントする。
FIG. 21 is a flowchart for explaining the processing procedure of the context hierarchy structure analysis processing (step 1601). First, in step 2101, a context area of "document" is created and set as a current context. Next, in step 2102, the leading position of the input natural language document is pointed.

【0159】次に、以下のステップ2103からステッ
プ2108までの処理は、繰り返し処理となる。まず、
ステップ2103では、自然言語文書の入力ポイントが
カレント文脈に対する下位文脈領域の開始ポイントに合
致しているかどうかをチェックする。例えば、カレント
文脈が「文書」であるならば下位文脈領域「段落」の開
始ポイントに合致しているか否かである。
Next, the following processes from step 2103 to step 2108 are repeated processes. First,
In step 2103, it is checked whether the input point of the natural language document matches the start point of the lower context area for the current context. For example, if the current context is “document”, it is determined whether the current context matches the start point of the lower context area “paragraph”.

【0160】合致していればステップ2104に進ん
で、下位文脈領域を作成して上位文脈領域に結合した
後、これをカレント文脈とする。なお、「文書」の始め
の場合は、この位置が「段落」の開始ポイントの条件に
合致しているため、「文書」の下位文脈領域として「段
落」を作成して結合し、カレント文脈を「段落」にする
ことになる。その後、ステップ2108において、自然
言語文書を読み進めて(入力ポイントを進めて)、再び
ステップ2103からの処理を繰り返すことになる。
If they match, the process proceeds to step 2104, where a lower context area is created and connected to the upper context area, and this is set as the current context. In the case of the beginning of the "document", since this position matches the condition of the starting point of the "paragraph", "paragraph" is created as a lower context area of the "document" and combined, and the current context is changed. It will be a "paragraph". Then, in step 2108, the natural language document is read (the input point is advanced), and the process from step 2103 is repeated again.

【0161】またステップ2103において、下位文脈
領域の開始ポイントに合致していない場合には、ステッ
プ2105に進んで、自然言語文書の入力ポイントがカ
レント文脈の終了ポイントに合致しているかどうかをチ
ェックする。合致していない場合はステップ2108に
進んで、自然言語文書を読み進めて(入力ポイントを進
めて)、再びステップ2103からの処理を繰り返すこ
とになる。
If it is determined in step 2103 that the input point does not match the start point of the lower context area, the flow advances to step 2105 to check whether the input point of the natural language document matches the end point of the current context. . If they do not match, the flow advances to step 2108 to read the natural language document (advance the input point) and repeat the processing from step 2103 again.

【0162】またステップ2105において、カレント
文脈の終了ポイントに合致している場合はステップ21
06に進んで、カレント文脈が最上位の文脈領域(ここ
では「文書」)かどうかをチェックする。最上位の文脈
領域であった場合には文脈階層構造の解析処理全体を終
了する。
If it is determined in step 2105 that the end point of the current context matches the end point, the process proceeds to step 21.
Proceeding to 06, it is checked whether the current context is the highest context area (here, "document"). If it is the top context area, the whole analysis processing of the context hierarchical structure ends.

【0163】また、最上位の文脈領域でなかった場合に
はステップ2107に進んで、上位の文脈領域をカレン
ト文脈とし、さらにステップ2108において自然言語
文書を読み進めて(入力ポイントを進めて)、再びステ
ップ2103からの処理を繰り返すことになる。以上の
処理によって、文脈階層構造の解析処理(ステップ16
01)が可能となる。
If it is not the top context area, the flow advances to step 2107 to set the upper context area as the current context. The processing from step 2103 is repeated again. By the above processing, the context hierarchical structure analysis processing (step 16)
01) becomes possible.

【0164】(2)文脈情報抽出 次に、図16のフローチャートにおけるステップ160
2では、文脈情報抽出装置1502により文脈情報が抽
出される。文脈情報の表現方法および抽出方法について
もさまざまな手法が考えられるが、本実施形態において
は、基本的に「2.概念集合の表現」および「3−1.
意味解析を用いた概念情報の抽出」で述べた手法による
概念表現および概念抽出と同様な方法を用いる。これ
は、最終的に本実施形態の概念情報抽出装置が抽出すべ
き情報が概念情報であることから、文脈の抽出において
も概念情報と同等の情報を抽出することが必要十分条件
であると考えられるからである。ただし、文脈情報は概
念情報と以下のような点で異なる特徴を持っていると考
えられるため、抽出方法を工夫する必要がある。
(2) Context Information Extraction Next, step 160 in the flowchart of FIG.
In 2, the context information is extracted by the context information extracting device 1502. Various methods can be considered for the method of expressing and extracting the context information. In the present embodiment, basically, “2. Expression of concept set” and “3-1.
Extraction of Concept Information Using Semantic Analysis ”and a method similar to concept expression and concept extraction by the method described in“ Method of Extracting Concept Information Using Semantic Analysis ”. This is considered to be a necessary and sufficient condition that the information to be extracted by the concept information extracting apparatus of the present embodiment is the concept information in the end, and that it is necessary to extract information equivalent to the concept information also in the context extraction. Because it can be done. However, since the context information is considered to have different characteristics from the concept information in the following points, it is necessary to devise an extraction method.

【0165】第1の特徴として、文書構造を利用して表
現した自然言語文書では、文書構造によって意味が表現
されているため、完全な文章で記述されていないことが
多くなる点である。つまり、見出し語等のように、単語
・名詞句・動詞のない体言止の文などで意味が記述され
ている場合が多くなってくる。こういった場合、「3−
1.意味解析を用いた概念情報の抽出」で述べたような
通常の格解析で行う文章の解析では情報が十分抽出でき
ないことも考えられる。したがって、単語の意味クラス
だけから情報抽出するといった、より柔軟な情報抽出方
法を加味する必要がある。
The first feature is that, in a natural language document expressed using a document structure, since the meaning is expressed by the document structure, it is often not described in complete sentences. That is, in many cases, the meaning is described in a word, a noun phrase, a verbal sentence without a verb, and the like, such as a headword. In such a case, "3-
1. Extraction of Conceptual Information Using Semantic Analysis ", it is conceivable that information cannot be sufficiently extracted by the sentence analysis performed by ordinary case analysis. Therefore, it is necessary to take into account a more flexible information extraction method, such as extracting information only from the semantic class of a word.

【0166】第2の特徴として、概念情報はシステムが
抽出した知識として保存されるが、文脈情報は概念情報
を抽出するための一時的な知識であるという点である。
これは脳の働きにおける短期記憶的なものと考えること
ができ、一時的に文脈領域データとして蓄積されるが、
概念抽出が終了した段階では破棄されても良い。このた
め、概念とは別の領域に保存する必要がある。
As a second feature, the concept information is stored as knowledge extracted by the system, but the context information is temporary knowledge for extracting the concept information.
This can be thought of as a short-term memory of the work of the brain, and is temporarily stored as context area data,
At the stage when the concept extraction is completed, it may be discarded. For this reason, it is necessary to store it in a different area from the concept.

【0167】まず、第1の特徴への対処を可能にするた
めに次の2つの方法を考える。第1番目の方法は、文脈
情報の抽出は全て意味素のみに基づいて行うという方法
である。この場合、格助詞や語順の情報が活用できなく
なるため、抽出精度は低下すると思われるが、事前に用
意しなければならない辞書が小さくなったり、処理が単
純化され高速化されるという利点もある。
First, the following two methods are considered to make it possible to deal with the first characteristic. The first method is that all context information is extracted based only on semantics. In this case, the extraction accuracy is likely to decrease because information on the case particles and word order cannot be used. .

【0168】この場合、文脈情報を抽出するための文脈
情報抽出知識は、図22に示すように意味素のみを活用
した形で保持され、この知識の意味素の欄に記述された
意味素パターン(図11に示したような意味素辞書60
6に記述してある意味クラス)と合致した文字列が対応
カラムの欄に記述されたカラムに抽出されることとな
る。なお、図22において対応カラムの欄にテーブル名
も記述してあるのは、複数テーブルの情報を同時に抽出
することも可能にするためである。
In this case, the context information extraction knowledge for extracting the context information is held in a form utilizing only the semantics as shown in FIG. 22, and the semantic pattern described in the semantic column of this knowledge (The semantic dictionary 60 as shown in FIG. 11
6 is extracted in the column described in the corresponding column. Note that the table name is also described in the column of the corresponding column in FIG. 22 so that information of a plurality of tables can be simultaneously extracted.

【0169】また、第2番目の方法としては、ある形態
素に対する意味素の情報と、その形態素が共起する他の
形態素の意味素、形態素に付随する後置詞、並びに、共
起要素の出現位置等の情報を文脈抽出知識として持ち、
そのうちで活用することができる(すなわち文章中に現
れた)情報のみを使用して、文脈情報を抽出するという
方法である。この方法を用いれば、文が単語のみ、名詞
句、体言止の文、通常の文などで記述されているといっ
た様々な場合を統括的に扱って解析することができ、精
度が高くなるという利点がある。
As a second method, the semantic information of a morpheme, the semantics of another morpheme co-occurring, the postposition accompanying the morpheme, and the appearance position of the co-occurrence element Etc. as context extraction knowledge,
In this method, context information is extracted by using only information that can be used (that is, appearing in the text). By using this method, it is possible to collectively analyze various cases where the sentence is described only in words, noun phrases, sentences with no words, ordinary sentences, etc. There is.

【0170】この文脈情報抽出知識は、図10で示した
概念への対応関係を付加した動詞格フレームや図22の
知識を一般化したものと考えられ、実際には、図23お
よび図24に示すような、抽出要素・共起要素の意味素
・言語マーカー・語順等を活用した文脈情報抽出知識と
なる。なお、図23および図24の「抽出カラム」の欄
には、抽出すべき概念のカラムが記述されており、テー
ブル名も記述してあるのは、複数テーブルの情報を同時
に抽出することも可能にするためである。
This context information extraction knowledge is considered to be a generalization of the verb case frame to which the correspondence relationship with the concept shown in FIG. 10 is added and the knowledge of FIG. 22. Context information extraction knowledge utilizing semantic elements, language markers, word order, etc. of extracted elements / co-occurrence elements as shown in FIG. The column of the concept to be extracted is described in the column of “extraction column” in FIGS. 23 and 24, and the table name is also described. It is possible to simultaneously extract information of a plurality of tables. In order to

【0171】また、抽出カラムに対応する文字列のこと
を以下では「抽出要素」と呼ぶことにする。「抽出要素
の意味素」の欄で記述されているのは、この抽出要素が
満たすべき意味素の情報である。これは、図11に示し
たような意味素辞書606で定義されている文字列のパ
ターンであり、抽出すべき文字列自体が満たすべき文字
列パターンとも考えられる。
A character string corresponding to an extraction column is hereinafter referred to as an “extraction element”. What is described in the column of "semantic element of extracted element" is information of a semantic element which should be satisfied by the extracted element. This is a character string pattern defined by the semantic dictionary 606 as shown in FIG. 11, and can be considered as a character string pattern that the character string to be extracted should satisfy.

【0172】また、「抽出要素の後置要素」の欄に記述
したのは、抽出要素に対する格助詞、助動詞等のいわゆ
る「付属語」に相当する要素である。この欄に具体的な
要素を記述してある知識は、抽出要素の直後に記述した
後置要素が現れる必要がある。また「共起要素」の欄に
は、抽出要素と共起する文字列や意味素が記述されてい
る。また「共起要素の後置要素」の欄には、共起要素の
直後に現れる必要のある付属語が記述されている。さら
に「共起要素の出現位置」の欄には、抽出要素と共起要
素の出現位置関係が規定できるようになっていて、自立
語の位置関係における前、直前、直後、後等や、文脈参
照可能かどうかも規定できる。
Further, what is described in the column of “postfix element of extracted element” is an element corresponding to a so-called “appendix” such as a case particle or an auxiliary verb for the extracted element. For knowledge in which specific elements are described in this column, it is necessary that the post-element described immediately after the extracted element appears. In the column of "co-occurrence element", a character string and a semantic element which co-occur with the extracted element are described. The column of "suffix element of co-occurrence element" describes an auxiliary word that needs to appear immediately after the co-occurrence element. In the column of "co-occurrence element appearance position", the appearance position relation between the extracted element and the co-occurrence element can be defined, and the position before, immediately before, immediately after, after, etc. Whether or not reference is possible can be specified.

【0173】また、「確信度」の欄に記述してある数値
は、以上で記述された知識に抽出要素がマッチした場合
に、抽出カラムに抽出すべきである確信度を表してい
る。例えば、この確信度が”1.0”であれば、知識に
マッチした抽出要素は確実にその抽出カラムに対応する
だろうということを表している。なお、最後尾の欄に記
述した「知識ID」は便宜上番号付けした知識のIDであ
る。
The numerical value described in the column of “certainty” indicates the certainty that should be extracted in the extraction column when the extracted element matches the knowledge described above. For example, if the certainty factor is “1.0”, it indicates that the extracted element that matches the knowledge will surely correspond to the extracted column. The “knowledge ID” described in the last column is a knowledge ID numbered for convenience.

【0174】したがって、上記第1番目の方法により文
脈情報を抽出する文脈情報抽出装置1502は、図15
の説明(第1の構成)にあったように、意味素と対応す
る概念のカラムの情報を記述した図22のような文脈情
報抽出知識を備えて、構築が容易な単純な知識で、単語
のみの文、名詞句のみの文または体言止めの文等からの
文脈情報の抽出を可能にし、文脈階層構造情報中に文脈
情報を保存するもので実現される。
Therefore, the context information extracting device 1502 for extracting context information by the first method described above uses the method shown in FIG.
(1st configuration), the context information extraction knowledge as shown in FIG. 22 that describes the information of the column of the concept corresponding to the semantic is provided. It is possible to extract context information from only a sentence, a noun phrase only sentence, a sentence stop sentence or the like, and is realized by storing context information in context hierarchical structure information.

【0175】これに対して、上記第2番目の方法により
文脈抽出する文脈情報抽出装置1502は、自然言語文
書中から形態素を抜き出す形態素解析装置と、各形態素
(着目要素)の意味素の条件と着目要素が共起する共起
要素の条件と着目要素・共起要素の付属要素の条件と共
起要素の出現位置の条件と対応する概念のカラム(対応
カラム)の情報を記述した図23および図24のような
文脈情報抽出知識と、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出する対応
カラム決定装置を備え、動詞述語文、形容詞述語文、名
詞述語文、単語のみの文、名詞句のみの文、体言止めの
文などからの高い精度での文脈情報の抽出を可能にし、
文脈階層構造情報中に文脈情報を保存するもの(第2の
構成)で実現されることになる。
On the other hand, a context information extraction device 1502 for extracting a context by the second method is a morphological analysis device for extracting a morpheme from a natural language document, and a condition of a semantic element of each morpheme (element of interest). FIG. 23 which describes the conditions of the co-occurrence element co-occurring with the element of interest, the conditions of the adjunct elements of the element of interest / co-occurrence element, the conditions of the appearance position of the co-occurrence element, and the information of the column (corresponding column) of the corresponding concept. A context information extraction knowledge as shown in FIG. 24 and a corresponding column determination device for calculating the degree of correspondence to each corresponding column and extracting a morpheme into the corresponding column having the highest degree of correspondence are provided. The verb predicate sentence, adjective predicate sentence, noun It is possible to extract context information with high precision from predicate sentences, sentences containing only words, sentences containing only noun phrases, sentences with no speech, etc.
This is realized by one that stores context information in context hierarchical structure information (second configuration).

【0176】次に、このような構成の文脈情報抽出装置
1502(第2番目の方法)により、図23および図2
4のような文脈情報抽出知識を活用して、文脈情報を抽
出する処理(図16のステップ1602)について、図
25に示すフローチャートに基づいて説明する。
Next, the context information extracting device 1502 (the second method) having such a configuration is used to obtain the information shown in FIGS.
The process of extracting the context information by utilizing the context information extraction knowledge as shown in FIG. 4 (step 1602 in FIG. 16) will be described based on the flowchart shown in FIG.

【0177】まず、ステップ2501においては、形態
素解析装置により解析対象となる自然言語文書2502
の形態素解析を行い、メモリ上に形態素2503を保持
する。なお、入力の自然言語文書をHTML文書等にす
る場合は、この段階でタグの情報等は不要なので削除す
る。
First, in step 2501, the natural language document 2502 to be analyzed by the morphological analyzer is
Is performed, and the morpheme 2503 is stored in the memory. When the input natural language document is an HTML document or the like, tag information and the like are unnecessary at this stage and are deleted.

【0178】次に、ステップ2504では、抽出した形
態素2503を前から順に1つずつ着目し、これを抽出
要素と仮定する。例えば、図4に示した自然言語文書の
場合には、最初の抽出要素は「オムロン」になる。
Next, in step 2504, the extracted morphemes 2503 are focused on one by one from the front, and this is assumed to be an extraction element. For example, in the case of the natural language document shown in FIG. 4, the first extracted element is “Omron”.

【0179】次に、ステップ2508では、抽出要素の
存在する文脈領域を文脈情報保存領域としてポイントす
る。例えば、図4の自然言語文書の例(図17および図
18参照)では、段落ノードND2に対応する文脈領域
AR2に、抽出要素「オムロン」が存在するため、文脈
情報保存領域として段落ノードND2をポイントする。
文脈情報保存領域は、上述(文脈情報の第2の特徴)の
ように、文脈情報を保存するための一時記憶領域であ
り、形態素を読み進んで行くにつれて、箇条書きノード
ND3,箇条書き項目ノードND4,…と変化していく
ことになる。
Next, in step 2508, the context area where the extracted element exists is pointed as the context information storage area. For example, in the example of the natural language document in FIG. 4 (see FIGS. 17 and 18), since the extraction element “Omron” exists in the context area AR2 corresponding to the paragraph node ND2, the paragraph node ND2 is set as the context information storage area. Point.
The context information storage area is a temporary storage area for storing context information as described above (the second feature of the context information). As the morpheme is read, the bullet node ND3 and the bullet item node ND4,...

【0180】次に、ステップ2506においては、抽出
カラム対応度テーブルを初期化する。ここで、抽出カラ
ム対応度テーブルは、図27に示すように各抽出要素に
対して1つ作成され、初期化直後は何の情報も保持して
いない。
Next, in step 2506, the extraction column correspondence degree table is initialized. Here, one extraction column correspondence table is created for each extraction element as shown in FIG. 27, and does not hold any information immediately after initialization.

【0181】図23および図24の文脈情報抽出知識に
は、抽出要素が文脈情報となり得るかどうかを判別する
ための文脈情報判別知識2508が、「抽出カラム」以
外のカラムによって1レコードに1つの知識として記述
されている。ステップ2507では、1つの抽出要素に
対して、文脈情報抽出知識2508に記述されている文
脈情報判別知識を順に1つずつ取り出す。
In the context information extraction knowledge of FIGS. 23 and 24, the context information determination knowledge 2508 for determining whether or not the extracted element can be context information includes one for each record by a column other than the “extraction column”. Described as knowledge. In step 2507, for each extracted element, the context information determination knowledge described in the context information extraction knowledge 2508 is sequentially extracted one by one.

【0182】また、文脈情報判別知識2508には、抽
出要素と共起要素が、意味素、後置詞および語順におい
て満たすべき条件が記述されている。ステップ2509
では、抽出要素が文脈情報判別知識2508に合致して
いるかどうかを調べ、合致している場合は、ステップ2
510において抽出カラムへの対応度を更新する。な
お、抽出カラム対応度テーブル(図27参照)に、既に
その抽出カラムに対する対応度が保存されていた場合に
は、現在の対応度との演算によって対応度を再計算して
更新する。また、着目している抽出カラムに対する対応
度のデータが無かった場合には、新規に対応度を計算し
て保存する。
The context information determination knowledge 2508 describes semantics, postpositions, and conditions that the extracted elements and co-occurrence elements must satisfy in word order. Step 2509
Then, it is checked whether or not the extracted element matches the context information determination knowledge 2508.
At 510, the degree of correspondence to the extraction column is updated. If the correspondence degree for the extracted column is already stored in the extraction column correspondence degree table (see FIG. 27), the correspondence degree is recalculated and updated by calculation with the current correspondence degree. If there is no data on the degree of correspondence to the focused extraction column, the degree of correspondence is newly calculated and stored.

【0183】ここで、対応度の計算方法は様々なものが
考えられるが、本実施形態における手法としては、対応
度の初期値を”0”として、抽出要素が文脈情報判別知
識に合致する度に、文脈情報抽出知識2508中の「確
信度」の欄に保持されている確信度を対応度に加算して
いく方法を取る。この方法を取ることで、文脈情報判別
知識2508に重み付けを行うことができ、確信度の変
更による知識のチューニングが可能になる。ただし、対
応度の算出方法は他にも考えられ、例えば、対応度の初
期値を”0”として、文脈情報判別知識2508に合致
するたびに対応度を”1”ずつ加算していくなどの方法
も可能であり、この方法によれば、文脈情報抽出知識2
508中に「確信度」の情報を保持する必要がなくなる
ため、必要な記憶領域を減らすことができる。
Here, various methods of calculating the degree of correspondence can be considered. As a method in the present embodiment, the initial value of the degree of correspondence is set to “0”, and the degree of matching of the extracted element with the context information discrimination knowledge is set. Then, a method of adding the certainty held in the column of “certainty” in the context information extraction knowledge 2508 to the correspondence is adopted. By adopting this method, the context information determination knowledge 2508 can be weighted, and the knowledge can be tuned by changing the certainty factor. However, other methods of calculating the degree of correspondence are also conceivable. For example, the initial value of the degree of correspondence is set to “0”, and the degree of correspondence is added by “1” each time the context information determination knowledge 2508 is matched. A method is also possible, and according to this method, context information extraction knowledge 2
Since it is not necessary to hold the information of “certainty” in the field 508, the necessary storage area can be reduced.

【0184】具体例を示してステップ2509,251
0の動作を説明すると、例えば 知識ID[RA1.
1]の文脈情報判別知識は、抽出要素の意味素が<企業
>であるという知識であり、該知識に合致した抽出要素
は、「製品テーブル.メーカー」への対応度が強くな
る。すなわち、図4の自然言語文書の場合、最初の抽出
要素である「オムロン」は文脈情報判別知識[RA1.
1]に合致するため、「製品テーブル.メーカー」への
対応度は、確信度”0.9”の値が対応度の初期値”
0”に加算され、対応度”0.9”に更新される。
Steps 2509 and 251 will be described with reference to specific examples.
0 will be described. For example, the knowledge ID [RA1.
The context information discrimination knowledge of [1] is knowledge that the semantic element of the extracted element is <company>, and the extracted element that matches the knowledge has a high degree of correspondence to “product table.maker”. That is, in the case of the natural language document shown in FIG.
1], the degree of correspondence to “product table. Maker” is an initial value of the degree of correspondence “0.9”.
It is added to "0" and updated to "0.9".

【0185】また図26には、知識間相関ルールの例を
示している。この知識間相関ルールは、ある知識に合致
したときに他の知識を活性化させたり、抑制化させたり
できるようにするためのルールである。図中、ノードの
枠内に記述されているのは知識IDであり、リンク上に
記述された数値は活性化指数であり、活性化指数が1.
0以上の場合は活性化させるように働き、活性化指数が
1.0未満の場合は抑制化させるように働くことを示し
ている。
FIG. 26 shows an example of an inter-knowledge correlation rule. The inter-knowledge correlation rule is a rule for enabling activation or suppression of other knowledge when a certain knowledge is matched. In the figure, the knowledge ID is described in the node frame, the numerical value described on the link is the activation index, and the activation index is 1.
If the activation index is less than 1.0, the activation index is less than 1.0, and the activation index is less than 1.0.

【0186】知識間相関ルールを活用する場合には、各
知識に対して活性度を持たせ、ステップ2504の時点
で、活性度の初期値を(例えば”1.0”に)初期化し
ておく。そして、知識に合致してステップ2510にお
いて抽出カラムへの対応度を更新する際には、対応度に
確信度を単純に加算するのではなく、その時の知識の活
性度度と確信度を掛け合わせた値を対応度に加算する。
またこのとき、同時に適合した知識からリンクされてい
る知識に対する活性度の更新も行う。活性度は、リンク
の活性化指数を元々の活性度に掛け合わせた値に更新さ
れる。例えば、初期状態(全ての活性度が”1.0”の
状態)で文脈情報判別知識[RA1.1]の知識に抽出
要素が合致すると、RA1.2からRA1.6までの知
識の活性度は”1.5”に更新される。なお、活性度の
更新方法は他にも考えられるが、要は共起しやすい知識
は活性化させ、共起しにくい知識は抑制化させる更新方
法であればどんなものでも良い。こういったしくみを導
入すれば、同時には起こりにくい知識を同時に合致させ
てしまって、対応度がうまく求められないという現象を
回避することが可能となる。
When utilizing the inter-knowledge correlation rule, each knowledge is given an activity, and at step 2504, the initial value of the activity is initialized (for example, to “1.0”). . Then, when updating the degree of correspondence to the extraction column in step 2510 in accordance with the knowledge, instead of simply adding the degree of certainty to the degree of correspondence, the degree of activity of the knowledge at that time is multiplied by the degree of certainty. Value is added to the degree of correspondence.
At this time, the activity level of the linked knowledge is also updated from the matched knowledge. The activity is updated to a value obtained by multiplying the activation index of the link by the original activity. For example, if the extraction element matches the knowledge of the context information discrimination knowledge [RA1.1] in the initial state (state where all the activities are “1.0”), the activity of the knowledge from RA1.2 to RA1.6 Is updated to "1.5". Although there are other methods of updating the activity, any method may be used as long as knowledge that easily co-occurs is activated, and knowledge that hardly co-occurs is suppressed. By introducing such a mechanism, it becomes possible to simultaneously match knowledge that is unlikely to occur at the same time, and to avoid a phenomenon that the degree of correspondence is not obtained well.

【0187】このようにして、ステップ2511の判断
により、1つの抽出要素に対してRA1.2,RA1.
2, …というように全ての文脈情報判別知識2508を
順にチェックするべく、ステップ2507からステップ
2510の処理を繰り返す。これにより、1つの抽出要
素に対して合致した全ての抽出カラムへの対応度が求め
られ、抽出カラム対応度テーブルに保存される。図4の
自然言語文書の場合は、文脈領域AR1のみに合致する
ため、「製品テーブル.メーカー」への対応度のみ”
0.9”として保存される。このときの抽出カラム対応
度テーブルの状態を図27に示す。なお、対応度が保存
されていない抽出カラムについては対応度が”0”であ
るとも考えられる。
As described above, according to the determination at step 2511, RA1.2, RA1.
Steps 2507 to 2510 are repeated to sequentially check all the context information determination knowledge 2508, such as 2,. As a result, the degrees of correspondence to all the extracted columns that match one extracted element are obtained and stored in the extracted column correspondence table. In the case of the natural language document of FIG. 4, since only the context area AR1 is matched, only the degree of correspondence to “product table.
Fig. 27 shows the state of the extracted column correspondence table at this time. The correspondence is considered to be "0" for an extraction column for which the correspondence is not stored.

【0188】次に、ステップ2512では、抽出カラム
対応度テーブルにおいて、全ての抽出カラムへの対応度
が、予め設定しておいたしきい値以下であるかどうかを
チェックする。このしきい値は”0”でも良いし、それ
以上の値でも良い。ステップ2512でしきい値以上の
ものが1つ以上あった場合には、ステップ2513に進
んで、最も対応度の高い抽出カラムを対応カラムと決定
し、ステップ2514において、現在ポイントしている
文脈情報保存領域(図4の自然言語文書の例ではAR
2,ND2)に、対応カラムと抽出要素をセットにし
て、文脈情報2515として保存する。図4の自然言語
文書の例では、この時点での文脈情報2515の状態は
図28に示すようになる。
Next, in step 2512, it is checked whether or not the degrees of correspondence to all the extracted columns are equal to or less than a preset threshold value in the extracted column correspondence degree table. This threshold value may be “0” or a higher value. If there is at least one threshold value or more at step 2512, the process proceeds to step 2513, where the extraction column having the highest degree of correspondence is determined as the corresponding column. Storage area (AR in the example of the natural language document in FIG. 4)
2, ND2), a corresponding column and an extracted element are set and stored as context information 2515. In the example of the natural language document of FIG. 4, the state of the context information 2515 at this point is as shown in FIG.

【0189】さらに、ステップ2516の判断により、
以上のステップ2504からステップ2514までの一
連の処理を全ての形態素について繰り返しおこなう。こ
れによって、最終的に図29に示すように、文脈情報抽
出知識2508に合致した抽出要素が文脈領域と対応カ
ラムに分類されて、文脈情報として抽出される。抽出さ
れた文脈情報は、それぞれ対応する文脈領域のデータ構
造に保存されることになる。
Further, according to the determination in step 2516,
The series of processes from step 2504 to step 2514 is repeated for all morphemes. As a result, as shown in FIG. 29, finally, extracted elements that match the context information extraction knowledge 2508 are classified into a context area and a corresponding column, and are extracted as context information. The extracted context information is stored in the data structure of the corresponding context area.

【0190】なお、図28の処理途中の文脈情報におけ
る対応度のデータは、図29の最終的に抽出された文脈
情報2515では省略したが、最終的な文脈情報251
5においても対応度のデータを保存して、後の処理の曖
昧性解消等のために用いても良い。
The data of the degree of correspondence in the context information in the process of FIG. 28 is omitted from the finally extracted context information 2515 in FIG.
Also in step 5, the data of the degree of correspondence may be stored and used for ambiguity resolution in later processing.

【0191】なお、図25のフローチャートにおけるス
テップ2507からステップ2511までの繰り返し処
理は、文脈情報抽出知識2508中に格納されている各
分脈情報判別知識について独立して行うことができるた
め、並列コンピュータ等を用いて並列に処理を行うこと
によって、高速に処理することが可能である。また、ス
テップ2504からステップ2516までの繰り返し処
理についても、抽出された各形態素2503について独
立して行うことができるため、同様に、並列に処理を行
うことによって、高速に処理することが可能である。
It is to be noted that the repetition processing from step 2507 to step 2511 in the flowchart of FIG. 25 can be performed independently for each context information discrimination knowledge stored in the context information extraction knowledge 2508. , Processing can be performed at high speed. Also, the repetition processing from step 2504 to step 2516 can be performed independently for each of the extracted morphemes 2503. Similarly, by performing the processing in parallel, high-speed processing can be performed. .

【0192】さらに、図23および図24の文脈情報抽
出知識は、図30に示されるように正規表現等のパター
ンで記述することも可能である。図30において、文脈
情報抽出知識は拡張された正規表現で記述されている。
特殊文字として使用されているのは以下の通りである。
「X」は現在着目している抽出要素を表す。「<…>」
は意味素を表す。「X::Y」はXがYの意味素を満たし
ている条件を記述している。「.」は任意の一文字を表
す。「*」は直前の正規表現要素の0回以上の繰り返し
を示す。「?」は直前の正規表現要素が0回か1回現れ
ることを示す。「(…)」は複数の要素をまとめて1つ
の正規表現要素を作る。「|」は選言(すなわちor)
を表し、両側の要素が選択的に現れることを意味する。
上記以外の文字は通常の文字として扱う。
Further, the context information extraction knowledge of FIGS. 23 and 24 can be described by a pattern such as a regular expression as shown in FIG. In FIG. 30, the context information extraction knowledge is described by an extended regular expression.
The following are used as special characters:
“X” represents an extraction element currently focused on. "<…>"
Represents a semantic element. “X :: Y” describes a condition where X satisfies the semantic of Y. "." Represents any single character. “*” Indicates 0 or more repetitions of the immediately preceding regular expression element. "?" Indicates that the immediately preceding regular expression element appears 0 or 1 time. "(...)" forms one regular expression element by combining a plurality of elements. "|" Is a disjunction (or or)
, Which means that the elements on both sides appear selectively.
Characters other than the above are treated as normal characters.

【0193】この場合、知識の記述法が特殊になるとい
う欠点はあるが、複数の共起要素を規定できたり、共起
要素の出現位置をより柔軟に記述できたりといった利点
もある。この場合、第2番目の方法を実現する文脈情報
抽出装置1502(第2の構成)は、各形態素(着目要
素)が満たすべき意味素や共起要素等の条件を正規表現
等のパターン記述知識として記述した図30のような情
報抽出知識を備えることとなる。
In this case, there is a disadvantage that the method of describing knowledge is special, but there are advantages that a plurality of co-occurring elements can be defined and the appearance position of the co-occurring element can be described more flexibly. In this case, the context information extraction device 1502 (second configuration) that implements the second method uses the pattern description knowledge such as a regular expression to define the conditions such as semantics and co-occurrence elements to be satisfied by each morpheme (element of interest). The information extraction knowledge as shown in FIG.

【0194】(3)概念記述領域決定と概念情報抽出 以上の処理により、文脈情報の抽出(図16のステップ
1602)が行われたので、次に、ステップ1603で
は、概念記述領域決定型概念情報抽出装置1503によ
り、概念記述領域の決定を行いながら、概念情報の抽出
を行っていく。図31には、本実施形態の概念記述領域
決定型概念情報抽出装置1503による概念記述領域決
定と概念情報抽出の処理手順を説明するフローチャート
を示す。
(3) Determination of Concept Description Area and Extraction of Concept Information By the above processing, extraction of context information (step 1602 in FIG. 16) has been performed. Next, in step 1603, concept description area determination type concept information The extraction device 1503 extracts the concept information while determining the concept description area. FIG. 31 is a flowchart illustrating a processing procedure for determining the concept description area and extracting the concept information by the concept description area determination type concept information extraction device 1503 according to the present embodiment.

【0195】ここで、「概念記述領域」とは、ある概念
を表現する情報の1単位が過不足なく記述されている文
脈領域のことをいうものとする。図4の自然言語文の例
でいうと、1つの製品についての情報が記述されている
文脈領域のことであり、図17におけるAR6,AR
7,AR22,AR25のような文脈領域のことを指
す。これらの文脈領域を見つけ出して、そこから概念情
報を抽出する処理がステップ1603の処理である。こ
の概念記述領域決定と概念情報抽出の処理の詳細を図3
1を参照して説明する。
Here, the "concept description area" refers to a context area in which one unit of information expressing a certain concept is described without excess or deficiency. In the example of the natural language sentence of FIG. 4, it is a context area in which information about one product is described.
7, AR22, AR25. The process of finding these context regions and extracting concept information therefrom is the process of step 1603. The details of the process of determining the concept description area and extracting the concept information are shown in FIG.
This will be described with reference to FIG.

【0196】まず、ステップ3101では、図16のス
テップ1601の文脈階層構造解析処理によって解析し
た文脈階層構造について、最上位の文脈領域を概念記述
領域の探索起点とし、ステップ3102において、該探
索起点から走査して最下位の文脈領域を見つける。すな
わち、どこからも参照されていない文脈領域を見つけ
る。図4の自然言語文書の場合には、図18において、
文書ノードND1の文脈領域から走査し始め、段落ノー
ドND2,箇条書きノードND3,箇条書き項目ノード
ND4,箇条書きノードND5,箇条書き項目ノードN
D6と走査して、下位の文脈領域を持たない箇条書き項
目ノードND6を最下位の文脈領域として発見する。
First, in step 3101, the topmost context region is set as the search starting point of the concept description region in the context hierarchical structure analyzed by the context hierarchical structure analysis process of step 1601 in FIG. Scan to find the lowest context area. That is, a context area that is not referenced from anywhere is found. In the case of the natural language document of FIG. 4, in FIG.
Scanning is started from the context area of the document node ND1, and the paragraph node ND2, the bullet node ND3, the bullet item node ND4, the bullet node ND5, and the bullet item node N
By scanning with D6, the itemized item node ND6 having no lower context area is found as the lowest context area.

【0197】次に、ステップ3102では、この最下位
の文脈領域を概念記述領域の候補領域と仮定して、ステ
ップ3103において、文脈情報3104からの概念情
報候補の抽出を試みる。この際、抽出すべき属性情報
は、文脈情報として候補領域外に押しやられている場合
もあるため、候補領域より上位の文脈領域に、図16の
ステップ1602の文脈情報抽出処理で保存しておいた
文脈情報3104を、属性情報の候補として活用できる
ものとする。また、仮定した候補領域の下位の文脈領域
の文脈情報も活用できるものとする。すなわち、・現在
候補領域として仮定している概念記述領域に保存されて
いる文脈情報、・候補領域が持つ下位の文脈領域に保存
されている文脈情報、・下位の文脈領域が持つ更に下位
の文脈領域に保存されている文脈情報、・候補領域が参
照している上位の文脈領域に保存されている文脈情報、
・上位の文脈領域が参照している更に上位の文脈領域に
保存されている文脈情報、を全て活用して概念情報の抽
出を行うことになり、階層的な文脈を有効に活用した概
念情報抽出が可能になる。図4の自然言語文書の例にお
いて、ノードND6の場合だと、ノードND6自身と、
上位文脈領域であるノードND5,ND4,ND3,N
D2,ND1の全てを調べて、図32に示すような概念
情報候補が抽出される。
Next, in step 3102, the lowest context region is assumed to be a candidate region for the concept description region, and in step 3103, extraction of a concept information candidate from the context information 3104 is attempted. At this time, since the attribute information to be extracted may be pushed out of the candidate area as context information, the attribute information is stored in the context area higher than the candidate area by the context information extraction processing of step 1602 in FIG. It is assumed that the context information 3104 can be used as a candidate for attribute information. Further, it is assumed that context information of a context region lower than the assumed candidate region can also be used. That is, the context information stored in the concept description area currently assumed as the candidate area, the context information stored in the lower context area of the candidate area, the lower context of the lower context area Context information stored in the region, context information stored in a higher-level context region referenced by the candidate region,
・ Concept information is extracted by utilizing all the context information stored in a higher context area that is referred to by the upper context area, and the concept information is extracted by effectively utilizing the hierarchical context. Becomes possible. In the example of the natural language document of FIG. 4, in the case of the node ND6, the node ND6 itself and
Nodes ND5, ND4, ND3, N which are upper context areas
By examining all of D2 and ND1, concept information candidates as shown in FIG. 32 are extracted.

【0198】次に、ステップ3105および3108で
は、概念情報の必要十分性のチェックを行う。ここで、
「概念情報の必要十分性が言える条件」としては、以下
の3つの条件を満たす必要がある。すなわち、第1の必
要十分条件として、抽出すべき概念を特徴づける必須属
性の情報が抽出されていること、第2の必要十分条件と
して、複数の概念単位(図4の自然言語文書の例では複
数の製品)を候補領域中に含まないこと、並びに、第3
の必要十分条件として、新規の情報を含んでいることで
ある。
Next, in steps 3105 and 3108, the necessity / sufficiency of the conceptual information is checked. here,
The "conditions for which the concept information is necessary and sufficient" must satisfy the following three conditions. That is, the first necessary and sufficient condition is that information of essential attributes characterizing the concept to be extracted is extracted, and the second necessary and sufficient condition is that a plurality of concept units (in the example of the natural language document in FIG. 4, Multiple products) in the candidate area, and
Is that it contains new information.

【0199】まず、第1の必要十分条件の「抽出すべき
概念を特徴づける必須属性」とは、その概念の1単位
(図4の自然言語文書の例では1製品)を決定するユニ
ークキーとなる情報であり、概念キー知識3106とし
て予め設定されるものである。例えば、図32に示す製
品テーブルの場合には、メーカー,製品および型式のカ
ラムのセットで1つの製品を表すとすることができるの
で、この場合の概念キー知識3106は、図33に示す
ようになる。
First, the “necessary attribute characterizing the concept to be extracted” of the first necessary and sufficient condition is a unique key that determines one unit of the concept (one product in the example of the natural language document in FIG. 4). This information is set in advance as concept key knowledge 3106. For example, in the case of the product table shown in FIG. 32, one product can be represented by a set of the manufacturer, product, and model columns, and the concept key knowledge 3106 in this case is as shown in FIG. Become.

【0200】次に、第2の必要十分条件の複数の概念単
位を含んでいるかどうかのチェックは、上記概念キー知
識3106を活用して行う。すなわち、概念キー知識3
106に相当する属性が複数抽出されたかどうかをチェ
ックし、複数含む場合は、概念単位が複数であるとして
当該第2の必要十分条件を満たさないとする。例えば、
概念記述領域の候補領域として、ノードND5を仮定し
た場合、抽出される概念情報候補は図34に示すように
なる。図34では、メーカー,製品および型式の組み合
わせのデータが2つ抽出されているため、第2の必要十
分条件には合致しないとする。
Next, whether or not a plurality of concept units satisfying the second necessary and sufficient condition are included is checked by utilizing the concept key knowledge 3106. That is, concept key knowledge 3
It is checked whether or not a plurality of attributes corresponding to 106 have been extracted. If a plurality of attributes are included, it is determined that the concept unit is a plurality and the second necessary and sufficient condition is not satisfied. For example,
When the node ND5 is assumed as a candidate area for the concept description area, the extracted concept information candidates are as shown in FIG. In FIG. 34, it is assumed that the data does not meet the second necessary and sufficient condition because two data of the combination of the manufacturer, the product, and the model are extracted.

【0201】次に、第3の必要十分条件の新規の情報を
含んでいるかどうかのチェックを行えるようにするため
に、既に抽出済みの概念情報が抽出済み概念情報310
7に保存されている必要がある。すなわち、この抽出済
み概念情報3107をチェックして、概念情報候補が包
含される抽出済み概念情報が存在すれば、第3の必要十
分条件は満たさないことになる。例えば、ノードND1
6のセルを候補領域とした場合に抽出される概念情報候
補は図35に示す如くなり、この時、抽出済み概念情報
3107として、図32に示した概念情報候補が保存さ
れていれば、図35の概念情報候補は図32の概念情報
に包含されるため、第3の必要十分条件は満たさないこ
とになる。別の例として、ノードND16およびノード
ND17のセルの上位文脈領域であるノードND10の
行を候補領域として概念情報候補を抽出した場合には、
図36に示すようになり、「医療用具承認番号」のカラ
ムの情報が図32と比較して新規の情報なので、この場
合は逆に第3の必要十分条件を満たすことになる。
Next, in order to check whether or not new information of the third necessary and sufficient condition is included, the already extracted concept information is extracted from the extracted concept information 310.
7 must be stored. That is, the extracted concept information 3107 is checked, and if there is extracted concept information that includes the concept information candidate, the third necessary and sufficient condition is not satisfied. For example, the node ND1
FIG. 35 shows the conceptual information candidates extracted when cell No. 6 is set as the candidate area. At this time, if the conceptual information candidates shown in FIG. Since the concept information candidate of 35 is included in the concept information of FIG. 32, the third necessary and sufficient condition is not satisfied. As another example, when a concept information candidate is extracted using the row of the node ND10, which is the upper context area of the cells of the nodes ND16 and ND17, as a candidate area,
As shown in FIG. 36, since the information in the column of “medical device approval number” is new information as compared with FIG. 32, in this case, on the contrary, the third necessary and sufficient condition is satisfied.

【0202】以上説明した第1から第3までの必要十分
条件のチェックにより、1つの概念情報候補に対する概
念情報の必要十分性がチェックできることとなる。な
お、上記説明の例では、抽出すべき概念のテーブルは
「製品テーブル」のみであるが、テーブルが複数ある場
合には、ステップ3108における概念情報の必要十分
性のチェックは、全てのテーブルに対して繰り返し行う
必要がある。
By checking the first to third necessary and sufficient conditions described above, it is possible to check the necessity and sufficientness of the concept information for one concept information candidate. In the example described above, the concept table to be extracted is only the “product table”. Need to be repeated.

【0203】ステップ3108において、全ての概念抽
出対象となるテーブルについて概念情報の必要十分性が
言えないときには、ステップ3109に進んで、現在の
候補領域が最上位の文脈領域でない場合には、現在の候
補領域の上位の文脈領域を候補領域としてステップ31
03に戻る。すなわち、仮定したよりさらに上位の文脈
領域を概念記述領域の候補として仮定しなおして、上記
処理を繰り返す。ただし、上位の文脈領域が複数ある場
合には、複数の文脈領域について探索を繰り返すことに
なる。例えば、表の場合、セル単位で概念情報の必要十
分性が言えなかった場合、次の上位文脈は行単位か列単
位のいずれかであり、この両方をチェックしてみる必要
がある。また、より上位の文脈領域が存在しない場合、
すなわち現在の候補領域が最上位の文脈領域の場合に
は、ステップ3111において概念情報の重複解決処理
を行い、概念情報の抽出は終了する。
In step 3108, if it is not possible to say that the concept information is necessary or sufficient for all the tables from which the concept is to be extracted, the flow advances to step 3109. If the current candidate area is not the highest context area, Step 31 sets the context region above the candidate region as the candidate region.
Return to 03. That is, the context region higher than the assumed one is assumed as a candidate of the concept description region again, and the above processing is repeated. However, when there are a plurality of upper context regions, the search is repeated for the plurality of context regions. For example, in the case of a table, if the necessity and sufficientness of the conceptual information cannot be determined on a cell basis, the next higher context is either a row basis or a column basis, and it is necessary to check both. Also, if there is no higher context area,
That is, if the current candidate area is the topmost context area, concept information duplication resolution processing is performed in step 3111, and the extraction of the concept information ends.

【0204】また、ステップ3108において、少なく
とも1つのテーブルについて概念情報の必要十分性が言
えた場合には、ステップ3112に進んで、抽出済み概
念情報として概念情報候補を保存し、ステップ3113
において、概念記述領域の候補領域を、現在の候補領域
と同レベルの次の領域、例えば現在の候補領域がノード
ND6の場合はノードND7を起点として最下位領域を
探索して発見し、文脈からの概念抽出処理を繰り返す。
同レベルに次の領域が存在しない場合には、上位の文脈
領域の次の領域、例えば現在の候補領域がノードND7
の場合はノードND8を候補領域探索の起点にする。ス
テップ3114において、さらに上位の文脈領域が存在
しない場合(現在が最上位の場合)には、ステップ31
11に進んで概念情報の重複解決処理を行い、概念情報
の抽出は終了する。
If it is determined in step 3108 that the concept information is necessary and sufficient for at least one table, the flow advances to step 3112 to store the concept information candidates as extracted concept information, and step 3113
In the above, the candidate area of the concept description area is found by searching for the next area at the same level as the current candidate area, for example, the lowest area starting from the node ND7 when the current candidate area is the node ND6. Is repeated.
If the next area does not exist at the same level, the area next to the upper context area, for example, the current candidate area is the node ND7.
In the case of, the node ND8 is set as a starting point of the candidate area search. If it is determined in step 3114 that there is no higher-level context area (currently the highest level), step 31
The process proceeds to step S11, where the concept information duplication solving process is performed, and the extraction of the concept information ends.

【0205】概念情報の重複解決処理(ステップ311
1)を行う前の段階では、抽出済み概念情報は図37に
示すような状態になっている。これは最終的に目標とす
る図5の概念集合に非常に近い形にはなっているが、ノ
ードND6とND10並びにノードND7とND11で
抽出した概念が同一の製品に対する情報を記述してお
り、結果として概念情報の重複がおこっている。これを
解消するためにステップ3111では、概念キー知識3
106を再び用いて概念キーが同一の概念を探索し、も
し存在すれば重複情報を解消して1つの概念情報とする
ことで、最終的に図5に示したような概念情報が抽出さ
れることになる。
Concept information duplication solution processing (step 311)
At the stage before 1), the extracted conceptual information is in a state as shown in FIG. Although this is very similar to the final set of concepts in FIG. 5, the concepts extracted at nodes ND6 and ND10 and nodes ND7 and ND11 describe information for the same product, As a result, duplication of concept information occurs. In order to solve this, in step 3111, the concept key knowledge 3
106 is used again to search for a concept with the same concept key, and if present, duplicate information is eliminated to form one piece of concept information, so that the concept information as shown in FIG. 5 is finally extracted. Will be.

【0206】以上、この「3−2.文脈解析および構造
解析を用いた概念情報の抽出」で説明した文脈情報を用
いた概念抽出方式は、文書構造が存在しない自然言語文
書についての処理方式であった「3−1.意味解析を用
いた概念情報の抽出」の方式を包含したものとなってお
り、文書構造が存在しない図8や図12のような自然言
語文書も、「3−1.意味解析を用いた概念情報の抽
出」と同等の精度で解析することが可能である。
The concept extraction method using context information described in “3-2. Extraction of concept information using context analysis and structure analysis” is a processing method for a natural language document having no document structure. The method of “3-1. Extraction of concept information using semantic analysis” is included, and a natural language document having no document structure as shown in FIGS. . Extraction of conceptual information using semantic analysis ”.

【0207】ただし、自然言語文書の長文(文が多くて
1つの文書で複数の意図を伝えようとしているもの)を
含む場合には、自然言語文書のみで、文脈階層構造を形
成していると考えられるため、この「3−2.文脈解析
および構造解析を用いた概念情報の抽出」で説明したよ
うなタグによる文脈階層構造の解析のみではなく、主題
の推移や接続詞等に基づく文脈階層構造の解析を行う必
要がある。これを実現する手法は、例えば第4の文献
『吉田悦子, 横山晶一 ;” 主題・焦点を用いた文脈解
析の一手法”, 電子情報通信学会技術研究報告, Vol97,
No330, pp.1-8,(1997)』等に述べられている。
However, when a long sentence of a natural language document (the sentence is intended to convey a plurality of intentions in one document at most) is included, it is assumed that the natural language document alone forms a context hierarchical structure. Because it is conceivable, not only the analysis of the context hierarchical structure using tags as described in “3-2. Extraction of conceptual information using context analysis and structural analysis”, but also the context hierarchical structure based on transition of the subject, conjunction, etc. Must be analyzed. A method to achieve this is described in, for example, the fourth document "Etsuko Yoshida, Shoichi Yokoyama;" A Method of Context Analysis Using Subjects / Focus ", IEICE Technical Report, Vol97,
No. 330, pp. 1-8, (1997)].

【0208】4.概念情報の登録 以上のように、「3.概念情報の抽出」における概念情
報抽出処理によって、「2.概念集合の表現」で説明し
たような概念情報が抽出された。これは図2のフローチ
ャートにおけるステップ201の処理に相当する。ま
た、図4の自然言語文書の例では、図5の概念集合への
変換が終了したことになる。
[0208] 4. Registration of Concept Information As described above, the concept information described in “2. Expression of Concept Set” was extracted by the concept information extraction process in “3. Extraction of Concept Information”. This corresponds to the process of step 201 in the flowchart of FIG. In the example of the natural language document in FIG. 4, the conversion to the concept set in FIG. 5 has been completed.

【0209】このような概念集合においても、キーワー
ド集合と同様の重み付け処理を行って、概念と重みの数
値の組によって概念集合とすることも可能である。ここ
で求められた概念集合は、図1の概念登録装置102を
用いて、図2の文書ID205と共にステップ206に
おいてデータベース104に登録されることになる。こ
こで登録されるデータ構造は、従来例の転置インデック
ス(図51参照)におけるキーワード部分を概念情報で
置き換えたものと考えられ、ここでは「概念情報転置イ
ンデックス」と呼ぶ。
[0209] Even in such a concept set, the same weighting process as that of the keyword set can be performed, and the concept set can be formed by a set of the concept and the numerical value of the weight. The concept set obtained here is registered in the database 104 in step 206 together with the document ID 205 in FIG. 2 using the concept registration device 102 in FIG. It is considered that the data structure registered here is obtained by replacing the keyword portion in the transposed index (see FIG. 51) of the conventional example with the concept information, and is referred to herein as a “concept information transposed index”.

【0210】図38には、重み付け処理を行った場合の
概念情報転置インデックスの一例を示す。この重み付け
られた概念情報転置インデックスは、ある概念の各文書
に対する重みを求めることができるデータ構造を持って
おり、重み付け処理を行わない場合には、重み付け数値
の部分が、文書に含まれるまたは含まれないを表す2値
のフラグになる。
FIG. 38 shows an example of the concept information transposed index when the weighting process is performed. The weighted concept information transposed index has a data structure that can determine the weight of each concept of a document. This is a binary flag indicating that no data exists.

【0211】また、従来例のキーワードの転置インデッ
クス(図51参照)と違って、索引の部分が複数の情報
の組み合わせでできているため、同一の概念の部分的情
報が、複数の文書から抽出されている可能性がある。す
なわち、価格は「文書1」、医療用具承認番号は「文書
3」に記述されていたというような場合である。これを
後で活用して、価格の情報が載っている文書を探したい
と思った場合に「文書1」を検索できるようにするため
に、対応する概念の属性の情報(以下では、対応属性情
報と呼ぶ)を保存しておくことも可能である。この対応
属性情報は、文書IDとの組で保存される。この方式を
適用すれば、例えば、図38の型式MC400という体温計
のレコードは、図39に示すように各文書カラムに対応
属性情報を保持した形式となる。図39に示した例で
は、キーとなるメーカー,製品および型式のカラムの情
報は、全ての文書に含まれるが、発売日、価格および医
療用具承認番号のカラムの情報は、それぞれ文書1、文
書2、文書3に別々に記載されていたことを表すことが
できる。
Unlike the conventional keyword transposition index (see FIG. 51), the index portion is made up of a combination of a plurality of pieces of information, so that partial information of the same concept is extracted from a plurality of documents. Could have been. That is, the price is described in “Document 1” and the medical device approval number is described in “Document 3”. By utilizing this later, in order to be able to search for “document 1” when it is desired to search for a document on which price information is described, information on the attribute of the corresponding concept (hereinafter, the corresponding attribute (Referred to as information). The corresponding attribute information is stored as a pair with the document ID. When this method is applied, for example, a record of a thermometer of type MC400 in FIG. 38 has a format in which corresponding attribute information is stored in each document column as shown in FIG. In the example shown in FIG. 39, the key manufacturer, product, and model column information is included in all documents, but the release date, price, and medical device approval number column information is document 1, document 1, respectively. 2. It can be shown that they are separately described in the document 3.

【0212】なお、複数の概念情報(例えば、製品と企
業など)を同時に抽出した場合には、図38のような概
念情報転置インデックスが、概念情報の種類毎にでき
る。例えば、製品テーブルと企業テーブルを同時に概念
抽出した場合には、概念情報転置インデックスも、製品
概念情報転置インデックスと企業概念情報転置インデッ
クスの2つができることになる。
When a plurality of pieces of conceptual information (for example, a product and a company) are extracted at the same time, a conceptual information inverted index as shown in FIG. 38 can be created for each type of conceptual information. For example, when the product table and the company table are simultaneously concept extracted, there are two concept information transposed indexes, the product concept information transposed index and the company concept information transposed index.

【0213】また、本実施形態では、文書の所在情報と
の組で概念情報を登録する方法を述べたが、実際には、
概念情報のみをデータベース104に登録するようにし
ても良い。この場合、図2のフローチャートにおいて、
ステップ204の文書IDの取得および結果となる文書
IDは省略され、ステップ206では概念情報のみがデ
ータベース104に登録されることになる。
Further, in the present embodiment, the method of registering the concept information in combination with the location information of the document has been described.
Only the concept information may be registered in the database 104. In this case, in the flowchart of FIG.
The acquisition of the document ID in step 204 and the resulting document ID are omitted, and in step 206 only the concept information is registered in the database 104.

【0214】5.概念情報の検索 最後に、「1−3.情報検索処理」で概説した概念検索
の詳細について述べる。概念をレコードで表現した場
合、図3における検索概念集合306が表現すべきもの
は、以下の2点である。すなわち、第1に、どのテーブ
ルの情報或いはどのテーブルのどのカラムの情報が知り
たいのかであり、第2に、どのレコードの情報が知りた
いのかである。
[0214] 5. Retrieval of Concept Information Finally, details of the concept retrieval outlined in “1-3. Information retrieval processing” will be described. When the concept is expressed by a record, the search concept set 306 in FIG. 3 is to express the following two points. That is, first, which table information or which column information of which table is desired to be known, and secondly, which record information is desired to be known.

【0215】第1の検索要求は、何らかの手段を用いて
テーブルやカラムを指定できるようにすることで可能に
なる。例えば、テーブルのカラムに「?」が記述されて
いる場合にそのカラムの情報を回答することにすると、
製品の発売日が知りたいという条件は、図40に示すよ
うに表現できる。
The first search request can be made by specifying a table or a column by using any means. For example, if "?" Is described in a column of a table, and the information in that column is answered,
The condition for wanting to know the release date of a product can be expressed as shown in FIG.

【0216】また、第2の検索要求は、テーブルのカラ
ムに対して条件を記述できるようにすることで可能にな
る。例えば、価格が12,500円の製品を知りたいという条
件は、図41に示すように表現できる。
The second search request is made possible by describing conditions in columns of a table. For example, the condition that the user wants to know a product whose price is 12,500 yen can be expressed as shown in FIG.

【0217】図40は、従来の情報抽出の結果と表現的
には同じものであるが、意味合い的に条件を表している
という点で異なる。しかし、表現が同じことで、情報登
録の際のアルゴリズムやデータ構造を情報検索にも流用
できるという利点がある。
FIG. 40 is similar in expression to the result of the conventional information extraction, but differs in that the condition is represented meaningfully. However, the same expression has the advantage that the algorithm and data structure at the time of information registration can be used for information retrieval.

【0218】また、図40はテーブルのカラムを特定す
る実例であったが、テーブル全体について知りたいとい
う条件も考えられる。これを実現する手法としては、以
下の3つの方法が考えられる。第1の方法として、カラ
ムの条件が記述されており「?」が1つもないテーブル
はテーブル全体のことを知りたいものとする方法があ
り、第2の方法として、テーブルのすべてのカラムに
「?」をつける方法があり、第3の方法として、テーブ
ル全体のことを知りたいということを表現するための領
域を別に用意する方法がある。
Although FIG. 40 shows an example of specifying the columns of the table, there may be a condition that the user wants to know the entire table. The following three methods are conceivable as a technique for realizing this. As a first method, there is a method in which the condition of a column is described and there is no "?" In the table, and the user wants to know the entire table. As a second method, " As a third method, there is a method of separately preparing an area for expressing the desire to know the entire table.

【0219】第1の方法は、簡単に実現できるが、テー
ブル間の参照を用いて複数テーブルに条件が渡ってい
て、かつ、全てのテーブルについては知りたいと思って
いない場合に表現する方法が無いという欠点がある。ま
た、情報登録なのか情報検索なのかの判断を別の知識に
基づいて行わなければならないという欠点もある。また
第2の方法は、本当に各々のカラムについて知りたいの
か、全体について知りたいのかという意味の情報が抜け
落ちてしまう。
The first method can be easily realized. However, there is a method for expressing a case where a condition is applied to a plurality of tables by using a reference between tables and all the tables are not desired to be known. There is a disadvantage that there is no. In addition, there is a drawback in that it is necessary to determine whether to perform information registration or information search based on different knowledge. In the second method, information indicating whether the user really wants to know each column or the entire column is missing.

【0220】さらに第3の方法では、記憶領域が多くい
るが、最も情報欠落は少なく表現力が高いと考えられ
る。以下では、第3の方法を採用した具体例を述べる。
Further, in the third method, although the storage area is large, it is considered that the lack of information is the least and the expressive power is high. Hereinafter, a specific example employing the third method will be described.

【0221】上記第3の方法に従えば、例えば、「オム
ロンの血圧計で価格が12,500円のものの発売日が知りた
い」という検索要求は、図42に示すように表すことが
できる。図42の表記例で述べていることは、基本的に
同一レコードに記述された条件は論理積の条件(すなわ
ちAND条件)とみなすということである。また、論理
和の条件(すなわちOR条件)を記述したい場合には、
テーブルにレコードを複数記述するか、テーブルのカラ
ムの中にOR条件を記述できるようにするかのどちらか
で対処できる。
According to the third method, for example, a search request “I want to know the release date of an Omron sphygmomanometer with a price of 12,500 yen” can be expressed as shown in FIG. What is described in the notation example of FIG. 42 is that basically the conditions described in the same record are regarded as logical product conditions (ie, AND conditions). If you want to describe the condition of OR (ie, OR condition),
Either a plurality of records can be described in a table, or an OR condition can be described in a column of the table.

【0222】またさらに、テーブルのカラムが数値を表
している場合に、以上、以下等の不等号条件を記述した
い場合がある。この場合、条件として記述する数値の前
に比較演算子を記述することで表現する等と定めること
で単純な比較条件は記述できる。例えば、「オムロンの
15,000円以下の血圧計について知りたい」という検索要
求は、図43に示すように表される。また同様に演算子
を拡張して、最小のものを求めたり、最大のものを求め
られるようにする方法も考えられる。
Further, when the columns of the table represent numerical values, it may be desired to describe the following inequality conditions. In this case, a simple comparison condition can be described by specifying that a comparison operator is described before a numerical value described as a condition. For example, "Omron's
A search request "I want to know about a sphygmomanometer of 15,000 yen or less" is expressed as shown in FIG. Similarly, there is a method of extending the operator so that the smallest one or the largest one can be obtained.

【0223】この他にも、文字列で表されるカラムにつ
いて前方一致条件や後方一致条件を記述できるようにし
て部分文字列マッチを可能にするように拡張する方法
や、文字列そのものの条件を記述する代わりに意味素を
記述できるようにして意味素に分類される文字列はすべ
てマッチするように拡張する等の方法も考えられる。
In addition to the above, a method of extending a column represented by a character string so as to enable a partial character string match by describing a head match condition and a tail match condition, and a condition of a character string itself are described. Instead of writing, it is possible to describe a semantic element so that all character strings classified as semantic elements can be expanded to match.

【0224】また、条件を記述したカラムの内容を知り
たい場合も想定し得る。文字列のExact Matchの場合
は、条件に書いた文字列そのものが答えになるため、あ
まり用途は思い浮かばないが、上記の数値の不等号条件
の場合や、文字列の部分文字列マッチや、意味素マッチ
の場合等には、条件で記述したものと実際に得られる文
字列は異なる可能性があるためである。これを表現可能
にするには、知りたいテーブルのカラムに「?」を記述
するという上記の方法では対処できなくなる。そのた
め、各カラムごとに「?」を記述するための回答要求欄
を設けることでこの問題を回避することができる。
Further, it may be assumed that the user wants to know the contents of the column describing the condition. In the case of Exact Match of a character string, the character string written in the condition itself is the answer, so it is hard to imagine the use, but in the case of the above inequality condition of numeric value, the substring match of the character string, the meaning This is because, in the case of a prime match, the character string actually described may be different from the character string described in the condition. In order to make this expressible, the above method of writing "?" In the column of the table you want to know cannot be dealt with. Therefore, this problem can be avoided by providing a response request column for describing "?" For each column.

【0225】例えば、図44に示す具体例では、各カラ
ムごとに「?」を記述するための回答要求欄を設けてい
る。図44では、「オムロンの血圧計で15,000円以下の
ものの型式と値段が知りたい」という検索要求を表して
いる。ここで、価格のカラムには、条件と「?」の両方
が記述されていることに注意する必要がある。
For example, in the specific example shown in FIG. 44, an answer request column for describing "?" Is provided for each column. FIG. 44 shows a search request for “I want to know the model and price of Omron's sphygmomanometer of 15,000 yen or less”. Here, it should be noted that both the condition and “?” Are described in the price column.

【0226】なお、これまでの議論は、主に図3のフロ
ーチャートの検索概念抽出処理(ステップ302) を
考えるための下準備であったが、検索文のパース(ステ
ップ304)において、概念検索文305から直接的に
検索概念集合306を作成する際にも応用できる。
Although the discussion so far has mainly been about preparation for considering the search concept extraction processing (step 302) in the flowchart of FIG. 3, the concept search The present invention can also be applied to the case where a search concept set 306 is created directly from the search concept set 306.

【0227】まず、概念検索文305をSQLと同等
(あるいはそのサブセット)のものにする場合を考え
る。この場合、上記の「?」に相当するのが、SELE
CT文の「SELECT」の直後に記述するカラム名である。
また、上記の各カラムに記述する条件式は、SELEC
T文の「WHERE」の後に記述する条件式に相当する。こ
れによって、SQLのサブセットを上記の図40から図
44の表現に変換することは容易であり、この場合、検
索文のパース(ステップ304)はその変換処理に相当
する。これによって、例えば「SELECT 型式,価格 FROM
製品テーブル WHERE メーカー="オムロン" AND 製品="
血圧計" AND 価格<=15000;」というSQLが図44の表
現に変換される。また、テーブル全体を知るためのカラ
ムは、「SELECT *」と同等とみなすことができる。
First, consider the case where the concept search sentence 305 is equivalent to SQL (or a subset thereof). In this case, the above “?” Corresponds to SELE.
This is the column name described immediately after “SELECT” in the CT statement.
The conditional expression described in each of the above columns is
This corresponds to a conditional expression described after “WHERE” in the T statement. Thus, it is easy to convert the SQL subset into the expressions shown in FIGS. 40 to 44. In this case, the parsing of the search sentence (step 304) corresponds to the conversion process. Thus, for example, "SELECT type, price FROM
Product table WHERE Manufacturer = "Omron" AND Product = "
The SQL of the sphygmomanometer “AND price <= 15000;” is converted into the expression of FIG. Also, the column for knowing the entire table can be regarded as equivalent to "SELECT *".

【0228】また、概念検索文305をSQLのような
ものにするのではなく、GUIで図40〜図44のよう
な表現そのものを実現することにより、SQL等の記述
法に関する専門的知識がなくとも検索概念集合を作成で
きるGUI等を実現することも可能である。
Also, by realizing the expressions themselves as shown in FIGS. 40 to 44 by using a GUI instead of using the concept search sentence 305 as an SQL-like one, there is no need for specialized knowledge on the description method such as the SQL. It is also possible to realize a GUI or the like that can create a set of search concepts.

【0229】以上のような検索概念集合306の表現方
法を用いて、以下では、WWWページ検索システムの情
報検索処理(図3)において自然言語検索文303を検
索概念集合306に変換する検索概念抽出処理(ステッ
プ302) の実現方法について述べる。ここでは、基
本的に「3−2.文脈解析および構造解析を用いた概念
情報の抽出」で説明した処理と同様の処理を行うものと
する。
Using the expression method of the search concept set 306 as described above, the search concept extraction for converting the natural language search sentence 303 into the search concept set 306 in the information search process (FIG. 3) of the WWW page search system will be described below. A method of realizing the process (step 302) will be described. Here, it is assumed that basically the same processing as the processing described in “3-2. Extraction of conceptual information using context analysis and structural analysis” is performed.

【0230】今、図23および図24の文脈情報抽出知
識を拡張して、情報登録処理および情報検索処理の両方
に使用できる一般的な情報抽出知識とする方法を考え
る。図23および図24の知識は、現在着目している
「抽出要素」に対して適用され、適用できるようなら
「抽出カラム」への対応度が高まり、最終的に「抽出カ
ラム」に「抽出要素」そのものが概念情報として保存さ
れる。これを拡張して、図40から図44で述べたよう
な表現方法を適用できるようにするには、登録の意図へ
の対応度を高める知識と、検索の意図への対応度を高め
る知識を別々に集計して、最終的に検索の意図への対応
度が高かった場合には、対応する概念情報のカラムに
「?」を保存すれば良い。あとは意味的整合性のため
に、図23および図24の文脈情報抽出知識におけるカ
ラム名の幾つかを以下のように変更する。しかし、それ
ぞれに対するアルゴリズム上の扱いは同じである。
Now, consider a method of extending the context information extraction knowledge of FIGS. 23 and 24 to general information extraction knowledge that can be used for both information registration processing and information search processing. The knowledge of FIGS. 23 and 24 is applied to the “extraction element” currently focused on, and if applicable, the degree of correspondence to the “extraction column” is increased. Itself is stored as concept information. In order to extend this and apply the expression method described with reference to FIGS. 40 to 44, knowledge for increasing the degree of correspondence to the intention of registration and knowledge for increasing the degree of correspondence to the intention of search are required. If they are separately tabulated and finally the degree of correspondence to the search intention is high, "?" May be stored in the column of the corresponding concept information. Then, for the sake of semantic consistency, some of the column names in the context information extraction knowledge of FIGS. 23 and 24 are changed as follows. However, the algorithmic treatment for each is the same.

【0231】「抽出カラム」→「対象カラム」 「抽出要素の意味素」→「着目要素」 「抽出要素の後置要素」→「着目要素の後置要素」 このような変更部分を反映した情報抽出知識を図45,
図46,図47および図48に示す。ここでは上記3つ
のカラム名の変更と、「意図」のカラムの追加が行われ
ており、意図のカラムに「登録」と記述してある知識に
マッチした場合は、着目要素そのものを概念情報に保存
し、「検索」と記述してある知識にマッチした場合は、
「?」を概念情報に保存するようにする。
“Extraction column” → “Target column” “Semantic element of extracted element” → “Element of interest” “Suffix element of extracted element” → “Suffix element of element of interest” Information reflecting such changed part The extracted knowledge is shown in FIG.
This is shown in FIGS. 46, 47 and 48. Here, the above three column names are changed, and a column of “intention” is added. If the knowledge matches “knowledge” described in the column of intention, the element of interest itself is added to the concept information. If you save and match the knowledge described as "search"
Save "?" In the concept information.

【0232】図45から図48までの情報抽出知識を用
いて検索概念情報の抽出を行う場合、図25の文脈情報
抽出処理のフローチャートにおける抽出カラム(対象カ
ラム)への対応度を更新する処理(ステップ2510)
の際に、対象カラムと意図の組毎に対応度を求めるよう
にする。すなわち、「製品テーブル.メーカー(登
録)」と「製品テーブル.メーカー(検索)」は別物と
考えるわけである。
When the retrieval concept information is extracted using the information extraction knowledge shown in FIGS. 45 to 48, the process of updating the degree of correspondence to the extraction column (target column) in the flowchart of the context information extraction process of FIG. Step 2510)
At this time, the degree of correspondence is determined for each pair of the target column and the intention. In other words, "product table. Maker (registration)" and "product table. Maker (search)" are considered different things.

【0233】そして、文脈情報抽出処理(図25)の文
脈情報保存領域に対応カラムと抽出要素を保存する処理
(ステップ2514)において、対応カラムが登録意図
のものならば、抽出要素(着目要素)を文脈情報として
保存し、対応カラムが検索意図のものならば、「?」を
文脈情報として保存する。
In the context information extraction process (FIG. 25) of storing the corresponding column and the extracted element in the context information storage area (step 2514), if the corresponding column is intended to be registered, the extracted element (target element) Is stored as context information, and if the corresponding column is intended to be searched, “?” Is stored as context information.

【0234】後の処理は、「?」も他の情報と全く同等
に扱うことによって、検索概念情報の抽出が可能とな
る。ただし、図31の概念記述領域決定と概念情報抽出
処理のフローチャートにおける概念情報としての必要十
分性のチェック(ステップ3105)の際には概念キー
知識3106を用いたチェックのみを行っていたが、上
記で説明した「テーブル全体について知りたい」という
条件が抽出されていた場合には、この条件一つで概念キ
ーに相当するとみなし、十分性は言えるものとする。
In the subsequent processing, retrieval concept information can be extracted by treating "?" In exactly the same way as other information. However, only the check using the concept key knowledge 3106 is performed at the time of checking the necessity / sufficiency as the concept information in the flowchart of the concept description area determination and the concept information extraction processing in FIG. 31 (step 3105). If the condition "want to know about the entire table" described in (1) is extracted, it is assumed that this condition alone corresponds to the concept key, and the sufficiency can be said.

【0235】以上で、WWWページ検索システムの情報
検索処理(図3)において自然言語検索文303を検索
概念集合306に変換する検索概念抽出処理(ステップ
302) の説明を終わる。次に、データベース104
からの概念検索処理(ステップ307)について述べ
る。
The description of the search concept extraction process (step 302) for converting the natural language search sentence 303 into the search concept set 306 in the information search process (FIG. 3) of the WWW page search system is completed. Next, the database 104
(Step 307).

【0236】上述のように、図40から図44の表現
は、SQLのSELECT文のサブセットと考えること
ができ、相互変換は容易である。したがって、検索概念
集合306をSQLに変換し、通常のリレーショナルデ
ータベースに保存された概念情報を検索することは、公
知技術の範囲内でおこなうことが可能である。
As described above, the expressions in FIGS. 40 to 44 can be considered as a subset of the SQL SELECT statement, and the mutual conversion is easy. Therefore, converting the search concept set 306 into SQL and searching for the concept information stored in a normal relational database can be performed within the range of known technology.

【0237】6.実施形態の効果 以上説明したように、本実施形態の情報検索システム
(WWWページ検索システム)では、概念抽出装置10
1により、自然言語文書202中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置102
によってデータベース104に登録し、概念検索装置1
03により、ユーザの検索要求にしたがってデータベー
ス104に登録された概念情報から必要な概念情報を検
索する。このように、キーワード間の関係を表す構文
的、意味的、文脈的および構造的な各情報を含む概念情
報を抽出して登録し、キーワード間の関係情報を活用し
て概念単位または属性単位の情報を条件とした検索を行
うので、キーワード間の関係を表す情報の欠落を防ぐと
共に、該概念情報を有効に活用して精度の高い情報検索
が可能となる。
[0237] 6. Effect of Embodiment As described above, in the information search system (WWW page search system) of the present embodiment, the concept extraction device 10
1. Based on the keyword information extracted from the natural language document 202 and the information indicating the relationship between the keywords, concept information in which information is structured in concept units or attribute units is extracted. Registration device 102
Is registered in the database 104 and the concept search device 1
In step 03, necessary concept information is searched from the concept information registered in the database 104 in accordance with the search request of the user. In this way, conceptual information including syntactic, semantic, contextual, and structural information representing the relationship between keywords is extracted and registered, and the concept information or attribute unit is utilized by utilizing the relationship information between keywords. Since the search is performed based on the information, it is possible to prevent a loss of information indicating the relationship between the keywords, and to perform a highly accurate information search by effectively utilizing the conceptual information.

【0238】また、本実施形態の情報検索システム(W
WWページ検索システム)では、概念抽出装置101に
より、自然言語文書202中から抽出したキーワード情
報および該キーワード間の関係を表す情報に基づいて、
概念単位または属性単位に情報を構造化した概念情報を
抽出し、該抽出した概念情報を概念登録装置102によ
ってデータベース104に登録し、概念検索文解析装置
105(概念検索装置)により、ユーザが与える自然言
語検索文中から抽出したキーワード情報および該キーワ
ード間の関係を表す情報に基づいて、概念単位または属
性単位に情報を構造化した検索概念情報を抽出し、該抽
出した検索概念情報にしたがってデータベースに登録さ
れた概念情報から必要な概念情報を検索する。これによ
り、キーワード間の関係を表す構文的、意味的、文脈的
および構造的な各情報を含む概念情報を抽出して登録
し、また自然言語検索文についても検索概念情報を抽出
して、キーワード間の関係情報を活用して概念単位また
は属性単位の情報を条件とした検索を行うので、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索が可能となる。
The information retrieval system (W
In the WW page search system), the concept extracting device 101 uses the keyword information extracted from the natural language document 202 based on information indicating the relationship between the keywords.
Concept information in which information is structured in concept units or attribute units is extracted, the extracted concept information is registered in the database 104 by the concept registration device 102, and provided by the user by the concept search sentence analysis device 105 (concept search device). Based on the keyword information extracted from the natural language search sentence and the information indicating the relationship between the keywords, search concept information in which information is structured in concept units or attribute units is extracted and stored in a database according to the extracted search concept information. Search necessary concept information from the registered concept information. As a result, concept information including syntactic, semantic, contextual, and structural information representing the relationship between keywords is extracted and registered, and search concept information is also extracted for natural language search sentences, and keyword information is extracted. Since the search is performed using the information on the concept unit or the attribute unit as a condition by utilizing the relationship information between the keywords, it is possible to prevent the loss of the information indicating the relationship between the keywords, and to effectively utilize the concept information to obtain highly accurate information. Search becomes possible.

【0239】従来例は、キーワード抽出を基本とした情
報登録装置および情報検索装置を備えた情報検索システ
ムであり、キーワードを含んだ検索文の問い合わせに対
して元の情報の所在位置を特定して出力する(或いは元
の情報そのものを出力する)ことを可能としていた。こ
れに対して本実施形態は、概念抽出を基本とした概念登
録装置および概念検索装置を備えた情報検索システムで
あり、抽出した概念情報中にも構造化された情報を保持
しているため、元の情報を表示しなくとも検索に回答す
ることも可能である。
[0239] The conventional example is an information search system provided with an information registration device and an information search device based on keyword extraction, and specifies the location of the original information in response to an inquiry of a search sentence including a keyword. Output (or output the original information itself). On the other hand, the present embodiment is an information search system including a concept registration device and a concept search device based on concept extraction, and also holds structured information in the extracted concept information. It is also possible to answer a search without displaying the original information.

【0240】例えば、図5に示すように抽出された概念
情報に対して、図42に示す内容の情報検索を行った場
合、検索結果は「1996/11/01」になる。この場合、元の
情報の所在情報は必要ないかもしれない。しかし、「…
の製品についてできるだけたくさんの情報が欲しい」と
いう場合に、図38に示すような概念情報転置インデッ
クスの形で、概念情報と文書所在情報が組み合わされて
いることにより検索精度は向上し、かつ、元の文書の情
報も表示することができ、正確で、かつ、情報量の多い
情報検索が可能になる。
For example, when an information search with the contents shown in FIG. 42 is performed on the conceptual information extracted as shown in FIG. 5, the search result is “01/11/1996”. In this case, the location information of the original information may not be necessary. However,"…
In this case, as much information as possible about the product is desired, "the concept information and the document location information are combined in the form of a concept information inverted index as shown in FIG. Can also be displayed, and an accurate and large-volume information search can be performed.

【0241】すなわち、概念抽出を用いた概念登録装置
および概念検索装置を備えた情報検索システムは、キー
ワード抽出を基本とした従来の情報登録装置および情報
検索装置が持っていた検索機能の検索精度を一層向上さ
せ得るという効果と、概念情報という形で構造化された
情報を持つことで、元の文書を用いずに回答できるとい
う新しい検索機能をも実現可能であるという効果があ
る。
That is, the information retrieval system provided with the concept registration device and the concept search device using the concept extraction can improve the search accuracy of the search function of the conventional information registration device and the information search device based on the keyword extraction. By having information structured in the form of concept information, it is possible to realize a new search function in which a response can be made without using the original document.

【0242】[0242]

【発明の効果】以上の説明から明らかなように、本発明
によれば、概念抽出装置(概念抽出ステップ)により、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した概念情報を抽出し、該抽
出した概念情報を概念登録装置(概念登録ステップ)に
よってデータベースに登録し、概念検索装置(概念検索
ステップ)により、ユーザの検索要求にしたがってデー
タベースに登録された概念情報から必要な概念情報を検
索することとし、キーワード間の関係を表す構文的、意
味的、文脈的および構造的な各情報を含む概念情報を抽
出して登録し、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。
As is apparent from the above description, according to the present invention, the concept extracting device (concept extracting step)
Based on the keyword information extracted from the natural language document and the information indicating the relationship between the keywords, concept information in which information is structured in concept units or attribute units is extracted, and the extracted concept information is stored in a concept registration device (concept). Registration in the database by a registration step), and a concept search device (concept search step) searches for necessary concept information from concept information registered in the database in accordance with a user's search request, and a syntax representing a relationship between keywords. Extract and register concept information including target, semantic, contextual, and structural information, and perform a search using information on the concept unit or attribute unit as a condition using the relationship information between keywords. Therefore, it is possible to prevent a loss of information representing a relationship between keywords, and to use the concept information effectively to perform information search with high accuracy. It is possible to provide an information processing method and a recording medium search system, in the information retrieval system.

【0243】また、本発明によれば、概念抽出装置(概
念抽出ステップ)により、自然言語文書中から抽出した
キーワード情報および該キーワード間の関係を表す情報
に基づいて、概念単位または属性単位に情報を構造化し
た概念情報を抽出し、該抽出した概念情報を概念登録装
置(概念登録ステップ)によってデータベースに登録
し、概念検索装置(概念検索ステップ)により、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に情報を構造化した検索概念情報
を抽出し、該抽出した検索概念情報にしたがってデータ
ベースに登録された概念情報から必要な概念情報を検索
することとし、キーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、また自然言語検索文についても検索概念情
報を抽出して、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。
Further, according to the present invention, the concept extracting device (concept extracting step) uses the concept information or the attribute unit based on the keyword information extracted from the natural language document and the information indicating the relation between the keywords. Is extracted from a natural language search sentence provided by a user by a concept search device (concept search step). The extracted concept information is registered in a database by a concept registration device (concept registration step). Based on the keyword information and the information indicating the relationship between the keywords, search concept information in which information is structured in concept units or attribute units is extracted, and necessary concept information is registered from the concept information registered in the database in accordance with the extracted search concept information. And search for syntactic, semantic, contextual, and structural expressions that represent the relationships between keywords. Extract and register concept information including various types of information, and also extract search concept information for natural language search sentences, and make use of the relationship information between keywords to condition information in concept units or attribute units. Since the search is performed, it is possible to prevent loss of information representing the relationship between keywords, and to effectively use the conceptual information to perform an accurate information search, an information search method in the information search system, A recording medium can be provided.

【0244】また、本発明によれば、概念登録装置(概
念登録ステップ)において、抽出した概念情報を、自然
言語文書の文書所在情報との組による転置インデックス
形式で、或いは、文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、データベース
に登録することとし、概念情報を出力結果とするだけで
はなく元の文書の情報をも活用できるので、検索結果と
して出力し得る情報量を増やすことができ、また、概念
情報の一部である属性情報がどの文書に記述されていた
かを特定できるので、適切な文書のみを検索結果として
提示することが可能な情報検索システム、情報検索シス
テムにおける情報処理方法および記録媒体を提供するこ
とができる。
Further, according to the present invention, in the concept registration device (concept registration step), the extracted concept information is converted into an inverted index form in combination with the document location information of the natural language document, or the document location information and It is to be registered in the database in an inverted index format based on a set of corresponding attribute information indicating which attribute of the concept information is described in the document, and not only the concept information is output but also information of the original document. Can be used to increase the amount of information that can be output as a search result. Also, since it is possible to specify in which document the attribute information that is part of the concept information is described, only the appropriate documents are searched. An information search system, an information processing method in the information search system, and a recording medium that can be presented as a result can be provided.

【0245】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する意味素
の情報を記述した動詞格フレーム辞書と意味素の表層的
定義を行う意味素辞書とを参照して、動詞に対応する格
要素を特定し、格要素からの概念作成装置(格要素から
の概念作成ステップ)により、格要素と概念との対応情
報に基づいて概念情報を作成することとし、動詞が依存
する意味素の情報を活用して、キーワード間の関係を表
す構文的および意味的な各情報を含む概念情報を抽出し
て登録し、キーワード間の関係情報を活用した検索を行
うこととしたので、キーワード間の関係を表す情報、特
に構文的・意味的情報の欠落を防ぐと共に、該概念情報
を有効に活用して精度の高い情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。
Further, according to the present invention, in the concept extracting device (concept extracting step), a morpheme is extracted from the natural language document by the morphological analyzing device (morphological analyzing step) and extracted by the verb extracting device (verb extracting step). A verb case frame dictionary that describes information on the semantics on which the verb depends and a semantic that performs surface definition of the semantics by extracting only the verb component in the morpheme that has been extracted and using a case element specifying device (case element specifying step) The case element corresponding to the verb is specified with reference to the dictionary, and the concept information is created based on the correspondence information between the case element and the concept by the concept creating apparatus (case creating step from the case element) from the case element. Utilizing information on semantics on which the verb depends, extracts and registers conceptual information including syntactic and semantic information representing the relationship between keywords, and registers Since the search is performed using the relationship information between the keywords, information representing the relationship between the keywords, particularly syntactic and semantic information, is prevented from being lost, and the concept information is effectively used to obtain highly accurate information. An information search system capable of searching, an information processing method and a recording medium in the information search system can be provided.

【0246】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する表層格
の情報を記述した動詞格フレーム辞書を参照して動詞に
対応する格要素を特定し、格要素からの概念作成装置
(格要素からの概念作成ステップ)により、格要素と概
念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する表層格要素の情報を活用して意味素
辞書を具備することなしに、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録し、キーワード間の関係情報を活用した検索を行う
こととしたので、キーワード間の関係を表す情報、特に
構文的・意味的情報の欠落を防ぐと共に、該概念情報を
有効に活用してより簡潔な構成で精度の高い情報検索が
可能な情報検索システム、情報検索システムにおける情
報処理方法および記録媒体を提供することができる。
Further, according to the present invention, in the concept extracting device (concept extracting step), a morpheme is extracted from the natural language document by the morphological analyzing device (morphological analyzing step) and extracted by the verb extracting device (verb extracting step). Only the verb component in the morpheme obtained is extracted, and the case element corresponding to the verb is extracted by the case element specifying device (case element specifying step) by referring to the verb case frame dictionary describing the information of the surface case on which the verb depends. Identify and create the concept information based on the correspondence information between the case element and the concept by the device for creating the concept from the case element (the step of creating the concept from the case element). Without using a semantic dictionary, concept information including syntactic and semantic information representing the relationship between keywords is extracted and registered, and the Since the search is performed using the relation information, information representing the relation between the keywords, in particular, syntactic and semantic information is prevented from being omitted, and the concept information is effectively used to achieve a simpler structure and a higher accuracy. An information search system capable of high-level information search, an information processing method in the information search system, and a recording medium can be provided.

【0247】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する意味素
の情報と表層格の情報を記述した動詞格フレーム辞書と
意味素の表層的定義を行う意味素辞書とを参照して、動
詞に対応する格要素を特定し、格要素からの概念作成装
置(格要素からの概念作成ステップ)により、格要素と
概念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する意味素の情報と表層格の情報を活用
して、キーワード間の関係を表す構文的および意味的な
各情報を含む概念情報を抽出して登録することとしたの
で、表層格を表す格助詞が省略された文の場合や、同一
の意味素が複数含まれる文の場合等にも格要素を特定す
ることが可能となり、またキーワード間の関係情報を活
用した検索を行うので、キーワード間の関係を表す情
報、特に構文的・意味的情報の欠落を防ぐと共に、該概
念情報を有効に活用して精度の高い情報検索が可能な情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することができる。
According to the present invention, in the concept extracting device (concept extracting step), a morpheme is extracted from the natural language document by the morphological analyzing device (morphological analyzing step), and is extracted by the verb extracting device (verb extracting step). A verb case frame dictionary that describes the information of the semantics on which the verb depends and the information of the surface case is extracted by the case element specifying device (case element specifying step), and the surface The case element corresponding to the verb is specified by referring to the semantic dictionary to be defined, and based on the correspondence information between the case element and the concept by the concept creation device from the case element (the concept creation step from the case element). Concept information that includes syntactic and semantic information that expresses the relationship between keywords, utilizing information on the semantics on which the verb depends and information on the surface case. Since the information is extracted and registered, it is possible to specify the case element even in the case of a sentence where the case particle representing the surface case is omitted, or in the case of a sentence containing the same semantic plural. In addition, since the search is performed using the relationship information between the keywords, the information representing the relationship between the keywords, particularly the syntactic and semantic information is prevented from being lost, and the concept information is effectively used to perform a highly accurate information search. Information retrieval system, an information processing method in the information retrieval system, and a recording medium.

【0248】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、抜き出された各形態素(以下、着目要素という)の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、対応カラム決定装置(対応カラム決定ステ
ップ)により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出するので、動詞
述語文、形容詞述語文、名詞述語文、単語のみの文、名
詞句のみの文、体言止めの文等からの概念情報の抽出を
行うことができ、該概念情報を有効に活用して精度の高
い情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。
According to the present invention, in the concept extracting device (concept extracting step), a morpheme is extracted from the natural language document by the morphological analyzing device (morphological analyzing step), and each extracted morpheme (hereinafter referred to as the element of interest) is extracted. ), The condition of the co-occurrence element where the element of interest co-occurs, the condition of the ancillary element of the element of interest and co-occurrence element, the condition of the appearance position of the co-occurrence element, and the column of the corresponding concept. With reference to the information extraction knowledge describing the information of the corresponding column (hereinafter referred to as the corresponding column), the corresponding column determining device (corresponding column determining step) calculates the degree of correspondence to each corresponding column, and the corresponding column having the highest degree of correspondence. Since morphemes are extracted, it is possible to extract concept information from verb predicate sentences, adjective predicate sentences, noun predicate sentences, sentences containing only words, sentences containing only noun phrases, sentences containing nouns, etc. By effectively utilizing the information can be provided an information processing method and a recording medium information with high accuracy search can information retrieval system, in the information retrieval system.

【0249】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置(文脈階層構造解析ステッ
プ)により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、意味素と対応する概
念のカラムの情報を記述した文脈情報抽出知識を参照し
て、文脈情報抽出装置(文脈情報抽出ステップ)によ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に該文脈情報を保存し、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)では、前記文脈階層構造情報および該文脈階
層構造情報の下位の文脈領域から上位の文脈領域に或い
は上位の文脈領域から下位の文脈領域にそれぞれ保存さ
れた文脈情報を活用して、概念情報が記述されている領
域を決定しながら前記概念情報を抽出することとし、文
書構造の持つ階層性を解析して、キーワード間の関係を
表す構文的、意味的、文脈的および構造的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用して概念単位または属性単位の情報を条件とした
検索を行うこととしたので、段落や箇条書きに関する文
脈情報、箇条書きに関する構造情報、表に関する文脈・
構造情報、並びに、構文的・意味的情報等々、キーワー
ド間の関係を表す情報の欠落を防ぐと共に、文脈情報お
よび概念情報を有効に活用してより精度の高い情報検索
が可能な情報検索システム、情報検索システムにおける
情報処理方法および記録媒体を提供することができる。
Further, according to the present invention, in the concept extracting apparatus (concept extracting step), a natural language document is regarded as a hierarchical context area, and a start point condition, an end point condition, and a low order With reference to the context region extraction knowledge describing the context region candidates to become, the hierarchy structure of the natural language document is analyzed by the context hierarchy structure analysis device (context hierarchy structure analysis step) to obtain context hierarchy structure information. The context information extraction device (context information extraction step) extracts context information from a sentence in a natural language document by referring to context information extraction knowledge describing information of a column of a concept corresponding to a semantic element. The context information is stored in the context hierarchical structure information, and the concept description area determining type concept information extracting device (concept description area determining type concept information extracting step) Concept information is described by utilizing the context hierarchy structure information and the context information stored in the lower context region from the lower context region of the context hierarchy structure information or in the lower context region from the upper context region. The concept information is extracted while determining the area, and the hierarchy of the document structure is analyzed, and the concept information including the syntactic, semantic, contextual, and structural information representing the relationship between the keywords is obtained. It is extracted and registered, and it is decided to perform a search based on the information of the concept unit or the attribute unit using the relationship information between the keywords, so the context information about paragraphs and bullets, the structural information about bullets, the table context·
An information search system that prevents structural information, syntactic and semantic information, and the like, from lacking information indicating the relationship between keywords, and enables more accurate information search by effectively utilizing context information and concept information; An information processing method and a recording medium in an information search system can be provided.

【0250】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置(文脈階層構造解析ステッ
プ)により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、文脈情報抽出装置
(文脈情報抽出ステップ)においては、形態素解析装置
(形態素解析ステップ)により自然言語文書中から形態
素を抜き出し、抜き出された各形態素(以下、着目要素
という)の意味素の条件と、着目要素が共起する共起要
素の条件と、着目要素および共起要素の付属要素の条件
と、共起要素の出現位置の条件と、対応する概念のカラ
ム(以下、対応カラムという)の情報を記述した情報抽
出知識を参照して、対応カラム決定装置(対応カラム決
定ステップ)により、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出すること
により、自然言語文書中の文から文脈情報を抽出して文
脈階層構造情報中に文脈情報を保存し、概念記述領域決
定型概念情報抽出装置(概念記述領域決定型概念情報抽
出ステップ)では、文脈階層構造情報および該文脈階層
構造情報の下位の文脈領域から上位の文脈領域に或いは
上位の文脈領域から下位の文脈領域にそれぞれ保存され
た文脈情報を活用して、概念情報が記述されている領域
を決定しながら前記概念情報を抽出することとし、文書
構造の持つ階層性を解析して、キーワード間の関係を表
す構文的、意味的、文脈的および構造的な各情報を含む
概念情報を抽出して登録し、キーワード間の関係情報を
活用して概念単位または属性単位の情報を条件とした検
索を行うこととしたので、段落や箇条書きに関する文脈
情報、箇条書きに関する構造情報、表に関する文脈・構
造情報、並びに、構文的・意味的情報等々、キーワード
間の関係を表す情報の欠落を防ぐと共に、文脈情報およ
び概念情報を有効に活用してより精度の高い情報検索を
実現でき、特に、共起要素を複数規定できたり、共起要
素の出現位置をより柔軟に記述できることで、動詞述語
文、形容詞述語文、名詞述語文、単語のみの文、名詞句
のみの文、体言止めの文等からの高い精度での文脈情報
の抽出が可能な情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供することがで
きる。
Further, according to the present invention, in the concept extracting device (concept extracting step), a natural language document is regarded as a hierarchical context region, and the start point condition, the end point condition and the With reference to the context region extraction knowledge describing the context region candidates to become, the hierarchy structure of the natural language document is analyzed by the context hierarchy structure analysis device (context hierarchy structure analysis step) to obtain context hierarchy structure information. In the context information extraction device (context information extraction step), the morpheme is extracted from the natural language document by the morphological analysis device (morphological analysis step), and the meaning of each extracted morpheme (hereinafter, referred to as an element of interest) Element condition, condition of co-occurrence element co-occurring with the element of interest, condition of ancillary element of element of interest and co-occurrence element, appearance of co-occurrence element The corresponding column determination device (corresponding column determining step) determines the degree of correspondence to each corresponding column by referring to the information on the extraction conditions that describe the conditions of the columns and the information of the corresponding concept columns (hereinafter, corresponding columns). By calculating and extracting morphemes in the corresponding column with the highest degree of correspondence, the context information is extracted from the sentences in the natural language document, and the context information is stored in the context hierarchical structure information. In the extraction device (conceptual description area determining type concept information extracting step), the context hierarchical structure information and the context hierarchical structure information are stored in the lower context area in the upper context area or in the upper context area in the lower context area, respectively. Utilizing the context information, the concept information is extracted while determining the area in which the concept information is described. The hierarchy of the document structure is analyzed, and the key word is extracted. Extract and register conceptual information including syntactic, semantic, contextual, and structural information that represents the relationship between keywords, and use the relationship information between keywords to define information in conceptual units or attribute units as conditions. Information that represents the relationship between keywords, such as context information about paragraphs and bullets, structural information about bullets, context and structural information about tables, and syntactic and semantic information. Prevention and effective use of contextual and conceptual information to achieve more accurate information retrieval. In particular, the ability to specify multiple co-occurring elements and more flexible description of the co-occurring element's appearance positions Information retrieval systems and information retrieval systems capable of extracting context information with high precision from predicate sentences, adjective predicate sentences, noun predicate sentences, sentences containing only words, sentences containing only noun phrases, sentences with no speech, etc. An information processing method and a recording medium which can be provided.

【0251】また、本発明によれば、情報抽出知識を、
着目要素の意味素の条件、共起要素の条件、付属要素の
条件および共起要素の出現位置の条件を、正規表現等の
パターン記述知識として記述して構築することとしたの
で、共起要素を複数規定できたり、共起要素の出現位置
をより柔軟に記述できることで、動詞述語文、形容詞述
語文、名詞述語文、単語のみの文、名詞句のみの文、体
言止めの文等からの概念情報または文脈情報の抽出をよ
り高い精度で行うことができ、該概念情報または文脈情
報を有効に活用して精度の高い情報検索が可能な情報検
索システム、情報検索システムにおける情報処理方法お
よび記録媒体を提供することができる。
According to the present invention, information extraction knowledge is
The condition of the semantic element of the element of interest, the condition of the co-occurring element, the condition of the attached element, and the condition of the appearance position of the co-occurring element are described and constructed as pattern description knowledge such as a regular expression. Can be specified multiple times, and the occurrence position of co-occurrence elements can be described more flexibly, so that verb predicate sentences, adjective predicate sentences, noun predicate sentences, sentences containing only words, sentences containing only noun phrases, sentences containing no An information retrieval system capable of extracting concept information or context information with higher accuracy and capable of performing accurate information retrieval by effectively utilizing the concept information or context information, an information processing method in the information retrieval system, and recording A medium can be provided.

【0252】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、情報抽出知識のある知識が
合致した場合に、該知識と共起しやすい知識を活性化さ
せ、共起しにくい知識は抑制化する知識間相関ルールを
参照するので、高い精度で対応カラムの決定が可能にな
り、結果として、高い精度の情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。
Further, according to the present invention, in the concept extraction device (concept extraction step), when knowledge with information extraction knowledge matches, the knowledge which is likely to co-occur with the knowledge is activated and hardly co-occurs. Since knowledge refers to an inter-knowledge correlation rule that suppresses information, it is possible to determine a corresponding column with high accuracy, and as a result, an information search system capable of performing information search with high accuracy, an information processing method in the information search system, and recording A medium can be provided.

【0253】また、本発明によれば、対応カラム決定装
置(対応カラム決定ステップ)において、対応度の算出
を各情報抽出知識毎に並列に、または対応カラムの決定
を各形態素毎に並列に処理するので、高速処理が可能な
情報検索システム、情報検索システムにおける情報処理
方法および記録媒体を提供することができる。
According to the present invention, in the corresponding column determining apparatus (corresponding column determining step), the calculation of the degree of correspondence is performed in parallel for each information extraction knowledge, or the determination of the corresponding column is processed in parallel for each morpheme. Therefore, it is possible to provide an information search system capable of high-speed processing, an information processing method in the information search system, and a recording medium.

【0254】また、本発明によれば、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて、前記必須
属性の抽出、複数の概念単位を含まないことのチェッ
ク、並びに、新規の情報を含んでいることのチェックを
行って概念情報の必要十分性をチェックするので、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。
Further, according to the present invention, in the concept description area determining type concept information extracting device (concept description area determining type concept information extracting step), the concept description area is extracted when determining the concept information while determining the concept description area. Using the concept key knowledge describing essential attributes of the concept that characterizes the concept to be extracted, the essential attributes are extracted, a check is made not to include a plurality of concept units, and a check is made to include new information. The present invention provides an information search system, an information processing method and a recording medium in an information search system capable of improving the accuracy of information extraction for each concept, and consequently performing information search with high accuracy. be able to.

【0255】また、本発明によれば、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて抽出済みの
概念情報の重複を解消するので、概念単位の情報抽出の
精度が高められ、結果として高い精度の情報検索が可能
な情報検索システム、情報検索システムにおける情報処
理方法および記録媒体を提供することができる。
Further, according to the present invention, when the concept information is extracted while the concept description area is determined in the concept description area determining type concept information extracting apparatus (concept description area determining type concept information extracting step), the concept information is extracted. The duplication of extracted concept information is eliminated by using concept key knowledge that describes the essential attributes of the concept that characterizes the power concept, so the accuracy of concept-based information extraction is improved, and as a result, highly accurate information retrieval is possible. An information retrieval system, an information processing method in the information retrieval system, and a recording medium can be provided.

【0256】さらに、本発明によれば、概念抽出装置に
おいて、形態素解析装置により自然言語文書中から形態
素を抜き出し、構文解析装置により構文を解析し、構文
要素からの概念作成装置により、構文解析装置の結果か
らガ格・ヲ格、主語・述語、係り・受け等の構文要素の
うち予め設定された構文要素を抽出して概念情報を作成
するので、意味素辞書を具備することなしに、構文解析
結果のみからキーワード間の関係を表す構文的な情報を
含む概念情報を抽出して登録し、キーワード間の関係情
報を活用した検索を行うので、キーワード間の関係を表
す情報、特に構文的情報の欠落を防ぐと共に、該概念情
報を有効に活用してより簡潔な構成で精度の高い情報検
索が可能な情報検索システム、情報検索システムにおけ
る情報処理方法および記録媒体を提供することができ
る。
Further, according to the present invention, in the concept extracting apparatus, a morpheme is extracted from the natural language document by the morphological analyzing apparatus, the syntax is analyzed by the syntactic analyzing apparatus, and the syntactic analyzing apparatus is formed by the concept creating apparatus from the syntactic element. The concept information is created by extracting preset syntax elements from the syntax elements such as ga-case, ヲ -case, subject / predicate, dependency / acceptance, etc. from the result of Concept information including syntactic information representing the relationship between keywords is extracted and registered from only the analysis results, and a search utilizing the relationship information between keywords is performed, so information representing the relationship between keywords, particularly syntactic information Information retrieval system capable of performing highly accurate information retrieval with a simpler configuration while effectively utilizing the concept information, and an information processing method in the information retrieval system. It is possible to provide a fine recording medium.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る情報検索システムの
構成図である。
FIG. 1 is a configuration diagram of an information search system according to an embodiment of the present invention.

【図2】実施形態のWWWページ検索システムにおける
情報登録処理の手順を説明するフローチャートである。
FIG. 2 is a flowchart illustrating a procedure of an information registration process in the WWW page search system according to the embodiment.

【図3】実施形態のWWWページ検索システムにおける
情報検索処理の手順を説明するフローチャートである。
FIG. 3 is a flowchart illustrating a procedure of an information search process in the WWW page search system according to the embodiment.

【図4】自然言語文書を例示する説明図である。FIG. 4 is an explanatory diagram illustrating a natural language document.

【図5】自然言語文書から抽出した概念集合(テーブ
ル)を例示する説明図である。
FIG. 5 is an explanatory diagram illustrating a concept set (table) extracted from a natural language document;

【図6】意味解析を用いた概念抽出装置のシステム構成
図である。
FIG. 6 is a system configuration diagram of a concept extraction device using semantic analysis.

【図7】意味解析を用いた概念情報抽出処理を説明する
フローチャートである。
FIG. 7 is a flowchart illustrating concept information extraction processing using semantic analysis.

【図8】意味解析を用いた概念情報抽出処理における自
然言語文書(第1の具体例)を例示する説明図である。
FIG. 8 is an explanatory diagram illustrating a natural language document (first specific example) in concept information extraction processing using semantic analysis.

【図9】図8の自然言語文書からの抽出結果である概念
情報(製品テーブル)を例示する説明図である。
FIG. 9 is an explanatory diagram exemplifying conceptual information (product table) as an extraction result from the natural language document of FIG. 8;

【図10】概念への対応情報を付加した動詞格フレーム
辞書を例示する説明図である。
FIG. 10 is an explanatory diagram illustrating a verb case frame dictionary to which correspondence information to a concept is added.

【図11】意味素辞書を例示する説明図である。FIG. 11 is an explanatory diagram illustrating a semantic dictionary.

【図12】意味解析を用いた概念情報抽出処理における
自然言語文書(第2の具体例)を例示する説明図であ
る。
FIG. 12 is an explanatory diagram exemplifying a natural language document (second specific example) in concept information extraction processing using semantic analysis.

【図13】図8の自然言語文書からの抽出結果である概
念情報(製品テーブル)を例示する説明図である。
13 is an explanatory diagram illustrating conceptual information (product table) as an extraction result from the natural language document of FIG. 8;

【図14】意味素間の相関関係を例示する説明図であ
る。
FIG. 14 is an explanatory diagram illustrating a correlation between semantics;

【図15】実施形態における文脈・構造解析を用いた概
念情報抽出装置のシステム構成図である。
FIG. 15 is a system configuration diagram of a concept information extracting apparatus using context / structure analysis in the embodiment.

【図16】文脈・構造解析を用いた概念情報抽出処理を
説明するフローチャートである。
FIG. 16 is a flowchart illustrating concept information extraction processing using context / structure analysis.

【図17】図4の自然言語文書について文脈構造解析を
行った結果であり、自然言語文書と文脈領域との対応関
係を例示する説明図である。
FIG. 17 is a diagram illustrating a result of performing a context structure analysis on the natural language document of FIG. 4 and illustrating a correspondence relationship between the natural language document and a context region;

【図18】図4の自然言語文書について文脈構造解析を
行った結果であり、文脈階層構造を表す内部データ構造
を例示する説明図である。
18 is a diagram illustrating a result of performing a context structure analysis on the natural language document of FIG. 4 and illustrating an internal data structure representing a context hierarchical structure.

【図19】図4の自然言語文書をHTMLで記述したと
きの自然言語文書を例示する説明図である。
FIG. 19 is an explanatory diagram illustrating a natural language document when the natural language document of FIG. 4 is described in HTML.

【図20】文脈領域の抽出知識を例示する説明図であ
る。
FIG. 20 is an explanatory diagram illustrating extraction knowledge of a context region.

【図21】文脈階層構造の解析処理の手順を説明するフ
ローチャートである。
FIG. 21 is a flowchart illustrating a procedure of a context hierarchical structure analysis process.

【図22】意味素のみを活用した形式の文脈情報抽出知
識を例示する説明図である。
FIG. 22 is an explanatory diagram illustrating context information extraction knowledge in a format utilizing only semantics;

【図23】抽出要素・共起要素の意味素・言語マーカー
・語順等を活用した文脈情報抽出知識を例示する説明図
(その1)である。
FIG. 23 is an explanatory diagram (part 1) illustrating context information extraction knowledge utilizing semantics of extracted elements / co-occurrence elements, language markers, word order, and the like.

【図24】抽出要素・共起要素の意味素・言語マーカー
・語順等を活用した文脈情報抽出知識を例示する説明図
(その2)である。
FIG. 24 is an explanatory diagram (part 2) illustrating context information extraction knowledge utilizing semantics, language markers, word order, and the like of extracted elements / co-occurrence elements.

【図25】文脈情報抽出知識を活用して文脈情報を抽出
する処理手順を説明するフローチャートである。
FIG. 25 is a flowchart illustrating a processing procedure for extracting context information by utilizing context information extraction knowledge.

【図26】知識間相関ルールを例示する説明図である。FIG. 26 is an explanatory diagram illustrating an inter-knowledge correlation rule;

【図27】抽出カラム対応度テーブルを例示する説明図
である。
FIG. 27 is an explanatory diagram illustrating an extraction column correspondence degree table;

【図28】処理途中の文脈情報の状態を例示する説明図
である。
FIG. 28 is an explanatory diagram exemplifying a state of context information during processing;

【図29】文脈情報抽出知識を活用して抽出された文脈
情報を例示する説明図である。
FIG. 29 is an explanatory diagram exemplifying context information extracted by utilizing context information extraction knowledge;

【図30】拡張された正規表現で記述した文脈情報抽出
知識を例示する説明図である。
FIG. 30 is an explanatory diagram illustrating context information extraction knowledge described in an extended regular expression.

【図31】概念記述領域決定と概念情報抽出の処理手順
を説明するフローチャートである。
FIG. 31 is a flowchart illustrating a processing procedure for determining a concept description area and extracting concept information.

【図32】抽出された概念情報候補を例示する説明図で
ある。
FIG. 32 is an explanatory diagram illustrating extracted concept information candidates.

【図33】概念キー知識を例示する説明図である。FIG. 33 is an explanatory diagram illustrating concept key knowledge.

【図34】概念記述領域の候補領域としてノードND5
を仮定した場合に抽出される概念情報候補を例示する説
明図である。
FIG. 34 shows a node ND5 as a candidate area for a concept description area.
It is explanatory drawing which illustrates the conceptual information candidate extracted when it is assumed.

【図35】ノードND16のセルを候補領域とした場合
に抽出される概念情報候補を例示する説明図である。
FIG. 35 is an explanatory diagram illustrating conceptual information candidates extracted when the cell of the node ND16 is set as a candidate area.

【図36】ノードND10の行を候補領域とした場合に
抽出される概念情報候補を例示する説明図である。
FIG. 36 is an explanatory diagram exemplifying concept information candidates extracted when a row of a node ND10 is set as a candidate area.

【図37】概念情報の重複解決処理前の段階での抽出済
み概念情報の状態を例示する説明図である。
FIG. 37 is an explanatory diagram exemplifying a state of extracted concept information at a stage before concept information duplication solving processing;

【図38】重み付け処理を行った場合の概念情報転置イ
ンデックスを例示する説明図である。
FIG. 38 is an explanatory diagram exemplifying a conceptual information transposed index when a weighting process is performed;

【図39】対応属性情報を保持した形式の概念情報転置
インデックスを例示する説明図である。
FIG. 39 is an explanatory diagram exemplifying a conceptual information transposed index in a format holding correspondence attribute information.

【図40】検索概念集合の一例(その1)を例示する説
明図である。
FIG. 40 is an explanatory diagram illustrating an example (part 1) of a search concept set.

【図41】検索概念集合の一例(その2)を例示する説
明図である。
FIG. 41 is an explanatory diagram illustrating an example (part 2) of a search concept set;

【図42】検索概念集合の一例(その3)を例示する説
明図である。
FIG. 42 is an explanatory diagram illustrating an example (part 3) of a search concept set;

【図43】検索概念集合の一例(その4)を例示する説
明図である。
FIG. 43 is an explanatory diagram illustrating an example (part 4) of a search concept set;

【図44】検索概念集合の一例(その5)を例示する説
明図である。
FIG. 44 is an explanatory diagram illustrating an example (part 5) of a search concept set;

【図45】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その1)である。
FIG. 45 is an explanatory diagram (part 1) of an example of information extraction knowledge generalized by enabling specification of a storage element;

【図46】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その2)である。
FIG. 46 is an explanatory diagram (part 2) of an example of information extraction knowledge generalized by enabling specification of a storage element;

【図47】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その3)である。
FIG. 47 is an explanatory diagram (part 3) of an example of generalized information extraction knowledge by enabling specification of a storage element;

【図48】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その4)である。
FIG. 48 is an explanatory diagram (part 4) illustrating an example of generalized information extraction knowledge by enabling specification of a storage element;

【図49】従来例のWWWページ検索システムのシステ
ム構成を表す構成図である。
FIG. 49 is a configuration diagram illustrating a system configuration of a conventional WWW page search system.

【図50】従来例のWWWページ検索システムにおける
情報登録処理の一般的手順を説明するフローチャートで
ある。
FIG. 50 is a flowchart illustrating a general procedure of information registration processing in a conventional WWW page search system.

【図51】キーワードへの重み付け処理を行った場合の
転置インデックスを例示する説明図である。
FIG. 51 is an explanatory diagram illustrating an inverted index when weighting processing is performed on a keyword;

【図52】図4の自然言語文書を情報登録した場合に抽
出されるキーワード集合を例示する説明図である。
FIG. 52 is an explanatory diagram exemplifying a keyword set extracted when information of the natural language document in FIG. 4 is registered;

【図53】従来例のWWWページ検索システムにおける
情報検索処理の一般的手順を説明するフローチャートで
ある。
FIG. 53 is a flowchart illustrating a general procedure of an information search process in a conventional WWW page search system.

【符号の説明】[Explanation of symbols]

101 概念抽出装置 102 概念登録装置 103 概念検索装置 104,4908 データベース 105 概念検索文解析装置 106,4909 CPU 107,4910 メインメモリ 108,4911 ディスプレイ 109,4912 キーボード 110,4913 自然言語文書群 111,4914 データバス 112,4915 インターネット 202,303,702,2502 自然言語文書 203 概念集合 205,5008 文書ID 305 概念検索文 306 検索概念集合 601 形態素解析装置 602 動詞抽出装置 603 格要素特定装置 604 格要素からの概念作成装置 605 動詞格フレーム辞書 606 意味素辞書 607 格要素・概念対応情報 703,2503 形態素 711,3115 概念情報 1501 文脈階層構造解析装置 1502 文脈情報抽出装置 1503 概念記述領域決定型概念情報抽出装置 AR1〜AR25 文脈領域 ND1〜ND25 ノード RA1.1〜RA6.2,RB1.1〜RB6.2
知識ID 2508 文脈情報抽出知識 2515,3104 文脈情報 3106 概念キー知識 3107 抽出済み概念情報 RC1.1〜RC7.6 知識ID 4901 キーワード抽出装置 4902 形態素解析装置 4903 ストップワード除去装置 4904 ステミング処理装置 4905 キーワードへの重み付け装置 4906 キーワード登録装置 4907 キーワード検索装置 4916 キーワード検索文解析装置 5002,5303 自然言語文書 5006 キーワード集合 5306 キーワード検索文 5308 検索キーワード集合
101 Concept Extraction Device 102 Concept Registration Device 103 Concept Search Device 104, 4908 Database 105 Concept Search Sentence Analysis Device 106, 4909 CPU 107, 4910 Main Memory 108, 4911 Display 109, 4912 Keyboard 110, 4913 Natural Language Document Group 111, 4914 Data Bus 112, 4915 Internet 202, 303, 702, 2502 Natural language document 203 Concept set 205, 5008 Document ID 305 Concept search sentence 306 Search concept set 601 Morphological analysis device 602 Verb extraction device 603 Case element identification device 604 Concept from case element Creation device 605 Verb case frame dictionary 606 Semantic dictionary 607 Case element / concept correspondence information 703, 2503 Morpheme 711, 3115 Concept information 1501 Context hierarchy Analyzer 1502 contextual information extraction unit 1503 concepts describing area determined type conceptual information extraction apparatus AR1~AR25 context area ND1~ND25 node RA1.1~RA6.2, RB1.1~RB6.2
Knowledge ID 2508 Context information extraction knowledge 2515, 3104 Context information 3106 Concept key knowledge 3107 Extracted concept information RC1.1 to RC7.6 Knowledge ID 4901 Keyword extraction device 4902 Morphological analysis device 4903 Stop word removal device 4904 Stemming processing device 4905 To keyword Weighting device 4906 keyword registration device 4907 keyword search device 4916 keyword search sentence analysis device 5002, 5303 natural language document 5006 keyword set 5306 keyword search sentence 5308 search keyword set

───────────────────────────────────────────────────── フロントページの続き (72)発明者 加茂 正充 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Masamitsu Kamo 10 Okayama Todocho, Ukyo-ku, Kyoto, Kyoto

Claims (30)

【特許請求の範囲】[Claims] 【請求項1】 自然言語文書中から抽出したキーワード
情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出装置と、 前記概念抽出装置により抽出した概念情報をデータベー
スに登録する概念登録装置と、 ユーザの検索要求にしたがって前記データベースに登録
された概念情報から必要な概念情報を検索する概念検索
装置と、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システム。
A concept extraction device for extracting concept information in which the information is structured in concept units or attribute units based on keyword information extracted from a natural language document and information indicating a relationship between the keywords; A concept registration device for registering concept information extracted by the concept extraction device in a database, and a concept search device for searching necessary concept information from concept information registered in the database in accordance with a search request of a user, An information search system, wherein a search is performed using information on the concept unit or the attribute unit as a condition by utilizing relation information between keywords.
【請求項2】 自然言語文書中から抽出したキーワード
情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出装置と、 前記概念抽出装置により抽出した概念情報をデータベー
スに登録する概念登録装置と、 ユーザが与える自然言語検索文中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した検
索概念情報を抽出し、該抽出した検索概念情報にしたが
って前記データベースに登録された概念情報から必要な
概念情報を検索する概念検索装置と、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システム。
2. A concept extraction device for extracting concept information in which the information is structured in concept units or attribute units based on keyword information extracted from a natural language document and information indicating a relationship between the keywords, A concept registration device for registering concept information extracted by the concept extraction device in a database; and keyword information extracted from a natural language search sentence provided by a user and information representing a relationship between the keywords, the concept registration device including a concept unit or an attribute unit. A concept search device that extracts search concept information in which information is structured, and searches for necessary concept information from the concept information registered in the database according to the extracted search concept information; Information characterized by performing a search using information of the concept unit or the attribute unit as a condition by utilizing information Search system.
【請求項3】 前記概念登録装置は、前記概念抽出装置
により抽出した概念情報を、前記自然言語文書の文書所
在情報との組による転置インデックス形式で、或いは、
前記文書所在情報および該文書中に前記概念情報のどの
属性が記述されていたかを表す対応属性情報との組によ
る転置インデックス形式で、前記データベースに登録す
ることを特徴とする請求項1または2に記載の情報検索
システム。
3. The concept registering device stores the concept information extracted by the concept extracting device in an inverted index format based on a combination with document location information of the natural language document, or
3. The method according to claim 1, wherein the database is registered in an inverted index format based on a set of the document location information and corresponding attribute information indicating which attribute of the concept information is described in the document. Information retrieval system described.
【請求項4】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、 動詞が依存する意味素の情報を記述した動詞格フレーム
辞書と、 前記意味素の表層的定義を行う意味素辞書と、 前記動詞に対応する格要素を特定する格要素特定装置
と、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、 動詞が依存する意味素の情報を活用して概念情報を抽出
することを特徴とする請求項1、2または3に記載の情
報検索システム。
4. The concept extracting device, comprising: a morphological analyzer for extracting a morpheme from the natural language document; a verb extracting device for extracting only a verb component in the extracted morpheme; and a semantic on which the verb depends. Verb case frame dictionary that describes the information of a verb, a semantic dictionary that performs a surface definition of the semantic, a case element specifying device that specifies a case element corresponding to the verb, and correspondence information between the case element and the concept And a device for generating concept information from a case element that generates concept information based on a verb, wherein the concept information is extracted by utilizing information of a semantic on which a verb depends. Information retrieval system described in.
【請求項5】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、 動詞が依存する表層格の情報を記述した動詞格フレーム
辞書と、 前記動詞に対応する格要素を特定する格要素特定装置
と、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、 動詞が依存する表層格要素の情報を活用して概念情報を
抽出することを特徴とする請求項1、2または3に記載
の情報検索システム。
5. A concept extraction device, comprising: a morphological analysis device for extracting a morpheme from the natural language document; a verb extraction device for extracting only a verb component in the extracted morpheme; and a surface case on which the verb depends. Verb case frame dictionary that describes the information of the verb, a case element specifying device that specifies a case element corresponding to the verb, and concept creation from case elements that creates concept information based on correspondence information between the case element and the concept The information retrieval system according to claim 1, further comprising a device, wherein the concept information is extracted by utilizing information of a surface case element on which the verb depends.
【請求項6】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、 動詞が依存する意味素の情報と表層格の情報を記述した
動詞格フレーム辞書と、 前記意味素の表層的定義を行う意味素辞書と、 前記動詞に対応する格要素を特定する格要素特定装置
と、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、 動詞が依存する意味素の情報と表層格の情報を活用して
概念情報を抽出することを特徴とする請求項1、2また
は3に記載の情報検索システム。
6. A concept extracting device, comprising: a morphological analyzer for extracting a morpheme from the natural language document; a verb extracting device for extracting only a verb component in the extracted morpheme; and a semantic on which the verb depends. A verb case frame dictionary that describes the information of the case and the information of the surface case, a semantic dictionary that performs a surface definition of the semantic, a case element specifying device that specifies a case element corresponding to the verb, and the case element. And a device for generating concept information from case elements that generate concept information based on information corresponding to the concept, and extracting the concept information by utilizing the information of the semantics on which the verb depends and the information of the surface case. The information retrieval system according to claim 1, 2 or 3, wherein
【請求項7】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された各形態素(以下、着目要素という)の
意味素の条件と、前記着目要素が共起する共起要素の条
件と、前記着目要素および前記共起要素の付属要素の条
件と、前記共起要素の出現位置の条件と、対応する概念
のカラム(以下、対応カラムという)の情報を記述した
情報抽出知識と、 前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定装置
と、を具備することを特徴とする請求項1、2または3
に記載の情報検索システム。
7. The concept extracting device, comprising: a morphological analyzer for extracting a morpheme from the natural language document; a condition of a semantic element of each extracted morpheme (hereinafter, referred to as a target element); Conditions of co-occurring elements, conditions of the element of interest and ancillary elements of the co-occurring elements, conditions of appearance positions of the co-occurring elements, and information of corresponding concept columns (hereinafter, corresponding columns) And a corresponding column determination device that calculates a degree of correspondence to each corresponding column and extracts a morpheme to a corresponding column having the highest degree of correspondence, wherein 2 or 3
Information retrieval system described in.
【請求項8】 前記概念抽出装置は、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を備えて、前記自然言語文書
の文書構造が持つ階層性を解析して文脈階層構造情報を
作成する文脈階層構造解析装置と、 意味素と対応する概念のカラムの情報を記述した文脈情
報抽出知識を備えて、前記自然言語文書中の文から文脈
情報を抽出して、前記文脈階層構造情報中に文脈情報を
保存する文脈情報抽出装置と、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出装置と、を具備することを特徴とする請求項1、2ま
たは3に記載の情報検索システム。
8. The concept extracting device, wherein the natural language document is regarded as a hierarchical context region, and a condition of a start point, a condition of an end point, and a candidate of a lower-order context region are described for each of the time domain regions. A context hierarchy analysis device for analyzing the hierarchy of the document structure of the natural language document to create context hierarchy information with context area extraction knowledge; and describing information of columns of semantics and corresponding concepts. A context information extraction device that includes context information extraction knowledge, extracts context information from a sentence in the natural language document, and stores the context information in the context hierarchy information; and the context hierarchy information and the context hierarchy. Concept information is described using the context information stored in the lower context area from the lower context area of the structure information or in the lower context area from the upper context area. 4. The information retrieval system according to claim 1, further comprising: a concept description area determining type concept information extracting device that extracts the concept information while determining an area that has been set.
【請求項9】 前記概念抽出装置は、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を備えて、前記自然言語文書
の文書構造が持つ階層性を解析して文脈階層構造情報を
作成する文脈階層構造解析装置と、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された各形態素(以下、着目要素とい
う)の意味素の条件と、前記着目要素が共起する共起要
素の条件と、前記着目要素および前記共起要素の付属要
素の条件と、前記共起要素の出現位置の条件と、対応す
る概念のカラム(以下、対応カラムという)の情報を記
述した情報抽出知識と、前記各対応カラムへの対応度を
算出して最も対応度の高い対応カラムに形態素を抽出す
る対応カラム決定装置と、を備えて前記自然言語文書中
の文から文脈情報を抽出して、前記文脈階層構造情報中
に文脈情報を保存する文脈情報抽出装置と、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出装置と、を具備することを特徴とする請求項1、2ま
たは3に記載の情報検索システム。
9. The concept extraction device, wherein the natural language document is regarded as a hierarchical context region, and a start point condition, an end point condition, and a lower-order context region candidate are described for each of the time domain regions. A context hierarchy analysis device that includes context region extraction knowledge and analyzes the hierarchy of the document structure of the natural language document to create context hierarchy information; and a morphological analysis device that extracts morphemes from the natural language document. A condition of a semantic element of each of the extracted morphemes (hereinafter, referred to as an element of interest), a condition of a co-occurrence element in which the element of interest co-occurs, and a condition of an adjunct element of the element of interest and the co-occurrence element. Calculating the condition of the appearance position of the co-occurrence element, information extraction knowledge describing information of a column of a corresponding concept (hereinafter, corresponding column), and a degree of correspondence to each of the corresponding columns. A corresponding column determining device for extracting a morpheme into a corresponding column having the highest degree of correspondence, extracting context information from a sentence in the natural language document, and storing the context information in the context hierarchical structure information Context information extraction device, utilizing the context hierarchical structure information and the context information stored in the lower context region from the lower context region of the context hierarchy structure information to the upper context region, respectively, 4. The information retrieval system according to claim 1, further comprising: a concept description area determining type concept information extracting device that extracts the concept information while determining an area in which the concept information is described. .
【請求項10】 前記情報抽出知識は、前記着目要素の
意味素の条件、前記共起要素の条件、前記付属要素の条
件および前記共起要素の出現位置の条件を、正規表現等
のパターン記述知識として記述されることを特徴とする
請求項7または9に記載の情報検索システム。
10. The information extraction knowledge describes a condition of a semantic element of the element of interest, a condition of the co-occurrence element, a condition of the adjunct element, and a condition of an appearance position of the co-occurrence element. 10. The information retrieval system according to claim 7, wherein the information is described as knowledge.
【請求項11】 前記概念抽出装置は、前記情報抽出知
識のある知識が合致した場合に、該知識と共起しやすい
知識を活性化させ、共起しにくい知識は抑制化する知識
間相関ルールを具備することを特徴とする請求項7、9
または10に記載の情報検索システム。
11. The inter-knowledge correlation rule that activates knowledge that is likely to co-occur with the knowledge and suppresses knowledge that is unlikely to co-occur when the knowledge of the information extraction knowledge matches. 10. The method according to claim 7, further comprising:
Or the information retrieval system according to 10.
【請求項12】 前記対応カラム決定装置は、前記対応
度の算出を各情報抽出知識毎に並列に、または前記対応
カラムの決定を各形態素毎に並列に処理することを特徴
とする請求項7、9、10または11に記載の情報検索
システム。
12. The apparatus according to claim 7, wherein the corresponding column determination device performs the calculation of the degree of correspondence in parallel for each information extraction knowledge, or the determination of the corresponding column in parallel for each morpheme. , 9, 10 or 11.
【請求項13】 前記概念抽出装置は、抽出すべき概念
を特徴づける概念の必須属性を記述した概念知識キーを
具備し、 前記概念記述領域決定型概念情報抽出装置は、概念記述
領域を決定しながら概念情報を抽出する際に、前記概念
キー知識を用いて、前記必須属性の抽出、複数の概念単
位を含まないことのチェック、並びに、新規の情報を含
んでいることのチェックを行って概念情報の必要十分性
をチェックすることを特徴とする請求項8、9、10、
11または12に記載の情報検索システム。
13. The concept extracting device includes a concept knowledge key describing essential attributes of a concept characterizing a concept to be extracted, and the concept description region determining type concept information extracting device determines a concept description region. While extracting the concept information, the concept key knowledge is used to extract the essential attributes, check that a plurality of concept units are not included, and check that new information is included. 9. The method according to claim 8, wherein the necessary and sufficient information is checked.
The information retrieval system according to 11 or 12.
【請求項14】 前記概念抽出装置は、抽出すべき概念
を特徴づける概念の必須属性を記述した概念知識キーを
具備し、 前記概念記述領域決定型概念情報抽出装置は、概念記述
領域を決定しながら概念情報を抽出する際に、前記概念
キー知識を用いて抽出済みの概念情報の重複を解消する
ことを特徴とする請求項8、9、10、11、12また
は13に記載の情報検索システム。
14. The concept extracting device includes a concept knowledge key describing essential attributes of a concept characterizing a concept to be extracted, and the concept description region determining type concept information extracting device determines a concept description region. 14. The information retrieval system according to claim 8, wherein, when extracting concept information, the duplication of the extracted concept information is eliminated using the concept key knowledge. .
【請求項15】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 構文を解析する構文解析装置と、 前記構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する構文要素からの概念作成
装置と、を具備し、 前記構文解析結果のみから概念情報を抽出することを特
徴とする請求項1、2または3に記載の情報検索システ
ム。
15. A concept extraction device, comprising: a morphological analysis device for extracting a morpheme from the natural language document; a syntax analysis device for analyzing syntax; and a ga-case / ヲ -case, subject / predicate, based on a result of the syntax analysis device. ,
A concept creation device for extracting concept information by extracting a preset syntax element from the syntax elements such as dependency and reception, and extracting the concept information only from the syntax analysis result. The information retrieval system according to claim 1, 2 or 3, wherein
【請求項16】 自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出ステップと、 前記概念抽出ステップにより抽出した概念情報をデータ
ベースに登録する概念登録ステップと、 ユーザの検索要求にしたがって前記データベースに登録
された概念情報から必要な概念情報を検索する概念検索
ステップと、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システムにおける情報処理方法。
16. A concept extracting step of extracting concept information in which the information is structured in concept units or attribute units based on keyword information extracted from a natural language document and information representing a relationship between the keywords, A concept registration step of registering concept information extracted by the concept extraction step in a database; and a concept search step of searching necessary concept information from concept information registered in the database in accordance with a user's search request; An information processing method in an information search system, wherein a search is performed using information on the concept unit or the attribute unit as a condition by utilizing relation information between keywords.
【請求項17】 自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出ステップと、 前記概念抽出ステップにより抽出した概念情報をデータ
ベースに登録する概念登録ステップと、 ユーザが与える自然言語検索文中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した検
索概念情報を抽出し、該抽出した検索概念情報にしたが
って前記データベースに登録された概念情報から必要な
概念情報を検索する概念検索ステップと、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システムにおける情報処理方法。
17. A concept extracting step of extracting concept information in which the information is structured in concept units or attribute units, based on keyword information extracted from a natural language document and information indicating a relationship between the keywords, A concept registration step of registering concept information extracted by the concept extraction step in a database; and keyword information extracted from a natural language search sentence given by a user and information indicating a relationship between the keywords, the concept being described in a concept unit or an attribute unit. A concept search step of extracting search concept information in which information is structured, and searching for necessary concept information from the concept information registered in the database according to the extracted search concept information; Utilizing information, it is possible to perform a search based on the information in the concept unit or the attribute unit. And an information processing method in the information search system.
【請求項18】 前記概念登録ステップは、前記概念抽
出ステップにより抽出した概念情報を、前記自然言語文
書の文書所在情報との組による転置インデックス形式
で、或いは、前記文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、前記データベ
ースに登録することを特徴とする請求項16または17
に記載の情報検索システムにおける情報処理方法。
18. The concept registering step includes: converting the concept information extracted in the concept extracting step into an inverted index format by combining with the document location information of the natural language document; or storing the concept information in the document location information and the document. 18. The database according to claim 16, wherein the concept information is registered in the database in an inverted index format based on a set of corresponding attribute information indicating which attribute is described.
An information processing method in the information search system according to item 1.
【請求項19】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、 動詞が依存する意味素の情報を記述した動詞格フレーム
辞書と、前記意味素の表層的定義を行う意味素辞書とを
参照して、前記動詞に対応する格要素を特定する格要素
特定ステップと、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、 動詞が依存する意味素の情報を活用して概念情報を抽出
することを特徴とする請求項16、17または18に記
載の情報検索システムにおける情報処理方法。
19. The concept extraction step includes: a morpheme analysis step of extracting a morpheme from the natural language document; a verb extraction step of extracting only a verb component in the extracted morpheme; and a semantic on which the verb depends. A case element specifying step of specifying a case element corresponding to the verb with reference to a verb case frame dictionary describing the information of the verb and a semantic dictionary for performing a surface definition of the semantic, the case element and the concept And generating concept information from case elements based on the information corresponding to the verb, and extracting the concept information by utilizing information of semantics on which the verb depends. , 17 or 18, the information processing method in the information search system.
【請求項20】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、 動詞が依存する表層格の情報を記述した動詞格フレーム
辞書を参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、 動詞が依存する表層格要素の情報を活用して概念情報を
抽出することを特徴とする請求項16、17または18
に記載の情報検索システムにおける情報処理方法。
20. The concept extraction step includes: a morpheme analysis step of extracting a morpheme from the natural language document; a verb extraction step of extracting only a verb component in the extracted morpheme; and a surface case on which the verb depends. A case element specifying step of specifying a case element corresponding to the verb with reference to a verb case frame dictionary describing the information of the case element; and a case element for creating concept information based on correspondence information between the case element and the concept. 19. A concept creating step of extracting concept information by utilizing information of a surface case element on which a verb depends.
An information processing method in the information search system according to item 1.
【請求項21】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、 動詞が依存する意味素の情報と表層格の情報を記述した
動詞格フレーム辞書と、前記意味素の表層的定義を行う
意味素辞書とを参照して、前記動詞に対応する格要素を
特定する格要素特定ステップと、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、 動詞が依存する意味素の情報と表層格の情報を活用して
概念情報を抽出することを特徴とする請求項16、17
または18に記載の情報検索システムにおける情報処理
方法。
21. The concept extracting step includes: a morphological analysis step of extracting a morpheme from the natural language document; a verb extracting step of extracting only a verb component in the extracted morpheme; and a semantic on which the verb depends. A verb case frame dictionary describing the information of the surface case information and a semantic dictionary for performing the surface definition of the semantic, and a case element specifying step of specifying a case element corresponding to the verb, A concept element from the case element for creating concept information based on the correspondence information between the case element and the concept, and the concept information is utilized by utilizing the information of the semantic on which the verb depends and the information of the surface case. 18. The method according to claim 16, wherein extraction is performed.
Or an information processing method in the information search system according to 18.
【請求項22】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された各形態素(以下、着目要素という)の
意味素の条件と、前記着目要素が共起する共起要素の条
件と、前記着目要素および前記共起要素の付属要素の条
件と、前記共起要素の出現位置の条件と、対応する概念
のカラム(以下、対応カラムという)の情報を記述した
情報抽出知識を参照して、前記各対応カラムへの対応度
を算出して最も対応度の高い対応カラムに形態素を抽出
する対応カラム決定ステップと、を具備することを特徴
とする請求項16、17または18に記載の情報検索シ
ステムにおける情報処理方法。
22. The concept extracting step includes: a morphological analysis step of extracting a morpheme from the natural language document; a condition of a semantic element of each extracted morpheme (hereinafter, referred to as a target element); Conditions of co-occurring elements, conditions of the element of interest and ancillary elements of the co-occurring elements, conditions of appearance positions of the co-occurring elements, and information of corresponding concept columns (hereinafter referred to as corresponding columns) A corresponding column determining step of calculating a degree of correspondence to each corresponding column with reference to information extraction knowledge describing the corresponding column and extracting a morpheme into a corresponding column having the highest degree of correspondence. Item 19. An information processing method in the information search system according to Item 16, 17, or 18.
【請求項23】 前記概念抽出ステップは、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を参照して、前記自然言語文
書の文書構造が持つ階層性を解析して文脈階層構造情報
を作成する文脈階層構造解析ステップと、 意味素と対応する概念のカラムの情報を記述した文脈情
報抽出知識を参照して、前記自然言語文書中の文から文
脈情報を抽出し、前記文脈階層構造情報中に文脈情報を
保存する文脈情報抽出ステップと、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出ステップと、を具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法。
23. The concept extracting step, in which the natural language document is regarded as a hierarchical context area, and a start point condition, an end point condition, and a lower-order context area candidate are described for each of the time domain areas. Referring to the context area extraction knowledge, a context hierarchy analysis step of analyzing the hierarchy of the document structure of the natural language document to create context hierarchy information, and describing information of semantic elements and corresponding concept columns A context information extracting step of extracting context information from a sentence in the natural language document with reference to the context information extraction knowledge obtained, and storing context information in the context hierarchical structure information; Utilizing the context information stored in the lower context region from the lower context region of the hierarchical structure information or in the lower context region from the upper context region, 2. A concept description area determining type concept information extracting step of extracting the concept information while determining an area in which the concept information is described.
An information processing method in the information search system according to 6, 17, or 18.
【請求項24】 前記概念抽出ステップは、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を参照して、前記自然言語文
書の文書構造が持つ階層性を解析して文脈階層構造情報
を作成する文脈階層構造解析ステップと、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された各形態素(以下、着目要素
という)の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム(以下、対応カラムという)の情報
を記述した情報抽出知識を参照して、前記各対応カラム
への対応度を算出して最も対応度の高い対応カラムに形
態素を抽出する対応カラム決定ステップと、を備えて前
記自然言語文書中の文から文脈情報を抽出して、前記文
脈階層構造情報中に文脈情報を保存する文脈情報抽出ス
テップと、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出ステップと、を具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法。
24. The concept extracting step, in which the natural language document is regarded as a hierarchical context area, and a start point condition, an end point condition, and a lower-order context area candidate for each of the pulse region are described. A context hierarchy analysis step of analyzing the hierarchy of the document structure of the natural language document to create context hierarchy information with reference to the context region extraction knowledge; and a morphological analysis step of extracting a morpheme from the natural language document And the condition of the semantic of each extracted morpheme (hereinafter referred to as the element of interest), the condition of the co-occurrence element co-occurring with the element of interest, and the condition of the adjunct element of the element of interest and the co-occurrence element And the information extraction knowledge that describes the condition of the appearance position of the co-occurrence element and the information of the column of the corresponding concept (hereinafter referred to as the corresponding column). A corresponding column determining step of calculating the degree of correspondence to the corresponding column and extracting a morpheme to the corresponding column having the highest degree of correspondence, extracting context information from a sentence in the natural language document, and A context information extracting step of storing context information in information; and storing the context hierarchical structure information and a lower context area of the context hierarchical structure information in a higher context area or a higher context area in a lower context area. A concept description area determining type concept information extracting step of extracting the concept information while determining the area in which the concept information is described by utilizing the context information.
An information processing method in the information search system according to 6, 17, or 18.
【請求項25】 前記情報抽出知識は、前記着目要素の
意味素の条件、前記共起要素の条件、前記付属要素の条
件および前記共起要素の出現位置の条件を、正規表現等
のパターン記述知識として記述されることを特徴とする
請求項22または24に記載の情報検索システムにおけ
る情報処理方法。
25. The information extraction knowledge describes a condition of a semantic element of the element of interest, a condition of the co-occurring element, a condition of the attached element, and a condition of an appearance position of the co-occurring element in a pattern description such as a regular expression. 25. The information processing method according to claim 22, wherein the information is described as knowledge.
【請求項26】 前記概念抽出ステップは、前記情報抽
出知識のある知識が合致した場合に、該知識と共起しや
すい知識を活性化させ、共起しにくい知識は抑制化する
知識間相関ルールを参照することを特徴とする請求項2
2、24または25に記載の情報検索システムにおける
情報処理方法。
26. The inter-knowledge correlation rule, wherein the concept extraction step activates knowledge that is likely to co-occur with the knowledge and suppresses knowledge that is unlikely to co-occur when the knowledge of the information extraction knowledge matches. 3. The method according to claim 2, wherein
An information processing method in the information search system according to 2, 24 or 25.
【請求項27】 前記対応カラム決定ステップは、前記
対応度の算出を各情報抽出知識毎に並列に、または前記
対応カラムの決定を各形態素毎に並列に処理することを
特徴とする請求項22、24、25または26に記載の
情報検索システムにおける情報処理方法。
27. The correspondence column determination step, wherein the calculation of the correspondence degree is processed in parallel for each information extraction knowledge, or the determination of the correspondence column is processed in parallel for each morpheme. , 24, 25, or 26, the information processing method in the information search system.
【請求項28】 前記概念記述領域決定型概念情報抽出
ステップは、概念記述領域を決定しながら概念情報を抽
出する際に、抽出すべき概念を特徴づける概念の必須属
性を記述した概念キー知識を用いて、前記必須属性の抽
出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックすることを特徴とする請
求項23、24、25、26または27に記載の情報検
索システムにおける情報処理方法。
28. The concept description area determining type concept information extracting step includes, when extracting concept information while determining a concept description area, extracting concept key knowledge describing essential attributes of a concept characterizing a concept to be extracted. Extracting necessary attributes, checking that a plurality of concept units are not included, and checking that new information is included to check whether the concept information is necessary and sufficient. Item 30. An information processing method in the information search system according to Item 23, 24, 25, 26, or 27.
【請求項29】 前記概念記述領域決定型概念情報抽出
ステップは、概念記述領域を決定しながら概念情報を抽
出する際に、抽出すべき概念を特徴づける概念の必須属
性を記述した概念キー知識を用いて抽出済みの概念情報
の重複を解消することを特徴とする請求項23、24、
25、26、27または28に記載の情報検索システム
における情報処理方法。
29. The concept description area determining type concept information extracting step includes, when extracting concept information while determining a concept description area, a concept key knowledge describing essential attributes of a concept characterizing a concept to be extracted. 25. The method according to claim 23, wherein the duplication of the extracted concept information is eliminated by using the extracted concept information.
25. An information processing method in the information search system according to 25, 26, 27 or 28.
【請求項30】 請求項16、17、18、19、2
0、21、22、23、24、25、26、27、28
または29に記載の情報検索システムにおける情報処理
方法をコンピュータに実行させるためのプログラムとし
て記憶したコンピュータにより読み取り可能な記録媒
体。
30. The method of claim 16, 17, 18, 19, 2
0, 21, 22, 23, 24, 25, 26, 27, 28
Or a computer-readable recording medium stored as a program for causing a computer to execute the information processing method in the information search system according to 29.
JP10073103A 1998-03-06 1998-03-06 Information retrieval system, information processing method in information retrieval system and record medium Pending JPH11259524A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10073103A JPH11259524A (en) 1998-03-06 1998-03-06 Information retrieval system, information processing method in information retrieval system and record medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10073103A JPH11259524A (en) 1998-03-06 1998-03-06 Information retrieval system, information processing method in information retrieval system and record medium

Publications (1)

Publication Number Publication Date
JPH11259524A true JPH11259524A (en) 1999-09-24

Family

ID=13508652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10073103A Pending JPH11259524A (en) 1998-03-06 1998-03-06 Information retrieval system, information processing method in information retrieval system and record medium

Country Status (1)

Country Link
JP (1) JPH11259524A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050343A1 (en) * 2000-01-05 2001-07-12 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
JP2005250682A (en) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd Information extraction system
JP2005267647A (en) * 2004-03-18 2005-09-29 Microsoft Corp Method for rendering table by using natural language command
US7395498B2 (en) 2002-03-06 2008-07-01 Fujitsu Limited Apparatus and method for evaluating web pages
WO2008093569A1 (en) * 2007-01-29 2008-08-07 Nec Corporation Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
WO2009110550A1 (en) * 2008-03-06 2009-09-11 日本電気株式会社 Attribute extraction method, system, and program
JP2011048558A (en) * 2009-08-26 2011-03-10 Ntt Docomo Inc Device and method for generating task model

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050343A1 (en) * 2000-01-05 2001-07-12 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
US7191177B2 (en) 2000-01-05 2007-03-13 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
US7395498B2 (en) 2002-03-06 2008-07-01 Fujitsu Limited Apparatus and method for evaluating web pages
JP2005250682A (en) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd Information extraction system
JP2005267647A (en) * 2004-03-18 2005-09-29 Microsoft Corp Method for rendering table by using natural language command
WO2008093569A1 (en) * 2007-01-29 2008-08-07 Nec Corporation Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
JP5040925B2 (en) * 2007-01-29 2012-10-03 日本電気株式会社 Information extraction rule creation support system, information extraction rule creation support method, and information extraction rule creation support program
US8380650B2 (en) 2007-01-29 2013-02-19 Nec Corporation Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
WO2009110550A1 (en) * 2008-03-06 2009-09-11 日本電気株式会社 Attribute extraction method, system, and program
US8463738B2 (en) 2008-03-06 2013-06-11 Nec Corporation Attribute extraction method, system, and program
JP5445787B2 (en) * 2008-03-06 2014-03-19 日本電気株式会社 Attribute extraction method, system and program
JP2011048558A (en) * 2009-08-26 2011-03-10 Ntt Docomo Inc Device and method for generating task model

Similar Documents

Publication Publication Date Title
JP4571404B2 (en) Data processing method, data processing system, and program
Moldovan et al. Using wordnet and lexical operators to improve internet searches
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
US10296584B2 (en) Semantic textual analysis
US8977953B1 (en) Customizing information by combining pair of annotations from at least two different documents
JP4644420B2 (en) Method and machine-readable storage device for retrieving and presenting data over a network
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
KR20020058639A (en) A XML Document Retrieval System and Method of it
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
JP2011118689A (en) Retrieval method and system
Yeasmin et al. Study of abstractive text summarization techniques
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Radoev et al. A language adaptive method for question answering on French and English
JP4005343B2 (en) Information retrieval system
JPH11259524A (en) Information retrieval system, information processing method in information retrieval system and record medium
Sindhu et al. Text Summarization: A Technical Overview and Research Perspectives
Kan et al. Corpus-trained text generation for summarization
Agarwal et al. Automatic Extraction of Multiword Expressions in Bengali: An Approach for Miserly Resource Scenario
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Ung et al. Combination of features for vietnamese news multi-document summarization
JP2003085181A (en) Encyclopedia system
Milić-Frayling Text processing and information retrieval
JP2000105769A (en) Document display method
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070207