[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5229782B2 - Question answering apparatus, question answering method, and program - Google Patents

Question answering apparatus, question answering method, and program Download PDF

Info

Publication number
JP5229782B2
JP5229782B2 JP2007289613A JP2007289613A JP5229782B2 JP 5229782 B2 JP5229782 B2 JP 5229782B2 JP 2007289613 A JP2007289613 A JP 2007289613A JP 2007289613 A JP2007289613 A JP 2007289613A JP 5229782 B2 JP5229782 B2 JP 5229782B2
Authority
JP
Japan
Prior art keywords
information
question
classification
answer
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007289613A
Other languages
Japanese (ja)
Other versions
JP2009116662A (en
Inventor
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007289613A priority Critical patent/JP5229782B2/en
Publication of JP2009116662A publication Critical patent/JP2009116662A/en
Application granted granted Critical
Publication of JP5229782B2 publication Critical patent/JP5229782B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、非ファクトイド型の質問を受け付け、それに対する回答情報を出力する質問応答装置等に関する。   The present invention relates to a question answering apparatus or the like that accepts a non-factoid type question and outputs answer information for the question.

従来、質問文を受け付け、その質問文に対する回答を出力する質問応答システムが開発されていた(例えば、特許文献1参照)。
特許第3861105号公報
Conventionally, a question answering system that accepts a question sentence and outputs an answer to the question sentence has been developed (see, for example, Patent Document 1).
Japanese Patent No. 3861105

しかしながら、従来の質問応答装置は、主にWhat型の質問に対して回答するシステムであることが多く、How,Why型の質問に対して回答するシステムは、あまり開発されていなかった。また、従来のHow,Why型の質問応答システムは、性能が低く、その性能を向上させることが課題であった。   However, the conventional question answering apparatus is often a system that mainly answers a What type question, and a system that answers a How and What type question has not been developed so much. Further, the conventional How, Why type question answering system has a low performance, and it has been a problem to improve the performance.

本発明は、上記課題を解決するためになされたものであり、How,Why型の質問に対しても適切に回答することができる、高い性能を有する質問応答装置等を提供することを目的とする。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a high-performance question answering apparatus and the like that can appropriately answer a How and Why type question. To do.

上記目的を達成するため、本発明による質問応答装置は、非ファクトイド(Non−Factoid)型の質問を示す情報である質問情報を受け付ける質問情報受付部と、前記質問情報受付部が受け付けた質問情報に対して、当該質問情報の分類を示す情報であり、理由を尋ねる質問である理由質問が少なくとも一の分類として含まれる情報である複数の分類情報のいずれかを付与する分類部と、前記質問情報受付部が受け付けた質問情報から、用語を抽出する用語抽出部と、分類を示す情報である分類情報と、前記用語抽出部が抽出した用語に追加する追加用語とを対応付けて有する情報である対応情報が記憶される対応情報記憶部と、前記分類部が付与した分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語と、アクセス可能なコーパス記憶部で記憶されているコーパスと、前記分類部によって付与された分類情報に応じた式とを用いることによって、前記質問情報に対応する回答を示す情報である回答情報を前記コーパスから取得する回答情報取得部と、前記回答情報取得部が取得した回答情報を出力する回答情報出力部と、を備えたものである。   In order to achieve the above object, a question answering apparatus according to the present invention includes a question information receiving unit that receives question information, which is information indicating a non-factoid type question, and question information received by the question information receiving unit. A classification unit that assigns one of a plurality of classification information that is information indicating a classification of the question information and that includes a reason question that is a question for asking a reason as at least one classification, and the question Information that includes a term extraction unit that extracts terms from the question information received by the information reception unit, classification information that is information indicating classification, and additional terms that are added to the terms extracted by the term extraction unit A correspondence information storage unit for storing certain correspondence information, an additional term associated with the classification information provided by the classification unit in the correspondence information, and a term extraction unit The answer is information indicating the answer corresponding to the question information by using the term, the corpus stored in the accessible corpus storage unit, and the formula according to the classification information given by the classification unit A response information acquisition unit that acquires information from the corpus; and a response information output unit that outputs the response information acquired by the response information acquisition unit.

このような構成により、非ファクトイド型の質問情報に対しても、適切に回答情報を取得して出力することができる。さらに、追加用語を追加することによって、より高い性能が得られることになる。   With such a configuration, it is possible to appropriately acquire and output answer information even for non-factoid type question information. Furthermore, higher performance can be obtained by adding additional terms.

また、本発明による質問応答装置では、前記回答情報取得部が用いる式である第1の式は、前記コーパスに含まれる文書において、2個の用語が近い位置にあるほど高い値となる式であり、前記回答情報取得部は、前記コーパスに含まれる文書について、前記分類部によって付与された分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語とから選択された2個を用いて前記式の値を算出し、当該式の値が他に比べて大きい情報である回答情報を取得してもよい。
このような構成により、第1の式を用いて回答情報を取得することにより、適切な回答情報の取得が行われることになる。
In the question answering apparatus according to the present invention, the first expression used by the answer information acquisition unit is an expression that becomes higher as the two terms are closer to each other in the document included in the corpus. Yes, the answer information acquisition unit includes, for the document included in the corpus, an additional term associated with the classification information given by the classification unit in the correspondence information, and the term extracted by the term extraction unit It is also possible to calculate the value of the formula using the two selected, and obtain answer information, which is information with a larger value of the formula than others.
With such a configuration, by acquiring the response information using the first equation, appropriate response information is acquired.

また、本発明による質問応答装置では、前記回答情報取得部は、ある用語がある文書を特徴付けている程度を示す式である第2の式を用いて、前記用語抽出部が抽出した用語によって特徴付けられている程度の高い複数の文書を前記コーパスから取得する文書取得手段と、前記分類部によって付与された分類情報に対応する追加用語を、前記対応情報から取得する追加用語取得手段と、前記用語抽出部が抽出した用語と、前記追加用語取得手段が取得した追加用語とを用いて、前記文書取得手段が取得した各文書に含まれる回答情報の候補となる情報である回答候補情報について、前記分類部によって付与された分類情報に応じた前記第1の式の値を算出する算出手段と、前記複数の回答候補情報から、前記算出手段が算出した値が他に比べて大きい値である回答情報を選択する回答情報選択手段と、を備えてもよい。   Further, in the question answering apparatus according to the present invention, the answer information acquiring unit uses a second expression that is an expression indicating the degree to which a certain term characterizes a document, and the term extracted by the term extracting unit. Document acquisition means for acquiring a plurality of documents characterized to be high from the corpus, additional term acquisition means for acquiring additional terms corresponding to the classification information given by the classification unit, from the correspondence information, Answer candidate information that is information that is a candidate for answer information included in each document acquired by the document acquisition unit using the term extracted by the term extraction unit and the additional term acquired by the additional term acquisition unit The calculation means for calculating the value of the first equation according to the classification information given by the classification section, and the value calculated by the calculation means from the plurality of answer candidate information is compared with others. And answer information selecting means for selecting the answer information is a great value, may be provided.

このような構成により、第2の式を用いて文書を取得し、その後に、第1の式を用いて、その文書に含まれる回答候補情報から回答情報を選択することにより、処理負荷の高い第1の式に関する計算量を減らすことができ、処理負荷を軽減することができうると共に、処理時間を短縮することができうる。   With such a configuration, a document is acquired using the second equation, and then the response information is selected from the answer candidate information included in the document using the first equation, thereby increasing the processing load. The amount of calculation related to the first equation can be reduced, the processing load can be reduced, and the processing time can be shortened.

また、本発明による質問応答装置では、前記分類部は、前記質問情報受付部が受け付けた質問情報を、少なくとも、定義を尋ねる質問である定義質問、理由を尋ねる質問である理由質問、方法を尋ねる質問である方法質問に分類してもよい。   In the question answering apparatus according to the present invention, the classification unit asks at least a definition question that is a question asking for a definition, a reason question that is a question asking a reason, and a method of the question information received by the question information receiving unit. The question may be classified as a method question.

このような構成により、この分類に応じて追加用語を追加し、また、この分類に応じた式を用いることによって、適切に回答情報を取得することができるようになりうる。   With such a configuration, it is possible to appropriately acquire answer information by adding additional terms according to this classification and using an expression corresponding to this classification.

また、本発明による質問応答装置では、前記用語抽出部は、前記分類部によって定義質問であると分類された質問情報から、定義を尋ねている対象となる表現であるフォーカス表現の抽出も行うものであり、前記第1の式は、前記文書取得手段が取得した文書に前記フォーカス表現が含まれる場合には、前記フォーカス表現が含まれない場合よりも値が大きくなる式であり、前記文書取得手段が取得した文書に含まれる前記フォーカス表現が、連体修飾節で修飾されている場合には、そうでない場合よりも値が大きくなる式であり、前記回答情報選択手段は、前記文書取得手段が取得した文書に含まれる前記フォーカス表現が連体修飾節で修飾されている場合に、前記回答候補情報から、当該連体修飾節を回答情報として選択してもよい。
このような構成により、定義質問に対して、より適切に回答情報を抽出することができるようになりうる。
In the question answering apparatus according to the present invention, the term extraction unit also extracts a focus expression that is an expression for which a definition is being asked from question information classified as a definition question by the classification unit. The first expression is an expression that has a larger value when the focus expression is included in the document acquired by the document acquisition unit than when the focus expression is not included. When the focus expression included in the document acquired by the means is modified by a linkage modification clause, the expression is a value that is larger than the case where the focus expression is not modified. When the focus expression included in the acquired document is modified with a combination modification clause, the combination modification clause may be selected as response information from the answer candidate information.
With such a configuration, it is possible to more appropriately extract answer information for a definition question.

また、本発明による質問応答装置では、前記回答情報選択手段は、前記算出手段が算出した値が他に比べて大きい値である回答候補情報を選択し、あらかじめ用意された、質問情報と、当該質問情報の示す質問への回答を示す情報である回答情報と、当該回答情報の適否を示す情報とを少なくとも教師データとして用いて機械学習を行い、当該機械学習の結果を用いて、前記選択した回答候補情報から回答情報を抽出してもよい。
このような構成により、機械学習を用いて、回答候補情報から回答情報を適切に抽出することができうる。
Further, in the question answering device according to the present invention, the answer information selecting means selects answer candidate information whose value calculated by the calculating means is larger than others, prepared in advance, Machine learning is performed using answer information that is information indicating an answer to the question indicated by the question information and information indicating the suitability of the answer information as teacher data, and the selected result is obtained using the result of the machine learning. The answer information may be extracted from the answer candidate information.
With such a configuration, it is possible to appropriately extract answer information from answer candidate information using machine learning.

また、本発明による質問応答装置では、前記分類部は、分類を示す情報である分類情報と、語句を示す情報である語句情報とを対応付けて有する情報である分類対応情報を記録媒体で保持しており、前記質問情報に、語句情報が示す語句が含まれる場合に、当該質問情報に対して、当該語句情報に対応する分類情報を付与してもよい。   In the question answering apparatus according to the present invention, the classification unit holds classification correspondence information, which is information including classification information, which is information indicating classification, and word information, which is information indicating phrases, in a recording medium. In addition, when the question information includes a phrase indicated by the phrase information, classification information corresponding to the phrase information may be given to the question information.

また、本発明による質問応答装置では、前記分類部は、あらかじめ用意された、質問情報と、当該質問情報の分類を示す情報である分類情報とを教師データとして機械学習を行い、当該機械学習の結果を用いて、前記質問情報受付部が受け付けた質問情報を分類してもよい。   In the question answering apparatus according to the present invention, the classifying unit performs machine learning using prepared question information and classification information that is information indicating the classification of the question information as teacher data, and performs the machine learning. The question information received by the question information receiving unit may be classified using the result.

また、本発明による質問応答装置では、前記用語抽出部は、前記質問情報を形態素解析し、当該質問情報から、(1)自立語、(2)名詞、(3)名詞と動詞、(4)名詞と形容詞、(5)名詞と動詞と形容詞、から選択される(1)〜(5)のいずれかに含まれる品詞の用語を抽出してもよい。   In the question answering apparatus according to the present invention, the term extraction unit performs morphological analysis on the question information, and from the question information, (1) independent words, (2) nouns, (3) nouns and verbs, (4) Part of speech terms included in any one of (1) to (5) selected from nouns and adjectives, (5) nouns, verbs, and adjectives may be extracted.

本発明による質問応答装置等によれば、非ファクトイド型の質問に対しても適切に回答することができる。   According to the question answering device or the like according to the present invention, it is possible to appropriately answer a non-factoid type question.

以下、本発明による質問応答装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。   Hereinafter, a question answering apparatus according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.

(実施の形態1)
本発明の実施の形態1による質問応答装置について、図面を参照しながら説明する。本実地の形態による質問応答装置は、非ファクトイド型の質問を分類し、その分類結果に応じて回答を取得して出力するものである。
(Embodiment 1)
A question answering apparatus according to Embodiment 1 of the present invention will be described with reference to the drawings. The question answering device according to the present embodiment classifies non-factoid questions, and obtains and outputs answers according to the classification results.

図1は、本実施の形態による質問応答装置1の構成を示すブロック図である。本実施の形態による質問応答装置1は、質問情報受付部11と、分類部12と、用語抽出部13と、対応情報記憶部14と、コーパス記憶部15と、回答情報取得部16と、回答情報出力部17とを備える。   FIG. 1 is a block diagram showing a configuration of a question answering apparatus 1 according to the present embodiment. The question answering apparatus 1 according to the present embodiment includes a question information receiving unit 11, a classification unit 12, a term extracting unit 13, a correspondence information storage unit 14, a corpus storage unit 15, an answer information acquisition unit 16, and an answer And an information output unit 17.

質問情報受付部11は、非ファクトイド(Non−Factoid)型の質問を示す情報である質問情報を受け付ける。この質問情報は、例えば、質問を示すテキストデータである。なお、質問情報受付部11は、非ファクトイド型の質問以外の質問を受け付けてもよい。ここで、ファクトイド型の質問とは、名詞が回答となる質問である。例えば、「日本の首都はどこですか?」や、「人類が月に到達したのはいつですか?」等がファクトイド型の質問である。それらの質問の回答は、「東京」や、「1969年7月19日」のように名詞となる。非ファクトイド型の質問とは、ファクトイド型の質問と異なり、文書が回答となる質問である。例えば、「個人情報保護法に反対している人は、どうして反対しているのですか?」や、「世界遺産条約とは、どのような条約ですか?」等が非ファクトイド型の質問である。   The question information receiving unit 11 receives question information that is information indicating a non-factoid type question. This question information is, for example, text data indicating a question. The question information receiving unit 11 may receive a question other than a non-factoid type question. Here, the factoid type question is a question in which a noun is an answer. For example, “Where is the capital of Japan?” And “When did humans reach the moon?” Are factoid questions. The answers to these questions are nouns such as “Tokyo” or “July 19, 1969”. A non-factoid type question is a question in which a document is an answer, unlike a factoid type question. For example, “Why do people oppose the Personal Information Protection Law?” And “What is the World Heritage Convention?” Are non-factoid questions. is there.

質問情報受付部11は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された質問情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された質問情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された質問情報を受け付けてもよい。例えば、ユーザの発した音声が音声認識された結果である質問情報を質問情報受付部11が受け付けてもよい。なお、質問情報受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、質問情報受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   The question information receiving unit 11 may receive question information input from an input device (for example, a keyboard, a mouse, a touch panel, etc.), for example, and receive the question information transmitted via a wired or wireless communication line. Alternatively, query information read from a predetermined recording medium (for example, an optical disk, a magnetic disk, a semiconductor memory, etc.) may be received. For example, the question information reception unit 11 may receive question information that is a result of voice recognition of a user's voice. Note that the question information receiving unit 11 may or may not include a device (for example, a modem or a network card) for receiving. The question information receiving unit 11 may be realized by hardware, or may be realized by software such as a driver that drives a predetermined device.

また、質問情報受付部11が受け付けた質問情報は、図示しない記録媒体において、一時的に記憶されていてもよい。後述する分類部12や用語抽出部13によって行われる処理で用いられる質問情報は、その記録媒体から読み出されたものであってもよい。その図示しない記録媒体への質問情報の蓄積は、質問情報受付部11によって行われてもよく、あるいは、他の図示しない蓄積部によって行われてもよい。   Moreover, the question information received by the question information receiving unit 11 may be temporarily stored in a recording medium (not shown). Question information used in processing performed by the classification unit 12 and the term extraction unit 13 to be described later may be read from the recording medium. The accumulation of the question information in the recording medium (not shown) may be performed by the question information reception unit 11 or may be performed by another storage unit (not shown).

分類部12は、質問情報受付部11が受け付けた質問情報に対して、その質問情報に応じた分類情報を付与する。分類情報は、質問情報の分類を示す情報である。分類情報には、理由を尋ねる質問である理由質問が少なくとも一の分類として含まれる。分類部12は、質問情報受付部11が受け付けた質問情報の分類を示す分類情報を複数の分類情報の中から特定し、その特定した分類情報を、その質問情報に対して付与する。分類部12が、質問情報に分類情報を付与することは、例えば、付与する分類情報を所定の記録媒体に蓄積することであってもよく、付与する分類情報に対応付けて所定のフラグを設定することであってもよい。なお、ここでは、分類部12が質問情報を分類する場合について説明したが、質問情報を分類することは、その質問情報に対応する回答を示す回答情報を分類することと等価である。例えば、ある質問情報を「理由質問」に分類することは、その質問情報に対応する回答情報を「理由回答」に分類することと等価である。したがって、分類部12は、回答情報を分類している(回答情報に対して分類情報を付与している)、と言うこともできうる。   The classification unit 12 assigns classification information corresponding to the question information to the question information received by the question information reception unit 11. The classification information is information indicating the classification of the question information. The classification information includes a reason question that is a question asking a reason as at least one classification. The classification unit 12 specifies classification information indicating the classification of the question information received by the question information reception unit 11 from among a plurality of classification information, and assigns the specified classification information to the question information. The classification unit 12 may add the classification information to the question information, for example, may store the classification information to be added in a predetermined recording medium, and set a predetermined flag in association with the classification information to be added. It may be to do. Although the case where the classifying unit 12 classifies the question information has been described here, classifying the question information is equivalent to classifying answer information indicating an answer corresponding to the question information. For example, classifying certain question information as “reason question” is equivalent to classifying answer information corresponding to the question information as “reason answer”. Therefore, it can also be said that the classification unit 12 classifies the response information (the classification information is given to the response information).

理由質問以外の分類としては、定義を尋ねる質問である定義質問、方法を尋ねる質問である方法質問、程度を尋ねる質問である程度質問、変化を尋ねる質問である変化質問、経緯を尋ねる質問である経緯質問等がある。すなわち、分類部12は、質問情報受付部11が受け付けた質問情報を、少なくとも、定義を尋ねる質問である定義質問、理由を尋ねる質問である理由質問、方法を尋ねる質問である方法質問、程度を尋ねる質問である程度質問、変化を尋ねる質問である変化質問、経緯を尋ねる質問である経緯質問に分類してもよい。あるいは、分類部12は、それ以外の分類を行ってもよい。例えば、分類部12は、質問情報受付部11が受け付けた質問情報を、定義を尋ねる質問である定義質問、理由を尋ねる質問である理由質問、方法を尋ねる質問である方法質問に分類してもよい。   The classifications other than the reason questions include definition questions that ask questions, method questions that ask questions, method questions that ask questions, questions to some extent questions, change questions that ask questions, and questions that ask questions. There are questions. That is, the classification unit 12 includes at least the question information received by the question information receiving unit 11 as a definition question that asks a definition, a reason question that asks a reason, a method question that asks a method, and a degree. The question to be asked may be classified as a question to some extent, a change question that is a question to ask for change, and a history question that is a question to ask about the story. Alternatively, the classification unit 12 may perform other classifications. For example, the classification unit 12 may classify the question information received by the question information reception unit 11 into a definition question that is a question asking a definition, a reason question that is a question asking a reason, and a method question as a question asking a method. Good.

定義質問は、例えば、「K−1とはなんですか?」「What is K−1?」と言った質問である。   The definition question is a question such as “What is K-1?” Or “What is K-1?”.

理由質問は、例えば、「個人情報保護法に反対している人は、どうして反対しているのですか?」「Why are the people opposed to the Private Information Protection Law?」と言った質問である。   The reason questions are, for example, questions such as “Why are people against the Personal Information Protection Law?” “Why are the people opposed to the Private Information Protection Law?”.

方法質問は、例えば、「世界遺産は、どのようにして決めるのですか?」「How is a World Heritage determined?」と言った質問である。   The method question is, for example, a question such as “How is World Heritage determined?” “How is a World Heritage determined?”.

程度質問は、例えば、「チェルノブイリ原発事故の被害はどの程度でしたか?」「How extensive was the damage caused by Chernobyl nuclear accident?」と言った質問である。   The degree question is, for example, a question such as “How much damage was caused by the Chernobyl nuclear accident?” “How extensible was the damage caused by Chernobyl nuclear accident?”

変化質問は、例えば、「少年法は、どう変わりましたか?」「How was the juvenile law changed?」と言った質問である。   The change question is, for example, a question such as “How did the juvenile law change?” “How was the juvenile row changed?”.

経過質問は、例えば、「どのような経緯で琉球王国は、日本の一部になったのですか?」「How did Ryukyu come to belong to Japan?」と言った質問である。   The progress question is, for example, a question such as “How did the Ryukyu Kingdom become part of Japan?” Or “How did Ryukyu come to belong to Japan?”.

分類部12は、例えば、(1)あらかじめ決められた規則に応じて分類情報を付与してもよく、あるいは、(2)機械学習を行うことによって分類情報を付与してもよい。分類を付与するこれらの方法について、以下、簡単に説明する。   The classification unit 12 may, for example, (1) give classification information according to a predetermined rule, or (2) give classification information by performing machine learning. These methods for assigning classification will be briefly described below.

(1)規則に応じて分類情報を付与する方法
分類部12は、分類対応情報を図示しない記録媒体で保持しているものとする。ここで、分類対応情報は、分類を示す情報である分類情報と、語句を示す情報である語句情報とを対応付けて有する情報である。分類対応情報において、例えば、分類情報「定義質問」に、語句情報「とは何」「どんな」「どういう」「なにもの」「どのようなもの」「どういうこと」等が対応付けられていてもよい。また、例えば、分類情報「理由質問」に、語句情報「なぜ」「なにゆえ」「どうして」「何が理由で」「どんな理由で」等が対応付けられていてもよい。また、例えば、分類情報「方法質問」に、語句情報「どう」「どうすれば」「どうやって」「どのようにして」「いかにして」「いかに」「どんな方法で」等が対応付けられていてもよい。また、例えば、分類情報「程度質問」に、語句情報「どれくらい」「どれくらいの」「どの程度」等が対応付けられていてもよい。また、例えば、分類情報「変化質問」に、語句情報「何が違う」「どのように変わる」「どこが異なる」等が対応付けられていてもよい。また、例えば、分類情報「経緯質問」に、語句情報「どのような経緯」「どのようないきさつ」「どのようななりゆき」等が対応付けられていてもよい。そして、分類部12は、質問情報受付部11が受け付けた質問情報に、語句情報が示す語句が含まれる場合に、その質問情報に対して、その語句情報に対応する分類情報を付与する。例えば、質問情報に語句情報「どんな」が含まれる場合には、分類部12は、その質問情報に対して、語句情報「どんな」に対応する分類情報「定義質問」を付与することができる。なお、質問情報の特定の品詞(例えば、疑問代名詞や、形容詞、副詞等)に、語句情報が示す語句が含まれる場合に、その質問情報に対して、その語句情報に対応する分類情報を付与してもよい。
(1) Method for Assigning Classification Information According to Rules It is assumed that the classification unit 12 holds classification correspondence information on a recording medium (not shown). Here, the classification correspondence information is information having classification information, which is information indicating classification, and word information, which is information indicating phrases, in association with each other. In the classification correspondence information, for example, the classification information “definition question” is associated with the phrase information “what”, “what”, “what”, “what”, “what”, “what”, etc. Also good. For example, the phrase information “why”, “why”, “why”, “why”, “why”, and the like may be associated with the classification information “reason question”. In addition, for example, the word information “how”, “how”, “how”, “how”, “how”, “how”, “how”, etc. are associated with the classification information “method question”. Good. For example, the phrase information “how much”, “how much”, “how much”, and the like may be associated with the classification information “degree question”. For example, the phrase information “change question” may be associated with the phrase information “what is different”, “how is changed”, “where is different”, and the like. Further, for example, the phrase information “what kind of history”, “what kind of circumstances”, “what kind of going” may be associated with the classification information “background question”. Then, when the question information received by the question information receiving unit 11 includes a phrase indicated by the phrase information, the classifying unit 12 assigns classification information corresponding to the phrase information to the question information. For example, when the phrase information “what” is included in the question information, the classification unit 12 can add the classification information “definition question” corresponding to the phrase information “what” to the question information. In addition, when the phrase indicated by the phrase information is included in a specific part of speech of the question information (for example, question pronouns, adjectives, adverbs, etc.), classification information corresponding to the phrase information is given to the question information May be.

なお、その規則は、分類対応情報以外の情報であってもよい。例えば、質問情報の先頭が「なぜ」であり、後端が「のか?」または「のですか?」である場合に、分類部12は、その質問情報が「理由質問」であると判断してもよい。また、分類部12が、その他の規則に応じて質問情報に分類を付与してもよいことは言うまでもない。   The rule may be information other than the classification correspondence information. For example, when the beginning of the question information is “why” and the rear end is “no?” Or “no?”, The classification unit 12 determines that the question information is the “reason question”. May be. Needless to say, the classification unit 12 may assign the classification to the question information according to other rules.

(2)機械学習によって分類情報を付与する方法
分類部12は、あらかじめ用意された、質問情報と、その質問情報の分類を示す情報である分類情報とを教師データとして機械学習を行い、その機械学習の結果を用いて、質問情報受付部11が受け付けた質問情報に対して分類情報を付与することができる。機械学習の際には、教師データに含まれる質問情報に対して形態素解析を行い、その形態素解析で得られた形態素を素性として用いてもよい。なお、素性として用いるのは、形態素の表層(文字列そのもの)のみであってもよく、表層と品詞であってもよく、表層と品詞と活用形であってもよい。また、形態素を素性として用いるのではなく、質問情報の所定数のキャラクタ(文字)を素性として用いてもよい。この場合に、あらゆる文字列を素性として用いてもよく、所定数の文字列(例えば、3文字連続の文字列)を、1文字ずつずらしたものをすべて素性として用いてもよく、文頭から始まる文字列だけを素性として用いてもよく、文末で終わる文字列だけを素性として用いてもよい。例えば、質問情報から連続する2文字や3文字等を取得し、それらを素性として用いてもよい。
機械学習としては、各種のアルゴリズムを用いることができる。このアルゴリズムの詳細については、[機械学習に関する説明]の欄で後述する。
(2) Method of Assigning Classification Information by Machine Learning The classification unit 12 performs machine learning using the prepared question information and classification information that is information indicating the classification of the question information as teacher data. Using the learning result, classification information can be assigned to the question information received by the question information receiving unit 11. In machine learning, morpheme analysis may be performed on the question information included in the teacher data, and the morpheme obtained by the morpheme analysis may be used as a feature. Note that only the surface layer (character string itself) of the morpheme may be used as the feature, the surface layer and the part of speech may be used, or the surface layer, the part of speech and the utilization form may be used. Further, instead of using morphemes as features, a predetermined number of characters (characters) of question information may be used as features. In this case, any character string may be used as a feature, or a predetermined number of character strings (for example, three consecutive character strings) shifted by one character may be used as a feature, starting from the beginning of a sentence. Only a character string may be used as a feature, or only a character string ending at the end of a sentence may be used as a feature. For example, two or three consecutive characters may be acquired from the question information and used as features.
Various algorithms can be used for machine learning. Details of this algorithm will be described later in the “Explanation on machine learning” column.

また、形態素解析のシステムとして、日本語の場合には、例えば、奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。また、英語の場合には、英単語に品詞を付与するソフトウェアとして、例えば、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。Brillのものについては、例えば、次の文献を参照されたい。   As a morphological analysis system, in the case of Japanese, for example, “ChaSen” (http://chasen.naist.jp) developed at Nara Institute of Science and Technology is known. . In the case of English, examples of software that gives parts of speech to English words include “TnT” (http://www.coli.uni-saarland.de/˜thorsen/tnt/) and “Brill Tagger” ( http://www.cs.jhu.edu/˜brill/) and the like are known. See, for example, the following document for the Brill version.

文献:Eric Brill、「Transformation−Based Error−Driven Learning and Natural Language Processing:A Case Study in Part−of−Speech Tagging」、Computational Linguistics,Vol.21,No.4,p.543−565、1995年   Literature: Eric Brill, “Transformation-Based Error-Driving Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging”, Computational L. 21, no. 4, p. 543-565, 1995

なお、ここでは、規則を用いて分類を付与する場合と、機械学習によって分類を付与する場合の2通りについて説明したが、結果として適切に質問情報を分類することができるのであれば、それ以外の方法で質問情報を分類してもよいことは言うまでもない。   In addition, here, two cases of assigning a classification using a rule and assigning a class by machine learning have been described. However, if question information can be appropriately classified as a result, otherwise Needless to say, the question information may be classified by the above method.

用語抽出部13は、質問情報受付部11が受け付けた質問情報から、用語を抽出する。用語抽出部13が抽出する用語は、後述する回答情報取得部16による回答情報の取得で用いられるものである。したがって、用語抽出部13は、質問情報を特徴付ける用語を抽出することが好適である。   The term extracting unit 13 extracts terms from the question information received by the question information receiving unit 11. The terms extracted by the term extraction unit 13 are used in the acquisition of response information by the response information acquisition unit 16 described later. Therefore, it is preferable that the term extraction unit 13 extracts terms that characterize the question information.

用語抽出部13は、質問情報を形態素解析し、その形態素解析した質問情報から、自立語である用語を抽出してもよい。また、用語抽出部13は、形態素解析した質問情報から、名詞である用語を抽出してもよい。また、用語抽出部13は、形態素解析した質問情報から、名詞である用語と、動詞である用語とを抽出してもよい。また、用語抽出部13は、形態素解析した質問情報から、名詞である用語と、形容詞である用語とを抽出してもよい。また、用語抽出部13は、形態素解析した質問情報から、名詞である用語と、動詞である用語と、形容詞である用語とを抽出してもよい。すなわち、用語抽出部13は、質問情報を形態素解析し、その質問情報から、(1)自立語、(2)名詞、(3)名詞と動詞、(4)名詞と形容詞、(5)名詞と動詞と形容詞、から選択される(1)〜(5)のいずれかに含まれる品詞の用語を抽出するものであってもよい。   The term extraction unit 13 may perform morphological analysis on the question information, and extract a term that is an independent word from the question information that has been subjected to the morphological analysis. Moreover, the term extraction part 13 may extract the term which is a noun from the question information which carried out the morphological analysis. The term extraction unit 13 may extract a term that is a noun and a term that is a verb from the question information subjected to morphological analysis. Further, the term extraction unit 13 may extract a term that is a noun and a term that is an adjective from the question information subjected to morphological analysis. Further, the term extraction unit 13 may extract a term that is a noun, a term that is a verb, and a term that is an adjective from the question information subjected to morphological analysis. That is, the term extraction unit 13 performs morphological analysis on the question information, and from the question information, (1) independent words, (2) nouns, (3) nouns and verbs, (4) nouns and adjectives, (5) nouns A part of speech term included in any one of (1) to (5) selected from a verb and an adjective may be extracted.

また、用語抽出部13は、あらかじめ図示しない記録媒体において保持されている専門用語を参照し、その専門用語と一致する用語が質問情報に含まれる場合に、その用語を抽出するようにしてもよい。その図示しない記録媒体で保持されている専門用語は、例えば、人手によって収集されたものであってもよく、技術用語辞典や、経済用語辞典、その他の専門用語の事典等から収集されたものであってもよく、あるいは、大規模なコーパスから機械的に取得されたものであってもよい。コーパスから機械的に専門用語を取得する場合には、例えば、技術文献を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を取得する方法については、下記の複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。また、専門用語リストを作成するツールとして、TermExtractも公開されている(http://gensen.dl.itc.u−tokyo.ac.jp/termextract.html)。   Further, the term extraction unit 13 may refer to a technical term held in advance in a recording medium (not shown) and extract a term when the term matching the technical term is included in the question information. . The technical terms held in the recording medium (not shown) may be collected manually, for example, from technical dictionaries, economic terms dictionaries, dictionaries of other technical terms, etc. It may be, or may be obtained mechanically from a large corpus. When acquiring technical terms from a corpus mechanically, for example, by extracting morphological analysis of technical literature, single nouns etc. are extracted, scoring indicating the possibility of being technical terms for each single noun etc. is performed, A single noun or the like given a high score may be acquired as a technical term. Here, as a method for assigning a score, a plurality of types such as scoring based on word-making ability and scoring based on appearance frequency are known. Further, other methods may be used. About the method of acquiring a technical term, since it is disclosed by the following some literature etc. and is conventionally known, the detailed description is abbreviate | omitted. Also, TermExtract has been released as a tool for creating a technical term list (http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html).

文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000   Literature: Hiroshi Nakagawa, “Automatic Term Recognition based on Statistics of Compound Nouns”, Terminology, Vol. 6, no. 2, p. 195-210, 2000

文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126   Literature: Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by the number of words connected differently”, Information Processing Society of Japan Research Report, 2000-NL-136, p. 119-126

文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月   References: Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, natural language processing, Vol. 10 No. 1, p. 27-45, January 2003

また、用語抽出部13は、質問情報に含まれる最も短いキーワードのみを用語として抽出してもよい。例えば、用語抽出部13は、質問情報を単語列に分割して、そのそれぞれの単語(例えば、名詞や未知語の単語など)を用語として抽出してもよい。具体的には、「企業合併」が質問情報に含まれる場合には、用語「企業」「合併」がそれぞれ抽出されることになる。   In addition, the term extraction unit 13 may extract only the shortest keyword included in the question information as a term. For example, the term extraction unit 13 may divide the question information into word strings and extract each word (for example, a noun or an unknown word) as a term. Specifically, when “commercial merger” is included in the question information, the terms “corporate” and “merger” are respectively extracted.

また、用語抽出部13は、あらゆるパターンのキーワードを用語として抽出してもよい。例えば、用語抽出部13は、質問情報を単語列に分割して、その単語(例えば、名詞や未知語の単語など)そのものを用語として抽出すると共に、連続する単語列をも用語として抽出してもよい。具体的には、「企業合併」が質問情報に含まれる場合には、用語「企業」「合併」「企業合併」がそれぞれ抽出されることになる。この場合に、「企業の合併」から得られる用語と、「企業合併」から得られる用語とで差が生じるのは不公平であるとの観点から、正規化を行うことによって、その差を補償するようにしてもよい。   Further, the term extraction unit 13 may extract keywords of all patterns as terms. For example, the term extraction unit 13 divides the question information into word strings, extracts the words (for example, nouns and unknown word words) themselves as terms, and also extracts continuous word strings as terms. Also good. Specifically, when “commercial merger” is included in the question information, the terms “corporate”, “merger”, and “corporate merger” are respectively extracted. In this case, normalization is used to compensate for the difference from the viewpoint that it is unfair that the difference between the term obtained from “Merger” and the term obtained from “Merger” is unfair. You may make it do.

また、用語抽出部13は、ラティスを利用して用語を抽出してもよい。例えば、用語抽出部13は、前述した、あらゆるパターンのキーワードを用語として抽出する場合と同様に、あらゆる用語を特定し、その特定した各用語について、スコアを算出し、そのスコアの最大のものを用語として抽出してもよい。具体的には、「企業合併」が質問情報に含まれる場合には、用語「企業」「合併」「企業合併」がそれぞれ特定されることになる。そして、「企業」「合併」と、「企業合併」との両方について、スコアが算出され、前者の方のスコアが高い場合には、用語「企業」「合併」が抽出され、後者の方のスコアが高い場合には、用語「企業合併」が抽出される。なお、スコアを算出する式は、例えば、TF・IDFの式であってもよく、それに類似した、次の文献の式(2)であってもよく、それ以外の式であってもよい。   In addition, the term extraction unit 13 may extract terms using a lattice. For example, the term extraction unit 13 specifies every term as in the case of extracting keywords of all patterns as the term described above, calculates a score for each specified term, and calculates the maximum score. It may be extracted as a term. Specifically, when “commercial merger” is included in the question information, the terms “corporate”, “merger”, and “corporate merger” are respectively specified. Scores are calculated for both “Company”, “Merger”, and “Company Merger”. If the former score is higher, the terms “Company” and “Merger” are extracted, and the latter If the score is high, the term “business merger” is extracted. The formula for calculating the score may be, for example, the TF / IDF formula, the formula (2) in the next document similar to the formula, or any other formula.

文献:村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均、「位置情報と分野情報を用いた情報検索」、自然言語処理(言語処理学会誌)、7巻2号,p.141〜160、2000年4月   References: Maki Murata, Ma Aoi, Kiyochi Uchimoto, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, “Information Retrieval Using Location Information and Field Information”, Natural Language Processing (Journal of the Language Processing Society), Vol. 7, No. 2, p. 141-160, April 2000

また、用語抽出部13は、down−weightingを利用して用語を抽出してもよい。例えば、用語抽出部13は、前述した、あらゆるパターンのキーワードを用語として抽出する場合と同様に、あらゆる用語を特定し、最も短いキーワードはそのまま用語として抽出し、それよりも長いキーワードは重みが小さくなるように重み付けした上で用語として抽出する。具体的には、「企業合併」が質問情報に含まれる場合には、用語「企業」「合併」はそのまま抽出され、用語「企業合併」は重みが小さくなるように重み付けした上で抽出されることになる。   In addition, the term extraction unit 13 may extract terms using down-weighting. For example, the term extracting unit 13 identifies all terms as in the case of extracting keywords of all patterns as terms, and extracts the shortest keyword as it is, and the longer keyword has a smaller weight. After being weighted as such, it is extracted as a term. Specifically, when “commercial merger” is included in the question information, the terms “corporate” and “merger” are extracted as they are, and the term “corporate merger” is extracted after weighting so that the weight is reduced. It will be.

なお、最も短いキーワードのみを用語として抽出する方法、あらゆるパターンのキーワードを用語として抽出する方法、ラティスを利用して用語を抽出する方法、down−weightingを利用して用語を抽出する方法については、上の文献「位置情報と分野情報を用いた情報検索」を参照されたい。   In addition, about the method of extracting only the shortest keyword as a term, the method of extracting a keyword of any pattern as a term, the method of extracting a term using a lattice, and the method of extracting a term using down-weighting, See the above document "Information Search Using Location Information and Field Information".

また、用語抽出部13は、分類部12によって定義質問であると分類された質問情報から、フォーカス表現の抽出をも行ってもよい。このフォーカス表現の抽出は、そのフォーカス表現が、後述する回答情報取得部16による回答情報の取得の処理で用いられる場合にのみ行われてもよい。ここで、フォーカス表現とは、質問情報において、定義を尋ねている対象となる表現であり、フォーカス用語と呼ぶことも可能である。例えば、定義質問である質問情報が「遺伝子操作とは何ですか?」である場合には、定義を尋ねている対象となる表現は「遺伝子操作」であるため、用語抽出部13は、フォーカス表現「遺伝子操作」を抽出する。
用語抽出部13がフォーカス表現を抽出する方法としては、例えば、(1)手がかり句を用いる方法や、(2)機械学習を用いる方法がある。
The term extraction unit 13 may also extract the focus expression from the question information classified as a definition question by the classification unit 12. The extraction of the focus expression may be performed only when the focus expression is used in the process of acquiring response information by the response information acquisition unit 16 described later. Here, the focus expression is an expression for which the definition is requested in the question information, and can also be called a focus term. For example, when the question information that is the definition question is “What is genetic manipulation?”, The expression that is the target of the definition is “gene manipulation”. Extract the expression “gene manipulation”.
As a method by which the term extraction unit 13 extracts a focus expression, for example, there are (1) a method using a clue phrase and (2) a method using machine learning.

(1)手がかり句を用いる方法
フォーカス表現を「X」とすると、定義質問である質問情報では、「Xとは」「Xは」「Xというのは」「Xって」などの表現が出てくることになる。したがって、用語抽出部13は、あらかじめ図示しない記録媒体において、「とは」「は」「というのは」「って」などの手がかり句を保持しており、その手がかり句を検索キーとして定義質問である質問情報を検索し、ヒットした場合に、その手がかり句に先行する単語をフォーカス表現として抽出することができる。なお、手がかり句による検索を行う際に、手がかり句に先行する単語が名詞や未知語である場合にのみ、その単語をフォーカス表現として抽出するようにしてもよい。
(1) Method of using a clue phrase If the focus expression is “X”, in the question information that is a definition question, expressions such as “What is X”, “X is”, “What is X”, and “What is X” appear. Will come. Accordingly, the term extraction unit 13 holds clue phrases such as “to”, “ha”, “no” and “te” in a recording medium (not shown) in advance, and the question is defined using the clue phrase as a search key. When the question information is searched and hit, the word preceding the clue phrase can be extracted as the focus expression. Note that when performing a search using a clue phrase, the word may be extracted as a focus expression only when the word preceding the clue phrase is a noun or an unknown word.

(2)機械学習を用いる方法
用語抽出部13は、あらかじめ用意された、フォーカス表現と、そのフォーカス表現を含む、定義質問である質問情報とを教師データとして機械学習を行い、その機械学習の結果を用いて、定義質問であると分類された質問情報から、フォーカス表現を抽出することができる。機械学習の際には、教師データに含まれる質問情報や、フォーカス表現に対して形態素解析を行い、その形態素解析で得られた形態素を素性として用いてもよい。なお、素性として用いるのは、形態素の表層(文字列そのもの)のみであってもよく、表層と品詞であってもよく、表層と品詞と活用形であってもよい。また、形態素を素性として用いるのではなく、質問情報の所定数のキャラクタ(文字)を素性として用いてもよい。この場合に、あらゆる文字列を素性として用いてもよく、所定数の文字列(例えば、3文字連続の文字列)を、1文字ずつずらしたものをすべて素性として用いてもよく、文頭から始まる文字列だけを素性として用いてもよく、文末で終わる文字列だけを素性として用いてもよい。
機械学習としては、各種のアルゴリズムを用いることができる。このアルゴリズムの詳細については、[機械学習に関する説明]の欄で後述する。
(2) Method Using Machine Learning The term extraction unit 13 performs machine learning using a prepared focus expression and question information that is a definition question including the focus expression as teacher data, and the result of the machine learning Can be used to extract a focus expression from question information classified as a definition question. At the time of machine learning, morphological analysis may be performed on the question information included in the teacher data and the focus expression, and the morpheme obtained by the morphological analysis may be used as the feature. Note that only the surface layer (character string itself) of the morpheme may be used as the feature, the surface layer and the part of speech may be used, or the surface layer, the part of speech and the utilization form may be used. Further, instead of using morphemes as features, a predetermined number of characters (characters) of question information may be used as features. In this case, any character string may be used as a feature, or a predetermined number of character strings (for example, three consecutive character strings) shifted by one character may be used as a feature, starting from the beginning of a sentence. Only a character string may be used as a feature, or only a character string ending at the end of a sentence may be used as a feature.
Various algorithms can be used for machine learning. Details of this algorithm will be described later in the “Explanation on machine learning” column.

なお、ここでは、手がかり句を用いてフォーカス表現を抽出する場合と、機械学習によってフォーカス表現を抽出する場合の2通りについて説明したが、結果として適切にフォーカス表現を抽出することができるのであれば、それ以外の方法でフォーカス表現を抽出してもよいことは言うまでもない。   Here, two cases of extracting a focus expression using a clue phrase and extracting a focus expression by machine learning have been described. However, if a focus expression can be appropriately extracted as a result, Needless to say, the focus expression may be extracted by other methods.

また、用語抽出部13が抽出した用語や、フォーカス表現は、図示しない記録媒体において、一時的に記憶されていてもよい。後述する回答情報取得部16によって行われる処理で用いられる用語やフォーカス表現は、その記録媒体から読み出されたものであってもよい。その図示しない記録媒体への用語やフォーカス表現の蓄積は、用語抽出部13によって行われてもよく、あるいは、他の図示しない蓄積部によって行われてもよい。   The terms extracted by the term extraction unit 13 and the focus expression may be temporarily stored in a recording medium (not shown). Terms and focus expressions used in processing performed by an answer information acquisition unit 16 to be described later may be read from the recording medium. Accumulation of terms and focus expressions in the recording medium (not shown) may be performed by the term extraction unit 13 or may be performed by another storage unit (not shown).

対応情報記憶部14では、対応情報が記憶される。対応情報は、分類を示す情報である分類情報と、用語抽出部13が抽出した用語に追加する用語である追加用語とを対応付けて有する情報である。この追加用語は、後述する回答情報取得部16による回答情報を取得する処理において、用語抽出部13が抽出した用語と共に用いられるものである。この追加用語を用いることによって、より適切に回答情報を取得することができるようになる。対応情報において、一の分類情報に、一または複数の追加用語が対応付けられる。この対応情報は、より高性能な回答情報の取得が行われるように、システムの設計者によって適宜、設定されるものである。対応情報の具体例については、後述する。なお、すべての分類情報に対して、追加用語が対応付けられていなくてもよい。すなわち、一部の分類情報に対しては、対応情報が対応付けられていなくてもよい。   The correspondence information storage unit 14 stores correspondence information. The correspondence information is information having classification information that is information indicating classification and an additional term that is a term added to the term extracted by the term extraction unit 13 in association with each other. This additional term is used together with the term extracted by the term extracting unit 13 in the process of acquiring answer information by the answer information acquiring unit 16 described later. By using this additional term, the answer information can be acquired more appropriately. In the correspondence information, one or more additional terms are associated with one classification information. This correspondence information is appropriately set by the system designer so that higher-performance answer information can be acquired. A specific example of the correspondence information will be described later. Note that the additional terms may not be associated with all the classification information. That is, correspondence information may not be associated with some classification information.

対応情報記憶部14に対応情報が記憶される過程は問わない。例えば、記録媒体を介して対応情報が対応情報記憶部14で記憶されるようになってもよく、通信回線等を介して送信された対応情報が対応情報記憶部14で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対応情報が対応情報記憶部14で記憶されるようになってもよい。対応情報記憶部14での記憶は、外部のストレージデバイス等から読み出した対応情報のRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対応情報記憶部14は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。   The process in which the correspondence information is stored in the correspondence information storage unit 14 does not matter. For example, correspondence information may be stored in the correspondence information storage unit 14 via a recording medium, and correspondence information transmitted via a communication line or the like is stored in the correspondence information storage unit 14. Alternatively, the correspondence information input via the input device may be stored in the correspondence information storage unit 14. The storage in the correspondence information storage unit 14 may be temporary storage in the RAM or the like of correspondence information read from an external storage device or the like, or may be long-term storage. The correspondence information storage unit 14 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, or the like).

コーパス記憶部15では、コーパスが記憶される。このコーパスは、大規模なものであることが好適である。このコーパスから、回答情報が取得されることになる。このコーパスは、例えば、新聞記事の情報であってもよく、百科事典等の情報であってもよく、ウェブで公開されている情報であってもよく、学術論文の情報であってもよく、特許の情報であってもよく、回答情報を取得するもととなりうる情報であれば、その内容を問わない。   The corpus storage unit 15 stores a corpus. This corpus is preferably large-scale. Answer information is acquired from this corpus. This corpus may be, for example, information on newspaper articles, information on encyclopedias, etc., information published on the web, information on academic papers, It may be patent information, and any information can be used as long as it can be the basis for obtaining response information.

コーパス記憶部15にコーパスが記憶される過程は問わない。例えば、記録媒体を介してコーパスがコーパス記憶部15で記憶されるようになってもよく、通信回線等を介して送信されたコーパスがコーパス記憶部15で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたコーパスがコーパス記憶部15で記憶されるようになってもよい。コーパス記憶部15での記憶は、外部のストレージデバイス等から読み出したコーパスのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。コーパス記憶部15は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。   The process of storing the corpus in the corpus storage unit 15 does not matter. For example, a corpus may be stored in the corpus storage unit 15 via a recording medium, or a corpus transmitted via a communication line or the like may be stored in the corpus storage unit 15; Alternatively, the corpus input via the input device may be stored in the corpus storage unit 15. The storage in the corpus storage unit 15 may be temporary storage in a corpus RAM read from an external storage device or the like, or may be long-term storage. The corpus storage unit 15 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.).

なお、本実施の形態では、質問応答装置1がコーパス記憶部15を備える場合について説明するが、質問応答装置1は、コーパス記憶部15を備えていなくてもよい。質問応答装置1がコーパス記憶部15を備えていない場合であっても、質問応答装置1は、外部に存在するコーパスにアクセス可能であるものとする。質問応答装置1がアクセス可能な、外部に存在するコーパスは、一箇所に存在してもよく、分散して存在してもよい。例えば、コーパスがウェブで公開されている情報である場合には、後者となりうる。   In the present embodiment, the case where the question answering apparatus 1 includes the corpus storage unit 15 will be described. However, the question answering apparatus 1 may not include the corpus storage unit 15. Even when the question answering device 1 does not include the corpus storage unit 15, the question answering device 1 is assumed to be accessible to an external corpus. The external corpus that can be accessed by the question answering apparatus 1 may exist in one place or may be distributed. For example, when the corpus is information published on the web, it can be the latter.

回答情報取得部16は、分類部12が付与した分類情報に、対応情報記憶部14で記憶されている対応情報で対応付けられている追加用語と、用語抽出部13が抽出した用語と、アクセス可能なコーパス記憶部15で記憶されているコーパスと、分類部12によって付与された分類情報に応じた式を用いることによって、質問情報に対応する回答を示す情報である回答情報をコーパスから取得する。この回答情報取得部16による回答情報の取得の方法については、図2で示される、回答情報取得部16の詳細な構成を参照して後述する。なお、回答情報取得部16が取得する回答情報の形式は問わない。回答情報は、例えば、テキストデータであってもよく、HTMLやXML等のマークアップ言語で記述されたデータであってもよい。また、文書の取得では、コーパスの全体を用いてもよく、あるいは、コーパスの一部を用いてもよい。後者の場合に、例えば、コーパスが特許の情報であれば、その要約のみを用いてもよい。   The response information acquisition unit 16 accesses the additional information associated with the classification information provided by the classification unit 12 using the correspondence information stored in the correspondence information storage unit 14, the term extracted by the term extraction unit 13, and the access By using a corpus stored in the possible corpus storage unit 15 and an expression corresponding to the classification information given by the classification unit 12, response information that is information indicating an answer corresponding to the question information is acquired from the corpus. . The method of acquiring the response information by the response information acquisition unit 16 will be described later with reference to the detailed configuration of the response information acquisition unit 16 shown in FIG. Note that the format of the response information acquired by the response information acquisition unit 16 does not matter. The answer information may be, for example, text data, or data described in a markup language such as HTML or XML. Further, when acquiring a document, the entire corpus may be used, or a part of the corpus may be used. In the latter case, for example, if the corpus is patent information, only the summary may be used.

回答情報出力部17は、回答情報取得部16が取得した回答情報を出力する。回答情報出力部17が回答情報を出力することによって、質問応答装置1のユーザは、質問情報に対応する回答を知ることができる。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、回答情報出力部17は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、回答情報出力部17は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   The response information output unit 17 outputs the response information acquired by the response information acquisition unit 16. When the answer information output unit 17 outputs the answer information, the user of the question answering apparatus 1 can know the answer corresponding to the question information. Here, the output may be, for example, display on a display device (for example, a CRT or a liquid crystal display), transmission via a communication line to a predetermined device, printing by a printer, or audio output by a speaker. Alternatively, it may be stored in a recording medium or delivered to another component. Note that the answer information output unit 17 may or may not include an output device (for example, a display device or a printer). The answer information output unit 17 may be realized by hardware, or may be realized by software such as a driver that drives these devices.

図2は、回答情報取得部16の構成を示すブロック図である。図2において、本実施の形態による回答情報取得部16は、文書取得手段21と、追加用語取得手段22と、算出手段23と、回答情報選択手段24とを備える。   FIG. 2 is a block diagram illustrating a configuration of the answer information acquisition unit 16. In FIG. 2, the reply information acquisition unit 16 according to the present embodiment includes a document acquisition unit 21, an additional term acquisition unit 22, a calculation unit 23, and a response information selection unit 24.

文書取得手段21は、第2の式を用いて、用語抽出部13が抽出した用語によって特徴付けられている程度の高い複数の文書をコーパスから取得する。ここで、第2の式とは、ある用語がある文書を特徴付けている程度を示す式である。例えば、第2の式は、一の文書に出現する用語の頻度が高ければ大きい値となり、かつ、多くの文書にその用語が出現するのであれば小さい値となる式であってもよい。文書取得手段21は、コーパスと、抽出された用語とを用いて出現頻度等の値を算出し、その値を用いて第2の式の値を算出してもよい。文書取得手段21は、その第2の式において、用語抽出部13が抽出した用語について和をとることによって、文書ごとの第2の式の値を算出し、その値の高い文書を取得してもよい。この第2の式は、例えば、TF・IDFの式であってもよく、それを改良した次の式であってもよい。本実施の形態では、第2の式が、次の式(1)である場合について説明する。   The document acquisition unit 21 acquires, from the corpus, a plurality of documents that are highly characterized by the terms extracted by the term extraction unit 13 using the second expression. Here, the second expression is an expression indicating the degree to which a certain term characterizes a certain document. For example, the second expression may be an expression having a large value if the frequency of the term appearing in one document is high, and a small value if the term appears in many documents. The document acquisition unit 21 may calculate a value such as the appearance frequency using the corpus and the extracted term, and may calculate the value of the second expression using the value. The document acquisition means 21 calculates the value of the second expression for each document by calculating the sum of the terms extracted by the term extraction unit 13 in the second expression, and acquires a document having a higher value. Also good. The second expression may be, for example, a TF · IDF expression or the following expression obtained by improving the expression. In the present embodiment, a case where the second equation is the following equation (1) will be described.

Figure 0005229782
Figure 0005229782

ここで、dは文書である。文書は、ひとまとまりの文の集合である。文書は、例えば、コーパスが新聞記事の情報である場合に、1個の記事であってもよく、コーパスが百科事典等の情報である場合に、1個の用語に関する解説であってもよく、コーパスがウェブで公開されている情報である場合に、1個のページであってもよく、コーパスが特許の情報である場合に、1個の公報であってもよく、あるいは、それらの情報に含まれる1または複数のパラグラフであってもよい。tは、質問情報から用語抽出部13によって抽出された用語である。tf(d,t)は、文書dにおけるtの出現頻度(出現回数)である。df(t)は、tの出現する文書数である。Nは、文書の総数である。length(d)は、dの長さである。dの長さは、例えば、文書dのバイト数や、文字数、単語数等によって示される。Δは、全文書の長さの平均である。k、kは、定数であって、実験結果によって定められる値である。例えば、k、kとして、それぞれ0.00001,20を用いてもよい。上記(1)式は、ロバートソンのOkapiウェイティングの式に基づくものである。 Here, d is a document. A document is a collection of sentences. The document may be, for example, one article when the corpus is newspaper article information, or may be a commentary about one term when the corpus is information such as an encyclopedia. When the corpus is information published on the web, it may be one page, and when the corpus is patent information, it may be one gazette, or It may be one or more paragraphs included. t is a term extracted by the term extraction unit 13 from the question information. tf (d, t) is the appearance frequency (number of appearances) of t in the document d. df (t) is the number of documents in which t appears. N is the total number of documents. length (d) is the length of d. The length of d is indicated by, for example, the number of bytes of the document d, the number of characters, the number of words, and the like. Δ is the average of all document lengths. k t and k + are constants and values determined by experimental results. For example, k t, a k +, respectively may be used 0.00001,20. The above equation (1) is based on Robertson's Okapi weighting equation.

また、TF・IDFの式は、次のようになる。
Score(d)=Σ(tf(d,t)*log(N/df(t)))
ただし、Σは、tに関する和である。また、tf(d,t)、df(t)等は、前述の説明と同様である。
Further, the expression of TF · IDF is as follows.
Score (d) = Σ (tf (d, t) * log (N / df (t)))
Where Σ is a sum related to t. Further, tf (d, t), df (t) and the like are the same as described above.

なお、文書取得手段21がTF・IDFの式を用いる場合にも、上記の式(1)と同様に、用語tについて、和をとるものとする。また、本実施の形態では、和をとる用語tは、用語抽出部13が抽出した用語である場合について説明するが、文書取得手段21は、用語抽出部13が抽出した用語と、分類部が付与した分類情報に対応情報で対応付けられている追加用語とを、和をとる用語(上記の式(1)や、TF・IDFの式におけるt)として用いてもよい。   Even when the document acquisition unit 21 uses the TF / IDF formula, the term t is summed as in the formula (1). Further, in the present embodiment, the case where the summing term t is a term extracted by the term extraction unit 13 will be described. However, the document acquisition unit 21 includes a term extracted from the term extraction unit 13 and a classification unit. You may use the additional term matched with the provided classification | category information by correspondence information as a term (t in said Formula (1) or TF * IDF formula) which takes the sum.

文書取得手段21は、コーパス記憶部15に含まれる各文書dに対して、第2の式である上記の式(1)の値を算出する。そして、Score(d)の値が大きい文書dを取得する。Score(d)の値が大きい文書dとは、例えば、Score(d)の値が、しきい値よりも大きい値である文書dであってもよく、Score(d)の値が大きい方から選択された、あらかじめ決められた個数の文書dや、あらかじめ決められた割合の文書dであってもよい。しきい値よりも大きい値とは、しきい値を含んでもよく、あるいは、含まなくてもよい。また、しきい値は、例えば、あらかじめ設定された値であってもよく、算出されたScore(d)に応じて定められてもよい。後者の場合には、例えば、しきい値は、Score(d)の最大値に0.9を掛けた値であってもよい。   The document acquisition unit 21 calculates the value of the above equation (1), which is the second equation, for each document d included in the corpus storage unit 15. Then, the document d having a large value of Score (d) is acquired. The document d having a large value of Score (d) may be, for example, the document d having a value of Score (d) that is larger than a threshold value, and from the larger value of Score (d). There may be a predetermined number of documents d selected or a predetermined ratio of documents d. The value larger than the threshold value may or may not include the threshold value. The threshold value may be a preset value, for example, or may be determined according to the calculated Score (d). In the latter case, for example, the threshold value may be a value obtained by multiplying the maximum value of Score (d) by 0.9.

また、文書取得手段21が取得した文書は、図示しない記録媒体において、一時的に記憶されていてもよい。後述する算出手段23によって行われる処理で用いられる文書は、その記録媒体から読み出されたものであってもよい。その図示しない記録媒体への文書の蓄積は、文書取得手段21によって行われてもよく、あるいは、他の図示しない蓄積部によって行われてもよい。また、文書取得手段21による文書の取得は、例えば、文書を識別する情報である文書識別情報を取得することであってもよい。   The document acquired by the document acquisition unit 21 may be temporarily stored in a recording medium (not shown). A document used in processing performed by the calculation unit 23 to be described later may be read from the recording medium. The storage of the document in the recording medium (not shown) may be performed by the document acquisition unit 21 or may be performed by another storage unit (not shown). The document acquisition by the document acquisition unit 21 may be, for example, acquiring document identification information that is information for identifying a document.

追加用語取得手段22は、分類部12によって付与された分類情報に対応する追加用語を、対応情報から取得する。追加用語取得手段22は、例えば、分類部12による分類結果を示す分類情報を取得し、その分類情報を検索キーとして、対応情報記憶部14において記憶されている対応情報を検索し、検索された分類情報に対応付けられている追加用語を対応情報記憶部14から取得することによって、追加用語を取得することができる。   The additional term acquisition unit 22 acquires additional terms corresponding to the classification information given by the classification unit 12 from the correspondence information. The additional term acquisition unit 22 acquires, for example, classification information indicating the classification result by the classification unit 12, searches the correspondence information stored in the correspondence information storage unit 14 using the classification information as a search key, and is searched. By acquiring the additional terms associated with the classification information from the correspondence information storage unit 14, the additional terms can be acquired.

その取得された追加用語は、図示しない記録媒体において、一時的に記憶されてもよい。後述する算出手段23によって行われる処理で用いられる追加用語は、その記録媒体から読み出されたものであってもよい。その図示しない記録媒体への追加用語の蓄積は、追加用語取得手段22によって行われてもよく、あるいは、他の図示しない蓄積部によって行われてもよい。   The acquired additional terms may be temporarily stored in a recording medium (not shown). Additional terms used in processing performed by the calculation unit 23 described later may be read from the recording medium. The accumulation of additional terms in the recording medium (not shown) may be performed by the additional term acquisition unit 22 or may be performed by another storage unit (not shown).

算出手段23は、用語抽出部13が抽出した用語と、追加用語取得手段22が取得した追加用語とを用いて、文書取得手段21が取得した各文書に含まれる回答情報の候補となる情報である回答候補情報について、分類部12によって付与された分類情報に応じた第1の式の値を算出する。ここで、第1の式とは、コーパスに含まれる文書において、2個の用語が近い位置にあるほど高い値となる式である。算出手段23は、例えば、抽出された用語や、追加用語、回答候補情報、コーパス等を用いて、用語の近さや用語の出現する文書数等の値を算出し、その値を用いて、第1の式の値を算出してもよい。算出手段23は、その第1の式において、用語抽出部13が抽出した用語や、追加用語について和をとることによって、回答候補情報ごとの第1の式の値を算出してもよい。具体的には、第1の式は、次の式(2)を用いた式であってもよい。   The calculation unit 23 is information that is a candidate of answer information included in each document acquired by the document acquisition unit 21 using the term extracted by the term extraction unit 13 and the additional term acquired by the additional term acquisition unit 22. For certain answer candidate information, the value of the first equation corresponding to the classification information given by the classification unit 12 is calculated. Here, the first expression is an expression having a higher value as the two terms are closer to each other in the document included in the corpus. The calculation means 23 calculates values such as the closeness of terms and the number of documents in which the terms appear using the extracted terms, additional terms, answer candidate information, corpus, etc. The value of the formula 1 may be calculated. The calculating means 23 may calculate the value of the first expression for each answer candidate information by taking the sum of the terms extracted by the term extracting unit 13 and the additional terms in the first expression. Specifically, the first formula may be a formula using the following formula (2).

Figure 0005229782
Figure 0005229782

ここで、dは、回答候補情報である。回答候補情報は、文書取得手段21が取得した文書に含まれる、あらかじめ決められた分量のテキスト情報である。回答候補情報は、例えば、文書取得手段21が取得した文書に含まれる1パラグラフであってもよく、連続する2パラグラフであってもよく、連続する3パラグラフであってもよく、1パラグラフと、連続する2パラグラフと、連続する3パラグラフの集合であってもよく、連続する文のあらゆる組合せ(例えば、文書に含まれる第1文のみ、第1文から第2文まで、第1文から第3文まで、第1文から第4文まで、・・・、第2文のみ、第2文から第3文まで、第2文から第4文まで、第2文から第5文まで、・・・のそれぞれを回答候補情報とする場合など)であってもよく、連続する文節のあらゆる組合せ(例えば、文書に含まれる第1節から第2節まで、第1節から第3節まで、第1節から、第4節まで、・・・、第2節から第3節まで、第2節から第4節まで、第2節から第5節まで、・・・のそれぞれを回答候補情報とする場合など。その回答候補情報では、文をまたがってもよい。)であってもよく、その他の分量のテキスト情報であってもよい。Tは、質問情報から抽出された用語と、追加用語とを含む用語セットである。wdr2(t2)は、例えば、t2が動詞であれば「0.5」となり、それ以外の品詞の用語であれば「1」となる。なお、wdr2(t2)は、それ以外の複雑な設定であってもよい。dist(t1,t2)は、t1とt2との間隔である。なお、その間隔は、例えば、t1とt2との間の文字数であってもよく、その間に含まれる文字のバイト数であってもよく、その間に含まれる単語数であってもよい。また、便宜上、t1=t2である場合に、dist(t1,t2)=0.5であるとする。length(d)は、dの長さである。dの長さは、例えば、文書dのバイト数や、文字数、単語数等によって示される。上記の式(2)における第2項は、回答候補情報が長い場合にスコアを高くするために用いられる。また、上記の式(2)で用いられるT3は、式(3)を満たすtのセットである。 Here, d is answer candidate information. The answer candidate information is a predetermined amount of text information included in the document acquired by the document acquisition unit 21. The answer candidate information may be, for example, one paragraph included in the document acquired by the document acquisition unit 21, two consecutive paragraphs, three consecutive paragraphs, one paragraph, It may be a set of two consecutive paragraphs and three consecutive paragraphs, and any combination of consecutive sentences (eg, only the first sentence included in the document, from the first sentence to the second sentence, from the first sentence to the first sentence) 3 sentences, 1st sentence to 4th sentence, ... 2nd sentence only, 2nd sentence to 3rd sentence, 2nd sentence to 4th sentence, 2nd sentence to 5th sentence, .. each of which may be the answer candidate information, etc., and any combination of consecutive phrases (for example, from the first section to the second section, from the first section to the third section included in the document, From the first section to the fourth section, ..., from the second section to the third section Then, each of the second to fourth sections, the second to fifth sections,... Is used as answer candidate information, etc. The answer candidate information may straddle sentences. It may be text information of other quantity. T is a term set including terms extracted from the question information and additional terms. w dr2 (t2) is, for example, “0.5” if t2 is a verb, and “1” if it is a term of any other part of speech. Note that w dr2 (t2) may be other complicated settings. dist (t1, t2) is an interval between t1 and t2. The interval may be, for example, the number of characters between t1 and t2, may be the number of bytes of characters included between them, or may be the number of words included between them. For convenience, it is assumed that dist (t1, t2) = 0.5 when t1 = t2. length (d) is the length of d. The length of d is indicated by, for example, the number of bytes of the document d, the number of characters, the number of words, and the like. The second term in the above equation (2) is used to increase the score when the answer candidate information is long. Moreover, T3 used in said Formula (2) is a set of t which satisfy | fills Formula (3).

なお、2以上の追加用語が取得された場合に、その2以上の追加用語をすべてTに追加してもよく、あるいは、取得された2以上の追加用語のうち、1個をTに追加して、上記の式(2)の値を算出し、次に、その追加した追加用語を削除して、取得された2以上の追加用語のうちの新たな追加用語をTに追加して、上記の式(2)の値を算出することを繰り返して実行するようにしてもよい。さらに、同様のことを、取得された2以上の追加用語の2以上のすべての組合せに対して行ってもよい。   When two or more additional terms are acquired, all the two or more additional terms may be added to T, or one of the two or more additional terms acquired is added to T. Then, the value of the above formula (2) is calculated, then the added additional term is deleted, and a new additional term out of the two or more obtained additional terms is added to T, The calculation of the value of equation (2) may be repeatedly executed. Further, the same may be done for all combinations of two or more acquired additional terms.

また、算出手段23は、分類部12による質問情報の分類結果に応じた第1の式の値を算出する。算出手段23は、例えば、質問情報が程度質問に分類された場合であって、回答候補情報に数表現が含まれる場合に、そうでない場合よりも値の大きくなる式を用いて、第1の式の値を算出してもよい。より具体的には、算出手段23は、質問情報が程度質問に分類された場合であって、回答候補情報に数表現が含まれる場合に、上記の式(2)の結果を1.1倍したものを、第1の式の値として算出してもよい。ここで、算出手段23は、回答候補情報に数表現が存在するかどうかを、例えば、回答候補情報に数字が存在するかどうかによって判断してもよい。その数字は、一般にアラビア数字であるが、算出手段23は、漢数字や、ローマ数字が含まれるかどうかについても判断し、回答候補情報に漢数字や、ローマ数字が含まれる場合にも、数表現が存在すると判断してもよい。   Further, the calculation unit 23 calculates the value of the first equation corresponding to the question information classification result by the classification unit 12. For example, when the question information is classified as a degree question, and the number information is included in the answer candidate information, the calculation unit 23 uses a formula that has a larger value than the case where the question candidate information is classified as a degree question. The value of the expression may be calculated. More specifically, the calculation means 23 is 1.1 times the result of the above formula (2) when the question information is classified as a degree question and the answer candidate information includes a numerical expression. This may be calculated as the value of the first equation. Here, the calculation means 23 may determine whether or not a numerical expression exists in the answer candidate information, for example, based on whether or not a number exists in the answer candidate information. The number is generally an Arabic number, but the calculation means 23 also determines whether or not a Chinese number or a Roman number is included, and if the answer candidate information includes a Chinese number or a Roman number, It may be determined that an expression exists.

また、算出手段23は、例えば、文書取得手段21が取得した文書にフォーカス表現が含まれる場合(すなわち、用語抽出部13によって質問情報からフォーカス表現が抽出されており、かつ、その抽出されたフォーカス表現が、文書取得手段21によって取得された文書に含まれる場合)には、フォーカス表現が含まれない場合よりも値が大きくなる式を用いて、第1の式の値を算出してもよい。より具体的には、算出手段23は、文書取得手段21が取得した文書にフォーカス表現が含まれる場合に、上記の式(2)の結果を1.1倍したものを、第1の式の値をして算出してもよい。また、算出手段23は、文書取得手段21が取得した文書に含まれるフォーカス表現が、連体修飾節で修飾されている場合(すなわち、用語抽出部13によって質問情報からフォーカス表現が抽出されており、かつ、その抽出されたフォーカス表現が、文書取得手段21によって取得された文書に含まれており、なおかつ、文書取得手段21によって取得された文書に含まれるフォーカス表現が、連体修飾語で修飾されている場合)には、そうでない場合よりも値が大きくなる式を用いて、第1の式の値を算出してもよい。より具体的には、算出手段23は、文書取得手段21が取得した文書に含まれるフォーカス表現が、連体修飾節で修飾されている場合に、上記の式(2)の結果を1.1倍したものを、第1の式の値として算出してもよい。ここで、算出手段23は、文書取得手段21が取得した文書にフォーカス表現が含まれる場合に、その文書に対して係り受け解析を行い、その解析結果を用いて、フォーカス表現に係っている文節を連体修飾節として特定することができる。したがって、そのフォーカス表現に係っている文節である連体修飾節が存在するのであれば、算出手段23は、上記の式(2)の結果を1.1倍したものを、第1の式の値として算出してもよい。その係り受け解析を行うシステムとして、例えば、奈良先端科学技術大学院大学で開発された「Cabocha」(http://chasen.org/〜taku/software/cabocha/)等が知られている。その係り受け解析を行うシステムを用いることによって、文節の認識と、文節間の係り受けの関係を示す情報の取得とを行うことができる。なお、ここでは、付与された分類情報に応じた式として、上記の式(2)に所定の値を乗算する場合について説明したが、付与された分類情報に応じた式は、付与された分類情報ごとにまったく異なる形式の式であってもよい。また、付与された分類情報に応じた式は、あらかじめその分類情報ごとに、図示しない記録媒体において保持されていてもよく、あるいは、図示しない記録媒体においては、基本となる式(例えば、上記の式(2))が保持されており、算出手段23が、付与された分類情報に応じて、その基本となる式を変形させて(例えば、分類結果に応じて、その基本となる式を1.1倍するなどの変形)用いてもよい。   Further, for example, when the document acquired by the document acquisition unit 21 includes a focus expression (that is, the focus expression is extracted from the question information by the term extraction unit 13 and the extracted focus is calculated by the calculation unit 23. When the expression is included in the document acquired by the document acquisition unit 21), the value of the first expression may be calculated using an expression that has a larger value than when the focus expression is not included. . More specifically, when the document acquired by the document acquisition unit 21 includes a focus expression, the calculation unit 23 obtains a result obtained by multiplying the result of the above equation (2) by 1.1 by the first equation. A value may be calculated. Further, the calculation unit 23 extracts the focus expression from the question information by the term extraction unit 13 when the focus expression included in the document acquired by the document acquisition unit 21 is modified by the linkage modification clause (ie, In addition, the extracted focus expression is included in the document acquired by the document acquisition means 21, and the focus expression included in the document acquired by the document acquisition means 21 is modified with the combined modifier. In the case of (if present), the value of the first equation may be calculated using an equation that has a larger value than in other cases. More specifically, the calculation unit 23 multiplies the result of the above formula (2) by 1.1 when the focus expression included in the document acquired by the document acquisition unit 21 is modified by the combination modification clause. This may be calculated as the value of the first equation. Here, when the focus expression is included in the document acquired by the document acquisition means 21, the calculation means 23 performs dependency analysis on the document and uses the analysis result to relate to the focus expression. A clause can be specified as a combination modifier clause. Therefore, if there is a linkage modification clause that is a clause related to the focus expression, the calculation means 23 calculates the result of the above formula (2) multiplied by 1.1, It may be calculated as a value. As a system for performing the dependency analysis, for example, “Cabocha” (http://chasen.org/˜take/software/cabocha/) developed at the Nara Institute of Science and Technology is known. By using a system that performs the dependency analysis, it is possible to recognize a phrase and acquire information indicating a dependency relationship between phrases. In addition, although the case where said formula (2) is multiplied by a predetermined value was demonstrated here as a formula according to the provided classification information, the formula according to the provided classification information represents the provided classification. Expressions of completely different formats may be used for each piece of information. In addition, the formula corresponding to the assigned classification information may be held in advance in a recording medium (not shown) for each classification information, or in a recording medium (not shown) The formula (2)) is held, and the calculation unit 23 modifies the basic formula according to the assigned classification information (for example, 1 based on the classification result). (Variation such as 1 times) may be used.

なお、算出手段23の算出した値は、図示しない記録媒体において一時的に記憶されていてもよい。後述する回答情報選択手段24によって行われる処理で用いられる値は、その記録媒体から読み出されたものであってもよい。その図示しない記録媒体への値の蓄積は、算出手段23によって行われてもよく、あるいは、他の図示しない蓄積部によって行われてもよい。   Note that the value calculated by the calculating means 23 may be temporarily stored in a recording medium (not shown). Values used in processing performed by the response information selection unit 24 described later may be read from the recording medium. The accumulation of values in a recording medium (not shown) may be performed by the calculation means 23 or may be performed by another storage unit (not shown).

回答情報選択手段24は、複数の回答候補情報から、算出手段23が算出した値が他に比べて大きい値である回答候補情報を回答情報として選択する。算出手段23が算出した値が他に比べて大きい値である回答情報とは、例えば、算出手段23によって算出された値が、しきい値よりも大きい値である回答候補情報であってもよく、算出手段23によって算出された値が大きい方から選択された、あらかじめ決められた個数や、あらかじめ決められた割合の回答候補情報であってもよい。しきい値よりも大きい値とは、しきい値を含んでもよく、あるいは、含まなくてもよい。また、しきい値は、例えば、あらかじめ設定された値であってもよく、算出手段23が算出した値に応じて定められてもよい。後者の場合には、例えば、しきい値は、算出手段23が算出した値の最大値に0.9を掛けた値であってもよい。   The answer information selecting unit 24 selects answer candidate information having a value calculated by the calculating unit 23 that is larger than others from the plurality of answer candidate information as answer information. The answer information whose value calculated by the calculating means 23 is larger than others may be answer candidate information whose value calculated by the calculating means 23 is larger than a threshold value, for example. Alternatively, the answer candidate information may be a predetermined number or a predetermined ratio of answer candidates selected from the larger values calculated by the calculation unit 23. The value larger than the threshold value may or may not include the threshold value. Further, the threshold value may be a preset value, for example, or may be determined according to the value calculated by the calculation unit 23. In the latter case, for example, the threshold value may be a value obtained by multiplying the maximum value calculated by the calculation means 23 by 0.9.

なお、複数の回答候補情報から回答情報を選択する際に、機械学習を行い、その機械学習の結果を用いて、その選択を行ってもよい。例えば、回答情報選択手段24は、複数の回答候補情報から、算出手段23が算出した値が他に比べて大きい値である回答候補情報を選択し、その選択した回答候補情報から、機械学習の結果を用いて回答候補情報を選択して、その選択した回答候補情報を回答情報としてもよい。回答候補情報は、前述のように、1パラグラフや、連続する複数のパラグラフであってもよく、連続する文のあらゆる組合せであってもよく、連続する文節のあらゆる組合せであってもよく、その他の分量のテキスト情報であってもよい。その機械学習では、あらかじめ用意された、質問情報と、その質問情報の示す質問への回答を示す回答情報と、その回答情報の適否を示す情報とを少なくとも教師データとして用いて機械学習を行ってもよく、さらに、その教師データに含まれる質問情報に応じた分類情報をも、教師データとして用いて機械学習を行ってもよい。また、その回答候補情報に対応する前述の第1の式の値も教師データに含めてもよい。また、回答候補情報を含む文書のうち、回答候補情報以外の部分に含まれる文や単語、文字列等を教師データに含めてもよい。なお、機械学習の結果を用いた回答候補情報の選択の際には、教師データで用いた情報のうち、回答情報の適否を示す情報以外の情報を用いて、回答候補情報の選択を行うことになる。例えば、教師データに質問情報と、その質問情報の分類を示す分類情報と、回答情報と、その回答の適否を示す情報とが含まれる場合には、回答候補情報の選択の際にも、質問情報と、その質問情報に付与された分類情報と、回答候補情報(教師データにおける回答情報に対応する情報である)と、機械学習の結果とを用いて、その回答候補情報が回答情報として適切であるのか、あるいは、適切でないのかを判断することになる。また、機械学習の結果を用いた回答候補情報の選択において、回答候補情報が回答情報である確からしさ(確信度)の値が他に比べて大きい値である回答候補情報を回答情報として選択してもよい。確からしさの値が他に比べて大きい値である回答候補情報とは、前述の算出手段23が算出した値が他に比べて大きい値である回答候補情報の場合と同様である。機械学習の際には、教師データに含まれる質問情報や回答候補情報に対して形態素解析を行い、その形態素解析で得られた形態素を素性として用いてもよい。なお、素性として用いるのは、形態素の表層(文字列そのもの)のみであってもよく、表層と品詞であってもよく、表層と品詞と活用形であってもよい。また、形態素を素性として用いるのではなく、質問情報等の所定数のキャラクタ(文字)を素性として用いてもよい。この場合に、あらゆる文字列を素性として用いてもよく、所定数の文字列(例えば、3文字連続の文字列)を、1文字ずつずらしたものをすべて素性として用いてもよく、文頭から始まる文字列だけを素性として用いてもよく、文末で終わる文字列だけを素性として用いてもよい。機械学習としては、各種のアルゴリズムを用いることができる。このアルゴリズムの詳細については、[機械学習に関する説明]の欄で後述する。   Note that when selecting answer information from a plurality of answer candidate information, machine learning may be performed, and the selection may be performed using the result of the machine learning. For example, the answer information selecting unit 24 selects answer candidate information whose value calculated by the calculating unit 23 is larger than others from a plurality of answer candidate information, and from the selected answer candidate information, Answer candidate information may be selected using the result, and the selected answer candidate information may be used as answer information. As described above, the answer candidate information may be one paragraph or a plurality of continuous paragraphs, may be any combination of continuous sentences, may be any combination of continuous phrases, and others. The amount of text information may be sufficient. In the machine learning, machine learning is performed using at least teacher information prepared in advance as question information, answer information indicating an answer to a question indicated by the question information, and information indicating suitability of the answer information. In addition, the machine learning may be performed using the classification information corresponding to the question information included in the teacher data as the teacher data. Further, the value of the first equation corresponding to the answer candidate information may be included in the teacher data. Moreover, you may include the sentence, word, character string, etc. which are contained in parts other than answer candidate information among the documents containing answer candidate information in teacher data. When selecting candidate answer information using the results of machine learning, select candidate answer information using information other than information indicating the suitability of the answer information among the information used in the teacher data. become. For example, when the teacher data includes question information, classification information indicating the classification of the question information, answer information, and information indicating whether the answer is appropriate, the question data is also selected when selecting the answer candidate information. Using the information, the classification information given to the question information, the answer candidate information (information corresponding to the answer information in the teacher data), and the result of machine learning, the answer candidate information is appropriate as the answer information It is judged whether it is or is not appropriate. Also, in selecting answer candidate information using the results of machine learning, answer candidate information whose probability (confidence) value is larger than others is selected as answer information. May be. The answer candidate information whose probability value is larger than others is the same as the case of answer candidate information whose value calculated by the calculation means 23 is larger than others. In machine learning, morphological analysis may be performed on the question information and answer candidate information included in the teacher data, and the morphemes obtained by the morphological analysis may be used as the features. Note that only the surface layer (character string itself) of the morpheme may be used as the feature, the surface layer and the part of speech may be used, or the surface layer, the part of speech and the utilization form may be used. Further, instead of using morphemes as features, a predetermined number of characters (characters) such as question information may be used as features. In this case, any character string may be used as a feature, or a predetermined number of character strings (for example, three consecutive character strings) shifted by one character may be used as a feature, starting from the beginning of a sentence. Only a character string may be used as a feature, or only a character string ending at the end of a sentence may be used as a feature. Various algorithms can be used for machine learning. Details of this algorithm will be described later in the “Explanation on machine learning” column.

また、回答情報選択手段24は、文書取得手段21が取得した文書に含まれるフォーカス表現が連体修飾節で修飾されている場合に、回答候補情報から、その連体修飾節を回答情報として選択してもよい。連体修飾節を選択する方法は、回答情報選択手段24は、例えば、文書取得手段21が取得した文書に対して係り受け解析を行い、その解析結果を用いて、フォーカス表現に係っている文節を連体修飾節として特定することができる。前述のように、その係り受け解析を行うシステムとして、例えば、奈良先端科学技術大学院大学で開発された「Cabocha」(http://chasen.org/〜taku/software/cabocha/)等が知られている。   In addition, when the focus expression included in the document acquired by the document acquisition unit 21 is modified with the combination modification clause, the response information selection unit 24 selects the combination modification clause from the answer candidate information as the response information. Also good. For example, the response information selection unit 24 performs dependency analysis on the document acquired by the document acquisition unit 21 and uses the analysis result to determine the clause related to the focus expression. Can be specified as a linkage modification clause. As described above, as a system for performing the dependency analysis, for example, “Cabocha” (http://chasen.org/˜take/software/cabocha/) developed at Nara Institute of Science and Technology is known. ing.

回答情報選択手段24が回答情報を選択するとは、例えば、選択した回答情報そのものを図示しない記録媒体に蓄積することであってもよく、選択した回答情報を特定する情報(例えば、回答情報の格納されているコーパスの位置を示すポインタなど)を図示しない記録媒体に蓄積することであってもよく、あるいは、選択した回答情報に対応付けてフラグ等を設定することであってもよい。   The answer information selecting means 24 selecting the answer information may be, for example, accumulating the selected answer information itself in a recording medium (not shown), and specifying the selected answer information (for example, storing the answer information). Or a pointer indicating the position of the corpus being recorded) may be stored in a recording medium (not shown), or a flag or the like may be set in association with the selected answer information.

また、回答情報選択手段24は、複数の回答候補情報から、算出手段23が算出した値が他に比べて大きい値である回答候補情報を選択すると共に、機械学習を行い、その機械学習の結果を用いて、選択した回答候補情報から回答情報を抽出してもよい。その機械学習では、あらかじめ用意された、質問情報と、その質問情報の示す質問への回答を示す情報である回答情報と、その回答情報の適否を示す情報とを少なくとも教師データとして用いて機械学習を行ってもよく、さらに、その教師データに含まれる質問情報に応じた分類情報をも、教師データとして用いて機械学習を行ってもよい。また、回答情報の抽出された回答候補情報も教師データに含めてもよく、さらに、その回答候補情報に対応する前述の第1の式の値も教師データに含めてもよい。機械学習の際には、教師データに含まれる質問情報や回答情報に対して形態素解析を行い、その形態素解析で得られた形態素を素性として用いてもよい。なお、素性として用いるのは、形態素の表層(文字列そのもの)のみであってもよく、表層と品詞であってもよく、表層と品詞と活用形であってもよい。また、形態素を素性として用いるのではなく、質問情報等の所定数のキャラクタ(文字)を素性として用いてもよい。この場合に、あらゆる文字列を素性として用いてもよく、所定数の文字列(例えば、3文字連続の文字列)を、1文字ずつずらしたものをすべて素性として用いてもよく、文頭から始まる文字列だけを素性として用いてもよく、文末で終わる文字列だけを素性として用いてもよい。機械学習としては、各種のアルゴリズムを用いることができる。このアルゴリズムの詳細については、[機械学習に関する説明]の欄で後述する。   In addition, the answer information selecting unit 24 selects answer candidate information whose value calculated by the calculating unit 23 is larger than the other from among a plurality of answer candidate information, performs machine learning, and the result of the machine learning May be used to extract the answer information from the selected answer candidate information. In the machine learning, machine learning is performed using at least teacher information prepared in advance as question information, answer information that is information indicating an answer to the question indicated by the question information, and information indicating whether the answer information is appropriate or not. In addition, classification information corresponding to the question information included in the teacher data may be used as teacher data to perform machine learning. Further, the answer candidate information from which the answer information is extracted may be included in the teacher data, and further, the value of the first equation corresponding to the answer candidate information may be included in the teacher data. In machine learning, morpheme analysis may be performed on question information and answer information included in teacher data, and the morpheme obtained by the morpheme analysis may be used as a feature. Note that only the surface layer (character string itself) of the morpheme may be used as the feature, the surface layer and the part of speech may be used, or the surface layer, the part of speech and the utilization form may be used. Further, instead of using morphemes as features, a predetermined number of characters (characters) such as question information may be used as features. In this case, any character string may be used as a feature, or a predetermined number of character strings (for example, three consecutive character strings) shifted by one character may be used as a feature, starting from the beginning of a sentence. Only a character string may be used as a feature, or only a character string ending at the end of a sentence may be used as a feature. Various algorithms can be used for machine learning. Details of this algorithm will be described later in the “Explanation on machine learning” column.

また、回答情報選択手段24は、複数の回答候補情報から、算出手段23が算出した値が他に比べて大きい値である回答候補情報を選択すると共に、選択した回答候補情報から、所定の規則に応じて、回答情報を抽出してもよい。所定の規則とは、例えば、用語抽出部13によって抽出された用語や、追加用語取得手段22によって取得された追加用語を最も多く含む文やパラグラフを回答情報として抽出するとの規則であってもよく、質問情報に対して付与された分類情報に合致した表現を含む文やパラグラフを回答情報として抽出するとの規則であってもよい。後者の場合には、例えば、図示しない記録媒体において、分類情報と、回答情報に含まれているべき表現とを対応付ける情報である分類・回答対応情報が記憶されており、その情報を用いて、回答情報を抽出してもよい。より具体的には、分類・回答対応情報において、分類情報「理由質問」に、回答情報に含まれているべき表現「だからです」「だからである」等が対応付けられており、回答情報選択手段24は、分類情報「理由質問」が付与された質問情報に対応する回答情報を選択する際には、その分類・回答対応情報を参照し、分類情報「理由質問」に対応するいずれかの表現を含む文やパラグラフを、回答情報として選択してもよい。   The answer information selecting means 24 selects answer candidate information whose value calculated by the calculating means 23 is larger than the others from a plurality of answer candidate information, and from the selected answer candidate information, a predetermined rule. Depending on the response information, the answer information may be extracted. The predetermined rule may be, for example, a rule that extracts sentences or paragraphs that contain the largest number of additional terms acquired by the term extraction unit 13 or additional terms acquired by the additional term acquisition unit 22 as answer information. The rule may be that sentences and paragraphs including expressions that match the classification information given to the question information are extracted as answer information. In the latter case, for example, in a recording medium (not shown), classification / response correspondence information, which is information for associating the classification information with the expression that should be included in the response information, is stored, and using that information, Answer information may be extracted. More specifically, in the classification / answer correspondence information, the classification information “reason question” is associated with the expressions “that's why” and “that's why” that should be included in the answer information. When the means 24 selects the answer information corresponding to the question information to which the classification information “reason question” is assigned, the means 24 refers to the classification / answer correspondence information and selects any one of the information corresponding to the classification information “reason question”. A sentence or paragraph including an expression may be selected as answer information.

なお、本実施の形態では、回答情報取得部16が図2で示される構成である場合について説明するが、回答情報取得部16は、コーパスに含まれる文書について、分類部12によって付与された分類情報に対応情報で対応付けられている追加用語と、用語抽出部13が抽出した用語とから選択された2個を用いて第1の式の値を算出し、その第1の式の値が他に比べて大きい情報である回答情報を取得するものであれば、その構成を限定されるものではない。例えば、回答情報取得部16は、文書取得手段21を備えず、コーパス記憶部15で記憶されているコーパスに含まれる各回答候補情報に対して、算出手段23によって、第1の式の値を算出し、その値が他に比べて大きい回答候補情報を、回答情報として取得してもよい。   In this embodiment, the case where the response information acquisition unit 16 has the configuration shown in FIG. 2 will be described. However, the response information acquisition unit 16 classifies the documents included in the corpus by the classification unit 12. The value of the first equation is calculated using two selected from the additional term associated with the information and the term extracted by the term extracting unit 13, and the value of the first equation is The configuration is not limited as long as the response information that is larger than the others can be obtained. For example, the answer information acquisition unit 16 does not include the document acquisition unit 21, and the calculation unit 23 sets the value of the first expression for each answer candidate information included in the corpus stored in the corpus storage unit 15. Answer candidate information that is calculated and whose value is larger than others may be acquired as answer information.

また、回答情報取得部16は、文書取得手段21が取得した文書をリランキングする図示しないリランキング手段をさらに備え、算出手段23は、文書取得手段21が取得した文書に代えて、リランキング手段によって上位にリランキングされた文書に含まれる回答候補情報について、第1の式の値を算出するようにしてもよい。上位にリランキングされた文書とは、例えば、リランキングの際に算出された値が、しきい値よりも大きい値の文書であってもよく、その算出された値が大きい方から所定数、あるいは所定割合の文書であってもよい。しきい値よりも大きい値とは、しきい値を含んでもよく、あるいは、含まなくてもよい。また、しきい値は、例えば、あらかじめ設定された値であってもよく、リランキング手段が算出した値に応じて定められてもよい。後者の場合には、例えば、しきい値は、リランキング手段が算出した値の最大値に0.9を掛けた値であってもよい。   The response information acquisition unit 16 further includes a reranking unit (not shown) that reranks the document acquired by the document acquisition unit 21, and the calculation unit 23 replaces the document acquired by the document acquisition unit 21 with the reranking unit. The value of the first equation may be calculated for the answer candidate information included in the document that has been reranked by the above. The higher-ranked document may be, for example, a document whose value calculated at the time of re-ranking is larger than a threshold value, and a predetermined number from the larger calculated value, Alternatively, it may be a document with a predetermined ratio. The value larger than the threshold value may or may not include the threshold value. The threshold value may be a preset value, for example, or may be determined according to a value calculated by the reranking unit. In the latter case, for example, the threshold value may be a value obtained by multiplying the maximum value calculated by the reranking means by 0.9.

ここで、その図示しないリランキング手段について説明する。リランキング手段は、次式を用いて、文書取得手段21が取得した文書をリランキングする。

Figure 0005229782
Here, the reranking means (not shown) will be described. The reranking unit reranks the document acquired by the document acquisition unit 21 using the following formula.
Figure 0005229782

この式において、dは文書取得手段21が取得した文書である。また、その他のdist(t1,t2)等は、式(2)、式(3)の説明と同様のものである。また、Tは、質問情報から抽出された用語のセットであってもよく、質問情報から抽出された用語と、追加用語とを含む用語セットであってもよい。後者の場合であって、2以上の追加用語が取得された場合に、その2以上の追加用語をすべてTに追加してもよく、あるいは、取得された2以上の追加用語のうち、1個をTに追加して、上記の式(4)の値を算出し、次に、その追加した追加用語を削除して、取得された2以上の追加用語のうちの新たな追加用語をTに追加して、上記の式(4)の値を算出することを繰り返して実行するようにしてもよい。さらに、同様のことを、取得された2以上の追加用語の2以上のすべての組合せに対して行ってもよい。   In this expression, d is a document acquired by the document acquisition means 21. Further, other dist (t1, t2) and the like are the same as those in the expressions (2) and (3). T may be a set of terms extracted from the question information, or may be a term set including terms extracted from the question information and additional terms. In the latter case, when two or more additional terms are acquired, all of the two or more additional terms may be added to T, or one of the two or more additional terms acquired Is added to T, and the value of the above equation (4) is calculated. Then, the added additional term is deleted, and a new additional term of two or more obtained additional terms is added to T. In addition, the calculation of the value of the above formula (4) may be repeatedly executed. Further, the same may be done for all combinations of two or more acquired additional terms.

このように、図示しないリランキング手段を備えることによって、文書取得手段21が取得した文書をさらに絞り込むことができうる。例えば、文書取得手段21が300個の文書を取得し、リランキング手段によるリランキング(上記式(4)を用いたスコアの算出)によって、上位から20個の文書を取得して、算出手段23による算出で用いるようにしてもよい。前述の説明から明らかなように、算出手段23での算出は、非常に負荷の大きい処理であるため、あらかじめ、その処理で用いる文書の数を絞り込んでおくことは、処理負荷を軽減し、処理時間を短縮するために有用である。   Thus, by providing the re-ranking means (not shown), the documents acquired by the document acquisition means 21 can be further narrowed down. For example, the document acquisition unit 21 acquires 300 documents, and the reranking unit (score calculation using the above formula (4)) by the reranking unit acquires 20 documents from the top, and the calculation unit 23 You may make it use by calculation by. As is clear from the above description, the calculation by the calculation means 23 is a process with a very large load. Therefore, narrowing down the number of documents used in the process in advance reduces the processing load and the process. Useful for reducing time.

また、本実施の形態では、質問情報受付部11が、非ファクトイド型の質問情報を受け付ける場合について主に説明するが、質問情報受付部11は、非ファクトイド型以外の質問情報をも受け付け、非ファクトイド型の質問情報であるのか、あるいは、それ以外の質問情報であるのかの判断を行ったうえで、非ファクトイド型の質問情報であれば、本実施の形態による手法によって処理し、それ以外の質問情報であれば、従来例の手法によって処理するようにしてもよい。なお、非ファクトイド型以外の質問情報が、ファクトイド型の質問情報であるのか、あるいは、それ以外の質問情報であるのかについて、さらに判断してもよい。それらの判断は、例えば、規則に基づいた判断でもよく、あるいは、機械学習による判断でもよい。この判断は、図示しない質問情報判断部によって行われてもよい。以下、その質問情報判断部が行いうる、(1)規則に基づいて質問情報に関する判断を行う方法と、(2)機械学習によって質問情報に関する判断を行う方法について、簡単に説明する。   Further, in the present embodiment, the case where the question information receiving unit 11 receives non-factoid type question information will be mainly described. However, the question information receiving unit 11 also receives question information other than non-factoid type, After determining whether it is factoid type question information or other type of question information, if it is non-factoid type question information, it is processed by the method according to the present embodiment. If it is question information, you may make it process by the method of a prior art example. It may be further determined whether the question information other than non-factoid type is factoid type question information or other question information. Such determination may be, for example, a determination based on a rule or a determination based on machine learning. This determination may be performed by a question information determination unit (not shown). The following is a brief description of (1) a method for determining question information based on rules, and (2) a method for determining question information by machine learning, which can be performed by the question information determination unit.

(1)規則に基づいて質問情報に関する判断を行う方法
図示しない質問情報判断部は、判断に用いる情報である判断情報を図示しない記録媒体で保持しているものとする。ここで、判断情報は、質問情報が非ファクトイド型の質問であるかどうかなどの判断を行うための規則を示す情報である。判断情報は、例えば、質問情報の種類を示す情報と、質問に含まれる語句を示す情報とを対応付けて有する情報であってもよい。判断情報において、例えば、種類を示す情報「非ファクトイド型」に、語句を示す情報「とは何」「どんな」「どういう」「どういった」「何もの」「なぜ」「なにゆえ」「どうして」「何が理由で」「どんな理由で」「どうすれば」「いかにして」「どうやって」「どのようにして」「どれくらい」「どの程度」「何がちがう」「どのように変わる」「どこが異なる」「どのような経緯」「どのようないきさつ」「どのようななりゆき」等が対応付けられていてもよい。また、種類を示す情報「ファクトイド型」に、語句を示す情報「いつ」「誰が」「どこ」「読みは何」等が対応付けられていてもよい。そして、質問情報判断部は、質問情報受付部11が受け付けた質問情報に、語句を示す情報が含まれる場合に、その質問情報が、その語句を示す情報に対応する種類の質問であると判断してもよい。なお、いずれの語句も含まれない場合には、ファクトイド型の質問でもなく、非ファクトイド型の質問でもない、その他の質問であると判断してもよい。
(1) Method for Performing Determination Regarding Question Information Based on Rules Assume that a question information determination unit (not shown) holds determination information, which is information used for determination, in a recording medium (not shown). Here, the determination information is information indicating a rule for determining whether or not the question information is a non-factoid type question. The determination information may be, for example, information having information indicating the type of question information and information indicating words included in the question in association with each other. In the judgment information, for example, information indicating the type “non-factoid type”, information indicating the phrase “what”, “what” “what” “what” “what” “why” “why” “why” "What is the reason""What is the reason""How""How""How""How""How""How""Howmuch""What is different""How it changes""Where is different" “What kind of history”, “what kind of circumstances”, “what kind of way” may be associated with each other. In addition, information “when”, “who”, “where”, “what to read”, etc., indicating the phrase may be associated with the information “factoid type” indicating the type. Then, when the question information received by the question information receiving unit 11 includes information indicating a phrase, the question information determining unit determines that the question information is a type of question corresponding to the information indicating the phrase. May be. If none of the words is included, it may be determined that the question is not a factoid type question or a non-factoid type question, or any other question.

(2)機械学習によって質問情報に関する判断を行う方法
図示しない質問情報判断部は、あらかじめ用意された、質問情報と、その質問情報の種類を示す情報とを教師データとして機械学習を行い、その機械学習の結果を用いて、質問情報受付部11が受け付けた質問情報が、ファクトイド型の質問であるのか、非ファクトイド型の質問であるのか、あるいは、その他の質問であるのかを判断してもよい。機械学習の際には、教師データに含まれる質問情報に対して形態素解析を行い、その形態素解析で得られた形態素を素性として用いてもよい。なお、素性として用いるのは、形態素の表層(文字列そのもの)のみであってもよく、表層と品詞であってもよく、表層と品詞と活用形であってもよい。また、形態素を素性として用いるのではなく、質問情報の所定数のキャラクタ(文字)を素性として用いてもよい。この場合に、あらゆる文字列を素性として用いてもよく、所定数の文字列(例えば、3文字連続の文字列)を、1文字ずつずらしたものをすべて素性として用いてもよく、文頭から始まる文字列だけを素性として用いてもよく、文末で終わる文字列だけを素性として用いてもよい。例えば、質問情報から連続する2文字や3文字等を取得し、それらを素性として用いてもよい。
機械学習としては、各種のアルゴリズムを用いることができる。このアルゴリズムの詳細については、[機械学習に関する説明]の欄で後述する。
(2) Method for Performing Judgment on Question Information by Machine Learning A question information judgment unit (not shown) performs machine learning using prepared question information and information indicating the type of the question information as teacher data. Using the learning result, it may be determined whether the question information received by the question information receiving unit 11 is a factoid type question, a non-factoid type question, or another question. . In machine learning, morpheme analysis may be performed on the question information included in the teacher data, and the morpheme obtained by the morpheme analysis may be used as a feature. Note that only the surface layer (character string itself) of the morpheme may be used as the feature, the surface layer and the part of speech may be used, or the surface layer, the part of speech and the utilization form may be used. Further, instead of using morphemes as features, a predetermined number of characters (characters) of question information may be used as features. In this case, any character string may be used as a feature, or a predetermined number of character strings (for example, three consecutive character strings) shifted by one character may be used as a feature, starting from the beginning of a sentence. Only a character string may be used as a feature, or only a character string ending at the end of a sentence may be used as a feature. For example, two or three consecutive characters may be acquired from the question information and used as features.
Various algorithms can be used for machine learning. Details of this algorithm will be described later in the “Explanation on machine learning” column.

ここで、図示しない質問情報判断部によって、非ファクトイド型の質問であると判断された質問情報については、前述のように、本実施の形態による質問応答装置1による処理、すなわち、分類部12による分類や、用語抽出部13による用語抽出の処理が行われていくことになる。一方、ファクトイド型の質問であると判断された質問情報については、従来例の方法を用いて、回答情報が取得されるようにしてもよい。また、ファクトイド型の質問情報に対応する回答情報を取得する方法として、例えば、次のような方法を用いてもよい。   Here, as described above, the question information determined by the question information determination unit (not shown) as a non-factoid type question is processed by the question answering apparatus 1 according to the present embodiment, that is, by the classification unit 12. Classification and term extraction processing by the term extraction unit 13 are performed. On the other hand, for question information that is determined to be a factoid type question, answer information may be acquired using a conventional method. In addition, as a method for obtaining answer information corresponding to factoid type question information, for example, the following method may be used.

[ファクトイド型の質問情報に対応する回答情報を抽出する方法]
まず、質問情報に対応する回答情報がどのような解表現になるのかを推定する。例えば、回答情報が「人名」になるのか、「場所」になるのか、「時間表現」になるのか、「数値表現」になるのか、「国名」になるのか、「首都名」になるのか、「平仮名表現」になるのかなどを推定する。この推定は、規則に基づいた方法であってもよく、あるいは、機械学習を用いた方法であってもよい。前者の場合には、例えば、回答情報の解表現の種類を示す情報と、質問情報に含まれる語句を示す情報とを対応付けて有する情報を用いて、質問情報に、その語句を示す情報が含まれる場合に、その語句を示す情報に対応する解表現の回答情報になると判断してもよい。具体的には、解表現「人名」と、語句「誰」が対応付けられており、解表現「時間表現」と、語句「いつ」が対応付けられており、解表現「首都名」と、語句「首都はどこ」が対応付けられていてもよい。後者の場合には、例えば、あらかじめ用意された、質問情報と、その質問情報に対応する回答情報の解表現の種類を示す情報とを教師データとして機械学習を行い、その機械学習の結果を用いて、質問情報に対応する回答情報の解表現の種類を判断してもよい。機械学習の際には、教師データに含まれる質問情報に対して形態素解析を行い、その形態素解析で得られた形態素を素性として用いてもよい。なお、素性として用いるのは、形態素の表層(文字列そのもの)のみであってもよく、表層と品詞であってもよく、表層と品詞と活用形であってもよい。また、形態素を素性として用いるのではなく、質問情報の所定数のキャラクタ(文字)を素性として用いてもよい。この場合に、あらゆる文字列を素性として用いてもよく、所定数の文字列(例えば、3文字連続の文字列)を、1文字ずつずらしたものをすべて素性として用いてもよく、文頭から始まる文字列だけを素性として用いてもよく、文末で終わる文字列だけを素性として用いてもよい。例えば、質問情報から連続する2文字や3文字等を取得し、それらを素性として用いてもよい。機械学習としては、各種のアルゴリズムを用いることができる。このアルゴリズムの詳細については、[機械学習に関する説明]の欄で後述する。
[Method of extracting answer information corresponding to factoid type question information]
First, it is estimated what kind of solution expression the answer information corresponding to the question information has. For example, whether the response information is “person name”, “location”, “time expression”, “numerical expression”, “country name”, “capital name”, Estimate whether it becomes “Hiragana expression”. This estimation may be a rule-based method or a method using machine learning. In the case of the former, for example, information indicating the phrase is included in the question information by using information having information indicating the type of solution expression of the answer information and information indicating the phrase included in the question information. When it is included, it may be determined that the answer information is an answer expression corresponding to the information indicating the phrase. Specifically, the solution expression “person name” is associated with the word “who”, the solution expression “time expression” is associated with the word “when”, the solution expression “capital name”, The phrase “where is the capital” may be associated. In the latter case, for example, machine learning is performed using, as teacher data, question information prepared in advance and information indicating the type of solution expression of answer information corresponding to the question information, and the result of the machine learning is used. Thus, the answer expression type of the answer information corresponding to the question information may be determined. In machine learning, morpheme analysis may be performed on the question information included in the teacher data, and the morpheme obtained by the morpheme analysis may be used as a feature. Note that only the surface layer (character string itself) of the morpheme may be used as the feature, the surface layer and the part of speech may be used, or the surface layer, the part of speech and the utilization form may be used. Further, instead of using morphemes as features, a predetermined number of characters (characters) of question information may be used as features. In this case, any character string may be used as a feature, or a predetermined number of character strings (for example, three consecutive character strings) shifted by one character may be used as a feature, starting from the beginning of a sentence. Only a character string may be used as a feature, or only a character string ending at the end of a sentence may be used as a feature. For example, two or three consecutive characters may be acquired from the question information and used as features. Various algorithms can be used for machine learning. Details of this algorithm will be described later in the “Explanation on machine learning” column.

次に、質問情報から用語を抽出する。この用語の抽出は、用語抽出部13と同様の方法で行われうる。そして、文書取得手段21と同様に、式(1)を用いて、コーパスから文書を抽出する。この文書の抽出により、解が書いてありそうな文書群を集めることになる。例えば、質問情報が「日本の首都はどこですか」だとすると、例えば、「日本」「首都」が用語として抽出され、それらを含む文書群が取得されることになる。その後、前述のリランキングと同様の処理が行われる。なお、このリランキングの処理は、文書を絞り込むための処理であるので、行わなくてもよい。   Next, terms are extracted from the question information. The term extraction can be performed in the same manner as the term extraction unit 13. Then, similarly to the document acquisition unit 21, a document is extracted from the corpus using Expression (1). By extracting this document, a group of documents that are likely to be written is collected. For example, if the question information is “Where is the capital of Japan?”, For example, “Japan” and “capital” are extracted as terms, and a document group including them is acquired. Thereafter, processing similar to the above-described reranking is performed. Note that the reranking process is a process for narrowing down documents, and thus may not be performed.

次に、取得された文書、あるいは、リランキングで上位となった文書から、解を抽出する処理を行う。具体的には、それらの文書から、名詞、未知語連続を取り出して、それを解の候補とする。前述した非ファクトイド型の質問の異なり、ファクトイド型の質問の場合には、解が名詞、あるいは、名詞の連続となるため、このように名詞などを解の候補として抽出すればよいことになる。そして、その解の候補「c」に対して、Score(c)を算出し、その値が大きいものを回答情報として選択して出力する。Score(c)は、次のようになる。   Next, a process of extracting a solution from the acquired document or the document ranked higher in the reranking is performed. More specifically, nouns and unknown word sequences are extracted from these documents and set as candidate solutions. Unlike the non-factoid type question described above, in the case of a factoid type question, the answer is a noun or a series of nouns, and thus the noun or the like may be extracted as a solution candidate. Then, Score (c) is calculated for the solution candidate “c”, and the answer with the larger value is selected and output. Score (c) is as follows.

Score(c)=Scorenear(c)+Scoresem(c)
Scorenear(c)は、解の候補とキーワードの近さに基づくスコアであり、Scoresem(c)は、解表現の意味制約を満足しているかどうかに基づくスコアである。Scorenear(c)は、次式で与えられる。
Score (c) = Score near (c) + Score sem (c)
Score near (c) is a score based on the proximity of the solution candidate and the keyword, and Score sem (c) is a score based on whether the semantic constraint of the solution expression is satisfied. Score near (c) is given by the following equation.

Figure 0005229782
Figure 0005229782

dr2(t2)は、実験によって定められる関数であり、例えば、t2が動詞であれば「0.5」となり、それ以外の品詞の用語であれば「1」となるものであってもよい。 w dr2 (t2) is a function determined by experiment. For example, it may be “0.5” if t2 is a verb, and “1” if it is a term of other parts of speech. .

Scoresem(c)は、解の候補の解表現の種類が、推定した解表現の種類と一致する場合に、正の値のスコアを与えて、そうでない場合に、スコアを与えない、あるいは、負の値のスコアを与えるという関数である。例えば、推定した解表現の種類(例えば、人名、地名等)と一致する解の候補にスコア(例えば、1000)を与えてもよい。 Score sem (c) gives a positive score if the type of solution representation of the candidate solution matches the estimated type of solution representation, otherwise gives no score, or It is a function that gives a negative score. For example, a score (for example, 1000) may be given to a solution candidate that matches the estimated type of solution expression (for example, a person name, place name, etc.).

解の候補の解表現の種類が、推定した解表現の種類と一致するかどうかは、規則によって判断されてもよく、あるいは、機械学習によって判断されてもよい。前者の場合には、例えば、あらかじめ国名辞書、人名辞書、首都名辞書等を保持しておき、解の候補がいずれの辞書に記載されている単語であるのかを判断することによって、解の候補の解表現の種類を判断してもよい。また、後者の場合、すなわち、機械学習による場合には、あらかじめ用意された、解と、その解の解表現の種類を示す情報とを教師データとして機械学習を行い、その機械学習の結果を用いて、解の候補に対応する解表現の種類を判断してもよい。この機械学習による方法は、例えば、機械学習を用いた固有表現抽出技術などとして知られている方法である。   Whether the type of the solution expression of the solution candidate matches the estimated type of the solution expression may be determined by a rule or may be determined by machine learning. In the former case, for example, a country name dictionary, a personal name dictionary, a capital name dictionary, etc. are held in advance, and a candidate solution is determined by determining which dictionary the candidate solution is described in. The type of solution expression may be determined. In the latter case, that is, in the case of machine learning, machine learning is performed using the prepared solution and information indicating the type of solution expression of the solution as teacher data, and the result of the machine learning is used. Thus, the type of solution expression corresponding to the solution candidate may be determined. This machine learning method is, for example, a method known as a specific expression extraction technique using machine learning.

このようにして、ファクトイド型の質問情報に対しても、回答情報を出力することができうる。なお、ファクトイド型の質問情報に対応する回答情報の取得・出力と、非ファクトイド型の質問情報に対応する回答情報の取得・出力において、類似の処理が行われることがある。例えば、質問情報からの用語の抽出や、コーパスからの文書の取得等である。したがって、ファクトイド型の質問情報に対応する回答情報の取得・出力と、非ファクトイド型の質問情報に対応する回答情報の取得・出力において、共通の構成要素(例えば、用語抽出部13や、文書取得手段21等)を用いて、処理を行うようにしてもよい。   In this way, it is possible to output answer information for factoid type question information. Similar processing may be performed in acquisition / output of answer information corresponding to factoid type question information and acquisition / output of answer information corresponding to non-factoid type question information. For example, extraction of terms from question information, acquisition of documents from a corpus, and the like. Accordingly, in the acquisition / output of answer information corresponding to factoid type question information and the acquisition / output of answer information corresponding to non-factoid type question information, common components (for example, the term extraction unit 13 and document acquisition) The processing may be performed using the means 21).

また、ファクトイド型の質問情報に対応する回答情報の抽出については、次の文献を参照されたい。
文献:村田真樹,内山将夫,白土保,井佐原均、「シリーズ型質問文に対して単純結合法を利用した逓減的加点質問応答システム」、システム制御情報学会論文誌,Vol.20,No.8,p.18−26,2007年
For extraction of answer information corresponding to factoid type question information, refer to the following document.
References: Maki Murata, Masao Uchiyama, Tamotsu Shirato, Hitoshi Isahara, “A Diminishing Addition Question Answering System Using Simple Combination Method for Series-type Question Sentences”, Journal of System Control Information Society, Vol. 20, no. 8, p. 18-26, 2007

なお、対応情報記憶部14と、コーパス記憶部15と、その他の情報が記憶される記録媒体とのうち、任意の2以上の記憶部や記録媒体は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、対応情報を記憶している領域が対応情報記憶部14となり、コーパスを記憶している領域がコーパス記憶部15となる。   Of the correspondence information storage unit 14, the corpus storage unit 15, and the recording medium storing other information, any two or more storage units or recording media may be realized by the same recording medium. Alternatively, it may be realized by a separate recording medium. In the former case, for example, the area storing the correspondence information is the correspondence information storage unit 14, and the area storing the corpus is the corpus storage unit 15.

また、コーパスや、用語、追加用語等は、厳密には、コーパスを示す情報や、用語を示す情報、追加用語を示す情報と記載すべきであるが、説明の便宜上、単にコーパスや、用語、追加用語等と呼ぶことにする。   In addition, a corpus, a term, and an additional term should be strictly described as information indicating a corpus, information indicating a term, and information indicating an additional term. However, for convenience of explanation, the corpus, term, It will be called additional terms.

次に、本実施の形態による質問応答装置1の動作について、図3のフローチャートを用いて説明する。
(ステップS101)質問情報受付部11は、質問情報を受け付けたかどうか判断する。そして、受け付けた場合には、ステップS102に進み、そうでない場合には、受け付けるまでステップS101の処理を繰り返す。
Next, operation | movement of the question answering apparatus 1 by this Embodiment is demonstrated using the flowchart of FIG.
(Step S101) The question information receiving unit 11 determines whether question information has been received. If accepted, the process proceeds to step S102. If not, the process of step S101 is repeated until accepted.

(ステップS102)分類部12は、質問情報受付部11が受け付けた質問情報に対して、分類情報を付与する。   (Step S102) The classification unit 12 gives classification information to the question information received by the question information reception unit 11.

(ステップS103)用語抽出部13は、質問情報受付部11が受け付けた質問情報から、用語を抽出する。この処理の詳細については、図4のフローチャートを用いて後述する。   (Step S103) The term extraction unit 13 extracts terms from the question information received by the question information receiving unit 11. Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS104)回答情報取得部16は、分類部12によって付与された分類情報と、用語抽出部13によって抽出された用語と、分類部12によって付与された分類情報に、対応情報で対応付けられている追加用語と、コーパス記憶部15で記憶されているコーパスとを用いて、質問情報受付部11が受け付けた質問情報に対応する回答を示す回答情報を取得する。この処理の詳細については、図5のフローチャートを用いて後述する。   (Step S104) The reply information acquisition unit 16 associates the classification information given by the classification unit 12, the terms extracted by the term extraction unit 13, and the classification information given by the classification unit 12 with correspondence information. The answer information indicating the answer corresponding to the question information received by the question information receiving unit 11 is acquired using the additional term and the corpus stored in the corpus storage unit 15. Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS105)回答情報出力部17は、回答情報取得部16が取得した回答情報を出力する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
(Step S105) The response information output unit 17 outputs the response information acquired by the response information acquisition unit 16. Then, the process returns to step S101.
In the flowchart of FIG. 3, the process ends when the power is turned off or the process is terminated.

次に、図4は、図3のフローチャートにおける用語を抽出する処理(ステップS103の処理)の詳細を示すフローチャートである。なお、図4のフローチャートでは、用語抽出部13が用語の抽出と共に、フォーカス表現の抽出も行う場合について説明する。また、図4のフローチャートでは、そのフォーカス表現の抽出を、手がかり句を用いて行う場合について説明する。   Next, FIG. 4 is a flowchart showing details of the process of extracting terms in the flowchart of FIG. 3 (the process of step S103). In the flowchart of FIG. 4, a case will be described in which the term extraction unit 13 extracts a focus expression as well as a term. In the flowchart of FIG. 4, a case where the focus expression is extracted using a clue phrase will be described.

(ステップS201)用語抽出部13は、質問情報受付部11が受け付けた質問情報を形態素解析する。   (Step S201) The term extracting unit 13 performs morphological analysis on the question information received by the question information receiving unit 11.

(ステップS202)用語抽出部13は、形態素解析の結果を用いて、あらかじめ決められている特定の品詞の用語を抽出する。   (Step S <b> 202) The term extracting unit 13 extracts a specific part-of-speech term using a result of morphological analysis.

(ステップS203)用語抽出部13は、その抽出した特定の品詞の用語を、図示しない記録媒体において一時的に記憶する。   (Step S203) The term extraction unit 13 temporarily stores the extracted specific part-of-speech term in a recording medium (not shown).

(ステップS204)用語抽出部13は、質問情報受付部11が受け付けた質問情報に対して、分類部12によって分類情報「定義質問」が付与されたかどうか判断する。そして、分類情報「定義質問」が付与された場合には、ステップS205に進み、そうでない場合には、図3のフローチャートに戻る。   (Step S <b> 204) The term extraction unit 13 determines whether or not the classification information “definition question” has been given by the classification unit 12 to the question information received by the question information reception unit 11. If the classification information “definition question” is given, the process proceeds to step S205, and if not, the process returns to the flowchart of FIG.

(ステップS205)用語抽出部13は、あらかじめ図示しない記録媒体で保持されている、フォーカス表現を抽出するために用いられる手がかり句を読み出し、分類情報「定義質問」が付与された質問情報に、その手がかり句が含まれるかどうか判断する。そして、含まれる場合には、ステップS206に進み、そうでない場合には、図3のフローチャートに戻る。   (Step S205) The term extraction unit 13 reads a clue phrase that is stored in advance on a recording medium (not shown) and is used to extract the focus expression, and adds the question information to which the classification information “definition question” is assigned. Determine if a clue phrase is included. If it is included, the process proceeds to step S206. If not, the process returns to the flowchart of FIG.

(ステップS206)用語抽出部13は、質問情報に含まれる手がかり句と所定の関係にある単語を抽出する。この抽出した単語がフォーカス表現である。   (Step S206) The term extraction unit 13 extracts words having a predetermined relationship with the clue phrase included in the question information. This extracted word is a focus expression.

(ステップS207)用語抽出部13は、抽出したフォーカス表現を図示しない記録媒体において一時的に記憶する。そして、図3のフローチャートに戻る。   (Step S207) The term extraction unit 13 temporarily stores the extracted focus expression in a recording medium (not shown). And it returns to the flowchart of FIG.

なお、図4のフローチャートにおいて、前述のように、フォーカス表現を機械学習やその他の方法を用いて抽出してもよいことは言うまでもない。また、後の回答情報の取得の処理において、フォーカス表現を用いない場合には、フォーカス表現の抽出の処理を行わなくてもよい。   In the flowchart of FIG. 4, it goes without saying that the focus expression may be extracted using machine learning or other methods as described above. Further, in the later process of obtaining the answer information, when the focus expression is not used, the focus expression extraction process may not be performed.

図5は、図3のフローチャートにおける回答情報の取得の処理(ステップS104の処理)の詳細を示すフローチャートである。なお、図5のフローチャートでは、回答情報取得部16が、図2の構成である場合の処理について説明する。   FIG. 5 is a flowchart showing details of the process of obtaining response information (the process of step S104) in the flowchart of FIG. In the flowchart of FIG. 5, processing when the answer information acquisition unit 16 has the configuration of FIG. 2 will be described.

(ステップS301)文書取得手段21は、前述の第2の式を用いて、用語抽出部13が抽出した用語によって特徴付けられている程度の高い複数の文書を、コーパス記憶部15で記憶されているコーパスから取得する。なお、この処理の詳細については、図6のフローチャートを用いて後述する。   (Step S <b> 301) The document acquisition unit 21 stores a plurality of documents characterized by the terms extracted by the term extraction unit 13 in the corpus storage unit 15 using the above-described second formula. Get from the corpus you have. Details of this process will be described later with reference to the flowchart of FIG.

(ステップS302)追加用語取得手段22は、分類部12によって付与された分類情報に対応する1または2以上の追加用語を、対応情報記憶部14で記憶されている対応情報から取得する。   (Step S302) The additional term acquisition means 22 acquires one or more additional terms corresponding to the classification information given by the classification unit 12 from the correspondence information stored in the correspondence information storage unit 14.

(ステップS303)算出手段23は、用語抽出部13が抽出した用語と、追加用語取得手段22が取得した追加用語とを用いて、文書取得手段21が取得した各文書に含まれる回答候補情報について、分類部12によって付与された分類情報に応じた第1の式の値を算出する。この処理の詳細については、図7のフローチャートを用いて後述する。   (Step S303) The calculation unit 23 uses the terms extracted by the term extraction unit 13 and the additional terms acquired by the additional term acquisition unit 22 to determine the answer candidate information included in each document acquired by the document acquisition unit 21. The value of the first equation corresponding to the classification information given by the classification unit 12 is calculated. Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS304)回答情報選択手段24は、算出手段23が算出した値が他に比べて大きい値である複数の回答候補情報から、回答情報を選択する。そして、図3のフローチャートに戻る。なお、この処理の詳細については、図8のフローチャートを用いて後述する。   (Step S304) The answer information selection means 24 selects answer information from a plurality of answer candidate information whose values calculated by the calculation means 23 are larger than others. And it returns to the flowchart of FIG. Details of this process will be described later with reference to the flowchart of FIG.

図6は、図5のフローチャートにおける文書の取得の処理(ステップS301の処理)の詳細を示すフローチャートである。図6のフローチャートでは、文書取得手段21が、前述の式(1)を第2の式として用いて、文書の取得をする場合について説明する。   FIG. 6 is a flowchart showing details of the document acquisition processing (step S301 processing) in the flowchart of FIG. In the flowchart of FIG. 6, a case will be described in which the document acquisition unit 21 acquires a document using the above equation (1) as the second equation.

(ステップS401)文書取得手段21は、カウンタiを1に設定する。
(ステップS402)文書取得手段21は、コーパス記憶部15で記憶されているコーパスからi番目の文書を取得する。
(Step S401) The document acquisition unit 21 sets the counter i to 1.
(Step S402) The document acquisition unit 21 acquires the i-th document from the corpus stored in the corpus storage unit 15.

(ステップS403)文書取得手段21は、用語抽出部13が抽出した用語と、上記の式(1)と、コーパス記憶部15で記憶されているコーパスとを用いて、第2の式の値、すなわち、式(1)の値を算出する。   (Step S403) The document acquisition means 21 uses the term extracted by the term extraction unit 13, the above equation (1), and the corpus stored in the corpus storage unit 15, and the value of the second equation, That is, the value of equation (1) is calculated.

(ステップS404)文書取得手段21は、算出した式(1)の値を、図示しない記録媒体に一時的に記憶する。なお、この記憶の際に、その式(1)の値に対応付けて、その値を算出した文書を識別する情報も記憶することが好適である。その文書を識別する情報は、例えば、カウンタの値であってもよく、コーパス記憶部15で記憶されている文書の位置を示すポインタであってもよく、あるいは、その他の文書の識別情報であってもよい。
(ステップS405)文書取得手段21は、カウンタiを1だけインクリメントする。
(Step S404) The document acquisition means 21 temporarily stores the calculated value of the expression (1) in a recording medium (not shown). In this storage, it is preferable to store information for identifying the document for which the value is calculated in association with the value of the expression (1). The information for identifying the document may be, for example, a counter value, a pointer indicating the position of the document stored in the corpus storage unit 15, or other document identification information. May be.
(Step S405) The document acquisition means 21 increments the counter i by 1.

(ステップS406)文書取得手段21は、コーパス記憶部15で記憶されているコーパスに、i番目の文書が存在するかどうか判断する。そして、存在する場合には、ステップS402に戻り、そうでない場合には、ステップS407に進む。   (Step S406) The document acquisition unit 21 determines whether or not the i-th document exists in the corpus stored in the corpus storage unit 15. And when it exists, it returns to step S402, and when that is not right, it progresses to step S407.

(ステップS407)文書取得手段21は、ステップS404で一時的に記憶した式(1)の値をソートする。   (Step S407) The document acquisition unit 21 sorts the values of the formula (1) temporarily stored in Step S404.

(ステップS408)文書取得手段21は、ソート結果において、式(1)の値が他に比べて大きい複数の文書を選択する。そして、図5のフローチャートに戻る。なお、文書取得手段21は、前述のように、式(1)の値がしきい値以上の文書を選択してもよく、式(1)の値が大きい方から所定数、あるいは所定割合の文書を選択してもよい。また、この文書の選択は、前述のように、文書を識別する情報の取得であってもよく、コーパス記憶部15からの文書の情報そのものの取得であってもよい。   (Step S408) The document acquisition unit 21 selects a plurality of documents in which the value of the expression (1) is larger than the others in the sorting result. And it returns to the flowchart of FIG. Note that, as described above, the document acquisition unit 21 may select a document whose value of the expression (1) is equal to or greater than the threshold value. A document may be selected. Further, as described above, the selection of the document may be acquisition of information for identifying the document, or acquisition of the document information itself from the corpus storage unit 15.

図7は、図5のフローチャートにおける第1の式の算出の処理(ステップS303の処理)の詳細を示すフローチャートである。図7のフローチャートでは、前述の式(2)を用いて第1の式の値を算出する場合について説明する。また、質問情報に付与された分類情報が「程度質問」であり、かつ、回答候補情報に数表現がある場合には、式(2)の値が1.1倍されるものとする。また、質問情報に付与された分類情報が「定義質問」であり、かつ、回答候補情報にフォーカス表現が含まれる場合には、式(2)の値が1.1倍されるものとする。また、また、質問情報に付与された分類情報が「定義質問」であり、かつ、回答候補情報にフォーカス表現が含まれ、かつ、回答候補情報においてフォーカス表現が連体修飾節で修飾されている場合には、式(2)の値が1.1倍されるものとする。   FIG. 7 is a flowchart showing details of the calculation processing of the first equation (processing in step S303) in the flowchart of FIG. In the flowchart of FIG. 7, a case where the value of the first equation is calculated using the above-described equation (2) will be described. Further, when the classification information given to the question information is a “degree question” and the answer candidate information has a numerical expression, the value of the expression (2) is multiplied by 1.1. Further, when the classification information given to the question information is a “definition question” and the answer candidate information includes a focus expression, the value of Expression (2) is multiplied by 1.1. In addition, when the classification information given to the question information is a “definition question”, the answer candidate information includes a focus expression, and the focus candidate expression is modified with a combination modification clause in the answer candidate information Is assumed to be 1.1 times the value of equation (2).

(ステップS501)算出手段23は、カウンタiを1に設定する。
(ステップS502)算出手段23は、カウンタjを1に設定する。
(Step S501) The calculation means 23 sets the counter i to 1.
(Step S502) The calculation means 23 sets the counter j to 1.

(ステップS503)算出手段23は、文書取得手段21が取得したi番目の文書において、j番目の回答候補情報を特定する。算出手段23は、例えば、j番目の回答候補情報を取得することによって、その特定を行ってもよく、j番目の回答候補情報が記憶されている位置を示すポインタ等を取得することによって、その特定を行ってもよく、結果として、後の処理で特定された回答候補情報を用いることができるのであれば、その特定の方法を問わない。   (Step S503) The calculation unit 23 specifies j-th answer candidate information in the i-th document acquired by the document acquisition unit 21. For example, the calculation unit 23 may specify the j-th answer candidate information by acquiring the pointer, and the pointer indicating the position where the j-th answer candidate information is stored. As long as the answer candidate information specified in the subsequent process can be used as a result, the specific method may be used.

(ステップS504)算出手段23は、用語抽出部13が抽出した用語と、追加用語取得手段22が取得した追加用語と、ステップS503で特定した回答候補情報と、上記の式(2)、(3)と、コーパス記憶部15で記憶されているコーパスとを用いて、式(2)の値を算出する。なお、質問情報に付与された分類情報が「程度質問」「定義質問」でない場合には、この式(2)の値が、第1の式の値となる。   (Step S504) The calculating unit 23 calculates the term extracted by the term extracting unit 13, the additional term acquired by the additional term acquiring unit 22, the answer candidate information specified in Step S503, and the above formulas (2) and (3 ) And the corpus stored in the corpus storage unit 15, the value of equation (2) is calculated. When the classification information given to the question information is not “degree question” or “definition question”, the value of the equation (2) is the value of the first equation.

(ステップS505)算出手段23は、算出した式(2)の値を、図示しない記録媒体に一時的に記憶する。なお、この記憶の際に、その式(2)の値に対応付けて、その値を算出した回答候補情報を識別する情報も記憶することが好適である。その回答候補情報を識別する情報は、例えば、カウンタi,jの値であってもよく、その回答候補情報の含まれる文書を識別する情報と、その文書における回答候補情報の位置を示すポインタであってもよく、回答候補情報そのものであってもよく、あるいは、その他の識別情報であってもよい。   (Step S505) The calculating means 23 temporarily stores the calculated value of the formula (2) in a recording medium (not shown). In this storage, it is preferable to store information for identifying the answer candidate information for which the value is calculated in association with the value of the expression (2). The information for identifying the answer candidate information may be, for example, the values of the counters i and j, and includes information for identifying a document including the answer candidate information and a pointer indicating the position of the answer candidate information in the document. May be the answer candidate information itself, or may be other identification information.

(ステップS506)算出手段23は、質問情報受付部11が受け付けた質問情報に付与された分類情報が程度質問であるかどうか判断する。そして、程度質問である場合には、ステップS507に進み、そうでない場合には、ステップS513に進む。   (Step S506) The calculation unit 23 determines whether the classification information given to the question information received by the question information receiving unit 11 is a degree question. And when it is a degree question, it progresses to Step S507, and when that is not right, it progresses to Step S513.

(ステップS507)算出手段23は、i番目の文書におけるj番目の回答候補情報に、数表現が含まれるかどうか判断する。そして、数表現が含まれる場合には、ステップS508に進み、そうでない場合には、ステップS509に進む。   (Step S507) The calculation unit 23 determines whether or not the number expression is included in the jth answer candidate information in the i-th document. If a numerical expression is included, the process proceeds to step S508, and if not, the process proceeds to step S509.

(ステップS508)算出手段23は、ステップS505で一時的に記憶した式(2)の値を1.1倍して、上書きで蓄積する。その上書き後の値が、第1の式の値となる。
(ステップS509)算出手段23は、カウンタjを1だけインクリメントする。
(Step S508) The calculation means 23 multiplies the value of the expression (2) temporarily stored in Step S505 by 1.1 and accumulates it by overwriting. The value after overwriting becomes the value of the first expression.
(Step S509) The calculation means 23 increments the counter j by 1.

(ステップS510)算出手段23は、i番目の文書にj番目の回答候補情報が存在するかどうか判断する。そして、存在する場合には、ステップS503に戻り、存在しない場合には、ステップS511に進む。
(ステップS511)算出手段23は、カウンタiを1だけインクリメントする。
(Step S510) The calculation means 23 determines whether or not the jth answer candidate information exists in the ith document. And when it exists, it returns to step S503, and when it does not exist, it progresses to step S511.
(Step S511) The calculation means 23 increments the counter i by 1.

(ステップS512)算出手段23は、文書取得手段21によって取得されたi番目の文書が存在するかどうか判断する。そして、存在する場合には、ステップS502に戻り、存在しない場合には、図5のフローチャートに戻る。   (Step S512) The calculation unit 23 determines whether or not the i-th document acquired by the document acquisition unit 21 exists. And when it exists, it returns to step S502, and when it does not exist, it returns to the flowchart of FIG.

(ステップS513)算出手段23は、質問情報受付部11が受け付けた質問情報に付与された分類情報が定義質問であるかどうか判断する。そして、定義質問である場合には、ステップS514に進み、そうでない場合には、ステップS509に進む。   (Step S513) The calculation unit 23 determines whether the classification information given to the question information received by the question information receiving unit 11 is a definition question. If it is a definition question, the process proceeds to step S514, and if not, the process proceeds to step S509.

(ステップS514)算出手段23は、i番目の文書におけるj番目の回答候補情報に、用語抽出部13が抽出したフォーカス表現が存在するかどうか判断する。そして、存在する場合には、ステップS515に進み、存在しない場合(フォーカス表現の抽出が行われていない場合を含む)には、ステップS509に進む。   (Step S514) The calculation means 23 determines whether or not the focus expression extracted by the term extraction unit 13 exists in the jth answer candidate information in the ith document. If it exists, the process proceeds to step S515. If it does not exist (including the case where the focus expression is not extracted), the process proceeds to step S509.

(ステップS515)算出手段23は、ステップS505で一時的に記憶した式(2)の値を1.1倍して、上書きで蓄積する。これより後にその値の上書きが行われない場合には、その上書き後の値が、第1の式の値となる。   (Step S515) The calculation means 23 multiplies the value of the expression (2) temporarily stored in step S505 by 1.1 and accumulates it by overwriting. If the value is not overwritten after that, the value after the overwriting becomes the value of the first expression.

(ステップS516)算出手段23は、i番目の文書におけるj番目の回答候補情報に含まれるフォーカス表現が、連体修飾節によって修飾されているかどうか判断する。そして、連体修飾節によって修飾されている場合には、ステップS517に進み、そうでない場合には、ステップS509に進む。   (Step S516) The calculation unit 23 determines whether or not the focus expression included in the jth answer candidate information in the i-th document is modified by the combination modification clause. If it is modified by the linkage modification clause, the process proceeds to step S517, and if not, the process proceeds to step S509.

(ステップS517)算出手段23は、算出手段23は、ステップS516において上書きで蓄積した値をさらに1.1倍して、上書きで蓄積する。その上書き後の値が、第1の式の値となる。   (Step S517) The calculation unit 23 further multiplies the value accumulated by overwriting in step S516 by 1.1 and accumulates it by overwriting. The value after overwriting becomes the value of the first expression.

(ステップS518)算出手段23は、i番目の文書におけるj番目の回答候補情報を、フォーカス表現を修飾する連体修飾節に置き換える。そして、ステップS509に進む。   (Step S518) The calculation unit 23 replaces the jth answer candidate information in the i-th document with a linkage modification clause that modifies the focus expression. Then, the process proceeds to step S509.

なお、図7のフローチャートにおけるステップS518の処理は、算出手段23によって行われてもよく、あるいは、回答情報選択手段24によって行われてもよい。また、図7のフローチャートでは、質問情報が「程度質問」「定義質問」に分類された場合についてのみ、第1の式の値を、式(2)から変更する場合について説明したが、質問情報がその他の分類に分類された場合についても、第1の式の値を、式(2)から変更するようにしてもよい。また、その変更の程度が、「1.1倍」である場合について説明したが、そうでなくてもよい。   Note that the processing in step S518 in the flowchart of FIG. 7 may be performed by the calculation unit 23 or may be performed by the answer information selection unit 24. Further, in the flowchart of FIG. 7, the case where the value of the first expression is changed from the expression (2) is described only when the question information is classified into “degree question” and “definition question”. In the case where is classified into other classifications, the value of the first expression may be changed from Expression (2). Moreover, although the case where the degree of the change is “1.1 times” has been described, this need not be the case.

図8は、図5のフローチャートにおける回答情報の選択の処理(ステップS304の処理)の詳細を示すフローチャートである。図8のフローチャートにおいて、回答情報選択手段24は、回答候補情報の選択と共に、選択された回答候補情報に含まれる回答情報の特定の処理を行うものとする。その回答情報の特定は、機械学習を用いて行われるものとする。なお、ステップS601からの処理が実行される前に、あらかじめ機械学習の処理が行われているものとする。   FIG. 8 is a flowchart showing details of the answer information selection process (the process of step S304) in the flowchart of FIG. In the flowchart of FIG. 8, it is assumed that the answer information selection unit 24 performs a process of specifying the answer information included in the selected answer candidate information along with the selection of the answer candidate information. The answer information is specified using machine learning. It is assumed that machine learning processing is performed in advance before the processing from step S601 is executed.

(ステップS601)回答情報選択手段24は、算出手段23によって算出された値を用いて、回答候補情報をソートする。例えば、回答情報選択手段24は、回答候補情報が、その回答候補情報に対応する値(算出手段23によって算出された値)の降順となるようにソートする。   (Step S601) The answer information selecting unit 24 sorts the answer candidate information using the value calculated by the calculating unit 23. For example, the answer information selecting unit 24 sorts the answer candidate information so that the values corresponding to the answer candidate information (values calculated by the calculating unit 23) are in descending order.

(ステップS602)回答情報選択手段24は、ソート結果において、算出手段23によって算出された値が他に比べて大きい1以上の回答候補情報を選択する。なお、回答情報選択手段24は、前述のように、算出手段23の算出した値がしきい値以上の回答候補情報を選択してもよく、算出手段23の算出した値が大きい方から所定数、あるいは所定割合の回答候補情報を選択してもよい。   (Step S602) The answer information selection means 24 selects one or more answer candidate information whose values calculated by the calculation means 23 are larger than others in the sorting result. Note that, as described above, the answer information selecting unit 24 may select answer candidate information whose value calculated by the calculating unit 23 is equal to or greater than a threshold value, and a predetermined number from the larger value calculated by the calculating unit 23. Alternatively, a predetermined percentage of answer candidate information may be selected.

(ステップS603)回答情報選択手段24は、カウンタiを1に設定する。
(ステップS604)回答情報選択手段24は、カウンタjを1に設定する。
(Step S603) The answer information selection unit 24 sets the counter i to 1.
(Step S604) The answer information selection unit 24 sets the counter j to 1.

(ステップS605)回答情報選択手段24は、i番目の回答候補情報において、j番目の部分を特定する。特定される部分の単位は、あらかじめ決まっていてもよい。例えば、特定される部分が文単位である場合には、回答情報選択手段24は、i番目の回答候補情報において、j番目の文を特定する。また、例えば、特定される部分がパラグラフ単位である場合には、回答情報選択手段24は、i番目の回答候補情報において、j番目のパラグラフを特定する。   (Step S605) The answer information selection unit 24 specifies the j-th part in the i-th answer candidate information. The unit of the specified part may be determined in advance. For example, when the specified part is a sentence unit, the answer information selecting unit 24 specifies the jth sentence in the i-th answer candidate information. For example, when the specified part is a paragraph unit, the answer information selecting unit 24 specifies the jth paragraph in the i-th answer candidate information.

(ステップS606)回答情報選択手段24は、ステップS605で特定した部分が回答情報であるかどうかを、機械学習の結果を用いて判断する。そして、回答情報であると判断した場合には、ステップS607に進み、そうでない場合には、ステップS608に進む。   (Step S606) The answer information selecting unit 24 determines whether or not the part specified in Step S605 is answer information using the result of machine learning. If it is determined that the information is answer information, the process proceeds to step S607. If not, the process proceeds to step S608.

(ステップS607)回答情報選択手段24は、回答情報であると判断した部分を、回答情報として、図示しない記録媒体において一時的に記憶する。
(ステップS608)回答情報選択手段24は、カウンタjを1だけインクリメントする。
(Step S607) The response information selection unit 24 temporarily stores the portion determined to be response information as response information in a recording medium (not shown).
(Step S608) The answer information selection unit 24 increments the counter j by 1.

(ステップS609)回答情報選択手段24は、i番目の回答候補情報に、j番目の部分が存在するかどうか判断する。そして、存在する場合には、ステップS605に戻り、存在しない場合には、ステップS610に進む。
(ステップS610)回答情報選択手段24は、カウンタiを1だけインクリメントする。
(Step S609) The answer information selecting unit 24 determines whether or not the j-th part exists in the i-th answer candidate information. And when it exists, it returns to step S605, and when it does not exist, it progresses to step S610.
(Step S610) The answer information selection means 24 increments the counter i by 1.

(ステップS611)回答情報選択手段24は、算出手段23が値を算出した回答候補情報に、i番目の回答候補情報が存在するかどうか判断する。そして、存在する場合には、ステップS604に戻り、そうでない場合には、図5のフローチャートに戻る。   (Step S611) The answer information selecting unit 24 determines whether or not the i-th answer candidate information exists in the answer candidate information whose value is calculated by the calculating unit 23. If it exists, the process returns to step S604, and if not, the process returns to the flowchart of FIG.

なお、図8のフローチャートにおいて、選択された回答候補情報の部分を回答情報とする場合について説明したが、その処理を行わなくてもよい。例えば、ステップS602で選択された回答候補情報を、回答情報としてもよい。また、ステップS602で選択された回答候補情報、あるいは、ステップS602の処理を行わない回答候補情報から、機械学習の結果を用いて回答候補情報を選択して、その選択した回答候補情報を回答情報としてもよい。その場合には、カウンタjを用いずに(すなわち、i番目の回答候補情報におけるj番目の部分の特定を行わずに)、機械学習の結果を用いて、i番目の回答候補情報が回答情報であるかどうかの判断を行ってもよい。また、図8のフローチャートにおいて、ステップS601、S602の処理を行わずに、機械学習の結果を用いた回答情報の選択のみの処理(ステップS603〜S611)を行うようにしてもよい。なお、図8のフローチャートでステップS602の処理を行わない場合であっても、機械学習の際に、第1の式の値を教師データとして用いることによって、回答情報取得部16は、間接的に、追加用語、用語抽出部13が抽出した用語、分類情報に応じた式(第1の式)とを用いて回答情報を取得することになる。また、図7のフローチャートにおいて、回答候補情報が、フォーカス表現を修飾する連体修飾節に置き換えられた場合(ステップS518の処理が実行された場合)には、ステップS605において、回答候補情報そのものを特定するようにしてもよい。   In the flowchart of FIG. 8, the case where the selected answer candidate information portion is used as the answer information has been described, but the process may not be performed. For example, the answer candidate information selected in step S602 may be used as the answer information. Also, answer candidate information is selected from the answer candidate information selected in step S602 or the answer candidate information that is not subjected to the processing in step S602 using the result of machine learning, and the selected answer candidate information is used as the answer information. It is good. In that case, without using the counter j (that is, without specifying the j-th part in the i-th answer candidate information), the i-th answer candidate information is the answer information using the machine learning result. It may be determined whether or not. Further, in the flowchart of FIG. 8, the processing of only selection of answer information using the result of machine learning (steps S603 to S611) may be performed without performing the processing of steps S601 and S602. Even if the process of step S602 is not performed in the flowchart of FIG. 8, the answer information acquisition unit 16 indirectly uses the value of the first equation as teacher data during machine learning. The answer information is acquired using the additional term, the term extracted by the term extracting unit 13, and the formula (first formula) corresponding to the classification information. In the flowchart of FIG. 7, when the answer candidate information is replaced with a combination modification clause that modifies the focus expression (when the process of step S518 is executed), the answer candidate information itself is specified in step S605. You may make it do.

また、図8のフローチャートでは、1以上の回答情報を選択する場合について説明したが、1個の回答情報を選択するようにしてもよい。例えば、ステップS602において、1個の回答候補緒情報のみを選択するようにしてもよく、あるいは、ステップS606における機械学習の結果を用いた判断において、確からしさ(確信度)の最も高い回答情報を選択するようにしてもよい。   Moreover, although the case where one or more answer information is selected has been described in the flowchart of FIG. 8, one answer information may be selected. For example, in step S602, only one answer candidate information may be selected, or in the determination using the result of machine learning in step S606, the answer information having the highest certainty (confidence level) is selected. You may make it select.

次に、本実施の形態による質問応答装置1の動作について、具体例を用いて説明する。
この具体例において、本実施の形態による質問応答装置1は、スタンドアロンのPC(Personal Computer)であるとする。
Next, the operation of the question answering apparatus 1 according to the present embodiment will be described using a specific example.
In this specific example, it is assumed that the question answering apparatus 1 according to the present embodiment is a stand-alone PC (Personal Computer).

また、この具体例において、対応情報記憶部14では、図9で示される対応情報が記憶されているものとする。図9の対応情報において、分類情報と、追加用語とが対応付けられている。なお、この具体例において、分類部12は、質問情報を、定義質問、理由質問、方法質問、程度質問、変化質問、経緯質問の6種類に分類するものとするが、図9で示されるように、追加用語と対応していない分類情報が存在してもよい。また、この具体例において、質問情報の分類は、機械学習を用いて行うものとする。   In this specific example, the correspondence information storage unit 14 stores the correspondence information shown in FIG. In the correspondence information in FIG. 9, classification information and additional terms are associated with each other. In this specific example, the classification unit 12 classifies the question information into six types of definition questions, reason questions, method questions, degree questions, change questions, and history questions, as shown in FIG. There may be classification information that does not correspond to the additional terms. In this specific example, the question information is classified using machine learning.

まず、ユーザが、質問応答装置1のマウスやキーボード等を操作することにより、図10で示されるように、質問入力画面を表示させたとする。そして、ユーザが、キーボード等を操作することによって、質問情報「世界遺産は、どのようにして決まるのですか。」を入力し、「OK」ボタンをクリックしたとする。すると、質問情報受付部11は、質問情報「世界遺産は、どのようにして決まるのですか。」を受け付け(ステップS101)、その質問情報を分類部12と、用語抽出部13とに渡す。   First, it is assumed that the user operates the mouse, keyboard, etc. of the question answering apparatus 1 to display the question input screen as shown in FIG. Then, it is assumed that the user inputs the question information “How is World Heritage determined?” By operating a keyboard or the like, and clicks the “OK” button. Then, the question information reception unit 11 receives the question information “How is World Heritage determined?” (Step S101), and passes the question information to the classification unit 12 and the term extraction unit 13.

分類部12では、あらかじめ、分類に関する機械学習を行っているものとする。そして、質問情報「世界遺産は、どのようにして決まるのですか。」を質問情報受付部11から受け付けると、その学習結果を用いて、質問情報を分類する。この場合には、分類部12は、その質問情報に分類情報「方法質問」を付与したとする(ステップS102)。分類部12は、その分類結果(付与された分類情報)を用語抽出部13と、回答情報取得部16に渡す。   It is assumed that the classification unit 12 performs machine learning related to classification in advance. When the question information “How is World Heritage determined?” Is received from the question information receiving unit 11, the question information is classified using the learning result. In this case, it is assumed that the classification unit 12 assigns the classification information “method question” to the question information (step S102). The classification unit 12 passes the classification result (assigned classification information) to the term extraction unit 13 and the answer information acquisition unit 16.

用語抽出部13は、質問情報を質問情報受付部11から受け取り、分類情報を分類部12から受け取ると、用語を抽出する処理を実行する(ステップS103)。具体的には、用語抽出部13は、質問情報「世界遺産は、どのようにして決まるのですか。」を形態素解析し(ステップS201)、抽出する対象にあらかじめ決められている品詞を抽出する(ステップS202)。ここでは、名詞と動詞を抽出するように決められているものとする。すると、用語抽出部13は、形態素解析された結果から、名詞「世界遺産」と、動詞「決まる」とを抽出し(ステップS202)、図示しない記録媒体において一時的に記憶する(ステップS203)。なお、この具体例では、複合名詞「世界遺産」を抽出する場合について説明するが、名詞「世界」と、名詞「遺産」とを抽出してもよく、また、複合名詞「世界遺産」と共に、名詞「世界」と、名詞「遺産」を抽出してもよく、用語抽出部13が用語を抽出する方法としては、各種の方法が存在することになる。また、複合名詞を抽出する方法として、例えば、連続した名詞を複合名詞として抽出する方法を用いてもよく、前述した固有表現抽出と同様に、人手のルールや機械学習を用いて抽出する方法を用いてもよく、前述したTermExtractを用いて抽出する方法を用いてもよく、複合名詞を抽出することができるのであれば、その方法は限定されない。   When the term extraction unit 13 receives the question information from the question information reception unit 11 and receives the classification information from the classification unit 12, the term extraction unit 13 executes a process of extracting a term (step S103). Specifically, the term extraction unit 13 performs morphological analysis on the question information “How is World Heritage determined?” (Step S201), and extracts parts of speech that are predetermined as extraction targets. (Step S202). Here, it is assumed that nouns and verbs are extracted. Then, the term extraction unit 13 extracts the noun “world heritage” and the verb “determined” from the result of the morphological analysis (step S202), and temporarily stores them in a recording medium (not shown) (step S203). In this specific example, the case of extracting the compound noun “world heritage” will be described, but the noun “world” and the noun “world heritage” may be extracted. The noun “world” and the noun “heritage” may be extracted, and there are various methods by which the term extracting unit 13 extracts terms. In addition, as a method of extracting compound nouns, for example, a method of extracting consecutive nouns as compound nouns may be used, and a method of extracting using human rules or machine learning, as in the above-described proper expression extraction. You may use, the method of extracting using TermExtract mentioned above may be used, and the method will not be limited if compound noun can be extracted.

また、用語抽出部13は、分類部12から受け取った分類情報が「定義質問」であるかどうか判断する。この場合には、分類情報は「方法質問」であるため、用語抽出部13は、分類情報が「定義質問」ではないと判断し(ステップS204)、その後のフォーカス表現を抽出する処理は行わない。   The term extraction unit 13 determines whether the classification information received from the classification unit 12 is a “definition question”. In this case, since the classification information is a “method question”, the term extraction unit 13 determines that the classification information is not a “definition question” (step S204), and does not perform a process of extracting a focus expression thereafter. .

その後、回答情報取得部16は、回答情報を取得する処理を実行する(ステップS104)。その回答情報を取得する処理において、まず、文書取得手段21は、コーパス記憶部15から文書を取得する処理を実行する(ステップS301)。具体的には、文書取得手段21は、コーパス記憶部15で記憶されている1番目の文書を読み出す(ステップS401,S402)。ここで、その1番目の文書を識別する文書IDは、「D001」であったとする。次に、文書取得手段21は、前述の式(1)が記憶されている図示しない記録媒体から式(1)を読み出し、また、用語抽出部13が一時的に記憶した用語「世界遺産」「決まる」を読み出し、それらを用いて、式(1)の値を算出する(ステップS403)。ここでは、式(1)の値が「2.3」であったとする。そして、文書取得手段21は、文書ID「D001」に対応付けて、その式(1)の値「2.3」を図示しない記録媒体で一時的に記憶する(ステップS404)。図11の1番目のレコードは、そのようにして記憶されたものである。同様の処理を、文書取得手段21は、2番目の文書、3番目の文書、…について、順次、実行する(ステップS405,S406,S402〜S404)。   Thereafter, the response information acquisition unit 16 executes a process of acquiring response information (step S104). In the process of acquiring the answer information, first, the document acquisition unit 21 executes a process of acquiring a document from the corpus storage unit 15 (step S301). Specifically, the document acquisition unit 21 reads the first document stored in the corpus storage unit 15 (steps S401 and S402). Here, it is assumed that the document ID for identifying the first document is “D001”. Next, the document acquisition unit 21 reads the formula (1) from a recording medium (not shown) in which the above formula (1) is stored, and the terms “world heritage” and “temporarily” stored by the term extraction unit 13. “Determined” is read out and the value of equation (1) is calculated using them (step S403). Here, it is assumed that the value of Expression (1) is “2.3”. Then, the document acquisition unit 21 temporarily stores the value “2.3” of the expression (1) in association with the document ID “D001” on a recording medium (not shown) (step S404). The first record in FIG. 11 is stored in this way. The document acquisition unit 21 sequentially executes the same processing for the second document, the third document,... (Steps S405, S406, S402 to S404).

すべての文書について、式(1)の値を算出した後に、文書取得手段21は、算出した値を降順となるようにソートする(ステップS407)。そして、そのソートした結果において、値の大きいものから300個の文書IDを取得して図示しない記録媒体に蓄積する(ステップS408)。このようにして、文書取得手段21による文書の取得が行われる。ここでは、文書ID「D002」「D003」…が選択されたものとする。   After calculating the value of equation (1) for all documents, the document acquisition means 21 sorts the calculated values in descending order (step S407). Then, in the sorted result, 300 document IDs having the largest value are acquired and stored in a recording medium (not shown) (step S408). In this way, the document acquisition unit 21 acquires the document. Here, it is assumed that document IDs “D002”, “D003”... Are selected.

次に、追加用語取得手段22は、分類部12から受け取った分類情報「方法質問」をキーとして、図9で示される対応情報を検索し、検索された「方法質問」に対応付けられている追加用語「方法」「手順」「ことにより」を読み出して、図示しない記録媒体に蓄積する(ステップS302)。   Next, the additional term acquisition unit 22 searches the correspondence information shown in FIG. 9 using the classification information “method question” received from the classification unit 12 as a key, and associates it with the searched “method question”. The additional terms “method”, “procedure” and “by” are read and stored in a recording medium (not shown) (step S302).

文書取得手段21による文書の取得と、追加用語取得手段22による追加用語の取得との後に、算出手段23は、第1の式の値を算出する処理を実行する(ステップS303)。ここで、算出手段23は、文書取得手段21が取得した文書において、1パラグラフを回答候補情報として、第1の式の値を算出するものとする。また、文書取得手段21が取得した、文書ID「D002」で識別される文書は、図12で示されるものであったとする。   After the acquisition of the document by the document acquisition unit 21 and the acquisition of the additional term by the additional term acquisition unit 22, the calculation unit 23 executes a process of calculating the value of the first expression (step S303). Here, it is assumed that the calculation unit 23 calculates the value of the first expression using one paragraph as answer candidate information in the document acquired by the document acquisition unit 21. Further, it is assumed that the document identified by the document ID “D002” acquired by the document acquisition unit 21 is the one shown in FIG.

すると、算出手段23は、まず、1番目の文書である、図12で示される文書の1番目のパラグラフ、すなわち、「世界遺産とは、……、もつものである。」を回答候補情報として特定する(ステップS501〜S503)。そして、算出手段23は、用語抽出部13が蓄積した用語「世界遺産」「決まる」と、追加用語取得手段22が蓄積した追加用語「方法」「手順」「ことにより」とを読み出し、図示しない記録媒体で記憶されている式(3)も読み出し、それらとコーパスとを用いて、T3のセットを算出する。その後、算出したT3のセットと、用語「世界遺産」「決まる」や追加用語「方法」「手順」「ことにより」、コーパス、図示しない記録媒体から読み出した式(2)などを用いて、式(2)の値を算出する(ステップS504)。ここでは、2.6となったものとする。すると、算出手段23は、その値を、回答候補情報を識別する情報に対応付けて図示しない記録媒体に蓄積する(ステップS505)。図13の1番目のレコードは、そのようにして蓄積された第1の式のスコアと、回答候補情報の識別情報とを対応付けて有する情報である。回答候補情報の識別情報としては、文書IDと、文書におけるパラグラフ番号とが用いられている。パラグラフ番号は、文書の先頭から数えたパラグラフの数を示す値である。   Then, the calculation means 23 first sets the first document, that is, the first paragraph of the document shown in FIG. 12, that is, “World Heritage has ...” as the answer candidate information. Specify (steps S501 to S503). Then, the calculation unit 23 reads the terms “world heritage” “determined” accumulated by the term extraction unit 13 and the additional terms “method”, “procedure”, and “according” accumulated by the additional term acquisition unit 22, and is not illustrated. The equation (3) stored in the recording medium is also read, and a set of T3 is calculated using these and the corpus. Then, using the calculated T3 set and the terms “world heritage”, “determined”, additional terms “method”, “procedure”, “by”, corpus, equation (2) read from a recording medium (not shown), and the like, The value of (2) is calculated (step S504). Here, it is assumed that 2.6. Then, the calculation unit 23 stores the value in a recording medium (not shown) in association with information for identifying the answer candidate information (step S505). The first record in FIG. 13 is information having the score of the first expression accumulated in this way and the identification information of the answer candidate information in association with each other. As identification information of the answer candidate information, a document ID and a paragraph number in the document are used. The paragraph number is a value indicating the number of paragraphs counted from the top of the document.

この場合には、分類情報は「方法質問」であって、「程度質問」や「定義質問」ではないため、回答候補情報の特定と、式(2)の値の算出と、その蓄積とが順次、行われることになる(ステップS509,S510,S503〜S505)。また、1番目の文書について終了すれば、順次、2番目、3番目、…の文書についても、同様に、その文書に含まれるパラグラフごとの式(2)の値が算出され、蓄積されていく(ステップS502〜S505,S509〜S512)。   In this case, since the classification information is a “method question” and not a “degree question” or a “definition question”, the identification of the answer candidate information, the calculation of the value of equation (2), and the accumulation thereof are performed. The steps are sequentially performed (steps S509, S510, S503 to S505). When the first document is completed, the value of the expression (2) for each paragraph included in the document is similarly calculated and accumulated for the second, third,. (Steps S502 to S505, S509 to S512).

第1の式の値を算出する一連の処理が終了すると、回答情報選択手段24は、回答情報を選択する処理を実行する(ステップS304)。具体的には、回答情報選択手段24は、図13で示される算出結果を図示しない記録媒体から読み出し、第1の式のスコアの降順となるように各レコードをソートする(ステップS601)。そして、第1の式のスコアの最大値(ここでは、9.7であったとする)に0.9を掛けた値(=8.73)以上の第1の式のスコアを有する回答候補情報を選択する(ステップS602)。ここで、選択された回答候補情報は、文書ID「D002」と、パラグラフ番号「3」で識別される回答候補情報のみであったとする。また、回答情報選択手段24は、回答候補情報に含まれる文ごとに、その文が回答情報として、適切であるかどうかを、機械学習によって判断するものとする。その判断のための機械学習は、あらかじめ、行われているものとする。   When the series of processes for calculating the value of the first expression is completed, the answer information selecting unit 24 executes a process of selecting answer information (step S304). Specifically, the answer information selection unit 24 reads out the calculation result shown in FIG. 13 from a recording medium (not shown), and sorts the records so that the scores in the first formula are in descending order (step S601). Then, the answer candidate information having a score of the first expression equal to or larger than a value (= 8.73) obtained by multiplying the maximum value (here, 9.7) of the score of the first expression by 0.9. Is selected (step S602). Here, it is assumed that the selected answer candidate information is only the answer candidate information identified by the document ID “D002” and the paragraph number “3”. In addition, the answer information selection unit 24 determines, for each sentence included in the answer candidate information, whether or not the sentence is appropriate as the answer information by machine learning. It is assumed that machine learning for the determination is performed in advance.

すると、回答情報選択手段24は、選択された1番目の回答候補情報である、図12で示される段落「登録の手順としては、……」から、1番目の文を特定する(ステップS603〜S605)。そして、回答情報選択手段24は、機械学習の結果を用いて、その特定した文「登録の手順としては、……専門家団体が評価する。」が回答情報であるかどうか判断する。ここでは、その文が回答情報であると判断されたとする(ステップS606)。すると、回答情報選択手段24は、その文を回答情報として、図示しない記録媒体に蓄積し(ステップS607)、次の2番目の文「そして、その評価結果に基づいて、……決定する。」を特定し、その文が回答情報であるかどうか判断する(ステップS608,S609,S605,S606)。この場合には、回答情報ではないと判断されたとする。そして、回答情報を選択する一連の処理は、終了となる。   Then, the answer information selecting unit 24 specifies the first sentence from the paragraph “Registering procedure as a registration procedure ...” shown in FIG. 12, which is the selected first answer candidate information (step S603). S605). Then, the response information selection unit 24 determines whether the specified sentence “As for the registration procedure, ... an expert group evaluates” is the response information, using the result of machine learning. Here, it is assumed that the sentence is determined to be answer information (step S606). Then, the answer information selection means 24 stores the sentence as answer information in a recording medium (not shown) (step S607), and the next second sentence “and determines based on the evaluation result”. Is determined and it is determined whether or not the sentence is answer information (steps S608, S609, S605, and S606). In this case, it is assumed that it is not answer information. Then, a series of processes for selecting the answer information ends.

その後、回答情報出力部17は、回答情報選択手段24が蓄積した回答情報を図示しない記録媒体から読み出し、その回答情報を質問応答装置1のディスプレイに表示する(ステップS105)。図14は、そのようにして表示された回答情報を示す図である。質問を入力したユーザは、この表示を見ることによって、質問への回答を知ることができうる。   Thereafter, the answer information output unit 17 reads the answer information accumulated by the answer information selection unit 24 from a recording medium (not shown) and displays the answer information on the display of the question answering apparatus 1 (step S105). FIG. 14 is a diagram showing the answer information displayed as described above. The user who has input the question can know the answer to the question by viewing this display.

なお、回答情報を質問応答装置1のディスプレイに表示する際に、その回答情報が含まれる文書全体をディスプレイに表示し、その上で、回答情報と、回答情報以外の文書の箇所とを区別可能なように表示してもよい。区別可能なように表示するとは、例えば、回答情報と、回答情報以外の文書の箇所との表示の色を変更することであってもよく、表示のフォントの大きさやフォントの種類を変更することであってもよく、回答情報の箇所にのみ下線を付与することであってもよく、回答情報の箇所のみ、枠囲みや網掛け等を行うことであってもよく、回答情報以外の文書の箇所を、回答情報よりも薄く表示することであってもよい。
また、この具体例において用いた数値等は、説明のために設定した値であって、実際のデータを解析することによって算出したものではない。
When the answer information is displayed on the display of the question answering apparatus 1, the entire document including the answer information is displayed on the display, and the answer information can be distinguished from the document other than the answer information. You may display as follows. Displaying in a distinguishable manner may be, for example, changing the display color of the response information and the portion of the document other than the response information, and changing the display font size and font type. It may be possible to add an underline only to the part of the response information, or to frame or shade only the part of the response information. The location may be displayed thinner than the answer information.
The numerical values used in this specific example are values set for explanation, and are not calculated by analyzing actual data.

また、この具体例においては、機械学習によって分類を行う場合について説明したが、前述のように、分類対応情報を用いて分類を行ってもよいことは言うまでもない。その場合に用いる分類情報は、例えば、図15で示されるものであってもよい。   Further, in this specific example, the case of performing classification by machine learning has been described, but it goes without saying that classification may be performed using classification correspondence information as described above. The classification information used in that case may be, for example, that shown in FIG.

[実験例]
次に、実験例について説明する。この実験において、100個の非ファクトイド型の質問情報を用いた。その質問情報は、QAC−4の主催者によって生成されたものであり、ターゲット文書を用いないで生成された自然な質問である。また、QAC−4の主催者は、各質問情報に対して、4個以下の回答情報を評価した。結果は、図16に示すとおりである。方法1は、回答候補情報として、1パラグラフを用いた方法である。方法2は、回答候補情報として、1パラグラフと、連続した2パラグラフと、連続した3パラグラフとを用いた方法である。A,B,C,Dは、評価基準である。Aは、回答情報が、質問情報に対して主催者が用意した回答と同内容を記述している場合である。追加的な内容を含んでいたとしても、内容が変わらないものについては、Aと評価した。Bは、回答情報が、質問情報に対して主催者が用意した回答と類似する内容を含むが、全体として異なる内容も含んでいる場合である。Cは、回答情報が、質問情報に対して主催者が用意した回答と同じ内容の一部を含む場合である。Dは、回答情報が、質問情報に対して主催者が用意した回答と同じ内容を含まない場合である。図16のテーブルにおいて、A,B,C,Dの値は、回答情報がA,B,C,Dに属する質問情報の数である。「正解」は、回答情報がA,B,Cのいずれかに属する場合の質問情報の数である。この正解の評価基準は、NTCIR−6 QAC−4でも公式に用いられたものである。
[Experimental example]
Next, experimental examples will be described. In this experiment, 100 pieces of non-factoid type question information were used. The question information is generated by the QAC-4 organizer and is a natural question generated without using the target document. In addition, the organizer of QAC-4 evaluated 4 or less answer information for each question information. The results are as shown in FIG. Method 1 is a method using one paragraph as answer candidate information. Method 2 is a method using one paragraph, two consecutive paragraphs, and three consecutive paragraphs as answer candidate information. A, B, C, and D are evaluation criteria. A is a case where the answer information describes the same content as the answer prepared by the organizer for the question information. Even if additional contents were included, those whose contents did not change were evaluated as A. B is a case where the answer information includes contents similar to the answer prepared by the organizer for the question information, but also includes contents that are different as a whole. C is a case where the answer information includes a part of the same content as the answer prepared by the organizer for the question information. D is a case where the answer information does not include the same content as the answer prepared by the organizer for the question information. In the table of FIG. 16, the values of A, B, C, and D are the number of pieces of question information whose answer information belongs to A, B, C, and D. The “correct answer” is the number of question information when the answer information belongs to any one of A, B, and C. This evaluation standard for correct answers was officially used in NTCIR-6 QAC-4.

この図16で示される結果から、次のようなことが分かる。
方法1の方が方法2よりも、Aの評価において、より高いスコアを得ている。このことから、方法1が方法2よりも、完全な正解をより正確に抽出していることが分かる。
From the results shown in FIG. 16, the following can be understood.
Method 1 has a higher score in evaluation of A than Method 2. From this, it can be seen that Method 1 extracts the complete correct answer more accurately than Method 2.

「正解」の評価において、方法2の正解率は0.77であり、方法2の方が方法1よりも、より高いスコアを得ている。このことから、方法2の方が方法1よりも、部分的な正解をより多く抽出している傾向が分かる。したがって、完全な正解を抽出したい場合には、方法1を用いればよく、より多くの正解(部分的な正解を含む)を抽出したい場合には、方法2を用いればよい。   In the evaluation of “correct answer”, the correct answer rate of Method 2 is 0.77, and Method 2 has a higher score than Method 1. From this, it can be seen that Method 2 tends to extract more partial correct answers than Method 1. Therefore, when it is desired to extract a complete correct answer, the method 1 may be used, and when more correct answers (including partial correct answers) are desired, the method 2 may be used.

なお、NTCIR−6 QAC−4に参加した全8チーム中、本実施の形態による質問応答装置1を用いた方法2の正解率「0.77」は、もっとも高い値であった。このことから、本実施の形態による質問応答装置1が、他の参加チームの質問応答装置と比較して、最も効果的に回答情報の取得を行うことができたことが分かる。   Of all 8 teams participating in NTCIR-6 QAC-4, the correct answer rate “0.77” of Method 2 using the question answering apparatus 1 according to the present embodiment was the highest value. From this, it can be seen that the question answering apparatus 1 according to the present embodiment was able to acquire the answer information most effectively as compared with the question answering apparatuses of other participating teams.

ここで、本実施の形態による質問応答装置1によって実際に取得した回答情報の例について簡単に説明する。この例では、方法1を用いて、Aと評価された例を示す。   Here, an example of the answer information actually acquired by the question answering apparatus 1 according to the present embodiment will be briefly described. In this example, Method 1 is used to evaluate A.

質問情報:受精卵診断は、どういう場合に行われるのか?
回答情報:主に遺伝病の子供が生まれるのを防ぐ
QAC−4主催者が用意した回答例1:主に遺伝病
QAC−4主催者が用意した回答例2:主に遺伝病の子供が生まれる可能性が高い場合
Question information: When is a fertilized egg diagnosis performed?
Answer information: Preventing mainly children with genetic illness QAC-4 organizers prepared example 1: Mainly genetic illness QAC-4 organizers prepared answer 2: Mainly born with genetically ill children When the possibility is high

なお、この実験例の結果を得る際に用いた質問応答装置1では、式(1)〜(3)を用いた回答情報の取得を行った。そして、式(1)を用いて300の文書を取得し、その文書に含まれる回答候補情報に対して算出した式(2)の値の最大値に0.9を掛けた値以上を有する回答候補情報を、回答情報として取得して出力した。したがって、図8のフローチャートのステップS604〜S609で説明した、機械学習を用いて回答候補情報から回答情報を取得する処理は行っていない。   In addition, in the question answering apparatus 1 used when obtaining the result of this experimental example, the answer information using the formulas (1) to (3) was acquired. Then, 300 documents are obtained using the formula (1), and the answer has a value equal to or greater than a value obtained by multiplying the maximum value of the formula (2) calculated for the answer candidate information included in the document by 0.9. Candidate information was acquired and output as answer information. Therefore, the process of acquiring the answer information from the answer candidate information using the machine learning described in steps S604 to S609 in the flowchart of FIG. 8 is not performed.

以上のように、本実施の形態による質問応答装置1によれば、非ファクトイド型の質問情報に対応する回答情報を適切に抽出して出力することができる。また、実験例の結果で示されるように、本実施の形態による質問応答装置1の手法が、最も高い正解率の得られる手法であり、本実施の形態による質問応答装置1が、他の従来の質問応答装置に比べて高性能であることが分かる。   As described above, according to the question answering apparatus 1 according to the present embodiment, it is possible to appropriately extract and output answer information corresponding to non-factoid type question information. Further, as shown in the results of the experimental example, the method of the question answering apparatus 1 according to the present embodiment is a technique that can obtain the highest accuracy rate, and the question answering apparatus 1 according to the present embodiment is another conventional method. It can be seen that the performance is higher than that of the question answering apparatus.

なお、本実施の形態において、質問情報、回答情報、コーパスの言語は問わない。例えば、日本語、英語、フランス語、ロシア語、中国語、スペイン語等であってもよい。また、質問情報と、コーパスとの言語が異なっていてもよい。例えば、質問情報が日本語で、コーパスが英語である場合などである。その場合には、例えば、質問情報をコーパスの言語に翻訳した上で、処理を行ってもよく、コーパスを質問情報の言語に翻訳した上で処理を行ってもよい。一般に、前者の方が、翻訳量が少なくなると考えられ、好適である。その翻訳は、例えば、既存の機械翻訳の手法を用いてもよい。機械翻訳としては、例えば、統計的な機械翻訳等を用いることができうる。   In the present embodiment, the question information, the answer information, and the language of the corpus are not limited. For example, Japanese, English, French, Russian, Chinese, Spanish, etc. may be used. Moreover, the language of question information and corpus may differ. For example, the question information is in Japanese and the corpus is in English. In that case, for example, the processing may be performed after the question information is translated into the language of the corpus, or the processing may be performed after the corpus is translated into the language of the question information. In general, the former is preferred because it is considered that the amount of translation is reduced. For the translation, for example, an existing machine translation method may be used. As machine translation, for example, statistical machine translation can be used.

[機械学習に関する説明]
ここで、機械学習について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、そのセットを用いて学習を行なうことによって、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。例えば、次の文献を参照されたい。
[Explanation about machine learning]
Here, machine learning will be described. The machine learning method prepares many sets of problem-solution pairs, learns what kind of solution the problem will be by learning by using the set, and uses the learning results. It is a method that allows you to guess the solution even when it is a new problem. For example, see the following document.

文献:村田真樹、「機械学習に基づく言語処理」,龍谷大学理工学部.招待講演、2004年(http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1−siryou.pdf)   Literature: Maki Murata, “Language Processing Based on Machine Learning”, Faculty of Science and Engineering, Ryukoku University. Invited lecture, 2004 (http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf)

文献:村田真樹,馬青,内元清貴,井佐原均、「サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳」,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000−78,2001年   References: Masaki Murata, Ma Aoi, Kiyotaka Uchimoto, Hitoshi Isahara, “Japanese-English Translation of Tens / Aspect Modality Using Support Vector Machine”, IEICE Language Understanding and Communication, NLC 2000-78, 2001

文献:村田真樹,内山将夫,内元清貴,馬青,井佐原均、「NSEVAL2J辞書タスクでのCRLの取り組み」、電子情報通信学会言語理解とコミュニケーション研究会 NLC2001−40,2001年   References: Maki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Mao Ai, Hitoshi Isahara, "CRL's Effort in the NSEVAL2J Dictionary Task", IEICE Language Understanding and Communication Study Group, NLC 2001-40, 2001

機械学習アルゴリズムを動作させるために、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。   In order to operate a machine learning algorithm, when a problem situation is transmitted to a machine, a feature (each element constituting the problem by information used for analysis) is required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions, the problem: “He speaks.” --- If the solution “present” is given, an example of a feature is “He speaks.” . "" Speaking. "" Su "". "

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、そのセットを用いて学習を行なうことによって、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも、その問題から素性の集合を取り出して、その素性に対応する解を推測する方法である。なお、ここで、「解」とは、例えば、前述の回答情報であるかどうかや、分類情報などである。   In other words, the machine learning method prepares many sets of feature set-solution pairs, and learns what type of feature set the solution will be by learning using that set. This is a method of using a learning result to extract a set of features from a problem and guessing a solution corresponding to the feature even when the problem is a new problem. Here, the “solution” is, for example, whether or not the answer information is described above, or classification information.

機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いることができる。なお、以下の説明では、文書を分類する場合(問題−解のセットが、文−分類である場合)の機械学習について主に説明するが、それ以外の機械学習についても、同様に適用可能であることは言うまでもない。   As a machine learning method, for example, a k neighborhood method, a simple Bayes method, a decision list method, a maximum entropy method, a support vector machine method, or the like can be used. In the following description, machine learning in the case of classifying documents (when the problem-solution set is sentence-classification) will be mainly described, but the same applies to machine learning other than that. Needless to say.

k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって解(分類)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。   The k-nearest neighbor method is a technique for obtaining a solution (classification) by majority decision of k cases using the most similar k cases instead of the most similar case. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.

シンプルベイズ法は、ベイズの定理にもとづいて各解(分類)の確率を推定し、その確率値が最も大きい解を、求める解とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、次式で与えられる。
The simple Bayes method is a method in which the probability of each solution (classification) is estimated based on Bayes' theorem, and the solution having the largest probability value is determined as a solution to be obtained.
In the simple Bayes method, the probability of outputting the classification a in the context b is given by the following equation.

Figure 0005229782
Figure 0005229782

ただし、ここで文脈bは、あらかじめ設定しておいた素性f(∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(f|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fを持つ確率を意味する。P(f|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、上記の2行目の式の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、次式を用いてスムージングを行ったものを用いる。 Here, the context b is a set of features f j (εF, 1 ≦ j ≦ k) set in advance. p (b) is the appearance probability of the context b. Here, since it is independent of the classification a and is a constant, it is not calculated. P (a) (where P is a tilde at the top of p) and P (f i | a) are probabilities estimated from the teacher data, respectively, and the appearance probability of class a, and the feature f for class a means the probability of having i . If the value obtained by performing maximum likelihood estimation as P (f i | a) is used, the value is often zero, and it is difficult to determine the classification destination because the value of the expression in the second row is zero. Arise. Therefore, smoothing is performed. Here, a smoothed image using the following equation is used.

Figure 0005229782
Figure 0005229782

ただし、freq(f,a)は、素性fを持ち、かつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
なお、スムージングは、上記式を用いた方法に限られるものではなく、その他の方法を用いてもよいことは言うまでもない。
However, freq (f i, a) has a feature f i, and the number of cases classified is a, freq (a), the classification means the number of cases is a.
Needless to say, the smoothing is not limited to the method using the above formula, and other methods may be used.

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。   The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.

決定リスト方法では、あらかじめ設定しておいた素性f(∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は、次式によって与えられる。

Figure 0005229782
In the decision list method, the probability value of each classification is obtained using only one of the features f j (εF, 1 ≦ j ≦ k) set in advance as a context. The probability of outputting classification a in a context b is given by:
Figure 0005229782

ただし、fmaxは、次式によって与えられる。

Figure 0005229782
また、P(a|f)(ここでPはpの上部にチルダ)は、素性fを文脈に持つ場合の分類aの出現の割合である。 However, f max is given by the following equation.
Figure 0005229782
Further, P (a i | f j ) (where P is a tilde at the top of p) is a rate of appearance of the classification a i when the feature f j is included in the context.

最大エントロピー法は、あらかじめ設定しておいた素性f(1≦j≦k)の集合をFとするとき、以下の所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, when a set of preset features f j (1 ≦ j ≦ k) is F, the maximum entropy expression is satisfied while satisfying the following predetermined conditional expression. In this method, a probability distribution p (a, b) is obtained, and the classification having the largest probability value is obtained among the probabilities of the respective classifications obtained according to the probability distribution.

所定の条件式は、次式で与えられる。

Figure 0005229782
The predetermined conditional expression is given by the following expression.
Figure 0005229782

また、エントロピーを意味する式は、次式で与えられる。

Figure 0005229782
Also, an expression meaning entropy is given by the following expression.
Figure 0005229782

ただし、A、Bは分類と文脈の集合を意味する。また、g(a,b)は文脈bに素性fがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(a|f)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classification and context. Further, g j (a, b) means a function that is 1 when the context b has a feature f j and the classification is a, and is 0 otherwise. Further, P (a i | f j ) (where P is a tilde at the top of p) means the rate of occurrence of (a, b) in the known data.

上記の条件式は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の文献を参照されたい。   In the above conditional expression, the expected value of the frequency of the output and feature pair is obtained by multiplying the probability p and the function g meaning the appearance of the pair of output and feature. And the expected value calculated based on the probability distribution obtained on the left side is the constraint, and entropy maximization (smoothing of the probability distribution) is performed to obtain the probability distribution of the output and the context. For details of the maximum entropy method, refer to the following documents.

文献:Eric Sven Ristad,「Maximum Entropy Modeling for Natural Language」,(ACL/EACL Tutorial Program,Madrid,1997年   Literature: Eric Sven Ristad, “Maximum Entropy Modeling for Natural Language”, (ACL / EACL Tutoral Program, Madrid, 1997)

文献:Eric Sven Ristad,「Maximum Entropy Modeling Toolkit,Release1.6beta」,(http://www.mnemonic.com/software/memt),1998年   Literature: Eric Sven Ristad, “Maximum Entropy Modeling Tool, Release 1.6 beta”, (http://www.mnemonic.com/software/memt), 1998.

サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。   The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane.

図17にサポートベクトルマシン法のマージン最大化の概念を示す。図17において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図17(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図17(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。   FIG. 17 shows the concept of margin maximization in the support vector machine method. In FIG. 17, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. 17A is a conceptual diagram when the interval between the positive example and the negative example is narrow (small margin), and FIG. 17B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図17(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。   At this time, if the two classifications consist of positive examples and negative examples, the larger the interval (margin) between the positive examples and the negative examples in the learning data, the lower the possibility of incorrect classification with open data. As shown in FIG. 17B, a hyperplane that maximizes the margin is obtained, and classification is performed using the hyperplane.

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる。   Basically, it is as described above. Usually, an extension of the method that the training data may contain a small number of cases in the inner area of the margin, or an extension that makes the linear part of the hyperplane nonlinear ( A kernel function introduced) is used.

この拡張された方法は、以下の識別関数(f(x))を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

Figure 0005229782
This extended method is equivalent to classification using the following discriminant function (f (x)), and the two classes can be discriminated depending on whether the output value of the discriminant function is positive or negative.
Figure 0005229782

ただし、xは識別したい事例の文脈(素性の集合)を、xとy(i=1,…,l,y∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise)
であり、また、各αは、式(M3)と式(M4)の制約のもと、式(M2)を最大にする場合のものである。
Where x is the context (set of features) to be identified, and x i and y j (i = 1,..., L, y j ε {1, −1}) mean the context and classification destination of the learning data And the function sgn is
sgn (x) = 1 (x ≧ 0)
-1 (otherwise)
In addition, each α i is for maximizing Expression (M2) under the constraints of Expression (M3) and Expression (M4).

Figure 0005229782
Figure 0005229782

また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では、例えば、以下の多項式のものを用いる。
K(x,y)=(x・y+1)d
The function K is called a kernel function, and various functions are used. In this embodiment, for example, the following polynomial is used.
K (x, y) = (x · y + 1) d

ここで、C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、α>0となるxは、サポートベクトルと呼ばれ、通常、式(M1)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお、拡張されたサポートベクトルマシン法の詳細については、次の文献を参照されたい。
Here, C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, two types of 1 and 2 are tried for d. Here, x i satisfying α i > 0 is called a support vector, and the portion taking the sum of the expression (M1) is normally calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.
For details of the extended support vector machine method, refer to the following document.

文献:Nello Cristianini,John Shawe−Taylor,「An Introduction to Support Vector Machines and other kernel−based learning methods」,Cambridge University Press,2000年   Literature: Nero Christianiani, John Shawe-Taylor, “An Introduction to Support Vector Machines and other kernel-based learning methods”, Cambridge Year 2000.

文献:Taku Kudoh,「Tinysvm:Support Vector machines」,(http://cl.aistnara.ac.jp/taku−ku//software/Tiny SVM/index.html),2000年   Literature: Taku Kudoh, “Tinysvm: Support Vector machines”, (http://cl.aistnara.ac.jp/taku-ku//software/Tiny SVM / index.html)

サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。   The support vector machine method handles data with two classifications. Therefore, when handling cases with three or more classifications, a pair-wise method or a one-VS rest method is usually used in combination with this.

ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。   In the case of data having n classifications, the pairwise method generates every pair (n (n-1) / 2) of two different classification destinations, and determines which is better for each pair. That is, it is a method of obtaining a classification destination by a majority decision of the classification destination by n (n-1) / 2 binary classifications, which is obtained by the support vector machine method processing module.

ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき問題が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある解くべき問題が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その解くべき問題の分類先は、aと推定する。   For example, when there are three classification destinations a, b, and c, the one VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the problem to be estimated is estimated in the three support vector machines, and among the three support vector machines, which is the other classification destination, and the separation plane of the support vector machine This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a problem to be solved is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and others”, the classification destination of the problem to be solved is estimated as a. .

図示しない解推定手段が推定する、解くべき問題についての、どのような解(分類先)になりやすいかの度合いの求め方は、図示しない機械学習手段が機械学習の手法として用いる様々な方法によって異なる。   How to find out what kind of solution (classification destination) is likely to be solved for a problem to be solved, which is estimated by a solution estimation unit (not shown) is determined by various methods used by a machine learning unit (not shown) as a machine learning method. Different.

例えば、機械学習手段が、機械学習の手法としてk近傍法を用いる場合、機械学習手段は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段に記憶しておく。   For example, when the machine learning means uses the k-nearest neighbor method as the machine learning method, the machine learning means uses the ratio of overlapping features (same features) among a set of features extracted from the examples of the teacher data. The degree of similarity between cases is defined based on the ratio of the number of cases and the defined degree of similarity and the case are stored in the learning result storage means as learning result information.

そして、解推定手段は、解くべき問題の素性(文章群属性情報)が抽出されたときに、学習結果記憶手段において定義された類似度と事例を参照して、抽出された解くべき問題の素性について、その解くべき問題の素性の類似度が高い順にk個の事例を学習結果記憶手段の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、解くべき問題の分類先(解)として推定する。すなわち、解推定手段では、解くべき問題についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数とする。   Then, the solution estimation means refers to the similarity and case defined in the learning result storage means when the feature of the problem to be solved (sentence group attribute information) is extracted, and the feature of the extracted problem to be solved The k cases are selected from the learning result storage means in descending order of the similarity of the features of the problem to be solved, and the classification destination determined by the majority vote in the selected k cases is classified as the problem to be solved. Estimate as the first (solution). That is, in the solution estimation means, the degree of what kind of solution (classification destination) is likely to be obtained for the problem to be solved is set as the number of majority votes in the selected k cases.

また、機械学習手法として、シンプルベイズ法を用いる場合には、図示しない機械学習手段は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段に記憶する。そして、解推定手段は、解くべき問題の素性が抽出されたときに、学習結果記憶手段の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて、解くべき問題の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解くべき問題の素性の分類(解)と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。   When the simple Bayes method is used as the machine learning method, the machine learning means (not shown) stores a combination of the solution of the case and a set of features as learning result information in the learning result storage means for the case of the teacher data. Remember. Then, when the features of the problem to be solved are extracted, the solution estimation means should solve based on the Bayes' theorem based on the set of the learning result information and the feature set in the learning result storage means. The probability of becoming each classification in the case of a set of problem features is calculated, and the classification having the largest probability value is estimated as the classification (solution) of the problem feature to be solved. That is, in the solution estimation means, the probability of becoming a solution in the case of a set of features of the problem to be solved is set as the probability of being classified.

また、機械学習手法として決定リスト法を用いる場合には、図示しない機械学習手段は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを、予め、何らかの手段により、学習結果記憶手段に記憶させる。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段のリストの優先順位の高い順に、抽出された解くべき問題の素性と規則の素性とを比較し、素性が一致した規則の分類先をその解くべき問題の分類先(解)として推定する。   Further, when the decision list method is used as the machine learning technique, the machine learning means (not shown) is a method in which a list in which rules of features and classification destinations are arranged in a predetermined priority order in advance for example of teacher data. Thus, it is stored in the learning result storage means. Then, when the features of the problem to be solved are extracted, the solution estimation means compares the extracted features of the problem to be solved with the features of the rule in descending order of priority in the list of learning result storage means, Is estimated as the classification destination (solution) of the problem to be solved.

また、機械学習手法として最大エントロピー法を使用する場合には、図示しない機械学習手段は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足し、かつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて、学習結果記憶手段に記憶する。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段の確率分布を利用して、抽出された解くべき問題の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその解くべき問題の解と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。   When the maximum entropy method is used as the machine learning method, the machine learning means (not shown) specifies a class that can be a solution from the example of the teacher data, satisfies a predetermined conditional expression, and represents an expression indicating entropy. A probability distribution composed of a set of features when maximizing and a binomial classification that can be a solution is obtained and stored in the learning result storage means. Then, when the features of the problem to be solved are extracted, the solution estimation means uses the probability distribution of the learning result storage means to determine the probability of classification that can be the solution for the set of extracted feature features of the problem to be solved. Then, a class that can be a solution having the largest probability value is specified, and the specified class is estimated as a solution of the problem to be solved. That is, in the solution estimation means, the probability of becoming a solution in the case of a set of features of the problem to be solved is set as the probability of being classified.

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、図示しない機械学習手段は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段に記憶する。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段の超平面を利用して、解くべき問題の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その解くべき問題の解と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、分離平面からのその解くべき問題の事例への距離の大きさとする。   When the support vector machine method is used as the machine learning method, the machine learning means (not shown) identifies a class that can be a solution from the example of the teacher data, divides the class into a positive example and a negative example, In a space whose dimension is a set of case features according to a predetermined execution function using a function, the interval between the positive example and the negative example of the case is maximized, and the positive example and the negative example are divided by a hyperplane. A plane is obtained and stored in the learning result storage means. Then, when the features of the problem to be solved are extracted, the solution estimation means uses the hyperplane of the learning result storage means, and in the space where the set of the features of the problem to be solved is divided by the hyperplane, The classification determined based on the identified result is estimated as the solution of the problem to be solved. That is, in the solution estimation means, the degree of ease of becoming a solution in the case of a set of features of the problem to be solved is set as the magnitude of the distance from the separation plane to the case of the problem to be solved.

また、上記実施の形態では、質問応答装置がスタンドアロンである場合について説明したが、質問応答装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、情報を出力したりすることになる。   In the above embodiment, the case where the question answering apparatus is stand-alone has been described. However, the question answering apparatus may be a stand-alone apparatus or a server apparatus in a server / client system. In the latter case, the output unit or the reception unit receives input or outputs information via a communication line.

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりする情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。   In the above embodiment, information related to processing executed by each component, for example, information received, acquired, selected, generated, transmitted, and received by each component. In addition, information such as threshold values, mathematical formulas, addresses, etc. used by each component in processing is retained temporarily or over a long period of time on a recording medium (not shown) even when not explicitly stated in the above description. It may be. Further, the storage of information in the recording medium (not shown) may be performed by each component or a storage unit (not shown). Further, reading of information from the recording medium (not shown) may be performed by each component or a reading unit (not shown).

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。   In the above embodiment, each process or each function may be realized by centralized processing by a single device or a single system, or may be distributedly processed by a plurality of devices or a plurality of systems. It may be realized by doing.

また、上記実施の形態において、質問応答装置に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。   In the above embodiment, when two or more components included in the question answering apparatus have a communication device, an input device, or the like, the two or more components may have a physically single device. Alternatively, it may have a separate device.

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における質問応答装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、非ファクトイド(Non−Factoid)型の質問を示す情報である質問情報を受け付ける質問情報受付部と、前記質問情報受付部が受け付けた質問情報に対して、当該質問情報の分類を示す情報であり、理由を尋ねる質問である理由質問が少なくとも一の分類として含まれる情報である複数の分類情報のいずれかを付与する分類部と、前記質問情報受付部が受け付けた質問情報から、用語を抽出する用語抽出部と、前記分類部が付与した分類情報に、対応情報記憶部で記憶される、分類を示す情報である分類情報と、前記用語抽出部が抽出した用語に追加する追加用語とを対応付けて有する情報である対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語と、アクセス可能なコーパス記憶部で記憶されているコーパスと、前記分類部によって付与された分類情報に応じた式とを用いることによって、前記質問情報に対応する回答を示す情報である回答情報を前記コーパスから取得する回答情報取得部と、前記回答情報取得部が取得した回答情報を出力する回答情報出力部として機能させるためのものである。   In the above embodiment, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. The software that realizes the question answering apparatus in the above embodiment is the following program. In other words, this program causes the computer to respond to the question information received by the question information receiving unit that receives question information, which is information indicating a non-factoid type question, and the question information received by the question information receiving unit. Information indicating a classification of information, a reasoning question that is a question for asking a reason, a classification unit that assigns one of a plurality of classification information that is information included as at least one classification, and the question information receiving unit A term extraction unit that extracts terms from question information, classification information that is information indicating a classification that is stored in the correspondence information storage unit in the classification information provided by the classification unit, and a term that is extracted by the term extraction unit Additional terms associated with correspondence information, which is information associated with additional terms to be added to the term, terms extracted by the term extraction unit, and access By using the corpus stored in the active corpus storage unit and an expression corresponding to the classification information given by the classification unit, answer information that is information indicating an answer corresponding to the question information is obtained from the corpus It is for functioning as an answer information acquiring unit to be acquired and an answer information output unit for outputting the answer information acquired by the answer information acquiring unit.

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。   In the program, the functions realized by the program do not include functions that can be realized only by hardware. For example, functions that can be realized only by hardware such as a modem or an interface card in an acquisition unit that acquires information, an output unit that outputs information, and the like are not included in at least the functions realized by the program.

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。   Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。   Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.

図18は、上記プログラムを実行して、上記実施の形態による質問応答装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。   FIG. 18 is a schematic diagram showing an example of the external appearance of a computer that executes the program and realizes the question answering apparatus according to the embodiment. The above-described embodiment is realized by computer hardware and a computer program executed on the computer hardware.

図18において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。   In FIG. 18, a computer system 100 includes a computer 101 including a CD-ROM (Compact Disk Read Only Memory) drive 105 and an FD (Flexible Disk) drive 106, a keyboard 102, a mouse 103, and a monitor 104.

図19は、コンピュータシステムを示す図である。図19において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。   FIG. 19 is a diagram illustrating a computer system. In FIG. 19, in addition to the CD-ROM drive 105 and the FD drive 106, a computer 101 includes a CPU (Central Processing Unit) 111, a ROM (Read Only Memory) 112 for storing a program such as a bootup program, A CPU (Random Access Memory) 113 that is connected to the CPU 111 and temporarily stores application program instructions and provides a temporary storage space, a hard disk 114 that stores application programs, system programs, and data, a CPU 111 and a ROM 112. Etc. to each other. The computer 101 may include a network card (not shown) that provides connection to the LAN.

コンピュータシステム100に、上記実施の形態による質問応答装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。   A program for causing the computer system 100 to execute the function of the question answering apparatus according to the above embodiment is stored in the CD-ROM 121 or the FD 122, inserted into the CD-ROM drive 105 or the FD drive 106, and transferred to the hard disk 114. May be. Instead, the program may be transmitted to the computer 101 via a network (not shown) and stored in the hard disk 114. The program is loaded into the RAM 113 at the time of execution. The program may be loaded directly from the CD-ROM 121, the FD 122, or the network.

プログラムは、コンピュータ101に、上記実施の形態による質問応答装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。   The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 101 to execute the function of the question answering apparatus according to the above embodiment. The program may include only a part of an instruction that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 100 operates is well known and will not be described in detail.

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

以上より、本発明による質問応答装置等によれば、非ファクトイド型の質問情報に対して適切に回答することができるという効果が得られ、質問情報に対応する回答情報を出力する装置等として有用である。   As described above, according to the question answering device or the like according to the present invention, the effect of being able to appropriately answer non-factoid type question information is obtained, which is useful as a device that outputs answer information corresponding to the question information. It is.

本発明の実施の形態1による質問応答装置の構成を示すブロック図The block diagram which shows the structure of the question answering apparatus by Embodiment 1 of this invention. 同実施の形態による回答情報取得部の構成を示すブロック図The block diagram which shows the structure of the reply information acquisition part by the embodiment 同実施の形態による質問応答装置の動作を示すフローチャートThe flowchart which shows operation | movement of the question answering apparatus by the embodiment 同実施の形態による質問応答装置の動作を示すフローチャートThe flowchart which shows operation | movement of the question answering apparatus by the embodiment 同実施の形態による質問応答装置の動作を示すフローチャートThe flowchart which shows operation | movement of the question answering apparatus by the embodiment 同実施の形態による質問応答装置の動作を示すフローチャートThe flowchart which shows operation | movement of the question answering apparatus by the embodiment 同実施の形態による質問応答装置の動作を示すフローチャートThe flowchart which shows operation | movement of the question answering apparatus by the embodiment 同実施の形態による質問応答装置の動作を示すフローチャートThe flowchart which shows operation | movement of the question answering apparatus by the embodiment 同実施の形態における対応情報の一例を示す図The figure which shows an example of the correspondence information in the embodiment 同実施の形態における表示の一例を示す図The figure which shows an example of the display in the embodiment 同実施の形態における第2の式のスコアの一例を示す図The figure which shows an example of the score of the 2nd type | formula in the embodiment 同実施の形態における取得された文書の一例を示す図A figure showing an example of an acquired document in the embodiment 同実施の形態における第1の式のスコアの一例を示す図The figure which shows an example of the score of the 1st formula in the embodiment 同実施の形態における回答情報の表示の一例を示す図The figure which shows an example of the display of the reply information in the embodiment 同実施の形態における分類対応情報の一例を示す図The figure which shows an example of the classification | category corresponding | compatible information in the same embodiment 同実施の形態における実験結果の一例を示す図The figure which shows an example of the experimental result in the same embodiment 同実施の形態における機械学習について説明するための図The figure for demonstrating the machine learning in the embodiment 同実施の形態におけるコンピュータシステムの外観一例を示す模式図Schematic diagram showing an example of the appearance of the computer system in the embodiment 同実施の形態におけるコンピュータシステムの構成の一例を示す図The figure which shows an example of a structure of the computer system in the embodiment

符号の説明Explanation of symbols

1 質問応答装置
11 質問情報受付部
12 分類部
13 用語抽出部
14 対応情報記憶部
15 コーパス記憶部
16 回答情報取得部
17 回答情報出力部
21 文書取得手段
22 追加用語取得手段
23 算出手段
24 回答情報選択手段
DESCRIPTION OF SYMBOLS 1 Question response apparatus 11 Question information reception part 12 Classification | category part 13 Term extraction part 14 Correspondence information storage part 15 Corpus storage part 16 Answer information acquisition part 17 Answer information output part 21 Document acquisition means 22 Additional term acquisition means 23 Calculation means 24 Answer information Selection means

Claims (9)

非ファクトイド(Non−Factoid)型の質問を示す情報である質問情報を受け付ける質問情報受付部と、
前記質問情報受付部が受け付けた質問情報に対して、当該質問情報の分類を示す情報であり、理由を尋ねる質問である理由質問が少なくとも一の分類として含まれる情報である複数の分類情報のいずれかを付与する分類部と、
前記質問情報受付部が受け付けた質問情報から、用語を抽出する用語抽出部と、
分類を示す情報である分類情報と、前記用語抽出部が抽出した用語に追加する追加用語とを対応付けて有する情報である対応情報が記憶される対応情報記憶部と、
前記分類部が付与した分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語と、アクセス可能なコーパス記憶部で記憶されているコーパスと、前記分類部によって付与された分類情報に応じた式とを用いることによって、前記質問情報に対応する回答を示す情報である回答情報を前記コーパスから取得する回答情報取得部と、
前記回答情報取得部が取得した回答情報を出力する回答情報出力部と、を備え
前記回答情報取得部が用いる式である第1の式は、前記コーパスに含まれる文書において、2個の用語が近い位置にあるほど高い値となる式であり、
前記回答情報取得部は、前記コーパスに含まれる文書について、前記分類部によって付与された分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語とを含む用語セットから選択された2個を用いて前記式の値を算出し、当該式の値が他に比べて大きい情報である回答情報を取得し、
前記回答情報取得部は、
ある用語がある文書を特徴付けている程度を示す式である第2の式を用いて、前記用語抽出部が抽出した用語によって特徴付けられている程度の高い複数の文書を前記コーパスから取得する文書取得手段と、
前記分類部によって付与された分類情報に対応する追加用語を、前記対応情報から取得する追加用語取得手段と、
前記用語抽出部が抽出した用語と、前記追加用語取得手段が取得した追加用語とを用いて、前記文書取得手段が取得した各文書に含まれる回答情報の候補となる情報である回答候補情報について、前記分類部によって付与された分類情報に応じた前記第1の式の値を算出する算出手段と、
前記複数の回答候補情報から、前記算出手段が算出した値が他に比べて大きい値である回答情報を選択する回答情報選択手段と、を備え、
前記算出手段は、回答候補情報dについて、次式
Figure 0005229782
のScore(d)を算出し、当該算出値を分類情報に応じて変更した値である第1の式の値を算出する(ただし、dは回答候補情報であり、Tは、前記用語セットであり、dist(t1,t2)は、用語t1,t2の間隔であり、Nは、文書の総数であり、df(t)は、用語tの出現する文書数であり、w dr2 (t2)は、実験によって定められる用語t2の関数である)、質問応答装置。
A question information receiving unit that receives question information, which is information indicating a non-factoid type question,
Any of a plurality of pieces of classification information that is information indicating the classification of the question information with respect to the question information received by the question information reception unit, and that is information including a reason question that is a question asking a reason as at least one classification A classification unit for assigning or
A term extraction unit that extracts terms from the question information received by the question information reception unit;
A correspondence information storage unit that stores correspondence information that is information that includes classification information that is information indicating classification and an additional term to be added to the term extracted by the term extraction unit;
An additional term associated with the classification information given by the classification unit in the correspondence information, a term extracted by the term extraction unit, a corpus stored in an accessible corpus storage unit, and a classification unit An answer information acquisition unit that acquires, from the corpus, answer information that is information indicating an answer corresponding to the question information by using an expression according to the assigned classification information;
An answer information output unit that outputs the answer information acquired by the answer information acquisition unit ,
The first formula used by the answer information acquisition unit is a formula that has a higher value as the two terms are closer to each other in the document included in the corpus,
The answer information acquisition unit includes a term including an additional term associated with the classification information given by the classification unit in the correspondence information and the term extracted by the term extraction unit for the document included in the corpus Calculate the value of the formula using two selected from the set, and obtain response information that is larger than the value of the formula,
The answer information acquisition unit
A plurality of documents that are highly characterized by the terms extracted by the term extraction unit are acquired from the corpus using a second expression that is an expression indicating the degree to which a certain term characterizes a document. Document acquisition means;
Additional term acquisition means for acquiring additional terms corresponding to the classification information given by the classification unit from the correspondence information;
Answer candidate information that is information that is a candidate for answer information included in each document acquired by the document acquisition unit using the term extracted by the term extraction unit and the additional term acquired by the additional term acquisition unit Calculating means for calculating the value of the first equation according to the classification information given by the classification unit;
Answer information selecting means for selecting answer information whose value calculated by the calculating means is a larger value than others from the plurality of answer candidate information,
The calculating means calculates the following formula for the answer candidate information d:
Figure 0005229782
Score (d) is calculated, and the value of the first equation, which is a value obtained by changing the calculated value according to the classification information, is calculated (where d is the answer candidate information, and T is the term set Yes, dist (t1, t2) is the interval between the terms t1, t2, N is the total number of documents, df (t) is the number of documents in which the term t appears, and w dr2 (t2) is , A function of the term t2 determined by experiment) .
前記分類部は、前記質問情報受付部が受け付けた質問情報を、少なくとも、定義を尋ねる質問である定義質問、理由を尋ねる質問である理由質問、方法を尋ねる質問である方法質問に分類する、請求項記載の質問応答装置。 The classification unit classifies the question information received by the question information reception unit into at least a definition question that asks a definition, a reason question that asks a reason, and a method question that asks a method. Item 2. The question answering apparatus according to Item 1 . 前記用語抽出部は、前記分類部によって定義質問であると分類された質問情報から、定義を尋ねている対象となる表現であるフォーカス表現の抽出も行うものであり、
前記第1の式は、
前記文書取得手段が取得した文書に前記フォーカス表現が含まれる場合には、前記フォーカス表現が含まれない場合よりも値が大きくなる式であり、
前記文書取得手段が取得した文書に含まれる前記フォーカス表現が、連体修飾節で修飾されている場合には、そうでない場合よりも値が大きくなる式であり、
前記回答情報選択手段は、前記文書取得手段が取得した文書に含まれる前記フォーカス表現が連体修飾節で修飾されている場合に、前記回答候補情報から、当該連体修飾節を回答情報として選択する、請求項記載の質問応答装置。
The term extraction unit also extracts a focus expression that is a target expression for which a definition is being asked from question information classified as a definition question by the classification unit,
The first equation is
In the case where the focus expression is included in the document acquired by the document acquisition unit, the value is larger than the case where the focus expression is not included.
When the focus expression included in the document acquired by the document acquisition unit is modified with a linkage modification clause, it is an expression having a value larger than that when it is not.
The answer information selecting means, when the focus expression included in the document acquired by the document acquisition means is modified with a combination modification clause, selects the combination modification clause from the answer candidate information as response information; The question answering apparatus according to claim 2 .
前記回答情報選択手段は、
前記算出手段が算出した値が他に比べて大きい値である回答候補情報を選択し、
あらかじめ用意された、質問情報と、当該質問情報の示す質問への回答を示す情報である回答情報と、当該回答情報の適否を示す情報とを少なくとも教師データとして用いて機械学習を行い、
当該機械学習の結果を用いて、前記選択した回答候補情報から回答情報を抽出する、請求項から請求項のいずれか記載の質問応答装置。
The answer information selecting means includes
Select answer candidate information whose value calculated by the calculating means is larger than others,
Machine learning is performed using at least teacher data, which is prepared in advance, is question information, answer information that is information indicating an answer to the question indicated by the question information, and information indicating whether the answer information is appropriate,
Using the results of the machine learning, it extracts the response information from the selected answer candidate information, question answering apparatus according to any one of claims 1 to 3.
前記分類部は、
分類を示す情報である分類情報と、語句を示す情報である語句情報とを対応付けて有する情報である分類対応情報を記録媒体で保持しており、
前記質問情報に、語句情報が示す語句が含まれる場合に、当該質問情報に対して、当該語句情報に対応する分類情報を付与する、請求項1から請求項のいずれか記載の質問応答装置。
The classification unit includes:
Classification information that is information indicating classification and classification correspondence information that is information having the phrase information that is information indicating a phrase in association with each other are held in the recording medium,
The question answering device according to any one of claims 1 to 4 , wherein when the question information includes a phrase indicated by the phrase information, classification information corresponding to the phrase information is given to the question information. .
前記分類部は、
あらかじめ用意された、質問情報と、当該質問情報の分類を示す情報である分類情報とを教師データとして機械学習を行い、
当該機械学習の結果を用いて、前記質問情報受付部が受け付けた質問情報に対して分類情報を付与する、請求項1から請求項のいずれか記載の質問応答装置。
The classification unit includes:
Machine learning is performed using teacher information prepared in advance as question information and classification information that indicates the classification of the question information,
The question answering device according to any one of claims 1 to 4 , wherein classification information is given to question information received by the question information receiving unit using a result of the machine learning.
前記用語抽出部は、前記質問情報を形態素解析し、当該質問情報から、(1)自立語、(2)名詞、(3)名詞と動詞、(4)名詞と形容詞、(5)名詞と動詞と形容詞、から選択される(1)〜(5)のいずれかに含まれる品詞の用語を抽出する、請求項1から請求項のいずれか記載の質問応答装置。 The term extraction unit performs morphological analysis on the question information, and from the question information, (1) independent words, (2) nouns, (3) nouns and verbs, (4) nouns and adjectives, (5) nouns and verbs The question answering device according to any one of claims 1 to 6 , wherein a part-of-speech term included in any one of (1) to (5) selected from: 質問情報受付部と、分類部と、用語抽出部と、分類を示す情報である分類情報と、前記用語抽出部が抽出した用語に追加する追加用語とを対応付けて有する情報である対応情報が記憶される対応情報記憶部と、文書取得手段、追加用語取得手段、算出手段、及び回答情報選択手段を有する回答情報取得部と、回答情報出力部とを用いて処理される質問応答方法であって、
前記質問情報受付部が、非ファクトイド(Non−Factoid)型の質問を示す情報である質問情報を受け付ける質問情報受付ステップと、
前記分類部が、前記質問情報受付ステップで受け付けた質問情報に対して、当該質問情報の分類を示す情報であり、理由を尋ねる質問である理由質問が少なくとも一の分類として含まれる情報である複数の分類情報のいずれかを付与する分類ステップと、
前記用語抽出部が、前記質問情報受付ステップで受け付けた質問情報から、用語を抽出する用語抽出ステップと、
前記回答情報取得部が、前記分類ステップで付与した分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出ステップで抽出した用語と、アクセス可能なコーパス記憶部で記憶されているコーパスと、前記分類ステップで付与された分類情報に応じた式とを用いることによって、前記質問情報に対応する回答を示す情報である回答情報を前記コーパスから取得する回答情報取得ステップと、
前記回答情報出力部が、前記回答情報取得ステップで取得した回答情報を出力する回答情報出力ステップと、を備え
前記回答情報取得ステップで用いる式である第1の式は、前記コーパスに含まれる文書において、2個の用語が近い位置にあるほど高い値となる式であり、
前記回答情報取得ステップでは、前記コーパスに含まれる文書について、前記分類ステップにおいて付与された分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出ステップで抽出した用語とを含む用語セットから選択された2個を用いて前記式の値を算出し、当該式の値が他に比べて大きい情報である回答情報を取得し、
前記回答情報取得ステップは、
前記文書取得手段が、ある用語がある文書を特徴付けている程度を示す式である第2の式を用いて、前記用語抽出ステップで抽出した用語によって特徴付けられている程度の高い複数の文書を前記コーパスから取得する文書取得ステップと、
前記追加用語取得手段が、前記分類ステップにおいて付与された分類情報に対応する追加用語を、前記対応情報から取得する追加用語取得ステップと、
前記算出手段が、前記用語抽出ステップで抽出した用語と、前記追加用語取得ステップで取得した追加用語とを用いて、前記文書取得ステップで取得した各文書に含まれる回答情報の候補となる情報である回答候補情報について、前記分類ステップにおいて付与された分類情報に応じた前記第1の式の値を算出する算出ステップと、
前記回答情報選択手段が、前記複数の回答候補情報から、前記算出ステップで算出した値が他に比べて大きい値である回答情報を選択する回答情報選択ステップと、を備え、
前記算出ステップでは、回答候補情報dについて、次式
Figure 0005229782
のScore(d)を算出し、当該算出値を分類情報に応じて変更した値である第1の式の値を算出する(ただし、dは回答候補情報であり、Tは、前記用語セットであり、dist(t1,t2)は、用語t1,t2の間隔であり、Nは、文書の総数であり、df(t)は、用語tの出現する文書数であり、w dr2 (t2)は、実験によって定められる用語t2の関数である)、質問応答方法。
Correspondence information that is information including a question information reception unit, a classification unit, a term extraction unit, classification information that is information indicating classification, and an additional term that is added to the term extracted by the term extraction unit. It is a question answering method processed using a stored correspondence information storage unit, an answer information acquisition unit having a document acquisition unit, an additional term acquisition unit, a calculation unit, and an answer information selection unit, and an answer information output unit. And
A question information receiving step in which the question information receiving unit receives question information which is information indicating a non-factoid type question;
A plurality of pieces of information in which the classification part is information indicating the classification of the question information with respect to the question information received in the question information reception step, and a reason question that is a question asking a reason is included as at least one classification A classification step for assigning any of the classification information of
The term extraction unit extracts a term from the question information received in the question information receiving step,
The answer information acquisition unit is stored in an accessible corpus storage unit, an additional term associated with the classification information given in the classification step by the correspondence information, a term extracted in the term extraction step A response information acquisition step of acquiring response information from the corpus, which is information indicating an answer corresponding to the question information, by using a corpus and an expression corresponding to the classification information given in the classification step;
The response information output unit includes a response information output step for outputting the response information acquired in the response information acquisition step ,
The first formula that is used in the answer information acquisition step is a formula that has a higher value as the two terms are closer to each other in the document included in the corpus,
In the answer information acquisition step, for the document included in the corpus, a term including an additional term associated with the classification information assigned in the classification step by the correspondence information and the term extracted in the term extraction step Calculate the value of the formula using two selected from the set, and obtain response information that is larger than the value of the formula,
The answer information acquisition step includes:
A plurality of documents having a high degree of being characterized by the terms extracted in the term extracting step by using the second expression that is an expression indicating the degree to which a certain term characterizes a certain document. Obtaining a document from the corpus;
The additional term acquisition unit acquires an additional term corresponding to the classification information given in the classification step from the correspondence information;
Information that is a candidate for answer information included in each document acquired in the document acquisition step, using the term extracted in the term extraction step and the additional term acquired in the additional term acquisition step. For certain answer candidate information, a calculation step for calculating the value of the first equation according to the classification information given in the classification step;
The answer information selecting means comprises, from the plurality of answer candidate information, an answer information selecting step for selecting answer information whose value calculated in the calculating step is a larger value than others,
In the calculating step, for the answer candidate information d,
Figure 0005229782
Score (d) is calculated, and the value of the first equation, which is a value obtained by changing the calculated value according to the classification information, is calculated (where d is the answer candidate information, and T is the term set Yes, dist (t1, t2) is the interval between the terms t1, t2, N is the total number of documents, df (t) is the number of documents in which the term t appears, and w dr2 (t2) is , A function of the term t2 determined by experiments) .
コンピュータを、
非ファクトイド(Non−Factoid)型の質問を示す情報である質問情報を受け付ける質問情報受付部と、
前記質問情報受付部が受け付けた質問情報に対して、当該質問情報の分類を示す情報であり、理由を尋ねる質問である理由質問が少なくとも一の分類として含まれる情報である複数の分類情報のいずれかを付与する分類部と、
前記質問情報受付部が受け付けた質問情報から、用語を抽出する用語抽出部と、
前記分類部が付与した分類情報に、対応情報記憶部で記憶される、分類を示す情報である分類情報と、前記用語抽出部が抽出した用語に追加する追加用語とを対応付けて有する情報である対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語と、アクセス可能なコーパス記憶部で記憶されているコーパスと、前記分類部によって付与された分類情報に応じた式とを用いることによって、前記質問情報に対応する回答を示す情報である回答情報を前記コーパスから取得する回答情報取得部と、
前記回答情報取得部が取得した回答情報を出力する回答情報出力部として機能させ、
前記回答情報取得部が用いる式である第1の式は、前記コーパスに含まれる文書において、2個の用語が近い位置にあるほど高い値となる式であり、
前記回答情報取得部は、前記コーパスに含まれる文書について、前記分類部によって付与された分類情報に前記対応情報で対応付けられている追加用語と、前記用語抽出部が抽出した用語とを含む用語セットから選択された2個を用いて前記式の値を算出し、当該式の値が他に比べて大きい情報である回答情報を取得し、
前記回答情報取得部は、
ある用語がある文書を特徴付けている程度を示す式である第2の式を用いて、前記用語抽出部が抽出した用語によって特徴付けられている程度の高い複数の文書を前記コーパスから取得する文書取得手段と、
前記分類部によって付与された分類情報に対応する追加用語を、前記対応情報から取得する追加用語取得手段と、
前記用語抽出部が抽出した用語と、前記追加用語取得手段が取得した追加用語とを用いて、前記文書取得手段が取得した各文書に含まれる回答情報の候補となる情報である回答候補情報について、前記分類部によって付与された分類情報に応じた前記第1の式の値を算出する算出手段と、
前記複数の回答候補情報から、前記算出手段が算出した値が他に比べて大きい値である回答情報を選択する回答情報選択手段と、を備え、
前記算出手段は、回答候補情報dについて、次式
Figure 0005229782
のScore(d)を算出し、当該算出値を分類情報に応じて変更した値である第1の式の値を算出する(ただし、dは回答候補情報であり、Tは、前記用語セットであり、dist(t1,t2)は、用語t1,t2の間隔であり、Nは、文書の総数であり、df(t)は、用語tの出現する文書数であり、w dr2 (t2)は、実験によって定められる用語t2の関数である)、プログラム。
Computer
A question information receiving unit that receives question information, which is information indicating a non-factoid type question,
Any of a plurality of pieces of classification information that is information indicating the classification of the question information with respect to the question information received by the question information reception unit, and that is information including a reason question that is a question asking a reason as at least one classification A classification unit for assigning or
A term extraction unit that extracts terms from the question information received by the question information reception unit;
Information having classification information provided by the classification unit in association with classification information stored in the correspondence information storage unit, which is information indicating classification, and an additional term to be added to the term extracted by the term extraction unit An additional term associated with certain correspondence information, the term extracted by the term extraction unit, a corpus stored in an accessible corpus storage unit, and an expression corresponding to the classification information given by the classification unit An answer information acquisition unit that acquires answer information, which is information indicating an answer corresponding to the question information, from the corpus, and
Function as an answer information output unit for outputting the answer information acquired by the answer information acquisition unit,
The first formula used by the answer information acquisition unit is a formula that has a higher value as the two terms are closer to each other in the document included in the corpus,
The answer information acquisition unit includes a term including an additional term associated with the classification information given by the classification unit in the correspondence information and the term extracted by the term extraction unit for the document included in the corpus Calculate the value of the formula using two selected from the set, and obtain response information that is larger than the value of the formula,
The answer information acquisition unit
A plurality of documents that are highly characterized by the terms extracted by the term extraction unit are acquired from the corpus using a second expression that is an expression indicating the degree to which a certain term characterizes a document. Document acquisition means;
Additional term acquisition means for acquiring additional terms corresponding to the classification information given by the classification unit from the correspondence information;
Answer candidate information that is information that is a candidate for answer information included in each document acquired by the document acquisition unit using the term extracted by the term extraction unit and the additional term acquired by the additional term acquisition unit Calculating means for calculating the value of the first equation according to the classification information given by the classification unit;
Answer information selecting means for selecting answer information whose value calculated by the calculating means is a larger value than others from the plurality of answer candidate information,
The calculating means calculates the following formula for the answer candidate information d:
Figure 0005229782
Score (d) is calculated, and the value of the first equation, which is a value obtained by changing the calculated value according to the classification information, is calculated (where d is the answer candidate information, and T is the term set Yes, dist (t1, t2) is the interval between the terms t1, t2, N is the total number of documents, df (t) is the number of documents in which the term t appears, and w dr2 (t2) is , A function of the term t2 determined by experiment) .
JP2007289613A 2007-11-07 2007-11-07 Question answering apparatus, question answering method, and program Expired - Fee Related JP5229782B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007289613A JP5229782B2 (en) 2007-11-07 2007-11-07 Question answering apparatus, question answering method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007289613A JP5229782B2 (en) 2007-11-07 2007-11-07 Question answering apparatus, question answering method, and program

Publications (2)

Publication Number Publication Date
JP2009116662A JP2009116662A (en) 2009-05-28
JP5229782B2 true JP5229782B2 (en) 2013-07-03

Family

ID=40783740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007289613A Expired - Fee Related JP5229782B2 (en) 2007-11-07 2007-11-07 Question answering apparatus, question answering method, and program

Country Status (1)

Country Link
JP (1) JP5229782B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5545489B2 (en) * 2010-07-12 2014-07-09 独立行政法人情報通信研究機構 Learning system, simulation apparatus, and learning method
JP5825676B2 (en) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 Non-factoid question answering system and computer program
CN104221012A (en) * 2012-03-13 2014-12-17 三菱电机株式会社 Document search device and document search method
JP5812534B2 (en) * 2012-06-04 2015-11-17 日本電信電話株式会社 Question answering apparatus, method, and program
JP5431532B2 (en) * 2012-06-08 2014-03-05 日本電信電話株式会社 Question answering apparatus, model learning apparatus, method, and program
JP5882241B2 (en) * 2013-01-08 2016-03-09 日本電信電話株式会社 Method and apparatus for generating search keyword for question answering, and program
JP6150282B2 (en) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 Non-factoid question answering system and computer program
KR101559376B1 (en) 2014-02-24 2015-10-12 서울대학교산학협력단 An online incremental associative feature construction method via maximizing entropy and apparutus performing the same
US10769155B2 (en) * 2016-05-17 2020-09-08 Google Llc Automatically augmenting message exchange threads based on tone of message
JP7408957B2 (en) * 2019-09-05 2024-01-09 コニカミノルタ株式会社 Idea proposal support system, idea proposal support device, idea proposal support method and program
CN114186562B (en) * 2020-09-14 2024-10-01 大众问问(北京)信息科技有限公司 Corpus acquisition method, device and equipment
CN113779201B (en) * 2021-09-16 2023-06-30 北京百度网讯科技有限公司 Method and device for identifying instruction and voice interaction screen

Also Published As

Publication number Publication date
JP2009116662A (en) 2009-05-28

Similar Documents

Publication Publication Date Title
JP5229782B2 (en) Question answering apparatus, question answering method, and program
US11210468B2 (en) System and method for comparing plurality of documents
Gambhir et al. Recent automatic text summarization techniques: a survey
US8027977B2 (en) Recommending content using discriminatively trained document similarity
Moradi et al. Summarization of biomedical articles using domain-specific word embeddings and graph ranking
JP5710581B2 (en) Question answering apparatus, method, and program
CN110162771B (en) Event trigger word recognition method and device and electronic equipment
KR20130056207A (en) Relational information expansion device, relational information expansion method and program
CN111090731A (en) Electric power public opinion abstract extraction optimization method and system based on topic clustering
JP4911599B2 (en) Reputation information extraction device and reputation information extraction method
JP2008287517A (en) Highlight display device and program
JP5565568B2 (en) Information recommendation device, information recommendation method and program
Sukumar et al. Semantic based sentence ordering approach for multi-document summarization
Liebeskind et al. Semiautomatic construction of cross-period thesaurus
Vasuki et al. Reflective random indexing for semi-automatic indexing of the biomedical literature
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
JP4849596B2 (en) Question answering apparatus, question answering method, and question answering program
Balog et al. The university of amsterdam at weps2
JP2009282795A (en) System, method, and program for estimating level of importance of information
Kuş et al. An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish
JP4919386B2 (en) Information extraction / display device
JP2010282403A (en) Document retrieval method
Nejjari et al. Overview of opinion detection approaches in Arabic
Malik et al. Fundamentals of Vector-Based Text Representation and Word Embeddings
Tolmachev et al. Automatic japanese example extraction for flashcard-based foreign language learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130313

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees