WO2014208213A1

WO2014208213A1 - ノン・ファクトイド型質問応答システムおよび方法

Info

Publication number: WO2014208213A1
Application number: PCT/JP2014/062913
Authority: WO
Inventors: 鍾勲呉; 健太郎鳥澤; 力橋本; 大樹佐野; サーガステインデ; 清敬大竹
Original assignee: 独立行政法人情報通信研究機構
Priority date: 2013-06-27
Filing date: 2014-05-15
Publication date: 2014-12-31
Also published as: EP3016002A1; US10496928B2; KR20160026892A; KR102256240B1; US20160155058A1; JP2015011426A; CN105393248A; JP6150282B2; EP3016002A4; CN105393248B

Abstract

【課題】ノン・ファクトイド型質問に適切に回答できる質問応答システムを提供する。【解決手段】質問応答システム３０は、質問を受けたことに応答して、対象文書記憶部３２から回答候補を取出す関連文書検索部５４と、回答候補から有力なものを抽出する回答候補抽出部５６と、抽出された回答候補に含まれる因果関係表現を認識する因果関係認識部６０と、認識された因果関係が回答としてふさわしいか判定する因果関係相当性判定部６４と、因果関係相当性判定部６４までの処理結果を用い、質問と、検索された回答候補との組合せに関する素性ベクトルを生成する素性ベクトル生成部６６と、素性ベクトルが与えられると、当該素性ベクトルを生成する元となった質問と回答候補とについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出し、最もスコアの高い回答候補を質問に対する回答として出力する素性ベクトル生成部６６とを含む。

Description

ノン・ファクトイド型質問応答システムおよび方法

　この発明は、コンピュータ及びネットワークを利用した質問応答システムに関し、特に、あることの理由等を聞くいわゆるホワイ型質問等の、ノン・ファクトイド型質問と呼ばれる質問に対する応答システムに関する。

　何らかの事実についての質問応答（ＱＡ）に関する研究は、最近になって大きな進歩を遂げている。現在、ＩＢＭ社のＷａｔｓｏｎ、Ａｐｐｌｅ社のＳｉｒｉ等質問応答システムの改善は目覚ましいものがあり、一部既に商用利用が開始されている。また、これら以外の企業でも同様の開発が進んでいる。その精度は、事実に関する質問については８５％程度であると言われている。

　一方、事実に関する質問でなく、「なぜガンになるのか？」のように何らかの事象が発生した理由を尋ねる質問に対する回答を大量の文書から抽出するホワイ型質問応答は、非常に困難なタスクであると認識されてきた。上述したＩＢＭ社及びＡｐｐｌｅ社の製品でも、ホワイ型質問には対応していない。

　この問題に関し、例えば後掲の非特許文献１は、いわゆる情報検索の技法において、特に「理由」のような単語を情報検索のクエリに加え、与えられたホワイ型質問に対する回答を含むパッセージを大量の文書から検索する技法を開示している。非特許文献２は、人手で作られた、原因と結果とを表す単語ペアのデータベース、又は、理由を表す構文パターンのデータベースに現れる単語ペア及びパターンを素性として用い、教師あり学習によって回答を特定する技術を開示している。

　一方、それらとは別に、テキストの構造的特徴、すなわち部分的な構文木、単語の意味的クラス、評価表現等の意味的な特徴を素性として用い、教師あり学習によって回答を特定する技術が非特許文献３に開示されている。

Masaki Murata, Sachiyo Tsukawaki, Toshiyuki Kanamaru,　QingMa, and Hitoshi Isahara. A system for answeringnon-factoid Japanese questions by using passage retrieval weighted based ontype of answer. In Proceedings of NTCIR-6, 2007. Ryuichiro Higashinaka and Hideki Isozaki. Corpus-based questionanswering for why-questions. In Proceedings of IJCNLP, pages 418-425., 2008. Jong-Hoon Oh, Kentaro Torisawa, Chikara Hashimoto, Takuya Kawada,Stijn De Saeger, Jun’ichi Kazama and Yiou Wang. WhyQuestion Answering using Sentiment Analysis and Word Classes, In Proceedings ofEMNLP-CoNLL 2012, pp.368-378.

　上記したいずれの従来技術も有用ではあるが、利用している素性及びその他の情報にタスクの性質を十分に反映させるという意味では、依然として改善の余地があるように思われる。特に、このタスクの性質を反映させる手法においては因果関係をより効率的に利用することが重要である。因果関係が重要であるという問題はこの技術分野では広く認識されているが、従来技術では因果関係としては名詞句間のもののみが注目されてきたという問題がある。しかも名詞句間の因果関係は１文中にあらわれるのが原則と考えられるため、同じ文内の名詞句間での因果関係しか利用されていない。

　ところが、実は、因果関係は名詞句間のものだけではない。名詞句間及び名詞句と動詞句間にも因果関係が存在することがある。さらに、２文に渡って因果関係が現れる場合があることも、従来は見過ごされてきた。要するに、文書データ内に現れる因果関係の形式が多様であり、ホワイ型質問応答システムでは、そのような多様な形式の因果関係を認識した上でその情報を回答抽出に用いることが必要である。ところが、従来はそのような多様さが見過ごされてきた。

　さらに、このような多様な形式の因果関係に基づいて質問の回答を得ようとする場合、そうした因果関係に関する情報をどのように取扱えばよいかが直ちには明らかでないという問題がある。

　それゆえに本発明の目的は、文書内に現れる因果関係の多様な表現を適切に取扱うことによって、ノン・ファクトイド型質問に適切な回答を与えることができるノン・ファクトイド型質問応答システムを提供することである。

　本発明の第１の局面に係るノン・ファクトイド型の質問応答システムは、ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するシステムであって、コンピュータ読取可能な複数個の文書を記憶する文書記憶手段に接続されて用いられる。このシステムは、質問の入力を受けたことに応答して、文書記憶手段から、当該質問に対する回答候補を取出す候補検索手段と、候補検索手段により回答候補が検索されたことに応答して、質問と、候補検索手段により検索された回答候補の各々との組合せについて、所定の素性の集合を生成する素性生成手段と、素性生成手段により生成される素性の集合が与えられると、当該素性の集合を生成する元となった質問と回答候補とについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出し、最もスコアの高い回答候補を質問に対する回答として出力する回答選択手段とを含む。素性生成手段は、質問及び各回答候補について、それぞれの形態素情報及び統語情報から求められる第１の素性の組を算出する第１の素性算出手段と、各回答候補中の因果関係表現であって、質問に対する回答を与えるものとして相当なものを選択し、当該因果関係表現から得られる第２の素性の組を算出する第２の素性算出手段とを含む。素性の集合は第１の素性の組と第２の素性の組とを含む。

　このノン・ファクトイド型の質問応答システムによれば、回答候補中の因果関係表現が、質問に対する回答を与えるものとして相当なものか否かが第２の組の素性として用いられる。この因果関係表現について回答候補を選択する上で考慮することにより、質問の表現と因果関係の表現との含意関係を回答の選択に反映させることができる。その結果、文書内に現れる因果関係の多様な表現を適切に取扱うことによって、ノン・ファクトイド型質問に適切な回答を与えることができるノン・ファクトイド型質問応答システムを提供できる。

　好ましくは、候補検索手段は、質問の入力を受けたことに応答して、当該質問を所定の複数個の類型のいずれかに分類する分類手段と、質問の入力を受けたことに応答して、文書記憶手段に記憶された各文書を、連続する１個又は複数個の文からなる文の組に分割し出力する文分割手段と、文分割手段により出力された各文の組について、分類手段による分類結果にしたがって定まる基準によりスコアを算出し、当該スコア上位の文の組を回答候補として出力する手段とを含む。

　より好ましくは、第２の素性算出手段は、各回答候補の中で、因果関係表現の特定のための手掛かりとなる表現を特定する手がかり表現特定手段と、各回答候補の中で、手掛かり表現特定手段により特定された手掛かり表現により結びつけられている、因果関係の原因部分と結果部分とからなる因果関係表現を特定する因果関係表現特定手段と、特定された因果関係表現の結果部分に含まれる名詞と当該名詞が係る述部の極性との組合せ、及び質問に含まれる名詞の意味と当該名詞が係る述部の極性との組合せが一致するか否かを判定する一致判定手段と、各回答候補の中で因果関係表現特定手段により特定された因果関係表現が、質問に対する回答として相当か否かを、一致判定手段による判定結果と、各回答候補と質問との間の単語マッチング及び係り受け木の部分木マッチングとを用いて判定する相当性判定手段と、相当性判定手段による判定結果を示す情報を第２の素性の組の素性として出力する手段とを含む。

　第２の素性算出手段はさらに、因果関係表現特定手段により特定された因果関係表現の単語のｎ－グラム、当該因果関係表現における係り受け木の部分木のｎ－グラム、若しくは当該因果関係表現に含まれる述部の極性、又はこれらの任意の組合せを第２の素性の組の素性として出力する手段を含んでもよい。

　第２の素性算出手段はさらに、因果関係表現特定手段により特定された因果関係表現のうちの結果部分が質問と共有している単語、係り受け木の部分木、活性の述部の数、若しくは不活性の述部の数、又はこれらの任意の組合せを第２の素性の組の素性として出力する手段を含んでもよい。

　本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかのノン・ファクトイド型の質問応答システムの全ての手段として機能させる。

　本発明の他の局面に係るノン・ファクトイド型の質問応答方法は、ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成する。この方法は、コンピュータ読取可能な複数個の文書を記憶する文書記憶手段を用いて実行される。この方法は、質問の入力を受けたことに応答して、文書記憶手段から、当該質問に対する回答候補を取出す候補検索ステップと、候補検索ステップにおいて回答候補が検索されたことに応答して、質問と、候補検索ステップにおいて検索された回答候補の各々との組合せについて、所定の素性の集合を生成する素性生成ステップと、素性生成ステップにおいて生成される素性の集合が与えられたことに応答して、当該素性の集合を生成する元となった質問と回答候補とについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出し、最もスコアの高い回答候補を質問に対する回答として出力する回答選択ステップとを含む。素性生成ステップは、質問及び各回答候補について、それぞれの形態素情報及び統語情報から求められる第１の素性の組を算出する第１の素性算出ステップと、各回答候補中の因果関係表現であって、質問に対する回答を与えるものとして相当なものを選択し、当該因果関係表現から得られる第２の素性の組を算出する第２の素性算出ステップとを含む。素性の集合は第１の素性の組と第２の素性の組とを含む

本発明の１実施の形態に係るノン・ファクトイド型質問応答システムの概略ブロック図である。係り受け木中の部分木から得られるｎ－グラムを説明するための図である。因果関係の形式を説明するための図である。質問に対する回答の相当性を説明するための図である。図１に示すシステムにおいて、回答候補を選ぶ方法について説明するための模式図である。回答候補のリスト例を示す図である。回答候補の中から因果関係の手掛かりを示す単語を特定する方法を示す図である。述部の活性・不活性を説明する図である。図１に示すシステムのうち、因果関係認識部の構成を示すブロック図である。図１に示す因果関係相当性判定部の構成を示すブロック図である。図１に示す回答候補ランキング部の構成を示すブロック図である。本発明の１実施の形態で使用される素性のうち、先行技術で使用されているものと同じものを示す図である。本発明の実施の形態による効果を説明するためのグラフである。本発明の１実施の形態に係る質問応答システムを実現するためのコンピュータの外観を示す模式図である。図１４に示すコンピュータのハードウェア構成を説明するブロック図である。

　以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

　［基本的考え方］
　本願発明の発明者は、ノン・ファクトイド型質問に対しての回答を大量の文書から検索するにあたり、因果関係、すなわちある事象の原因と結果を表す意味的関係、が有効であることに注目した。この観点から、回答を検索するために準備されたテキスト中に存在する因果関係の表現を認識し、適切な素性を使用した教師あり学習によって、それらテキスト中から質問に対する回答を特定する。そのための手順の概略は以下のようにまとめられる。

　（１）各テキスト中の１文内の名詞句、動詞句及び節等で表現される因果関係、及び、連続した２つ以上の文に渡って表現される因果関係等多様な形式の因果関係を統合的に認識する。採用した手法の詳細は後述する。

　（２）因果関係のうち、結果部分が質問の回答になることが多い。さらに、結果部分のうち、質問の回答として相応しいものは質問と意味的に類似する場合が多い。本実施の形態では、こうした特性に注目し、上記（１）で得られた因果関係のうち、回答として相応しいもののみを取出す。その手法についても後述する。特にこの手法の特徴は、結果部分の述部の「活性・不活性」という意味的極性により含意関係を認識し、その含意関係を利用する点にある。

　（３）上記（１）及び（２）の手法によって得られた因果関係を適切に表す素性を採用し、機械学習手法により回答を特定する。

　上に記載した（１）及び（２）は、いずれもホワイ型質問応答の性能向上において重要である。これは、多様な形式で表現される因果関係の中から、質問の回答として相応しい因果関係を認識することが回答抽出の精度向上に直接つながるからである。先行技術では、多様な形式の因果関係を利用することも、述部の意味的極性により得られた含意関係を利用することも検討されたことがない。

　本実施の形態においては、既存の情報検索技術を用いて大量の文書の中から回答候補を収集する。収集された回答候補中に現れる多様な形式の因果関係を統合的に認識し、さらに、「活性・不活性」という意味的極性に基づいた含意関係認識により質問の回答として相応しい因果関係の情報を特定する。この結果、文書中に存在している、ホワイ型質問に対する適切な回答となる文を有効に活用できる。具体的には以下の手順を用いる。

　（Ａ）既存の情報検索技術により、大量のテキストから、回答の候補になる少数の文を特定する。質問に関連あると考えられる文書を収集できる手法であればどのようなものを用いてもよい。

　（Ｂ）次いで、以下のようにこれらの回答候補のテキストから、質問に対する回答を生成する上で有効な因果関係を認識する。その因果関係の結果部分を適切な素性で表現し、教師あり学習に用いることにより、回答候補としての結果部分を評価する。この評価の高いものを回答として採用する。具体的手順は以下の通りである。

　（Ｂ１）回答候補のテキストから「～ため」、「～ので」、「～からだ」、「～の原因は」等の因果関係の手がかり表現（単語）を見つける。これら表現は、因果関係の原因部分と結果部分とを結びつける表現である。したがってこれら表現を抽出することによって因果関係の原因部分と結果部分とを特定できる。手掛かり表現を工夫することにより、原因部分と結果部分が１文内に現れる因果関係だけではなく、原因部分と結果部分とが別の文内にあるものも特定できる。

　図３を参照して、因果関係の形式として典型的なものに、１）文内の名詞句間の因果関係、２）文内の名詞句と動詞句間の因果関係、３）文内の節と動詞句間の因果関係及び４）２文に渡って現れる因果関係、がある。

　これらのうち、１番目の因果関係について、図３に示した例文では、原因となる名詞句８０と、結果となる名詞句８２とが「が原因となる」という表現８４により結ばれている。２番目の因果関係では、原因となる名詞句８６と結果となる動詞句８８とが「が原因で」という表現９０により結ばれている。３番目の因果関係では、節からなる原因部分９２と結果となる動詞句からなる結果部分９４とが「ため」という表現９６により結ばれている。４番目の例では、原因となる１番目の文１０２と結果となる２番目の文内の動詞句１００とが「が原因で」という表現９８により結ばれている。

　すなわち、因果関係の原因となる部分と結果となる部分とが、いずれも特定の表現で結ばれていることが分かる。

　（Ｂ２）上記（Ｂ１）で得られた因果関係のうち、ホワイ型質問の回答として相応しいもの以外を捨てる。ここでは、因果関係の結果部分とホワイ型質問とが意味的に類似することに注目し、１）単語マッチング、２）係り受け解析結果（係り受け木）における部分木マッチング、そして、３）述部の活性・不活性という意味的極性により認識された含意関係のマッチングによって、因果関係の結果部分がホワイ型質問の回答として相応しいか否かの判定を行なう。

　図４を参照して、質問が「なぜ津波が起こるのですか？」である場合を想定する。図４の２つの回答候補は、いずれも因果関係を表し、原因部分９２及び１１０が、結果部分９４及び１１２とそれぞれ因果関係の手掛かり表現である「ため」という表現９６及び１１４により結びつけられている。それにも関わらず、１番目の候補は回答としてふさわしいが、２番目の候補はふさわしくないと考えられる。これは、１番目の結果部分９４の表現「津波が発生します。」と質問文の表現「津波が起こる」とが類似した意味を表しているのに対し、２番目の結果部分１１２の表現「津波を弱める効果がある」が、質問文の表現とは逆の意味を表していることによる。実施の形態では、こうした相違を適切に素性として表現する必要がある。

　（Ｂ３）上記（Ｂ１）と（Ｂ２）とによって得られた因果関係から回答を特定するための教師あり学習用の素性を作成する。ここでは１）回答候補における因果関係の存在の有無、２）ｎ－グラム等で表現される因果関係の内容、そして３）質問と因果関係の結果部分とが共有する単語、部分木及び含意関係の数等を素性として用いる。最後にこれらの素性を用いて学習した教師あり学習器によって回答を特定する。

　多様な形式を持つ因果関係を認識しつつ、質問の回答として相応しいとされる因果関係の情報を活用することによって、より精度よくホワイ型質問の回答を特定することが可能になる。

　［構成］
　図１を参照して、この実施の形態に係る質問応答システム３０は、ホワイ型質問等のノン・ファクトイド型の質問３４を受け、回答探索の対象となる大量の文書を記憶した対象文書記憶部３２から質問３４に対する回答としてふさわしい結果部分を持つ因果関係表現を抽出し、回答３６として出力するためのものである。この実施の形態では、以下の説明を分かり易くするために、対象文書記憶部３２には、各文について予め形態素列に分解され、かつ係り受け解析されて係り受け解析結果が付された文書が格納されているものとする。

　質問応答システム３０は、質問３４を受けて形態素解析処理を行なう形態素解析処理部５０と、形態素解析処理部５０により出力される形態素列に対して係り受け解析を行ない、係り受け木２０１を出力する係り受け解析処理部５２とを含む。係り受け解析処理部５２が出力する係り受け木２０１は、回答特定のための機械学習において素性として用いられる。

　係り受け木２０１による素性の１つとして、部分木のｎ－グラムがある。図２を参照してこれを説明する。今、係り受け木２０１が部分木７０を含むものとする。部分木７０は４つのノードＡ，Ｂ，Ｃ及びＤを持つ。これらの単語のうち、仮にＤが因果関係にとって重要な単語であるものとする。この場合、部分木７０から生成されるｎ－グラムとしては、図２（Ｂ１）の部分木からなるトライグラム７２と、図２（Ｂ２）の部分木からなるバイグラム７４とが考えられる。もちろん、ノードＤに続くノードＥ（図示せず）があるとすれば、Ｂ－Ｄ－Ｅ及びＣ－Ｄ－Ｅというトライグラムも素性として採用できる。以上が部分木から得たｎ－グラムに関する簡単な説明である。なお、ｎ－グラムがトライグラム又はバイグラムに限定されるわけではない。

　再び図１を参照して、質問応答システム３０はさらに、係り受け解析処理部５２の出力する係り受け木と、質問３４から得られる情報とを用い、既存の情報検索手法を用いて対象文書記憶部３２中から質問３４と関連すると思われる文書を検索し抽出する関連文書検索部５４と、関連文書検索部５４が抽出した文書の中から、これも既存の手法を用いて複数個の回答候補２０２を抽出するための回答候補抽出部５６とを含む。

　関連文書検索部５４での文書の検索には、既存の様々な手法が利用可能である。例えば、質問から抽出した内容語をキーワードとする文書検索の手法を適用できる。又は、非特許文献１の第３．２節に記載された、質問に関連する文書を抽出する技術を使用してもよい。本実施の形態では、Ｓｏｌｒ（http://lucene.apache.org/solr/）と呼ばれるオープンソースソフトウェアを用いた。

　回答候補抽出部５６は、関連文書検索部５４により検索された文書に含まれる文の中から、連続する５つの文を１組とする回答候補を抽出する。図５に示すように、回答候補抽出部５６は、１つの文書から、最初の５文の組１２０、２番目の５文の組１２２、…、最後から２番目の５文の組１３０及び最後の５文の組１３２のように複数の５文の組を抽出する。これら５文の組において、隣接する２つの組は４つの文を共有している。例えば最初の５文の組１２０と２番目の５文の組１２２とは第２の文－第５の文を共有している。このように５つの文を１組とするのは、因果関係の原因部分と結果部分とが別の文に存在している可能性があるためである。本実施の形態では、回答候補抽出部５６はさらに、このようにして各文書から得た多数の５文の組を質問３４との比較で評価し、回答候補として有力な５文の組を選択する。本実施の形態では、選択される組の数は２０個とした。回答候補の抽出にも様々な手法が利用できる。本実施の形態では、非特許文献１に記載された手法を用いる。

　非特許文献１に記載された方法は、簡単に説明すると以下のとおりである。まず、ノン・ファクトイド型質問を６つの類型のいずれかに分類する。これらの類型は以下の通りである。

　（１）定義に関する質問：事項に対する定義を求める。

　（２）理由に関する質問：事実に対する理由を求める。

　（３）方法に関する質問：方法に関する説明を求める。

　（４）程度に関する質問：何らかの事項の程度に関する説明を求める。

　（５）変化に関する質問：変化した事物に関する説明を求める。

　（６）詳細に関する質問：一連の事象に関連する詳細についての説明を求める。

　分類は、質問文が疑問詞を含むか、特定の形容詞又は副詞を含むかにより行なわれる。例えば質問文が「なぜ」を含めば、その質問は理由に関すると判定できる。

　次に、回答候補の中で質問の類型に対応して定められる特定の文言と、質問に含まれる単語とを含む回答候補を抽出する。この際、本実施の形態では、各回答候補のスコアを算出し、スコアに基づいて上位の回答候補を選ぶ。スコアの算出方法の詳細は非特許文献１に記載されている。要するに、質問に含まれる単語のうち、全対象文書中に現れる頻度が少ない単語が多い回答候補ほど、スコアが高くなるようなスコア算出方法を用いればよい。回答候補抽出部５６により抽出された回答候補の例を図６に示す。

　再び図１を参照して、質問応答システム３０はさらに、回答候補抽出部５６により抽出された上位の回答候補２０２の各々について、その中に含まれる因果関係の表現を特定し、因果関係の原因部分と結果部分とにタグを付した回答候補２０４を出力する因果関係認識部６０と、因果関係認識部６０が回答候補中の因果関係を特定する際に参照する、因果関係の手掛かりとなる単語を記憶する因果関係の手掛かり単語記憶部５８と、因果関係認識部６０により各回答候補中に見いだされた因果関係（もしあれば）の各々について、その因果関係が質問３４に対する回答としてふさわしいか否か（因果関係相当性）を判定し、因果関係の相当性を示す相当性フラグを付した回答候補２６０を出力する因果関係相当性判定部６４とを含む。

　質問応答システム３０はさらに、因果関係相当性判定部６４が因果関係の相当性を判定する際に使用する、述部の極性を記憶した極性辞書記憶部６２と、因果関係相当性判定部６４までの各処理部により各回答候補と質問とに対して得られた情報を用いて、各回答候補に対して所定の素性ベクトル３００を生成するための素性ベクトル生成部６６と、素性ベクトル生成部６６により各回答候補について生成された素性ベクトル３００と、予め機械学習により学習済のモデルとを用いて各回答候補にスコアを割当ててランキングし、最上位の回答候補を質問３４に対する回答３６として出力するための回答候補ランキング部６８とを含む。

　図１に示す因果関係の手掛かり単語記憶部５８に格納されている、因果関係の手掛かり単語は、例えば「～ため」、「～ので」、「～理由は」、「～原因となる」、「～ことから」、「～ことで」、「～からだ」等である。本実施の形態では、この手掛かり単語として人手で２５１個の単語（句）からなる表現を収集し、因果関係の手掛かり単語記憶部５８に記憶させた。例えば図７に示す回答候補１の中の「ため」という単語１６０、回答候補２の中の「ため」という単語１６２は、いずれも手掛かり単語に相当する。

　因果関係認識部６０は、因果関係の手掛かり単語を回答候補中で探し、手掛かり単語があればその単語に基づいて、その単語により結びつけられている因果関係表現の原因部分と結果部分とを特定する。この特定には、機械学習により予め学習済のＣＲＦ（Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ：条件付き確率場）モデルを使用する。

　図９を参照して、因果関係認識部６０は、因果関係の手掛かり単語記憶部５８に記憶された単語を、入力される各回答候補の中で特定する手掛かり単語特定部２２０と、回答候補中の手掛かり単語が特定されると、その単語により結びつけられている因果関係表現の原因部分と結果部分とを特定するよう予め学習済のＣＲＦモデル２２２と、手掛かり単語特定部２２０により特定された手掛かり単語と回答候補とを用いてＣＲＦモデル２２２を参照することにより、手掛かり単語により結びつけられている因果関係表現の原因部分の開始位置及び終了位置を示すタグと、結果部分の開始位置及び終了位置を示すタグとを回答候補に付与し、回答候補２０４として出力する因果関係表現特定部２２４とを含む。

　ＣＲＦモデル２２２は前述したとおり、手掛かり単語と回答候補とが与えられるとその手掛かり単語により表される因果関係表現の原因部分と結果部分とを特定するように、予め学習済である。図９を参照して、ＣＲＦモデル２２２の学習処理部２００は、質問応答システム３０とは独立した装置であって、学習用テキストを記憶する学習用テキスト記憶部２３０と、因果関係の手掛かり単語記憶部５８に記憶された手掛かり単語に基づき、学習用テキスト中に見いだされる各手掛かり単語について、その原因部分と結果部分とに人手でラベルを付すラベリング処理を行なって学習用データを生成するラベリング処理部２３２と、ラベリング処理部２３２の出力する学習用データを記憶する学習用データ記憶部２３４と、学習用データ記憶部２３４に記憶された学習用データを用い、ＣＲＦモデル２２２の学習を行なう機械学習処理部２３６とを含む。

　因果関係相当性判定部６４は、以下に述べるように、回答候補から抽出された結果部分の記載と、質問文とを照合し、回答候補の結果部分（以下単に「結果部分」と呼ぶ。）が質問文の回答としてふさわしいものか否かを判定する。

　図４を参照して既に説明したように、回答候補において認識された因果関係表現が、質問に対する回答として全てふさわしい訳ではない。質問に対する回答としてふさわしい因果関係表現は、その結果部分が質問と似ていることが多い。そこで、本実施の形態では、質問と、結果部分との間での（１）単語マッチング及び（２）部分木マッチングを使用して、因果関係表現が質問に対する回答としてふさわしいか否かを判定する。

　（１）単語マッチング
　単語マッチングは、質問と結果部分とが、どの程度の数の内容語（名詞及び動詞を含む。）を共有しているか否かに関する。共有される内容語の数が多ければ多いほど、質問と結果部分とが似ているということができる。

　（２）部分木マッチング
　部分木マッチングは、構文構造上の部分木のマッチングであり、具体的には、図２（Ｂ１）及び図２（Ｂ２）に示したような部分木について、質問の部分木と結果部分の部分木との間で共通するものがいくつあるかで見ることができる。より具体的には、両者の部分木から得られる単語ｎ－グラムがどの程度共通しているかで測ることができる。

　しかし、単語マッチング及び部分木マッチングのみでは、因果関係が質問に対する回答を与えるものとしてふさわしいか否かの判定が難しい場合がある。例えば、図４に示した例のように、因果関係の手掛かり単語が共通する因果関係であって、両者に含まれる単語が共通するものであっても、質問に対する回答を与えるものとしてふさわしいものとそうでないものとがある。すなわち、図４に示す例で、質問の「津波が起こる」と「回答」として示した文の「津波が発生する」とは、「津波が発生するとき」は必ず「津波が起こる」といえるという意味から、含意関係にあるということができる。それに対し、質問の「津波が起こる」と「回答でない」として示した文の「津波を弱める」とは、含意関係にない。前者は回答としてふさわしいが、後者はふさわしくない。

　このように回答候補が質問に対する回答としてふさわしいか否かを判定するためには、質問中の表現と回答候補中の表現との含意関係の有無に関する認識が必要だが、これは難しいタスクである。そこで、本実施の形態では、述部の「極性」という概念を用いてこの含意関係を判定することにした。前述のとおり、述部の極性として「活性」及び「不活性」の２つを考える。述部の極性が活性であるとは、「Ｘを引き起こす」、「Ｘが発生する」、及び「Ｘが起こる」等のように、変数Ｘを含む表現パターンで変数Ｘにより表される事物の機能等が「オン」になること（機能等が活性化すること）を示すものであることをいう。例えば「Ｘを引き起こす」、「Ｘを使う」、「Ｘを買う」、「Ｘを進行させる」、「Ｘを輸入する」、「Ｘが増える」等が該当する。これらはいずれもＸにより表されるものの機能が発揮されるような表現である。述部の活性が不活性とは、変数Ｘを含む表現パターンで、変数Ｘにより表される事物の機能等が「オフ」になること（機能等が不活性化すること）を示すもののことをいう。例えば「Ｘを防ぐ」、「Ｘを捨てる」、「Ｘが減る」、「Ｘを破壊する」、「Ｘが不可能になる」等が該当する。

　図８を参照して、前述した図４の例でいうと、「津波が起こる」（名詞＋が＋起こる）と「津波が発生する」（名詞＋が＋発生する）とは、いずれも名詞「津波」と、「津波」が係る述部（起こる、発生する）の極性が活性である点で共通している。一方、「津波が起こる（名詞＋が＋起こる）」と「津波を弱める」（名詞＋を＋弱める）とは、名詞「津波」が共通してはいるが、前者の「起こる」が活性、後者の「弱める」が不活性である点で異なっている。このように、述部の活性を、その意味に基づいて活性・不活性に分類し、質問文の名詞及び当該名詞が係る述部の極性の組合せと、結果部分の名詞及び当該名詞が係る述部の極性の組合せとが一致するもののみを、含意関係を表すものとして認識できる。この性質を利用して、因果関係が質問に対する回答としてふさわしいか否かを判定できる。

　図１に示す因果関係相当性判定部６４は、こうした手法を用いて各回答候補が質問に対する回答を与える因果関係として相当なものか否かを判定する。

　図１０を参照して、因果関係相当性判定部６４は、因果関係認識部６０の出力する回答候補２０４の各々について、極性辞書記憶部６２に記憶された極性辞書を用い、検出された因果関係表現の結果部に含まれる述部の極性を判定する述部極性判定部２７０と、述部極性判定部２７０により判定された極性を用い、結果部に含まれる名詞及び当該名詞が係る述部の極性の組合せと、質問に含まれる名詞及び当該名詞が係る述部の極性の組合せとが一致するか否かを判定する一致判定部２７２と、質問と回答候補の結果部との間の単語マッチング及び部分木マッチングの結果と、一致判定部２７２による判定結果とに従い、回答候補が質問に対する回答としてふさわしいか否かを示す相当性フラグをセット又はリセットして回答候補に付して回答候補２６０として出力する相当性フラグ設定部２７４とを含む。

　図１１を参照して、回答候補ランキング部６８は、素性ベクトル生成部６６により生成された素性ベクトル３００を予め学習済のＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）により評価し、質問に対する回答としての適格性を示すスコアを出力するＳＶＭによるスコアリング部３０２と、スコアリング部３０２により各候補に対して出力されたスコアを各候補とともに記憶するスコア記憶部３０４と、スコア記憶部３０４に記憶された全ての回答候補をスコアの降順に並べ替え、最高スコアを持つ回答候補の因果関係表現の結果部分を質問に対する回答３６として出力する最上位候補出力部３０６とを含む。

　素性ベクトル生成部６６により生成される素性の一覧のうち、本願発明と直接は関係しないものを図１２に一覧表として示す。これらの素性は、非特許文献３に記載されたシステムにおいて使用されているものである。すなわち、素性ベクトル生成部６６が生成する素性ベクトルの要素である素性は、非特許文献３に記載されたように、先行技術で形態素解析と係り受け解析処理との結果から算出される素性の組と、以下に述べる因果関係に関連して算出される素性の組との２組に分かれる。

　本実施の形態では、図１２に示すものとは別の組の素性として、以下を用いる。

　（１）因果関係の有無
　回答候補が回答にふさわしいと判定された因果関係を含んでいるかの二値特性。この値は、因果関係相当性判定部６４の出力により得られる。

　（２）因果関係の内容
　回答候補内の因果関係の単語及び部分木のｎ－グラムと、述部の活性・不活性の意味極性。これらは、回答候補の形態素列、係り受け木、及び因果関係相当性判定部６４の出力内の述部極性判定部２７０（図１０）により得られる。

　（３）因果関係の確信度
　回答にふさわしいと判定された因果関係表現の結果部分が質問と共有する単語、部分木、若しくは活性・不活性極性の数又はこれらの任意の組合せ。これらは形態素解析処理部５０及び係り受け解析処理部５２の出力、因果関係認識部６０の出力、各回答候補の形態素列及び部分木等から生成できる。

　スコアリング部３０２の学習は以下のようにして行なわれる。

　図１１の右側を参照して、スコアリング部３０２の学習処理部２９０は、質問応答システム３０の学習処理部２００とは別に準備される。この学習処理部２９０は、学習用の文書を記憶した学習用文書記憶部３１０を含む。学習用文書は、複数の学習用データセットを含む。各学習用データセットは、質問と、その質問に対する回答候補となる、因果関係を表す複数個の文とを格納している。各文には、その文に含まれる因果関係表現の結果部を、同じ学習用データセットの質問の回答とすべきか否かを示す教師データが付されている。

　学習処理部２９０はさらに、学習用文書記憶部３１０に記憶された各学習用データセットの各々の因果関係について、質問応答システム３０と同様の処理をすることにより素性ベクトル生成部６６と同じ素性を算出し、教師データを付した学習用の素性ベクトルを生成し出力する素性ベクトル生成部３１２と、素性ベクトル生成部３１２により出力された学習用の素性ベクトルからなる学習用データを記憶する学習用データ記憶部３１４と、学習用データ記憶部３１４に格納された学習用データを用い、スコアリング部３０２のＳＶＭの学習処理を行なうＳＶＭ学習部３１６とを含む。

　実際の質問応答システムと同じ素性を用いて図１１に示すスコアリング部３０２の学習を行なっておくことにより、スコアリング部３０２は、各回答候補から得られる素性ベクトルが与えられると、その回答候補が回答としてどの程度適切かをスコアとして出力できるようになる。

　［動作］
　以上に構成を説明した質問応答システム３０は以下のように動作する。まず、質問応答システム３０が動作するための準備段階における質問応答システム３０の動作を説明する。図１を参照して、対象文書記憶部３２には回答を検索する対象となる文書を予め多数記憶しておく。各文書に含まれる文の各々は、形態素解析と係り受け解析され、係り受け木の情報が付される。

　因果関係の手掛かり単語記憶部５８には、予め因果関係表現の原因部分と結果部分とを特定するために使用される表現である手掛かり単語（又は句）が記憶されている。また、極性辞書記憶部６２には、多数の述部について、その述部の極性（活性・不活性）を記述した極性辞書が格納されている。

　図９を参照して、学習処理部２００の学習用テキスト記憶部２３０には、予め、学習用のテキストが記憶されている。ラベリング処理部２３２により、このテキストの各々について、因果関係の手掛かり単語記憶部５８に記憶された手掛かり単語の位置と、その手掛かり単語により結びつけられる因果関係表現の原因部分と結果部分との範囲を示すラベルが人手により付与される。ラベルが付与された文は学習用データとして学習用データ記憶部２３４に記憶される。機械学習処理部２３６は、この学習データを用いてＣＲＦモデル２２２の学習を行なう。

　図１１を参照して、スコアリング部３０２の学習処理部２９０においては、学習用文書記憶部３１０に複数の学習用データセットが記憶される。各学習用データセットは、質問と、その質問に対する回答候補となる、因果関係を表す複数個の文とを含む。各文には、その文に含まれる因果関係表現の結果部を、同じ学習用データセットの質問の回答とすべきか否かを示す教師データが付されている。学習処理部２９０の素性ベクトル生成部３１２は、学習用文書記憶部３１０に記憶された各学習用データセットの各々の因果関係について、質問応答システム３０と同様の処理をすることにより素性ベクトル生成部６６と同じ素性を算出し、教師データを付すことにより学習用の素性ベクトルを生成して学習用データ記憶部３１４に出力する。学習用データ記憶部３１４は、素性ベクトル生成部３１２により出力された学習用の素性ベクトルからなる学習用データを記憶する。ＳＶＭ学習部３１６は、学習用データ記憶部３１４に格納された学習用データを用い、スコアリング部３０２のＳＶＭの学習処理を行なう。この結果、スコアリング部３０２は、各回答候補から得られる素性ベクトルが与えられると、その回答候補が回答としてどの程度適切かをスコアとして出力できるようになる。以上で質問応答システム３０は質問３４に対して適切な回答３６を出力可能になる。

　図１を参照して、質問３４が質問応答システム３０に与えられると、形態素解析処理部５０が質問３４を形態素解析し、係り受け解析処理部５２がさらに質問の係り受け解析を行なって係り受け木２０１を質問３４に付し関連文書検索部５４に出力する。

　関連文書検索部５４は、係り受け解析処理部５２から与えられた情報を用い、質問３４と関連あると思われる文書を求めて対象文書記憶部３２を検索し抽出する。

　回答候補抽出部５６は、関連文書検索部５４により抽出された各文書から、図５を参照して説明したように５文ずつを１組として多数の回答候補２０２を生成する。回答候補抽出部５６はさらに、抽出した回答候補２０２の中から、質問３４と関連あると考えられる回答候補２０２を選択する。

　続いて、因果関係認識部６０は以下のように動作する。図９を参照して、手掛かり単語特定部２２０は、各回答候補２０２について、因果関係の手掛かり単語記憶部５８に記憶されている手掛かり単語があるか否かを判定する。手掛かり単語がない場合にはその候補は捨て、手掛かり単語がある回答候補のみを因果関係表現特定部２２４に与える。

　因果関係表現特定部２２４は、手掛かり単語特定部２２０から与えられる回答候補のお各々について、その中の手掛かり単語により結びつけられる因果関係表現の原因部分と結果部分とを、ＣＲＦモデル２２２により推定し、それぞれその開始位置及び終了位置を示すタグを付して回答候補２０４として出力する。

　図１０を参照して、回答候補２０４を受けた因果関係相当性判定部６４の述部極性判定部２７０は、極性辞書記憶部６２を参照して、回答候補２０４に含まれる因果関係表現の結果部分の述部の極性を判定し、回答候補２０４に付して一致判定部２７２に出力する。一致判定部２７２は、回答候補の結果部分の名詞及びその名詞が係る述部の極性の組合せと、質問に含まれる名詞及びその名詞が係る述部の極性の組合せとが一致するか否かを判定し、その結果を出力する。相当性フラグ設定部２７４は、一致判定部２７２の出力と、質問及び回答候補の結果部との単語マッチング及び部分木マッチングとの結果にしたがい、相当性フラグをセット又はリセットし、そのフラグを回答候補に付して回答候補２６０として出力する。

　図１に示す素性ベクトル生成部６６は、回答候補２６０に付されている様々な情報に基づいて、図１１に示す回答候補ランキング部６８のスコアリング部３０２で用いる素性ベクトルを生成し、スコアリング部３０２に与える。

　図１１に示すスコアリング部３０２は、学習処理部２９０により学習済のＳＶＭを用い、与えられた素性ベクトルに対するスコアを算出する。スコア記憶部３０４は、各回答候補について算出されたスコアを回答候補とともに記憶する。最上位候補出力部３０６は、全ての回答候補に対するスコアの算出が終わると、最もスコアの高い回答候補を選択し、回答３６として出力する。

　［実験］
　ホワイ型質問応答システムにおける因果関係素性の影響を調べるために、質問に対して各手法を用いて得られた最上位回答の精度を調べた。その結果を次のテーブル１に示す。

　非特許文献１の手法は、上記実施の形態における回答候補抽出部５６での手法に相当する。非特許文献３は、先行技術の手法のうちでもっとも高い精度が得られたものであり、上記実施の形態との比較のためにここに挙げたものである。

　この結果から、上記実施の形態に係る手法（非特許文献３の素性に因果関係素性を加えたものを用いて回答候補をランキング）によれば、最上位回答の精度が、先行技術で最も精度の高い非特許文献３によるものをかなり上回った。

　さらに、上記実施の形態に係る手法と、非特許文献３に係る手法とによる回答の信頼性を調べるために、各々の手法について、質問を、その回答の精度が高かったものの順番に並べ、上位２５％の点での回答の精度を調べた。図１３にその結果を示す。

　図１３を参照して、非特許文献３の手法の場合に得られた回答の精度の、順位ごとの値（グラフ３２２）によれば、上位２５％の点（図１３において一点鎖線３２６により示す。）での回答の精度は６２％であった。これに対して上記実施の形態に係る手法（グラフ３２０）では、その値は８３％であった。参考のため、図１３には、因果関係のみをランキングに用いた場合のグラフ３２４も示してある。

　以上のように、上記実施の形態によれば、先行技術で使用されていた回答候補のランキングのための素性に加えて、因果関係素性を使用することで、ノン・ファクトイド型の質問に対する回答の精度を大幅に高めることができる。したがって、上記したような因果関係素性を用いることにより、ノン・ファクトイド型の質問に対して適切な回答を与える質問応答システムを得ることができる。

　［コンピュータによる実現］
　上記実施の形態に係る質問応答システム３０は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１４はこのコンピュータシステム３３０の外観を示し、図１５はコンピュータシステム３３０の内部構成を示す。

　図１４を参照して、このコンピュータシステム３３０は、メモリポート３５２及びＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

　図１５を参照して、コンピュータ３４０は、メモリポート３５２及びＤＶＤドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、メモリポート３５２及びＤＶＤドライブ３５０に接続されたバス３６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、ハードディスク３５４を含む。コンピュータシステム３３０はさらに、他端末との通信を可能とするネットワーク３６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）３４４を含む。

　コンピュータシステム３３０を上記した実施の形態に係る質問応答システム３０の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ３５０又はメモリポート３５２に装着されるＤＶＤ３６２又はリムーバブルメモリ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムはネットワーク３６８を通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＤＶＤ３６２から、リムーバブルメモリ３６４から又はネットワーク３６８を介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

　このプログラムは、コンピュータ３４０を、上記実施の形態に係る質問応答システム３０の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ３４０にこの動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ３４０にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。

　上記実施の形態では、対象文書記憶部３２、因果関係の手掛かり単語記憶部５８、極性辞書記憶部６２、学習用テキスト記憶部２３０、学習用データ記憶部２３４及び３１４、ＣＲＦモデル２２２、学習用文書記憶部３１０、スコア記憶部３０４等はＲＡＭ３６０又はハードディスク３５４により実現される。これらの値はさらに、ＵＳＢメモリ等のリムーバブルメモリ３６４に記憶されてもよいし、ネットワーク３６８等の通信媒体を介して他のコンピュータに送信されてもよい。

　上記実施の形態に係るシステムは、既存の音声質問応答システムに組込む１モジュールとして使用できる。ノン・ファクトイド型質問が入力として与えられた際に、Ｗｅｂ等のテキストから高精度で回答を特定するために上記実施の形態のシステムを利用できる。上記システムはまた、質問応答システムに限らず、検索エンジン及び情報分析システムのモジュールとしてユーザに有用な情報を提供することにも利用できる。

　上記実施の形態では、図１の関連文書検索部５４ではオープンソースソフトウェアのＳｏｌｒを用いた。しかし、本発明はそのような実施の形態には限定されない。例えば、文書中に現れる因果関係を手がかりにする手法を用いてもよいし、文書中に現れる因果関係と、因果関係中に現れる述部の活性・不活性との組合せを手がかりにする手法を用いてもよい。一般的に、質問と文書とを、それらが含む単語を用いて多次元のベクトルの形で表現し、ベクトル間の類似度を計算することにより質問と類似した内容を含む文書を検索し、さらにその中から上記した因果関係を手がかりに回答候補を絞るような手法を用いてもよい。質問と関連した文書を検索するためのソフトウェアツールは有償・無償を問わず多数存在している。ここでは、質問に対して高速に回答を出す必要があることから、質問を受けてから各文書の先頭から末尾までを走査するいわゆる全文検索型ではなく、予め収集しておいた大量の文書にインデックスを付しておくインデクシング型のものを用いることが望ましい。

　また、上記実施の形態では、ノン・ファクトイド型質問としてホワイ型質問を想定し、回答候補を得るために文書中に現れる因果関係を手がかりにした。しかし本発明はそのような実施の形態には限定されない。例えば同じノン・ファクトイド型質問に属する「ゴーヤーチャンプルーはどうやって作りますか？」のようなハウ型質問の場合には、回答候補を得るために、「ゴーヤーチャンプルーには、豚肉かスパム、卵を入れます。」のような材料関係、「ゴーヤーは二つ割りにして中のワタを取り除き、薄切りにする。」のような手順関係などの意味的関係を手がかりにしてもよい。

　また、上記実施の形態では、質問に現れる名詞と述部の極性との組合せと、回答候補に現れる名詞と述部の極性との組合せとが一致するか否かを回答の選択に用いており、極性としては述部が活性か否か（変数Ｘを含む表現パターンで変数Ｘにより表される事物の機能等が「オン」になること（機能等が活性化すること）を示すものか否か）を用いていた。しかし本発明はそのような実施の形態には限定されない。他の極性を用いることもできる。例えば極性として「ｇｏｏｄ／ｂａｄ」を用いることもできる。病気の場合、「病気がひどくなる」という表現の「ひどくなる」は、活性・不活性という極性では「活性」であるが、「ｇｏｏｄ／ｂａｄ」という極性では「ｂａｄ」である。このように、述部の極性としては活性・不活性だけではなく、他の性質を用いることもできる。また、上の例でいえば、「ひどくなる」は「活性」かつ「ｂａｄ」というように、複数種類の極性の組合せを回答選択の際に素性として用いることもできる。

　さらに、上記実施の形態では、理解を容易にするために、「名詞＋述部」の組合せが質問及び結果部内に１つだけ存在する場合を例にしている。しかし本発明はそのような実施の形態には限定されない。例えば「タバコがガンを引き起こす」のような場合、「名詞＋述部」の組合せとして、「タバコが引き起こす」と「ガンを引き起こす」との２つの表現が得られる。これらのうち、特定のもののみを素性生成の際に使用してもよいし（例えば名詞が述部の主部に相当するもののみを採用したり、目的語に相当するもののみを採用したり、質問に含まれる名詞と述部との関係と一致するもののみを採用したりする。）、全てを素性生成の際に使用してもよい。

　今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

産業上の利用の可能性

　本発明は、コンピュータ及びネットワークを利用して、いわゆるホワイ型質問等のノン・ファクトイド型質問に対して回答を与える質問応答サービス、及びそれらサービスで利用される装置に適用できる。

３０　質問応答システム
３２　対象文書記憶部
３４　質問
３６　回答
５０　形態素解析処理部
５２　係り受け解析処理部
５４　関連文書検索部
５６　回答候補抽出部
５８　因果関係の手掛かり単語記憶部
６０　因果関係認識部
６２　極性辞書記憶部
６４　因果関係相当性判定部
６６　素性ベクトル生成部
６８　回答候補ランキング部
２００　学習処理部
２０１　係り受け木
２０２，２０４，２６０　回答候補
２２０　手掛かり単語特定部
２２２　ＣＲＦモデル
２２４　因果関係表現特定部
２７０　述部極性判定部
２７２　一致判定部
２７４　相当性フラグ設定部
３００　素性ベクトル
３０２　スコアリング部
３０６　最上位候補出力部

Claims

　ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するノン・ファクトイド型の質問応答システムであって、コンピュータ読取可能な複数個の文書を記憶する文書記憶手段に接続されて用いられ、
　質問の入力を受けたことに応答して、前記文書記憶手段から、当該質問に対する回答候補を取出すための候補検索手段と、
　前記候補検索手段により回答候補が検索されたことに応答して、前記質問と、前記候補検索手段により検索された回答候補の各々との組合せについて、所定の素性の集合を生成するための素性生成手段と、
　前記素性生成手段により生成される前記素性の集合が与えられると、当該素性の集合を生成する元となった質問と回答候補とについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出し、最もスコアの高い回答候補を前記質問に対する回答として出力する回答選択手段とを含み、
　前記素性生成手段は、
　前記質問及び各回答候補について、それぞれの形態素情報及び統語情報から求められる第１の素性の組を算出する第１の素性算出手段と、
　各前記回答候補中の因果関係表現であって、前記質問に対する回答を与えるものとして相当なものを選択し、当該因果関係表現から得られる第２の素性の組を算出する第２の素性算出手段とを含み、
　前記素性の集合は前記第１の素性の組と前記第２の素性の組とを含む、ノン・ファクトイド型の質問応答システム。
前記候補検索手段は、
　前記質問の入力を受けたことに応答して、当該質問を所定の複数個の類型のいずれかに分類する分類手段と、
　前記質問の入力を受けたことに応答して、前記文書記憶手段に記憶された各文書を、連続する１個又は複数個の文からなる文の組に分割し出力する文分割手段と、
　前記文分割手段により出力された各文の組について、前記分類手段による分類結果にしたがって定まる基準によりスコアを算出し、当該スコア上位の文の組を前記回答候補として出力する手段とを含む、請求項１に記載のノン・ファクトイド型の質問応答システム。
前記第２の素性算出手段は、
　各前記回答候補の中で、因果関係表現の特定のための手掛かりとなる表現を特定する手がかり表現特定手段と、
　各前記回答候補の中で、前記手掛かり表現特定手段により特定された手掛かり表現により結びつけられている、因果関係の原因部分と結果部分とからなる因果関係表現を特定する因果関係表現特定手段と、
　前記特定された因果関係表現の結果部分に含まれる名詞と当該名詞が係る述部の極性との組合せ、及び前記質問に含まれる名詞と当該名詞が係る述部の極性との組合せが一致するか否かを判定する一致判定手段と、
　各前記回答候補の中で前記因果関係表現特定手段により特定された因果関係表現が、前記質問に対する回答として相当か否かを、前記一致判定手段による判定結果と、各前記回答候補と前記質問との間の単語マッチング及び係り受け木の部分木マッチングとを用いて判定する相当性判定手段と、
　前記相当性判定手段による判定結果を示す情報を前記第２の素性の組の素性として出力する手段とを含む、請求項１又は請求項２に記載のノン・ファクトイド型の質問応答システム。
前記第２の素性算出手段はさらに、前記因果関係表現特定手段により特定された因果関係表現の単語のｎ－グラム、当該因果関係表現における係り受け木の部分木のｎ－グラム、若しくは当該因果関係表現に含まれる述部の極性と当該述部に係る名詞の意味との組合せ、又はこれらの任意の組合せを前記第２の素性の組の素性として出力する手段を含む、請求項３に記載のノン・ファクトイド型の質問応答システム。
前記第２の素性算出手段はさらに、前記因果関係表現特定手段により特定された因果関係表現のうちの結果部分が前記質問と共有している単語、係り受け木の部分木、活性の述部の数、若しくは不活性の述部の数、又はこれらの任意の組合せを前記第２の素性の組の素性として出力する手段を含む、請求項３又は請求項４に記載のノン・ファクトイド型の質問応答システム。
ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するノン・ファクトイド型の質問応答方法であって、コンピュータ読取可能な複数個の文書を記憶する文書記憶手段を用いて実行され、
　質問の入力を受けたことに応答して、前記文書記憶手段から、当該質問に対する回答候補を取出す候補検索ステップと、
　前記候補検索ステップにおいて回答候補が検索されたことに応答して、前記質問と、前記候補検索ステップにおいて検索された回答候補の各々との組合せについて、所定の素性の集合を生成する素性生成ステップと、
　前記素性生成ステップにおいて生成される前記素性の集合が与えられたことに応答して、当該素性の集合を生成する元となった質問と回答候補とについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出し、最もスコアの高い回答候補を前記質問に対する回答として出力する回答選択ステップとを含み、
　前記素性生成ステップは、
　前記質問及び各回答候補について、それぞれの形態素情報及び統語情報から求められる第１の素性の組を算出する第１の素性算出ステップと、
　各前記回答候補中の因果関係表現であって、前記質問に対する回答を与えるものとして相当なものを選択し、当該因果関係表現から得られる第２の素性の組を算出する第２の素性算出ステップとを含み、
　前記素性の集合は前記第１の素性の組と前記第２の素性の組とを含む、ノン・ファクトイド型の質問応答方法。