JP2015087796A - Questioning field determination device and questioning field determination method - Google Patents
Questioning field determination device and questioning field determination method Download PDFInfo
- Publication number
- JP2015087796A JP2015087796A JP2013223247A JP2013223247A JP2015087796A JP 2015087796 A JP2015087796 A JP 2015087796A JP 2013223247 A JP2013223247 A JP 2013223247A JP 2013223247 A JP2013223247 A JP 2013223247A JP 2015087796 A JP2015087796 A JP 2015087796A
- Authority
- JP
- Japan
- Prior art keywords
- question
- question sentence
- entity
- perplexity
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、質問文の分野を判定する質問分野判定装置及び質問分野判定方法に関する。 The present invention relates to a question field determination device and a question field determination method for determining a field of a question sentence.
音声認識技術や質問応答技術の発展により、ユーザの自然文形式の質問に対して受け答えをするエージェント型のサービスが普及しつつある。エージェント型のサービスは天気や乗り換え案内、雑談、歴史や社会等の客観的な事実といった様々な質問に対して回答することができる。質問を「今日の天気を教えて」といった自然な文章で実施でき、まるで自分専用の秘書がパソコンや携帯端末に存在しているように利用できる点が特徴となっている。 With the development of speech recognition technology and question answering technology, agent-type services that accept and answer questions in the natural sentence format of users are becoming widespread. The agent-type service can answer various questions such as weather, transfer guidance, chat, objective facts such as history and society. Questions can be conducted with natural sentences such as "tell me today's weather", and it is characterized by the fact that a personal secretary can be used as if it exists on a personal computer or mobile terminal.
特許文献1には、典型的な質問応答のためのシステム構成が開示されている。ユーザからの質問内容を解析し質問のタイプをWho、Where、Whenといったいわゆる5W1Hの枠組みに沿って分類し、それぞれ異なる方式で回答抽出を行っている。また、特許文献2には、雑談対話を行うための典型的な枠組みが開示されている。 Patent Document 1 discloses a system configuration for typical question answering. The contents of the question from the user are analyzed, and the question type is classified according to the so-called 5W1H framework such as Who, Where, and When, and answers are extracted by different methods. Patent Document 2 discloses a typical framework for performing a chat conversation.
天気や乗り換え案内、雑談等ユーザがする質問の分野によって、回答を生成するための方法は大きく異なるため、エージェント型のサービスではこういった質問に回答するためには実際に回答を生成する処理の前に、その質問の対象分野を判定する処理を実施する必要がある(質問分野判定)。特にユーザが誰かに話しかけている感覚を得るために画面上にエージェントを視覚化したキャラクターを表示する場合があり、そのキャラクターに対する質問文(以下、雑談と呼ぶ。例えば「あなたの年齢は?」)と客観的な事実(例えば「総理大臣の年齢は?」)とは、文章の構成は非常に類似しているが求められる動作は大きく異なるため、それを選り分けるための方法が重要となる。 The method for generating answers varies greatly depending on the field of questions the user asks, such as weather, transfer guidance, chat, etc. In the agent type service, in order to answer such questions, the process of actually generating the answer Before that, it is necessary to carry out a process of determining the target field of the question (question field determination). In particular, there is a case where a character visualizing an agent is displayed on the screen in order to obtain a feeling that the user is talking to someone, and a question sentence for the character (hereinafter referred to as chatting. For example, “What is your age?”) The objective structure (for example, “What is the age of the prime minister?”) Is very similar in composition, but the required actions are very different, so a method for selecting them is important.
上記の特許文献1に示される方法では、文末の表現が「だれ」ならWhoといったように文章の単純な素性に従って質問のタイプを分類している。雑談と客観的な事実に関する質問とは特に文末表現等の単純な素性では区別が難しい。そのため、特許文献1に示される方法では適切に質問分野を判定することはできず、それに特化した判定方法が必要である。また、エージェント型のサービスで行われる入力には雑談と客観的な事実に関する質問とが混在するため、特許文献2に示されるような雑談対話が主体のシステムにもそれらを峻別する方法が求められる。 In the method disclosed in Patent Document 1, the question type is classified according to a simple feature of the sentence such as Who if the expression at the end of the sentence is “who”. Chatting and questions about objective facts are difficult to distinguish, especially with simple features such as sentence endings. For this reason, the method disclosed in Patent Document 1 cannot appropriately determine the question field, and a determination method specialized for it is necessary. In addition, since chats and questions about objective facts are mixed in the input performed by the agent-type service, a method of distinguishing them is required even in a system mainly having chat conversation as shown in Patent Document 2. .
本発明は、上記の問題点に鑑みてなされたものであり、例えば、ユーザの質問に対して雑談及び客観的な事実に対する応答を含む受け答えを可能とするように、質問文が特定の分野の質問文であるか否かを正確に判定する質問分野判定装置及び質問分野判定方法を提供することを目的とする。 The present invention has been made in view of the above-mentioned problems. For example, a question sentence is in a specific field so that a user's question can be answered and received including a chat and a response to an objective fact. It is an object of the present invention to provide a question field determination device and a question field determination method for accurately determining whether or not a question sentence.
上記の目的を達成するために、本発明に係る質問分野判定装置は、質問文を入力する質問文入力手段と、質問文入力手段によって入力された質問文から、質問対象であるエンティティを抽出するエンティティ抽出手段と、質問文入力手段によって入力された質問文から、特定の分野の質問文を想定した言語モデルによるパープレキシティの値を算出するパープレキシティ算出手段と、エンティティ抽出手段によるエンティティの抽出結果、及びパープレキシティ算出手段によって算出されたパープレキシティの値に基づいて、質問文入力手段によって入力された質問文が特定の分野の質問文であるか否かを判定する判定手段と、を備える。 To achieve the above object, a question field determination apparatus according to the present invention extracts a question sentence input means for inputting a question sentence, and an entity that is a question target from the question sentence input by the question sentence input means. An entity extraction means; a perplexity calculation means for calculating a perplexity value based on a language model assuming a question sentence in a specific field from a question sentence input by the question sentence input means; and Determination means for determining whether the question text input by the question text input means is a question text in a specific field based on the extraction result and the perplexity value calculated by the perplexity calculation means; .
本発明に係る質問分野判定装置では、質問文からのエンティティの抽出結果、及び質問文から算出されたパープレキシティの値の両者が考慮された上で、質問文が特定の分野の質問文であるか否かが判定される。これにより、本発明に係る質問分野判定装置によれば、質問文が特定の分野の質問文であるか否かを正確に判定することが可能になる。 In the question field determination device according to the present invention, after considering both the entity extraction result from the question sentence and the perplexity value calculated from the question sentence, the question sentence is a question sentence in a specific field. It is determined whether or not there is. Thereby, according to the question field judgment device concerning the present invention, it becomes possible to judge correctly whether a question text is a question text of a specific field.
パープレキシティ算出手段は、質問文に含まれる単語の前後関係に基づいて、パープレキシティの値を算出することとしてもよい。この構成によれば、適切かつ確実にパープレキシティの値を算出することができ、適切かつ確実に本発明を実施することができる。 The perplexity calculating means may calculate a perplexity value based on the context of words included in the question sentence. According to this configuration, the perplexity value can be calculated appropriately and reliably, and the present invention can be implemented appropriately and reliably.
判定手段は、エンティティの抽出結果に応じた閾値を設定し、設定した閾値とパープレキシティの値とを比較して、質問文が特定の分野の質問文であるか否かを判定することとしてもよい。この構成によれば、適切かつ確実に判定を行うことができ、適切かつ確実に本発明を実施することができる。 The determination means sets a threshold value according to the extraction result of the entity, compares the set threshold value with the perplexity value, and determines whether or not the question sentence is a question sentence in a specific field. Also good. According to this configuration, the determination can be performed appropriately and reliably, and the present invention can be implemented appropriately and reliably.
質問分野判定装置は、判定手段によって、質問文が特定の分野の質問文であると判定された場合には、第1の方法によって当該質問文に対する回答を生成して出力する第1回答手段と、判定手段によって、質問文が特定の分野以外の分野の質問文であると判定された場合には、第1の方法とは異なる第2の方法によって当該質問文に対する回答を生成して出力する第2回答手段と、を更に備えることとしてもよい。この構成によれば、質問文に対する回答を出力することができる。 The question field determination device includes a first answering unit that generates and outputs an answer to the question message by the first method when the determination unit determines that the question message is a question message in a specific field. When the determination means determines that the question sentence is a question sentence in a field other than the specific field, an answer to the question sentence is generated and output by a second method different from the first method. It is good also as providing a 2nd reply means. According to this configuration, an answer to the question sentence can be output.
判定手段は、エンティティの抽出結果、及びパープレキシティの値に基づいて、質問文が特定の分野の質問文である度合いを算出し、質問分野判定装置は、判定手段によって算出された度合いに応じて、当該質問文に対する回答を行うための、エンティティ抽出手段によって抽出されたエンティティに関する情報追加を要求する情報追加要求手段を更に備えることとしてもよい。この構成によれば、質問を把握するために必要な情報を取得することができる。 The determination means calculates the degree to which the question sentence is a question sentence in a specific field based on the entity extraction result and the perplexity value, and the question field determination device determines whether the question sentence is determined by the determination means. In addition, an information addition requesting unit that requests addition of information related to the entity extracted by the entity extracting unit for answering the question sentence may be further provided. According to this configuration, information necessary for grasping the question can be acquired.
ところで、本発明は、上記のように質問分野判定装置の発明として記述できる他に、以下のように質問分野判定方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。 By the way, the present invention can be described as an invention of a question field determination method as described below, in addition to the invention of a question field determination device as described above. This is substantially the same invention only in different categories, and has the same operations and effects.
即ち、本発明に係る質問分野判定方法は、質問文を入力する質問文入力ステップと、質問文入力ステップにおいて入力された質問文から、質問対象であるエンティティを抽出するエンティティ抽出ステップと、質問文入力ステップにおいて入力された質問文から、特定の分野の質問文を想定した言語モデルによるパープレキシティの値を算出するパープレキシティ算出ステップと、エンティティ抽出ステップにおけるエンティティの抽出結果、及びパープレキシティ算出ステップにおいて算出されたパープレキシティの値に基づいて、質問文入力ステップにおいて入力された質問文が特定の分野の質問文であるか否かを判定する判定ステップと、を含む。 That is, the question field determination method according to the present invention includes a question sentence input step for inputting a question sentence, an entity extraction step for extracting an entity to be questioned from the question sentence input in the question sentence input step, and a question sentence A perplexity calculation step for calculating a perplexity value based on a language model assuming a question text in a specific field from the question text input in the input step, an entity extraction result in the entity extraction step, and a perplexity A determination step of determining whether or not the question text input in the question text input step is a question text in a specific field based on the perplexity value calculated in the calculation step.
本発明では、質問文からのエンティティの抽出結果、及び質問文から算出されたパープレキシティの値の両者が考慮された上で、質問文が特定の分野の質問文であるか否かが判定される。これにより、本発明によれば、質問文が特定の分野の質問文であるか否かを正確に判定することが可能になる。 In the present invention, it is determined whether or not the question sentence is a question sentence in a specific field after taking into account both the entity extraction result from the question sentence and the perplexity value calculated from the question sentence. Is done. Thereby, according to this invention, it becomes possible to determine correctly whether a question sentence is a question sentence of a specific field.
以下、図面と共に本発明に係る質問分野判定装置及び質問分野判定方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, embodiments of a question field determination device and a question field determination method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1に本発明の第1実施形態に係る質問分野判定装置である質問応答装置10、及び当該質問応答装置10を含んで構成される質問応答システム1を示す。質問応答システム1は、質問応答装置10と、ユーザ端末20とを含んで構成されている。質問応答システム1は、ユーザ端末20から質問応答装置10に対して質問文が送信され、当該質問文への応答が質問応答装置10において生成されてユーザ端末20に送信されるシステムである。
FIG. 1 shows a
ユーザ端末20は、ユーザから質問文を入力するためのキーボードや音声入力機能等の入力手段と、モニター等の質問文に対する回答を出力する出力手段を備えた一般的な端末(装置)である。また、ユーザ端末20は、通信ネットワークを介して質問応答装置10との間で通信を行うことができる。通信ネットワークは、例えば、インターネットや移動体通信網等の公衆通信網、専用線である。また、本実施形態における装置間の接続は、上記の通信ネットワークに限られず、同一物理装置内の通信バス、あるいはそれらを組み合わせものであってもよい。具体的には、ユーザ端末20は、ユーザによって用いられるパーソナルコンピュータや携帯電話機等に相当する。
The
ユーザ端末20は、上記の入力手段が用いられたユーザの操作等によって質問文を入力する。質問文は、例えば、ユーザによってキーボードが用いられたものでもよいし、ユーザの音声を入力して音声認識によって得られたものでもよい。ユーザ端末20は、入力した質問文をテキスト文章(プレーンテキスト)の形式で質問応答装置10に送信する。質問文の例としては、「あなたのお名前は」や「アメリカ大統領の名前は」「人類初の宇宙飛行士は誰」といったものが挙げられる。
The
ここで、質問文には複数の分野がある。例えば分野としては、客観的事実に関する質問文と、客観的事実以外に関する質問文とがある。客観的事実に関する質問文とは、案内、雑談、歴史や社会等の、本実施形態に係る質問応答装置10とは関係がない客観的な事実についての質問文である。上記の質問文の例の「アメリカ大統領の名前は」「人類初の宇宙飛行士は誰」という質問文は、客観的事実に関する質問文に相当する。
Here, the question text has a plurality of fields. For example, the field includes a question sentence concerning objective facts and a question sentence concerning non-objective facts. The question sentence regarding objective facts is a question sentence regarding objective facts that are not related to the
客観的事実以外に関する質問文とは、本実施形態に係る質問応答装置10の存在を前提とした質問である。例えば、質問応答装置10との質問応答を行うためにユーザ端末20上に表示されたキャラクター(エージェントを視覚化したキャラクター)に対する質問である。上記の質問文の例の「あなたのお名前は」という質問文は、客観的事実以外に関する質問文に相当する。
The question sentence related to other than the objective fact is a question based on the existence of the
ユーザ端末20は、入力した質問文の送信に応じて質問応答装置10から送信される当該質問文に対する回答を受信する。ユーザ端末20は、受信した回答の表示出力等の出力を行う。このように、質問応答システム1では、ユーザの質問に対して雑談及び客観的な事実に対する応答を含む受け答えが可能である。
The
引き続いて、本実施形態に係る質問応答装置10の機能について説明する。図1に示すように質問応答装置10は、質問文入力部11と、エンティティ抽出部12と、パープレキシティ算出部13と、判定部14と、客観的事実応答部15と、その他質問応答部16とを備えて構成される。
Subsequently, functions of the
質問文入力部11は、質問文を入力する質問文入力手段である。具体的には、質問文入力部11は、ユーザ端末20から質問文であるテキスト文章(プレーンテキスト)のデータを受信することで質問文を入力する。質問文入力部11は、入力した質問文をエンティティ抽出部12、パープレキシティ算出部13及びパープレキシティ算出部13に出力する。
The question
エンティティ抽出部12は、質問文入力部11から入力された質問文から、質問対象であるエンティティ(Entity)を抽出するエンティティ抽出手段である。質問対象であるエンティティとは、質問文が何に対して質問するものであるか示すものであり、質問文の主語となる部分である。例えば、「アメリカ大統領の名前は」という質問文では「アメリカ大統領」が、「人類初の宇宙飛行士は誰」では「人類初の宇宙飛行士」が、それぞれエンティティに相当する。具体的には例えば、エンティティ抽出部12は、以下のようにエンティティを抽出する。
The
エンティティの抽出には、機械学習の一手法である系列ラベリングの手法を応用する。系列ラベリングは、単語系列等の系列データに対し、予め与えられたラベルを付与する。系列ラベリングを本実施形態におけるエンティティ抽出に応用する際の動作例を説明する。 For the entity extraction, a sequence labeling method, which is a method of machine learning, is applied. In the sequence labeling, a predetermined label is assigned to sequence data such as a word sequence. An operation example when applying sequence labeling to entity extraction in this embodiment will be described.
エンティティ抽出部12は、入力した質問文であるテキストを、意味をもつ最小の単位である形態素に分割する。形態素への分割は、例えば、従来から用いられている形態素解析器を用いることができる。質問文が「アメリカ大統領の名前は」というものであれば、形態素解析の結果は「アメリカ/大統領/の/名前/は」となる。ここで「/」は形態素の区切りを表している。
The
続いて、エンティティ抽出部12は、BIO形式と呼ばれる三種類のラベルを各形態素に付与する。それぞれ、Bは検出したい区間(ここではエンティティ)の頭(当該区間の最初のエンティティ)、Iは当該区間の途中、Oは当該区間以外の部分を指す。上記の例では、ラベリング結果は例えば、「アメリカ(B)/大統領(I)/の(O)/名前(O)/は(O)」となる。各形態素の後に付けられた(B)(I)(O)は、ぞれぞれのラベルが付与されたことを表す。最後にBラベルを付与した形態素から続くIラベルを付与した形態素を全て取り出して、最終結果であるエンティティとする。上記の例では、「アメリカ(B)/大統領(I)」をエンティティとする。
Subsequently, the
上記の例では、5つの形態素に対して3種類のラベルを付与するため、3の5乗通りのラベル付けの可能性がある。系列ラベリングの手法では、一般にラベル対象の系列(例えば、形態素の系列)が与えられた場合のラベル系列の条件付き確率を、機械学習の手法を用いて計算する。予め正解のラベルを付与した文字列を用いて、ラベル対象の系列とラベルとの関係を学習しておく。実際のラベリングを行う段階でそれらの関係を用いて各ラベル付与の可能性(上記の例では3の5乗通り)に対する確率を計算し、もっともらしい系列を出力する。 In the above example, since three types of labels are given to five morphemes, there is a possibility of labeling in the fifth power of 3. In the sequence labeling method, generally, a conditional probability of a label sequence when a sequence to be labeled (for example, a morpheme sequence) is given is calculated using a machine learning method. The relationship between the label target series and the label is learned using a character string to which a correct label is assigned in advance. At the stage of actual labeling, the probability for each labeling possibility (in the above example, 3 to the fifth power) is calculated using these relationships, and a plausible sequence is output.
系列ラベリングについては従来の方法を用いることができる。例えば、CRF++等の市販されている、又は無償で公開されている多数のツールの何れかを用いて上記の動作を実装することができる。 A conventional method can be used for sequence labeling. For example, the above operations can be implemented using any one of a number of commercially available tools such as CRF ++, which are available for free.
また、エンティティの抽出には必ずしも機械学習の手法を用いる必要はない。例えば文頭に「XXの」といった物事の主語を表す表現が出現した場合に「XX」の部分をエンティティとみなす単純な方法や構文解析に基づき主格に当たる部分を抽出する方法等によってエンティティを抽出してもよい。 Further, it is not always necessary to use a machine learning method for extracting an entity. For example, when an expression representing the subject of a thing such as “XX” appears at the beginning of the sentence, the entity is extracted by a simple method that regards the part of “XX” as an entity or a method that extracts a part corresponding to the main character based on syntax analysis. Also good.
エンティティ抽出部12は、抽出したエンティティを判定部14に出力する。また、質問文がまともな質問の形をしてない、あるいは質問文にエンティティが含まれないこと等により、エンティティの抽出が行えない場合がある。その場合、エンティティ抽出部12は、エンティティの抽出が行えなかった旨を判定部14に通知する。
The
パープレキシティ算出部13は、質問文入力部11から入力された質問文から、特定の分野の質問文を想定した言語モデルによるパープレキシティ(perplexity)の値(ppl)を算出するパープレキシティ算出手段である。特定の分野の質問文を想定した言語モデルによるパープレキシティの値とは、入力した質問文が上記の特定の種別の質問文であると仮定した場合の適合度合いを示す値である。本実施形態では、特定の分野の質問文は、客観的事実に関する質問文である。言語モデルとは、例えば、ある言語を想定した場合の単語間及び品詞間の関係をモデル化したものである。本実施形態では、以下のように質問文に含まれる単語の前後関係に基づく言語モデルを用いて、パープレキシティ(客観的事実パープレキシティ)の値を算出する。
The
言語モデルには、様々な表現方法があるが、本実施形態ではNグラムモデルを利用する。例えば、N=2の場合は2単語の連なりに関する確率(P(wi|wi−1)、wiは文章中のi番目の単語)を表現する。これにより、単語の出現が一つ前の単語のみに依存するという仮定のもとで文章の出現確率P(w1,…,wn)(nは文章中の単語の数)を、条件付き確率をかけあわせたΠP(wi|wi−1)と計算することができる。 There are various representation methods for the language model, but in this embodiment, an N-gram model is used. For example, in the case of N = 2, the probability (P (w i | w i−1 ), w i is the i-th word in the sentence) related to a sequence of two words is expressed. As a result, the sentence appearance probability P (w 1 ,..., W n ) (n is the number of words in the sentence) is conditional on the assumption that the word appearance depends only on the previous word. It can be calculated as ΠP (w i | w i−1 ) multiplied by the probability.
言語モデルは、想定した応用分野の文章例を学習することで作成される。言語モデルの生成については従来の方法を用いることができる。例えば、SRILM等の一般的なツールが存在するため、これらのツールに文章例を入力することで言語モデルを作成可能である。本実施形態においては、雑談等の他の意図の質問を取り除いた、客観的事実に関する質問文のみの文例より作成された言語モデルを用いる。 A language model is created by learning examples of sentences in an assumed application field. A conventional method can be used for generating the language model. For example, since there are general tools such as SRILM, a language model can be created by inputting an example sentence into these tools. In the present embodiment, a language model created from a sentence example of only a question sentence relating to an objective fact from which a question of other intentions such as chat is removed is used.
パープレキシティ算出部13は、上記の言語モデルに係る情報を予め記憶しておき、当該情報に基づいてパープレキシティの値を算出する。パープレキシティ算出部13は、入力した質問文であるテキストを、意味をもつ最小の単位である形態素に分割する。形態素への分割は、エンティティ抽出部12による形態素への分割と同様に行う。なお、パープレキシティ算出部13は、エンティティ抽出部12による形態素への分割の結果を利用することとしてもよい。あるいは、エンティティ抽出部12及びパープレキシティ算出部13による処理の前に、例えば、質問文入力部11が形態素への分割を行って、分割の結果をエンティティ抽出部12及びパープレキシティ算出部13に入力してよい。
The
パープレキシティ算出部13は、分割後の形態素である各単語の質問文中の位置関係に基づき、以下の式に基づきエントロピーHを算出する。
各単語位置において、P(wi|wi−1,wi−2,…,w1)はそれ以前までの単語の系列から見た場合の、その単語の出現確率(例えば、「アメリカ/大統領/の」と出現した場合の「名前」が出現する確率)となる。言語モデルを利用することで、この値を計算することができる。この(対数の)平均値をとるため、おおよそその文章が、想定する言語モデルを対象とした場合にどの程度珍しいものであるかを評価することができる。
The
At each word position, P (w i | w i−1 , w i−2 ,..., W 1 ) is the probability of appearance of the word (for example, “America / The probability of “name” appearing when “president / no” appears. This value can be calculated by using a language model. Since this (logarithmic) average value is taken, it is possible to evaluate how rare the sentence is when the intended language model is targeted.
パープレキシティ算出部13は、2のエントロピー乗(2H)をパープレキシティの値として算出する。上記のように算出したパープレキシティの値は、値が低い程、入力した質問文が客観的事実に関する質問文であると仮定した場合の適合度合いが高いことを示している。パープレキシティ算出部13は、算出したパープレキシティの値を判定部14に出力する。
The
判定部14は、エンティティ抽出部12によるエンティティの抽出結果、及びパープレキシティ算出部13によって算出されたパープレキシティの値に基づいて、質問文入力部11によって入力された質問文が客観的事実に関する質問文であるか否かを判定する判定手段である。判定部14は、エンティティ抽出部12によるエンティティの抽出結果(エンティティが抽出されたか否か)に応じた閾値を設定し、設定した閾値とパープレキシティの値とを比較して、上記の判定を行う。
Based on the entity extraction result by the
基本的には、パープレキシティの値が低い場合に、入力された質問文が客観的事実に関する質問文であるとみなす。ただし、より客観的事実に関する質問文であるということに確信をもつための情報として、エンティティが抽出されたか否かの情報を考慮する。 Basically, when the perplexity value is low, the input question text is regarded as a question text regarding objective facts. However, information on whether or not an entity has been extracted is considered as information for ensuring that the question is a question about a more objective fact.
具体的には、判定部14は、予め2つの閾値であるthr1及びthr2を記憶しておく。thr1はエンティティが抽出されていない場合に使用する第1の閾値であり、thr2よりも小さい値が設定される。thr2はエンティティが抽出されていた場合に使用する第1の閾値である。例えば、thr1=10、thr2=100と設定することができる。判定部14は、エンティティ抽出部12によるエンティティの抽出結果に応じて、thr1又はthr2を閾値として設定する。判定部14は、設定した閾値とパープレキシティの値とを比較する。
Specifically, the
判定部14は、比較の結果、パープレキシティの値が閾値以下である(あるいは、閾値より小さい)とされた(つまり、客観的事実に関する質問文を想定した言語モデルによって珍しくないとされた質問文である)場合に、入力された質問文が客観的事実に関する質問文であると判定する。その場合には、判定部14は、質問文を客観的事実応答部15に出力する。
As a result of the comparison, the
判定部14は、比較の結果、パープレキシティの値が閾値を超える(あるいは、閾値以上である)とされた(つまり、客観的事実に関する質問文を想定した言語モデルによって珍しいとされた質問文である)場合に、入力された質問文が客観的事実以外に関する質問文であると判定する。その場合には、判定部14は、質問文をその他質問応答部16に出力する。
As a result of the comparison, the
客観的事実応答部15は、判定部14によって、質問文が客観的事実に関する質問文であると判定された場合には、第1の方法によって当該質問文に対する回答を生成して出力する第1回答手段である。具体的には、単純な構成としては例えば、客観的事実応答部15は、以下のように回答を生成する。まず、客観的事実応答部15は、判定部14から質問文が入力されると、入力した質問文であるテキストを、意味をもつ最小の単位である形態素に分割する。なお、形態素への分割結果は、上述したエンティティ抽出部12等によるものを利用することとしてもよい。客観的事実応答部15は、分割後の形態素である単語のうちの名詞をキーワードとして、外部検索エンジン30に対してキーワード検索の要求(問い合わせ)を行う。
The objective
外部検索エンジン30は、キーワード検索の要求を受信し、要求に含まれるキーワードを用いて検索対象の文書(例えば、Webページ)に対する検索を行う装置である。外部検索エンジン30は、検索を実行することによって、当該キーワードを含む検索対象を抽出し、抽出した検索対象を示す情報あるいは検索対象自体の情報(例えば、Webページを示す情報であるURLあるいはWebページ自体)を検索の要求元に送信する。質問応答装置10と外部検索エンジン30とは、通信ネットワークを介して接続されており、通信を行うことができる。
The
客観的事実応答部15は、上記の要求に対する外部検索エンジン30からの応答を、入力した質問文に対する回答として(生成して)出力する。具体的には、客観的事実応答部15は、入力した質問文に対する回答として、Webページを示す情報であるURLあるいはWebページ自体をユーザ端末20に送信する。例えば、入力された質問文が「人類初の宇宙飛行士は」である場合には、「人類」「初」「宇宙飛行士」との単語(名詞)が検索キーワードとして抽出され、それらによって検索されたWebページ(それらの検索キーワードを含むWebページ)が、入力した質問文に対する回答として客観的事実応答部15(質問応答装置10)からユーザ端末20に送信される。
The objective
客観的事実応答部15は、特許文献1に示されように検索結果の文書に含まれる単語から、検索キーワードとの関係に基づき特定の単語を回答として出力することとしてもよい。また、客観的事実応答部15は、質問文であるテキストの入力により客観的な事実を想定した質問応答が可能な機能であれば、どのような機能によって実現されてもよい。
The objective
その他質問応答部16は、判定部14によって、質問文が客観的事実以外に関する質問文であると判定された場合には、第1の方法とは異なる第2の方法によって当該質問文に対する回答を生成して出力する第2回答手段である。具体的には、その他質問応答部16は、予め記憶したルールに基づいて雑談に受け答えする等、客観的質問ではない質問文に対する回答を生成する。例えば、その他質問応答部16は、図2のテーブルに示すようなユーザの質問(質問文)と回答とを対応付けた情報を記憶しておき、当該情報に基づいて質問文に対する回答を生成する。
The other
その他質問応答部16は、図2に示すテーブルにおいて、ユーザの質問(質問文)のうち判定部14から入力した質問文と一致する回答を取得し、入力した質問文に対する回答として(生成して)ユーザ端末20に送信する。
In the table shown in FIG. 2, the other
また、その他質問応答部16は、質問文であるテキストの入力により客観的な事実以外を想定した質問応答が可能な機能であれば、どのような機能によって実現されてもよい。以上が、質問応答装置10の機能構成である。
Further, the other
図3に本実施形態に係る質問応答装置10のハードウェア構成を示す。図3に示すように質問応答装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した質問応答装置10の機能が発揮される。以上が、本実施形態に係る質問応答装置10の構成である。
FIG. 3 shows a hardware configuration of the
引き続いて、図4のフローチャートを用いて、本実施形態に係る質問応答装置10で実行される処理である質問分野判定方法を説明する。本処理は、ユーザ端末20から質問文が質問応答装置10に送信されることによって開始される。本処理では、まず、質問文入力部11によって質問文が受信されて入力される(S01、質問文入力ステップ)。入力された質問文は、質問文入力部11からエンティティ抽出部12、パープレキシティ算出部13及びパープレキシティ算出部13に出力される。
Subsequently, a question field determination method which is a process executed by the
続いて、エンティティ抽出部12によって、質問文入力部11から入力された質問文からエンティティが抽出される(S02、エンティティ抽出ステップ)。エンティティの抽出結果が、エンティティ抽出部12から判定部14に通知される。
Subsequently, the
一方で、パープレキシティ算出部13によって、質問文入力部11から入力された質問文からパープレキシティの値が算出される(S03、パープレキシティ算出ステップ)。算出されたパープレキシティの値は、パープレキシティ算出部13から判定部14に出力される。なお、S02の処理とS03の処理とは互いに独立した処理であるため、処理の順序は必ずしも上記の通りでなくてもよい。
On the other hand, the
続いて、判定部14によって、以下のようにエンティティの抽出結果、及びパープレキシティの値に基づいて、入力された質問文が客観的事実に関する質問文であるか否かが判定される。まず、エンティティが抽出されたか否かが判断される(S04、判定ステップ)。エンティティが抽出されていなかった場合(S04のNO)には、判定部14によって、閾値にthr1が設定されて、パープレキシティの値とthr1とが比較される(S05、判定ステップ)。即ち、パープレキシティの値がかなり低いか否かが判断される。
Subsequently, the
エンティティが抽出されていた場合(S04のYES)には、判定部14によって、閾値にthr2が設定されて、パープレキシティの値とthr2とが比較される(S06、判定ステップ)。即ち、パープレキシティの値がある程度低いか否かが判断される。
If the entity has been extracted (YES in S04), the
比較の結果、パープレキシティの値が閾値(thr1又はthr2)以下であるとされた場合(S05又はS06のYES)、判定部14よって、入力された質問文が客観的事実に関する質問文であると判定され、質問文が客観的事実応答部15に出力される。続いて、客観的事実応答部15によって、入力された質問文に対する回答が生成され、ユーザ端末に送信されることで出力される(S07、第1回答ステップ)。回答の生成は、外部検索エンジン30へのキーワード検索の要求により行われる。
As a result of the comparison, when the perplexity value is determined to be equal to or less than the threshold value (thr1 or thr2) (YES in S05 or S06), the question sentence input by the
S05又はS06における比較の結果、パープレキシティの値が閾値(thr1又はthr2)を超えるとされた場合(S05及びS06のNO)、判定部14よって、入力された質問文が客観的事実以外に関する質問文であると判定され、質問文がその他質問応答部16に出力される。続いて、その他質問応答部16によって、入力された質問文に対する回答が生成され、ユーザ端末に送信されることで出力される(S08、第2回答ステップ)。回答の生成は、図2に示すテーブルが参照されることにより行われる。S07又はS08において質問応答装置10から送信された回答は、ユーザ端末20によって受信され、ユーザが認識可能な形式で出力される。以上が、本実施形態に係る質問応答装置10で実行される処理である質問分野判定方法である。
As a result of the comparison in S05 or S06, if the perplexity value exceeds the threshold value (thr1 or thr2) (NO in S05 and S06), the question entered by the
上述したように、本実施形態では、質問文からのエンティティの抽出結果、及び質問文から算出されたパープレキシティの値の両者が考慮された上で、質問文が客観的事実に関する質問文であるか否かが判定される。エンティティの抽出においては、質問文がまともな質問の形をしていると共に質問文にその主語にあたる部分が含まれている場合にエンティティが抽出される。即ち、本実施形態では、パープレキシティの値とエンティティの存在とに基づいて、より客観的事実に関する質問文であると確信できるか否かを評価する。このように、パープレキシティの値のみではなく、エンティティが抽出できたか否かの情報を用いることで、より柔軟にパープレキシティの値を評価し、正確に質問文が客観的事実に関する質問文であるか否かが判定することができる。また、これにより、ユーザの質問に対して雑談及び客観的な事実に対する応答を含む受け答えが可能である質問応答システム1において、ユーザの質問に対する的確な応答が可能になる。 As described above, in this embodiment, after considering both the entity extraction result from the question sentence and the perplexity value calculated from the question sentence, the question sentence is a question sentence regarding an objective fact. It is determined whether or not there is. In the extraction of an entity, an entity is extracted when the question sentence is in the form of a decent question and the question sentence includes a portion corresponding to the subject. In other words, in the present embodiment, it is evaluated whether or not it is possible to be sure that the question sentence is a more objective fact based on the perplexity value and the existence of the entity. In this way, not only the perplexity value but also the information on whether or not the entity has been extracted is used, so that the perplexity value can be evaluated more flexibly, and the question text can be accurately related to objective facts. It can be determined whether or not. This also makes it possible to accurately answer the user's question in the question answering system 1 that can respond to the user's question including a chat and a response to an objective fact.
なお、本実施形態では、質問文が客観的事実に関する質問文であるか否かを判定していたが、客観的事実に関する質問文以外でも任意の分野に関する質問文であるか否かを判定することとしてもよい。その場合、当該分野の質問文を想定した言語モデルを用いてパープレキシティの値を算出する。 In the present embodiment, it is determined whether or not the question sentence is a question sentence regarding objective facts, but it is determined whether or not it is a question sentence regarding an arbitrary field other than the question sentence regarding objective facts. It is good as well. In this case, the perplexity value is calculated using a language model that assumes a question sentence in the field.
また、本実施形態のように質問文に含まれる単語の前後関係に基づく言語モデルによりパープレキシティの値を算出することとしてもよい。この構成によれば、適切かつ確実にパープレキシティの値を算出することができ、適切かつ確実に本発明を実施することができる。但し、その他の方法(上記以外の言語モデルを用いて)でパープレキシティの値を算出することができれば、その方法が用いられてもよい。 Moreover, it is good also as calculating a perplexity value with the language model based on the context of the word contained in a question sentence like this embodiment. According to this configuration, the perplexity value can be calculated appropriately and reliably, and the present invention can be implemented appropriately and reliably. However, if the perplexity value can be calculated by another method (using a language model other than the above), that method may be used.
また、本実施形態のようにエンティティの抽出結果に応じた閾値を設定し、設定した閾値とパープレキシティの値とを比較して判定を行うこととしてもよい。この構成によれば、適切かつ確実に判定を行うことができ、適切かつ確実に本発明を実施することができる。 Further, as in the present embodiment, a threshold value corresponding to the entity extraction result may be set, and the determination may be performed by comparing the set threshold value with the perplexity value. According to this configuration, the determination can be performed appropriately and reliably, and the present invention can be implemented appropriately and reliably.
また、本実施形態のように客観的事実応答部15及びその他質問応答部16といった質問文に対して回答を生成する手段を備えていることとしてもよい。この構成によれば、質問文に対する回答を出力することができる。但し、質問文に対する回答を生成することは、本発明として必ずしも必須のことではない。即ち、本発明は、質問文が客観的事実に関する質問文であるか否かの判定を行って、判定結果を出力するものであってもよい。
Moreover, it is good also as a means to produce | generate an answer with respect to question sentences, such as the objective
また、本実施形態の機能は、質問応答装置10に本発明に係る機能が全て備えられていた。しかしながら、本発明に係る機能は、必ずしも質問応答装置10に全て備ええられている必要はない。即ち、本発明に係る機能の物理配置は、上述した実施形態のものに限られない。例えば、本発明に係る機能の一部が、ユーザ端末20に備えられてもよい。その場合、質問応答装置10とユーザ端末20とで本発明に係る質問分野判定装置(質問分野判定システム)を構成する。このように本発明に係る質問分野判定装置は、複数の物理的な装置によって構成されていてもよい。
In addition, all the functions according to the present invention are provided in the
引き続いて、本実施形態の変形例について説明する。上述した実施形態では、質問文が客観的事実に関する質問文であるか否かの判定には、エンティティ抽出部12によるエンティティの抽出可否、即ち、エンティティの「有り」「なし」を用いていた。しかしながら、エンティティの抽出において、エンティティの「有り」「なし」だけでなく、その確信度合いを示す確率値を算出することができ、これを判定に用いることもできる。CRF等の多くの系列ラベリング手法では、検出候補のラベルの系列について、系列が与えられた場合の確率値を計算し、最も高い確率が得られる系列を出力するため、その値を利用することができる。
Subsequently, a modification of the present embodiment will be described. In the embodiment described above, whether or not an entity can be extracted by the
この場合、判定部14は、エンティティの「有り」「なし」ではなく、確率値の範囲に対して閾値を適用する。例えば、確率値が0.0以上0.3未満はthr1=10、0.3以上0.7未満はthr2=50、0.7以上1.0以下はthr=100とし、これとパープレキシティの値を比較する。これによってエンティティの抽出に関する確信の程度によって、客観的事実の言語モデルの適合度合いの程度を柔軟に考慮に入れることが可能となる。例えば、閾値を2つのみ利用する場合に比べて、エンティティが抽出されたがその系列が抽出される確率が低い場合には通常時よりもややパープレキシティの値が高くないと質問文が客観的事実に関する質問文であるとはみなさない、といった動作が可能になる。
In this case, the
引き続いて、本発明に係る第2実施形態について説明する。図5に本発明の第2実施形態に係る質問分野判定装置である質問応答装置10a、及び当該質問応答装置10aを含んで構成される質問応答システム1aを示す。本発明に係る第2実施形態は、特段の説明がない部分については第1実施形態と同様である。本実施形態に係る質問応答装置10aでは、判定部14a及び客観的事実応答部15aが、第1実施形態に係る判定部14及び客観的事実応答部15と異なる機能を有している。また、本実施形態に係る質問応答装置10aは、第1実施形態に係る質問応答装置10に加えて新たな機能部として追加情報督促部17aを備えている。
Subsequently, a second embodiment according to the present invention will be described. FIG. 5 shows a
判定部14aは、エンティティ抽出部12によるエンティティの抽出結果、及びパープレキシティ算出部13によって算出されたパープレキシティの値に基づいて、質問文が客観的事実に関する質問文である度合いを算出し、算出した度合いに基づいて、質問文が客観的事実に関する質問文であるか否かを判定する。当該度合いとして、判定部14aは、質問文が客観的事実に関する質問文である確率を算出する。即ち、判定部14aは、エンティティの抽出結果及びパープレキシティの値から直接、質問文が客観的事実に関する質問文であるか否かを判定するのではなく、一旦、質問文が客観的事実に関する質問文である確率を0から1までの間の値として計算する。
The
質問文が客観的事実に関する質問文である確率は、例えば、ナイーブベイズ分類器等のクラス分類の手法により求められる。ここでは、質問文が客観的事実に関する質問文である確率をP(t=1|ppl,e)と表記する。t=1の場合は、質問文が客観的事実に関する質問文であることを示し、t=0の場合は、それ以外を示す。pplはパープレキシティの値を示す。eはエンティティ抽出の有無を示す。 The probability that the question sentence is a question sentence related to the objective fact is obtained by a class classification method such as a naive Bayes classifier. Here, the probability that the question sentence is a question sentence regarding an objective fact is expressed as P (t = 1 | ppl, e). When t = 1, it indicates that the question sentence is a question sentence regarding objective facts, and when t = 0, the other is indicated. ppl represents a perplexity value. e indicates the presence or absence of entity extraction.
ナイーブベイズ分類器では、客観的事実に関する質問文とそうではない質問文を文例とした学習モデルを使用して、下記の式によりP(t=1|ppl,e)を計算する。
P(t=1|ppl,e)=P(ppl,e|t=1)×P(t=1)/P(ppl,e)
上記の式において、右辺は客観的事実に関する質問文の場合のパープレキシティの値及びエンティティ抽出の有無の組に関する確率(P(ppl,e|t=1))と、客観的事実に関する質問文の確率(客観的事実に関する質問がされる確率)(P(t=1))との積を、パープレキシティの値及びエンティティ抽出の有無の組に関する確率(P(ppl,e))で割った値である。それぞれの値は充分な質問文例を得ることで推定可能である。
In the naive Bayes classifier, P (t = 1 | ppl, e) is calculated by the following equation using a learning model in which a question sentence regarding objective facts and a question sentence that is not so are used as sentence examples.
P (t = 1 | ppl, e) = P (ppl, e | t = 1) × P (t = 1) / P (ppl, e)
In the above formula, the right-hand side indicates the perplexity value and the probability (P (ppl, e | t = 1)) regarding the set of presence / absence of entity extraction in the case of a question sentence regarding objective facts, and the question sentence regarding objective facts. Divided by the probability (P (ppl, e)) of the pair of perplexity value and entity extraction presence / absence (probability of being asked about objective fact) (P (t = 1)) Value. Each value can be estimated by obtaining sufficient example sentences.
具体的には、P(ppl,e|t=1)は、客観的事実に関する質問文例のうち、対象のパープレキシティの値及びエンティティ抽出の有無の組(パープレキシティ算出部13によって算出されたパープレキシティの値、及びエンティティ抽出部12によるエンティティの抽出結果の組)が出現した割合により推定される。P(t=1)は、客観的事実に関する質問文例とそうではない質問文例とを含む全文例に対して、客観的事実に関する質問文例が含まれていた割合により推定される。P(ppl,e)は、全文例に対して、対象のパープレキシティの値及びエンティティ抽出の有無の組が出現した割合により推定される。 Specifically, P (ppl, e | t = 1) is a set of target perplexity value and entity extraction presence / absence of the question example regarding objective fact (calculated by the perplexity calculation unit 13). The perplexity value and the entity extraction result set by the entity extraction unit 12). P (t = 1) is estimated based on the ratio of the question sentence example regarding the objective fact to the full sentence example including the question sentence example regarding the objective fact and the question sentence example that is not so. P (ppl, e) is estimated based on the ratio of the target perplexity value and the presence / absence of entity extraction for all sentence examples.
上記のように客観的事実に関する質問文についての確率を算出することで、正確に質問文が客観的事実に関する質問文である度合いを把握することができる。判定部14aは、予め設定された新たな閾値(Rthr)を保持しておき、質問文が客観的事実に関する質問文ではないと判定した場合、算出した確率が閾値以上であるか否かを判断する。算出した確率が閾値以上であると判断された場合には、ユーザが質問の意図としては何らかの客観的事実を尋ねているが、充分な情報がない場合とみなすことができる。この場合、更にユーザに質問文に対する回答を行うための追加情報を促す。判定部14aは、算出した確率が閾値以上であると判断した場合、追加情報をユーザに対して促す(要求する)旨を追加情報督促部17aに通知する。また、エンティティ抽出部12によってエンティティが抽出されている場合には、判定部14aは、当該エンティティを合わせて追加情報督促部17aに通知する。
As described above, by calculating the probability of the question sentence relating to the objective fact, it is possible to accurately grasp the degree to which the question sentence is the question sentence relating to the objective fact. The
追加情報督促部17aは、当該質問文に対する回答を行うための、エンティティ抽出部12によって抽出されたエンティティに関する情報追加を要求する情報追加要求手段である。追加情報督促部17aは、判定部14aからの通知を受け取ると、ユーザ端末20に情報追加を促す(要求する)旨の情報を送信(返信)することで当該要求を行う。例えば、ユーザ端末20に送信する情報(返信)としては、「もう少しはっきりお聞きください。主語、述語、疑問詞を含めてください。例えば「アメリカの大統領の名前はなんですか?」」といったものである。既にエンティティが抽出できている場合(即ち、判定部14aから追加情報督促部17aにエンティティが通知された場合)、追加情報督促部17aは、そのエンティティの文字列を使って返信することも可能である。例えば、当初ユーザ端末20から入力された質問文が「アメリカ大統領ですか」というものであった場合、抽出されている「アメリカ大統領」とのエンティティを用いて、「アメリカ大統領の何をお調べしますか?」といった返信をすることもできる。
The additional
ユーザ端末20は、送信された情報を受信して表示出力等の出力を行う。ユーザ端末20のユーザは、当該出力により追加情報の必要を認識して、ユーザ端末20に対して上記の出力に応じた追加情報の入力を行う。ユーザ端末20は、入力した追加情報を質問応答装置10aに送信する。質問応答装置10aは、当該追加情報を受信する。追加情報は、当初の質問文と同様に処理されてもよいし、当初の質問文と追加情報とを合わせて客観的事実応答部15aに入力して、客観的事実応答部15aによって、当初の質問文と追加情報とから回答が生成されてもよい。
The
また、追加情報督促部17aは、エンティティ−プロパティ(Entity−Property)型の知識データを予め保持しておき、抽出済みのエンティティに対応するプロパティ値を列挙してユーザに選択を促してもよい。エンティティ−プロパティ型の知識データは、客観的事実に関する質問に回答する際に用いられるデータ表現の形態の一つであり、ある事実をその主体であるエンティティとその主体がもつ属性であるプロパティ(Property)の値(Value)との組で表現する。図6にエンティティ−プロパティ型の知識データを示す。
Further, the additional
追加情報督促部17aは、エンティティ−プロパティ型の知識データにおいて、抽出されたエンティティに対応付けられているプロパティを返信に含めることができる。知識データが図6に示す例では、「アメリカ」というエンティティが抽出されていた場合には、例えば「アメリカの何をお調べしますか?大統領・首相、面積、人口についてお答えできます」との情報により追加情報を督促する。
The additional
また、追加情報督促部17aは、別の閾値(Pth)を保持しておき、知識データにおいて、抽出されたエンティティに対応付けられたプロパティの種類がそれより少ない場合は、追加情報を督促するまでもなく、当該知識データを用いて該当するエンティティに対する情報を全て質問文に対する回答として返信してしまってもよい。知識データが図6に示す例では、返信は「アメリカの大統領・首相はxxxxx氏です。面積はyyyyy平方メートル、人口はzzzzz人です」となる。
Further, the additional
更に、追加情報督促部17aは、ユーザ端末20から過去に送信された質問文であるユーザの過去の質問履歴を保持しておき、そこから質問例を返却してもよい。ユーザの過去の質問履歴の例を図7に示す。この質問履歴では、質問文と当該質問文から抽出されたエンティティと当該質問文から算出されたパープレキシティの値とが対応付けられている。質問文に対応付けられたエンティティは、例えば、過去にエンティティ抽出部12によって抽出されたものである。質問文に対応付けられたパープレキシティの値は、例えば、過去にパープレキシティ算出部13によって算出されたものである。なお、過去の質問履歴については、ユーザの区別をせずに全てのユーザの過去の質問履歴を利用することができる。
Further, the additional
追加情報督促部17aは、処理対象の質問文と同じエンティティを抽出した質問履歴を探す。追加情報督促部17aは、当該質問履歴をもとに情報追加を促す。エンティティとして「アメリカ」が抽出された場合は、図7に示す質問履歴の例では、「アメリカの大統領って誰ですか」「大統領って誰ですアメリカ」「アメリカみんなでこんにちは」の三つの履歴が抽出される。最も単純には、追加情報督促部17aは、これらの質問履歴を全てユーザに回答例として返信する。例えば、回答文は「アメリカの何をお調べしますか?例えば「アメリカの大統領って誰ですか」「大統領って誰ですアメリカ」「アメリカみんなでこんにちは」」と回答することができる。
The additional
長期的に運用をすると上記の履歴が大量に出力されることも考えられるため、これらをパープレキシティの値で絞り込んでもよい。例えば、パープレキシティの値が、予め設定された閾値(例えば、3000)以下のもののみを出力することとしてもよい。この場合、「アメリカの大統領って誰ですか」「大統領って誰ですアメリカ」の2つの質問履歴をユーザに提示することになる。 Since it may be possible to output a large amount of the above-mentioned history when operated for a long period of time, these may be narrowed down by the perplexity value. For example, only perplexity values that are equal to or less than a preset threshold value (eg, 3000) may be output. In this case, two question histories of “who is the US president” and “who is the US president” are presented to the user.
加えて、質問文だけでなく、回答の品質についても何らかの判断基準をもっておき、回答品質が高い質問履歴のみ返答してもよい。例えば、客観的事実応答部15aが外部検索エンジン30から取得した検索結果の数を評価値として検索結果が多く得られた質問文だけを使用するようにしてもよい。どういった指標を実際に用いるかは、客観的事実応答部15aが回答を評価する際の機構に依存して決定する。
In addition, not only the question text but also the quality of the answer may have some judgment criteria, and only the question history with high answer quality may be answered. For example, the number of search results acquired by the objective
上述したように本実施形態によれば、入力した質問文が、客観的事実に関する質問文であるか否か十分に判定できない場合であっても、質問を把握するために必要な情報を取得することができる。また、これにより、ユーザの質問に対する的確な応答が可能になる。 As described above, according to the present embodiment, even if it is not possible to sufficiently determine whether or not the input question sentence is a question sentence regarding objective facts, information necessary for grasping the question is acquired. be able to. This also enables an accurate response to the user's question.
1,1a…質問応答システム、10,10a…質問応答装置、11…質問文入力部、12…エンティティ抽出部、13…パープレキシティ算出部、14,14a…判定部、15,15a…客観的事実応答部、16…その他質問応答部、17a…追加情報督促部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、20…ユーザ端末、30…外部検索エンジン。
DESCRIPTION OF
Claims (6)
前記質問文入力手段によって入力された質問文から、質問対象であるエンティティを抽出するエンティティ抽出手段と、
前記質問文入力手段によって入力された質問文から、特定の分野の質問文を想定した言語モデルによるパープレキシティの値を算出するパープレキシティ算出手段と、
前記エンティティ抽出手段によるエンティティの抽出結果、及び前記パープレキシティ算出手段によって算出されたパープレキシティの値に基づいて、前記質問文入力手段によって入力された質問文が前記特定の分野の質問文であるか否かを判定する判定手段と、
を備える質問分野判定装置。 A question sentence input means for inputting a question sentence;
Entity extraction means for extracting an entity that is a question target from the question text input by the question text input means;
Perplexity calculation means for calculating a perplexity value by a language model assuming a question text in a specific field from the question text input by the question text input means,
Based on the entity extraction result by the entity extraction means and the perplexity value calculated by the perplexity calculation means, the question sentence input by the question sentence input means is a question sentence in the specific field. Determination means for determining whether or not there is;
A question field judgment device comprising:
前記判定手段によって、前記質問文が前記特定の分野以外の分野の質問文であると判定された場合には、第1の方法とは異なる第2の方法によって当該質問文に対する回答を生成して出力する第2回答手段と、
を更に備える請求項1〜3の何れか一項に記載の質問分野判定装置。 If the determination means determines that the question sentence is a question sentence in the specific field, a first answer means for generating and outputting an answer to the question sentence by a first method;
When the determination means determines that the question text is a question text in a field other than the specific field, an answer to the question text is generated by a second method different from the first method. A second answering means for outputting;
The question field judgment device according to any one of claims 1 to 3, further comprising:
前記判定手段によって算出された前記度合いに応じて、当該質問文に対する回答を行うための、前記エンティティ抽出手段によって抽出されたエンティティに関する情報追加を要求する情報追加要求手段を更に備える請求項1〜4の何れか一項に記載の質問分野判定装置。 The determination means calculates the degree that the question sentence is a question sentence in the specific field based on the extraction result of the entity and the value of the perplexity,
The information addition request | requirement means which requests | requires the information addition regarding the entity extracted by the said entity extraction means for answering the said question sentence according to the said degree calculated by the said determination means is further provided. The question field judgment device given in any 1 paragraph of above.
前記質問文入力ステップにおいて入力された質問文から、質問対象であるエンティティを抽出するエンティティ抽出ステップと、
前記質問文入力ステップにおいて入力された質問文から、特定の分野の質問文を想定した言語モデルによるパープレキシティの値を算出するパープレキシティ算出ステップと、
前記エンティティ抽出ステップにおけるエンティティの抽出結果、及び前記パープレキシティ算出ステップにおいて算出されたパープレキシティの値に基づいて、前記質問文入力ステップにおいて入力された質問文が前記特定の分野の質問文であるか否かを判定する判定ステップと、
を含む質問分野判定方法。 A question sentence input step for inputting a question sentence;
An entity extraction step of extracting an entity as a question target from the question sentence input in the question sentence input step;
A perplexity calculation step of calculating a perplexity value by a language model assuming a question sentence in a specific field from the question sentence input in the question sentence input step;
Based on the entity extraction result in the entity extraction step and the perplexity value calculated in the perplexity calculation step, the question sentence input in the question sentence input step is a question sentence in the specific field. A determination step of determining whether or not there is;
Question field judgment method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013223247A JP6178208B2 (en) | 2013-10-28 | 2013-10-28 | Question field judgment device and question field judgment method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013223247A JP6178208B2 (en) | 2013-10-28 | 2013-10-28 | Question field judgment device and question field judgment method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015087796A true JP2015087796A (en) | 2015-05-07 |
JP6178208B2 JP6178208B2 (en) | 2017-08-09 |
Family
ID=53050567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013223247A Expired - Fee Related JP6178208B2 (en) | 2013-10-28 | 2013-10-28 | Question field judgment device and question field judgment method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6178208B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059014A (en) * | 2015-09-17 | 2017-03-23 | 株式会社アイ・ビジネスセンター | Analysis device and data retrieval device, as well as control method of analysis device and data retrieval device |
CN108292317A (en) * | 2015-11-27 | 2018-07-17 | 三星电子株式会社 | Problem and answer processing method and the electronic equipment for supporting this method |
WO2018131272A1 (en) * | 2017-01-10 | 2018-07-19 | 株式会社オルツ | Computer system, server device, and program for using set of attribute information relating to individual |
JP2018160088A (en) * | 2017-03-23 | 2018-10-11 | 株式会社サテライトオフィス | Chat system and program |
JP6420514B1 (en) * | 2018-04-04 | 2018-11-07 | 一般社団法人It&診断支援センター・北九州 | Conversation robot |
CN109726387A (en) * | 2017-10-31 | 2019-05-07 | 科沃斯商用机器人有限公司 | Man-machine interaction method and system |
JP2019521415A (en) * | 2016-05-17 | 2019-07-25 | グーグル エルエルシー | Automatic Extension of Message Exchange Thread Based on Message Classification |
CN110543555A (en) * | 2019-08-15 | 2019-12-06 | 阿里巴巴集团控股有限公司 | method and device for question recall in intelligent customer service |
CN110781276A (en) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | Text extraction method, device, equipment and storage medium |
US11861307B2 (en) | 2018-04-13 | 2024-01-02 | National Institute Of Information And Communications Technology | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system |
JP7436709B2 (en) | 2020-05-07 | 2024-02-22 | グーグル エルエルシー | Speech recognition using unspoken text and speech synthesis |
JP7555203B2 (en) | 2020-06-19 | 2024-09-24 | 株式会社日立製作所 | DIALOGUE SUPPORT DEVICE AND DIALOGUE SUPPORT METHOD |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005332271A (en) * | 2004-05-20 | 2005-12-02 | Oki Electric Ind Co Ltd | Device, method, and program for determining question type classification |
JP2009064051A (en) * | 2007-09-04 | 2009-03-26 | National Institute Of Information & Communication Technology | Information processor, information processing method and program |
-
2013
- 2013-10-28 JP JP2013223247A patent/JP6178208B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005332271A (en) * | 2004-05-20 | 2005-12-02 | Oki Electric Ind Co Ltd | Device, method, and program for determining question type classification |
JP2009064051A (en) * | 2007-09-04 | 2009-03-26 | National Institute Of Information & Communication Technology | Information processor, information processing method and program |
Non-Patent Citations (3)
Title |
---|
吉村 健: "しゃべってコンシェルのQ&A機能を実現する知識検索エンジン開発", 第88回 人工知能基本問題研究会資料 (SIG−FPAI−B203) 人工知能学会研究会資料, JPN6017025308, 17 January 2013 (2013-01-17), JP, pages 65 - 69, ISSN: 0003595462 * |
森 祥二郎 外2名: "音声対話システム用クラスN−gramモデルによるドメイン固有語の認識率向上", 情報処理学会研究報告 2012(平成24)年度6 [DVD−ROM], JPN6017025311, 15 April 2013 (2013-04-15), JP, pages 1 - 8, ISSN: 0003595464 * |
翠 輝久 外1名: "ドメインとスタイルを考慮したWebテキストの選択による音声対話システム用言語モデルの構築", 電子情報通信学会論文誌 (J90−D), vol. 第J90-D巻第11号, JPN6017025309, 1 November 2007 (2007-11-01), JP, pages 3024 - 3032, ISSN: 0003595463 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059014A (en) * | 2015-09-17 | 2017-03-23 | 株式会社アイ・ビジネスセンター | Analysis device and data retrieval device, as well as control method of analysis device and data retrieval device |
CN108292317A (en) * | 2015-11-27 | 2018-07-17 | 三星电子株式会社 | Problem and answer processing method and the electronic equipment for supporting this method |
US10769155B2 (en) | 2016-05-17 | 2020-09-08 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
JP2019521415A (en) * | 2016-05-17 | 2019-07-25 | グーグル エルエルシー | Automatic Extension of Message Exchange Thread Based on Message Classification |
US12093270B2 (en) | 2016-05-17 | 2024-09-17 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
US11762865B2 (en) | 2016-05-17 | 2023-09-19 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
US11222030B2 (en) | 2016-05-17 | 2022-01-11 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
WO2018131272A1 (en) * | 2017-01-10 | 2018-07-19 | 株式会社オルツ | Computer system, server device, and program for using set of attribute information relating to individual |
JP2018112814A (en) * | 2017-01-10 | 2018-07-19 | 株式会社オルツ | Computer system for using aggregate of personal attribute information, server device and program |
CN110582763A (en) * | 2017-01-10 | 2019-12-17 | Alt株式会社 | Computer system, server device, and program for utilizing collection of attribute information of individual |
JP2018160088A (en) * | 2017-03-23 | 2018-10-11 | 株式会社サテライトオフィス | Chat system and program |
CN109726387A (en) * | 2017-10-31 | 2019-05-07 | 科沃斯商用机器人有限公司 | Man-machine interaction method and system |
JP6420514B1 (en) * | 2018-04-04 | 2018-11-07 | 一般社団法人It&診断支援センター・北九州 | Conversation robot |
JP2019184694A (en) * | 2018-04-04 | 2019-10-24 | 一般社団法人It&診断支援センター・北九州 | Conversation robot |
US11861307B2 (en) | 2018-04-13 | 2024-01-02 | National Institute Of Information And Communications Technology | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system |
CN110543555A (en) * | 2019-08-15 | 2019-12-06 | 阿里巴巴集团控股有限公司 | method and device for question recall in intelligent customer service |
CN110781276A (en) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | Text extraction method, device, equipment and storage medium |
CN110781276B (en) * | 2019-09-18 | 2023-09-19 | 平安科技(深圳)有限公司 | Text extraction method, device, equipment and storage medium |
JP7436709B2 (en) | 2020-05-07 | 2024-02-22 | グーグル エルエルシー | Speech recognition using unspoken text and speech synthesis |
JP7555203B2 (en) | 2020-06-19 | 2024-09-24 | 株式会社日立製作所 | DIALOGUE SUPPORT DEVICE AND DIALOGUE SUPPORT METHOD |
Also Published As
Publication number | Publication date |
---|---|
JP6178208B2 (en) | 2017-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6178208B2 (en) | Question field judgment device and question field judgment method | |
US11599729B2 (en) | Method and apparatus for intelligent automated chatting | |
US10275448B2 (en) | Automatic question generation and answering based on monitored messaging sessions | |
US11580350B2 (en) | Systems and methods for an emotionally intelligent chat bot | |
JP6544131B2 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM | |
US11017037B2 (en) | Obtaining responsive information from multiple corpora | |
JP2019504413A (en) | System and method for proposing emoji | |
US20150228280A1 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
WO2020199600A1 (en) | Sentiment polarity analysis method and related device | |
JP2019139574A (en) | Information providing apparatus, information providing method, and program | |
JP2010056682A (en) | E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server | |
JP2012113542A (en) | Device and method for emotion estimation, program and recording medium for the same | |
US20230385552A1 (en) | System and method for query authorization and response generation using machine learning | |
JP2015170094A (en) | Translation device and translation method | |
Caicedo et al. | Bootstrapping semi-supervised annotation method for potential suicidal messages | |
JP6030659B2 (en) | Mental health care support device, system, method and program | |
Fernau et al. | Towards Automated Dialog Personalization using MBTI Personality Indicators. | |
US9875232B2 (en) | Method and system for generating a definition of a word from multiple sources | |
JP2014106832A (en) | Information providing apparatus and information providing method | |
Li et al. | Twitter sentiment analysis of the 2016 US Presidential Election using an emoji training heuristic | |
Steinmetz et al. | Conversational question answering using a shift of context | |
JP2022018724A (en) | Information processing device, information processing method, and information processing program | |
Jaya et al. | Development Of Conversational Agent To Enhance Learning Experience: Case Study In Pre University | |
Rajeshwari et al. | Regional Language Code-Switching for Natural Language Understanding and Intelligent Digital Assistants | |
Ramakrishnan et al. | MEDDOC-THE AI DOCTOR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6178208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |