JP2006071936A - Dialogue agent - Google Patents
Dialogue agent Download PDFInfo
- Publication number
- JP2006071936A JP2006071936A JP2004254794A JP2004254794A JP2006071936A JP 2006071936 A JP2006071936 A JP 2006071936A JP 2004254794 A JP2004254794 A JP 2004254794A JP 2004254794 A JP2004254794 A JP 2004254794A JP 2006071936 A JP2006071936 A JP 2006071936A
- Authority
- JP
- Japan
- Prior art keywords
- user
- ego state
- ego
- text
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、利用者の音声に応答して利用者と対話する対話エージェントに関するものである。 The present invention relates to a dialog agent that interacts with a user in response to the user's voice.
従来から、利用者の音声に応答して利用者と対話する対話システムが種々提案されている。この種の対話システムでは、コンピュータを用いて実現されるものであるが、人間同士の対話と同様な自然な対話を行うことが要望されている。たとえば、利用者の音声による認識情報を静的な情報と動的な情報とに分けて保持し、動的な情報を認識対象の項目別に管理する構成によって、対話に用いる内容の絞り込みを迅速に行えるようにする技術が提案されている(たとえば、特許文献1参照)。
上述した特許文献1に記載された技術では、対話における応答時間を短縮することによって応答の遅れによる違和感を抑制する技術であって、利用者の発話内容が同じであれば同じ応答になるから、画一的な応答しかできないものである。たとえば、利用者が大人か子供かにかかわらず、いかにも機械が応答しているという対話しか行えないという問題がある。
The technique described in
本発明は上記事由に鑑みて為されたものであり、その目的は、利用者との対話の際に自我状態を認識することによって、状況に応じた自我状態で対話することを可能とし、利用者への応答を自我状態に応じて適宜に変化させることにより、利用者にとって受け入れやすくかつ違和感のない自然な対話を行うことを可能とした対話エージェントを提供することにある。 The present invention has been made in view of the above-described reasons, and its purpose is to recognize a ego state at the time of dialogue with a user, thereby enabling a dialogue in an ego state according to the situation, and use. It is an object to provide a dialog agent that makes it possible for a user to perform a natural conversation that is easy to accept and does not feel uncomfortable by appropriately changing the response to the user according to the ego state.
請求項1の発明は、利用者の音声が入力される音声入力手段と、音声入力手段から入力された音声の内容に応答するテキストを生成する対話処理手段と、対話処理手段により生成されたテキストを利用者に対して出力するテキスト出力手段とを有し、対話処理手段は、音声入力手段から入力された音声の韻律的特徴を用いて利用者の感情を複数種類に分類し音声感情データとして出力する音声感情推定部と、音声入力手段から入力された音声の韻律的特徴を用いて利用者の口調を複数種類に分類し口調データとして出力する口調推定部と、音声入力手段から入力された音声から音列を抽出しテキストデータとして出力するテキスト抽出部と、利用者の顔を撮像する画像入力手段と、画像入力手段により撮像した利用者の顔の各部位に設定した特徴点の時間経過に伴う位置の変化から表情を分類する表情推定部と、表情推定部で抽出された表情が入力され時間変化に伴う表情の変化パターンを用いて利用者の感情を複数種類に分類し感情サマリデータとして出力する顔感情推定部と、対話する両者の心のモデルである自我状態の組合せを話し手から聞き手への向きも含めた自我状態ベクトルとし感情サマリデータと音声感情データと口調データとテキストデータとの組から利用者の発話による自我状態ベクトルを推定する自我状態推定部と、自我状態推定部で推定された自我状態ベクトルからあらかじめ設定されている対応ルールに従って利用者に応答する際の自我状態ベクトルを決定しかつテキストデータの内容から利用者に応答するテキストを自動的に決定する対話制御部とを備えることを特徴とする。 According to the first aspect of the present invention, there is provided voice input means for inputting a user's voice, dialog processing means for generating text responding to the contents of the voice input from the voice input means, and text generated by the dialog processing means. And a text output means for outputting to the user, and the dialogue processing means classifies the user's emotions into a plurality of types using the prosodic features of the voice input from the voice input means, as voice emotion data Voice emotion estimation unit for output, tone estimation unit for classifying user's tone into multiple types using the prosodic features of speech input from speech input means, and output as tone data, input from speech input means A text extraction unit that extracts a sound string from speech and outputs it as text data, an image input unit that captures the user's face, and each part of the user's face that is captured by the image input unit A facial expression estimator that classifies facial expressions based on changes in position over time, and facial expressions extracted by the facial expression estimator are used to input multiple types of user emotions using facial expression change patterns with time. Emotion summary data, voice emotion data, and tone as the ego state vector, including the orientation from the speaker to the listener, the combination of the ego state, which is a model of the emotions of the face that classifies and outputs as emotion summary data. An ego state estimation unit that estimates an ego state vector based on a user's utterance from a set of data and text data, and responds to the user according to a pre-set correspondence rule from the ego state vector estimated by the ego state estimation unit A dialogue control unit that determines the ego state vector and automatically determines the text to respond to the user from the contents of the text data And wherein the Rukoto.
この構成によれば、利用者の表情から得られる感情と、利用者の音声から得られる感情、口調、テキストとの4種類の情報を用いることにより、利用者の自我状態と刺激された対話エージェントの自我状態との組合せを刺激の向きとともに自我状態ベクトルとして推定し、この自我状態ベクトルを用いて利用者に応答する際の自我状態ベクトルを決定するとともに応答用のテキストを決定するから、利用者の発話により推定される自我状態ベクトルに応じて利用者への応答を変化させることになり、利用者にとって受け入れやすく違和感や不快感を生じさせない自然な対話が可能になる。 According to this configuration, by using four types of information, emotion obtained from the user's facial expression and emotion, tone, and text obtained from the user's voice, the user's ego state and the dialogue agent stimulated The user's combination with the ego state is estimated as the ego state vector along with the direction of the stimulus, and the ego state vector when responding to the user is determined using this ego state vector and the response text is determined. The response to the user is changed in accordance with the ego state vector estimated by the utterance of the utterance, so that it is easy for the user to accept and natural conversation without causing discomfort and discomfort is possible.
請求項2の発明では、請求項1の発明において、前記自我状態推定部は、前記感情サマリデータと前記音声感情データとの組合せから推定される自我状態ベクトルの候補ごとに尤度を示す感情自我状態スコアを求める感情スコア割当部と、前記音声感情データと前記口調データとの組合せから推定される自我状態ベクトルの候補ごとに尤度を示す口調自我状態スコアを求める口調スコア割当部と、前記テキストデータの内容から推定される自我状態ベクトルの候補ごとに尤度を示すテキスト自我状態スコアを求めるテキストスコア割当部と、感情スコア割当部と口調スコア割当部とテキストスコア割当部とで得られた自我状態ベクトルの候補に含まれている自我状態を対話する各者ごとに分類し、各者の各自我状態ごとに当該候補の感情自我状態スコアと口調自我状態スコアとテキスト自我状態スコアとにそれぞれ重み係数を乗じて加算した加重和を尤度の評価値である統合スコアとして求め、自我状態ベクトルの候補に含まれている各者の各自我状態ごとの統合スコアのうち尤度が最大になる自我状態を利用者の発話による自我状態ベクトルにおける各者の自我状態と推定するスコア統合演算部とを備えることを特徴とする。
In the invention of
この構成によれば、表情および音声から得られる感情と、音声から得られる口調と、音声から得られるテキストとによりそれぞれ自我状態ベクトルを推定し、各自我状態ベクトルの尤度を統合することによって、妥当と考えられる自我状態ベクトルを求めるから、利用者の発話に対する自我状態ベクトルの決定精度が高くなる。なお、尤度の用語は、もっともらしさの程度という意味で用いている。 According to this configuration, by estimating the ego state vector by the emotion obtained from the facial expression and voice, the tone obtained from the voice, and the text obtained from the voice, respectively, and by integrating the likelihood of each ego state vector, Since an appropriate ego state vector is obtained, the accuracy of determining the ego state vector for the user's utterance is increased. The term “likelihood” is used in the sense of plausibility.
請求項3の発明では、請求項2の発明において、前記感情自我状態スコアは、前記感情サマリデータと前記音声感情データとが示す感情が一致する場合に自我状態ベクトルの候補に対して満点を与え、感情が一致しない場合に得られる自我状態ベクトルの候補に対して同点に配分される数値であり、前記口調自我状態スコアは、前記音声感情データと前記口調データとに矛盾がない場合に自我状態ベクトルの候補に対して満点を与え、矛盾がある場合に自我状態ベクトルの候補に対して同点に配分される数値であり、前記テキスト自我状態スコアは、前記テキストデータに特定の付帯語句が含まれるときに当該付帯語句に対応する自我状態ベクトルの候補に対して尤度の高い順に大きい値が充てられる数値であり、1つの付帯語句に対応する自我状態ベクトルの候補に充てたテキスト自我状態スコアの合計が満点になることを特徴とする。
In the invention of
この構成によれば、感情自我状態スコアと口調自我状態スコアとテキスト自我状態スコアとを比較的簡単かつ適切に設定することができる。 According to this configuration, the emotional ego state score, the tone ego state score, and the text ego state score can be set relatively easily and appropriately.
請求項4の発明では、請求項2または請求項3の発明において、前記統合スコアを求める重み係数は、感情自我状態スコアに対する重み係数と口調自我状態スコアに対する重み係数との和がテキスト自我状態スコアに対する重み係数よりも大きく、かつテキスト自我状態スコアに対する重み係数は利用者の自我状態に対する重み係数よりも刺激された自我状態に対する重み係数のほうが大きいことを特徴とする。
In the invention of
この構成によれば、利用者の発話に対する自我状態ベクトルの決定の際には、非言語情報を言語情報よりも重視して感情自我状態スコアおよび口調自我状態スコアをテキスト自我状態スコアに対して優勢に用いるから、感情自我状態スコアおよび口調自我状態スコアを主に用いるとともにテキスト自我状態スコアを補助的に用いて自我状態を推定することになり、利用者の発話に対する自我状態を適切に決定することができる。また、言語情報については、話し手の自我状態よりもむしろ聞き手のどの自我状態に対する刺激を意図したものであるかが表出されていると考え、上述のようにテキスト自我状態スコアの重み係数を設定している。 According to this configuration, in determining the ego state vector for the user's utterance, the non-linguistic information is more important than the linguistic information, and the emotion ego state score and the tone ego state score are superior to the text ego state score. Therefore, the emotional ego state score and the tone ego state score are mainly used and the text ego state score is used as an auxiliary to estimate the ego state, and the ego state for the user's utterance is appropriately determined. Can do. For language information, it is assumed that the listener's ego state is intended rather than the speaker's ego state, and the text ego state score weighting factor is set as described above. is doing.
請求項5の発明では、請求項1ないし請求項4の発明において、前記対話制御部は、決定した応答用の自我状態ベクトルと決定した応答用のテキストとから音声の韻律パラメータを生成する機能を有し、前記テキスト出力手段は、対話制御部で決定した応答用のテキストに韻律パラメータを適用した合成音声を生成する音声合成処理部と、音声合成処理部で生成された合成音声を出力する音声出力手段とを備えることを特徴とする。 According to a fifth aspect of the present invention, in the first to fourth aspects of the invention, the dialogue control unit has a function of generating a prosodic parameter of speech from the determined response ego state vector and the determined response text. The text output means includes: a speech synthesis processing unit that generates a synthesized speech in which prosodic parameters are applied to the response text determined by the dialogue control unit; and a voice that outputs the synthesized speech generated by the speech synthesis processing unit Output means.
この構成によれば、利用者に対して音声による応答が可能であり、利用者が他の作業をしながらでも対話することが可能になる。また、視覚障害者との対話が可能になる。 According to this configuration, it is possible to respond to the user by voice, and it is possible for the user to interact while performing other work. In addition, it is possible to interact with visually impaired people.
請求項6の発明では、請求項1ないし請求項5の発明において、前記表情推定部は、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類の表情を分類することを特徴とする。 According to a sixth aspect of the present invention, in the first to fifth aspects of the present invention, the facial expression estimation unit includes “no expression”, “surprise”, “fear”, “disgust”, “anger”, “happiness”, “ It is characterized by classifying seven kinds of expressions of “sadness”.
この構成によれば、表情推定部で分類する表情として、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類を用いるのであって、これらの7種類の表情を用いれば自我状態との対応付けは比較的容易である。 According to this configuration, seven types of facial expressions classified by the facial expression estimation unit are used: “no facial expression”, “surprise”, “fear”, “disgust”, “anger”, “happiness”, and “sadness”. If these seven types of facial expressions are used, the association with the ego state is relatively easy.
請求項7の発明では、請求項1ないし請求項6の発明において、利用者の音声の特徴および利用者の顔の特徴を利用者に対応付けて登録したユーザデータベースを有し、前記音声入力手段から入力される利用者の音声の特徴と前記画像入力手段により撮像される利用者の顔の画像の特徴とをユーザデータベースに照合して利用者を特定するユーザ認識部を備え、前記対話制御部は、ユーザ認識部で特定される利用者の属性があらかじめ登録されており、利用者に応答する際の自我状態ベクトルおよびテキストを決定する際に前記自我状態推定部で推定された自我状態ベクトルと前記テキストデータとのほかに、利用者の属性も用いることを特徴とする。 According to a seventh aspect of the present invention, in the first to sixth aspects of the present invention, the voice input means includes a user database in which the voice characteristics of the user and the facial characteristics of the user are registered in association with the user. A user recognizing unit for identifying a user by comparing a feature of a user's voice input from the user and a feature of a user's face image captured by the image input unit with a user database, and the dialog control unit The user attribute specified by the user recognition unit is registered in advance, and the ego state vector estimated by the ego state estimation unit when determining the ego state vector and text when responding to the user and In addition to the text data, user attributes are also used.
この構成によれば、あらかじめユーザデータベースに登録されている特定多数の利用者について自我状態を決定するから、応答時の自我状態ベクトルを決定する際に利用者について既知の情報を利用することが可能になり、不特定多数の利用者について自我状態を決定する場合に比較すると、違和感や不快感を生じさせない応答ができる可能性を高めることができる。また、対話エージェントが対話する利用者を特定することによって許可されていない利用者との対話を禁止することも可能である。 According to this configuration, since the ego state is determined for a specific number of users registered in the user database in advance, it is possible to use known information about the user when determining the ego state vector at the time of response. Compared with the case where the ego state is determined for an unspecified number of users, the possibility of a response that does not cause discomfort or discomfort can be increased. It is also possible to prohibit a dialog with an unauthorized user by specifying the user with whom the dialog agent interacts.
請求項8の発明では、請求項7の発明において、前記自我状態推定部が推定した自我状態ベクトルを前記ユーザ認識部により特定された利用者に対応付けて蓄積記憶する自我状態履歴記憶部と、自我状態履歴記憶部に蓄積された利用者の自我状態ベクトルの出現頻度の分布パターンにより利用者の性格を推定する自我状態特徴抽出部と、自我状態特徴抽出部により推定された性格を利用者に対応付けて記憶する自我状態特徴記憶部とが付加され、前記対話制御部は自我状態特徴記憶部に格納された利用者の性格を用いて利用者に応答する際の自我状態ベクトルおよびテキストを決定することを特徴とする。 In the invention of claim 8, in the invention of claim 7, the ego state history storage unit that stores and stores the ego state vector estimated by the ego state estimation unit in association with the user specified by the user recognition unit; The ego state feature extraction unit that estimates the user's personality from the distribution pattern of the appearance frequency of the user's ego state vector stored in the ego state history storage unit, and the personality estimated by the ego state feature extraction unit to the user An ego state feature storage unit is stored in association with each other, and the dialog control unit determines an ego state vector and text when responding to the user using the user's personality stored in the ego state feature storage unit. It is characterized by doing.
この構成によれば、利用者の自我状態の出現頻度の履歴によって利用者の性格を推定することができるから、カウンセラの診断や自己診断テストなどを行うことなく、利用者の性格推定が可能になる。性格の推定結果は自我状態特徴記憶部に格納され、利用者の性格の推定結果を用いて利用者に応答する際の自我状態ベクトルおよびテキストを決定するから、利用者に応じたスムーズな応答が可能になる。なお、利用者の自我状態の履歴と性格の推定結果とを記憶しているから、利用者のカウンセリングのためにカウンセラが利用することも可能である。 According to this configuration, since the user's personality can be estimated from the history of the appearance frequency of the user's ego state, the user's personality can be estimated without performing a counselor diagnosis or self-diagnosis test. Become. Since the personality estimation result is stored in the ego state feature storage unit and the user's personality estimation result is used to determine the ego state vector and text when responding to the user, a smooth response according to the user can be obtained. It becomes possible. Since the user's ego state history and personality estimation results are stored, the counselor can also use the user's counseling.
請求項9の発明は、請求項1ないし請求項8の発明において、前記対話制御部の対応ルールでは、利用者の発話によって刺激される自我状態を応答時の自我状態とし、応答時に刺激する利用者の自我状態を利用者の先の発話時の自我状態とすることを特徴とする。 According to a ninth aspect of the present invention, in the first to eighth aspects of the invention, in the correspondence rule of the dialogue control unit, the ego state stimulated by the user's utterance is set as the ego state at the time of response, and the use is stimulated at the time of response. The user's ego state is the ego state at the time of the user's previous utterance.
この構成によれば、利用者が発話する際の自我状態ベクトルと対話エージェントが応答する際の自我状態ベクトルとが一致するから、利用者に違和感や不快感を生じさせないスムーズな対話が可能になる。また、利用者が発話する際の自我状態ベクトルが決まれば対話エージェントが応答する際の自我状態ベクトルを一意に決定できるから、対応ルールが簡単になる。 According to this configuration, since the ego state vector when the user utters and the ego state vector when the dialogue agent responds, the user can have a smooth dialogue without causing discomfort or discomfort to the user. . In addition, if the ego state vector when the user speaks is determined, the ego state vector when the dialog agent responds can be uniquely determined, so that the correspondence rule becomes simple.
請求項10の発明では、請求項1ないし請求項9の発明において、身体動作を伴う表現を行う身体モデル表現部と、前記対話制御部で決定された自我状態ベクトルおよびテキストを身体モデル表現部の身体動作に変換する身体表現制御部とが付加されていることを特徴とする。 According to a tenth aspect of the present invention, in the first to ninth aspects of the present invention, the body model expression unit that performs expression accompanied by a body motion, and the ego state vector and the text determined by the dialogue control unit are stored in the body model expression unit. A body expression control unit for converting into body motion is added.
この構成によれば、対話制御部で決定されたテキストおよび自我状態ベクトルを身体モデル表現部の身体動作に反映させるから、対話の際に利用者に対して身振りや手まねを付与して応答することができ、利用者へのメッセージの伝達がスムーズになる。 According to this configuration, since the text and the ego state vector determined by the dialog control unit are reflected in the body movement of the body model expression unit, the user can respond by giving gestures or imitations to the user during the dialog. Message transmission to users.
請求項11の発明では、請求項1ないし請求項10の発明において、前記自我状態は、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」の5種類に分類されることを特徴とする。
In the invention of
この構成によれば、自我状態として、交流分析に基づく心のモデルである「批判的な親」、「保護的な親」、「大人」、「自由な子供」、「順応する子供」を用いるから、交流分析に従って応答時の自我状態ベクトルを比較的容易に設定することができる。 According to this configuration, as the ego state, the models of the mind based on the exchange analysis, “critical parents”, “protective parents”, “adults”, “free children”, “adapted children” are used. Thus, the ego state vector at the time of response can be set relatively easily according to the AC analysis.
本発明の構成によれば、利用者の表情から得られる感情と、利用者の音声から得られる感情、口調、テキストとの4種類の情報を用いることにより、利用者の自我状態と刺激された自我状態との組合せである自我状態ベクトルを推定し、この自我状態ベクトルを用いて利用者に応答する際の自我状態ベクトルを決定するとともに応答用のテキストを決定するから、利用者の発話により推定される自我状態ベクトルに応じて利用者への応答を変化させることになり、利用者にとって受け入れやすく違和感や不快感を生じさせない自然な対話が可能になるという利点がある。 According to the configuration of the present invention, the user's ego state is stimulated by using four types of information, emotion obtained from the user's facial expression and emotion, tone, and text obtained from the user's voice. Estimate the ego state vector, which is a combination with the ego state, and determine the ego state vector when responding to the user using this ego state vector and the response text. The response to the user is changed in accordance with the ego state vector to be performed, and there is an advantage that a natural dialogue that is easy for the user to accept and does not cause discomfort or discomfort is possible.
(基本動作)
以下に説明する対話エージェントは、コンピュータを用いて構成され、利用者との間で自然な対話を実現するために自我状態に着目して応答用の音声を生成するものである。自我状態は、交流分析(たとえば、杉田峰泰:「交流分析」,日本文化科学社,1985)に基づく心のモデルであり、親(P)、大人(A)、子供(C)の3状態に分類され、さらに親は批判的な親(CP)と保護的な親(NP)に分類され、子供は自由な子供(FC)と順応する子供(AC)とに分類される。つまり、自我状態は5種類に分類される。以下では自我状態を説明する際に、CP、NP、A、FC、ACの符号を用いる。また、以下に説明する実施形態では「利用者」として人間を想定して「利用者」と呼び、原則として利用者が先に発話するものとする。
(basic action)
The dialogue agent described below is configured using a computer, and generates a response voice by focusing on the ego state in order to realize a natural dialogue with the user. The ego state is a model of the mind based on the exchange analysis (for example, Mineyasu Sugita: “exchange analysis”, Nihon Bunka Sakusha, 1985). Furthermore, parents are classified as critical parents (CP) and protective parents (NP), and children are classified as free children (FC) and adapting children (AC). That is, the ego state is classified into five types. In the following, the CP, NP, A, FC, and AC codes are used when describing the ego state. In the embodiment described below, a “user” is assumed to be a human and is called a “user”, and in principle, the user speaks first.
交流分析においては、対話する両者の自我状態が適切な関係であるときにスムーズな対話が成立する。すなわち、対話する際の発話者と応答者との関係においては、発話者がある自我状態で発話すると、発話者の発話を受けて応答者の自我状態が刺激されるのであって、発話者の自我状態と応答者の刺激された自我状態との関係が適正な関係であれば、応答者の応答が発話者に違和感や不快感を与えることがなく、応答の内容を効率よく伝達することが可能になる。一方、発話者の自我状態と応答者の刺激された自我状態との関係が適正でないときには、応答者の応答が発話者に違和感や不快感を与え、馴れ馴れしい印象や素っ気ない印象を与えることになる。つまり、スムーズな対話を成立させるには、発話者と応答者との自我状態の関係を適正にすることが必要であることが知られている。 In the exchange analysis, a smooth dialogue is established when the ego states of the two parties having the dialogue are in an appropriate relationship. In other words, in the relationship between the speaker and the responder when talking, if the speaker speaks in a certain ego state, the responder's ego state is stimulated by the speaker's speech, and the speaker's If the relationship between the ego state and the responder's stimulated ego state is appropriate, the responder's response will not cause discomfort or discomfort to the speaker, and the content of the response can be transmitted efficiently. It becomes possible. On the other hand, when the relationship between the ego state of the speaker and the stimulated ego state of the responder is not appropriate, the responder's response gives the speaker a sense of incongruity and discomfort, and gives a familiar and unfamiliar impression. . That is, it is known that in order to establish a smooth dialogue, it is necessary to make the relationship between the ego state of the speaker and the responder appropriate.
対話の際に自我状態を考慮するために、対話エージェントは、基本的には図3に示す手順で動作する。まず利用者の音声がマイクロホンから入力されると(S1)、利用者の音声および利用者の表情をマイクロホンおよびTVカメラを用いて取得し(S2)、利用者の自我状態と利用者により刺激される対話エージェントの自我状態との組合せを推定する(S3)。ここに、利用者と対話エージェントとの自我状態の組合せを話し手から聞き手への向きを含めて「自我状態ベクトル」と呼び、また、利用者が対話エージェントの自我状態を刺激する場合には被刺激の自我状態ベクトルと呼び、対話エージェントが利用者の自我状態を刺激する場合には加刺激の自我状態ベクトルと呼ぶことにする。被刺激の自我状態ベクトルが推定されると、対話エージェントの自我状態と対話エージェントが刺激する利用者の自我状態との組合せである加刺激の自我状態ベクトルを決定した後(S4)、加刺激の自我状態ベクトルに適合した応答用のテキストを生成し(S5)、利用者に対してテキストを出力するのである(S6)。また、本発明では、被刺激の自我状態ベクトルの推定に際して、利用者から取得した情報の組合せを評価値であるスコアに置き換え、スコアを用いて加刺激の自我状態ベクトルを決定する構成を採用している。スコアには0〜100の整数値を用いる。 In order to consider the ego state during the dialogue, the dialogue agent basically operates according to the procedure shown in FIG. First, when the user's voice is input from the microphone (S1), the user's voice and the user's facial expression are acquired using the microphone and the TV camera (S2), and stimulated by the user's ego state and the user. The combination with the ego state of the dialogue agent is estimated (S3). Here, the combination of the ego state of the user and the dialogue agent is called the “ego state vector” including the direction from the speaker to the listener, and if the user stimulates the ego state of the dialogue agent, it is stimulated. If the dialogue agent stimulates the user's ego state, it will be called the ego state vector of the stimulus. Once the ego state vector of the stimulus is estimated, after determining the ego state vector of the stimulus that is a combination of the ego state of the dialog agent and the user's ego state stimulated by the dialog agent (S4), A response text suitable for the ego state vector is generated (S5), and the text is output to the user (S6). Further, in the present invention, when estimating the ego state vector of the stimulus, a configuration is adopted in which the combination of information acquired from the user is replaced with a score that is an evaluation value, and the ego state vector of the stimulus is determined using the score. ing. An integer value of 0 to 100 is used for the score.
自我状態ベクトルは、丸括弧内に利用者の自我状態と対話エージェントの自我状態とを左側が利用者の自我状態になるように左右に並べて記述し、被刺激の場合は利用者から対話エージェントに向かうように両者間を右向き矢印で結合し、加刺激の場合は両者間を左向き矢印で結合する。たとえば、利用者の自我状態がCP、対話エージェントの自我状態がACである被刺激の場合には(CP→AC)と記述し、加刺激の場合には(CP←AC)と記述する。また、自我状態に対応するスコアは、丸括弧内に利用者のスコアと対話エージェントのスコアとを左側が利用者のスコアになるように左右に並べて記述し、両者間をコンマで区切る。たとえば、利用者のスコアが50であり、対話エージェントのスコアが50であれば、(50,50)と記述する。被刺激の自我状態ベクトルが(CP→AC)であり、その自我状態ベクトルのスコアが(50,50)であるときには、(CP→AC)=(50,50)と記述する。 The ego state vector describes the user's ego state and the dialogue agent's ego state in parentheses side by side so that the left side is the user's ego state. The two are coupled with a right-pointing arrow so that they are directed, and in the case of stimulation, the two are coupled with a left-pointing arrow. For example, if the user's ego state is CP and the dialogue agent's ego state is AC, it is described as (CP → AC), and if it is a stimulus, it is described as (CP ← AC). For the score corresponding to the ego state, the user's score and the dialogue agent's score are written side by side in parentheses so that the left side is the user's score, and the two are separated by commas. For example, if the score of the user is 50 and the score of the dialog agent is 50, (50, 50) is described. When the ego state vector of the stimulus is (CP → AC) and the score of the ego state vector is (50, 50), (CP → AC) = (50, 50) is described.
(実施形態1)
本実施形態の対話エージェントの構成を図1に示す。対話エージェントは、利用者の顔の表情を取得するための画像入力手段としてTVカメラからなるカメラ41を備え、また利用者の音声を取得するための音声入力手段としてマイクロホン42を備える。カメラ41は利用者の顔付近を撮像するように視野が設定される。また、対話エージェントは、利用者の発話に応答してテキストを出力するものであり、本実施形態では、テキストを音声と文字とにより出力する例を示す。したがって、テキストを出力するテキスト出力手段として、テキストに応じて音声合成処理部17で生成した合成音声を出力するための音声出力手段であるスピーカ43と、テキストを画面に表示する画像出力手段であるCRTあるいは液晶表示器のようなディスプレイ44とを備える。カメラ41、マイクロホン42、スピーカ43、ディスプレイ44は、適宜のプログラムを実行するコンピュータにより実現される対話処理手段10に接続され、対話処理手段10では、以下に説明する処理によって、マイクロホン42から入力された利用者の音声に応答するテキストを生成する。
(Embodiment 1)
The configuration of the dialog agent of this embodiment is shown in FIG. The dialogue agent includes a
対話処理手段10は、基本的にはカメラ41で撮像された画像とマイクロホン42から入力された音声とにより被刺激の自我状態ベクトルを推定する手段と、被刺激の自我状態ベクトルから加刺激の自我状態ベクトルを決定する手段と、マイクロホン42から入力された音声に含まれるテキストと加刺激の自我状態ベクトルとから応答用のテキストを生成するとともに、スピーカ43とディスプレイ44との少なくとも一方を通して応答用のテキストを利用者に提示する手段とを備える。
The dialogue processing means 10 basically estimates a ego state vector of the stimulus from the image captured by the
本実施形態では、被刺激の自我状態ベクトルを推定する手段は、表情推定部11、表情データベース12、顔感情推定部13、音声感情推定部14、口調推定部15、テキスト抽出部16、自我状態推定部20により構成してあり、加刺激の自我状態ベクトルを決定する手段および応答用のテキストを利用者に提示する手段は、対話制御部30、音声合成処理部17により構成してある。
In this embodiment, the means for estimating the ego state vector of the stimulus is the
カメラ41で撮像される画像は動画像であって、カメラ41で取得した動画像は表情推定部11に入力される。表情推定部11は、カメラ41で撮像した利用者の顔の画像(たとえば、30フレーム/秒で画像を取り込む)のうち眉、目、口などの各部位について特徴点を設定し、特徴点の位置の時間経過に伴う変化から表情を分類する。表情の種類としては、エクマン:「表情分析入門」などに記述されているように、「無表情」、「驚き」、「恐怖」、「嫌悪」、「怒り」、「幸福」、「悲しみ」の7種類を用いる。
The image captured by the
表情推定部11では、顔の各部位の時間変化のパターンを抽出するとともに、抽出した時間変化のパターンを表情データベース12と照合する。表情データベース12には、特徴点の時間変化のパターンが上述した7種類の表情に対応付けて格納してあり、表情推定部11は、顔の各部位の時間変化のパターンを表情データベース12と照合することによって、表情データベース12からパターンマッチングの技術によって表情を分類する。
The facial
なお、表情推定部11で扱う画像はデジタル画像であるものとする。デジタル画像はカメラ41から出力することができるが、カメラ41から出力されるアナログ信号の映像信号に対して表情推定部11においてアナログ−デジタル変換を行ってもよい。
Note that the image handled by the facial
表情推定部11で抽出された表情は顔感情推定部13に入力される。顔感情推定部13は、時間経過に伴うフレーム毎の表情の変化パターンを用いて利用者の感情を推定する。表情から感情を推定する際には、利用者の発話の開始時点と終了時点とを検出し、開始から終了までの区間と終了後の区間とにおける表情の整合性を評価し、両区間で推定した感情に明らかな矛盾が発生していなければ、その結果を採用する。顔の画像に基づいて利用者の感情を分類する際には、リアルタイムでの分類が可能となるように、顔感情推定部13が出力する感情の種類は「平静または怒り」「喜び」「推定不能」の3種類に制限してある。
The facial expression extracted by the facial
一方、マイクロホン42から出力される音声信号は、音声感情推定部14と口調推定部15とテキスト抽出部16とに入力される。音声感情推定部14と口調推定部15とテキスト抽出部16とにおいては、音声信号のセグメンテーションを行い、FFTなどの技術を用いて周波数成分を特徴量として抽出する。特徴量を抽出する処理は、音声感情推定部14と口調推定部15とテキスト抽出部16とで同様の処理になるから、特徴量を抽出する処理を行う処理部を設けて、音声感情推定部14と口調推定部15とテキスト抽出部16とで共用し、音声感情推定部14と口調推定部15とテキスト抽出部16とにおいては特徴量を抽出する処理を省略してもよい。
On the other hand, the voice signal output from the
音声感情推定部14では、利用者が発話した音声の韻律的特徴によって感情を分類するものであり、韻律的特徴の分類にはガウス混合モデル(GMM)を用いる。分類する感情は3種類であって、「怒り」「喜び」「平静」とする。
The voice
また、口調推定部15は、ガウス混合モデルを用いて、利用者が発話した音声の口調を分類する。5種類の自我状態に対する口調は、上述した文献では1つの自我状態について16口調ずつ示されているが、本実施形態では表1のように、1つの自我状態について4口調ずつ対応させ、利用者の音声を20種類の口調に分類する。口調を分類するために用いるGMMにおける混合ガウス分布数は64とする。また、音声信号からの特徴量抽出条件を表2に示す。音声感情推定部14および口調推定部15の学習方法については後述する。
The
テキスト抽出部16は、利用者の音声からテキスト(音列)を抽出する。テキスト抽出部16における音声の認識にはGMMや隠れマルコフモデル(HMM)を用いた周知の技術を採用することができる。
The
上述のように、顔感情推定部13ではカメラ41で撮像した利用者の画像から3種類の感情が抽出される。また、音声感情推定部14では利用者の音声から「怒り」「喜び」「平静」の3種類の感情が抽出され、口調推定部15では利用者の音声が表1に示した20種類の口調に分類され、テキスト抽出部16では利用者の音声からテキストが抽出される。以下では、顔感情推定部13の出力を表情サマリデータd1、音声感情推定部14の出力を音声感情データd2、口調推定部15の出力を口調データd3、テキスト抽出部16の出力をテキストデータd4、と呼ぶことにする。表情サマリデータd1、音声感情データd2、口調データd3、テキストデータd4は、被刺激の自我状態ベクトルを推定する機能を有した自我状態推定部20に入力される。
As described above, the face
自我状態推定部20は、表情サマリデータd1と音声感情データd2との組合せを感情自我状態スコアS1に置き換える感情スコア割当部21と、音声感情データd2と口調データd3との組合せを口調自我状態スコアSbに置き換える口調スコア割当部22と、テキストデータd4の内容からテキスト自我状態スコアScを求めるテキストスコア割当部23とを備える。感情自我状態スコアSa、口調自我状態スコアSb、テキスト自我状態スコアScは、被刺激の自我状態ベクトルについて、利用者と対話エージェントとのそれぞれの自我状態に0〜100点の点数を与えたものであって、100点に近いほどその自我状態である可能性が高いことを示す。
The ego
ところで、自我状態には5状態があるから、自我状態ベクトルは25種類が考えられる。もっとも、料理のレシピを提示する対話エージェントのように、利用者が対話エージェントに対して要求や質問を行い、対話エージェントが利用者に対して違和感や不快感をもたらさないように応答する場合を想定すると、利用者の発話時の自我状態としてNPやACはあり得ず、対話エージェントの応答時の自我状態としてCPはあり得ない。つまり、利用者の自我状態としては、CP、A、FCの3種類が選択可能であり、対話エージェントの自我状態としては、NP、A、FC、ACの4種類が選択可能である。さらに、相補的交流パターン(対話する両者の自我状態が同じである交流パターン)が成立する自我状態ベクトルと、上述した文献に記載されている一般に起こりやすい交流パターンが成立する自我状態ベクトルとを考慮すれば、被刺激の自我状態ベクトルは、(A→A)、(CP→AC)、(FC→FC)、(FC→NP)の4種類になる。 By the way, since there are five ego states, there are 25 possible ego state vectors. However, it is assumed that the user makes a request or question to the dialog agent and responds so that the user does not feel uncomfortable or uncomfortable, like a dialog agent that presents a recipe for cooking. Then, there is no NP or AC as the ego state when the user speaks, and there is no CP as the ego state when the dialog agent responds. That is, three types of CP, A, and FC can be selected as the user's ego state, and four types of NP, A, FC, and AC can be selected as the ego state of the conversation agent. Further, consider an ego state vector in which a complementary AC pattern (an AC pattern in which both of the interacting users have the same ego state) is established, and an ego state vector in which an AC pattern that is likely to occur as described in the above-mentioned literature is established. Then, there are four types of stimulated ego state vectors: (A → A), (CP → AC), (FC → FC), and (FC → NP).
利用者が対話エージェントと対話するには、まず利用者の自我状態がCP、A,FCのどれであるかを対話エージェントが推定しなければならない。一方、自我状態がFCであるときには、「本能的」「自由な感情表現」「興奮」などの特徴があり、自我状態がCPであるときには、「高圧的」「避難」「叱責」「怒りっぽい頑固おやじ」などの特徴があることが知られている。また、感情自我状態スコアSaと口調自我状態スコアSbとは、音声感情データd2から求める利用者の感情を含んでおり、FCという自我状態を音声感情データd2の3種類の感情である「怒り」「喜び」「平静」の特徴を持つか否かの観点で見れば、FCという自我状態では、「喜び」あるいは「喜び」に類した特徴を持つ場合と、「怒り」の特徴と持つ場合との2種類の場合がある。 In order for a user to interact with a dialog agent, the dialog agent must first estimate whether the user's ego state is CP, A, or FC. On the other hand, when the ego state is FC, there are characteristics such as “instinctive”, “free expression of emotion”, “excitement”, and when the ego state is CP, “high pressure”, “evacuation”, “reprimand”, “anger” It is known to have a feature such as “Poi Stubborn Father”. Further, the emotion ego state score Sa and the tone ego state score Sb include the user's emotion obtained from the voice emotion data d2, and the “anger” which is the three kinds of emotions of the voice emotion data d2 for the FC ego state. From the viewpoint of whether or not it has the characteristics of “joy” and “calmness”, the ego state of FC has characteristics similar to “joy” or “joy”, and cases of having characteristics of “anger”. There are two types of cases.
そこで、感情自我状態スコアSaと口調自我状態スコアSbとを求める際には、FCを、「喜び」の特徴を持つFCaと、「怒り」の特徴を持つFCbとに分けて考えることにする。つまり、被刺激の自我状態ベクトルとして、(A→A)、(CP→AC)、(FCa→FCa)、(FCa→NP)、(FCb→FCb)の5種類を考える。また、音声感情データd2から求める利用者の感情が、「平静」の場合は自我状態をA、「喜び」の場合は自我状態をFCa、「怒り」の場合は自我状態をCPまたはFCbとする。 Therefore, when the emotional ego state score Sa and the tone ego state score Sb are obtained, the FC is considered to be divided into an FCa having a “joy” feature and an FCb having an “anger” feature. In other words, five types of (A → A), (CP → AC), (FCa → FCa), (FCa → NP), and (FCb → FCb) are considered as stimulated ego state vectors. Further, if the user's emotion obtained from the voice emotion data d2 is “peaceful”, the ego state is A, if it is “joy”, the ego state is FCa, and if it is “anger”, the ego state is CP or FCb. .
表情サマリデータd1と音声感情データd2との組合せに対する感情自我状態スコアSaは、表情サマリデータd1が「平静または怒り」「喜び」「推定不能」の3種類であり、音声感情データd2が「怒り」「喜び」「平静」の3種類であるから、表3のように、組合せは9種類になる。つまり、表情サマリデータd1と音声感情データd2との9種類の組合せに対して自我状態ベクトルを対応付け、各自我状態ベクトルごとに感情自我状態スコアSaを規定する。表3においては、表情サマリデータd1と音声感情データd2とが示す感情が一致する場合には、感情自我状態スコアSaを満点(本実施形態では100)とし、表情サマリデータd1と音声感情データd2とが示す感情が一致しない場合には、表情サマリデータd1と音声感情データd2との内容に応じて、自我状態ベクトルの可能性の順に感情自我状態スコアSaを設定している。 The emotion ego state score Sa for the combination of the facial expression summary data d1 and the voice emotion data d2 includes three types of expression summary data d1 of “seduce or anger”, “joy” and “cannot be estimated”, and voice emotion data d2 of “anger”. Since there are three types of “joy” and “seduce”, there are nine types of combinations as shown in Table 3. That is, the ego state vector is associated with nine types of combinations of the facial expression summary data d1 and the voice emotion data d2, and the emotion ego state score Sa is defined for each ego state vector. In Table 3, when the emotions indicated by the facial expression summary data d1 and the voice emotion data d2 match, the emotion ego state score Sa is set to a perfect score (100 in this embodiment), and the facial expression summary data d1 and the voice emotion data d2 If the emotions indicated by are different from each other, the emotional ego state score Sa is set in the order of the possibility of the ego state vector according to the contents of the facial expression summary data d1 and the voice emotion data d2.
表情サマリデータd1と音声感情データd2との1つの組合せに対して複数種類の自我状態ベクトルを推定できる場合には、表情サマリデータd1と音声感情データd2との1つの組合せにおける感情自我状態スコアSaの合計が満点になるように、感情自我状態スコアSaを割り振る。なお、上述した5種類の自我状態ベクトルのいずれにも該当しないと考えられる場合には、自我状態ベクトルを「不明」とし、不明の自我状態ベクトルに感情自我状態スコアSaを規定している。すなわち、表情サマリデータd1が「推定不能」であるときに、音声感情データd2の内容にかかわらず、自我状態ベクトルが「不明」である場合を規定し、感情自我状態スコアSaを(20,20)とし、残りの(80,80)を可能性がある他の自我状態ベクトルで配分する。また、表情サマリデータd1が「喜び」であり音声感情データd2が「怒り」である場合には感情が矛盾しているから、自我状態ベクトルを「不明」として感情自我状態スコアSaは(100,100)とする。 When a plurality of types of ego state vectors can be estimated for one combination of the expression summary data d1 and the voice emotion data d2, the emotion ego state score Sa in one combination of the expression summary data d1 and the voice emotion data d2. The emotion ego state score Sa is assigned so that the sum of When it is considered that none of the above-described five kinds of ego state vectors is applicable, the ego state vector is set to “unknown”, and the emotion ego state score Sa is defined in the unknown ego state vector. That is, when the facial expression summary data d1 is “cannot be estimated”, the case where the ego state vector is “unknown” regardless of the content of the voice emotion data d2 is defined, and the emotion ego state score Sa is (20, 20). ) And the remaining (80, 80) are allocated by other possible ego state vectors. In addition, when the facial expression summary data d1 is “joy” and the voice emotion data d2 is “anger”, the emotions are contradictory, so that the emotional ego state score Sa is (100, 100).
口調自我状態スコアSbを求める際に用いる口調データd3は、本実施形態では、5種類の自我状態について4種類ずつの口調を対応付けているものであるから、20種類の口調に分類することが可能であるが、上述したように、利用者の発話時の自我状態をA、CP、FC(FCa、FCb)の3種類に制限しているから、口調の種類は表4に示すように合計12種類になる。さらに、本実施形態では口調自我状態スコアSbを求めるための口調について、表4のように、自我状態がCPに対応するものと、Aに対応するものと、FC1、FC3に対応するものと、FC2に対応するものと、FC4に対応するものとの5種類にまとめている。したがって、音声感情データd2と口調データd3との組合せに対する口調自我状態スコアSbは、表4のように、15種類の組合せになる。ここに、表4におけるアルファベットと数字との組合せは表1における縦行のアルファベットと横列の数字との組合せであり、アルファベットと数字との交差する升目が口調の種類になる。また、表4におけるNは「口調なし」を示す。音声感情データd2と口調データd3との15種類の組合せに対して自我状態ベクトルを対応付け、各自我状態ベクトルごとに感情自我状態スコアSaを規定する。口調自我状態スコアSbに対応する自我状態ベクトルの推定においても、5種類の自我状態ベクトルのいずれにも該当しないと考えられる場合には、自我状態ベクトルを「不明」とし、適宜の口調自我状態スコアSbを与える。 In the present embodiment, the tone data d3 used when obtaining the tone ego state score Sb is obtained by associating four types of tone with respect to the five types of ego states. Although it is possible, as described above, since the user's ego state at the time of utterance is limited to three types of A, CP, and FC (FCa, FCb), the types of tone are as shown in Table 4. There are 12 types. Further, in the present embodiment, as to the tone for obtaining the tone ego state score Sb, as shown in Table 4, the ego state corresponds to CP, the case corresponding to A, the case corresponding to FC1, FC3, These are classified into five types, one corresponding to FC2 and one corresponding to FC4. Therefore, the tone ego state score Sb for the combination of the voice emotion data d2 and the tone data d3 is 15 types of combinations as shown in Table 4. Here, the combinations of alphabets and numbers in Table 4 are combinations of vertical alphabets and rows in Table 1, and the meshes where the alphabets and numbers intersect are the type of tone. Further, N in Table 4 indicates “no tone”. Ego state vectors are associated with 15 types of combinations of voice emotion data d2 and tone data d3, and an emotional ego state score Sa is defined for each ego state vector. In the estimation of the ego state vector corresponding to the tone ego state score Sb, if it is considered that none of the five kinds of ego state vectors corresponds, the ego state vector is set to “unknown” and an appropriate tone ego state score is set. Sb is given.
本実施形態では、利用者が対話エージェントに対して要求や質問を行う場合を想定しているから、テキスト自我状態スコアScを求めるには、テキストデータd4から要求あるいは質問を表す語句を付帯語句として抽出し、付帯語句に自我状態ベクトルを対応付け、各自我状態ベクトルごとにテキスト自我状態スコアScを規定する。テキストデータd4から抽出する付帯語句としては表5のように14種類を想定する。テキストデータd4から抽出する付帯語句によって得られる自我状態ベクトルには、(FCb→FCb)も考えられるが、表5の例では自我状態としてFCbは含まれていない。 In the present embodiment, it is assumed that the user makes a request or question to the dialog agent. Therefore, in order to obtain the text ego state score Sc, a phrase representing the request or question is used as an additional phrase from the text data d4. Extract, associate an ego state vector with an accompanying phrase, and define a text ego state score Sc for each ego state vector. As supplementary phrases extracted from the text data d4, 14 types are assumed as shown in Table 5. (FCb → FCb) is also conceivable as an ego state vector obtained by an auxiliary phrase extracted from the text data d4, but FCb is not included as an ego state in the example of Table 5.
表3〜5は、感情スコア割当部21と口調スコア割当部22テキストスコア割当部23とにそれぞれ登録される。なお、表3〜5は実験結果に基づいて決定したものであるが、表情サマリデータd1、音声感情データd2、口調データd3、テキストデータd4を抽出する構成や対話エージェントの使用目的などによって適宜に変更される。
Tables 3 to 5 are registered in the emotion
自我状態推定部20は、感情スコア割当部21で求めた感情自我状態スコアSaと口調スコア割当部22で求めた口調自我状態スコアSbとテキストスコア割当部23で求めたテキスト自我状態スコアScとにそれぞれ重み係数を乗じて加算した加重和を求めるスコア統合演算部24を備える。つまり、スコア統合演算部24では、次式の演算により統合スコアSIを求める。
SI=w1・Sa+w2・Sb+w3・Sc
ただし、w1,w2,w3は重み係数である。表3〜表5に示すように、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScとは、利用者と対話エージェントとの両方について点数が与えられているから、統合スコアSIは利用者と対話エージェントとの双方について求める。つまり、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScとは、いずれも利用者のスコアと対話エージェントのスコアとの組であるが、統合スコアSIを求める際には、上式の演算を利用者のスコアと対話エージェントのスコアとについてそれぞれ個別に行い、演算結果を統合スコアSIにおける利用者のスコアと対話エージェントのスコアとに用いる。統合スコアSIは、被刺激の自我状態ベクトルの評価値であって、統合スコアSIにより被刺激の自我状態ベクトルを推定することができる。
The ego
SI = w1, Sa + w2, Sb + w3, Sc
However, w1, w2, and w3 are weighting factors. As shown in Tables 3 to 5, since the emotion ego state score Sa, the tone ego state score Sb, and the text ego state score Sc are scored for both the user and the dialogue agent, the integrated score SI Asks for both users and dialog agents. That is, the emotion ego state score Sa, the tone ego state score Sb, and the text ego state score Sc are all a set of a user score and a dialogue agent score. The calculation of the expression is performed individually for the user score and the interactive agent score, and the calculation result is used as the user score and the interactive agent score in the integrated score SI. The integrated score SI is an evaluation value of the stimulated ego state vector, and the stimulated ego state vector can be estimated by the integrated score SI.
表3〜表5では、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScについて、どの自我状態ベクトルについても利用者のスコアと対話エージェントのスコアとが同じ値になっているが、重み係数w1,w2,w3について以下の条件を設定することで、統合スコアSIでは利用者と対話エージェントとの値が異なる値になることがある。ここでは、統合スコアSIおよび重み係数w1,w2,w3について利用者については(u)を付加して記述し、対話エージェントについては(a)を付加して記述する。つまり、統合スコアSIは(SI(u),SI(a))と表すことができる。また、重み係数w1(u),w2(u),w3(u),w1(a),w2(a),w3(a)の条件は、以下の3条件を満たすことである。
w1(u)+w2(u)>w3(u)
w1(a)+w2(a)>w3(a)
w3(u)<w3(a)
上記条件を満たす重み係数w1(u),w2(u),w3(u),w1(a),w2(a),w3(a)としては、たとえばw1(u)=w2(u)=w2(a)=w3(a)=0.4、w3(u)=w1(a)=0.2と設定することができる。すなわち、下記関係になる。
w1(u)+w2(u)=0.8>0.2=w3(u)
w1(a)+w2(a)=0.6>0.4=w3(a)
上例において、w3(u)を比較的小さくしているのは、テキストデータd4から抽出される付帯語句は、利用者の自我状態を反映しているものの感情に比較すると自我状態を反映する程度が小さいからであり、対話エージェントにおいてw1(a)を比較的小さくしているのは、対話エージェントにおいて利用者に刺激される自我状態は、口調データd3とテキストデータd4との反映の程度が大きいからである。
In Tables 3 to 5, the emotional ego state score Sa, the tone ego state score Sb, and the text ego state score Sc have the same values for the user score and the dialogue agent score for any ego state vector. By setting the following conditions for the weighting factors w1, w2, and w3, the integrated score SI may have different values for the user and the interactive agent. Here, the integrated score SI and the weighting factors w1, w2, and w3 are described by adding (u) to the user, and the dialog agent is described by adding (a). That is, the integrated score SI can be expressed as (SI (u), SI (a)). Further, the conditions of the weighting factors w1 (u), w2 (u), w3 (u), w1 (a), w2 (a), and w3 (a) are to satisfy the following three conditions.
w1 (u) + w2 (u)> w3 (u)
w1 (a) + w2 (a)> w3 (a)
w3 (u) <w3 (a)
As weighting factors w1 (u), w2 (u), w3 (u), w1 (a), w2 (a), w3 (a) satisfying the above conditions, for example, w1 (u) = w2 (u) = w2 (A) = w3 (a) = 0.4 and w3 (u) = w1 (a) = 0.2 can be set. That is, the following relationship is established.
w1 (u) + w2 (u) = 0.8> 0.2 = w3 (u)
w1 (a) + w2 (a) = 0.6> 0.4 = w3 (a)
In the above example, the reason why w3 (u) is relatively small is that the incidental phrase extracted from the text data d4 reflects the ego state as compared to the emotion, although it reflects the user's ego state. This is because w1 (a) is relatively small in the dialogue agent, and the ego state stimulated by the user in the dialogue agent is largely reflected in the tone data d3 and the text data d4. Because.
ところで、表3〜表5のようなデータを用いることによって、表情サマリデータd1と音声感情データd2と口調データd3とテキストデータd4との1つの組合せに対して、1種類以上の自我状態ベクトルが抽出される。また、表情サマリデータd1と音声感情データd2と口調データd3とテキストデータd4との1つの組合せに対して、感情自我状態スコアSaと口調自我状態スコアSbとテキスト自我状態スコアScとの少なくとも1つが複数規定されている場合もある。このように、複数種類の自我状態ベクトルが得られるときには、自我状態ベクトルに含まれる自我状態を利用者と対話エージェントとについてそれぞれ分類し、分類した自我状態ごとに、重み係数w1(u),w2(u),w3(u),w1(a),w2(a),w3(a)を乗じて加算した加重和を求め、得られた加重和を利用者および対話エージェントにおける各自我状態の統合スコアSIとする。統合スコアSIは、利用者の自我状態と対話エージェントにおいて刺激された自我状態とのそれぞれについて自我状態の種類別に求められるから、利用者の各自我状態について求めた統合スコアSI(u)のうち最大値が得られる自我状態を利用者の自我状態と推定し、対話エージェントの各自我状態について求めた統合スコアSI(a)のうち最大値が得られる自我状態を対話エージェントの自我状態と推定する。 By using data as shown in Tables 3 to 5, one or more types of ego state vectors are obtained for one combination of facial expression summary data d1, voice emotion data d2, tone data d3, and text data d4. Extracted. Further, for one combination of facial expression summary data d1, voice emotion data d2, tone data d3, and text data d4, at least one of emotion ego state score Sa, tone ego state score Sb, and text ego state score Sc is provided. There may be a plurality of rules. As described above, when a plurality of types of ego state vectors are obtained, the ego states included in the ego state vector are classified for the user and the dialogue agent, and the weight coefficients w1 (u) and w2 are classified for each classified ego state. The weighted sum obtained by multiplying (u), w3 (u), w1 (a), w2 (a), and w3 (a) is obtained, and the obtained weighted sum is integrated for each ego state in the user and the dialogue agent. The score is SI. Since the integrated score SI is obtained for each type of ego state for each of the user's ego state and the ego state stimulated by the dialogue agent, the maximum of the integrated score SI (u) obtained for each ego state of the user. The ego state where the value is obtained is estimated as the user's ego state, and the ego state where the maximum value is obtained from the integrated scores SI (a) obtained for each ego state of the dialogue agent is estimated as the ego state of the dialogue agent.
以下に、利用者の発話による被刺激の自我状態ベクトルを推定する手順の一例を示す。ここでは、表情サマリデータd1が「平静」、音声感情データd2が「平静」、口調データd3が「口調なし」、テキストデータd4の付帯語句が「〜して」であるものとする。表3によれば、表情サマリデータd1が「平静」で音声感情データd2が「平静」である組合せでは、(A→A)=(100,100)になる。また、表4によれば、口調データd3が「口調なし」で音声感情データd2が「平静」である組合せでは、(A→A)=(100,100)になる。さらに、表5によりテキストデータd4から抽出した付帯語句が「〜して」であるときには、自我状態ベクトルが複数種類得られ、(A→A)=(50,50)、(CP→AC)=(30,30)、(FCa→FCa)=(10,10)、(FCa→NP)=(10,10)になる。 Below, an example of the procedure which estimates the ego state vector of the stimulus by a user's utterance is shown. Here, it is assumed that the facial expression summary data d1 is “peaceful”, the voice emotion data d2 is “peaceful”, the tone data d3 is “no tone”, and the incidental phrase of the text data d4 is “to”. According to Table 3, in a combination in which the facial expression summary data d1 is “serious” and the voice emotion data d2 is “serious”, (A → A) = (100, 100). Further, according to Table 4, in a combination in which the tone data d3 is “no tone” and the voice emotion data d2 is “calm”, (A → A) = (100, 100). Further, when the incidental phrase extracted from the text data d4 according to Table 5 is “to”, a plurality of types of ego state vectors are obtained, and (A → A) = (50, 50), (CP → AC) = (30, 30), (FCa → FCa) = (10, 10), (FCa → NP) = (10, 10).
ところで、自我状態は、CP、NP、A、FC、ACの5種類であり、さらに本実施形態ではFCをFCa,FCbに分けているから合計6種類の自我状態がある。各重み係数を、それぞれw1(u)=0.4,w2(u)=0.4,w3(u)=0.2,w1(a)=0.2,w2(a)=0.4,w3(a)=0.4とし、自我状態を区別するために各統合スコアSI(u),SI(a)、感情自我状態スコアSa、口調自我状態スコアSb、テキスト自我状態スコアScにそれぞれ<X>を付加し、Xを自我状態とすれば、利用者および対話エージェントの各自我状態ごとの統合スコアSI(u)<X>,SI(a)<X>は次式のようになる。
SI(u)<X>=0.4×Sa<X>+0.4×Sb<X>+0.2×Sc<X>
SI(a)<X>=0.2×Sa<X>+0.4×Sb<X>+0.4×Sc<X>
また、上述の例では利用者については、Sa<A>=100、Sb<A>=100、Sc<A>=50、Sc<CP>=30、Sc<FCa>=10+10(自我状態がFCaである自我状態ベクトルが2個あることを意味する)であり、対話エージェントについては、Sa<A>=100、Sb<A>=100、Sc<A>=50、Sc<AC>=30、Sc<FCa>=10、Sc<NP>=10であり、感情自我状態スコアSa、口調自我状態スコアSb、テキスト自我状態スコアScの他の値は0になる。
By the way, there are five types of ego states, CP, NP, A, FC, and AC. Further, in this embodiment, since FC is divided into FCa and FCb, there are a total of six types of ego states. The weighting factors are respectively w1 (u) = 0.4, w2 (u) = 0.4, w3 (u) = 0.2, w1 (a) = 0.2, w2 (a) = 0.4. , W3 (a) = 0.4, and in order to distinguish the ego state, each integrated score SI (u), SI (a), emotion ego state score Sa, tone ego state score Sb, text ego state score Sc, respectively If <X> is added and X is an ego state, the integrated scores SI (u) <X>, SI (a) <X> for each ego state of the user and the dialogue agent are as follows: .
SI (u) <X> = 0.4 × Sa <X> + 0.4 × Sb <X> + 0.2 × Sc <X>
SI (a) <X> = 0.2 × Sa <X> + 0.4 × Sb <X> + 0.4 × Sc <X>
In the above example, for the user, Sa <A> = 100, Sb <A> = 100, Sc <A> = 50, Sc <CP> = 30, Sc <FCa> = 10 + 10 (ego state is FCa For the dialogue agent, Sa <A> = 100, Sb <A> = 100, Sc <A> = 50, Sc <AC> = 30, Sc <FCa> = 10, Sc <NP> = 10, and other values of the emotion ego state score Sa, the tone ego state score Sb, and the text ego state score Sc are 0.
これらの値を用い、利用者と対話エージェントとに分類して6種類の各自我状態ごとの総合スコアSI(u),SI(a)を求めると、以下のようになる。
SI(u)<CP>=0.4×0+0.4×0+0.2×30=6
SI(u)<NP>=0
SI(u)<A>=0.4×100+0.4×100+0.2×50=90
SI(u)<FCa>=0.4×0+0.4×0+0.2×(10+10)=4
SI(u)<AC>=0
SI(u)<FCb>=0
SI(a)<CP>=0
SI(a)<NP>=0.2×0+0.4×0+0.4×10=4
SI(a)<A>=0.2×100+0.4×100+0.4×50=80
SI(a)<FCa>=0.2×0+0.4×0+0.4×10=4
SI(a)<AC>=0.2×0+0.4×0+0.4×30=12
SI(a)<FCb>=0
利用者と対話エージェントとについて、それぞれ統合スコアSI(u),SI(a)の最大値を求めると、SI(u)<A>=90、SI(a)<A>=80であるから、利用者の自我状態をA、対話エージェントの自我状態をAとし、被刺激の自我状態ベクトルを(A→A)=(90,80)と推定することができる。
When these values are used to categorize the user and the dialogue agent and obtain the total scores SI (u) and SI (a) for each of the six types of ego states, they are as follows.
SI (u) <CP> = 0.4 × 0 + 0.4 × 0 + 0.2 × 30 = 6
SI (u) <NP> = 0
SI (u) <A> = 0.4 × 100 + 0.4 × 100 + 0.2 × 50 = 90
SI (u) <FCa> = 0.4 × 0 + 0.4 × 0 + 0.2 × (10 + 10) = 4
SI (u) <AC> = 0
SI (u) <FCb> = 0
SI (a) <CP> = 0
SI (a) <NP> = 0.2 × 0 + 0.4 × 0 + 0.4 × 10 = 4
SI (a) <A> = 0.2 × 100 + 0.4 × 100 + 0.4 × 50 = 80
SI (a) <FCa> = 0.2 × 0 + 0.4 × 0 + 0.4 × 10 = 4
SI (a) <AC> = 0.2 × 0 + 0.4 × 0 + 0.4 × 30 = 12
SI (a) <FCb> = 0
When the maximum values of the integrated scores SI (u) and SI (a) are obtained for the user and the dialogue agent, respectively, SI (u) <A> = 90 and SI (a) <A> = 80. Assume that the user's ego state is A, the dialogue agent's ego state is A, and the stimulated ego state vector is (A → A) = (90, 80).
自我状態推定部20において利用者の自我状態と刺激された対話エージェントの自我状態との推定により自我状態ベクトルが決まると、自我状態ベクトルは、テキストデータd4とともに対話制御部30に与えられる。対話制御部30では、自我状態推定部20で推定された被刺激の自我状態ベクトルから加刺激の自我状態ベクトルを決定する。対話エージェントから利用者に応答する際の加刺激の自我状態ベクトルは、応答戦略決定部31において被刺激の自我状態ベクトルに対応付けてあらかじめ設定してある対応ルールを用いて決定する。対話制御部30には、応答戦略決定部31により決定された自我状態ベクトルとテキストデータd4とを用いて利用者に応答するテキストを決定する応答テキスト決定部32も設けられる。
When the ego state vector is determined by estimating the ego state of the user and the ego state of the stimulated dialogue agent in the ego
対話制御部30は、表6に示すように、被刺激の自我状態ベクトルと加刺激の自我状態ベクトルとの対応ルールを集めて登録したシナリオデータベース33を備え、応答戦略決定部31は、被刺激の自我状態ベクトルが自我状態推定部20から与えられると、シナリオデータベース33に格納された表6の対応関係を用いて加刺激の自我状態ベクトルを抽出する。なお、表6において、自我状態ベクトル間を結ぶ矢印は、因果関係を示している。つまり、矢印の左側の括弧の(被刺激の自我状態ベクトル)が与えられると、矢印の右側の括弧の(加刺激の自我状態ベクトル)を用いることを意味している。
As shown in Table 6, the
料理のレシピを提案する対話エージェントでは、利用者の自我状態としてNP、ACはないから、表6のうちNo6、No7は使用しない。また、自我状態ベクトルには「不明」の場合があるから、No1〜No5に当てはまらない場合には、No8を用いる。No3は利用者が「甘える」場合に相当し、No5は利用者が「怒る」場合に相当する。 In the dialogue agent that proposes a recipe for cooking, since there is no NP or AC as the user's ego state, No. 6 and No. 7 in Table 6 are not used. In addition, since there is a case where the ego state vector is “unknown”, No8 is used when it is not applicable to No1 to No5. No. 3 corresponds to a case where the user “pampers” and No. 5 corresponds to a case where the user “gets angry”.
応答テキスト決定部32では、応答戦略決定部31で得られた加刺激の自我状態ベクトルとテキストデータd4に含まれるキーワードとを用いて対話エージェントによる応答用のテキストを自動的に決定する。対話エージェントが利用者に応答するテキストは、利用者の発話によるテキストデータd4の中のキーワードに対応するように応答用のキーワードが決められており、対話エージェントと利用者との自我状態に応じて決まる付帯語句を応答用のキーワードに付加してテキストを組み立てることにより、対話エージェントが応答するテキストを生成する。応答用のキーワードおよび自我状態ベクトルに応じて決定される付帯語句はシナリオデータベース33に格納しておく。つまり、シナリオデータベース33では、被刺激の自我状態ベクトルに加刺激の自我状態ベクトルが対応付けて登録され、加刺激の自我状態ベクトルに付帯語句が対応付けて登録され、テキストデータd4に含まれることが予測されるキーワードに付加して応答用のキーワードが登録されている。さらに、テキストデータd4に含まれるキーワードのうち利用者からの命令語として解釈されるキーワードには、レシピの検索などの他の作業を行うためのコマンドが対応付けられる。また、応答用のテキストと自我状態ベクトルとから応答用の韻律が決まるから、応答テキスト決定部32では韻律制御用の韻律パラメータも生成する。
The response
応答テキスト決定部32で決定された応答用のテキストと韻律パラメータとは、テキスト合成を行う音声合成処理部17に与えられる。音声合成処理部17では、テキストと韻律パラメータとを用いて応答用の合成音声を生成し、スピーカ43を通して利用者に対する応答音声として出力する。
The response text and prosodic parameters determined by the response
以下では、対話エージェントに料理のレシピを検索させる場合を例として具体的に説明する。本例では利用者が材料を口頭で対話エージェントに伝えると、その材料で作ることができる料理名の候補を検索して複数提示し、提示された候補から利用者が所望の料理名を選択すると、対話エージェントがその料理のレシピを提示するように対話システムを構築しているものとする。料理名およびレシピはディスプレイ44に提示する。また、利用者から対話エージェントに対する指示には、スイッチのような操作部を併用する構成としてもよいが、ここでは利用者からの指示は音声のみによるものとする。対話エージェントが検索するレシピのデータは、対話エージェントに登録しておくか、対話エージェントにウェブ検索の機能を設けておきウェブ検索によって入手させる。あるいはまた、対話エージェントに登録したものを優先的に提示し、登録されているレシピ以外のレシピを利用者が求めるときにウェブ検索でレシピを入手するようにしてもよい。
In the following, a specific example will be described in which a dialogue agent is searched for a cooking recipe. In this example, when the user verbally conveys the material to the dialog agent, the search is made for a plurality of candidate names that can be made from the material, and when the user selects a desired name from the displayed candidates. Assume that the dialogue system is constructed so that the dialogue agent presents the recipe of the dish. The dish name and recipe are presented on the
料理のレシピの検索を対話エージェントに要求する場合の具体例を表7に示す。表7において「自我状態(利)」は利用者の自我状態、「自我状態(エ)」は対話エージェントの自我状態を表す。上述した構成例では、表情サマリデータd1と音声感情データd2と口調データd3とテキストデータd4とを用いて、被刺激の自我状態ベクトルを決定しているが、表7では自我状態推定部20において、表情サマリデータd1と音声感情データd2と口調データd3とを用いて利用者の感情が「平静」「怒り」「喜び」「不明」のいずれかであることがわかり、テキストデータd4によりキーワードおよび付帯語句が得られている場合を想定している。感情と付帯語句とを用いることにより、自我状態推定部20において被刺激の自我状態ベクトルが決まるから、対話制御部30では応答戦略決定部31の対応ルールを用いて加刺激の自我状態ベクトルを決める。加刺激の自我状態ベクトルが決まれば、応答テキスト決定部32において、テキストデータd4のキーワードとあらかじめ登録してある付帯語句とを用いて利用者に応答するテキストおよび応答用の韻律を決めるのである。
Table 7 shows a specific example in a case where the dialogue agent is requested to search for a cooking recipe. In Table 7, “ego state (interest)” represents the user's ego state, and “ego state (d)” represents the ego state of the dialog agent. In the configuration example described above, the ego state vector of the stimulus is determined using the facial expression summary data d1, the voice emotion data d2, the tone data d3, and the text data d4. Using the facial expression summary data d1, the voice emotion data d2, and the tone data d3, it is found that the user's emotion is one of “seduce”, “anger”, “joy”, and “unknown”. It is assumed that incidental phrases are obtained. Since the ego
ところで、対話エージェントには、利用者があらかじめ登録されているか否かを認識することによって、特定の利用者の特徴を利用して認識率を高めたり、利用者の認証を行ったりすることができるユーザ認識部50を設けている。ユーザ認識部50は、図2に示すように、マイクロホン42から入力される利用者の音声の特徴量を利用者データベース51に照合して利用者の候補を抽出する利用者認識処理部52と、カメラ41により撮像される利用者の顔の画像の特徴量を顔画像データベース53に照合して利用者の候補を抽出する顔画像認識処理部54とを備える。ここに、図では便宜上、利用者データベース51と顔画像データベース53とを別に分けて記述しているが、両者を一括してユーザデータベースとすることができる。利用者認識処理部52で抽出した利用者の候補と顔画像認識処理部54で抽出した利用者の候補とは利用者判断部55に入力され、利用者判断部55ではファジー論理などを用いて利用者の候補を組み合わせることにより、利用者を決定するとともに利用者ごとに付与した識別情報を出力する。このように、利用者の音声の特徴量と利用者の顔の画像の特徴量とをユーザデータベースに照合して利用者の候補を抽出するとともに、抽出した利用者の候補を用いて利用者を決定するから、利用者の認識率が高くなる。
By the way, by recognizing whether or not the user is registered in advance, the dialogue agent can use the characteristics of a specific user to increase the recognition rate or perform user authentication. A
ユーザ認識部50から出力される識別情報を対話制御部30で採用するために、シナリオデータベース33には、対話における利用者の好みや利用者の性格などの情報が識別情報に対応付けて格納されており、対話制御部30では、ユーザ認識部50から識別情報が得られるときには、利用者に応じた対応ルールを決定し、その対応ルールを用いて自我状態ベクトルを決定する。この動作を可能とするために、シナリオデータベース33では、利用者の好みや性格に応じた対応ルールを識別情報に対応付けてあり、対話制御部30では、ユーザ認識部50で識別情報が得られるときには識別情報に対応付けた対応ルールを用い、識別情報が得られないときにはデフォルトの対応ルールを用いる。また、利用者の識別情報が得られることによって、対話エージェントが利用者の名前を呼びかけに用いることも可能になる。
In order to employ the identification information output from the
対話エージェントはディスプレイ44に表示された仮想的な身体を用いて身体動作を伴う表現が可能になっており、身体表現を行うことによって親近感のある応答が可能になる。このような仮想的な身体による身体表現を行うために、本実施形態の対話エージェントには、仮想的な身体を表現するためのデータ群を記憶装置に格納した身体モデル表現部18と、対話制御部30で決定した応答内容(テキスト、エージェントの自我状態、刺激する利用者の自我状態)を身体モデル表現部18の身体動作に変換する身体表現制御部19とを設けてある。ここに、身体モデル表現部18の身体動作に変換するとは、身体モデル表現部18に格納されている身体表現のデータ群から、表現に必要なデータ群を抽出するとともに、抽出したデータ群をディスプレイ44に表示された仮想的な身体に適用することを意味する。この処理によって、ディスプレイ44に表示されたエージェントの身振り・手振り(手を挙げる、手を伸ばす、首を振る、頷くなど)を対話エージェントの応答内容に応じて制御することが可能になる。
The dialogue agent can express with a body motion using a virtual body displayed on the
ところで、音声感情推定部14および口調推定部15は、ガウス混合モデルを用いるからあらかじめ学習させる必要がある。以下では、まず口調推定部15の学習方法について説明し、次に音声感情推定部14の学習方法について説明する。口調推定部15の学習にあたっては、表1に示した20種類の口調の音声をデータとして収集する必要がある。そこで、本発明者らは、まずサーチエンジンを用いWebからテキストを収集した。テキストの収集には、〔」〕と活用形とを組み合わせた検索文を用いた。たとえば、「命令」口調であれば、検索文として〔」と命令した〕を用いると、〔「前へ出ろ」と命令した〕というようなテキストが抽出される。この場合、「前へ出ろ」を「命令」口調のテキストとして利用することができる。このようにして抽出されたテキストを自動整形し、不適切な表現が含まれる文は手作業で取り除いた。また、口調によってはWebでは十分な数の文例を収集できない場合があったから、50文以上収集できた口調について学習に用いた。表1の口調は50文以上収集できた口調である。なお、各口調を識別するために口調データd3は表1における自我状態と数値との組合せを用いた(表4参照)。たとえば、「命令」口調は口調データd3を「CP1」とし、「慰める」口調は口調データd3を「NP2」とした。
By the way, since the voice
各口調のテキストの収集後に、簡易防音室において、俳優にテキストを読み上げてもらい、その際に顔の表情についても演技してもらった。俳優は父親役(男性2名)、母親役(女性2名)、子供役(女性2名)の合計6名で、表1の20種類の口調について30文ずつのテキストを読み上げてもらった。また、口調付きの30文とは異なる5文ずつのテキストを口調をつけずに読み上げてもらった。音響分析時のパラメータは表2に示した通りである。 After collecting the texts of each tone, the actors read the texts in the simple soundproof room, and they also acted on the facial expressions. There were 6 actors in total, including a father role (2 men), a mother role (2 women), and a child role (2 women). In addition, 5 texts, which are different from 30 sentences with tone, were read aloud without tone. The parameters at the time of acoustic analysis are as shown in Table 2.
上述の方法で口調推定部15の学習を行った後に、評価用音声により口調を識別する能力を実験した。6名の俳優にそれぞれ5文を発生してもらい、口調推定部15で口調が正しく識別された割合を全俳優について平均した。実験結果では、口調付きの音声に対して口調を正しく認識できた割合は49.5%であり、口調なしの音声について口調がないと認識できた割合は90%であった。なお、口調データd3がCP2、FC1、AC1、AC3、AC4である口調は高い割合で識別でき、CP4、NP3である口調は識別できた割合がやや低かった。
After learning the
音声感情推定部14の学習には、口調推定部15の学習と同様に、6人の俳優にテキストを読み上げてもらった。上述したように、音声感情推定部14において識別する利用者の感情は「喜び」「怒り」「平静」の3種類であり、「喜び」は表1における「FC1」、「怒り」は表1における「FC2」、「平静」は表1におけるA1〜A4に相当すると考え、口調推定部15と同じテキストを用いて音声感情推定部14の学習を行った。
In the learning of the voice
学習後の音声感情推定部14について、評価用音声により感情を識別する能力を実験した。「平静」を識別する評価用音声には、「喜び」に対応するテキストを口調なしで読み上げた音声と、「怒り」に対応するテキストを口調なしで読み上げた音声とを用いた。評価したテキストの数は、「喜び」と「怒り」については6人の俳優それぞれで5文ずつとし、合計30文を用い、また、「平静」については6人の俳優それぞれで10文ずつとし、合計60文を用いた。音声感情推定部14による識別結果を表8に示す。いずれの場合も高い確度で識別することができ、平均では85.6%の識別性能が得られた。
The voice
(実施形態2)
本実施形態は、ユーザ認識部50により利用者を特定できることを利用して利用者ごとに自我状態の履歴を記録し、利用者の自我状態の履歴を用いて利用者の性格を推定することにより利用者の性格に合わせた応答を可能とするものである。
(Embodiment 2)
This embodiment records the ego state history for each user using the fact that the
本実施形態では、図4に示すように、自我状態推定部20が推定した利用者の自我状態をユーザ認識部50において特定した利用者に対応付けて蓄積して記憶する自我状態履歴記憶部61と、自我状態履歴記憶部61に記憶した利用者の自我状態の出現頻度の分布パターンから利用者の性格を推定する自我状態特徴抽出部62と、自我状態特徴抽出部62により推定した性格を利用者に対応付けて記憶する自我状態特徴記憶部63とを付加している。自我状態履歴記憶部61では利用者の自我状態を時系列で履歴として記憶するとともに各自我状態の出現頻度を記憶している。
In the present embodiment, as shown in FIG. 4, an ego state
自我状態特徴抽出部62では、自我状態の出現頻度の分布パターンと性格とを対応付けて登録してある自我状態特徴データベース64とを照合し、一致度の高い性格を利用者の性格として推定する。すなわち、自我状態特徴データベース64には、交流分析における5種類の自我状態の出現頻度の分布パターン(出現頻度を正規化した分布パターン)が性格に対応付けて登録してあり、自我状態履歴記憶部61に記憶した利用者ごとの自我状態の出現頻度の分布パターンが、自我状態特徴データベース64に登録されている分布パターンと照合される。この照合はパターンマッチングであって類似度の高いものが選択され、選択された性格が利用者の性格と推定される。
The ego state
自我状態特徴データベース64では、たとえば、自我状態としてNP,FCが低く、CP,ACが高い場合には、「自分を表現することができにくく、鬱になりやすい性格」「不登校タイプの性格」「責任感、現実検討能力、協調性は十分持っているが、思いやりに欠ける性格」などの性格が対応付けられる。自我状態特徴抽出部62での性格の推定結果は利用者と対応付けて自我状態特徴記憶部63に記憶される。
In the ego state
ところで、自我状態特徴記憶部63に利用者の性格が記憶されているときには、当該利用者との対話を行う際に、対話制御部30では自我状態特徴記憶部63から利用者の性格を取得する。シナリオデータベース33には利用者の識別情報に対応付けて対応ルールが登録されているから、対話制御部30においてシナリオデータベース33から利用者の性格に応じた対応ルールを選択することができ、結果的に利用者の性格に応じたスムーズな対話が可能になる。
By the way, when the personality of the user is stored in the ego state
また、本実施形態の対話エージェントを看護ロボットなどに用いる場合に、利用者の性格を推定することによって、対話エージェントをセラピストのように機能させることが可能になる。たとえば、利用者の性格が悲観的あるいは自虐的な傾向であるときに、利用者の心理状態を向上させるような応答を行うことが可能になる。いま、自我状態の出現頻度のうちNP,FCが低く、CP,ACが高い場合には上述したように、鬱傾向があることが知られている。そこで、一般の利用者では対話エージェントと利用者との間で以下に〔1〕で示す対話を行うとすれば、自我状態の出現頻度のうちNP,FCが低く、CP,ACが高い利用者では以下に〔2〕で示すように肯定的な表現を用いて利用者を励まし、利用者の心理状態を向上させる対話が可能になる。
〔1〕
対話エージェント:お薬の時間ですよ。
利用者:もうわかったよ。
対話エージェント:では、よろしくお願いしますね。
〔2〕
対話エージェント:お薬の時間ですよ。
利用者:もうわかったよ。
対話エージェント:これで良くなりますから、元気を出してください。もう少しですから。
Further, when the dialog agent of the present embodiment is used for a nursing robot or the like, it is possible to make the dialog agent function like a therapist by estimating the personality of the user. For example, when the user's personality tends to be pessimistic or masochistic, it becomes possible to make a response that improves the user's psychological state. Now, it is known that when the NP and FC are low and the CP and AC are high in the appearance frequency of the ego state, as described above, there is a depression tendency. Therefore, if a general user performs the dialogue shown in [1] below between the dialogue agent and the user, the NP and FC are low in the frequency of appearance of the ego state, and the CP and AC are high. Then, as shown in [2] below, a positive expression is used to encourage the user and a dialogue that improves the user's psychological state becomes possible.
[1]
Dialogue agent: It's time for medicine.
User: I already know.
Dialogue Agent: Well thank you.
[2]
Dialogue agent: It's time for medicine.
User: I already know.
Dialogue Agent: This will help you, so please do well. Because it is a little more.
なお、上述のように、自我状態履歴記憶部61には利用者ごとの自我状態の履歴(自我状態の出現頻度を含む)が記憶されており、また自我状態特徴記憶部63には利用者ごとの性格の推定結果が記憶されているから、利用者がカウンセリングを受ける際にはカウンセラにこれらのデータを提供することによって、カウンセリングの参考に用いることが可能になる。他の構成および機能は実施形態1と同様である。
As described above, the ego state
(実施形態3)
上述した各実施形態では利用者が1人である場合を例示したが、本実施形態は2人の利用者が存在し対話エージェントを含めて3者での対話を行うことを可能とする構成について説明する。本実施形態では、図5に示すように、カメラ41により撮像された画像に含まれる人物の視線の向きを監視し、視線の向きによって対話相手を認識する対話相手認識部65と、利用者、対話の時間、対話相手、テキスト、自我状態ベクトルからなる対話データを蓄積する対話記録部66とを付加している。利用者および発話時はユーザ認識部50により取得でき、対話相手は対話相手認識部65から取得でき、発話のテキストおよび利用者と対話相手との自我状態は対話制御部30から取得することができる。なお、本実施形態では、カメラ41として利用者の目の位置および瞳の位置を監視できる程度の解像度のものを用いることが必要である。
(Embodiment 3)
In each of the above-described embodiments, the case where there is one user is exemplified. However, in the present embodiment, there are two users and a configuration that enables a three-party dialogue including a dialogue agent is possible. explain. In the present embodiment, as shown in FIG. 5, a conversation
また、ユーザ認識部50では、カメラ41で撮像された画像から顔画像認識処理部54が2人の利用者を認識したときに、対話制御部30、感情認識部13、自我状態推定部20、対話相手認識部65に通知することによって、2人の利用者が存在する対話を行う動作に切り換える。その後、ユーザ認識部50では、マイクロホン42から入力される利用者の音声を用いて利用者認識処理部52において発話した利用者を特定し、対話制御部30、感情認識部13、自我状態推定部20、対話相手認識部65に対して認識した利用者を通知する。要するに、本実施形態ではカメラ41で撮像された画像を、利用者の人数と利用者の対話相手との特定に用い、マイクロホン42から入力される音声により発話した利用者の感情を推定し、発話した利用者と対話相手との自我状態ベクトルを推定する。自我状態推定部20で推定された自我状態ベクトルと、テキスト抽出部16で得られたテキストデータd4とは、対話制御部30に与えられ、対話制御部30では上述した対話データを対話記録部66に記録する。
Moreover, in the
本実施形態におけるシナリオデータベース33には3者間の対話シナリオが上述した各実施形態のような2者間での対話シナリオとは別に格納されており、対話相手認識部65から2人の利用者が存在することが対話制御部30に通知されると、対話制御部30ではシナリオデータベース33から3者間の対話シナリオを選択する。3者間の対話シナリオでは、対話相手が対話エージェントを含むときにのみ対話エージェントが発話するように設定され、利用者同士の対話では対話エージェントから発話しないように設定される。つまり、対話制御部30は、テキスト抽出部16が抽出した発話のテキストと、対話相手認識部65が認識した対話相手と、自我状態推定部20が推定した自我状態とを用い(対話記録部66に対話データとして記録されている)、対話エージェントが発話すべきか否かを判断する。対話エージェントが発話しないときにはカメラ41で撮像した画像から利用者の人数を確認する処理に戻り、対話エージェントが発話するときには上述した各実施形態と同様に音声合成処理部17および身体表現制御部19を通して身体表現を伴う発話を行う。
In the
本実施形態を用いた対話シナリオの一例を以下に示す。以下に示す例は、対話エージェントが看護ロボットに設けられており、被看護人と来訪者との2人の利用者が存在する場合を例示している。また、〔1〕は対話エージェントが発話しない場合であり、〔2〕は対話エージェントが発話する場合である。
〔1〕
被看護人→来訪者(FCa→FCa):学校では変わったことはない?
来訪者→被看護人(FCa→FCa):いつも通りだよ。
〔2〕
被看護人→来訪者(FCa→NP):しんどいよ。
来訪者→被看護人(NP→FCa):もうすぐ良くなるよ。
看護ロボット→被看護人(NP→FCa):そうですよ、がんばってください。
An example of a dialogue scenario using this embodiment is shown below. In the following example, a dialogue agent is provided in a nursing robot, and there are two users, a nursing person and a visitor. [1] is a case where the dialog agent does not speak, and [2] is a case where the dialog agent speaks.
[1]
Nurse → Visitor (FCa → FCa): Have you ever changed in school?
Visitors → Nurses (FCa → FCa): As usual.
[2]
Nurse → visitor (FCa → NP): It ’s hard.
Visitors → Nurses (NP → FCa): It will soon improve.
Nursing robot-> nurse (NP-> FCa): Yes, please do your best.
上述したように、本実施形態の構成によれば、利用者が複数人存在する場合でも対話が可能になり、たとえば看護ロボットに対話エージェントを設けている場合に、被看護人と来訪者や見舞客と看護ロボットとの3者での対話が可能になる。ここに、対話制御部30において対話記録部66の対話データを参照しているのは、対話エージェントの応答が要求されているか否かを判断するためであって、対話相手が対話エージェントを含む場合にのみ対話エージェントによる発話を行うことになる。
As described above, according to the configuration of the present embodiment, even when there are a plurality of users, a conversation is possible. For example, when a dialogue agent is provided in a nursing robot, A dialogue between the customer and the nursing robot is possible. Here, the
なお、本実施形態では2人の利用者と対話エージェントとの3者による対話を例示したが、本実施形態の技術を3人以上の利用者に拡張することによって、さらに多人数での対話も可能である。他の構成および動作は実施形態1と同様である。 In this embodiment, a three-way dialogue between two users and a dialogue agent is illustrated. However, by extending the technology of this embodiment to three or more users, a dialogue with a larger number of people can be performed. Is possible. Other configurations and operations are the same as those of the first embodiment.
(実施形態4)
本実施形態は利用者の覚醒度を判断することによって、対話エージェントが応答する際の合成音声の速度を調節するものである。つまり、利用者の覚醒度が低いときには、速いテンポで応答すると応答内容を利用者が聞き取れない場合があり、逆に利用者の覚醒度が高いときには、遅いテンポで応答すると利用者がいらだつ場合があるから、利用者の覚醒度を判断するとともに、利用者の覚醒度に応じてスピーカ43から出力する合成音声の速度を調節している。
(Embodiment 4)
In this embodiment, the speed of the synthesized speech when the dialogue agent responds is adjusted by judging the user's arousal level. In other words, when the user's arousal level is low, if the user responds at a fast tempo, the response may not be heard by the user. Therefore, the user's arousal level is determined, and the speed of the synthesized voice output from the
本実施形態では、利用者の覚醒度の判断に皮膚電位水準(SPL)を用いる。皮膚電位水準を求めるために、図6に示すように、利用者の手のひらや足の裏のように精神状態による発汗量の変化が生じやすい部位に接触可能な電極71(電極71は一対ある)を設けてあり、電極71は電位計測部72に接続され電位計測部72では一対の電極71の電位差を計測する。電極71が利用者に装着されていると利用者は煩わしく感じる可能性があるから、たとえば対話エージェントを看護ロボットに組み込むような場合には、利用者との握手などの行為によって利用者が電極71に触れるようにするのが望ましい。電位計測部72により計測された電位差は覚醒度判断部70に入力され、覚醒度判断部70では電位差を覚醒度に変換する。一般に、電位差(SPL)が大きいほど覚醒度が高いから、適宜に設定した閾値に対して電位差が大きければ覚醒度判断部70において利用者の覚醒度が高いと判断する。なお、本実施形態では利用者の覚醒度を高低2段階で判断しているが、覚醒度を多段階で判断してもよい。ところで、電位計測部72で計測される電位差は利用者によって個人差があるから、ユーザ認識部50により認識した利用者に対応付けて電位計測部72での検出結果を記憶して蓄積しておき、利用者別の蓄積結果の平均値を上述の閾値に用いるようにすればよい。
In the present embodiment, the skin potential level (SPL) is used to determine the user's arousal level. In order to obtain the skin potential level, as shown in FIG. 6, an electrode 71 (a pair of electrodes 71) can be contacted with a site where the amount of sweating is likely to change due to mental state, such as the palm of a user or the sole of a foot. The electrode 71 is connected to the
上述のようにして覚醒度判断部70において求めた利用者の覚醒度は対話制御部30に与えられ、対話制御部30では利用者の覚醒度が低い(SPLが閾値より低い)ときには、合成音声による応答の速度が比較的遅いテンポになるように、音声合成処理部17で生成する合成音声の出力速度を調節する。このように覚醒度の低い利用者に対して遅いテンポで応答することにより、テキストの内容を聞き取りやすくすることができる。一方、利用者の覚醒度が高い(SPLが閾値より高い)ときには、やや速いテンポで応答することで利用者の覚醒度を保ち、利用者が応答の遅さにいらだつことがないようにする。すなわち、利用者の覚醒度に応じて合成音声の速度を調節し、利用者の覚醒度が低ければ遅いテンポで応答することにより応答内容を利用者に聞き取りやすくし、逆に利用者の覚醒度が高ければ速いテンポで応答することにより利用者を待たせることなく応答することが可能になる。他の構成および動作は実施形態1と同様である。
The user's arousal level obtained by the arousal
(実施形態5)
本実施形態は、利用者の生体情報を検出することによって対話エージェントが推定した自我状態が対話に適切であったか否かを判断するものである。すなわち、利用者と対話エージェントとが対話する際には自我状態推定部20において利用者の発話に基づいて利用者の自我状態と対話エージェントにおいて刺激される自我状態とを推定している。一般的には、推定した自我状態を用いて相補的交流を行えばスムーズな対話が可能になる。ここでスムーズな対話とは、利用者が感情を害することなく対話することを意味する。一方、相補的交流ではなく自我状態の交差が生じるような交流では、利用者は感情を害して対話がスムーズに進行しなくなる可能性がある。
(Embodiment 5)
In the present embodiment, it is determined whether or not the ego state estimated by the dialogue agent is appropriate for the dialogue by detecting the biological information of the user. That is, when the user and the dialogue agent interact, the ego
そこで、本実施形態では、利用者の感情を判断するために、利用者の瞬時心拍率(1分間の心拍数)を用いている。一般に瞬時心拍率は、怒り、ストレス、恐怖などの防衛的あるいは攻撃的な感情が生じると上昇し、落ち着いているときには低下することが知られている。本実施形態では、このような生理現象を利用して対話中の利用者の瞬時心拍率を求め、瞬時心拍率の変動を監視することによって、利用者に防衛的ないし攻撃的な感情が生じていないか否かを判断している。瞬時心拍率の検出にはECGを用いており、実施形態4と同様に電極73(電極73は一対ある)を設けている。電極73は利用者の胸部あるいは四肢に装着される。
Therefore, in the present embodiment, the user's instantaneous heart rate (1 minute heart rate) is used to determine the user's emotions. In general, it is known that the instantaneous heart rate increases when a defensive or aggressive emotion such as anger, stress, and fear occurs, and decreases when it is calm. In this embodiment, by using such a physiological phenomenon, the instantaneous heart rate of the user during the conversation is obtained, and the fluctuation of the instantaneous heart rate is monitored, so that the user has a defensive or aggressive feeling. Judging whether or not there is. ECG is used to detect the instantaneous heart rate, and electrodes 73 (a pair of
図7に示すように、電極73はECG計測部74に接続され、一対の電極73により検出される電位差がECG計測部74において検出される。ECG計測部74では、たとえば図8に示すような電位変化が検出される。この電位変化は、心臓における心房の興奮を示すP波と、心室の脱分極を示すQRSと、心室の細分極を示すT波とを含む。ここで、R−Rの間隔は心臓交換神経と心臓副交感神経との拮抗支配を受けており、R−R間隔を1分当たりの心拍数に換算することで瞬時心拍率を求めることができる。そこで、図8に示すようなECG計測部74の出力を瞬時心拍率検出部75に入力し、R−R間隔を求めることによって瞬時心拍率を求める。すなわち、電極73とECG計測部74と瞬時心拍率検出部75とにより生体情報計測手段が構成される。利用者が防衛的ないし攻撃的な感情を持つと、瞬時心拍率が常時よりも上昇するから、適否判断部76では瞬時心拍率検出部75で求めた瞬時心拍率を適宜の閾値と比較することにより、利用者の感情が防衛的ないし攻撃的であるか否かを判断する。つまり、適否判断部76は自我状態推定部20が推定した自我状態が適切であったか否かを判断することになる。適否判断部76では、瞬時心拍率が閾値よりも低いときには自我状態推定部20で推定した利用者の自我状態および対話エージェントの刺激された自我状態が適切であったと判断し、瞬時心拍率が閾値以上であるときには自我状態推定部20の推定結果が適切でなかったと判断する。
As shown in FIG. 7, the
なお、図7に破線で示すように、適否判断部76による判断結果を自我状態推定部20にフィードバックして自我状態推定部20の学習に用いれば、推定した自我状態の尤度を高めることができ、結果的に対話エージェントの応答によって利用者の感情を害する可能性が低減されスムーズな対話が可能になる。すなわち、自我状態推定部20で推定した自我状態ベクトルが利用者の感情を害していないか否かを適否判断部76において判断することができるから、適否判断部76の判断結果を自我状態ベクトルの推定結果にフィードバックすることにより、利用者の感情を害することのない適正な自我状態ベクトルの推定が可能になる。瞬時心拍率の検出には電極73に変えて血流を監視する光学式のセンサを用いてもよい(この種のセンサは種々運動機械における心拍計に用いられている)。他の構成および動作は実施形態1と同様である。
Note that, as indicated by a broken line in FIG. 7, if the determination result of the
10 対話処理手段
11 表情推定部
13 顔感情推定部
14 音声感情推定部
15 口調推定部
16 テキスト抽出部
17 音声合成処理部
18 身体モデル表現部
19 身体表現制御部
20 自我状態推定部
21 感情スコア割当部
22 口調スコア割当部
23 テキストスコア割当部
24 スコア統合演算部
30 対話制御部
41 カメラ(画像入力手段)
42 マイクロホン(音声入力手段)
43 スピーカ(音声出力手段)
44 ディスプレイ(画像出力手段)
50 ユーザ認識部
51 利用者データベース
52 利用者認識処理部
53 顔画像データベース
54 顔画像認識処理部
55 利用者判断部
61 自我状態履歴記憶部
62 自我状態特徴抽出部
63 自我状態特徴記憶部
65 対話相手認識部
66 対話記録部
70 覚醒度判断部
73 電極
74 ECG計測部
75 瞬時心拍率検出部
76 適否判断部
DESCRIPTION OF
42 Microphone (voice input means)
43 Speaker (Audio output means)
44 Display (image output means)
DESCRIPTION OF
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004254794A JP2006071936A (en) | 2004-09-01 | 2004-09-01 | Dialogue agent |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004254794A JP2006071936A (en) | 2004-09-01 | 2004-09-01 | Dialogue agent |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006071936A true JP2006071936A (en) | 2006-03-16 |
Family
ID=36152661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004254794A Withdrawn JP2006071936A (en) | 2004-09-01 | 2004-09-01 | Dialogue agent |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006071936A (en) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007286377A (en) * | 2006-04-18 | 2007-11-01 | Nippon Telegr & Teleph Corp <Ntt> | Answer evaluating device and method thereof, and program and recording medium therefor |
WO2007148493A1 (en) * | 2006-06-23 | 2007-12-27 | Panasonic Corporation | Emotion recognizer |
JP2009025658A (en) * | 2007-07-20 | 2009-02-05 | Oki Electric Ind Co Ltd | Speech synthesizer and speech synthesis system |
JP2010129033A (en) * | 2008-12-01 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Interactive mental state learning device and method thereof, interactive control device and method thereof, program and recording medium |
JP2010186237A (en) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Thought-evoking multi-party dialogue device, thought-evoking multi-party dialogue method, thought-evoking multi-party dialogue program, and computer-readable recording medium with the program recorded thereon |
WO2011037221A1 (en) * | 2009-09-28 | 2011-03-31 | シャープ株式会社 | Menu determination support device, menu determination support program, and storage medium in which menu determination support program is stored |
KR101317047B1 (en) * | 2012-07-23 | 2013-10-11 | 충남대학교산학협력단 | Emotion recognition appatus using facial expression and method for controlling thereof |
WO2014073612A1 (en) * | 2012-11-08 | 2014-05-15 | 日本電気株式会社 | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
WO2014073613A1 (en) * | 2012-11-08 | 2014-05-15 | 日本電気株式会社 | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
US8983843B2 (en) | 2012-01-12 | 2015-03-17 | Fuji Xerox Co., Ltd. | Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition |
US9129611B2 (en) | 2011-12-28 | 2015-09-08 | Fuji Xerox Co., Ltd. | Voice analyzer and voice analysis system |
JP2015176058A (en) * | 2014-03-17 | 2015-10-05 | 株式会社東芝 | Electronic apparatus and method and program |
US9153244B2 (en) | 2011-12-26 | 2015-10-06 | Fuji Xerox Co., Ltd. | Voice analyzer |
JP2015230455A (en) * | 2014-06-06 | 2015-12-21 | 日本電信電話株式会社 | Voice classification device, voice classification method, and program |
WO2016129192A1 (en) * | 2015-02-13 | 2016-08-18 | オムロン株式会社 | Emotion estimation device and emotion estimation method |
JP2017121680A (en) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | Utterance control system, utterance control apparatus, and utterance control program |
JP6243072B1 (en) * | 2017-04-06 | 2017-12-06 | 株式会社 ディー・エヌ・エー | Input / output system, input / output program, information processing device, chat system |
CN108154381A (en) * | 2016-12-06 | 2018-06-12 | 松下知识产权经营株式会社 | Motion candidate suggestion device and motion candidate's reminding method |
JPWO2018016432A1 (en) * | 2016-07-21 | 2018-07-19 | パナソニックIpマネジメント株式会社 | Sound reproduction apparatus and sound reproduction system |
WO2018169000A1 (en) * | 2017-03-16 | 2018-09-20 | 国立研究開発法人情報通信研究機構 | Interactive system and computer program therefor |
KR101925440B1 (en) * | 2018-04-23 | 2018-12-05 | 이정도 | Method for providing vr based live video chat service using conversational ai |
JP2019101064A (en) * | 2017-11-28 | 2019-06-24 | トヨタ自動車株式会社 | Response sentence generation device, method, program and voice interactive system |
US10452982B2 (en) | 2016-10-24 | 2019-10-22 | Fuji Xerox Co., Ltd. | Emotion estimating system |
WO2020049687A1 (en) * | 2018-09-06 | 2020-03-12 | 日本電気株式会社 | Voice processing device, voice processing method, and program storage medium |
JP2020126392A (en) * | 2019-02-04 | 2020-08-20 | ヤフー株式会社 | Selection device, selection method, and selection program |
WO2020174680A1 (en) | 2019-02-28 | 2020-09-03 | 日本電気株式会社 | Emotion estimation device, emotion estimation method, and computer-readable recording medium |
JP2020187262A (en) * | 2019-05-15 | 2020-11-19 | 株式会社Nttドコモ | Emotion estimation device, emotion estimation system, and emotion estimation method |
JP2020197945A (en) * | 2019-06-03 | 2020-12-10 | 東芝テック株式会社 | Search device and program |
WO2021131065A1 (en) * | 2019-12-27 | 2021-07-01 | Umee Technologies株式会社 | System, method and program for determining recommendation item and generating personality model, and recording medium on which program is recorded |
US11107464B2 (en) * | 2018-12-03 | 2021-08-31 | Honda Motor Co., Ltd. | Feeling estimation device, feeling estimation method, and storage medium |
WO2021192991A1 (en) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
WO2022169289A3 (en) * | 2021-02-05 | 2022-10-06 | 옥재윤 | Artificial intelligence-based virtual reality service system and method |
WO2024111065A1 (en) * | 2022-11-22 | 2024-05-30 | 日本電信電話株式会社 | Depression symptoms estimation device, depression symptoms learning device, depression symptoms estimation method, depression symptoms learning method and program |
-
2004
- 2004-09-01 JP JP2004254794A patent/JP2006071936A/en not_active Withdrawn
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4728868B2 (en) * | 2006-04-18 | 2011-07-20 | 日本電信電話株式会社 | Response evaluation apparatus, method, program, and recording medium |
JP2007286377A (en) * | 2006-04-18 | 2007-11-01 | Nippon Telegr & Teleph Corp <Ntt> | Answer evaluating device and method thereof, and program and recording medium therefor |
WO2007148493A1 (en) * | 2006-06-23 | 2007-12-27 | Panasonic Corporation | Emotion recognizer |
US8204747B2 (en) | 2006-06-23 | 2012-06-19 | Panasonic Corporation | Emotion recognition apparatus |
JP2009025658A (en) * | 2007-07-20 | 2009-02-05 | Oki Electric Ind Co Ltd | Speech synthesizer and speech synthesis system |
JP2010129033A (en) * | 2008-12-01 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Interactive mental state learning device and method thereof, interactive control device and method thereof, program and recording medium |
JP2010186237A (en) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Thought-evoking multi-party dialogue device, thought-evoking multi-party dialogue method, thought-evoking multi-party dialogue program, and computer-readable recording medium with the program recorded thereon |
WO2011037221A1 (en) * | 2009-09-28 | 2011-03-31 | シャープ株式会社 | Menu determination support device, menu determination support program, and storage medium in which menu determination support program is stored |
US9153244B2 (en) | 2011-12-26 | 2015-10-06 | Fuji Xerox Co., Ltd. | Voice analyzer |
US9129611B2 (en) | 2011-12-28 | 2015-09-08 | Fuji Xerox Co., Ltd. | Voice analyzer and voice analysis system |
US8983843B2 (en) | 2012-01-12 | 2015-03-17 | Fuji Xerox Co., Ltd. | Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition |
KR101317047B1 (en) * | 2012-07-23 | 2013-10-11 | 충남대학교산학협력단 | Emotion recognition appatus using facial expression and method for controlling thereof |
WO2014073613A1 (en) * | 2012-11-08 | 2014-05-15 | 日本電気株式会社 | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
WO2014073612A1 (en) * | 2012-11-08 | 2014-05-15 | 日本電気株式会社 | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
US9570064B2 (en) | 2012-11-08 | 2017-02-14 | Nec Corporation | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
US9679553B2 (en) | 2012-11-08 | 2017-06-13 | Nec Corporation | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
JP2015176058A (en) * | 2014-03-17 | 2015-10-05 | 株式会社東芝 | Electronic apparatus and method and program |
JP2015230455A (en) * | 2014-06-06 | 2015-12-21 | 日本電信電話株式会社 | Voice classification device, voice classification method, and program |
WO2016129192A1 (en) * | 2015-02-13 | 2016-08-18 | オムロン株式会社 | Emotion estimation device and emotion estimation method |
JP2016149063A (en) * | 2015-02-13 | 2016-08-18 | オムロン株式会社 | Emotion estimation system and emotion estimation method |
US20170311863A1 (en) * | 2015-02-13 | 2017-11-02 | Omron Corporation | Emotion estimation device and emotion estimation method |
JP2017121680A (en) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | Utterance control system, utterance control apparatus, and utterance control program |
JPWO2018016432A1 (en) * | 2016-07-21 | 2018-07-19 | パナソニックIpマネジメント株式会社 | Sound reproduction apparatus and sound reproduction system |
JP2018198062A (en) * | 2016-07-21 | 2018-12-13 | パナソニックIpマネジメント株式会社 | Acoustic reproduction device and acoustic reproduction system |
US10452982B2 (en) | 2016-10-24 | 2019-10-22 | Fuji Xerox Co., Ltd. | Emotion estimating system |
CN108154381A (en) * | 2016-12-06 | 2018-06-12 | 松下知识产权经营株式会社 | Motion candidate suggestion device and motion candidate's reminding method |
US11113335B2 (en) | 2017-03-16 | 2021-09-07 | National Institute Of Information And Communications Technology | Dialogue system and computer program therefor |
JP2018156273A (en) * | 2017-03-16 | 2018-10-04 | 国立研究開発法人情報通信研究機構 | Dialog system and computer program therefor |
WO2018169000A1 (en) * | 2017-03-16 | 2018-09-20 | 国立研究開発法人情報通信研究機構 | Interactive system and computer program therefor |
JP2018180720A (en) * | 2017-04-06 | 2018-11-15 | 株式会社 ディー・エヌ・エー | Input and output system, input and output program, information processing device and chat system |
JP6243072B1 (en) * | 2017-04-06 | 2017-12-06 | 株式会社 ディー・エヌ・エー | Input / output system, input / output program, information processing device, chat system |
JP2019101064A (en) * | 2017-11-28 | 2019-06-24 | トヨタ自動車株式会社 | Response sentence generation device, method, program and voice interactive system |
KR101925440B1 (en) * | 2018-04-23 | 2018-12-05 | 이정도 | Method for providing vr based live video chat service using conversational ai |
WO2020049687A1 (en) * | 2018-09-06 | 2020-03-12 | 日本電気株式会社 | Voice processing device, voice processing method, and program storage medium |
JPWO2020049687A1 (en) * | 2018-09-06 | 2021-08-12 | 日本電気株式会社 | Speech processing equipment, audio processing methods, and programs |
US11107464B2 (en) * | 2018-12-03 | 2021-08-31 | Honda Motor Co., Ltd. | Feeling estimation device, feeling estimation method, and storage medium |
JP2020126392A (en) * | 2019-02-04 | 2020-08-20 | ヤフー株式会社 | Selection device, selection method, and selection program |
JP7041639B2 (en) | 2019-02-04 | 2022-03-24 | ヤフー株式会社 | Selection device, selection method and selection program |
US11984136B2 (en) | 2019-02-28 | 2024-05-14 | Nec Corporation | Emotion estimation apparatus, emotion estimation method, and computer readable recording medium |
WO2020174680A1 (en) | 2019-02-28 | 2020-09-03 | 日本電気株式会社 | Emotion estimation device, emotion estimation method, and computer-readable recording medium |
JP2020187262A (en) * | 2019-05-15 | 2020-11-19 | 株式会社Nttドコモ | Emotion estimation device, emotion estimation system, and emotion estimation method |
JP2020197945A (en) * | 2019-06-03 | 2020-12-10 | 東芝テック株式会社 | Search device and program |
WO2021131065A1 (en) * | 2019-12-27 | 2021-07-01 | Umee Technologies株式会社 | System, method and program for determining recommendation item and generating personality model, and recording medium on which program is recorded |
JP7072967B2 (en) | 2019-12-27 | 2022-05-23 | Umee Technologies株式会社 | Systems, methods, programs for determining recommended items and generating personality models, and recording media on which the programs are recorded. |
JPWO2021131065A1 (en) * | 2019-12-27 | 2021-07-01 | ||
WO2021192991A1 (en) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
WO2022169289A3 (en) * | 2021-02-05 | 2022-10-06 | 옥재윤 | Artificial intelligence-based virtual reality service system and method |
WO2024111065A1 (en) * | 2022-11-22 | 2024-05-30 | 日本電信電話株式会社 | Depression symptoms estimation device, depression symptoms learning device, depression symptoms estimation method, depression symptoms learning method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006071936A (en) | Dialogue agent | |
JP2004310034A (en) | Interactive agent system | |
EP3701529B1 (en) | System and method for assessing physiological state | |
Narayanan et al. | Behavioral signal processing: Deriving human behavioral informatics from speech and language | |
US9031293B2 (en) | Multi-modal sensor based emotion recognition and emotional interface | |
Kim | Bimodal emotion recognition using speech and physiological changes | |
Drahota et al. | The vocal communication of different kinds of smile | |
Cosentino et al. | Quantitative laughter detection, measurement, and classification—A critical survey | |
Guohou et al. | What reveals about depression level? The role of multimodal features at the level of interview questions | |
US9934426B2 (en) | System and method for inspecting emotion recognition capability using multisensory information, and system and method for training emotion recognition using multisensory information | |
Kim et al. | Emotion recognition using physiological and speech signal in short-term observation | |
JP5294315B2 (en) | Dialogue activation robot | |
WO2014045257A1 (en) | System and method for determining a person's breathing | |
JP2007296169A (en) | Mental condition judging apparatus, and program | |
CN116807476B (en) | Multi-mode psychological health assessment system and method based on interface type emotion interaction | |
US12105876B2 (en) | System and method for using gestures and expressions for controlling speech applications | |
Vojtech et al. | Surface electromyography–based recognition, synthesis, and perception of prosodic subvocal speech | |
Smith et al. | Analysis and prediction of heart rate using speech features from natural speech | |
CN118098587A (en) | AI suicide risk analysis method and system based on digital doctor | |
Cowie et al. | Piecing together the emotion jigsaw | |
JP7021488B2 (en) | Information processing equipment and programs | |
JP6712028B1 (en) | Cognitive function determination device, cognitive function determination system and computer program | |
Axelrod et al. | Affectemes and allaffects: a novel approach to coding user emotional expression during interactive experiences | |
Begum et al. | Survey on Artificial Intelligence-based Depression Detection using Clinical Interview Data | |
WO2020175969A1 (en) | Emotion recognition apparatus and emotion recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071106 |