JP7218816B2

JP7218816B2 - 対話方法、対話システム、対話装置、およびプログラム

Info

Publication number: JP7218816B2
Application number: JP2021550888A
Authority: JP
Inventors: 弘晃杉山; 宏美成松; 雅博水上; 庸浩有本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-10-03
Filing date: 2019-10-03
Publication date: 2023-02-07
Anticipated expiration: 2039-10-03
Also published as: WO2021064948A1; JPWO2021064948A1; US20220351727A1

Description

特許法第３０条第２項適用ウェブサイトの掲載日：２０１８年１０月１５日，アドレス：ｈｔｔｐｓ：／／ｊｓａｉ．ｉｘｓｑ．ｎｉｉ．ａｃ．ｊｐ／ｅｊ／ｉｎｄｅｘ．ｐｈｐ？ｐａｇｅ＿ｉｄ＝０

特許法第３０条第２項適用開催期間：２０１８年１１月２０日～２１日（公知日：２０１８年１１月２１日），集会名：第９回対話システムシンポジウム，開催場所：早稲田大学西早稲田キャンパス５５号館大会議室（東京都新宿区大久保３－４－１）

特許法第３０条第２項適用展示日：２０１９年５月２７日（公知日：２０１９年５月２７日）、展示会名：ＮＴＴコミュニケーション科学基礎研究所オープンハウス２０１９内覧会、開催場所：ＮＴＴ京阪奈ビル（京都府相楽郡精華町光台２－４）

特許法第３０条第２項適用ウェブサイトの掲載日：２０１９年５月２７日，アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｏｐｅｎｈｏｕｓｅ／２０１９／ｄｏｗｎｌｏａｄ．ｈｔｍｌ，ｈｔｔｐｓ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｏｐｅｎｈｏｕｓｅ／２０１９／ｐｒｏｇｒａｍ．ｈｔｍｌ＃ｅｘｈｉｂｉｔｉｏｎ

特許法第３０条第２項適用展示日：２０１９年５月３０日～３１日（公知日：２０１９年５月３０日），展示会名：ＮＴＴコミュニケーション科学基礎研究所オープンハウス２０１９、開催場所：ＮＴＴ京阪奈ビル（京都府相楽郡精華町光台２－４）

特許法第３０条第２項適用ウェブサイトの掲載日：２０１９年６月７日，アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｏｐｅｎｈｏｕｓｅ／２０１９／，ｈｔｔｐｓ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｏｐｅｎｈｏｕｓｅ／２０１９／ｄｏｗｎｌｏａｄ／２０１９＿ｂｏｏｋｌｅｔ．ｐｄｆ

この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。

ユーザの音声発話を音声認識してその発話に対する応答文を生成して音声合成してロボットなどが発話する対話システム、ユーザのテキスト入力による発話を受け付けてその発話に対する応答文を生成して表示する対話システム、など、様々な形態の対話システムが実用化されつつある。近年は、従来のタスク指向の対話システムとは異なる、雑談を行う雑談対話システムに注目が集まっている（例えば、非特許文献１参照）。タスク指向の対話は、対話を通して別の明確なゴールを持つタスクを効率よく達成することを目的とする対話である。雑談はタスク指向の対話とは異なり、対話そのものから楽しさや満足を得ることを目的とする対話である。すなわち、雑談対話システムは、対話を通して人を楽しませたり、満足を与えたりすることを目的とする対話システムといえる。

従来の雑談対話システムの研究の主流は、多様な話題（以下、「オープンドメイン」とも呼ぶ）のユーザによる発話（以下「ユーザ発話」とも呼ぶ）への自然な応答の生成となっており、これまで、オープンドメインの雑談において、どのようなユーザ発話に対しても何かしら応答できることを目指し、一問一答レベルで妥当な応答発話の生成や、それを適切に組み合わせた数分間の対話の実現が取り組まれてきた。

Higashinaka, R., Imamura, K., Meguro, T., Miyazaki, C., Kobayashi, N., Sugiyama, H., Hirano, T., Makino, T., and Matsuo, Y., "Towards an open-domain conversational system fully based on natural language processing," in Proceedings of the 25th International Conference on Computational Linguistics, pp. 928-939, 2014.

しかしながら、オープンドメインな応答生成が、対話を通して人を楽しませ満足させるという雑談対話システムの本来の目的の達成に直接繋がるわけではない。例えば、従来の雑談対話システムでは、局所的には話題が繋がっていても、大局的には対話がどこに向かっているのかをユーザに理解できないことがある。そのため、ユーザが、対話システムの発話（以下、「システム発話」とも呼ぶ）の意図を解釈できずストレスを感じたり、対話システムが自身の発話さえ理解していないように感じられることから、対話能力が欠落しているように感じたりすることが課題であった。

この発明の目的は、上記のような技術的課題に鑑みて、ユーザの発話を正しく理解できるだけの十分な対話能力を持っている印象をユーザに与えることができる対話システム、対話装置を実現することである。

上記の課題を解決するために、この発明の一態様の対話方法は、人格が仮想的に設定された対話システムが実行する対話方法であって、対話中の話題についてのユーザの経験を引き出すための発話を提示する第１発話提示ステップと、第１発話提示ステップで提示した発話に対するユーザ発話を受け付ける第１回答受付ステップと、第１回答受付ステップで得たユーザ発話が、話題についてユーザが経験したことがある旨を含む発話であった場合に、話題についてのユーザの経験に対するユーザの評価を引き出すための発話を提示する第２発話提示ステップと、第２発話提示ステップで得たユーザ発話を受け付ける第２回答受付ステップと、第２回答受付ステップで得たユーザ発話が、話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に、当該肯定評価または否定評価に共感する発話を提示する第３発話提示ステップと、を含む。

この発明によれば、ユーザの発話を正しく理解できるだけの十分な対話能力を持っている印象をユーザに与えることができる。

図１は、第１実施形態の対話システムの機能構成を例示する図である。図２は、発話決定部の機能構成を例示する図である。図３は、第１実施形態の対話方法の処理手続きを例示する図である。図４は、第１実施形態の対話方法の特徴部分の処理手続きを例示する図である。図５は、第１実施形態のシステム発話の決定と提示の処理手続きを例示する図である。図６は、第２実施形態の対話システムの機能構成を例示する図である。図７は、コンピュータの機能構成を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。本発明の対話システムは、ロボットやコンピュータのディスプレイ上に仮想的に設定されたチャット相手などの、仮想的な人格が設定された「エージェント」がユーザとの対話を行うものである。そこで、エージェントとして人型ロボットを用いる形態を第１実施形態として説明し、エージェントとしてコンピュータのディスプレイ上に仮想的に設定されたチャット相手を用いる形態を第２実施形態として説明する。

［第１実施形態］
〔対話システムの構成と各部の動作〕
まず、第１実施形態の対話システムの構成と各部の動作について説明する。第１実施形態の対話システムは、一台の人型ロボットがユーザとの対話を行うシステムである。対話システム１００は、図１に示すように、例えば、対話装置１と、マイクロホン１１からなる入力部１０と、少なくともスピーカ５１を備える提示部５０とを含む。対話装置１は、例えば、音声認識部２０、発話決定部３０、および音声合成部４０を備える。

対話装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置１の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

［入力部１０］
入力部１０は提示部５０と一体もしくは部分的に一体として構成してもよい。図１の例では、入力部１０の一部であるマイクロホン１１が、提示部５０である人型ロボット５０の頭部（耳の位置）に搭載されている。
入力部１０は、ユーザの発話を対話システム１００が取得するためのインターフェースである。言い換えれば、入力部１０は、ユーザの発話を対話システム１００へ入力するためのインターフェースである。例えば、入力部１０はユーザの発話音声を収音して音声信号に変換するマイクロホン１１である。マイクロホン１１は、ユーザ１０１が発話した発話音声を収音可能とすればよい。つまり、図１は一例であって、マイクロホン１１は一個でもよいし、三個以上であってもよい。また、ユーザ１０１の近傍などの人型ロボット５０とは異なる場所に設置された一個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、人型ロボット５０がマイクロホン１１を備えない構成としてもよい。マイクロホン１１は、変換により得たユーザの発話音声の音声信号を出力する。マイクロホン１１が出力した音声信号は、音声認識部２０へ入力される。

［音声認識部２０］
音声認識部２０は、マイクロホン１１から入力されたユーザの発話音声の音声信号を音声認識してユーザの発話内容を表すテキストに変換し、発話決定部３０に対して出力する。音声認識部２０が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて適したものを選択すればよい。

［発話決定部３０］
発話決定部３０は、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。音声認識部２０からユーザの発話内容を表すテキストが入力された場合には、入力されたユーザの発話内容を表すテキストに基づいて、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。

図２に、発話決定部３０の詳細な機能構成を示す。発話決定部３０は、ユーザの発話内容を表すテキストを入力とし、対話システム１００からの発話内容を表すテキストを決定して出力する。発話決定部３０は、例えば、ユーザ発話理解部３１０、システム発話生成部３２０、ユーザ情報記憶部３３０、およびシナリオ記憶部３５０を備える。

［［ユーザ情報記憶部３３０］］
ユーザ情報記憶部３３０は、予め設定した各種別の属性について、ユーザ発話から取得したユーザに関する属性の情報を格納する記憶部である。属性の種別は、対話で用いるシナリオ（すなわち、後述するシナリオ記憶部３５０に記憶されたシナリオ）に応じて予め設定しておく。属性の種別の例は、名前、居住県、居住県の名所への訪問経験の有無、居住県の名所の経験の有無、当該名所の経験に対する評価が肯定評価であるか否定評価であるか、などである。各属性の情報は、後述するユーザ発話理解部３１０により、発話決定部３０へ入力されたユーザの発話内容を表すテキストから抽出されてユーザ情報記憶部３３０に格納される。

[[シナリオ記憶部３５０]]
シナリオ記憶部３５０には、対話のシナリオが予め記憶されている。シナリオ記憶部３５０に記憶されている対話のシナリオは、対話の最初から終わりまでの流れにおける発話意図の状態の有限の範囲内での遷移と、対話システム１００が発話する各状態における、直前のユーザ発話の発話意図の候補と、直前のユーザ発話の発話意図の各候補に対応するシステム発話の発話テンプレート（すなわち、直前のユーザ発話の発話意図と矛盾しない発話意図の発話を対話システム１００が表出するための発話内容のテンプレート）の候補と、発話テンプレートの各候補に対応する次のユーザ発話の発話意図の候補（すなわち、発話テンプレートの各候補における対話システム１００の発話意図に対して行われる次のユーザ発話の発話意図の候補）と、を含んで構成される。なお、発話テンプレートは、対話システム１００の発話内容を表すテキストのみを含むものであってもよいし、対話システム１００の発話内容を表すテキストの一部に代えて、ユーザに関する所定の種別の属性の情報を含めることを指定する情報などを含むものであってもよい。

[[ユーザ発話理解部３１０]]
ユーザ発話理解部３１０は、発話決定部３０に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報を取得し、システム発話生成部３２０に対して出力する。ユーザ発話理解部３１０は、取得したユーザに関する属性の情報についてはユーザ情報記憶部３３０への格納も行う。

[[システム発話生成部３２０]]
システム発話生成部３２０は、システム発話の内容を表すテキストを決定し、音声合成部４０に対して出力する。システム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部３１０から入力されたユーザの発話意図（すなわち、最も新しく入力されたユーザ発話の発話意図）に対応する発話テンプレートを取得する。次に、システム発話生成部３２０は、取得した発話テンプレートがユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合であって、ユーザに関する当該種別の属性の情報がユーザ発話理解部３１０から取得されていない場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部３３０から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定する。

［音声合成部４０］
音声合成部４０は、発話決定部３０から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部５０に対して出力する。音声合成部４０が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて適したものを選択すればよい。

［提示部５０］
提示部５０は、発話決定部３０が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部５０は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ５１から発音する、すなわち、発話を提示する。スピーカ５１は、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図１は一例であって、スピーカ５１は一個でもよいし、三個以上であってもよい。また、ユーザ１０１の近傍などの人型ロボット５０とは異なる場所に一個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、人型ロボット５０がスピーカ５１を備えない構成としてもよい。

〔本発明の対話システムが行う対話方法の特徴〕
次に、本発明の対話システムが行う対話方法の特徴について、対話システムとユーザとの対話の具体例を用いて説明する。以降の具体例の記載では、“S”はシステム発話を表し、“U”はユーザ発話を表す。t(i)（i=0, 1, 2, …）は対話中の発話を表し、iは発話の順番を表す数字である。

［具体例１］
t(1) S: こんにちは！お名前を伺ってもいいですか？
t(2) U: 杉山といいます。
t(3) S: 杉山さんとおっしゃるんですね。私はリコっていいます。よろしくお願いします。杉山さんは何県にお住まいなんですか？
t(4) U: 埼玉県に住んでいます。
t(5) S: ふむふむ。埼玉県ですか。埼玉いいですね。行ってみたいです。長瀞とか有名ですよね？
t(6) U: 長瀞は近いので自転車で行くこともあります。
t(7) S: いい桜があるのうらやましいなあ。。私はお花見とか好きなんですけど、長瀞の桜ってどうですか？
t(8) U: 荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。
t(9) S: 桜いいですよねえ。ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。杉山さんは行かれたことはありますか？

［具体例２］
※t(1), …, t(7)は具体例１と同一であるため省略する。
t(8') U: うーん・・どうですかねえ。
t(9') S: そこまで綺麗ってわけでもないんですかね。

［本発明の特徴］
以下、具体例１，２を参照しながら、本発明の対話システムが行う対話方法の特徴を説明する。

［［例１－１］］具体例１の、システム発話t(5)の「行ってみたいです。長瀞とか有名ですよね？」と、システム発話t(7)の「私はお花見とか好きなんですけど、長瀞の桜ってどうですか？」と、システム発話t(9)の「桜いいですよねえ。」
システム発話t(9)の「桜いいですよねえ。」は、直前のユーザ発話t(8)で「荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。」と表出されたユーザの経験に対する肯定評価に正しく共感する発話である。対話システムは、システム発話t(9)で共感するためのユーザの評価を含むユーザ発話t(8)を引き出すために、システム発話t(7)の「私はお花見とか好きなんですけど、長瀞の桜ってどうですか？」という、長瀞の桜を見たときのユーザの評価を問う発話をしている。このシステム発話t(7)を提示すれば、ユーザは長瀞にあるお花見の名所の桜についての評価を語るはずだからである。また、対話システムは、システム発話t(7)で評価を問う発話をするためのユーザの経験を含む発話t(6)を引き出すために、システム発話t(5)の「行ってみたいです。長瀞とか有名ですよね？」という、長瀞へのユーザの訪問経験を問う発話をしている。このシステム発話t(5)を提示すれば、ユーザは長瀞への訪問経験を語るはずだからである。

人の評価表現は様々であることから、ユーザが自由に評価を発話すると、その評価に正しく共感するシステム発話を生成することができない場合がある。一方、人は、自身が肯定的に評価しているものに対して対話相手が肯定的な評価を示せば、対話相手が自身に共感したと明確に認識することができる。同様に、人は、自身が否定的に評価しているものに対して対話相手が否定的な評価を示せば、対話相手が自身に共感したと明確に認識することができる。そこで、本発明の対話システムが行う対話方法では、肯定評価または否定評価の対象となる経験をまずユーザに発話させるようにし、次にその経験に対する肯定評価または否定評価にユーザの発話を絞り込ませるようにしている。

すなわち、本発明の対話システムが行う対話方法の特徴は、システム発話t(5)のような、対話中の話題についてのユーザの経験を引き出すためのシステム発話（以下、「第１システム発話」とも呼ぶ）を提示し、第１システム発話に対するユーザ発話t(6)のような発話（以下、「第１ユーザ発話」とも呼ぶ）を受け付け、第１ユーザ発話が当該話題についてユーザが経験したことがある旨を含む発話であった場合に、システム発話t(7)のような、当該話題についてのユーザの経験に対するユーザの評価を引き出すためのシステム発話（以下、「第２システム発話」とも呼ぶ）を提示し、第２システム発話に対するユーザ発話t(8)のようなユーザ発話（以下、「第２ユーザ発話」とも呼ぶ）を受け付け、第２ユーザ発話が当該話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に、システム発話t(9)のような、当該評価（すなわち肯定評価または否定評価）に共感するシステム発話（以下、「第３システム発話」とも呼ぶ）を提示することである。これにより、システムがユーザの評価を正しく理解できるだけの十分な対話能力を持っている印象を、ユーザに与えることができる。

［［例１－２］］具体例２の、システム発話t(5)の「行ってみたいです。長瀞とか有名ですよね？」と、システム発話t(7)の「私はお花見とか好きなんですけど、長瀞の桜ってどうですか？」と、システム発話t(9')の「そこまで綺麗ってわけでもないんですかね。」
具体例２は、システム発話で共感するためのユーザの評価を含むユーザ発話を引き出すためにシステム発話t(7)をすること、システム発話t(7)で評価を問う発話をするためのユーザの経験を含む発話t(6)を引き出すためにシステム発話t(5)の「行ってみたいです。長瀞とか有名ですよね？」という、長瀞へのユーザの訪問経験を問う発話をすること、は具体例１と同様であるが、システム発話t(7)に対してユーザが否定評価を含むユーザ発話t(8')をした場合の例である。発話t(9')の「そこまで綺麗ってわけでもないんですかね。」は、直前のユーザ発話t(8')で「うーん・・どうですかねえ。」と表出されたユーザの経験に対するユーザの否定評価に正しく共感する発話である。上述したように、本発明の対話システムでは、システム発話t(7)までの対話で、システム発話t(7)に対するユーザ発話がユーザの経験に対するユーザの肯定評価または否定評価を含むように誘導しているため、ユーザの評価がユーザ発話t(8)のような肯定評価ではなくユーザ発話t(8')のような否定評価であっても、正しく共感する発話を提示することができる。

なお、下記の例２－１や例２－２のように、経験や経験に対する評価をユーザから引き出すためのシステム発話として、自由度が高い発話をできる質問の発話と、その質問の前に置かれた、ユーザ発話を絞り込ませる布石となる発話と、により構成されるシステム発話を提示するようにしてもよい。

［［例２－１］］システム発話t(5)の「長瀞とか有名ですよね？」に前置された「行ってみたいです。」
上記の具体例では、システム発話t(5)の「長瀞とか有名ですよね？」という発話に対して、続くユーザ発話t(6)では、ユーザは、長瀞が有名であるか否かを答えるのではなく、「長瀞は近いので自転車で行くこともあります。」と自由に発話しているようにも感じられる。しかしながら、システム発話t(5)では、「長瀞とか有名ですよね？」という質問の前に、「行ってみたいです。」という布石を打っており、長瀞に行った経験を語らせたいというシステムの意図に沿ったユーザ発話を引き出している。すなわち、対象に対する経験を引き出すシステム発話として、自由度の高い発話をできる質問と、その質問の前に置かれたユーザの発話を絞り込ませるための布石となる発話と、により構成されるシステム発話を提示することで、経験の有無を直接質問する場合よりもユーザに自由に発話している印象を与えながらも、対話システムが意図した通りに、経験をユーザから引き出し、次のシステム発話であるユーザの経験の有無に対応するシステム発話t(7)に繋げることを可能としている。これにより、ユーザの自由な発話に対してもシステムが正しく理解できるだけの十分な対話能力を持っている印象を、ユーザに与えることができる。

［［例２－２］］システム発話t(7)の「私はお花見とか好きなんですけど、」
上記の具体例では、システム発話t(7)の「長瀞の桜ってどうですか？」という様々な答えの可能性がある質問に対して、続くユーザ発話t(8)またはt(8')では、ユーザは、「荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。」または「うーん・・どうですかねえ。」のように自由に発話しているようにも感じられる。しかしながら、システム発話t(7)では、「長瀞の桜ってどうですか？」という質問の前に、「私はお花見とか好きなんですけど、」という布石を打っており、長瀞の桜を見た経験に対する肯定評価または否定評価を語らせたいというシステムの意図に沿った発話を引き出している。すなわち、経験に対する評価を引き出す発話として、自由度の高い発話をできる質問と、その質問の前に置かれたユーザの発話を絞り込ませるための布石となる発話と、により構成されるシステム発話を提示することで、肯定評価であるか否定評価であるかを直接質問した場合よりもユーザに自由に発話している印象を与えながらも、対話システムが意図した通りに、肯定評価であるか否定評価であるかをユーザから引き出し、次のシステム発話であるユーザの経験の肯定評価または否定評価に共感するシステム発話t(9)またはt(9')に繋げることを可能としている。これにより、ユーザの自由な発話に対してもシステムが正しく理解できるだけの十分な対話能力を持っている印象を、ユーザに与えることができる。

〔対話システム１００が行う対話方法の処理手続き〕
次に、第１実施形態の対話システム１００が行う対話方法の処理手続きは図３に示す通りであり、そのうちの本発明の特徴に対応する部分の処理手続きの例は図４に示す通りである。

［初回のシステム発話の決定と提示（初回のステップＳ２）］
対話システム１００が対話の動作を開始すると、まず、発話決定部３０のシステム発話生成部３２０が、シナリオの最初の状態で行うシステム発話の発話テンプレートをシナリオ記憶部３５０から読み出して、システム発話の内容を表すテキストを出力し、音声合成部４０が音声信号への変換を行い、提示部５０が提示する。シナリオの最初の状態で行うシステム発話は、例えば、システム発話t(1)のような挨拶とユーザに何らかの質問をする発話である。

［ユーザ発話の受け付け（ステップＳ１）］
入力部１０がユーザの発話音声を収音して音声信号に変換し、音声認識部２０がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部３０に出力する。ユーザの発話内容を表すテキストは、例えば、システム発話t(1)に対して発話されたユーザ発話t(2)、システム発話t(3)に対して発話されたユーザ発話t(4)、システム発話t(5)に対して発話されたユーザ発話t(6)、システム発話t(7)に対して発話されたユーザ発話t(8)またはt(8')、である。

［システム発話の決定と提示（初回以外のステップＳ２）］
発話決定部３０は、直前のユーザ発話に含まれる情報に基づいて、シナリオの現在の状態で行うシステム発話の発話テンプレートをシナリオ記憶部３５０から読み出して、システム発話の内容を表すテキストを決定し、音声合成部４０が音声信号への変換を行い、提示部５０が提示する。提示されるシステム発話は、ユーザ発話t(2)に対するシステム発話t(3)、ユーザ発話t(4)に対するシステム発話t(5)、ユーザ発話t(6)に対するシステム発話t(7)、ユーザ発話t(8)に対するシステム発話t(9)、ユーザ発話t(8')に対するシステム発話t(9')、である。ステップＳ２の詳細については、〔システム発話の決定と提示の処理手続き〕として後述する。

［対話の継続と終了（ステップＳ３）］
発話決定部３０のシステム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける現在の状態が最後の状態であれば対話システム１００が対話の動作を終了し、そうでなければステップＳ１を行うことで対話を継続する。

〔対話システム１００が行う対話方法の本発明の特徴に対応する部分の処理手続き〕
対話システム１００が行う対話方法の本発明の特徴に対応する部分は、図４に示す通り、最初に行うステップＳ２であるステップＳ２Ａと、ステップＳ２Ａの次に行うステップＳ１であるステップＳ１Ａと、ステップＳ１Ａの次に行うステップＳ２であるステップＳ２Ｂと、ステップＳ２Ｂの次に行うステップＳ１であるステップＳ１Ｂと、ステップＳ１Ｂの次に行うステップＳ２であるステップＳ２Ｃと、を順に行うことである。なお、対話システム１００は、シナリオ記憶部３５０に記憶されたシナリオに基づく対話における現在の状態が、ユーザの経験を引き出す発話を引き出すための発話をする状態となったときにステップＳ２Ａを行う。

［第１システム発話の決定と提示（ステップＳ２Ａ）］
発話決定部３０が、ユーザの経験を引き出すための発話（第１システム発話）を含む発話テンプレートをシナリオ記憶部３５０から読み出して、システム発話の内容を表すテキストを決定する。決定したシステム発話の内容を表すテキストは音声合成部４０が音声信号への変換を行い、提示部５０が提示する。話題が長瀞の桜である場合のユーザの経験を引き出すためのシステム発話（第１システム発話）の内容を表すテキストの例は、発話t(5)に含まれる「行ってみたいです。長瀞とか有名ですよね？」のような訪問経験を質問する発話である。

［第１ユーザ発話の受け付け（ステップＳ１Ａ）］
入力部１０が、ユーザの経験を引き出すためのシステム発話（第１システム発話）に対するユーザの発話（第１ユーザ発話）の音声を収音して音声信号に変換し、音声認識部２０がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部３０に出力する。ユーザの経験を引き出すためのシステム発話（第１システム発話）に対するユーザ発話（第１ユーザ発話）の内容を表すテキストの例は、発話t(6)の「長瀞は近いので自転車で行くこともあります。」である。

［第２システム発話の決定と提示（ステップＳ２Ｂ）］
発話決定部３０は、第１ユーザ発話が、第１システム発話の話題についてユーザが経験したことがある旨を含む発話であった場合に、当該話題についてのユーザの経験に対するユーザの評価を引き出すためのシステム発話（第２システム発話）を含む発話テンプレートをシナリオ記憶部３５０から読み出して、システム発話の内容を表すテキストを決定する。決定したシステム発話の内容を表すテキストは音声合成部４０が音声信号への変換を行い、提示部５０が提示する。ユーザの経験に対するユーザの評価を引き出すためのシステム発話（第２システム発話）の内容を表すテキストの例は、発話t(7)に含まれる「私はお花見とか好きなんですけど、長瀞の桜ってどうですか？」のような長瀞の桜の評価を質問する発話である。

［第２ユーザ発話の受け付け（ステップＳ１Ｂ）］
入力部１０が、ユーザの経験に対するユーザの評価を引き出すためのシステム発話（第２システム発話）に対するユーザの発話（第２ユーザ発話）の音声を収音して音声信号に変換し、音声認識部２０がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部３０に出力する。ユーザの経験に対するユーザの評価を引き出すためのシステム発話（第２システム発話）に対するユーザの発話（第２ユーザ発話）の内容を表すテキストの例は、発話t(8)の「荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。」、発話t(8')の「うーん・・どうですかねえ。」、である。

［第３システム発話の決定と提示（ステップＳ２Ｃ）］
発話決定部３０は、第２ユーザ発話が、第１システム発話の話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に、ユーザの当該評価（すなわち、肯定評価または否定評価）に共感するシステム発話（第３システム発話）を含む発話テンプレートをシナリオ記憶部３５０から読み出して、システム発話の内容を表すテキストを決定する。決定したシステム発話の内容を表すテキストは音声合成部４０が音声信号への変換を行い、提示部５０が提示する。ユーザの肯定評価または否定評価に共感するシステム発話（第３システム発話）の内容を表すテキストの例は、発話t(9)に含まれる「桜いいですよねえ。」のようなユーザの肯定評価に共感する発話、発話t(9')の「そこまで綺麗ってわけでもないんですかね。」のようなユーザの否定評価に共感する発話、である。

〔システム発話の決定と提示の処理手続き〕
システム発話の決定と提示の処理手続き（ステップＳ２）の詳細は、以下のステップＳ２１からステップＳ２５の通りである。

［ユーザ発話の理解結果の取得（ステップＳ２１）］
ユーザ発話理解部３１０は、発話決定部３０に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報とを得て、システム発話生成部３２０に対して出力する。ユーザ発話理解部３１０は、取得したユーザに関する属性の情報については、ユーザ情報記憶部３３０への格納も行う。

例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名前を発話した」旨を得て、ユーザに関する属性の情報として「ユーザの名前」である「杉山」を得る。入力されたユーザの発話内容を表すテキストが発話t(4)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝居住県を発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県」である「埼玉県」を得る。入力されたユーザの発話内容を表すテキストが発話t(6)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名所への訪問経験ありと発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所への訪問経験＝あり」を得る。入力されたユーザの発話内容を表すテキストが発話t(8)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名所の経験が肯定評価であると発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所の経験に対する評価＝肯定評価」を得る。入力されたユーザの発話内容を表すテキストが発話t(8')であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名所の経験が否定評価であると発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所の経験に対する評価＝否定評価」を得る。

なお、初回のステップＳ２においては、ステップＳ２１は行わない。

［発話テンプレートの取得（ステップＳ２２）］
システム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部３１０から入力されたユーザの発話意図に対応する発話テンプレートを取得する。

例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、システム発話生成部３２０は、「［ユーザの名前］さんとおっしゃるんですね、私はリコっていいます。よろしくお願いします。［ユーザの名前］さんは何県にお住まいなんですか？」という発話テンプレートを取得する。なお、発話テンプレートのうちの［］（角括弧）で囲まれた部分は、ユーザ発話理解部３１０とユーザ情報記憶部３３０のいずれかから情報を取得して含めることを指定する情報である。

また例えば、入力されたユーザの発話内容を表すテキストが発話t(4)であれば、システム発話生成部３２０は、「ふむふむ。埼玉県ですか。埼玉いいですね。行ってみたいです。長瀞とか有名ですよね？」という発話テンプレートを取得する。また例えば、入力されたユーザの発話内容を表すテキストが発話t(6)であれば、システム発話生成部３２０は、「いい桜があるのうらやましいなあ。。私はお花見とか好きなんですけど、長瀞の桜ってどうですか？」という発話テンプレートを取得する。

また例えば、入力されたユーザの発話内容を表すテキストが発話t(8)であれば、システム発話生成部３２０は、「桜いいですよねえ。ところで、私青森県に住んでいるんですけど、桜といえば弘前城とかもおすすめです。［ユーザの名前］さんは行かれたことはあります？」という発話テンプレートを取得する。一方、入力されたユーザの発話内容を表すテキストが発話t(8')であれば、システム発話生成部３２０は、「そこまで綺麗ってわけでもないんですかね。」という発話テンプレートを取得する。

なお、初回のステップＳ２におけるステップＳ２２では、システム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける最初の状態の発話テンプレートを取得する。

［システム発話の生成（ステップＳ２３）］
システム発話生成部３２０は、ステップＳ２２で取得した発話テンプレートが、ユーザ発話理解部３１０から取得されなかったユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部３３０から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定して出力する。システム発話生成部３２０は、ステップＳ２２で取得した発話テンプレートにユーザに関する所定の種別の属性の情報を含めることを指定する情報を含まない場合には、取得した発話テンプレートをそのままシステム発話の内容を表すテキストとして決定して出力する。

例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、システム発話生成部３２０は、ユーザ発話理解部３１０から取得された［ユーザの名前］である「杉山」を上述した発話テンプレートに挿入して発話t(3)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(8)であれば、［ユーザの名前］である「杉山」をユーザ情報記憶部３３０から取得して、上述した発話テンプレートに挿入して発話t(9)のテキストとして決定して出力する。

［システム発話の音声の合成（ステップＳ２４）］
音声合成部４０は、発話決定部３０から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部５０に対して出力する。

［システム発話の提示（ステップＳ２５）］
提示部５０は、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を提示する。

［第２実施形態］
第１実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、本発明の対話システムの提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、本発明の対話システムはこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態であってもよい。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」（登録商標）のような、テキストメッセージにより対話を行うチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態を第２実施形態として説明する。第２実施形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本発明の対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。

第２実施形態の対話システム２００は、図６に示すように、例えば、一台の対話装置２からなる。第２実施形態の対話装置２は、例えば、入力部１０、音声認識部２０、発話決定部３０、および提示部５０を備える。対話装置２は、例えば、マイクロホン１１、スピーカ５１を備えていてもよい。

第２実施形態の対話装置２は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置２がスマートフォンであるものとして説明する。提示部５０はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはチャットの対話内容が時系列に表示される。このチャットには、対話装置２が制御する仮想的な人格に対応する仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本実施形態は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてチャットのウィンドウ内に設けられた入力エリアである入力部１０へ発話内容を入力し、自らのアカウントを通じてチャットへ投稿することができる。発話決定部３０はユーザのアカウントからの投稿に基づいて対話装置２からの発話内容を決定し、仮想アカウントを通じてチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン１１と音声認識機能を用い、ユーザが発声により入力部１０へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ５１と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ５１から出力する構成としてもよい。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。

［プログラム、記録媒体］
上記実施形態で説明した各対話装置における各種の処理機能をコンピュータによって実現する場合、各対話装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図７に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各対話装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部１０２０に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

人格が仮想的に設定された対話システムが実行する対話方法であって、
対話中の話題についてのユーザの経験を引き出すための発話を提示する第１発話提示ステップと、
前記第１発話提示ステップで提示した発話に対するユーザ発話を受け付ける第１回答受付ステップと、
前記第１回答受付ステップで得たユーザ発話が、前記話題についてユーザが経験したことがある旨を含む発話であった場合に、前記話題についてのユーザの経験に対するユーザの評価を引き出すための発話を提示する第２発話提示ステップと、
前記第２発話提示ステップで得たユーザ発話を受け付ける第２回答受付ステップと、
前記第２回答受付ステップで得たユーザ発話が、前記話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に、当該肯定評価または否定評価に共感する発話を提示する第３発話提示ステップと、
を含む対話方法。
請求項１に記載の対話方法であって、
前記第１発話提示ステップで提示する発話は、前記話題についての印象を尋ねる質問と、当該質問に前置された経験してみたい旨の発話と、により構成される、
対話方法。
請求項１または２に記載の対話方法であって、
前記第２発話提示ステップで提示する発話は、前記話題についての印象を尋ねる質問と、当該質問に前置された評価表現を用いた発話と、により構成される、
対話方法。
人格が仮想的に設定された対話システムであって、
対話中の話題についてのユーザの経験を引き出すための発話である第１システム発話と、
前記第１システム発話に対するユーザ発話が、前記話題についてユーザが経験したことがある旨を含む発話であった場合に提示される、前記話題についてのユーザの経験に対するユーザの評価を引き出すための発話である第２システム発話と、
前記第２システム発話に対するユーザ発話が、前記話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に提示される、当該肯定評価または否定評価に共感する発話である第３システム発話と、
を提示する提示部と、
前記第１システム発話に対するユーザ発話である第１ユーザ発話と、
前記第２システム発話に対するユーザ発話である第２ユーザ発話と、
を受け付ける入力部と、
を含む対話システム。
ユーザの発話を受け付ける入力部と、発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
対話中の話題についてのユーザの経験を引き出すための発話である第１システム発話と、
前記第１システム発話に対するユーザ発話が、前記話題についてユーザが経験したことがある旨を含む発話であった場合に提示される、前記話題についてのユーザの経験に対するユーザの評価を引き出すための発話である第２システム発話と、
前記第２システム発話に対するユーザ発話が、前記話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に提示される、当該肯定評価または否定評価に共感する発話である第３システム発話と、
を決定する発話決定部
を含む対話装置。
請求項１から３のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
請求項５に記載の対話装置としてコンピュータを機能させるためのプログラム。