JP7218816B2 - 対話方法、対話システム、対話装置、およびプログラム - Google Patents
対話方法、対話システム、対話装置、およびプログラム Download PDFInfo
- Publication number
- JP7218816B2 JP7218816B2 JP2021550888A JP2021550888A JP7218816B2 JP 7218816 B2 JP7218816 B2 JP 7218816B2 JP 2021550888 A JP2021550888 A JP 2021550888A JP 2021550888 A JP2021550888 A JP 2021550888A JP 7218816 B2 JP7218816 B2 JP 7218816B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- dialogue
- evaluation
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000011156 evaluation Methods 0.000 claims description 70
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 2
- 230000002889 sympathetic effect Effects 0.000 claims 2
- 241000167854 Bourreria succulenta Species 0.000 description 36
- 235000019693 cherries Nutrition 0.000 description 36
- 238000012545 processing Methods 0.000 description 22
- 230000004044 response Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 241000596603 Virgilia oroboides Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- VZSRBBMJRBPUNF-UHFFFAOYSA-N 2-(2,3-dihydro-1H-inden-2-ylamino)-N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]pyrimidine-5-carboxamide Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C(=O)NCCC(N1CC2=C(CC1)NN=N2)=O VZSRBBMJRBPUNF-UHFFFAOYSA-N 0.000 description 1
- YLZOPXRUQYQQID-UHFFFAOYSA-N 3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)-1-[4-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]piperazin-1-yl]propan-1-one Chemical compound N1N=NC=2CN(CCC=21)CCC(=O)N1CCN(CC1)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F YLZOPXRUQYQQID-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
〔対話システムの構成と各部の動作〕
まず、第1実施形態の対話システムの構成と各部の動作について説明する。第1実施形態の対話システムは、一台の人型ロボットがユーザとの対話を行うシステムである。対話システム100は、図1に示すように、例えば、対話装置1と、マイクロホン11からなる入力部10と、少なくともスピーカ51を備える提示部50とを含む。対話装置1は、例えば、音声認識部20、発話決定部30、および音声合成部40を備える。
入力部10は提示部50と一体もしくは部分的に一体として構成してもよい。図1の例では、入力部10の一部であるマイクロホン11が、提示部50である人型ロボット50の頭部(耳の位置)に搭載されている。
入力部10は、ユーザの発話を対話システム100が取得するためのインターフェースである。言い換えれば、入力部10は、ユーザの発話を対話システム100へ入力するためのインターフェースである。例えば、入力部10はユーザの発話音声を収音して音声信号に変換するマイクロホン11である。マイクロホン11は、ユーザ101が発話した発話音声を収音可能とすればよい。つまり、図1は一例であって、マイクロホン11は一個でもよいし、三個以上であってもよい。また、ユーザ101の近傍などの人型ロボット50とは異なる場所に設置された一個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、人型ロボット50がマイクロホン11を備えない構成としてもよい。マイクロホン11は、変換により得たユーザの発話音声の音声信号を出力する。マイクロホン11が出力した音声信号は、音声認識部20へ入力される。
音声認識部20は、マイクロホン11から入力されたユーザの発話音声の音声信号を音声認識してユーザの発話内容を表すテキストに変換し、発話決定部30に対して出力する。音声認識部20が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて適したものを選択すればよい。
発話決定部30は、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。音声認識部20からユーザの発話内容を表すテキストが入力された場合には、入力されたユーザの発話内容を表すテキストに基づいて、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。
ユーザ情報記憶部330は、予め設定した各種別の属性について、ユーザ発話から取得したユーザに関する属性の情報を格納する記憶部である。属性の種別は、対話で用いるシナリオ(すなわち、後述するシナリオ記憶部350に記憶されたシナリオ)に応じて予め設定しておく。属性の種別の例は、名前、居住県、居住県の名所への訪問経験の有無、居住県の名所の経験の有無、当該名所の経験に対する評価が肯定評価であるか否定評価であるか、などである。各属性の情報は、後述するユーザ発話理解部310により、発話決定部30へ入力されたユーザの発話内容を表すテキストから抽出されてユーザ情報記憶部330に格納される。
シナリオ記憶部350には、対話のシナリオが予め記憶されている。シナリオ記憶部350に記憶されている対話のシナリオは、対話の最初から終わりまでの流れにおける発話意図の状態の有限の範囲内での遷移と、対話システム100が発話する各状態における、直前のユーザ発話の発話意図の候補と、直前のユーザ発話の発話意図の各候補に対応するシステム発話の発話テンプレート(すなわち、直前のユーザ発話の発話意図と矛盾しない発話意図の発話を対話システム100が表出するための発話内容のテンプレート)の候補と、発話テンプレートの各候補に対応する次のユーザ発話の発話意図の候補(すなわち、発話テンプレートの各候補における対話システム100の発話意図に対して行われる次のユーザ発話の発話意図の候補)と、を含んで構成される。なお、発話テンプレートは、対話システム100の発話内容を表すテキストのみを含むものであってもよいし、対話システム100の発話内容を表すテキストの一部に代えて、ユーザに関する所定の種別の属性の情報を含めることを指定する情報などを含むものであってもよい。
ユーザ発話理解部310は、発話決定部30に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報を取得し、システム発話生成部320に対して出力する。ユーザ発話理解部310は、取得したユーザに関する属性の情報についてはユーザ情報記憶部330への格納も行う。
システム発話生成部320は、システム発話の内容を表すテキストを決定し、音声合成部40に対して出力する。システム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部310から入力されたユーザの発話意図(すなわち、最も新しく入力されたユーザ発話の発話意図)に対応する発話テンプレートを取得する。次に、システム発話生成部320は、取得した発話テンプレートがユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合であって、ユーザに関する当該種別の属性の情報がユーザ発話理解部310から取得されていない場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部330から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定する。
音声合成部40は、発話決定部30から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部50に対して出力する。音声合成部40が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて適したものを選択すればよい。
提示部50は、発話決定部30が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部50は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部40から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ51から発音する、すなわち、発話を提示する。スピーカ51は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図1は一例であって、スピーカ51は一個でもよいし、三個以上であってもよい。また、ユーザ101の近傍などの人型ロボット50とは異なる場所に一個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、人型ロボット50がスピーカ51を備えない構成としてもよい。
次に、本発明の対話システムが行う対話方法の特徴について、対話システムとユーザとの対話の具体例を用いて説明する。以降の具体例の記載では、“S”はシステム発話を表し、“U”はユーザ発話を表す。t(i)(i=0, 1, 2, …)は対話中の発話を表し、iは発話の順番を表す数字である。
t(1) S: こんにちは!お名前を伺ってもいいですか?
t(2) U: 杉山といいます。
t(3) S: 杉山さんとおっしゃるんですね。私はリコっていいます。よろしくお願いします。杉山さんは何県にお住まいなんですか?
t(4) U: 埼玉県に住んでいます。
t(5) S: ふむふむ。埼玉県ですか。埼玉いいですね。行ってみたいです。長瀞とか有名ですよね?
t(6) U: 長瀞は近いので自転車で行くこともあります。
t(7) S: いい桜があるのうらやましいなあ。。私はお花見とか好きなんですけど、長瀞の桜ってどうですか?
t(8) U: 荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。
t(9) S: 桜いいですよねえ。ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。杉山さんは行かれたことはありますか?
※t(1), …, t(7)は具体例1と同一であるため省略する。
t(8') U: うーん・・どうですかねえ。
t(9') S: そこまで綺麗ってわけでもないんですかね。
以下、具体例1,2を参照しながら、本発明の対話システムが行う対話方法の特徴を説明する。
システム発話t(9)の「桜いいですよねえ。」は、直前のユーザ発話t(8)で「荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。」と表出されたユーザの経験に対する肯定評価に正しく共感する発話である。対話システムは、システム発話t(9)で共感するためのユーザの評価を含むユーザ発話t(8)を引き出すために、システム発話t(7)の「私はお花見とか好きなんですけど、長瀞の桜ってどうですか?」という、長瀞の桜を見たときのユーザの評価を問う発話をしている。このシステム発話t(7)を提示すれば、ユーザは長瀞にあるお花見の名所の桜についての評価を語るはずだからである。また、対話システムは、システム発話t(7)で評価を問う発話をするためのユーザの経験を含む発話t(6)を引き出すために、システム発話t(5)の「行ってみたいです。長瀞とか有名ですよね?」という、長瀞へのユーザの訪問経験を問う発話をしている。このシステム発話t(5)を提示すれば、ユーザは長瀞への訪問経験を語るはずだからである。
具体例2は、システム発話で共感するためのユーザの評価を含むユーザ発話を引き出すためにシステム発話t(7)をすること、システム発話t(7)で評価を問う発話をするためのユーザの経験を含む発話t(6)を引き出すためにシステム発話t(5)の「行ってみたいです。長瀞とか有名ですよね?」という、長瀞へのユーザの訪問経験を問う発話をすること、は具体例1と同様であるが、システム発話t(7)に対してユーザが否定評価を含むユーザ発話t(8')をした場合の例である。発話t(9')の「そこまで綺麗ってわけでもないんですかね。」は、直前のユーザ発話t(8')で「うーん・・どうですかねえ。」と表出されたユーザの経験に対するユーザの否定評価に正しく共感する発話である。上述したように、本発明の対話システムでは、システム発話t(7)までの対話で、システム発話t(7)に対するユーザ発話がユーザの経験に対するユーザの肯定評価または否定評価を含むように誘導しているため、ユーザの評価がユーザ発話t(8)のような肯定評価ではなくユーザ発話t(8')のような否定評価であっても、正しく共感する発話を提示することができる。
上記の具体例では、システム発話t(5)の「長瀞とか有名ですよね?」という発話に対して、続くユーザ発話t(6)では、ユーザは、長瀞が有名であるか否かを答えるのではなく、「長瀞は近いので自転車で行くこともあります。」と自由に発話しているようにも感じられる。しかしながら、システム発話t(5)では、「長瀞とか有名ですよね?」という質問の前に、「行ってみたいです。」という布石を打っており、長瀞に行った経験を語らせたいというシステムの意図に沿ったユーザ発話を引き出している。すなわち、対象に対する経験を引き出すシステム発話として、自由度の高い発話をできる質問と、その質問の前に置かれたユーザの発話を絞り込ませるための布石となる発話と、により構成されるシステム発話を提示することで、経験の有無を直接質問する場合よりもユーザに自由に発話している印象を与えながらも、対話システムが意図した通りに、経験をユーザから引き出し、次のシステム発話であるユーザの経験の有無に対応するシステム発話t(7)に繋げることを可能としている。これにより、ユーザの自由な発話に対してもシステムが正しく理解できるだけの十分な対話能力を持っている印象を、ユーザに与えることができる。
上記の具体例では、システム発話t(7)の「長瀞の桜ってどうですか?」という様々な答えの可能性がある質問に対して、続くユーザ発話t(8)またはt(8')では、ユーザは、「荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。」または「うーん・・どうですかねえ。」のように自由に発話しているようにも感じられる。しかしながら、システム発話t(7)では、「長瀞の桜ってどうですか?」という質問の前に、「私はお花見とか好きなんですけど、」という布石を打っており、長瀞の桜を見た経験に対する肯定評価または否定評価を語らせたいというシステムの意図に沿った発話を引き出している。すなわち、経験に対する評価を引き出す発話として、自由度の高い発話をできる質問と、その質問の前に置かれたユーザの発話を絞り込ませるための布石となる発話と、により構成されるシステム発話を提示することで、肯定評価であるか否定評価であるかを直接質問した場合よりもユーザに自由に発話している印象を与えながらも、対話システムが意図した通りに、肯定評価であるか否定評価であるかをユーザから引き出し、次のシステム発話であるユーザの経験の肯定評価または否定評価に共感するシステム発話t(9)またはt(9')に繋げることを可能としている。これにより、ユーザの自由な発話に対してもシステムが正しく理解できるだけの十分な対話能力を持っている印象を、ユーザに与えることができる。
次に、第1実施形態の対話システム100が行う対話方法の処理手続きは図3に示す通りであり、そのうちの本発明の特徴に対応する部分の処理手続きの例は図4に示す通りである。
対話システム100が対話の動作を開始すると、まず、発話決定部30のシステム発話生成部320が、シナリオの最初の状態で行うシステム発話の発話テンプレートをシナリオ記憶部350から読み出して、システム発話の内容を表すテキストを出力し、音声合成部40が音声信号への変換を行い、提示部50が提示する。シナリオの最初の状態で行うシステム発話は、例えば、システム発話t(1)のような挨拶とユーザに何らかの質問をする発話である。
入力部10がユーザの発話音声を収音して音声信号に変換し、音声認識部20がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部30に出力する。ユーザの発話内容を表すテキストは、例えば、システム発話t(1)に対して発話されたユーザ発話t(2)、システム発話t(3)に対して発話されたユーザ発話t(4)、システム発話t(5)に対して発話されたユーザ発話t(6)、システム発話t(7)に対して発話されたユーザ発話t(8)またはt(8')、である。
発話決定部30は、直前のユーザ発話に含まれる情報に基づいて、シナリオの現在の状態で行うシステム発話の発話テンプレートをシナリオ記憶部350から読み出して、システム発話の内容を表すテキストを決定し、音声合成部40が音声信号への変換を行い、提示部50が提示する。提示されるシステム発話は、ユーザ発話t(2)に対するシステム発話t(3)、ユーザ発話t(4)に対するシステム発話t(5)、ユーザ発話t(6)に対するシステム発話t(7)、ユーザ発話t(8)に対するシステム発話t(9)、ユーザ発話t(8')に対するシステム発話t(9')、である。ステップS2の詳細については、〔システム発話の決定と提示の処理手続き〕として後述する。
発話決定部30のシステム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける現在の状態が最後の状態であれば対話システム100が対話の動作を終了し、そうでなければステップS1を行うことで対話を継続する。
対話システム100が行う対話方法の本発明の特徴に対応する部分は、図4に示す通り、最初に行うステップS2であるステップS2Aと、ステップS2Aの次に行うステップS1であるステップS1Aと、ステップS1Aの次に行うステップS2であるステップS2Bと、ステップS2Bの次に行うステップS1であるステップS1Bと、ステップS1Bの次に行うステップS2であるステップS2Cと、を順に行うことである。なお、対話システム100は、シナリオ記憶部350に記憶されたシナリオに基づく対話における現在の状態が、ユーザの経験を引き出す発話を引き出すための発話をする状態となったときにステップS2Aを行う。
発話決定部30が、ユーザの経験を引き出すための発話(第1システム発話)を含む発話テンプレートをシナリオ記憶部350から読み出して、システム発話の内容を表すテキストを決定する。決定したシステム発話の内容を表すテキストは音声合成部40が音声信号への変換を行い、提示部50が提示する。話題が長瀞の桜である場合のユーザの経験を引き出すためのシステム発話(第1システム発話)の内容を表すテキストの例は、発話t(5)に含まれる「行ってみたいです。長瀞とか有名ですよね?」のような訪問経験を質問する発話である。
入力部10が、ユーザの経験を引き出すためのシステム発話(第1システム発話)に対するユーザの発話(第1ユーザ発話)の音声を収音して音声信号に変換し、音声認識部20がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部30に出力する。ユーザの経験を引き出すためのシステム発話(第1システム発話)に対するユーザ発話(第1ユーザ発話)の内容を表すテキストの例は、発話t(6)の「長瀞は近いので自転車で行くこともあります。」である。
発話決定部30は、第1ユーザ発話が、第1システム発話の話題についてユーザが経験したことがある旨を含む発話であった場合に、当該話題についてのユーザの経験に対するユーザの評価を引き出すためのシステム発話(第2システム発話)を含む発話テンプレートをシナリオ記憶部350から読み出して、システム発話の内容を表すテキストを決定する。決定したシステム発話の内容を表すテキストは音声合成部40が音声信号への変換を行い、提示部50が提示する。ユーザの経験に対するユーザの評価を引き出すためのシステム発話(第2システム発話)の内容を表すテキストの例は、発話t(7)に含まれる「私はお花見とか好きなんですけど、長瀞の桜ってどうですか?」のような長瀞の桜の評価を質問する発話である。
入力部10が、ユーザの経験に対するユーザの評価を引き出すためのシステム発話(第2システム発話)に対するユーザの発話(第2ユーザ発話)の音声を収音して音声信号に変換し、音声認識部20がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部30に出力する。ユーザの経験に対するユーザの評価を引き出すためのシステム発話(第2システム発話)に対するユーザの発話(第2ユーザ発話)の内容を表すテキストの例は、発話t(8)の「荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。」、発話t(8')の「うーん・・どうですかねえ。」、である。
発話決定部30は、第2ユーザ発話が、第1システム発話の話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に、ユーザの当該評価(すなわち、肯定評価または否定評価)に共感するシステム発話(第3システム発話)を含む発話テンプレートをシナリオ記憶部350から読み出して、システム発話の内容を表すテキストを決定する。決定したシステム発話の内容を表すテキストは音声合成部40が音声信号への変換を行い、提示部50が提示する。ユーザの肯定評価または否定評価に共感するシステム発話(第3システム発話)の内容を表すテキストの例は、発話t(9)に含まれる「桜いいですよねえ。」のようなユーザの肯定評価に共感する発話、発話t(9')の「そこまで綺麗ってわけでもないんですかね。」のようなユーザの否定評価に共感する発話、である。
システム発話の決定と提示の処理手続き(ステップS2)の詳細は、以下のステップS21からステップS25の通りである。
ユーザ発話理解部310は、発話決定部30に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報とを得て、システム発話生成部320に対して出力する。ユーザ発話理解部310は、取得したユーザに関する属性の情報については、ユーザ情報記憶部330への格納も行う。
システム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部310から入力されたユーザの発話意図に対応する発話テンプレートを取得する。
システム発話生成部320は、ステップS22で取得した発話テンプレートが、ユーザ発話理解部310から取得されなかったユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部330から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定して出力する。システム発話生成部320は、ステップS22で取得した発話テンプレートにユーザに関する所定の種別の属性の情報を含めることを指定する情報を含まない場合には、取得した発話テンプレートをそのままシステム発話の内容を表すテキストとして決定して出力する。
音声合成部40は、発話決定部30から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部50に対して出力する。
提示部50は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を提示する。
第1実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、本発明の対話システムの提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、本発明の対話システムはこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態であってもよい。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」(登録商標)のような、テキストメッセージにより対話を行うチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態を第2実施形態として説明する。第2実施形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本発明の対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
上記実施形態で説明した各対話装置における各種の処理機能をコンピュータによって実現する場合、各対話装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図7に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各対話装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- 人格が仮想的に設定された対話システムが実行する対話方法であって、
対話中の話題についてのユーザの経験を引き出すための発話を提示する第1発話提示ステップと、
前記第1発話提示ステップで提示した発話に対するユーザ発話を受け付ける第1回答受付ステップと、
前記第1回答受付ステップで得たユーザ発話が、前記話題についてユーザが経験したことがある旨を含む発話であった場合に、前記話題についてのユーザの経験に対するユーザの評価を引き出すための発話を提示する第2発話提示ステップと、
前記第2発話提示ステップで得たユーザ発話を受け付ける第2回答受付ステップと、
前記第2回答受付ステップで得たユーザ発話が、前記話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に、当該肯定評価または否定評価に共感する発話を提示する第3発話提示ステップと、
を含む対話方法。 - 請求項1に記載の対話方法であって、
前記第1発話提示ステップで提示する発話は、前記話題についての印象を尋ねる質問と、当該質問に前置された経験してみたい旨の発話と、により構成される、
対話方法。 - 請求項1または2に記載の対話方法であって、
前記第2発話提示ステップで提示する発話は、前記話題についての印象を尋ねる質問と、当該質問に前置された評価表現を用いた発話と、により構成される、
対話方法。 - 人格が仮想的に設定された対話システムであって、
対話中の話題についてのユーザの経験を引き出すための発話である第1システム発話と、
前記第1システム発話に対するユーザ発話が、前記話題についてユーザが経験したことがある旨を含む発話であった場合に提示される、前記話題についてのユーザの経験に対するユーザの評価を引き出すための発話である第2システム発話と、
前記第2システム発話に対するユーザ発話が、前記話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に提示される、当該肯定評価または否定評価に共感する発話である第3システム発話と、
を提示する提示部と、
前記第1システム発話に対するユーザ発話である第1ユーザ発話と、
前記第2システム発話に対するユーザ発話である第2ユーザ発話と、
を受け付ける入力部と、
を含む対話システム。 - ユーザの発話を受け付ける入力部と、発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
対話中の話題についてのユーザの経験を引き出すための発話である第1システム発話と、
前記第1システム発話に対するユーザ発話が、前記話題についてユーザが経験したことがある旨を含む発話であった場合に提示される、前記話題についてのユーザの経験に対するユーザの評価を引き出すための発話である第2システム発話と、
前記第2システム発話に対するユーザ発話が、前記話題についてのユーザの経験に対するユーザの肯定評価または否定評価を含む発話であった場合に提示される、当該肯定評価または否定評価に共感する発話である第3システム発話と、
を決定する発話決定部
を含む対話装置。 - 請求項1から3のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
- 請求項5に記載の対話装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/039146 WO2021064948A1 (ja) | 2019-10-03 | 2019-10-03 | 対話方法、対話システム、対話装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021064948A1 JPWO2021064948A1 (ja) | 2021-04-08 |
JP7218816B2 true JP7218816B2 (ja) | 2023-02-07 |
Family
ID=75337938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021550888A Active JP7218816B2 (ja) | 2019-10-03 | 2019-10-03 | 対話方法、対話システム、対話装置、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220351727A1 (ja) |
JP (1) | JP7218816B2 (ja) |
WO (1) | WO2021064948A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323388A (ja) | 2002-05-01 | 2003-11-14 | Omron Corp | 情報提供方法および情報提供システム |
US20150185996A1 (en) | 2013-12-31 | 2015-07-02 | Next It Corporation | Virtual assistant team identification |
WO2017200079A1 (ja) | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
JP2017208003A (ja) | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
WO2018163647A1 (ja) | 2017-03-10 | 2018-09-13 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575963B2 (en) * | 2012-04-20 | 2017-02-21 | Maluuba Inc. | Conversational agent |
KR20140052155A (ko) * | 2012-10-19 | 2014-05-07 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치 제어 방법 및 디스플레이 장치의 제어를 위한 정보처리장치 |
CN107113222B (zh) * | 2014-06-06 | 2020-09-01 | 谷歌有限责任公司 | 基于环境的主动聊天信息系统 |
US20190286711A1 (en) * | 2015-01-23 | 2019-09-19 | Conversica, Inc. | Systems and methods for message building for machine learning conversations |
US11295736B2 (en) * | 2016-01-25 | 2022-04-05 | Sony Corporation | Communication system and communication control method |
US20190143527A1 (en) * | 2016-04-26 | 2019-05-16 | Taechyon Robotics Corporation | Multiple interactive personalities robot |
WO2018142686A1 (ja) * | 2017-01-31 | 2018-08-09 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6853752B2 (ja) * | 2017-08-17 | 2021-03-31 | Kddi株式会社 | 対話シナリオコーパスの作成支援システム |
CN109986569B (zh) * | 2017-12-29 | 2022-08-23 | 微软技术许可有限责任公司 | 具有角色化和性格化的聊天机器人 |
US10845937B2 (en) * | 2018-01-11 | 2020-11-24 | International Business Machines Corporation | Semantic representation and realization for conversational systems |
EP3766066B1 (en) * | 2018-04-19 | 2024-02-21 | Microsoft Technology Licensing, LLC | Generating response in conversation |
US11194973B1 (en) * | 2018-11-12 | 2021-12-07 | Amazon Technologies, Inc. | Dialog response generation |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
WO2021011139A1 (en) * | 2019-07-18 | 2021-01-21 | Sri International | The conversational assistant for conversational engagement |
-
2019
- 2019-10-03 JP JP2021550888A patent/JP7218816B2/ja active Active
- 2019-10-03 WO PCT/JP2019/039146 patent/WO2021064948A1/ja active Application Filing
- 2019-10-03 US US17/764,164 patent/US20220351727A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323388A (ja) | 2002-05-01 | 2003-11-14 | Omron Corp | 情報提供方法および情報提供システム |
US20150185996A1 (en) | 2013-12-31 | 2015-07-02 | Next It Corporation | Virtual assistant team identification |
WO2017200079A1 (ja) | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
JP2017208003A (ja) | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
WO2018163647A1 (ja) | 2017-03-10 | 2018-09-13 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
Non-Patent Citations (1)
Title |
---|
杉山弘晃他,文脈に沿った発話理解・生成を行うドメイン特化型雑談対話システムの実験的検討,第84回言語・音声理解と対話処理研究会資料,一般社団法人人工知能学会,2018年11月,pp.118-123 |
Also Published As
Publication number | Publication date |
---|---|
WO2021064948A1 (ja) | 2021-04-08 |
JPWO2021064948A1 (ja) | 2021-04-08 |
US20220351727A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
WO2017200072A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6719741B2 (ja) | 対話方法、対話装置、及びプログラム | |
CN114391145A (zh) | 具有自适应响应生成的ai驱动的个人助理 | |
JP6667855B2 (ja) | 取得方法、生成方法、それらのシステム、及びプログラム | |
WO2017200076A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6864326B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
Yamamoto et al. | Voice interaction system with 3D-CG virtual agent for stand-alone smartphones | |
JP7310907B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP2020113150A (ja) | 音声翻訳対話システム | |
JP7218816B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP7286303B2 (ja) | 会議支援システム及び会議用ロボット | |
WO2017200077A1 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
US11485022B2 (en) | Dialogue apparatus and control program for dialogue apparatus | |
JP6610965B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP2002132291A (ja) | 自然言語対話処理装置およびその方法並びにその記憶媒体 | |
JP7132206B2 (ja) | 案内システム、案内システムの制御方法、およびプログラム | |
WO2017200075A1 (ja) | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム | |
Wolter et al. | A Study on Automated Receptionists in a Real-World Scenario | |
Carlsson | Designing a Digital Voice-Controlled Travel Guide: Investigating the User Experience of Voice-Controlled Customer Service | |
Campbell et al. | Expressivity in interactive speech synthesis; some paralinguistic and nonlinguistic issues of speech prosody for conversational dialogue systems | |
Wolter et al. | VU Research Portal | |
Vrabec et al. | IQ kiosk in metropolitan information system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220207 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20220207 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7218816 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |