JP2024112283A - Dialogue system, dialogue control method, and program - Google Patents
Dialogue system, dialogue control method, and program Download PDFInfo
- Publication number
- JP2024112283A JP2024112283A JP2023221852A JP2023221852A JP2024112283A JP 2024112283 A JP2024112283 A JP 2024112283A JP 2023221852 A JP2023221852 A JP 2023221852A JP 2023221852 A JP2023221852 A JP 2023221852A JP 2024112283 A JP2024112283 A JP 2024112283A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- user
- information
- verbal
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 146
- 230000001755 vocal effect Effects 0.000 claims abstract description 143
- 230000004044 response Effects 0.000 claims abstract description 132
- 230000008569 process Effects 0.000 claims description 132
- 230000008921 facial expression Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 152
- 238000012545 processing Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 38
- 230000007704 transition Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 27
- 230000008451 emotion Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 102100034761 Cilia- and flagella-associated protein 418 Human genes 0.000 description 9
- 101100439214 Homo sapiens CFAP418 gene Proteins 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 230000000474 nursing effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000002537 cosmetic Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000002560 therapeutic procedure Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 206010012289 Dementia Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000012041 food component Nutrition 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000001671 psychotherapy Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000037221 weight management Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、対話システム、対話制御方法、及びプログラムに関する。 The present invention relates to a dialogue system, a dialogue control method, and a program.
ユーザからのメッセージに対して、対話エージェントが自動で応答を行う対話システムがある。また、ユーザとの対話を学習し、対話エージェントの格好、又は性格等の属性を変更するエージェントシステムが知られている(例えば、特許文献1参照)。 There are dialogue systems in which a dialogue agent automatically responds to messages from a user. There are also known agent systems that learn from dialogues with users and change attributes of the dialogue agent, such as its appearance or personality (see, for example, Patent Document 1).
従来の技術では、対話エージェントによる対話は、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができないという問題がある。 Conventional technology has the problem that dialogue agents cannot generate responses based on both the user's linguistic and non-linguistic information.
本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、対話エージェントを用いてユーザと対話を行う対話システムにおいて、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができるようにする。 One embodiment of the present invention has been made in consideration of the above problems, and in a dialogue system that uses a dialogue agent to engage in dialogue with a user, it is possible to generate the dialogue agent's response content based on the user's linguistic information and non-verbal information.
上記の課題を解決するため、一実施形態に係る対話システムは、対話エージェントを用いてユーザと対話を行う対話システムであって、前記対話から前記ユーザの言語情報を取得する第1の取得部と、前記対話から前記ユーザの非言語情報を取得する第2の取得部と、前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、を備える。 In order to solve the above problems, a dialogue system according to one embodiment is a dialogue system that uses a dialogue agent to engage in a dialogue with a user, and includes a first acquisition unit that acquires linguistic information of the user from the dialogue, a second acquisition unit that acquires non-verbal information of the user from the dialogue, a generation unit that generates response content including a verbal response and a non-verbal response of the dialogue agent based on the linguistic information and non-verbal information of the user, and a control unit that controls the dialogue agent based on the response content generated by the generation unit.
本発明の一実施形態によれば、対話エージェントを用いてユーザと対話を行う対話システムにおいて、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができるようになる。 According to one embodiment of the present invention, in a dialogue system that uses a dialogue agent to dialogue with a user, it becomes possible to generate the response content of the dialogue agent based on the user's linguistic information and the user's non-verbal information.
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
<システム構成>
図1は、一実施形態に係る対話システムのシステム構成の例を示す図である。図1の例では、対話システム1は、例えば、インターネット、及びLAN(Local Area Network)等の通信ネットワークNに接続されたサーバ装置100と、端末装置10とを含む。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<System Configuration>
Fig. 1 is a diagram showing an example of a system configuration of a dialogue system according to an embodiment. In the example of Fig. 1, the
サーバ装置100は、例えば、コンピュータの構成を備えた情報処理装置、又は複数のコンピュータによって構成されるシステムである。サーバ装置100は、サーバ装置100が備えるコンピュータが所定のプログラムを実行することにより、端末装置10を利用するユーザ11からのメッセージに対して、対話エージェントが自動で応答を行う対話サービスを提供する。
The
端末装置10は、例えば、PC(Personal Computer)、タブレット端末、又はスマートフォン等のユーザ11が利用する情報端末である。端末装置10は、通信ネットワークNを介して、サーバ装置100と通信可能である。ユーザ11は、端末装置10を用いて、サーバ装置100が提供する対話サービスを利用することができる。
The
好ましくは、対話システム1は、ユーザからのメッセージに対して、対話エージェントが自動で応答を行う対話により、例えば、商談、又は介護等の所定のタスクの遂行を支援する。
Preferably, the
なお、図1に示した対話システム1のシステム構成は一例である。また、端末装置10は、汎用の情報端末に限られず、例えば、専用の端末装置、又は各種の電子機器等であってもよい。また、対話システム1は、例えば、コンピュータの構成を有する1台の情報処理装置によって実現されるものであってもよい。ここでは、対話システム1は、図1に示すようなシステム構成を有しているものとして、以下の説明を行う。
The system configuration of the
(対話エージェントのイメージ)
対話エージェントは、ユーザ、又は顧客等からの問いかけに対して登録された情報や知識を含むナレッジ、又はAI(Artificial Intelligence)等を用いて自動応答するシステムである。
(Image of a conversational agent)
A dialogue agent is a system that automatically responds to questions from a user or a customer using knowledge including registered information and knowledge, or AI (Artificial Intelligence), etc.
対話エージェントの利用ケースとして、例えば、Web会議、Webサイト、スマートフォンアプリ、又はメタバース空間での無人AIアバター等として利用されてもよい。 Examples of use cases for the dialogue agent include web conferences, web sites, smartphone apps, or unmanned AI avatars in the metaverse.
図2は、一実施形態に係る対話エージェントのイメージの一例を示している。この図は、サーバ装置100が端末装置10に表示させる商談用の対話画面200の一例を示している。図2の例では、対話画面200には、3D(three-dimensional)モデリングにより生成されたバーチャルヒューマン201が表示されている。なお、バーチャルヒューマン201は、対話エージェントの一例である。サーバ装置100は、例えば、この対話画面200において、ユーザ11と対話を行いながら、商談を進めるように、バーチャルヒューマン201を制御する。
Figure 2 shows an example of an image of a dialogue agent according to an embodiment. This figure shows an example of a
好適な一例として、商談用の対話画面200には、大型のディスプレイ202が表示されている。サーバ装置100は、このディスプレイ202に、例えば、ユーザ提案する商材を表示するとともに、バーチャルヒューマン201に商材を説明させるように制御することもできる。
As a suitable example, the
図3は、一実施形態に係る対話エージェントのイメージの別の一例を示している。この図は、サーバ装置100が端末装置10に表示させる介護用途の対話画面300の一例を示している。図3の例では、対話画面300には、図2と同様に、3Dモデリングにより生成された別のバーチャルヒューマン301が表示されている。なお、バーチャルヒューマン301は、対話エージェントの別の一例である。サーバ装置100は、この対話画面300において、例えば、一人暮らしの高齢者等を対象に、認知症を予防するためのコミュニケーションを行うように、バーチャルヒューマン301を制御する。
Figure 3 shows another example of an image of a dialogue agent according to an embodiment. This figure shows an example of a
好適な一例として、ユーザ11とバーチャルヒューマン301との対話は、図3に示すように、音声に加えて(又は代えて)、文字列による対話302も可能である。
As a preferred example, the interaction between the
このように、対話システム1は、対話シナリオを変更することにより、例えば、商談、介護、授業、又はカウンセリング等の様々な用途に合わせて、対話内容を変更することができる。
In this way, the
(対話処理の概要)
図4は、一実施形態に係る対話処理の概要について説明するための図である。この図は、横軸を時間とし、ユーザ11と対話エージェントとの対話における、ユーザ11の言語情報、及び非言語情報と、対話エージェントの言語応答、及び非言語応答と関係の一例を示している。
(Overview of interactive processing)
4 is a diagram for explaining an overview of a dialogue process according to an embodiment. This diagram, with the horizontal axis representing time, shows an example of the relationship between the linguistic information and non-linguistic information of the
図4において、ユーザ11が開始操作を行うと、時間t1において、サーバ装置100は、対話エージェントに、言語応答として、挨拶、又はアイスブレイク等の発話401を行わせるとともに、非言語応答として、お辞儀、又は笑顔等のアイスブレイク402を実行させる。
In FIG. 4, when the
これに応じて、時間t2において、ユーザが発話を行うと、サーバ装置100は、ユーザ11の言語情報と、ユーザ11の非言語情報とを取得する。このとき、サーバ装置100は、対話エージェントに、例えば、頷き403等の非言語応答を行わせてもよい。
In response to this, at time t2, when the user speaks, the
ここで、ユーザ11の言語情報には、例えば、音声認識技術によってテキスト化した、ユーザ11の発話411の内容を示す情報が含まれる。また、ユーザ11の非言語情報には、例えば、画像認識技術等によって取得したユーザ11の表情、視線、姿勢、又は感情等の言語情報以外の情報が含まれる。また、ユーザ11の非言語情報には、例えば、ユーザ11の映像に含まれる音声から取得した、声のトーン、話す速さ、声の高さ、声の強さ、咳払い、ため息、笑い、又は沈黙等の言語以外の音声情報(パラ言語)が含まれていてもよい。このように、画像や音声等の非言語情報をマルチモーダルに活用する。
Here, the linguistic information of
言語情報とは、言葉を介して発話の内容が伝達される情報である。例えば、単語、文法、文の構造、文脈などのような、明確に定義された言語のルールと辞書に基づく意味の伝達がされる情報である。例えば、言語情報には、音声認識技術によってテキスト化した、ユーザ11の発話411の内容を示す情報が含まれる。
Linguistic information is information that conveys the content of an utterance through words. For example, it is information that conveys meaning based on clearly defined language rules and dictionaries, such as words, grammar, sentence structure, and context. For example, linguistic information includes information indicating the content of
また、非言語情報とは、言葉以外の手段を通じて伝達される情報である。例えば、画像認識技術等によって取得したユーザ11の表情、視線、姿勢、又は感情等の言語情報以外の情報が含まれる。また、ユーザ11の非言語情報には、例えば、ユーザ11の映像に含まれる音声から取得した、声のトーン、話す速さ、声の高さ、声の強さ、咳払い、ため息、笑い、又は沈黙等の言語以外の音声情報(パラ言語)等が含まれる。このように、本実施形態では、画像や音声等の非言語情報をマルチモーダルに活用する。
Non-verbal information is information that is transmitted through means other than words. For example, it includes non-verbal information such as the facial expression, gaze, posture, or emotions of
また、サーバ装置100は、ユーザ11の言語情報をベースに、ユーザ11の非言語情報を加味して、ユーザ11の発話の意図を解釈する。これにより、サーバ装置100は、言語情報のみで意図を解釈するより、意図解釈の精度を向上させることができる。
In addition, the
さらにサーバ装置100は、ユーザ11の発話の意図に対応する、対話エージェントの応答内容を生成する。この応答内容には、対話エージェントが発話する発話内容を表す言語応答と、例えば、対話エージェントの表情、又はジェスチャー等を表す非言語応答とが含まれる。好ましくは、サーバ装置100は、取得したユーザ11の非言語情報に応じて、対話エージェントの非言語応答を変える。
Furthermore, the
時間t3になると、サーバ装置100は、生成された応答内容に従って、対話エージェントを制御する。例えば、サーバ装置100は、生成された言語応答を音声合成処理で音声化して、対話エージェントに発話404させる。好ましくは、サーバ装置100は、対話エージェントの発話404に合わせて、対話エージェントの口を動かす(リップシンク)。さらに、サーバ装置100は、生成された非言語応答に従って、対話エージェントに、例えば、表情、又はジェスチャー等の非言語応答を実行させる。
At time t3, the
このように、本実施形態に係る対話システム1は、ユーザ11の非言語情報に応じて、対話エージェント(バーチャルヒューマン201、301)の応答内容(言語応答、及び非言語応答)を変える。従って、本実施形態によれば、対話エージェントを用いてユーザと対話を行う対話システム1において、ユーザ11に対してより適切なリアクションを行えるようになる。
<ハードウェア構成>
(コンピュータのハードウェア構成)
サーバ装置100は、例えば、図5に示すようなコンピュータ500のハードウェア構成を有している。或いは、サーバ装置100は、複数のコンピュータ500によって構成される。また、端末装置10は、例えば、図5に示すようなコンピュータ500のハードウェア構成を有していてもよい。
In this way, the
<Hardware Configuration>
(Computer hardware configuration)
The
図5は、一実施形態に係るコンピュータのハードウェア構成の例を示す図である。コンピュータ500は、例えば、図5に示されるように、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)507、ネットワークI/F508、キーボード509、ポインティングデバイス510、DVD-RW(Digital Versatile Disk Rewritable)ドライブ512、メディアI/F514、及びバスライン515等を備えている。
Figure 5 is a diagram showing an example of the hardware configuration of a computer according to an embodiment. For example, as shown in Figure 5, the
また、コンピュータ500が端末装置10である場合、コンピュータ500は、マイク521、スピーカ522,音入出力I/F523、CMOS(Complementary Metal Oxide Semiconductor)センサ524、及び撮像素子I/F525等を、さらに備える。
When the
これらのうち、CPU501は、コンピュータ500全体の動作を制御する。ROM502は、例えば、IPL(Initial Program Loader)等のコンピュータ500の起動に用いられるプログラムを記憶する。RAM503は、例えば、CPU501のワークエリア等として使用される。HD504は、例えば、OS(Operating System)、アプリケーション、デバイスドライバ等のプログラムや、各種データを記憶する。HDDコントローラ505は、例えば、CPU501の制御に従ってHD504に対する各種データの読み出し又は書き込みを制御する。なお、HD504、及びHDDコントローラ505は、ストレージデバイスの一例である。
Of these, the
ディスプレイ506は、例えば、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。なお、ディスプレイ506は、コンピュータ500の外部に設けられていてもよい。外部機器接続I/F507は、コンピュータ500に、様々な外部装置を接続するためのインタフェースである。ネットワークI/F508は、コンピュータ500を通信ネットワーク2に接続して、他の装置と通信するためのインタフェースである。
The
キーボード509は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス510は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行なう入力手段の一種である。なお、キーボード509、及びポインティングデバイス510は、コンピュータ500の外部に設けられていてもよい。
The
DVD-RWドライブ512は、着脱可能な記録媒体の一例としてのDVD-RW511に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RW511は、DVD-RWに限らず、着脱可能な他の記録媒体であってもよい。メディアI/F514は、フラッシュメモリ等のメディア513に対するデータの読み出し又は書き込み(記憶)を制御する。バスライン515は、上記の各構成要素を電気的に接続するためのアドレスバス、データバス及び各種の制御信号等を含む。
The DVD-
マイク521は、音を電気信号に変える内蔵型の回路である。スピーカ522は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F523は、CPU501の制御に従ってマイク521及びスピーカ522との間で音信号の入出力を処理する回路である。
The
CMOSセンサ524は、CPU501の制御に従って被写体(例えば自画像)を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、コンピュータ500は、CMOSセンサ524に代えて、CCD(Charge Coupled Device)センサ等の撮像手段を有していてもよい。撮像素子I/F525は、CMOSセンサ524の駆動を制御する回路である。
The
(端末装置のハードウェア構成の一例)
図6は、一実施形態に係る端末装置のハードウェア構成の一例を示す図である。ここでは、端末装置10が、スマートフォン、又はタブレット端末等の情報端末である場合における端末装置10のハードウェア構成の例について説明する。
(Example of Hardware Configuration of Terminal Device)
6 is a diagram illustrating an example of a hardware configuration of a terminal device according to an embodiment. Here, an example of the hardware configuration of the
図6の例では、端末装置10は、CPU601、ROM602、RAM603、ストレージデバイス604、CMOSセンサ605、撮像素子I/F606、加速度・方位センサ607、メディアI/F609、GPS(Global Positioning System)受信部610を備えている。
In the example of FIG. 6, the
これらのうち、CPU601は、所定のプログラムを実行することにより端末装置10全体の動作を制御する。ROM602は、例えば、IPL等のCPU601の起動に用いられるプログラムを記憶する。RAM603は、CPU601のワークエリアとして使用される。ストレージデバイス604は、OS、アプリ等のプログラム、及び各種のデータ等を記憶する大容量の記憶装置であり、例えば、SSD(Solid State Drive)、又はフラッシュROM等によって実現される。
Of these, the
CMOSセンサ605は、CPU601の制御に従って被写体(主に自画像)を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、端末装置10は、CMOSセンサ605に代えて、CCDセンサ等の撮像手段を有していてもよい。撮像素子I/F606は、CMOSセンサ605の駆動を制御する回路である。加速度・方位センサ607は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアI/F609は、フラッシュメモリ等のメディア(記憶メディア)608に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部610は、GPS衛星からGPS信号(測位信号)を受信する。
The
また、端末装置10は、遠距離通信回路611、遠距離通信回路611のアンテナ611a、CMOSセンサ612、撮像素子I/F613、マイク614、スピーカ615、音入出力I/F616、ディスプレイ617、外部機器接続I/F618、近距離通信回路619、近距離通信回路619のアンテナ619a、及びタッチパネル620を備えている。
The
これらのうち、遠距離通信回路611は、例えば、通信ネットワーク2を介して、他の装置と通信する回路である。CMOSセンサ612は、CPU601の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F613は、CMOSセンサ612の駆動を制御する回路である。マイク614は、音を電気信号に変える内蔵型の回路である。スピーカ615は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F616は、CPU601の制御に従ってマイク614及びスピーカ615との間で音波信号の入出力を処理する回路である。
Of these, the long-
ディスプレイ617は、被写体の画像や各種アイコン等を表示する液晶や有機EL(Electro Luminescence)等の表示手段の一種である。外部機器接続I/F618は、各種の外部機器を接続するためのインタフェースである。近距離通信回路619は、近距離無線通信を行う回路を含む。タッチパネル620は、利用者がディスプレイ617を押下することで、端末装置10を操作する入力手段の一種である。
The
また、端末装置10は、バスライン621を備えている。バスライン621は、図6に示されているCPU601等の各構成要素を電気的に接続するためのアドレスバスやデータバス等を含む。
The
なお、図6に示した端末装置10のハードウェア構成は一例である。端末装置10は、コンピュータの構成、通信回路、ディスプレイ、マイク、及びスピーカ等を有していれば、他のハードウェア構成であってもよい。
Note that the hardware configuration of the
<機能構成>
図7は、一実施形態に係る対話システムの機能構成の例を示す図である。
<Functional configuration>
FIG. 7 is a diagram illustrating an example of a functional configuration of a dialogue system according to an embodiment.
(サーバ装置の機能構成)
サーバ装置100は、サーバ装置100が備えるコンピュータ500が、記憶媒体に記憶した所定のプログラムを実行することにより、例えば、図7に示すような機能構成を実現している。図7の例では、サーバ装置100は、通信部701、第1の取得部702、第2の取得部703、生成部704、音声合成部711、描画部712、及び出力部713等を有している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであってもよい。
(Functional configuration of the server device)
The
また、サーバ装置100は、例えば、HD504、及びHDDコントローラ505等のストレージデバイス等により、記憶部710を実現している。なお、記憶部710は、例えば、サーバ装置100の外部に設けられたストレージサーバ、又はクラウドサービス等によって実現されるものであってもよい。
The
通信部701は、例えば、ネットワークI/F508等を用いて、サーバ装置100を通信ネットワークNに接続し、端末装置10等の他の装置と通信する通信処理を実行する。
The
第1の取得部702は、端末装置10を利用するユーザ11との対話から、ユーザ11の言語情報を取得する第1の取得処理を実行する。例えば、第1の取得部702は、通信部701が、端末装置10から受信したユーザ11の映像(動画像、及び音声)から、VAD(Voice Activity Detection)等の技術により音声区間を検出し、ユーザ11の発話音声を取得する。また、第1の取得部702は、取得したユーザ11の発話音声に対して、音声認識処理を実行して、ユーザ11の発話音声をテキスト化する。さらに、第1の取得部702は、テキスト化したユーザ11の発話テキストを、ユーザ11の言語情報として取得する。
The
第2の取得部703は、端末装置10を利用するユーザ11との対話から、ユーザ11の非言語情報を取得する第2の取得処理を実行する。例えば、第2の取得部703は、通信部701が、端末装置10から受信したユーザ11の映像(動画像、及び音声)から、画像処理により、例えば、表情、視線、又は感情等のユーザ11の非言語情報を取得する。また、第2の取得部703は、通信部701が、端末装置10から受信したユーザ11の映像(動画像、及び音声)から、例えば、声の大小、声の抑揚、又は声の音色等のユーザ11の非言語情報を取得する。
The
生成部704は、第1の取得部702が取得したユーザ11の言語情報と、第2の取得部703が取得したユーザ11の非言語情報とに基づいて、対話エージェントの言語応答(対話内容)と非言語応答(対話エージェントの動作、又はパラ言語等)とを含む応答内容を生成する生成処理を実行する。例えば、生成部704は、対話制御部705、意図解釈部706、及び応答生成部707を含む。また、図示はしていないが、応答生成部707のバックエンドには、実際に行われた対話情報(音声や画像等)が大量に蓄積されており、その対話情報が応答生成部707の構築に用いられる。応答生成部707が後述の機械学習モデルの場合、それらの対話情報は学習データとして用い、対話生成の精度向上に寄与する。
The
対話制御部705は、ユーザ11の言語情報と非言語情報とを入力する処理、及び対話エージェントの言語応答と非言語応答を出力する処理等を含む対話制御処理を実行する。
The
意図解釈部706は、ユーザ11の言語情報をベースに、ユーザ11の非言語情報を加味して、ユーザ11の発話の意図を解釈する意図解釈処理を実行する。例えば、ユーザ11が「それは、いいです」と発話した場合、ユーザ11の言語情報(発話テキスト)だけでは、ユーザ11が、それが「良い」ことを意図しているのか、それが「不要である」ことを意図しているのか判断することが難しい場合がある。そこで、本実施形態に係る意図解釈部706は、ユーザ11の言語情報(発話テキスト)だけではなく、ユーザ11の非言語情報を用いて、ユーザ11の発話の意図を解釈する。これにより、意図解釈部706は、意図解釈処理の精度を向上することができる。
The
例えば、意図解釈部706は、複数のユーザの言語情報と非言語情報とを入力データとして、ユーザの意図を解釈するように、予め機械学習した機械学習モデルに、ユーザ11の言語情報と非言語情報とを入力して、ユーザ11の発話の意図を解釈してもよい。
For example, the
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。 Here, machine learning refers to a technology that allows a computer to acquire human-like learning capabilities, in which the computer autonomously generates algorithms necessary for judgments such as data identification from training data that is previously loaded, and applies these to new data to make predictions. The learning method for machine learning may be any of supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, and deep learning, or may be a combination of these learning methods; any learning method for machine learning is acceptable.
応答生成部707は、ユーザ11の発話の意図に対応する、対話エージェントの応答内容を生成する応答生成処理を実行する。この応答内容には、対話エージェントが発話する発話内容を表す言語応答と、例えば、対話エージェントの表情、又はジェスチャー等を表す非言語応答とが含まれる。好ましくは、サーバ装置100は、取得したユーザ11の非言語情報に応じて、対話エージェントの言語応答、及び非言語応答を変える。
The
例えば、応答生成部707は、ユーザ11の非言語情報に応じて、対話エージェントのアクションの内容を変更する。また、応答生成部707は、ユーザ11の非言語情報に応じて、対話エージェントのアクションのタイミングを変更する。
For example, the
応答内容の生成には、例えば、ルールベース、又は大規模言語モデルによる自然言語処理を用いることができる。大規模言語モデルとしては、一例として、GPT-3(Generative Pre-trained Transformer 3)と呼ばれる文章生成言語モデルを適用することができる。また、ルールベースの自然言語処理では、ユーザの発話の意図に対して、応答内容を予め記述したルールに基づいて、対話エージェントの応答内容を生成する。 For example, natural language processing based on rules or large-scale language models can be used to generate the response content. As an example of a large-scale language model, a sentence generation language model called GPT-3 (Generative Pre-trained Transformer 3) can be applied. In rule-based natural language processing, the response content of the dialogue agent is generated based on rules that predescribe the response content in response to the user's speech intention.
また、応答内容の進行には、シナリオ型とスロット・フィリング型がある(参考:https://goqsmile.com/function/about/)。 In addition, there are two types of response content progression: scenario type and slot-filling type (reference: https://goqsmile.com/function/about/).
音声合成部711は、生成部704が生成した言語応答を、音声合成技術により音声化する音声合成処理を実行する。
The
描画部712は、生成部704が生成した非言語応答に従って、対話エージェントを描画した対話画面を描画する描画処理を実行する。例えば、描画部712は、非言語応答に従って、表情、視線、姿勢、又は感情等を、図2に示すようなバーチャルヒューマン(対話エージェント)201に反映する。
The
好ましくは、描画部712は、対話エージェントの発話に合わせて、対話エージェントの口を動かすリップシンクの描画も行う。
Preferably, the
出力部713は、音声合成部711が音声化した対話エージェントの音声と、描画部712が描画した対話画面とを含む映像を出力する出力処理を実行する。例えば、出力部713は、音声合成部711が音声化した対話エージェントの音声と、描画部712が描画した対話画面とを含む映像を、通信部701を介して、端末装置10に送信する。
The
なお、音声合成部711、描画部712、及び出力部713は、生成部704で生成した応答内容に基づいて対話エージェントを制御する制御部714の一例である。
The
記憶部710は、サーバ装置100が用いる機械学習モデル、ルール、設定情報、及び対話ログ等の様々な情報、データ、及びプログラム等を記憶する。
The
(端末装置の機能構成)
端末装置10は、例えば、端末装置10が備えるウェブブラウザ等を用いて、サーバ装置100にアクセスして、図2に示すような対話画面200を表示し、ユーザ11の映像を送信できるものであれば、任意の機能構成であってよい。
(Functional configuration of terminal device)
The
なお、図7に示した対話システム1のシステム構成は一例である。例えば、対話システム1は、図7に示したサーバ装置100の機能構成を有する1台の情報処理装置によって構成されるものであってもよい。また、サーバ装置100の各機能構成のうち、少なくとも一部は、端末装置10が有していてもよい。例えば、端末装置10は、第1の取得部702、第2の取得部703、音声合成部711、描画部712、及び出力部713等を有していてもよい。この場合、端末装置10は、言語情報、及び非言語情報をサーバ装置100に送信し、サーバ装置100から受信した言語応答、及び非言語応答に基づいて、対話画面を表示してもよい。
The system configuration of the
<処理の流れ>
図8は、一実施形態に係る対話システムが実行する対話処理の概要を示すフローチャートである。この処理は、例えば、図7に示すような機能構成を有する対話システム1が、繰り返し実行する処理の一例を示している。なお、図8の処理の開始時点において、端末装置10を利用するユーザ11と、サーバ装置100が提供する対話エージェントとの間で対話が既に行われているものとする。
<Processing flow>
Fig. 8 is a flowchart showing an outline of a dialogue process executed by a dialogue system according to an embodiment. This process shows an example of a process repeatedly executed by a
ステップS801において、第1の取得部702は、ユーザ11と、対話エージェントとの間の対話から、ユーザの言語情報を取得する。例えば、第1の取得部702は、通信部701が、端末装置10から受信したユーザ11の映像から、ユーザ11の発話音声を取得する。また、第1の取得部702は、取得したユーザ11の発話音声に対して音声認識処理を実行し、ユーザ11の発話音声をテキスト化したユーザ11の発話テキスト(言語情報)を取得する。
In step S801, the
ステップS802において、第2の取得部703は、ステップS801の処理と並行して、ユーザ11と、対話エージェントとの間の対話から、ユーザ11の非言語情報を取得する。例えば、第2の取得部703は、通信部701が、端末装置10から受信したユーザ11の映像から、画像処理により、ユーザ11の表情、視線、又は感情等の非言語情報を取得する。また、第2の取得部703は、通信部701が、端末装置10から受信したユーザ11の映像から、音声処理により、声の大小、声の抑揚、又は声の音色等の非言語情報を取得する。
In step S802, the
ステップS803において、生成部704は、第1の取得部702が取得したユーザ11の言語情報と、第2の取得部703が取得したユーザ11の非言語情報とに基づいて、ユーザ11の発話の意図を解釈する。
In step S803, the
ステップS804において、生成部704は、ユーザ11の発話の意図に対応する言語応答、及び非言語応答を生成する。
In step S804, the
ステップS805において、音声合成部711は、生成部704が生成した言語応答に基づいて、対話エージェントの発話音声を合成する。
In step S805, the
ステップS806において、描画部712は、ステップS8095の処理と並行して、生成部704が生成した非言語応答に基づいて、対話エージェントを描画する。
In step S806, the
ステップS807において、出力部713は、音声合成部711が合成した対話エージェントの発話音声と、描画部712が描画した対話エージェントを含む対話画面を出力する。例えば、出力部713は、通信部701を用いて、端末装置10に対話画面を送信する。
In step S807, the
対話システム1は、図8の処理を繰り返し実行することにより、ユーザ11の非言語情報に基づいて、対話エージェントの発話音声だけではなく、対話エージェントの非言語対応を変更することができる。これにより、本実施形態によれば、対話エージェントを用いてユーザ11と対話を行う対話システム1において、ユーザ11に対してより適切なリアクションを行えるようになる。
By repeatedly executing the process of FIG. 8, the
[第1の実施形態]
本実施形態に係る対話システム1は、対話シナリオを変更することにより、様々な用途に対応することができる。第1の実施形態では、商談用途に対応した対話処理の例について説明する。
[First embodiment]
The
<機能構成>
第1の実施形態に係る対話システム1は、例えば、図7に示すような機能構成を有している。また、第1の実施形態に係る生成部704は、例えば、図9に示すような機能構成を有している。
<Functional configuration>
The
図9は、第1の実施形態に係る生成部の機能構成の例を示す図である。図9に示すように、生成部704の対話制御部705は、例えば、入力フィルタ部901、対話状態管理部902、及び出力フィルタ部903を含む。
Figure 9 is a diagram showing an example of the functional configuration of the generation unit according to the first embodiment. As shown in Figure 9, the
入力フィルタ部901は、例えば、ユーザ11の言語情報と非言語情報との入力を受け付ける入力I/Fの機能、誤認識対応機能、及び不適切な入力を検知する機能等を有している。なお、誤認識対応機能、及び不適切な入力を検知する機能は、オプションであり必須ではない。
The
対話状態管理部902は、例えば、入力情報を記録する機能、現在の商談段階を記憶する機能、商談段階を制御する機能、及び出力情報を記録する機能等を有している。商談段階とは、商談の進行度を数値で定義した一例である。
The dialogue
出力フィルタ部903は、例えば、対話エージェントの言語対応、及び非言語対応を出力する出力I/Fの機能、及び不適切な出力を検知する機能等を有している。なお、不適切な出力を検知する機能は、オプションであり必須ではない。
The
意図解釈部706は、対話制御部705が受け付けたユーザ11の言語情報と非言語情報とに基づいて、ユーザ11の発話の意図を解釈する意図解釈処理を実行する。意図解釈部706は、例えば、ユーザ11の言語情報と文脈から、ユーザ11の意図を推定することも可能であるが、ユーザ11の非言語情報を加味した方がより的確にユーザ11の意図を解釈できる可能性が高くなる。
The
例えば、「嘘でしょう?」というユーザ11の発話は、ネガティブな応答に用いられる場合が多いが、良い意味で期待を上回った場合に、ユーザ11が喜んで「嘘でしょう?」というときにも用いられる。このような場合、意図解釈部706は、ユーザ11の非言語情報を手がかりにして、ユーザ11の意図をより的確に解釈することが望ましい。
For example, the utterance "You're kidding, right?" by
例えば、ユーザ11の非言語情報として、ユーザ11の音声のトーンが高く、ユーザ11の表情が明るい場合、意図解釈部706は、ユーザ11の「嘘でしょう?」という発話を「ポジティブ(喜んで)」と判断してもよい。この場合、生成部704は、例えば、対話エージェントの表情を笑顔とし、現在の対話シナリオを維持してもよい。
For example, if the non-verbal information of the
一方、ユーザ11の音声のトーンが低く、ユーザ11の画像の表情が暗い場合、意図解釈部706は、ユーザ11の「嘘でしょう?」という発話を「ネガティブ」と判断してもよい。この場合、生成部704は、例えば、対話エージェントの身振り、手振りを低減し、より詳細な実例を含む対話(商材)シナリオに遷移してもよい(或いは、他の商材のシナリオに遷移してもよい。)
On the other hand, if the tone of the
商談というビジネスシーンでは商談相手の喜怒哀楽が表れにくいところ、ネガティブと判断される非言語情報は、商談の進行だけでなく次回の商談にも影響する長期的な心証形成にかかわる重要な情報となるため、慎重な対応が求められる。たとえばトーンの低さの程度や表情の暗さの程度までも考慮し、シナリオの遷移の可否を判断することが望ましい。 In the business world of a business negotiation, it is difficult to reveal the emotions of the other party, so non-verbal information that is judged to be negative is important information that affects not only the progress of the negotiation but also the formation of a long-term impression that may affect the next negotiation, so it requires careful handling. For example, it is desirable to take into account the lowness of the tone and even the gloominess of the facial expression when deciding whether or not to transition to a different scenario.
応答生成部707は、複数の商談段階1~7に対応する複数の対話シナリオ911~917、商材レコメンド部918、及び判断部919等を含む。なお、商材レコメンド部918、及び判断部919は、応答生成部707の外部に設けられていてもよい。
The
第1段階に対応する対話シナリオ911は、商談を開始するときに用いられる対話シナリオであり、例えば、商談の開始の挨拶、又は顧客データの検索等を行う。第2段階に対応する対話シナリオ912は、例えば、名刺交換、又はスモールトーク等の対話を行う。第3段階に対応する対話シナリオ913は、例えば、業務内容のヒアリング、又は使用機器のヒアリング等の対話を行う。第4段階に対応する対話シナリオ914は、例えば、顕在ニーズの確認、又は潜在ニーズの掘り起こし等の対話を行う。
The
第5段階に対応する対話シナリオ911は、例えば、レコメンドする商材の提示、購買意欲を増進させるキャッチコピーの提示、商談延期の判断、又は商談終了の判断等の対話を行う。第6段階に対応する対話シナリオ912は、例えば、納期確認、又は電子契約誘導等の対話を行う。第7段階に対応する対話シナリオ917は、例えば、日報作成、又はアンケート生成・送付等のインタラクションを行う。
The
対話制御部705の対話状態管理部902は、現在の商談の状態に応じて、複数の対話シナリオ911~917から、使用する対話シナリオを選択する。例えば、対話制御部705は、第1段階に対応する対話シナリオ911から商談を開始し、商談が進行するに伴い、商談段階を上げる。また、対話制御部705は、ユーザ11が商談に否定的な場合、商談段階を下げる。
The dialogue
これにより、生成部704は、予め設定された複数の商談段階に応じて、対話エージェントの応答内容を変更することができる。なお、商談段階は、予め設定された複数の対話段階の一例である。
This allows the
商材レコメンド部918は、例えば、第5段階において、第1段階~第4段階の対話内容に基づいて、ユーザ11に薦める商材を選択する商材レコメンド処理を実行する。判断部919は、例えば、第5段階において、第1段階~第5段階の対話内容に基づいて、商談を延期するか否か、又は商談を終了するか否か等を判断する判断処理を実行する。
The
なお、図9に示した、複数の商談段階1~7の数は一例であり、2つ以上の他の数であってもよい。また、図9に示した、複数の対話シナリオ911~917の対話内容は一例であり、他の内容であってもよい。
Note that the number of
<処理の流れ>
図10Aは、第1の実施形態に係る対話処理の例を示すフローチャートである。この処理は、例えば、図7に示すようなサーバ装置100の機能構成と、図9に示すような生成部704の機能構成とを有する対話システム1が実行する対話処理の例を示している。
<Processing flow>
Fig. 10A is a flowchart showing an example of dialogue processing according to the first embodiment. This processing shows an example of dialogue processing executed by a
ステップS1001において、対話システム1は、第1段階に対応する対話シナリオ911で対話を開始するとともに、ユーザ11に関する顧客データがあるか否かを判断する。顧客データがある場合、対話システム1は、処理をステップS1002に移行させる。一方、顧客データがない場合、対話システム1は、処理をステップS1008に移行させる。
In step S1001, the
ここで、ステップS1002~S1005の処理と、ステップS1008~S1011の処理は、同様の商談段階になっているが、利用する対話シナリオが異なる。例えば、ステップS1002~S1005の処理では、対話システム1は、顧客データを持っているので、過去の商談データに基づいて、商談を進める対話シナリオを用いることが望ましい。一方、ステップS1008~S1011の処理では、対話システム1は、顧客データを持っていないので、顧客データの作成に必要な情報も含めて、丁寧にヒアリングする対話シナリオを用いることが望ましい。これにより、対話エージェントが、ユーザ11に、毎回、同じような内容をヒアリングしてしまうことを抑制することができる。
Here, the processing of steps S1002 to S1005 and the processing of steps S1008 to S1011 are at similar stages of negotiation, but the dialogue scenarios used are different. For example, in the processing of steps S1002 to S1005, since the
ステップS1002に移行すると、対話システム1は、第2段階に対応する対話シナリオ912で対話を行うとともに、名刺交換、又はスモールトークができたか否かを判断する。名刺交換、又はスモールトークができた場合、対話システム1は、処理をステップS1004に移行させる。一方、名刺交換、又はスモールトークができていない場合、対話システム1は、例えば、図10Aの処理(商談)を終了する。好ましくは、対話システム1は、第2段階に対応する対話シナリオ912で対話を開始してから、所定の時間を経過しても、名刺交換、又はスモールトークができていない場合、商談を終了する。
When the process proceeds to step S1002, the
ステップS1003に移行すると、対話システム1は、第3段階に対応する対話シナリオ913で対話を行うとともに、例えば、業務内容、又は使用機器等の状況をヒアリングできたか否かを判断する。状況をヒアリングできた場合、対話システム1は、処理をステップS1004に移行させる。一方、状況をヒアリングできていない場合、対話システム1は、例えば、図10Aの処理(商談)を終了する。好ましくは、対話システム1は、第3段階に対応する対話シナリオ913で対話を開始してから、所定の時間を経過しても、状況をヒアリングできていない場合、商談を終了する。
When the process proceeds to step S1003, the
ステップS1004に移行すると、対話システム1は、第4段階に対応する対話シナリオ914で対話を行うとともに、例えば、潜在ニーズ、又は予測ニーズ等のニーズを聞き取りできたか否かを判断する。ニーズを聞き取りできた場合、対話システム1は、処理をステップS1005に移行させる。一方、ニーズを聞き取りできていない場合、対話システム1は、処理をステップS1003に戻す。
When the process proceeds to step S1004, the
ステップS1005に移行すると、対話システム1は、第5段階に対応する対話シナリオ915で対話を行うとともに、商材を提案できたか否かを判断する。商材を提案できた場合、対話システム1は、処理をステップS1006に移行させる。一方、商材を提案できていない場合、対話システム1は、処理をステップS1004又はステップS1005に戻す。
When the process proceeds to step S1005, the
例えば、対話システム1は、ステップS1003、S1004で取得した情報に基づいて、商材レコメンド部918を用いて、ユーザ11に提案する商材を選択する。ただし、取得した情報が不十分であり、商材レコメンド部918が、ユーザ11に提案する商材を選択できない場合、対話システム1は、処理をステップS1004又はステップS1005に戻す。
For example, the
ステップS1006に移行すると、対話システム1は、第6段階に対応する対話シナリオ916で対話を行うとともに、契約を締結できたか否かを判断する。契約を締結できた場合、対話システム1は、処理をステップS1007に移行させる。一方、契約を締結できていない場合、対話システム1は、例えば、処理をステップS1005に戻す。
When the process proceeds to step S1006, the
ステップS1007に移行すると、対話システム1は、第7段階に対応する対話シナリオ917で対話を行うとともに、商談の整理ができたか否かを判断する。商談の整理ができた場合、対話システム1は、図10Aの処理を終了する。
When the process proceeds to step S1007, the
一方、ステップS1001からステップS1008に移行すると、対話システム1は、第2段階に対応する対話シナリオ912(新規顧客用)で対話を行うとともに、名刺交換、又はスモールトークができたか否かを判断する。名刺交換、又はスモールトークができた場合、対話システム1は、処理をステップS1009に移行させる。一方、名刺交換、又はスモールトークができていない場合、対話システム1は、図10Aの処理(商談)を終了する。好ましくは、対話システム1は、第2段階に対応する対話シナリオ912(新規顧客用)で対話を開始してから、所定の時間を経過しても、名刺交換、又はスモールトークができていない場合、商談を終了する。
On the other hand, when the process moves from step S1001 to step S1008, the
ステップS1009に移行すると、対話システム1は、第3段階に対応する対話シナリオ913(新規顧客用)で対話を行うとともに、例えば、業務内容、又は使用機器等の状況をヒアリングできたか否かを判断する。状況をヒアリングできた場合、対話システム1は、処理をステップS1010に移行させる。一方、状況をヒアリングできていない場合、対話システム1は、図10Aの処理(商談)を終了する。好ましくは、対話システム1は、第3段階に対応する対話シナリオ913(新規顧客用)で対話を開始してから、所定の時間を経過しても、状況をヒアリングできていない場合、商談を終了する。
When the process proceeds to step S1009, the
ステップS1010に移行すると、対話システム1は、第4段階に対応する対話シナリオ914(新規顧客用)で対話を行うとともに、例えば、潜在ニーズ、又は予測ニーズ等のニーズを聞き取りできたか否かを判断する。ニーズを聞き取りできた場合、対話システム1は、処理をステップS1011に移行させる。一方、ニーズを聞き取りできていない場合、対話システム1は、処理をステップS1009に戻す。
When the process proceeds to step S1010, the
ステップS1011に移行すると、対話システム1は、第5段階に対応する対話シナリオ915(新規顧客用)で対話を行うとともに、商材を提案できたか否かを判断する。商材を提案できた場合、対話システム1は、処理をステップS1006に移行させる。一方、商材を提案できていない場合、対話システム1は、処理をステップS1010に戻す。
When the process proceeds to step S1011, the
図10Aの処理により、対話システム1は、予め設定された複数の対話段階に応じて、対話エージェントの応答内容を変更することができる。
By the process of FIG. 10A, the
なお、図10Aの処理は一例である。例えば、対話システム1は、ステップS1006において、契約締結できていない場合、図10BのステップS1021、S1022の処理を実行してもよい。
The process in FIG. 10A is an example. For example, if a contract has not been concluded in step S1006, the
図10Bは、第1の実施形態に係る対話処理の例を示すフローチャート(2)である。ステップS1006において、契約を締結できていない場合、対話システム1は、処理をステップS1021に移行させる。
FIG. 10B is a flowchart (2) showing an example of dialogue processing according to the first embodiment. If a contract has not been concluded in step S1006, the
ステップS1021に移行すると、対話システム1は、ユーザ11の感情分析がポジティブであるか否かを判断する。感情分析がポジティブである場合、対話システム1は、処理をステップS1005に戻す。一方、感情分析がポジティブでない場合(ネガティブである場合)、対話システム1は、処理をステップS1022に移行させる。
When the process proceeds to step S1021, the
ステップS1022に移行すると、対話システム1は、例えば、終了(又は延期)の挨拶をして、図10Bの処理を終了する。例えば、対話システム1は、対話エージェントに、商談終了の挨拶をさせるとともに、お辞儀をさせてもよい。
When the process proceeds to step S1022, the
図11は、第1の実施形態に係る非言語情報の利用例について説明するための図である。例えば、対話システム1は、ユーザ11の映像1100から、ユーザ11の顔が向いている方向を示す方向ベクトル1101を取得し、取得した方向ベクトル1101と、ユーザ11の瞳の位置112とに基づいて、ユーザ11の視線を表す視線情報を取得する。
Figure 11 is a diagram for explaining an example of the use of non-verbal information according to the first embodiment. For example, the
例えば、ユーザ11が、対話エージェントが提示した商材に対して関心を示している場合、ユーザ11は、対話画面に表示した商材を凝視する傾向にあるため、例えば、視線1103a、1103bのように、視線はあまり変動しない(分散が小さい)。一方、ユーザ11が、対話エージェントが提示した商材に対して関心を示していない場合、注意力が低下するので、例えば、視線1103cのように、視線が変動する(分散が大きい)。
For example, if
従って、対話システム1は、例えば、ユーザ11に商材を提示した後に、ユーザ11の視線を表す視線情報を取得して、視線の分散が小さい場合、ユーザ11の感情分析がポジティブ(商談を続ける)と判断してもよい。また、対話システム1は、例えば、ユーザ11に商材を提示した後に、ユーザ11の視線を表す視線情報を取得して、視線の分散が大きい場合、ユーザ11の感情分析がネガティブ(商談を終了、又は延期する)と判断してもよい。
Therefore, for example, the
なお、この方法は、商談の終了(又は延期)の判断に限られず、例えば、より高い商談段階に移行するか、より低い商談段階に戻るかを判断するために用いてもよい。 Note that this method is not limited to determining whether to end (or postpone) a negotiation, but may also be used, for example, to determine whether to move to a higher negotiation stage or return to a lower negotiation stage.
[第2の実施形態]
第1の実施形態では、介護用途に対応した対話処理の一例について説明する。介護用途では、回想法に対応する対話シナリオを用いることができる。回想法とは、高齢者等が、自分の過去のことを話すことで精神を安定させ、認知機能の改善も期待できる心理療法のことである。
Second Embodiment
In the first embodiment, an example of dialogue processing corresponding to a nursing care application will be described. In the nursing care application, a dialogue scenario corresponding to reminiscence therapy can be used. Reminiscence therapy is a psychotherapy that can stabilize the mind of elderly people and improve their cognitive functions by talking about their past.
回想法で懐かしい思い出を話題にして対話することは、右脳で浮かんだイメージ映像を、左脳が言語化していく作業だと言われている。起承転結の会話は「5W(When, Where, Who, What, Why)話法」と言い、場面の様子やどんな風だったかを中心にした会話を「1H(How)話法」という。起承転結をともなうストーリーよりも、その時の様子や場面を対話する方が、楽しさが倍増すると言われている。 It is said that talking about fond memories using reminiscence therapy is a process in which the left brain verbalizes the images that arise in the right brain. A conversation with an introduction, development, twist and conclusion is called the "5W (When, Where, Who, What, Why) method of speaking," while a conversation that focuses on the situation and what it was like is called the "1H (How) method of speaking." It is said that talking about the situation and the scene at the time is twice as enjoyable as a story with an introduction, development, twist and conclusion.
そこで、第2の実施形態では、対話システム1は、回想法の対話シナリオを用いて、対話の進行に伴い、具体的に対話を深掘りさせるために、1H話法を重ねる対話シナリオを設け、その対話シナリオに基づいて、対話エージェントの応答内容を生成する。
Therefore, in the second embodiment, the
なお、第2の実施形態に係る対話システム1の機能構成は、図7で説明した対話システム1の機能構成と同様でよい。
The functional configuration of the
<処理の流れ>
図12、13は、第2の実施形態に係る対話シナリオの遷移の一例を示す図である。この図は、回想法の対話シナリオの遷移の一例を示している。なお、実際の遷移は、ユーザ11の発話によって変わるため、この図は、図12、13に示すように、ユーザ11が発話したときの遷移の一例を示している。
<Processing flow>
12 and 13 are diagrams showing an example of a transition of a dialogue scenario according to the second embodiment. These diagrams show an example of a transition of a dialogue scenario for reminiscence therapy. Note that since the actual transition changes depending on the utterance of the
例えば、状態1201において、対話エージェントは、「学生時代はなにかスポーツをやっていましたか?」と発話し、状態1202において、ユーザ11は、一例として、「スポーツAをやっていた」と発話したものとする。
For example, in
この場合、対話システム1は、第1段階として、対話エージェントに、スポーツAの全般の知識を振り返る発話をさせる。例えば、状態1203において、対話エージェントは、「ポジションはどこでしたか?」と発話する。また、状態1204において、ユーザ11は、一例として、「ポジションBだった」と発話したものとする。
In this case, in the first step, the
この場合、対話システム1は、第2段階として、対話エージェントに、スポーツAの話題を深掘りする発話をさせる。例えば、対話エージェントは、状態1205、1209、1213、1215から、ランダムに1つの状態を選択し、選択した状態に遷移させる。
In this case, in the second stage, the
一例として、状態1205に遷移すると、対話エージェントは、「試合にでたことはありますか?」と発話する。また、状態1206において、ユーザ11は、一例として、「何度もでていた」と発話したものとする。
As an example, when transitioning to
ここで、対話システム1は、第3段階として、対話エージェントに、状態1205の話題をさらに深掘りする発話をさせる。例えば、状態1207において、対話エージェントは、「なにか賞をとりましたか」と発話する。また、状態1208において、ユーザ11は、一例として、「県大会に出場した」と発話したものとする。ここで、対話システム1は、一例として、状態1217に状態を遷移させる。
Here, as a third stage, the
別の一例として、状態1204から状態1209に遷移すると、対話エージェントは、「どのくらいの頻度でスポーツAをやっていましたか?」と発話する。また、状態1210において、ユーザ11は、一例として、「週に3回以上やっていた」と発話したものとする。
As another example, when transitioning from
ここで、対話システム1は、第3段階として、対話エージェントに、状態1209の話題をさらに深掘りする発話をさせる。例えば、状態1211において、対話エージェントは、「スポーツAのどこが好きでしたか?」と発話する。また、状態1212において、ユーザ11は、一例として、「チームでプレイできるところ」と発話したものとする。ここで、対話システム1は、一例として、状態1217に状態を遷移させる。
Here, as a third stage, the
別の一例として、状態1204から状態1213に遷移すると、対話エージェントは、「スポーツAをすきでしたか?」と発話する。また、状態1214において、ユーザ11は、一例として、「はい」と発話したものとする。ここで、対話システム1は、一例として、状態1211に状態を遷移させる。
As another example, when transitioning from
別の一例として、状態1204から状態1215に遷移すると、対話エージェントは、「スポーツAを観戦することはありますか?」と発話する。また、状態1216において、ユーザ11は、一例として、「あります」と発話したものとする。ここで、対話システム1は、一例として、状態1217に状態を遷移させる。このように、対話システム1は、第3段階の深掘りを省略してもよい。
As another example, when transitioning from
状態1217に遷移すると、対話エージェントは、「教えてくれてありがとうございます。スポーツAを楽しめているのですね。素晴らしいです。」と発話し、状態1218において、ユーザ11は、一例として、「はい」と発話したものとする。
When the state transitions to 1217, the dialogue agent utters, "Thank you for letting me know. I hear you're enjoying sport A. That's great.", and in
ここで、対話システム1は、例えば、対話を終了してもよいし、図13の状態1301に、さらに状態を遷移させてもよい。
At this point, the
状態1301に遷移すると、対話エージェントは、例えば、「好きなチームはありましたか?」と発話する。また、状態1302において、ユーザ11は、一例として、「チームCが好きだった」と発話したものとする。
When the state transitions to 1301, the dialogue agent utters, for example, "Did you have a favorite team?". Also, in
この場合、対話システム1は、第4段階として、対話エージェントに、スポーツAで好きなチーム(又は選出)について深掘りする発話をさせる。例えば、状態1303において、対話エージェントは、「チームCのどんなところが好きでしたか?」と発話する。また、状態1304において、ユーザ11は、一例として、「強いところ」と発話したものとする。この場合、対話システム1は、対話エージェントに、終了の挨拶をさせる。例えば、状態1305において、対話エージェントは、「そうなんですね。教えてくれてありがとうございます。お時間を頂きありがとうございました。対話を終了します。」等と発話して、対話を終了する。
In this case, in the fourth stage, the
図12、13の遷移により、対話システム1は、回想法の対話シナリオを用いて、対話の進行に伴い、具体的に対話を深掘りさせるために、1H話法を重ねて、対話エージェントに対話させることができる。
By using the transitions in Figures 12 and 13, the
[第3の実施形態]
例えば、図3に示すような対話画面300において、音声による対話と、バーチャルヒューマン301の所作だけではなく、補助的な視覚情報を追加することにより、商談においても、介護においても、対話の深掘りが容易になる。
[Third embodiment]
For example, in an
図14は、第3の実施形態に係る対話画面の一例を示す図である。図14の例では、対話画面1400には、バーチャルヒューマン(対話エージェント)1401、及び文字列による対話302に加えて、対話内容に基づいて生成した画像である挿絵1403が表示されている。この挿絵1403により、ユーザ11は、対話内容であるクロスカントリースキーのイメージを、容易に思い浮かべることができる。なお、挿絵1403には、例えば、効果音、又は対話内容とは別の音声等の音情報が含まれていてもよい。
Figure 14 is a diagram showing an example of a dialogue screen according to the third embodiment. In the example of Figure 14, in addition to a virtual human (dialogue agent) 1401 and a
<機能構成>
図15は、第3の実施形態に係る対話システムの機能構成の例を示す図である。図15に示すように、第3の実施形態に係るサーバ装置100は、図7で説明したサーバ装置100の機能構成に加えて、画像生成部1501を有している。
<Functional configuration>
Fig. 15 is a diagram showing an example of the functional configuration of the dialogue system according to the third embodiment. As shown in Fig. 15, the
画像生成部1501は、例えば、生成部704に含まれ、ユーザ11との対話内容に基づいて生成した画像である挿絵1403生成する画像生成処理を実行する。例えば、画像生成部1501は、テキスト情報から画像を生成する学習済の機械学習モデル(例えば、DALL・E、DALL・E2、又はStable Diffusion等)を利用して、挿絵1403を生成することができる。また、画像生成部1501は、ユーザ11の言語情報と非言語情報とのうち、少なくとも1つに基づいて、対話内容に関する画像である挿絵1403を生成してもよい。
The
例えば、画像生成部1501は、ユーザ11が発話した「クロスカントリースキー」という言語情報と、ユーザ11の音声の「トーンが高い」という非言語情報とから、ユーザ11の感情分析を「ポジティブ」と判断したときに、挿絵1403を生成してもよい。これにより、対話システム1は、ユーザ11の回想をより誘発し、効果的な対話を行うことができる。
For example, the
なお、画像生成部1501以外の各機能構成は、図7で説明した一実施形態に係る対話システム1の機能構成と同様でよい。
Note that the functional configurations other than the
<処理の流れ>
図16は、第3の実施形態に係る対話処理の例を示すフローチャートである。この処理は、例えば、図15に示した機能構成を有する対話システム1が実行する対話処理の一例を示している。
<Processing flow>
16 is a flowchart showing an example of dialogue processing according to the third embodiment. This processing shows an example of dialogue processing executed by the
ステップS1601において、第1の取得部702は、ユーザ11の発話音声を取得する。また、ステップS1602において、第1の取得部702は、取得したユーザ11の発話音声に対して、音声認識処理を実行する。これにより、第1の取得部702は、ユーザ11の発話音声をテキスト化した、ユーザ11の言語情報を出力する。なお、ステップS1601、S1602の処理は、例えば、図8のステップS801の処理を利用してもよい。
In step S1601, the
ステップS1603において、画像生成部1501は、ユーザ11の発話音声から、要約、又はキーワード等を抽出する。また、ステップS1604において、画像生成部1501は、抽出した要約、又はキーワード等に基づいて、例えば、図14で説明した挿絵1403等の画像を生成する。
In step S1603, the
ステップS1604において、生成部704は、例えば、対話エージェントに発話させる音声を生成する。なお、この処理は、例えば、図8のステップS803、S804の処理を利用してもよい。また、生成部704は、画像生成部1501が、図14に示すようなクロスカントリースキーの挿絵1403を生成した場合、対話エージェントにクロスカントリースキーに関する発話をさせる音声を生成してもよい。
In step S1604, the
ステップS1606において、生成部704は、画像生成部1501が生成した画像と、生成部704が生成した音声を、対話画面1400に出力する。このとき、対話システム1は、バーチャルヒューマン1401に、表示した挿絵1403をアシストする動作(例えば、指で指し示す等)をさせてもよい。
In step S1606, the
図16の処理により、対話システム1は、例えば、図4に示すように、対話画面1400に、対話内容に関する画像である挿絵1403を表示することができる。
By the processing of FIG. 16, the
[第4の実施形態]
図17は、第4の実施形態に係る対話システムの機能構成の例を示す図である。図17に示すように、第4の実施形態に係るサーバ装置100は、図7で説明したサーバ装置100の機能構成に加えて、要約部1701を有している。
[Fourth embodiment]
Fig. 17 is a diagram showing an example of the functional configuration of the dialogue system according to the fourth embodiment. As shown in Fig. 17, the
要約部1701は、例えば、生成部704に含まれ、対話制御部705が記憶部710に記憶した対話ログを要約して、例えば、報告書等を作成する要約処理を実行する。
The
対話システム1の対話制御部705は、ユーザ11と、対話エージェントとの対話が行われると、例えば、図18に示すような対話ログ1800を作成し、記憶部710等に記憶する。
When a dialogue takes place between the
図18の例では、対話ログ1800は、項目として、「タイムスタンプ」、「話者」、「発話テキスト」、及び「ファイル名」等の情報を含む。「タイムスタンプ」は、ユーザ11、又は対話エージェントによる発が行われた日時を示す情報である。「話者」は、「発話テキスト」の発話を、ユーザが行ったか、対話エージェントが行ったかを示す情報である。「発話テキスト」は、ユーザ11、又は対話エージェントの発話をテキスト化した情報である。「ファイル名」は、ユーザ11の発話音声のファイル名を示す情報である。
In the example of FIG. 18, the
図18に示すように、対話ログ1800は、ユーザ11と対話エージェントとの間の対話を漏れなく記録したものなので、例えば、報告書として提出する場合には、これを要約することが望ましい。
As shown in FIG. 18, the
要約部1701は、例えば、大規模言語モデルを応用して、対話ログ1800を要約してもよいし、文章の要約AI(Artificial Intelligence)として公開されているクラウドサービスを利用して、対話ログ1800を要約してもよい。
The
要約する場合に重要な情報としては、例えば、日時と場所、ユーザ情報(属性、及び新規顧客か既存顧客か等)のよう5W1H情報と、ユーザが抱える課題又はニーズと、提案した商材の情報と、アクションアイテム又は次の予定等の情報がある。要約部1701は、対話ログ1800を要約して、これらの情報を含む報告書、又は対話の議事録等を作成する。
Information that is important when summarizing includes, for example, 5W1H information such as date, time, location, user information (attributes, and whether the customer is new or existing, etc.), the issues or needs the user has, information on the proposed products, and action items or next plans. The summarizing
また、要約部1701は、ユーザ11が発話した「はい」等の言語情報と、ユーザ11の音声の「トーンが高い」、及びユーザ11の「表情が明るい」等の非言語情報とに基づいて、ユーザ11が、発話エージェントが提示した商材に興味があると判断してもよい。この場合、要約部1701は、要約文を作成するときに、当該商材に関する記述が漏れないように文章を作成することが望ましい。
The summarizing
[第5の実施形態]
図19は、第5の実施形態に係る対話システムの機能構成の例を示す図である。図19に示すように、第5の実施形態に係るサーバ装置100は、図7で説明したサーバ装置100の機能構成に加えて、キャッチコピー生成部1901を有している。
[Fifth embodiment]
Fig. 19 is a diagram showing an example of the functional configuration of the dialogue system according to the fifth embodiment. As shown in Fig. 19, the
キャッチコピー生成部1901は、例えば、図9に示した第5段階に対応する対話シナリオ915において、商材レコメンドとともに、ユーザ11に提示するキャッチコピーを生成するキャッチコピー生成処理を実行する。キャッチコピーとは、人の注意をひく広告文、又は宣伝文等であり、ここでは、ユーザ11に提案する商材を、ユーザ11にアピールするための文字列である。
The catch
(キャッチコピーの例1)
一例として、対話エージェントがユーザに提案する商材の概要が次のような内容のニーズ分析サービスであるものとする。
(Example of catchphrase 1)
As an example, assume that the outline of a product proposed to the user by the dialogue agent is a needs analysis service with the following contents.
「小売り・卸、食品飲料、製造、情報通信、サービス、医薬品・化粧品、観光などサポートセンター・コールセンター窓口の返答品質・時間短縮を支援。また、顧客から寄せられる膨大な問い合わせ等をコンテキスト化分析し、販売促進施策の立案、新商品・サービス開発へのヒントを手助けします。」
しかし、このままでは、ユーザ11に商材の特徴が伝わりにくい。そこで、キャッチコピー生成部1901は、例えば、次のようなキャッチコピーを生成してもよい。
1) お客様対応から施策立案までサポート!
お客様のことを徹底分析するAI
或いは、キャッチコピー生成部1901は、例えば、次のようなキャッチコピーを生成してもよい。
2) 蓄積した顧客の声をAIが学習し分析!
タイムリーに最適な解決へ導く
"We support the quality and time of responses at support and call centers in industries such as retail and wholesale, food and beverages, manufacturing, information and communications, services, pharmaceuticals and cosmetics, and tourism. We also provide contextual analysis of the vast number of inquiries received from customers, helping to plan sales promotion measures and provide hints for developing new products and services."
However, in this state, it is difficult to convey the characteristics of the product to the
1) Support from customer service to policy planning!
AI that thoroughly analyzes customers
Alternatively, the catch
2) AI learns and analyzes accumulated customer feedback!
Providing the best possible solution in a timely manner
(キャッチコピーの例2)
別の一例として、対話エージェントがユーザに提案する商材の概要が次のような内容の営業支援サービスであるものとする。
(Example of catchphrase 2)
As another example, assume that the outline of a product proposed to the user by the dialogue agent is a sales support service with the following contents.
「顧客とのやりとりの履歴や営業ノウハウの蓄積は、個人に依存してしまい、チーム内に共有されないまま。引き継ぎ時には、ちらばった顧客データの探索に時間がかかるなど、非効率でした。属人的になりがちな営業現場の情報共有で、手間のかかる検索作業を軽減します。たとえば、ベテランの作成した類似案件の提案書等参考情報が共有できれば、スキルでばらつく資料作成といった課題をクリアにし、商談を成功させるドキュメント開発に貢献します。」
しかし、このままでは、ユーザ11に商材の特徴が伝わりにくい。そこで、キャッチコピー生成部1901は、例えば、次のようなキャッチコピーを生成してもよい。
3) お客様の関心事を即効インストール!
商談成功をサポートするAI
或いは、キャッチコピー生成部1901は、例えば、次のようなキャッチコピーを生成してもよい。
4) 属人的な営業スタイルをAIが学習!
お客様の関心事に応じた提案書をAIがレコメンド
このようなキャッチコピーは、例えば、大規模言語モデルを用いることで、効率よく生成することができる。また、キャッチコピー生成部1901は、外部のクラウドサービス等が提供する、また、キャッチコピー生成サービス等を利用して、キャッチコピーを生成してもよい。
"The accumulation of customer interaction history and sales know-how is dependent on individuals and is not shared within the team. When taking over, searching for scattered customer data takes time, which is inefficient. By sharing information in the sales field, which tends to be dependent on individuals, time-consuming search work can be reduced. For example, if reference information such as proposal documents for similar cases created by veterans can be shared, issues such as inconsistent document creation due to differences in skill can be resolved, and this contributes to the development of documents that lead to successful sales negotiations."
However, in this state, it is difficult to convey the characteristics of the product to the
3) Instant installation of what interests your customers!
AI to support successful business negotiations
Alternatively, the catch
4) AI learns personal sales styles!
AI recommends proposals based on customer interests. Such catchy slogans can be generated efficiently by using, for example, a large-scale language model. The catchy
<処理の流れ>
図20は、第5の実施形態に係る情報提供処理の例を示すフローチャートである。この処理は、例えば、図9に示すような、第5段階に対応する対話シナリオ915において、ユーザ11に提案する商材に対応するキャッチコピーを生成する処理の一例を示している。
<Processing flow>
Fig. 20 is a flowchart showing an example of an information provision process according to the fifth embodiment. This process shows an example of a process for generating a catchy slogan corresponding to a product to be proposed to a
ステップS2001において、図9の商材レコメンド部918は、例えば、図10AのステップS1003~S1004で行われた対話内容に基づいて、ユーザ11に提案する商材を決定する。
In step S2001, the
ステップS2002において、図19のキャッチコピー生成部1901は、決定した商材に関する商材データを、記憶部710等から取得する。
In step S2002, the
ステップS2003において、キャッチコピー生成部1901は、取得した商材データを用いて、商材レコメンド部918が決定した商材のキャッチコピーを生成する。一例として、キャッチコピー生成部1901は、外部のクラウドサービス等が提供する、キャッチコピー生成サービスを利用して、キャッチコピーを生成してもよい。別の一例として、キャッチコピー生成部1901は、大規模言語モデルを用いて、キャッチコピーを生成してもよい。
In step S2003, the catch
ステップS2004において、対話システム1は、ユーザ11に提案する商材と、当該商材のキャッチコピーを、ユーザ11に提示する。例えば、対話システム1は、図2に示すような対話画面200に表示されているディスプレイ202に、提案する商材の情報と、商材のキャッチフレーズを表示させる。
In step S2004, the
なお、図20に示す処理は一例である。例えば、ユーザ11に提案する商材は、複数の商材を組み合わせたパッケージ商材であってもよい。この場合、キャッチコピー生成部1901は、ステップS2002において、複数の商材の商材データを取得し、ステップS2003において、複数の商材の商材データを用いて、キャッチフレーズを生成する。
The process shown in FIG. 20 is an example. For example, the product proposed to the
第5の実施形態により、対話システム1は、商材の価値を分かりやすく端的に、ユーザ11に伝えることができる。
The fifth embodiment enables the
[第6の実施形態]
図21は、第6の実施形態に係る対話システムの機能構成の例を示す図である。図21に示すように、第6の実施形態に係るサーバ装置100は、図7で説明したサーバ装置100の機能構成に加えて、記憶部710等に過去履歴DB(Database)2101、及び非言語情報の入出力情報(以下、単に入出力情報と呼ぶ)2102等を有している(記憶している)。
Sixth embodiment
Fig. 21 is a diagram showing an example of the functional configuration of a dialogue system according to the sixth embodiment. As shown in Fig. 21, the
過去履歴DB2101は、例えば、ユーザ11の過去の対話ログ、非言語情報、及び体調等の情報を記憶したデータベースである。
The past history DB2101 is a database that stores information such as the
入出力情報2102には、例えば、図22に示すように、ユーザ11の画像、及び音声から取得した(入力された)非言語情報が、ポジティブであるか、ネガティブであるかを判断するための情報が含まれる。また、入出力情報2102には、例えば、図22に示すように、対話エージェントの画像、及び音声が表す非言語情報が、ポジティブであるか、ネガティブであるかを示す情報が含まれる。
The input/
これにより、意図解釈部706は、入出力情報2102を用いて、ユーザ11の画像、及び音声に含まれる非言語情報が、ポジティブであるか、ネガティブであるかを容易に判断することができる。また、応答生成部707は、入出力情報2102を用いて、対話エージェントのポジティブな非言語情報、又はネガティブな非言語情報の例を取得することができる。
This allows the
また、第6の実施形態に係る第2の取得部703は、端末装置10を利用するユーザ11との対話から、ユーザ11の非言語情報を取得する際に、非言語情報(感情系)と、非言語情報(個性系)とを取得する。ここで、非言語情報(感情系)は、例えば、ユーザ11の感情、態度、言葉(強さ、早さ、又は抑揚等)、生理的特徴、又は身体動作(視線、表情等)等、そのときによって変化する非言語情報を含む。例えば、意図解釈部706は、第2の取得部703が取得した非言語情報(感情系)に基づいて、ユーザ11がポジティブであるか、ネガティブであるかを判断することができる。
Furthermore, the
一方、非言語情報(個性系)は、例えば、ユーザ11の性別、年齢、身体的な特徴、又は身なり等、そのときによって変化しない、又は変化が少ない非言語情報(属性情報)を含む。例えば、応答生成部707は、第2の取得部703が取得した非言語情報(個性系)に基づいて、ユーザの属性(例えば、性別、年齢、又は体躯等)に応じた言語応答、又は非言語応答を生成することができる。なお、非言語情報(個性系)は、ユーザ11の属性を示す非言語情報の一例である。
On the other hand, the non-verbal information (personality system) includes non-verbal information (attribute information) that does not change or changes little from time to time, such as the gender, age, physical characteristics, or appearance of the
なお、第6の実施形態に係る対話システム1の他の機能構成は、図7で説明した対話システム1の機能構成と同様でよい。
Note that other functional configurations of the
<処理の流れ>
図23は、第6の実施形態に係る対話処理の例を示すフローチャートである。この処理は、ユーザ11と対話エージェントとの対話を開始した後に、図21に示すような対話システム1が実行する処理の例を示している。なお、ここでは、図8で説明した一実施形態に係る対話処理の概要と同様の処理内容に対する詳細な説明は省略する。
<Processing flow>
Fig. 23 is a flowchart showing an example of a dialogue process according to the sixth embodiment. This process shows an example of a process executed by the
ステップS2301において、第1の取得部702は、ユーザ11と、対話エージェントとの間の対話から、ユーザの言語情報を取得する。
In step S2301, the
ステップS2302、S2303において、第2の取得部703は、ステップS2301の処理と並行して、ユーザ11と、対話エージェントとの間の対話から、ユーザ11の非言語情報(感情系)と、非言語情報(個性系)とを取得する。
In steps S2302 and S2303, the
ステップS2304において、生成部704は、第1の取得部702が取得した言語情報と、第2の取得部703が取得した非言語情報(感情系)とに基づいて、ユーザ11の発話の意図を解釈する。
In step S2304, the
ステップS2305において、生成部704は、第2の取得部703が取得した非言語情報(個性系)、又は過去履歴DB2101を参照して、ユーザ11の発話の意図に対応する言語応答(対話文)を生成する。例えば、生成部704は、過去履歴DB2101のユーザ11との過去の対話履歴等から、ユーザ11の性別、趣味、又は体型等を判断し、ユーザ11の性別、趣味、又は体型等に応じて異なる言語応答(対話文)を生成する。
In step S2305, the
なお、ユーザ11の過去履歴がない場合、生成部704は、例えば、ユーザ11の画像から、顔領域を検出し、年齢性別推定AI(Artificial Intelligence)等を用いて、ユーザ11の性別、又は年齢等を推定してもよい。また、生成部704は、ユーザ11の画像から、体型推定AI等を用いて、ユーザ11の体型を推定してもよい。さらに、生成部704は、ユーザ11の言語情報から、ユーザ11の趣味等を判断してもよい。なお、生成部は、推定したユーザ11の性別、年齢、又は体型等を、過去履歴DB2101に記憶しておく。
If there is no past history of the
具体的な一例として、商談中に、生成部704が、ユーザ11の言語情報と非言語情報から、ユーザ11が、年齢が40代の女性で、趣味がコスメティック(以下、コスメと呼ぶ)であると判断したものとする。この場合、生成部704は、40代向けのコスメ商材の紹介、又は提案をする価値ありと判断し、例えば、具体的な商材を紹介する言語応答を生成してもよい。
As a specific example, assume that during a business negotiation, the
別の一例として、生成部704は、商談中に、ユーザ11の画像からユーザ11の体型を推定し、ユーザ11の過去の体型の履歴とを比較して、ユーザ11の体型の推移、又は過去の体型との比較等を行ってもよい。これにより、生成部704は、例えば、最近になって太ったユーザ11に対して、低糖質の食材、又は体重管理アプリケーション等の商材を初回する言語応答を生成してもよい。
As another example, the
別の一例として、生成部704は、商談中に、ユーザ11の画像から、ユーザ11の服装おしゃれ度を推定し、ユーザ11の過去の服装おしゃれ度を比較してもよい。これにより、生成部704は、服飾関係の商材を優先的に紹介する価値があると判断したユーザ11に対して、具体的な商材を紹介する言語応答を生成してもよい。
As another example, the
別の一例として、生成部704は、商談中に、ユーザ11の画像からユーザ11の体型を推定し、過去履歴の病歴情報等と合わせて、ユーザ11の体調を確認する必要があるかを判断してもよい。これにより、生成部704は、体調を確認する必要があると判断したユーザ11に対して、現状の体調を確認する言語応答を生成してもよい。
As another example, the
ステップS2306において、生成部704は、生成した言語応答と、さらに、ユーザ11の非言語情報とに基づいて、対話エージェントのパラ言語(例えば、声のトーン、話す速さ、声の高さ、声の強さ、咳払い、ため息、笑い、又は沈黙等)を決定する。例えば、生成部704は、図22に示すような入出力情報2102を参照して、ユーザ11の感情分析がポジティブであると判断した場合、入出力情報2102から、対話エージェントのポジティブな非言語情報(パラ言語)を取得してもよい。同様に、生成部704は、図22に示すような入出力情報2102を参照して、ユーザ11の感情分析がネガティブであると判断した場合、入出力情報2102から、対話エージェントのネガティブな非言語情報(パラ言語)を取得してもよい。
In step S2306, the
なお、図22に示した入出力情報2102は一例である。入出力情報2102には、様々な、ユーザ11のポジティブな非言語情報、及びネガティブな非言語情報と、対話エージェントのポジティブな非言語情報、及びネガティブな非言語情報とを、予め登録しておく。
Note that the input/
ステップS2307において、制御部714は、生成部704が生成した言語応答と、生成部704が決定したパラ言語とに基づいて、対話エージェントの応答音声を合成する。
In step S2307, the
また、サーバ装置100は、ステップS2306、S2307の処理と並行して、ステップS2308、S2309の処理を実行する。
In addition, the
ステップS2308において、生成部704は、ユーザ11の非言語情報に基づいて、対話エージェントの表情、視線、又は所作等を決定する。例えば、生成部704は、図22に示すような入出力情報2102を参照して、ユーザ11の感情分析がポジティブであると判断した場合、入出力情報2102から、対話エージェントのポジティブな非言語情報(表情、視線、又は所作等)を取得する。同様に、生成部704は、図22に示すような入出力情報2102を参照して、ユーザ11の感情分析がネガティブであると判断した場合、入出力情報2102から、対話エージェントのネガティブな非言語情報(表情、視線、又は所作等)を取得する。
In step S2308, the
ステップS2309において、生成部704は、決定した対話エージェントの表情、視線、又は所作等に基づいて、対話エージェントの動作(モーション)を決定する。
In step S2309, the
具体的な一例として、生成部704は、商談中に、ユーザ11の感情分析がポジティブであると判断した場合、例えば、対話エージェントを笑顔とし、手振りを大きくしてもよい。また、生成部704は、ユーザ11の感情分析がネガティブであると判断した場合、例えば、対話エージェントを寂しい顔とし、頷き、お辞儀等をさせてもよい。
As a specific example, if the
ポジティブ・ネガティブの判断に加え非言語情報(個性系)に基づいて対話エージェントの動作(モーション)をさせてもよい。たとえば、ポジティブの場合で、過去履歴DBに記録されたユーザの手振りや腕組みの形、会話のペースやリズム、などユーザの非言語情報(個性系)に合わせた(類似した)動作を対話エージェントに実行させる。 In addition to positive/negative judgments, the behavior (motion) of the dialogue agent may be based on non-verbal information (personality system). For example, in the case of a positive judgment, the dialogue agent may be made to perform a motion that matches (is similar to) the user's non-verbal information (personality system), such as hand gestures or crossed arms recorded in the past history DB, or the pace and rhythm of the conversation.
ステップS2310において、制御部714は、生成部704が決定した対話エージェントの動作に基づいて、対話エージェントを描画し、描画した対話エージェント、及び合成した応答音声を含む対話画面を出力する。例えば、出力部713は、通信部701を用いて、端末装置10に対話画面を送信する。
In step S2310, the
対話システム1は、例えば、図8の処理を繰り返し実行することにより、ユーザ11の非言語情報(個性系)、又は過去履歴DB2101等に基づいて、ユーザ11に対してより適切なリアクションを行えるようになる。
For example, by repeatedly executing the process of FIG. 8, the
<利用シーンの例>
続いて、本実施形態に係る対話システム1の利用シーンの例について説明する。
<Examples of usage scenarios>
Next, an example of a usage scene of the
(利用シーンA)
図24は、一実施形態に係る利用シーンAのシステム構成の例を示す図である。利用シーンAは、図1の端末装置10がデジタルサイネージのサイネージ端末2400である場合の例を示している。図24の例では、サイネージ端末2400は、カメラ、及びマイク等の入力デバイス2401と、コンピュータのハードウェア構成を備えている。
(Usage scene A)
Fig. 24 is a diagram showing an example of a system configuration of a usage scene A according to an embodiment. Usage scene A shows an example in which the
図25は、一実施形態に係る利用シーンAの対話開始処理の例を示すフローチャートである。 Figure 25 is a flowchart showing an example of a dialogue start process for usage scene A according to one embodiment.
ステップS2501において、対話システム1は、サイネージ端末2400が備える入力デバイス2401で撮影した画像からユーザ11の顔を検知する。具体的な一例として、対話システム1は、入力デバイス2401で撮影した画像から人物の顔画像を抽出し、抽出した顔画像に対して顔認証を行う。また、対話システム1は、抽出した顔画像が顔認証OKとなった場合、ユーザ11の顔を検知したと判断する。
In step S2501, the
ステップS2502において、対話システム1は、顔検知が所定の時間継続したかを判断する。例えば、対話システム1は、ユーザ11顔を検知した状態が、所定の時間(例えば、5秒間)継続したか否かを判断する。顔検知が所定の時間継続した場合、対話システム1は、処理をステップS2503に移行させる。一方、顔検知が所定の時間継続しなかった場合、対話システム1は、処理をステップS2501に戻す。なお、ステップS2501、S2502の処理は、サイネージ端末2400が行ってもよいし、サーバ装置100が行ってもよい。
In step S2502, the
ステップS2503に移行すると、サーバ装置100は、ユーザ11の過去の履歴があるかを判断する。例えば、サーバ装置100は、過去履歴DB2101等を参照して、ユーザ11の過去の対話ログがある場合、ユーザ11の過去の履歴があると判断する。過去の履歴がある場合、サーバ装置100は、処理をステップS2504に移行させる。一方、過去の履歴がない場合、サーバ装置100は、処理をステップS2505に移行させる。
When the process proceeds to step S2503, the
ステップS2504に移行すると、サーバ装置100は、ユーザ11の過去の履歴(過去の対話ログ等)から、対話処理に用いるシナリオを決定する。これにより、対話システム1は、同じユーザ11に、何度も同じ質問、又は発話を繰り返し行ってしまうことを抑制することができる。
When the process proceeds to step S2504, the
ステップS2505に移行すると、サーバ装置100は、対話処理に用いるシナリオとして、定型のシナリオ(例えば、新規顧客用のシナリオ等)を選択する。
When the process proceeds to step S2505, the
ステップS2506に移行すると、対話システム1は、サイネージ端末2500との間で、例えば、図1~23で説明した対話処理を実行する。図25の処理により、対話システム1は、サイネージ端末2500を利用して、ユーザ11に対話サービスを提供することができる。また、対話システム1は、ユーザ11の過去の対話履歴等に基づいて、ユーザ11に提供する対話内容を変更することができる。なお、ステップS2703~S2705の処理はオプションであり、必須ではない。例えば、対話システム1は、ステップS2506の対話処理の中で、対話に用いるシナリオを決定してもよい。
When the process proceeds to step S2506, the
(利用シーンB)
図26は、一実施形態に係る利用シーンBのシステム構成の例を示す図である。利用シーンBは、図1の端末装置10がメタバース用のディスプレイ端末2600である場合の例を示している。ディスプレイ端末2600は、例えば、ヘッドマウントディスプレイ、又は空間再現ディスプレイのメタバース用のディスプレイと、コンピュータの構成とを備えている。また、対話システム1は、仮想空間上の対話エージェントを用いて、ユーザ11に対話サービスを提供する。
(Usage scene B)
Fig. 26 is a diagram showing an example of a system configuration of a usage scene B according to an embodiment. Usage scene B shows an example in which the
図27は、一実施形態に係る利用シーンBの対話開始処理の例を示すフローチャートである。 Figure 27 is a flowchart showing an example of a dialogue start process for usage scene B according to one embodiment.
ステップS2701において、対話システム1は、仮想空間上で、ユーザ11のアバターの接近を検知する。例えば、対話システム1は、ユーザ11のログイン情報、仮想空間上のユーザ11のアバターの座標と対話エージェントの座標から、ユーザ11のアバターが所定の距離(例えば、1m等)以内に接近したか否かを検知する。
In step S2701, the
ステップS2702において、対話システム1は、ユーザ11のアバターが所定の距離(例えば、1m等)以内に接近した状態が、所定の時間(例えば、5秒等)継続したか否かを判断する。ユーザ11のアバターの接近が所定の時間継続した場合、対話システム1は、処理をステップS2703に移行させる。一方、ユーザ11のアバターの接近が所定の時間継続しなかった場合、対話システム1は、処理をステップS2701に戻す。
In step S2702, the
ステップS2703に移行すると、サーバ装置100は、ユーザ11の過去の履歴があるかを判断する。例えば、サーバ装置100は、過去履歴DB2101等を参照して、ユーザ11の過去の対話ログがある場合、ユーザ11の過去の履歴があると判断する。過去の履歴がある場合、サーバ装置100は、処理をステップS2704に移行させる。一方、過去の履歴がない場合、サーバ装置100は、処理をステップS2705に移行させる。
When the process proceeds to step S2703, the
ステップS2704に移行すると、サーバ装置100は、ユーザ11の過去の履歴(過去の対話ログ等)から、対話処理に用いるシナリオを決定する。一方、ステップS2705に移行すると、サーバ装置100は、対話処理に用いるシナリオとして、定型のシナリオ(例えば、新規ユーザのシナリオ等)を選択する。
When the process proceeds to step S2704, the
ステップS2706に移行すると、対話システム1は、仮想空間上で、例えば、図1~23で説明した対話処理を実行する。図27の処理により、対話システム1は、メタバース用のディスプレイ端末2600を利用して、仮想空間上でユーザ11に対話サービスを提供することができる。
When the process proceeds to step S2706, the
(利用シーンC)
図28は、一実施形態に係る利用シーンCのシステム構成の例を示す図である。利用シーンCは、ユーザ11が、端末装置10を用いて、サーバ装置100が提供する対話エージェントとウェブ会議を行う場合の例を示している。なお、ユーザ11は、システム外の会議サーバ2810等が提供するウェブ会議に参加するものであってもよいし、サーバ装置100が、ウェブ会議を提供するものであってもよい。
(Usage scene C)
28 is a diagram showing an example of a system configuration of a usage scene C according to an embodiment. Usage scene C shows an example in which a
図29は、一実施形態に係る利用シーンCの対話開始処理の例を示すフローチャートである。 Figure 29 is a flowchart showing an example of a dialogue start process for usage scene C according to one embodiment.
ステップS2901において、ユーザ11が、端末装置10を用いて、対話システム1が提供する対話エージェントと同じウェブ会議に参加するものとする。例えば、ユーザ11は、端末装置10を用いて、対話エージェントとウェブ会議に参加するためのリンクにアクセスすることにより、当該ウェブ会議に参加する。
In step S2901, it is assumed that the
ステップS2902において、対話システム1は、ウェブ会議において、ユーザ11による対話開始操作を受け付けたか否かを判断する。ユーザ11による対話開始操作を受け付けた場合、対話システム1は、処理をステップS2903に移行させる。一方、ユーザ11による対話開始操作を受け付けていない場合、対話システム1は、例えば、ステップS2902の処理を繰り返し実行する。
In step S2902, the
ステップS2903に移行すると、サーバ装置100は、ユーザ11の過去の履歴があるかを判断する。例えば、サーバ装置100は、過去履歴DB2101等を参照して、ユーザ11の過去の対話ログがある場合、ユーザ11の過去の履歴があると判断する。過去の履歴がある場合、サーバ装置100は、処理をステップS2904に移行させる。一方、過去の履歴がない場合、サーバ装置100は、処理をステップS2905に移行させる。
When the process proceeds to step S2903, the
ステップS2904に移行すると、サーバ装置100は、ユーザ11の過去の履歴(過去の対話ログ等)から、対話処理に用いるシナリオを決定する。一方、ステップS2905に移行すると、サーバ装置100は、対話処理に用いるシナリオとして、定型のシナリオ(例えば、新規ユーザのシナリオ等)を選択する。
When the process proceeds to step S2904, the
ステップS2906に移行すると、対話システム1は、ウェブ会議上で、例えば、図1~23で説明した対話処理を実行する。図29の処理により、対話システム1は、ウェブ会議を利用して、ユーザ11に対話サービスを提供することができる。
When the process proceeds to step S2906, the
以上、本発明の各実施形態によれば、対話エージェントを用いてユーザ11と対話を行う対話システム1において、ユーザ11に対してより適切なリアクションを行えるようになる。
As described above, according to each embodiment of the present invention, a
<補足>
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
<Additional Information>
Each function of each embodiment described above can be realized by one or more processing circuits. Here, the term "processing circuit" in this specification includes a processor programmed to execute each function by software, such as a processor implemented by an electronic circuit, and devices such as an ASIC (Application Specific Integrated Circuit), a DSP (digital signal processor), an FPGA (field programmable gate array), and a conventional circuit module designed to execute each function described above.
また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものに過ぎない。ある実施形態では、サーバ装置100は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
Furthermore, the devices described in the examples are merely illustrative of one of multiple computing environments for implementing the embodiments disclosed herein. In one embodiment, the
また、サーバ装置100の各機能構成は、1つのサーバ装置にまとめられていても良いし、複数の装置に分けられていても良い。さらに、サーバ装置100の各機能構成のうち、少なくとの一部は、端末装置10が有していてもよい。
Furthermore, each functional configuration of the
<付記>
本明細書には、下記の各項の対話システム、対話制御方法、及びプログラムが開示されている。
(第1項)
対話エージェントを用いてユーザと対話を行う対話システムであって、
前記対話から前記ユーザの言語情報を取得する第1の取得部と、
前記対話から前記ユーザの非言語情報を取得する第2の取得部と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、
前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、
を備える、対話システム。
(第2項)
前記対話エージェントの応答内容は、前記対話エージェントの非言語応答を含み、
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントの非言語応答を変更する、
第1項に記載の対話システム。
(第3項)
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントのアクションの内容を変更する、第2項に記載の対話システム。
(第4項)
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントのアクションのタイミングを変更する、第2項又は第3項に記載の対話システム。
(第5項)
前記ユーザの非言語情報は、前記ユーザの画像から取得した表情、視線、姿勢、又は感情の情報を含む、第1項~第4項のいずれかに記載の対話システム。
(第6項)
前記ユーザの非言語情報は、前記ユーザの音声から取得した声の大小、声の抑揚、又は声の音色の情報を含む、第1項~第5項のいずれかに記載の対話システム。
(第7項)
前記生成部は、前記対話のシナリオに応じて、前記対話エージェントの応答内容を変更する、第1項~第6項のいずれかに記載の対話システム。
(第8項)
前記生成部は、予め設定された複数の対話段階に応じて、前記対話エージェントの応答内容を変更する、第1項~第7項のいずれかに記載の対話システム。
(第9項)
前記生成部は、前記ユーザの視線情報に基づいて前記対話段階を変更する、第8項に記載の対話システム。
(第10項)
前記ユーザの言語情報に基づいて、対話内容に関する画像を生成する画像生成部を有し、
前記対話エージェントと、前記画像とを用いて、前記ユーザと対話を行う、
第1項~第9項のいずれかに記載の対話システム。
(第11項)
前記対話の対話ログに基づいて、前記対話を要約する要約部を有する、第1項~第10項のいずれかに記載の対話システム。
(第12項)
前記対話は、前記ユーザとの商談であり、
前記商談の対話内容に基づいて、前記ユーザに提案する商材を提案する、
第1項~第11項のいずれかに記載の対話システム。
(第13項)
前記商談の対話内容に基づいて、前記商材のキャッチコピーを提示する。
第12項に記載の対話システム。
(第14項)
前記対話の過去の履歴を記憶したデータベースを有し、
前記生成部は、前記対話の過去の履歴に基づいて、前記対話のシナリオを変更する、第1項~13項のいずれかに記載の対話システム。
(第15項)
前記対話の過去の履歴を記憶したデータベースを有し、
前記生成部は、前記対話の過去の履歴を参照して、前記対話エージェントの言語応答を生成する、
第1項~14項のいずれかに記載の対話システム。
(第16項)
前記第2の取得部は、前記対話から前記ユーザの属性を示す非言語情報を取得し、
前記生成部は、前記ユーザの属性に応じた前記言語応答、又は前記非言語応答を生成する、第1項~第15項のいずれかに記載の対話システム。
(第17項)
対話エージェントを用いてユーザと対話を行う対話システムにおいて、
コンピュータが、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行する、対話制御方法。
(第18項)
対話エージェントを用いてユーザと対話を行う対話システムにおいて、
コンピュータに、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行させる、プログラム。
<Additional Notes>
This specification discloses the following dialogue systems, dialogue control methods, and programs.
(Section 1)
A dialogue system that uses a dialogue agent to dialogue with a user,
a first acquisition unit that acquires language information of the user from the dialogue;
a second acquisition unit that acquires non-verbal information of the user from the dialogue;
a generation unit that generates a response content including a verbal response and a non-verbal response of the dialogue agent based on the verbal information and the non-verbal information of the user;
a control unit that controls the dialogue agent based on the response content generated by the generation unit;
A dialogue system comprising:
(Section 2)
the response content of the dialogue agent includes a non-verbal response of the dialogue agent;
the generation unit changes the non-verbal response of the dialogue agent in response to non-verbal information of the user.
2. A dialogue system as defined in
(Section 3)
3. The dialogue system according to
(Section 4)
4. The dialogue system according to
(Section 5)
5. The dialogue system according to any one of
(Section 6)
6. The dialogue system according to any one of
(Section 7)
7. The dialogue system according to any one of
(Section 8)
8. The dialogue system according to any one of
(Section 9)
The dialogue system according to claim 8, wherein the generation unit changes the dialogue stage based on gaze information of the user.
(Article 10)
an image generating unit that generates an image related to the dialogue content based on the language information of the user;
Engaging in a dialogue with the user using the dialogue agent and the image.
10. The dialogue system according to any one of
(Article 11)
11. The dialogue system according to any one of
(Article 12)
The interaction is a business negotiation with the user,
Proposing a product to be proposed to the user based on the content of the dialogue of the business negotiation;
12. The dialogue system according to any one of
(Article 13)
A catchphrase for the merchandise is presented based on the contents of the dialogue during the business negotiation.
Dialogue system according to clause 12.
(Section 14)
A database storing a past history of the dialogue is provided,
14. The dialogue system according to any one of
(Article 15)
A database storing a past history of the dialogue is provided,
the generation unit generates a linguistic response of the dialogue agent by referring to a past history of the dialogue;
15. The dialogue system according to any one of
(Article 16)
The second acquisition unit acquires non-verbal information indicating an attribute of the user from the dialogue;
16. The dialogue system according to any one of
(Section 17)
In a dialogue system that uses a dialogue agent to have a dialogue with a user,
The computer
acquiring language information of the user from the dialogue;
A process of acquiring non-verbal information of the user from the dialogue;
a generation process for generating a response content including a verbal response and a non-verbal response of the dialogue agent based on the verbal information and the non-verbal information of the user;
A process of controlling the dialogue agent based on the response content generated in the generation process;
The method for controlling dialogue is as follows.
(Article 18)
In a dialogue system that uses a dialogue agent to have a dialogue with a user,
On the computer,
acquiring language information of the user from the dialogue;
A process of acquiring non-verbal information of the user from the dialogue;
a generation process for generating a response content including a verbal response and a non-verbal response of the dialogue agent based on the verbal information and the non-verbal information of the user;
A process of controlling the dialogue agent based on the response content generated in the generation process;
A program to execute.
以上、本発明の実施形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、及び応用が可能である。 Although the embodiment of the present invention has been described above, the present invention is not limited to such a specific embodiment, and various modifications and applications are possible within the scope of the gist of the present invention described in the claims.
1 対話システム
10 端末装置
100 サーバ装置
200、300 対話画面
201、301、1401 バーチャルヒューマン(対話エージェント)
500 コンピュータ
702 第1の取得部
703 第2の取得部
704 生成部
714 制御部
1501 画像生成部
1701 要約部
1901 キャッチコピー生成部
500
Claims (18)
前記対話から前記ユーザの言語情報を取得する第1の取得部と、
前記対話から前記ユーザの非言語情報を取得する第2の取得部と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、
前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、
を備える、対話システム。 A dialogue system that uses a dialogue agent to dialogue with a user,
a first acquisition unit that acquires language information of the user from the dialogue;
a second acquisition unit that acquires non-verbal information of the user from the dialogue;
a generation unit that generates a response content including a verbal response and a non-verbal response of the dialogue agent based on the verbal information and the non-verbal information of the user;
a control unit that controls the dialogue agent based on the response content generated by the generation unit;
A dialogue system comprising:
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントの非言語応答を生成する、
請求項1に記載の対話システム。 the response content of the dialogue agent includes a non-verbal response of the dialogue agent;
the generation unit generates a non-verbal response of the dialogue agent in response to non-verbal information of the user.
The dialogue system according to claim 1 .
前記対話エージェントと前記画像とを用いて、前記ユーザと対話を行う、
請求項1に記載の対話システム。 an image generating unit that generates an image related to the content of the dialogue based on at least one of the linguistic information and the non-linguistic information of the user;
interacting with the user using the dialogue agent and the image;
The dialogue system according to claim 1 .
前記商談の対話内容に基づいて、前記ユーザに提案する商材を提案する、
請求項1に記載の対話システム。 The interaction is a business negotiation with the user,
Proposing a product to be proposed to the user based on the content of the dialogue of the business negotiation;
The dialogue system according to claim 1 .
請求項12に記載の対話システム。 A catchphrase for the merchandise is presented based on the contents of the dialogue during the business negotiation.
Dialogue system according to claim 12.
前記生成部は、前記対話の過去の履歴に基づいて、前記対話のシナリオを変更する、請求項7に記載の対話システム。 A database storing a past history of the dialogue is provided,
The dialogue system according to claim 7 , wherein the generation unit changes a scenario of the dialogue based on a past history of the dialogue.
前記生成部は、前記対話の過去の履歴を参照して、前記対話エージェントの言語応答を生成する、
請求項1に記載の対話システム。 A database storing a past history of the dialogue is provided,
the generation unit generates a linguistic response of the dialogue agent by referring to a past history of the dialogue;
The dialogue system according to claim 1 .
前記生成部は、前記ユーザの属性に応じた前記言語応答、又は前記非言語応答を生成する、請求項1に記載の対話システム。 The second acquisition unit acquires non-verbal information indicating an attribute of the user from the dialogue;
The dialogue system according to claim 1 , wherein the generation unit generates the linguistic response or the non-linguistic response according to an attribute of the user.
コンピュータが、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行する、対話制御方法。 In a dialogue system that uses a dialogue agent to have a dialogue with a user,
The computer
acquiring language information of the user from the dialogue;
A process of acquiring non-verbal information of the user from the dialogue;
a generation process for generating a response content including a verbal response and a non-verbal response of the dialogue agent based on the verbal information and the non-verbal information of the user;
A process of controlling the dialogue agent based on the response content generated in the generation process;
The method for controlling dialogue is as follows.
コンピュータに、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行させる、プログラム。 In a dialogue system that uses a dialogue agent to have a dialogue with a user,
On the computer,
acquiring language information of the user from the dialogue;
A process of acquiring non-verbal information of the user from the dialogue;
a generation process for generating a response content including a verbal response and a non-verbal response of the dialogue agent based on the verbal information and the non-verbal information of the user;
A process of controlling the dialogue agent based on the response content generated in the generation process;
A program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2024/050473 WO2024165932A1 (en) | 2023-02-07 | 2024-01-18 | Conversation system, conversation control method, and storage medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023017067 | 2023-02-07 | ||
JP2023017067 | 2023-02-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024112283A true JP2024112283A (en) | 2024-08-20 |
Family
ID=92423883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023221852A Pending JP2024112283A (en) | 2023-02-07 | 2023-12-27 | Dialogue system, dialogue control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024112283A (en) |
-
2023
- 2023-12-27 JP JP2023221852A patent/JP2024112283A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (en) | Video processing method, device, system, terminal equipment and storage medium | |
US20220284896A1 (en) | Electronic personal interactive device | |
Yilmazyildiz et al. | Review of semantic-free utterances in social human–robot interaction | |
CN110998725B (en) | Generating a response in a dialog | |
US11468894B2 (en) | System and method for personalizing dialogue based on user's appearances | |
US20200279553A1 (en) | Linguistic style matching agent | |
US20230118412A1 (en) | Stylizing Text-to-Speech (TTS) Voice Response for Assistant Systems | |
US20130031476A1 (en) | Voice activated virtual assistant | |
CN112074899A (en) | System and method for intelligent initiation of human-computer dialog based on multimodal sensory input | |
US20160004299A1 (en) | Systems and methods for assessing, verifying and adjusting the affective state of a user | |
CN111201566A (en) | Spoken language communication device and computing architecture for processing data and outputting user feedback and related methods | |
US20220215678A1 (en) | System and method for reconstructing unoccupied 3d space | |
US20190251350A1 (en) | System and method for inferring scenes based on visual context-free grammar model | |
Wilks et al. | A prototype for a conversational companion for reminiscing about images | |
WO2023212261A1 (en) | Retrieval of augmented parameters for artificial intelligence-based characters | |
JP2017064853A (en) | Robot, content deciding device, content deciding method, and program | |
Feldman et al. | Engagement with artificial intelligence through natural interaction models | |
US20210407504A1 (en) | Generation and operation of artificial intelligence based conversation systems | |
JP2024112283A (en) | Dialogue system, dialogue control method, and program | |
DeMara et al. | Towards interactive training with an avatar-based human-computer interface | |
JP2017182261A (en) | Information processing apparatus, information processing method, and program | |
Shubham et al. | Multimodal Embodied Conversational Agents: A discussion of architectures, frameworks and modules for commercial applications | |
Gonzalez et al. | Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals | |
JP7310907B2 (en) | DIALOGUE METHOD, DIALOGUE SYSTEM, DIALOGUE DEVICE, AND PROGRAM | |
WO2024165932A1 (en) | Conversation system, conversation control method, and storage medium |