JPWO2018230345A1 - Dialogue robot, dialogue system, and dialogue program - Google Patents
Dialogue robot, dialogue system, and dialogue program Download PDFInfo
- Publication number
- JPWO2018230345A1 JPWO2018230345A1 JP2019521492A JP2019521492A JPWO2018230345A1 JP WO2018230345 A1 JPWO2018230345 A1 JP WO2018230345A1 JP 2019521492 A JP2019521492 A JP 2019521492A JP 2019521492 A JP2019521492 A JP 2019521492A JP WO2018230345 A1 JPWO2018230345 A1 JP WO2018230345A1
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- server
- response sentence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 claims abstract description 234
- 230000002452 interceptive effect Effects 0.000 claims abstract description 91
- 238000004891 communication Methods 0.000 claims description 29
- 230000008921 facial expression Effects 0.000 claims description 29
- 238000003384 imaging method Methods 0.000 claims description 29
- 230000005540 biological transmission Effects 0.000 claims description 27
- 230000009118 appropriate response Effects 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 abstract description 8
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 29
- 230000010365 information processing Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000000474 nursing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Manipulator (AREA)
- Electrically Operated Instructional Devices (AREA)
- Collating Specific Patterns (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
【課題】ユーザーとの間で自然な対話が実現可能な対話ロボット、対話システムおよび対話プログラムを提供する。【解決手段】本発明の対話ロボットは、i)ユーザーの顔面情報に基づいてサーバで前記ユーザーが未登録であると特定した場合に、当該サーバが生成した前記ユーザーの氏名を質問する氏名質問を含む応答文情報を受信し、ii)前記顔面情報に基づいて前記サーバで前記ユーザーが登録であると特定した場合に、当該サーバが生成した当該ユーザーの氏名を含む応答文情報を受信し、発声部は、前記ユーザーが登録済か否かに応じて、当該ユーザーに対して前記氏名質問又は前記ユーザーの氏名を含むスタート発話を前記ユーザーに対して行う。また、本発明の対話ロボットは、ユーザーとの会話のレベルを任意に変更可能であり、さらに設定されたレベルを変更する前に各種の問いかけなど事前処理を実行してもよい。【選択図】 図1A dialogue robot, a dialogue system, and a dialogue program capable of realizing a natural dialogue with a user are provided. In the interactive robot according to the present invention, when a user specifies that the user is unregistered on the server based on the user's face information, the interactive robot generates a name question for asking the name of the user generated by the server Ii) when the server specifies that the user is registered based on the face information, receives response sentence information including the name of the user generated by the server, and speaks The unit makes a start utterance to the user including the name question or the name of the user, depending on whether or not the user has been registered. The interactive robot of the present invention can arbitrarily change the level of conversation with the user, and may perform pre-processing such as various questions before changing the set level. [Selection] Figure 1
Description
本発明は、対話型ロボットを用いた技術に関し、より詳しくは、使用者の表情を伺いながら能動的に様々なパターンの音声で対話することが可能な対話ロボット、対話システムおよび対話プログラムに関する。 The present invention relates to a technique using an interactive robot, and more particularly to an interactive robot, an interactive system, and an interactive program capable of actively interacting with various patterns of voice while listening to a user's facial expressions.
情報手段の進歩により、海外の人々と外国語でコミュニケーションを取る機会が増えている。また、輸送手段の進歩により海外に気軽に旅行に行ける時代となり、旅行先の国の言葉を理解したり、話したりする機会も増えている。従って、英語をはじめとする外国語の習得、特に会話力の習得は、年代を問わず重要である。 Advances in information means have increased opportunities to communicate with foreign people in foreign languages. In addition, with the progress of transportation means, it has become an era where people can easily travel abroad, and there are increasing opportunities to understand and speak the language of the destination country. Therefore, acquisition of foreign languages including English, especially acquisition of conversation skills, is important regardless of age.
近年ではインターネットを始めとする通信技術の発達に伴い、ネットワークを介して疑似的に会話を行う技術が種々提案されている。
例えば特許文献1では、豊富な応答文を蓄積させた対話型ロボットや、このロボットをコンピューターと接続することによりロボットのほかにキャラクターと対話することができる対話システムが提案されている。In recent years, with the development of communication technologies such as the Internet, various technologies for performing pseudo-conversations via a network have been proposed.
For example, Patent Document 1 proposes an interactive robot in which abundant response sentences are accumulated, and an interactive system that can interact with a character in addition to the robot by connecting the robot to a computer.
一方で、例えば特許文献2では、コンピューターを用いた英会話の学習支援システムにおいて、ユーザ(10)の情報を管理しているメタエージェント(11)と、前記ユーザ(10)に指導を行なう各担当別の教師エージェント(13)とを有することを特徴とする学習支援システムが提案されている。 On the other hand, in Patent Document 2, for example, in an English conversation learning support system using a computer, a metaagent (11) that manages the information of the user (10) and each person who gives guidance to the user (10) A learning support system characterized by having a teacher agent (13) is proposed.
しかしながら、上述した特許文献1や特許文献2に限らず現在の技術では市場のニーズを適切に満たしているとは言えず、以下に述べるごとき種々の課題が存在する。
すなわち、ネットワークを介した疑似的な会話システムを実現する場合、対話する相手は仮想現実の人物であるため、生身の人間と異なって非日常的な雰囲気がどうしても出てしまう。However, it is not limited to the above-described Patent Document 1 and Patent Document 2, and it cannot be said that the current technology appropriately satisfies market needs, and there are various problems as described below.
In other words, when realizing a pseudo-conversation system via a network, since the person to talk with is a virtual reality person, an unusual atmosphere is inevitably produced unlike a real person.
例えば特許文献2では、コンピューターの画面上のキャラクターと対話するだけであるため現実性に乏しく、特にユーザーがこどもの場合は興味を示しにくいといった問題がある。
一方で特許文献1では、対話型ロボットや他のキャラクターとの会話が可能である点において趣向性が高く飽きにくいものの、主として音声でのみユーザーとの間で会話を行っているため単調な会話となってしまう感は否めない。For example, Patent Document 2 has a problem that since it only interacts with a character on a computer screen, it is not realistic, and it is difficult for a user to show interest, particularly.
On the other hand, in Patent Document 1, although conversational with robots and other characters is possible, it is not easy to get tired of, but since conversations with users are mainly performed only by voice, I cannot deny the feeling of becoming.
本来、人間同士での会話という行為は、自然に対話が進んで話者同士の感情変化などによっても変化し得るものである。この点において例えば特許文献2で提案されている対話型ロボットを高性能化して膨大な情報を持たせれば、より人間的な対話が実現し得るものの処理動作が遅延する恐れがあり、さらにはロボット自体の価格が非常に高価なものとなってしまう。
このように上記した特許文献を含む従来技術においては、費用がかさまずにユーザーとの間で自然な(あたかも人間同士が会話するような生き生きとした)会話が実現できるレベルのものはなく、まだまだ改善の余地は大きい。
そして上記した英会話などの語学学習に限られず、例えば介護や娯楽などで使用者との間で対話を行うシステムのニーズは将来的に益々増加することが予想される。Originally, the act of conversation between humans can be changed by the natural progress of dialogue and changes in emotions between speakers. In this regard, for example, if the interactive robot proposed in Patent Document 2 is improved in performance and has a large amount of information, although a more human conversation can be realized, the processing operation may be delayed. The price itself becomes very expensive.
As described above, in the prior art including the above-described patent documents, there is no level that can realize a natural conversation (lively as if humans are speaking) with a user at a low cost. There is much room for improvement.
In addition to the above-mentioned language learning such as English conversation, for example, it is expected that the need for a system for interacting with a user for nursing care or entertainment will increase more in the future.
本発明は、上記した問題を一例に鑑みて為され、ユーザーとの間で自然な対話が実現できる対話ロボットおよび対話システム、並びに対話プログラムを提供することを目的とする。 The present invention has been made in view of the above problem as an example, and an object thereof is to provide a dialog robot, a dialog system, and a dialog program that can realize a natural dialog with a user.
上記課題を解決するため、本発明の一実施形態に係る対話ロボットは、(1)ネットワーク上のサーバと通信回線を介して接続されて、ユーザーとの間で英会話を行う対話ロボットであって、前記ユーザーの顔面を撮像する撮像部と、前記ユーザーが発した発話音声を認識する音声認識部と、前記ユーザーに対して発話する発声部と、前記通信回線を介して前記顔面に関する顔面情報及び前記音声認識部が認識した音声情報を前記サーバへ送信するユーザー情報送信部と、前記サーバから応答文情報を受信する応答文情報受信部と、を具備し、前記ユーザー情報送信部は、前記撮像部が撮像した前記顔面情報を前記サーバに送信し、i)前記顔面情報に基づいて前記サーバで前記ユーザーが未登録であると特定した場合に、当該サーバが生成した前記ユーザーの氏名を質問する氏名質問を含む前記応答文情報を前記応答文情報受信部が受信し、ii)前記顔面情報に基づいて前記サーバで前記ユーザーが登録であると特定した場合に、当該サーバが生成した当該ユーザーの氏名を含む前記応答文情報を前記応答文情報受信部が受信し、前記発声部は、前記ユーザーが登録済か否かに応じて、当該ユーザーに対して前記氏名質問又は前記ユーザーの氏名を含むスタート発話を前記ユーザーに対して行い、前記ユーザー情報送信部は、前記音声認識部が認識した前記スタート発話に対する前記ユーザーの発話した音声情報を前記サーバに送信することを特徴とする。 In order to solve the above problems, a dialog robot according to an embodiment of the present invention is (1) a dialog robot that is connected to a server on a network via a communication line and performs an English conversation with a user. An imaging unit that images the face of the user, a speech recognition unit that recognizes speech spoken by the user, a speech unit that speaks to the user, facial information regarding the face via the communication line, and the A user information transmission unit that transmits voice information recognized by the voice recognition unit to the server; and a response statement information reception unit that receives response statement information from the server, wherein the user information transmission unit includes the imaging unit. Transmits the face information captured by the server to the server, and i) generates the server when the server identifies the user as unregistered based on the face information. When the response text information receiving unit receives the response text information including a name question for asking the name of the user, and ii) when the server specifies that the user is registered based on the face information, The response text information receiving unit receives the response text information including the name of the user generated by the server, and the utterance unit sends the name to the user according to whether or not the user has been registered. A start utterance including a question or the name of the user is made to the user, and the user information transmission unit transmits the voice information uttered by the user with respect to the start utterance recognized by the voice recognition unit to the server. It is characterized by.
さらに上記した課題を解決するため、本発明の一実施形態に係る対話システムは、(2)上記(1)に記載の対話ロボットと、前記サーバと、を含む対話システムであって、前記サーバは、前記ユーザーごとに個別に管理されたデータベースを含み、前記データベースに前記ユーザーとの間の対話に関する情報が記録されることを特徴とする。 Furthermore, in order to solve the above-described problem, an interactive system according to an embodiment of the present invention is (2) an interactive system including the interactive robot according to (1) and the server, wherein the server is And a database individually managed for each user, and information relating to a dialogue with the user is recorded in the database.
また、上記(2)に記載の対話システムにおいては、(3)前記サーバは、前記ユーザー情報送信部から受信した前記ユーザーの音声情報をテキスト化し、当該テキスト化した音声情報とデータベース内の応答文情報とのマッチングを行い、当該マッチングに基づく適切な応答文を含む前記応答文情報を前記応答文情報受信部へ送信し、前記対話ロボットは、受信した前記応答文を含む応答文情報に基づいて、前記発声部を介して前記ユーザーに対して発話することが好ましい。 In the dialogue system according to (2) above, (3) the server converts the user's voice information received from the user information transmission unit into text, and the voiced voice information and the response text in the database. Matching with information is performed, and the response sentence information including an appropriate response sentence based on the matching is transmitted to the response sentence information receiving unit, and the dialogue robot is based on the received response sentence information including the response sentence. It is preferable to speak to the user via the utterance unit.
また、上記(3)に記載の対話システムにおいては、(4)前記撮像部は、前記応答文に対する返答中の前記ユーザーを撮像し、前記ユーザー情報送信部は、前記応答文に対して発話した前記ユーザーの音声情報と共に、前記撮像部が撮像した前記返答中の前記ユーザーの画像情報を前記サーバに送信し、前記サーバは、前記ユーザー情報送信部から受信した前記ユーザーの画像情報に基づいて前記ユーザーの表情を判定し、当該表情の判定結果に基づいて内容を変化させた次の応答文を含む前記応答文情報を前記応答文情報受信部へ送信することが好ましい。 In the dialogue system according to (3), (4) the imaging unit images the user who is responding to the response sentence, and the user information transmission unit utters the response sentence. Along with the user's voice information, the image information of the user being answered, which is captured by the imaging unit, is transmitted to the server, and the server is based on the image information of the user received from the user information transmission unit. It is preferable to determine the facial expression of the user and transmit the response text information including the next response text whose contents are changed based on the determination result of the facial expression to the response text information receiving unit.
また、上記(3)又は(4)に記載の対話システムにおいては、(5)前記サーバは、会話レベルを決定するためのレベル決定用質問を含む応答文情報を前記応答文情報受信部へ送信し、前記対話ロボットは、受信した前記レベル決定用質問を含む応答文を、前記発声部を介して前記ユーザーに対して発声し、前記ユーザーが発した前記レベル決定用質問に対する返答に基づいて前記会話レベルが決定され、前記決定した会話レベルに基づいて前記サーバで前記データベース内の応答文が選択されて前記応答文情報受信部へ送信されることが好ましい。 In the dialogue system according to (3) or (4), (5) the server transmits response sentence information including a level determination question for determining a conversation level to the response sentence information receiving unit. Then, the dialogue robot utters the received response sentence including the level determination question to the user via the utterance unit, and based on the response to the level determination question issued by the user It is preferable that a conversation level is determined, and a response sentence in the database is selected by the server based on the determined conversation level and transmitted to the response sentence information receiving unit.
さらに上記した課題を解決するため、本発明の一実施形態に係る対話プログラムは、対話ロボット又はサーバに、撮像部を用いてユーザーの顔面を撮像させ、撮像された前記ユーザーの顔面に関する情報をサーバに通信回線を介して送信させ、前記顔面に関する情報に基づいて前記ユーザーが未登録であるか特定させ、i)未登録であった場合に前記ユーザーの氏名を質問する氏名質問を含む応答文情報を生成させるとともに、ii)登録済であった場合に前記ユーザーの氏名を含む応答文情報を生成させ、発声部を用いて前記ユーザーに対して前記応答文情報に基づくスタート発話として発声させ、音声認識部を用いて前記スタート発話に対する前記ユーザーの発話を音声認識させ、前記音声認識させた前記ユーザーの発話を前記サーバに前記通信回線を介して送信させることを特徴とする。 Furthermore, in order to solve the above-described problem, a dialogue program according to an embodiment of the present invention causes a dialogue robot or a server to capture an image of a user's face using an imaging unit, and information about the captured user's face is stored in the server. Response text information including a name question that asks the user's name when the user is unregistered, and i) specifies whether the user is unregistered based on the information about the face And ii) when registered, the response sentence information including the user's name is generated, and the user is uttered as a start utterance based on the response sentence information using the utterance unit, and the voice Using the recognition unit, the user's utterance with respect to the start utterance is voice-recognized, and the user's utterance that is voice-recognized Characterized in that to transmit via the serial communication line.
本発明によれば、比較的安価な費用で対話ロボットとの対話を行うことができるとともに、この対話ロボットと初めて対話を行うユーザーが自然な形で対話をスタートさせることができ、幅広い年齢層に興味を持って飽きさせずに対話する機会を提供することができる。 According to the present invention, it is possible to have a dialogue with a dialogue robot at a relatively low cost, and a user who has a dialogue with the dialogue robot for the first time can start a dialogue in a natural manner, so that it can be used for a wide range of ages. It is possible to provide an opportunity to talk with interest without getting bored.
以下では、本発明を実施するための実施形態について、ユーザーがネットワークNを介したサーバ及び対話ロボットと英会話を行う例を説明する。しかしながら本発明は下記に限定されず、例えば英会話だけでなく他の言語による会話でもよいし、複数台の対話ロボットを用いた例であってもよい。また、本実施形態は、下記のごとき語学学習に限られず、介護や娯楽分野でも対話ロボットとして適用が可能である。 In the following, an example in which a user performs an English conversation with a server and a dialogue robot via the network N will be described with respect to an embodiment for carrying out the present invention. However, the present invention is not limited to the following. For example, not only English conversation but also conversation in another language may be used, and an example using a plurality of interactive robots may be used. Further, the present embodiment is not limited to language learning as described below, and can be applied as an interactive robot in the nursing and entertainment fields.
≪第1実施形態≫
<対話システム100>
図1は、実施形態に係る対話システム100全体の構成を示す模式図である。
本実施形態に係る対話システム100は、対話ロボット10、及びサーバ20を含んで構成されている。そして対話ロボット10とサーバ20とは、インターネットなどのネットワークNを介して互いに通信可能となるように接続されている。そしてユーザーUは、語学習得などを目的として、サーバ20と通信可能に接続された対話ロボット10に対して英会話を行う。
このように本実施形態の対話システム100は、ユーザーUの英会話を行うための英会話システムとして機能としている。<< First Embodiment >>
<Dialogue system 100>
FIG. 1 is a schematic diagram illustrating a configuration of the entire dialogue system 100 according to the embodiment.
The interactive system 100 according to the present embodiment includes an interactive robot 10 and a server 20. The interactive robot 10 and the server 20 are connected so that they can communicate with each other via a network N such as the Internet. Then, the user U performs an English conversation with respect to the interactive robot 10 that is communicably connected to the server 20 for the purpose of learning words.
As described above, the dialogue system 100 of the present embodiment functions as an English conversation system for carrying out an English conversation of the user U.
詳細は後述するが、この対話システム100では以下のように情報処理が行われる。すなわち、まずユーザーUの発話音声は対話ロボット10の音声認識部を経てインターネット経由でサーバ20へ送られる。このサーバ20では、音声変換エンジンによって発話音声がテキスト化される。その後、このテキスト化された発話音声と会話文データベースとのマッチングが行われ、この発話音声に対する最適な応答文が選ばれ、その選ばれた文は音声化エンジンで音声化され、対話ロボット10に送り込まれて対話ロボット10が発話する仕組みとなっている。 Although details will be described later, in this interactive system 100, information processing is performed as follows. That is, first, the speech of the user U is sent to the server 20 via the Internet via the voice recognition unit of the dialogue robot 10. In the server 20, the speech is converted into text by the voice conversion engine. Thereafter, matching between the uttered voice converted to the text and the conversation sentence database is performed, and an optimal response sentence for the uttered voice is selected, and the selected sentence is voiced by the voice engine and is sent to the dialogue robot 10. The dialogue robot 10 is uttered by being sent.
なお、後述するとおり、対話システム100は更に情報処理端末50を含んでいてもよい。この場合には、例えばユーザーUは、対話ロボット10だけでなく、情報処理端末50の画面に表示された仮想人物(PC上のキャラクター)も含めた複数人との会話を実行することができる。このPC上のキャラクターについては、上記した特許第3958253号を参照して本実施形態の趣旨に沿った形式で適宜組み入れてもよい。 As will be described later, the interactive system 100 may further include an information processing terminal 50. In this case, for example, the user U can execute a conversation with a plurality of persons including not only the interactive robot 10 but also a virtual person (character on the PC) displayed on the screen of the information processing terminal 50. About the character on this PC, you may incorporate suitably in the format along the meaning of this embodiment with reference to above-mentioned patent 3958253.
以下、本実施形態の対話システム100の各構成について詳細に説明する。
<対話ロボット10>
まず図2を用いて本実施形態の対話ロボット10の構成および機能を詳述する。
本実施形態の対話ロボット10は、ネットワークN(例えばインターネット)上のサーバ20と通信回線を介して接続されて、ユーザーUとの間で英会話を行うロボットである。そして本実施形態の対話ロボット10は、例えばユーザーUと英語で対話することができる小鳥の形態を有するロボットである。Hereinafter, each component of the interactive system 100 of this embodiment will be described in detail.
<Dialogue robot 10>
First, the configuration and functions of the interactive robot 10 of this embodiment will be described in detail with reference to FIG.
The interactive robot 10 according to the present embodiment is a robot that is connected to a server 20 on a network N (for example, the Internet) via a communication line and performs an English conversation with a user U. The interactive robot 10 of the present embodiment is a robot having a form of a small bird that can interact with the user U in English, for example.
同図に示すとおり、この小鳥型の対話ロボット10は、撮像部11、音声認識部12、発声部13、通信インターフェース14(ユーザー情報送信部14a、応答文情報受信部14b)、ROM/RAM部15、および電源16を含んで構成されている。
なお、対話ロボット10は、後述するサーバ20における統括制御部38の機能の一部を、制御部17として含んでいてもよい。この場合における制御部17の具体例としては、公知のCPUなどのプロセッサーが例示できる。As shown in the figure, the bird-type dialogue robot 10 includes an imaging unit 11, a voice recognition unit 12, a utterance unit 13, a communication interface 14 (user information transmission unit 14a, response sentence information reception unit 14b), and a ROM / RAM unit. 15, and a power source 16.
The interactive robot 10 may include a part of the function of the overall control unit 38 in the server 20 described later as the control unit 17. A specific example of the control unit 17 in this case is a known processor such as a CPU.
撮像部11は、ユーザーUの顔面などを撮像する機能を有している。撮像部11の具体例としては、CCDやCMOSなどの画像センサーが搭載されたカメラが例示できる。なお本実施形態では小鳥型の対話ロボット10の額部周辺にカメラが搭載されているが、例えば小鳥の目が撮像部11となっていてもよい。小鳥の目が撮像部11となる場合には、例えば可動式のマブタでレンズ表面を任意のタイミング(例えばユーザーUを撮像するトリガーとして)でカバーするようにしてもよい。 The imaging unit 11 has a function of imaging the face of the user U and the like. As a specific example of the imaging unit 11, a camera on which an image sensor such as a CCD or a CMOS is mounted can be exemplified. In the present embodiment, a camera is mounted around the forehead of the small bird-type interactive robot 10, but the eye of the small bird may be the imaging unit 11, for example. When the eye of the bird becomes the imaging unit 11, the lens surface may be covered with an arbitrary timing (for example, as a trigger for imaging the user U), for example, with a movable piglet.
音声認識部12は、不図示の集音機(マイクなど)を介してユーザーUが発した発話音声(話し言葉)を抽出し、この抽出した発話音声をコンピューターが認識可能な文字列として変換する機能を有している。なお、この音声認識部12が行う音声認識のアルゴリズムについては特に制限はなく、例えば音響モデルを利用した統計的手法や、あるいは隠れマルコフモデルなどに基づく公知のアルゴリズムを適用できる。かような音声認識は、公知の種々のソフトウェアを適用することもできる。さらに音声認識における他の構成例としては、例えば特許3968133号、特許3361732号など公知の音声認識技術を適用してもよい。 The voice recognition unit 12 extracts a speech voice (spoken language) uttered by the user U via a sound collector (such as a microphone) (not shown), and converts the extracted speech voice into a character string that can be recognized by the computer. have. The speech recognition algorithm performed by the speech recognition unit 12 is not particularly limited. For example, a statistical method using an acoustic model or a known algorithm based on a hidden Markov model can be applied. For such voice recognition, various known software can be applied. Furthermore, as another configuration example in speech recognition, a known speech recognition technique such as Japanese Patent No. 3968133 and Japanese Patent No. 3361732 may be applied.
発生部13は、ユーザーUに対して発話する機能を有している。本実施形態における発生部13はスピーカであり、例えば小鳥型の対話ロボット10の腹部付近に搭載されている。
後述するとおり、サーバ20において生成された応答文情報などに基づく発話が、この当該発生部13を介して行われる。The generation unit 13 has a function of speaking to the user U. The generating unit 13 in the present embodiment is a speaker and is mounted, for example, in the vicinity of the abdomen of the small bird type interactive robot 10.
As will be described later, an utterance based on response sentence information generated in the server 20 is performed via the generation unit 13.
通信インターフェース14は、ネットワークN(例えばインターネット)などの通信回線を介して他の端末と各種のデータを送受信する機能を有しており、本実施形態ではユーザー情報送信部14aと応答文情報受信部14bが含まれている。 The communication interface 14 has a function of transmitting and receiving various data to and from other terminals via a communication line such as a network N (for example, the Internet). In this embodiment, the user information transmission unit 14a and the response text information reception unit 14b is included.
このうち、ユーザー情報送信部14aは、ユーザーUに関する情報を上記通信回線によって送信する機能を備えている。なお、「ユーザーUに関する情報」としては、例えば撮像部11が取得したユーザーUを識別するための情報(顔面(表情)に関する画像情報や身体によるジェスチャーなどの画像情報など)や、音声認識部12が取得したユーザーUの発話(発声)情報などが含まれる。
一方で応答文情報受信部14bは、後述するサーバ20が生成した応答文情報を上記通信回線によって受信する機能を備えている。Among these, the user information transmitting unit 14a has a function of transmitting information about the user U through the communication line. As the “information about the user U”, for example, information for identifying the user U acquired by the imaging unit 11 (image information about the face (expression), image information such as gestures by the body, etc.), the voice recognition unit 12, etc. Includes the utterance (speech) information of the user U acquired by.
On the other hand, the response text information receiving unit 14b has a function of receiving response text information generated by the server 20 described later via the communication line.
ROM/RAM部15は、各種の情報を記録保持する機能を備えている。なお、この「各種の情報」としては、例えば撮像部11や音声認識部12が取得した情報や、通信インターフェース14を介して受信した情報などが含まれる。本実施形態のROM/RAM部15の具体例としては、例えばEEPROM、フラッシュメモリなどの不揮発性メモリ、SRAMやDRAMなどの揮発性メモリなどが例示できる。 The ROM / RAM unit 15 has a function of recording and holding various types of information. The “various information” includes, for example, information acquired by the imaging unit 11 and the voice recognition unit 12, information received via the communication interface 14, and the like. Specific examples of the ROM / RAM unit 15 of the present embodiment include a nonvolatile memory such as an EEPROM and a flash memory, and a volatile memory such as an SRAM and a DRAM.
電源16は、上記した構成を含む対話ロボット10の稼働に必要な電力を供給する機能を有している。なお、電源16としては、公知の商用電源から電力を得るためのコンセントプラグであってもよいし、一次電池または二次電池などの電池であってもよい。 The power supply 16 has a function of supplying power necessary for the operation of the interactive robot 10 including the above-described configuration. The power source 16 may be an outlet plug for obtaining power from a known commercial power source, or may be a battery such as a primary battery or a secondary battery.
<サーバ20>
次に図3を参照しつつ、本実施形態のサーバ20の詳細な構成について説明する。
本実施形態のサーバ20は、インターネットなどのネットワークNを介して対話ロボット10と情報通信を行うコンピューターとして機能する。
より具体的にサーバ20は、アプリケーションサーバ30と、ストレージサーバ40とを含んで構成されている。かようなサーバ20は、機能的に分類すると、通信インターフェース31、応答文マッチング部32a、応答文音声変換部32b、応答文情報送信部32c、発話音声記録部33、情報解析記録部34、顔面情報マッチング部35、会話レベル設定部36、ROM/RAM部37、統括制御部38およびデータベース40を含んで構成されている。<Server 20>
Next, the detailed configuration of the server 20 of the present embodiment will be described with reference to FIG.
The server 20 of this embodiment functions as a computer that performs information communication with the interactive robot 10 via a network N such as the Internet.
More specifically, the server 20 includes an application server 30 and a storage server 40. When such a server 20 is functionally classified, the communication interface 31, the response sentence matching unit 32a, the response sentence voice converting unit 32b, the response sentence information transmitting unit 32c, the utterance voice recording unit 33, the information analysis recording unit 34, the face The information matching unit 35, the conversation level setting unit 36, the ROM / RAM unit 37, the overall control unit 38 and the database 40 are configured.
通信インターフェース31は、インターネットなどのネットワークNに接続する機能を有している。サーバ20は、この通信インターフェース31を介して各種の情報の送受信を行うことが可能となっている。 The communication interface 31 has a function of connecting to a network N such as the Internet. The server 20 can send and receive various types of information via the communication interface 31.
応答文マッチング部32aは、発話音声のテキスト化を含む内容解析を行う機能を有するとともに、この解析した発話音声の意味内容に対応する応答文を、後述する応答文データベース41から選択する。また、サーバ20が会話レベル設定部36を構成要素に含む場合には、更に、会話レベル設定部36が設定した会話レベルに基づいて、ユーザーUの会話レベルに応じた応答文を応答文データベース41から選択する機能を有していてもよい。 The response sentence matching unit 32a has a function of performing content analysis including text conversion of the uttered voice, and selects a response sentence corresponding to the semantic content of the analyzed uttered voice from the response sentence database 41 described later. When the server 20 includes the conversation level setting unit 36 as a constituent element, a response sentence corresponding to the conversation level of the user U is further displayed based on the conversation level set by the conversation level setting unit 36. You may have the function to choose from.
なお応答文マッチング部32aは、ユーザーUの発話音声の内容解析を行った結果、当該発話音声の意味内容が応答文を選択できる意味内容となっていないと判定された場合には、ユーザーUに対して再度発話発声を促す旨の応答文を応答文データベース41から選択して対話ロボット10へ送信してもよい。 If the response sentence matching unit 32a analyzes the content of the speech of the user U and determines that the semantic content of the speech is not a semantic content that allows the response sentence to be selected, the response sentence matching unit 32a prompts the user U. On the other hand, a response sentence that prompts the user to speak again may be selected from the response sentence database 41 and transmitted to the dialogue robot 10.
応答文音声変換部32bは、上記の応答文マッチング部32aによって選択された応答文を音声データに変換する機能を有している。なお音声データのファイルフォーマットは特に限定されず、WAVなどの非圧縮形式でもよいし、MP3やAACなどの圧縮形式でもよい。かような音声変換は、公知の種々のソフトウェアを適用することもできる。また、応答文音声変換部32bでは、例えばネイティブスピーカーが発声した音声データとなるように変換される。 The response sentence voice conversion unit 32b has a function of converting the response sentence selected by the response sentence matching unit 32a into voice data. The file format of the audio data is not particularly limited, and may be an uncompressed format such as WAV or a compressed format such as MP3 or AAC. Various known software can also be applied to such voice conversion. Further, the response sentence voice conversion unit 32b converts the voice data into voice data uttered by a native speaker, for example.
応答文情報送信部32cは、上記の応答文音声変換部32bによって変換された音声データを応答文情報として対話ロボット10に向けてネットワークNを介して送信する機能を有している。 The response sentence information transmitting unit 32c has a function of transmitting the voice data converted by the response sentence voice converting unit 32b as response sentence information to the interactive robot 10 via the network N.
発話音声記録部33は、応答文マッチング部32aによって内容解析がなされた後の発話音声をデータベース40に記録する機能を有している。より具体的には、発話音声記録部33は、対話ロボット10からネットワークNを介して受信したユーザーUの発話音声を学習履歴DB43に随時記録する。後述するとおり、学習履歴DB43はユーザーごとに管理されており、例えば日付、会話した時間、会話の内容(使用したテーマなど)あるいは質問に対する正答率などとともに学習履歴DB43へ個別に記録される。このように本実施形態では、サーバ20は、ユーザーUごとに個別に管理されたデータベース40を含み、このデータベース40にユーザーUとの間の英会話に関する情報が記録される。 The utterance voice recording unit 33 has a function of recording the utterance voice after the content analysis is performed by the response sentence matching unit 32 a in the database 40. More specifically, the utterance voice recording unit 33 records the utterance voice of the user U received from the interactive robot 10 via the network N in the learning history DB 43 as needed. As will be described later, the learning history DB 43 is managed for each user, and is individually recorded in the learning history DB 43 together with, for example, a date, a conversation time, conversation contents (used theme, etc.) or a correct answer rate to a question. As described above, in the present embodiment, the server 20 includes the database 40 managed individually for each user U, and information related to English conversation with the user U is recorded in the database 40.
情報解析記録部34は、主として、対話ロボット10のユーザー情報送信部14aから送信された撮像部11が取得した画像情報を解析する機能と、当該解析した後の画像情報をデータベース40に記録する機能を有している。より具体的には、情報解析記録部34は、ユーザー情報送信部14aから受信した上記画像情報に人物が含まれているか解析し、人物が含まれている場合には頭部や上半身の画像などをID情報DB42に記録する。このとき、当該人物を初めてID情報DB42に登録する際には、後述するとおりその人物の氏名情報とともに記録することが好ましい。 The information analysis recording unit 34 mainly functions to analyze the image information acquired by the imaging unit 11 transmitted from the user information transmission unit 14a of the interactive robot 10, and to record the image information after the analysis in the database 40. have. More specifically, the information analysis recording unit 34 analyzes whether or not a person is included in the image information received from the user information transmission unit 14a, and if the person is included, an image of the head or upper body, etc. Is recorded in the ID information DB 42. At this time, when the person is registered in the ID information DB 42 for the first time, it is preferable to record the person together with the name information of the person as described later.
なお、取得した画像情報に人物が含まれているか解析をする際には、例えばモルフォロジー処理など公知の人物抽出アルゴリズムが適用できる。また、この人物抽出アルゴリズムでは、抽出した人物の顔面も容易に特定できるので、情報解析記録部34は特定した顔面情報をID情報DB42に記録してもよい。 Note that when analyzing whether the acquired image information includes a person, a known person extraction algorithm such as morphological processing can be applied. Further, in this person extraction algorithm, the extracted person's face can be easily specified, so the information analysis recording unit 34 may record the specified face information in the ID information DB 42.
顔面情報マッチング部35は、対話ロボット10のユーザー情報送信部14aから受信したユーザーUの顔面情報と、ID情報DB42に既に記録されている顔面情報とのマッチングを行う機能を有している。換言すれば、顔面情報マッチング部35は、ユーザー情報送信部14aから受信したユーザーUの顔面情報が登録されているか未登録であるか判定する機能を有していると言える。 The face information matching unit 35 has a function of matching the face information of the user U received from the user information transmitting unit 14a of the interactive robot 10 with the face information already recorded in the ID information DB 42. In other words, it can be said that the face information matching unit 35 has a function of determining whether the face information of the user U received from the user information transmitting unit 14a is registered or not registered.
会話レベル設定部36は、ユーザーUの質問に対する回答内容に応じて、応答文マッチング部32aが応答文データベース41の中から選択する応答文のレベルを設定する機能を有している。本実施形態の会話レベル設定部36は、難易度が高い順に複数段階(本実施形態では12段階)のレベルを設定することが可能となっている。具体的なレベルの設定方法としては、会話レベル設定部36は、例えば初期値においては中間段階(12段階であれば真ん中のレベル6)のレベルを設定してもよい。そして設定した以後は、対話ロボット10からの応答文は判定されたレベルの英文で応答するように制御する。 The conversation level setting unit 36 has a function of setting the level of the response text that the response text matching unit 32a selects from the response text database 41 in accordance with the content of the answer to the question of the user U. The conversation level setting unit 36 of the present embodiment can set a plurality of levels (in this embodiment, 12 levels) in descending order of difficulty. As a specific level setting method, for example, the conversation level setting unit 36 may set an intermediate level (in the case of 12 levels, the middle level 6) as an initial value. After the setting, the response sentence from the dialogue robot 10 is controlled to respond with the determined level of English sentences.
また、他の具体的なレベルの設定手法としては、例えば中間段階(レベル6)の応答文を用い、この応答文に対して適切な返答をユーザーUがすればレベルを1つ上げ、誤答となる返答をした場合には1つ下げるなどが考えられる。この応答文と返答の内容は、上記したレベルに対応してそれぞれ複数個の英文例が応答文DB41に格納されている。具体的な質問と回答内容の文例は、例えば公知の英語問題集や公開英語テストの試験問題を適用してもよい。
したがって会話レベル設定部36は、設定するレベルに応じた応答文を応答文DB41から抽出するように応答文マッチング部32aを制御する一方で、音声認識部12から受信したユーザーUの返答が応答文DB41内に格納された返答例と一致するかを判定すればよい。
なお、本実施形態の対話システム100は語学学習としての英会話システムであるため、ユーザーUからの発話内容の正誤に基づくレベル設定が可能であるが、例えば介護分野に本システムを適用する場合などには会話レベル設定部36は必ずしも必要ではない。As another specific level setting method, for example, an intermediate (level 6) response sentence is used. If the user U gives an appropriate response to this response sentence, the level is increased by one, and an incorrect answer is given. For example, it may be lowered by one. As for the response text and the content of the response, a plurality of English examples are stored in the response text DB 41 corresponding to the above-described levels. As examples of specific question and answer content sentences, for example, a well-known English question collection or a public English test question may be applied.
Accordingly, the conversation level setting unit 36 controls the response sentence matching unit 32a so as to extract a response sentence corresponding to the set level from the response sentence DB 41, while the response of the user U received from the voice recognition unit 12 is the response sentence. What is necessary is just to determine whether it corresponds with the example of a response stored in DB41.
In addition, since the dialogue system 100 of the present embodiment is an English conversation system as language learning, it is possible to set a level based on the correctness of the utterance content from the user U. For example, when the present system is applied to the care field, etc. The conversation level setting unit 36 is not necessarily required.
ROM/RAM部37は、サーバ20内で稼働するソフトウェアや、対話ロボット10内で稼働するソフトウェアなどを格納する機能を有している。このROM/RAM部37の具体例としては、例えばハードディスクドライブや大容量メモリなどが例示できる。
なお、対話ロボット10で稼働するソフトウェアの一部又は全部は、対話ロボット10自身で格納する形態でもよく、この場合にはROM/RAM部37にはサーバ20内で稼働する各種のソフトウェアが格納される。The ROM / RAM unit 37 has a function of storing software operating in the server 20 and software operating in the interactive robot 10. Specific examples of the ROM / RAM unit 37 include a hard disk drive and a large capacity memory.
Note that a part or all of the software operating on the interactive robot 10 may be stored by the interactive robot 10 itself. In this case, the ROM / RAM unit 37 stores various software operating on the server 20. The
統括制御部38は、公知のCPUなどのプロセッサーであり、上記したサーバ20の各構成要素の動作を統括して制御する機能を有している。 The overall control unit 38 is a known processor such as a CPU, and has a function of controlling the operation of each component of the server 20 in an integrated manner.
データベース40は、対話システム100で用いられる各種のデータを記録して保持する機能を有する。本実施形態のデータベース40は、例えば大容量のハードディスクドライブが例示できる。上述したとおり、本実施形態のデータベース40は、それぞれ上記した応答文DB41、ID情報DB42、及び学習履歴DB43が含まれる。このうち、少なくとも学習履歴DB43は、登録したユーザーの学習履歴が当該ユーザー毎に個別で管理されるように構成されている。
このうち、応答文DB41に蓄積された応答文としては、例えば「おはよう(Good morning)、やあ(Hi)」などがある。なお、蓄積する応答文における他の例としては、例えば国際公開公報WO2005/076258号や特開2012−215645号公報などに開示された公知の種々の文例や公知のデータ構成を適宜用いてもよい。
なお本実施形態は英会話システムであることから上記のごとき例文が応答文DB41に蓄積されるが、例えば介護分野に適用する場合には日常的な会話文例や趣味・娯楽性の話題などが応答文例として蓄積される。すなわち本実施形態の対話システム100の応答文DB41には、その適用される分野(語学学習、介護、娯楽、あるいは受付応対などの業務補助など)に応じて必要とされる例文が蓄積される。The database 40 has a function of recording and holding various data used in the interactive system 100. The database 40 of this embodiment can be exemplified by a large capacity hard disk drive, for example. As described above, the database 40 of the present embodiment includes the response sentence DB 41, the ID information DB 42, and the learning history DB 43 described above. Among these, at least the learning history DB 43 is configured such that a registered user's learning history is individually managed for each user.
Among these, examples of the response text stored in the response text DB 41 include “Good morning” and “Hi”. As other examples of the response sentence to be stored, various known sentence examples and known data structures disclosed in, for example, International Publication No. WO2005 / 076258 and Japanese Patent Application Laid-Open No. 2012-215645 may be used as appropriate. .
Since the present embodiment is an English conversation system, the above-mentioned example sentences are accumulated in the response sentence DB 41. For example, when applied to the nursing field, examples of daily conversation sentences and hobbies / entertainment topics are examples of response sentences. Accumulated as. That is, the response sentence DB 41 of the dialogue system 100 according to the present embodiment stores necessary example sentences according to the field to which it is applied (such as business assistance such as language learning, nursing care, entertainment, reception reception, etc.).
<対話プログラム>
上記した対話システム100に適用されるプログラムは、対話ロボット10及びサーバ20のいずれかに、対話ロボット又はサーバに、撮像部を用いてユーザーの顔面を撮像させ、撮像された前記ユーザーの顔面に関する情報をサーバに通信回線を介して送信させ、前記顔面に関する情報に基づいて前記ユーザーが未登録であるか特定させ、i)未登録であった場合に前記ユーザーの氏名を質問する氏名質問を含む応答文情報を生成させるとともに、ii)登録済であった場合に前記ユーザーの氏名を含む応答文情報を生成させ、発声部を用いて前記ユーザーに対して前記応答文情報に基づくスタート発話として発声させ、音声認識部を用いて前記スタート発話に対する前記ユーザーの発話を音声認識させ、前記音声認識させた前記ユーザーの発話を前記サーバに前記通信回線を介して送信させる。<Dialogue program>
The program applied to the dialogue system 100 described above causes either the dialogue robot 10 or the server 20 to cause the dialogue robot or the server to image the user's face using the imaging unit, and the imaged information on the user's face is captured. To the server via a communication line, to identify whether the user is unregistered based on the information about the face, and i) a response including a name question that asks the user's name if unregistered And ii) generating response sentence information including the user's name when registered, and using the utterance unit to utter the user as a start utterance based on the response sentence information The user who recognized the speech of the user with respect to the start utterance using the speech recognition unit and recognized the speech The speech is transmitted via the communication line to the server.
<起動初期(ユーザー特定)動作フロー>
次に図4を用いて、本実施形態における対話システム100が起動初期におけるユーザー特定動作について詳述する。なお以後に図4〜6で説明されるフローは、サーバ20の統括制御部38と、必要に応じて設けられる対話ロボット10の制御部17との制御下で実行される。
まずステップS10では、対話ロボット10と会話(本例では英会話)を所望するユーザーUが対話ロボット10の電源スイッチ(不図示)をONにすると、対話ロボット10のシステムが起動するとともにネットワークN(以下、インターネットを例にして説明する)を介してサーバ20と接続要求を行う。<Startup (user specific) operation flow>
Next, with reference to FIG. 4, the user specifying operation in the initial stage of activation of the interactive system 100 in the present embodiment will be described in detail. 4 to 6 are executed under the control of the overall control unit 38 of the server 20 and the control unit 17 of the interactive robot 10 provided as necessary.
First, in step S10, when a user U who desires a conversation with the interactive robot 10 (English conversation in this example) turns on the power switch (not shown) of the interactive robot 10, the system of the interactive robot 10 is activated and the network N (hereinafter referred to as “network N”). The connection request is made with the server 20 via the Internet).
次いでステップS11では、サーバ20は、対話ロボット10からの上記接続要求に基づいて、インターネットを介してID情報要求を対話ロボット10に送信する。なお、ID情報としては、ユーザーUが特定可能な情報であれば顔面情報や指紋情報など特に限定はないが、特定の容易さを鑑みると例えばユーザーUの顔面情報であることが好ましい。よって以下では、かようなID情報の例としてユーザーの顔面に関する顔面情報を用いて説明する。 Next, in step S <b> 11, the server 20 transmits an ID information request to the interactive robot 10 via the Internet based on the connection request from the interactive robot 10. The ID information is not particularly limited as long as it is information that can be identified by the user U, and is not particularly limited, such as facial information and fingerprint information. Therefore, below, it demonstrates using the face information regarding a user's face as an example of such ID information.
このID情報要求を対話ロボット10が受信すると、次いでステップ12では、撮像部11が稼働してユーザーUのID情報(以下、顔面情報)を取得する。より具体的には、対話ロボット10は、正対するユーザーUの顔面が被写界に入るように撮像部11(カメラ)を調整して撮像する。 When the interactive robot 10 receives this ID information request, in step 12, the imaging unit 11 operates to acquire the user U's ID information (hereinafter referred to as face information). More specifically, the dialogue robot 10 adjusts the image pickup unit 11 (camera) so that the face of the user U facing the user U enters the object scene, and picks up an image.
そしてステップS13では、対話ロボット10のユーザー情報送信部14aは、撮像部11が撮像したユーザーUの顔面情報をサーバ20に送信する。 In step S <b> 13, the user information transmission unit 14 a of the interactive robot 10 transmits the face information of the user U captured by the imaging unit 11 to the server 20.
次いでステップS14では、サーバ20は受信した顔面情報が既に登録されているか未登録であるかを判定する。より具体的には、サーバ20の顔面情報マッチング部35は、今回受信した顔面情報がID情報DB42に登録済の顔面情報と一致するかを検索する。なお、このとき顔情報のマッチングは顔面の画像から目立つ特徴を抽出することで識別されるが、例えば主成分分析を使った固有顔、線形判別分析、弾性バンチグラフマッチング、ダイナミックリンク照合など公知のアルゴリズムを適用してもよい。 Next, in step S14, the server 20 determines whether the received face information is already registered or unregistered. More specifically, the face information matching unit 35 of the server 20 searches whether the face information received this time matches the face information registered in the ID information DB 42. At this time, facial information matching is identified by extracting features that stand out from the facial image. For example, eigenfaces using principal component analysis, linear discriminant analysis, elastic bunch graph matching, dynamic link matching, etc. An algorithm may be applied.
そしてステップS15では、i)受信した顔面情報に基づいてユーザーUが未登録であると特定した場合に、ユーザーUの氏名を質問する氏名質問を含む応答文情報を生成する(S15−1)。なお、この「氏名質問」として例えば「What is your name?」などの例文が応答文DB41に格納されており、統括制御部38は応答文DB41にアクセスして氏名質問を含む応答文情報を生成する。その後に、この生成した応答文情報は、インターネットを介して対話ロボット10の応答文情報受信部14bで受信される。 In step S15, i) when the user U is identified as unregistered based on the received face information, response sentence information including a name question for asking the name of the user U is generated (S15-1). For example, an example sentence such as “What is your name?” Is stored in the response sentence DB 41 as the “name question”, and the overall control unit 38 accesses the response sentence DB 41 and generates response sentence information including the name question. To do. Thereafter, the generated response text information is received by the response text information receiving unit 14b of the interactive robot 10 via the Internet.
一方で、ii)受信した顔面情報に基づいてユーザーUが登録であると特定した場合に、当該ユーザーUの氏名を含む応答文情報を生成する(S15−2)。なお、この「氏名を含む応答文」として例えば「Hello,(氏名).」などの例文が応答文DB41に格納されており、統括制御部38は応答文DB41にアクセスするとともに、登録済のユーザーUの氏名と組み合わせた応答文情報を生成する。その後に、この生成した応答文情報は、インターネットを介して対話ロボット10の応答文情報受信部14bで受信される。 On the other hand, ii) when the user U is specified to be registered based on the received face information, response sentence information including the name of the user U is generated (S15-2). For example, an example sentence such as “Hello, (name).” Is stored in the response sentence DB 41 as the “response sentence including the name”, and the overall control unit 38 accesses the response sentence DB 41 and registers the registered user. Response text information combined with the name of U is generated. Thereafter, the generated response text information is received by the response text information receiving unit 14b of the interactive robot 10 via the Internet.
そしてステップS16においては、応答文情報受信部14bで応答文情報を受信した対話ロボット10は、発生部13(スピーカ)を介して、受信した応答文をスタート発話として発声する。
このように本実施形態では、発声部13は、ユーザーUが登録済か否かに応じて、当該ユーザーUに対して氏名を問う氏名質問またはユーザーUの氏名を含むスタート発話をユーザーUに対して行う。In step S16, the interactive robot 10 that has received the response text information by the response text information reception unit 14b utters the received response text as a start utterance via the generation unit 13 (speaker).
As described above, in the present embodiment, the utterance unit 13 gives the user U a name question that asks the user U for a name or a start utterance that includes the name of the user U, depending on whether or not the user U has been registered. Do it.
次いでステップS17では、発声部13からのスタート発話に応じた回答がユーザーUから為されるので、このユーザーUの発話内容(回答)を音声認識する。より具体的には、対話ロボット10の音声認識部12がユーザーUの回答である発話内容を音声認識する。 Next, in step S17, since an answer corresponding to the start utterance from the utterance unit 13 is made by the user U, the utterance content (answer) of the user U is recognized by voice. More specifically, the voice recognition unit 12 of the interactive robot 10 recognizes the utterance content that is the answer of the user U by voice.
そして音声認識されたユーザーUの発話内容は、続くステップS18においてインターネットを経由してサーバ20へ送信される。より具体的には、対話ロボット10のユーザー情報送信部14aは、音声認識部12が認識したスタート発話に対するユーザーの発話した音声情報をサーバ20に送信する。 Then, the speech content of the user U that has been voice-recognized is transmitted to the server 20 via the Internet in the subsequent step S18. More specifically, the user information transmission unit 14 a of the interactive robot 10 transmits the voice information uttered by the user to the start utterance recognized by the voice recognition unit 12 to the server 20.
そして今回のユーザーUが初めて登録された場合、続くステップS19においては、サーバ20の情報解析記録部34は、受信したユーザーUの氏名情報をステップS14で用いたID情報とともにデータベース40に記録する。より具体的に本実施形態では、ユーザーUの顔面情報とともに氏名情報がID情報DB42に記録して保存される。なお、氏名情報とともに記録されるID情報としては、本例では顔面情報であったがステップS14で用いられる情報が指紋情報など他の識別情報の場合には当該他の情報であってもよい。 When the current user U is registered for the first time, in subsequent step S19, the information analysis recording unit 34 of the server 20 records the received name information of the user U together with the ID information used in step S14 in the database 40. More specifically, in the present embodiment, name information is recorded and stored in the ID information DB 42 together with the facial information of the user U. The ID information recorded together with the name information is face information in this example, but may be other information when the information used in step S14 is other identification information such as fingerprint information.
以上の起動初期(ユーザー特定)動作フローが完了すると、ユーザーUと対話ロボット10による会話が開始される。
なお上記ステップS10では、システム起動が行われたことやオンライン化が成功したことを示すLEDなどの表示手段が対話ロボット10に搭載されていてもよい。この場合、例えばシステム起動、オンラインの順に表示手段の表示色を変化させることが好ましい。When the above startup initial (user identification) operation flow is completed, a conversation between the user U and the interactive robot 10 is started.
In step S10, the interactive robot 10 may be equipped with a display means such as an LED that indicates that the system has been activated or that the online operation has been successful. In this case, for example, it is preferable to change the display color of the display means in the order of system startup and online.
上記で説明したとおり対話ロボット10の電源スイッチが入ってネットワークNと接続されたら、対話ロボット10の撮像部11が作動して対話ロボット10の前にいるユーザーUの顔を撮影する。そして撮像されたユーザーの画像情報は、サーバ20の情報解析記録部34と顔面情報マッチング部35へとネットワークNを介して送信される。そして顔面情報マッチング部35では登録済みの顔面画像とマッチングが行われ、ユーザーが登録済みの誰であるかが特定される。 As described above, when the power switch of the interactive robot 10 is turned on and connected to the network N, the imaging unit 11 of the interactive robot 10 operates to capture the face of the user U in front of the interactive robot 10. The captured user image information is transmitted to the information analysis recording unit 34 and the face information matching unit 35 of the server 20 via the network N. Then, the face information matching unit 35 performs matching with the registered face image, and specifies who the user is already registered.
そして顔面情報マッチング部35で登録済みの顔面画像と一致した場合には、その人物を特定して「Hello,(名前)」の発話を対話ロボットへ送る。一方で登録済み画像内に同一人物と判定できる顔面画像がなければ、そのユーザーUは新規登録者として画像を保存し、「What is your name?」の氏名質問を対話ロボット10へと送る。そしてユーザーUがその質問に答えて自己の名前を発話すると、その名前を先ほどの画像とともに登録する。 If the face information matching unit 35 matches the registered face image, the person is identified and the utterance “Hello, (name)” is sent to the dialogue robot. On the other hand, if there is no facial image that can be determined as the same person in the registered image, the user U saves the image as a new registrant and sends a name question “What is your name?” To the interactive robot 10. When the user U answers the question and speaks his / her name, the user U registers the name together with the previous image.
<会話内容の決定動作フロー>
次に図5を用いて、対話システム100がユーザーUとの会話内容を決定する動作について詳述する。<Determination flow of conversation content>
Next, the operation in which the dialogue system 100 determines the content of the conversation with the user U will be described in detail with reference to FIG.
まずステップS30では、サーバ20から英会話の主題を何にするか要求するテーマ要求がインターネットを介して対話ロボット10に送信される。具体的にサーバ20の統括制御部38は、応答文DB41の中からテーマ要求に関する応答文を抽出してこの応答文に基づく音声情報を通信インターフェース31経由で対話ロボット10に送信する。また、このテーマ要求の内容としては、例えばユーザーUの母国語で「テーマは何にしますか?」と質問してもよいし、「スポーツ、天気、食事、○○の中からどれにしますか?」など選択肢として提示する質問をしてもよい。また、このテーマ要求自体をユーザーUの母国語でなく習得言語としての英語で行ってもよい。 First, in step S30, a theme request for requesting what should be the subject of English conversation is transmitted from the server 20 to the interactive robot 10 via the Internet. Specifically, the overall control unit 38 of the server 20 extracts a response sentence related to the theme request from the response sentence DB 41 and transmits voice information based on the response sentence to the interactive robot 10 via the communication interface 31. In addition, as the contents of this theme request, for example, you may ask "What do you want the theme?" In the user U's native language, or "Sport, weather, meal, XX" You may ask a question to present as an option. The theme request itself may be made in English as a learning language instead of the user U's native language.
次いでステップS31では、対話ロボット10は、受信したテーマ要求に関する音声情報を発声部13から発声し、今回行う英会話のテーマ問い合わせをユーザーUに対して実行する。
そしてステップS32では、音声認識部12はユーザーUからのテーマ回答に関する発話を音声認識するとともに、ユーザー情報送信部14aは、この音声認識部12が認識したテーマ回答に関する音声情報をサーバ20に送信する。Next, in step S31, the dialogue robot 10 utters voice information related to the received theme request from the utterance unit 13, and executes an English conversation theme inquiry to the user U this time.
In step S32, the voice recognition unit 12 recognizes the speech about the theme answer from the user U, and the user information transmission unit 14a transmits the voice information about the theme answer recognized by the voice recognition unit 12 to the server 20. .
次いでステップS33では、サーバ20の情報解析記録部34でテーマ回答に関する音声情報が解析されて、今回学習するテーマが決定される。
そしてステップS33で学習テーマが決定された後は、ステップS34で学習履歴が存在するか否かが判定される。より具体的にサーバ20の統括制御部38は、学習履歴DB43を参照して、今回のユーザーUに関して過去に学習した履歴があるかを検索する。そして過去の学習履歴があると判定された場合、ステップS35において、統括制御部38は、この抽出した学習履歴の内容を今回の英会話に反映させる。具体的な反映内容としては、例えば過去に行った会話レベルを継続することや、既に学習済みのテーマの有無などが挙げられる。Next, in step S33, the information analysis recording unit 34 of the server 20 analyzes the voice information related to the theme answer, and determines the theme to be learned this time.
After the learning theme is determined in step S33, it is determined in step S34 whether a learning history exists. More specifically, the overall control unit 38 of the server 20 refers to the learning history DB 43 and searches whether there is a history learned about the user U in the past. If it is determined that there is a past learning history, in step S35, the overall control unit 38 reflects the content of the extracted learning history in the current English conversation. Specific reflection contents include, for example, continuing a conversation level that has been performed in the past and the presence or absence of an already learned theme.
一方で今回のユーザーUが新規である場合には、学習履歴DB43内の履歴は未だゼロなので、今回以降の学習履歴が順次積み上げられることになる。
このようにこのステップS34を経た後は、統括制御部38の制御の下で発話音声記録部33などによって、以後のユーザーUと対話ロボット10の間の会話の記録・管理が行われる。また、以降のユーザーUと対話ロボット10との間の会話が学習履歴DBに記録されるので、ユーザーUの習熟度や会話レベルなどが学習履歴DB内で随時更新されていくことになる。On the other hand, when the current user U is new, the history in the learning history DB 43 is still zero, so that the learning histories after this time are sequentially accumulated.
Thus, after passing through this step S34, the conversation between the user U and the dialogue robot 10 is recorded and managed by the utterance voice recording unit 33 and the like under the control of the overall control unit 38. Further, since subsequent conversations between the user U and the dialogue robot 10 are recorded in the learning history DB, the proficiency level of the user U, the conversation level, and the like are updated in the learning history DB as needed.
次に、学習履歴の有無確認およびその反映が完了した後は、ステップS36で今回のテーマに関する具体的な英会話が開始される。すなわち、統括制御部38は、応答文マッチング部32aを制御して応答文DB41の中から今回のテーマに適した応答文を選択する。そして選択された応答文を応答文音声変換部32bによって音声情報に変換した後、応答文情報送信部32cが通信インターフェース31経由で応答文情報として対話ロボット10に送信する。 Next, after the confirmation of the presence / absence of the learning history and its reflection are completed, a specific English conversation related to the current theme is started in step S36. That is, the overall control unit 38 controls the response sentence matching unit 32a to select a response sentence suitable for the current theme from the response sentence DB 41. Then, after the selected response sentence is converted into voice information by the response sentence voice converting unit 32b, the response sentence information transmitting unit 32c transmits the response sentence information as response sentence information to the interactive robot 10 via the communication interface 31.
そしてステップS37では、ステップS36で生成された応答文情報を受信した対話ロボット10は、撮像部11を稼働させて上記した応答文に対する返答中のユーザーUを撮像する。このとき、撮像部11は、ROM/RAM部15を適宜用いて、静止画を1又は複数枚撮影してもよいし回答時の動画を所定時間(例えば数秒〜数分以内)だけ撮影してもよい。
なおこのステップS37は、ユーザーUが応答文に対する返答する際に常に行ってもよいし、例えば5分毎や10分毎など任意のタイミングで実行する形態であってもよい。その場合には、後述するステップS40〜S42は、このステップS37が起動したタイミングで実行されればよい。In step S37, the interactive robot 10 that has received the response message information generated in step S36 operates the imaging unit 11 and images the user U who is responding to the response message. At this time, the imaging unit 11 may use the ROM / RAM unit 15 as appropriate to capture one or a plurality of still images, or capture a moving image when replying for a predetermined time (for example, within a few seconds to a few minutes). Also good.
This step S37 may be always performed when the user U replies to the response sentence, or may be executed at an arbitrary timing such as every 5 minutes or every 10 minutes. In that case, steps S40 to S42 described later may be executed at the timing when step S37 is activated.
ステップS38では、ステップ36で生成された応答文情報に基づいて、発声部13によって応答文が発声される。なお、前述したステップS37とこのステップS38は、その順序が逆であってもよい。
次いでステップS39では、音声認識部12はユーザーUからの応答文に対する発話を音声認識するとともに、ユーザー情報送信部14aは、この音声認識部12が認識した応答文に対する発話(応答文に対する回答となる返答文)に関する音声情報をサーバ20に送信する。In Step S38, a response sentence is uttered by the utterance unit 13 based on the response sentence information generated in Step 36. Note that the order of step S37 and step S38 described above may be reversed.
Next, in step S39, the voice recognition unit 12 recognizes the utterance to the response sentence from the user U, and the user information transmission unit 14a utters the response sentence recognized by the voice recognition unit 12 (an answer to the response sentence). The voice information regarding the response sentence is transmitted to the server 20.
このステップS39と実質的に同時期に、ステップS40では、ステップS37で取得したユーザーUの画像情報(回答時のユーザーUの静止画又は動画)がインターネットを介してサーバ20に送信される。なお、前述したステップS39とこのステップS40は、ほぼ同時に実行されてもよいし、ステップS39が先でも後であってもよい。
このように本実施形態では、対話ロボット10のユーザー情報送信部14aは、応答文に対して発話(返答)したユーザーUの音声情報と共に、撮像部11が撮像した返答中のユーザーUの画像情報をサーバ20に送信する。At substantially the same time as this step S39, in step S40, the image information of the user U acquired in step S37 (the still image or moving image of the user U at the time of answering) is transmitted to the server 20 via the Internet. Note that step S39 and step S40 described above may be executed substantially simultaneously, or step S39 may be performed earlier or later.
As described above, in this embodiment, the user information transmission unit 14a of the interactive robot 10 includes the voice information of the user U who utters (responds) to the response sentence and the image information of the user U who is responding captured by the imaging unit 11. Is transmitted to the server 20.
ステップS41では、サーバ20は、ユーザー情報送信部14aから受信したユーザーUの画像情報に基づいて当該ユーザーUの表情を判定する。より具体的には、サーバ20は、例えばユーザーUの表情から読み取れる感情要素のうち所定値以上の「怒り」や「哀しみ」の数値が検出された場合には、ユーザーUの表情が困惑している(換言すれば、ユーザーUがつまらないと感じていたり飽きている)と判定する。 In step S41, the server 20 determines the facial expression of the user U based on the image information of the user U received from the user information transmission unit 14a. More specifically, for example, when a numerical value of “anger” or “sadness” greater than or equal to a predetermined value is detected among emotion elements that can be read from the facial expression of the user U, the server 20 is confused by the facial expression of the user U. (In other words, the user U feels boring or tired).
この感情要素の数値化としては、例えばMicrosoft社が公開した顔認識技術を利用した「Emotion API」などが適用でき、この技術では画像に含まれる顔を認識し、8つの主要な感情要素である「怒り」、「軽蔑」、「恐れ」、「嫌悪」、「幸福」、「中間」、「悲しみ」、「驚き」を数値化している。なお、この数値が高いほど、その感情が強いことを意味する。
また、上記の他の判定手法としては、例えば特開平3−252775号公報、特開平8−249447号公報、特開平8−249453号公報、特開平10−255043号公報、特開2001−051338号公報等の顔の表情を認識する公知技術を適用し、その表情から「困惑」と関連する感情(「怒り」、「不安」、「憎しみ」など)を抽出して判定するようにしてもよい。As the quantification of emotion elements, for example, “Emotion API” using a face recognition technology published by Microsoft Corporation can be applied. This technology recognizes a face included in an image, and is an eight major emotion elements. "Anger", "contempt", "fear", "hate", "happiness", "intermediate", "sadness", and "surprise" are quantified. In addition, it means that the feeling is so strong that this figure is high.
As other determination methods described above, for example, JP-A-3-252775, JP-A-8-249447, JP-A-8-249453, JP-A-10-255043, JP-A-2001-051338. A publicly known technique for recognizing facial expressions, such as a gazette, may be applied, and emotions related to “confused” (“angry”, “anxiety”, “hate”, etc.) may be extracted and determined from the facial expressions. .
そしてステップS41でユーザーUの表情が困惑していると判定されたときは、ステップS42において、サーバ20は会話レベル設定部36を制御して設定レベルを変更する。より具体的に会話レベル設定部36は、現在設定している会話レベルから1つ又は複数だけレベルを下げる処理を実行する。そして以後は、この変更した会話レベルに基づいて、応答文マッチング部32aが応答文DB41から適切な応答文の候補を選択するように制御される。 If it is determined in step S41 that the facial expression of the user U is confused, in step S42, the server 20 controls the conversation level setting unit 36 to change the setting level. More specifically, the conversation level setting unit 36 executes processing for lowering one or more levels from the currently set conversation level. Thereafter, the response sentence matching unit 32a is controlled to select an appropriate response sentence candidate from the response sentence DB 41 based on the changed conversation level.
なお、ステップS41でユーザーUの表情が困惑していないと判定されたとき、本実施形態では設定レベルは不変となっているが、この態様に限られない。例えばステップS41でユーザーUの表情から読み取れる感情要素のうち所定値以上の「喜び」や「楽しみ」の数値が検出された場合には、会話レベル設定部36を制御して設定レベルを上げてもよい。また、この場合においては、設定レベルを上げる前に、統括制御部38は、設定レベルを上げることを提案する応答文を対話ロボット10へ送信してもよい。かような設定レベルを上げることを提案する種々の応答文も、応答文DB41に予め格納することができる。
このように本実施形態では、ユーザーUにおける表情の判定結果に応じて、ユーザーUでなくシステム側が積極的に対話の内容(話題など)やレベルを変更しているとも言える。Note that when it is determined in step S41 that the expression of the user U is not confused, in this embodiment, the setting level is unchanged, but this is not a limitation. For example, if a numerical value of “joy” or “fun” greater than or equal to a predetermined value is detected among emotion elements that can be read from the facial expression of the user U in step S41, the conversation level setting unit 36 may be controlled to increase the setting level. Good. In this case, the overall control unit 38 may transmit a response sentence that suggests raising the setting level to the interactive robot 10 before raising the setting level. Various response sentences that suggest increasing the setting level can be stored in the response sentence DB 41 in advance.
Thus, in this embodiment, it can be said that the system side, not the user U, actively changes the content (topic, etc.) and level of the conversation according to the facial expression determination result of the user U.
次いでステップS43では、ユーザーUの表情の判定結果に基づいて内容を変化させた次の応答文を含む応答文情報が対話ロボット10へインターネットを介して送信される。より具体的には、応答文マッチング部32aは、設定された会話レベルに基づいて、次の応答文として、応答文DB41から適切な応答文の候補を選択する。そしてこの選択された次の応答文を応答文音声変換部32bが音声情報に変換した後で、応答文情報送信部32cによって通信インターフェース31を介して次の応答文を含む応答文情報が応答文情報受信部14bへ送信される。
なお、このステップS43では、ステップS39でユーザーUが行った発話に対する文法ミスの指摘や矯正あるいは発音の矯正と訓練を促す応答文を対話ロボット10に送信してもよい。Next, in step S43, response sentence information including the next response sentence whose content has been changed based on the determination result of the facial expression of the user U is transmitted to the interactive robot 10 via the Internet. More specifically, the response sentence matching unit 32a selects an appropriate response sentence candidate from the response sentence DB 41 as the next response sentence based on the set conversation level. Then, after the response sentence voice converting unit 32b converts the selected next response sentence into the voice information, the response sentence information including the next response sentence is received by the response sentence information transmitting unit 32c via the communication interface 31. It is transmitted to the information receiving unit 14b.
In this step S43, a response sentence that prompts the user to make a grammatical error indication or correction or pronunciation correction and training for the utterance made by the user U in step S39 may be transmitted to the dialogue robot 10.
なお、ステップS43において、サーバ20内では以下の処理が実行される。すなわち、まずステップS39においてユーザー情報送信部14aから受信したユーザーの発話(返答)に関する音声情報が発話音声記録部33でテキスト化される。そして当該テキスト化した音声情報と応答文DB41の応答文情報とのマッチングが応答文マッチング部32aで行われる。さらにこのマッチング結果に基づく適切な応答文を含む応答文情報が、応答文音声変換部32bや応答文情報送信部32cを介して生成されて対話ロボット10の応答文情報受信部14bへと送信される。 In step S43, the following processing is executed in the server 20. That is, first in step S39, the speech information related to the user's utterance (response) received from the user information transmitting unit 14a is converted into text by the utterance speech recording unit 33. Then, the response text matching unit 32a performs matching between the voiced text information and the response text information of the response text DB 41. Further, response text information including an appropriate response text based on the matching result is generated via the response text voice conversion unit 32b and the response text information transmission unit 32c and transmitted to the response text information reception unit 14b of the interactive robot 10. The
そしてステップS44では、対話ロボット10は、受信した次の応答文を含む応答文情報に基づいて、発声部13を介してユーザーUに対して発話する。
次いでステップS45では、発話された次の応答文に対するユーザーUの発話(返答)を音声認識部12が音声認識するとともに、この音声認識されたユーザーUの発話内容に関する音声情報がユーザー情報送信部14aを介してサーバ20に送信される。In step S44, the interactive robot 10 utters the user U via the utterance unit 13 based on the received response text information including the next response text.
Next, in step S45, the speech recognition unit 12 recognizes the speech of the user U in response to the next response sentence uttered, and the speech information about the speech content of the user U that has been speech-recognized is also transmitted to the user information transmission unit 14a. Is transmitted to the server 20 via.
そしてステップS46では、ステップS45で送信された音声情報をサーバ20が受信した後に、現在行っている英会話のテーマ学習が終了したか否かが判定される。より具体的に統括制御部38は、応答文DB41などを参照して次の応答文が存在するか検索し、テーマ学習が終了したと判定したときは学習を完了する。このとき、インターネットを介して学習が完了した旨の通知を対話ロボット10に送信して発声部13で発声してもよい。また、統括制御部38は、テーマ学習が完了したら会話レベルを更新するなど学習履歴DB43の学習履歴を更新する制御を行ってもよい。 In step S46, after the server 20 receives the audio information transmitted in step S45, it is determined whether or not the current English conversation theme learning has been completed. More specifically, the overall control unit 38 refers to the response sentence DB 41 or the like to search for the next response sentence, and completes the learning when it is determined that the theme learning has ended. At this time, a notification that learning is completed may be transmitted to the interactive robot 10 via the Internet and the utterance unit 13 may utter. Further, the overall control unit 38 may perform control to update the learning history in the learning history DB 43 such as updating the conversation level when the theme learning is completed.
一方でステップS46において統括制御部38がテーマ学習は未だ終了していないと判定したときは、ステップS36に戻り、応答文マッチング部32aは応答文DB41を参照してユーザーUの上記返答に対する適切な応答文を選択する制御を繰り返す。
以上説明したとおり、本実施形態では、対話ロボット10がユーザーUに会話を投げかけるとき、ユーザーUの返答中における顔画像を撮影する。そしてユーザーUが返答している最中の表情がユーザーの発話音声とともにインターネットを介してサーバ20で受信され、その画像をもとにサーバ20でユーザーUの感情を判定する。そして判定の結果、ユーザーUの表情に応じてそれぞれに適応したレベルの応答文に変化させる点などに主とした特徴がある。On the other hand, when the overall control unit 38 determines in step S46 that the theme learning has not been completed yet, the process returns to step S36, and the response sentence matching unit 32a refers to the response sentence DB 41 to appropriately respond to the user U's response. Repeat control to select response text.
As described above, in this embodiment, when the interactive robot 10 throws a conversation to the user U, a face image during the response of the user U is captured. Then, the facial expression being answered by the user U is received by the server 20 via the Internet together with the user's speech, and the server 20 determines the emotion of the user U based on the image. Then, as a result of the determination, there is a main feature in that the response sentence is changed to a level adapted to each according to the facial expression of the user U.
≪第2実施形態≫
以下、図6を用いて本発明の第2実施形態に係る対話システム100´を説明する。上記第1実施形態では、対話ロボット10はネットワークNを介して物理的なサーバ20と情報通信可能に接続されていたが、本実施形態ではクラウドコンピューティングを活用している点に違いがある。よって、以下では第1実施形態と異なる点を説明し、既述の構成と同じ機能・作用を奏するものは同じ参照番号を付してその説明は適宜省略する。<< Second Embodiment >>
The dialogue system 100 ′ according to the second embodiment of the present invention will be described below using FIG. In the first embodiment, the interactive robot 10 is connected to the physical server 20 via the network N so as to be capable of information communication. However, the present embodiment is different in that cloud computing is used. Therefore, below, a different point from 1st Embodiment is demonstrated, the thing which show | plays the same function and effect | action as the above-mentioned structure attaches | subjects the same reference number, and abbreviate | omits the description suitably.
図6に示すとおり、本実施形態に係る対話システム100´は、いわゆるクラウドコンピューティングを用いたシステムであって、対話ロボット10、論理的な仮想サーバ20´、及び物理的なデータセンター60を含んで構成されている。対話ロボット10と仮想サーバ20´とは、インターネットを介して互いに通信可能となるように接続されている。そしてユーザーUは、語学習得などを目的として、仮想サーバ20´と通信可能に接続された対話ロボット10と英会話を行う。
また、この仮想サーバ20´は、物理的な各種が配置されたデータセンター60とネットワークNを介して接続されている。As shown in FIG. 6, the dialogue system 100 ′ according to the present embodiment is a system using so-called cloud computing, and includes a dialogue robot 10, a logical virtual server 20 ′, and a physical data center 60. It consists of The interactive robot 10 and the virtual server 20 ′ are connected so as to be able to communicate with each other via the Internet. Then, the user U performs an English conversation with the interactive robot 10 that is communicably connected to the virtual server 20 ′ for the purpose of learning words.
The virtual server 20 ′ is connected to a data center 60 in which various physical types are arranged via a network N.
そして仮想サーバ20´内では、論理的な仮想アプリケーションサーバ30´と、仮想ストレージサーバ40´とが構成されている。なお、具体的な仮想サーバ20´の機能は第1実施形態と同じであるので、その説明は省略する。
すなわち本実施形態では、対話ロボット10は、クラウド内の仮想サーバ20´とネットワークN(例えばインターネット)を介して情報通信を行うこととなっている。
このように本発明は、物理的なサーバ20と直接情報のやり取りを行う場合に限られず、クラウドコンピューティングを活用して実施することも可能となっている。In the virtual server 20 ′, a logical virtual application server 30 ′ and a virtual storage server 40 ′ are configured. Note that the specific function of the virtual server 20 ′ is the same as that of the first embodiment, and thus the description thereof is omitted.
That is, in the present embodiment, the interactive robot 10 is to perform information communication with the virtual server 20 ′ in the cloud via the network N (for example, the Internet).
As described above, the present invention is not limited to the case of directly exchanging information with the physical server 20, but can also be implemented using cloud computing.
上記した各実施形態は、本発明の趣旨を逸脱しない範囲で種々の変形が可能である。以下、各実施形態に適用が可能な変形例について説明する。 Each of the above-described embodiments can be variously modified without departing from the spirit of the present invention. Hereinafter, modified examples applicable to each embodiment will be described.
<会話レベルの決定動作フロー>
以下、図7を用いて変形例に係る会話レベルの決定動作フローを説明する。
なお、図7においては、レベル決定ルーチンであるステップR1〜R7以外のステップS30〜S46は、上記した第1実施形態の図5と同じ内容の処理であるので、適宜その説明は省略する。<Conversation level decision operation flow>
Hereinafter, the conversation level determination operation flow according to the modification will be described with reference to FIG.
In FIG. 7, steps S30 to S46 other than steps R1 to R7 that are level determination routines are the processes having the same contents as those in FIG. 5 of the first embodiment described above, and thus description thereof will be omitted as appropriate.
すなわち、ステップS34及びS35で学習履歴の反映が適宜実行された後で、サーバ20の統括制御部38は、ステップR1においてレベル決定ルーチンが発動しているかを判定する。このレベル判定ルーチンは、対話ロボット10がユーザーUへ質問を数問投げかけ、その質問にユーザーUがどう答えるかによってユーザーUの会話レベルを多段階で判定するものである。そしてレベル決定ルーチンで会話レベルが決定された以降の対話ロボット10からの応答文は、この判定された会話レベルに基づいて応答文DB41の中から適切に選択されるようになる。 That is, after the reflection of the learning history is appropriately executed in steps S34 and S35, the overall control unit 38 of the server 20 determines whether the level determination routine is activated in step R1. In this level determination routine, the interactive robot 10 asks the user U several questions, and the user U's conversation level is determined in multiple stages depending on how the user U answers the question. A response sentence from the dialogue robot 10 after the conversation level is determined by the level determination routine is appropriately selected from the response sentence DB 41 based on the determined conversation level.
本変形例では、上記した会話レベル設定部36が設定する会話レベル(12段階のレベル)に対応させて、レベル決定ルーチンによる処理が実行される。
なお、レベル決定ルーチンの発動頻度としては特に制限はなく任意のタイミングで発動してもよく、例えばユーザーUが対話ロボット10の不図示のスイッチを操作して発動したり、10分など所定時間毎にレベル決定が行われるように発動したり、あるいは対話ロボット10が起動された初期に1回だけ発動するようにしてもよい。In the present modification, processing by the level determination routine is executed in correspondence with the conversation level (12 levels) set by the conversation level setting unit 36 described above.
The activation frequency of the level determination routine is not particularly limited and may be activated at an arbitrary timing. For example, the user U operates by operating a switch (not shown) of the interactive robot 10 or every predetermined time such as 10 minutes. It may be activated so that the level is determined at the beginning, or may be activated only once in the initial stage when the interactive robot 10 is activated.
ステップR1でレベル決定ルーチンが発動されていれば、サーバ20の会話レベル決定部36は、応答文マッチング部32aを制御して応答文DB41からレベル決定用質問を選択して抽出させる。次いで応答文音声変換部32bがこのレベル決定用質問を含む応答文を音声情報に変換した後、変換された音声情報(応答文情報)が応答文情報送信部32cによって通信インターフェース31を介して対話ロボット10に送信される。
なお、この会話レベルを決定するためのレベル決定用質問としては、上記公知の英語問題集や公開英語テストの試験問題などに基づいた複数個の英文例が適用でき、かようなレベル決定用質問が応答文DB41に格納されている。If the level determination routine is activated in step R1, the conversation level determination unit 36 of the server 20 controls the response sentence matching unit 32a to select and extract a level determination question from the response sentence DB 41. Next, after the response sentence voice conversion unit 32b converts the response sentence including the level determination question into voice information, the converted voice information (response sentence information) is communicated by the response sentence information transmission unit 32c via the communication interface 31. It is transmitted to the robot 10.
As a level determination question for determining the conversation level, a plurality of English examples based on the above-mentioned well-known English question collections and public English test questions can be applied. Such level determination questions Is stored in the response sentence DB 41.
次いでステップR3では、対話ロボット10は、受信したレベル決定用質問を含む応答文情報に基づいて、発声部13によって質問文を発声する。
そして続くステップR4では、音声認識部12がユーザーUからの質問文に対する発話(返答)を音声認識するとともに、音声認識部12が認識した質問文に対する発話(質問文に対する回答となる返答)に関する音声情報をユーザー情報送信部14aがサーバ20に送信する。Next, in step R3, the dialogue robot 10 utters a question sentence by the utterance unit 13 based on the received response sentence information including the level determination question.
In the subsequent step R4, the speech recognition unit 12 recognizes the speech (response) to the question sentence from the user U, and the speech related to the utterance (response that becomes an answer to the question sentence) recognized by the speech recognition unit 12 The user information transmission unit 14 a transmits information to the server 20.
ステップR5では、ユーザーUからの音声情報を受信したサーバ20は、ユーザーUが行った返答の内容に関する正誤を照合する。より具体的には、上記したとおり、対話ロボット10から受信したユーザーUの返答が応答文DB41内に格納された返答例と一致するかが判定される。
次いでステップR6では、サーバ20で所定の質問数に到達したか否かが判定されて、未だ到達していなければステップR2へと戻って質問を繰り返す制御が実行される。一方で所定の質問数に到達した場合には、ステップR7において、それまで行った質問に対する正誤の状況に基づいて適正な会話レベルが設定される。In step R <b> 5, the server 20 that has received the voice information from the user U collates correct / incorrect regarding the content of the reply made by the user U. More specifically, as described above, it is determined whether the response of the user U received from the interactive robot 10 matches the response example stored in the response text DB 41.
Next, at step R6, it is determined whether or not the predetermined number of questions has been reached by the server 20, and if it has not reached yet, control is returned to step R2 to repeat the question. On the other hand, if the predetermined number of questions has been reached, an appropriate conversation level is set in step R7 based on the correctness / incorrectness of the questions made so far.
なお所定の質問数としては特に制限はないが、例えば会話レベルの階層数に応じた数の質問(例えばレベルが12まであれば12問)の質問をユーザーUに行ってその正答率によって会話レベルを決定してもよい。
このように、第1実施形態ではユーザーUの返答時における表情を解析して会話レベルを変更させていたが、この変形例においては上記表情に加えてユーザーUの実際の回答内容に応じて会話レベルを設定することを行っている。The predetermined number of questions is not particularly limited. For example, the number of questions corresponding to the number of hierarchical levels of the conversation level (for example, 12 if the level is 12) is asked to the user U and the conversation level is determined according to the correct answer rate. May be determined.
As described above, in the first embodiment, the facial expression at the time of reply of the user U is analyzed and the conversation level is changed, but in this modified example, the conversation is performed according to the actual answer content of the user U in addition to the facial expression. It is going to set the level.
以上説明した内容は本発明を実施する上での一例であって、本発明の趣旨を逸脱しない限り上記で説明した各実施形態および変形例の要素を適宜組み合わせてもよい。
例えば上記した実施形態および変形例では、適切な応答文を選択する情報処理などは対話ロボット10側で実行せずにネットワークNを介したサーバ側で行っていたが、この態様に限らない。The content described above is an example for carrying out the present invention, and the elements of the embodiments and modifications described above may be appropriately combined without departing from the spirit of the present invention.
For example, in the above-described embodiment and modification, information processing for selecting an appropriate response sentence or the like is performed on the server side via the network N without being performed on the interactive robot 10 side.
すなわちサーバ側はデータベース40だけを管理し、対話ロボット10の制御部17で上記した各種の情報処理を行う形態であってもよい。この場合には、対話ロボット10は、上記した応答文マッチング部32a、応答文音声変換部32b、応答文情報送信部32c、発話音声記録部33、情報解析記録部34、顔面情報マッチング部35、及び会話レベル設定部36の機能を有することになる。あるいは、対話ロボット10は、応答文マッチング部32a、応答文音声変換部32b、応答文情報送信部32c、発話音声記録部33、情報解析記録部34、顔面情報マッチング部35及び会話レベル設定部36の少なくとも1つの機能を分担し、残りをサーバ側で処理する形態としてもよい。 In other words, the server side may manage only the database 40 and perform the above-described various information processing by the control unit 17 of the interactive robot 10. In this case, the dialogue robot 10 includes the response sentence matching unit 32a, the response sentence voice conversion unit 32b, the response sentence information transmission unit 32c, the utterance voice recording unit 33, the information analysis recording unit 34, the face information matching unit 35, And the function of the conversation level setting unit 36 is provided. Alternatively, the dialogue robot 10 includes the response sentence matching unit 32a, the response sentence voice converting unit 32b, the response sentence information transmitting unit 32c, the utterance voice recording unit 33, the information analysis recording unit 34, the face information matching unit 35, and the conversation level setting unit 36. It is good also as a form which shares at least 1 function of these, and processes the remainder by the server side.
また、上記実施形態ではユーザーUと対話ロボット10とが二者で会話する例を説明したが、上述のとおり本発明はこの形態に限らず三者以上で会話する形態でもよい。この場合には、例えば以下の会話形態が考えられる。 In the above embodiment, an example in which the user U and the interactive robot 10 have a conversation with each other has been described. However, as described above, the present invention is not limited to this form, and may have a form in which three or more parties have a conversation. In this case, for example, the following conversation modes can be considered.
(a)介護分野での応用例において、ユーザーU、対話ロボット10、及び介護者の三者で対話する形態:
この場合には、対話ロボット10に対して2人の人間が加わっている。そして対話ロボット10の音声認識部12で変換された音声情報は、サーバ20で個別に(ユーザーUと介護者で区別されて)管理される。そして応答文マッチング部32aは、話者ごとに適切な応答文を応答文DB41から選択して会話ロボット10にネットワークNを介して送信する。(A) In an application example in the nursing care field, a mode in which the user U, the dialogue robot 10, and the caregiver interact with each other:
In this case, two people are added to the dialogue robot 10. The voice information converted by the voice recognition unit 12 of the interactive robot 10 is managed individually (differentiated between the user U and the caregiver) by the server 20. Then, the response sentence matching unit 32a selects an appropriate response sentence for each speaker from the response sentence DB 41 and transmits it to the conversation robot 10 via the network N.
(b)娯楽分野などでの応用例において、ユーザーU、対話ロボット10、及び情報処理端末50(スマートフォンなどの携帯型の情報機器であってもよい)中のキャラクターの三者で対話する形態:
この場合には、情報処理端末50はネットワークNを介してサーバ20と接続され、ユーザーU一人に対して複数の情報機器が対話に加わることとなる。そして応答文マッチング部32aは、情報処理端末50からの応答文情報を受信し、当該情報処理端末50からの応答文情報にも基づいて、適切な応答文を応答文DB41から選択して会話ロボット10にネットワークNを介して送信する。(B) In an application example in the entertainment field or the like, a mode in which the user U, the dialogue robot 10 and the character in the information processing terminal 50 (which may be a portable information device such as a smartphone) interact with each other:
In this case, the information processing terminal 50 is connected to the server 20 via the network N, and a plurality of information devices participate in the dialogue for one user U. Then, the response sentence matching unit 32a receives the response sentence information from the information processing terminal 50, selects an appropriate response sentence from the response sentence DB 41 based on the response sentence information from the information processing terminal 50, and selects a conversation robot. 10 to the network N.
例えば対話内容が英会話学習の場合には、ユーザーUが情報処理端末50に表示されたデジタルキャラクターと対話(英会話)を行っているときに、対話ロボット10がユーザーUに応答内容のヒントを出し、あるいはユーザーUに代わって対話ロボット10がデジタルキャラクターに応答するようにしてもよい。換言すれば、かような場合には対話ロボット10はユーザーUの補助者としての機能を担うことになる。 For example, when the conversation content is English conversation learning, when the user U is interacting with the digital character displayed on the information processing terminal 50 (English conversation), the conversation robot 10 gives a hint of the response content to the user U, Alternatively, the dialogue robot 10 may respond to the digital character on behalf of the user U. In other words, in such a case, the dialogue robot 10 has a function as an assistant of the user U.
なお、上記(a)の場合には3人以上の人間が加わってもよく、この場合には話者ごとに会話内容がサーバ20で識別される形態であってもよい。また、上記(b)の場合には対話ロボット10の他に2台以上の情報端末が加わってもよい。
さらに、上記(a)及び(b)の場合において、サーバ20は、話者ごとに音声情報を識別可能である場合には、話者ごとに異なる会話の内容(テーマ)を設定してもよい。また、サーバ20又は情報処理端末50や上記情報機器から、積極的にテーマに関連した情報を提示するようにしてもよい。
また、本発明の対話システムおよび対話ロボット並びに対話プログラムは、家庭内や教室などで行う上記した英会話を含む語学学習の分野に限られず、例えば介護分野や娯楽分野などユーザーとの間で何らかの対話が必要な様々な分野に広く応用が可能である。In the case of (a), three or more people may be added. In this case, the conversation content may be identified by the server 20 for each speaker. In the case of (b), two or more information terminals may be added in addition to the interactive robot 10.
Further, in the above cases (a) and (b), the server 20 may set different conversation contents (themes) for each speaker when the voice information can be identified for each speaker. . Moreover, you may make it present the information relevant to a theme positively from the server 20, the information processing terminal 50, or the said information apparatus.
In addition, the dialogue system, the dialogue robot, and the dialogue program of the present invention are not limited to the field of language learning including the above-mentioned English conversation performed at home or in a classroom, for example, some kind of dialogue with the user such as the nursing care field and the entertainment field. It can be widely applied to various necessary fields.
<設定レベル変更前の事前処理>
なお上記した第1実施形態においては、ステップS41でユーザーUの表情が困惑していると判定されたときに、続くステップS42ではすぐに会話レベル設定部36を制御して設定レベルを変更した。
しかしながら本発明はこの態様に限られず、以下のごとき設定レベル変更前の事前処理を実行してもよい。<Pre-processing before changing setting level>
In the first embodiment described above, when it is determined in step S41 that the facial expression of the user U is confused, in the subsequent step S42, the conversation level setting unit 36 is immediately controlled to change the setting level.
However, the present invention is not limited to this mode, and pre-processing before changing the setting level may be executed as follows.
すなわち、以下の変形例では、ユーザーUの表情認識にいくつかのパターン(例えば「困惑」、「笑顔」、「無表情」など)を事前に設定しておき、サーバ20で判定したユーザーUの表情に応じてサーバ20からの応答内容を変化させる。その一例として、例えばユーザーUの表情を判定した後で、会話の設定レベルを変更する前に回答催促や事前予告など各種の事前通知を行う。 That is, in the following modified example, some patterns (for example, “confused”, “smile”, “no expression”, etc.) are set in advance for the recognition of the facial expression of the user U, and the user U determined by the server 20 The response content from the server 20 is changed according to the facial expression. As an example, for example, after determining the facial expression of the user U, various prior notices such as an answer prompt and a prior notice are performed before changing the conversation setting level.
より具体的には、例えば図8のステップS41a、S41bに示すように、ユーザーUの表情の認識結果に基づいて、ユーザーUに対する回答の催促や設定レベル変更の意思確認を行う。
まずステップS41では、上記第1実施形態と同様にしてユーザーUの表情を判定する。そしてサーバ20は、ユーザーUの表情が困惑していた場合、ユーザーUからの返答文に関する音声情報を受信していないときには、ステップS41aでユーザーUへ回答を促すメッセージを送信する。かようなメッセージの例としては、例えば「どうしたの?」や「もう少しお待ちしましょうか?」などが例示できる。More specifically, for example, as shown in steps S41a and S41b of FIG. 8, the user U is prompted for an answer and confirms the intention to change the setting level based on the recognition result of the user U's facial expression.
First, in step S41, the facial expression of the user U is determined in the same manner as in the first embodiment. If the user U's facial expression is confused and the voice information related to the response from the user U is not received, the server 20 transmits a message prompting the user U to answer in step S41a. Examples of such messages include “What did you do?” And “Wait a little more?”.
なおステップS41aでメッセージを送信した後にユーザーUからの返答を受信する場合は、例えばユーザーUからの予想回答パターン(「はい」、「いいえ」あるいは「大丈夫だよ」など)を予め保持しておき、実際のユーザーUからの返答と照合すればよい。もちろん、ユーザーUから有意な返答を得られなくとも、所定の時間が経過した場合には続くステップS41bに進んでもよい。 When receiving a response from the user U after sending a message in step S41a, for example, an expected answer pattern from the user U (such as “Yes”, “No”, or “OK”) is stored in advance. What is necessary is just to collate with the response from the actual user U. Of course, even if a significant response cannot be obtained from the user U, the processing may proceed to the subsequent step S41b when a predetermined time has elapsed.
そして続くステップS41bでは、ユーザーUに対して現在の会話レベルからの設定レベル変更を促すメッセージを送信する。かようなメッセージの例としては、例えば「もっと分かりやすく話すね」や「話題を変えましょうね」などの事前予告が例示できる。
このようなステップS41bまでの催促や事前予告を経たうえで、上記第1実施形態と同様にステップS42で会話の設定レベルを変更する処理を行う。なおステップS41aとステップS41bは共に実行される必要はなく、少なくとも一方が実行される形態であってもよい。Then, in the subsequent step S41b, a message for prompting the user U to change the setting level from the current conversation level is transmitted. As an example of such a message, for example, a prior notice such as “Let's talk more clearly” or “Let's change the topic” can be exemplified.
After such prompting and advance notice up to step S41b, processing for changing the setting level of the conversation is performed in step S42 as in the first embodiment. Note that step S41a and step S41b need not be executed together, and at least one of them may be executed.
一方、サーバ20は、ユーザーUの表情が困惑していない場合には、ステップS41cでユーザーUの表情が笑顔か判定する。そしてサーバ20は、ユーザーUの表情が笑顔出会った場合には、ステップS41dでユーザーUへ笑顔の理由を問いかけるメッセージを送信する。かようなメッセージの例としては、例えば「良いことでもあったのかな?」や「楽しい?」などが例示できる。なお本ステップは、ユーザーUからの返答文に関する音声情報を受信していないときでも実行してもよい。 On the other hand, if the facial expression of the user U is not confused, the server 20 determines whether the facial expression of the user U is a smile in step S41c. Then, if the user U encounters a smile with the facial expression of the user U, the server 20 transmits a message asking the reason for the smile to the user U in step S41d. Examples of such messages include “Is it a good thing?” Or “Happy?”. Note that this step may be executed even when voice information related to a response sentence from the user U is not received.
なお、ステップS35で過去の学習履歴を反映している場合には、過去のユーザーUからの返答内容(過去に行った応答文に対する発話やその表情)と比較して、当該過去の返答内容と今回の変更内容(ステップS38の応答文に対する発話やその表情)は異なる場合には「何かあったの?」などというごとき背景問い合わせを行うように構成してもよい。 In addition, when the past learning history is reflected in step S35, the past response content is compared with the response content from the past user U (the utterance and the facial expression to the response sentence performed in the past). If the contents of the change this time (the utterance or its expression with respect to the response sentence in step S38) are different, a background inquiry such as “what happened?” May be made.
<ビッグデータの活用>
また、本発明においては、他のユーザーとのやりとりで取得した応答文例をビッグデータとしてサーバ20が保持し、このビッグデータを活用してユーザーUへのサーバ20から送信するメッセージを変更するようにしてもよい。
より具体的には、図8においては、ユーザーUからの返答(ステップS38の応答文に対する発話)の内容に応じて、ビッグデータを参考にしてユーザーUへの次の応答文選択を行う点にも特徴を有している。<Utilization of big data>
Further, in the present invention, the server 20 holds the response sentence example acquired by the exchange with another user as big data, and the message transmitted from the server 20 to the user U is changed using this big data. May be.
More specifically, in FIG. 8, the next response sentence to the user U is selected with reference to big data according to the content of the response from the user U (the utterance to the response sentence in step S38). Also has features.
すなわちステップP1では、ユーザーUからの返答(ステップS38の応答文に対する発話)の内容が正答であるか判定する。
そしてユーザーUからの返答が、例えば予め保持している想定された返答内容とかけ離れた内容であった場合や文法上の間違いがあった場合などの正答でなかった場合には、ステップP2でビッグデータを参照する。That is, in step P1, it is determined whether the content of the response from the user U (the utterance for the response sentence in step S38) is a correct answer.
If the response from the user U is not a correct answer, such as when the response content is different from the assumed response content stored in advance, or when there is a grammatical error, the big response is given at step P2. Browse the data.
ここでサーバ20は、他のユーザーやユーザーUとの過去のやりとりを共有したり学習したりしており、例えば応答文ごとに出現頻度の高い返答文の例もデータベース化することができる。
従ってサーバ20は、例えばユーザーUからの返答内に頻度の高い文法上の間違いがあった場合には、続くステップS43においてその文法に関連する内容の応答文を選択してユーザーUへ送信するようにしてもよい。また、サーバ20は、例えばユーザーUからの返答内容が想定される返答内容に含まれない場合には、続くステップS43において設定レベルを下げた応答文を選択してユーザーUへ送信するようにしてもよい。Here, the server 20 shares and learns past interactions with other users and the user U. For example, an example of a response sentence having a high appearance frequency for each response sentence can be made into a database.
Therefore, for example, when there is a frequent grammatical error in a response from the user U, the server 20 selects a response sentence having contents related to the grammar and transmits it to the user U in the subsequent step S43. It may be. Further, for example, if the response content from the user U is not included in the assumed response content, the server 20 selects a response sentence whose setting level has been lowered in the subsequent step S43 and transmits it to the user U. Also good.
なお、図8を用いて説明した「ステップS41a〜ステップS41d」と「ステップP1、P2」は、少なくとも一方が実行される形態であってもよい。
また、図8においても、図7を用いて説明したレベル決定ルーチン(ステップR1〜R7)が実行されるように構成されていてもよい。Note that “steps S41a to S41d” and “steps P1 and P2” described with reference to FIG.
Also in FIG. 8, the level determination routine (steps R1 to R7) described using FIG. 7 may be executed.
以上説明したように、本発明の対話ロボット及び対話システム並びに対話プログラムは、ユーザーとの間で自然な会話を構築するのに適している。 As described above, the interactive robot, the interactive system, and the interactive program of the present invention are suitable for constructing a natural conversation with a user.
U ユーザー
10 対話ロボット
11 撮像部
12 音声認識部
13 発声部
14 通信インターフェース
15 ROM/RAM部
16 電源
17 制御部
20 サーバ
20´ 仮想サーバ
30´ 仮想アプリケーションサーバ
31 通信インターフェース
32a 応答文マッチング部
33 発話音声解析記録部
34 情報解析記録部
35 顔面情報マッチング部
36 会話レベル設定部
37 ROM/RAM部
38 統括制御部
40 データベース
41 応答文DB
42 ID情報DB
43 学習履歴DB
100 対話システム U user 10 interactive robot 11 imaging unit 12 voice recognition unit 13 utterance unit 14 communication interface 15 ROM / RAM unit 16 power supply 17 control unit 20 server 20 ′ virtual server
30 'virtual application server 31 communication interface 32a response sentence matching unit 33 utterance voice analysis recording unit 34 information analysis recording unit 35 face information matching unit 36 conversation level setting unit 37 ROM / RAM unit 38 overall control unit 40 database 41 response sentence DB
42 ID information DB
43 Learning history DB
100 Dialogue system
Claims (6)
前記ユーザーの顔面を撮像する撮像部と、
前記ユーザーが発した発話音声を認識する音声認識部と、
前記ユーザーに対して発話する発声部と、
前記通信回線を介して前記顔面に関する顔面情報及び前記音声認識部が認識した音声情報を前記サーバへ送信するユーザー情報送信部と、
前記サーバから応答文情報を受信する応答文情報受信部と、を具備し、
前記ユーザー情報送信部は、前記撮像部が撮像した前記顔面情報を前記サーバに送信し、
i)前記顔面情報に基づいて前記サーバで前記ユーザーが未登録であると特定した場合に、当該サーバが生成した前記ユーザーの氏名を質問する氏名質問を含む前記応答文情報を前記応答文情報受信部が受信し、
ii)前記顔面情報に基づいて前記サーバで前記ユーザーが登録であると特定した場合に、当該サーバが生成した当該ユーザーの氏名を含む前記応答文情報を前記応答文情報受信部が受信し、
前記発声部は、前記ユーザーが登録済か否かに応じて、当該ユーザーに対して前記氏名質問又は前記ユーザーの氏名を含むスタート発話を前記ユーザーに対して行い、
前記ユーザー情報送信部は、前記音声認識部が認識した前記スタート発話に対する前記ユーザーの発話した音声情報を前記サーバに送信することを特徴とする対話ロボット。A dialogue robot connected to a server on a network via a communication line and carrying out a dialogue with a user,
An imaging unit for imaging the user's face;
A speech recognition unit for recognizing speech uttered by the user;
An utterance unit that utters to the user;
A user information transmission unit that transmits the facial information on the face and the voice information recognized by the voice recognition unit to the server via the communication line;
A response sentence information receiving unit for receiving response sentence information from the server,
The user information transmission unit transmits the facial information captured by the imaging unit to the server,
i) When the server specifies that the user is unregistered based on the face information, the response sentence information including a name question for asking a name of the user generated by the server is received as the response sentence information Department receives,
ii) When the server specifies that the user is registered based on the face information, the response sentence information receiving unit receives the response sentence information including the name of the user generated by the server,
The utterance unit makes a start utterance to the user including the name question or the user's name for the user according to whether or not the user has been registered,
The interactive robot characterized in that the user information transmission unit transmits voice information uttered by the user with respect to the start utterance recognized by the voice recognition unit to the server.
前記サーバと、を含む対話システムであって、
前記サーバは、前記ユーザーごとに個別に管理されたデータベースを含み、前記データベースに前記ユーザーとの間の対話に関する情報が記録される請求項1に記載の対話システム。A dialogue robot according to claim 1;
An interactive system including the server,
The dialogue system according to claim 1, wherein the server includes a database managed individually for each user, and information relating to a dialogue with the user is recorded in the database.
前記対話ロボットは、受信した前記応答文を含む応答文情報に基づいて、前記発声部を介して前記ユーザーに対して発話する請求項2に記載の対話システム。The server converts the speech information related to the user's utterance received from the user information transmission unit into text, performs matching between the textualized speech information and response sentence information in the database, and an appropriate response sentence based on the matching Sending the response sentence information including the response sentence information receiving unit,
The dialogue system according to claim 2, wherein the dialogue robot utters to the user via the utterance unit based on response sentence information including the received response sentence.
前記ユーザー情報送信部は、前記応答文に対して発話した前記ユーザーの音声情報と共に、前記撮像部が撮像した前記返答中の前記ユーザーの画像情報を前記サーバに送信し、
前記サーバは、前記ユーザー情報送信部から受信した前記ユーザーの画像情報に基づいて前記ユーザーの表情を判定し、当該表情の判定結果に基づいて内容を変化させた次の応答文を含む前記応答文情報を前記応答文情報受信部へ送信する請求項3に記載の対話システム。The imaging unit images the user in response to the response sentence,
The user information transmission unit transmits the user's image information in the response captured by the imaging unit to the server together with the user's voice information spoken to the response sentence,
The server determines the facial expression of the user based on the image information of the user received from the user information transmission unit, and includes the next response sentence that has been changed based on the determination result of the facial expression. The dialogue system according to claim 3, wherein information is transmitted to the response text information receiving unit.
前記対話ロボットは、受信した前記レベル決定用質問を含む応答文を、前記発声部を介して前記ユーザーに対して発声し、
前記ユーザーが発した前記レベル決定用質問に対する返答に基づいて前記会話レベルが決定され、
前記決定した会話レベルに基づいて前記サーバで前記データベース内の応答文が選択されて前記応答文情報受信部へ送信される請求項3又は4に記載の対話システム。The server transmits response sentence information including a level determination question for determining a conversation level to the response sentence information receiving unit,
The interactive robot utters a response sentence including the received level determination question to the user via the utterance unit,
The conversation level is determined based on a response to the level determination question issued by the user,
5. The dialogue system according to claim 3 or 4, wherein a response sentence in the database is selected by the server based on the determined conversation level and transmitted to the response sentence information receiving unit.
撮像部を用いてユーザーの顔面を撮像させ、
撮像された前記ユーザーの顔面に関する情報をサーバに通信回線を介して送信させ、
前記顔面に関する情報に基づいて前記ユーザーが未登録であるか特定させ、i)未登録であった場合に前記ユーザーの氏名を質問する氏名質問を含む応答文情報を生成させるとともに、ii)登録済であった場合に前記ユーザーの氏名を含む応答文情報を生成させ、
発声部を用いて前記ユーザーに対して前記応答文情報に基づくスタート発話として発声させ、
音声認識部を用いて前記スタート発話に対する前記ユーザーの発話を音声認識させ、
前記音声認識させた前記ユーザーの発話を前記サーバに前記通信回線を介して送信させることを特徴とする対話プログラム。In a dialogue robot or server,
Use the imaging unit to capture the user's face,
Send the imaged information about the user's face to the server via a communication line,
Determine whether the user is unregistered based on information about the face, i) generate response text information including a name question that asks the user's name if unregistered, and ii) registered If so, response sentence information including the user's name is generated,
Let the user utter as a start utterance based on the response sentence information using the utterance unit,
Using the voice recognition unit to recognize the user's utterance with respect to the start utterance,
An interactive program that causes the server to transmit the speech of the user that has been voice-recognized to the server via the communication line.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017118012 | 2017-06-15 | ||
JP2017118012 | 2017-06-15 | ||
PCT/JP2018/020735 WO2018230345A1 (en) | 2017-06-15 | 2018-05-30 | Dialogue robot, dialogue system, and dialogue program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018230345A1 true JPWO2018230345A1 (en) | 2019-11-07 |
JP6633250B2 JP6633250B2 (en) | 2020-01-22 |
Family
ID=64659733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019521492A Active JP6633250B2 (en) | 2017-06-15 | 2018-05-30 | Interactive robot, interactive system, and interactive program |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6633250B2 (en) |
CN (1) | CN109643550A (en) |
WO (1) | WO2018230345A1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102302137B1 (en) * | 2019-10-31 | 2021-09-15 | 주식회사 엘지씨엔에스 | Apparatus for studying foreign language and method for providing foreign language study service by using the same |
CN110689781A (en) * | 2019-10-31 | 2020-01-14 | 北京光年无限科技有限公司 | Data processing method and system based on children education |
US20230121148A1 (en) * | 2020-03-13 | 2023-04-20 | Nippon Telegraph And Telephone Corporation | Dialog support apparatus, dialog support method and program |
JP7540290B2 (en) | 2020-10-21 | 2024-08-27 | オムロン株式会社 | Dialogue robot system, dialogue method and dialogue program |
CN114461067A (en) * | 2021-12-29 | 2022-05-10 | 上海盛付通电子支付服务有限公司 | Method, apparatus, medium, and program product for recalling a deceased object |
JP2023142373A (en) * | 2022-03-25 | 2023-10-05 | 学校法人早稲田大学 | Information processing method, information processing program, and information processing device |
KR20240079332A (en) * | 2022-11-29 | 2024-06-05 | 주식회사 아이오테드 | System for chatbot robot linked to metaverse |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255989A (en) * | 2002-03-06 | 2003-09-10 | Sony Corp | Learning system and learning method, and robot apparatus |
JP2004021121A (en) * | 2002-06-19 | 2004-01-22 | Nec Corp | Voice interaction controller unit |
JP2004101901A (en) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
JP2005106876A (en) * | 2003-09-26 | 2005-04-21 | Cai Media Kyodo Kaihatsu:Kk | Robot for language learning and language learning system |
JP2006078802A (en) * | 2004-09-09 | 2006-03-23 | Nisshinbo Ind Inc | Device and method for supporting learning, and program |
JP2010282058A (en) * | 2009-06-05 | 2010-12-16 | Tokyobay Communication Co Ltd | Method and device for supporting foreign language learning |
JP2013512461A (en) * | 2009-12-16 | 2013-04-11 | 浦項工科大學校 産學協力團 | Foreign language learning apparatus and dialogue system |
JP2014240864A (en) * | 2013-06-11 | 2014-12-25 | 富士ソフト株式会社 | Speech recognition system and method for controlling speech recognition system |
JP2016080894A (en) * | 2014-10-17 | 2016-05-16 | シャープ株式会社 | Electronic apparatus, consumer electronics, control system, control method, and control program |
JP2016133557A (en) * | 2015-01-16 | 2016-07-25 | 国立大学法人大阪大学 | Agent dialog system, and program |
WO2016194740A1 (en) * | 2015-06-04 | 2016-12-08 | シャープ株式会社 | Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4671898B2 (en) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | Speech recognition apparatus, speech recognition method, speech recognition program |
JP2012215645A (en) * | 2011-03-31 | 2012-11-08 | Speakglobal Ltd | Foreign language conversation training system using computer |
JP6192126B2 (en) * | 2015-04-16 | 2017-09-06 | トヨタ自動車株式会社 | Incoming call notification control system |
-
2018
- 2018-05-30 JP JP2019521492A patent/JP6633250B2/en active Active
- 2018-05-30 CN CN201880001020.7A patent/CN109643550A/en active Pending
- 2018-05-30 WO PCT/JP2018/020735 patent/WO2018230345A1/en active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255989A (en) * | 2002-03-06 | 2003-09-10 | Sony Corp | Learning system and learning method, and robot apparatus |
JP2004021121A (en) * | 2002-06-19 | 2004-01-22 | Nec Corp | Voice interaction controller unit |
JP2004101901A (en) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
JP2005106876A (en) * | 2003-09-26 | 2005-04-21 | Cai Media Kyodo Kaihatsu:Kk | Robot for language learning and language learning system |
JP2006078802A (en) * | 2004-09-09 | 2006-03-23 | Nisshinbo Ind Inc | Device and method for supporting learning, and program |
JP2010282058A (en) * | 2009-06-05 | 2010-12-16 | Tokyobay Communication Co Ltd | Method and device for supporting foreign language learning |
JP2013512461A (en) * | 2009-12-16 | 2013-04-11 | 浦項工科大學校 産學協力團 | Foreign language learning apparatus and dialogue system |
JP2014240864A (en) * | 2013-06-11 | 2014-12-25 | 富士ソフト株式会社 | Speech recognition system and method for controlling speech recognition system |
JP2016080894A (en) * | 2014-10-17 | 2016-05-16 | シャープ株式会社 | Electronic apparatus, consumer electronics, control system, control method, and control program |
JP2016133557A (en) * | 2015-01-16 | 2016-07-25 | 国立大学法人大阪大学 | Agent dialog system, and program |
WO2016194740A1 (en) * | 2015-06-04 | 2016-12-08 | シャープ株式会社 | Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model |
Also Published As
Publication number | Publication date |
---|---|
JP6633250B2 (en) | 2020-01-22 |
CN109643550A (en) | 2019-04-16 |
WO2018230345A1 (en) | 2018-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018230345A1 (en) | Dialogue robot, dialogue system, and dialogue program | |
US12050574B2 (en) | Artificial intelligence platform with improved conversational ability and personality development | |
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US20220254343A1 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
US11468894B2 (en) | System and method for personalizing dialogue based on user's appearances | |
US20190371318A1 (en) | System and method for adaptive detection of spoken language via multiple speech models | |
US20220101856A1 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
CN118538199A (en) | Determining a language for speech recognition of a spoken utterance received via an automatic assistant interface | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
CN107993665A (en) | Spokesman role determines method, intelligent meeting method and system in multi-conference scene | |
JP2003255991A (en) | Interactive control system, interactive control method, and robot apparatus | |
US20200013404A1 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
US11501768B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
CN110599999A (en) | Data interaction method and device and robot | |
KR20220123170A (en) | Language Learning System and Method with AI Avatar Tutor | |
WO2020070923A1 (en) | Dialogue device, method therefor, and program | |
CN113299287A (en) | Multi-mode-based service robot interaction method, system and storage medium | |
CN115088033A (en) | Synthetic speech audio data generated on behalf of human participants in a conversation | |
KR20210123545A (en) | Method and apparatus for conversation service based on user feedback | |
JP2017219845A (en) | Speech promotion apparatus and speech promotion program | |
CN116009692A (en) | Virtual character interaction strategy determination method and device | |
Fujie et al. | Recognition of positive/negative attitude and its application to a spoken dialogue system | |
CN114745349B (en) | Comment method, electronic equipment and computer readable storage medium | |
WO2021064948A1 (en) | Interaction method, interactive system, interactive device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190419 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190419 |
|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190516 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190618 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6633250 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |