JP7026066B2 - Voice guidance system and voice guidance method - Google Patents
Voice guidance system and voice guidance method Download PDFInfo
- Publication number
- JP7026066B2 JP7026066B2 JP2019045443A JP2019045443A JP7026066B2 JP 7026066 B2 JP7026066 B2 JP 7026066B2 JP 2019045443 A JP2019045443 A JP 2019045443A JP 2019045443 A JP2019045443 A JP 2019045443A JP 7026066 B2 JP7026066 B2 JP 7026066B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- guidance
- unit
- user
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000013519 translation Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 18
- 230000004044 response Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Manipulator (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、音声案内システム及び音声案内方法に関する。 The present invention relates to a voice guidance system and a voice guidance method.
近年、音声案内システムとして、利用者の音声による入力に対して、音声認識技術や会話技術を適用して、音声で適切な回答を返すものが知られている。このような音声案内システムの一例として、会話ロボットがある。例えば特許文献1には、会話ロボットにおいて、複数の話者との会話を自然に行う技術が開示されている。
In recent years, as a voice guidance system, there is known a system that applies voice recognition technology or conversation technology to a user's voice input and returns an appropriate answer by voice. An example of such a voice guidance system is a conversation robot. For example,
従来開発されている音声案内システムでは、同時に複数の案内対象者と会話することができないという問題があった。
例えば、一人の案内対象者Aと会話中に、別の案内対象者Bに質問されると、会話ロボットは、案内対象者Aとの会話状況を保持したまま案内対象者Bへ回答してしまうため、適切な回答をすることがでない。
The voice guidance system that has been developed in the past has a problem that it is not possible to talk with a plurality of guide targets at the same time.
For example, if a question is asked by another guide target person B during a conversation with one guide target person A, the conversation robot answers to the guide target person B while maintaining the conversation status with the guide target person A. Therefore, it is not possible to give an appropriate answer.
また、案内対象者と非案内対象者(案内実行者)の会話の補助を行うような利用シーンにおいては、会話ロボットが案内対象者の発話(質問)に対して応答して良いが、案内実行者の発話(回答)に対して応答してしまうと、会話が成立しなくなってしまう。
さらに、非案内対象者が回答できない場合に、代わりに会話ロボットが回答してくれると便利だが、現状では、会話ロボット(音声案内システム)が回答すべきか否かを判断することは困難である。
なお、案内対象者と非案内対象者(案内実行者)の会話の補助を会話ロボットが行う状況としては、例えば案内対象者と非案内対象者との会話を、会話ロボットが翻訳するような場合があるが、このような翻訳時には、回答すべきか否かより複雑な判断が必要である。
Further, in a usage scene where the conversation between the guide target person and the non-guidance target person (guidance executor) is assisted, the conversation robot may respond to the utterance (question) of the guide target person, but the guidance execution If you respond to a person's utterance (answer), the conversation will not be established.
Furthermore, it is convenient for the conversation robot to answer instead when the non-guidance target person cannot answer, but at present, it is difficult to determine whether or not the conversation robot (voice guidance system) should answer.
As a situation in which the conversation robot assists the conversation between the guidance target person and the non-guidance target person (guidance executor), for example, the conversation robot translates the conversation between the guidance target person and the non-guidance target person. However, at the time of such translation, it is necessary to make a more complicated judgment as to whether or not to answer.
本発明は、複数の話者が存在する場合の応答を適切に行うことができる音声案内システム及び音声案内方法を提供することを目的とする。 It is an object of the present invention to provide a voice guidance system and a voice guidance method capable of appropriately performing a response when a plurality of speakers are present.
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
本願は、上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、カメラと、マイクと、スピーカとを備えて、マイクに入力した音声に基づいた案内用の音声をスピーカが出力する音声案内システムである。
そして、マイクに入力した音声による質問を受け付ける質問受付部と、質問受付部が受け付けた質問に対応するユーザの音声の特徴を計算し、計算した音声の特徴に基づいてユーザを認識する音声認識部と、質問受付部が音声を検知した際に、カメラで撮影したユーザの画像の特徴を計算し、計算した画像又は画像の特徴に基づいてユーザを認識する画像認識部と、音声認識部が計算したユーザの音声の特徴と画像認識部が計算したユーザの画像の特徴とを用いて案内を行うユーザを選択し、選択したユーザに対する案内用の音声をスピーカから出力させる案内部と、出力音声を所定の言語に翻訳した音声とする翻訳部とを備え、質問受付部でのマイクに入力した音声の受け付け状況に基づいて、案内部は、案内用の音声を出力させる代わりに、質問受付部が受け付けた音声を翻訳部が所定の言語に翻訳した音声をスピーカから出力させる。
In order to solve the above problems, for example, the configuration described in the claims is adopted.
The present application includes a plurality of means for solving the above problems. For example, a camera, a microphone, and a speaker are provided, and the speaker provides guidance voice based on the voice input to the microphone. It is a voice guidance system that outputs.
Then, a question reception unit that accepts a question by voice input to the microphone and a voice recognition unit that calculates the characteristics of the user's voice corresponding to the question received by the question reception unit and recognizes the user based on the calculated voice characteristics. When the question reception unit detects the voice, the image recognition unit that calculates the characteristics of the user's image taken by the camera and recognizes the user based on the calculated image or the characteristics of the image, and the voice recognition unit calculates . A guidance unit that selects a user to provide guidance using the characteristics of the user's voice and the characteristics of the user's image calculated by the image recognition unit, and outputs the guidance voice to the selected user from the speaker , and the output voice. It is equipped with a translation unit that uses voice translated into a predetermined language, and based on the reception status of the voice input to the microphone in the question reception unit, the guidance unit uses the question reception unit instead of outputting the guidance voice. The voice translated from the received voice into a predetermined language is output from the speaker.
本発明によれば、複数のユーザが近くにいるような状況であっても、各ユーザを個別に認識することができ、それぞれのユーザへ適切な回答ができるようになる。また、複数のユーザの間での会話をサポートするような案内も可能になる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
According to the present invention, even in a situation where a plurality of users are nearby, each user can be individually recognized, and an appropriate answer can be given to each user. It also enables guidance to support conversations between multiple users.
Issues, configurations and effects other than those described above will be clarified by the following description of the embodiments.
<1.第1の実施の形態例>
以下、本発明の第1の実施の形態例について、図1~図12を参照して説明する。
本発明の第1の実施の形態例の音声案内システムは、案内対象者(施設利用顧客)と案内実行者(施設スタッフ)との間の会話を翻訳するものである。ここで、第1の実施の形態例の音声案内システムは、案内対象者の質問に対して案内実行者が回答できない場合に、代理で回答を行うことができる。
<1. Example of First Embodiment>
Hereinafter, an example of the first embodiment of the present invention will be described with reference to FIGS. 1 to 12.
The voice guidance system of the first embodiment of the present invention translates a conversation between a guidance target person (facility user) and a guidance performer (facility staff). Here, the voice guidance system of the first embodiment can answer the question of the guidance target person on behalf of the guidance executor when the guidance executor cannot answer the question.
[システム構成]
図1は、本発明の第1の実施の形態例の音声案内システムの全体構成を示す。
音声案内システム1は、ロボット100と、ロボット制御装置200と、ロボット管理サーバ300とで構成される。ロボット100とロボット制御装置200とは、ロボット100を運用するサイト2に設置される。サイト2は、ショッピングセンタなどの施設である。
ロボット100は、会話による案内を実行する。
ロボット制御装置200は、ロボット100を制御する。
ロボット管理サーバ300は、ロボット100の運用状況を監視するものであり、例えばシステムを提供する事業者が運用する。ロボット管理サーバ300は、サイト2に設置されたロボット制御装置200とネットワークを介して接続される。
[System configuration]
FIG. 1 shows the overall configuration of a voice guidance system according to an example of the first embodiment of the present invention.
The
The
The
The
音声案内システム1のロボット100は、商業施設などのサイト2において、案内実行者と、案内実行者と別の言語を話す案内対象者との会話を、互いに翻訳することで案内の補助を行う。また、案内実行者が回答できない場合に、案内実行者に代わり、ロボット100が案内対象者へ回答を行う。
The
図2はロボット100の構成例を示す。
ロボット100は、音声による案内の処理動作を制御するCPU(Central Processing Unit:中央処理ユニット)110と、各ソフトウェアやデータを格納する記憶装置120と、入出力装置130と、外部機器と通信を行う通信インターフェース140とで構成される。
FIG. 2 shows a configuration example of the
The
記憶装置120は、入出力部121と、シナリオ実行部122と、画面処理部123とで構成される。
入出力部121は、ロボット制御装置200から受けたデータや指示を保持し、各処理部へ送る。
シナリオ実行部122は、ロボット制御装置200から受けたシナリオ指示に従って、音声の出力や画面の表示指示を行う。また、シナリオ実行部122は、入出力装置130からのデータ取得などを行う。
画面処理部123は、シナリオ実行部122から受けた画面の表示指示に従って、ロボット制御装置200にアクセスして画面表示を行う。また、画面処理部123は、入出力装置130からのタッチ入力の受付を行う。
The
The input /
The
The
入出力装置130は、複数のマイクによって構成されるマイクアレイ131と、カメラ132と、スピーカ133と、タッチパネル134とで構成される。
マイクアレイ131は、複数のマイクで取得した音声データを多チャンネルデータとして取得する。マイクアレイ131が備える複数のマイクは、それぞれ異なる到来方向の音声を取得する。カメラ132は、映像や画像などの視覚データを取得する。スピーカ133は、音声を出力する。タッチパネル134は、画面の出力及びタッチ入力のデータを取得する。
The input /
The
ロボット100は、マイクアレイ131及びカメラ132で取得したデータを、通信インターフェース140を通して、常に一定間隔でロボット制御装置200へ送信し、通信インターフェース140を通して、ロボット制御装置200からのシナリオ実行指示を受ける。
The
図3は、ロボット制御装置200の構成例を示した図であり、ロボット制御装置200は各部の処理を行うCPU210と、各ソフトウェアやデータが格納される記憶装置220と、外部機器との通信を行う通信インターフェース230とで構成される。
主記憶装置220は、入出力部221と、質問受付部222と、音声認識部223と、画像認識部224と、案内部225と、翻訳部226とで構成される。
入出力部221は、ロボット100や、ロボット制御サーバ300からの入力データ及び出力データを処理し、データを保持し、ロボット制御装置200内の各部へ送る。
FIG. 3 is a diagram showing a configuration example of the
The
The input /
質問受付部222は、ロボット100から受けた多チャンネルの音声データから、記憶しているユーザの音声が最も大きいマイク(チャンネル)の音声入力を受け付ける質問受付処理を行う。このとき、質問受付部222は、そのマイクの設置方向に基づいて音声データの到来方向を推定する。
The
音声認識部223は、音声認識処理を行う。音声認識部223での音声認識処理としては、質問受付部222が受けた音声の特徴量を計算し、音声に基づいてユーザを識別する。ここでの音声の特徴量の計算は、ロボット100の周囲にいる複数人の音声を区別するために行う。
また、音声認識部223は、質問受付部222が受けた音声のテキスト化を行う。
画像認識部224は、ロボット100から受けた画像データを画像処理し、ユーザの画像の特徴量を計算し、画像に基づいてユーザを識別する。画像に複数の人物が写っている場合、それぞれのユーザを個別に認識する。
The
Further, the
The
なお、音声認識部223や画像認識部224がユーザを認識する場合、事前に登録されたユーザを、特定のユーザとして認識することができる。すなわち、事前に案内実行者4の音声の特徴と画像の特徴を、音声認識部223及び画像認識部224に登録しておく。このように登録することで、事前に登録されている音声の特徴及び/又は画像の特徴を検出したユーザを非案内対象者(案内実行者4)とし、事前に登録されていない音声の特徴又は画像の特徴を検出したユーザを案内対象者3とすることができる。
When the
案内部225は、会話継続判定部225aと、回答可否判定部225bと、会話破綻判定部225cと、回答出力部225dとで構成され、音声処理部223と画像認識部224でのユーザ識別結果に基づき、ユーザの選択を行い、選択したユーザとの会話を実行する。
会話継続判定部225aは、案内対象者と案内実行者との会話が継続しているかを判定する。
回答可否判定部225bは、案内対象者の質問に対して、回答可能か否かを判定する。
会話破綻判定部225cは、案内対象者と案内実行者との会話が破綻しているか否かを判定する。
回答出力部225dは、案内対象者の質問に対する回答を検索し、出力する。
翻訳部226は、音声認識部223でテキスト化された発話に対して翻訳を行う。翻訳元言語と翻訳先言語はユーザの立ち位置やタッチパネル134の入力に基づき決定される。
The
The conversation
The answer
The conversation
The
The
図4は、ロボット管理サーバ300の構成例を示す。
ロボット管理サーバ300は、各部の処理を制御するCPU310と、各ソフトウェアやデータが記憶される記憶装置320と、外部機器との通信を行う通信インターフェース330とで構成される。
記憶装置320は、ロボット管理部321を持ち、ロボット管理部321は各ロボットの状態を管理して、保全の計画や修理の通知などを行う。
FIG. 4 shows a configuration example of the
The
The
[ロボット形状と利用形態の例]
図5は、ロボット100の外観の一例を示す。本実施の形態例のロボット100はサイネージ型ロボットで、カメラ132とスピーカ133とタッチパネル134とを備えるタブレット101と、マイクアレイ131を備えるクレドール102とで構成される。クレームドール102は、タブレット101を保持し、保持したタブレット101と接続される。
[Examples of robot shapes and usage patterns]
FIG. 5 shows an example of the appearance of the
アレイマイク131は水平方向に複数のマイクを配置してあり、それぞれのマイクが、音声を集音する方向を異なる方向(水平角度)に設定してある。なお、図5に示すロボット100の外観は一例であり、その他の外観形状としてもよい。例えばカメラ132とスピーカ133は、クレドール102が備えてもよい。
カメラ132は、タブレット101の前面に配置され、タブレット101の前方にいるユーザを撮影する。スピーカ133についても、タブレット101の前面に配置される。
A plurality of microphones are arranged in the horizontal direction of the
The
タッチパネル134は、テキスト表示部134aとアバタ表示部134bとを備える。テキスト表示部134aには、翻訳結果のテキストもしくは音声案内システムによる回答のテキストが表示される。アバタ表示部134bには、テキスト表示部134aに表示したテキストに応じて動作するアバタのアニメーションや案内に用いる画像を表示する。図5では、アバタとしてロボットを表示した例を示し、テキスト表示部134aに会話文(ここでは「こんにちは」)が表示され、ロボット(アバタ)が会話したように表示される。
The
図6は、音声案内システムによる翻訳の利用例を示す。案内対象者3と案内実行者4はロボット100と向き合った状態で、ロボット100の前に立ち、音声案内システム1が翻訳した音声やテキストを基に、ロボット100が案内の補助や翻訳を行いながら、案内対象者3と案内実行者4との間で互いに会話を行う。ここでの案内対象者3は、サイト2の利用者であり、案内実行者4は、サイト2で案内を行うために待機している者(サイト2の従業員など)である。
FIG. 6 shows an example of using translation by a voice guidance system. The
図7は、案内対象者3と案内実行者4の使用言語を選択する画面を示す。
ボタン134cは、案内対象者3の言語選択ボタンを示す。ボタン134dは案内実行者4の言語選択ボタンを示す。ボタン134eは、案内対象者3と案内実行者4の立ち位置の入れ替えボタンを示す。
FIG. 7 shows a screen for selecting the language used by the
The
立ち位置入れ替えボタン134eにより、案内対象者3と案内実行者4の入れ替えを行うことで、タッチパネル134上の案内対象者言語選択ボタン134cと案内実行者言語選択ボタン134dの位置が入れ替わる。
案内対象者3と案内実行者4は、それぞれの言語選択バタン134cと134dを選択することによって、各自が音声認識や翻訳に用いる言語を決定する。
By exchanging the
The
[案内サービスの実行例]
図8は、音声案内システム1による案内サービスの実行手順の例を示すフローチャートである。ここでは、図6に示すように、ロボット100の前に近接して、案内対象者3と案内実行者4とがいる状況である。
[Execution example of guidance service]
FIG. 8 is a flowchart showing an example of an execution procedure of the guidance service by the
まず、ロボット制御装置200では、ユーザ判定(ステップS100)が行われる。このユーザ判定では、画像と音声とタッチ入力に基づき、ロボット100の前に立つ複数のユーザがそれぞれ案内対象者3か案内実行者4かの判定が行われる。
この案内対象者3か案内実行者4かの判定は、例えば以下の処理で行われる。
最初に、画像認識部224での画像認識処理によって、既登録の案内実行者の顔画像から、案内実行者が右に立っているか左に立っているかを識別する。
次に、音声認識部223での音声到来方向検知によって、発話者が左にいるか右にいるかを識別し、発話者が案内実行者か否(案内対象者)かを推定する。
First, in the
The determination of whether the
First, the image recognition process in the
Next, the
図8のフローチャートの説明に戻ると、ロボット制御装置200では、言語判定(ステップS200)が行われる。ここでは、案内対象者3の発話言語(第1の言語)並びに案内実行者4の発話言語(第2の言語)が判定される。
この言語判定は、例えば音声認識部223が取得した音声に基づく言語識別によって、実行される。あるいは、図7に示すタッチ入力での設定で行われる。
Returning to the description of the flowchart of FIG. 8, the
This language determination is executed, for example, by language identification based on the voice acquired by the
続いて、ロボット制御装置200では、翻訳サービス(ステップS300)が行われる。ここでは、第1の言語から第2の言語への翻訳、及び第2の言語から第1の言語への翻訳が行われる。ここでは、第1の言語を英語、第2の言語を日本語とした例を説明する。
このように言語を設定することで、案内実行者4が適切な回答を行えない場合に、ロボット100が第1の言語(英語)を用いて、案内実行者4の代理で回答を行う。
Subsequently, the
By setting the language in this way, when the
図9は、ステップS300の翻訳サービスの流れを示すフローチャートである。
また、図10及び図11(両図は連続した図)は、図9のフローチャートを実行して、会話破綻に基づきロボットが回答する場合のシーケンス図である。図12は、図9のフローチャートを実行して、回答タイマ満了に基づきロボットが回答する場合のシーケンス図である。これらのシーケンス図では、図9のフローチャートの各ステップに対応する箇所に、同じステップ番号を付与する。
FIG. 9 is a flowchart showing the flow of the translation service in step S300.
Further, FIGS. 10 and 11 (both figures are continuous views) are sequence diagrams in which the robot responds based on the conversation failure by executing the flowchart of FIG. FIG. 12 is a sequence diagram when the flowchart of FIG. 9 is executed and the robot responds based on the expiration of the response timer. In these sequence diagrams, the same step numbers are assigned to the parts corresponding to each step in the flowchart of FIG.
以下に、図9に示す翻訳サービスS300の詳細について説明する。
まず、ロボット制御装置200の質問受付部222は、割り込み処理のチェックを行い(ステップS1)、割り込み処理の有無を判断する(ステップS2)。ここでの質問受付部222が判断する割り込み処理としては、音声の入力による割り込みと、回答タイマ満了による割り込みとがある。
ステップS2で割り込み処理がないとき(ステップS2の「割込無」)、質問受付部222はステップS1のチェックに戻る。
The details of the translation service S300 shown in FIG. 9 will be described below.
First, the
When there is no interrupt processing in step S2 (“no interrupt” in step S2), the
また、ステップS2で割り込み処理があると判断したとき(ステップS2の「割込有」)、質問受付部222は、割り込み内容が音声の入力による割り込みと、回答タイマ満了による割り込みの何れかを判断する(ステップS3)。
ステップS3で、音声の入力による割り込みと判断したとき(ステップS3の「音声」)、質問受付部222は、複数チャネルの音声データから音声の到来方向を検知し、その発話者が案内対象者3であるか、案内実行者4であるかを判定する(ステップS4)。
Further, when it is determined in step S2 that there is an interrupt process (“interrupted” in step S2), the
When it is determined in step S3 that the interrupt is due to voice input (“voice” in step S3), the
そして、ステップS4で音声方向より判定した発話者が案内対象者3であった場合(ステップS4の「顧客」)、音声認識部223において英語で音声認識した結果を、翻訳部226で日本語に翻訳し、ロボット100のスピーカ133から音声で出力する(ステップS5)。このとき、音声の出力と同時、またはその代わりに、タッチパネル134での翻訳文を出力してもよい。
Then, when the speaker determined from the voice direction in step S4 is the guidance target person 3 (“customer” in step S4), the result of voice recognition in English by the
案内対象者3の発話の翻訳が終わると、顧客会話破綻検知部225cは質問回数をインクリメントし(ステップS6)、会話継続判定部225aは回答タイマをスタートさせる(ステップS7)。
When the translation of the utterance of the
また、ステップS4で音声方向より判定した発話者が案内実行者4であった場合(ステップS4の「サイト管理者」)、音声認識部223において日本語で音声認識した結果を翻訳部226で英語に翻訳する。そして、ロボット100のスピーカ133やタッチパネル134が、翻訳した音声又は文章を出力する(ステップS9)。
Further, when the speaker determined from the voice direction in step S4 is the guidance executor 4 (“site administrator” in step S4), the result of voice recognition in Japanese by the
ステップS9での案内実行者4の発話の翻訳処理が終わると、会話破綻検知部225cは、ロボット100から画像を取得し、画像認識部224で顔認識して感情の判定を行い、ユーザの反応がポジティブであるかネガティブであるかを判定する(ステップS10)。
ここで、ユーザの反応がポジティブである場合(ステップS10の「ポジティブ」)、会話破綻検知部225cは顧客質問回数をクリアし(ステップS11)、会話継続判定部225aは回答タイマをクリアする(ステップS12)。
When the translation process of the utterance of the
Here, when the user's reaction is positive (“positive” in step S10), the conversation
また、ステップS10の判定で、ユーザの反応がネガティブである場合(ステップS10の「ネガティブ」)、会話破綻検知部225cは、顧客質問回数が閾値以上か否かを判断する(ステップS13)。ここで、閾値以下であれば(ステップS13の「閾値以下」)、ステップS12に移行して、会話判定部225aは回答タイマをクリアする。
Further, when the user's reaction is negative in the determination in step S10 (“negative” in step S10), the conversation
また、ステップS13で顧客質問回数が閾値以上であれば(ステップS13の「閾値以上」)、会話破綻検知部225cは会話が破綻したとみなし、回答可否判定部225bが回答可能か否かを判定する(ステップS14)。
Further, if the number of customer questions in step S13 is equal to or greater than the threshold value (“greater than or equal to the threshold value” in step S13), the conversation
ステップS14の判定で回答不可の場合(ステップS14の「否」)、会話破綻検知部225cは顧客質問回数をクリアし(ステップS11)、会話継続判定部225aは回答タイマをクリアする(ステップS12)。
また、ステップS14の判定で回答可能の場合(ステップS14の「可」)、回答出力部225dは回答の検索を行い(ステップS15)、検索結果をロボット100のスピーカ133及び/又はタッチパネル134で出力する(ステップS16)。
If no answer is possible in the determination of step S14 (“No” in step S14), the conversation
If the answer can be answered by the determination in step S14 (“OK” in step S14), the
ロボット回答後、会話破綻検知部225cは顧客質問回数をクリアし(ステップS11)、会話継続判定部225aは回答タイマをクリアする(ステップS12)。
After the robot answers, the conversation
また、割り込みチェック(ステップS1、S2)中に、回答タイマが満了した場合、会話継続判定部225aはタイマ満了の割り込みを行い、質問受付部222は、タイマ満了割り込みを検知する(ステップS3の「回答タイマ満了」)。この場合、回答可否判定部225bは、直前の案内対象者の質問に対して回答可能か否かを判定する(ステップS14)。
ここで、回答可能の場合(ステップS14の「可」)、回答出力部225dは回答の検索を行い(ステップS15)、検索結果をロボット100のスピーカ133やタッチパネル134で出力する(ステップS16)。
If the answer timer expires during the interrupt check (steps S1 and S2), the conversation
Here, when the answer is possible (“OK” in step S14), the
そして、回答タイマスタート(ステップS7)の後、並びに回答タイマクリア(ステップS12)後、会話継続判定部225aは、画像認識部224の顔認識に基づいて、ユーザがロボット100の前にいるか否かを判定する使用状態確認を行う(ステップS8)。
ここで、会話継続判定部225aは、ユーザがいる場合と判定したとき(ステップS8の「使用中」)、再度ステップS1の割り込みチェックに戻る。また、ユーザがいない場合と判定したとき(ステップS8の「使用終了」)、翻訳サービスを終了する。
Then, after the answer timer start (step S7) and after the answer timer clear (step S12), the conversation
Here, when the conversation
図10と図11(両図は連続したシーケンス図)は、会話破綻に基づきロボットが回答する場合のシーケンス図である。
この例では、最初に案内対象者3が英語で発話し、ロボット100はマイクアレイ131に入力した音声を、ロボット制御装置200の質問受付部222に送信する。この音声の割り込みが質問受付部222で検知され、音声認識部223で音声方向が検知され、テキスト化が行われ、翻訳部226で英語から日本語に翻訳される。このとき、会話破綻検知部225cで質問回数がインクリメントされる。
そして、翻訳部226での翻訳結果がロボット100で出力されると共に、会話継続判定部225aで回答タイマがスタートする。ここまでが、図10の上半分に示す、案内対象者3の発話の翻訳処理である。
10 and 11 (both figures are continuous sequence diagrams) are sequence diagrams when the robot responds based on the conversation failure.
In this example, the
Then, the translation result in the
続いて、案内実行者4による回答の発話があると、ロボット100は、マイクアレイ131に入力した音声を、ロボット制御装置200の質問受付部222に送信する。この音声の割り込みが質問受付部222で検知され、音声認識部223で音声方向が検知され、テキスト化が行われ、翻訳部226で日本語から英語に翻訳される。
そして、翻訳部226での翻訳結果がロボット100で出力される。ここまでが、図10の下半分に示す、案内実行者4の発話の翻訳処理である。
Subsequently, when the
Then, the translation result in the
本実施の形態例の場合、さらにロボット100は、案内対象者3の顔の表情に基づいて回答を行う。
すなわち、図10に示す回答の音声出力後に、図11に示すように、ロボット100のカメラ132が撮影した画像から、顔認識と、その認識した顔の感情判定を行い、会話破綻検知部225cが、会話が破綻したか否かを判断する。この判断で、会話が破綻したことを検知したとき、回答可否判定部225bは、案内対象者3の質問に回答できるか判断し、可能な場合に回答出力部225dが回答を検索し、検索した回答をロボット100から出力させる。
In the case of the present embodiment, the
That is, after the voice output of the answer shown in FIG. 10, as shown in FIG. 11, face recognition and emotion determination of the recognized face are performed from the image taken by the
また、会話破綻検知部225cで質問回数がクリアされると共に、会話継続判定部225aで回答タイマがクリアされ、使用状態の確認後に終了する。あるいは、会話が継続しているときには、図10の最初に戻る。
Further, the conversation
図12は、回答タイマ満了に基づくロボット回答時のシーケンス図である。
この例では、図10の場合と同様に、最初に案内対象者3が英語で発話し、ロボット100はマイクアレイ131に入力した音声が、ロボット制御装置200の質問受付部222に送信される。この音声の割り込みが質問受付部222で検知され、音声認識部223で音声方向が検知され、テキスト化が行われ、翻訳部226で英語から日本語に翻訳される。このとき、会話破綻検知部225cで質問回数がインクリメントされる。
そして、翻訳部226での翻訳結果がロボット100で出力されると共に、会話継続判定部225aで回答タイマがスタートする。ここまでは、図10の上半分に示す、案内対象者3の発話の翻訳処理と同じである。
FIG. 12 is a sequence diagram at the time of robot response based on the expiration of the response timer.
In this example, as in the case of FIG. 10, the
Then, the translation result in the
その後、会話継続判定部225aでは、回答タイマ満了となり、質問受付部222でタイマ満了の割り込みが検知される。このとき、回答可否判定部225bで回答可否が判断され、回答可能である場合に、回答出力部225dで回答が検索され、ロボット100で回答が音声及び/又は画像で出力される。
また、回答出力部225dでの回答検索後に、会話破綻検知部225cで質問回数がクリアされると共に、会話継続判定部225aで回答回数もクリアされ、顔認証結果に基づいた使用状態の確認後に、処理を終了する。
After that, the conversation
Further, after the answer search by the
ここで、本実施の形態例での、案内対象者3と案内実行者4とロボット100による会話及び回答の具体的な例を以下に示す。
案内対象者3の発話:「Hello」
ロボット100の翻訳:「こんにちは」
案内実行者4の発話:「なにかお困りごとですか?」
ロボット100の翻訳:「Can you help you with something?」
案内対象者3の発話:「I’m looking for coinlocker」
ロボット100の翻訳:「コインロッカーを探しています」
案内実行者4の発話:「うーん・・・」
ロボット100の翻訳:「Umm・・・」
案内対象者3の発話:「Don’t you know?」
案内実行者4の発話:「えーっと・・・」
ロボット100の翻訳:「Umm・・・」(会話破綻検知)
ロボット100の回答:「I’m answer behalf of him.
There are coinlockers at ~~~」
案内対象者3の発話:「Oh! Thank you!!」
ロボット100の翻訳:「おお!ありがとう!」
案内対象者3の立ち去り
ロボット100の会話終了判断
Here, a specific example of a conversation and an answer by the
Utterance of Guidance Target 3: "Hello"
Translation of Robot 100: "Hello"
Utterance of Guidance Target 3: "I'm looking for coin locker"
Utterance of Guidance Executer 4: "Hmm ..."
Translation of Robot 100: "Umm ..."
Utterance of Guidance Target 3: "Don't you know?"
Utterance of Guidance Executer 4: "Um ..."
Translation of Robot 100: "Umm ..." (conversation failure detection)
There are coinlockers at ~~~ "
Utterance of Guidance Target 3: "Oh! Thank you !!"
Judgment of the end of conversation of the
以上説明したように、本実施の形態例の音声案内システム1によると、案内対象者3の質問とその案内実行者4の回答を、翻訳しながら適切に行うことができる。
特に、案内対象者3と案内実行者4とを、音声認識と画像認識で区別することで、質問の受け付けと、その質問に対する回答の出力とを、適切に実行できるようになる。
また、案内対象者3と案内実行者4とによる会話が破綻した場合、つまり回答が適切でない場合、音声案内システム1が代理で回答することができ、会話による案内を成立させることができる。
As described above, according to the
In particular, by distinguishing the
Further, when the conversation between the
<2.第2の実施の形態例>
次に、本発明の第2の実施の形態例について、図13~図14を参照して説明する。
本発明の第2の実施の形態例の音声案内システム1の構成は、第1の実施の形態例で図1~図7で説明した構成と同じであり、重複説明を省略する。
第2の実施の形態例では、音声案内システム1は、案内対象者3と案内実行者4との会話を補助する会話補助サービスを行うものである。
<2. Example of the second embodiment>
Next, an example of the second embodiment of the present invention will be described with reference to FIGS. 13 to 14.
The configuration of the
In the second embodiment, the
[会話補助サービスの実行例]
図13は、音声案内システム1による会話補助サービスの流れを示すフローチャートである。
まず、ロボット制御装置200では、発話言語の判定(ステップS400)が行われる。
続いて、ロボット制御装置200では、ステップS400で判定した発話言語に基づいて、会話補助サービス(ステップS500)が行われる。
[Execution example of conversation assistance service]
FIG. 13 is a flowchart showing the flow of the conversation assisting service by the
First, the
Subsequently, in the
図14は、ステップS500の会話補助サービスの詳細を示すフローチャートである。
まず、ロボット制御装置200の質問受付部222は、割り込みの有無のチェックを実行し(ステップS21)、割り込みの有無を判断する(ステップS22)。ここで、割り込み無しの場合(ステップS22の「割込無」)には、質問受付部222は、ステップS21の割り込みの有無のチェックに戻る。
FIG. 14 is a flowchart showing the details of the conversation assisting service in step S500.
First, the
ステップS22の判断で、音声の割り込みがあった場合(ステップS22の「割込有」)、質問受付部222は、割り込み内容が音声の入力による割り込みと、回答タイマ満了による割り込みの何れかを判断する(ステップS23)。
ステップS23で、音声の入力による割り込みと判断したとき(ステップS23の「音声」)、回答可否判定部225bは、認識した音声の回答可否の判定を行う(ステップS24)。
If there is a voice interrupt in the judgment of step S22 (“interruption available” in step S22), the
When it is determined in step S23 that the interrupt is due to the input of voice (“voice” in step S23), the response
ここで回答可能な場合(ステップS24の「可」)、回答可否判定部225bは、回答を検索し(ステップS25)、回答の画像を出力する(ステップS26)。ここでは回答を画像でのみ出力し、音声は出力しない。
If the answer can be answered here (“OK” in step S24), the answer
ステップS26での回答の画像を出力後、会話破綻判定部225cは、案内対象者3の反応を判定する(ステップS27)。ここで、反応がポジティブなら(ステップS27の「ポジティブ」)、会話破綻判定部225cは、顧客質問回数をクリアし(ステップS28)、会話タイマをクリアする(ステップS29)。
After outputting the image of the answer in step S26, the conversation
そして、ステップS27で判定した反応がネガティブなら(ステップS27の「ネガティブ」)、会話破綻判定部225cは、顧客質問回数が閾値以上か否かを判断する(ステップS31)。ここで、閾値以下であれば(ステップS31の「閾値以下」)、ステップS29に移行して、会話判定部225aは回答タイマをクリアする。
If the reaction determined in step S27 is negative (“negative” in step S27), the conversation
また、ステップS31で顧客質問回数が閾値以上であれば(ステップS31の「閾値以上」)、会話破綻検知部225cは会話が破綻したとみなし、回答出力部225dは、直前の回答(画像による回答)を音声で出力する(ステップS32)。その後、ステップS28に移行して、会話破綻判定部225cは、顧客質問回数をクリアする。
Further, if the number of customer questions in step S31 is equal to or greater than the threshold value (“greater than or equal to the threshold value” in step S31), the conversation
回答タイマクリア(ステップS29)を行った後、会話継続判定部225aは、画像認識部224の顔認識に基づいて、ユーザがロボット100の前にいるか否かを判定する使用状態確認を行う(ステップS30)。
ここで、会話継続判定部225aは、ユーザがいる場合と判定したとき(ステップS30の「使用中」)、再度ステップS21の割り込みチェックに戻る。また、ユーザがいない場合と判定したとき(ステップS30の「使用終了」)、翻訳サービスを終了する。
After clearing the answer timer (step S29), the conversation
Here, when the conversation
以上説明したように、本実施の形態例では、複数人の会話に関連する画像表示によりロボット100が会話を補助し、その会話が破綻した際には音声で回答することで、会話を継続させることができる。
As described above, in the embodiment of the present embodiment, the
<3.第3の実施の形態例>
次に、本発明の第3の実施の形態例について、図15~図17を参照して説明する。
本発明の第3の実施の形態例の音声案内システム1の構成は、第1の実施の形態例で図1~図7で説明した構成と同じであり、重複説明を省略する。
第3の実施の形態例では、音声案内システム1は、案内対象者3からの発話(質問)に対して、ロボット100が回答し、その案内対象者3とロボット100との会話が破綻したときに、案内実行者4の案内を翻訳して案内対象者3に伝えるようにしたものである。
サービスの全体の流れは、図8に示すように、ユーザ判定(ステップS100)、言語判定(ステップS200)、翻訳サービス(ステップS300)の順で行われ、翻訳サービス時に、図15のフローチャートで説明する手順で実行されるものである。
<3. Example of Third Embodiment>
Next, an example of the third embodiment of the present invention will be described with reference to FIGS. 15 to 17.
The configuration of the
In the third embodiment, in the
As shown in FIG. 8, the overall flow of the service is performed in the order of user determination (step S100), language determination (step S200), and translation service (step S300), and is described by the flowchart of FIG. 15 at the time of translation service. It is executed by the procedure to be performed.
[案内サービスの実行例]
図15は、本実施の形態例での翻訳サービスの流れを示すフローチャートである。
また、図16及び図17(両図は連続した図)は、図15のフローチャートを実行して、会話破綻に基づき案内実行者4が回答する場合のシーケンス図である。これらのシーケンス図では、図15のフローチャートの各ステップに対応する箇所に、同じステップ番号を付与する。この図15の例の場合も、案内対象者3は英語で会話し、案内実行者4は日本語で会話する。
[Execution example of guidance service]
FIG. 15 is a flowchart showing the flow of the translation service in the example of the present embodiment.
Further, FIGS. 16 and 17 (both figures are continuous views) are sequence diagrams in which the
以下に、図15に示す翻訳サービスの詳細について説明する。
まず、ロボット制御装置200の質問受付部222は、割り込み処理のチェックを行い(ステップS41)、割り込み処理の有無を判断する(ステップS42)。ここでの質問受付部222が判断する割り込み処理としては、音声の入力による割り込みと、回答タイマ満了による割り込みとがある。
ステップS42で割り込み処理がないとき(ステップS42の「割込無」)、質問受付部222はステップS41のチェックに戻る。
The details of the translation service shown in FIG. 15 will be described below.
First, the
When there is no interrupt processing in step S42 (“no interrupt” in step S42), the
また、ステップS42で割り込み処理があると判断したとき(ステップS42の「割込有」)、質問受付部222は、複数チャネルの音声データから音声の到来方向を検知する(ステップS43)。そして、音声認識部223が入力した音声を認識し(ステップS44)、画像認識部224が入力した画像を認識し(ステップS45)、顔認識処理及び識別処理を行う(ステップS46)。
Further, when it is determined in step S42 that there is interrupt processing (“interruption available” in step S42), the
ここで、質問受付部222は、発話者が案内対象者3であるか、案内実行者4であるかを判定する(ステップS47)。ステップS47において、判定した発話者が案内対象者3であった場合(ステップS47の「顧客(英語話者)」)、回答可否判定部225bが回答可能か否かを判定する(ステップS48)。
Here, the
ステップS48の判定で回答可能の場合(ステップS48の「可」)、回答出力部225dは、質問に対する回答を検索し(ステップS49)、その検索した回答を音声及び/又は画像でロボット100から出力させる(ステップS50)。
When the answer can be answered by the determination in step S48 (“OK” in step S48), the
そして、会話破綻検知部225cは、画像認識部224で顔認識して感情の判定を行い、ユーザの反応がポジティブであるかネガティブであるかを判定する(ステップS51)。
ここで、ユーザの反応がポジティブである場合(ステップS51の「ポジティブ」)、会話継続判定部225aは、画像認識部224の顔認識に基づいて、ユーザがロボット100の前にいるか否かを判定する使用状態確認を行う(ステップS52)。
ここで、会話継続判定部225aは、ユーザがいる場合と判定したとき(ステップS52の「使用中」)、再度ステップS41の割り込みチェックに戻る。また、ユーザがいない場合と判定したとき(ステップS41の「使用終了」)、翻訳サービスを終了する。
Then, the conversation
Here, when the user's reaction is positive (“positive” in step S51), the conversation
Here, when the conversation
ここまでの流れは、案内対象者3からの質問に、ロボット100が回答して、案内対象者3が、その会話にポジティブな反応をした場合であり、このようなポジティブな反応が続く限り、案内対象者3とロボット100との会話が継続する。
ところが、ステップS51で判別したユーザの反応がネガティブである場合、ロボット100による会話が破綻することになる。
The flow up to this point is the case where the
However, if the reaction of the user determined in step S51 is negative, the conversation by the
すなわち、ステップS51で判別したユーザの反応がネガティブである場合(ステップS51の「ネガティブ」)、画像認識部224は、案内実行者4の有無を判断する(ステップS53)。なお、ステップS48で回答できないと判断した場合にも、このステップS53に移行して、案内実行者4の有無を判断する。
That is, when the reaction of the user determined in step S51 is negative (“negative” in step S51), the
そして、案内実行者4がいると判断したとき(ステップS53の「有」)、翻訳部226は、案内対象者3からの質問(英語)の日本語への翻訳が行われ(ステップS55)、翻訳結果がロボット100から音声及び/又は画像で出力される(ステップS56)。また、ステップS53の判断で、案内実行者4がいないと判断したとき(ステップS53の「無」)、案内実行者4を呼び出す処理を行った後(ステップS54)、ステップS55に移行する。翻訳結果を出力した後、ステップS52の使用状態の判断に移る。
Then, when it is determined that the
また、ステップS47において、判定した発話者が案内実行者4であった場合(ステップS47の「サイト管理者(日本語話者)」)、翻訳部226は、案内実行者4からの回答(日本語)の英語への翻訳が行われ(ステップS57)、翻訳結果がロボット100から音声及び/又は画像で出力される(ステップS58)。翻訳結果を出力した後、ステップS52の使用状態の判断に移る。
If the determined speaker in step S47 is the guidance executor 4 (“site administrator (Japanese speaker)” in step S47), the
図16と図17(両図は連続したシーケンス図)は、ロボットでの会話破綻に基づき案内実行者4が回答する場合のシーケンス図である。
この例では、最初に案内対象者3が英語で発話し、ロボット100はマイクアレイ131に入力した音声を、ロボット制御装置200の質問受付部222に送信する。この音声の割り込みが質問受付部222で検知される。このとき、音声認識部223で音声方向が検知され、さらにロボット100のカメラ132で取得した画像に基づいて、画像認識部224で顔認識が行われ、質問受付部222で発話者が案内対象者3であると識別される。
16 and 17 (both figures are continuous sequence diagrams) are sequence diagrams when the
In this example, the
案内対象者3であると識別したとき、回答可否判定部225bは、回答可否が判定され、回答可であるとき、回答出力部225dで回答の会話が検索され、検索結果としての回答が、ロボット100から英語の音声及び/又は英語文の画像で出力される。
ここまでが、図16の上半分に示すロボット100による回答を行う処理である。
When it is identified as the
Up to this point, the process of answering by the
そして、この回答の出力時には、ロボット100のカメラ132で撮影した画像から、画像認識部224が案内対象者3の顔認識を行うと共に、案内対象者3の感情判定から、会話破綻検知部225cが会話の破綻の検知を行う。
ここで、会話破綻検知部225cが会話の破綻を検知し、案内実行者4がいることを確認したとき、案内対象者3が英語で発話した質問文を日本語に翻訳する処理が行われ、その翻訳結果が出力される。
ここまでが、図16の下半分に示すロボット100による会話破綻検出時の処理である。
Then, at the time of outputting this answer, the
Here, when the conversation
Up to this point, the processing at the time of conversation failure detection by the
その後、本実施の形態例の場合、案内実行者4の回答を翻訳する処理が行われる。
すなわち、図17に示すように、案内実行者4の回答(日本語発話)が、ロボット100からロボット制御装置200の質問受付部222に送信され、音声の割り込みが質問受付部222で検知される。このとき、音声認識部223で音声方向が検知されると共に、音声認識が行われ、さらに画像認識部224での画像認識が行われ、発話者(案内実行者4)が識別される。
After that, in the case of the present embodiment, the process of translating the answer of the
That is, as shown in FIG. 17, the answer (Japanese utterance) of the
案内実行者4が識別されると、案内実行者4の回答が英語に翻訳され、翻訳結果としての回答が、ロボット100から英語の音声及び/又は英語文の画像で出力される。
When the
以上説明したように、本実施の形態例では、案内対象者3の質問にロボット100が回答し、その案内対象者3とロボット100との会話が破綻したとき、案内実行者4の回答を翻訳する処理が行われる。したがって、案内実行者4により会話を補助しながら、案内対象者3とロボット100での会話を適切に継続させることができるようになる。
As described above, in the present embodiment, when the
<4.変形例>
本発明は、上述した各実施の形態例に限定されるものではなく、様々な変形例が含まれる。
例えば、上述した実施の形態例では、ロボット100としてアバタを表示するタブレット端末を適用したが、その他の形状のロボットとしてもよい。また、上述した実施の形態例では、ロボット100はマイクやカメラでの入力処理とスピーカでの出力処理を行い、ユーザの識別、会話処理、並びに翻訳処理などのデータ処理はロボット制御装置200が行うようにした。これに対して、ロボット100内で一部のデータ処理又は全てのデータ処理を行うようにしてもよい。
<4. Modification example>
The present invention is not limited to the above-described embodiments, but includes various modifications.
For example, in the above-described embodiment, the tablet terminal that displays the avatar is applied as the
また、ここまで各実施の形態例では、案内対象者3と案内実行者4は、それぞれ1人ずつの例を示したが、案内対象者3や案内実行者4は複数人であってもよい。例えば、案内対象者3が複数人であるとき、それぞれの案内対象者3を音声と画像で識別して、それぞれの案内対象者3の質問に回答できるようになる。
Further, in each of the embodiments up to this point, the
また、上述した実施の形態例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、図1~図4などの構成図では、制御線や情報線は説明上必要と考えられるものだけを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。また、図8、図9、図13、図14、図15に示すフローチャートや図10、図11、図12、図16、図17のシーケンス図において、実施の形態例の処理結果に影響がない範囲で、一部の処理ステップの実行順序を入れ替えたり、一部の処理ステップを同時に実行したりするようにしてもよい。 Further, the above-described embodiment is described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, in the configuration diagrams such as FIGS. 1 to 4, only the control lines and information lines considered to be necessary for explanation are shown, and not all the control lines and information lines are shown in the product. .. In practice, it can be considered that almost all configurations are interconnected. Further, in the flowcharts shown in FIGS. 8, 9, 13, 14, and 15, and the sequence diagrams of FIGS. 10, 11, 12, 16, and 17, the processing results of the embodiment are not affected. Within the range, the execution order of some processing steps may be changed, or some processing steps may be executed at the same time.
また、上述した実施の形態例で説明した構成は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラムなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、光ディスク等の記録媒体に置くことができる。 Further, the configuration described in the above-described embodiment may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as a program that realizes each function can be placed in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or an optical disk.
1…音声案内システム、2…サイト、3…案内対象者、4…案内実行者、100…ロボット、110…CPU、120…記憶装置、121…入出力部、122…シナリオ実行部、123…画面処理部、130…入出力装置、131…マイクアレイ、132…カメラ、133…スピーカ、134…タッチパネル、134a…テキスト表示部、134b…アバタ表示部、134c…案内対象者言語選択ボタン、134d…案内実行者言語選択ボタン、134e…立ち位置入れ替えボタン、140…通信インターフェース、200…ロボット制御装置、210…CPU、220…記憶装置、221…入出力装置、222…質問受付部、223…音声認識部、224…画像認識部、225…案内部、225a…会話継続判定部、225b…回答可否判定部、225c…会話破綻判定部、225d…回答出力部、226…翻訳部、230…ロボット制御装置200の通信インターフェース、300…ロボット管理サーバ、310…CPU、320…記憶装置、321…ロボット管理部、330…通信インターフェース
1 ... Voice guidance system, 2 ... Site, 3 ... Guidance target person, 4 ... Guidance executor, 100 ... Robot, 110 ... CPU, 120 ... Storage device, 121 ... Input / output unit, 122 ... Scenario execution unit, 123 ... Screen Processing unit, 130 ... input / output device, 131 ... microphone array, 132 ... camera, 133 ... speaker, 134 ... touch panel, 134a ... text display unit, 134b ... avatar display unit, 134c ... guidance target language selection button, 134d ... guidance Executer language selection button, 134e ... Standing position switching button, 140 ... Communication interface, 200 ... Robot control device, 210 ... CPU, 220 ... Storage device, 221 ... Input / output device, 222 ... Question reception unit, 223 ... Voice recognition unit , 224 ... Image recognition unit, 225 ... Guidance unit, 225a ... Conversation continuation determination unit, 225b ... Answer availability determination unit, 225c ... Conversation failure determination unit, 225d ... Answer output unit, 226 ... Translation unit, 230 ...
Claims (5)
前記マイクに入力した音声による質問を受け付ける質問受付部と、
前記質問受付部が受け付けた質問に対応するユーザの音声の特徴を計算し、計算した音声の特徴に基づいて前記ユーザを認識する音声認識部と、
前記質問受付部が音声を検知した際に、前記カメラで撮影したユーザの画像の特徴を計算し、計算した画像の特徴に基づいて前記ユーザを認識する画像認識部と、
前記音声認識部が計算したユーザの音声の特徴と、前記画像認識部が計算したユーザの画像の特徴とを用いて案内を行うユーザを選択し、選択したユーザに対する案内用の音声を前記スピーカから出力させる案内部と、を備え、
前記案内部は、出力音声を所定の言語に翻訳した音声とする翻訳部を備え、
前記質問受付部での前記マイクに入力した音声の受け付け状況に基づいて、前記案内部は、案内用の音声を出力させる代わりに、前記質問受付部が受け付けた音声を前記翻訳部が所定の言語に翻訳した音声を前記スピーカから出力させる
音声案内システム。 A voice guidance system including a camera, a microphone, and a speaker, which outputs a guidance voice based on the voice input to the microphone from the speaker.
A question reception unit that accepts questions by voice input to the microphone,
A voice recognition unit that calculates the characteristics of the user's voice corresponding to the question received by the question reception unit and recognizes the user based on the calculated voice characteristics.
An image recognition unit that calculates the characteristics of the user's image taken by the camera when the question reception unit detects voice, and recognizes the user based on the calculated characteristics of the image .
A user to be guided is selected using the characteristics of the user's voice calculated by the voice recognition unit and the characteristics of the user's image calculated by the image recognition unit, and the guidance voice to the selected user is transmitted from the speaker. Equipped with a guide to output
The guide unit includes a translation unit that translates the output voice into a predetermined language.
Based on the reception status of the voice input to the microphone in the question reception unit, the guidance unit outputs the voice received by the question reception unit in a predetermined language instead of outputting the guidance voice. The voice translated into the above is output from the speaker.
Voice guidance system.
請求項1に記載の音声案内システム。 The guide unit selects a user who matches a user recognized by the voice recognition unit and a user recognized by the image recognition unit, and executes a conversation with the selected user using the microphone and the speaker. The voice guidance system according to 1.
前記案内部は、案内対象者の質問にのみ回答を行う
請求項1に記載の音声案内システム。 The question reception unit targets users who have detected pre-registered voice features or image features as non-guidance targets, and guides users who have detected pre-registered voice features or image features. And
The voice guidance system according to claim 1, wherein the guidance unit answers only the questions of the guidance target person.
さらに、非案内対象者の発話回数と前記案内対象者の反応により、非案内対象者の発話が案内対象者の期待する発話でないことを検知する会話破綻判定部と、
前記質問受付部が受け付けた音声による質問の回答の可否を判定する回答可否判定部と、を備え、
前記会話破綻判定部が会話破綻判定し、かつ前記回答可否判定部が回答可能と判定したとき、前記案内部は、案内対象者の質問への回答を出力する
請求項3に記載の音声案内システム。 The image recognition unit performs a process of detecting the reaction of the guide target person photographed by the camera, and performs a process.
Further, a conversation failure determination unit that detects that the utterance of the non-guidance target person is not the utterance expected by the guidance target person based on the number of utterances of the non-guidance target person and the reaction of the guidance target person.
It is provided with an answerability determination unit that determines whether or not the question can be answered by voice received by the question reception unit.
The voice guidance system according to claim 3 , wherein when the conversation failure determination unit determines the conversation failure and the answer availability determination unit determines that the answer is possible, the guidance unit outputs an answer to the question of the guidance target person. ..
質問受付部が、前記マイクに入力した音声による質問を受け付ける質問受付処理と、
音声認識部が、前記質問受付部での質問受付処理により受け付けた質問に対応するユーザの音声の特徴を計算し、計算した音声の特徴に基づいて前記ユーザを認識する音声認識処理と、
前記質問受付部での質問受付処理により音声を検知した際に、画像認識部が、カメラで撮影したユーザの画像の特徴を計算すると共に、計算した画像の特徴に基づいて前記ユーザを認識する画像認識処理と、
案内部が、前記画像認識部での音声認識処理により計算したユーザの音声の特徴と、前記画像認識処理により計算したユーザの画像の特徴を用いて案内を行うユーザを選択し、選択したユーザに対する案内用の音声を前記スピーカから出力させる案内処理と、
前記スピーカからの出力音声を所定の言語に翻訳した音声とする翻訳処理と、を含み、
前記質問受付処理での前記マイクに入力した音声の受け付け状況に基づいて、前記案内処理では、案内用の音声を出力させる代わりに、前記質問受付処理で受け付けた音声を前記翻訳処理により所定の言語に翻訳した音声を前記スピーカから出力させる
音声案内方法。 It is a voice guidance method that provides guidance by voice by outputting a guidance voice based on the voice input to the microphone by the speaker.
The question reception process, in which the question reception department accepts questions by voice input to the microphone,
The voice recognition unit calculates the characteristics of the user's voice corresponding to the question received by the question reception process in the question reception unit, and recognizes the user based on the calculated voice characteristics.
When the voice is detected by the question reception process in the question reception unit, the image recognition unit calculates the characteristics of the user's image taken by the camera and recognizes the user based on the calculated characteristics of the image. Recognition processing and
The guidance unit selects a user who provides guidance using the characteristics of the user's voice calculated by the voice recognition processing in the image recognition unit and the characteristics of the user's image calculated by the image recognition processing, and for the selected user. Guidance processing that outputs guidance voice from the speaker,
Includes a translation process in which the output voice from the speaker is translated into a predetermined language.
Based on the reception status of the voice input to the microphone in the question reception process, in the guidance process, instead of outputting the guidance voice, the voice received in the question reception process is translated into a predetermined language. The voice translated into the above is output from the speaker.
Voice guidance method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019045443A JP7026066B2 (en) | 2019-03-13 | 2019-03-13 | Voice guidance system and voice guidance method |
CN202010070053.6A CN111687831B (en) | 2019-03-13 | 2020-01-21 | Voice guidance system and voice guidance method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019045443A JP7026066B2 (en) | 2019-03-13 | 2019-03-13 | Voice guidance system and voice guidance method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020149264A JP2020149264A (en) | 2020-09-17 |
JP2020149264A5 JP2020149264A5 (en) | 2021-03-11 |
JP7026066B2 true JP7026066B2 (en) | 2022-02-25 |
Family
ID=72429672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019045443A Active JP7026066B2 (en) | 2019-03-13 | 2019-03-13 | Voice guidance system and voice guidance method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7026066B2 (en) |
CN (1) | CN111687831B (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110682297A (en) * | 2019-09-18 | 2020-01-14 | 常州市贝叶斯智能科技有限公司 | Intelligent interaction system and method for indoor guiding robot |
JP2022119582A (en) * | 2021-02-04 | 2022-08-17 | 株式会社日立エルジーデータストレージ | Voice acquisition device and voice acquisition method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073355A (en) | 2011-09-27 | 2013-04-22 | Toshiba Corp | Conversation support device, method and program |
JP2017090612A (en) | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | Voice recognition control system |
JP2018142280A (en) | 2017-02-28 | 2018-09-13 | 国立大学法人東北大学 | Interaction support apparatus and interactive apparatus |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003096171A1 (en) * | 2002-05-14 | 2003-11-20 | Philips Intellectual Property & Standards Gmbh | Dialog control for an electric apparatus |
US20160246781A1 (en) * | 2015-02-19 | 2016-08-25 | Gary Cabot | Medical interaction systems and methods |
WO2017175363A1 (en) * | 2016-04-07 | 2017-10-12 | 株式会社アドバンスト・メディア | Information processing system, reception server, information processing method and program |
US10289076B2 (en) * | 2016-11-15 | 2019-05-14 | Roborus Co., Ltd. | Concierge robot system, concierge service method, and concierge robot |
CN206639220U (en) * | 2017-01-05 | 2017-11-14 | 陈伯妤 | A kind of portable simultaneous interpretation equipment |
CN106737760B (en) * | 2017-03-01 | 2023-04-25 | 深圳市爱维尔智能科技有限公司 | Human-type intelligent robot and human-computer communication system |
CN107053208B (en) * | 2017-05-24 | 2018-06-01 | 北京无忧创新科技有限公司 | A kind of method of active dialog interaction robot system and the system active interlocution |
CN109093633A (en) * | 2018-11-02 | 2018-12-28 | 上海元趣信息技术有限公司 | A kind of detachable robot and its control method |
-
2019
- 2019-03-13 JP JP2019045443A patent/JP7026066B2/en active Active
-
2020
- 2020-01-21 CN CN202010070053.6A patent/CN111687831B/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073355A (en) | 2011-09-27 | 2013-04-22 | Toshiba Corp | Conversation support device, method and program |
JP2017090612A (en) | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | Voice recognition control system |
JP2018142280A (en) | 2017-02-28 | 2018-09-13 | 国立大学法人東北大学 | Interaction support apparatus and interactive apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN111687831A (en) | 2020-09-22 |
CN111687831B (en) | 2023-01-03 |
JP2020149264A (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4557919B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
EP1492083B1 (en) | Method and apparatus for validating a transcription | |
US10229676B2 (en) | Phrase spotting systems and methods | |
JP4679254B2 (en) | Dialog system, dialog method, and computer program | |
JP6540414B2 (en) | Speech processing apparatus and speech processing method | |
TW200305140A (en) | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition | |
US20020169606A1 (en) | Apparatus, system and method for providing speech recognition assist in call handover | |
CN102254556A (en) | Estimating a Listener's Ability To Understand a Speaker, Based on Comparisons of Their Styles of Speech | |
WO2016194740A1 (en) | Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model | |
JP7026066B2 (en) | Voice guidance system and voice guidance method | |
CN110602334A (en) | Intelligent outbound method and system based on man-machine cooperation | |
JP6863179B2 (en) | Call center system, call center device, dialogue method, and its program with customer complaint detection function | |
JP2004053825A (en) | Apparatus, method, and program for language identification | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
JP6961765B1 (en) | Telephone support business support system, telephone support business support method and program | |
US20200279570A1 (en) | Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus | |
US10984229B2 (en) | Interactive sign language response system and method | |
JP6736225B2 (en) | Interactive device, interactive device control method, and program | |
JP2020149264A5 (en) | ||
JP2020064168A (en) | Guide robot system and guide method | |
TWM635534U (en) | Artificial intelligence voice controlled banking transaction system | |
JP2006113439A (en) | Speech automatic responding apparatus and program | |
JP2023117068A (en) | Speech recognition device, speech recognition method, speech recognition program, speech recognition system | |
CN115620713A (en) | Dialog intention recognition method, device, equipment and storage medium | |
JP6699457B2 (en) | Communication control device, communication control system, communication control method, and communication control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7026066 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |