[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5075664B2 - 音声対話装置及び支援方法 - Google Patents

音声対話装置及び支援方法 Download PDF

Info

Publication number
JP5075664B2
JP5075664B2 JP2008035126A JP2008035126A JP5075664B2 JP 5075664 B2 JP5075664 B2 JP 5075664B2 JP 2008035126 A JP2008035126 A JP 2008035126A JP 2008035126 A JP2008035126 A JP 2008035126A JP 5075664 B2 JP5075664 B2 JP 5075664B2
Authority
JP
Japan
Prior art keywords
voice
user
intensity
distance range
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008035126A
Other languages
English (en)
Other versions
JP2009192942A (ja
Inventor
博史 杉山
薫 鈴木
大介 山本
敏之 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008035126A priority Critical patent/JP5075664B2/ja
Priority to US12/370,133 priority patent/US8155968B2/en
Priority to CN2009100074381A priority patent/CN101510425B/zh
Publication of JP2009192942A publication Critical patent/JP2009192942A/ja
Application granted granted Critical
Publication of JP5075664B2 publication Critical patent/JP5075664B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)
  • Details Of Television Systems (AREA)

Description

本発明は、周囲の雑音に応じて発話に適した距離範囲を推定し提示する音声対話装置及びその支援方法に関する。
従来から利用者との間で音声対話を行うロボットが知られている。しかし、家庭やオフィスなどの実環境では様々な機器から発生する雑音によって、音声対話ロボットが利用者の発話する音声を正確に認識できない場合がある。家電機器や人の生活行動によって音が発生する環境で音声認識率を向上させるためには、利用者の音声を適切な強度でマイクに入力する必要がある。
特許文献1は、利用者の声を検出するとS/N比を計算し、S/N比が一定以下である場合にはロボットを利用者の方に近づけることによりS/N比を向上させる方法を提案している。しかし、この方法では、あらかじめどれだけの距離近づけば十分な認識が可能なS/N比を満たす音声を得られるかは判断していない。また周囲の雑音強度が変化した場合、話者と適切な距離であるかを判断するために、再度利用者からの発話を受ける必要がある。
特許文献2は、どの程度の音量で発話すればよいかを話者が感覚的に把握できるように、周囲の騒音レベルに応じて、実際に発話された音声の音量と発話すべき音量とを対比した表示を行う方法を提案している。しかし、自分の声は頭蓋を伝わって聞こえる部分が大きい。そのため、表示に合わせて自らの声の大きさを調整する動作は困難である。また、外部の環境変化に伴って騒音レベルが変化した場合、適切な音量範囲を得るために再び発話を行う必要がある。

特開2006−181651公報 特開2006−227499公報
上述の方法では、利用者に数回発話してもらった結果を確認するという方法であるため、雑音強度が変化し調整が必要になる度に利用者に発話を強いる必要があるという問題がある。
上記課題を解決するため、本発明は、雑音に応じて発話に適する推奨距離範囲を推定し利用者に提示する音声対話装置を提供することを目的とする。
上記課題を解決するために、利用者が発する音声で対話をする音声対話装置であって、ゲインが可変な音声入力手段と、前記音声入力手段から入力された音声信号から発話区間を検出して音声認識を行う認識手段と、前記発話区間の前記音声信号の強度である音声強度を測定する第1の強度測定手段と、前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定する第2の強度測定手段と、前記音声強度と前記雑音強度との比であるS/N比を算出する第1の算出手段と、前記利用者と前記音声入力手段との現在距離を測定する距離測定手段と、前記認識手段が所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶する第1の記憶手段と、前記認識手段が前記利用者の音声の認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインの組である音声特性を記憶する第2の記憶手段と、前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第1の閾値以上となると推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出する第2の算出手段と、前記推奨距離範囲と、前記現在距離を前記利用者に向けて表示する表示手段とを具備し、前記音声入力手段が入力する音声信号の強度の上限に対応した第2の閾値を記憶する第3の記憶手段をさらに備え、前記第2の算出手段は、前記音声特性と前記音声入力手段のゲインとから、前記音声強度が前記第2の閾値を越えないと推定される距離範囲をさらに算出し、S/N比が前記第1の閾値以上となり、前記第2の閾値を越えないと推定される距離範囲を前記推奨距離範囲とすることを特徴とする音声対話装置を提供する。

また、利用者が発する音声で対話をする音声対話装置の音声認識処理を支援する方法であって、前記利用者が発する音声を音声信号として音声入力手段に入力するステップと、前記音声入力手段のゲインを調整するステップと、前記音声信号から発話区間を検出して音声認識を行うステップと、前記発話区間の前記音声信号の強度である音声強度を測定するステップと、前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定するステップと、前記音声強度と前記雑音強度との比であるS/N比を算出するステップと、前記利用者と前記音声入力手段との現在距離を測定するステップと、所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶するステップと、前記認識手段が前記利用者の音声の認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインとの組である音声特性を記憶するステップと、前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第1の閾値を満たすと推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出するステップと、前記推奨距離範囲と、前記現在距離とを前記利用者に向けて表示するステップとを有し、前記音声入力手段が入力する音声信号の強度の上限に対応した第2の閾値を記憶するステップとをさらに備え、前記推奨距離範囲を算出するステップは、前記音声特性と前記音声入力手段のゲインとから、前記音声強度が前記第2の閾値を越えないと推定される距離範囲をさらに算出し、S/N比が前記第1の閾値以上となり、前記第2の閾値を越えないと推定される距離範囲を前記推奨距離範囲とする音声対話装置の音声認識処理を支援する支援方法を提供する。
雑音に応じて発話に適する推奨距離範囲を推定し、推定された距離範囲を利用者に提示することができる。
(第1の実施形態)
第1の実施形態の対話型ロボットについて説明する。
図1は本実施形態の対話型ロボットの外観を示す図である。家庭内で用いられる対話型ロボット100は画像撮像デバイス101,102(例えばCCDカメラ)と、音声入力デバイス103,104(例えばマイクロホン)と、距離センサ105と、リモコン信号送受信器109(例えばリモコン送受信器)と、インジケーター106と、可動部107,108(例えば腕部)を備えている。
ロボット100の頭部に配置された、音声入力デバイス103、104は入力される音声をアナログ信号に変換するデバイスである。変換されたアナログ信号はゲインの調整が可能なマイクアンプを通して増幅され、図示しないA/D変換器を通してデジタル信号に変換され、音声データとして図示しないCPUで処理される。
距離センサ105は、例えば赤外線測距センサ、超音波センサの様な対象物との距離を計測し、距離に対応する信号を出力するデバイスである。距離センサ105は音声入力デバイス103の近傍に配置され、利用者と音声入力デバイス103,104との間の距離の測定に使用される。
ロボット100のボディ前面に配置されたインジケーター106は、LEDや液晶などを使った状態表示デバイスであり、連続的に変化する状態量を利用者201に対して提示する。本実施形態では、利用者に対して発話の推奨距離及び、利用者と対話型ロボット100との距離を表示するために使用される。
リモコン信号送受信器109は家電機器を操作するリモコンの信号を送受信するデバイスであり、利用者の操作するリモコンから発信された信号(例えば赤外コード)を受信する。また、利用者の発話による指示に従い、指定された信号(例えば赤外コード)を発信することでテレビ203などの家電機器を操作する。
可動部107,108は対話型ロボット100が動作表現をするための手段である。可動部107,108の動作によって利用者が発話に適した距離範囲である推奨距離範囲内にいるかの判定結果を利用者に伝達する。
図2は本実施形態の対話型ロボットの使用形態を示す図である。
ダイニングテーブル202の上に対話型ロボット100が置かれ、利用者201が対話型ロボット100に向かって命令語彙を発話する。
例えば命令語彙として「テレビつけて」と利用者201が発話し、対話型ロボット100が「テレビつけて」の音声認識に成功する。対話型ロボット100はリモコン信号送受信器109からリモコン信号を発信してテレビ203の電源を入れる。テレビ203をつける前に利用者201は図2のD2の距離から対話型ロボット100に発話したとする。テレビ203がついている状態になると、テレビ203の音が雑音となり雑音の強度が強くなり、発話音声と雑音とのS/N比が低下する。
図2に示すように、一定の音量で利用者201が発話する場合、S/N比を向上させるために利用者201は対話型ロボット100にD2より近い距離のD1まで近づいて発話する必要がある。本実施形態では、一定以上の音声認識率が得られる対話型ロボット100と利用者201との距離範囲を、周囲の雑音強度に応じて推定する。
推定された推奨距離範囲と、距離センサ105が測定した利用者201と対話型ロボット100との距離を利用者201に提示する。それによって、利用者201は雑音強度に応じた発話に適する推奨距離範囲内に自分がいるかどうか及び、どれだけ移動すれば推奨距離範囲内に入るかを知ることが出来る。そのようにして利用者が音声認識精度を満たす発話に適した距離範囲に移動することが可能なように支援することが可能である。
図13は、インジケータ106が、利用者201に発話に適した推奨距離範囲及び利用者201と対話型ロボット100との距離とを提示する例を示した図である。
インジケータ106は、現在の利用者の距離をバー1305で表示する。また、対話型ロボット100と利用者との推奨距離範囲1302を併せて表示することで、利用者に発話推奨距離を提示する。
図13(1)のように、インジケータ106は推奨距離範囲1302、利用者203との距離が近すぎる範囲1301、遠すぎる範囲1303と、利用者203の現在の距離をバー1305で示している。この図では、利用者203は推奨距離範囲1302におらず、音声対話装置100との距離が遠すぎる。
図13(2)は(1)から、周囲の雑音レベルが変化した際のインジケータ106の表示を示す図である。周囲の雑音が変化することによって、推奨距離範囲1302は変動する。
図13(3)は(2)から、利用者203と対話型ロボット100との距離が変化した際のインジケータ106の表示を示す図である。利用者203と対話型ロボット100との距離が短くなったために利用者203が推奨距離範囲内に居ることが提示されている。
図14は、対話型ロボット100が可動部107,108の動作によって推奨距離範囲1302内に利用者がいるかどうかを提示する例を示す図である。上図は、利用者と対話型ロボット100との距離関係を示す図である。下図は、(a)(b)(c)それぞれの距離に利用者が居ると対話型ロボット100が判断した際の可動部107,108の動作を表す図である。
(a)利用者との距離が遠すぎる場合には、可動部107,108は動作せず、初期位置である下に下ろした状態のままである。(b)利用者との距離が適切な推奨距離範囲内であると判断した際には、片方の可動部107を上に上げる。(c)利用者との距離が近過ぎる場合には両方の可動部107,108を上に上げる。
ここでは、利用者との距離が適切かどうかを、2つの可動部107,108の動作の組み合わせのパターンで提示することが可能である。
以下、本実施形態の対話型ロボットが推奨距離範囲を推定する機構について詳細に説明する。
図3は、本実施形態の対話型ロボット100の機能ブロック図である。
本実施形態の対話型ロボット100は、音声入力部301、音声認識部302、命令実行部303、強度測定部305、利用者音声強度データベース(以下DBと記す)306、推奨距離範囲推定部307、音声認識特性DB308、推奨距離範囲提示部309を有する。
音声入力部301は、対話型ロボット100の外界の音を指定されたゲイン値に従った増幅を行って取り込む手段である。図1に示す音声入力デバイス103,104およびゲイン調整が可能なマイクアンプおよびA/D変換器を有する。取得した音声信号は音声認識部302と強度測定部305に出力される。
音声認識部302は、音声入力部301を通して取得した音声信号に対して音声認識を実行する。発話区間の検出処理と、検出された発話区間に対する語彙を周波数解析やパターンマッチング等の手段により判定する認識処理を実行する。あらかじめノイズ除去処理された状態で抽出された音声パターンの形状と、予め登録されている命令音声の音声パターンの形状とを1つずつ照合する。そして、一致精度の最も高いものを発話内容として認識する。一致精度が一定の閾値を越えない場合は、どの登録音声とも一致しないものとみなし、音声認識が失敗したと判断される。
命令実行部303は音声認識部302で認識された語彙のうち、対話型ロボット100が実行できる命令に対応する命令語彙である場合には命令に対応する処理を実行する手段である。例えば前述の「テレビつけて」の命令語彙が認識された場合には、命令実行部303はリモコン送受信器109から対応する赤外コードを発信する処理を実行する。
利用者距離測定部304は、図1に示す距離センサ105を用いて利用者201と対話型ロボット100との現在の距離を計測する手段である。逐次実行されている音声認識部302が発話区間を検出し始めた開始のタイミングと終了のタイミングをイベント通知され、発話区間中の距離センサ105の出力の一定時間毎の平均値を利用者201との距離として推奨距離範囲推定部307と推奨距離範囲提示部309へ出力する。
強度測定部305は音声入力部301から取得された音声信号の強度を測定する。音声認識部302が発話区間を検出し始めた開始のタイミングと終了のタイミングが強度測定部305にイベント通知される。検出開始通知から検出終了通知までの区間を音声信号と、それ以外の区間を雑音区間と判断する。発話区間に対しては、区間内の音声信号の強度を計算し、発話音声の強度として推奨距離範囲推定部307に出力する。また雑音区間に対しては、区間内を一定時間毎に区切って音声信号の強度を計算し、雑音の強度として推奨距離範囲推定部307に出力する。
利用者音声強度DB306は認識が成功した際のゲインGと、利用者201と対話型ロボット100との距離Dと、音声強度Vとの組(G,D,V)を有する利用者の音声の特性の相関を記憶している。
音声認識特性DB308は音声認識部302の音声認識性能に関する数値を記憶している。具体的には、許容できる雑音の上限強度、音声認識対象となる音声の強度の下限強度、及びS/N比と音声認識率との相関が記憶されている。
推奨距離範囲推定部307は音声信号のゲインの調整と、音声認証を行う上で適切なS/N比を満たす発話距離範囲の推定と、推定した推奨距離範囲の出力とを行う。(1)音声入力部301のゲインと、(2)強度測定部305が測定した雑音の強度と、(3)利用者音声強度DB306から参照した(G,D,V)の組と、(4)音声認識特性DB308から参照した音声認識部302の特性値とを用いて、現在の雑音強度に対してゲインの変更が必要かどうかの判断を行う。ゲインの変更が必要である場合には、新しいゲインを決定し、音声入力部301のゲインの調整を指示する。次に、決定したゲインと雑音の強度に対して音声認識部302が一定以上の音声認識率を発揮するために必要なS/N比を推定する。利用者201の音声の強度から必要なS/N比以上になる推奨距離範囲を推定し、推定した推奨距離範囲を推奨距離範囲提示部309へ出力する。具体的なゲインの決定方法および距離推定方法は後述する。
推奨距離範囲提示部309は、推奨距離範囲推定部307から通知された対話型ロボット100と利用者201との音声認識可能な推奨距離範囲を利用者201に対して提示する。利用者201に対して利用者201が推奨距離範囲内にいるかどうかを提示する方法は、インジケータ106による提示、あるいは可動部107,108の動作による提示等である。または、音声合成手段によって対話型ロボット100が発話する機能を設けてもよい。
図4は、強度測定部305が入力音声信号の発話区間と雑音区間の判別をする際の音の特性を示す図である。図に示すように、ある音声強度L1以下の音声強度区間を雑音区間とし、それ以外の区間を発話区間として検出する。検出開始通知から検出終了通知までの区間の音声信号を発話区間と、それ以外の区間を雑音区間と判断する。発話区間に対しては区間内の音声信号から強度を計算し発話音声の強度として推奨距離範囲推定部307と利用者音声強度DB306に通知する。また雑音区間に対しては、一定時間毎に区切って音声信号の強度の平均値を計算したものを雑音の強度とし、推奨距離範囲推定部307に通知する。
次に、音声認識特性DB308に記憶された、音声認識部302の音声認識の特性を示す数値と、音声認識部302における音声認識の処理との関係について説明する。
音声認識部302における音声認識の処理手順は大きく分けて、入力された音声信号から人の発話に該当する区間を検出する発話区間の検出処理と、検出した発話区間の音声信号から発話語彙を識別する認識処理の2段階で処理される。
音声認識性能を阻害する原因もこの2つの処理段階に分けて分析することができる。一つは雑音の強度が大きい事が原因で、発話区間の前後の雑音も含めた範囲が発話区間と誤検出処理されてしまう場合である。もう一つは、要求される認識率を満たすのに必要なS/N比を下まわっている為に、発話区間の信号に雑音信号が上乗せされる事が原因で、認識処理で計算された類似度が低くなってしまう場合である。類似度が低いと、判定基準の閾値を下回わり判定に失敗してしまう、若しくは間違った語彙に判定されてしまう。
音声認識特性DB308には、音声認識部302に音声認識処理を実行させる為に必要となる、下記の(a)〜(d)に記した4つのパラメータが記憶されている。
(a)要求される認識率を満たす為に必要なS/N比:SN1
(b)発話区間検出の誤検出を抑えることができる雑音の上限強度:L1
(c)発話区間検出で音声が正しく発話区間検出されるのに必要な音声の下限強度:L2
(d)A/D変換器の最大参照電圧から正しくデジタル信号に変換できる信号強度の上限:L3
L1,L2の様な雑音の強度が音声認識部302に与える影響の度合いは、予め用意した音声データと雑音データを使って計算機上でシュミレーションしておくことが可能である。
また、音声入力部301は図1で説明したように音声入力デバイス103,104およびゲイン調整が可能なマイクアンプおよびA/D変換器を有しており、L3は音声入力部301の機能によって決定する。
図6はS/N比と音声認識率との相関との例を表す図である。音声データに比率を変えて雑音データを重畳させた音声信号を入力し音声認識処理を実行することで求めた、S/N比と音声認識率との相関を表すグラフである。音声認識を利用するシステムでは、音声認識結果がそのシステムでどのように使われるかによって音声認識に求められる認識性能(音声認識率)が要求仕様として予め決めることができる。例えば、命令実行部303が実行する動作がテレビの操作である場合に、音声認識率80%以上を要求仕様として決める。その場合要求される認識率を満たす為に必要なS/N比であるSN1は、図6から20dB以上であると決定する。この様な、S/N比と音声認識率との相関が、音声認識特性DB308に記憶されている。
図5は、本実施形態の音声認識特性DB308に記憶された雑音の上限強度L1と、音声の強度下限L2及び上限L3の例を示す図である。
音声認識S/N特性DB308に記憶されている上記(a)〜(d)の数値に基づいて、
(1)雑音強度がL1を下回るようにゲイン調整する
(2)音声強度がL2以上L3未満になるようにゲイン調整あるいは利用者201のマイクからの推奨距離を推定する
(3)S/N比がSN1以上になるように利用者201のマイクからの推奨距離を推定する
以上の3つの要件を満たすように制御を行う。(2)、(3)を満たす発話に適する推奨距離範囲を利用者201に提示することで、要求される音声認識率を満たす音声信号を音声認識部302へ供給することができ、音声認識性能を十分に発揮させることができる。
以下に、図6乃至図10を参照し(2)、(3)を満たす推奨距離範囲を推定する方法について説明する。
まず、音声強度と利用者201のマイクからの距離との関係について説明する。利用者201の発する音声は点音源とみなされるため、音声の強度は伝播距離の2乗に反比例する。音声入力部301のゲインが強度に対して線形に調整可能であり、音声認識部302が認識に成功した際の音声入力部301のゲインをG、利用者距離測定部304の検出距離をD、強度測定部305が測定した音声強度をVとすると、ゲインがGiで検出距離がDiであるときに音声入力部301から出力される音声の強度Viは (式1)で求めることができる。
Figure 0005075664
従って、音声強度がViになる距離Diは(式2)から求められる。
Figure 0005075664
したがって、認識に成功した際の(G,D,V)の組を計測して記憶しておくことにより、現在のゲインの値に対して発話距離から音声強度が算出できる。また、音声強度から推奨距離範囲を推定することができるようになる。利用者201の(G,D,V)は、利用者音声強度DB306に記録される。
図7は、本実施形態の対話型ロボットの動作を示すフローチャートである。
対話型ロボット100が起動されると処理が開始される。
(ステップ401)
利用者201の音声強度を測定済みであるかを判断する。利用者音声強度DB306を参照し、利用者201の音声強度情報が登録されていなければステップ402へ進み、登録されていればステップ403へ進む。
(ステップ402)
利用者201の音声強度の測定を行い、得られた(G,D,V)の組を利用者音声強度DB306へ記録し、ステップ401へ戻る。
(ステップ403)
利用者201の音声強度情報Vを用いて、雑音強度に応じたゲイン調整と、適したマイクからの距離の計算を行い、推奨距離範囲提示部309へ距離情報を通知する。装置の停止信号があるまで、ステップ403での周囲の雑音に適応する音声認識の実行を行う。停止信号があった場合、対話型ロボット100の動作を停止する。
図8は、利用者201の音声強度を測定するステップ402を詳細に示したフローチャートである。
(ステップ801)
利用者201の音声の強度を測定するために利用者201に対して発話を要求する。推奨距離範囲提示部309に対して利用者201への発話要求を提示するように指示する。発話要求の提示方法としては、例えば図14の(b)に示すような可動部107の動作、インジケータ106による表示、音声合成手段による発話、ディスプレイ表示を用いて文字での要求等が挙げられる。
(ステップ802)
利用者201からの発話を待ち受けて音声認識部302が音声認識を行う。
(ステップ803)
音声認識部302が音声の認識に成功すると音声の強度を算出するためにステップ804に進み、失敗した場合はステップ802に戻り利用者201の発話を待ち受ける。
(ステップ804)
推奨距離範囲推定部307は、強度測定部305から取得した音声の強度Vと音声入力部301のゲインGと利用者距離測定部304から取得した距離Dを利用者音声強度DB306に記録し、ステップ401へ戻る。
図9は、ステップ403を詳細に示したフローチャートである。利用者音声強度DB306に記録された利用者201の音声強度情報を用いて、雑音強度に応じたゲイン調整と、適したマイクからの距離の計算および推奨距離範囲提示部309へ距離情報の通知とを行う。
(ステップ901)
音声入力部301のゲインを初期設定する。前回対話型ロボット100を停止した際のゲイン値や、現在の雑音強度がL1未満になるゲイン値を初期値として、ゲインG0を設定する。
(ステップ902)
音声認識部302に音声認識処理の開始を指示する。
(ステップ903)
強度測定部305から雑音強度が通知されるのを待ちうけ、通知されるとステップ904へ進む。
(ステップ904)
通知された雑音強度N0と現在のゲインG0から雑音強度L1になるゲインG1を計算する。ここで音声入力部301の出力信号の強度とゲインは線形に調整可能であるので、
Figure 0005075664
で求められる。
(ステップ905)
利用者距離測定部304は、利用者201と対話型ロボット100との現在の距離がD2であると測定した。利用者201からの発話の音声強度が音声認識に必要な最低限の音声強度であるL2になるゲインG2は式(1)より
Figure 0005075664
で求められる。
(ステップ906)
G1とG2を比較し、
(ステップ907)
G1の方が小さければ音声入力部301のゲインGiをG1にする。
(ステップ908)
G2の方が小さければ音声入力部301のゲインGiをG2にする。
以上の方法によりゲイン調整を行う。
(ステップ909)
次に音声認識に適した音声強度になる距離範囲を計算する。まず、音声認識に必要な発話の音声強度の下限値L2になる距離DL2を式(2)から計算する。なお、ステップ908でゲインをG2に調整した場合には、現在の距離D2をDL2として設定する。
(ステップ910)
音声認識に必要な音声強度の上限値L3となる距離を、DL3を式(2)から計算する。
(ステップ911)
次に、S/N比がSN1になる距離DSN1を計算する。ステップ906で比較し変更された変更後のゲインをGNとする。また、S/N比が20Log10(S/N)で計算される。DSN1は、変更前のゲインG0、変更後のゲインGN、S/N比が20Log10(S/N)で計算され、音声強度は式(1)から、雑音は式(3)のようにゲインに線形であることから、
Figure 0005075664
で計算される。
(ステップ912)
音声認識に適した推奨距離範囲はDL3以上DL2以下の範囲であり、かつDSN1以下の範囲を満たす必要がある。DSN1<DL3であればステップ914へ進み、そうでなければステップ913へ進む。
(ステップ913)
DSN1≦DL2であればステップ915へ進み、そうでなければステップ916へ進む。
(ステップ914)
雑音が大きすぎるため発話の音声強度がL3となる距離まで近づいても必要なS/N比であるSN1を満たすことができない。そのため、推奨距離範囲は無いことを推奨距離範囲示部309へ通知し、ステップ903へ戻る。
(ステップ915)
雑音が大きいため、必要なS/N比であるSN1を満たすためには音声強度がL2より大きい必要がある。そのため、発話に適した推奨距離範囲はDL3以上DSN1以下になる。推奨距離範囲推定部307は求めた推奨距離範囲を推奨距離範囲提示部309へ通知し、ステップ903へ戻る。
(ステップ916)
雑音が小さくて音声強度がL2以上あれば必要なS/N比を満たすことができるため、発話に適した推奨距離範囲はDL3以上DL2以下になる。推奨距離範囲推定部307は、求めた推奨距離範囲を推奨距離範囲提示部309へ通知し、ステップ903へ戻る。
図10は、推奨距離範囲提示部309が、推奨距離範囲推定部307から通知された推奨距離範囲の情報を利用者201に提示する動作を示すフローチャートである。
(ステップ1001)
推奨距離範囲推定部307から推奨距離範囲の通知があればステップ1002へ進む。推奨距離範囲の更新通知がない場合にはステップ1005へ進む。
(ステップ1002)
推奨距離範囲が無いという通知であればステップ1003へ進み、推奨距離範囲があればステップ1004へ進む。
(ステップ1003)
雑音が大きすぎるため、音声認識が可能な推奨距離範囲が存在しない状態であることを利用者201へ提示し、ステップ1001へ戻る。例えば図14の(c)のようなジェスチャーで表現したり、インジケーター106へ表示したり、合成音声で出力する。
(ステップ1004)
推奨距離範囲推定部307によって通知された推奨距離範囲の下限値を内部変数DD1、上限値を内部変数DD2として格納する。また、既に推奨距離範囲の上限値、下限値が格納されている場合には、新たに推奨距離範囲推定部307から通知された距離範囲の内部変数(下限値DD1、上限値DD2)を更新して格納する。
(ステップ1005)
利用者距離測定部304から、利用者201と対話型ロボット100との現在の距離Dの情報を取得する。
(ステップ1006)
現在の距離DがDD1より小さい場合には、発話に適した推奨距離範囲よりも近くに利用者201が居るのでステップ1008へ進み、そうでなければステップ1007へ進む。
(ステップ1007)
現在の距離Dが推奨距離範囲内であれば利用者と対話型ロボット100との距離範囲が適正なのでステップ1009へ進み、そうでなければ推奨距離範囲よりも遠くに利用者201がいるのでステップ1010へ進む。
(ステップ1008)
利用者201がロボット100に近づき過ぎであることを提示し、ステップ1001へ戻る。例えば図14の(c)のようにジェスチャーで表現したり、図13のようにインジケーター106の1301の領域に位置を表すバー1305で表示したり、合成音声で出力する。
(ステップ1009)
利用者201が音声認識に適した推奨距離範囲内にいることを提示し、ステップ1001へ戻る。例えば図14の(b)のようにジェスチャーで表現したり、図13のようにインジケーター106の1302の領域に位置を表すバー1305で表示したり、合成音声で出力する。
(ステップ1010)
利用者201がロボット100から離れ過ぎであることを提示し、ステップ1001へ戻る。例えば図14の(a)のようにジェスチャーで表現したり、図13のようにインジケーター106の1303の領域に位置を表すバー1305で表示したり、合成音声で出力する。
以上のように雑音の強度の変化と、利用者201の普段の発話の音声強度とに応じて、発話に適した距離を対話型ロボット100が利用者201に提示できる。従来のように利用者が発話を繰り返すことで適切な発話強度や距離を確認することなく、利用者は推奨距離範囲と現在の自分距離とを確認しながら発話をすることができる。それによって、利用者201は雑音強度に応じた推奨距離範囲内に自分がいるかどうか、また、どれだけ移動すれば推奨距離範囲内に入るかを知ることが出来る。それによって利用者が音声認識精度を満たす発話に適した推奨距離範囲から発話が可能なように支援することで音声認識率を向上することが可能である。
また、本実施形態では発話に適した推奨距離範囲を推定し、その推奨距離範囲を利用者に提示していたが、算出した推奨距離範囲に対話型ロボット100が移動する機能を設けてもよい。
(第2の実施形態)
第2の実施形態の対話型ロボットについて説明する。なお、図1と同じ部分には同じ符号を付して重複説明は省略する。
図11は本実施形態の対話型ロボットの機能ブロック図である。
本実施形態の対話型ロボット100は、さらに利用者を認識する機能を有し、認識された利用者毎に利用するDBを切り替える事を特徴としている。
画像入力部310は、対話型ロボット100の画像撮像デバイス101,102の撮像デバイスを有する。対話型ロボット100の正面にいる利用者201の画像を撮像し、画像データを入力する。
人物識別部311は、画像入力部310から入力された画像から利用者201を識別する。人物識別部311は顔認識処理を行って利用者201の顔を認識するような利用者を直接的に特定する方法、背景画像の特徴から対話型ロボット100が向いている方向を認識して利用者を決定するような間接的な方法等を用いる。人物識別部311は一定の時間毎に人物識別処理を行い、利用者201を代表するIDを推奨距離範囲推定部307へ通知する。
図12は、本実施形態の対話型ロボット100の推奨距離範囲推定部307の処理を示すフローチャートである。
(ステップ400)
人物識別部311からの通知を参照して利用者201の利用者IDを内部変数として設定する。
(ステップ401)
利用者201の音声強度が測定済みであるかを判断する。利用者IDの音声強度情報があるか利用者音声強度DB306を参照し、指定したIDの音声強度情報が登録されていなければステップ402へ進み、登録されていればステップ403へ進む。
(ステップ402)
利用者201の音声強度の測定を行い、得られた(G,D,V)の組を利用者IDを検索キーにした状態で、利用者音声強度DB306へ登録し、ステップ401へ戻る。
(ステップ403)
利用者201の音声強度情報を用いて、雑音強度に応じたゲイン調整と、適したマイクからの距離の計算を行い、推奨距離範囲提示部309へ距離情報を通知する。
(ステップ404)
人物識別部311から通知された利用者IDが内部変数に保存した利用者IDと変わっていないか確認する。利用者IDが、変わっていればステップ400へ進み、変わっていなければステップ403へ進む。
本実施形態の対話型ロボットによれば、複数の利用者が対話型ロボット100を利用し、利用者によって発話の音声強度が異なる場合であっても利用者に合わせた適切な距離範囲を推定することが出来る。発話に適した推奨距離範囲を推定し、利用者201に提示することで、利用者201は雑音強度に応じた推奨距離範囲内に自分がいるかどうか及び、どれだけ移動すれば推奨距離範囲内に入るかを知ることが出来る。それによって利用者が音声認識精度を満たす発話に適した推奨距離範囲から発話が可能なように支援することで音声認識率を向上することが可能である。
第1の実施形態の対話型ロボットの外観を示す図。 第1の実施形態の対話型ロボットの利用形態を示す図。 第1の実施形態の対話型ロボットの機能ブロック図。 入力音声信号の発話区間と雑音区間の判別をする際の音の特性を示す図。 音声認識特性DB308に記憶された雑音の上限強度と音声の下限及び上限強度を示す図。 S/N比と音声認識率の相関を示す図。 推奨距離範囲推定部の処理を示すフローチャート。 推奨距離範囲推定部の利用者の音量強度測定処理のフローチャート。 推奨距離範囲推定部のゲイン調整と推奨距離範囲算出のフローチャート。 推奨距離範囲提示部のフローチャート。 第2の実施形態の利用者の識別を追加した構成図。 利用者の識別を追加した推奨距離範囲推定部のフローチャート。 発話推奨距離をインジケータに表示する例を示す図。 利用者が発話推奨距離内にいるかを腕部の動作で提示する例を示す図。
符号の説明
100…対話型ロボット
101,102…画像撮像デバイス
103,104…音声入力デバイス
105…距離センサ
106…インジケータ
107,108…可動部
109…リモコン信号送受信器
201…利用者
202…ダイニングテーブル
203…テレビ
301…音声入力部
302…音声認識部
303…命令実行部
304…利用者距離測定部
305…強度測定部
306…利用者音声強度DB
307…推奨距離範囲推定部
308…音声認識特性DB
309…推奨距離範囲提示部
310…画像入力部
311…人物識別部

Claims (7)

  1. 利用者が発する音声で対話をする音声対話装置であって、
    ゲインが可変な音声入力手段と、
    前記音声入力手段から入力された音声信号から発話区間を検出して音声認識を行う認識手段と、
    前記発話区間の前記音声信号の強度である音声強度を測定する第1の強度測定手段と、
    前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定する第2の強度測定手段と、
    前記音声強度と前記雑音強度との比であるS/N比を算出する第1の算出手段と、
    前記利用者と前記音声入力手段との現在距離を測定する距離測定手段と、
    前記認識手段が所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶する第1の記憶手段と、
    前記認識手段が前記利用者の音声の認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインの組である音声特性を記憶する第2の記憶手段と、
    前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第1の閾値以上となると推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出する第2の算出手段と、
    前記推奨距離範囲と、前記現在距離を前記利用者に向けて表示する表示手段とを具備し、
    前記音声入力手段が入力する音声信号の強度の上限に対応した第2の閾値を記憶する第3の記憶手段をさらに備え、
    前記第2の算出手段は、前記音声特性と前記音声入力手段のゲインとから、前記音声強度が前記第2の閾値を越えないと推定される距離範囲をさらに算出し、S/N比が前記第1の閾値以上となり、前記第2の閾値を越えないと推定される距離範囲を前記推奨距離範囲とすることを特徴とする音声対話装置。
  2. 前記音声信号のうち、雑音強度の上限に対応した第3の閾値を記憶する第4の記憶手段と、
    前記雑音強度が、前記第3の閾値を超えないように前記音声入力手段のゲインを制御する制御手段をさらに具備したことを特徴とする請求項1記載の音声対話装置。
  3. 前記現在距離が前記推奨距離範囲内であるかを判定する判定手段と、
    前記判定手段による判定結果を利用者に提示する提示手段をさらに具備したことを特徴とする請求項2記載の音声対話装置。
  4. 前記第2の記憶手段は前記利用者ごとにIDを付与し、複数の前記利用者に対応する前記音声特性を記憶することを特徴とする請求項1記載の音声対話装置。
  5. 前記算出手段は前記IDに対応した前記音声特性から前記推奨距離範囲を算出することを特徴とする請求項4記載の音声対話装置。
  6. 前記利用者を識別して前記IDを求める識別手段をさらに具備し、
    前記算出手段は、前記IDに対応する前記音声特性から前記第1の範囲を算出することを特徴とする請求項4記載の音声対話装置。
  7. 利用者が発する音声で対話をする音声対話装置の音声認識処理を支援する方法であって、
    前記利用者が発する音声を音声信号として音声入力手段に入力するステップと、
    前記音声入力手段のゲインを調整するステップと、
    前記音声信号から発話区間を検出して音声認識を行うステップと、
    前記発話区間の前記音声信号の強度である音声強度を測定するステップと、
    前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定するステップと、
    前記音声強度と前記雑音強度との比であるS/N比を算出するステップと、
    前記利用者と前記音声入力手段との現在距離を測定するステップと、
    所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶するステップと、
    前記認識手段が前記利用者の音声の認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインとの組である音声特性を記憶するステップと、
    前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第1の閾値を満たすと推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出するステップと、
    前記推奨距離範囲と前記現在距離を前記利用者に向けて表示するステップとを有し、
    前記音声入力手段が入力する音声信号の強度の上限に対応した第2の閾値を記憶するステップとをさらに備え、
    前記推奨距離範囲を算出するステップは、前記音声特性と前記音声入力手段のゲインとから、前記音声強度が前記第2の閾値を越えないと推定される距離範囲をさらに算出し、S/N比が前記第1の閾値以上となり、前記第2の閾値を越えないと推定される距離範囲を前記推奨距離範囲とする音声対話装置の音声認識処理を支援する支援方法。
JP2008035126A 2008-02-15 2008-02-15 音声対話装置及び支援方法 Expired - Fee Related JP5075664B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008035126A JP5075664B2 (ja) 2008-02-15 2008-02-15 音声対話装置及び支援方法
US12/370,133 US8155968B2 (en) 2008-02-15 2009-02-12 Voice recognition apparatus and method for performing voice recognition comprising calculating a recommended distance range between a user and an audio input module based on the S/N ratio
CN2009100074381A CN101510425B (zh) 2008-02-15 2009-02-13 声音识别装置以及用于执行声音识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008035126A JP5075664B2 (ja) 2008-02-15 2008-02-15 音声対話装置及び支援方法

Publications (2)

Publication Number Publication Date
JP2009192942A JP2009192942A (ja) 2009-08-27
JP5075664B2 true JP5075664B2 (ja) 2012-11-21

Family

ID=40955907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008035126A Expired - Fee Related JP5075664B2 (ja) 2008-02-15 2008-02-15 音声対話装置及び支援方法

Country Status (3)

Country Link
US (1) US8155968B2 (ja)
JP (1) JP5075664B2 (ja)
CN (1) CN101510425B (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987212B2 (en) * 2008-04-01 2011-07-26 Trimble Navigation Limited Merging data from survey devices
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
KR20110047852A (ko) * 2009-10-30 2011-05-09 삼성전자주식회사 동작 환경에 적응 가능한 음원녹음장치 및 그 방법
KR101644015B1 (ko) * 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
JP2011118822A (ja) * 2009-12-07 2011-06-16 Nec Casio Mobile Communications Ltd 電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
EP2509337B1 (en) * 2011-04-06 2014-09-24 Sony Ericsson Mobile Communications AB Accelerometer vector controlled noise cancelling method
CN103259908B (zh) * 2012-02-15 2017-06-27 联想(北京)有限公司 一种移动终端及其智能控制方法
CN106774882B (zh) * 2012-09-17 2020-01-31 联想(北京)有限公司 一种信息处理的方法及电子设备
JP6025037B2 (ja) * 2012-10-25 2016-11-16 パナソニックIpマネジメント株式会社 音声エージェント装置、及びその制御方法
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
WO2014157757A1 (ko) * 2013-03-29 2014-10-02 엘지전자 주식회사 이동식 입력 장치 및 그를 이용한 명령 입력 방법
CN104123484A (zh) * 2013-04-25 2014-10-29 国民技术股份有限公司 终端、认证设备及其通信方法
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
CN104978956A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制方法和系统
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
CN105527862B (zh) * 2014-09-28 2019-01-15 联想(北京)有限公司 一种信息处理方法及第一电子设备
JP6514475B2 (ja) * 2014-10-03 2019-05-15 株式会社Nttドコモ 対話装置および対話方法
JP6635049B2 (ja) * 2014-12-26 2020-01-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN105845135A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种机器人系统的声音识别系统及方法
CN104751852B (zh) * 2015-03-20 2018-07-24 广东小天才科技有限公司 一种声音处理的方法和装置
DE102015206566A1 (de) * 2015-04-13 2016-10-13 BSH Hausgeräte GmbH Haushaltsgerät und Verfahren zum Betreiben eines Haushaltsgeräts
CN106328165A (zh) 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种机器人自身音源消除系统
US11072077B2 (en) * 2015-12-07 2021-07-27 Kawasaki Jukogyo Kabushiki Kaisha Robot system and operation method thereof
EP3392740A4 (en) * 2015-12-18 2018-12-19 Sony Corporation Information processing device, information processing method, and program
US9881630B2 (en) * 2015-12-30 2018-01-30 Google Llc Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
CN105678145A (zh) * 2016-01-04 2016-06-15 上海斐讯数据通信技术有限公司 一种智能终端及其解锁方法
US20170366897A1 (en) * 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition
US11665009B2 (en) * 2016-07-13 2023-05-30 Vocal Power-House Systems, LLC Responsive communication system
WO2018023231A1 (zh) * 2016-07-31 2018-02-08 杨洁 根据声音移动机器人时的信息推送方法和机器人
WO2018023232A1 (zh) * 2016-07-31 2018-02-08 杨洁 一种根据声音移动机器人的方法和机器人
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
WO2018090252A1 (zh) * 2016-11-16 2018-05-24 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
WO2018177561A1 (en) * 2017-03-31 2018-10-04 Intel Corporation Management of human-machine dialogue involving multiple parties
JP2018202567A (ja) * 2017-06-07 2018-12-27 シャープ株式会社 動作制御装置およびその制御方法、ロボットならびに制御プログラム
US10438587B1 (en) * 2017-08-08 2019-10-08 X Development Llc Speech recognition biasing
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
CN111968643A (zh) * 2017-09-29 2020-11-20 赵成智 智能识别方法、机器人及计算机可读存储介质
US11450314B2 (en) * 2017-10-03 2022-09-20 Google Llc Voice user interface shortcuts for an assistant application
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
CN108320742B (zh) * 2018-01-31 2021-09-14 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质
KR102585231B1 (ko) * 2018-02-02 2023-10-05 삼성전자주식회사 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
KR101972545B1 (ko) * 2018-02-12 2019-04-26 주식회사 럭스로보 음성 명령을 통한 위치 기반 음성 인식 시스템
CN111788043B (zh) * 2018-03-30 2024-06-14 索尼公司 信息处理装置、信息处理方法和程序
CN108600060A (zh) * 2018-04-28 2018-09-28 杭州任你说智能科技有限公司 一种智能语音红外控制家用电器的系统和方法
JP7176244B2 (ja) * 2018-06-20 2022-11-22 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
CN109243441B (zh) * 2018-09-26 2023-01-20 广东小天才科技有限公司 调整语音采集距离的引导方法、装置、终端及存储介质
US11094327B2 (en) * 2018-09-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Audible input transcription
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
CN109389978B (zh) * 2018-11-05 2020-11-03 珠海格力电器股份有限公司 一种语音识别方法及装置
KR102654874B1 (ko) 2018-12-31 2024-04-05 삼성전자주식회사 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
CN109637540B (zh) * 2019-02-28 2021-02-26 北京百度网讯科技有限公司 智能语音设备的蓝牙评测方法、装置、设备及介质
US11076219B2 (en) * 2019-04-12 2021-07-27 Bose Corporation Automated control of noise reduction or noise masking
CN112152667A (zh) 2019-06-11 2020-12-29 华为技术有限公司 一种识别电器的方法及装置
CN110390934B (zh) * 2019-06-25 2022-07-26 华为技术有限公司 一种信息提示的方法和语音交互终端
KR102280692B1 (ko) * 2019-08-12 2021-07-22 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
KR102280690B1 (ko) * 2019-08-15 2021-07-22 엘지전자 주식회사 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스
KR20210050201A (ko) * 2019-10-28 2021-05-07 엘지전자 주식회사 로봇, 로봇의 작동 방법 및 상기 로봇을 포함하는 로봇 시스템
JP7573197B2 (ja) * 2019-10-30 2024-10-25 パナソニックIpマネジメント株式会社 収音装置および収音方法
CN111916102B (zh) * 2020-07-31 2024-05-28 维沃移动通信有限公司 电子设备的录音方法及录音装置
CN112261564B (zh) * 2020-09-29 2022-03-25 深圳市优创锐电子有限公司 一种基于语音识别的可声音放大接收设备
CN114745578A (zh) * 2020-12-24 2022-07-12 惠州视维新技术有限公司 电视机控制方法、装置、电视机及计算机可读存储介质
CN112656309A (zh) * 2020-12-25 2021-04-16 北京小狗吸尘器集团股份有限公司 扫地机的功能执行方法、装置、可读存储介质及电子设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02132499A (ja) * 1988-11-14 1990-05-21 Toshiba Corp 音声入力装置
JP2877350B2 (ja) * 1989-05-24 1999-03-31 株式会社東芝 環境モニタ付音声認識装置
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH08250944A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> 自動音量制御方法およびこの方法を実施する装置
JPH11316598A (ja) * 1998-05-01 1999-11-16 Kyocera Corp 音声認識作動装置
JP3001000B1 (ja) * 1998-09-08 2000-01-17 セイコーエプソン株式会社 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体
WO2001099469A1 (fr) 2000-06-22 2001-12-27 Mitsubishi Denki Kabushiki Kaisha Systeme de reproduction de la parole, systeme de generation de signaux vocaux et systeme d'appel
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4247002B2 (ja) * 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
JP4131392B2 (ja) * 2003-01-28 2008-08-13 ソニー株式会社 ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
EP1610221A4 (en) * 2003-03-28 2009-01-07 Sony Corp INFORMATION PROVIDER DEVICE, ASSOCIATED METHOD, AND INFORMATION PROVIDER SYSTEM
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
US7424118B2 (en) * 2004-02-10 2008-09-09 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置
US20070172083A1 (en) * 2006-01-25 2007-07-26 Cheng-Te Tseng Method and apparatus for controlling a gain of a voice signal
CN1819452A (zh) * 2006-03-30 2006-08-16 北京中星微电子有限公司 一种适应语音输入距离变化的方法及其装置
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법

Also Published As

Publication number Publication date
US8155968B2 (en) 2012-04-10
JP2009192942A (ja) 2009-08-27
US20090210227A1 (en) 2009-08-20
CN101510425B (zh) 2012-02-29
CN101510425A (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
JP5075664B2 (ja) 音声対話装置及び支援方法
CN114127665B (zh) 多模态用户界面
JP6754184B2 (ja) 音声認識装置及び音声認識方法
EP3619707B1 (en) Customizable wake-up voice commands
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20120022863A1 (en) Method and apparatus for voice activity detection
EP3956883A1 (en) Identifying input for speech recognition engine
JP6233650B2 (ja) 操作補助装置および操作補助方法
WO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN102385860A (zh) 信息处理设备、信息处理方法及程序
JP2021105736A (ja) 情報処理装置、方法及びプログラム
JP6350903B2 (ja) 操作補助装置および操作補助方法
KR101893768B1 (ko) 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP2009210956A (ja) 操作方法およびそのための操作装置、プログラム
US20180081621A1 (en) Assistive apparatus having accelerometer-based accessibility
KR101151571B1 (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
JP2011002534A (ja) 音声認識装置
JP6629172B2 (ja) 対話制御装置、その方法及びプログラム
US20090106025A1 (en) Speaker model registering apparatus and method, and computer program
JPH06236196A (ja) 音声認識方法および装置
JP2018045192A (ja) 音声対話装置および発話音量調整方法
KR102071867B1 (ko) 음성 신호와 관련된 정보를 이용하여 호출어를 인식하는 장치 및 방법
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
US20240212681A1 (en) Voice recognition device having barge-in function and method thereof
US11600275B2 (en) Electronic device and control method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees