[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPWO2012001730A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JPWO2012001730A1
JPWO2012001730A1 JP2012522346A JP2012522346A JPWO2012001730A1 JP WO2012001730 A1 JPWO2012001730 A1 JP WO2012001730A1 JP 2012522346 A JP2012522346 A JP 2012522346A JP 2012522346 A JP2012522346 A JP 2012522346A JP WO2012001730 A1 JPWO2012001730 A1 JP WO2012001730A1
Authority
JP
Japan
Prior art keywords
unit
voice
speech
voice data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012522346A
Other languages
English (en)
Other versions
JP5301037B2 (ja
Inventor
政信 大沢
政信 大沢
和行 野木
和行 野木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2012001730A1 publication Critical patent/JPWO2012001730A1/ja
Application granted granted Critical
Publication of JP5301037B2 publication Critical patent/JP5301037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

入力音声を音声認識する音声認識部3と、入力音声を音声認識した語が登録される音声認識辞書4と、音声認識辞書4に登録された語の録音音声データを格納する応答用音声データ格納部6と、音声認識部3が音声認識辞書4に登録された語を音声認識すると、応答用音声データ格納部6から当該語に対応する録音音声データを取得する対話制御部7と、対話制御部7によって応答用音声データ格納部6から取得された録音音声データに含まれる騒音を低減する処理を行う再生用騒音低減部8と、再生用騒音低減部8によって騒音が低減された録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部9と、振幅調整部9が出力する再生対象の録音音声データを再生する音声再生部10を備えた。

Description

この発明は、入力される音声データから騒音成分を除去し、振幅調整を行うことにより音声認識率の向上を図る音声認識装置に関するものである。
従来より、騒音を含まずユーザにとって聞き易い音声を提供する技術が種々開示されている。例えば、特許文献1では、雑音除去部において記憶している重み付け停止直前の雑音除去パラメータを用いて音声と定常的な雑音の混じった信号から音声信号のみを取り出し、デジタル符号化している。また、特許文献2では、スピーカから出力される音声または音響が聞き取りにくい時には、利用者が調整部を操作して音声または音響の特徴を変化させて騒音などと区別し易くなるように構成している。さらに、特許文献3では、音声再生に際して音源パラメータに基づいて算出したエネルギー値を判定し、その判定値に応じて予め定められたゲインを選択し、選択したゲインに従って音声データの再生音量を補正している。
特開平5−219176号公報 特開平7−262490号公報 特開平11−265200号公報
従来の音声認識および音声再生は以上のように構成されているので、高騒音下において入力音声の登録を行った場合、騒音が重畳した音声に対して振幅の調整が実行され、再生される応答音声が固定応答音声と比較して小さい音声となるという課題があった。
この発明は上記のような課題を解決するためになされたもので、入力音声から騒音を除去すると共に振幅を正規化した音声を出力することができる音声認識装置を提供することを目的とする。
この発明に係る音声認識装置は、入力音声を音声認識する音声認識部と、入力音声を音声認識した語が登録される音声認識辞書と、前記音声認識辞書に登録された語の録音音声データを格納する応答用音声データ格納部と、前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、前記対話制御部によって前記応答用音声データ格納部から取得された録音音声データに含まれる騒音を低減する処理を行う再生用騒音低減部と、前記再生用騒音低減部によって騒音が低減された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、前記振幅調整部が出力する再生対象の録音音声データを再生する音声再生部とを備えたものである。
また、入力音声を音声認識する音声認識部と、入力音声を音声認識した語が登録される音声認識辞書と、前記音声認識辞書に登録された語の録音音声データを格納する応答用音声データ格納部と、前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、前記応答用音声データ格納部に前記録音音声データとして格納される入力音声に含まれる騒音を低減する処理を行う再生用騒音低減部と、前記対話制御部によって前記応答用音声データ格納部から取得された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、前記振幅調整部が出力する再生対象の録音音声データを再生する音声再生部とを備えたものである。
この発明によれば、ユーザにとって聞き易い音声を生成することができる。
実施の形態1による音声認識装置の構成を示すブロック図である。 実施の形態1の音声認識装置における音声認識辞書への登録例を示す図である。 実施の形態1の音声認識装置における応答用音声データ格納部への登録例を示す図である。 実施の形態1の音声認識装置における振幅調整を示す説明図である。 実施の形態1による音声認識装置の動作を示すフローチャートである。 実施の形態1による音声認識装置の動作を示すフローチャートである。 実施の形態2による音声認識装置の構成を示すブロック図である。 実施の形態2による音声認識装置の動作を示すフローチャートである。 実施の形態2による音声認識装置の動作を示すフローチャートである。 実施の形態3による音声認識装置の構成を示すブロック図である。 実施の形態3による音声認識装置の動作を示すフローチャートである。 実施の形態4による音声認識装置の構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態1.
図1は、実施の形態1による音声認識装置の構成を示すブロック図である。
実施の形態1の音声認識装置1は、音声入力部2、音声認識部3、音声認識辞書4、音声録音部5、応答用音声データ格納部6、対話制御部7、再生用騒音低減部8、出力振幅調整部(振幅調整部)9および音声再生部10で構成されている。
音声入力部2は、ユーザが発声する音声の入力を受け付け、音声データを出力する。音声認識部3は、音声認識辞書4への登録処理において、音声入力部2から入力される音声データを認識し、音声認識結果に固有のIDを対応付けて音声認識辞書4に登録する。音声認識は、例えば下記の参考文献1に開示されているHidden Markov Modelを用いて行う。図2は、実施の形態1による音声認識装置における音声認識辞書4への登録例を示す図である。ここで、音声認識結果は例えば音素系列などである。さらに音声認識部3は、ユーザの発話に基づき録音音声データの呼び出しを行う処理において、音声入力部2から入力される音声データを認識し、音声認識辞書4を参照して認識した語に対応するIDを取得する。なお、語(word)には、日本語または外国語で用いられる単語だけでなく、数字、アルファベット、記号などを組合せたもの(例えば、型番)なども含む。
[参考文献1]
古井貞煕「音声情報処理」第5章
音声認識辞書4は、音声認識部3による音声認識結果を固有のIDと共に記憶する。音声録音部5は、音声入力部2から入力された音声データを録音し、応答用音声データ格納部6に登録する。録音音声データの登録は、音声認識部3が対応付けたIDと同一のIDを付して行う。応答用音声データ格納部6は、録音音声データを固有のIDと共に記憶する。図3は、実施の形態1による音声認識装置における応答用音声データ格納部6への登録例を示す図である。
対話制御部7は、音声認識辞書4に登録された音声データと同一の内容をユーザが発話した場合に、音声認識部3から発話内容と同一の音声認識結果のIDを取得し、応答用音声データ格納部6から当該IDと同一IDの録音音声データを取得する。再生用騒音低減部8は、対話制御部7から入力される録音音声データから騒音を除去する。騒音除去方法としては、例えば参考文献1(P126)および参考文献2に開示されているスペクトルサブトラクション法などを適用することができる。再生用の音声データに対しては、人の聴感上不自然でないような音声となるように騒音除去処理を行う。
[参考文献2]
S.F,Boll.“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.Acoust.Speech Signal Process.,vol.ASSP-27,no.2,pp.113-120,1979.)
出力振幅調整部9は、再生用騒音低減部8により騒音が除去された録音音声データの振幅を、所定の音声レベルの振幅に調整する。振幅調整の具体例を図4に示す。図4の例では、騒音除去後の録音音声データの振幅の最大値が固定応答音声データの振幅の最大値と一致するように、振幅調整を行う。音声再生部10は、振幅調整が行われた録音音声データを再生し、応答音声を出力する。
次に、音声認識装置1の動作について説明を行う。図5および図6は実施の形態1による音声認識装置の動作を示すフローチャートである。なお、音声認識装置1の動作は、図5に示す音声データを音声認識辞書4および応答用音声データ格納部6に登録する処理と、図6に示すユーザの発話に基づき録音音声データの呼び出しを行う処理に分けて説明を行う。
まず、図5に示す音声データを音声認識辞書4および応答用音声データ格納部6に登録する処理では、録音可能な状態でユーザが発話すると、音声入力部2はユーザの音声をAD変換して例えばPCM(Pulse Code Modulation)形式で取得し、音声データとして出力する(ステップST1)。音声認識部3は、ステップST1において音声入力部2から入力される音声データを認識して音声認識結果を生成すると共に、生成した音声認識結果に固有のIDを対応付ける(ステップST2)。音声認識は、例えばHidden Markov Modelを用いて行う。さらに音声認識部3は、生成した音声認識結果とIDを音声認識辞書4に登録する(ステップST3)。
一方、音声録音部5は、ステップST1において音声入力部2から入力される音声データを録音し(ステップST4)、録音音声データにステップST3において音声認識辞書4に登録した際のIDと同一のIDを付して応答用音声データ格納部6に登録する(ステップST5)。
次に、図6を参照しながら、ユーザの発話に基づき録音音声データの呼び出しを行う処理について説明を行う。ここでは、ユーザが音声認識辞書4に登録された音声と同じ内容を発話し、コマンドの実行または録音音声データの呼び出しを行う場合について説明を行う。
ユーザによる発話が行われると、音声入力部2が音声を取得して音声データとして出力する(ステップST11)。音声認識部3は、ステップST11において音声入力部2から入力される音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST12)。音声認識は、例えばHidden Markov Modelを用いて行う。
対話制御部7は、応答用音声データ格納部6を参照し、ステップST12において入力されたIDと同一IDを有する録音音声データを取得し、再生用騒音低減部8に出力する(ステップST13)。再生用騒音低減部8は、スペクトルサブトラクション法などの騒音除去方式などに基づき、ステップST13において入力された録音音声データに対して人の聴感上不自然とならないように騒音を除去し、出力振幅調整部9に出力する(ステップST14)。出力振幅調整部9は、ステップST14において入力された騒音の除去された録音音声データに対して振幅の調整を行い、音声再生部10に出力する(ステップST15)。音声再生部10は、ステップST15において入力された録音音声データの再生を行う(ステップST16)。
以上のように、この実施の形態1によれば、再生用騒音低減部8により録音音声データの騒音を低減した後に、出力振幅調整部9により振幅を所定の音声レベルの振幅に調整するように構成したので、音声再生部10によって再生される応答音声の大きさが固定応答音声と同一とすることができ、ユーザにとって聞き取り易い音声を再生できる。
実施の形態2.
図7は、実施の形態2による音声認識装置の構成を示すブロック図である。
この実施の形態2の音声認識装置1Aは、実施の形態1において示した音声認識装置1に認識用騒音低減部11を追加して設けている。以下では、実施の形態1に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
認識用騒音低減部11は、音声入力部2と音声認識部3との間に配置され、音声入力部2から入力される音声データに対して、騒音除去処理を施す。騒音除去方法としては、例えば参考文献1および参考文献2に開示されているスペクトルサブトラクション法などを適用することができる。認識用の音声データに対しては、音声認識部3による認識率が向上するように騒音除去処理を行う。
次に、実施の形態2の音声認識装置1Aにおいて音声データを音声認識辞書4に登録する動作、およびユーザの発話に基づき録音音声データの呼び出しを行う処理を中心に説明を行う。図8および図9は、実施の形態2による音声認識装置の動作を示すフローチャートである。以下では、実施の形態1の音声認識装置と同一のステップには図5および図6で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図8を参照しながら音声データを音声認識辞書4に登録する処理について説明を行う。ステップST1として音声入力部2が取得した音声データを出力すると、認識用騒音低減部11は、スペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるように騒音除去処理を行い、音声認識部3に出力する(ステップST21)。音声認識部3は、ステップST21において入力された騒音除去の行われた音声データを認識して音声認識結果を生成すると共に、生成した音声認識結果に固有のIDを対応付ける(ステップST22)。音声認識は、例えばHidden Markov Modelを用いて行う。さらに音声認識部3は、生成した音声認識結果とIDを音声認識辞書4に登録する(ステップST3)。なお、音声データを応答用音声データ格納部6に登録する処理は実施の形態1と同様である。
次に、図9を参照しながら、ユーザの発話に基づき録音音声データの呼び出しを行う処理について説明を行う。ここでは、ユーザが音声認識辞書4に登録された音声と同じ内容を発話し、コマンドの実行または録音音声データの呼び出しを行う場合について説明を行う。
ステップST11として音声入力部2が取得した音声データを出力すると、認識用騒音低減部11はスペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるような騒音除去処理を行い、音声認識部3に出力する(ステップST23)。音声認識部3は、ステップST23において入力された騒音が除去された音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST24)。音声認識は、例えばHidden Markov Modelを用いて行う。以降の処理は実施の形態1と同様である。
以上のように、この実施の形態2によれば、音声認識を行う前に騒音除去処理を行う認識用騒音低減部11を備えるように構成したので、音声データに対して認識用の騒音低減処理と再生用の騒音低減処理が二重にかかることにより音質の劣化を招くのを回避しつつ、認識率の向上を図ることができる。
実施の形態3.
図10は、実施の形態3による音声認識装置の構成を示すブロック図である。この実施の形態3では、実施の形態1の音声認識装置1の再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態1の音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図10に示すように、音声データを録音する前に騒音を除去する場合には、対話制御部7から出力される録音音声データに対して騒音除去処理は行わない。これは、再生用の録音音声データに二重の騒音除去処理が行われるのを防ぐためである。
次に、実施の形態3の音声認識装置1Bにおいて音声データを応答用音声データ格納部6に登録する動作について説明を行う。図11は、実施の形態3による音声認識装置の動作を示すフローチャートである。実施の形態1の音声認識装置1と同一ステップには図5で使用した符号と同一の符号を付して説明を省略または簡略化する。
ステップST1として音声入力部2が音声データを出力すると、再生用騒音低減部8は、スペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに人の聴感上不自然とならないように騒音を除去し、音声録音部5に出力する(ステップST31)。音声録音部5は、ステップST31において再生用騒音低減部8から入力される騒音が除去された音声データを録音し(ステップST32)、録音音声データにステップST3において音声認識辞書4に登録した際のIDと同一のIDを付して応答用音声データ格納部6に登録する(ステップST5)。
なお、音声データを音声認識辞書4に登録する処理は実施の形態1と同様である。また、ユーザの発話に基づき録音音声データの呼び出しを行う処理は、実施の形態1の図6のフローチャートにおいてステップST14の録音音声データから騒音を除去する処理を省略する。具体的には、対話制御部7が取得した録音音声データを出力振幅調整部9に出力し、出力振幅調整部9が当該録音音声データに対して振幅の調整を行い、音声再生部10に出力する。
以上のように、この実施の形態3によれば、再生用騒音低減部8を音声入力部2と音声録音部5との間に設け、騒音低減処理が施された録音音声データを応答用音声データ格納部6に登録するように構成したので、録音音声データを再生する度に騒音低減処理を施す必要がなくなり、処理量を削減することができる。
実施の形態4.
図12は、実施の形態4による音声認識装置の構成を示すブロック図である。
この実施の形態4の音声認識装置1Cは、実施の形態2おいて示した音声認識装置1Aの再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態4の音声認識装置1Cの構成要素は実施の形態2と同一であり、説明を省略する。
また、この実施の形態4の音声認識装置1Cの動作は、音声データを音声認識辞書4に登録する処理は実施の形態2と同様であり、音声データを応答用音声データ格納部6に登録する処理およびユーザの発話に基づき録音音声データの呼び出しを行う処理は実施の形態3と同様である。
以上のように、この実施の形態4によれば、再生用騒音低減部8を音声入力部2と音声録音部5との間に設け、騒音低減処理が施された録音音声データを応答用音声データ格納部6に登録するように構成したので、録音音声データを再生する度に騒音低減処理を施す必要がなくなり、処理量を削減することができる。
さらに、認識用騒音低減部11を音声入力部2と音声認識部3との間に設け、騒音低減処理が施された音声データを音声認識辞書4に登録するように構成したので、音声データに対する認識率の向上を図ることができる。
なお、実施の形態1から実施の形態4では、再生用および認識用騒音低減処理に例えばスペクトルサブトラクションなどの同様の方式を用いる構成を示したが、同様の方式を用いた場合でも、パラメータを調整することにより、再生用または認識用それぞれに適した騒音除去を行うことができる。
この発明に係る音声認識装置は、騒音を含まず固定応答音声データの振幅に近い音声を再生することができるので、ナビゲーション装置などに適用し、ユーザが聞き易い音声の提供に利用することができる。
この発明は、入力される音声データから騒音成分を除去し、振幅調整を行うことにより音声認識率の向上を図る音声認識装置に関するものである。
従来より、騒音を含まずユーザにとって聞き易い音声を提供する技術が種々開示されている。例えば、特許文献1では、雑音除去部において記憶している重み付け停止直前の雑音除去パラメータを用いて音声と定常的な雑音の混じった信号から音声信号のみを取り出し、デジタル符号化している。また、特許文献2では、スピーカから出力される音声または音響が聞き取りにくい時には、利用者が調整部を操作して音声または音響の特徴を変化させて騒音などと区別し易くなるように構成している。さらに、特許文献3では、音声再生に際して音源パラメータに基づいて算出したエネルギー値を判定し、その判定値に応じて予め定められたゲインを選択し、選択したゲインに従って音声データの再生音量を補正している。
特開平5−219176号公報 特開平7−262490号公報 特開平11−265200号公報
従来の音声認識および音声再生は以上のように構成されているので、高騒音下において入力音声の登録を行った場合、騒音が重畳した音声に対して振幅の調整が実行され、再生される応答音声が固定応答音声と比較して小さい音声となるという課題があった。
この発明は上記のような課題を解決するためになされたもので、入力音声から騒音を除去すると共に振幅を正規化した音声を出力することができる音声認識装置を提供することを目的とする。
この発明に係る音声認識装置は、ユーザにより発話された音声を入力する音声入力部と、前記音声入力部により入力された音声データに対して、音声認識用に騒音低減処理を行う認識用騒音低減部と、前記認識用騒音低減部により騒音が低減された音声データを認識する音声認識部と、前記音声認識部により出力された語が登録される音声認識辞書と、前記音声入力部により入力された音声データに対して、再生用に、前記認識用騒音低減部とは異なる騒音低減処理を行う再生用騒音低減部と、前記再生用騒音低減部により騒音が低減された録音音声データを格納する応答用音声データ格納部と、前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、前記対話制御部により前記応答用音声データ格納部から取得された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、前記振幅調整部により出力された再生対象の録音音声データを再生する音声再生部とを備えたものである。
この発明によれば、ユーザにとって聞き易い音声を生成することができる。
実施の形態1による音声認識装置の構成を示すブロック図である。 実施の形態1の音声認識装置における音声認識辞書への登録例を示す図である。 実施の形態1の音声認識装置における応答用音声データ格納部への登録例を示す図である。 実施の形態1の音声認識装置における振幅調整を示す説明図である。 実施の形態1による音声認識装置の動作を示すフローチャートである。 実施の形態1による音声認識装置の動作を示すフローチャートである。 実施の形態2による音声認識装置の構成を示すブロック図である。 実施の形態2による音声認識装置の動作を示すフローチャートである。 実施の形態2による音声認識装置の動作を示すフローチャートである。 実施の形態3による音声認識装置の構成を示すブロック図である。 実施の形態3による音声認識装置の動作を示すフローチャートである。 実施の形態4による音声認識装置の構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態1.
図1は、実施の形態1による音声認識装置の構成を示すブロック図である。
実施の形態1の音声認識装置1は、音声入力部2、音声認識部3、音声認識辞書4、音声録音部5、応答用音声データ格納部6、対話制御部7、再生用騒音低減部8、出力振幅調整部(振幅調整部)9および音声再生部10で構成されている。
音声入力部2は、ユーザが発声する音声の入力を受け付け、音声データを出力する。音声認識部3は、音声認識辞書4への登録処理において、音声入力部2から入力される音声データを認識し、音声認識結果に固有のIDを対応付けて音声認識辞書4に登録する。音声認識は、例えば下記の参考文献1に開示されているHidden Markov Modelを用いて行う。図2は、実施の形態1による音声認識装置における音声認識辞書4への登録例を示す図である。ここで、音声認識結果は例えば音素系列などである。さらに音声認識部3は、ユーザの発話に基づき録音音声データの呼び出しを行う処理において、音声入力部2から入力される音声データを認識し、音声認識辞書4を参照して認識した語に対応するIDを取得する。なお、語(word)には、日本語または外国語で用いられる単語だけでなく、数字、アルファベット、記号などを組合せたもの(例えば、型番)なども含む。
[参考文献1]
古井貞煕「音声情報処理」第5章
音声認識辞書4は、音声認識部3による音声認識結果を固有のIDと共に記憶する。音声録音部5は、音声入力部2から入力された音声データを録音し、応答用音声データ格納部6に登録する。録音音声データの登録は、音声認識部3が対応付けたIDと同一のIDを付して行う。応答用音声データ格納部6は、録音音声データを固有のIDと共に記憶する。図3は、実施の形態1による音声認識装置における応答用音声データ格納部6への登録例を示す図である。
対話制御部7は、音声認識辞書4に登録された音声データと同一の内容をユーザが発話した場合に、音声認識部3から発話内容と同一の音声認識結果のIDを取得し、応答用音声データ格納部6から当該IDと同一IDの録音音声データを取得する。再生用騒音低減部8は、対話制御部7から入力される録音音声データから騒音を除去する。騒音除去方法としては、例えば参考文献1(P126)および参考文献2に開示されているスペクトルサブトラクション法などを適用することができる。再生用の音声データに対しては、人の聴感上不自然でないような音声となるように騒音除去処理を行う。
[参考文献2]
S.F,Boll.“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.Acoust.Speech Signal Process.,vol.ASSP-27,no.2,pp.113-120,1979.)
出力振幅調整部9は、再生用騒音低減部8により騒音が除去された録音音声データの振幅を、所定の音声レベルの振幅に調整する。振幅調整の具体例を図4に示す。図4の例では、騒音除去後の録音音声データの振幅の最大値が固定応答音声データの振幅の最大値と一致するように、振幅調整を行う。音声再生部10は、振幅調整が行われた録音音声データを再生し、応答音声を出力する。
次に、音声認識装置1の動作について説明を行う。図5および図6は実施の形態1による音声認識装置の動作を示すフローチャートである。なお、音声認識装置1の動作は、図5に示す音声データを音声認識辞書4および応答用音声データ格納部6に登録する処理と、図6に示すユーザの発話に基づき録音音声データの呼び出しを行う処理に分けて説明を行う。
まず、図5に示す音声データを音声認識辞書4および応答用音声データ格納部6に登録する処理では、録音可能な状態でユーザが発話すると、音声入力部2はユーザの音声をAD変換して例えばPCM(Pulse Code Modulation)形式で取得し、音声データとして出力する(ステップST1)。音声認識部3は、ステップST1において音声入力部2から入力される音声データを認識して音声認識結果を生成すると共に、生成した音声認識結果に固有のIDを対応付ける(ステップST2)。音声認識は、例えばHidden Markov Modelを用いて行う。さらに音声認識部3は、生成した音声認識結果とIDを音声認識辞書4に登録する(ステップST3)。
一方、音声録音部5は、ステップST1において音声入力部2から入力される音声データを録音し(ステップST4)、録音音声データにステップST3において音声認識辞書4に登録した際のIDと同一のIDを付して応答用音声データ格納部6に登録する(ステップST5)。
次に、図6を参照しながら、ユーザの発話に基づき録音音声データの呼び出しを行う処理について説明を行う。ここでは、ユーザが音声認識辞書4に登録された音声と同じ内容を発話し、コマンドの実行または録音音声データの呼び出しを行う場合について説明を行う。
ユーザによる発話が行われると、音声入力部2が音声を取得して音声データとして出力する(ステップST11)。音声認識部3は、ステップST11において音声入力部2から入力される音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST12)。音声認識は、例えばHidden Markov Modelを用いて行う。
対話制御部7は、応答用音声データ格納部6を参照し、ステップST12において入力されたIDと同一IDを有する録音音声データを取得し、再生用騒音低減部8に出力する(ステップST13)。再生用騒音低減部8は、スペクトルサブトラクション法などの騒音除去方式などに基づき、ステップST13において入力された録音音声データに対して人の聴感上不自然とならないように騒音を除去し、出力振幅調整部9に出力する(ステップST14)。出力振幅調整部9は、ステップST14において入力された騒音の除去された録音音声データに対して振幅の調整を行い、音声再生部10に出力する(ステップST15)。音声再生部10は、ステップST15において入力された録音音声データの再生を行う(ステップST16)。
以上のように、この実施の形態1によれば、再生用騒音低減部8により録音音声データの騒音を低減した後に、出力振幅調整部9により振幅を所定の音声レベルの振幅に調整するように構成したので、音声再生部10によって再生される応答音声の大きさが固定応答音声と同一とすることができ、ユーザにとって聞き取り易い音声を再生できる。
実施の形態2.
図7は、実施の形態2による音声認識装置の構成を示すブロック図である。
この実施の形態2の音声認識装置1Aは、実施の形態1において示した音声認識装置1に認識用騒音低減部11を追加して設けている。以下では、実施の形態1に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
認識用騒音低減部11は、音声入力部2と音声認識部3との間に配置され、音声入力部2から入力される音声データに対して、騒音除去処理を施す。騒音除去方法としては、例えば参考文献1および参考文献2に開示されているスペクトルサブトラクション法などを適用することができる。認識用の音声データに対しては、音声認識部3による認識率が向上するように騒音除去処理を行う。
次に、実施の形態2の音声認識装置1Aにおいて音声データを音声認識辞書4に登録する動作、およびユーザの発話に基づき録音音声データの呼び出しを行う処理を中心に説明を行う。図8および図9は、実施の形態2による音声認識装置の動作を示すフローチャートである。以下では、実施の形態1の音声認識装置と同一のステップには図5および図6で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図8を参照しながら音声データを音声認識辞書4に登録する処理について説明を行う。ステップST1として音声入力部2が取得した音声データを出力すると、認識用騒音低減部11は、スペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるように騒音除去処理を行い、音声認識部3に出力する(ステップST21)。音声認識部3は、ステップST21において入力された騒音除去の行われた音声データを認識して音声認識結果を生成すると共に、生成した音声認識結果に固有のIDを対応付ける(ステップST22)。音声認識は、例えばHidden Markov Modelを用いて行う。さらに音声認識部3は、生成した音声認識結果とIDを音声認識辞書4に登録する(ステップST3)。なお、音声データを応答用音声データ格納部6に登録する処理は実施の形態1と同様である。
次に、図9を参照しながら、ユーザの発話に基づき録音音声データの呼び出しを行う処理について説明を行う。ここでは、ユーザが音声認識辞書4に登録された音声と同じ内容を発話し、コマンドの実行または録音音声データの呼び出しを行う場合について説明を行う。
ステップST11として音声入力部2が取得した音声データを出力すると、認識用騒音低減部11はスペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるような騒音除去処理を行い、音声認識部3に出力する(ステップST23)。音声認識部3は、ステップST23において入力された騒音が除去された音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST24)。音声認識は、例えばHidden Markov Modelを用いて行う。以降の処理は実施の形態1と同様である。
以上のように、この実施の形態2によれば、音声認識を行う前に騒音除去処理を行う認識用騒音低減部11を備えるように構成したので、音声データに対して認識用の騒音低減処理と再生用の騒音低減処理が二重にかかることにより音質の劣化を招くのを回避しつつ、認識率の向上を図ることができる。
実施の形態3.
図10は、実施の形態3による音声認識装置の構成を示すブロック図である。この実施の形態3では、実施の形態1の音声認識装置1の再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態1の音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図10に示すように、音声データを録音する前に騒音を除去する場合には、対話制御部7から出力される録音音声データに対して騒音除去処理は行わない。これは、再生用の録音音声データに二重の騒音除去処理が行われるのを防ぐためである。
次に、実施の形態3の音声認識装置1Bにおいて音声データを応答用音声データ格納部6に登録する動作について説明を行う。図11は、実施の形態3による音声認識装置の動作を示すフローチャートである。実施の形態1の音声認識装置1と同一ステップには図5で使用した符号と同一の符号を付して説明を省略または簡略化する。
ステップST1として音声入力部2が音声データを出力すると、再生用騒音低減部8は、スペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに人の聴感上不自然とならないように騒音を除去し、音声録音部5に出力する(ステップST31)。音声録音部5は、ステップST31において再生用騒音低減部8から入力される騒音が除去された音声データを録音し(ステップST32)、録音音声データにステップST3において音声認識辞書4に登録した際のIDと同一のIDを付して応答用音声データ格納部6に登録する(ステップST5)。
なお、音声データを音声認識辞書4に登録する処理は実施の形態1と同様である。また、ユーザの発話に基づき録音音声データの呼び出しを行う処理は、実施の形態1の図6のフローチャートにおいてステップST14の録音音声データから騒音を除去する処理を省略する。具体的には、対話制御部7が取得した録音音声データを出力振幅調整部9に出力し、出力振幅調整部9が当該録音音声データに対して振幅の調整を行い、音声再生部10に出力する。
以上のように、この実施の形態3によれば、再生用騒音低減部8を音声入力部2と音声録音部5との間に設け、騒音低減処理が施された録音音声データを応答用音声データ格納部6に登録するように構成したので、録音音声データを再生する度に騒音低減処理を施す必要がなくなり、処理量を削減することができる。
実施の形態4.
図12は、実施の形態4による音声認識装置の構成を示すブロック図である。
この実施の形態4の音声認識装置1Cは、実施の形態2おいて示した音声認識装置1Aの再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態4の音声認識装置1Cの構成要素は実施の形態2と同一であり、説明を省略する。
また、この実施の形態4の音声認識装置1Cの動作は、音声データを音声認識辞書4に登録する処理は実施の形態2と同様であり、音声データを応答用音声データ格納部6に登録する処理およびユーザの発話に基づき録音音声データの呼び出しを行う処理は実施の形態3と同様である。
以上のように、この実施の形態4によれば、再生用騒音低減部8を音声入力部2と音声録音部5との間に設け、騒音低減処理が施された録音音声データを応答用音声データ格納部6に登録するように構成したので、録音音声データを再生する度に騒音低減処理を施す必要がなくなり、処理量を削減することができる。
さらに、認識用騒音低減部11を音声入力部2と音声認識部3との間に設け、騒音低減処理が施された音声データを音声認識辞書4に登録するように構成したので、音声データに対する認識率の向上を図ることができる。
なお、実施の形態1から実施の形態4では、再生用および認識用騒音低減処理に例えばスペクトルサブトラクションなどの同様の方式を用いる構成を示したが、同様の方式を用いた場合でも、パラメータを調整することにより、再生用または認識用それぞれに適した騒音除去を行うことができる。

Claims (4)

  1. 入力音声を音声認識する音声認識部と、
    入力音声を音声認識した語が登録される音声認識辞書と、
    前記音声認識辞書に登録された語の録音音声データを格納する応答用音声データ格納部と、
    前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、
    前記対話制御部によって前記応答用音声データ格納部から取得された録音音声データに含まれる騒音を低減する処理を行う再生用騒音低減部と、
    前記再生用騒音低減部によって騒音が低減された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、
    前記振幅調整部が出力する再生対象の録音音声データを再生する音声再生部とを備えた音声認識装置。
  2. 前記音声認識部に入力される入力音声に含まれる騒音を低減する処理を行う認識用騒音低減部を備えたことを特徴とする請求項1記載の音声認識装置。
  3. 入力音声を音声認識する音声認識部と、
    入力音声を音声認識した語が登録される音声認識辞書と、
    前記音声認識辞書に登録された語の録音音声データを格納する応答用音声データ格納部と、
    前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、
    前記応答用音声データ格納部に前記録音音声データとして格納される入力音声に含まれる騒音を低減する処理を行う再生用騒音低減部と、
    前記対話制御部によって前記応答用音声データ格納部から取得された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、
    前記振幅調整部が出力する再生対象の録音音声データを再生する音声再生部とを備えた音声認識装置。
  4. 前記音声認識部に入力される入力音声に含まれる騒音を低減する処理を行う認識用騒音低減部を備えたことを特徴とする請求項3記載の音声認識装置。
JP2012522346A 2010-06-28 2010-06-28 音声認識装置 Active JP5301037B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/004269 WO2012001730A1 (ja) 2010-06-28 2010-06-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2012001730A1 true JPWO2012001730A1 (ja) 2013-08-22
JP5301037B2 JP5301037B2 (ja) 2013-09-25

Family

ID=45401495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012522346A Active JP5301037B2 (ja) 2010-06-28 2010-06-28 音声認識装置

Country Status (5)

Country Link
US (1) US8990092B2 (ja)
JP (1) JP5301037B2 (ja)
CN (1) CN102959618B (ja)
DE (1) DE112010005706B4 (ja)
WO (1) WO2012001730A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008041104A1 (de) 2008-08-07 2010-02-11 Maschinenfabrik Gustav Eirich Gmbh & Co. Kg Mischvorrichtung mit Induktionsheizung
CN104064185B (zh) * 2013-03-18 2017-06-27 联想(北京)有限公司 信息处理方法及系统、电子设备
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
JP6060989B2 (ja) * 2015-02-25 2017-01-18 カシオ計算機株式会社 音声録音装置、音声録音方法、及びプログラム
CN107172255A (zh) * 2017-07-21 2017-09-15 广东欧珀移动通信有限公司 语音信号自适应调整方法、装置、移动终端及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
DE69232407T2 (de) * 1991-11-18 2002-09-12 Kabushiki Kaisha Toshiba, Kawasaki Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
JPH05219176A (ja) 1992-02-07 1993-08-27 Matsushita Electric Ind Co Ltd 音声認識電話機
JPH0764594A (ja) 1993-08-27 1995-03-10 Ricoh Co Ltd 音声認識装置
JP3360398B2 (ja) 1994-03-16 2002-12-24 日産自動車株式会社 車載用ナビゲーション装置
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
JPH10240283A (ja) 1997-02-27 1998-09-11 Sanyo Electric Co Ltd 音声処理装置及び電話装置
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP3307875B2 (ja) 1998-03-16 2002-07-24 松下電送システム株式会社 符号化音声再生装置および符号化音声再生方法
JP4439740B2 (ja) 1999-02-16 2010-03-24 有限会社ジーエムアンドエム 音声変換装置及び方法
JP3670180B2 (ja) * 1999-02-16 2005-07-13 有限会社ジーエムアンドエム 補聴器
JP3849841B2 (ja) * 2000-03-15 2006-11-22 オムロン株式会社 話者認識装置
EP1229518A1 (en) * 2001-01-31 2002-08-07 Alcatel Speech recognition system, and terminal, and system unit, and method
US20040054528A1 (en) * 2002-05-01 2004-03-18 Tetsuya Hoya Noise removing system and noise removing method
JP2005122042A (ja) 2003-10-20 2005-05-12 Toyota Motor Corp 音声認識装置、音声認識方法、音声合成装置、音声合成方法、音声認識システム、音声合成システム、音声認識合成装置、およびナビゲーションシステム、ならびに移動体
GB2416874B (en) * 2004-08-02 2006-07-26 Louis Augustus George Atteck A translation and transmission system
US20080154591A1 (en) 2005-02-04 2008-06-26 Toshihiro Kujirai Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JP2006330170A (ja) 2005-05-24 2006-12-07 Nhk Engineering Services Inc 記録文書作成支援システム
JP5037041B2 (ja) 2006-06-23 2012-09-26 アルパイン株式会社 車載用音声認識装置及び音声コマンド登録方法
JP2008256802A (ja) 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2009104047A (ja) 2007-10-25 2009-05-14 Canon Inc 情報処理方法及び情報処理装置

Also Published As

Publication number Publication date
CN102959618A (zh) 2013-03-06
US8990092B2 (en) 2015-03-24
DE112010005706T5 (de) 2013-04-25
US20120330655A1 (en) 2012-12-27
DE112010005706B4 (de) 2018-11-08
CN102959618B (zh) 2015-08-05
JP5301037B2 (ja) 2013-09-25
WO2012001730A1 (ja) 2012-01-05

Similar Documents

Publication Publication Date Title
US20070213987A1 (en) Codebook-less speech conversion method and system
US8768701B2 (en) Prosodic mimic method and apparatus
JP2005084102A (ja) 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP5301037B2 (ja) 音声認識装置
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JPWO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
CN111739536A (zh) 一种音频处理的方法和装置
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JP5354485B2 (ja) 発声支援方法
JP2002215198A (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2005338454A (ja) 音声対話装置
JP2006330170A (ja) 記録文書作成支援システム
JP2007206603A (ja) 音響モデルの作成方法
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JPH05307395A (ja) 音声合成装置
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5519126B2 (ja) 音声認識装置及び音声認識方法
JPH1115495A (ja) 音声合成装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130618

R150 Certificate of patent or registration of utility model

Ref document number: 5301037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350