JP5301037B2

JP5301037B2 - 音声認識装置

Info

Publication number: JP5301037B2
Application number: JP2012522346A
Authority: JP
Inventors: 政信大沢; 和行野木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2013-09-25
Anticipated expiration: 2030-06-28
Also published as: JPWO2012001730A1; CN102959618A; US8990092B2; DE112010005706T5; US20120330655A1; DE112010005706B4; CN102959618B; WO2012001730A1

Description

この発明は、入力される音声データから騒音成分を除去し、振幅調整を行うことにより音声認識率の向上を図る音声認識装置に関するものである。

従来より、騒音を含まずユーザにとって聞き易い音声を提供する技術が種々開示されている。例えば、特許文献１では、雑音除去部において記憶している重み付け停止直前の雑音除去パラメータを用いて音声と定常的な雑音の混じった信号から音声信号のみを取り出し、デジタル符号化している。また、特許文献２では、スピーカから出力される音声または音響が聞き取りにくい時には、利用者が調整部を操作して音声または音響の特徴を変化させて騒音などと区別し易くなるように構成している。さらに、特許文献３では、音声再生に際して音源パラメータに基づいて算出したエネルギー値を判定し、その判定値に応じて予め定められたゲインを選択し、選択したゲインに従って音声データの再生音量を補正している。

特開平５−２１９１７６号公報特開平７−２６２４９０号公報特開平１１−２６５２００号公報

従来の音声認識および音声再生は以上のように構成されているので、高騒音下において入力音声の登録を行った場合、騒音が重畳した音声に対して振幅の調整が実行され、再生される応答音声が固定応答音声と比較して小さい音声となるという課題があった。

この発明は上記のような課題を解決するためになされたもので、入力音声から騒音を除去すると共に振幅を正規化した音声を出力することができる音声認識装置を提供することを目的とする。

この発明に係る音声認識装置は、ユーザにより発話された音声を入力する音声入力部と、前記音声入力部により入力された音声データに対して、音声認識用に騒音低減処理を行う認識用騒音低減部と、前記認識用騒音低減部により騒音が低減された音声データを認識する音声認識部と、前記音声認識部により出力された語が登録される音声認識辞書と、前記音声入力部により入力された音声データに対して、再生用に、前記認識用騒音低減部とは異なる騒音低減処理を行う再生用騒音低減部と、前記再生用騒音低減部により騒音が低減された録音音声データを格納する応答用音声データ格納部と、前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、前記対話制御部により前記応答用音声データ格納部から取得された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、前記振幅調整部により出力された再生対象の録音音声データを再生する音声再生部とを備えたものである。

この発明によれば、ユーザにとって聞き易い音声を生成することができる。

実施の形態１による音声認識装置の構成を示すブロック図である。実施の形態１の音声認識装置における音声認識辞書への登録例を示す図である。実施の形態１の音声認識装置における応答用音声データ格納部への登録例を示す図である。実施の形態１の音声認識装置における振幅調整を示す説明図である。実施の形態１による音声認識装置の動作を示すフローチャートである。実施の形態１による音声認識装置の動作を示すフローチャートである。実施の形態２による音声認識装置の構成を示すブロック図である。実施の形態２による音声認識装置の動作を示すフローチャートである。実施の形態２による音声認識装置の動作を示すフローチャートである。実施の形態３による音声認識装置の構成を示すブロック図である。実施の形態３による音声認識装置の動作を示すフローチャートである。実施の形態４による音声認識装置の構成を示すブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態１．
図１は、実施の形態１による音声認識装置の構成を示すブロック図である。
実施の形態１の音声認識装置１は、音声入力部２、音声認識部３、音声認識辞書４、音声録音部５、応答用音声データ格納部６、対話制御部７、再生用騒音低減部８、出力振幅調整部（振幅調整部）９および音声再生部１０で構成されている。

音声入力部２は、ユーザが発声する音声の入力を受け付け、音声データを出力する。音声認識部３は、音声認識辞書４への登録処理において、音声入力部２から入力される音声データを認識し、音声認識結果に固有のＩＤを対応付けて音声認識辞書４に登録する。音声認識は、例えば下記の参考文献１に開示されているＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いて行う。図２は、実施の形態１による音声認識装置における音声認識辞書４への登録例を示す図である。ここで、音声認識結果は例えば音素系列などである。さらに音声認識部３は、ユーザの発話に基づき録音音声データの呼び出しを行う処理において、音声入力部２から入力される音声データを認識し、音声認識辞書４を参照して認識した語に対応するＩＤを取得する。なお、語（word）には、日本語または外国語で用いられる単語だけでなく、数字、アルファベット、記号などを組合せたもの（例えば、型番）なども含む。

［参考文献１］
古井貞煕「音声情報処理」第５章

音声認識辞書４は、音声認識部３による音声認識結果を固有のＩＤと共に記憶する。音声録音部５は、音声入力部２から入力された音声データを録音し、応答用音声データ格納部６に登録する。録音音声データの登録は、音声認識部３が対応付けたＩＤと同一のＩＤを付して行う。応答用音声データ格納部６は、録音音声データを固有のＩＤと共に記憶する。図３は、実施の形態１による音声認識装置における応答用音声データ格納部６への登録例を示す図である。

対話制御部７は、音声認識辞書４に登録された音声データと同一の内容をユーザが発話した場合に、音声認識部３から発話内容と同一の音声認識結果のＩＤを取得し、応答用音声データ格納部６から当該ＩＤと同一ＩＤの録音音声データを取得する。再生用騒音低減部８は、対話制御部７から入力される録音音声データから騒音を除去する。騒音除去方法としては、例えば参考文献１（Ｐ１２６）および参考文献２に開示されているスペクトルサブトラクション法などを適用することができる。再生用の音声データに対しては、人の聴感上不自然でないような音声となるように騒音除去処理を行う。

［参考文献２］
S.F，Boll.“Suppression of acoustic noise in speech using spectral subtraction，”IEEE Trans.Acoust.Speech Signal Process.，vol.ASSP-27，no.2，pp.113-120，1979.）

出力振幅調整部９は、再生用騒音低減部８により騒音が除去された録音音声データの振幅を、所定の音声レベルの振幅に調整する。振幅調整の具体例を図４に示す。図４の例では、騒音除去後の録音音声データの振幅の最大値が固定応答音声データの振幅の最大値と一致するように、振幅調整を行う。音声再生部１０は、振幅調整が行われた録音音声データを再生し、応答音声を出力する。

次に、音声認識装置１の動作について説明を行う。図５および図６は実施の形態１による音声認識装置の動作を示すフローチャートである。なお、音声認識装置１の動作は、図５に示す音声データを音声認識辞書４および応答用音声データ格納部６に登録する処理と、図６に示すユーザの発話に基づき録音音声データの呼び出しを行う処理に分けて説明を行う。

まず、図５に示す音声データを音声認識辞書４および応答用音声データ格納部６に登録する処理では、録音可能な状態でユーザが発話すると、音声入力部２はユーザの音声をＡＤ変換して例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）形式で取得し、音声データとして出力する（ステップＳＴ１）。音声認識部３は、ステップＳＴ１において音声入力部２から入力される音声データを認識して音声認識結果を生成すると共に、生成した音声認識結果に固有のＩＤを対応付ける（ステップＳＴ２）。音声認識は、例えばＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いて行う。さらに音声認識部３は、生成した音声認識結果とＩＤを音声認識辞書４に登録する（ステップＳＴ３）。

一方、音声録音部５は、ステップＳＴ１において音声入力部２から入力される音声データを録音し（ステップＳＴ４）、録音音声データにステップＳＴ３において音声認識辞書４に登録した際のＩＤと同一のＩＤを付して応答用音声データ格納部６に登録する（ステップＳＴ５）。

次に、図６を参照しながら、ユーザの発話に基づき録音音声データの呼び出しを行う処理について説明を行う。ここでは、ユーザが音声認識辞書４に登録された音声と同じ内容を発話し、コマンドの実行または録音音声データの呼び出しを行う場合について説明を行う。
ユーザによる発話が行われると、音声入力部２が音声を取得して音声データとして出力する（ステップＳＴ１１）。音声認識部３は、ステップＳＴ１１において音声入力部２から入力される音声データを認識し、認識した語に対応するＩＤを音声認識辞書４から取得し、取得したＩＤを対話制御部７に出力する（ステップＳＴ１２）。音声認識は、例えばＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いて行う。

対話制御部７は、応答用音声データ格納部６を参照し、ステップＳＴ１２において入力されたＩＤと同一ＩＤを有する録音音声データを取得し、再生用騒音低減部８に出力する（ステップＳＴ１３）。再生用騒音低減部８は、スペクトルサブトラクション法などの騒音除去方式などに基づき、ステップＳＴ１３において入力された録音音声データに対して人の聴感上不自然とならないように騒音を除去し、出力振幅調整部９に出力する（ステップＳＴ１４）。出力振幅調整部９は、ステップＳＴ１４において入力された騒音の除去された録音音声データに対して振幅の調整を行い、音声再生部１０に出力する（ステップＳＴ１５）。音声再生部１０は、ステップＳＴ１５において入力された録音音声データの再生を行う（ステップＳＴ１６）。

以上のように、この実施の形態１によれば、再生用騒音低減部８により録音音声データの騒音を低減した後に、出力振幅調整部９により振幅を所定の音声レベルの振幅に調整するように構成したので、音声再生部１０によって再生される応答音声の大きさが固定応答音声と同一とすることができ、ユーザにとって聞き取り易い音声を再生できる。

実施の形態２．
図７は、実施の形態２による音声認識装置の構成を示すブロック図である。
この実施の形態２の音声認識装置１Ａは、実施の形態１において示した音声認識装置１に認識用騒音低減部１１を追加して設けている。以下では、実施の形態１に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

認識用騒音低減部１１は、音声入力部２と音声認識部３との間に配置され、音声入力部２から入力される音声データに対して、騒音除去処理を施す。騒音除去方法としては、例えば参考文献１および参考文献２に開示されているスペクトルサブトラクション法などを適用することができる。認識用の音声データに対しては、音声認識部３による認識率が向上するように騒音除去処理を行う。

次に、実施の形態２の音声認識装置１Ａにおいて音声データを音声認識辞書４に登録する動作、およびユーザの発話に基づき録音音声データの呼び出しを行う処理を中心に説明を行う。図８および図９は、実施の形態２による音声認識装置の動作を示すフローチャートである。以下では、実施の形態１の音声認識装置と同一のステップには図５および図６で使用した符号と同一の符号を付し、説明を省略または簡略化する。

まず、図８を参照しながら音声データを音声認識辞書４に登録する処理について説明を行う。ステップＳＴ１として音声入力部２が取得した音声データを出力すると、認識用騒音低減部１１は、スペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるように騒音除去処理を行い、音声認識部３に出力する（ステップＳＴ２１）。音声認識部３は、ステップＳＴ２１において入力された騒音除去の行われた音声データを認識して音声認識結果を生成すると共に、生成した音声認識結果に固有のＩＤを対応付ける（ステップＳＴ２２）。音声認識は、例えばＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いて行う。さらに音声認識部３は、生成した音声認識結果とＩＤを音声認識辞書４に登録する（ステップＳＴ３）。なお、音声データを応答用音声データ格納部６に登録する処理は実施の形態１と同様である。

次に、図９を参照しながら、ユーザの発話に基づき録音音声データの呼び出しを行う処理について説明を行う。ここでは、ユーザが音声認識辞書４に登録された音声と同じ内容を発話し、コマンドの実行または録音音声データの呼び出しを行う場合について説明を行う。
ステップＳＴ１１として音声入力部２が取得した音声データを出力すると、認識用騒音低減部１１はスペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるような騒音除去処理を行い、音声認識部３に出力する（ステップＳＴ２３）。音声認識部３は、ステップＳＴ２３において入力された騒音が除去された音声データを認識し、認識した語に対応するＩＤを音声認識辞書４から取得し、取得したＩＤを対話制御部７に出力する（ステップＳＴ２４）。音声認識は、例えばＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いて行う。以降の処理は実施の形態１と同様である。

以上のように、この実施の形態２によれば、音声認識を行う前に騒音除去処理を行う認識用騒音低減部１１を備えるように構成したので、音声データに対して認識用の騒音低減処理と再生用の騒音低減処理が二重にかかることにより音質の劣化を招くのを回避しつつ、認識率の向上を図ることができる。

実施の形態３．
図１０は、実施の形態３による音声認識装置の構成を示すブロック図である。この実施の形態３では、実施の形態１の音声認識装置１の再生用騒音低減部８を音声入力部２と音声録音部５との間に配置している。実施の形態１の音声認識装置の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

図１０に示すように、音声データを録音する前に騒音を除去する場合には、対話制御部７から出力される録音音声データに対して騒音除去処理は行わない。これは、再生用の録音音声データに二重の騒音除去処理が行われるのを防ぐためである。

次に、実施の形態３の音声認識装置１Ｂにおいて音声データを応答用音声データ格納部６に登録する動作について説明を行う。図１１は、実施の形態３による音声認識装置の動作を示すフローチャートである。実施の形態１の音声認識装置１と同一ステップには図５で使用した符号と同一の符号を付して説明を省略または簡略化する。

ステップＳＴ１として音声入力部２が音声データを出力すると、再生用騒音低減部８は、スペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに人の聴感上不自然とならないように騒音を除去し、音声録音部５に出力する（ステップＳＴ３１）。音声録音部５は、ステップＳＴ３１において再生用騒音低減部８から入力される騒音が除去された音声データを録音し（ステップＳＴ３２）、録音音声データにステップＳＴ３において音声認識辞書４に登録した際のＩＤと同一のＩＤを付して応答用音声データ格納部６に登録する（ステップＳＴ５）。

なお、音声データを音声認識辞書４に登録する処理は実施の形態１と同様である。また、ユーザの発話に基づき録音音声データの呼び出しを行う処理は、実施の形態１の図６のフローチャートにおいてステップＳＴ１４の録音音声データから騒音を除去する処理を省略する。具体的には、対話制御部７が取得した録音音声データを出力振幅調整部９に出力し、出力振幅調整部９が当該録音音声データに対して振幅の調整を行い、音声再生部１０に出力する。

以上のように、この実施の形態３によれば、再生用騒音低減部８を音声入力部２と音声録音部５との間に設け、騒音低減処理が施された録音音声データを応答用音声データ格納部６に登録するように構成したので、録音音声データを再生する度に騒音低減処理を施す必要がなくなり、処理量を削減することができる。

実施の形態４．
図１２は、実施の形態４による音声認識装置の構成を示すブロック図である。
この実施の形態４の音声認識装置１Ｃは、実施の形態２おいて示した音声認識装置１Ａの再生用騒音低減部８を音声入力部２と音声録音部５との間に配置している。実施の形態４の音声認識装置１Ｃの構成要素は実施の形態２と同一であり、説明を省略する。
また、この実施の形態４の音声認識装置１Ｃの動作は、音声データを音声認識辞書４に登録する処理は実施の形態２と同様であり、音声データを応答用音声データ格納部６に登録する処理およびユーザの発話に基づき録音音声データの呼び出しを行う処理は実施の形態３と同様である。

以上のように、この実施の形態４によれば、再生用騒音低減部８を音声入力部２と音声録音部５との間に設け、騒音低減処理が施された録音音声データを応答用音声データ格納部６に登録するように構成したので、録音音声データを再生する度に騒音低減処理を施す必要がなくなり、処理量を削減することができる。
さらに、認識用騒音低減部１１を音声入力部２と音声認識部３との間に設け、騒音低減処理が施された音声データを音声認識辞書４に登録するように構成したので、音声データに対する認識率の向上を図ることができる。

なお、実施の形態１から実施の形態４では、再生用および認識用騒音低減処理に例えばスペクトルサブトラクションなどの同様の方式を用いる構成を示したが、同様の方式を用いた場合でも、パラメータを調整することにより、再生用または認識用それぞれに適した騒音除去を行うことができる。

Claims

ユーザにより発話された音声を入力する音声入力部と、
前記音声入力部により入力された音声データに対して、音声認識用に騒音低減処理を行う認識用騒音低減部と、
前記認識用騒音低減部により騒音が低減された音声データを認識する音声認識部と、
前記音声認識部により出力された語が登録される音声認識辞書と、
前記音声入力部により入力された音声データに対して、再生用に、前記認識用騒音低減部とは異なる騒音低減処理を行う再生用騒音低減部と、
前記再生用騒音低減部により騒音が低減された録音音声データを格納する応答用音声データ格納部と、
前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、
前記対話制御部により前記応答用音声データ格納部から取得された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、
前記振幅調整部により出力された再生対象の録音音声データを再生する音声再生部
とを備えた音声認識装置。