JP6721365B2

JP6721365B2 - 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム

Info

Publication number: JP6721365B2
Application number: JP2016048243A
Authority: JP
Inventors: 美沙貴辻川
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2020-07-15
Anticipated expiration: 2036-03-11
Also published as: JP2017161825A; US9959873B2; US20170263257A1

Description

本開示は、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラムに関するものである。

従来、話者を識別する話者識別装置において、入力された話者の音声に雑音が含まれている場合、正しく話者を識別することが困難であった。そこで、例えば特許文献１では、ニューラルネットワークを用いた話者認識システムにおいて、学習パターンに雑音を重畳し、擬似的にパターンの数を増やすことにより認識率の向上を図っている。

特開平５−１４３０９４号公報

しかしながら、特許文献１の従来の話者認識システムでは、識別対象話者の音声に対して雑音を重畳した擬似的な学習パターンを生成し、生成した擬似的な学習パターンをニューラルネットワークの学習に用いているので、識別対象話者の音声を事前に取得する必要があり、識別対象話者の発話が少ない場合、データ量が不十分であるため、学習により最適なニューラルネットワークを生成することができず、話者を識別する精度が低下するという課題がある。

本開示は、上記の問題を解決するためになされたもので、話者識別の精度を向上させることができる音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラムを提供することを目的とするものである。

本開示の一態様に係る音声辞書生成方法は、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法であって、複数の不特定話者の音声を取得し、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳し、前記雑音を重畳した前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する。

本開示によれば、話者識別の精度を向上させることができる。

本実施の形態１における話者識別装置の構成を示す図である。本実施の形態１における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第１の例について説明するための図である。雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第２の例について説明するための図である。雑音のある環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第３の例について説明するための図である。シミュレーション実験において用いられる雑音を取得した環境及び雑音の種類を示す図である。シミュレーション実験において、雑音を含むＵＢＭを用いた場合の学習用音声データのＳＮ比及び識別用音声データのＳＮ比のそれぞれに対応する識別率と、雑音を含まないＵＢＭを用いた場合の学習用音声データのＳＮ比及び識別用音声データのＳＮ比のそれぞれに対応する識別率とを示す表である。図７に示す表をグラフ化した図である。シミュレーション実験において、雑音を含むＵＢＭを使用して学習及び話者識別した場合の識別率の平均値と、雑音を含まないＵＢＭを使用して学習及び話者識別した場合の識別率の平均値とを示す図である。本実施の形態２における話者識別装置の構成を示す図である。本実施の形態２における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。本実施の形態２の変形例における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。本実施の形態３における話者識別装置の構成を示す図である。本実施の形態３における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。本実施の形態４における話者識別装置の構成を示す図である。本実施の形態４における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。

（本開示の基礎となった知見）
上記のように、従来、話者を識別する話者識別装置において、入力された話者の音声に雑音が含まれている場合、正しく話者を識別することが困難であった。そこで、例えば特許文献１では、ニューラルネットワークを用いた話者認識システムにおいて、学習パターンに雑音を重畳し、擬似的にパターンの数を増やすことにより認識率の向上を図っている。

このような課題を解決するため、本開示の一態様に係る音声辞書生成方法は、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法であって、複数の不特定話者の音声を取得し、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳し、前記雑音を重畳した前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する。

この構成によれば、複数の不特定話者の音声が取得され、雑音が取得される。複数の不特定話者の音声に雑音が重畳される。雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成される。

したがって、雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成されるので、識別対象話者の音声に雑音が含まれていたとしても、正確な個人用音声辞書を生成することができ、話者識別の精度を向上させることができる。

また、上記の音声辞書生成方法において、前記複数の不特定話者の音声の音圧に基づいて前記雑音の音圧を調整し、音圧を調整した前記雑音を前記複数の不特定話者の音声に重畳してもよい。

この構成によれば、複数の不特定話者の音声の音圧に基づいて雑音の音圧が調整され、音圧が調整された雑音が複数の不特定話者の音声に重畳される。したがって、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、不特定話者音声辞書を生成する際に最適な音圧の雑音を重畳することができ、話者識別の精度を向上させることができる。

また、上記の音声辞書生成方法において、前記複数の不特定話者の音声の平均音圧と前記雑音の音圧との音圧差が所定の値となるように前記雑音の音圧を調整してもよい。

この構成によれば、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧が調整されるので、重畳する雑音の音圧が最適になるように容易に調整することができる。

また、上記の音声辞書生成方法において、前記個人用音声辞書を学習する処理において、前記識別対象話者の音声を取得し、前記識別対象話者の音声と、生成した前記不特定話者音声辞書とを用いて前記個人用音声辞書を生成し、前記識別対象話者を識別する処理において、前記識別対象話者の音声を取得し、生成した前記個人用音声辞書と、取得した前記識別対象話者の音声とを用いて、前記識別対象話者を識別し、前記識別対象話者の識別に失敗した場合、前記所定の値が大きくなるように変更してもよい。

この構成によれば、個人用音声辞書を学習する処理において、識別対象話者の音声が取得される。取得された識別対象話者の音声と、生成した不特定話者音声辞書とを用いて個人用音声辞書が生成される。識別対象話者を識別する処理において、識別対象話者の音声が取得される。生成された個人用音声辞書と、取得された識別対象話者の音声とが用いられて、識別対象話者が識別される。識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更される。

したがって、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更され、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、より良好な識別結果が得られるように雑音の音圧を変更することができ、話者識別の精度をより向上させることができる。

また、上記の音声辞書生成方法において、前記複数の不特定話者の音声を予め格納する不特定話者音声格納部から前記複数の不特定話者の音声を取得し、前記雑音を予め格納する雑音格納部から前記雑音を取得してもよい。

この構成によれば、複数の不特定話者の音声を予め格納する不特定話者音声格納部から複数の不特定話者の音声が取得され、雑音を予め格納する雑音格納部から雑音が取得されるので、複数の不特定話者の音声及び雑音を予め格納することにより、容易に不特定話者音声辞書を生成することができる。

また、上記の音声辞書生成方法において、前記識別対象話者を識別する場所の周囲環境の雑音を収集し、収集した前記雑音を前記雑音格納部に格納してもよい。

この構成によれば、識別対象話者を識別する場所の周囲環境の雑音が収集され、収集された雑音が雑音格納部に格納されるので、不特定話者音声辞書を生成する際に、実際に識別対象話者を識別する場所の周囲環境の雑音を、複数の不特定話者の音声に重畳することができ、話者識別の精度をより向上させることができる。

また、上記の音声辞書生成方法において、周波数特性がそれぞれ異なる複数の雑音を取得し、前記複数の不特定話者の音声に前記複数の雑音を重畳してもよい。

この構成によれば、周波数特性がそれぞれ異なる複数の雑音が取得され、複数の不特定話者の音声に複数の雑音が重畳される。したがって、周波数特性がそれぞれ異なる複数の雑音が複数の不特定話者の音声に重畳されるので、より汎用性の高い不特定話者音声辞書を生成することができる。

本開示の他の態様に係る音声辞書生成装置は、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成装置であって、複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部と、を備える。

この構成によれば、複数の不特定話者の音声が取得されるとともに、雑音が取得され、複数の不特定話者の音声に雑音が重畳される。雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成される。

本開示の他の態様に係る音声辞書生成プログラムは、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成プログラムであって、複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部としてコンピュータを機能させる。

以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

（実施の形態１）
図１は、本実施の形態１における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１に示す話者識別装置は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ）生成部１４、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８及び話者識別部１９を備える。

また、ＵＢＭ生成処理部１は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４及びＵＢＭ格納部１５で構成される。学習処理部２は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７及び個人モデル格納部１８で構成される。話者識別処理部３は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８及び話者識別部１９で構成される。

本実施の形態１における話者識別装置では、ＵＢＭ生成処理、学習処理及び話者識別処理の３つの処理が行われる。

ＵＢＭ生成処理部１は、複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用モデルを生成するために用いられるＵＢＭを生成する。ＵＢＭは、不特定話者音声辞書の一例であり、個人用モデルは、個人用音声辞書の一例である。

学習処理部２は、識別対象話者の音声と、ＵＢＭ生成処理部１によって生成されたＵＢＭとを用いて、識別対象話者を識別するための個人用モデルを生成し、生成した個人用モデルを格納する。

話者識別処理部３は、識別対象話者の音声と、ＵＢＭ生成処理部１によって生成されたＵＢＭとを用いて、識別対象話者を識別するための個人用モデルを生成し、生成した個人用モデルと、格納されている個人用モデルとの類似度を判断することにより識別対象話者を識別する。

本実施の形態１における話者識別装置は、ｉ−ｖｅｃｔｏｒと呼ばれる話者識別方法で話者を識別する。ｉ−ｖｅｃｔｏｒに基づく話者識別では、因子分析を利用して、話者に含まれる固有の特徴を抽出し、抽出した特徴量を比較することで話者を判別する。ｉ−ｖｅｃｔｏｒでは、特徴抽出に因子分析を用いているため、次元を削減して特徴を表現することが可能であり、少量の発話データでも効率よく話者性を表現することができる。

不特定話者音声格納部１１は、複数の不特定話者の音声を予め格納する。雑音格納部１２は、所定の場所における雑音を予め格納する。なお、雑音格納部１２は、周波数特性がそれぞれ異なる複数の雑音を格納することが好ましい。

雑音重畳部１３は、複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、複数の不特定話者の音声に雑音を重畳する。なお、雑音格納部１２に複数の雑音が格納されている場合、雑音重畳部１３は、複数の雑音を平均化した平均雑音を算出し、算出した平均雑音を複数の不特定話者の音声のそれぞれに重畳してもよい。また、雑音重畳部１３は、複数の不特定話者の音声のそれぞれに、複数の雑音のそれぞれを重畳してもよい。

ＵＢＭ生成部１４は、雑音が重畳された複数の不特定話者の音声の特徴量からＵＢＭを生成する。なお、複数の不特定話者の音声からＵＢＭを生成する方法は、ｉ−ｖｅｃｔｏｒと呼ばれる話者識別方法においてＵＢＭを生成する方法と同じである。ＵＢＭ格納部１５は、ＵＢＭ生成部１４によって生成されたＵＢＭを格納する。

音声入力部１６は、例えばマイクロホンで構成され、学習処理又は話者識別処理において、話者の音声を収集し、収集した音声を音声信号に変換して出力する。

個人モデル生成部１７は、学習処理において、音声入力部１６によって入力された話者の音声と、ＵＢＭ格納部１５に格納されているＵＢＭとを用いて、話者を識別するための個人用モデルを生成し、生成した個人用モデルを個人モデル格納部１８に格納する。このとき、個人モデル生成部１７は、音声を入力した話者を識別するための話者識別情報に対応付けて、生成した個人用モデルを個人モデル格納部１８に格納する。話者識別情報は、例えば話者の名前であり、入力部（不図示）を用いて話者により入力される。なお、話者の音声とＵＢＭとから個人用モデルを生成する方法は、ｉ−ｖｅｃｔｏｒと呼ばれる話者識別方法において個人用モデルを生成する方法と同じである。

また、個人モデル生成部１７は、話者識別処理において、音声入力部１６によって入力された話者の音声と、ＵＢＭ格納部１５に格納されているＵＢＭとを用いて、話者を識別するための個人用モデルを生成し、生成した個人用モデルを話者識別部１９へ出力する。

個人モデル格納部１８は、話者を識別するための話者識別情報と、個人モデル生成部１７によって生成された個人用モデルを格納する。個人モデル格納部１８は、予め登録された話者毎の個人用モデルを格納する。

話者識別部１９は、話者識別処理において、個人モデル生成部１７によって出力された個人用モデルと、個人モデル格納部１８に格納されている個人用モデルとに基づいて、音声入力部１６によって音声が入力された話者を識別する。すなわち、話者識別部１９は、話者識別処理において、個人モデル生成部１７によって出力された個人用モデルと、個人モデル格納部１８に格納されている個人用モデルとの類似度を算出する。そして、話者識別部１９は、最も高い類似度が算出された個人用モデルの類似度が閾値より大きいか否かを判断し、類似度が閾値より大きいと判断した場合、最も類似度が高い個人用モデルに対応付けられている話者識別情報を識別結果として出力する。なお、話者識別部１９は、最も高い類似度が閾値以下であると判断した場合、音声が入力された話者が未登録であることを示す情報を識別結果として出力する。

なお、本実施の形態１において、テレビ又はスマートホンなどの端末装置が、音声入力部１６を備え、話者識別装置が、音声入力部１６以外の構成を備えてもよい。この場合、話者識別装置は、例えばサーバで構成され、ネットワークを介して端末装置と通信可能に接続される。サーバは、話者識別装置の機能の一部又は全部を備えてもよい。

また、話者は、例えば、家庭内に配置された家電機器を操作するユーザであってもよい。

また、本実施の形態１では、学習処理部２及び話者識別処理部３が、音声入力部１６及び個人モデル生成部１７を共有しているが、学習処理部２及び話者識別処理部３のそれぞれが、音声入力部１６及び個人モデル生成部１７を備えてもよい。

続いて、本実施の形態１における話者識別装置のＵＢＭ生成処理（音声辞書生成処理）の動作について説明する。図２は、本実施の形態１における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。

まず、ステップＳ１において、雑音重畳部１３は、複数の不特定話者の音声を不特定話者音声格納部１１から取得する。

次に、ステップＳ２において、雑音重畳部１３は、雑音を雑音格納部１２から取得する。

次に、ステップＳ３において、雑音重畳部１３は、複数の不特定話者の音声のそれぞれに雑音を重畳する。

次に、ステップＳ４において、ＵＢＭ生成部１４は、雑音が重畳された複数の不特定話者の音声の特徴量からＵＢＭを生成する。ＵＢＭ生成部１４は、雑音が重畳された複数の不特定話者の音声の特徴量を算出する。ここで、特徴量は、例えばＭＦＣＣ（メル周波数ケプストラム係数）である。ＵＢＭ生成部１４は、算出した特徴量からＵＢＭを生成する。なお、ＵＢＭの生成方法は、ｉ−ｖｅｃｔｏｒにおけるＵＢＭの生成方法と同じである。

次に、ステップＳ５において、ＵＢＭ生成部１４は、生成したＵＢＭをＵＢＭ格納部１５に格納する。

このように、雑音が重畳された複数の不特定話者の音声の特徴量から、識別対象話者を識別するための個人用モデルを生成するために用いられるＵＢＭが生成されるので、識別対象話者の音声に雑音が含まれていたとしても、正確な個人用モデルを生成することができ、話者識別の精度を向上させることができる。

また、ＵＢＭに使用する不特定話者の音声に雑音を付加するため、従来のように識別対象話者の音声そのものに雑音を付加する必要がなく、学習時及び話者識別時の処理が簡単になり、雑音環境下での話者識別精度を向上させることができる。

また、不特定話者の音声に意図的に種々の雑音を付加することにより生成したＵＢＭを用いて個人用モデルが生成されるので、雑音を付加しない音声により生成したＵＢＭを使用するときよりも雑音下での話者識別の精度を向上させることができる。

続いて、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第１の例、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第２の例、及び雑音のある環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第３の例について説明する。

図３は、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第１の例について説明するための図であり、図４は、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第２の例について説明するための図であり、図５は、雑音のある環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第３の例について説明するための図である。

なお、本実施の形態１における個人用モデルは、例えばＧＭＭ（混合ガウス分布）である。

図３に示す第１の例では、識別対象話者のＧＭＭ１０２は、ＵＢＭ１０１に含まれているため、ＵＢＭ１０１から識別対象話者の正確な個人用モデルを生成することが可能であることがわかる。

また、図４に示す第２の例では、識別対象話者のＧＭＭ１０２は、ＵＢＭ１０１に含まれていないため、ＵＢＭ１０１から識別対象話者の正確な個人用モデルを生成することができないことがわかる。

さらに、図５に示す第３の例では、識別対象話者のＧＭＭ１０２は、ＵＢＭ１０１に含まれているため、ＵＢＭ１０１から識別対象話者の正確な個人用モデルを生成することが可能であることがわかる。

以上のことから、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成した場合、正確な個人用モデルを生成することができないおそれがあるが、雑音のある環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成した場合、正確な個人用モデルを生成することができ、識別率を向上させることができる。

なお、雑音のある環境で取得した複数の不特定話者の音声から生成されたＵＢＭと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する場合、識別対象話者のＧＭＭ１０２は、ＵＢＭ１０１に含まれるため、ＵＢＭ１０１から識別対象話者の正確な個人用モデルを生成することが可能となる。

続いて、雑音が含まれるＵＢＭと雑音が含まれないＵＢＭとを用いて話者を識別したシミュレーション実験について説明する。

シミュレーション実験では、雑音環境下における２０人の話者（男性１０人及び女性１０人）を識別する。シミュレーション実験では、ＵＢＭ生成処理において、雑音を重畳した複数の不特定話者の音声から第１のＵＢＭ（雑音が含まれるＵＢＭ）を生成するとともに、雑音を重畳していない複数の不特定話者の音声から第２のＵＢＭ（雑音が含まれないＵＢＭ）を生成した。そして、学習処理において、第１のＵＢＭと学習用音声データとから第１の個人用モデルを生成するとともに、第２のＵＢＭと学習用音声データとから第２の個人用モデルを生成した。また、話者識別処理において、第１のＵＢＭと識別用音声データとから第３の個人用モデルを生成するとともに、第２のＵＢＭと識別用音声データとから第４の個人用モデルを生成した。さらに、第３の個人用モデルと第１の個人用モデルとを比較するとともに、第４の個人用モデルと第２の個人用モデルとを比較し、第１のＵＢＭを用いた場合の識別率と第２のＵＢＭを用いた場合の識別率とを算出した。

図６は、シミュレーション実験において用いられる雑音を取得した環境及び雑音の種類を示す図である。

図６に示すように、雑音を取得した環境は、車内、屋外、半屋外、屋内及び演奏中の５種類であり、この５種類の環境は、それぞれ周波数特性の傾向が異なっている。ＵＢＭに含まれる雑音は、排気量が１０００ｃｃの自動車の車内の雑音、道路上での雑音、駅の構内での雑音、第１の工場内での雑音、及びピアノの音である。また、学習処理に用いられる学習用音声データ及び話者識別処理に用いられる識別用音声データに含まれる雑音は、排気量が２０００ｃｃの自動車の車内の雑音、人混みの中での雑音、駅のホーム内での雑音、第１の工場とは異なる第２の工場内での雑音、及びフルートの音である。

このように、本シミュレーション実験では、ＵＢＭに含まれる雑音と、学習用音声データ及び識別用音声データに含まれる雑音とには、それぞれ異なる音源の雑音が用いられる。

図７は、シミュレーション実験において、雑音を含むＵＢＭを用いた場合の学習用音声データのＳＮ比及び識別用音声データのＳＮ比のそれぞれに対応する識別率と、雑音を含まないＵＢＭを用いた場合の学習用音声データのＳＮ比及び識別用音声データのＳＮ比のそれぞれに対応する識別率とを示す表である。図８は、図７に示す表をグラフ化した図である。図８において、縦軸は、識別率（％）を示し、横軸は、学習用音声データのＳＮ比（ｄＢ）を示し、奥行き軸は、識別用音声データのＳＮ比（ｄＢ）を示す。また、ＳＮ比は、音声と雑音との音圧差を示す。

シミュレーション実験では、図６に示す複数の雑音を平均化し、平均化した雑音を学習用音声データ及び識別用音声データに所定のＳＮ比で混合している。学習用音声データのＳＮ比及び識別用音声データのＳＮ比は、それぞれ０ｄＢ、６ｄＢ、１２ｄＢ、１８ｄＢ、及び雑音が含まれない値（クリーン）に変化させた。

学習処理において、雑音を含む第１のＵＢＭと学習用音声データとから第１の個人用モデルを生成するとともに、雑音を含まない第２のＵＢＭと学習用音声データとから第２の個人用モデルを生成した。また、話者識別処理において、雑音を含む第１のＵＢＭと識別用音声データとから第３の個人用モデルを生成するとともに、雑音を含まない第２のＵＢＭと識別用音声データとから第４の個人用モデルを生成した。さらに、第３の個人用モデルと第１の個人用モデルとを比較するとともに、第４の個人用モデルと第２の個人用モデルとを比較し、雑音を含む第１のＵＢＭを用いた場合の識別率と雑音を含まない第２のＵＢＭを用いた場合の識別率とを算出した。

図７及び図８に示すように、シミュレーション実験の結果、全てのＳＮ比の条件で、雑音を含む第１のＵＢＭを用いた場合の識別率が、雑音を含まない第２のＵＢＭを用いた場合の識別率よりも高くなっている。特に、学習用音声データのＳＮ比及び識別用音声データのＳＮ比が６ｄＢ以上であり、雑音を含む第１のＵＢＭを用いて話者識別した場合に、識別率は９０％以上となっている。これにより、ＵＢＭに予め雑音含めることにより、雑音に対する頑健性が向上することが確認された。

図９は、シミュレーション実験において、雑音を含むＵＢＭを使用して学習及び話者識別した場合の識別率の平均値と、雑音を含まないＵＢＭを使用して学習及び話者識別した場合の識別率の平均値とを示す図である。

図９に示すように、雑音を含むＵＢＭを使用して学習及び話者識別した場合の識別率の平均値は、８７．２％であり、雑音を含まないＵＢＭを使用して学習及び話者識別した場合の識別率の平均値は、７４．２％であった。このことからも、雑音を含むＵＢＭを使用して学習及び話者識別した方が、雑音を含まないＵＢＭを使用して学習及び話者識別するよりも話者識別の精度を向上させることができることがわかる。

（実施の形態２）
図１０は、本実施の形態２における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１０に示す話者識別装置は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８、話者識別部１９及び音圧調整部２０を備える。

また、ＵＢＭ生成処理部１は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４、ＵＢＭ格納部１５及び音圧調整部２０で構成される。学習処理部２は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７及び個人モデル格納部１８で構成される。話者識別処理部３は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８及び話者識別部１９で構成される。

なお、実施の形態２において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

音圧調整部２０は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。例えば、音圧調整部２０は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。雑音重畳部１３は、音圧を調整した雑音を複数の不特定話者の音声に重畳する。

なお、音圧調整部２０は、複数の不特定話者の音声のそれぞれの音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整してもよい。

続いて、本実施の形態２における話者識別装置のＵＢＭ生成処理（音声辞書生成処理）の動作について説明する。図１１は、本実施の形態２における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。

まず、ステップＳ１１において、音圧調整部２０は、複数の不特定話者の音声を不特定話者音声格納部１１から取得する。

次に、ステップＳ１２において、音圧調整部２０は、雑音を雑音格納部１２から取得する。

次に、ステップＳ１３において、音圧調整部２０は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。上記のように、音圧調整部２０は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。ここで、所定の値とは、不特定話者の音声と雑音との音圧差を変更して作成した複数のＵＢＭを用いて話者識別した実験により算出された、識別率が所定の値以上となる音圧差であってもよい。

次に、ステップＳ１４において、雑音重畳部１３は、複数の不特定話者の音声を不特定話者音声格納部１１から取得する。

次に、ステップＳ１５において、雑音重畳部１３は、複数の不特定話者の音声のそれぞれに、音圧調整部２０によって音圧が調整された雑音を重畳する。

なお、図１１に示すステップＳ１６及びステップＳ１７の処理は、図２に示すステップＳ４及びステップＳ５の処理と同じであるので説明を省略する。

このように、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、ＵＢＭを生成する際に最適な音圧の雑音を重畳することができ、話者識別の精度を向上させることができる。

続いて、本実施の形態２の変形例における話者識別装置のＵＢＭ生成処理（音声辞書生成処理）の動作について説明する。上記の実施の形態２では、音圧調整部２０は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整しているが、実施の形態２の変形例では、音圧調整部２０は、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更してもよい。

この場合、音声入力部１６は、個人用モデル（個人用音声辞書）を学習する処理において、識別対象話者の音声を取得する。個人モデル生成部１７は、取得した識別対象話者の音声と、生成したＵＢＭ（不特定話者音声辞書）とを用いて個人用モデル（個人用音声辞書）を生成する。音声入力部１６は、識別対象話者を識別する処理において、識別対象話者の音声を取得する。話者識別部１９は、生成した個人用モデル（個人用音声辞書）と、取得した識別対象話者の音声とを用いて、識別対象話者を識別する。音圧調整部２０は、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更する。

図１２は、本実施の形態２の変形例における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。

まず、ステップＳ４１において、音圧調整部２０は、話者識別が成功したか否かを示す識別評価結果を取得したか否かを判断する。ここで、話者識別装置は、話者識別が成功したか否かを示す識別評価結果の話者による入力を受け付ける評価結果入力部を備えてもよい。すなわち、評価結果入力部は、話者識別部１９による識別結果に対して、話者識別が成功したか否かを示す識別評価結果の話者による入力を受け付ける。評価結果入力部は、識別評価結果を音圧調整部２０に出力する。

ここで、識別評価結果を取得していないと判断された場合（ステップＳ４１でＮＯ）、ステップＳ４２の処理へ移行する。なお、図１２に示すステップＳ４２〜ステップＳ４８の処理は、図１１に示すステップＳ１１〜ステップＳ１７の処理と同じであるので説明を省略する。

一方、識別評価結果を取得したと判断された場合（ステップＳ４１でＹＥＳ）、ステップＳ４９において、音圧調整部２０は、識別評価結果から話者識別が成功したか否かを判断する。ここで、話者識別が成功したと判断された場合（ステップＳ４９でＹＥＳ）、ＵＢＭ生成処理を終了する。

一方、話者識別が失敗したと判断された場合（ステップＳ４９でＮＯ）、ステップＳ５０において、音圧調整部２０は、複数の不特定話者の音声を不特定話者音声格納部１１から取得する。

次に、ステップＳ５１において、音圧調整部２０は、雑音を雑音格納部１２から取得する。

次に、ステップＳ５２において、音圧調整部２０は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を再調整する。音圧調整部２０は、話者識別が失敗したと判断された場合、所定の値が大きくなるように変更し、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が、変更した所定の値となるように雑音の音圧を再調整する。例えば、音圧調整部２０は、話者識別が失敗したと判断された場合、所定の値が現在の音圧差よりも大きくなるように変更してもよい。すなわち、現在の音圧差が６ｄＢであり、話者識別が失敗したと判断された場合、音圧調整部２０は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が現在の音圧差よりも大きい１２ｄＢになるように雑音の音圧を調整してもよい。

このように、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更され、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、ＵＢＭを生成する際に最適な音圧の雑音を重畳することができ、話者識別の精度をより向上させることができる。

（実施の形態３）
図１３は、本実施の形態３における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１３に示す話者識別装置は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８、話者識別部１９及び雑音入力部２１を備える。

また、ＵＢＭ生成処理部１は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４、ＵＢＭ格納部１５及び雑音入力部２１で構成される。学習処理部２は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７及び個人モデル格納部１８で構成される。話者識別処理部３は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８及び話者識別部１９で構成される。

なお、実施の形態３において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

雑音入力部２１は、例えばマイクロホンで構成され、ＵＢＭ生成処理において、話者識別が行われる場所の周囲環境の雑音を収集し、収集した雑音を音声信号に変換して雑音格納部１２に格納する。なお、話者識別が行われる場所に話者識別装置が配置されている場合、話者識別装置の周囲の雑音が収集される。

なお、本実施の形態３では、話者識別装置は、音声入力部１６と雑音入力部２１とを備えているが、本開示は特にこれに限定されず、話者識別装置は、音声入力部１６のみを備えてもよい。この場合、音声入力部１６は、識別対象話者の音声と、周囲環境の雑音とを収集する。

続いて、本実施の形態３における話者識別装置のＵＢＭ生成処理（音声辞書生成処理）の動作について説明する。図１４は、本実施の形態３における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。

まず、ステップＳ２１において、雑音入力部２１は、話者識別が行われる場所の周囲環境の雑音を収集する。

次に、ステップＳ２２において、雑音入力部２１は、収集した雑音を雑音格納部１２に格納する。

なお、図１４に示すステップＳ２３〜ステップＳ２７の処理は、図２に示すステップＳ１〜ステップＳ５の処理と同じであるので説明を省略する。

このように、識別対象話者を識別する場所の周囲環境の雑音が収集され、収集された雑音が雑音格納部１２に格納されるので、ＵＢＭを生成する際に、実際に識別対象話者を識別する場所の周囲環境の雑音を、複数の不特定話者の音声に重畳することができ、話者識別の精度をより向上させることができる。

（実施の形態４）
図１５は、本実施の形態４における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１５に示す話者識別装置は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８、話者識別部１９、音圧調整部２０及び雑音入力部２１を備える。

また、ＵＢＭ生成処理部１は、不特定話者音声格納部１１、雑音格納部１２、雑音重畳部１３、ＵＢＭ生成部１４、ＵＢＭ格納部１５、音圧調整部２０及び雑音入力部２１で構成される。学習処理部２は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７及び個人モデル格納部１８で構成される。話者識別処理部３は、ＵＢＭ格納部１５、音声入力部１６、個人モデル生成部１７、個人モデル格納部１８及び話者識別部１９で構成される。

なお、実施の形態４において、実施の形態１〜３と同じ構成については同じ符号を付し、説明を省略する。

音圧調整部２０は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。例えば、音圧調整部２０は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。

雑音重畳部１３は、音圧を調整した雑音を複数の不特定話者の音声に重畳する。

なお、本実施の形態４では、話者識別装置は、音声入力部１６と雑音入力部２１とを備えているが、本開示は特にこれに限定されず、話者識別装置は、音声入力部１６のみを備えてもよい。この場合、音声入力部１６は、識別対象話者の音声と、周囲環境の雑音とを収集する。

続いて、本実施の形態４における話者識別装置のＵＢＭ生成処理（音声辞書生成処理）の動作について説明する。図１６は、本実施の形態４における話者識別装置のＵＢＭ生成処理の動作について説明するためのフローチャートである。

まず、ステップＳ３１において、雑音入力部２１は、話者識別が行われる場所の周囲環境の雑音を収集する。

次に、ステップＳ３２において、雑音入力部２１は、収集した雑音を雑音格納部１２に格納する。

次に、ステップＳ３３において、音圧調整部２０は、複数の不特定話者の音声を不特定話者音声格納部１１から取得する。

次に、ステップＳ３４において、音圧調整部２０は、雑音を雑音格納部１２から取得する。

次に、ステップＳ３５において、音圧調整部２０は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。上記のように、音圧調整部２０は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。ここで、所定の値とは、不特定話者の音声と雑音との音圧差を変更して作成した複数のＵＢＭを用いて話者識別した実験により算出された、識別率が所定の値以上となる音圧差であってもよい。

次に、ステップＳ３６において、雑音重畳部１３は、複数の不特定話者の音声を不特定話者音声格納部１１から取得する。

次に、ステップＳ３７において、雑音重畳部１３は、複数の不特定話者の音声のそれぞれに、音圧調整部２０によって音圧が調整された雑音を重畳する。

なお、図１６に示すステップＳ３８及びステップＳ３９の処理は、図２に示すステップＳ４及びステップＳ５の処理と同じであるので説明を省略する。

このように、識別対象話者を識別する場所の周囲環境の雑音が収集され、収集された雑音の音圧が調整されるので、ＵＢＭを生成する際に、実際に識別対象話者を識別する場所の周囲環境の雑音を最適な音圧に調整した後、複数の不特定話者の音声に重畳することができ、話者識別の精度をより向上させることができる。

なお、本開示の実施の形態１〜４における話者識別装置は、ｉ−ｖｅｃｔｏｒと呼ばれる話者識別方法で話者を識別しているが、本開示は特にこれに限定されず、ＧＭＭ−ＵＢＭ又はニューラルネットワークなどの他の話者識別方法で話者を識別してもよい。

本開示に係る音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラムは、話者識別の精度を向上させることができ、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラムに有用である。

１ＵＢＭ生成処理部
２学習処理部
３話者識別処理部
１１不特定話者音声格納部
１２雑音格納部
１３雑音重畳部
１４ＵＢＭ生成部
１５ＵＢＭ格納部
１６音声入力部
１７個人モデル生成部
１８個人モデル格納部
１９話者識別部
２０音圧調整部
２１雑音入力部

Claims

識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法であって、
コンピュータが、
複数の不特定話者の音声を取得し、
所定の場所における雑音を取得し、
前記複数の不特定話者の音声に前記雑音を重畳し、
前記雑音を重畳した前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する、
音声辞書生成方法。
前記複数の不特定話者の音声の音圧に基づいて前記雑音の音圧を調整し、
音圧を調整した前記雑音を前記複数の不特定話者の音声に重畳する、
請求項１記載の音声辞書生成方法。
前記複数の不特定話者の音声の平均音圧と前記雑音の音圧との音圧差が所定の値となるように前記雑音の音圧を調整する、
請求項２記載の音声辞書生成方法。
前記個人用音声辞書を学習する処理において、前記識別対象話者の音声を取得し、
取得した前記識別対象話者の音声と、生成した前記不特定話者音声辞書とを用いて前記個人用音声辞書を生成し、
前記識別対象話者を識別する処理において、前記識別対象話者の音声を取得し、
生成した前記個人用音声辞書と、取得した前記識別対象話者の音声とを用いて、前記識別対象話者を識別し、
前記識別対象話者の識別に失敗した場合、前記所定の値が大きくなるように変更する、
請求項３記載の音声辞書生成方法。
前記複数の不特定話者の音声を予め格納する不特定話者音声格納部から前記複数の不特定話者の音声を取得し、
前記雑音を予め格納する雑音格納部から前記雑音を取得する、
請求項１〜４のいずれか１項に記載の音声辞書生成方法。
前記識別対象話者を識別する場所の周囲環境の雑音を収集し、収集した前記雑音を前記雑音格納部に格納する、
請求項５記載の音声辞書生成方法。
周波数特性がそれぞれ異なる複数の雑音を取得し、
前記複数の不特定話者の音声に前記複数の雑音を重畳する、
請求項１〜４のいずれか１項に記載の音声辞書生成方法。
識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成装置であって、
複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、
前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部と、
を備える音声辞書生成装置。
識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成プログラムであって、
複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、
前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部としてコンピュータを機能させる、
音声辞書生成プログラム。