[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6553015B2 - 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム - Google Patents

話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム Download PDF

Info

Publication number
JP6553015B2
JP6553015B2 JP2016222351A JP2016222351A JP6553015B2 JP 6553015 B2 JP6553015 B2 JP 6553015B2 JP 2016222351 A JP2016222351 A JP 2016222351A JP 2016222351 A JP2016222351 A JP 2016222351A JP 6553015 B2 JP6553015 B2 JP 6553015B2
Authority
JP
Japan
Prior art keywords
attribute
learning
frame
posterior probability
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016222351A
Other languages
English (en)
Other versions
JP2018081169A (ja
Inventor
歩相名 神山
歩相名 神山
哲 小橋川
哲 小橋川
山口 義和
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016222351A priority Critical patent/JP6553015B2/ja
Publication of JP2018081169A publication Critical patent/JP2018081169A/ja
Application granted granted Critical
Publication of JP6553015B2 publication Critical patent/JP6553015B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、音声から話者の属性を推定する技術に関する。
音声対話ロボットやコールセンターにおけるマーケティング情報収集等のために、音声から話者の属性(例えば、性別や年代等)を識別する技術が必要とされている。話者の属性を識別する従来技術としては、入力音声の声質をi-vectorに変換し、そのi-vectorをサポートベクターマシン(SVM: Support Vector Machine)を用いて識別する手法や、混合ガウスモデル(GMM: Gaussian Mixture Model)を用いて識別する手法が存在する(例えば、非特許文献1参照)。
宮森翔子他、"ちょっとした一言の音声認識による子ども利用者判別法の検討"、情報科学技術フォーラム講演論文集、vol. 9(3)、pp. 469-472、2010年
従来の話者属性推定技術では、識別率の向上が課題である。従来技術による話者属性推定の識別率は、成人男性、成人女性、子ども(男女)の3クラスの場合、80〜90%程度である。特に、学習データに含まれている属性に関係ない特徴(例えば、雑音や音声のクリッピング等)が識別対象の音声に含まれていた際の誤識別を防ぐ必要がある。
従来技術では、識別結果の確からしさを求められないことも課題である。例えば、音声対話ロボット等で誤った識別結果に基づいて応答を返してしまうとユーザに不快感を与えてしまう場合があるため、識別結果が確実ではない場合はニュートラルな属性として応答を返す必要がある。また、音声入力中に属性を識別し、逐次確からしさを求められるようになれば、識別結果に基づいた素早い応答を返すことができるようになる。
この発明は、上述のような点に鑑みて、従来よりも高精度に話者属性を推定することができる話者属性推定技術を提供することを目的とする。
上記の課題を解決するために、この発明の話者属性推定システムは、学習装置と推定装置とを含む。学習装置は、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、学習音声のフレーム毎の音響特徴量系列と属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、を含む。推定装置は、入力音声のフレーム毎の音響特徴量系列からディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、話者属性毎に求めた事後確率系列の対数和に基づいて話者属性を識別する識別部と、を含む。
この発明によれば、雑音や属性以外のスペクトル特徴(例えば、クリップ音等)に頑健な推定が可能となり、高精度に話者の属性(例えば、性別や年代等)を推定することができる。また、識別結果の信頼性を求めることができるため、例えば、音声対話ロボット等では素早い応答が可能となる。
図1は、第一実施形態の学習装置の機能構成を例示する図である。 図2は、第一実施形態の推定装置の機能構成を例示する図である。 図3は、第一実施形態の話者属性推定方法の処理手続きを例示する図である。 図4は、クリップ音の作成方法を説明するための図である。 図5は、第二実施形態の学習装置の機能構成を例示する図である。 図6は、第二実施形態の話者属性推定方法の処理手続きを例示する図である。 図7は、第三実施形態の学習装置の機能構成を例示する図である。 図8は、第三実施形態の話者属性推定方法の処理手続きを例示する図である。 図9は、第四実施形態の学習装置の機能構成を例示する図である。 図10は、第四実施形態の推定装置の機能構成を例示する図である。 図11は、第四実施形態の話者属性推定方法の処理手続きを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態では、深層学習モデルを利用して入力音声の逐次事後確率を求め、その事後確率を合計した対数事後確率を用いて話者属性の推定を行う。これにより、従来よりも高精度に話者属性を推定することが可能となる。
第一実施形態の話者属性推定システムは、例えば、学習データからディープニューラルネットワーク(DNN: Deep Neural Network)モデル(以下、DNNモデル)を学習する学習装置と、学習したDNNモデルを用いて入力音声の話者属性を推定する推定装置とを含む。第一実施形態の学習装置は、図1に示すように、学習データ記憶部10、特徴量抽出部11、属性ラベル作成部12、深層学習部13、およびDNNモデル記憶部20を備える。第一実施形態の推定装置は、図2に示すように、DNNモデル記憶部20、特徴量抽出部21、事後確率計算部22、および識別部23を含む。この学習装置および推定装置が、図3に示す各ステップの処理を行うことにより第一実施形態の話者属性推定方法が実現される。
学習装置および推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知または専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、学習装置および推定装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。学習装置および推定装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
学習データ記憶部10には、DNNモデルの学習に用いる学習データが記憶されている。学習データは、学習音声s(k, t)と属性情報L(k)とを含む。k(=0, 1, …, K)は学習音声の番号である。t(=0, 1, …, Tk-1)はサンプル時間である。Tkはk番目の学習音声の時間長である。s(k, t)はサンプリング周波数をfs[Hz]とした場合のサンプル時間tにおけるk番目の学習音声の振幅である。L(k)はk番目の学習音声の話者属性を示す数値である。例えば、L(k)=0は「成人男性」、L(k)=1は「成人女性」、L(k)=2は「子ども」のように表現される。
図3を参照して、第一実施形態の学習装置および推定装置が実行する話者属性推定方法の処理手続きを説明する。
ステップS1において、学習装置の特徴量抽出部11は、学習データ記憶部10に記憶された学習音声s(k, t)を読み出し、その学習音声s(k, t)からメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficient)の音響特徴量系列c(k, i, j)を抽出して出力する。i(=0, 1, 2, …, Ik-1)はフレーム番号、Ikはk番目の学習音声のフレーム数、j(=0, 1, 2, …, Jk-1)は音響特徴量の次元を示す番号、Jkはk番目の学習音声の音響特徴量の次元数である。メル周波数ケプストラム係数は公知の方法で抽出を行えばよい。例えば、12次元とそのΔ特徴量、Δパワー特徴量を利用するとよい。分析フレーム幅は10ミリ秒程度がよい。抽出した音響特徴量系列c(k, i, j)は属性ラベル作成部12および深層学習部13へ送られる。
ステップS2において、学習装置の属性ラベル作成部12は、学習データ記憶部10に記憶された属性情報L(k)を読み出し、学習音声のフレーム数Ikの属性ラベル系列l(k, i)を作成する。具体的には、全フレーム(i=0, 1, …, Ik-1)について、l(k, i)=L(k)を設定する。作成した属性ラベル系列l(k, i)は深層学習部13へ送られる。
ステップS3において、学習装置の深層学習部13は、特徴量抽出部11から受け取った学習音声s(k, t)の音響特徴量系列c(k, i, j)と、属性ラベル作成部12から受け取った学習音声s(k, t)の属性ラベル系列l(k, i)とを用いて、式(1)となるDNNモデルλを学習する。
DNNモデルは、画像認識や音声認識で使われており、細かい特徴を学習することができる。p(m|λ, c(k, i, j))は、特徴量c(k, i, j)が属性m(=0, 1, …, M)に属する事後確率である。属性mは、例えば、m=0は「成人男性」、m=1は「成人女性」、m=2は「子ども」等とする。DNNモデルの学習は、全音声(k=0, 1, 2, …, K)の全フレーム(i=0, 1, 2, …, Ik-1)について、その属性ラベルl(k, i)を用いて行う。学習したDNNモデルλは、DNNモデル記憶部20に記憶する。
ステップS4において、推定装置の特徴量抽出部21は、入力された音声s'(t)からメル周波数ケプストラム係数の音響特徴量系列c'(i, j)(i=0, 1, …, I-1、j=0, 1, …, J-1、Iは入力音声のフレーム数、Jは入力音声の音響特徴量の次元数)を抽出して出力する。抽出した音響特徴量系列c'(i, j)は事後確率計算部22へ送られる。
ステップS5において、推定装置の事後確率計算部22は、特徴量抽出部21から受け取った入力音声s'(t)の音響特徴量系列c'(i, j)から、DNNモデル記憶部20に記憶されたDNNモデルλを用いて、事後確率系列q(i, m)=p(m|λ, c'(i, j))(i=0, 1, …, I-1、m=0, 1, …, M)を計算する。計算した事後確率系列q(i, m)は識別部23へ送られる。
ステップS6において、推定装置の識別部23は、事後確率計算部22から受け取った事後確率系列q(i, m)から話者属性L'を識別して出力する。話者属性の識別は、式(2)により、全フレームの事後確率の対数和を求め、最も値が高い話者属性を識別結果として出力する。
[第二実施形態]
音声対話ロボット等では、音声を入力する際にマイクに近付き過ぎたりして、振幅が振り切れているクリップ音が入力されることがある。学習データの一部にクリップ音を含む学習音声が存在すると、同じクリップ音が入力された際に、本来の属性とは違い、このクリップ音の特徴がある属性に識別されてしまうことがある。そのため、第二実施形態では、図4に示すように、学習データからクリッピングしたクリップ音を作成し、学習データに追加することで、クリップ音の特徴に引きずられずに本来の属性に識別することを可能とする。
第二実施形態の学習装置は、図5に示すように、学習データ記憶部10、特徴量抽出部11、属性ラベル作成部12、深層学習部13、およびDNNモデル記憶部20を第一実施形態と同様に備え、クリップ音合成部14をさらに備える。この学習装置と第一実施形態の推定装置とが、図6に示す各ステップの処理を行うことにより第二実施形態の話者属性推定方法が実現される。
図6を参照して、第二実施形態の話者属性推定方法の処理手続きを説明する。以下では、上述の第一実施形態との相違点を中心に説明する。
ステップS7において、学習装置のクリップ音合成部14は、学習データ記憶部10に記憶された学習音声s(k, t)を読み出し、その学習音声s(k, t)の振幅を増幅し、所定の閾値を超えた振幅をその閾値に丸めてクリップ音S(k, t)を合成する。合成したクリップ音S(k, t)は学習データ記憶部10に記憶する。
具体的には、クリップ音合成部14は、以下のようにしてクリップ音を合成する。
1.学習音声s(k, t)の振幅をa倍した音声S(k, t)=a*s(k, t)(k=0, 1, …, K、t=0, 1, …, Tk-1)を作成する。
2.音声S(k, t)のうち所定の閾値±h(h>0)を超える値を丸めるために、全学習音声(k=0, 1, …, K)の全サンプル(t=0, 1, …, Tk-1)について、以下のように設定する。
(ア)S(k, t)>hの場合、S(k, t)=hとする
(イ)S(k, t)<-hの場合、S(k, t)=-hとする。
aの値は複数の値を設定して実施するとよい。例えば、a=1, 3, 6等で実施するとよい。このようにして合成したクリップ音は、図4に示すような波形を示す。
学習装置の以降の処理では、追加したクリップ音S(k, t)を学習音声s(k, t)と同様に利用する。これにより、推定装置の入力音声s'(t)がクリップした音声であっても、話者属性を正しく推定することが可能となる。
[第三実施形態]
話者属性は無声音には特徴が現れにくいため、無声音の影響により識別を誤ることがある。また、音声を発声していない区間を含む場合は該当部分の周囲の雑音を学習データに含んでしまうことにより誤識別をすることがある。そのため、属性識別は有声音に限って行うとよい。そこで、第三実施形態では、学習データの無声音または無音の部分にラベルデータを与えて、無声音または無音の確率が高い場合は識別の対象から除外することで、識別率を高くすることを可能とする。
第三実施形態の学習装置は、図7に示すように、学習データ記憶部10、特徴量抽出部11、属性ラベル作成部12、深層学習部13、クリップ音合成部14、およびDNNモデル記憶部20を第二実施形態と同様に備え、有声無声判定部15をさらに備える。この学習装置と第一実施形態の推定装置とが、図8に示す各ステップの処理を行うことにより第三実施形態の話者属性推定方法が実現される。
図8を参照して、第三実施形態の話者属性推定方法の処理手続きを説明する。以下では、上述の第二実施形態との相違点を中心に説明する。
ステップS8において、学習装置の有声無声判定部15は、学習データ記憶部10に記憶された学習音声s(k, t)を読み出し、その学習音声s(k, t)の有声無声区間を判定し、有声無声情報v(k, i)を生成する。生成した有声無声情報v(k, i)はクリップ音合成部14により合成されたクリップ音S(k, t)と関連付けて学習データ記憶部10に記憶する。有声無声情報v(k, i)は、例えば、k番目の学習音声s(k, t)のi番目のフレームが有声の場合はv(k, i)=1とし、無声の場合はv(k, i)=0とする。有声無声の判定は、特徴量抽出部11と同様のフレーム幅で行い、基本周波数抽出の一般的な方法で行えばよい。
ステップS2において、学習装置の属性ラベル作成部12は、学習データ記憶部10に記憶された属性情報L(k)および有声無声情報v(k, i)を読み出し、学習音声のフレーム数分の属性ラベル系列l(k, i)を作成する。具体的には、全フレーム(i=0, 1, …, Ik-1)について、有声部(v(k, i)=1の場合)はl(k, i)=L(k)を設定し、無声部(v(k, i)=0の場合)はl(k, i)=-1を設定する。
ステップS3において、学習装置の深層学習部13は、第一実施形態と同様にして、DNNモデルλを学習する。第三実施形態のDNNモデルλは、無声部(l(k, i)=-1)を属性m=-1として、特徴量c(k, i, j)が属性m(=-1, 0, 1, …, M)に属する事後確率となる。
ステップS5において、推定装置の事後確率計算部22は、第一実施形態と同様にして、事後確率系列q(i, m)(i=0, 1, …, I-1、m=-1, 0, 1, …, M)を計算する。
ステップS6において、推定装置の識別部23は、事後確率計算部22から受け取った事後確率系列q(i, m)から話者属性L'を識別して出力する。第三実施形態の識別部23は、無声部を属性m=-1として学習しているため、式(3)に示す関数f(i, m)を用いて有声部のみに限定して識別を行う。
[第四実施形態]
第四実施形態では、学習時の事後確率系列と推定時の事後確率系列との分布から識別結果の確からしさを示す信頼度を求める。信頼度は、0以上1以下の数値であり、1に近づけば近づくほど識別結果L'が確かな結果と言うことができる。信頼度を利用することで、例えば、音声対話ロボット等が信頼度に応じて適切な応答を選択するなどを行うことが可能となる。
第四実施形態の学習装置は、図9に示すように、学習データ記憶部10、特徴量抽出部11、属性ラベル作成部12、深層学習部13、およびDNNモデル記憶部20を第一実施形態と同様に備え、学習データ事後確率計算部16、信頼度パラメータ学習部17、および信頼度パラメータ記憶部30をさらに備える。第四実施形態の推定装置は、図10に示すように、DNNモデル記憶部20、特徴量抽出部21、事後確率計算部22、および識別部23を第一実施形態と同様に備え、信頼度計算部24および信頼度パラメータ記憶部30をさらに備える。この学習装置および推定装置が、図11に示す各ステップの処理を行うことにより第四実施形態の話者属性推定方法が実現される。
図9では第一実施形態の学習装置に対して第四実施形態の考え方を適用した構成を示したが、第四実施形態の考え方は第二実施形態および第三実施形態に適用することもできる。すなわち、第四実施形態の学習装置は、クリップ音合成部14および有声無声判定部15の一方もしくは両方を備えていてもよい。
図11を参照して、第四実施形態の話者属性推定方法の処理手続きを説明する。以下では、上述の第一実施形態との相違点を中心に説明する。
ステップS9において、学習装置の学習データ事後確率計算部16は、特徴量抽出部11が学習音声s(k, t)から抽出した音響特徴量系列c(k, i, j)から、深層学習部13が学習したDNNモデルλを用いて、事後確率系列q'(k, i, m)=p(m|λ, c(k, i, j))(k=0, 1, …, K、i=0, 1, …, Ik-1、m=0, 1, …, M)を計算する。計算した事後確率系列q'(k, i, m)は信頼度パラメータ学習部17へ送られる。
ステップS10において、学習装置の信頼度パラメータ学習部17は、学習データ事後確率計算部16から受け取った事後確率系列q'(k, i, m)および属性ラベル作成部12が作成した属性ラベル系列l(k, i)から、信頼度を求めるための事後確率系列の平均μ(m)、標準偏差σ(m)、フレーム数n(m)を計算する。以下、これらを総称して信頼度パラメータと呼ぶ。計算した信頼度パラメータμ(m), σ(m), n(m)は信頼度パラメータ記憶部30に記憶する。
具体的には、信頼度パラメータ学習部17は、以下のようにして信頼度パラメータμ(m), σ(m), n(m)を求める。
1.式(4)により、フレーム数n(m)および事後確率合計値s(m)を求める。
2.全属性(m=0, 1, …, M)について、平均μ(m)=s(m)/n(m)を求める。
3.全属性(m=0, 1, …, M)について、式(5)により、平均からの差分合計値d(m)を求める。
4.全属性(m=0, 1, …, M)について、式(6)により、標準偏差σ(m)を求める。
ステップS11において、推定装置の信頼度計算部24は、事後確率計算部22が出力する事後確率系列q(i, m)および識別部23が出力する話者属性L'から、信頼度パラメータ記憶部30に記憶された信頼度パラメータμ(m), σ(m), n(m)を用いて、信頼度rを求める。求めた信頼度rは識別結果L'と共に出力する。信頼度rは、事後確率系列q(i, m)について属性m=L'としたときの事後確率系列q(i, L')の平均μ'、標準偏差σ'、フレーム数n'にて求められる分布と、事前に求めた信頼度パラメータμ(m), σ(m), n(m)に基づく分布とに基づき求めることができる。
具体的には、信頼度計算部24は、以下のようにして信頼度rを求める。
1.式(7)により、フレーム数n'および事後確率合計値s'を求める。
2.平均μ'=s'/n'を求める。
3.式(8)により、平均からの差分合計値d'を求める。
4.式(9)により、標準偏差σ'を求める。
5.式(10)により、統計量tを求める。
6.t>0であり、自由度n'+n(L')-2のt分布T(x)において、上記5で求めた統計量tを用いて、式(11)の信頼度rを求める。
信頼度計算部24は、信頼度パラメータμ(m), σ(m), n(m)を使わずに、以下のようにして信頼度rを求めることもできる。このときの信頼度は、各属性の事後確率系列の平均・分散値から、求める属性の平均値が有意に高いか否かを判定するための値である。この場合、学習装置は、学習データ事後確率計算部16、信頼度パラメータ学習部17、および信頼度パラメータ記憶部30を備えなくてもよい。また、推定装置は、信頼度パラメータ記憶部30を備えなくてもよい。
具体的には、信頼度計算部24は、以下のようにして信頼度rを求める。
1.式(12)により、フレーム数n'と各属性の事後確率合計値s'(m)を求める。
2.各属性の平均μ'(m)=s'(m)/n'を求める。
3.式(13)により、各属性の平均からの差分合計値d'(m)を求める。
4.式(14)により、各属性の標準偏差σ'(m)を求める。
5.式(15)により、識別された話者属性L'と他の話者属性との統計量t(m)を求める。
6.t(m)>0であり、自由度2n'-2のt(m)分布Tm(x)において、上記5で求めた統計量t(m)を用いて、式(16)の信頼度rの平均値を求める。
1-rはt検定における事後確率が平均μとなる確率を表す。例えば、1-r<0.05の場合、5%の有意水準にて事前に求めた属性m以外に属する話者属性における平均の事後確率μ(m)より有意に事後確率系列μが高いと言える。この発生する確率を1から引いた値を信頼度として、識別結果L'の確からしさとして使うことが可能である。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10 学習データ記憶部
11 特徴量抽出部
12 属性ラベル作成部
13 深層学習部
14 クリップ音合成部
15 有声無声判定部
16 学習データ事後確率計算部
17 信頼度パラメータ学習部
20 DNNモデル記憶部
21 特徴量抽出部
22 事後確率計算部
23 識別部
24 信頼度計算部
30 信頼度パラメータ記憶部

Claims (13)

  1. 学習装置と推定装置とを含む話者属性推定システムであって、
    上記学習装置は、
    学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
    上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成するクリップ音合成部と、
    上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
    を含み、
    上記推定装置は、
    入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
    話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
    を含む話者属性推定システム。
  2. 請求項に記載の話者属性推定システムであって、
    上記学習装置は、
    上記学習音声のフレーム毎に有声か無声かを示す有声無声情報を生成する有声無声判定部をさらに含み、
    上記属性ラベル作成部は、上記有声無声情報に基づいて、有声のフレームは上記属性情報の値を設定し、無声のフレームは無声であることを表す値を設定して上記属性ラベル系列を作成するものである、
    話者属性推定システム。
  3. 学習装置と推定装置とを含む話者属性推定システムであって、
    上記学習装置は、
    学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
    上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
    上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する学習データ事後確率計算部と、
    上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算する信頼度パラメータ学習部と、
    を含み、
    上記推定装置は、
    入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
    話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
    上記信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
    を含む話者属性推定システム。
  4. 学習装置と推定装置とを含む話者属性推定システムであって、
    上記学習装置は、
    学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
    上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
    を含み、
    上記推定装置は、
    入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
    話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
    識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
    を含む話者属性推定システム。
  5. 学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
    上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成するクリップ音合成部と、
    上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
    を含む学習装置。
  6. 学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
    上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
    上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する学習データ事後確率計算部と、
    上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算する信頼度パラメータ学習部と、
    を含む学習装置。
  7. 入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
    話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
    を含み、
    上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成し、上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものである、
    推定装置。
  8. 入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
    話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
    予め計算した信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
    を含み、
    上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものであり、
    上記信頼度パラメータは、上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いて計算したフレーム毎の事後確率系列の分布を表すものである、
    推定装置。
  9. 入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
    話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
    識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
    を含み、
    上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものである、
    推定装置。
  10. 属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
    クリップ音合成部が、上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成し、
    深層学習部が、上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
    事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
    識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する、
    話者属性推定方法。
  11. 属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
    深層学習部が、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
    学習データ事後確率計算部が、上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
    信頼度パラメータ学習部が、上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算し、
    事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
    識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別し、
    信頼度計算部が、上記信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する、
    話者属性推定方法。
  12. 属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
    深層学習部が、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
    事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
    識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別し、
    信頼度計算部が、識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する、
    話者属性推定方法。
  13. 請求項5もしくは6に記載の学習装置または請求項7から9のいずれかに記載の推定装置としてコンピュータを機能させるためのプログラム。
JP2016222351A 2016-11-15 2016-11-15 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム Active JP6553015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016222351A JP6553015B2 (ja) 2016-11-15 2016-11-15 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222351A JP6553015B2 (ja) 2016-11-15 2016-11-15 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018081169A JP2018081169A (ja) 2018-05-24
JP6553015B2 true JP6553015B2 (ja) 2019-07-31

Family

ID=62198894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222351A Active JP6553015B2 (ja) 2016-11-15 2016-11-15 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6553015B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
CN111383642B (zh) * 2018-12-27 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
US12106770B2 (en) 2019-07-04 2024-10-01 Nec Corporation Sound model generation device, sound model generation method, and recording medium
CN112349298A (zh) * 2019-08-09 2021-02-09 阿里巴巴集团控股有限公司 声音事件识别方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质

Also Published As

Publication number Publication date
JP2018081169A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2019017462A1 (ja) 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP2017097188A (ja) 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
JP2017083621A (ja) 合成音声品質評価装置、スペクトルパラメータ推定器学習装置、合成音声品質評価方法、スペクトルパラメータ推定器学習方法、プログラム
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP2008129527A (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2017187642A (ja) 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP5342621B2 (ja) 音響モデル生成装置、音響モデル生成方法、プログラム
JP6804639B2 (ja) 属性識別装置、属性識別方法、プログラム
US20220122584A1 (en) Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP7218810B2 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
JP2015028579A (ja) モデル処理装置、分析装置、それらの方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190423

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190703

R150 Certificate of patent or registration of utility model

Ref document number: 6553015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150