[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2014157323A - 音声認識装置、音響モデル学習装置、その方法及びプログラム - Google Patents

音声認識装置、音響モデル学習装置、その方法及びプログラム Download PDF

Info

Publication number
JP2014157323A
JP2014157323A JP2013028984A JP2013028984A JP2014157323A JP 2014157323 A JP2014157323 A JP 2014157323A JP 2013028984 A JP2013028984 A JP 2013028984A JP 2013028984 A JP2013028984 A JP 2013028984A JP 2014157323 A JP2014157323 A JP 2014157323A
Authority
JP
Japan
Prior art keywords
latent class
distribution
learning
parameter
latent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013028984A
Other languages
English (en)
Other versions
JP5982297B2 (ja
Inventor
Yotaro Kubo
陽太郎 久保
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013028984A priority Critical patent/JP5982297B2/ja
Publication of JP2014157323A publication Critical patent/JP2014157323A/ja
Application granted granted Critical
Publication of JP5982297B2 publication Critical patent/JP5982297B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の性質の異なるNN音響モデルを用いて、話者の発話様式や利用環境の音響環境の違い(雑音/残響)に素早く適応する音声認識技術を提供する。
【解決手段】音声認識装置は、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納される格納部と、入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、音声データに対する音声認識を行う。
【選択図】図4

Description

本発明は、ニューラルネットワークに基づく音響モデルを用いた音声認識技術及びその音響モデルを学習する技術に関する。
以下の説明において、テキスト中で使用する記号「^」「~」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<音声認識装置90>
音声認識装置90の処理フローを図1に、機能ブロック図を図2に示す。音声認識装置90は主に、特徴量抽出部91と単語列探索部92とからなる。特徴量抽出部91は、フレーム(音声波形から一定時間長を切り出した波形)t毎に音声信号データ(認識用音声データ)を時系列の特徴量ベクトルxtに変換する(s91)。単語列探索部92は、音響モデル格納部93に格納された音響モデルと言語モデル格納部94に格納された言語モデルとを用いて、特徴量抽出部91から出力された時系列の特徴量ベクトル(音声特徴量ベクトル)xtの音響モデルに対するスコア系列と言語モデルに対するスコアとを算出する。さらに、単語列探索部92は、これらのスコアを参照して時系列の特徴量ベクトルxtと合致する単語列を探索する(s92)。音声認識装置90は、最終的に単語列探索部92で得られた探索結果である単語列を認識結果として出力する。ここで、音響モデルと言語モデルは、学習データ等を用いて予め作成しておく。ここで、音響モデルの作成方法について説明する。
[音響モデルについて]
音響モデルは音声の持つ音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は音声認識装置の性能を大きく左右する。音声認識装置90では特徴量抽出部91を用いて、音声データを{x1,x2,…,xt,…}(xt∈RD、Rは実数の集合、tはフレーム番号またはそのフレーム番号に対応する時刻)のようなD次元の特徴量ベクトルxtの系列に変換する。通常、音声認識用音響モデルでは、各音素とこの特徴量ベクトルxtの系列の関係をLeft-to-right型の隠れマルコフモデル(Hidden Markov Model:以下「HMM」ともいう)で表現する。
これらのモデルでは時系列の特徴量ベクトルxtは、状態変数の系列{s1,s2,…,st,…}が一次のマルコフ連鎖に従って遷移し、その状態変数stに依存した確率分布からサンプル(出力)されたものとしてモデル化される。そのため、実際に音響モデルとしてメモリに記録されている情報は、状態遷移確率行列Pと、出力分布関数パラメタΛの二種類に分割することができる。ここでは状態遷移確率行列Pは既知の行列であるとし、出力分布関数パラメタΛを学習する場合の構成を説明する。
出力分布は一般的に混合ガウス分布、もしくは、ニューラルネットワーク(以下、「NN」ともいう)で表現され、Λはそれらのパラメタである。Λを混合ガウス分布で表現した音響モデルを混合ガウス分布音響モデル、ΛをNNで表現した音響モデルをNN音響モデルと呼ぶこととする。
[NN音響モデルについて]
NN音響モデルは、状態変数がstのとき、特徴量ベクトルxtが出力される確率をNNパラメタΛを用いて、以下のように定義する。
Figure 2014157323
ここで、分母のp(st)は、状態変数stの出現確率を表し、学習データ中の状態変数sの出現頻度をカウントすることによって予め計算しておくこととする。例えば、出現確率p(s)は、学習データ中の全ての状態変数の出現頻度の総和に対する各状態変数sの出現頻度の割合である。また、学習データのデータ量が十分にない場合などは一定値であると仮定してもよい。
分子のp(st|xt,Λ)は、多層パーセプトロンと呼ばれるNNの一種(非特許文献1)を用いて以下のように定義される。
Figure 2014157323
i=1,2,…,L、Lはレイヤー数、H(i)はi番目のレイヤーにあるユニットの数、h(i) j(xt;Λ)は入力に特徴量ベクトルxtが与えられたときのi番目のレイヤー内のj番目のユニットの状態を示す実数である。また、便宜上H(0)はDであるとし、h(0) j(xt;Λ)はh(0) j(xt;Λ)=xt,j、すなわち特徴量ベクトルxtのj番目の要素とする。このNN音響モデルにおいて、学習前に予め決めておくハイパーパラメタは、レイヤー数Lと、各レイヤー内のユニット数H(i)である。残りの自由変数、すなわち、結合行列
Figure 2014157323
及びバイアスベクトル
Figure 2014157323
を、以降Λ={W(i),b(i)|i}というように、NNパラメタΛで表わす。
[音響モデルの作成について]
音響モデルの作成は確率統計的手法により、与えられた学習データから得られる複数の特徴量ベクトルxtの系列X(n)の群(以下、「学習用特徴量系列群」ともいう)X={X(1),X(2),…,X(n),…}と、学習データの複数の状態変数stの系列s(n)の群(以下、「学習用状態変数系列群」ともいう)S={s(1),s(2),…,s(n),…}とから、パラメタΛを推定することにより作成される。ここでnは発話のインデックスであり、X(n)は一つの発話(例えば一文)の音響的特徴を記述した時系列であり、
Figure 2014157323
のように、複数の音声特徴量ベクトルの時系列として表わされる。同様にs(n)も、X(n)と同じ系列長を持つラベル系列であり、
Figure 2014157323
のように、複数の状態変数の時系列として表わされる。ラベル系列に関しては確率的に取り扱う場合もあるが、ここではラベル系列は既知として扱う。ただし、本発明自体はこれが確率的に与えられていてもそのまま適用可能である。
これらの学習データが与えられた上で、最適な音響モデルパラメタ^Λは、例えば以下のような学習データへの適合率F(Λ,X,S)が最大となる音響モデルパラメタΛとして定義される。
Figure 2014157323
この最適化はバックプロパゲーション法(非特許文献1参照)にて実行することができる。
[Minimum Error Linear Transformation(以下「MELT」ともいう]
高精度に音声認識を行うためには、認識対象と同一の話者の認識時と同じ環境(雑音や残響などの周囲の環境)で収録した学習データを用いて学習した音響モデルを用いることが望ましい。しかしながら、話者及び環境毎に音響モデルを作成するのは困難であるため、認識対象とは異なる話者や異なる環境で収録した学習データから学習した音響モデルを用いて音声認識を行うのが一般的である。認識対象とは異なる話者/異なる環境で収録された学習データから学習した音声認識モデルを用いたときの音声認識精度を向上させる技術として、学習済みの音響モデルを認識対象の話者及び認識時の環境に適応するよう補正する適応技術が知られている。
ニューラルネットワーク音響モデルの適応技術として、MELT(非特許文献2参照)が知られている。MELTを用いたNN音響モデルの環境適応及び/または話者適応では、ある層iに対応する結合重み行列W(i)を以下のように変換行列Γと適応前重み行列~W(i)を用いて更新する。
Figure 2014157323
この拡張は、変換行列Γが単位行列(Γ=I)のとき、従来のNNに一致する。すなわち、MELTで対象とする音響モデルのパラメタは、従来のNNパラメタΛに加えてΓを考慮したものであると考えることができる。
MELTの学習ステップでは、従来のNNと同様の学習データX,Sを用いて以下のようにNNパラメタΛを推定する。
Figure 2014157323
認識時は、予め同一認識環境または同一話者から収集した適応用データ~X、~Sを用いて、以下の最適化を実行することによって、最適な変換行列^Γを推定する。
Figure 2014157323
この最適化はNNの学習と同様、最急勾配法などを用いて実行することができる。
D. E. Ramelhart, G. E. Hinton, R. J. Williams, "Learning Representations by Back-Propagating Errors", Nature, 1986, Vol. 323, pp. 533-536. J. Trmal, J. Zelinka, L. M uller, "ON Speaker Adaptive Training of Artificial Neural Networks", Proc. Interspeech, 2010.
MELTにより話者適応/環境適応を実現するためには、十分な量の適応用データ~X、~Sの収集を行う必要がある。適応用データ~X、~Sの量を減らすための試みとして、Γの取り得る値について制約を加えることも行われているが、それらの試みでも適応用データ~X、~Sを一定量蓄積する必要がある。
実際に音声認識を使用する環境下では、適応用データ~X、~Sを予め蓄積しておくことができない場合も多く、これから認識しようとしている一発話分のデータのみを用いて高速に適応する方法に関する要求は高い。しかしながら、NN音響モデルに基づく音声認識装置では、このようなリアルタイムでの適応処理を実現する技術が知られていない。
本発明は、複数の性質の異なるNN音響モデルを用いて、話者の発話様式や利用環境の音響環境の違い(雑音/残響)に素早く適応する音声認識技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、音声認識装置は、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納される格納部と、入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、音声データに対する音声認識を行う。
上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習装置は、潜在クラス毎に異なる複数の、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタと、学習データを観測した上での潜在クラスの起こりやすさを示す潜在クラス分布とが格納される音響モデル格納部と、潜在クラス分布と、学習用音声データの状態変数の系列の群である学習用状態変数系列群と学習用音声データの特徴量の系列の群である学習用特徴量系列群とを用いて、ニューラルネットワークパラメタを更新するニューラルネットワーク学習部と、潜在クラス分布と、入力された学習用音声特徴量とを用いて、特徴量生成分布パラメタを更新する特徴量生成分布学習部と、潜在クラス分布を用いて、潜在クラス事前分布パラメタを更新する潜在クラス事前分布学習部と、ニューラルネットワークパラメタ、特徴量生成分布パラメタ、潜在クラス事前分布パラメタ、入力された学習用状態系列及び学習用音声特徴量を用いて、潜在クラス分布を更新する潜在クラス分布学習部とを含み、ニューラルネットワークパラメタ、特徴量生成分布パラメタ、潜在クラス事前分布パラメタ及び潜在クラス分布の更新が収束するまで、ニューラルネットワーク学習部、特徴量生成分布学習部、潜在クラス事前分布学習部及び潜在クラス分布学習部における処理を繰り返す。
上記の課題を解決するために、本発明の他の態様によれば、音声認識方法は、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納部に格納されているものとし、入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、音声データに対する音声認識を行う。
上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、音響モデル格納部には、潜在クラス毎に異なる複数の、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタと、学習データを観測した上での潜在クラスの起こりやすさを示す潜在クラス分布とが格納されるものとし、潜在クラス分布と、学習用音声データの状態変数の系列の群である学習用状態変数系列群と学習用音声データの特徴量の系列の群である学習用特徴量系列群とを用いて、ニューラルネットワークパラメタを更新するニューラルネットワーク学習ステップと、潜在クラス分布と、入力された学習用音声特徴量とを用いて、特徴量生成分布パラメタを更新する特徴量生成分布学習ステップと、潜在クラス分布を用いて、潜在クラス事前分布パラメタを更新する潜在クラス事前分布学習ステップと、ニューラルネットワークパラメタ、特徴量生成分布パラメタ、潜在クラス事前分布パラメタ、入力された学習用状態系列及び学習用音声特徴量を用いて、潜在クラス分布を更新する潜在クラス分布学習ステップとを含み、ニューラルネットワークパラメタ、特徴量生成分布パラメタ、潜在クラス事前分布パラメタ及び潜在クラス分布の更新が収束するまで、ニューラルネットワーク学習ステップ、特徴量生成分布学習ステップ、潜在クラス事前分布学習ステップ及び潜在クラス分布学習ステップにおける処理を繰り返す。
混合ガウス分布からなる音響モデルを用いた音声認識装置より一般に高い性能を持つと言われているNNからなる音響モデルを用いた音声認識装置において、従来不可能であった話者/環境への高速適応(適応用データを蓄積することなく、発話を処理する毎に適応処理を行うこと)が可能になるという効果を奏する。
従来技術の音声認識装置の処理フローを示す図。 従来技術の音声認識装置の機能ブロック図。 第一実施形態に係る音響モデル学習装置の処理フローを示す図。 第一実施形態に係る音響モデル学習装置の構成例を示す図。 第一実施形態に係る音声認識装置の処理フローを示す図。 第一実施形態に係る音声認識装置の構成例を示す図。 第一実施形態に係る音声認識装置のシミュレーション結果を示す図。
以下、本発明の実施形態について説明する。
<第一実施形態>
<第一実施形態のポイント>
[本実施形態において用いるNN音響モデル]
環境や話者の変化を積極的にモデルに取り入れるため、本実施形態では、状態変数系列sと特徴量系列xの結合確率分布p(x,s)をモデル化することを試みる。ここで、xは音響特徴量の系列{x1,x2,…,xt,…}に対応する確率変数であり、sは状態変数の系列{s1,s2,…,st,…}に対応するラベル系列である。従来のNN音響モデルでは、結合確率分布p(x,s)は、単一のNNパラメタΛを導入し、p(x,s|Λ)=p(x|s,Λ)p(s)のようにモデル化されていた。本実施形態では、発話に内在する潜在的な環境/話者の要因を考慮し、以下のように潜在クラスkを用いた混合モデル(以下、潜在クラスモデルと呼ぶ)として定義する。
Figure 2014157323
ここでKは予め仮定しておく潜在クラス数である。ここで、潜在クラスとは、潜在的な(直接観測できない)環境/話者の要因によって分類される同質の保有性向を持つグループのことをいう。このような潜在クラスモデルを用いた場合、結合確率は特徴生成確率p(x|k)と、状態変数確率p(s|x,k)と、潜在クラス事前確率p(k)との積であると考えることができる。ここで、時系列内の各要素の独立性を仮定し、各分布関数に異なるパラメタを導入すると、以下の表現を得る。
Figure 2014157323
ここで、Λkは潜在クラスkにおけるNNパラメタであり、Θkは潜在クラスkにおける特徴量生成分布のパラメタ(以下「特徴量生成分布パラメタ」ともいう)である。式(8)は、状態変数系列sと特徴量系列xとの結合確率分布p(x,s)を、潜在クラスk毎のNN音響モデルから算出される確率p(x,s|k,Λkk)と当該潜在クラスkの起こりやすさを示す確率p(k)との積の、全ての潜在クラスについての総和として定義することを意味する。
この潜在クラスモデルにおいて、NNを用いてp(st|xtk)を式(2')(NNパラメタΛkは潜在クラスkに依存して異なる変数をさす)のように定義する。
Figure 2014157323
確率p(xtk)を従来の多変量連続分布関数を用いて定義し、p(k)を多項分布、すなわち確率p(k)=pkを直接推定するようにパラメトライズすると、このモデルの調整可能なパラメタはNNパラメタΛk、特徴量生成分布パラメタΘk及びpkとなる。以降pkを、潜在クラスの確率を示す(全ての潜在クラスに対する各潜在クラスの起こりやすさを示す)という点から、潜在クラス事前分布または潜在クラス事前分布パラメタと呼ぶ。なお、後述する「潜在クラス分布qn,k」は、対応するn番目のデータを観測した上での潜在クラスkの起こりやすさを示すものであり、「潜在クラス事前分布pk」とは異なる分布を指す。
確率p(xtk)として使われる多変量連続分布としては、以下の式で示される正規分布や混合正規分布がある。
Figure 2014157323
ここで
Figure 2014157323
であり、μは潜在クラスkに属する特徴生成確率p(x|k)の平均ベクトル、Vkは潜在クラスkに属する特徴生成確率p(x|k)の共分散行列を表わす。以降では、潜在クラスkを考慮したパラメタの推定法について説明する。
<潜在クラスkを考慮したパラメタの推定法>
定義した潜在クラスモデルは混合分布なので、既存のEMアルゴリズムを用いて全てのパラメタ(Θkk,pk)を推定することができる(参考文献1参照)。
[参考文献1] A. P. Dempster, N. M. Laird, D. B. Rubin, “Maximum Likelihood from Incomplete Data via the EM Algorithm”, Journal of Royal Statistical Society, 1977, Series B, Vol. 39, No. 1, pp.1-38.
(混合モデルとEMアルゴリズム)
以下、EMアルゴリズムを用いてパラメタを推定する方法について概略を説明する。
パラメタΘを用いて変数Aについての確率分布p(A|Θ)を定義することを考える。いくつかの潜在クラスkにおける変数Aの確率分布を、潜在クラスk毎に定義したパラメタθkを用いて定義し(確率分布p(A|k,θk))、kについて周辺化することによって確率分布p(A|Θ)を定義することが可能である(式(10)参照)。
Figure 2014157323
この場合、パラメタΘは
Figure 2014157323
となる。
このように複雑な確率分布をモデル化可能な複数の小さなクラスでモデル化することによって表現力を上げる手法を混合モデル化という。
混合モデルの学習として、学習データにおける対数尤度を最大にする手法がとられるのが一般的である。学習データA(1),A(2),…,A(i),…を利用し、最適なパラメタを以下のようにおくことができる。
Figure 2014157323
混合モデルの学習には、EMアルゴリズムという手法が用いられるのが一般的である(参考文献1参照)。EMアルゴリズムではJensenの不等式と、占有度パラメタqi,kk qi,k=1)を用いて以下のように下界を導出する。
Figure 2014157323
この不等式はqi,k=p(k|A(i),Θ)の時に等号が成立するため、qi,kを逐次現在の推定パラメタΘ’から推定しながら下界を最大化するパラメタΘを推定していくことによって、EMアルゴリズムを構成することができる。すなわちEMアルゴリズムは以下の2ステップを繰り返すことにより実行される。
E-step:与えられたパラメタΘ’からqi,k=p(k|A(i),Θ’)を推定する。
M-step:得られたqi,kを上式(12)に代入し、Q(Θ;qi,k)を最大化するΘを求め、Θ’に代入する。
なお、EMアルゴリズムのM-stepは必ずしもQ(Θ;qi,k)を最大化する厳密解を求める必要はなく、必要に応じて数値解で代用してもよい。
<本実施形態におけるパラメタの推定>
EMアルゴリズムでは潜在クラス分布の推定値(式(12)におけるqi,k)を算出する必要があるが、本実施形態のモデルの場合、発話n毎に潜在クラスkがあり、潜在クラスkが与えられた上での観測値の確率分布(式(8)のp(x,s|k,Λkk)のように表わされるため、潜在クラス分布の推定値qn,kは各パラメタの推定値Λk,Θk’,pk’を用いて以下のように表わされる。
Figure 2014157323
本実施形態のモデルの場合、潜在クラス分布の推定値qn,kが定まった上での下界(式(12)におけるQ(Θ;qi,k))の最適化は以下のように書くことができる。
Figure 2014157323
この最適化は変数を共有しない複数の項の和の最適化であるため、変数毎に分解して最適化を解くことで最適値が求められる。すなわち式(14)の最適化は以下の3×K個の最適化問題に分解される。
Figure 2014157323
ここで、式(15)のp(st (n)|xt (n)k)は、音響モデルΛkとn番目の学習データのt番目のフレームの特徴量ベクトルxt (n)を条件とする状態変数st (n)の出力確率であり、音響モデルΛkと特徴量ベクトルxt (n)に対する状態変数st (n)の正解確率と捉えることができる。また、式(15)の潜在クラス分布の推定値qn,kはn番目の学習データにおける潜在クラスkの重みと捉えることができる。式(15)は、全ての学習データ及び全ての潜在クラスについての、学習データ毎の状態変数系列の正解確率と、その学習データにおける潜在クラスkの重みqn,kとの積の総和が最大となるようにNNパラメタΛkを更新することを意味する。
式(16)は、全ての学習データ及び全ての潜在クラスについて、特徴量生成分布パラメタΘkで示される確率分布から特徴量ベクトルxt (n)の系列{x1 (n),x2 (n),…,xt (n),…}がサンプル(出力)される確率と、その学習データにおける潜在クラスkの重みqn,kとの積の総和が最大となるように生成モデルパラメタΘkを更新することを意味する。
式(17)は、推定された潜在クラス分布qn,kに最も近い潜在クラス事前分布pkを最適化することを意味する。
潜在クラス事前分布pkに関する最適化(式(17))は、
Figure 2014157323
に最適解が存在することが知られている。つまり、潜在クラス事前分布pkは、全ての潜在クラスの潜在クラス分布の総和に対する各潜在クラスの潜在クラス分布の割合として求めることができる。
また、特徴量生成分布パラメタΘkの最適化(式(16))に関しても、正規分布のような簡単な分布であれば最適解が解析的に導出できることが知られている。
しかし、NNパラメタΛkに関する最適化(式(15))に関してはNNの特性上、最適解を解析的に導出することは、ごく一部の場合を除いてできない。そこでNNパラメタΛkの最適化に関してはバックプロパゲーション法(非特許文献1参照)を用いて数値的に解く必要がある。
これらを踏まえて具体的にEMアルゴリズムを構成するには、学習用特徴量系列群X={X(1),X(2) ,…,X(n) ,…}と学習用状態変数系列群S={s(1) ,s(2) ,…,s(n) ,…}、パラメタの推定値
Figure 2014157323
を用いて、以下のステップを繰り返すことによって最適化を行う。
E-step(1):全てのk,n及びtに対し、式(9')に従って、p(xt (n)k’)の計算を行う。
Figure 2014157323
E-step(2):全てのk,n及びtに対し、式(2')に従って、p(st (n)|xt (n)k’)の計算を行う。
Figure 2014157323
E-step(3):全てのk,nに対し、式(13)に従って、潜在クラス分布qn,kの計算を行う。
Figure 2014157323
M-step(1):得られた潜在クラス分布qn,kを用い最適化(式(15))をバックプロパゲーション法(非特許文献1参照)によって実行する。
Figure 2014157323
M-step(2):得られた潜在クラス分布qn,kを用い最適化(式(16))を特徴量生成分布に応じた方法で実行する。
Figure 2014157323
M-step(3):得られた潜在クラス分布qn,kを用い、潜在クラス事前分布pk
Figure 2014157323
のように更新する。
一連の処理は、潜在クラス分布qn,kに以下に示すViterbi近似を導入することによって高速化可能である。
Viterbi近似では潜在クラス分布qn,kの計算として、式(13)ではなく、以下の近似式を用いる。
Figure 2014157323
ここでδi,jはクロネッカのデルタであり、i=jの時のみ1、他の場合0となる変数である。この近似を用いることで、潜在クラス分布qn,kの多くの要素がゼロとなるため、実質の計算時間を大幅に削減することができる。
<音響モデル学習装置100>
図3に第一実施形態に係る音響モデル学習装置100の処理フローを、図4にその構成例を示す。
音響モデル学習装置100は、音響モデル格納部110、音響モデル学習部120、潜在クラス分布学習部130及び反復制御部140を含む。音響モデル学習装置100は、学習用特徴量系列群X及び学習用状態変数系列群Sを受け取り、これらのデータを用いて、潜在クラスkの異なるK個のNN音響モデルを学習し、出力する。
<音響モデル格納部110>
音響モデル格納部110には、NN音響モデルとして、潜在クラスk毎の、NNパラメタΛk、特徴量生成分布パラメタΘkと、潜在クラス事前分布パラメタpkと、潜在クラス分布qn,kとが格納される。
音響モデル学習装置100は、各パラメタの学習に先立ち、NNパラメタΛkと潜在クラス分布qn,kとを初期化し(s101)、その初期値を音響モデル格納部110に格納しておく。
潜在クラス分布qn,kの初期値は乱数を代入する。Σk qn,k=1、qn,k>0を満たすような乱数であればなんでもよい。例えば、正整数{1,…,K}から一様無作為に選んだrnを用いてqn,kn,rn(ただし、下付文字rnはrnを表す)として初期化してもよい。なお、潜在クラス分布の初期化処理を省略し、潜在クラス分布qn,kに予め適当な値を設定して音響モデル格納部110に格納しておき、その値を初期値として利用する構成としてもよい。このように、潜在クラス分布qn,kの初期値として、異なる値を設定することで、同一の学習データに対して潜在クラスk毎に性質の異なるNN音響モデルを学習することができる。
NNパラメタΛkの初期値としては何を与えてもよいが、例えば、全学習データを用いて上述の従来のNN音響モデルの作成法で学習したNNパラメタΛを、全てのkについてのNNパラメタΛkとする。この学習は、後述のNN学習部121において式(15)をqn,k=1の設定で行うことによって実行できる。また、結果は音響モデル格納部110に格納される。
Figure 2014157323
<音響モデル学習部120>
音響モデル学習部120は、NN学習部121と、特徴量生成分布学習部122と、潜在クラス事前分布学習部123とを含む。音響モデル学習部120は、学習用状態変数系列群S={s(1),s(2),…,s(n),…}と学習用特徴量系列群X={X(1),X(2),…,X(n),…}から、それぞれNNパラメタΛk、特徴量生成分布パラメタΘk及び潜在クラス事前分布パラメタpkを学習する。NN学習部121、特徴量生成分布学習部122及び潜在クラス事前分布学習部123の処理は、どの順番で行っても問題ない。
(NN学習部121)
NN学習部121は、音響モデル格納部110から読みだした潜在クラス分布qn,kと、入力された学習用状態変数系列群Sと学習用特徴量系列群Xとを用いて、式(15)によりNNパラメタΛkを学習し(s102)、音響モデル格納部110に格納されたNNパラメタΛkを更新する。
Figure 2014157323
例えば、上述したM-step(1)を実行することに相当する。なお、M-Step(1)のバックプロパゲーション法による反復処理は、所定回数繰り返した段階で更新処理を終了するものとする。
(特徴量生成分布学習部122)
特徴量生成分布学習部122は、音響モデル格納部110から読みだした潜在クラス分布qn,kと、入力された学習用特徴量系列群Xとを用いて、式(16)を満たす特徴量生成分布パラメタΘ’kを学習し(s103)、音響モデル格納部110に格納された特徴量生成分布パラメタΘkを更新する。
Figure 2014157323
(潜在クラス事前分布学習部123)
潜在クラス事前分布学習部123は、音響モデル格納部110から読みだした潜在クラス分布qn,kを用いて、式(17’)により潜在クラス事前分布パラメタpkを学習し(s104)、音響モデル格納部110に格納された潜在クラス事前分布パラメタpkを更新する。
Figure 2014157323
<潜在クラス分布学習部130>
潜在クラス分布学習部130は、音響モデル学習部120で更新された各パラメタ(NNパラメタΛk、特徴量生成分布パラメタΘk、潜在クラス事前分布パラメタpk)と、入力された学習用状態変数系列群S及び学習用特徴量系列群Xを用いて、式(13)により、潜在クラス分布qn,kを学習し(s105)、音響モデル格納部120に格納された潜在クラス分布qn,kを更新する。
Figure 2014157323
なお、式(13)中に登場する確率p(s(n) t|x(n) tt’)や確率p(x(n) tk')として、NN学習部121や特徴量生成分布学習部122で求めたものを援用してもよい。
<反復制御部140>
反復制御部140は、更新処理が収束したか否か判定し(s106)、収束していたら学習用状態変数系列群S及び学習用特徴量系列群Xに対する更新処理を終了する。例えば、実行時間を計測しておき、所定時間に到達したら収束したと判定してもよいし、音響モデル学習部120や潜在クラス分布学習部130における更新回数をカウントしておき、所定回数に到達したら収束したと判定してもよい。収束したと判定されなければ、音響モデル学習部120及び潜在クラス分布学習部130に処理を繰り返すように制御信号を出力する。
<効果>
このような構成により、同一の学習データから複数の性質の異なるNN音響モデルを学習することができる。
<音声認識の原理>
音声認識装置200は、潜在クラスk毎に異なる複数のNN音響モデルを具備する点が従来の音声認識装置とは異なる。潜在クラスk毎に異なる複数のNN音響モデルは、音響モデル学習装置100により構築することができる。音声認識装置200は、潜在クラスk毎に異なる複数のNN音響モデルを使い分けて音声認識を行う。
これまでも、複数の混合ガウス分布の音響モデルがある際にそれらを使いわけて音声認識精度を高める手法については、(1)システムコンビネーションによる手法(参考文献2参照)、(2)潜在クラス事前分布pkの再推定による手法、(3)モデル選択による手法等が提案されている。
[参考文献2]G. Evermann, P. Woodland, "Posterior probability decoding, confidence estimation and system combination", Proc. NIST Speech Transcription Workshop, 2000
しかしながら、複数のNN音響モデルがあり、これらを使い分ける技術は知られていなかった。
以下では「モデル選択による手法」を複数のNN音響モデルに応用した場合の実施形態を解説するが、本実施形態の特徴は、潜在クラスが異なる複数の音響モデルを利用して音声認識を行う構成にあり、音声認識の具体処理部分はどのように実現されてもよい。例えば、システムコンビネーションや潜在クラス分布の際推定による手法を応用した実施形態とすることも可能である。
つまり、音声認識装置200は、入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、言語モデルと潜在クラス毎に異なる複数のNN音響モデルとに基づいて、音声データに対する音声認識を行う。その重みの推定方法や、重みを利用したNN音響モデルの処理方法については様々な方法が考えられる。
モデル選択による手法では入力される音声データに対応すると考えられる潜在クラスkを最初に推定し、潜在クラスkに対応する音響モデルのみを使って音声認識を行う。よって、選択したNN音響モデルに対する重みを1と推定し、他のNN音響モデルに対する重みを0と推定していると考えられる。なお、学習データに含まれない特徴量系列xに対する潜在クラスの事後分布は、以下のように全ての可能な状態変数系列s'についての総和(Σs')で表現する必要がある。
Figure 2014157323
一般に、この総和は簡単には計算できないので、本実施形態では、1-best近似を用いた。1-best近似では、まず最尤となる最適状態変数系列^skを潜在クラスk毎に一つずつ、以下のように計算する。
Figure 2014157323
このようにして求めた最適状態変数系列^skを用いて、潜在クラスの事後分布を以下のように近似する。
Figure 2014157323
ここで、αとβはモデル合成のための調整項目(スケールファクタ)であり、予め値を設定しておくものとする。
この近似を用いた上で入力音声Xに対応する潜在クラス^kを以下のように求める。
Figure 2014157323
そして、従来の音声認識処理を潜在クラス^kに対応する音響モデルパラメタ^Λkを用いて実行する。一発話毎に、潜在クラス^kを推定することで、各発話の環境や話者の特性に応じた潜在クラスを考慮した認識が可能となる。
<音声認識装置200>
以上の理論に基づいて構成される音声認識装置200の実施形態を説明する。図5に本実施形態に係る音声認識装置200の処理フローを、図6にその構成例を示す。
音声認識装置200は、特徴量抽出部210、最適状態変数系列推定部220、最適潜在クラス推定部230、単語列探索部240、音響モデル格納部250及び言語モデル格納部260を含む。
音声認識装置200は、認識用の音声データを受け取り、その音声データに対して音声認識を行い、認識結果の単語列を出力する。
<音響モデル格納部250及び言語モデル格納部260>
音響モデル格納部250には、音響モデル学習装置100で学習した潜在クラスkの異なるK個のNN音響モデル(Λtk,pk,qn,k)が格納されている。また、言語モデル格納部260には、言語モデルが格納されている。なお、言語モデルは既存の技術に基づくものを用いればよい。
<特徴量抽出部210>
特徴量抽出部210は、入力された音声データを受け取り、音声データから特徴量ベクトルxtを抽出し(s201)、出力する。特徴量抽出として、既存の技術を用いることができる。
<最適状態変数系列推定部220>
最適状態変数系列推定部220は、特徴量抽出部210で抽出した複数の特徴量ベクトルxtの系列X(n)の群(以下、「認識用特徴量系列群」ともいう)Xの一部(例えば、一発話に対する複数の特徴量ベクトルxt (n)の系列X(n))、及び音響モデル格納部250に格納された潜在クラス毎の潜在クラス事前分布パラメタpk、NNパラメタΛk、特徴量生成分布パラメタΘkを用いて、式(20a)を計算して、K個の最適状態変数系列(^sk)を推定し(s202)、最適潜在クラス推定部230に渡す。
Figure 2014157323
<最適潜在クラス推定部230>
最適潜在クラス推定部230は、認識用特徴量系列群Xの一部(例えばX(n))と、最適状態変数系列推定部220で推定した最適状態系列^skと、音響モデル格納部250に格納された潜在クラス事前分布パラメタpk、NNパラメタΛk、特徴量生成分布パラメタΘkを用いて、式(21)及び式(22)により、認識用特徴量系列群Xの一部に対する最適潜在クラス^kを選択し(s203)、単語列探索部240に出力する。
Figure 2014157323
<単語列探索部240>
単語列探索部240は、従来の音声認識器と同様に言語モデル格納部260に格納された言語モデルと、音響モデル格納部250に格納された音響モデルと、認識用特徴量系列群Xとを用いて、認識用音声データ(より詳しくいうと、認識用特徴量系列群X)にマッチする単語列を探索し(s204)、探索結果である単語列を出力する。ただし、従来の音声認識装置90における単語列探索部92とは異なり、音響モデルとして、音響モデル格納部250に格納された複数のNN音響モデルのうち最適潜在クラス推定部230で選択された最適潜在クラス^kに対応するNNパラメタΛ^kを用いる。その際、発話n毎に最適潜在クラス^kを推定し、用いるNNパラメタΛ^kを変更することで、話者/環境への高速適応が可能になる。
<シミュレーション結果>
図7は、第一実施形態に係る音声認識装置200の音声認識のシミュレーション結果を表す。シミュレーションに用いるコーパスはTIMITを採用した。学習セットと評価セットの発話数はそれぞれ3、696発話と392発話である。潜在クラスの数Kは2で、NNの隠れユニット数H(i)は1024を使用した。特徴量生成分布は多変量ガウス分布を用いた。学習において、qn,kの初期値は、正整数{1,…,K}から一様無作為に選んだrnを用いてqn,kn,rnとした。モデル合成におけるスケールファクタα、β(式(21)参照)に関してはいくつかの値((1)α=1.0,β=1.0、(2)α=1.0,β=0.0、(3)α=0.0,β=1.0、)を試行した。
図7に示すように、第一実施形態に係る音声認識装置200がNN音響モデルを使いわけることによって精度向上が果たせていることを確認できた。また利用する潜在クラスの選び方については、最も近似が厳密であると考えられる設定α=1.0、β=1.0以外でも十分な性能向上が見られることを確認した。
<効果>
混合ガウス分布からなる音響モデルを用いた音声認識装置より一般に高い性能を持つと言われているNNからなる音響モデルを用いた音声認識装置において、従来不可能であった話者/環境への高速適応(適応用データを蓄積することなく、リアルタイムに適応処理を行うこと)が可能になるという効果を奏する。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
100 音響モデル学習装置
110 音響モデル格納部
120 音響モデル学習部
121 学習部
122 特徴量生成分布学習部
123 潜在クラス事前分布学習部
130 潜在クラス分布学習部
140 反復制御部
200 音声認識装置
210 特徴量抽出部
220 最適状態変数系列推定部
230 最適潜在クラス推定部
240 単語列探索部
250 音響モデル格納部
260 言語モデル格納部

Claims (12)

  1. 言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納される格納部と、
    入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、前記言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、前記音声データに対する音声認識を行う、
    音声認識装置。
  2. 請求項1記載の音声認識装置であって、
    前記格納部には、前記ニューラルネットワーク音響モデルとして、潜在クラス毎に、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタとが格納され、
    前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ及び前記特徴量生成分布パラメタを用いて、潜在クラス毎に前記音声データに対する最適状態変数系列を推定する最適状態変数系列推定部と、
    前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ及び前記最適状態変数系列を用いて、前記音声データに対する最適潜在クラスを選択する最適潜在クラス推定部と、
    前記最適潜在クラスに対応する前記ニューラルネットワークパラメタと前記言語モデルとを用いて、前記音声データに対する単語列を探索する単語列探索部とをさらに含む、
    音声認識装置。
  3. 請求項1または請求項2記載の音声認識装置であって、
    潜在クラス分布を学習データを観測した上での潜在クラスの起こりやすさを示すものとし、
    前記ニューラルネットワークパラメタは、潜在クラス分布と、入力された学習用状態変数系列群と学習用特徴量系列群とを用いて、状態変数系列の正解確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
    前記特徴量生成分布パラメタは、潜在クラス分布と、入力された学習用音声特徴量とを用いて、学習データの特徴量が出力される確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
    前記潜在クラス事前分布パラメタは、前記潜在クラス分布を用いて、全ての潜在クラスの潜在クラス分布の総和に対する各潜在クラスの潜在クラス分布の割合を求めることにより得られたものである、
    音声認識装置。
  4. 潜在クラス毎に異なる複数の、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタと、学習データを観測した上での潜在クラスの起こりやすさを示す潜在クラス分布とが格納される音響モデル格納部と、
    前記潜在クラス分布と、学習用音声データの状態変数の系列の群である学習用状態変数系列群と学習用音声データの特徴量の系列の群である学習用特徴量系列群とを用いて、前記ニューラルネットワークパラメタを更新するニューラルネットワーク学習部と、
    前記潜在クラス分布と、入力された学習用音声特徴量とを用いて、前記特徴量生成分布パラメタを更新する特徴量生成分布学習部と、
    前記潜在クラス分布を用いて、前記潜在クラス事前分布パラメタを更新する潜在クラス事前分布学習部と、
    前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ、入力された前記学習用状態系列及び前記学習用音声特徴量を用いて、前記潜在クラス分布を更新する潜在クラス分布学習部とを含み、
    前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ及び前記潜在クラス分布の更新が収束するまで、前記ニューラルネットワーク学習部、特徴量生成分布学習部、潜在クラス事前分布学習部及び潜在クラス分布学習部における処理を繰り返す、
    音響モデル学習装置。
  5. 請求項4記載の音響モデル学習装置であって、
    kを潜在クラスのインデックス、nを発話のインデックス、tをフレームのインデックス、qn,kを前記潜在クラス分布、s (n)を学習用音声データの状態変数、x (n)を学習用音声データの特徴量とし、前記ニューラルネットワーク学習部は、次式により、前記ニューラルネットワークパラメタΛを更新し、
    Figure 2014157323

    前記特徴量生成分布学習部は、次式により、前記特徴量生成分布パラメタΘを更新し、
    Figure 2014157323

    前記潜在クラス事前分布学習部は、次式により、前記潜在クラス事前分布パラメタpkを更新し、
    Figure 2014157323

    前記潜在クラス分布学習部は、次式により、前記潜在クラス分布qn,kを更新する、
    Figure 2014157323

    音響モデル学習装置。
  6. 言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納部に格納されているものとし、
    入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、前記言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、前記音声データに対する音声認識を行う、
    音声認識方法。
  7. 請求項6記載の音声認識方法であって、
    前記格納部には、前記ニューラルネットワーク音響モデルとして、潜在クラス毎に、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタとが格納されているものとし、
    前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ及び前記特徴量生成分布パラメタを用いて、潜在クラス毎に前記音声データに対する最適状態変数系列を推定する最適状態変数系列推定ステップと、
    前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ及び前記最適状態変数系列を用いて、前記音声データに対する最適潜在クラスを選択する最適潜在クラス推定ステップと、
    前記最適潜在クラスに対応する前記ニューラルネットワークパラメタと前記言語モデルとを用いて、前記音声データに対する単語列を探索する単語列探索ステップとをさらに含む、
    音声認識方法。
  8. 請求項6または請求項7記載の音声認識方法であって、
    潜在クラス分布を学習データを観測した上での潜在クラスの起こりやすさを示すものとし、
    前記ニューラルネットワークパラメタは、潜在クラス分布と、入力された学習用状態変数系列群と学習用特徴量系列群とを用いて、状態変数系列の正解確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
    前記特徴量生成分布パラメタは、潜在クラス分布と、入力された学習用音声特徴量とを用いて、学習データの特徴量が出力される確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
    前記潜在クラス事前分布パラメタは、前記潜在クラス分布を用いて、全ての潜在クラスの潜在クラス分布の総和に対する各潜在クラスの潜在クラス分布の割合を求めることにより得られたものである、
    音声認識方法。
  9. 音響モデル格納部には、潜在クラス毎に異なる複数の、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタと、学習データを観測した上での潜在クラスの起こりやすさを示す潜在クラス分布とが格納されるものとし、
    前記潜在クラス分布と、学習用音声データの状態変数の系列の群である学習用状態変数系列群と学習用音声データの特徴量の系列の群である学習用特徴量系列群とを用いて、前記ニューラルネットワークパラメタを更新するニューラルネットワーク学習ステップと、
    前記潜在クラス分布と、入力された学習用音声特徴量とを用いて、前記特徴量生成分布パラメタを更新する特徴量生成分布学習ステップと、
    前記潜在クラス分布を用いて、前記潜在クラス事前分布パラメタを更新する潜在クラス事前分布学習ステップと、
    前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ、入力された前記学習用状態系列及び前記学習用音声特徴量を用いて、前記潜在クラス分布を更新する潜在クラス分布学習ステップとを含み、
    前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ及び前記潜在クラス分布の更新が収束するまで、前記ニューラルネットワーク学習ステップ、特徴量生成分布学習ステップ、潜在クラス事前分布学習ステップ及び潜在クラス分布学習ステップにおける処理を繰り返す、
    音響モデル学習方法。
  10. 請求項9記載の音響モデル学習方法であって、
    kを潜在クラスのインデックス、nを発話のインデックス、tをフレームのインデックス、qn,kを前記潜在クラス分布、s (n)を学習用音声データの状態変数、x (n)を学習用音声データの特徴量とし、前記ニューラルネットワーク学習ステップにおいて、次式により、前記ニューラルネットワークパラメタΛを更新し、
    Figure 2014157323

    前記特徴量生成分布学習ステップにおいて、次式により、前記特徴量生成分布パラメタΘを更新し、
    Figure 2014157323

    前記潜在クラス事前分布学習ステップは、次式により、前記潜在クラス事前分布パラメタpkを更新し、
    Figure 2014157323

    前記潜在クラス分布学習ステップにおいて、次式により、前記潜在クラス分布qn,kを更新する、
    Figure 2014157323

    音響モデル学習方法。
  11. 請求項1から請求項3の何れかに記載の音声認識装置としてコンピュータを機能させるためのプログラム。
  12. 請求項4または請求項5記載の音響モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2013028984A 2013-02-18 2013-02-18 音声認識装置、音響モデル学習装置、その方法及びプログラム Active JP5982297B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013028984A JP5982297B2 (ja) 2013-02-18 2013-02-18 音声認識装置、音響モデル学習装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013028984A JP5982297B2 (ja) 2013-02-18 2013-02-18 音声認識装置、音響モデル学習装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014157323A true JP2014157323A (ja) 2014-08-28
JP5982297B2 JP5982297B2 (ja) 2016-08-31

Family

ID=51578207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013028984A Active JP5982297B2 (ja) 2013-02-18 2013-02-18 音声認識装置、音響モデル学習装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5982297B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122110A (ja) * 2014-12-25 2016-07-07 日本電信電話株式会社 音響スコア算出装置、その方法及びプログラム
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
JP2017054122A (ja) * 2015-09-10 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響モデル生成装置及び方法、音声認識装置及び方法
CN107302737A (zh) * 2016-04-14 2017-10-27 哈曼国际工业有限公司 利用反褶积滤波器进行的基于神经网络的扬声器建模
CN108604449A (zh) * 2015-09-30 2018-09-28 苹果公司 说话者识别
WO2018190547A1 (ko) * 2017-04-14 2018-10-18 한양대학교 산학협력단 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
JP2019095599A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
JP2019095600A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
JPWO2018163011A1 (ja) * 2017-03-09 2020-03-05 株式会社半導体エネルギー研究所 半導体装置および放送システム
US12118999B2 (en) 2014-05-30 2024-10-15 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US12136419B2 (en) 2019-03-18 2024-11-05 Apple Inc. Multimodality in digital assistant systems

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111798B (zh) * 2019-04-29 2023-05-05 平安科技(深圳)有限公司 一种识别说话人的方法、终端及计算机可读存储介质
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667698A (ja) * 1992-06-19 1994-03-11 Seiko Epson Corp 音声認識装置
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP2004530155A (ja) * 2001-03-28 2004-09-30 クゥアルコム・インコーポレイテッド 話し手に暗黙的に順応する技術を用いた音声認識システム
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP2008076865A (ja) * 2006-09-22 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2010170075A (ja) * 2008-12-26 2010-08-05 Fujitsu Ltd 情報処理装置、プログラム、および音響モデルを生成する方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667698A (ja) * 1992-06-19 1994-03-11 Seiko Epson Corp 音声認識装置
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP2004530155A (ja) * 2001-03-28 2004-09-30 クゥアルコム・インコーポレイテッド 話し手に暗黙的に順応する技術を用いた音声認識システム
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP2008076865A (ja) * 2006-09-22 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2010170075A (ja) * 2008-12-26 2010-08-05 Fujitsu Ltd 情報処理装置、プログラム、および音響モデルを生成する方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12118999B2 (en) 2014-05-30 2024-10-15 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
JP2016122110A (ja) * 2014-12-25 2016-07-07 日本電信電話株式会社 音響スコア算出装置、その方法及びプログラム
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN106297773B (zh) * 2015-05-29 2019-11-19 中国科学院声学研究所 一种神经网络声学模型训练方法
JP2017054122A (ja) * 2015-09-10 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響モデル生成装置及び方法、音声認識装置及び方法
CN108604449A (zh) * 2015-09-30 2018-09-28 苹果公司 说话者识别
CN108604449B (zh) * 2015-09-30 2023-11-14 苹果公司 说话者识别
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN108701452B (zh) * 2016-02-02 2023-09-26 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质
CN107302737A (zh) * 2016-04-14 2017-10-27 哈曼国际工业有限公司 利用反褶积滤波器进行的基于神经网络的扬声器建模
JPWO2018163011A1 (ja) * 2017-03-09 2020-03-05 株式会社半導体エネルギー研究所 半導体装置および放送システム
JP7208889B2 (ja) 2017-03-09 2023-01-19 株式会社半導体エネルギー研究所 放送システム
US11017791B2 (en) 2017-04-14 2021-05-25 Industry-University Cooperation Foundation Hanyang University Deep neural network-based method and apparatus for combining noise and echo removal
WO2018190547A1 (ko) * 2017-04-14 2018-10-18 한양대학교 산학협력단 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
JP2019095600A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
JP2019095599A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US12136419B2 (en) 2019-03-18 2024-11-05 Apple Inc. Multimodality in digital assistant systems

Also Published As

Publication number Publication date
JP5982297B2 (ja) 2016-08-31

Similar Documents

Publication Publication Date Title
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JP5768093B2 (ja) 音声処理システム
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
Sadhu et al. Continual Learning in Automatic Speech Recognition.
Yu et al. Deep neural network-hidden markov model hybrid systems
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Bacchiani et al. Context dependent state tying for speech recognition using deep neural network acoustic models
Price et al. Speaker adaptation of deep neural networks using a hierarchy of output layers
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
Bacchiani et al. Asynchronous, online, GMM-free training of a context dependent acoustic model for speech recognition
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Jyothi et al. Lexical access experiments with context-dependent articulatory feature-based models
JP2013182260A (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Yu et al. Hidden Markov models and the variants
Long et al. Domain adaptation of lattice-free MMI based TDNN models for speech recognition
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R150 Certificate of patent or registration of utility model

Ref document number: 5982297

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150