JP4950600B2 - 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 - Google Patents
音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 Download PDFInfo
- Publication number
- JP4950600B2 JP4950600B2 JP2006240085A JP2006240085A JP4950600B2 JP 4950600 B2 JP4950600 B2 JP 4950600B2 JP 2006240085 A JP2006240085 A JP 2006240085A JP 2006240085 A JP2006240085 A JP 2006240085A JP 4950600 B2 JP4950600 B2 JP 4950600B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- parameter
- probability distribution
- posterior probability
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
従来の音声認識装置の機能構成例を図1に示し、従来の音声認識装置の処理の主な流れを図2のフローチャート図に示す。音声認識装置2は主に、特徴抽出部4と単語列探索部6と音響モデル記憶部8と言語モデル記憶部10とで構成されている。
次に、音響モデルの作成方法について説明する。音響モデルは、音声の音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常、音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル(HMM)で、HMM状態の出力確率分布を混合ガウス分布モデル(GMM)で表現する。そのため、実際に音響モデルとして記憶部に記憶されているのは、音素などの各シンボルにおける、HMMの状態遷移確率a,GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣとなる。これらを音響モデルパラメータと呼びその集合をθとする。つまり、θ={a,w,μ,Σ}とする。音響モデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。
音響モデル作成装置11は、特徴抽出部4、音響モデルパラメータ学習部12、とで構成されている。学習用音声データ15が音響モデル作成装置11により読み込まれる(ステップS22)。読み込まれた学習用音声データ15は、特徴抽出部4で特徴量系列に変換される(ステップS24)。変換された特徴量系列は一旦、図示されていない特徴量記憶部に記憶される。記憶された特徴量系列は読み出されて、音響モデルパラメータ学習部12に入力される。
次に、音響モデルパラメータ学習部12による音響モデルパラメータの学習について説明する。教師ラベル情報により得られる学習データ中の各音素に対応するデータから、音響モデルパラメータ(HMMの状態遷移確率a,GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣ)を推定することを音響モデルパラメータの学習と呼ぶ。パラメータを学習する手法としては最尤学習法がある。また、音響モデルパラメータの学習には他にも、ベイズ学習、識別学習、ニューラルネットワーク等がある。
音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要となる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを数百万のパラメータを十分に学習するほど、大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応学習が非常に重要な技術となる。
音響モデルパラメータに対しての適応学習は、パラメータあたりの学習データ量が少ない場合に初期モデルを先験知識として用い、少ないデータで学習を行う手法である。通常の学習方法との違いは学習データのみならず初期モデルを用いて音響モデルを構築する点である。このように初期モデルと学習データから新たに音響モデルを構築する学習方法を適応学習と呼ぶ。
f(・)がパラメトリックに表現されるとすれば、適応学習はそのパラメータである変換パラメータWの推定を初期モデルパラメータと適応用音声データから求めることになる。これを音響モデルパラメータの変換にもとづく適応学習と呼ぶ。
適応学習の中では、音響モデル中のガウス分布の平均パラメータに対する線形回帰行列を推定する手法が非特許文献1または2に記載のように広く用いられている。線形回帰行列を用いた場合の音響モデル作成装置の機能構成例を図5に示し、この場合の音響モデル作成装置の主な処理の流れを図6に示す。
パラメータ適応部22は、変換パラメータ推定部24、変換パラメータ記憶部26、モデルパラメータ変換部28、とで構成されている。
初期音響モデルパラメータθ0中のあるガウス分布の平均ベクトルパラメータμ0は以下の式(1)により線形変換される。
μ=Aμ0+ν (1)
ここで、AはD×Dの行列であり、平均ベクトルパラメータμ0の回転、伸縮をさせる行列である。νはD次元ベクトルであり平均ベクトルパラメータμ0の平行移動を表す。このとき、変換パラメータWは(ν,A)である。
以上までは、一まとまりの特徴量系列O={o1,o2,…,on,…,oN}
に対しての適応学習を考えた。しかし、音声は雑音などの外的要因や発声のなまり等の内的要因によって、時々刻々その音響的特徴を大きく変化させている。このような変化に追随していくためには、時系列的に与えられるまとまった量の音声データに対して逐次モデルを適応させる逐次適応学習が有効である。このとき、特徴量系列を1まとまりとして捉えず、複数のまとまりが時系列的に与えられる場合の適応を考える。つまり以下の式(2)(3)のように考える。
θt+1=f(θt,Ot+1) (4)
図5を参照して、図7に逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示す。まず、特徴量系列O1と音響モデルパラメータθ0を用いてモデルパラメータ変換部28で音響モデルパラメータθ1が求められる。そして、今度は、音響モデルパラメータθ1と次の特徴量系列O2と用いて、音響モデルパラメータθ2が求められる。このようにして、前回の音響モデルパラメータθtと今回の特徴量系列Ot+1とを用いて、今回の音響モデルパラメータθtτ1が求められる。
このとき、変換パラメータ推定法の逐次適応への適用を非特許文献3に示すように考察する。先ほどは、変換パラメータWは全ての特徴量系列から推定されたとしたが、逐次適応においては各まとまりごとにWを推定する。それをWt={νt,At}とすれば、平均パラメータの更新は上記式(1)を基に、以下の式(5)のように漸化式で表現することができる。
μt+1=At+1μt+νt+1 (5)
これによって、逐次適応が実現される。
V.Digalakis,D.Ritischev,and L.Neumeyer. Speaker adaptation using constrained reestimation of Gaussian mixtures. IEEE Transactions on Speech and Audio Processing,Vol.3,pp.357-366,1995. C.J.Leggetter and P.C.Woodland,Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language,Vol.9,pp.171-185,1995. C.J.Leggetter and P.C.Woodland. Flexible speaker adaptation using maximum likelihood linear regression. Proc.ARPA Spoken Language Technology Workshop pp.104-109,1195.
また、この発明の音声認識方法は、上記発明の音響モデル作成方法により、作成された音響モデルを用いて、音声認識を行う。
この発明では、音響モデルパラメータθtそのものの推定を考えるのではなく、音響モデルパラメータの分布を考える。つまり、以下の式(6)のように音響モデルパラメータθtを音響モデルパラメータの分布p(θt)として考える。なお以下の説明では、添え字のtは前回の音響モデルの作成に関係するものであることを表し、t+1は今回の音響モデルの作成に関するものであることを表す。
θt→p(θt) (6)
これにより、推定による誤差を例えばその分布の分散から考慮することができる。この発明では、さらに音響モデルパラメータの分布として累積された特徴量系列Ot={O1,O2,…,Ot}が与えられたときの事後確率分布を考える。つまり、以下の式(7)になる。
p(θt)→p(θt|Ot) (7)
ここで、p(A│B)は事象Bが起こったことを知って、それが原因Aから起こったと考えられる確率である事後確率である。
p(θt+1|Ot+1)=F[p(θt|Ot)] (8)
を用いて時間発展、つまり、音声の音響的特徴の変化として対応した漸化式を記述することにより、音響モデルパラメータθではなく、音響モデルパラメータの事後確率分布p(θ|O)の逐次適応を実現することができる。ここで、F[・]はp(θ|O)を引数として持つ汎関数である。また、F[・]は今回まで累積された特徴量系列Ot+1のうち、少なくとも1つの特徴量系列に基づいて表現されるものである。以下の説明では、F[・]は、今回の特徴量系列Otに基づいて、表現されるものとする。従って、F[・]をパラメトリックに表現し、その音響モデルパラメータの事後確率分布p(θt|Ot)を特徴量系列Oから適切に推定することにより上記式(8)で表現される逐次適応を実現することができる。
上記式(4)と上記式(8)を見比べてわかることは、上記式(8)はパラメータを逐次変換させるのではなく、その事後確率分布を逐次変換させていることがわかる。このとき、実際に逐次更新されるのは、事後確率分布のパラメータωである。
従って、時々刻々、事後確率分布パラメータωを求めることができる。この発明を分布変換にもとづく逐次適応法と呼ぶ。
モデル適応化部50は逐次学習部52、事後確率分布記憶部54、モデル更新部56、とで構成されている。
まず、前回の事後確率分布のパラメータωtがモデル適応化部50で読み込まれる(ステップS60)。次に、適応用音声データ20が読み込まれ(ステップS62)、適応用音声データ20が特徴抽出部4に入力され、特徴量系列Ot+1に変換される(ステップS64)。変換された特徴量系列Ot+1は一旦、図示していない特徴量記憶部に記憶され逐次学習部52に入力される。
p(θt|Ot)からp(θt+1|Ot+1)への時間発展を記述する上記式(8)中の関数F[・]には任意の形を与えることが可能であり様々な変換を考えることができる。この実施形態では、具体的な関数系のひとつとして、確率の積の公式とベイズの定理から理論的に近似無く導出される漸化式を紹介する。はじめにp(θt+1|Ot+1)はベイズの定理から次のように表現される。
p(θt+1|Ot)=∫p(θt+1|θt,Ot)p(θt|Ot)dθt (10)
従って式(10)を式(9)に代入することにより次式(11)のような漸化式を導出することができる。
またここで時間発展を最初の一ステップに限る。つまりt→0,t+1→1とすれば以下の式(12)のようになる。
p(θt|Ot)は前述した音響モデルパラメータの事後確率分布であり、適切に初期分布を設定することにより逐次求めることが可能である。p(Ot+1|θt+1,Ot)はOt+1の出力分布であり、HMMやGMMといった音響モデルの設定によって与えられるものである。最後にp(θt+1|θt,Ot)は音響モデルパラメータθの確率的ダイナミクスである。従って、上記式(11)の漸化式は、出力分布及び確率的ダイナミクスによって構成されている。
モデル更新部56で、音響モデル記憶部58内の音響モデルとしての前回の事後確率分布p(θt|Ot)が、今回の音響モデルパラメータの事後確率分布p(θt+1|Ot+1)に新たな音響モデルとして更新する(ステップS70)。
p(Ot+1|θt+1,Ot)及びp(θt+1|θt,Ot)は累積された特徴量系列に直接依存する。これらを全ての累積特徴量系列から推定しようとした場合、時が経つにつれ累積データは多くなるため、その推定は大変計算量が多くなり現実的でない。そのため、この実施例2ではこれらにマルコフ過程を仮定する。このとき、p(Ot+1|θt+1,Ot)とp(θt+1|θt,Ot)はそれぞれ式(13)のように近似される。
p(Ot+1|θt+1,Ot)≒p(Ot+1|θt+1),
p(θt+1|θt,Ot) ≒p(θt+1|θt) (13)
p(θt+1|Ot+1)∝p(Ot+1|θt+1)∫p(θt+1|θt)p(θt|Ot)dθt (14)
ここで、A∝BはAとBは比例しているということを表す。上記式(14)によって、シンプルな出力分布及び確率的ダイナミクスを設定することができる。図8中の逐次学習部52は、この式(14)を計算することになる。
p(μt+1|Ot+1)∝p(Ot+1|μt+1)∫p(μt+1|μt)p(μt|Ot)dμt
(15)
その他の処理は、実施例1、2と同様の処理を行う。
μt+1=Aμt+ν+εt+1 (16)
ここでεt+1は平均0、共分散行列Uのガウシアンノイズである。式(16)は、上記式(5)における線形変換が確率的に揺らいでいるといえる。このとき、確率ダイナミクスの分布具体系は、以下の式(17)として与えられる。
p(μt+1|μt)=N(μt+1|Aμt+ν,U) (17)
ここでN(・|m,S)は平均パラメータm、共分散行列パラメータSのガウス分布である。
Q^t+1=((U+AQ^tA’)−1+ζt+1Σ―1)−1 (21)
K^t+1=Q^t+1ζt+1Σ―1 (22)
μ^t+1=Aμ^t+υ+K^t+1(Mt+1/ζt+1−Aμ^t−υ)
(23)
ただし、Q^t+1及びQ^tは、それぞれ今回及び前回の事後確率分布の共分散行列パラメータであり、K^t+1はカルマンゲインであり、A、υ、及びUはそれぞれ音響モデルパラメータ中の平均の上記確率的ダイナミクスを線形表現した時の係数、定数及びガウシアンノイズの共分散行列であり、ζt+1は、今回の事後占有確率値の和、Σは初期音響モデルパラメータ中の共分散行列であり、μ^t+1及びμ^tは今回および前回の事後確率分布の平均パラメータであり、Mt+1は今回の各時点におけるζと特徴量との積和であり、A’は行列Aの転置を表す。
つまり、音響モデルパラメータの事後確率分布p(μ|O)の漸化式はそのパラメータ(Q^,K^,μ^)の漸化式(21)(22)(23)によって求めることができる。これは線形動的システムにおけるカルマンフィルタの解と類似している。しかし、カルマンフィルタの解はon→on+1のように各音声分析フレームごとの更新となっている。一方、本発明ではOt→Ot+1のように1まとまりのフレームごとの更新となっているのが違いとなっている。そのため、パラメータQ^,K^,μ^は、1フレームの特徴量onではなく、その統計量であらわされている。従って、これを巨視的な線形動的システムと呼ぶ。
事後確率計算部526で、上記音響モデルパラメータの事後確率分布が、当該事後確率分布の平均パラメータμ^t+1と、当該事後確率分布の共分散行列パラメータQ^t+1と、で表現されるガウス分布で表されることに基づき、上記音響モデルパラメータの上記事後確率分布が計算される。つまり上記式(23)が計算される。
従って、Q^t,K^t,μ^tを求めるためには、線形変換パラメータW={ν,A}、システムノイズU、初期パラメータQ^0、及びμ^0の4つを設定する必要がある。ここで、Q^0は初期音響モデルの共分散行列パラメータから与えられるものであり、μ^0は初期音響モデルの平均ベクトルパラメータから与えられるものである。
このうち線形変換パラメータW={ν,A}は、今回まで累積された特徴量系列Otのうち少なくとも1つの特徴量系列を用いて、推定される。よく知られた手法の一例としては上述したEMアルゴリズムを用いて繰り返し計算により効率よく求められる。
(25)
K^t+1=Q^t+1ζt+1Σ―1 (26)
μ^t+1=Aμ^t+υ+K^t+1(Mt+1/ζt+1−Aμ^t−υ)
(27)
以上によってパラメータu0によって制御される分布変換にもとづく逐次適応法を実現できる。
上記式(16)の平均ベクトルの平行移動にだけ注目することにより、推定すべきパラメータを少なくしてより少量データでの適応を実現できる。このとき、上記式(25)(26)(27)における行列Aを単位行列Iとする、つまり、A=Iとすると、Q^、K^、μ^は以下の式(28)(29)(30)で計算される。
Q^t+1=(((u0)−1Σ+AQ^tA’)−1+ζt+1Σ―1)−1
(28)
K^t+1=Q^t+1ζt+1Σ―1 (29)
μ^t+1=Aμ^t+υ+K^t+1(Mt+1/ζt+1−Aμ^t−υ)
(30)
この場合、Q^更新部520では上記式(28)が計算され、K^更新部522では上記式(29)が計算され、μ^更新部524では上記式(30)が計算される。これにより、平行移動の逐次適応をこの実施例によって本発明に適用することができる。
図12に、この実施例の音声認識装置の機能構成例を示し、図13に、音声認識の主な処理の流れを示す。
認識用音声データ1の音響的特徴量と同様な音響的特徴を持つ適応用音声データが実施例1〜4で説明した音響モデル作成装置60に入力さる。そして、音響モデル記憶部8内の音響モデルが上述したように、更新される(ステップS80)。
単語列探索部6で特徴量系列Oに対して、音響モデル記憶部8の音響モデルを用いて音響スコアを算出する。この音響スコア算出には例えば、以下の式(31)の計算を行う。
∫p(xτ|μt)p(μt|Ot)dμt (31)
ここでp(xτ|μt)は上記式(18)で与えられる出力分布である。単語列探索部6による複数フレームの音響スコア算出に関しては上記式(31)をもとに動的計画法(DP:Dynamic Programming マッチング)を行えばよい。音響スコアを最大とする単語列を認識単語列として出力する(ステップS84)。なお、この場合はステップS80におけるモデル更新は、音響モデルとして事後確率分布p(μτ|Ot)の更新を行う(ステップS80a)。上記式(31)の積分は数値的に解くことも可能であるが、次のような2種類の解析解が存在する。
Plug-in法では、積分をまともに扱うのではなく、p(μt|Ot)の事後確率最大化(MAP)値argmaxμtp(μt|Ot)は、上記式(27)のμ^tである。つまり、以下の式(32)になる。
周辺化法は、Plug-in法と違い積分を解析的に解く方法である。この積分をとく方法が、平均ベクトルパラメータμtについての周辺化にあたる。周辺化法は、Plug-in法と比較して、平均ベクトルパラメータの事後確率分布p(μt|Ot)の分散を考慮することになる。このようにすれば、積分計算によるスコア計算は以下の式(34)で表せることになる。
以下に、この発明の音響モデル作成装置を用いた実験結果を示す。ASJ(日本音響学会)読み上げ音声データベースの男性話者44人分を用いて総状態数2,000、状態あたりの混合数16の不特定話者音響モデルを構築し、CSJ(日本語話し言葉コーパス)講演音声データベースの男性話者20人に対し、教師ラベルありの逐次適応を行った。特徴量は12次元MFCC(メルフレクエンシイペプストラム係数)と、そのフレームのエネルギーと、MFCCのフレーム間差分Δと、その差分MFCCのフレーム間差分デルタΔΔとして、語彙サイズ3万語のトライグラムを用いて大語彙連続音声認識実験を行った(不特定話者音響モデルの単語誤り率は26.9%)。逐次適応の更新単位は16発話とし、8ステップ(128発話分)の逐次適応を行った。図14に具体的な実験結果を占めす。なお縦軸は単語誤り率を示し、横軸は、適応データ数(発話数)を示す。また、この実験はおいて、図8中の逐次学習部52が実施例4中の上記式(25)〜(27)の式を計算する場合であり、u0=10とした。
この発明の場合は単語誤り率が、約20.4%であり、従来法の場合は単語誤り率が約24.3%である。よって、この発明の方が単語誤り率がおよそ4%改善されていることが、このグラフから、理解できる。
また、この発明の音響モデル作成装置における処理をコンピュータによって実現する場合、音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、音響モデル作成装置における処理機能がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
Claims (20)
- 今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出部と、
前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布p(θ t │O t )と、今回まで累積された特徴量系列のうち少なくとも1つの特徴量系列と、に基づき今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を求める逐次学習部と、ここで、O t+1 およびO t は今回および前回までに累積された特徴量系列であり、θ t+1 およびθ t は今回および前回の音響モデルパラメータであり、
上記今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を新たな音響モデルとするモデル更新部と、を具備し、
上記逐次学習部は、前回の音響モデルパラメータの事後確率分布p(θt│Ot)と、今回の出力分布p(Ot+1│θt+1、Ot)と、今回の確率的ダイナミクスp(θt+1│θt、Ot)と、を用いて今回の音響モデルパラメータの事後確率分布p(θt+1│Ot+1)を
- 今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出部と、
前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布p(θ t │O t )と、今回まで累積された特徴量系列のうち少なくとも1つの特徴量系列と、に基づき今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を求める逐次学習部と、ここで、O t+1 およびO t は今回および前回までに累積された特徴量系列であり、θ t+1 およびθ t は今回および前回の音響モデルパラメータであり、
上記今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を新たな音響モデルとするモデル更新部と、を具備し、
上記逐次学習部は、前回の音響モデルパラメータの事後確率分布p(θt│Ot)と、今回の出力分布p(Ot+1│θt+1)と、今回の確率的ダイナミクスp(θt+1│θt)と、を用いて今回の音響モデルパラメータの事後確率分布p(θt+1│Ot+1)を
p(θ t+1 |O t+1 )∝p(O t+1 |θ t+1 )∫p(θ t+1 |θ t )p(θ t |O t )dθ t
(但しA∝BはAとBは比例しているということを表す)として求めるものであることを特徴とする音響モデル作成装置。 - 請求項2記載の音響モデル作成装置において、
上記逐次学習部は、音響モデルパラメータのうち、平均ベクトルパラメータに対して、演算するものであることを特徴とする音響モデル作成装置。 - 請求項3記載の音響モデル作成装置において、
上記逐次学習部は、上記音響モデルパラメータの事後確率分布が、当該事後確率分布の平均パラメータと、当該事後確率分布の共分散行列パラメータと、で表現されるガウス分布で表されることに基づき、上記今回の音響モデルパラメータの上記事後確率分布の平均パラメータと上記事後確率分布の共分散行列パラメータを計算するものであり、
上記モデル更新部は、上記逐次学習部で計算された音響モデルパラメータを用いて、前回の音響モデルパラメータを更新するものであることを特徴とする音響モデル作成装置。 - 請求項4記載の音響モデル作成装置において、
上記逐次学習部は、次式を演算するものであり、
Q^t+1=((U+AQ^tA’)−1+ζt+1Σ―1)−1
K^t+1=Q^t+1ζt+1Σ―1
μ^t+1=Aμ^t+υ+K^t+1(Mt+1/ζt+1−Aμ^t−υ)
Q^t+1及びQ^tは、それぞれ今回及び前回の事後確率分布の共分散行列パラメータであり、A、υ、及びUはそれぞれ音響モデルパラメータ中の平均の上記確率的ダイナミクスを線形表現した時の係数、定数及びガウシアンノイズの共分散行列であり、ζt+1は、今回の事後占有確率値の和、Σは初期音響モデルパラメータ中の共分散行列であり、μ^t+1及びμ^tは今回および前回の事後確率分布の平均パラメータであり、Mt+1は今回の各時点におけるζと特徴量との積和であり、A’は行列Aの転置を表すことを特徴とする音響モデル作成装置。 - 請求項5記載の音響モデル作成装置において、
上記逐次学習部の演算は上記Uに代えて、(u0)−1Σとして演算するものであり、上記u0は予め与えられる定数であることを特徴とする音響モデル作成装置。 - 請求項6記載の音響モデル作成装置において、
上記逐次学習部の演算は行列Aに代えて単位行列として、演算するものであることを特徴とする音響モデル作成装置。 - 認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを、請求項1〜7のいずれかに記載した音響モデル作成装置により作成して、音響モデルパラメータを更新する認識用モデル更新部と、
上記更新された音響モデルパラメータを用いて、上記音響的特徴を持った入力音声データに対する音声認識を行う認識部とを具備する音声認識装置。 - 特徴抽出手段が、今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出過程と、
逐次学習手段が、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布p(θ t │O t )と、今回まで累積された特徴量系列のうち少なくとも1つと、に基づき今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を求める逐次学習過程と、ここで、O t+1 およびO t は今回および前回までに累積された特徴量系列であり、θ t+1 およびθ t は今回および前回の音響モデルパラメータであり、
モデル更新手段が、上記今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を新たな音響モデルとするモデル更新過程と、を有し、
上記逐次学習過程は、前回の音響モデルパラメータの事後確率分布p(θt│Ot)と、今回の出力分布p(Ot+1│θt+1、Ot)と、今回の確率的ダイナミクスp(θt+1│θt、Ot)と、を用いて今回の音響モデルパラメータの事後確率分布p(θt+1│Ot+1)を
- 特徴抽出手段が、今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出過程と、
逐次学習手段が、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布p(θ t │O t )と、今回まで累積された特徴量系列のうち少なくとも1つと、に基づき今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を求める逐次学習過程と、ここで、O t+1 およびO t は今回および前回までに累積された特徴量系列であり、θ t+1 およびθ t は今回および前回の音響モデルパラメータであり、
モデル更新手段が、上記今回の音響モデルパラメータの事後確率分布p(θ t+1 │O t+1 )を新たな音響モデルとするモデル更新過程と、を有し、
上記逐次学習過程は、前回の音響モデルパラメータの事後確率分布p(θt│Ot)と、今回の出力分布p(Ot+1│θt+1)と、今回の確率的ダイナミクスp(θt+1│θt)と、を用いて今回の音響モデルパラメータの事後確率分布p(θt+1│Ot+1)を
p(θ t+1 |O t+1 )∝p(O t+1 |θ t+1 )∫p(θ t+1 |θ t )p(θ t |O t )dθ t
(但しA∝BはAとBは比例しているということを表す)として求める過程であることを特徴とする音響モデル作成方法。 - 請求項10記載の音響モデル作成方法において、
上記逐次学習過程は、音響モデルパラメータのうち、平均ベクトルパラメータに対して、演算する過程であることを特徴とする音響モデル作成方法。 - 請求項11記載の音響モデル作成方法において、
上記逐次学習過程は、上記音響モデルパラメータの事後確率分布が、当該事後確率分布の平均パラメータと、当該事後確率分布の共分散行列パラメータと、で表現されるガウス分布で表されることに基づき、上記今回の音響モデルパラメータの上記事後確率分布の平均パラメータと共分散行列パラメータを計算する過程であり、
上記モデル更新過程は、上記逐次学習過程で計算されたパラメータを用いて、前回の音響モデルパラメータを更新する過程であることを特徴とする音響モデル作成方法。 - 請求項12記載の音響モデル作成方法において、
上記逐次学習過程は、次式を演算する過程であり、
Q^t+1=((U+AQ^tA’)−1+ζt+1Σ―1)−1
K^t+1=Q^t+1ζt+1Σ―1
μ^t+1=Aμ^t+υ+K^t+1(Mt+1/ζt+1−Aμ^t−υ)
ここで、Q^t+1及びQ^tは、それぞれ今回及び前回の事後確率分布の共分散行列パラメータであり、A、υ、及びUはそれぞれ音響モデルパラメータ中の平均の上記確率的ダイナミクスを線形表現した時の係数、定数及びガウシアンノイズの共分散行列であり、ζt+1は、今回の事後占有確率値の和、Σは初期音響モデルパラメータ中の共分散行列であり、μ^t+1及びμ^tは今回および前回の事後確率分布の平均パラメータであり、Mt+1は今回の各時点におけるζと特徴量との積和であり、A’は行列Aの転置を表すことを特徴とする音響モデル作成方法。 - 請求項13記載の音響モデル作成方法において、
上記逐次学習過程の演算は上記Uに代えて、(u0)−1Σを用いて、演算する過程であり、ここで、上記u0は予め与えられる定数であることを特徴とする音響モデル作成方法。 - 請求項14記載の音響モデル作成方法において、
上記逐次学習過程の演算は行列Aに代えて単位行列を用いて、演算する過程であることを特徴とする音響モデル作成方法。 - 認識用モデル更新手段が、認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを請求項9〜15のいずれかに記載した音響モデル作成方法により作成して、音響モデルパラメータを更新する認識用モデル更新過程と、
認識手段が、上記更新された音響モデルパラメータを用いて、上記音響的特徴を持った入力音声データに対する音声認識を行う認識過程とを有する音声認識方法。 - 請求項9〜15の何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるための音響モデル作成プログラム。
- 請求項16に記載の音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
- 請求項17記載の音響モデル作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項18記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006240085A JP4950600B2 (ja) | 2006-09-05 | 2006-09-05 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006240085A JP4950600B2 (ja) | 2006-09-05 | 2006-09-05 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008064849A JP2008064849A (ja) | 2008-03-21 |
JP4950600B2 true JP4950600B2 (ja) | 2012-06-13 |
Family
ID=39287643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006240085A Expired - Fee Related JP4950600B2 (ja) | 2006-09-05 | 2006-09-05 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4950600B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4881357B2 (ja) * | 2008-08-26 | 2012-02-22 | 日本電信電話株式会社 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
JP5579624B2 (ja) * | 2009-07-23 | 2014-08-27 | 株式会社Adeka | 光学フィルタ |
US9251784B2 (en) | 2013-10-23 | 2016-02-02 | International Business Machines Corporation | Regularized feature space discrimination adaptation |
US11264044B2 (en) * | 2016-02-02 | 2022-03-01 | Nippon Telegraph And Telephone Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3920749B2 (ja) * | 2002-09-24 | 2007-05-30 | 日本電信電話株式会社 | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 |
JP4256314B2 (ja) * | 2004-08-13 | 2009-04-22 | 日本電信電話株式会社 | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 |
-
2006
- 2006-09-05 JP JP2006240085A patent/JP4950600B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008064849A (ja) | 2008-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9460711B1 (en) | Multilingual, acoustic deep neural networks | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP2010152751A (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP2008209698A (ja) | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 | |
JP2014102345A (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP6965846B2 (ja) | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110509 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120309 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4950600 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |