JP2014157323A - 音声認識装置、音響モデル学習装置、その方法及びプログラム - Google Patents
音声認識装置、音響モデル学習装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP2014157323A JP2014157323A JP2013028984A JP2013028984A JP2014157323A JP 2014157323 A JP2014157323 A JP 2014157323A JP 2013028984 A JP2013028984 A JP 2013028984A JP 2013028984 A JP2013028984 A JP 2013028984A JP 2014157323 A JP2014157323 A JP 2014157323A
- Authority
- JP
- Japan
- Prior art keywords
- latent class
- distribution
- learning
- parameter
- latent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音声認識装置は、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納される格納部と、入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、音声データに対する音声認識を行う。
【選択図】図4
Description
音声認識装置90の処理フローを図1に、機能ブロック図を図2に示す。音声認識装置90は主に、特徴量抽出部91と単語列探索部92とからなる。特徴量抽出部91は、フレーム(音声波形から一定時間長を切り出した波形)t毎に音声信号データ(認識用音声データ)を時系列の特徴量ベクトルxtに変換する(s91)。単語列探索部92は、音響モデル格納部93に格納された音響モデルと言語モデル格納部94に格納された言語モデルとを用いて、特徴量抽出部91から出力された時系列の特徴量ベクトル(音声特徴量ベクトル)xtの音響モデルに対するスコア系列と言語モデルに対するスコアとを算出する。さらに、単語列探索部92は、これらのスコアを参照して時系列の特徴量ベクトルxtと合致する単語列を探索する(s92)。音声認識装置90は、最終的に単語列探索部92で得られた探索結果である単語列を認識結果として出力する。ここで、音響モデルと言語モデルは、学習データ等を用いて予め作成しておく。ここで、音響モデルの作成方法について説明する。
音響モデルは音声の持つ音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は音声認識装置の性能を大きく左右する。音声認識装置90では特徴量抽出部91を用いて、音声データを{x1,x2,…,xt,…}(xt∈RD、Rは実数の集合、tはフレーム番号またはそのフレーム番号に対応する時刻)のようなD次元の特徴量ベクトルxtの系列に変換する。通常、音声認識用音響モデルでは、各音素とこの特徴量ベクトルxtの系列の関係をLeft-to-right型の隠れマルコフモデル(Hidden Markov Model:以下「HMM」ともいう)で表現する。
NN音響モデルは、状態変数がstのとき、特徴量ベクトルxtが出力される確率をNNパラメタΛを用いて、以下のように定義する。
音響モデルの作成は確率統計的手法により、与えられた学習データから得られる複数の特徴量ベクトルxtの系列X(n)の群(以下、「学習用特徴量系列群」ともいう)X={X(1),X(2),…,X(n),…}と、学習データの複数の状態変数stの系列s(n)の群(以下、「学習用状態変数系列群」ともいう)S={s(1),s(2),…,s(n),…}とから、パラメタΛを推定することにより作成される。ここでnは発話のインデックスであり、X(n)は一つの発話(例えば一文)の音響的特徴を記述した時系列であり、
高精度に音声認識を行うためには、認識対象と同一の話者の認識時と同じ環境(雑音や残響などの周囲の環境)で収録した学習データを用いて学習した音響モデルを用いることが望ましい。しかしながら、話者及び環境毎に音響モデルを作成するのは困難であるため、認識対象とは異なる話者や異なる環境で収録した学習データから学習した音響モデルを用いて音声認識を行うのが一般的である。認識対象とは異なる話者/異なる環境で収録された学習データから学習した音声認識モデルを用いたときの音声認識精度を向上させる技術として、学習済みの音響モデルを認識対象の話者及び認識時の環境に適応するよう補正する適応技術が知られている。
<第一実施形態のポイント>
[本実施形態において用いるNN音響モデル]
環境や話者の変化を積極的にモデルに取り入れるため、本実施形態では、状態変数系列sと特徴量系列xの結合確率分布p(x,s)をモデル化することを試みる。ここで、xは音響特徴量の系列{x1,x2,…,xt,…}に対応する確率変数であり、sは状態変数の系列{s1,s2,…,st,…}に対応するラベル系列である。従来のNN音響モデルでは、結合確率分布p(x,s)は、単一のNNパラメタΛを導入し、p(x,s|Λ)=p(x|s,Λ)p(s)のようにモデル化されていた。本実施形態では、発話に内在する潜在的な環境/話者の要因を考慮し、以下のように潜在クラスkを用いた混合モデル(以下、潜在クラスモデルと呼ぶ)として定義する。
定義した潜在クラスモデルは混合分布なので、既存のEMアルゴリズムを用いて全てのパラメタ(Θk,Λk,pk)を推定することができる(参考文献1参照)。
[参考文献1] A. P. Dempster, N. M. Laird, D. B. Rubin, “Maximum Likelihood from Incomplete Data via the EM Algorithm”, Journal of Royal Statistical Society, 1977, Series B, Vol. 39, No. 1, pp.1-38.
以下、EMアルゴリズムを用いてパラメタを推定する方法について概略を説明する。
E-step:与えられたパラメタΘ’からqi,k=p(k|A(i),Θ’)を推定する。
M-step:得られたqi,kを上式(12)に代入し、Q(Θ;qi,k)を最大化するΘを求め、Θ’に代入する。
EMアルゴリズムでは潜在クラス分布の推定値(式(12)におけるqi,k)を算出する必要があるが、本実施形態のモデルの場合、発話n毎に潜在クラスkがあり、潜在クラスkが与えられた上での観測値の確率分布(式(8)のp(x,s|k,Λk,Θk)のように表わされるため、潜在クラス分布の推定値qn,kは各パラメタの推定値Λk’,Θk’,pk’を用いて以下のように表わされる。
E-step(1):全てのk,n及びtに対し、式(9')に従って、p(xt (n)|Θk’)の計算を行う。
図3に第一実施形態に係る音響モデル学習装置100の処理フローを、図4にその構成例を示す。
音響モデル格納部110には、NN音響モデルとして、潜在クラスk毎の、NNパラメタΛk、特徴量生成分布パラメタΘkと、潜在クラス事前分布パラメタpkと、潜在クラス分布qn,kとが格納される。
音響モデル学習部120は、NN学習部121と、特徴量生成分布学習部122と、潜在クラス事前分布学習部123とを含む。音響モデル学習部120は、学習用状態変数系列群S={s(1),s(2),…,s(n),…}と学習用特徴量系列群X={X(1),X(2),…,X(n),…}から、それぞれNNパラメタΛk、特徴量生成分布パラメタΘk及び潜在クラス事前分布パラメタpkを学習する。NN学習部121、特徴量生成分布学習部122及び潜在クラス事前分布学習部123の処理は、どの順番で行っても問題ない。
NN学習部121は、音響モデル格納部110から読みだした潜在クラス分布qn,kと、入力された学習用状態変数系列群Sと学習用特徴量系列群Xとを用いて、式(15)によりNNパラメタΛkを学習し(s102)、音響モデル格納部110に格納されたNNパラメタΛkを更新する。
特徴量生成分布学習部122は、音響モデル格納部110から読みだした潜在クラス分布qn,kと、入力された学習用特徴量系列群Xとを用いて、式(16)を満たす特徴量生成分布パラメタΘ’kを学習し(s103)、音響モデル格納部110に格納された特徴量生成分布パラメタΘkを更新する。
潜在クラス事前分布学習部123は、音響モデル格納部110から読みだした潜在クラス分布qn,kを用いて、式(17’)により潜在クラス事前分布パラメタpkを学習し(s104)、音響モデル格納部110に格納された潜在クラス事前分布パラメタpkを更新する。
潜在クラス分布学習部130は、音響モデル学習部120で更新された各パラメタ(NNパラメタΛk、特徴量生成分布パラメタΘk、潜在クラス事前分布パラメタpk)と、入力された学習用状態変数系列群S及び学習用特徴量系列群Xを用いて、式(13)により、潜在クラス分布qn,kを学習し(s105)、音響モデル格納部120に格納された潜在クラス分布qn,kを更新する。
反復制御部140は、更新処理が収束したか否か判定し(s106)、収束していたら学習用状態変数系列群S及び学習用特徴量系列群Xに対する更新処理を終了する。例えば、実行時間を計測しておき、所定時間に到達したら収束したと判定してもよいし、音響モデル学習部120や潜在クラス分布学習部130における更新回数をカウントしておき、所定回数に到達したら収束したと判定してもよい。収束したと判定されなければ、音響モデル学習部120及び潜在クラス分布学習部130に処理を繰り返すように制御信号を出力する。
このような構成により、同一の学習データから複数の性質の異なるNN音響モデルを学習することができる。
音声認識装置200は、潜在クラスk毎に異なる複数のNN音響モデルを具備する点が従来の音声認識装置とは異なる。潜在クラスk毎に異なる複数のNN音響モデルは、音響モデル学習装置100により構築することができる。音声認識装置200は、潜在クラスk毎に異なる複数のNN音響モデルを使い分けて音声認識を行う。
[参考文献2]G. Evermann, P. Woodland, "Posterior probability decoding, confidence estimation and system combination", Proc. NIST Speech Transcription Workshop, 2000
以上の理論に基づいて構成される音声認識装置200の実施形態を説明する。図5に本実施形態に係る音声認識装置200の処理フローを、図6にその構成例を示す。
音響モデル格納部250には、音響モデル学習装置100で学習した潜在クラスkの異なるK個のNN音響モデル(Λt,Θk,pk,qn,k)が格納されている。また、言語モデル格納部260には、言語モデルが格納されている。なお、言語モデルは既存の技術に基づくものを用いればよい。
特徴量抽出部210は、入力された音声データを受け取り、音声データから特徴量ベクトルxtを抽出し(s201)、出力する。特徴量抽出として、既存の技術を用いることができる。
最適状態変数系列推定部220は、特徴量抽出部210で抽出した複数の特徴量ベクトルxtの系列X(n)の群(以下、「認識用特徴量系列群」ともいう)Xの一部(例えば、一発話に対する複数の特徴量ベクトルxt (n)の系列X(n))、及び音響モデル格納部250に格納された潜在クラス毎の潜在クラス事前分布パラメタpk、NNパラメタΛk、特徴量生成分布パラメタΘkを用いて、式(20a)を計算して、K個の最適状態変数系列(^sk)を推定し(s202)、最適潜在クラス推定部230に渡す。
最適潜在クラス推定部230は、認識用特徴量系列群Xの一部(例えばX(n))と、最適状態変数系列推定部220で推定した最適状態系列^skと、音響モデル格納部250に格納された潜在クラス事前分布パラメタpk、NNパラメタΛk、特徴量生成分布パラメタΘkを用いて、式(21)及び式(22)により、認識用特徴量系列群Xの一部に対する最適潜在クラス^kを選択し(s203)、単語列探索部240に出力する。
単語列探索部240は、従来の音声認識器と同様に言語モデル格納部260に格納された言語モデルと、音響モデル格納部250に格納された音響モデルと、認識用特徴量系列群Xとを用いて、認識用音声データ(より詳しくいうと、認識用特徴量系列群X)にマッチする単語列を探索し(s204)、探索結果である単語列を出力する。ただし、従来の音声認識装置90における単語列探索部92とは異なり、音響モデルとして、音響モデル格納部250に格納された複数のNN音響モデルのうち最適潜在クラス推定部230で選択された最適潜在クラス^kに対応するNNパラメタΛ^kを用いる。その際、発話n毎に最適潜在クラス^kを推定し、用いるNNパラメタΛ^kを変更することで、話者/環境への高速適応が可能になる。
図7は、第一実施形態に係る音声認識装置200の音声認識のシミュレーション結果を表す。シミュレーションに用いるコーパスはTIMITを採用した。学習セットと評価セットの発話数はそれぞれ3、696発話と392発話である。潜在クラスの数Kは2で、NNの隠れユニット数H(i)は1024を使用した。特徴量生成分布は多変量ガウス分布を用いた。学習において、qn,kの初期値は、正整数{1,…,K}から一様無作為に選んだrnを用いてqn,k=δn,rnとした。モデル合成におけるスケールファクタα、β(式(21)参照)に関してはいくつかの値((1)α=1.0,β=1.0、(2)α=1.0,β=0.0、(3)α=0.0,β=1.0、)を試行した。
混合ガウス分布からなる音響モデルを用いた音声認識装置より一般に高い性能を持つと言われているNNからなる音響モデルを用いた音声認識装置において、従来不可能であった話者/環境への高速適応(適応用データを蓄積することなく、リアルタイムに適応処理を行うこと)が可能になるという効果を奏する。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
110 音響モデル格納部
120 音響モデル学習部
121 学習部
122 特徴量生成分布学習部
123 潜在クラス事前分布学習部
130 潜在クラス分布学習部
140 反復制御部
200 音声認識装置
210 特徴量抽出部
220 最適状態変数系列推定部
230 最適潜在クラス推定部
240 単語列探索部
250 音響モデル格納部
260 言語モデル格納部
Claims (12)
- 言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納される格納部と、
入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、前記言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、前記音声データに対する音声認識を行う、
音声認識装置。 - 請求項1記載の音声認識装置であって、
前記格納部には、前記ニューラルネットワーク音響モデルとして、潜在クラス毎に、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタとが格納され、
前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ及び前記特徴量生成分布パラメタを用いて、潜在クラス毎に前記音声データに対する最適状態変数系列を推定する最適状態変数系列推定部と、
前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ及び前記最適状態変数系列を用いて、前記音声データに対する最適潜在クラスを選択する最適潜在クラス推定部と、
前記最適潜在クラスに対応する前記ニューラルネットワークパラメタと前記言語モデルとを用いて、前記音声データに対する単語列を探索する単語列探索部とをさらに含む、
音声認識装置。 - 請求項1または請求項2記載の音声認識装置であって、
潜在クラス分布を学習データを観測した上での潜在クラスの起こりやすさを示すものとし、
前記ニューラルネットワークパラメタは、潜在クラス分布と、入力された学習用状態変数系列群と学習用特徴量系列群とを用いて、状態変数系列の正解確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
前記特徴量生成分布パラメタは、潜在クラス分布と、入力された学習用音声特徴量とを用いて、学習データの特徴量が出力される確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
前記潜在クラス事前分布パラメタは、前記潜在クラス分布を用いて、全ての潜在クラスの潜在クラス分布の総和に対する各潜在クラスの潜在クラス分布の割合を求めることにより得られたものである、
音声認識装置。 - 潜在クラス毎に異なる複数の、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタと、学習データを観測した上での潜在クラスの起こりやすさを示す潜在クラス分布とが格納される音響モデル格納部と、
前記潜在クラス分布と、学習用音声データの状態変数の系列の群である学習用状態変数系列群と学習用音声データの特徴量の系列の群である学習用特徴量系列群とを用いて、前記ニューラルネットワークパラメタを更新するニューラルネットワーク学習部と、
前記潜在クラス分布と、入力された学習用音声特徴量とを用いて、前記特徴量生成分布パラメタを更新する特徴量生成分布学習部と、
前記潜在クラス分布を用いて、前記潜在クラス事前分布パラメタを更新する潜在クラス事前分布学習部と、
前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ、入力された前記学習用状態系列及び前記学習用音声特徴量を用いて、前記潜在クラス分布を更新する潜在クラス分布学習部とを含み、
前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ及び前記潜在クラス分布の更新が収束するまで、前記ニューラルネットワーク学習部、特徴量生成分布学習部、潜在クラス事前分布学習部及び潜在クラス分布学習部における処理を繰り返す、
音響モデル学習装置。 - 請求項4記載の音響モデル学習装置であって、
kを潜在クラスのインデックス、nを発話のインデックス、tをフレームのインデックス、qn,kを前記潜在クラス分布、st (n)を学習用音声データの状態変数、xt (n)を学習用音声データの特徴量とし、前記ニューラルネットワーク学習部は、次式により、前記ニューラルネットワークパラメタΛkを更新し、
前記特徴量生成分布学習部は、次式により、前記特徴量生成分布パラメタΘkを更新し、
前記潜在クラス事前分布学習部は、次式により、前記潜在クラス事前分布パラメタpkを更新し、
前記潜在クラス分布学習部は、次式により、前記潜在クラス分布qn,kを更新する、
音響モデル学習装置。 - 言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとが格納部に格納されているものとし、
入力される音声データから各潜在クラスの重みを推定し、推定した潜在クラス毎の重みと、前記言語モデルと潜在クラス毎に異なる複数のニューラルネットワーク音響モデルとに基づいて、前記音声データに対する音声認識を行う、
音声認識方法。 - 請求項6記載の音声認識方法であって、
前記格納部には、前記ニューラルネットワーク音響モデルとして、潜在クラス毎に、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタとが格納されているものとし、
前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ及び前記特徴量生成分布パラメタを用いて、潜在クラス毎に前記音声データに対する最適状態変数系列を推定する最適状態変数系列推定ステップと、
前記潜在クラス事前分布パラメタ、前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ及び前記最適状態変数系列を用いて、前記音声データに対する最適潜在クラスを選択する最適潜在クラス推定ステップと、
前記最適潜在クラスに対応する前記ニューラルネットワークパラメタと前記言語モデルとを用いて、前記音声データに対する単語列を探索する単語列探索ステップとをさらに含む、
音声認識方法。 - 請求項6または請求項7記載の音声認識方法であって、
潜在クラス分布を学習データを観測した上での潜在クラスの起こりやすさを示すものとし、
前記ニューラルネットワークパラメタは、潜在クラス分布と、入力された学習用状態変数系列群と学習用特徴量系列群とを用いて、状態変数系列の正解確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
前記特徴量生成分布パラメタは、潜在クラス分布と、入力された学習用音声特徴量とを用いて、学習データの特徴量が出力される確率と潜在クラス分布との積の総和が最大となるように求めることにより得られたものであり、
前記潜在クラス事前分布パラメタは、前記潜在クラス分布を用いて、全ての潜在クラスの潜在クラス分布の総和に対する各潜在クラスの潜在クラス分布の割合を求めることにより得られたものである、
音声認識方法。 - 音響モデル格納部には、潜在クラス毎に異なる複数の、潜在クラスの起こりやすさを示す潜在クラス事前分布パラメタと、特徴量生成分布のパラメタである特徴量生成分布パラメタと、ニューラルネットワーク音響モデルのニューラルネットワークパラメタと、学習データを観測した上での潜在クラスの起こりやすさを示す潜在クラス分布とが格納されるものとし、
前記潜在クラス分布と、学習用音声データの状態変数の系列の群である学習用状態変数系列群と学習用音声データの特徴量の系列の群である学習用特徴量系列群とを用いて、前記ニューラルネットワークパラメタを更新するニューラルネットワーク学習ステップと、
前記潜在クラス分布と、入力された学習用音声特徴量とを用いて、前記特徴量生成分布パラメタを更新する特徴量生成分布学習ステップと、
前記潜在クラス分布を用いて、前記潜在クラス事前分布パラメタを更新する潜在クラス事前分布学習ステップと、
前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ、入力された前記学習用状態系列及び前記学習用音声特徴量を用いて、前記潜在クラス分布を更新する潜在クラス分布学習ステップとを含み、
前記ニューラルネットワークパラメタ、前記特徴量生成分布パラメタ、前記潜在クラス事前分布パラメタ及び前記潜在クラス分布の更新が収束するまで、前記ニューラルネットワーク学習ステップ、特徴量生成分布学習ステップ、潜在クラス事前分布学習ステップ及び潜在クラス分布学習ステップにおける処理を繰り返す、
音響モデル学習方法。 - 請求項9記載の音響モデル学習方法であって、
kを潜在クラスのインデックス、nを発話のインデックス、tをフレームのインデックス、qn,kを前記潜在クラス分布、st (n)を学習用音声データの状態変数、xt (n)を学習用音声データの特徴量とし、前記ニューラルネットワーク学習ステップにおいて、次式により、前記ニューラルネットワークパラメタΛkを更新し、
前記特徴量生成分布学習ステップにおいて、次式により、前記特徴量生成分布パラメタΘkを更新し、
前記潜在クラス事前分布学習ステップは、次式により、前記潜在クラス事前分布パラメタpkを更新し、
前記潜在クラス分布学習ステップにおいて、次式により、前記潜在クラス分布qn,kを更新する、
音響モデル学習方法。 - 請求項1から請求項3の何れかに記載の音声認識装置としてコンピュータを機能させるためのプログラム。
- 請求項4または請求項5記載の音響モデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013028984A JP5982297B2 (ja) | 2013-02-18 | 2013-02-18 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013028984A JP5982297B2 (ja) | 2013-02-18 | 2013-02-18 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014157323A true JP2014157323A (ja) | 2014-08-28 |
JP5982297B2 JP5982297B2 (ja) | 2016-08-31 |
Family
ID=51578207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013028984A Active JP5982297B2 (ja) | 2013-02-18 | 2013-02-18 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5982297B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016122110A (ja) * | 2014-12-25 | 2016-07-07 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
JP2017054122A (ja) * | 2015-09-10 | 2017-03-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響モデル生成装置及び方法、音声認識装置及び方法 |
CN107302737A (zh) * | 2016-04-14 | 2017-10-27 | 哈曼国际工业有限公司 | 利用反褶积滤波器进行的基于神经网络的扬声器建模 |
CN108604449A (zh) * | 2015-09-30 | 2018-09-28 | 苹果公司 | 说话者识别 |
WO2018190547A1 (ko) * | 2017-04-14 | 2018-10-18 | 한양대학교 산학협력단 | 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 |
CN108701452A (zh) * | 2016-02-02 | 2018-10-23 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序 |
JP2019095599A (ja) * | 2017-11-22 | 2019-06-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
JP2019095600A (ja) * | 2017-11-22 | 2019-06-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
JPWO2018163011A1 (ja) * | 2017-03-09 | 2020-03-05 | 株式会社半導体エネルギー研究所 | 半導体装置および放送システム |
US12118999B2 (en) | 2014-05-30 | 2024-10-15 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US12136419B2 (en) | 2019-03-18 | 2024-11-05 | Apple Inc. | Multimodality in digital assistant systems |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111798B (zh) * | 2019-04-29 | 2023-05-05 | 平安科技(深圳)有限公司 | 一种识别说话人的方法、终端及计算机可读存储介质 |
KR20210044559A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0667698A (ja) * | 1992-06-19 | 1994-03-11 | Seiko Epson Corp | 音声認識装置 |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
JP2004530155A (ja) * | 2001-03-28 | 2004-09-30 | クゥアルコム・インコーポレイテッド | 話し手に暗黙的に順応する技術を用いた音声認識システム |
WO2008001485A1 (fr) * | 2006-06-26 | 2008-01-03 | Nec Corporation | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue |
JP2008076865A (ja) * | 2006-09-22 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
JP2010170075A (ja) * | 2008-12-26 | 2010-08-05 | Fujitsu Ltd | 情報処理装置、プログラム、および音響モデルを生成する方法 |
-
2013
- 2013-02-18 JP JP2013028984A patent/JP5982297B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0667698A (ja) * | 1992-06-19 | 1994-03-11 | Seiko Epson Corp | 音声認識装置 |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
JP2004530155A (ja) * | 2001-03-28 | 2004-09-30 | クゥアルコム・インコーポレイテッド | 話し手に暗黙的に順応する技術を用いた音声認識システム |
WO2008001485A1 (fr) * | 2006-06-26 | 2008-01-03 | Nec Corporation | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue |
JP2008076865A (ja) * | 2006-09-22 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
JP2010170075A (ja) * | 2008-12-26 | 2010-08-05 | Fujitsu Ltd | 情報処理装置、プログラム、および音響モデルを生成する方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12118999B2 (en) | 2014-05-30 | 2024-10-15 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
JP2016122110A (ja) * | 2014-12-25 | 2016-07-07 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
CN106297773B (zh) * | 2015-05-29 | 2019-11-19 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
JP2017054122A (ja) * | 2015-09-10 | 2017-03-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響モデル生成装置及び方法、音声認識装置及び方法 |
CN108604449A (zh) * | 2015-09-30 | 2018-09-28 | 苹果公司 | 说话者识别 |
CN108604449B (zh) * | 2015-09-30 | 2023-11-14 | 苹果公司 | 说话者识别 |
CN108701452A (zh) * | 2016-02-02 | 2018-10-23 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序 |
CN108701452B (zh) * | 2016-02-02 | 2023-09-26 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质 |
CN107302737A (zh) * | 2016-04-14 | 2017-10-27 | 哈曼国际工业有限公司 | 利用反褶积滤波器进行的基于神经网络的扬声器建模 |
JPWO2018163011A1 (ja) * | 2017-03-09 | 2020-03-05 | 株式会社半導体エネルギー研究所 | 半導体装置および放送システム |
JP7208889B2 (ja) | 2017-03-09 | 2023-01-19 | 株式会社半導体エネルギー研究所 | 放送システム |
US11017791B2 (en) | 2017-04-14 | 2021-05-25 | Industry-University Cooperation Foundation Hanyang University | Deep neural network-based method and apparatus for combining noise and echo removal |
WO2018190547A1 (ko) * | 2017-04-14 | 2018-10-18 | 한양대학교 산학협력단 | 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 |
JP2019095600A (ja) * | 2017-11-22 | 2019-06-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
JP2019095599A (ja) * | 2017-11-22 | 2019-06-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
US12136419B2 (en) | 2019-03-18 | 2024-11-05 | Apple Inc. | Multimodality in digital assistant systems |
Also Published As
Publication number | Publication date |
---|---|
JP5982297B2 (ja) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
JP5768093B2 (ja) | 音声処理システム | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
Sadhu et al. | Continual Learning in Automatic Speech Recognition. | |
Yu et al. | Deep neural network-hidden markov model hybrid systems | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
Bacchiani et al. | Context dependent state tying for speech recognition using deep neural network acoustic models | |
Price et al. | Speaker adaptation of deep neural networks using a hierarchy of output layers | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
Bacchiani et al. | Asynchronous, online, GMM-free training of a context dependent acoustic model for speech recognition | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
Jyothi et al. | Lexical access experiments with context-dependent articulatory feature-based models | |
JP2013182260A (ja) | 言語モデル作成装置、音声認識装置、およびそのプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
Yu et al. | Hidden Markov models and the variants | |
Long et al. | Domain adaptation of lattice-free MMI based TDNN models for speech recognition | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5982297 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |