JP3457431B2 - 信号識別方法 - Google Patents
信号識別方法Info
- Publication number
- JP3457431B2 JP3457431B2 JP17687295A JP17687295A JP3457431B2 JP 3457431 B2 JP3457431 B2 JP 3457431B2 JP 17687295 A JP17687295 A JP 17687295A JP 17687295 A JP17687295 A JP 17687295A JP 3457431 B2 JP3457431 B2 JP 3457431B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- equation
- registered
- hmm
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 62
- 230000014509 gene expression Effects 0.000 claims description 18
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 2
- 230000006870 function Effects 0.000 description 43
- 238000012549 training Methods 0.000 description 27
- 238000013459 approach Methods 0.000 description 25
- 238000012360 testing method Methods 0.000 description 18
- 239000000203 mixture Substances 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 230000009466 transformation Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000007476 Maximum Likelihood Methods 0.000 description 14
- 239000000654 additive Substances 0.000 description 14
- 230000000996 additive effect Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 230000006978 adaptation Effects 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 241000115929 Anabolia appendix Species 0.000 description 1
- 101150087426 Gnal gene Proteins 0.000 description 1
- 244000018764 Nyssa sylvatica Species 0.000 description 1
- 235000003339 Nyssa sylvatica Nutrition 0.000 description 1
- 238000006990 Watanabe cyclization reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000003931 cognitive performance Effects 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
に、悪環境での使用に適した自動信号認識システムの性
能を改善することに関する。
認識システムである。
という。)は、話者から受け取った入力(すなわち音
声)において単語の集合を認識することができる。認識
した入力に基づいて、機能が実行される。システムを電
話網で使用する場合、その機能は例えば話者をオペレー
タに接続することである。
するように事前にトレーニングされる。各単語をキーワ
ードという。トレーニングは、トレーニング音声を入力
し、キーワードのモデルを形成して記憶することによっ
て行うことができる。
テムは入力音声内に含まれるキーワードを認識すること
ができる。システムは、入力音声を記憶されたキーワー
ドモデルと比較することによってこれを行う。入力音声
内のキーワードが認識されると、システムはその単語に
関係づけられた機能を実行する。
で入力音声内のキーワードを識別するが、多くの改良の
余地がある。システムの精度は、システムの「平均単語
誤り率」によって測定することができる。「平均単語誤
り率」は、システムがキーワードを含む発声内で誤った
キーワードを認識するかまたはキーワードが発声されて
いないときにキーワードを識別する頻度の測度である。
「不一致」である。不一致は、システムがある入力シス
テム(例えば、マイクロホンおよびケーブル)を使用し
てトレーニングされ、別の入力システム(例えば、電話
ハンドセットおよび接続された電話網システム)で使用
されるときに生じることがある。不一致は、この例の場
合、人の声がマイクロホンを通過するときに電話システ
ムの場合と異なる特性を示すために生じるといわれてい
る。
で注意を受けている。この不一致問題を解決しようとし
た少なくとも3つの方法がある。
依存してアプリケーションごとにシステムを訓練するこ
とによって、不一致問題を解決することが提案されてい
る。この提案は2つの問題点を有する。第1に、アプリ
ケーションごとにシステムをトレーニングすることは時
間を消費し高価である。第2に、システムは、異なる音
声入力媒体(例えば、電話およびセルラ電話)がシステ
ムで使用可能である場合には、やはり不一致問題の影響
を示すことになる。
デルを作成することによって不一致問題を解決すること
が提案されている。複数の入力媒体の効果の混合物を反
映するモデルがある。この提案にも2つの問題点があ
る。第1に、プールモデルは、他のモデルよりも作成す
るのが高価である(そして一般に時間もかかる)。第2
に、与えられた任意の入力システムに対して、その入力
システムに基づいて作成されるモデルはプールモデルよ
りも高い精度を有する。
オフセット因子を付加することによって不一致問題を解
決することが提案されている。付加されるオフセット因
子は、信号が受ける歪みを相殺するのに必要なものの推
定値を表す。このオフセット因子はコードブック探索に
よって決定される。コードブックは多くのエントリ(代
表的には256個)からなる。これらのエントリは、入
力システムの集合からのオフセット値を表す。例えば、
コードブックは、第1のタイプの入力システム(例え
ば、第1のタイプのマイクロホンおよび第1のタイプの
チャネル)に基づく64個のエントリと、第2のタイプ
の入力システムに基づく第2の64個のエントリと、第
3のタイプの入力システムに基づく第3の64個のエン
トリと、第4のタイプの入力システムに基づく第4の6
4個のエントリとを有する。しかし、この提案にも問題
点がある。音声信号として使用される入力が第1、第
2、第3、または第4のタイプの入力システムではない
場合には、使用される入力が256個のコードブックエ
ントリの集合によって正しく特徴づけられないことがあ
る。これによって、音声認識システムの精度は悪くな
る。
かかわらず、不一致条件下での認識に対する平均単語誤
り率は多くのアプリケーションでは未だに不満足なもの
である。不一致問題の解決が必要とされる。
で信号の平均誤り率を大幅に縮小する方法を提供する。
本発明の方法は、信号(例えば音声信号)と記憶された
表現(例えばキーワードの記憶表現)の集合をとり、相
対的に、記憶表現をより良好にエミュレートする信号を
生じる少なくとも1回の変換を実行する。例えば、これ
は、3つの技術のうちの1つを使用することによって実
現される。第1に、信号が記憶表現のうちの1つによっ
てより良く近似される(例えば接近する)ように信号を
変換することがある。第2に、記憶表現のうちの1つが
信号をより良く近似するように記憶表現の集合を変換す
ることがある。第3に、信号および記憶表現の集合の両
方を変換することがある。
のアプリケーションごとにトレーニングする必要はない
という効果がある。
は、プールモデルやコードブックを使用する既知のシス
テムよりも高い精度を有するという効果がある。
するという状況で説明する。しかし、当業者には明らか
なように、本発明は、物理システムからの物理信号が認
識のために記憶表現の集合と比較されるような任意のタ
イプのシステム(例えば、ファクシミリシステム、衛星
システム、光学式文字認識システムなど)で使用可能で
ある。さらに、「強固な音声認識のための確率論的マッ
チングへの最尤アプローチ(A Maximum Likelihood Appr
oach to Stochastic Matching for Robust Speech Reco
gnition)」という題名の論文を付録Aとして記載する。
付録Aは本発明を例示することのみを意図したものであ
る。
個別の機能ブロックからなるものとして表す。これらの
ブロックが表現する機能は、共用または専用のハードウ
ェアの使用によって実現される。ハードウェアには、ソ
フトウェアを実行可能なハードウェアも含まれるが、そ
れに限定されるものではない。例えば、図2のブロック
200、202、および206の機能は単一の共用プロ
セッサによって実現することができる。「プロセッサ」
という用語の使用は、ソフトウェアを実行可能なハード
ウェアのみを指すと解釈してはならない。
SP32Cのようなディジタル信号プロセッサ(DS
P)と、以下で説明する動作を実行するソフトウェアを
記憶する読み出し専用メモリ(ROM)と、DSPの結
果を記憶するランダムアクセスメモリ(RAM)とから
なることが可能である。超大規模集積(VLSI)ハー
ドウェア実施例や、カスタムVLSI回路と汎用DSP
回路の組合せも実現可能である。
る前に、既知の音声認識システムについて簡単に説明す
る。
換器100に入力される。簡単のため、S(t)は、1
個のキーワードを含みそれ以外は含まない発声であると
仮定する。変換器100は音声信号S(t)を周波数領
域に変換し、信号S(f)を生成する。S(f)はオフ
セット計算器102に入力される。オフセット計算器1
02はSi′(f)を出力する。Si′(f)はS(f)
にコードブック104に記憶されているオフセット値O
Viを加えたものに等しい。Si′(f)は比較器106
に入力され、そこで、HMM記憶装置108に記憶され
ている隠れマルコフモデル(HMM)の集合と比較され
る。HMM記憶装置108内の各HMMはキーワードに
対するHMMである。Si′(f)を各HMMと比較し
た後、比較器106は、最も良くSi′(f)に一致す
るHMMによって表現される単語を出力する。この単語
をWiで表す。次に、このプロセスはコードブック10
4内の各オフセット値に対して反復される。各OViに
対して、新たなWiが比較器106によって決定され
る。Wiが各オフセット値OViに対して決定されると、
最も高い尤度スコアのWiが、発声に含まれるキーワー
ドを表すものとして選択される。
に、本発明を、3つの異なる実施例における音声認識シ
ステムについて説明する。第1実施例は、音声信号の表
現(例えばケプストラム表現)を、記憶されている少な
くとも1つのHMMにより良く類似するように変換す
る。第2実施例は、記憶HMMを、音声信号の表現によ
り良く類似するように変換する。第3実施例は、信号お
よび記憶表現の集合の両方を変換し、信号が記憶HMM
に類似しているよりも、変換した信号が変換した少なく
とも1つのHMMに良く類似するようにする。
る。音声信号S(t)は変換器200に入力される。音
声認識環境では、変換器200は任意のタイプの特徴抽
出装置(例えば、スペクトラム分析装置、ケプストラム
分析装置など)である。再び簡単のため、S(t)は1
個のキーワードを含む発声であると仮定する。変換器2
00は音声信号S(t)を周波数領域に変換し信号S
(f)を生成する。S(f)は変換プロセッサ202に
入力される。これは、図2および図3に示されているよ
うに変換決定器とも呼ぶ。変換プロセッサ202は
Si′(f)を出力する。Si′(f)はQiG(S
(f))にオフセット値OViを加えたものに等しい。
Qiはスケールファクタであり、Gは、変換記憶装置2
04に記憶されているS(f)の関数である。S(f)
の「関数」は、変換プロセッサで計算される。この関数
は必ずしもQiを含むとは限らない。しかし、この「関
数」は、少なくとも3つのことなる形式を含むほどに広
いものである。特に、この「関数」はQiG(S
(f))、QiS(f)、またはG(S(f))の形式
が可能である。Gは任意の線形または非線形の関数であ
り、その形式はアプリケーションに依存し、信号タイ
プ、予想される歪み、および特徴抽出方法(例えば、ケ
プストラム、スペクトラムなど)を含む因子に依存す
る。Gが上記の因子に基づいて変化するしかたは当業者
には容易に明らかとなる。例えば、信号タイプが音声で
あり、予想される歪みが電話網のチャネル歪みであり、
特徴抽出方法がケプストラム分析である場合、G(x)
=xである。
ために、システムの初期通過(初期識別)が必要であ
る。初期通過中にはSi′(f)はS(f)に等しく
(すなわち、Qi=1、G(x)=x、およびOVi=
0)、比較器206は単にS(f)と各HMMの間の比
較を実行して第1の尤度値の集合を決定する。この第1
尤度値集合に基づいて、Wiを決定する。Wiは、初期
通過でのSi′(f)に最も近いHMM(すなわちHM
Mi)によって表現される単語である。
換プロセッサ202はHMM記憶装置208からHMM
iを受信する。HMM記憶装置208は、初期識別後に
比較器206からインデックスiを送信されるため、H
MMiを選択する。変換プロセッサ202はS(f)、
HMMi、および変換記憶装置からの入力Gを使用し
て、関数を計算し、スケールファクタQiおよびオフセ
ット値OViを決定する。QiおよびOViは付録Aの式
32および式33に従って決定される。OVi、Qiお
よびGはこれで既知となるため、変換プロセッサは、S
(f)をとり、上記の式に従ってこれを新たなSi′
(f)に変換することが可能となる。
G(S(f))と記述されるS(f)の関数である。変
換(例えばSi′(f)=Qi(G(S(f))+O
Vi)が変換プロセッサ202によって決定されるとき
に「決定される」必要がある項目はQiおよびOViであ
るため、これは重要である。方程式が2個および未知数
が2個あるため、QiおよびOViはどちらを先に(すな
わちQiが先でOViが後またはOViが先でその後に
Qi)決定することも可能である。この変換を決定する
ことはある状況では関数全体(例えばQiおよびG)で
はなく関数の一部(例えばG)に基づくこともある。例
えば、関数がQiG(S(f))であるとみなされると
する。この関数は計算可能である。しかし、OViにつ
いて先に解きQiについて後に解くことによって変換を
決定する場合、関数の少なくとも一部の項(すなわちQ
i)は変換のOVi部分を決定するのに必要ではない。O
Viが決定されると、Qiを決定することは自明でありO
Viに依存する。従って、変換は関数の少なくとも一部
の項に基づいて決定されることがある。
(f)を各HMMと比較し、第2の尤度値の集合を決定
する。この第2尤度値集合に基づいてWiを決定する。
この新たなWiは新たなSi′(f)に最も近いHMMで
ある新たなHMMiに対応する。このプロセスは反復さ
れることもあるが、アプリケーションによっては反復す
る必要はない。例えば、新たなWiからのインデックス
iは次のHMMiを識別するHMM記憶装置208に渡
される。次のHMMiは、S(f)およびGとともに、
変換プロセッサに入力される。この情報により、変換プ
ロセッサは次のQiおよび次のOViを決定する。
て、新たなSi′(f)が特定のHMMに最も類似する
ものとして識別される。しかし、図2について説明した
プロセスは反復されることが可能であり、プロセスの追
加反復が所望されるような場合もある。このような場合
には、プロセスの反復を何回実行するかを決定するいく
つもの方法がある。例えば、特定のHMMiが現在の
Si′(f)に対するあるしきい値より高くなった場合
に追加反復を行わないと決定することも可能である。ま
た、ある一定回数の反復より多くを行わないと決定する
ことも可能である。また、以上の2つの方法を組み合わ
せて、あるしきい値より高いHMMiがない限り一定回
数の反復を行うことも可能である。このほかにも、当業
者には容易に明らかなように、プロセスの反復を何回実
行するかを決定するために使用可能な他のいくつもの方
法がある。
る。音声信号S(t)は変換器300に入力され、音声
信号の周波数表現S(f)を生成する。再び簡単のた
め、S(t)は1個のキーワードを含む発声であると仮
定する。S(f)は比較器302に入力される。システ
ムの初期通過中には、S(f)はHMMの集合(例えば
HMM′)と比較される。HMM′は、HMM記憶装置
304に記憶されているHMMの別の集合に基づいたH
MMの集合である。HMM′内の各HMMはHMM記憶
装置のHMMにオフセット値OVを加えたものに等し
い。初期通過の場合、OVは0に等しく設定される。初
期通過は第1の尤度値の集合を生成する。HMM′内で
最も高い尤度値を与える特定のHMMによって表される
単語Wiが識別される。このHMMは、例えば、HM
M′内のi番目のHMMである。こうして、Wiは、音
声信号S(t)に最も近い単語の初期決定を表す。
M記憶装置304に入力される。HMM記憶装置304
はこのi番目のHMM(すなわちHMMi)を識別し、
それを変換プロセッサ306に入力する。HMMiおよ
びS(f)に基づいて、変換プロセッサ306はオフセ
ット値OVを決定する。OVは、HMMi、S(f)、
および付録Aの式47および式49に基づいて決定され
る。OVは、HMMi、S(f)、および付録Aの式5
3および式54に基づいて決定することも可能である。
一般に、式47および式49の使用は、式53および式
54の使用よりも計算量的にわずかに効率的であるがわ
ずかに有効でない。
に加えて新たなHMMの集合(すなわち新たなHM
M′)を生成する。これは変換プロセッサ306で行わ
れる。こうして、HMM記憶装置304内の記憶HMM
の集合が、変換されたHMMの集合(すなわち新たなH
MM′)を生成するために変換される。
(f)と比較される。この比較により、第2の尤度値の
集合が生成される。この第2尤度値集合に基づいてWi
が決定される。この新たなWiは、新たなHMM′内の
HMMに対応する。このプロセスは反復されることもあ
るが、アプリケーションによっては反復する必要はな
い。
る。そのような場合、当業者には容易に明らかなよう
に、プロセスの反復を何回実行するかを決定するいくつ
もの方法がある。
例の両方からの技術を使用する。従って、第3実施例は
図2および図3を参照して説明する。
内の少なくとも1つのHMMを互いに接近させる反復法
を使用する。例えば、S(t)が図2のシステムに入力
されWiが生成される。しかし、インデックスiを図2
のHMM記憶装置208に送る代わりに、インデックス
iは図3のHMM記憶装置304に送られる。次に、図
3のシステムはHMMiおよびS(t)を使用して新た
なWiを生成する。第3実施例に従って形成されるシス
テムによって実行されるプロセスは、1回だけが所望さ
れる場合には完了しない可能性もある。しかし、アプリ
ケーションに基づいて追加反復が所望される場合、図3
の新たなWiは新たなインデックスiを図3のHMM記
憶装置304ではなく図2のHMM記憶装置208に送
る。次に、図2のシステムはプロセスを実行して現在の
Wiを生成する。次に、現在のWiに対応するiの値が再
び図3のHMM記憶装置304に送られる。これは必要
なだけ続けることができる。追加反復が所望される場
合、当業者には容易に明らかなように、プロセスの反復
を何回実行するかを決定するいくつもの方法がある。
業者には明らかである。第1に、実行する反復回数にか
かわらず、第3実施例は、図2または図3に関して説明
した技術のいずれを最初に実行することによっても使用
可能である。第2に、反復はさまざまな方法で実行可能
である。例えば、次のような方法がある。 1.図2に関して説明した初期識別手順を実行した後、
図3に関して説明した手順を実行するか、またはその
逆。 2.図2に関して説明した初期識別手順およびその後の
手順を実行した後、図3に関して説明した手順を実行す
るか、またはその逆。 他の可能性は当業者には明らかである。
たが、当業者には明らかなように、本発明は、物理信号
を記憶された表現の集合と比較するような任意のタイプ
のシステムで使用可能である。そのようなシステムに
は、ファクシミリ認識システム、衛星伝送・認識システ
ム、話者認識システム、署名認識システム、および光学
式文字認識システムならびにその他の画像または音響認
識システムがあるが、これらに限定されるものではな
い。さらに、各記憶表現は、その記憶表現が信号に類似
するものとして識別された場合に実行する対応する動作
を有することが可能である。この動作はアプリケーショ
ンに依存し、例えば、電話網では発呼者をオペレータに
接続することである。当業者には理解されるように、ア
プリケーションに依存して実行されるさまざまな動作が
ある。最後に、開示したシステムは単語を表す記憶モデ
ルに関して説明したが、当業者には理解されるように、
この記憶モデルは、アプリケーションに依存して、音
素、または、音声もしくはデータの他の要素のモデルと
することも可能である。
劣化を縮小するために、試験発声と与えられた音声モデ
ルの集合の間の音響不一致を減少させる最尤(ML)確
率論的不一致アプローチを開示する。音声信号が部分語
隠れマルコフモデル(HMM)の集合ΛXによってモデ
ル化されると仮定する。観測される試験発声Yとモデル
ΛXの間の不一致は2つの方法、すなわち、(1)Y
を、モデルΛXとより良く一致する発声Xに写像する逆
歪み関数Fν(・)によって、および、(2)ΛXを、
発声Yにより良く一致する変換されたモデル(変換済み
モデル)ΛYに写像するモデル変換関数Gη(・)によ
って、縮小することができる。変換Fν(・)またはG
η(・)の関数形を仮定し、期待値最大化(EM)アル
ゴリズムを使用して最尤的にパラメータνまたはηを推
定する。Fν(・)またはGη(・)の形の選択は、音
響不一致の性質の事前の知識に基づく。
ムの性質を調べ、異なるトランスデューサおよび伝送チ
ャネルによる不一致の存在するHMMベースの連続音声
認識システムの性能の改善におけるこのアプローチの効
力を確認する。提案する確率論的マッチングアルゴリズ
ムは急速に収束することがわかる。さらに、不一致条件
における認識性能は大幅に改善される一方、一致条件に
おける性能も良好に維持される。不一致条件におけるこ
の確率論的マッチングアルゴリズムによる平均単語誤り
率の縮小は約70%である。
能を改善するという問題に関心が集まっている。トレー
ニング環境と試験環境の間に不一致があると、ASRシ
ステムの性能は劣化する。強固な音声認識の目標は、こ
の不一致の影響を除去して一致条件にできるだけ近い認
識性能を実現することである。音声認識では、音声は通
常隠れマルコフモデル(HMM)ΛXの集合によってモ
デル化される。認識中、観測される発声Yはこれらのモ
デルを使用して復号される。トレーニング条件と試験条
件の間の不一致により、この性能は不一致条件に比較し
て劣化することが多い。
は、図4に示した信号空間、特徴空間、またはモデル空
間で見ることができる。図4では、Sはトレーニング環
境における原音声を示す。トレーニング環境と試験環境
の間の不一致は、SをTに変換する歪みD1によってモ
デル化される。音声認識では、まず何らかの形の特徴抽
出が実行される。その特徴を、トレーニング環境ではX
で表し、試験環境ではYで表す。特徴空間におけるこれ
ら2つの環境の間の不一致は、特徴Xを特徴Yに変換す
る関数D2によってモデル化される。最後に、特徴Xを
使用してモデルΛXを構築する。モデル空間では、トレ
ーニング環境と試験環境の間の不一致は、ΛXをΛYに写
像する変換D3とみなすことができる。不一致の原因に
は、加法的ノイズ、スペクトラム傾斜およびスペクトラ
ム形成に寄与するチャネルとトランスデューサの不一
致、話者の不一致、異なるアクセント、強制、および異
なる話し方がある。最近の多くの研究は、加法的ノイズ
およびチャネルの効果の問題に集中している。
一般的に3つの大まかなカテゴリーに分けられる。第1
のカテゴリーでは、強固な信号処理を使用して、可能な
歪みに対する特徴の感度を減少させるものである。1つ
のアプローチでは、リフタリングのようなスペクトラム
形成を行う。その考え方は、低次および高次のケプスト
ラム成分をデエンファサイズすることである。これらの
成分は、チャネルノイズおよび加法的ノイズの効果に敏
感であることがわかっているからである。発声からの長
時間ケプストラム平均を減算することに基づく方法も提
案されている。この考え方は、チャネルによる不一致を
除去するために一般的に使用される。またこの第1のカ
テゴリーには、スペクトラムシーケンスをハイパスフィ
ルタリングして緩変動チャネルの効果を除去する方法も
ある。聴覚モデリングに基づく方法では、信号処理を使
用して人間の耳の処理を模倣し、より強固な特徴が得ら
れることを期待する。音声特徴へのノイズの影響を縮小
することができる信号制限プリプロセッサの使用も知ら
れている。ノイズの影響を縮小するもう1つの方法は、
トレーニングデータに環境ノイズの一部を注入してシス
テムを再トレーニングすることである。この技術はディ
ザリングに似ている。また、スペクトラム減算に基づく
方法もある。この方法では、ノイズパワースペクトラム
の推定値を各音声フレームから減算する。この第1のカ
テゴリーのアプローチは、一般に何らかの形の強固な特
徴前処理を含むので、特徴空間(図4)で作用するとみ
なすことができる。
使用して、明瞭な音声の関数の推定値を形成することで
ある。音声スペクトラムの関数の最小平均2乗誤差(M
MSE)推定に基づく定式化において、破壊的ノイズが
独立のガウス過程であると仮定するものが知られてい
る。さらに、各スペクトラムビンは別個に推定される。
個々のビンは独立であると仮定したためである。音声分
布をガウシアンの混合(ミクスチャ)としてモデル化し
て、別々のスペクトラムビン間の相関を各ミクスチャの
対角共分散行列でモデル化する。最後に、音声の時間構
造は、隠れマルコフモデル(HMM)によって音声をモ
デル化することにより考慮される。これらのアプローチ
は、信号空間と特徴空間のいずれの表現を推定している
かに依存して、音声強化として信号空間で、または、ス
ペクトラム補償として特徴空間で、見ることができる。
し直接認識プロセスに組み込む。このアプローチの1つ
は、ノイズマスキングに基づく。この考え方では、信号
エネルギーがある適当なノイズレベル以下になった場合
に、そのノイズレベルでフィルタバンクエネルギーを置
き換える。こうして、ノイズによって顕著に破壊された
情報は無視される。モデル分解と呼ばれるもう1つのア
プローチでは、音声およびノイズの別々のHMMをトレ
ーニングデータからトレーニングする。認識中には、こ
れらの2つのモデルの結合状態空間でビタビ検索を実行
する。この方法はかなり良好に動作することが示されて
いるが、音声およびノイズの両方に対する精度の良いモ
デルが必要である。このモデル分解アプローチは上記の
アプローチに似ている。しかし、原音声のパラメータ
は、認識中のノイズのある音声から推定される。信号と
ノイズのモデルの間のさらに一般的な相互作用を許容し
た、ノイズのあるデータから原音声パラメータを推定す
る問題は良く研究されている。この場合、信号はガウシ
アンのミクスチャとしてモデル化されると仮定される。
このカテゴリーのさらにもう1つの方法では、HMMパ
ラメータを推定する前に、トレーニング音声のエネルギ
ー等高線の最尤(ML)推定を使用して音声を正規化す
る。試験中には、明瞭な利得パラメータのML推定がノ
イズのある音声から計算され、それを使用して、音声モ
デルのパラメータを正規化する。音声認識に対するミニ
マックス法は既知であり、認識器は、トレーニング中に
推定された値の近傍をHMMパラメータが占有するよう
にすることによってさらに強固となる。これらのアプロ
ーチは、図4に示したモデルにおける可能な歪みを扱う
モデル空間で作用するとみなされる。
では、各話者を基準話者に変換する固定バイアスを推定
した後、推定されたバイアスを各音声フレームから減算
する。類似のアプローチが、音声がベクトル量子化(V
Q)コードブックによってモデル化されるような音声認
識においてチャネル不一致を推定するために使用されて
いる。チャネル不一致を推定するもう1つのアプローチ
として、推定が、2つのチャネルの平均対数スペクトラ
ム間の差に基づいて行うことが提案されている。
めの確率論的マッチングへのMLアプローチである。本
方法では、発声の認識中に、MLアプローチを使用する
ことによって、観測発声と原音声モデルの間の不一致を
縮小する。この不一致は少なくとも2つの方法で縮小す
ることができる。第1に、歪んだ特徴Yを原特徴Xの推
定値に写像し、原モデルΛXを認識に用いることができ
るようにすることが可能である。第2に、原モデルΛX
を、観測発声Yにより良く一致する変換済みモデルΛY
に写像することが可能である。第1の写像は特徴空間で
作用し、第2の写像はモデル空間で作用する(図4)。
これらの写像を、特徴空間ではFν(Y)で表し、モデ
ル空間ではGη(ΛX)で表す。ただしνおよびηは推
定すべきパラメータである。これらの写像の関数形は、
音響不一致の性質に関する事前の情報に依存する。次
に、与えられたモデルΛXに対して観測音声Yの尤度を
最大化して歪みによる不一致を減少させるようにこれら
の関数のパラメータνまたはηを推定する。目標は認識
を改善するために不一致を縮小することであり、ΛXは
認識に使用するモデルであるので、パラメータνおよび
ηを推定するための音声モデルとしてHMMのΛXを使
用することは直感的に興味のあることである。MLパラ
メータ推定は、反復して尤度を改善する期待値最大化
(EM)アルゴリズムを使用して解かれる。本発明の確
率論的マッチングアルゴリズムは与えられた試験発声お
よび与えられた音声モデルの集合のみに作用するため、
実際の試験前の不一致の推定にトレーニングは不要であ
る。上記の2つの方法をともに使用して、不一致の効果
を縮小する第3の方法とすることも可能である。
よる不一致の存在下で連続音声認識システムの性能を改
善するアプローチの効力を示すために実験結果を提示す
る。この不一致は、固定バイアス(特徴空間において)
として、およびランダムバイアス(モデル空間におい
て)としての両方でモデル化される。提案するアプロー
チは、不一致条件で単語誤り率を約70%縮小し、一致
条件下での性能を維持した。本発明のアルゴリズムは、
急速に収束する(反復2回以内)こともわかった。
節で、変換Fν(・)およびGη(・)のパラメータの
最尤推定に対する一般的な枠組みを説明する。第3節
で、特徴空間変換の場合を説明する。特に、未知パラメ
ータに関して線形であるが、観測値に関して非線形な逆
歪み関数のパラメータの推定値に対する表式を導出す
る。特別な場合として、加法的バイアスモデルを考察す
る。第4節で、変換をモデル空間で見る。特に、ランダ
ム加法的バイアス歪みの場合を考察する。
{λxi}(ただし、λxiはi番目のクラスのモデルであ
る。)、および試験データの集合Y={y1,
y2,...,yT}が与えられた場合に、Yに埋め込まれ
た事象の列W={W1,W2,...,WL}を認識すること
が所望される。連続音声認識の場合、例えば、λxiはi
番目の部分語HMM単位に対応し、Yは特定の試験発声
に対応する。その場合Wは復号された単音または単語の
列となる。モデルΛXをトレーニングする際には、トレ
ーニングデータの集合に制限される。残念ながら、この
トレーニングデータと試験データYの間に不一致が存在
することがあり、このことは、認識される列Wにおける
誤りを引き起こす。この不一致は、もとの信号空間、特
徴空間、またはモデル空間(図4)で見ることができ
る。図中、関数D(・)は原空間を対応する歪みのある
空間に写像する。不一致の原因には、信号中の歪み、信
号の不完全な特徴づけ、不十分な量のトレーニングデー
タ、または不適切なモデル化および推定誤差がある。以
下では、トレーニング音声データと試験音声データの不
一致による音声認識性能の劣化の問題を考える。この不
一致は、マイクロホンとチャネルの不一致、トレーニン
グと試験の環境の相違、話者および話し方またはアクセ
ントの相違、またはこれらの任意の組合せによる可能性
がある。
大事後(MAP)デコーダ
えられた場合にYを観測する尤度であり、第2項は単語
列Wの事前確率である。この第2項は、許容単語列の集
合に制約を加える言語モデルと呼ばれる。トレーニング
環境と試験環境の間の不一致により、式1によって評価
されるΛXが与えられたときのYの尤度に対応する不一
致があり、復号された列W′に誤りを引き起こす。この
不一致を減少させることにより認識性能が改善される。
{x1,x2,...,xT}を観測値の列Y={y1,
y2,...,yT}に写像するとする。この歪みが可逆で
ある場合、次のような逆関数FνでYを原音声Xに写像
することができる。
は、モデル空間において、パラメータηを有しΛXを変
換済みモデルΛYに写像する変換Gηを考える。
は、モデルΛXが与えられたときの式1のYとWの結合
尤度を最大にするパラメータνまたはηおよび単語列W
を見つけることである。すなわち、特徴空間では、次の
ようなν′を見つけることが必要である。
ことが必要である。
るηとWに関するこの同時最大化は、νまたはηを固定
してWについて最大化し、その後、Wを固定してνまた
はηについて最大化することを反復することにより行わ
れる。この手続きを、概念的に、特徴空間について図5
に、また、モデル空間について図6に示す。
って扱われている。パラメータνおよびηを見つける問
題は興味がある。表式を簡単にするため、W依存性を除
去し、式5および7に対応する最尤推定問題を
分語HMMの集合であると仮定する。i,j=
1,...,Nに対して、状態iからjへの遷移確率をa
i,jで表し、状態iに対する観測値密度px(x|i)は
次式によって与えられるようなガウシアンのミクスチャ
であると仮定する。
けるミクスチャjの確率であり、Nは次式によって与え
られる正規分布である。
μi,jは状態iにおけるミクスチャjに対応する共分散
行列および平均値ベクトルである。
集合ΛXに対するすべての可能な状態列の集合とし、C
={c1,c2,...,cT}を、すべてのミクスチャ成分
列の集合とする。すると、式8は次のように書くことが
できる。
とは容易ではない。しかし、あるFνおよびGηに対し
ては、EMアルゴリズムを使用して現在の推定値を反復
的に改善し、式12および13中の尤度が反復ごとに増
大するように新たな推定値を得ることができる。次の2
つの節で、特徴空間変換Fνのパラメータν、およびモ
デル空間変換Gηのパラメータηの推定値を見つけるた
めのEMアルゴリズムの応用をそれぞれ説明する。
ν′を見つける。EMアルゴリズムは2ステップ反復手
続きである。第1ステップは、期待値ステップ(Eステ
ップ)と呼ぶ。この第1ステップで、次式によって与え
られる補助関数を計算する。
ぶ。この第2ステップで、Q(ν′|ν)を最大にする
ν′の値を見つける。すなわち、
(Y|ν′,ΛX)≧p(Y|ν,ΛX)となることを示
すことができる。従って、式14および15のEステッ
プおよびMステップを反復して適用した場合に尤度が非
減少であることが保証される。反復は、尤度の増大があ
る所定のしきい値未満になるまで継続される。
ックを異なるサイズのXのブロックに写像することがで
きる。しかし、簡単のため、この関数は、次式のよう
に、Yの各フレームを対応するXのフレームに写像する
ようなものであると仮定する。
より、この補助関数は次のように書き換えることができ
る。
変数ytの確率密度関数である。これは、式11によっ
て与えられるランダム変数xtの密度関数と関係xt=f
ν(yt)から導出することができる。ytの密度は次の
ように書くことができる。
て与えられるようなヤコビ行列である。
はfν(yt)の第j成分である。さらに、式17は次
のように書き換えることができる。
の補助関数を計算する際には、ν′を含む項にのみ興味
がある。従って、式11を用いて、この補助関数を次の
ように書くことができる。
ν,ΛX)は、Yと、観測値ytを生成する状態nからの
ミクスチャmとの結合尤度である。次のように、前方後
方アルゴリズムを使用して確率γt(n,m)を計算す
ることができる。
およびβt(n)を反復して計算することができる。
つけるために、勾配上昇アルゴリズムのような任意の山
登り法を使用することができる。しかし、場合によって
は、式22の右辺をν′で微分してその零点を解くこと
により、陽に解を導くことができる。すなわち、次のよ
うなν′を見つけることができる。
は、式22からQ(ν′|ν)を計算(Eステップ)し
た後、式26からν′を見つける(Mステップ)ことに
よって実行される。その後、この値を式22のνに代入
し、アルゴリズムは反復して実行される。
で、分節MLアプローチを使用して、式12の尤度p
(Y|ν,ΛX)を直接最大にする代わりに、観測値と
状態列の結合尤度p(Y,S|ν,ΛX)を最大にする
ことも可能である。この場合、反復推定手続きは次のよ
うになる。
列の条件付きで発声Yの尤度を最大にするνl+1を見つ
ける。ビタビアルゴリズムを使用して、最適な状態列S
lを見つけることが可能であり、EMアルゴリズムを使
用してνl+1を見つけることが可能である。容易に示さ
れるように、上記のEM手続きは、γt(n,m)が次
式によって定義されることを除いてはやはり成り立つ。
に作用し(すなわち、xt,i=fν,i(yt,i))、共分
散行列Cn,mは対角形である(すなわち、Cn,m=dia
g(σ2 n,m))と仮定する。以下では、表現を容易にす
るため、ベクトルの第i成分を表す添字iの参照を省略
する。次の形の関数を考える。
非線形の)微分可能関数であり、ν={a,b}は既知
パラメータの集合である。すると、式22の補助関数は
次のように書くことができる。
て0とおくことにより、
ついて陽に解くことができる。
0の特別の場合、すなわち、
yt、およびb=−btの場合、式34は式30と等価と
なる。観測値がスペクトラム領域にある場合、btは加
法的ノイズスペクトラムと解釈することができる。一
方、観測値がケプストラム領域すなわち対数エネルギー
領域にある場合、btは例えばトランスデューサまたは
チャネルによる畳込みフィルタ効果に対応する。
たものとして、または、時間とともに変動するものとし
て、モデル化することができる。時変バイアスの例に
は、区分的一定バイアス、あるいは信号状態依存バイア
スがある。あるいは、バイアスを確率論的にモデル化
し、歪みをモデル空間(詳細は第4節)で見ることも可
能である。この節では、状態依存バイアスおよび固定バ
イアスの場合について考察する。
HMM状態ごとに変動する。各音声状態nに対応して特
定のバイアス項bnがあると仮定する。式22の補助関
数を次のように書くことができる。
26の再推定手続きには、式35のb′n,iに関する導
関数を計算して0と等置することが必要である。その結
果次式を得る。
とができる。
依存バイアス項が多い場合に、小さいサンプルの効果に
よって推定の問題が起こることがある。しかし、状況に
よっては、状態依存バイアスには意味がある。例えば、
線形フィルタリングに対する加法的ケプストラムバイア
スは信号対ノイズ比(SNR)が高い場合にのみ妥当で
ある。SNRが低いときには、ノイズが優勢となり、チ
ャネルフィルタリングに対する加法的バイアスモデルは
不正確となる。これを扱う1つの方法は、そのバイアス
がSNR依存であると仮定し、異なるSNR範囲に応じ
て異なるバイアスを推定することである。このようなア
プローチを実現したものの1つに、音声および背景の分
節に異なるバイアスを推定するものがある。これは、不
一致の一部が電話チャネルによって引き起こされるよう
な場合に有用であることがわかっている。これはおそら
く電話チャネルに存在する加法的ノイズによるものであ
る。その結果の詳細は第5節で説明する。
定した。この節では、歪みはランダムであるとみなし、
それをモデル空間で見る。すなわち、歪みは原モデルΛ
Xを歪みのあるモデルΛYに変換する(図4)。
声X={x1,...,xT}および歪み列B=
{b1,...,bT}と次式によって関係しているとす
る。
数(pdf)を次のように書くことができる。
てモデル化される。Bの統計モデルがΛBによって与え
られるとする。ΛBはHMMまたは混合ガウス密度とす
ることが可能である。この考察では、ΛBは、次のよう
な、対角形共分散行列を有する単一のガウス密度である
と仮定する。
特別の場合を考え、曲線Htが次式によって与えられる
とする。
保たれる。ΛYの各ミクスチャ成分の平均および分散
は、次のように、平均μbおよび分散σb 2を、ΛXにおけ
る対応するミクスチャ成分の平均および分散に加えるこ
とによって導出される。
義し、パラメータηはμbおよびσb 2によって与えられ
る。ΛBがHMMや混合ガウス密度のようにさらに複雑
である場合、ΛYの構造は、状態およびミクスチャ成分
の数が異なるという点で、ΛXの構造とは異なることも
ある。
のように書くことができる。
σb 2を推定することができる。容易に示されるように、
式21に対応する補助関数は次のように書くことができ
る。
ることによって、σb 2′に対する閉じた表式は得られな
いが、式38と類似の表式がμb′について次のように
得られる。
チは、分散σb 2が信号状態依存であり、信号分散と次式
によって関係していると仮定することである。
タである。式48を式46に代入し、αiに関して最大
化することによって、次式を得る。
対してすることは容易にはできないが、これにより式4
7および49に示されるようにパラメータμbおよびσb
2の閉じた推定が得られる。αi>−1は分散膨張(α>
0)および分散収縮(α<0)の両方に対応する。
p(Y|η,ΛX)を次のように書くことである。
る。
できる。
合に原音声モデルのパラメータの推定に対する一般的表
式を導出するためにとられている。ただし、音声および
歪みは両方とも混合ガウス密度によってモデル化され
る。この節で考察した問題は、歪みのある音声が与えら
れた場合に歪みのあるモデルのパラメータを見つける問
題の逆である。音声モデルΛXはHMMであり、加法的
歪みは式41のような単一のガウス密度としてモデル化
される。これらの条件下で、微分により、次のような再
推定公式が得られる。
ΛX)は、Yと、観測値ytを生成した変換済みモデル
ΛY=Gη(ΛX)におけるn番目の状態の第mミクス
チャとの結合尤度である。式53および式54における
条件付き期待値は次のように評価される。
束性について観察することができる。σbi 2が小さい場
合、収束は遅い。これは、われわれの実験(第5節)の
場合もそうであり、異なるトランスデューサおよび伝送
チャネルによる不一致の分散が小さいためである。決定
論的バイアス(σbi 2=0)の極限の場合、推定値は全
く変化しない。これは、式47を使用してμbを推定し
式54を使用してσb 2を推定することによって補正する
ことができる。
よびモデル空間におけるバイアスパラメータを推定する
方法を示した。しかし、加法的バイアスモデルはケプス
トラム特徴にのみ適用されている。われわれの実験で
は、ケプストラム特徴に加えて、デルタおよびデルタ−
デルタケプストラム特徴ならびにデルタおよびデルタ−
デルタ対数エネルギー特徴を使用した。確率論的マッチ
ングアルゴリズムでは、デルタおよびデルタ−デルタ対
数エネルギー特徴は変換しない。しかし、デルタケプス
トラムおよびデルタ−デルタケプストラムに対する不一
致の効果は考慮する。特徴空間バイアスモデルでは、デ
ルタおよびデルタ−デルタケプストラム特徴は不一致に
よって影響を受けないと仮定する。すなわち、デルタお
よびデルタ−デルタバイアスベクトルは0であると仮定
する。これは、ケプストラムのバイアスが発声全体に対
して一定であると仮定する場合には意味のある仮定であ
る。同様に、モデル空間では、デルタおよびデルタ−デ
ルタ平均値ベクトルが0であると仮定する。しかし、デ
ルタおよびデルタ−デルタ分散については仮定しない。
これらの分散ベクトルは以下のように推定する。デルタ
ケプストラムは次式に従って計算される。
フレームに対するm番目のデルタケプストラム係数およ
びm番目のケプストラム係数である。Gは0.375に
固定された利得項であり、K=2である。デルタ−デル
タケプストラムは次式に従って計算される。
目のデルタ−デルタケプストラム係数である。G=0.
375およびN=1と選ぶ。異なるフレームに対するケ
プストラム係数は独立であると仮定すると、デルタケプ
ストラムの分散は、ケプストラムの分散を用いて次のよ
うに書くことができる。
ームのデルタケプストラムおよびケプストラムの第m成
分の分散である。同様に、デルタ−デルタケプストラム
の分散を次のように導出することができる。
ることに興味がある。バイアスは分散がσb 2のi.i.
d.ガウシアンであると仮定されるので、デルタバイア
スの第i成分の分散は式59を使用して次のように推定
することができる。
のように推定することができる。
モデルは単純なガウス密度である。上記と同じ確率論的
マッチングアルゴリズムは、より一般的なモデル変換の
場合にも適用可能である。
発明に従って形成したシステムは、個々のアプリケーシ
ョンごとにトレーニングする必要はないという効果があ
る。また、本発明に従って形成したシステムは、プール
モデルやコードブックを使用する既知のシステムよりも
高い精度を有するという効果がある。
る。
の図である。
の図である。
Claims (8)
- 【請求項1】 第1の特性の集合に特徴づけられた第1
システムから出力された信号を、信号の記憶(即ち登
録)された表現の集合内における特定の登録(記憶)表
現に類似するものとして、識別する信号識別方法におい
て、 前記信号の登録表現は、前記第1の特性の集合とは異な
る第2の特性の集合によって特徴づけられた第2システ
ムから出力された信号から導き出されたものであり、 (a)前記信号を前記登録表現の集合と比較する比較ス
テップと、 (b)前記信号の表現を、現在の表現の集合内の少なく
とも1つの登録表現に近づけるように、前記(a)比較
ステップに基づいて、前記信号と前記登録表現の集合と
を繰り返し変換する変換ステップと、 (c)前記(b)変換ステップに基づいて、前記信号
を、少なくとも1つの登録表現に類似するものとして識
別するステップとからなることを特徴とする信号識別方
法。 - 【請求項2】 前記登録表現の集合内の各登録表現は対
応する動作を有し、 (d)前記特定の登録表現に対応する動作を実行するス
テップをさらに有することを特徴とする請求項1の方
法。 - 【請求項3】 前記信号が音声信号からなることを特徴
とする請求項1の方法。 - 【請求項4】 前記少なくとも1つの登録表現に対応す
る類似度値がしきい値より小さくなるまで、前記ステッ
プ(a)を実行することを特徴とする請求項1の方法。 - 【請求項5】 前記信号が、周波数領域の信号からなる
ことを特徴とする請求項1の方法。 - 【請求項6】 前記登録表現の集合が、隠れマルコフモ
デルの集合からなり、前記第1の類似度値の集合および
前記第2の類似度値の集合が尤度値からなることを特徴
とする請求項1の方法。 - 【請求項7】 前記登録表現の集合が、ニューラルネッ
トワークの集合からなり、前記第1の類似度値の集合お
よび前記第2の類似度値の集合が、ニューラルネットワ
ーク出力値からなることを特徴とする請求項1の方法。 - 【請求項8】 前記登録表現の集合が、ベクトル量子化
表現の集合からなり、前記第1の類似度値の集合および
前記第2の類似度値の集合が、歪み値からなることを特
徴とする請求項1の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/263,284 US5727124A (en) | 1994-06-21 | 1994-06-21 | Method of and apparatus for signal recognition that compensates for mismatching |
US263284 | 1994-06-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0850499A JPH0850499A (ja) | 1996-02-20 |
JP3457431B2 true JP3457431B2 (ja) | 2003-10-20 |
Family
ID=23001125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17687295A Expired - Lifetime JP3457431B2 (ja) | 1994-06-21 | 1995-06-21 | 信号識別方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5727124A (ja) |
EP (1) | EP0689194B1 (ja) |
JP (1) | JP3457431B2 (ja) |
CA (1) | CA2147772C (ja) |
DE (1) | DE69524994T2 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10257583A (ja) | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | 音声処理装置およびその音声処理方法 |
US5995927A (en) * | 1997-03-14 | 1999-11-30 | Lucent Technologies Inc. | Method for performing stochastic matching for use in speaker verification |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
US6151573A (en) * | 1997-09-17 | 2000-11-21 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
US6202047B1 (en) * | 1998-03-30 | 2001-03-13 | At&T Corp. | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients |
US6381571B1 (en) * | 1998-05-01 | 2002-04-30 | Texas Instruments Incorporated | Sequential determination of utterance log-spectral mean by maximum a posteriori probability estimation |
US6980952B1 (en) * | 1998-08-15 | 2005-12-27 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
TW418383B (en) * | 1998-09-23 | 2001-01-11 | Ind Tech Res Inst | Telephone voice recognition system and method and the channel effect compensation device using the same |
US6658385B1 (en) * | 1999-03-12 | 2003-12-02 | Texas Instruments Incorporated | Method for transforming HMMs for speaker-independent recognition in a noisy environment |
EP1116219B1 (en) | 1999-07-01 | 2005-03-16 | Koninklijke Philips Electronics N.V. | Robust speech processing from noisy speech models |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6539351B1 (en) * | 2000-02-04 | 2003-03-25 | International Business Machines Corporation | High dimensional acoustic modeling via mixtures of compound gaussians with linear transforms |
US20020049586A1 (en) * | 2000-09-11 | 2002-04-25 | Kousuke Nishio | Audio encoder, audio decoder, and broadcasting system |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
WO2003017252A1 (de) * | 2001-08-13 | 2003-02-27 | Knittel, Jochen | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge |
US6778957B2 (en) * | 2001-08-21 | 2004-08-17 | International Business Machines Corporation | Method and apparatus for handset detection |
US7139704B2 (en) * | 2001-11-30 | 2006-11-21 | Intel Corporation | Method and apparatus to perform speech recognition over a voice channel |
US7139336B2 (en) * | 2002-04-05 | 2006-11-21 | Nokia Corporation | Method and system for channel estimation using iterative estimation and detection |
US7139703B2 (en) * | 2002-04-05 | 2006-11-21 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
USH2172H1 (en) | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
FR2848715B1 (fr) * | 2002-12-11 | 2005-02-18 | France Telecom | Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication |
US7165026B2 (en) * | 2003-03-31 | 2007-01-16 | Microsoft Corporation | Method of noise estimation using incremental bayes learning |
US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
US7680656B2 (en) * | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
US20070033027A1 (en) * | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition |
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
US7630950B2 (en) * | 2006-08-18 | 2009-12-08 | International Business Machines Corporation | System and method for learning models from scarce and skewed training data |
JP5089295B2 (ja) * | 2007-08-31 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理システム、方法及びプログラム |
JP2010020273A (ja) * | 2007-12-07 | 2010-01-28 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US8615397B2 (en) * | 2008-04-04 | 2013-12-24 | Intuit Inc. | Identifying audio content using distorted target patterns |
WO2010011377A2 (en) * | 2008-04-18 | 2010-01-28 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
US8239195B2 (en) * | 2008-09-23 | 2012-08-07 | Microsoft Corporation | Adapting a compressed model for use in speech recognition |
US8214215B2 (en) * | 2008-09-24 | 2012-07-03 | Microsoft Corporation | Phase sensitive model adaptation for noisy speech recognition |
US8306819B2 (en) * | 2009-03-09 | 2012-11-06 | Microsoft Corporation | Enhanced automatic speech recognition using mapping between unsupervised and supervised speech model parameters trained on same acoustic training data |
JP5150542B2 (ja) * | 2009-03-26 | 2013-02-20 | 株式会社東芝 | パターン認識装置、パターン認識方法、及び、プログラム |
US11465640B2 (en) * | 2010-06-07 | 2022-10-11 | Affectiva, Inc. | Directed control transfer for autonomous vehicles |
US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
DE102012206313A1 (de) * | 2012-04-17 | 2013-10-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Konzept zum Erkennen eines akustischen Ereignisses in einer Audiosequenz |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
CN105448299B (zh) * | 2015-11-17 | 2019-04-05 | 中山大学 | 一种鉴别数字音频aac格式编解码器的方法 |
CN109087630B (zh) * | 2018-08-29 | 2020-09-15 | 深圳追一科技有限公司 | 语音识别的方法及相关装置 |
US11532313B2 (en) * | 2020-08-27 | 2022-12-20 | Google Llc | Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data |
CN114859287B (zh) * | 2022-04-08 | 2024-07-09 | 武汉大学 | 基于矢量水听器的水下目标方位估计方法、系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58115497A (ja) * | 1981-12-28 | 1983-07-09 | シャープ株式会社 | 音声認識方法 |
JPH01102599A (ja) * | 1987-10-12 | 1989-04-20 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
FR2681715B1 (fr) * | 1991-09-25 | 1994-02-11 | Matra Communication | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
-
1994
- 1994-06-21 US US08/263,284 patent/US5727124A/en not_active Expired - Lifetime
-
1995
- 1995-04-25 CA CA002147772A patent/CA2147772C/en not_active Expired - Fee Related
- 1995-06-14 EP EP95304089A patent/EP0689194B1/en not_active Expired - Lifetime
- 1995-06-14 DE DE69524994T patent/DE69524994T2/de not_active Expired - Lifetime
- 1995-06-21 JP JP17687295A patent/JP3457431B2/ja not_active Expired - Lifetime
Non-Patent Citations (11)
Title |
---|
Huo,Chan,Lee,Segmental quasi−Bayesian learning of the mixture coefficients in SCHMM for speech recognition,Proceedings of the 1994 International Symposium on Speech,Image processing and Neural natworks,米国,1994年 4月13日,Vol.2,Pages 678−681 |
Jianxiong Wu et al,Speaker Normalization by Input Space Optimization for Continuous Density Hidden Markov Models,Proceedings of International Symposiumm on Speech,Image Processing and Neural Networks(ISSIPNN’94),米国,1994年 4月13日,Vol.1,Pages 682−685 |
Sanker,Lee,A maximum−likelihood approach to stochastic matching for robust speech recognition,IEEE Transactions on speech and Audio Processing,米国,1996年 5月,Vol.4,No.3,Pages 190−202 |
Sanker,Lee,Robust speech recognition based on stochastic matching,Proceedings og the 1995 International Conference on Acoustics,Speech and Signal processing,米国,1995年 5月 9日,Pages 121−124 |
Shinoda,Iso,Watanabe,Speaker adaptation for demi−syllable based continuous density HMM,Proceedings of the 1991 International Conference on Acoustics,Speech and Signal Processing,米国,1991年 5月14日,S13.7,Pages 857−860 |
中橋,坪香,相乗型FVQ/HMMにおける話者適応,日本音響学会平成6年度春季研究発表会講演論文集,日本,1994年 3月,3−7−10,Pages 107−108 |
丸山,松本,写像モデルと連結学習に基づくHMM話者適応化法の改良,日本音響学会平成6年度春季研究発表会講演論文集I,日本,1994年 3月,3−7−11,Pages 109−110 |
大倉,大西,飯田,話者空間移動ベクトルに基づく不特定話者モデルの話者適応,日本音響学会平成6年度春季研究発表会講演論文集I,3−7−9,大倉計美 外「話者空間移動ベクトル,日本,1994年 3月,3−7−9,Pages 105−106 |
篠田,渡辺,半音節HMMを用いた音声認識のための教師なし適応化,日本音響学会平成6年度春季研究発表会講演論文集I,日本,1994年 3月,3−7−8,Pages 103−104 |
篠田,渡辺,音声認識のためのタスク適応化,日本音響学会平成4年度春季研究発表会講演論文集I,日本,1992年 3月17日,1−P−15,Pages 133−134 |
高木,服部,渡辺,音声認識のための高速環境適応,電子情報通信学会技術研究報告[音声],日本,1994年 6月16日,Vol.94,No.90,SP94−19,Pages 37−44 |
Also Published As
Publication number | Publication date |
---|---|
JPH0850499A (ja) | 1996-02-20 |
DE69524994D1 (de) | 2002-02-21 |
CA2147772A1 (en) | 1995-12-22 |
DE69524994T2 (de) | 2002-08-29 |
CA2147772C (en) | 2000-06-13 |
US5727124A (en) | 1998-03-10 |
EP0689194B1 (en) | 2002-01-16 |
EP0689194A1 (en) | 1995-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3457431B2 (ja) | 信号識別方法 | |
EP0886263B1 (en) | Environmentally compensated speech processing | |
Li et al. | An overview of noise-robust automatic speech recognition | |
Gales | Model-based techniques for noise robust speech recognition | |
Sankar et al. | A maximum-likelihood approach to stochastic matching for robust speech recognition | |
Anastasakos et al. | A compact model for speaker-adaptive training | |
US20080300875A1 (en) | Efficient Speech Recognition with Cluster Methods | |
US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
JP5242782B2 (ja) | 音声認識方法 | |
Novoa et al. | Uncertainty weighting and propagation in DNN–HMM-based speech recognition | |
EP1116219B1 (en) | Robust speech processing from noisy speech models | |
Liao et al. | Joint uncertainty decoding for robust large vocabulary speech recognition | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US6633843B2 (en) | Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
Minami et al. | Adaptation method based on HMM composition and EM algorithm | |
Young | Acoustic modelling for large vocabulary continuous speech recognition | |
Veisi et al. | The integration of principal component analysis and cepstral mean subtraction in parallel model combination for robust speech recognition | |
Lawrence et al. | Integrated bias removal techniques for robust speech recognition | |
González et al. | Efficient MMSE estimation and uncertainty processing for multienvironment robust speech recognition | |
Chien et al. | Bayesian affine transformation of HMM parameters for instantaneous and supervised adaptation in telephone speech recognition. | |
Mishra et al. | Isolated Hindi digits recognition: a comparative study | |
Liao et al. | Uncertainty decoding for noise robust automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080801 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080801 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090801 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100801 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100801 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130801 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |