JP3130524B2 - 音声信号認識方法およびその方法を実施する装置 - Google Patents
音声信号認識方法およびその方法を実施する装置Info
- Publication number
- JP3130524B2 JP3130524B2 JP63082850A JP8285088A JP3130524B2 JP 3130524 B2 JP3130524 B2 JP 3130524B2 JP 63082850 A JP63082850 A JP 63082850A JP 8285088 A JP8285088 A JP 8285088A JP 3130524 B2 JP3130524 B2 JP 3130524B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- reference value
- phoneme
- values
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 14
- 230000007704 transition Effects 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000006978 adaptation Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
【発明の詳細な説明】 この発明は、音声信号から各音声値が音声信号の1セ
クションを示す音声値を取出し、これら音声値を、各群
が所定の語彙のワードに割り当てられ各基準値が音素か
ら取出される基準値群の中の基準値と順次比較し、各比
較結果を、該当比較基準値の所定の隣接区域に存在する
基準値に対し前段の音声値によって得られた差の和に加
え、それにより中間値の和を形成し、各比較結果の各中
間地の和を前記隣接区域に依存する時間ひずみ値により
増加させ、最小の増加した中間値の和が比較基準値の新
たな距離の和を形成するようにした、音声信号認識方法
に関するものである。
クションを示す音声値を取出し、これら音声値を、各群
が所定の語彙のワードに割り当てられ各基準値が音素か
ら取出される基準値群の中の基準値と順次比較し、各比
較結果を、該当比較基準値の所定の隣接区域に存在する
基準値に対し前段の音声値によって得られた差の和に加
え、それにより中間値の和を形成し、各比較結果の各中
間地の和を前記隣接区域に依存する時間ひずみ値により
増加させ、最小の増加した中間値の和が比較基準値の新
たな距離の和を形成するようにした、音声信号認識方法
に関するものである。
緊密な関係にある(コヒーレントな)発声ワードを認
識する方法は、主にドイツ公開公報第32 15 868号から
既知である。この場合において、個別のワードは連続な
基準値が集まって構成されている。これはまた音素を考
慮に入れることが、例えばベル・システム・テクニカル
・ジャーナルの1983年4月号、第62巻、第4号から既知
である。音素は1個の基準値により単純な形態で表され
る。通常の発声される句(phrase)において、数個の連
続な音声値はかかる音素の基準値に整合する。この理由
は、音声値により表される、音声信号のセクションの時
間間隔は、一般に音素より短いからである。したがっ
て、音素の基準値に対応する多数回の音声値は考慮され
ないが、むしろ距離の合計が増加し、この結果、実際の
音声信号は最適に評価されない。
識する方法は、主にドイツ公開公報第32 15 868号から
既知である。この場合において、個別のワードは連続な
基準値が集まって構成されている。これはまた音素を考
慮に入れることが、例えばベル・システム・テクニカル
・ジャーナルの1983年4月号、第62巻、第4号から既知
である。音素は1個の基準値により単純な形態で表され
る。通常の発声される句(phrase)において、数個の連
続な音声値はかかる音素の基準値に整合する。この理由
は、音声値により表される、音声信号のセクションの時
間間隔は、一般に音素より短いからである。したがっ
て、音素の基準値に対応する多数回の音声値は考慮され
ないが、むしろ距離の合計が増加し、この結果、実際の
音声信号は最適に評価されない。
この発明の目的は、最も考え得る音素の時間間隔も最
適に評価されるように、音声信号を学習することによ
り、音素の認識中に自然に発声された音声における音素
の時間間隔を考慮することにある。
適に評価されるように、音声信号を学習することによ
り、音素の認識中に自然に発声された音声における音素
の時間間隔を考慮することにある。
本発明によれば、音声信号から各音声値が音声信号の
1セクションを示す音声値を取出し、これら音声値を、
音素マルコフモデルの原理に基づく学習音声信号から取
出される基準値と順次比較し、各音素マルコフモデル
を、それぞれの音素を決定する中間セクションと、隣接
する音素への変化をシミュレートする最初および最後の
セクションとにより構成するようにする。あるいは、本
発明によれば、音声信号から各音声値が音声信号の1セ
クションを示す音声値を取出し、これら音声値を、学習
音声信号から取出される基準値であるとともに音素また
は音素セクションを表すマルコフモデルの状態に対応す
る基準値と順次比較し、連続な基準値に対する認識すべ
き信号の時間適合を動的計画法により実施し、該時間適
合は、音声値と基準値jとの間の距離の合計値を決定す
ることに基づいて実施し、この距離の合計値は、前段の
音声値および考慮された基準値jの所定の隣接区域に存
在する基準値j′間の距離で表される距離の値の和と前
記所定の隣接区域に依存する時間ひずみ値との最小の和
に対し、音声値と基準値jとの間の距離に対する値を加
えることにより求めるようにする。
1セクションを示す音声値を取出し、これら音声値を、
音素マルコフモデルの原理に基づく学習音声信号から取
出される基準値と順次比較し、各音素マルコフモデル
を、それぞれの音素を決定する中間セクションと、隣接
する音素への変化をシミュレートする最初および最後の
セクションとにより構成するようにする。あるいは、本
発明によれば、音声信号から各音声値が音声信号の1セ
クションを示す音声値を取出し、これら音声値を、学習
音声信号から取出される基準値であるとともに音素また
は音素セクションを表すマルコフモデルの状態に対応す
る基準値と順次比較し、連続な基準値に対する認識すべ
き信号の時間適合を動的計画法により実施し、該時間適
合は、音声値と基準値jとの間の距離の合計値を決定す
ることに基づいて実施し、この距離の合計値は、前段の
音声値および考慮された基準値jの所定の隣接区域に存
在する基準値j′間の距離で表される距離の値の和と前
記所定の隣接区域に依存する時間ひずみ値との最小の和
に対し、音声値と基準値jとの間の距離に対する値を加
えることにより求めるようにする。
本発明の方法によれば、音素に適切に整合する音声値
の1シーケンスは距離の和を小さくするのみならず、音
素に最適に対応する音声信号の数をこの音素の基準値の
数に等しくすることができる。しかし、発声された音素
が基準の音素より長い場合には、音声信号および音素の
間の比較が音素の最後の基準値にほぼ維持され、使用さ
れた長い時間ひずみ値のため距離の和を増加する。この
逆の場合であって発声された音素が基準値より短い場合
には、音声信号との比較は音素内の点から始点、即ち次
の音素の第1基準値に飛び越し、高い時間ひずみ値を考
慮される。したがって、発声された音素と基準の音素と
の差は、等しいが異なる長さで発声される音素を有する
ワードがお互いに明確に識別され得るように、認識され
ることになる。さらに、このことは、音素が少なくとも
区間的には一定である、即ち一定の基準値の1シーケン
スにより記述されていると事実に基づいている。実際の
ところ、自然に発声された音声信号には正確に適用する
ことができないが、学習段階中の基準値を連続的に変化
させて音素の変動を正確にシミュレートしようとする
が、学習音声値の数が限られたものであるため、一般に
完全に行うことはできなく、このため音素が固定モデル
により仮想的にであるが、学習段階中に極めて正確にシ
ミュレートされる場合に、認識誤差が小さくなるように
する。極めて良い近似にするため、音素を例えば3個の
固定セクションから形成し、この音素の第1および最後
のセクションは隣の音素への遷移に近付けることができ
る。一定の平均化されたセクションの間の連続な遷移の
シミュレートも考えられる。
の1シーケンスは距離の和を小さくするのみならず、音
素に最適に対応する音声信号の数をこの音素の基準値の
数に等しくすることができる。しかし、発声された音素
が基準の音素より長い場合には、音声信号および音素の
間の比較が音素の最後の基準値にほぼ維持され、使用さ
れた長い時間ひずみ値のため距離の和を増加する。この
逆の場合であって発声された音素が基準値より短い場合
には、音声信号との比較は音素内の点から始点、即ち次
の音素の第1基準値に飛び越し、高い時間ひずみ値を考
慮される。したがって、発声された音素と基準の音素と
の差は、等しいが異なる長さで発声される音素を有する
ワードがお互いに明確に識別され得るように、認識され
ることになる。さらに、このことは、音素が少なくとも
区間的には一定である、即ち一定の基準値の1シーケン
スにより記述されていると事実に基づいている。実際の
ところ、自然に発声された音声信号には正確に適用する
ことができないが、学習段階中の基準値を連続的に変化
させて音素の変動を正確にシミュレートしようとする
が、学習音声値の数が限られたものであるため、一般に
完全に行うことはできなく、このため音素が固定モデル
により仮想的にであるが、学習段階中に極めて正確にシ
ミュレートされる場合に、認識誤差が小さくなるように
する。極めて良い近似にするため、音素を例えば3個の
固定セクションから形成し、この音素の第1および最後
のセクションは隣の音素への遷移に近付けることができ
る。一定の平均化されたセクションの間の連続な遷移の
シミュレートも考えられる。
多くの場合、音声信号は次のように形成される。すな
わち音声信号の各区域に対して、例えばスペクトル成分
または線形予測分析(LPC)係数が適宜形成されて、各
音声値が多数の成分より成るようにする。この場合にお
いて、各比較結果は、音声値の成分値および基準値の差
から形成されるのが有効である。事実、個別の成分値の
間の差を技術的に単純な手法によって計算することがで
きる。成分値の間の個別の差はさらに異なる方法で処理
することができる。各々の異なる音声値が多次元スペー
スのベクトルとして考えられる場合に、比較結果をユー
クリッド距離として定める。すなわち、比較結果を成分
の差の2乗の和から形成する。より単純な可能性は、比
較結果を成分の差の合計の和から形成することよりな
る。対応する手法で比較結果を定めるために、基準値の
成分を学習音声信号の成分の平均値の形成により発生す
ることが有効である。成分差の合計の和からの比較結果
の形成中に、数学的に厳密な手法で、基準値の成分が各
基準値と関連する学習音声信号の音声値の成分のメジア
ン値の形成により発声されると良好である。
わち音声信号の各区域に対して、例えばスペクトル成分
または線形予測分析(LPC)係数が適宜形成されて、各
音声値が多数の成分より成るようにする。この場合にお
いて、各比較結果は、音声値の成分値および基準値の差
から形成されるのが有効である。事実、個別の成分値の
間の差を技術的に単純な手法によって計算することがで
きる。成分値の間の個別の差はさらに異なる方法で処理
することができる。各々の異なる音声値が多次元スペー
スのベクトルとして考えられる場合に、比較結果をユー
クリッド距離として定める。すなわち、比較結果を成分
の差の2乗の和から形成する。より単純な可能性は、比
較結果を成分の差の合計の和から形成することよりな
る。対応する手法で比較結果を定めるために、基準値の
成分を学習音声信号の成分の平均値の形成により発生す
ることが有効である。成分差の合計の和からの比較結果
の形成中に、数学的に厳密な手法で、基準値の成分が各
基準値と関連する学習音声信号の音声値の成分のメジア
ン値の形成により発声されると良好である。
この種の比較結果の形成は、僅かに不完全な手法で音
声値および基準値の間の差の実際の影響を考慮する。こ
の発明による他の実施例に基づく可能性は、学習段階中
にプロトタイプ基準値を、発生された音声信号から選定
し、プロトタイプ基準値および音素の各組み合わせに対
する距離測定値を決め、さらに、認識中において、各音
声値を総てのプロトタイプ基準値と比較し、その都度の
距離を有するプロトタイプ基準値を音声値に割り当て、
さらにまた、比較結果としての距離測定値を各基準値お
よび音素に割り当てられたプロトタイプ基準値のために
使用することよりなる。このため、各音声値はまず、次
のプロトタイプ基準値に戻され、維持されたプロトタイ
プ基準値からの距離はこの後に考慮することはない。し
かし、これは本質的に可能であるが、これには追加の労
力を必要とする。プロトタイプ基準値は、各々の次のプ
ロトタイプ基準値からの総ての学習音声値の距離の和を
最小にするように、有効に選定される。このことは、い
わゆる複数のクラスタ(clusters)を学習音声値から形
成することを意味する。これらクラスタは相互に明確に
分離されており、各クラスタにおけるプロトタイプ基準
値は、各クラスタ内の学習音声値からの総ての距離にわ
たる最小の距離の和を有し、このクラスタを適宜選定し
て、合計の距離の和が最小の値を有するようにする。
声値および基準値の間の差の実際の影響を考慮する。こ
の発明による他の実施例に基づく可能性は、学習段階中
にプロトタイプ基準値を、発生された音声信号から選定
し、プロトタイプ基準値および音素の各組み合わせに対
する距離測定値を決め、さらに、認識中において、各音
声値を総てのプロトタイプ基準値と比較し、その都度の
距離を有するプロトタイプ基準値を音声値に割り当て、
さらにまた、比較結果としての距離測定値を各基準値お
よび音素に割り当てられたプロトタイプ基準値のために
使用することよりなる。このため、各音声値はまず、次
のプロトタイプ基準値に戻され、維持されたプロトタイ
プ基準値からの距離はこの後に考慮することはない。し
かし、これは本質的に可能であるが、これには追加の労
力を必要とする。プロトタイプ基準値は、各々の次のプ
ロトタイプ基準値からの総ての学習音声値の距離の和を
最小にするように、有効に選定される。このことは、い
わゆる複数のクラスタ(clusters)を学習音声値から形
成することを意味する。これらクラスタは相互に明確に
分離されており、各クラスタにおけるプロトタイプ基準
値は、各クラスタ内の学習音声値からの総ての距離にわ
たる最小の距離の和を有し、このクラスタを適宜選定し
て、合計の距離の和が最小の値を有するようにする。
プロトタイプ基準値および音素の各組み合わせに対す
る距離測定値は、音素内のプロトタイプ基準値が発生す
る可能性と有効に連結している。距離測定値を決めるた
め、音素のプロトタイプ基準値とこの音素の総てのプロ
トタイプ基準値の周波数との比の対数を決めることが有
効である。これら周波数は速やかに決定される。
る距離測定値は、音素内のプロトタイプ基準値が発生す
る可能性と有効に連結している。距離測定値を決めるた
め、音素のプロトタイプ基準値とこの音素の総てのプロ
トタイプ基準値の周波数との比の対数を決めることが有
効である。これら周波数は速やかに決定される。
厳格に言えば、この段階は、学習音声値が非常に多い
状態を仮想している。しかし、学習音声値または学習句
が限定された状態では、個別のプロトタイプ基準値全て
がまれにしか発生されないが、これらプロトタイプ基準
値が発生されると、これらが音素を極めて正確にその特
徴を描写する。別のプロトタイプ基準値は、その総てが
極めて頻繁に発生するが、この基準値は同一音素の総合
周波数が大きいため、比較的周波数も高く、実際にこの
音素の特徴を描写することはできない。この影響を克服
するには、距離測定値を決めるため、プロトタイプ基準
値および音素のつながりの確率は、学習段階中にプロト
タイプ基準値が発生され、異なる音素が発生される周波
数の差が、標準化により少なくとも減少されるように近
づけられることが有効である。周波数の標準化のため、
総てのプロトタイプ基準値および総ての音素を、総ての
学習音声値にわたってのこれら全体の周波数が等しいも
のであるかのように考える。
状態を仮想している。しかし、学習音声値または学習句
が限定された状態では、個別のプロトタイプ基準値全て
がまれにしか発生されないが、これらプロトタイプ基準
値が発生されると、これらが音素を極めて正確にその特
徴を描写する。別のプロトタイプ基準値は、その総てが
極めて頻繁に発生するが、この基準値は同一音素の総合
周波数が大きいため、比較的周波数も高く、実際にこの
音素の特徴を描写することはできない。この影響を克服
するには、距離測定値を決めるため、プロトタイプ基準
値および音素のつながりの確率は、学習段階中にプロト
タイプ基準値が発生され、異なる音素が発生される周波
数の差が、標準化により少なくとも減少されるように近
づけられることが有効である。周波数の標準化のため、
総てのプロトタイプ基準値および総ての音素を、総ての
学習音声値にわたってのこれら全体の周波数が等しいも
のであるかのように考える。
この発明を実施するため、 (イ)基準値のための第1メモリ(16)と、 (ロ)音響的に供給された音声信号からデジタル音声値
を発生するための入力回路(10,12)と、 (ハ)音声値を基準値と比較するため、かつ距離の和を
発生するための処理回路(14)とを具える回路配置にお
いて、 第1メモリ(16)はその都度数個の等しい基準値のシ
ーケンスを含有し、新しい距離の和を決めるため、新し
い音声値が基準値と比較される場合に、1シーケンス内
の各基準値に応じて発生された比較結果が、前記シーケ
ンスの前段の基準値の不変の距離の和に加えられ、1シ
ーケンスの各第1基準値に応じて発生された比較結果が
前段のシーケンスの、該シーケンスの前記基準値の位置
に依存する第1の時間ひずみ値だけ増加された基準値の
距離の和に加えられ、1シーケンスの各最後の基準値に
応じて発生された比較結果が、第2の一定の時間ひずみ
値だけ増加された同一基準値の距離の和に加えられ、こ
の新たな距離の和を第2メモリ(18)に記録することを
特徴とするものである。
を発生するための入力回路(10,12)と、 (ハ)音声値を基準値と比較するため、かつ距離の和を
発生するための処理回路(14)とを具える回路配置にお
いて、 第1メモリ(16)はその都度数個の等しい基準値のシ
ーケンスを含有し、新しい距離の和を決めるため、新し
い音声値が基準値と比較される場合に、1シーケンス内
の各基準値に応じて発生された比較結果が、前記シーケ
ンスの前段の基準値の不変の距離の和に加えられ、1シ
ーケンスの各第1基準値に応じて発生された比較結果が
前段のシーケンスの、該シーケンスの前記基準値の位置
に依存する第1の時間ひずみ値だけ増加された基準値の
距離の和に加えられ、1シーケンスの各最後の基準値に
応じて発生された比較結果が、第2の一定の時間ひずみ
値だけ増加された同一基準値の距離の和に加えられ、こ
の新たな距離の和を第2メモリ(18)に記録することを
特徴とするものである。
この発明の実施例を図面に基づき詳細に説明する。
発声された句の認識中に、音声信号は長さの等しい
(例えば10msの長さ)セクションに区切られる。その一
方で例えば各セクションに対してスペクトル値、ホルマ
ントまたはLPC係数が決定される。これら値または係数
は対応する基準値と比較され、これら基準値は学習段階
において音声サンプルの学習のために発生される。した
がって、認識は、ほぼワード状の連続な基準値よりなる
各ワードで行われる。学習段階において各ワードに対す
る連続な基準値を決めるためには、各ワードを対応する
多数の回数だけ話す必要もある。
(例えば10msの長さ)セクションに区切られる。その一
方で例えば各セクションに対してスペクトル値、ホルマ
ントまたはLPC係数が決定される。これら値または係数
は対応する基準値と比較され、これら基準値は学習段階
において音声サンプルの学習のために発生される。した
がって、認識は、ほぼワード状の連続な基準値よりなる
各ワードで行われる。学習段階において各ワードに対す
る連続な基準値を決めるためには、各ワードを対応する
多数の回数だけ話す必要もある。
しかし、各ワードは多数の音素よりなり、音素の総数
は、総てのワードに対して定められている。学習段階を
短くするため、音素に基づいて学習段階を実施すると有
効である。認識すべきワードは一定の発音された語彙の
音素に基づいて構成され、このため学習段階において、
総てのワードではないが、少なくとも総ての音素が十分
に流暢に発声される必要がある。
は、総てのワードに対して定められている。学習段階を
短くするため、音素に基づいて学習段階を実施すると有
効である。認識すべきワードは一定の発音された語彙の
音素に基づいて構成され、このため学習段階において、
総てのワードではないが、少なくとも総ての音素が十分
に流暢に発声される必要がある。
今、1つの音素内において、音声信号はほぼ変動しな
い、即ち音素は連続な等しい基準値より構成すると想定
する。音素変化を考慮に入れるため、各音素は3セクシ
ョンより構成され得、各セクションはそれ自体変動せ
ず、中間セクションは実際の音素を記述し、この一方で
音素の第1および第3のセクションがワード内の隣接す
る音素への変化をシミュレート(simulate)する。
い、即ち音素は連続な等しい基準値より構成すると想定
する。音素変化を考慮に入れるため、各音素は3セクシ
ョンより構成され得、各セクションはそれ自体変動せ
ず、中間セクションは実際の音素を記述し、この一方で
音素の第1および第3のセクションがワード内の隣接す
る音素への変化をシミュレート(simulate)する。
音声信号の認識中に、例えば上述したドイツ公開特許
第32 15 868号により、認識すべき信号を個別のワード
の連続な基準値に時間適合(a time adaptation)する
ことが行われる。この時間適合は動的計画法により実施
され、距離の合計値を以下の方法により定める。
第32 15 868号により、認識すべき信号を個別のワード
の連続な基準値に時間適合(a time adaptation)する
ことが行われる。この時間適合は動的計画法により実施
され、距離の合計値を以下の方法により定める。
(i,j)=d(x(i),j)+min{D(i−1,j′)+T(j,j′)} ここでiはある瞬時を意味し、x(i)は所定の瞬時
での音声値を意味し、この一方でjは基準値を表す。し
たがって、各音声値x(i)は多数の基準値と比較さ
れ、差あるいは距離d(x(i),j)が定められ、最小
の距離の和に加えられる。瞬時i−1での前段の音声値
での最小の距離の和は基準値j′で達成され、それは瞬
時的に考慮された基準値の所定の隣接区域に存在する。
さらに時間ひずみ値T(j,j′)を加え、この時間ひず
み値は上記所定の隣接区域に依存し、この時間ひずみ値
は、例えばその集の1ワードの基準値のシーケンスのう
ちの基準値j′が、瞬時の基準値jから離れているた
め、大きくなる。したがって対角線が好ましい。この理
由は、対角線が最も起こり得る形態に対応するためであ
る。
での音声値を意味し、この一方でjは基準値を表す。し
たがって、各音声値x(i)は多数の基準値と比較さ
れ、差あるいは距離d(x(i),j)が定められ、最小
の距離の和に加えられる。瞬時i−1での前段の音声値
での最小の距離の和は基準値j′で達成され、それは瞬
時的に考慮された基準値の所定の隣接区域に存在する。
さらに時間ひずみ値T(j,j′)を加え、この時間ひず
み値は上記所定の隣接区域に依存し、この時間ひずみ値
は、例えばその集の1ワードの基準値のシーケンスのう
ちの基準値j′が、瞬時の基準値jから離れているた
め、大きくなる。したがって対角線が好ましい。この理
由は、対角線が最も起こり得る形態に対応するためであ
る。
今、1つの音素において、区域的に一定である基準値
を、この基準値を一度のみ供給すると想定する。しか
し、音素の時間間隔を正確にシミュレートするため、音
素内の基準値が、音素あるいは音素セクションの実際の
時間間隔に対応するように、頻繁に出現する。第1図に
おいて、マルコフモデルに対応する状態の1シーケンス
は図の左手側に現れており、個別の状態間の可能な遷移
を示している。2本の水平線の間の状態は音素pあるい
は音素セクションを表している。音素pの第1の状態は
前段の音素p−1の任意の点から伸ばされる。時間に関
して後続する第2の状態はその上にあり、この第2の状
態は第1の状態から到ることができるが、この第1の状
態から直接的に次段の音素p+1の第1の状態へ飛び越
すこともできる。しかし、この遷移はあまり起こしそう
にない。したがって、第2の状態から第3の状態への遷
移は、第2の状態から次段の音素の第1の状態への遷移
などより起こり得る。最後の状態は第2の状態から数回
昇って至るが、次段の音素への遷移より起こる可能性が
少ない。
を、この基準値を一度のみ供給すると想定する。しか
し、音素の時間間隔を正確にシミュレートするため、音
素内の基準値が、音素あるいは音素セクションの実際の
時間間隔に対応するように、頻繁に出現する。第1図に
おいて、マルコフモデルに対応する状態の1シーケンス
は図の左手側に現れており、個別の状態間の可能な遷移
を示している。2本の水平線の間の状態は音素pあるい
は音素セクションを表している。音素pの第1の状態は
前段の音素p−1の任意の点から伸ばされる。時間に関
して後続する第2の状態はその上にあり、この第2の状
態は第1の状態から到ることができるが、この第1の状
態から直接的に次段の音素p+1の第1の状態へ飛び越
すこともできる。しかし、この遷移はあまり起こしそう
にない。したがって、第2の状態から第3の状態への遷
移は、第2の状態から次段の音素の第1の状態への遷移
などより起こり得る。最後の状態は第2の状態から数回
昇って至るが、次段の音素への遷移より起こる可能性が
少ない。
図の右手側において、非線形の時間適合の時間中にお
けるシーケンスが動的計画法によって可能であることが
示されている。瞬時iでの新たな音声値は基準値j=1
と比較され、局所的な距離が、距離依存性時間ひずみ値
と相俟って最小の距離の和を得るように、前段の音素p
−1の基準値の距離の和に加えられる。
けるシーケンスが動的計画法によって可能であることが
示されている。瞬時iでの新たな音声値は基準値j=1
と比較され、局所的な距離が、距離依存性時間ひずみ値
と相俟って最小の距離の和を得るように、前段の音素p
−1の基準値の距離の和に加えられる。
さらにまた、瞬時の音声値は第2の基準値j=2と比
較されるが、第2の基準値は基準値j=1と同一の値で
あり、このため同一の局所的な距離を得る。しかし、第
2の基準値は第1の基準値に応じた前段の瞬時i−1で
得られた距離の和に加えられる。したがって、局所的な
距離が、次段の基準値に応じた第2の基準値などから離
れた距離の和に加えられる。最後の基準値で瞬時i−1
での同一の基準値の同一の距離の和は考慮され、これは
発声された音声信号における該当する音素が学習段階中
に定められたものより長い場合に対応する。この場合に
再度大きな時間ひずみ値を考慮する。次の音素p+1の
第1の基準値には音素pの他のどの基準値からでも行う
ことができ、各時間は対応する時間ひずみ値を考慮し、
マルコフモデルの遷移確率を考慮する。
較されるが、第2の基準値は基準値j=1と同一の値で
あり、このため同一の局所的な距離を得る。しかし、第
2の基準値は第1の基準値に応じた前段の瞬時i−1で
得られた距離の和に加えられる。したがって、局所的な
距離が、次段の基準値に応じた第2の基準値などから離
れた距離の和に加えられる。最後の基準値で瞬時i−1
での同一の基準値の同一の距離の和は考慮され、これは
発声された音声信号における該当する音素が学習段階中
に定められたものより長い場合に対応する。この場合に
再度大きな時間ひずみ値を考慮する。次の音素p+1の
第1の基準値には音素pの他のどの基準値からでも行う
ことができ、各時間は対応する時間ひずみ値を考慮し、
マルコフモデルの遷移確率を考慮する。
局所的な距離d(x(i),j)の形成に対し、異なる
可能性があり、この異なる可能性の形もまた基準値の形
成に影響を与える。
可能性があり、この異なる可能性の形もまた基準値の形
成に影響を与える。
まず1つの可能性は、以下の手法で得られるユークリ
ッド距離としての距離の値を決定することより成る。
ッド距離としての距離の値を決定することより成る。
ここで、rk(j)は基準値の構成成分を表し、この基
準値の各構成成分kは学習段階の音声値の構成成分の平
均値に等しい。
準値の各構成成分kは学習段階の音声値の構成成分の平
均値に等しい。
上記距離の値に対する他の可能性は、距離の絶対量で
あり、 で表される。
あり、 で表される。
基準値の個々の構成成分rk(j)は、学習段階で、関
連する音声値の構成成分のメジアン値に等しくなるよう
に選択される。しかし、この場合の近似値として平均値
を使用する。この理由としては、この平均値が音声認識
にほとんど影響を与えないためである。
連する音声値の構成成分のメジアン値に等しくなるよう
に選択される。しかし、この場合の近似値として平均値
を使用する。この理由としては、この平均値が音声認識
にほとんど影響を与えないためである。
これら距離の値は、総ての基準値に対して、または限
定された探索の場合には総ての実際の基準値に対して、
各新たな音声値x(i)を求めるために計算される。さ
らに局所的な値を決定する他の可能性は以下の手法、即
ち d3(x(i),j)=−log(p(l/j)) …(4) で与えられる。
定された探索の場合には総ての実際の基準値に対して、
各新たな音声値x(i)を求めるために計算される。さ
らに局所的な値を決定する他の可能性は以下の手法、即
ち d3(x(i),j)=−log(p(l/j)) …(4) で与えられる。
この場合に、p(l/j)はプロトタイプ基準値C1が音
素jにて発生するという条件付の可能性、lは有限数量
のプロトタイプ基準値Z1,Z2,…Znの有限量からのベクト
ルZ1を示し、このベクトルZ1は音声値x(i)からの最
小の距離を示す。この距離は前述した可能性と同様な手
法で決定され得る。
素jにて発生するという条件付の可能性、lは有限数量
のプロトタイプ基準値Z1,Z2,…Znの有限量からのベクト
ルZ1を示し、このベクトルZ1は音声値x(i)からの最
小の距離を示す。この距離は前述した可能性と同様な手
法で決定され得る。
したがって、局所的な距離は、条件付の可能性の負の
対数であり、瞬時の音声値x(i)に一番近いプロトタ
イプ基準値Z1が音素jに、または学習段階中の音素セク
ションに発生する。1つの音素は単一のプロトタイプ基
準値に直接対応せず、このプロトタイプ基準値の数は、
音素の数より、例えば3倍分だけ、大きい数のものを別
に選択する。
対数であり、瞬時の音声値x(i)に一番近いプロトタ
イプ基準値Z1が音素jに、または学習段階中の音素セク
ションに発生する。1つの音素は単一のプロトタイプ基
準値に直接対応せず、このプロトタイプ基準値の数は、
音素の数より、例えば3倍分だけ、大きい数のものを別
に選択する。
プロトタイプ基準値は、総ての音声値x(i)から学
習段階中に決定され、そして総ての音声値から細分量C1
を形成するように発生される。各細分量の総ての音声値
および関連するプロトタイプ基準値の間の距離は合計さ
れ、これらの和は、n個のプロトタイプ基準値の総てに
わたって加算されて、以下の合計値を得る。
習段階中に決定され、そして総ての音声値から細分量C1
を形成するように発生される。各細分量の総ての音声値
および関連するプロトタイプ基準値の間の距離は合計さ
れ、これらの和は、n個のプロトタイプ基準値の総てに
わたって加算されて、以下の合計値を得る。
細分量C1およびこの細分量に含まれるプロトタイプ基
準値を、合計値Dが可能な限り小さくなるように、変化
させる。このプロトタイプ基準値の変化は学習段階中に
行うのが効果的であるため、リアルタイム処理を必要と
せず、ここで行われる一回の計算処理は相当な時間量を
必要とする。
準値を、合計値Dが可能な限り小さくなるように、変化
させる。このプロトタイプ基準値の変化は学習段階中に
行うのが効果的であるため、リアルタイム処理を必要と
せず、ここで行われる一回の計算処理は相当な時間量を
必要とする。
プロトタイプ基準値C1が音素jにて発生するという条
件付の可能性p(l/j)は、周波数比から決定され得、
この周波数比でこのプロトタイプ基準値は学習段階中に
該当する音素に発生し、この音素の総てのプロトタイプ
基準値は以下の方法で得られる。
件付の可能性p(l/j)は、周波数比から決定され得、
この周波数比でこのプロトタイプ基準値は学習段階中に
該当する音素に発生し、この音素の総てのプロトタイプ
基準値は以下の方法で得られる。
p(l/j)=H(l,j)/H(j) …(6) しかし、学習音声値の十分な数または分布が要求され
る。
る。
実際に、学習音声値が限定された量とする場合には、
プロトタイプ基準値の全体は他のプロトタイプ基準値に
関して発生周波数は小さい。この場合に、所定の音素の
上記プロトタイプ基準値の発生周波数とこの音素の総て
のプロトタイプ基準値の発生周波数との比は必然的に小
さくなり、この特別のプロトタイプ基準値はこの音素内
にほぼ限り発生する。さらに異なる音素の発生周波数は
異なり、これが小さな距離測定値に導き、即ち認識中の
これら音素の優先順位をつける。この理由のため、距離
測定は、個別のプロトタイプ基準値が学習段階中に発生
する異なる周波数と、異なる音素が発生する周波数との
差が、少なくとも標準化により減ぜられることを目的と
している。
プロトタイプ基準値の全体は他のプロトタイプ基準値に
関して発生周波数は小さい。この場合に、所定の音素の
上記プロトタイプ基準値の発生周波数とこの音素の総て
のプロトタイプ基準値の発生周波数との比は必然的に小
さくなり、この特別のプロトタイプ基準値はこの音素内
にほぼ限り発生する。さらに異なる音素の発生周波数は
異なり、これが小さな距離測定値に導き、即ち認識中の
これら音素の優先順位をつける。この理由のため、距離
測定は、個別のプロトタイプ基準値が学習段階中に発生
する異なる周波数と、異なる音素が発生する周波数との
差が、少なくとも標準化により減ぜられることを目的と
している。
かかる標準化は以下に示す等式によりある範囲に発生
する。
する。
まず各プロトタイプベクトルZ1の発生周波数、この場
合には音素のプロトタイプ基準値の平均の発生周波数が
決定され、次いで最低値Nがそれから決定され、そして
この最低値Nに基づいて総ての周波数が標準化される。
この結果、標準化された周波数Q1が得られる。基本的に
は標準化は他のどの値についても行うことができ、標準
化された周波数の和は、各プロトタイプ基準値で等し
い。続いて、総てのプロトタイプ基準値の最大および最
小の標準化された周波数がその都度の1音素に対して決
定され、そして換算係数Sjが決定される。この換算係数
は、総ての条件付の可能性p′(l/j)または対数の値
が一定の範囲の値を有することを確保する。
合には音素のプロトタイプ基準値の平均の発生周波数が
決定され、次いで最低値Nがそれから決定され、そして
この最低値Nに基づいて総ての周波数が標準化される。
この結果、標準化された周波数Q1が得られる。基本的に
は標準化は他のどの値についても行うことができ、標準
化された周波数の和は、各プロトタイプ基準値で等し
い。続いて、総てのプロトタイプ基準値の最大および最
小の標準化された周波数がその都度の1音素に対して決
定され、そして換算係数Sjが決定される。この換算係数
は、総ての条件付の可能性p′(l/j)または対数の値
が一定の範囲の値を有することを確保する。
したがって、これら条件付の可能性の負の対数は認識
のために使用される距離測定値である。条件付の可能性
のために用いる上記等式中の最後の式中の右辺括弧間の
表現は、音素のプロトタイプ基準値の最低周波数につい
て標準化されているため、この最低の標準化された周波
数に対する距離の値を零に等しく、この一方で最大の周
波数に対する距離の値は、換算係数Sjに対する等式から
の値Bにより決定される。この値Bは、計算を技術的に
実施するための距離測定の値の有効は範囲をもたらすよ
うに、効果的に選定される。これ故に、学習音声値およ
び音素の間の該当する情報内容ほど条件付可能性の発生
がないことを考慮する必要がある。認識中において、こ
のことがさらに良好な結果を導き出す。
のために使用される距離測定値である。条件付の可能性
のために用いる上記等式中の最後の式中の右辺括弧間の
表現は、音素のプロトタイプ基準値の最低周波数につい
て標準化されているため、この最低の標準化された周波
数に対する距離の値を零に等しく、この一方で最大の周
波数に対する距離の値は、換算係数Sjに対する等式から
の値Bにより決定される。この値Bは、計算を技術的に
実施するための距離測定の値の有効は範囲をもたらすよ
うに、効果的に選定される。これ故に、学習音声値およ
び音素の間の該当する情報内容ほど条件付可能性の発生
がないことを考慮する必要がある。認識中において、こ
のことがさらに良好な結果を導き出す。
上述した方法を実施するための装置において、第2図
のブロック図に示すように、マイクロホン10を経て記録
された音声信号を割算回路12にて増幅し、この音声信号
をデジタル音声値のシーケンスに変換する。このデジタ
ル音声値のシーケンスは処理回路14に供給される。この
処理回路は割算回路12からの各々の新規の音声値に応じ
て、基準値に対する第1メモリ16の連続な総ての記録位
置をアドレス指定し、各基準値を音声信号と比較する。
さらに、処理回路14は、個別の基準値に対してその時点
まで定められた距離の値を含む第2のメモリ18をアドレ
ス指定し、第1メモリ16から読み出された各基準値に対
して第2メモリ18からの所定の基準値の距離の値を読み
取る。等しい基準値のシーケンス内に存在する第1メモ
リ16の基準値に応じて、ただ一つの距離の和、即ち前の
基準値の距離の和を第2メモリ18から読み出し、これを
変わることのない比較結果に加えられ、第1メモリ16の
特定の瞬時の基準値に応じて第2メモリ18に再び記録さ
れる。
のブロック図に示すように、マイクロホン10を経て記録
された音声信号を割算回路12にて増幅し、この音声信号
をデジタル音声値のシーケンスに変換する。このデジタ
ル音声値のシーケンスは処理回路14に供給される。この
処理回路は割算回路12からの各々の新規の音声値に応じ
て、基準値に対する第1メモリ16の連続な総ての記録位
置をアドレス指定し、各基準値を音声信号と比較する。
さらに、処理回路14は、個別の基準値に対してその時点
まで定められた距離の値を含む第2のメモリ18をアドレ
ス指定し、第1メモリ16から読み出された各基準値に対
して第2メモリ18からの所定の基準値の距離の値を読み
取る。等しい基準値のシーケンス内に存在する第1メモ
リ16の基準値に応じて、ただ一つの距離の和、即ち前の
基準値の距離の和を第2メモリ18から読み出し、これを
変わることのない比較結果に加えられ、第1メモリ16の
特定の瞬時の基準値に応じて第2メモリ18に再び記録さ
れる。
1シーケンスの端縁での基準値と、これとは逆に同一
の基準値の距離の和に応じて、同一の基準値の距離の和
とを第2メモリ18から読み出すが、この距離の和はその
時点では時間ひずみ値だけ増加される。次いで、比較結
果は2個の距離の和の小さいほう、即ち増加された距離
の和に夫々加えられ、この値が第2メモリ18に特定の瞬
時の基準値、即ち上記シーケンスの最後の基準値に応じ
て、記録される。
の基準値の距離の和に応じて、同一の基準値の距離の和
とを第2メモリ18から読み出すが、この距離の和はその
時点では時間ひずみ値だけ増加される。次いで、比較結
果は2個の距離の和の小さいほう、即ち増加された距離
の和に夫々加えられ、この値が第2メモリ18に特定の瞬
時の基準値、即ち上記シーケンスの最後の基準値に応じ
て、記録される。
1シーケンスの第1の基準値に応じて、前段のシーケ
ンスの最後の基準値の距離の値のみならず、前段のシー
ケンスの前段の基準値の距離の和もまた第2メモリ18か
ら読み取られるが、これら距離の和は上記シーケンス内
の関連する基準値の位置に依存して、時間ひずみ値だけ
増加される。これら増加された距離の和または増加され
ない距離の和の最小値を、処理回路14内で、比較結果に
夫々加える。この距離の和はシーケンスの該当する第1
の基準値に応じて第2メモリ18に記録される。したがっ
て、第2メモリ18に含まれる総ての距離の和は割算回路
12により供給される各々の新たな音声値で更新される。
ンスの最後の基準値の距離の値のみならず、前段のシー
ケンスの前段の基準値の距離の和もまた第2メモリ18か
ら読み取られるが、これら距離の和は上記シーケンス内
の関連する基準値の位置に依存して、時間ひずみ値だけ
増加される。これら増加された距離の和または増加され
ない距離の和の最小値を、処理回路14内で、比較結果に
夫々加える。この距離の和はシーケンスの該当する第1
の基準値に応じて第2メモリ18に記録される。したがっ
て、第2メモリ18に含まれる総ての距離の和は割算回路
12により供給される各々の新たな音声値で更新される。
さらに、第2メモリ18の距離の和は、既知の方法の一
つにおける別の処理回路20により処理される。これは、
音素が距離の和の中の最小のものを有する、既知の認識
されたワードのシーケンスをそこから決定し、これらシ
ーケンスを出力端22に供給するためである。
つにおける別の処理回路20により処理される。これは、
音素が距離の和の中の最小のものを有する、既知の認識
されたワードのシーケンスをそこから決定し、これらシ
ーケンスを出力端22に供給するためである。
第1メモリ16は、個別の音素に対する基準値の代わり
に、プロトタイプ基準値のみならず関連する距離測定を
も有させることができ、次いで、処理回路14は、各々の
新たに供給される音声値に応じて、次に続いて供給され
たプロトタイプ基準値を決定する。したがって、このプ
ロトタイプ基準値と関連する距離測定値は、比較結果と
して使用される。
に、プロトタイプ基準値のみならず関連する距離測定を
も有させることができ、次いで、処理回路14は、各々の
新たに供給される音声値に応じて、次に続いて供給され
たプロトタイプ基準値を決定する。したがって、このプ
ロトタイプ基準値と関連する距離測定値は、比較結果と
して使用される。
第1図はマルコフモデルによる遷移および連続な音声値
でのこの遷移の結果を示す説明図、 第2図は本発明による方法を実施する回路配置を示すブ
ロック回路図である。 10……マイクロホン、12……割算回路 14,20……処理回路、16……第1メモリ 18……第2メモリ、22……出力端
でのこの遷移の結果を示す説明図、 第2図は本発明による方法を実施する回路配置を示すブ
ロック回路図である。 10……マイクロホン、12……割算回路 14,20……処理回路、16……第1メモリ 18……第2メモリ、22……出力端
フロントページの続き (56)参考文献 特開 昭60−257499(JP,A) 特開 昭59−231599(JP,A) 特開 昭57−191786(JP,A) 特公 昭55−34437(JP,B2) 特公 昭61−26080(JP,B2) 米国特許5058166(US,A) 欧州特許285222(EP,B1) Proceedings of IE EE 1986 Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.3,”The Role of Word−Dependent Coarticulatory Eff ects in a Phoneme− Based Speech Recog nition System”p.1593 −1596 日本音響学会誌 Vol.42,No. 12「Hidden Markov Mo delに基づいた音声認識」p.936− 941(昭和61年12月1日発行) The Bell System T echnical Journal,V ol.62,No.4,Pt.1,,”O n the Application of Vector Quantiza tion and Hidden Ma rkov Models to Spe aker−Independent,I solated Word Recog nition”,p.1075−1105 IEEE ASSP Magazin e,Vol.3,No.1,Janua ry 1986,”An Introduc tion to Hidden Mar kov Models”,p.4−16 Proceedings of 1987 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.3,A.Noll et al,”Training of Ph oneme Models in a Sentence Recogniti on System”,p.1277−1280 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG) IBM Technical Disc losure Bulletin IBM Intellectual P roperty Network
Claims (2)
- 【請求項1】音声信号から、音声信号の一部をそれぞれ
表す音声値を取り出し、 前記音声値を、学習音声信号から取り出され、音素又は
音素セクションをモデル化する一連の状態を有するマル
コフモデルの状態に対応する基準値と順次比較し、一の
状態から次の状態への遷移と、音素又は音素セクション
をモデル化するマルコフモデルのある状態から次の音素
又は音素セクションをモデル化するマルコフモデルの第
1の状態への遷移と、マルコフモデルの最後の状態への
複数回の遷移とを行い、 動的計画法により、認識すべき信号を一連の基準値に時
間適合させ、この時間適合が、前記音声値と基準値jと
の間の距離値を、 前段の音声値と基準値jの所定の隣接区域に存在する基
準値j′との間の距離を表す距離の合計値と、 前記所定の隣接区域に依存する時間歪み値との 最小の合計値に付加することにより、音声値と基準値j
との間の距離の合計値を決定することにより行われる音
声認識方法。 - 【請求項2】音声信号から、音声信号の一部をそれぞれ
表す音声値を取り出す手段と、前記音程値を、学習音声
信号から取り出され、音素又は音素セクションをモデル
化する一連の状態を有するマルコフモデルの状態に対応
する基準値と順次比較する手段であって、一の状態から
次の状態への遷移と、音素又は音素セクションをモデル
化するマルコフモデルのある状態から次の音素又は音素
セクションをモデル化するマルコフモデルの第1の状態
への遷移と、マルコフモデルの最後の状態の複数回の遷
移とを行う手段と、 動的計画法により、認識すべき信号を一連の基準値に時
間適合させる手段であって、この時間適合が、前記音声
値と基準値jとの間の距離値を、 前段の音声値と基準値jの所定の隣接区域に存在する基
準値j′との間の距離を表す距離の合計値と、 前記所定の隣接区域に依存する時間歪み値との 最小の合計値に付加することにより、音声値と基準値j
との間の距離の合計値を決定することにより行う手段と
を具える音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE3711342.9 | 1987-04-03 | ||
DE19873711342 DE3711342A1 (de) | 1987-04-03 | 1987-04-03 | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63259687A JPS63259687A (ja) | 1988-10-26 |
JP3130524B2 true JP3130524B2 (ja) | 2001-01-31 |
Family
ID=6324845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63082850A Expired - Fee Related JP3130524B2 (ja) | 1987-04-03 | 1988-04-04 | 音声信号認識方法およびその方法を実施する装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5058166A (ja) |
EP (1) | EP0285222B1 (ja) |
JP (1) | JP3130524B2 (ja) |
DE (2) | DE3711342A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3711342A1 (de) | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
DE4130631A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
DE69232463T2 (de) * | 1991-12-31 | 2002-11-28 | Unisys Pulsepoint Communications, Carpinteria | Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
US5758021A (en) * | 1992-06-12 | 1998-05-26 | Alcatel N.V. | Speech recognition combining dynamic programming and neural network techniques |
DE4412745A1 (de) * | 1994-04-14 | 1996-11-07 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
US6061652A (en) * | 1994-06-13 | 2000-05-09 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
EP0703569B1 (de) * | 1994-09-20 | 2000-03-01 | Philips Patentverwaltung GmbH | System zum Ermitteln von Wörtern aus einem Sprachsignal |
US6321226B1 (en) * | 1998-06-30 | 2001-11-20 | Microsoft Corporation | Flexible keyboard searching |
US6336089B1 (en) * | 1998-09-22 | 2002-01-01 | Michael Everding | Interactive digital phonetic captioning program |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
DE10306022B3 (de) * | 2003-02-13 | 2004-02-19 | Siemens Ag | Dreistufige Einzelworterkennung |
KR100682909B1 (ko) * | 2004-12-23 | 2007-02-15 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US10235993B1 (en) * | 2016-06-14 | 2019-03-19 | Friday Harbor Llc | Classifying signals using correlations of segments |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5058166A (en) | 1987-04-03 | 1991-10-15 | U.S. Philips Corp. | Method of recognizing coherently spoken words |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4513436A (en) * | 1980-09-16 | 1985-04-23 | Oki Electric Industry, Co., Ltd. | Speech recognition system |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
JPS57147781A (en) * | 1981-03-06 | 1982-09-11 | Nec Corp | Pattern matching device |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
JPS5879300A (ja) * | 1981-11-06 | 1983-05-13 | 日本電気株式会社 | パタ−ン距離計算方式 |
JPS5926960A (ja) * | 1982-08-02 | 1984-02-13 | 藤井 実 | 被覆方法 |
US4624008A (en) * | 1983-03-09 | 1986-11-18 | International Telephone And Telegraph Corporation | Apparatus for automatic speech recognition |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
JPS61292697A (ja) * | 1985-06-21 | 1986-12-23 | 三菱電機株式会社 | パタン類似度計算装置 |
-
1987
- 1987-04-03 DE DE19873711342 patent/DE3711342A1/de not_active Withdrawn
-
1988
- 1988-03-30 EP EP88200598A patent/EP0285222B1/de not_active Expired - Lifetime
- 1988-03-30 DE DE88200598T patent/DE3883411D1/de not_active Expired - Fee Related
- 1988-04-04 JP JP63082850A patent/JP3130524B2/ja not_active Expired - Fee Related
-
1990
- 1990-05-11 US US07/523,305 patent/US5058166A/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5058166A (en) | 1987-04-03 | 1991-10-15 | U.S. Philips Corp. | Method of recognizing coherently spoken words |
Non-Patent Citations (5)
Title |
---|
IEEE ASSP Magazine,Vol.3,No.1,January 1986,"An Introduction to Hidden Markov Models",p.4−16 |
Proceedings of 1987 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.3,A.Noll et al,"Training of Phoneme Models in a Sentence Recognition System",p.1277−1280 |
Proceedings of IEEE 1986 International Conference on Acoustics,Speech and Signal Processing,Vol.3,"The Role of Word−Dependent Coarticulatory Effects in a Phoneme−Based Speech Recognition System"p.1593−1596 |
The Bell System Technical Journal,Vol.62,No.4,Pt.1,,"On the Application of Vector Quantization and Hidden Markov Models to Speaker−Independent,Isolated Word Recognition",p.1075−1105 |
日本音響学会誌 Vol.42,No.12「Hidden Markov Modelに基づいた音声認識」p.936−941(昭和61年12月1日発行) |
Also Published As
Publication number | Publication date |
---|---|
EP0285222A2 (de) | 1988-10-05 |
EP0285222A3 (en) | 1990-07-11 |
US5058166A (en) | 1991-10-15 |
JPS63259687A (ja) | 1988-10-26 |
EP0285222B1 (de) | 1993-08-25 |
DE3883411D1 (de) | 1993-09-30 |
DE3711342A1 (de) | 1988-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP3434838B2 (ja) | ワードスポッティング法 | |
EP0846318B1 (en) | Pattern recognition | |
US5732392A (en) | Method for speech detection in a high-noise environment | |
JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
US5327521A (en) | Speech transformation system | |
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
US7054810B2 (en) | Feature vector-based apparatus and method for robust pattern recognition | |
JP2768274B2 (ja) | 音声認識装置 | |
JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
US5129001A (en) | Method and apparatus for modeling words with multi-arc markov models | |
EP1457968B1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
Paliwal | Lexicon-building methods for an acoustic sub-word based speech recognizer | |
JP3525082B2 (ja) | 統計モデル作成方法 | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
JP3868798B2 (ja) | 音声認識装置 | |
JP3256979B2 (ja) | 音響モデルの入力音声に対する尤度を求める方法 | |
JPH0772899A (ja) | 音声認識装置 | |
JP3698511B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |