[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPH054680B2 - - Google Patents

Info

Publication number
JPH054680B2
JPH054680B2 JP60275365A JP27536585A JPH054680B2 JP H054680 B2 JPH054680 B2 JP H054680B2 JP 60275365 A JP60275365 A JP 60275365A JP 27536585 A JP27536585 A JP 27536585A JP H054680 B2 JPH054680 B2 JP H054680B2
Authority
JP
Japan
Prior art keywords
voice
similarity
speech
distance
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP60275365A
Other languages
English (en)
Other versions
JPS62134699A (ja
Inventor
Katsuyuki Futayada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP27536585A priority Critical patent/JPS62134699A/ja
Publication of JPS62134699A publication Critical patent/JPS62134699A/ja
Publication of JPH054680B2 publication Critical patent/JPH054680B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の声を機械に認識させる音声認識
方法に関するものである。
従来の技術 近年音声認識技術の開発が活発に行なわれ、商
品化されているが、これらのほとんどは声を登録
した人のみを認識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ
装置に登録する手間を要するため、連続的に長時
間使用する場合を除けば、使用者にとつて大きな
負担となる。これに対し、声の登録を必要とせ
ず、使い勝手のよい不特定話者用の認識技術の研
究が最近では精力的に行なわれるようになつた。
音声認識方法を一般的に言うと、入力音声と辞
書中に格納してある標準的な音声(これらはパラ
メータ化してある)のパターンマツチングを行な
つて、類似度が最も高い辞書中の音声を認識結果
として出力するということである。この場合、入
力音声と辞書中の音声が物理的に全く同じものな
らば問題はないわけであるが、一般には同一音声
であつても、人が違つたり、言い方が違つている
ため、全く同じにはならない。
人の違い、言い方の違いなどは、物理的にはス
ペクトルの特徴の違いと時間的な特徴の違いとし
て表現される。すなわち、調音器官(口、舌、の
どなど)の形状は人ごとに異なつているので、人
が違えば同じ言葉でもスペクトル形状は異なる。
また早口で発声するか、ゆつくり発声するかによ
つて時間的な特徴は異なる。
不特定話者用の認識技術では、このようなスペ
クトルおよびその時間的変動を正規化して、標準
パターンと比較する必要がある。
不特定話者の音声認識に有効な方法として、本
出願人は既にパラメータの時系列情報と統計的距
離尺度を併用する方法に関して特許を出願してい
る(特願昭60−29547)ので、その方法を以下に
説明する。
第10図は本願出願人が以前に提案した音声認
識方法の具現化を示す機能ブロツク図である。
図において、1は入力音声をデイジタル信号に
変換するAD変換部、2は音声を分析区間(フレ
ーム)毎に分析しスペクトル情報を求める音響分
析部、3は特徴パラメータを求める特徴パラメー
タ抽出部、4は始端フレームと終端フレームを検
出する音声区間検出部、5は単語長の伸縮を行う
時間軸正規化部、6は入力パターンと標準パター
ンとの類似度を計算する距離計算部、7は予め作
成された標準パターンを格能する標準パターン格
納部である。上記構成において以下その動作を説
明する。
入力音声をAD変換部1によつて12ビツトのデ
イジタル信号に変換する。標本化周波数は8KHz
である。音響分析部2では、1フレーム
(10msec)ごとに自己相関法によるLPC分析を行
なう。分析の次数は10次とし、線形予測係数〓0,
〓,〓2…〓10を求める。またここではフレームごと
の音声パワーWoも求めておく。特徴パラメータ
抽出部3では線形予測係数を用いて、LPCケプ
ストラム係数C1〜Cp(pは打切り次数)および正
規化対数残差パワーCoを求める。
なお、LPC分析とLPCケプストラム係数の抽
出法に関しては、例えば、J.D.マーケル、A.H.グ
レイ著、鈴木久喜訳「音声の線形予測」に詳しく
記述してあるので、ここでは説明を省略する。ま
た特徴パラメータ抽出部3では対数パワーLWo
を次式で求める。
LWo=10log10Wo (1) 音声区間検出部4は式(1)で求めたLWo閾値θs
と比較し、LWo>θSのフレームがlSフレーム以上
持続する場合、その最初のフレームを音声区間の
始端FSとする。またFSの後において、LWoと閾
値θeを比較し、LWo<θeとなるフレームがleフレ
ーム以上連続するとき、その最初のフレームを音
声区間の終端フレームFeとする。このようにし
てFSからFSまでを音声区間とする。いま説明を簡
単にするために、改めてFSを第1フレームと考
え、フレームナンバーを(1,2,…j,…J)
とする。ただし、J=Fe−FS+1である。
時間軸正規化部5では、単語長をIフレームの
長さに分割することにより線形に伸縮をする。伸
縮後の第iフレームと入力音声の第jフレームは
式(2)の関係を持つ。
i=〔J−1/J−1j+J−1/J−1+0.5〕(2) ただし〔 〕は、その数を超えない最大の整数
を表す。例ではI=16としている。
次に伸縮後の特徴パラメータを時系列に並べ、
時系列パターン〓xを作成する。いま第iフレー
ムの特徴パラメータ(LPCケプストラム係数)
をC(x) i,k(k=0,1,2,…P:d個)とすると〓
は次式となる。
x=(C(x) 1,0,C(x) 1,1,C(x) 1,2…C(x) 1,
p
……C(x) i,0,C(x) i,1……C(x) I,0C(x) I,1…C(x) I,p
(3) すなわち〓xは、I・(P+1)すなわちI・D次
元のベクトルとなる(Dは1フレームあたりのパ
ラメータ数)。
距離計算部6は入力パターン〓xと標準パター
ン格納部7に格納されている各音声の標準パター
ンとの類似度を統計的な距離尺度を用いて計算
し、最も距離が小さくなる音声を認識結果として
出力する。標準パターン格納部7に格納されてい
る第k番目の音声に対応する標準パターンを〓k
(平均値)、対象とする全音声に共通な共分散行列
を〓とすると、入力パターン〓xと第k番目の標
準パターンとのマハラノビス距離Skは次式で計算
される。
Sk=(〓x−〓k)t・〓-1・(〓x−〓k) (4) 添字tは転置を、また−1は逆行列であること
を表す。式(4)を展開すると Sk=〓t x・〓−1・〓x−2〓t k・〓−1 ・〓x+Ct k・〓−1・〓k (5) 式(5)の第1項はnに無関係なので大小比較をする
ときは考慮しなくてもよい。したがつて第1項を
取除いて、SkをDkに置きかえると、Dkは次のよ
うになる。
Dk=bk−〓t k・〓x (6) ただし 〓k=2〓−1・〓k (7) bk=〓t k・〓−1・〓k (8) Dkを全てのk(k=1,2…K)について計算
し、Dkを最小とする音声を認識結果とする。こ
こでKは標準パターン格納部7に格納されている
音声標準パターンの数である。実際には標準パタ
ーンは〓kとbkが1対として、音声の数(K種類)
だけ格納されている。
式(6)に要する計算量は積和演算がI・(P+1)
回、減算が1回であり、非常に計算量が少ないの
が特長である。実用的にはI=16,P=4とすれ
ば十分なので、積和演算回数は1単語あたり80回
である。
次に標準パターン〓k,〓(実際には〓k,bk
変換される)の作成方法について説明する。
標準パターンは、各音声ごとに多くのデータサ
ンプルを用いて作成する。各音声に対して、用い
るサンプルの数をMとする。各サンプルに対して
式(2)を適用して、フレーム数をIに揃える。音声
kに対して平均値ベクトルを求める。
k=(C(k) 1,0,C(k) 1,1,C(k) 1,2,…C(k)
1,p……C(k) i,0,C(k) i,1…C(k) I,0,C(k) I,1,…C(k) 1
,p
)(9) ただし C(k) i,o1 MMm=1 Ci(k) o,n (10) (i=1,2,…I:Iフレーム、n=0,
1,2,…P:d個) ここでC(k) i,o,nは音声kの第m番目のサンプルで、
第iフレームの第n次のケプストラム係数を示
す。平均値ベクトルと同様な手順で音声kの共分
散行列〓(k)を求める。全音声に共通な共分散行列
〓は次式で求める。
〓=1/K(〓(1)(2)+…+〓(k)+……+〓(k)
(11) 〓k,〓を式(7)式(8)によつて〓k,bkに変換し、
標準パターン格納部7にあらかじめ格納してお
く。
発明が解決しようとする問題点 かかる方法における問題点は、パターンマツチ
ングを行なう以前に音声区間が一意に確実に決め
られていると仮定している点にある。現実の音声
データは種々のノイズを含んでいたり、語頭や語
尾における発声が不明瞭であるため、音声区間を
正確に決められない場合や、音声以外の区間を誤
まつて検出する場合が多々ある。誤まつた音声区
間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。
本発明の目的は上記問題点を解決するので、音
声区間の正確な検出を必要としないで、入力信号
中から音声を自動的に抽出して認識でき、高い認
識率を有する音声認識方法を提供するものであ
る。
問題点を解決するための手段 本発明は上記目的を達成するもので、パワー情
報を利用して認識すべき音声の存在を検出し、そ
の始端付近にある時間的な基準点となる始端点を
設け、基準点を端点としてそれからN1フレーム
の区間とN2フレームの区間(N1<N2)の2区間
を設定して、これを音声区間のそれぞれ最小値と
最大値と考えて、N2−N1+1とおりの音声区間
候補のそれぞれに対して、音声区間長を一定時間
長に伸縮しながら各単語の標準パターンとのマツ
チングを行なつて各単語の類似度又は距離を求
め、この操作を基準点を1フレームずつシフトし
ながら行なつてゆき、基準点の位置が検出された
音声の部分から一定区間hだけ経過した時点と類
似度又は距離がある値Tvよりも小さく又は大き
くなつた時点を用いて決められる終了点に到達し
たとき、始端点から終了点までの間の全ての基準
点位置の全ての音声区間候補に対する類似度また
は距離を各単語について比較し、類似度を最大ま
たは距離を最小とする単語を認識結果として出力
するものである。
作 用 本発明は、パワー情報と類似度情報を用いて検
出された、入力音声が確実に存在する十分広い区
間(入力信号区間)に対して、線形伸縮した入力
と標準パターンとの間のパターンマツチングを入
力信号区間の始端から終端まで走査しながら行な
うことによつて、類似度最大又は距離最小となる
音声とその区間を自動的に求める方法であり、正
確な音声区間の検出を必要とせず、騒音環境下で
発声した音声も高い確率で認識することができ
る。
実施例 以下に本発明の実施例を図面を用いて詳細に説
明する。第1図は本発明の一実施例における音声
認識方法の具現化を示す機能ブロツク図である。
まず本実施例の考え方を第2図〜第4図を用い
て説明する。
同じ言葉を発声しても、発声の時間的な長さ
(音声長)は発声方法によつて異なるし、人の違
いによつても異なる。、パターンマツチングによ
る音声認識方法では入力音声の長さを、標準的な
音声長に正規化したうえ類似度計算を行なつて音
声の認識を行なう。第2図は音声長の正規化の様
子を示したものである。入力音声の長さの最小長
をN1、最大長をN2とし、音声の標準的な長さ
(標準パターン長)をIとすると、第2図に示す
ように、長さN(N1≦N≦N2)の音声長を伸縮
して長さIに正規化することになる。第2図では
音声の終端を一致させて、伸縮するようになつて
いる。伸縮には式(2)と同様に、線形伸縮式を用い
る。
i=〔I−1/N−1・n+N−1/N−1+0.5〕(
12) 未知入力と標準パターンの類似度を計算する場
合、未知入力の音声長Nを式(12)によつて標準パタ
ーン長に伸縮することになるが、この様子を図示
したのが第3図である。よこ軸に入力長、たて軸
に標準パターン長をとり、終端を一致させると、
入力音長はN1〜N2の範囲であるから、入力と標
準パターンとのマツチングルートは、入力軸の
N1≦N≦N2内の1点を始点とし、Pを終端とす
る直線となる。したがつて、類似度計算は全て三
角形の内側(マツチング窓と呼ぶ)で行なわれる
ことになる。
いま、時間長NUの未知入力があり、その内容
が音声kであつたとする。ただし、未知入力の終
端は既知であるが始端は未知である(したがつ
て、NUも未知である)とする。この未知入力と
単語kの標準パターンSkの照合を行なう場合、N
をN1からN2まで、フレームずつずらせながら、
各フレームに対して式(12)を用いて時間長をIに伸
縮し、未知入力パラメータと標準パターンとの類
似度を求める。このとき標準パターンはSkである
ので、発声が正確ならば、N=NUにおいて類似
度は最大となるはずである。また他の任意の標準
パターンSk′に対するよりも、Skに対して類似度
が大きくなるはずである。このようにして、未知
入力の始端が決められる(したがつて音声長が決
められる)と同時に音声kが認識できる。
さて、第3図においては終端が既知として説明
を行なつたが、両端が未知の場合(すなわち音声
区間が不明である場合)にも、この方法を拡張で
きる。第4図はその説明図である。図において終
端点の横軸(入力の時間軸(座標をjとする。こ
こでもしjの位置が入力音声の終端に一致してい
れば第3図の場合と同じであるが、今度は両端点
が未知という仮定であるので、必ずしもjが音声
の終了点と一致するとは限らない。しかしなが
ら、jを音声区間が十分に入る広い範囲j1≦j≦
j2でスキヤンすれば、jが音声の終端と一致する
時点j=j0が必ず存在する。その場合、始端点は
j0−N2〜j0−N1の範囲内の点j0−NUに存在する
はずである。そして、このようなスキヤンした場
合においても、発声した言葉と標準パターンが一
致していれば、始端がj0−NU、終端がj0のときの
類似度が、他のどのようなjおよびNの組合せよ
りも大きくなる。しかも、この類似度は他の標準
パターンに対する類似度よりも大きい。したがつ
て、認識結果が求められると同時に、音声の始端
点、終端点が定まる。
このように第4図に示した方法は、騒音と音声
が混在した信号から、標準パターンに最も類似し
た部分を切り出して認識することができる。した
がつて、一般に用いられているような複雑な音声
区間検出の手続きを必要とせず、音声区間は認識
された音声とともに結果として出力される。
類似度の計算は以下に述べるように、特徴パラ
メータの時系列パターンを用い、統計的距離尺度
(事後確率に基く距離)によつて計算する。
1フレームあたりの特徴パラメータの個数をD
とすると、Iフレームの時系列パターンはD・I
次元のベクトルとなる。いま、未知入力の第iフ
レームのパラメータを〓i、単語kの標準パター
ンの第iフレームの成分を〓k iとすると、 〓i=(x1,i,x2,i,…xd,i,…XD,
i) (13) 〓k i=(ak 1,i,ak 2,i,…ak d,i,…ak D,i(14) 時系列パターンをそれぞれ〓,〓kとすると 〓=(〓1,〓2,…,〓i,…,〓I)(15) 〓k=(〓k 1,ak 2,…,〓k i,…,〓k I) 〓 である。単語kに対する類似度をLkとすると、 Lk=Bk−〓t k・〓 (17) =Bk−Ii=1 (〓k it・〓i (18) =BkIi=1Dd=1 ak d,i・xd,i) (19) ここで〓k,Bkは単語kの標準パターンである。
k=2〓-1 a(〓k−〓e) (20) Bk=〓t k・〓-1 a・〓k−〓t x・〓-1 a・〓e (21) ただし、〓kは単語kの平均値ベクトル、〓e
は全ての単語の周囲情報の平均値ベクトルであ
る。また〓aは共分散行列であり、各単語の共分
散行列〓kと周囲情報の共分散行列〓eを用いて
作成できる。
a=(Kk=1k+〓e)/(K+1) (22) Kは単語の種類である。
〓e,〓eは各単語に属する多くのサンプルを
用いて、次のように作成する。第5図に示すよう
に、音声とその周囲の区間に対して、1フレーム
ずつずらせながら複数の区間(区間長はIフレー
ム)を設定する。このような操作を各単語の多く
のサンプルに対して行ない、それらの区間のパラ
メータの平均値ベクトル〓eと共分散行列〓eを
作成する。
式(17)は式(6)と同じ形であるので、類似度計算に
要する演算量は従来例と変わらない。標準パター
ン作成の式(式(7),式(8)と式(20),式(21))のみが
異なつている。周囲情報を〓e,〓eとして標準
パターンに取り込んでいるのが本発明の特徴であ
る。このようにすると、式(17)は擬似的な事後確率
に基く距離となる。なお、距離尺度は事後確率に
基づく尺度の他に一次判別関数、二次判別関数、
マハラノビス距離、ベイズ判定、複合類似度など
の統用して求める。パワー情報による方法は、人
の声の方が周囲の騒音よりも大きいことを利用す
る方法であるが、人の声の大きさは環境に影響さ
れるので、声の大きさのレベルをそのまま利用し
ても良い結果は得られない。しかし、人の発声
は、静かな環境では小さく、やかましい環境では
大きくなる傾向があるので、信号対ノイズ比
(S/N比)を用いれば、環境騒音の影響をあま
り受けずに音声を検出できる。
第6図において、実線はパワー(対数値)の時
間変化を示す。この例ではa,b,cの3つのパ
ワーピークが生じているが、このうちaはノイズ
による不要なピークであるとする。破線はノイズ
の平均レベル(PN)、また一点鎖線はノイズの平
均レベルより常にθN(dB)だけ大きい、閾値レベ
ル(P〓)である。ノイズの平均レベルPNは次の
ようにして求める。パワー値をPとすると PN=1/MMm=1 Pn (23) ただし、Pnは閾値レベル以下のパワーレベル
を有する第mフレームパワー値である。すなわち
計的距離尺度を用いることができる。
さて、ここまでの説明では、第3図または第4
図で示した三角形のマツチング窓を、音声区間が
十分入る広い範囲j1≦j≦j2でスキヤンするもの
と仮定してきたが、実際にはj1およびj2をどのよ
うに決めるかが問題となる。j1が必要以上に小さ
い場合(すなわち音声の始端よりもずつと前に位
置する場合)はノイズなどによつて誤認識する割
合が多くなる。またj2が必要以上に大きい場合
(音声の終端よりもずつと後に位置する場合)は、
話者が発声終了してから認識結果を出力するまで
に時間がかかり過ぎ、使いにくいシステムになつ
てしまう。したがつて、j1やj2は音声区間を適当
に含むように設定する必要がある。しかし、本実
施例においては音声区間と正確に対応する必要は
ない。以下第6図〜第8図を用いて走査区間(j1
およびj2の位置)の決め方を説明する。
本実施例においては、走査区間の始端はパワー
情報で求め、終端はパワー情報と類似度情報を併
PNは閾値レベル以下(ノイズレベル)のフレー
ムの平均値である。このようにすると、第6図の
破線で示すように、PNはパワー値を平滑化した
波形となる。また閾値レベルP〓は P〓=PN+θN (24) である。
第6図を例として音声検出の方法を説明する。
信号の始まり部におけるパワーを初期ノイズレベ
ルとし、式(23)によつてノイズの平均レベルを求
めながら、パワーレベルとP〓を比較してゆく。最
初のパワーピークaはP〓以下であるので、音声と
して検出されない。パワーピークbの立上りの部
分dでパワーレベルがPN以上になると式(23)の操
作を中止し、以後P=P〓になるまでPNおよびP〓
を一定に保つ。そしてeからfにかけてP≦P〓と
なるので式(23)の操作を行なう。fからgまでは
P>P〓であるからPN,P〓は一定となる。結果と
してP>P〓となる区間B,Dを音声が存在する区
間とする。
このように、この音声検出方法はノイズの平均
レベルを基準として音声を検出しているので、環
境騒音が大きい場合でも音声パワーが大きけれ
ば、確実に音声の存在を検出できる。そして、閾
値θNを十分高くしておけば、少々の騒音変動は感
知しない。
次に第7図によつて、認識の走査区間の決め方
を説明する。第7図aはパワーの時間的な動きを
示しており、区間Aは第6図の方法で検出した音
声の確実な存在範囲である。bは第3図または第
4図で説明したマツチング窓が時間的に動いてゆ
く様子を示す。そして、(c)は距離(全単語の最小
距離)の時間的な動きであり、式(17)の最小値
minLkを用いている。
マツチング窓の先端が区間Aの先端dに到達し
た時点から認識を開始する。すなわち、この時点
が第4図の説明におけるスキヤン(走査)の開始
点j=j1である。d点を通過した後は第4図の方
法で各標準パターンとの類似度(距離)を求め、
比較してゆく。そして、スキヤンの終了点j=j2
まで認識操作を行なうことになるが、終了点j2
次の3つの条件によつて決定する。
パワーで検出された区間の開始点からの時間
長(フレーム数)がls以上である。
パワーで検出された区間の終了点からの時間
長(フレーム数)がle以上である。
各標準パターンとの距離の最小値(類似度の
最大値)が閾値以上(類似度の場合は閾値以
下)であること。
これら3つの条件を全て満足する最初の時点を走
査終了点j=j2とする。
最初の2つの条件は、主に持続時間を考慮して
決めたものである。は、どの標準パターンとの
距離も遠くなつた時点は、音声部分から外れてい
るという条件である。第7図の例では、fが区間
Aの終了点eからleが経過した時点、gが距離が
閾値を超えた時点、hがAの始端点からlsが経過
した時点であるが、最も後に位置するのはhであ
るので、hを走査終了点j2とする。
第8図は他の例である。(a)はパワーの動きであ
り、この場合は、パワーで検出された区間がAと
Bの2つある。(b)は距離の動きである。このよう
にパワーで検出された区間が複数の場合は、最後
の区間からlsを求める。そして、〜の条件に
よつて、hが走査終了点となる。
このように、本実施例による走査区間の設定法
は、S/N比を用いた音声の存在の検出と、類似
度が閾値を超えるか否かという、非常に粗い情報
を用いているので、種々のノイズによつて影響さ
れにくい。そして、もし開始点がノイズなどによ
つて実際の音声よりかなり前に位置したとして
も、認識処理の区間が増すだけであつて、認識率
に対する影響は小さい。また、終了点が誤まつて
かなり後に位置した場合も、発声終了から認識出
力までの時間が遅れるだけである。S/N比が低
すぎてパワーによる検出ができなかつた場合や、
類似度が小さ過ぎて終了点が検出されなかつた場
合は、認識拒否(リジエクト)となり、誤認識に
はならない。
次に上記の説明に基づいて、第1図の各ブロツ
クの機能を述べる。AD変換部1は入力信号に前
置フイルタを施した後、8KHzサンプリング、12
ビツトに量子化する。音響分析部11は入力信号
を分析次数10次でLPC分析し、特徴パラメータ
(LPCケプストラム係数)に変換して、LPCケプ
ストラム係数(C0〜C5)をフレーム(10msec
ごとに出力する。特徴パラメータ抽出部12の出
力が式(13)の〓に相当する(したがつてD=6であ
る)。なおブロツク10〜12の機能は第10図のブ
ロツク1〜3の機能と同じである。特徴パラメー
タはLPCケプストラム係数の他に、自己相関係
数、PARCOR係数、帯域通過フイルタの出力な
どがある。
以下、その他の各ブロツクの機能を第9図のフ
ローチヤートを参照しながら説明する。フレーム
同期信号発生部13は、1フレームごとに同期信
号を発生する。フレーム番号をjとする。
パワー計算部21はフレームごとのパワー(ま
たは帯域パワー)値を求める。パワー比較部22
では、パワー計算部21の出力Pjと、式(24)で求
められるノイズレベル学習部23の出力P〓を比較
し(判断イ)、Pj<P〓ならばノイズレベル学習部
23はP〓を更新する(処理ロ)。初めてPj≧P〓と
なつた時点で、走査区間設定部24は走査を開始
する指示を出し、以下の処理を行なう。走査開始
後、1フレームの期間で次の操作を行なう。
標準パターン選択部18は、認識対象とする音
声(ここでは単語)の1つ1つを選択する(処理
ハ)。ここで単語数をKとする。選択された標準
パターンk=1に対して、区間候補設定部15で
は、各単語の最小音声区間長N1(k)と最大音声
区間長N2(k)を設定する(処理ニ)。そして、
区間長N(N1(k)≦N<N2(k))に対して、特
徴パラメータ抽出部12で得られた未知入力パラ
メータをj−N〜jフレームの時間分だけ並べ
て、入力パラメータの時系列を作り、時間軸正規
化部14において、時系列パラメータの時間を式
(12)を用いてIフレームに伸縮し、式(15)に相当する
パラメータ系列を得る(処理ホ)。類似度計算部
16はそのパラメータ系列と、標準パターン選択
部18で選ばれた標準パターン格納部17中の標
準パターンAk,Bkとの間で、式(17)を用いて類似
度Lk(N)を計算する(処理ヘ)。類似度比較部20
では、Lk(N)と中間結果格納部19に蓄積されて
いるこの時点までの最大類似度値(距離の最小値
Lmin)を比較し(判断ト)、Lk(N)≦Lminならば
LminをLk(N)に置きかえてその時のkをK^として
中間結果格納部19を更新し(処理チ)、Lk(N)≧
Lminならば中間結果格納部19の内容は更新し
ない。
このような一連の操作を、1つの標準パターン
に対してN2(k)−N1(k)+1回ずつ(判断リ、
処理ヌ)、1フレームの間にK個の標準パターン
に対して行なう(判断ル、処理ヲ)。
以上の一連の処理が終了したら、走査区間設定
部24は前記〜の終了条件をチエツクする
(判断ヨ)。終了条件を満足しない場合はj=j+
Δj(Δjはjの増分)として(処理タ)、同様の処
理を行なう。終了条件を満足した場合は、その時
のK^を認識結果、Lminを類似度値(距離値)と
して出力する。また最大類似度(最小距離)を得
た時点のフレームj^とその時の区間長N^を中間結
果格納部19に蓄積しておけば、これらを用いて
音声区間を結果として求めることができる。
以上述べたように、本実施例はS/N比の時間
変化と類似度を用いて大きな音声の存在する区間
を検知しながら連続的に類似度計算を行なつて認
識を行なう方法であり、音声区間の正確な検出を
必要とせず、発声終了後速やかに結果を出力する
ことができる。
本実施例の方法を用いて、成人男女計330名が
電話機を通して発声した10数字単語を評価した結
果、平均認識率93.84%を得た。高騒音下の発声
であることを考慮すれば、この値は低いとは言え
ない。また本実施例による認識誤りの原因を分析
した結果、誤りのほとんどはある単語の一部を他
の単語と認識してしまうために生ずることがわか
つた。たとえば/Zero/の/ro/の部分を/
go/と誤認識するのがその1例である。このた
め、第2候補までを正解とすると97%以上の認識
率を得る。したがつて、他の方法を少し併用すれ
ば、第1候補としてさらに高い認識率が得られる
ことが容易に推察される。
また認識に要する時間は、発声終了後、長い場
合でも0.6秒以下であり、実用的に十分な認識速
度が得られた。そして、極端に声が小さいデータ
や、発声が不明瞭なデータはリジエクトされるこ
とが確認できた。
発明の効果 以上要するに本発明は、ダイナミツクなパワー
情報と類似度情報を用いて設定した認識すべき音
声とその前後の騒音を含む入力信号区間に、ある
時間的な基準点を設け、基準点を端点としてそれ
からN1フレームの区間とN2フレームの区間(N1
<N2)の2区間を設定して、これらを音声区間
のそれぞれ最小値と最大値と考えて、N2−N1
1とおりの音声区間候補のそれぞれに対して、音
声区間長を一定時間長に伸縮しながら各単語の標
準パターンとのマツチングを行なつて各単語の類
似度または距離を求め、この操作を基準点を全入
力信号区間の始めから終りまで走査して行ない、
全ての基準点位置の全ての音声区間候補に対する
類似度または距離を各単語について比較し、類似
度を最大または距離を最小とする単語を認識結果
として出力するもので、音声区間の正確な検出を
必要とせず、騒音と音声が混在した信号から音声
に相当する部分のみを切出して認識でき、従来は
複雑なルールを用いて音声区間の検出を行なつて
いたが、それでも騒音レベルが高い場合や非定常
的なノイズが混入する場合には音声区間の検出を
誤り、したがつて誤認識をしていたが、本発明は
複雑な音声区間検出アルゴリズムを除去すること
によつて、システムを簡略化し、また高騒音入力
に対して安定した認識率を確保することができ、
さらに発声終了後速やかに結果を出力することが
できるなど、その結果は大きい。
【図面の簡単な説明】
第1図は本発明の第1の実施例における音声認
識方法を具現化する機能ブロツク図、第2図乃至
第4図は同実施例の音声区間長の伸縮を説明する
概念図、第5図は同実施例の音声の標準パターン
作成時の、周囲情報の標準パターン作成法を説明
する概念図、第6図は同実施例の音声検出法を説
明する概念図、第7図は同実施例の認識の走査区
間の決め方を説明する図で、同図aはパワーの動
きを示す概念図、同図bはマツチング窓の時間的
を移動を示す概念図、同図cは距離の時間的な動
きを示す概念図、第8図は走査区間の決め方の他
の実施例を説明する図で、同図aはパワーの動き
を示す概念図、同図bは距離の時間的な動きを示
す概念図、第9図は本実施例の処理手順を説明す
るフローチヤート、第10図は従来の音声認識方
法を示す機能ブロツク図である。 10……AD変換部、11……音響分析部、1
2……特徴パラメータ抽出部、13……フレーム
同期信号発生部、14……時間軸正規化部、15
……区間候補設定部、16……類似度計算部、1
7……標準パターン格納部、18……標準パター
ン選択部、19……中間結果格納部、20……類
似度比較部、21……パワー計算部、22……パ
ワー比較部、23……ノイズレベル学習部、24
……走査区間設定部。

Claims (1)

  1. 【特許請求の範囲】 1 音声とその前後の騒音を含む未知入力信号か
    らパワー情報を用いて音声の存在を検出し、検出
    した時点を基準点として、基準点と基準点からN
    (N1≦N≦N2)だけ離れた区間の未知入力信号
    を区間長Lに線形伸縮し、伸縮した区間の特徴パ
    ラメータを抽出し、この特徴パラメータと認識対
    象とする複数の音声の標準パターンとの類似度又
    は距離をそれぞれ求めて比較し、このような操作
    をNをN1からN2まで変化させて行ない、さらに
    基準点を単位区間ずつずらせながら同様の操作を
    行なつて類似度又は距離を次々と求めて比較して
    ゆき、パワー情報の動きを用いて求めた音声の持
    続時間と類似度の時間的な変化を併用して決定し
    た処理終了時点へ基準点が到達した時における、
    全ての基準点そして全ての時間伸縮に対して最大
    類似度又は最小距離を得る標準パターンに対応す
    る音声を認識結果として出力することを特徴とす
    る音声認識方法。 2 音声信号とノイズの比率を用いて音声の存在
    を検出することを特徴とする特許請求の範囲第1
    項記載の音声認識方法。 3 未知入力信号の特徴パラメータを各音声の標
    準パターンとの類似度又は距離を統計的距離尺度
    を用いて計算することを特徴とする特許請求の範
    囲第1項記載の音声認識方法。 4 統計的距離尺度が、事後確率に基づく尺度、
    一次判別関数、二次判別関数、マハラノビス距
    離、ベイズ判定、複合類似度に基づく尺度のうち
    いずれかであることを特徴とする特許請求の範囲
    第3項記載の音声認識方法。
JP27536585A 1985-12-06 1985-12-06 音声認識方法 Granted JPS62134699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27536585A JPS62134699A (ja) 1985-12-06 1985-12-06 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27536585A JPS62134699A (ja) 1985-12-06 1985-12-06 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62134699A JPS62134699A (ja) 1987-06-17
JPH054680B2 true JPH054680B2 (ja) 1993-01-20

Family

ID=17554463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27536585A Granted JPS62134699A (ja) 1985-12-06 1985-12-06 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62134699A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102237286B1 (ko) * 2019-03-12 2021-04-07 울산과학기술원 음성 구간 검출장치 및 그 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111293A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声認識方法
JPS62133499A (ja) * 1985-12-05 1987-06-16 松下電器産業株式会社 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111293A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声認識方法
JPS62133499A (ja) * 1985-12-05 1987-06-16 松下電器産業株式会社 音声認識装置

Also Published As

Publication number Publication date
JPS62134699A (ja) 1987-06-17

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6671669B1 (en) combined engine system and method for voice recognition
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US5778342A (en) Pattern recognition system and method
US6922668B1 (en) Speaker recognition
JPH0990974A (ja) 信号処理方法
JP2745535B2 (ja) 音声認識装置
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH06110488A (ja) 音声検出方法および音声検出装置
JPH054680B2 (ja)
JP2506730B2 (ja) 音声認識方法
JP2705061B2 (ja) 音声認識方法
JP2502880B2 (ja) 音声認識方法
JPH0451037B2 (ja)
Li et al. Keyword-specific normalization based keyword spotting for spontaneous speech
JP3029654B2 (ja) 音声認識装置
JP2001013988A (ja) 音声認識方法及び装置
KR100304788B1 (ko) 연속 음성 인식을 이용한 전화번호 안내 방법
JP2746803B2 (ja) 音声認識方法
JPH054678B2 (ja)
JPH054679B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees