[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPS62134699A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62134699A
JPS62134699A JP27536585A JP27536585A JPS62134699A JP S62134699 A JPS62134699 A JP S62134699A JP 27536585 A JP27536585 A JP 27536585A JP 27536585 A JP27536585 A JP 27536585A JP S62134699 A JPS62134699 A JP S62134699A
Authority
JP
Japan
Prior art keywords
voice
similarity
speech
section
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP27536585A
Other languages
English (en)
Other versions
JPH054680B2 (ja
Inventor
二矢田 勝行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP27536585A priority Critical patent/JPS62134699A/ja
Publication of JPS62134699A publication Critical patent/JPS62134699A/ja
Publication of JPH054680B2 publication Critical patent/JPH054680B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
産業上の利用分野 本発明は人間の声を機械に認識させる音声認識方法に1
3’Jするものである。 従来の技術 近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。 特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。 音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声(これらはパラメータ化しであ
る)のパターンマノチ/グを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。 人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。 すなわち、調音器官(口、舌、のどなど)の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる、。 また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。 不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準バター7と比較
する必要がある。 不特定話者の音声認識に有効な方法として、本出願人は
既にパラメータの時系列情報と統計的距離尺度を併用す
る方法に関して特許を出願している(特願昭60−29
547 ’Iので、その方法を以下に説明する。 第10図は本願出願人が以前に提案した音声認識方法の
具現化を示す機能ブロック図である。 図において、lは入力音声をディジタル信号に変換する
AD変換部、2は音声を分析区間(フレーム)毎に分析
しスペクトル情報を求める音響分析部、3は特徴パラメ
ータを求める特徴パラメータ抽出部、4は始端フレーム
と終端フレームを検出する音声区間検出部、5は単語長
の伸縮を行う時間軸正規化部、6は入力バターノと標準
パター/との類似度を計算する距離計算部、7は予め作
成された標準バター/を格能する標準パターン格納部で
ある。上記構成において以下その動作を説明する。 入力音声をAD変換部1によって12ビツトのディジタ
ル信号に変換する。標本化周波数は8KIIZである。 音響分析部2では、1フレーム(10msec )ごと
に自己相関法によるLPG分析を行なう。分析の次数は
10次とし、線形予測係数α0Idl、(!2・・α1
0を求める。またここではフレームごとの音声パワーW
oも求めておく。特徴パラメータ抽出部3では線形予測
係数を用いて、LPCケプストラム係数01〜CI)(
pは打切り次数)および正規化対数残差パワーCoを求
める。 なお、LPG分析とLPCケプストラム係数の抽出法に
関しては、例えば、J、D、マーケル、A、H。 グレイ著、鈴木久喜訳「音声の線形予測」に詳しく記述
しであるので、ここでは説明を省略する。 また特徴パラメータ抽出部3では対数パワーLWOを次
式で求める。 LWo = 1101o 10WO(1)音声区間検出
部4は式(1)で求めたL W o閾値OSト比較し、
L〜V o > Os  のフレームがt55フレーム
上持続する場合、その最初のフレームを音声区間の始端
F5とする。またF5の後において、LWoと閾値θe
を比較し、LWo<θ。となるフレームがteフレーム
以上連続するとき、その最初のフレームを音声区間の終
端フレームFeとする。このようにしてF5からFeま
でを音声区間とする。いま説明を簡単にするために、改
めてF8を第1フレームト考え、フレームナンバーを(
1゜2・・・j、・・・J )とする。ただし、J=F
e−F、+1である。 時間軸正規化部5では、単語長を■フレームの長さに分
割することにより線形に伸縮をする。伸縮後の第1フレ
ームと入力音声の第1フレームは式(2)の関係を持つ
。 ただし〔〕は、その数を超えない最大の整数を表す。例
ではl−16としている。 次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンCXを作成する。いま第1フレームの特徴パラメ
ータ(LPCケプストラム係数)(Xl をCI、k(k=0+1+21”’P:d個)とすると
Cxは次式となる。 Jy、l、・・・ ・Jxl、o、l、甲、1・C’l
、p’ ) ’(3)すなわちCxは、■・(P+1 
)すなわち■・D次元のベクトルとなる(Dは1フレー
ムあたりのパラメータ数)。 距離計算部6は入カバターンCxと標準パターン格納部
7に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小きくな
る音声を認識結果として出力する。標準パターン格納部
7に格納されている第に番目の音声に対応する標準パタ
ーンを(Lk(平均値)、対象とする全音声に共通な共
分散行列をWとすると、入力バター/cxと第に番目の
標準パターンとのマハラノビス距離Skは次式で計算さ
れる。 Sk = ((Ex (Ck) [・W ’ ・(CX
−C:k)     (4)添字しは転置を、また−1
は逆行列であることを表す。式(4)を展開すると 5k=c↓’W−1・([:x−2(C,% −W−1
−(Il、x+Ck−W ’−Ck(5) 式(5)の第1項はnに無関係なので大小比較をすると
きは考慮しなくてもよい。したがって第1項を取除いて
、SkをDkに置きかえると、Dkは次のようになる。 Dk= bk−ak ’cx           (
6)ただし  ak= 2v’ ・(Ck(7)bk=
 ck−v−1−Ck(s) Dkを全てのk(k=1.2・・・N)について計算し
、Dkを最小とする音声を認識結果とする。ここでKは
標準パターン格納部7に格納されている音声標準パター
ンの数である。実際には標準パターンは2に、!:bk
が1対として、音声の数(K種類)だけ格納されている
。 式(6)に要する計算量は積和演算がI・(P+1)回
、減算が1回であり、非常に計算量が少ないのが特長で
ある。実用的にはI=16.P−=1とすれば十分なの
で、積和演算回数は1単語あたり80回である。 次に標準パターンCkl(実際には21に、bkに変換
される)の作成方法について説明する。 標準バター7は、各音声ごとに多くのデータサンプルを
用いて作成する。各音声に対して、用いるす/プルの数
をMとする。各サンプルに対して式(2)を適用して、
フレーム数をIに揃える。音声kに対して平均値ベクト
ルを求める。 fk)   fk+   fk)    (k)   
 、(k)(i:に−(C1+0. C1,It CL
、2.”’CI+p−’、Ci+O++に+     
fk)   (k+    +に+Cr 、1−Cr 
、o、 CI 、■、−CI、 I) )(9)+に+ ここでCi、n、mは音声にの第m番目のサンプルで、
第1フレームの第9次のケプヌトラム係数を示す。平均
値ベクトルと同様な手順で音声にの共(k+ 分散行列W を求める。全音声に共通な共分散行列Wは
次式で求める。 Ck、Wを式(7)式(8)によってak、bkに変換
し、標準バター7格納部7にあらかじめ格納しておく。 発明が解決しようとする問題点 かかる方法における問題点は、パターンマツチングを行
なう以前に音声区間が一意に確実に決められていると仮
定している点にある。現実の音声データは種々のノイズ
を含んでいたり、語頭や語尾における発声が不明瞭であ
るため、音声区間を正確に決められない場合や、音声以
外の区間を誤まって検出する場合が多々ある。誤まった
音声区間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。 本発明の目的は上記問題点を解決するもので、音声区間
の正確な検出を必要としないで、入力信号中から音声を
自動的に抽出して認識でき、高い認識率を有する音声認
識方法を提供するものである。 問題点を解決するための手段 本発明は上記目的を達成するもので、パワー情報を利用
して認識すべき音声の存在を検出し、その始端付近にあ
る時間的な基準点となる始端点を設け、基準点を端点と
してそれからNlフレームの区間とN2フレームの区間
(N1<N2)の2区間を設定して、これらを音声区間
のそれぞれ最小値と最大値と考えて、N2−N1+1と
おりの音声区間候補のそれぞれに対して、音声区間長を
一定時間長に伸縮しながら各単語の標準パターンとのマ
ツチングを行なって各単語の類似度又は距離を求め、こ
の操作を基準点を1フレームずつ/フ卜しながら行なっ
てゆき、基準点の位置が検出された音声の部分から一定
区間りだけ経過した時点と類似度又は距離がある値TV
よりも小さく又は大きくなった時点を用いて決められる
終了点に到達したとき、始端点から終了点までの間の全
ての基準点位置の全ての音声区間候補に対する類似度ま
たは距離を各単語について比較し、類似度を最大または
距離を最小とする単語を認識結果として出力するもので
ある。 作用 本発明は、パワー情報と類似度情報を用いて検出された
、入力音声が確実に存在する十分広い区間(入力信号区
間)に対して、線形伸縮した入力と標準パター/との間
のパターンマツチングを入力信号区間の始端から終端ま
で走査しながら行なうことによって、類似度R大又は距
離最小となる音声とその区間を自動的に求める方法であ
り、正確な音声区間の検出を必要とせず、騒音環境下で
発声した音声も高い確率で認識することができる。 実施例 以下に本発明の実施例を図面を用いて詳細に説明する。 第1図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。 まず本実施例の考え方を第2図〜第4図を用いて説明す
る。 同じ言葉を発声しても、発声の時間的な長さく音声長)
は発声方法によっても異なるし、人の違いによっても異
なる。パターンマツチングによる音声認識方法では入力
音声の長さを、標準的な音声長に正規化したうえで類似
度計算を行なって音声の認識を行なう。第2図は音声長
の正規化の様子を示したものである。入力音声の長さの
最小長をNl、最大長をN2とし、音声の標準的な長さ
く標準パターン長)をIとすると、第2図に示すように
、長さN (Nl≦N≦N2)  の音声長を伸縮して
長さIに正規化することになる。第2図では音声の終端
を一致させて、伸縮するようになっている。伸縮には式
(2)と同様に、線形伸縮式を用いる、 未知入力と標準パターンの類似度を計算する場合、未知
入力の音声長Nを弐O3によって標準パターン長に伸縮
することになるが、この様子を図示したのが第3図であ
る。よこ軸に入力長、たて軸に標準パターン長をとり、
終端を一致させると、入力音長はN1〜N2の範囲であ
るから、入力と標準パターンとのマツチングルートは、
入力E軸のN1≦N≦N2内の1点を始点とし、Pを終
端とする直線となる。したがって、類似度計算は全て三
角形の内側(マツチング窓と呼ぶ)で行なわれることに
なる。 いま、時間長H□の未知入力があり、その内容が音声に
であったとする。ただし、未知入力の終端は既知である
が始端は未知である(したがって、NUも未知である)
とする。この未知入力と単語にの標準パター/Skの照
合を行なう場合、NをNlからN2まで、■フレームず
つずらせながら、各フレームに対して弐0zを用いて時
間長を1に伸縮し、未知入力パラメータと標準パター/
との類似度を求める。このとさ標準パターンはSkであ
るので、発声が正確ならば、N=NUにおいて類低度は
滑犬となるはずである。また他の任意の標準パターンS
k′に対するよりも、Skに対して類似度が犬きくなる
はずである。このようにして、未知入力の始端が決めら
れる(したがって音声長が決められる)と同時に音声k
が認識できる。 沁て、第3図においては終端が既知として説明を行なっ
たが、両媒が未知の場合(すなわち音声区間が不明であ
る場合)にも、この方法を拡張できる。第・1図はその
説明図である。図において終端点の横軸(入力の時間軸
)座標をjとする。ここでもしjの位置が入力音声の終
端に一致していれば第3図の場合と同じであるが、今度
は両端点が未知という仮定であるので、必ずしもjが音
声の終了点と一致するとは限らない。しかしながら、l
を音声区間が十分に入る広い範囲jI≦j≦j2でスキ
ャンすれば、Jが音声の終端と一致する時点j=joが
必ず存在する。その場合、始端点はjo−N2〜〕o−
Nt の範囲内の点jo−Nuに存在するはずである。 そして、このようにスキャンした場合においても、発声
した言葉と標準パターンが一致していnば、婦女1′;
ルがjo−NU、糸多″、イ、)(がj07)ときの類
似度が、他のどのようなjおよびNの組合せよりも大き
くなる。し力・も、こ7)類似度は他の標準バター/に
対する類似度よりも人きい。したがって、認識結果が求
められると同時に、音声の始端点、終端点が定まる。 このように第・1図に示した方法は、騒音と音−声が混
在した信号から、標準パターンに最も類(υ6した部分
を切り出して認識することができる。したがって、一般
に用いられているような複雑な音声区間検出の手続きを
必要とせず、音声区間は認識された音声とともに結果と
して出力される。 類似度の計算は以下に述べるように、特徴パラメータの
時系列パターンを用い、続開的距離尺度(事後確率に基
く距離)によって計算する71フレームあたりの特徴パ
ラメータの個数をDとすると、■フレームの時系列バタ
ー7はD・■次元のベクトルとなる。いま、未知入力の
第1フレームのパラメータをxi、単語にの標準パター
ンの第1フレームの成分をaltとすると、1xI−(
xl + l + N2 + I +”’ xd+ 1
 +”xD、 1)  Q3)k a =(a   k ・ k ・・ak、) αa+ 
   +、+、   2.+、   d、+、   D
、+時系列パター/をそれぞれX、AkとするとX =
(oc+、 J、−、Ki、・−、txl)     
 Q51A k=  (ak   硅 −−−a k 
−a k)’l  −111111αe である。単語kに対する類似度をLkとすると、L k
= B kA k−X             αη
ここでlAk、Bkは単語にの標準パターンである。 /Ak=2v;’(/lrk /pe)       
   (2[e
【、−1 J(=11k −’It、  ・JAk−、ttiX 
IIV、   ・tt(H!2υただし、/41(は単
語にの平均値ベクトル、汝。 は全ての単語の周囲情報の平均値ベクトルである。 またWaは共分散行列であり、各単語の共分散行列Wk
と周囲情報の共分散行列〜veを用いて作成できる。 Kは単語の種類である。 (1t e+ veは各単語に属する多くのす/プルを
用いて、次のように作成する。第5図に示すように、音
声とその周囲の区間に対して、■フレームずつずらせな
がら複数の区間(区間長はIフレーム)を設定する。こ
のような操作を各単語の多くのす/プルに対して行ない
、それらの区間のパラメータの平均値ベクトル//j 
eと共分散行列veを作成する。 弐〇7)は式(6)と同じ形であるので、類似度計算に
要する演算量は従来例と変わらない。標準パターン作成
の式(式(7)7式(8)と式■、弐〇〇)のみが異な
っている。周囲情報を広。、veとして標準パターンに
取り込んでいるのが本発明の特徴でちる。 このようにすると、式(N7)は擬似的な事後確率に貼
〈距離となる。なお、距離尺度は事後確率に隻づく尺度
の他に一次判別関数、二次判別関数、マノ・ラノビス距
離、ベイズ判定、複合類似度などの靴S」的距離尺度を
用いることができる さて、ここまでの説明では、第3図または第、1図で示
した三角形のマツチノグ1ごを、音声区間が七分入る広
い範囲J1≦J≦J2でスキマ/するものと仮定してき
たが、実際にばjlおよびJ2をどのように決めるかが
問題となる。Jlが必要以上に小さい場合(すなわち音
声の始端よりもずっと前に位置する場合)はノイズなど
によって誤認識する割合が多くなる。′!iたJ2が必
要以上に大きい場合(音声の終端よりもずっと後に位置
する場合)は、話者が発声終了してから認識結果を出力
するまでに時間がかかり過き、使いにくいシステl、に
なってしまう。したがって、jlやj2;ま音声区間を
適当に含むように設定する必要がある9しかし、本実施
例においては音声区間と正確に対応する必要はない。以
下第6図〜第8図を用いて走査区間(Jlおよびj2の
位置)の決め方を説明する。 本実施例においては、走査区間の始端はパワー情報で求
め、終端はパワー情報と類似度情報を併用して求める。 パワー情報による方法は、人の声の方が周囲の騒音より
も大きいことを利用する方法であるが、人の声の太ささ
は環境に影響されるので、声の大きびのレベルをそのま
ま利用しても良い結果は得られない。しかし、人の発声
は、静かな環境では小さく、やかましい環境では大きく
なる傾向があるので、信号対ノイズ比(S/N比)を用
いれば、環境騒音の影響をあまり受けずに音声を検出で
きる。 第6図において、実線はパワー(対数値)の時間変化を
示す。この例ではa、b、cの3つのパワービークが生
じているが、このうちaはノイズによる不要なピークで
あるとする。破線はノイズの平均レベル(PN)、また
一点鎖線はノイズの平均レベルより常に0N(dB)だ
け大きい、閾値レベル(Pθ)である。ノイズの平均レ
ベルPNは次のようにして求める。パワー値をPとする
とただし、Pmは閾値レベル以下のパワーレベルを有す
る第mフレームパワー値である。すなわちPNは閾値レ
ベル以下(ノイズレベル)のフレームの平均値である。 このようにすると、第6図の破線で示すように、PNは
パワー値を平滑化した波形となる。また閾値レベルPQ
は P(7=pN+ONC’41 でちる。 第6図を例として音声検出の方法を説明する。 信号の始まり部におけるパワーを初期ノイズレベルとし
、式のによってノイズの平均レベルヲ求めながら、パワ
ーレベルとPθを比較してゆ〈。最初のパワービークa
はPo以下であるので、音声として検出されない。パワ
ービークbの立上りの部分dでパワーレベルがPN以上
になると弐c!31の操作を中止し、以後P=Pθにな
るまでPNおよびPθを一定に保つ。そしてeからfに
がけてP≦Pθとなるので式123)の操作を行なう。 fからgまではPDPθであるからpN、pθは一定と
なる。 結果としてPDPθとなる区間B、Dを音声が存在する
区間とする。 このように、このγ″f声検比検出方法イズの平均レベ
ルを基準として音声を検出しているので、環境騒音が大
きい場合でも音声パワーが大きければ、確実に音声の存
在を検出できる。そして、閾値θ\を十分高くしておけ
ば、少々の騒音変動は感知しない。 次に第7図によって、認識の走査区間の決め方を説明す
る。第7図(a)はパワーの時間的な動きを示しており
、区間Aは第6図の方法で検出した音声の確実な存在範
囲である。(b)は第3図または第・1図で説明した7
7チング窓が時間的に動いてゆく様子を示す。そして、
(c)は距離(全単語の最小距離)の時間的な動きであ
り、式αカの最小値m1nLkを用いている。 マツチング窓の先端が区間Aの先端dに到達した時点か
ら認識を開始する。すなわち、この時点が第・1図の説
明におけるスキャン(走査)の開始点J−Jlである。 d点を通過した後は第・4図の方法で各標準パターンと
の類似度(距離)を求め、比較してゆく。そして、スキ
ャンの終了点j=j2まで認識操作を行なうことになる
が、終了点j2は次の3つの条件によって決定する。。 /1)パワーで検出子nた区間の開始点からの時間長(
フレーム数)が48以上でちる。 ■パワーで検出さnだ区間の終了点からの時間長(フレ
ーム数)がte以上である。。 G)各標準パターンとの距離つ最小値(類似度の最大値
)が閾値以下(類似度の場合は閾値以下)であること。 これら3つの条件を全て満足する最初の時点を走査終了
点J−32とする。 最初の2つの条件は、主に持続時間を考慮して、決めた
もつである。■は、どの標準パターンとの距離も遠くな
った時点は、音声部分から外れているという条件である
。第7図の例では、fが区間Aの終了点eからteが経
過した時点、gが距離が閾値を超えた時点、hがAの始
端点からt、が経過した時点であるが、最も後に位置す
るのはhであるので、hを走査終了点j2とする。 第8図は他の例である。(a)はパワーの動きであり、
この場合は、パワーで検出された区間がAとBの2つあ
る。(1))はゴ巨雅の動きである。こ、のようにパワ
ーて検出きれた区間が複数の場合は、最後の区間からt
、をシ]<ぬる。そして、′b−■つ条件によって、h
が走査終了点となる。 このように、本実施列による走査区間の設定法は、S/
N比を用いた音声の存在の検出と、類似度が閾値を超え
るか否かという、非常に粗い情報を用いているので、種
々のノイズによって影響されにくい。そして、もし開始
点がノイズなどによって実際の音声よりかなり前に位[
ト〔シたとしても、認識処理の区間が増すだけであって
、認識率に村する影響は小さい。捷た、終了点が誤まっ
てかなり後に位置した場合も、発声終了から認識出力ま
での時間が遅れるだけである。S/N比が低すうてパワ
ーによる検出ができなかった場合や、類似度が小さ過き
て終了点が検出されなかった場合)寸、認識拒否(リジ
ークト)となり、誤認識にはならない。 次に上記の説明に基づいて、第1図の各プロ。 りの機能を述べる。AD変換部1は入力信号に前置フィ
ルタを施した後、8 KHzサノプリ/グ、12ビ、ト
に量子化する。音響分析部11は入力信号を分析次数1
0次でLPC分析し、特徴パラメータ(LPCケプスト
ラム係数)に変換して、LPCケプストラム係数(cm
−c5)をフレーム(10msec)ごとに出力する。 特徴パラメータ抽出部12の出力が大側のIXに相当す
る(したがってD=6である)。なお・プロ、りlO〜
12の機能は第10図のブロック1〜3の機能と同じで
ある。特徴パラメータはLPCケプストラム係数の他に
、自己相関係数、PARCOR係数、帯域通過フィルタ
の出力などがある。 以下、その他の各ブロックの機能を第9図のフローチャ
ートを参照しながら説明する。フレーム同期信号発生部
13は、1フレームごとに同期信号を発生する。フレー
ム番号をjとする。 パワー計算部21はフレームごとのパワー(または帯域
パワー)値を求める。パワー比較部22では、パワー計
算部21の出力Piと、弐〇、4)で求められるノイズ
レベル学習部23の出力Pθを比較しく判断イ)、Pj
<POならばノイズレベル学習部23はPOを更新する
(処理口)。初めてP1≧Pθとなった時点で、走査区
間設定部2・1:は走査を開始する指示を出し、以下の
処理を行なう。 走査開始後、1フレームの期間で次の操作を行なう。 標準パターン選択部18は、認識対果とする音声(ここ
では単語)の1つ1つを選択する(処理か)。ここで単
語数をKとする。選択された標語パターンに=1に対し
て、区間候補設定部15ては、各単語の最小音声区間長
N1(k)と最;t、: 、s:4声区間長N2(k)
を設定する(処理二)。そして、区間長N(Nl(k)
≦N<N2(k) )に対して、特徴ノ(ラメータ抽出
部12で得られた未知入力パラメータをj−N−jフレ
ームの時間分だけ並べて、入力・シラメータの時系列を
作り、時間軸正規化部11にち・いて、時系列パラメー
タの時間を弐〇2)!Y:用いてIフレームに伸縮し、
式09に相当するパラメータ系列を得る(処理ホ)。類
似度計算部16はこの・ぽラメータ系列と、標準パター
ン選沢部18で選ばれた標準パターン格納部17中の標
準パターンAk+Bkとの間で、弐Q71を用いて類似
度Lk(N)を計算する(処理へ)。類似度比較部2o
では、L k (N)と中間結果格納部19に蓄積され
ているこの時点捷での最大類似度値(距離の最小値Lm
in )を比較しく判断ト) 、 Lk(N)<Lmi
nならばLminをLk(N)に置きかえてその時のk
を金として中間結果格納部】9を更新しく処理チ)、L
k(N)≧LmInならば中間結果格納部19の内容は
更新しない。 このような一連の操作を、1つの標準パター/に対して
N 2(k) −N 1(k)+1 回ずつ(判断り、
処理ス)、1フレームの間にに個の標準パター/に対し
て行なう(判断ル、処理ヲ)。 以」二の一連の処理が終了したら、走査区間設定部2.
1は前記(D〜■の終了条件をチー、りする(判断ヨ)
。終了条件を満足しない場合はj=J+JJ(ΔJはj
の増分)として(処理夕)、同様の処理を行なう。終了
条件を満足した場合は、その時のkを認識結果、Lmi
nを類似度値(距離値)として出力する。また最大類似
度(最小距離)を得た時点のフレームJとその時の区間
長Nを中間結果格納部19に蓄積しておけば、これらを
用いて?:?声区間を結果として求めることができる。 以上述べたように、本実施例はS/N比の時間変化と類
似度を用いて大まかな音声の存在する区間を検知しなが
ら連続的に類似度計算を行なって認識を行なう方法であ
り、音声区間の正確な検出を必要とせず、発声終了後速
やかに結果を出力することができる。 本実施例の方法を用いて、成人男女計330名が電話機
を通して発声したlO数字単語を評価した結果、平均認
識率9384%を得た。高騒音下の発声であることを考
慮すれば、この値は低いとは言えない。また本実施例に
よる認識誤まりの原因を分析した結果、誤まシのほとん
どはある単語の一部を他の単語と認識してしまうために
生ずることがわかった。たとえば/Zero/の/ro
/の部分を/go/と誤認識するのがその1例である。 このため、第2候補までを正解とすると97%以上の認
識率を得る。したがって、他の方法を少し併用すれば、
第1候補としてさらに高い認識率が得られることが容易
に推察される。 また認識に要する時間は、発声終了後、長い場合でも0
6秒以下であり、実用的に十分な認識速度が得られた。 そして、極端に声が小さいデータや、発声が不明瞭なデ
ータはりジークトキれることが確認でさた。 発明の効果 以上要するに本発明は、ダイナミ、りなパワー情報と類
似度情報を用いて設定した認識すべき音声とその前後の
騒音を宮む入力信号区間に、ある時間的な基準点を設け
、基準点を端点としてそれからNlフレームの区間とN
2フレームの区間(N1<N2)の2区間を設定して、
これらを音声区間のそれぞれ最小値と最大値と考えて、
N2−N1+1 とおりの音声区間候補のそれぞれに対
して、音声区間長を一定時間長に伸縮しながら各単語の
標準パターンとのマノチノグを行なって各単語の類似度
または距離を求め、この操作を基準点を全人力信号区間
の始めから終りまで走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度または距離を各単
語について比較し、類似度を最大または距離を最小とす
る単語を認識結果として出力するもので、音声区間の正
確な検出を必要とせず1.鳴音と音声が混在した信号か
ら音声に相当する部分のみを切出して認識でき、従来は
複雑なルールを用いて音声区間の検出を行なっていたが
、それでも騒音レベルが高い場合や非定常的なノイズが
混入する場合には音声区間の検出を誤まり、したがって
誤認識をしていたが、本発明は複雑な音声区間検出アル
ゴリズムを除去することによって、システムを簡略化し
、また高騒音入力に対して安定した認識率を確保するこ
とができ、さらに発声終了後速やかに結果を出力するこ
とができるなど、その結果は大きい。
【図面の簡単な説明】
第1図は本発明の第1の実施例における音声認識方法を
具現化する機能プロ、り図、第2図乃至第4図は同実施
例の音声区間長の伸縮を説明する概念図、第5図は同実
施例の音声の標準バター/作成時の、周囲情報の標準パ
ターン作成法を説明する概念図、第6図は同実施例の音
声検出法を説明する概念図、第7図は同実施例の認識の
走査区間の決め方を説明する図で、同図(a)はパワー
の動きを示す概念図、同図(b)はマツチフグ窓の時間
的な移動を示す概念図、同図(c)は距離の時間的な動
きを示す概念図、第8図は走査区間の決め方の他の実施
例を説明する図で、同図(a)はパワーの動きを示す概
念図、同図(b)は距離の時間的な動きを示す概念図、
第9図は本実施例の処理手順を説明するフローチャート
、第10図は従来の音声認識方法を示す機能プロ、り図
である。 10− AD変換部、11・・・・・・音響分析部、1
2・・・ 特徴パラメータ抽出部、13・・・・フレー
ム同期信号発生部、14・・・・ 時間軸正規化部、1
5 ・・・・区間候補設定部、16・・・・・・類似度
計算部、17・・・・標準パターン格納部、18・・・
・標準パターノ選択部、19・・・・・中間結果格納部
、20・・・・・類1以度比較部、21・・・・・・パ
ワー計算部、22・・・・・・ハ’17−1tJ2部、
23・・・・・・ノイズレベル学習部、2・1・・ 走
査区間設定部。 代理人の氏名 弁理士 中 尾 敷 男 ほか1名イー
9 間 第2図 第3図 第4図 1−姶填区蘭→ 第51”71 第へ図 第7m 7でツーτ市(汗七nハ六区11 第8間 第9図 出力 mIrL

Claims (4)

    【特許請求の範囲】
  1. (1)音声とその前後の騒音を含む未知入力信号からパ
    ワー情報を用いて音声の存在を検出し、検出した時点を
    基準点として、基準点と基準点からN(N_1≦N≦N
    _2)だけ離れた区間の未知入力信号を区間長Lに線形
    伸縮し、伸縮した区間の特徴パラメータを抽出し、この
    特徴パラメータと認識対象とする複数の音声の標準パタ
    ーンとの類似度又は距離をそれぞれ求めて比較し、この
    ような操作をNをN_1からN_2まで変化させて行な
    い、さらに基準点を単位区間ずつずらせながら同様の操
    作を行なって類似度又は距離を次々と求めて比較してゆ
    き、パワー情報の動きを用いて求めた音声の持続時間と
    類似度の時間的な変化を併用して決定した処理終了時点
    へ基準点が到達した時における、全ての基準点そして全
    ての時間伸縮に対して最大類似度又は最小距離を得る標
    準パターンに対応する音声を認識結果として出力するこ
    とを特徴とする音声認識方法。
  2. (2)音声信号とノイズの比率を用いて音声の存在を検
    出することを特徴とする特許請求の範囲第1項記載の音
    声認識方法。
  3. (3)未知入力信号の特徴パラメータと各音声の標準パ
    ターンとの類似度又は距離を統計的距離尺度を用いて計
    算することを特徴とする特許請求の範囲第1項記載の音
    声認識方法。
  4. (4)統計的距離尺度が、事後確率に基づく尺度、一次
    判別関数、二次判別関数、コハラノビス距離、ベイズ判
    定、複合類似度に基づく尺度のうちいずれかであること
    を特徴とする特許請求の範囲第3項記載の音声認識方法
JP27536585A 1985-12-06 1985-12-06 音声認識方法 Granted JPS62134699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27536585A JPS62134699A (ja) 1985-12-06 1985-12-06 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27536585A JPS62134699A (ja) 1985-12-06 1985-12-06 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62134699A true JPS62134699A (ja) 1987-06-17
JPH054680B2 JPH054680B2 (ja) 1993-01-20

Family

ID=17554463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27536585A Granted JPS62134699A (ja) 1985-12-06 1985-12-06 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62134699A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109072A (ko) * 2019-03-12 2020-09-22 울산과학기술원 음성 구간 검출장치 및 그 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111293A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声認識方法
JPS62133499A (ja) * 1985-12-05 1987-06-16 松下電器産業株式会社 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111293A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声認識方法
JPS62133499A (ja) * 1985-12-05 1987-06-16 松下電器産業株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109072A (ko) * 2019-03-12 2020-09-22 울산과학기술원 음성 구간 검출장치 및 그 방법

Also Published As

Publication number Publication date
JPH054680B2 (ja) 1993-01-20

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US6671669B1 (en) combined engine system and method for voice recognition
Chapaneri Spoken digits recognition using weighted MFCC and improved features for dynamic time warping
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP4461557B2 (ja) 音声認識方法および音声認識装置
KR100551953B1 (ko) 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법
Bhukya et al. End point detection using speech-specific knowledge for text-dependent speaker verification
Dumpala et al. Robust Vowel Landmark Detection Using Epoch-Based Features.
JPS62134699A (ja) 音声認識方法
JP2506730B2 (ja) 音声認識方法
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
TWI460718B (zh) 一個辨認所有語言句子方法
JP3029654B2 (ja) 音声認識装置
Kuah et al. A neural network-based text independent voice recognition system
KR100304788B1 (ko) 연속 음성 인식을 이용한 전화번호 안내 방법
Irino et al. Vocal tract length estimation for voiced and whispered speech using gammachirp filterbank
JPH054678B2 (ja)
JPH0451037B2 (ja)
Tabassum A study on speaker independent speech recognition of isolated words in room environment
Hao et al. A data-driven speech enhancement method based on A* longest segment searching technique
Fujita et al. A study of vocal tract length normalization with generation-dependent acoustic models
JPH04332000A (ja) 音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees