JPS62134699A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS62134699A JPS62134699A JP27536585A JP27536585A JPS62134699A JP S62134699 A JPS62134699 A JP S62134699A JP 27536585 A JP27536585 A JP 27536585A JP 27536585 A JP27536585 A JP 27536585A JP S62134699 A JPS62134699 A JP S62134699A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- similarity
- speech
- section
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
産業上の利用分野
本発明は人間の声を機械に認識させる音声認識方法に1
3’Jするものである。 従来の技術 近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。 特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。 音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声(これらはパラメータ化しであ
る)のパターンマノチ/グを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。 人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。 すなわち、調音器官(口、舌、のどなど)の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる、。 また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。 不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準バター7と比較
する必要がある。 不特定話者の音声認識に有効な方法として、本出願人は
既にパラメータの時系列情報と統計的距離尺度を併用す
る方法に関して特許を出願している(特願昭60−29
547 ’Iので、その方法を以下に説明する。 第10図は本願出願人が以前に提案した音声認識方法の
具現化を示す機能ブロック図である。 図において、lは入力音声をディジタル信号に変換する
AD変換部、2は音声を分析区間(フレーム)毎に分析
しスペクトル情報を求める音響分析部、3は特徴パラメ
ータを求める特徴パラメータ抽出部、4は始端フレーム
と終端フレームを検出する音声区間検出部、5は単語長
の伸縮を行う時間軸正規化部、6は入力バターノと標準
パター/との類似度を計算する距離計算部、7は予め作
成された標準バター/を格能する標準パターン格納部で
ある。上記構成において以下その動作を説明する。 入力音声をAD変換部1によって12ビツトのディジタ
ル信号に変換する。標本化周波数は8KIIZである。 音響分析部2では、1フレーム(10msec )ごと
に自己相関法によるLPG分析を行なう。分析の次数は
10次とし、線形予測係数α0Idl、(!2・・α1
0を求める。またここではフレームごとの音声パワーW
oも求めておく。特徴パラメータ抽出部3では線形予測
係数を用いて、LPCケプストラム係数01〜CI)(
pは打切り次数)および正規化対数残差パワーCoを求
める。 なお、LPG分析とLPCケプストラム係数の抽出法に
関しては、例えば、J、D、マーケル、A、H。 グレイ著、鈴木久喜訳「音声の線形予測」に詳しく記述
しであるので、ここでは説明を省略する。 また特徴パラメータ抽出部3では対数パワーLWOを次
式で求める。 LWo = 1101o 10WO(1)音声区間検出
部4は式(1)で求めたL W o閾値OSト比較し、
L〜V o > Os のフレームがt55フレーム
上持続する場合、その最初のフレームを音声区間の始端
F5とする。またF5の後において、LWoと閾値θe
を比較し、LWo<θ。となるフレームがteフレーム
以上連続するとき、その最初のフレームを音声区間の終
端フレームFeとする。このようにしてF5からFeま
でを音声区間とする。いま説明を簡単にするために、改
めてF8を第1フレームト考え、フレームナンバーを(
1゜2・・・j、・・・J )とする。ただし、J=F
e−F、+1である。 時間軸正規化部5では、単語長を■フレームの長さに分
割することにより線形に伸縮をする。伸縮後の第1フレ
ームと入力音声の第1フレームは式(2)の関係を持つ
。 ただし〔〕は、その数を超えない最大の整数を表す。例
ではl−16としている。 次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンCXを作成する。いま第1フレームの特徴パラメ
ータ(LPCケプストラム係数)(Xl をCI、k(k=0+1+21”’P:d個)とすると
Cxは次式となる。 Jy、l、・・・ ・Jxl、o、l、甲、1・C’l
、p’ ) ’(3)すなわちCxは、■・(P+1
)すなわち■・D次元のベクトルとなる(Dは1フレー
ムあたりのパラメータ数)。 距離計算部6は入カバターンCxと標準パターン格納部
7に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小きくな
る音声を認識結果として出力する。標準パターン格納部
7に格納されている第に番目の音声に対応する標準パタ
ーンを(Lk(平均値)、対象とする全音声に共通な共
分散行列をWとすると、入力バター/cxと第に番目の
標準パターンとのマハラノビス距離Skは次式で計算さ
れる。 Sk = ((Ex (Ck) [・W ’ ・(CX
−C:k) (4)添字しは転置を、また−1
は逆行列であることを表す。式(4)を展開すると 5k=c↓’W−1・([:x−2(C,% −W−1
−(Il、x+Ck−W ’−Ck(5) 式(5)の第1項はnに無関係なので大小比較をすると
きは考慮しなくてもよい。したがって第1項を取除いて
、SkをDkに置きかえると、Dkは次のようになる。 Dk= bk−ak ’cx (
6)ただし ak= 2v’ ・(Ck(7)bk=
ck−v−1−Ck(s) Dkを全てのk(k=1.2・・・N)について計算し
、Dkを最小とする音声を認識結果とする。ここでKは
標準パターン格納部7に格納されている音声標準パター
ンの数である。実際には標準パターンは2に、!:bk
が1対として、音声の数(K種類)だけ格納されている
。 式(6)に要する計算量は積和演算がI・(P+1)回
、減算が1回であり、非常に計算量が少ないのが特長で
ある。実用的にはI=16.P−=1とすれば十分なの
で、積和演算回数は1単語あたり80回である。 次に標準パターンCkl(実際には21に、bkに変換
される)の作成方法について説明する。 標準バター7は、各音声ごとに多くのデータサンプルを
用いて作成する。各音声に対して、用いるす/プルの数
をMとする。各サンプルに対して式(2)を適用して、
フレーム数をIに揃える。音声kに対して平均値ベクト
ルを求める。 fk) fk+ fk) (k)
、(k)(i:に−(C1+0. C1,It CL
、2.”’CI+p−’、Ci+O++に+
fk) (k+ +に+Cr 、1−Cr
、o、 CI 、■、−CI、 I) )(9)+に+ ここでCi、n、mは音声にの第m番目のサンプルで、
第1フレームの第9次のケプヌトラム係数を示す。平均
値ベクトルと同様な手順で音声にの共(k+ 分散行列W を求める。全音声に共通な共分散行列Wは
次式で求める。 Ck、Wを式(7)式(8)によってak、bkに変換
し、標準バター7格納部7にあらかじめ格納しておく。 発明が解決しようとする問題点 かかる方法における問題点は、パターンマツチングを行
なう以前に音声区間が一意に確実に決められていると仮
定している点にある。現実の音声データは種々のノイズ
を含んでいたり、語頭や語尾における発声が不明瞭であ
るため、音声区間を正確に決められない場合や、音声以
外の区間を誤まって検出する場合が多々ある。誤まった
音声区間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。 本発明の目的は上記問題点を解決するもので、音声区間
の正確な検出を必要としないで、入力信号中から音声を
自動的に抽出して認識でき、高い認識率を有する音声認
識方法を提供するものである。 問題点を解決するための手段 本発明は上記目的を達成するもので、パワー情報を利用
して認識すべき音声の存在を検出し、その始端付近にあ
る時間的な基準点となる始端点を設け、基準点を端点と
してそれからNlフレームの区間とN2フレームの区間
(N1<N2)の2区間を設定して、これらを音声区間
のそれぞれ最小値と最大値と考えて、N2−N1+1と
おりの音声区間候補のそれぞれに対して、音声区間長を
一定時間長に伸縮しながら各単語の標準パターンとのマ
ツチングを行なって各単語の類似度又は距離を求め、こ
の操作を基準点を1フレームずつ/フ卜しながら行なっ
てゆき、基準点の位置が検出された音声の部分から一定
区間りだけ経過した時点と類似度又は距離がある値TV
よりも小さく又は大きくなった時点を用いて決められる
終了点に到達したとき、始端点から終了点までの間の全
ての基準点位置の全ての音声区間候補に対する類似度ま
たは距離を各単語について比較し、類似度を最大または
距離を最小とする単語を認識結果として出力するもので
ある。 作用 本発明は、パワー情報と類似度情報を用いて検出された
、入力音声が確実に存在する十分広い区間(入力信号区
間)に対して、線形伸縮した入力と標準パター/との間
のパターンマツチングを入力信号区間の始端から終端ま
で走査しながら行なうことによって、類似度R大又は距
離最小となる音声とその区間を自動的に求める方法であ
り、正確な音声区間の検出を必要とせず、騒音環境下で
発声した音声も高い確率で認識することができる。 実施例 以下に本発明の実施例を図面を用いて詳細に説明する。 第1図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。 まず本実施例の考え方を第2図〜第4図を用いて説明す
る。 同じ言葉を発声しても、発声の時間的な長さく音声長)
は発声方法によっても異なるし、人の違いによっても異
なる。パターンマツチングによる音声認識方法では入力
音声の長さを、標準的な音声長に正規化したうえで類似
度計算を行なって音声の認識を行なう。第2図は音声長
の正規化の様子を示したものである。入力音声の長さの
最小長をNl、最大長をN2とし、音声の標準的な長さ
く標準パターン長)をIとすると、第2図に示すように
、長さN (Nl≦N≦N2) の音声長を伸縮して
長さIに正規化することになる。第2図では音声の終端
を一致させて、伸縮するようになっている。伸縮には式
(2)と同様に、線形伸縮式を用いる、 未知入力と標準パターンの類似度を計算する場合、未知
入力の音声長Nを弐O3によって標準パターン長に伸縮
することになるが、この様子を図示したのが第3図であ
る。よこ軸に入力長、たて軸に標準パターン長をとり、
終端を一致させると、入力音長はN1〜N2の範囲であ
るから、入力と標準パターンとのマツチングルートは、
入力E軸のN1≦N≦N2内の1点を始点とし、Pを終
端とする直線となる。したがって、類似度計算は全て三
角形の内側(マツチング窓と呼ぶ)で行なわれることに
なる。 いま、時間長H□の未知入力があり、その内容が音声に
であったとする。ただし、未知入力の終端は既知である
が始端は未知である(したがって、NUも未知である)
とする。この未知入力と単語にの標準パター/Skの照
合を行なう場合、NをNlからN2まで、■フレームず
つずらせながら、各フレームに対して弐0zを用いて時
間長を1に伸縮し、未知入力パラメータと標準パター/
との類似度を求める。このとさ標準パターンはSkであ
るので、発声が正確ならば、N=NUにおいて類低度は
滑犬となるはずである。また他の任意の標準パターンS
k′に対するよりも、Skに対して類似度が犬きくなる
はずである。このようにして、未知入力の始端が決めら
れる(したがって音声長が決められる)と同時に音声k
が認識できる。 沁て、第3図においては終端が既知として説明を行なっ
たが、両媒が未知の場合(すなわち音声区間が不明であ
る場合)にも、この方法を拡張できる。第・1図はその
説明図である。図において終端点の横軸(入力の時間軸
)座標をjとする。ここでもしjの位置が入力音声の終
端に一致していれば第3図の場合と同じであるが、今度
は両端点が未知という仮定であるので、必ずしもjが音
声の終了点と一致するとは限らない。しかしながら、l
を音声区間が十分に入る広い範囲jI≦j≦j2でスキ
ャンすれば、Jが音声の終端と一致する時点j=joが
必ず存在する。その場合、始端点はjo−N2〜〕o−
Nt の範囲内の点jo−Nuに存在するはずである。 そして、このようにスキャンした場合においても、発声
した言葉と標準パターンが一致していnば、婦女1′;
ルがjo−NU、糸多″、イ、)(がj07)ときの類
似度が、他のどのようなjおよびNの組合せよりも大き
くなる。し力・も、こ7)類似度は他の標準バター/に
対する類似度よりも人きい。したがって、認識結果が求
められると同時に、音声の始端点、終端点が定まる。 このように第・1図に示した方法は、騒音と音−声が混
在した信号から、標準パターンに最も類(υ6した部分
を切り出して認識することができる。したがって、一般
に用いられているような複雑な音声区間検出の手続きを
必要とせず、音声区間は認識された音声とともに結果と
して出力される。 類似度の計算は以下に述べるように、特徴パラメータの
時系列パターンを用い、続開的距離尺度(事後確率に基
く距離)によって計算する71フレームあたりの特徴パ
ラメータの個数をDとすると、■フレームの時系列バタ
ー7はD・■次元のベクトルとなる。いま、未知入力の
第1フレームのパラメータをxi、単語にの標準パター
ンの第1フレームの成分をaltとすると、1xI−(
xl + l + N2 + I +”’ xd+ 1
+”xD、 1) Q3)k a =(a k ・ k ・・ak、) αa+
+、+、 2.+、 d、+、 D
、+時系列パター/をそれぞれX、AkとするとX =
(oc+、 J、−、Ki、・−、txl)
Q51A k= (ak 硅 −−−a k
−a k)’l −111111αe である。単語kに対する類似度をLkとすると、L k
= B kA k−X αη
ここでlAk、Bkは単語にの標準パターンである。 /Ak=2v;’(/lrk /pe)
(2[e
3’Jするものである。 従来の技術 近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。 特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。 音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声(これらはパラメータ化しであ
る)のパターンマノチ/グを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。 人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。 すなわち、調音器官(口、舌、のどなど)の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる、。 また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。 不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準バター7と比較
する必要がある。 不特定話者の音声認識に有効な方法として、本出願人は
既にパラメータの時系列情報と統計的距離尺度を併用す
る方法に関して特許を出願している(特願昭60−29
547 ’Iので、その方法を以下に説明する。 第10図は本願出願人が以前に提案した音声認識方法の
具現化を示す機能ブロック図である。 図において、lは入力音声をディジタル信号に変換する
AD変換部、2は音声を分析区間(フレーム)毎に分析
しスペクトル情報を求める音響分析部、3は特徴パラメ
ータを求める特徴パラメータ抽出部、4は始端フレーム
と終端フレームを検出する音声区間検出部、5は単語長
の伸縮を行う時間軸正規化部、6は入力バターノと標準
パター/との類似度を計算する距離計算部、7は予め作
成された標準バター/を格能する標準パターン格納部で
ある。上記構成において以下その動作を説明する。 入力音声をAD変換部1によって12ビツトのディジタ
ル信号に変換する。標本化周波数は8KIIZである。 音響分析部2では、1フレーム(10msec )ごと
に自己相関法によるLPG分析を行なう。分析の次数は
10次とし、線形予測係数α0Idl、(!2・・α1
0を求める。またここではフレームごとの音声パワーW
oも求めておく。特徴パラメータ抽出部3では線形予測
係数を用いて、LPCケプストラム係数01〜CI)(
pは打切り次数)および正規化対数残差パワーCoを求
める。 なお、LPG分析とLPCケプストラム係数の抽出法に
関しては、例えば、J、D、マーケル、A、H。 グレイ著、鈴木久喜訳「音声の線形予測」に詳しく記述
しであるので、ここでは説明を省略する。 また特徴パラメータ抽出部3では対数パワーLWOを次
式で求める。 LWo = 1101o 10WO(1)音声区間検出
部4は式(1)で求めたL W o閾値OSト比較し、
L〜V o > Os のフレームがt55フレーム
上持続する場合、その最初のフレームを音声区間の始端
F5とする。またF5の後において、LWoと閾値θe
を比較し、LWo<θ。となるフレームがteフレーム
以上連続するとき、その最初のフレームを音声区間の終
端フレームFeとする。このようにしてF5からFeま
でを音声区間とする。いま説明を簡単にするために、改
めてF8を第1フレームト考え、フレームナンバーを(
1゜2・・・j、・・・J )とする。ただし、J=F
e−F、+1である。 時間軸正規化部5では、単語長を■フレームの長さに分
割することにより線形に伸縮をする。伸縮後の第1フレ
ームと入力音声の第1フレームは式(2)の関係を持つ
。 ただし〔〕は、その数を超えない最大の整数を表す。例
ではl−16としている。 次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンCXを作成する。いま第1フレームの特徴パラメ
ータ(LPCケプストラム係数)(Xl をCI、k(k=0+1+21”’P:d個)とすると
Cxは次式となる。 Jy、l、・・・ ・Jxl、o、l、甲、1・C’l
、p’ ) ’(3)すなわちCxは、■・(P+1
)すなわち■・D次元のベクトルとなる(Dは1フレー
ムあたりのパラメータ数)。 距離計算部6は入カバターンCxと標準パターン格納部
7に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小きくな
る音声を認識結果として出力する。標準パターン格納部
7に格納されている第に番目の音声に対応する標準パタ
ーンを(Lk(平均値)、対象とする全音声に共通な共
分散行列をWとすると、入力バター/cxと第に番目の
標準パターンとのマハラノビス距離Skは次式で計算さ
れる。 Sk = ((Ex (Ck) [・W ’ ・(CX
−C:k) (4)添字しは転置を、また−1
は逆行列であることを表す。式(4)を展開すると 5k=c↓’W−1・([:x−2(C,% −W−1
−(Il、x+Ck−W ’−Ck(5) 式(5)の第1項はnに無関係なので大小比較をすると
きは考慮しなくてもよい。したがって第1項を取除いて
、SkをDkに置きかえると、Dkは次のようになる。 Dk= bk−ak ’cx (
6)ただし ak= 2v’ ・(Ck(7)bk=
ck−v−1−Ck(s) Dkを全てのk(k=1.2・・・N)について計算し
、Dkを最小とする音声を認識結果とする。ここでKは
標準パターン格納部7に格納されている音声標準パター
ンの数である。実際には標準パターンは2に、!:bk
が1対として、音声の数(K種類)だけ格納されている
。 式(6)に要する計算量は積和演算がI・(P+1)回
、減算が1回であり、非常に計算量が少ないのが特長で
ある。実用的にはI=16.P−=1とすれば十分なの
で、積和演算回数は1単語あたり80回である。 次に標準パターンCkl(実際には21に、bkに変換
される)の作成方法について説明する。 標準バター7は、各音声ごとに多くのデータサンプルを
用いて作成する。各音声に対して、用いるす/プルの数
をMとする。各サンプルに対して式(2)を適用して、
フレーム数をIに揃える。音声kに対して平均値ベクト
ルを求める。 fk) fk+ fk) (k)
、(k)(i:に−(C1+0. C1,It CL
、2.”’CI+p−’、Ci+O++に+
fk) (k+ +に+Cr 、1−Cr
、o、 CI 、■、−CI、 I) )(9)+に+ ここでCi、n、mは音声にの第m番目のサンプルで、
第1フレームの第9次のケプヌトラム係数を示す。平均
値ベクトルと同様な手順で音声にの共(k+ 分散行列W を求める。全音声に共通な共分散行列Wは
次式で求める。 Ck、Wを式(7)式(8)によってak、bkに変換
し、標準バター7格納部7にあらかじめ格納しておく。 発明が解決しようとする問題点 かかる方法における問題点は、パターンマツチングを行
なう以前に音声区間が一意に確実に決められていると仮
定している点にある。現実の音声データは種々のノイズ
を含んでいたり、語頭や語尾における発声が不明瞭であ
るため、音声区間を正確に決められない場合や、音声以
外の区間を誤まって検出する場合が多々ある。誤まった
音声区間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。 本発明の目的は上記問題点を解決するもので、音声区間
の正確な検出を必要としないで、入力信号中から音声を
自動的に抽出して認識でき、高い認識率を有する音声認
識方法を提供するものである。 問題点を解決するための手段 本発明は上記目的を達成するもので、パワー情報を利用
して認識すべき音声の存在を検出し、その始端付近にあ
る時間的な基準点となる始端点を設け、基準点を端点と
してそれからNlフレームの区間とN2フレームの区間
(N1<N2)の2区間を設定して、これらを音声区間
のそれぞれ最小値と最大値と考えて、N2−N1+1と
おりの音声区間候補のそれぞれに対して、音声区間長を
一定時間長に伸縮しながら各単語の標準パターンとのマ
ツチングを行なって各単語の類似度又は距離を求め、こ
の操作を基準点を1フレームずつ/フ卜しながら行なっ
てゆき、基準点の位置が検出された音声の部分から一定
区間りだけ経過した時点と類似度又は距離がある値TV
よりも小さく又は大きくなった時点を用いて決められる
終了点に到達したとき、始端点から終了点までの間の全
ての基準点位置の全ての音声区間候補に対する類似度ま
たは距離を各単語について比較し、類似度を最大または
距離を最小とする単語を認識結果として出力するもので
ある。 作用 本発明は、パワー情報と類似度情報を用いて検出された
、入力音声が確実に存在する十分広い区間(入力信号区
間)に対して、線形伸縮した入力と標準パター/との間
のパターンマツチングを入力信号区間の始端から終端ま
で走査しながら行なうことによって、類似度R大又は距
離最小となる音声とその区間を自動的に求める方法であ
り、正確な音声区間の検出を必要とせず、騒音環境下で
発声した音声も高い確率で認識することができる。 実施例 以下に本発明の実施例を図面を用いて詳細に説明する。 第1図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。 まず本実施例の考え方を第2図〜第4図を用いて説明す
る。 同じ言葉を発声しても、発声の時間的な長さく音声長)
は発声方法によっても異なるし、人の違いによっても異
なる。パターンマツチングによる音声認識方法では入力
音声の長さを、標準的な音声長に正規化したうえで類似
度計算を行なって音声の認識を行なう。第2図は音声長
の正規化の様子を示したものである。入力音声の長さの
最小長をNl、最大長をN2とし、音声の標準的な長さ
く標準パターン長)をIとすると、第2図に示すように
、長さN (Nl≦N≦N2) の音声長を伸縮して
長さIに正規化することになる。第2図では音声の終端
を一致させて、伸縮するようになっている。伸縮には式
(2)と同様に、線形伸縮式を用いる、 未知入力と標準パターンの類似度を計算する場合、未知
入力の音声長Nを弐O3によって標準パターン長に伸縮
することになるが、この様子を図示したのが第3図であ
る。よこ軸に入力長、たて軸に標準パターン長をとり、
終端を一致させると、入力音長はN1〜N2の範囲であ
るから、入力と標準パターンとのマツチングルートは、
入力E軸のN1≦N≦N2内の1点を始点とし、Pを終
端とする直線となる。したがって、類似度計算は全て三
角形の内側(マツチング窓と呼ぶ)で行なわれることに
なる。 いま、時間長H□の未知入力があり、その内容が音声に
であったとする。ただし、未知入力の終端は既知である
が始端は未知である(したがって、NUも未知である)
とする。この未知入力と単語にの標準パター/Skの照
合を行なう場合、NをNlからN2まで、■フレームず
つずらせながら、各フレームに対して弐0zを用いて時
間長を1に伸縮し、未知入力パラメータと標準パター/
との類似度を求める。このとさ標準パターンはSkであ
るので、発声が正確ならば、N=NUにおいて類低度は
滑犬となるはずである。また他の任意の標準パターンS
k′に対するよりも、Skに対して類似度が犬きくなる
はずである。このようにして、未知入力の始端が決めら
れる(したがって音声長が決められる)と同時に音声k
が認識できる。 沁て、第3図においては終端が既知として説明を行なっ
たが、両媒が未知の場合(すなわち音声区間が不明であ
る場合)にも、この方法を拡張できる。第・1図はその
説明図である。図において終端点の横軸(入力の時間軸
)座標をjとする。ここでもしjの位置が入力音声の終
端に一致していれば第3図の場合と同じであるが、今度
は両端点が未知という仮定であるので、必ずしもjが音
声の終了点と一致するとは限らない。しかしながら、l
を音声区間が十分に入る広い範囲jI≦j≦j2でスキ
ャンすれば、Jが音声の終端と一致する時点j=joが
必ず存在する。その場合、始端点はjo−N2〜〕o−
Nt の範囲内の点jo−Nuに存在するはずである。 そして、このようにスキャンした場合においても、発声
した言葉と標準パターンが一致していnば、婦女1′;
ルがjo−NU、糸多″、イ、)(がj07)ときの類
似度が、他のどのようなjおよびNの組合せよりも大き
くなる。し力・も、こ7)類似度は他の標準バター/に
対する類似度よりも人きい。したがって、認識結果が求
められると同時に、音声の始端点、終端点が定まる。 このように第・1図に示した方法は、騒音と音−声が混
在した信号から、標準パターンに最も類(υ6した部分
を切り出して認識することができる。したがって、一般
に用いられているような複雑な音声区間検出の手続きを
必要とせず、音声区間は認識された音声とともに結果と
して出力される。 類似度の計算は以下に述べるように、特徴パラメータの
時系列パターンを用い、続開的距離尺度(事後確率に基
く距離)によって計算する71フレームあたりの特徴パ
ラメータの個数をDとすると、■フレームの時系列バタ
ー7はD・■次元のベクトルとなる。いま、未知入力の
第1フレームのパラメータをxi、単語にの標準パター
ンの第1フレームの成分をaltとすると、1xI−(
xl + l + N2 + I +”’ xd+ 1
+”xD、 1) Q3)k a =(a k ・ k ・・ak、) αa+
+、+、 2.+、 d、+、 D
、+時系列パター/をそれぞれX、AkとするとX =
(oc+、 J、−、Ki、・−、txl)
Q51A k= (ak 硅 −−−a k
−a k)’l −111111αe である。単語kに対する類似度をLkとすると、L k
= B kA k−X αη
ここでlAk、Bkは単語にの標準パターンである。 /Ak=2v;’(/lrk /pe)
(2[e
【、−1
J(=11k −’It、 ・JAk−、ttiX
IIV、 ・tt(H!2υただし、/41(は単
語にの平均値ベクトル、汝。 は全ての単語の周囲情報の平均値ベクトルである。 またWaは共分散行列であり、各単語の共分散行列Wk
と周囲情報の共分散行列〜veを用いて作成できる。 Kは単語の種類である。 (1t e+ veは各単語に属する多くのす/プルを
用いて、次のように作成する。第5図に示すように、音
声とその周囲の区間に対して、■フレームずつずらせな
がら複数の区間(区間長はIフレーム)を設定する。こ
のような操作を各単語の多くのす/プルに対して行ない
、それらの区間のパラメータの平均値ベクトル//j
eと共分散行列veを作成する。 弐〇7)は式(6)と同じ形であるので、類似度計算に
要する演算量は従来例と変わらない。標準パターン作成
の式(式(7)7式(8)と式■、弐〇〇)のみが異な
っている。周囲情報を広。、veとして標準パターンに
取り込んでいるのが本発明の特徴でちる。 このようにすると、式(N7)は擬似的な事後確率に貼
〈距離となる。なお、距離尺度は事後確率に隻づく尺度
の他に一次判別関数、二次判別関数、マノ・ラノビス距
離、ベイズ判定、複合類似度などの靴S」的距離尺度を
用いることができる さて、ここまでの説明では、第3図または第、1図で示
した三角形のマツチノグ1ごを、音声区間が七分入る広
い範囲J1≦J≦J2でスキマ/するものと仮定してき
たが、実際にばjlおよびJ2をどのように決めるかが
問題となる。Jlが必要以上に小さい場合(すなわち音
声の始端よりもずっと前に位置する場合)はノイズなど
によって誤認識する割合が多くなる。′!iたJ2が必
要以上に大きい場合(音声の終端よりもずっと後に位置
する場合)は、話者が発声終了してから認識結果を出力
するまでに時間がかかり過き、使いにくいシステl、に
なってしまう。したがって、jlやj2;ま音声区間を
適当に含むように設定する必要がある9しかし、本実施
例においては音声区間と正確に対応する必要はない。以
下第6図〜第8図を用いて走査区間(Jlおよびj2の
位置)の決め方を説明する。 本実施例においては、走査区間の始端はパワー情報で求
め、終端はパワー情報と類似度情報を併用して求める。 パワー情報による方法は、人の声の方が周囲の騒音より
も大きいことを利用する方法であるが、人の声の太ささ
は環境に影響されるので、声の大きびのレベルをそのま
ま利用しても良い結果は得られない。しかし、人の発声
は、静かな環境では小さく、やかましい環境では大きく
なる傾向があるので、信号対ノイズ比(S/N比)を用
いれば、環境騒音の影響をあまり受けずに音声を検出で
きる。 第6図において、実線はパワー(対数値)の時間変化を
示す。この例ではa、b、cの3つのパワービークが生
じているが、このうちaはノイズによる不要なピークで
あるとする。破線はノイズの平均レベル(PN)、また
一点鎖線はノイズの平均レベルより常に0N(dB)だ
け大きい、閾値レベル(Pθ)である。ノイズの平均レ
ベルPNは次のようにして求める。パワー値をPとする
とただし、Pmは閾値レベル以下のパワーレベルを有す
る第mフレームパワー値である。すなわちPNは閾値レ
ベル以下(ノイズレベル)のフレームの平均値である。 このようにすると、第6図の破線で示すように、PNは
パワー値を平滑化した波形となる。また閾値レベルPQ
は P(7=pN+ONC’41 でちる。 第6図を例として音声検出の方法を説明する。 信号の始まり部におけるパワーを初期ノイズレベルとし
、式のによってノイズの平均レベルヲ求めながら、パワ
ーレベルとPθを比較してゆ〈。最初のパワービークa
はPo以下であるので、音声として検出されない。パワ
ービークbの立上りの部分dでパワーレベルがPN以上
になると弐c!31の操作を中止し、以後P=Pθにな
るまでPNおよびPθを一定に保つ。そしてeからfに
がけてP≦Pθとなるので式123)の操作を行なう。 fからgまではPDPθであるからpN、pθは一定と
なる。 結果としてPDPθとなる区間B、Dを音声が存在する
区間とする。 このように、このγ″f声検比検出方法イズの平均レベ
ルを基準として音声を検出しているので、環境騒音が大
きい場合でも音声パワーが大きければ、確実に音声の存
在を検出できる。そして、閾値θ\を十分高くしておけ
ば、少々の騒音変動は感知しない。 次に第7図によって、認識の走査区間の決め方を説明す
る。第7図(a)はパワーの時間的な動きを示しており
、区間Aは第6図の方法で検出した音声の確実な存在範
囲である。(b)は第3図または第・1図で説明した7
7チング窓が時間的に動いてゆく様子を示す。そして、
(c)は距離(全単語の最小距離)の時間的な動きであ
り、式αカの最小値m1nLkを用いている。 マツチング窓の先端が区間Aの先端dに到達した時点か
ら認識を開始する。すなわち、この時点が第・1図の説
明におけるスキャン(走査)の開始点J−Jlである。 d点を通過した後は第・4図の方法で各標準パターンと
の類似度(距離)を求め、比較してゆく。そして、スキ
ャンの終了点j=j2まで認識操作を行なうことになる
が、終了点j2は次の3つの条件によって決定する。。 /1)パワーで検出子nた区間の開始点からの時間長(
フレーム数)が48以上でちる。 ■パワーで検出さnだ区間の終了点からの時間長(フレ
ーム数)がte以上である。。 G)各標準パターンとの距離つ最小値(類似度の最大値
)が閾値以下(類似度の場合は閾値以下)であること。 これら3つの条件を全て満足する最初の時点を走査終了
点J−32とする。 最初の2つの条件は、主に持続時間を考慮して、決めた
もつである。■は、どの標準パターンとの距離も遠くな
った時点は、音声部分から外れているという条件である
。第7図の例では、fが区間Aの終了点eからteが経
過した時点、gが距離が閾値を超えた時点、hがAの始
端点からt、が経過した時点であるが、最も後に位置す
るのはhであるので、hを走査終了点j2とする。 第8図は他の例である。(a)はパワーの動きであり、
この場合は、パワーで検出された区間がAとBの2つあ
る。(1))はゴ巨雅の動きである。こ、のようにパワ
ーて検出きれた区間が複数の場合は、最後の区間からt
、をシ]<ぬる。そして、′b−■つ条件によって、h
が走査終了点となる。 このように、本実施列による走査区間の設定法は、S/
N比を用いた音声の存在の検出と、類似度が閾値を超え
るか否かという、非常に粗い情報を用いているので、種
々のノイズによって影響されにくい。そして、もし開始
点がノイズなどによって実際の音声よりかなり前に位[
ト〔シたとしても、認識処理の区間が増すだけであって
、認識率に村する影響は小さい。捷た、終了点が誤まっ
てかなり後に位置した場合も、発声終了から認識出力ま
での時間が遅れるだけである。S/N比が低すうてパワ
ーによる検出ができなかった場合や、類似度が小さ過き
て終了点が検出されなかった場合)寸、認識拒否(リジ
ークト)となり、誤認識にはならない。 次に上記の説明に基づいて、第1図の各プロ。 りの機能を述べる。AD変換部1は入力信号に前置フィ
ルタを施した後、8 KHzサノプリ/グ、12ビ、ト
に量子化する。音響分析部11は入力信号を分析次数1
0次でLPC分析し、特徴パラメータ(LPCケプスト
ラム係数)に変換して、LPCケプストラム係数(cm
−c5)をフレーム(10msec)ごとに出力する。 特徴パラメータ抽出部12の出力が大側のIXに相当す
る(したがってD=6である)。なお・プロ、りlO〜
12の機能は第10図のブロック1〜3の機能と同じで
ある。特徴パラメータはLPCケプストラム係数の他に
、自己相関係数、PARCOR係数、帯域通過フィルタ
の出力などがある。 以下、その他の各ブロックの機能を第9図のフローチャ
ートを参照しながら説明する。フレーム同期信号発生部
13は、1フレームごとに同期信号を発生する。フレー
ム番号をjとする。 パワー計算部21はフレームごとのパワー(または帯域
パワー)値を求める。パワー比較部22では、パワー計
算部21の出力Piと、弐〇、4)で求められるノイズ
レベル学習部23の出力Pθを比較しく判断イ)、Pj
<POならばノイズレベル学習部23はPOを更新する
(処理口)。初めてP1≧Pθとなった時点で、走査区
間設定部2・1:は走査を開始する指示を出し、以下の
処理を行なう。 走査開始後、1フレームの期間で次の操作を行なう。 標準パターン選択部18は、認識対果とする音声(ここ
では単語)の1つ1つを選択する(処理か)。ここで単
語数をKとする。選択された標語パターンに=1に対し
て、区間候補設定部15ては、各単語の最小音声区間長
N1(k)と最;t、: 、s:4声区間長N2(k)
を設定する(処理二)。そして、区間長N(Nl(k)
≦N<N2(k) )に対して、特徴ノ(ラメータ抽出
部12で得られた未知入力パラメータをj−N−jフレ
ームの時間分だけ並べて、入力・シラメータの時系列を
作り、時間軸正規化部11にち・いて、時系列パラメー
タの時間を弐〇2)!Y:用いてIフレームに伸縮し、
式09に相当するパラメータ系列を得る(処理ホ)。類
似度計算部16はこの・ぽラメータ系列と、標準パター
ン選沢部18で選ばれた標準パターン格納部17中の標
準パターンAk+Bkとの間で、弐Q71を用いて類似
度Lk(N)を計算する(処理へ)。類似度比較部2o
では、L k (N)と中間結果格納部19に蓄積され
ているこの時点捷での最大類似度値(距離の最小値Lm
in )を比較しく判断ト) 、 Lk(N)<Lmi
nならばLminをLk(N)に置きかえてその時のk
を金として中間結果格納部】9を更新しく処理チ)、L
k(N)≧LmInならば中間結果格納部19の内容は
更新しない。 このような一連の操作を、1つの標準パター/に対して
N 2(k) −N 1(k)+1 回ずつ(判断り、
処理ス)、1フレームの間にに個の標準パター/に対し
て行なう(判断ル、処理ヲ)。 以」二の一連の処理が終了したら、走査区間設定部2.
1は前記(D〜■の終了条件をチー、りする(判断ヨ)
。終了条件を満足しない場合はj=J+JJ(ΔJはj
の増分)として(処理夕)、同様の処理を行なう。終了
条件を満足した場合は、その時のkを認識結果、Lmi
nを類似度値(距離値)として出力する。また最大類似
度(最小距離)を得た時点のフレームJとその時の区間
長Nを中間結果格納部19に蓄積しておけば、これらを
用いて?:?声区間を結果として求めることができる。 以上述べたように、本実施例はS/N比の時間変化と類
似度を用いて大まかな音声の存在する区間を検知しなが
ら連続的に類似度計算を行なって認識を行なう方法であ
り、音声区間の正確な検出を必要とせず、発声終了後速
やかに結果を出力することができる。 本実施例の方法を用いて、成人男女計330名が電話機
を通して発声したlO数字単語を評価した結果、平均認
識率9384%を得た。高騒音下の発声であることを考
慮すれば、この値は低いとは言えない。また本実施例に
よる認識誤まりの原因を分析した結果、誤まシのほとん
どはある単語の一部を他の単語と認識してしまうために
生ずることがわかった。たとえば/Zero/の/ro
/の部分を/go/と誤認識するのがその1例である。 このため、第2候補までを正解とすると97%以上の認
識率を得る。したがって、他の方法を少し併用すれば、
第1候補としてさらに高い認識率が得られることが容易
に推察される。 また認識に要する時間は、発声終了後、長い場合でも0
6秒以下であり、実用的に十分な認識速度が得られた。 そして、極端に声が小さいデータや、発声が不明瞭なデ
ータはりジークトキれることが確認でさた。 発明の効果 以上要するに本発明は、ダイナミ、りなパワー情報と類
似度情報を用いて設定した認識すべき音声とその前後の
騒音を宮む入力信号区間に、ある時間的な基準点を設け
、基準点を端点としてそれからNlフレームの区間とN
2フレームの区間(N1<N2)の2区間を設定して、
これらを音声区間のそれぞれ最小値と最大値と考えて、
N2−N1+1 とおりの音声区間候補のそれぞれに対
して、音声区間長を一定時間長に伸縮しながら各単語の
標準パターンとのマノチノグを行なって各単語の類似度
または距離を求め、この操作を基準点を全人力信号区間
の始めから終りまで走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度または距離を各単
語について比較し、類似度を最大または距離を最小とす
る単語を認識結果として出力するもので、音声区間の正
確な検出を必要とせず1.鳴音と音声が混在した信号か
ら音声に相当する部分のみを切出して認識でき、従来は
複雑なルールを用いて音声区間の検出を行なっていたが
、それでも騒音レベルが高い場合や非定常的なノイズが
混入する場合には音声区間の検出を誤まり、したがって
誤認識をしていたが、本発明は複雑な音声区間検出アル
ゴリズムを除去することによって、システムを簡略化し
、また高騒音入力に対して安定した認識率を確保するこ
とができ、さらに発声終了後速やかに結果を出力するこ
とができるなど、その結果は大きい。
IIV、 ・tt(H!2υただし、/41(は単
語にの平均値ベクトル、汝。 は全ての単語の周囲情報の平均値ベクトルである。 またWaは共分散行列であり、各単語の共分散行列Wk
と周囲情報の共分散行列〜veを用いて作成できる。 Kは単語の種類である。 (1t e+ veは各単語に属する多くのす/プルを
用いて、次のように作成する。第5図に示すように、音
声とその周囲の区間に対して、■フレームずつずらせな
がら複数の区間(区間長はIフレーム)を設定する。こ
のような操作を各単語の多くのす/プルに対して行ない
、それらの区間のパラメータの平均値ベクトル//j
eと共分散行列veを作成する。 弐〇7)は式(6)と同じ形であるので、類似度計算に
要する演算量は従来例と変わらない。標準パターン作成
の式(式(7)7式(8)と式■、弐〇〇)のみが異な
っている。周囲情報を広。、veとして標準パターンに
取り込んでいるのが本発明の特徴でちる。 このようにすると、式(N7)は擬似的な事後確率に貼
〈距離となる。なお、距離尺度は事後確率に隻づく尺度
の他に一次判別関数、二次判別関数、マノ・ラノビス距
離、ベイズ判定、複合類似度などの靴S」的距離尺度を
用いることができる さて、ここまでの説明では、第3図または第、1図で示
した三角形のマツチノグ1ごを、音声区間が七分入る広
い範囲J1≦J≦J2でスキマ/するものと仮定してき
たが、実際にばjlおよびJ2をどのように決めるかが
問題となる。Jlが必要以上に小さい場合(すなわち音
声の始端よりもずっと前に位置する場合)はノイズなど
によって誤認識する割合が多くなる。′!iたJ2が必
要以上に大きい場合(音声の終端よりもずっと後に位置
する場合)は、話者が発声終了してから認識結果を出力
するまでに時間がかかり過き、使いにくいシステl、に
なってしまう。したがって、jlやj2;ま音声区間を
適当に含むように設定する必要がある9しかし、本実施
例においては音声区間と正確に対応する必要はない。以
下第6図〜第8図を用いて走査区間(Jlおよびj2の
位置)の決め方を説明する。 本実施例においては、走査区間の始端はパワー情報で求
め、終端はパワー情報と類似度情報を併用して求める。 パワー情報による方法は、人の声の方が周囲の騒音より
も大きいことを利用する方法であるが、人の声の太ささ
は環境に影響されるので、声の大きびのレベルをそのま
ま利用しても良い結果は得られない。しかし、人の発声
は、静かな環境では小さく、やかましい環境では大きく
なる傾向があるので、信号対ノイズ比(S/N比)を用
いれば、環境騒音の影響をあまり受けずに音声を検出で
きる。 第6図において、実線はパワー(対数値)の時間変化を
示す。この例ではa、b、cの3つのパワービークが生
じているが、このうちaはノイズによる不要なピークで
あるとする。破線はノイズの平均レベル(PN)、また
一点鎖線はノイズの平均レベルより常に0N(dB)だ
け大きい、閾値レベル(Pθ)である。ノイズの平均レ
ベルPNは次のようにして求める。パワー値をPとする
とただし、Pmは閾値レベル以下のパワーレベルを有す
る第mフレームパワー値である。すなわちPNは閾値レ
ベル以下(ノイズレベル)のフレームの平均値である。 このようにすると、第6図の破線で示すように、PNは
パワー値を平滑化した波形となる。また閾値レベルPQ
は P(7=pN+ONC’41 でちる。 第6図を例として音声検出の方法を説明する。 信号の始まり部におけるパワーを初期ノイズレベルとし
、式のによってノイズの平均レベルヲ求めながら、パワ
ーレベルとPθを比較してゆ〈。最初のパワービークa
はPo以下であるので、音声として検出されない。パワ
ービークbの立上りの部分dでパワーレベルがPN以上
になると弐c!31の操作を中止し、以後P=Pθにな
るまでPNおよびPθを一定に保つ。そしてeからfに
がけてP≦Pθとなるので式123)の操作を行なう。 fからgまではPDPθであるからpN、pθは一定と
なる。 結果としてPDPθとなる区間B、Dを音声が存在する
区間とする。 このように、このγ″f声検比検出方法イズの平均レベ
ルを基準として音声を検出しているので、環境騒音が大
きい場合でも音声パワーが大きければ、確実に音声の存
在を検出できる。そして、閾値θ\を十分高くしておけ
ば、少々の騒音変動は感知しない。 次に第7図によって、認識の走査区間の決め方を説明す
る。第7図(a)はパワーの時間的な動きを示しており
、区間Aは第6図の方法で検出した音声の確実な存在範
囲である。(b)は第3図または第・1図で説明した7
7チング窓が時間的に動いてゆく様子を示す。そして、
(c)は距離(全単語の最小距離)の時間的な動きであ
り、式αカの最小値m1nLkを用いている。 マツチング窓の先端が区間Aの先端dに到達した時点か
ら認識を開始する。すなわち、この時点が第・1図の説
明におけるスキャン(走査)の開始点J−Jlである。 d点を通過した後は第・4図の方法で各標準パターンと
の類似度(距離)を求め、比較してゆく。そして、スキ
ャンの終了点j=j2まで認識操作を行なうことになる
が、終了点j2は次の3つの条件によって決定する。。 /1)パワーで検出子nた区間の開始点からの時間長(
フレーム数)が48以上でちる。 ■パワーで検出さnだ区間の終了点からの時間長(フレ
ーム数)がte以上である。。 G)各標準パターンとの距離つ最小値(類似度の最大値
)が閾値以下(類似度の場合は閾値以下)であること。 これら3つの条件を全て満足する最初の時点を走査終了
点J−32とする。 最初の2つの条件は、主に持続時間を考慮して、決めた
もつである。■は、どの標準パターンとの距離も遠くな
った時点は、音声部分から外れているという条件である
。第7図の例では、fが区間Aの終了点eからteが経
過した時点、gが距離が閾値を超えた時点、hがAの始
端点からt、が経過した時点であるが、最も後に位置す
るのはhであるので、hを走査終了点j2とする。 第8図は他の例である。(a)はパワーの動きであり、
この場合は、パワーで検出された区間がAとBの2つあ
る。(1))はゴ巨雅の動きである。こ、のようにパワ
ーて検出きれた区間が複数の場合は、最後の区間からt
、をシ]<ぬる。そして、′b−■つ条件によって、h
が走査終了点となる。 このように、本実施列による走査区間の設定法は、S/
N比を用いた音声の存在の検出と、類似度が閾値を超え
るか否かという、非常に粗い情報を用いているので、種
々のノイズによって影響されにくい。そして、もし開始
点がノイズなどによって実際の音声よりかなり前に位[
ト〔シたとしても、認識処理の区間が増すだけであって
、認識率に村する影響は小さい。捷た、終了点が誤まっ
てかなり後に位置した場合も、発声終了から認識出力ま
での時間が遅れるだけである。S/N比が低すうてパワ
ーによる検出ができなかった場合や、類似度が小さ過き
て終了点が検出されなかった場合)寸、認識拒否(リジ
ークト)となり、誤認識にはならない。 次に上記の説明に基づいて、第1図の各プロ。 りの機能を述べる。AD変換部1は入力信号に前置フィ
ルタを施した後、8 KHzサノプリ/グ、12ビ、ト
に量子化する。音響分析部11は入力信号を分析次数1
0次でLPC分析し、特徴パラメータ(LPCケプスト
ラム係数)に変換して、LPCケプストラム係数(cm
−c5)をフレーム(10msec)ごとに出力する。 特徴パラメータ抽出部12の出力が大側のIXに相当す
る(したがってD=6である)。なお・プロ、りlO〜
12の機能は第10図のブロック1〜3の機能と同じで
ある。特徴パラメータはLPCケプストラム係数の他に
、自己相関係数、PARCOR係数、帯域通過フィルタ
の出力などがある。 以下、その他の各ブロックの機能を第9図のフローチャ
ートを参照しながら説明する。フレーム同期信号発生部
13は、1フレームごとに同期信号を発生する。フレー
ム番号をjとする。 パワー計算部21はフレームごとのパワー(または帯域
パワー)値を求める。パワー比較部22では、パワー計
算部21の出力Piと、弐〇、4)で求められるノイズ
レベル学習部23の出力Pθを比較しく判断イ)、Pj
<POならばノイズレベル学習部23はPOを更新する
(処理口)。初めてP1≧Pθとなった時点で、走査区
間設定部2・1:は走査を開始する指示を出し、以下の
処理を行なう。 走査開始後、1フレームの期間で次の操作を行なう。 標準パターン選択部18は、認識対果とする音声(ここ
では単語)の1つ1つを選択する(処理か)。ここで単
語数をKとする。選択された標語パターンに=1に対し
て、区間候補設定部15ては、各単語の最小音声区間長
N1(k)と最;t、: 、s:4声区間長N2(k)
を設定する(処理二)。そして、区間長N(Nl(k)
≦N<N2(k) )に対して、特徴ノ(ラメータ抽出
部12で得られた未知入力パラメータをj−N−jフレ
ームの時間分だけ並べて、入力・シラメータの時系列を
作り、時間軸正規化部11にち・いて、時系列パラメー
タの時間を弐〇2)!Y:用いてIフレームに伸縮し、
式09に相当するパラメータ系列を得る(処理ホ)。類
似度計算部16はこの・ぽラメータ系列と、標準パター
ン選沢部18で選ばれた標準パターン格納部17中の標
準パターンAk+Bkとの間で、弐Q71を用いて類似
度Lk(N)を計算する(処理へ)。類似度比較部2o
では、L k (N)と中間結果格納部19に蓄積され
ているこの時点捷での最大類似度値(距離の最小値Lm
in )を比較しく判断ト) 、 Lk(N)<Lmi
nならばLminをLk(N)に置きかえてその時のk
を金として中間結果格納部】9を更新しく処理チ)、L
k(N)≧LmInならば中間結果格納部19の内容は
更新しない。 このような一連の操作を、1つの標準パター/に対して
N 2(k) −N 1(k)+1 回ずつ(判断り、
処理ス)、1フレームの間にに個の標準パター/に対し
て行なう(判断ル、処理ヲ)。 以」二の一連の処理が終了したら、走査区間設定部2.
1は前記(D〜■の終了条件をチー、りする(判断ヨ)
。終了条件を満足しない場合はj=J+JJ(ΔJはj
の増分)として(処理夕)、同様の処理を行なう。終了
条件を満足した場合は、その時のkを認識結果、Lmi
nを類似度値(距離値)として出力する。また最大類似
度(最小距離)を得た時点のフレームJとその時の区間
長Nを中間結果格納部19に蓄積しておけば、これらを
用いて?:?声区間を結果として求めることができる。 以上述べたように、本実施例はS/N比の時間変化と類
似度を用いて大まかな音声の存在する区間を検知しなが
ら連続的に類似度計算を行なって認識を行なう方法であ
り、音声区間の正確な検出を必要とせず、発声終了後速
やかに結果を出力することができる。 本実施例の方法を用いて、成人男女計330名が電話機
を通して発声したlO数字単語を評価した結果、平均認
識率9384%を得た。高騒音下の発声であることを考
慮すれば、この値は低いとは言えない。また本実施例に
よる認識誤まりの原因を分析した結果、誤まシのほとん
どはある単語の一部を他の単語と認識してしまうために
生ずることがわかった。たとえば/Zero/の/ro
/の部分を/go/と誤認識するのがその1例である。 このため、第2候補までを正解とすると97%以上の認
識率を得る。したがって、他の方法を少し併用すれば、
第1候補としてさらに高い認識率が得られることが容易
に推察される。 また認識に要する時間は、発声終了後、長い場合でも0
6秒以下であり、実用的に十分な認識速度が得られた。 そして、極端に声が小さいデータや、発声が不明瞭なデ
ータはりジークトキれることが確認でさた。 発明の効果 以上要するに本発明は、ダイナミ、りなパワー情報と類
似度情報を用いて設定した認識すべき音声とその前後の
騒音を宮む入力信号区間に、ある時間的な基準点を設け
、基準点を端点としてそれからNlフレームの区間とN
2フレームの区間(N1<N2)の2区間を設定して、
これらを音声区間のそれぞれ最小値と最大値と考えて、
N2−N1+1 とおりの音声区間候補のそれぞれに対
して、音声区間長を一定時間長に伸縮しながら各単語の
標準パターンとのマノチノグを行なって各単語の類似度
または距離を求め、この操作を基準点を全人力信号区間
の始めから終りまで走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度または距離を各単
語について比較し、類似度を最大または距離を最小とす
る単語を認識結果として出力するもので、音声区間の正
確な検出を必要とせず1.鳴音と音声が混在した信号か
ら音声に相当する部分のみを切出して認識でき、従来は
複雑なルールを用いて音声区間の検出を行なっていたが
、それでも騒音レベルが高い場合や非定常的なノイズが
混入する場合には音声区間の検出を誤まり、したがって
誤認識をしていたが、本発明は複雑な音声区間検出アル
ゴリズムを除去することによって、システムを簡略化し
、また高騒音入力に対して安定した認識率を確保するこ
とができ、さらに発声終了後速やかに結果を出力するこ
とができるなど、その結果は大きい。
第1図は本発明の第1の実施例における音声認識方法を
具現化する機能プロ、り図、第2図乃至第4図は同実施
例の音声区間長の伸縮を説明する概念図、第5図は同実
施例の音声の標準バター/作成時の、周囲情報の標準パ
ターン作成法を説明する概念図、第6図は同実施例の音
声検出法を説明する概念図、第7図は同実施例の認識の
走査区間の決め方を説明する図で、同図(a)はパワー
の動きを示す概念図、同図(b)はマツチフグ窓の時間
的な移動を示す概念図、同図(c)は距離の時間的な動
きを示す概念図、第8図は走査区間の決め方の他の実施
例を説明する図で、同図(a)はパワーの動きを示す概
念図、同図(b)は距離の時間的な動きを示す概念図、
第9図は本実施例の処理手順を説明するフローチャート
、第10図は従来の音声認識方法を示す機能プロ、り図
である。 10− AD変換部、11・・・・・・音響分析部、1
2・・・ 特徴パラメータ抽出部、13・・・・フレー
ム同期信号発生部、14・・・・ 時間軸正規化部、1
5 ・・・・区間候補設定部、16・・・・・・類似度
計算部、17・・・・標準パターン格納部、18・・・
・標準パターノ選択部、19・・・・・中間結果格納部
、20・・・・・類1以度比較部、21・・・・・・パ
ワー計算部、22・・・・・・ハ’17−1tJ2部、
23・・・・・・ノイズレベル学習部、2・1・・ 走
査区間設定部。 代理人の氏名 弁理士 中 尾 敷 男 ほか1名イー
9 間 第2図 第3図 第4図 1−姶填区蘭→ 第51”71 第へ図 第7m 7でツーτ市(汗七nハ六区11 第8間 第9図 出力 mIrL
具現化する機能プロ、り図、第2図乃至第4図は同実施
例の音声区間長の伸縮を説明する概念図、第5図は同実
施例の音声の標準バター/作成時の、周囲情報の標準パ
ターン作成法を説明する概念図、第6図は同実施例の音
声検出法を説明する概念図、第7図は同実施例の認識の
走査区間の決め方を説明する図で、同図(a)はパワー
の動きを示す概念図、同図(b)はマツチフグ窓の時間
的な移動を示す概念図、同図(c)は距離の時間的な動
きを示す概念図、第8図は走査区間の決め方の他の実施
例を説明する図で、同図(a)はパワーの動きを示す概
念図、同図(b)は距離の時間的な動きを示す概念図、
第9図は本実施例の処理手順を説明するフローチャート
、第10図は従来の音声認識方法を示す機能プロ、り図
である。 10− AD変換部、11・・・・・・音響分析部、1
2・・・ 特徴パラメータ抽出部、13・・・・フレー
ム同期信号発生部、14・・・・ 時間軸正規化部、1
5 ・・・・区間候補設定部、16・・・・・・類似度
計算部、17・・・・標準パターン格納部、18・・・
・標準パターノ選択部、19・・・・・中間結果格納部
、20・・・・・類1以度比較部、21・・・・・・パ
ワー計算部、22・・・・・・ハ’17−1tJ2部、
23・・・・・・ノイズレベル学習部、2・1・・ 走
査区間設定部。 代理人の氏名 弁理士 中 尾 敷 男 ほか1名イー
9 間 第2図 第3図 第4図 1−姶填区蘭→ 第51”71 第へ図 第7m 7でツーτ市(汗七nハ六区11 第8間 第9図 出力 mIrL
Claims (4)
- (1)音声とその前後の騒音を含む未知入力信号からパ
ワー情報を用いて音声の存在を検出し、検出した時点を
基準点として、基準点と基準点からN(N_1≦N≦N
_2)だけ離れた区間の未知入力信号を区間長Lに線形
伸縮し、伸縮した区間の特徴パラメータを抽出し、この
特徴パラメータと認識対象とする複数の音声の標準パタ
ーンとの類似度又は距離をそれぞれ求めて比較し、この
ような操作をNをN_1からN_2まで変化させて行な
い、さらに基準点を単位区間ずつずらせながら同様の操
作を行なって類似度又は距離を次々と求めて比較してゆ
き、パワー情報の動きを用いて求めた音声の持続時間と
類似度の時間的な変化を併用して決定した処理終了時点
へ基準点が到達した時における、全ての基準点そして全
ての時間伸縮に対して最大類似度又は最小距離を得る標
準パターンに対応する音声を認識結果として出力するこ
とを特徴とする音声認識方法。 - (2)音声信号とノイズの比率を用いて音声の存在を検
出することを特徴とする特許請求の範囲第1項記載の音
声認識方法。 - (3)未知入力信号の特徴パラメータと各音声の標準パ
ターンとの類似度又は距離を統計的距離尺度を用いて計
算することを特徴とする特許請求の範囲第1項記載の音
声認識方法。 - (4)統計的距離尺度が、事後確率に基づく尺度、一次
判別関数、二次判別関数、コハラノビス距離、ベイズ判
定、複合類似度に基づく尺度のうちいずれかであること
を特徴とする特許請求の範囲第3項記載の音声認識方法
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27536585A JPS62134699A (ja) | 1985-12-06 | 1985-12-06 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27536585A JPS62134699A (ja) | 1985-12-06 | 1985-12-06 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62134699A true JPS62134699A (ja) | 1987-06-17 |
JPH054680B2 JPH054680B2 (ja) | 1993-01-20 |
Family
ID=17554463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27536585A Granted JPS62134699A (ja) | 1985-12-06 | 1985-12-06 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62134699A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200109072A (ko) * | 2019-03-12 | 2020-09-22 | 울산과학기술원 | 음성 구간 검출장치 및 그 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62111293A (ja) * | 1985-11-08 | 1987-05-22 | 松下電器産業株式会社 | 音声認識方法 |
JPS62133499A (ja) * | 1985-12-05 | 1987-06-16 | 松下電器産業株式会社 | 音声認識装置 |
-
1985
- 1985-12-06 JP JP27536585A patent/JPS62134699A/ja active Granted
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62111293A (ja) * | 1985-11-08 | 1987-05-22 | 松下電器産業株式会社 | 音声認識方法 |
JPS62133499A (ja) * | 1985-12-05 | 1987-06-16 | 松下電器産業株式会社 | 音声認識装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200109072A (ko) * | 2019-03-12 | 2020-09-22 | 울산과학기술원 | 음성 구간 검출장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
JPH054680B2 (ja) | 1993-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
US6671669B1 (en) | combined engine system and method for voice recognition | |
Chapaneri | Spoken digits recognition using weighted MFCC and improved features for dynamic time warping | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
KR100551953B1 (ko) | 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법 | |
Bhukya et al. | End point detection using speech-specific knowledge for text-dependent speaker verification | |
Dumpala et al. | Robust Vowel Landmark Detection Using Epoch-Based Features. | |
JPS62134699A (ja) | 音声認識方法 | |
JP2506730B2 (ja) | 音声認識方法 | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 | |
TWI460718B (zh) | 一個辨認所有語言句子方法 | |
JP3029654B2 (ja) | 音声認識装置 | |
Kuah et al. | A neural network-based text independent voice recognition system | |
KR100304788B1 (ko) | 연속 음성 인식을 이용한 전화번호 안내 방법 | |
Irino et al. | Vocal tract length estimation for voiced and whispered speech using gammachirp filterbank | |
JPH054678B2 (ja) | ||
JPH0451037B2 (ja) | ||
Tabassum | A study on speaker independent speech recognition of isolated words in room environment | |
Hao et al. | A data-driven speech enhancement method based on A* longest segment searching technique | |
Fujita et al. | A study of vocal tract length normalization with generation-dependent acoustic models | |
JPH04332000A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |