JP2506730B2

JP2506730B2 - 音声認識方法

Info

Publication number: JP2506730B2
Application number: JP62059413A
Authority: JP
Inventors: 泰助渡辺
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-03-13
Filing date: 1987-03-13
Publication date: 1996-06-12
Anticipated expiration: 2011-06-12
Also published as: JPS63223798A

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に
関するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商品化さ
れているが、これらのほとんどは声を登録した人のみを
認識対象とする特定話者用である。特定話者用の装置は
認識すべき言葉をあらかじめ装置に登録する手間を要す
るため、連続的に長時間使用する場合を除けば、使用者
にとって大きな負担となる。これに対し、声の登録を必
要とせず、使い勝手のよい不特定話者要の認識技術の研
究が最近では精力的に行なわれるようになった。

音声認識方法を一般的に言うと、入力音声と辞書中に
格納してある標準的な音声（これらはパラメータ化して
ある）のパターンマッチングを行なって、類似度が最も
高い辞書中の音声を認識結果として出力するということ
である。この場合、入力音声と辞書中の音声が物理的に
全く同じものならば問題はないわけであるが、一般には
同一音声であっても、人が違ったり、言い方が違ってい
るため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。
すなわち、調音器官（口、舌、のどなど）の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。また早口で発声するが、ゆっくり発
声するかによって時間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペクトル
およびその時間的変動を正規化して、標準パターンと比
較する必要がある。

不特定話者の音声認識に有効な方法として、本出願人
等は既にパラメータの時系列情報と統計的距離尺度を併
用する方法を提案している（二矢田他：“簡単な不特定
話者用音声認識方法”、日本音響学会講演論文集、１−
１−４（昭和61年３月））ので、その方法を以下に説明
する。

この方法は、パターンマッチング法を用いて、音声を
騒音中からスポッティングすることによって、音声の認
識を行なうと同時に音声区間をも検出することができ
る。

まず、パターンマッチングに用いている距離尺度（統
計的距離尺度）について説明する。

入力単語音声長をＪフレームに線形伸縮し、Ｉフレー
ムあたりのパラメータベクトルをとすると、は次のようになる。

ここで、各はｐ次元のベクトルである。

単語ω_ｋ（ｋ＝1,2,…,K）の標準パターンとして、とすると、事後確率を最大とする単語を認識結果とすればよい。

ベイズの定理より右辺第１項のＰ（ω_ｋ）は定数と見なせる。正規分布を
仮定とすると、第２項はは入力パラメータが同一ならば定数と見做せるが、異な
る入力に対して相互比較するときは、定数にならない。
ここでは、の正規分布に従うものと仮定する。

（１）の対数をとり、定数項を省略して、これをと置くと、ここで、を全て共通と置きとする。すなわち、として（４）式を展開すると、ただし、（６）式は計算量が少ない１次判別式がある。ここ
で、（６）式を次のように変形する。

すなわち、Lkはフレームごとの部分類似度のＪ回の加算と１回の減算で求められる。

次に、上記の距離尺度を用いて、騒音中から音声をス
ポッティングして認識する方法と、計算量の削減法につ
いて説明する。

音声を確実に含む十分長い区間を対象として、この中
に種々の部分区間を設定して、各単語との類似度を
（９）式によって求め、全ての部分区間を通して類似度
が最大となる単語を認識結果とすればよい。この類似度
計算をそのまま実行すると計算量が膨大となるが、単語
の持続時間を考慮して部分区間長を制限し、また計算の
途中で部分類似度▲ｄ^(K) _j▼を共通に利用することによ
って、大幅に計算量を削減できる。第４図は本方法の説
明図である。入力と単語ｋの照合を行う場合、部分区間
長ｎ（▲ｎ^(K) _s▼＜ｎ＜▲ｎ^(K) _e▼）を標準パターン長
Ｊに線形伸縮し、フレームごとに終端固定で類似度を計
算していく様子を示している。類似度はQR上の点Ｔから
出発してＰで終るルートに沿って（９）式で計算され
る。したがって、１フレームあたりの類似度計算はΔPQ
R内で行われる。ところで（９）式のは、区間長ｎを伸縮した後の第ｊフレーム成分なので、
対応する入力フレームｉ′が存在する。そこで入力ベク
トルを用いて、▲ｄ^(K) _j▼を次のように表現できる。

ただし、ｉ′＝ｉ−r_n（ｊ）＋１（11）ここで、r_n（ｊ）は単語長ｎとＪの線形伸縮を関係づ
ける関数である。したがって、入力の各フレームととの部分類似度が予め求められていれば、（９）式は
ｉ′の関係を有する部分類似度を選択して加算すること
によって簡単に計算できる。ところで、ΔPQRは１フレ
ームごとに右へ移動するので、PS上での部分類似度を計算して、それを、ΔPQRに相当する分
だけメモリに蓄積し、フレームごとにシフトするように
構成しておけば、必要な類似度は全てメモリ内にあるの
で、部分類似度を求める演算が大幅に省略でき、計算量
が非常に少なくなる。

第５図は従来例の実現方法を説明した、機能ブロック
図である。未知入力音声信号はAD変換部10で、8KHzサン
プリングされて12ビットのディジタル信号に変換され
る。音響分析部11は10msec（１フレーム）ごとに入力信
号のLPC分析を行ない、10次の線形予測係数と残差パワ
ーを求める。特徴パラメータ抽出部12は、線形予測係数
と残差パワーを用いて、LPCケプストラム係数C₁〜C₅と
パワー項Coを特徴パラメータとして求める。したがっ
て、フレームごとの特徴はである。なお、LPC分析とLPCケプストラム件数の抽出法
に関しては、例えばJ.D.マーケル,A.H.グレイ著，鈴木
久喜訳「音声の線形予測」に詳しく記述されているので
省略する。

フレーム同期信号発声部13は10msecごとのタイミング
信号（フレーム信号）を発声する部分であり、認識処理
はフレーム信号に同期して行なわれる。

標準パターン選択部18は、１フレームの期間に、標準
パターン格納部17に格納されている単語ナンバーｋ＝1,
2,…Ｋを次々と選択してゆく。部分類似度計算部21で
は、選択されたの部分類似度d^(k)（i,j）を計算する。

計算した部分類似度は類似度バッファ22へ送出して蓄
積する。類似度バッファ22は、新しい入力が入ると、一
番古い情報が消滅する構成になっている。

区間候補設定部15は選択された単語ナンバーごとに、
その単語の最小長▲ｎ^(k) _s▼と最大長▲ｎ^(k) _e▼を設定
する。時間伸縮テーブル24には（11）式の関係がテーブ
ル形式で格納されており、単語長ｎとフレームｊを指定
するとそれに対応するｉ′が求まる。▲ｎ^(k) _s▼≦ｎ≦
▲ｎ^(k) _e▼の範囲の各々の単語長ｎに対してｉ′を読出
し、それに相当する部分類似度d^(k)（i,j）,j＝1,2,…
Ｊを類似度バッファ22から読み出す。類似度加算部23はを計算し、（９）式によってLkを求める。類似度比較部
20は、求めたLkと一時記憶19の内容を比較し、類似度が
大きい（距離が小さい）方を一時記憶19に記録する。

このようにして、フレームｉ＝i₀から始め、標準パタ
ーンｋ＝１に対して▲ｎ⁽¹⁾ _s▼ｎ▲ｎ⁽¹⁾ _e▼の範囲
で最大類似度を求め、次にｋ＝２として▲ｎ⁽²⁾ _s▼ｎ▲ｎ⁽²⁾ _e▼
の範囲で求めたと比較して類似度の最大値を求め、このようにしてｋ＝
Ｋまで同様な手順を繰返して最大類似度とその時の単語ナンバーｋ′を一時記憶19に記憶する。
次にｉ＝i₀＋Δｉとして同様な手順を繰返して、最終フ
レームｉ＝Ｉに到達した時に一時記憶に残されている単
語ナンバーｋ＝kmが認識結果である。また、最大類似度
が得られた時のフレームナンバーｉ＝imと単語長ｎ＝n_m
を一時記憶19に蓄積し、更新するようにしておけば、認
識結果と同時に、その時の音声区間を結果として求める
ことができる。音声区間はi_m−n_m〜i_mである。

発明が解決しようとする問題点かかる方法における問題点は、音声を確実に含む十分
長い区間を対象として、この中に取り得るすべての音声
区間とパターン・マッチングを実行させるため、例え
ば、数字音声の認識において、「ゼロ」と発声しても、
「ゼロ」の「ロ」の部分で「ゴ」と認識するような長い
発声単語の部分に、短い単語に認識される可能性が大き
い。

本発明の目的は上記問題点を解決するもので、音声を
確実に含む十分長い区間の中から取り得る音声区間をで
きるだけ、パワー情報を用いて、制限することによって
高い認識率を有する音声認識方法を提供するものであ
る。

問題点を解決するための手段本発明は、上記目的を達成するもので、フレーム毎の
パワー値が、ノイズ学習したあるいき値θ_Ｎ以上で、Ｎ
フレーム連続する場合、Ｎ＝N_d（一定）より以後のフレ
ームで、パワー値が、θ_Ｎ以上であるフレームが続く限
り、該当フレームを始端とする音声区間は、認識対象か
ら除外するものである。

作用本発明は不特定話者用の音声区間を明確に定めないワ
ード・スポッテング手法を用いた認識方法において、パ
ワー情報によって、一部音声区間を制限することによ
り、長い発声単語が、短かい発声単語に、誤まる確率を
低くし、全体の認識率を向上させることができる。

実施例以下に本発明の実施例を図面を用いて詳細に説明す
る。第１図は本発明の一実施例における音声認識方法の
具現化を示す機能ブロック図である。

まず本実施例の基本的な認識の考え方は、従来例に上
げた方式とほぼ同じである。すなわち、未知入力音声信
号はAD変換部110で、8KHzサンプリングされて、12ビッ
トのディジタル信号に変換される。音響分析部111は、1
0msec（１フレーム）ごとの入力信号のLPC分析を行な
い、10次の線形予測係数と残差パワーを求める。特徴パ
ラメータ抽出部112は、線形予測係数と残差パワーを用
いて、LPCケプストラム係数C₁〜C₉とパワー項C₀を特徴
パラメータとして求める。したがって、フレーム毎のは、である。なお、LPC分析とLPCケプストラム係数の抽出法
に関しては、例えばJ.D.マーケル,A.H.グレイ著，鈴木
久喜訳「音声の線形予測」に詳しく記述されているので
省略する。

フレーム同期信号発声部113は、10msecごとのタイミ
ング信号（フレーム信号）を発生する部分であり、認識
処理はフレーム信号に同期して行なわれる。

標準パターン選択部116は、１フレームの期間に、標
準パターン格納部115に格納されている単語ナンバーｋ
＝1,2,……,Kを次々と選択してゆく。部分類似度計算部
114では、選択されたの部分類似度d^(k)（i,j）を計算する。

計算した部分類似度は類似度バッファ119へ送出して蓄
積する。類似度バッファ119は、新しい入力が入ると、
一番古い情報が消滅する構成になっている。なお、ここ
では統計的距離尺度が一次判別関数の場合について説明
したが、その他、事後確率に基づく尺度、二次判別関
数、マハラノビス距離、ベイズ判定又は複合類似度に基
づく尺度のうちいずれかでも良い。

区間候補設定部117は、選択された単語ナンバーごと
に、その単語の最小長▲ｎ^(k) _s▼と最大長▲ｎ^(k) _e▼を
設定する。時間伸縮テーブル118には（11）式の関係が
テーブル形式で格納されており、単語長ｎ（▲ｎ^(k) _s▼
≦ｎ≦▲ｎ^(k) _e▼）とフレームｊを指定すると、それに
対応するｉ′が求まる。▲ｎ^(k) _s▼≦ｎ≦▲ｎ^(k) _e▼の
範囲の各々の単語長ｎに対してｉ′を読み出し、それに
相当する部分類似度d^(k)（ｉ′,j）,j＝1,2,…Ｊを類似
度バッファ119から読み出す。類似度加算部120は、を計算し、（９）式によってL_kを求める。類似度比較部
121は、求めたL_kと今までのフレームで最大の類似度を
格納している一時記憶122の内容と比較し、類似度が大
きい（距離が小さい）方を一時記憶122に記録する。

このようにして、フレームｉ＝I₀から始め、標準パタ
ーンｋ＝１に対して、▲ｎ⁽¹⁾ _s▼≦ｎ≦▲ｎ⁽¹⁾ _e▼の範
囲で最大類似度を求め、次にｋ＝２として▲ｎ⁽²⁾ _s▼≦ｎ≦▲ｎ⁽²⁾ _e▼
の範囲で求めたを比較して類似度の最大値を求め、このようにしてｋ＝
Ｋまで同様な手順を繰返して最大類似度とその時の単語ナンバーｋ′を一時記憶122に記憶す
る。次にｉ＝i₀＋Δｉとして同様な手順を繰返して、最
終フレームｉ＝Ｉに到達した時に一時記憶122に残され
ている単語ナンバーｋ＝kmが認識結果である。

次に、上記説明におけるI₀からＩまでの走査区間決定
方法と音声区間制御法について説明する。

第２図は、走査開始（類似度加算部以後の開始）I₀フ
レームと認識完了（走査終了）Ｉフレームと音声との関
係を表わしたものである。

本実施例においては、走査区間の始端はパワー情報で
求め、終端はパワー情報と類似度情報を併用して求め、
音声区間制御法は、パワー情報を利用用する。パワー情
報による方法は、人の声の方が周囲の騒音よりも大きい
ことを利用する方法であるが、人の声の大きさは環境に
影響されるので、声の大きさのレベルをそのまま利用し
ても良い結果は得られない。しかし、人の発声は、静か
な環境では小さく、やかましい環境では大きくなる傾向
があるので、信号対ノイズ比（S/N比）を用いれば、環
境騒音の影響をあまり受けずに発声を検出できる。

パワー計算部123は、フレーム毎にパワー（対数値）
を計算する。以下ノイズ・レベル学習部124、パワー比
較部125について説明する。

第３図において、実線はパワー（対数値）の時間変化
を示す。この例ではa,b,cの３つのパワーピークが生じ
ているが、このうちａはノイズによる不要なピークであ
るとする。破線はノイズの平均レベル（P_N）、また一点
鎖線はノイズの平均レベルより常にθ_Ｎ（dB）だけ大き
い、閾値レベル（Ｐ_θ）である。ノイズの平均レベルP_N
は次のようにして求める。パワー値をＰとするとただし、P_mは閾値レベル以下のパワーレベルを有する
第ｍフレームパワー値である。すなわちP_Nは閾値レべる
以下（ノイズレベル）のフレームの平均値である。この
ようにすると、第３図の破線で示すように、ノズルの平
均レベルP_Nはパワー値を平滑化した波形となる。また閾
値レベルＰ_θ,PにはＰ_θ＝P_N＋θ_Ｎ（17）である。

第３図を例として音声検出および音声区間制御の方法
を説明する。信号の始まり部におるパワーを初期ノイズ
レベルとし、式（16）によってノイズの平均レベルP_Nを
求めながら、パワーレベルＰと閾値レベルＰ_θを比較し
てゆく。最初のパワーピークａはＰ_θ以下であるので、
音声として検出されない。パワーピークｂの立上りの部
分ｄでパワーレベルがＰ_θ以上になると式（16）の操作
を中止し、以後Ｐ＝Ｐ_θになるまでP_NおよびＰ_θを一定
に保つ。そしてｅからｆにかけてＰ≦Ｐ_θとなるので式
（16）の操作を行なう。ｆからｇまではＰ＞Ｐ_θである
からP_N,P_θは一定となる。結果としてＰ＞Ｐ_θとなる区
間B,Dを音声が存在する区間とする。

音声区間制御法は、パワー比較部125でＰとＰ_θとの
比較を行ない、フレーム毎の比較結果を除外音声区間決
定部126へ送る。第３図において、ｄ点までは、Ｐ＜Ｐ
_θの結果が送られる。ｄ点を越えると、Ｐ＞Ｐ_θの状態
が続く。ここで、除外音声区間決定部126では、連続す
るＰ＞Ｐ_θの状態のフレーム数をカウントする機能を有
し、このカウンタは、Ｐ＜Ｐ_θの結果でリセットされ
る。除外音声区間決定部126では、カウント数ＮがN
_d（一定値）より大きい時、１を部分類似度計算部114へ
送る。よって第３図で説明すると、Ｐ＞Ｐ_θとなる区間
B,Dを音声が存在する区間とし、ＢとＤの内、ｄ点およ
びｆ点よりN_dフレーム後のF,Gの区間において、除外音
声区間決定部126が１を出力し、この区間は、音声の内
部であるため、音声区間の始端であり得ないことを示し
ている。

部分類似度計算部114では、通常は、部分類似度d^(k)
（i,j）を（15）式で計算するが（ｉはフレーム番号、
ｋは標準パターン・ナンバー、ｊは線形伸縮・ナンバ
ー）、除外音声区間決定部126の出力が１の場合、d^(k)
（i,j）は次式とする。

但し、一定値は負の小さな値とする。

このことにより、ｉ番目のフレームを音声区間の始端
（ｊ＝１）とするすべての類似度は、一定値（CONS）を
含むため、他に比べて小さくなるため、最大類似度に該
当しないため、認識の対象からはずされることとなる。

このことにより、例えば、数字音声の「ゼロ」と
「ゴ」の認識の場合、「ゼロ」の「ロ」の部分で「ゴ」
が高い類似度を示し、「ゼロ」を「ゴ」と誤認識する場
合が多い。本手法を用いれば、「ゼロ」の発声において
は、殆んど「ゼ」の頭から「ロ」の終りまで、Ｐ＞Ｐ_θ
の状態が続き、「ロ」を始端とする音声区間は存在しな
くなり（類似度が小さくなるため）、誤認識がさけられ
る。

走査区間設定部127では、第２図のI₀走査開始を、Ｐ
＞Ｐ_θの時点で行ない（第３図のｄ点）、Ｉは一度Ｐ＞
Ｐ_θになってからＰ≦Ｐ_θがＨフレーム継続し、それま
での最大類似度が、あるいき値以上になっていれば、終
了Ｉに達する。

従来例に述べた音声区間を決定せず、音声らしき所の
周辺において考えられる音声区間すべての中から、最大
類似度を求める方法においては、一般的にパワー情報を
用いて、音声区間を決定し、標準パターンとマッチング
する方法よりも、騒音レベルが高い場合や非定常なノイ
ズが混入する場合は、強いと言えるが、逆に、認識対象
単語中に、長い単語の一部分を非常に似かよった短い単
語があった場合、非常に認識率が悪くなる。たとえば、
認識対象単語中に「新大阪」と「大阪」がある場合等で
ある。本実施例の場合、音声を確実に含む十分長い区間
の中から取り得る音声区間をできるだけパワー情報を用
いて制限することによりこの弱さを補う手法は、非常に
有効な手段である。

発明の効果以上要するに本発明は、音声を確実に含む十分長い区
間の中から、パワー情報を用いて始端となり得ないこと
が明らかな音声区間を、認識対象から除外することによ
り、長い発声単語が短かい発声単語に誤まる確率を低く
でき、全体の認識率を向上させることができる利点を有
する。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第２図は本実施例における標準
パターンとのマッチングを行う開始、終了時期と音声と
の関係図、第３図は本実施例におけるパワー情報を用い
たノイズ・パターンうめ込みタイミングと走査区間決定
のための音声有無決定法を説明するパワーレベル図、第
４図は標準パターンとのパターンマッチング法を説明し
た概念図、第５図は従来例の方法を説明した機能ブロッ
ク図である。 110……AD変換部、111……音響分析部、112……特徴パ
ラメータ抽出部、113……フレーム同期信号発声部、114
……部分類似度計算部、115……標準パターン格納部、1
16……標準パターン選択部、117……区間候補設定部、1
18……時間伸縮テーブル、119……類似度バッファ、120
……類似度加算部、121……類似度比較部、122……一時
記憶、123……パワー計算部、124……ノイズ・レベル学
習部、125……パワー比較部、126……除外音声区間決定
部、127……走査区間設定部。

Claims

(57)【特許請求の範囲】

【請求項１】音声とその前後の騒音を含む未知入力信号
からパワー情報を用いて音声の存在を検出し、検出した
時点を基準点として、基準点と基準点からＮ（N₁≦Ｎ≦
N₂）だけ離れた区間の未知入力信号を区間長Ｌに線形伸
縮し、伸縮した区間の特徴パラメータを抽出し、この特
徴パラメータと認識対象とする複数の音声の標準パター
ンとの類似度又は距離をそれぞれ求めて比較し、N₁から
N₂までの範囲において、基準点以前のパワー情報を用い
て基準点毎に始端となり得る範囲を決定し、その範囲内
でＮを変化させながら前記操作を行ない、さらに基準点
を単位区間ずつずらせながら同様の操作を行なって類似
度又は距離を次々と求めて比較してゆき、パワー情報と
類似度情報を併用して決定した処理終了時点へ基準点が
到達した時における、全ての基準点そして全ての時間伸
縮に対して最大類似度又は最小距離を得る標準パターン
に対応する音声を認識結果として出力することを特徴と
する音声認識方法。
【請求項２】音声信号とノイズの比率を用いて音声の有
／無を検出することを特徴とする特許請求の範囲第１項
記載の音声認識方法。
【請求項３】未知入力信号の特徴パラメータと各音声の
標準パターンとの類似度又は距離を統計的距離尺度を用
いて計算することを特徴とする特許請求の範囲第１項記
載の音声認識方法。
【請求項４】統計的距離尺度が、事後確率に基づく尺
度、一次判別関数、二次判別関数、マハラノビス距離、
ベイズ判定、複合類似度に基づく尺度のうちいずれかで
あることを特徴とする特許請求の範囲第３項記載の音声
認識方法。