JP2879989B2

JP2879989B2 - 音声認識方法

Info

Publication number: JP2879989B2
Application number: JP3058796A
Authority: JP
Inventors: 田麻紀宮; 見昌克星; 勝行二矢田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-03-22
Filing date: 1991-03-22
Publication date: 1999-04-05
Anticipated expiration: 2014-04-05
Also published as: JPH04293095A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者が発声した
単語音声を認識するための方法に関する。

【０００２】

【従来の技術】従来、不特定話者の発声した単語音声を
認識するための方法として、図７に示すように、単語の
入力音声を音響分析部７１で分析して特徴パラメータを
抽出し、これをあらかじめ多数の話者で作成した単語標
準パターン７２とマッチングさせて単語認識部７３で単
語類似度を計算し、認識する方法が知られている。例え
ば、“ワードスポッティング手法を用いた不特定話者・
少数語向け音声認識装置”（電子通信情報学会ＳＰ８
８−１８）に記載されている方法である。

【０００３】この方法では、不特定話者用の認識対象用
単語標準パターンを作成するために、実際に３３０名の
話者が発声した音声データを使用している。３３０名が
１０数字を発声した音声データに対して人間がスペクト
ル波形などを参考にして目視で音声区間を切出して、分
析時間毎に得られる特徴パラメータ（ＬＰＣケプストラ
ム係数）の時系列を求め、各単語毎に決められた発声時
間になるように線形に音声データの圧縮を行ない、３３
０名分のデータの絶対値によって単語標準パターンを作
成している。未知入力音声とこのようにして作成した標
準パターンとの照合を統計的距離尺度であるマハラノビ
ス距離を用いて行なうことによって、不特定話者の音声
認識を可能にしている。この方法は、統計的距離尺度を
用いて単語標準パターンとの照合、比較を行なうことに
よって、不特定話者のスペクトル変動を統計的に吸収し
ようという考え方に基づいており、統計的距離尺度のた
めの標準パターン作成には、１つの認識単語に対して数
百名以上の話者が発声したデータを必要とする。

【０００４】単語標準パターンを利用した他の音声認識
方法として、マルチ標準パターンを用いる方法がある。
この方法は、多くのデータを分析して、それらの中から
代表的なものを複数個選択し、複数の単語標準パターン
と未知入力の照合を行なうことによって不特定話者のス
ペクトル変動に対処しようとするものである。この方法
においても、複数の単語標準パターンを作成するために
は、数百名のデータの収集と分析を必要とする。

【０００５】また、不特定話者の単語音声を認識するた
めの別の方法として、図８に示すような音素認識による
方法がある。単語の入力音声を音響分析部８１で分析し
て分析時間（フレーム）毎に特徴パラメータを抽出し、
セグメンテーション部８２において入力音声を母音区間
と子音区間に切り分ける。音素標準パターン８３はあら
かじめ多数の話者が発声した音声データを音響分析して
音素毎に作成しておく。次に音素認識部８４において、
母音区間は母音の音素標準パターンと、子音区間は子音
の音素標準パターンとそれぞれ照合して音素の認識を行
ない、入力音声に対して音素記号列を求める。求められ
た音素記号列を今度は単語認識部８５で音素表記された
単語辞書８６と照合して単語の類似度を算出し、認識す
る。この方法は、上記した方法に比べ、単語辞書を音素
表記として登録できるため、単語標準パターン作成のた
めに膨大なデータの収集・分析する必要がなく、単語辞
書の変更が容易であるという利点があるが、音素を認識
の基本単位とするため、音素から音素へ時間的に変化す
る部分の情報が利用されず、認識率の点で限界がある。

【０００６】

【発明が解決しようとする課題】このように、上記前者
の単語標準パターンを利用する音声認識方法では、認識
対象音声の単語標準パターン作成にデータの収集、音声
区間の切出しなどの膨大な作業量があり、そのために容
易に認識対象音声を変更できないという問題を有してい
た。

【０００７】また後者の音素を認識の基本単位とする方
法は、音素から音素への時間的変化の要素が失われて認
識率を高める上で限界があるという問題を有していた。

【０００８】本発明は、このような従来の問題を解決す
るものであり、１名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声の認識を可能にし、
容易に認識対象音声が変更でき、しかも高い認識率を得
ることができる音声認識方法を提供することを目的とす
る。

【０００９】

【課題を解決するための手段】本発明は、上記目的を達
成するために、辞書作成時には、認識対象音声を１名ま
たは数名の少数話者が発声し、これを音響分析して特徴
パラメータを抽出し、今度はこれをあらかじめ多数の話
者で作成した音素標準パターンとマッチングさせてフレ
ーム毎の類似度ベクトルを求め、求められた類似度ベク
トルを類似０が大きいものはより大きくなるように類似
度の強調と正規化を行ない、得られた類似度ベクトルの
時系列を辞書に登録しておき、音声認識時には、不特定
話者の入力音声から辞書登録時と同様にして類似度ベク
トルの時系列を求めて辞書とのマッチングを行ない、も
っとも類似度の大きい認識対象音声を認識結果として出
力するようにしたものである。

【００１０】

【作用】したがって、本発明によれば、入力音声を分析
して特徴パラメータを抽出し、多数の話者の音声データ
で作成した音素標準パターンとの類似度計算からフレー
ム毎に類似度ベクトルを求め、この類似度ベクトルに強
調関数を施してフレーム毎に正規化することにより、１
名または数名の少数話者の発声した音声の類似度ベクト
ル時系列を辞書として登録するだけで、不特定話者の音
声を精度良く認識することができる。

【００１１】

【実施例】以下、本発明の実施例について説明するが、
その前に本発明の基本的な考え方について説明する。

【００１２】人の声は有声音では声帯の振動として発せ
られ、その振動音が調音器官と呼ばれる喉頭、咽頭、
舌、あご、唇などで形成される声道を通る間に様々な変
調を受けて口から音声として出力される。したがって、
ア、イ、ウ、…などの音韻性は声道の形状として与えら
れる。無声音は音源が声帯でない場合もあるが、音韻性
はやはり声道の形状で決められる。ところが、声道を形
成する喉、舌、歯、あご、唇などの形状や寸法は、人ご
とに微妙に異なっており、声帯の大きさも性別や年齢で
異なる。このために、人ごとの声の違いが生じることに
なる。すなわち、人の違いによる声の差異は調音器官の
違いによるところが大きい。

【００１３】一方、声がア、イ、ウ、…など音韻として
ではなく、単語や文として発せられるとき、声道の形が
時間的に変化する。すなわち、声道の時間的変化によっ
て言葉が形成される。たとえば、「赤い」（akai）と発
声する場合、声道は、あごが開き、舌の後方に狭めのあ
る/a/の発声から喉頭部の閉鎖と急激な開放を伴う破裂
音/k/に移り、さらに再び/a/の形状に戻ってから徐々に
舌を唇側に移動し、口を閉じた/i/に移る。このような
声道の変化パターンは発声しようとしている言葉によっ
て決まるものであり、人の違いによる差異は少ないと考
えられる。

【００１４】このように言葉としての音声を静的な声道
の形状とその時間的な変化に分割して考えると、前者の
みが話者によって異なり、後者は話者による差は小さい
と見なすことができる。したがって、静的な声道の形状
の違いに基づく差異を何等かの方法で正規化できれば、
不特定話者の認識が可能となる。

【００１５】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節などを短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることができる。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。

【００１６】一方、声道の変化パターンは話者による差
異が少ないのであるから、１名から数名の少数話者の情
報を用いれば十分である。したがって、少数話者の単語
や文節などの発声を類似度情報の時間パターンとして辞
書に登録すれば、それは不特定話者用の辞書である。

【００１７】本発明は、このような考え方に基づき、１
名から数名の話者が発声した認識対象音声を分析して得
られる特徴パラメータと、あらかじめ多数の話者で作成
したｎ種類の標準パターンとのマッチングを分析時間で
ある１フレーム毎に行なってｎ次元の類似度ベクトルの
時系列を求め、この類似度ベクトルを、上位の類似度を
強調するような強調関数に通し、フレーム毎に正規化
し、このようにして求まるｎ次元の類似度ベクトルの時
系列を辞書として登録しておくようにしたものである。
また、入力音声を認識させる場合は、入力音声も同様に
ｎ種類の標準パターンとマッチングを行ない、辞書登録
時と同様の強調関数に通してフレーム毎に正規化し、得
られたｎ次元の類似度ベクトルの時系列と前記辞書との
照合を行なうことによって不特定話者の音声認識を行な
うようにしたものである。

【００１８】本発明は上記構成により、まず１名から数
名の少数の話者が発声した音声を分析して得られる特徴
パラメータに対して多数の話者で作成したｎ種類の音素
や音節などの標準パターンとの類似度を単位時間毎（フ
レーム毎）に求める。この類似度は多数の話者で作成し
た汎用性のある標準パターンとのマッチング結果なの
で、ｎ種類の類似度値の相対関係は個人性の影響を受け
にくい。したがって、単位時間毎の類似度の相対関係を
パラメータとして使用すれば不特定話者に対して有効で
ある。

【００１９】さらに、認識率を向上させるためには認識
に寄与する部分を強調すればよいため、この類似度ベク
トルを、類似度の大きいところはより大きくし類似度の
小さいところは認識に寄与しないような小さい値にする
強調関数に通す。

【００２０】また音声区間全体に渡って１フレーム内の
類似度の相対関係の特徴を平等にとらえるため、類似度
ベクトルをフレーム毎に正規化する。このようにして求
まるｎ次元の類似度ベクトルの時系列を辞書として登録
しておく。

【００２１】次に、入力音声を認識させる場合は、辞書
として用意したｎ次元の類似度ベクトルの時系列と、入
力音声から辞書作成時と同様の手続きで得られる類似度
ベクトルの時系列とを照合する。これにより、少数の話
者で作成した辞書で不特定話者の音声を認識することが
できる。本発明では単位時間毎の類似度として、最も信
頼できるものを１つだけ用いるのではなく、複数の候補
を用いているのでより高い認識率を得ることができる。

【００２２】なお、どのような言葉も音素や音節の組合
せで記述できるので、ｎ種類の音素や音節の標準パター
ンは１度作成しておくことにより、認識対象音声を変更
しても常に同じものが使用できる。辞書を変更して他の
音声を認識できるようにするための認識語彙の変更に
は、少数の話者が発声するのみで良い。したがって、簡
単な手続きで不特定話者の音声認識が可能であり、さら
に、語彙の変更などに対して柔軟性のある認識装置の実
現が可能になる。

【００２３】以下、本発明の第１の実施例について図１
を参照しながら説明する。図１において、１は音響分析
部、２は特徴パラメータ抽出部、３は標準パターン格納
部、４は類似度計算部、５は強調による類似度の正規化
部、６はパラメータ時系列作成部、７は辞書格納部、８
はパターンマッチング部である。

【００２４】次に本実施例の動作について、１名の話者
の音声を辞書に登録する場合について説明する。すなわ
ち、本実施例ではまず最初に、１名の発声した認識対象
音声を入力音声として辞書を作成しておき、認識時には
その辞書を用いて不特定話者の入力音声の認識を行な
う。

【００２５】図１において、入力音声が入力されると音
響分析部１で分析時間であるフレーム（本実施例では１
フレーム＝１０msec）毎に線形予測係数（ＬＰＣ）を求
める。

【００２６】次に、特徴パラメータ抽出部２で、ＬＰＣ
ケプストラム係数（Ｃ０〜Ｃ８まで９個）を求める。

【００２７】標準パターン格納部３には、あらかじめ多
くの話者が発声したデータから作成したｎ種類の音素標
準パターンを格納してある。本実施例ではｎ＝２０と
し、/a/,/o/,/u/,/i/,/e/,/j/,/w/,/m/,/n/,/

【００２８】

【外１】

【００２９】/,/b/,/d/,/r/,/z/,/h/,/s/,/c/,/p/,/t/,
/k/ の２０個の音素標準パターンを使用する。音素標準
パターンは各音素の特徴部（その音素の特徴をよく表現
する時間的な位置）を目視によって正確に検出し、この
特徴フレームを中心とした特徴パラメータの時間パター
ンを使用して作成する。本実施例では時間パターンとし
て、特徴フレームの前８フレーム、後３フレーム、計１
２フレーム分のＬＰＣケプストラム係数（Ｃ０〜Ｃ８）
によってパラメータ時系列を構成する。そして多くの人
が発声した多量のデータに対してパラメータ時系列を抽
出し、各要素の平均値ベクトルμｐと要素間の共分散行
列Σを求め標準パターンとする。このように本実施例で
用いている音素標準パターンは複数フレームの特徴パラ
メータを使用しており、パラメータの時間的動きを考慮
して標準パターンを作成しているのが特徴である。

【００３０】この２０種類の音素標準パターンと特徴パ
ラメータ抽出部２で得られた特徴パラメータ（ＬＰＣケ
プストラム係数）との類似度を類似度計算部４でフレー
ム毎に計算する。すなわち、入力を１フレームずつシフ
トさせながら標準パターンとマッチングを行ない、図２
のような類似度の時系列を求める。本実施例では類似度
計算の距離尺度として共分散行列を共通化したマハラノ
ビス距離を用いる。入力と音素ｐの標準パターンとの類
似度計算のためのマハラノビス距離ｄ_pは、以下の（数
１）で表される。ここで、ｘは入力の時間パターンであ
る１２フレーム分の特徴パラメータによって構成された
ベクトルである。

【００３１】

【数１】

【００３２】ここで共分散行列Σ_p を各音素共通とする
と、次の（数２）のように簡単な式に展開できる。共通
化された共分散行列をΣとする。

【００３３】

【数２】

【００３４】本実施例では、計算量の少ない上記（数
２）を用いる。ａ_p、ｂ_pが音素ｐに対する標準パターン
であり、標準パターン格納部３にあらかじめ格納されて
いる。このようにして得られた２０種類の音素標準パタ
ーンに対する類似度を要素とするベクトル（図２の斜線
部分）を、類似度ベクトルと呼ぶことにする。

【００３５】類似度の強調・正規化部５では、類似度計
算部４で求められた類似度ベクトルを、上位の類似度を
強調するような強調関数に通し、フレーム毎に最大値が
１、最小値が０となるよう正規化する。これを全フレー
ムに亙って行ない、パラメータ系列作成部６で類似度ベ
クトルの時系列を作成する。

【００３６】類似度の強調・正規化部５では、フレーム
毎に求まった類似度のベクトルを、次のように変換す
る。まず類似度ベクトルの２０個の要素を大きい順に並
べ（値が大きい方がその音素標準パターンに類似してい
るとする。）、第１位の類似度が１、第ｋ位の類似度が
０となるように、第１位から第ｋ位までの類似度の値を
線形に１〜０に変換する。第ｋ＋１位から第２０位まで
はすべて０とし、新しく２０個の要素からなる類似度ベ
クトルを求める。すなわち、類似度ベクトルをａ＝（ａ
₁，ａ₂，…，ａ_i，…，ａ₂₀）とすると、強調関数Ｆは
次の（数３）のように表される。ここでＭは類似度の最
大値、Ｍ_kは第ｋ位の類似度の値である。

【００３７】

【数３】

【００３８】このような関数Ｆを通すことによって、上
位の音素に対する類似度が強調されるようになる。ま
た、ＭおよびＭ_kの値はフレーム毎に異なるため、Ｆ
（ａ_i）もフレーム毎に異なるが、常にフレーム内での
最大値は１、最小値は０となり、フレーム毎に正規化さ
れることになる。このようにフレーム毎に正規化を行な
うのは、音素標準パターンを特徴フレーム周辺の特徴パ
ラメータの時間パターンから作成しているため、音素の
渡り（遷移）の部分ではどの音素標準パターンに対する
類似度も全体的に小さくなり、フレーム毎に正規化を行
なわないと、音素の渡りの部分における類似度の相対関
係の特徴が過小評価されてしまうからである。そこでフ
レーム毎に正規化を行ない、全音声区間に亙って類似度
の相対関係を平等に扱えるようにする。

【００３９】このようにして全音声区間に亙って新たな
類似度ベクトルを求め、パラメータ時系列作成部６で類
似度ベクトルの時系列を作成する。図３は図２の類似度
ベクトルの時系列を強調・正規化したあとの類似度ベク
トルの時系列の例である。ここで斜線部の類似度ベクト
ルに注目すると、図２において類似度が最大値となる音
素/ a/の類似度を１、第ｋ位（例えば音素/p/ とする）
の類似度を０となるように第１位から第ｋ位までを線形
に変換し、第ｋ＋１位以下の小さな値はすべて０として
いる。

【００４０】ここまでの手続きは辞書作成時および認識
時ともに同じである。

【００４１】辞書作成時には、１名の発声した認識対象
音声を入力音声として入力し、求められた類似度ベクト
ルの時系列を辞書格納部７に登録する。

【００４２】認識時には、辞書作成時と同様に入力音声
から類似度ベクトルの時系列を求め、パターンマッチン
グ部８において、辞書格納部７にある類似度ベクトルの
時系列とをマッチングし、最もスコアの大きい辞書項目
を認識結果とする。本実施例ではマッチング方法として
ＤＰマッチングを行なう。ＤＰマッチングを行なう漸化
式の例を（数４）に示す。ここで、辞書の長さをＪフレ
ーム、入力の長さをＩフレーム、第ｉフレームと第ｊフ
レームの距離関数をｌ（ｉ，ｊ）、累積類似度をｇ
（ｉ，ｊ）とする。

【００４３】

【数４】

【００４４】距離関数ｌ（ｉ，ｊ）の距離尺度として本
実施例ではユークリッド距離を用いる。入力音声のｉフ
レームにおける類似度ベクトルをａ＝（ａ₁，ａ₂，…，
ａ₂₀）、辞書のｊフレームにおける類似度ベクトルをｂ
＝（ｂ₁，ｂ₂，…，ｂ₂₀）とすると、ユークリッド距離
を用いた場合のｌ（ｉ，ｊ）は、（数５）のようにな
る。

【００４５】

【数５】

【００４６】このように上位の音素に対する類似度を強
調し、下位の音素に対する類似度を一律に０としたベク
トル間のユークリッド距離を求めることにより、上位の
音素に対する類似度の動きを強調してとらえ、下位の音
素に対する類似度の動きは無視することができる。ま
た、フレーム毎に正規化を行なうことによって、音素の
渡りの部分における類似度の相対関係の特徴を、特徴フ
レーム周辺と同等の重みで扱うことができるようにな
る。したがってこのような強調・正規化をすることによ
り、高い認識率を得られる。

【００４７】次に２名以上の発声話者の音声を辞書に登
録する場合について説明を行なう。認識方法はすでに述
べた１名の発声から辞書を登録した場合と同様である。
まず最初に複数話者の発声した同一音声をＤＰマッチン
グにより時間調整を行なって１つの辞書として登録する
方法について説明し、次に複数話者の発声した同一音声
をマルチ標準パターンとして辞書に登録する方法につい
て説明する。

【００４８】発声話者が２名の場合は、２名の発声した
同一音声を、認識する場合と同様にＤＰマッチングを行
ない時間整合を行なう。時間整合について図４を用いて
説明を行なう。図４は「赤い」（akai）と２名の話者が
発声した例である。話者によって発声の時間長が異なる
ので、２名の話者の同一の認識対象音声間でＤＰマッチ
ングを行ない、その結果からＤＰパスを逆トレースし時
間整合を行なう。時間整合することによって、同じ音素
の区間（/a/,/k/,/a/,/i/）が整合するようになる。そ
してこの時間的に整合したフレーム間で各類似度の平均
値を求め、その時系列を辞書として登録する。

【００４９】すなわち、図４の斜線で示した話者１の第
ｉフレームと話者２の第ｊフレームが時間的に整合する
場合は、話者１の第ｉフレームの類似度ベクトルをｃ＝
（ｃ ₁，ｃ₂，…，ｃ₂₀）、話者２の第ｊフレームをｅ＝
（ｅ₁，ｅ₂，…，ｅ₂₀）とすると、新しくｆ＝（（ｃ₁
＋ｅ₁））／２，（ｃ₂＋ｅ₂）／２，…，（ｃ₂₀＋
ｅ₂₀）／２）を求め、この類似度ベクトルｆを辞書のｉ
フレームの類似度ベクトルとして登録する。こうするこ
とによって、辞書の精度を向上させ、より高い認識率を
得ることができる。

【００５０】次に、複数話者の発声した音声をマルチ標
準パターンとして辞書に登録するときは、認識対象音声
を複数話者が発声した音声の類似度ベクトル時系列をそ
のまま辞書として複数個登録する。この場合は、辞書項
目毎に複数個登録されている標準パターンの中のどの辞
書で認識されてもその辞書項目を認識したものとする。

【００５１】ただし、２名以上の話者の発声によって辞
書を作成する場合、辞書パターンの男女差を減らすた
め、男女各１名ずつまたは男女ほぼ同数の発声によって
辞書を作成する。

【００５２】次に、本実施例を用いた音声認識実験およ
びその結果について説明する。実験は、２１２単語を発
声した２０名のデータを用い、２０名の中の１名が２１
２単語を発声したデータを辞書として登録し、他の１９
名の発声した２１２単語を認識する方法で行なった。実
験の結果、８８．５％という認識率を得ることができ
た。これに対し、音素標準パターンとのマッチングによ
り得られた類似度の時系列をそのまま使用し、フレーム
毎に正規化を行なわなかった場合の認識率は、８２．１
％であり、類似度の強調効果が認識率に大きく寄与して
いることが明らかになった。

【００５３】１名の話者の発声で辞書を作成した場合、
その話者と異性の話者の認識率は平均８６．０％であ
り、同性の話者の音声の平均認識率９１．４％に比べ５
％程度低い。そこで、男女各１名の計２名が発声した認
識対象音声から得られる類似度ベクトルの時系列を平均
化した時系列パターンを辞書として使用すると、男女差
が解消されるため、９３．４％という高い認識率が得ら
れた。男女各１名の計２名が発声した音声を平均化しな
いで２つとも辞書として登録するマルチ標準パターンを
用いた方法では、９３．２％という認識率が得られた。

【００５４】以上のように、入力音声を分析して特徴パ
ラメータを抽出し、多数の話者の音声データで作成した
音素標準パターンとの類似度計算からフレーム毎に類似
度ベクトルを求め、この類似度ベクトルに強調関数を施
してフレーム毎に正規化することにより、１名または数
名の少数話者の発声した音声の類似度ベクトル時系列を
辞書として登録するだけで、入力音声の類似度ベクトル
時系列と辞書とのＤＰマッチングにより不特定話者の音
声を精度良く認識することができる。

【００５５】次に、類似度ベクトルを指数関数などの類
似度の値の大きい部分を強調するような強調関数に通
し、その時間変化量を表す回帰係数を併用して、相関余
弦（correlation cosine）によって認識を行なう本発明
の第２の実施例について、図５を参照して説明する。

【００５６】図５において、１１は音響分析部、１２は
特徴パラメータ抽出部、１３は標準パターン格納部、１
４は類似度計算部、１５は類似度の強調部、１６は類似
度の正規化部、１７は回帰係数計算部、１８は回帰係数
の正規化部、１９はパラメータ時系列作成部、２０は辞
書格納部、２１はパターンマッチング部である。

【００５７】この第２の実施例においても、前記第１の
実施例と同様に入力音声を音響分析部１１で分析して特
徴パラメータ抽出部１２で特徴パラメータを求め、あら
かじめ標準パターン格納部１３に登録してある音素標準
パターンとフレーム毎にマッチングし、類似度ベクトル
の時系列を類似度計算部１４で求める。

【００５８】次に類似度の強調部１５において、類似度
計算部１４で求められた類似度を指数関数である強調関
数Ｇに通すことによって、値の大きい類似度がより大き
くなるよう変換する。この強調関数Ｇは、入力音声の類
似度ベクトルをａ＝（ａ₁，ａ₂，ａ₃，…，ａ_i，…，ａ
₂₀）とすると（数６）で表される。

【００５９】

【数６】

【００６０】α、βは全音素、全フレームに対して共通
な定数であり、この式により全フレームに対して新たに
類似度ベクトルを計算する。

【００６１】さらに類似度の正規化部１６において、こ
のｎ次元の類似度ベクトルをフレーム毎に大きさ１に正
規化して新たな類似度ベクトルを作成する。これを式で
表すと（数７）のようになる。

【００６２】

【数７】

【００６３】ここで、強調関数Ｇによって強調された類
似度ベクトルをａ’＝（ａ₁’，ａ₂’，ａ₃’，…，
ａ_i’，…，ａ₂₀’）とし、大きさ１にしたベクトルを
ａ”＝（ａ₁”，ａ₂”，ａ₃”，…，ａ_i”，…，
ａ₂₀”）とする。フレーム毎の類似度ベクトルの大きさ
を１にすることにより、全音声区間に亙って類似度の相
対関数の特徴を平等に扱うことができるようになる。

【００６４】次に回帰係数計算部１７で、正規化された
各類似度の時系列に対して類似度の時間的変化量である
回帰係数（ｎ個）をフレーム毎に求める。回帰係数は、
各音素に対する類似度のそれぞれの時間方向の傾きであ
る。すなわち、例えばまず音素/a/の標準パターンに対
する類似度の時系列の、あるフレームの前後２フレーム
の類似度値（計５フレームの類似度値）の最小２乗近似
直線の傾き（類似度の時間的変化量）を求める。これを
（数８）に示す。

【００６５】

【数８】

【００６６】ここで、ｘｔ＝（ｔ＝１，２，３，…）は
音素/a/に対する類似度の時系列を表し、Ｋ（/a/）は時
刻ｔ＋２における音素/a/の回帰係数である。これを各
音素に対する類似度について２０個求め、さらに１フレ
ーム毎に全フレームに対して求め、回帰係数ベクトルの
時系列とする。

【００６７】次に回帰係数の正規化部１８で、類似度と
同様に回帰係数ベクトルをフレーム毎に大きさ１に正規
化する。

【００６８】そしてパラメータ時系列作成部１９で、指
数関数によって強調を施した大きさ１のｎ次元の類似度
ベクトルおよびそこから求めた大きさ１のｎ次元の回帰
係数ベクトルの時系列の両方をパラメータ時系列とす
る。

【００６９】ここまでの手続きは辞書作成時、認識時と
もに同じであり、辞書作成時には、第１の実施例と同様
にまず最初に１名の発声した認識対象音声を入力音声と
して辞書を作成し、認識時にはその辞書を用いて不特定
話者の入力音声の認識を行なう。

【００７０】辞書作成時には、パラメータ時系列作成部
１９で求められたパラメータ時系列を辞書格納部２０に
登録する。なお、第１の実施例で既に述べた方法と同様
にして、２名以上の少数話者の発声した同一音声から辞
書を作成し登録してもよい。

【００７１】認識時には、パターンマッチング部２１に
おいて、辞書登録時と同様の方法で求めたパラメータ時
系列と辞書格納部２０にあるパラメータの時系列とを相
関余弦を用いてＤＰマッチングし、もっとも類似度の大
きい辞書項目を認識結果とする。ＤＰマッチングを行な
う漸化式は第１の実施例で用いた（数４）と同様である
が、距離関数１（ｉ，ｊ）の距離尺度として本実施例で
は相関余弦を用いる。回帰係数を併用して相関余弦を用
いた距離関数１（ｉ，ｊ）は、（数９）で表される。

【００７２】

【数９】

【００７３】ただし、入力音声のｉフレームにおける類
似度ベクトルをａ＝（ａ₁，ａ₂，…，ａ₂₀）、回帰係数
ベクトルをｃ＝（ｃ₁，ｃ₂，…，ｃ₂₀）、辞書のｊフレ
ームにおける類似度ベクトルをｂ＝（ｂ₁，ｂ₂，…，ｂ
₂₀）、回帰係数ベクトルをｄ＝（ｄ₁，ｄ₂，…，ｄ₂₀）
とする。ｗは類似度と回帰係数の混合比率であり、０．
４から０．６がよい。実際にはすでに類似度ベクトル、
回帰係数ベクトルとも大きさ１に正規化されているた
め、それぞれ内積を求め、ｗ：（１−ｗ）の重みで足し
合わせるだけでよい。すなわち（数１０）のようにな
る。

【００７４】

【数１０】

【００７５】次に第２の実施例を用いた音声認識実験お
よびその結果について説明する。実験は、２１２単語を
発声した２０名のデータを用い、２０名の中の１名が２
１２単語を発声したデータを辞書として登録し、他の１
９名の発声した２１２単語を認識する方法で行なった。
図１に示す第１の実施例に対しこの第２の実施例におけ
る回帰係数ベクトルを併用すると、９０．３％の単語認
識率が得られた。これは回帰係数を併用しない８８．５
％に比べ１．８％向上している。また、図５に示す第２
の実施例の方法で回帰係数を併用すると９１．６％とな
り、さらに１．３％の認識率の向上がみられた。

【００７６】また、男女各１名の計２名の話者の発声し
た単語音声を平均化したデータを辞書として登録し、残
り１８名の単語音声を評価すると９５．９％の高い認識
率が得られた。

【００７７】以上のように、類似度に強調関数を施し、
その回帰係数を併用して相関余弦を用いたパターンマッ
チングを行なうことにより認識率が向上する。

【００７８】なお、第２の実施例において回帰係数は、
類似度ベクトルを指数関数で強調して大きさ１に正規化
したものに対して求めたが，図６に示すように、類似度
の正規化部１６で大きさ１にする前に，類似度の強調部
１５における指数関数で強調した類似度系列に対して求
めてもよい。

【００７９】

【発明の効果】以上のように、本発明は、音声を分析し
て得られた特徴パラメータに対してあらかじめ多くの話
者で作成したｎ種類の標準パターンとの類似度計算を行
なって類似度系列を求め，強調関数を通してフレーム毎
に類似度の大きいものがより大きくなるように類似度を
強調し、ｎ次元の類似度ベクトルまたはｎ次元の類似度
ベクトルとそのｎ次元回帰係数ベクトルを音声認識のた
めの特徴パラメータとすることによって、１名から数名
の少数の話者が発声した認識対象音声を辞書として登録
するだけで、精度良く高い認識率で不特定話者の音声認
識を行なうことができる。

【００８０】したがって、辞書の作成が極めて容易であ
り、また認識対象音声を変更したい場合には、１名また
は数名の少数の話者が発声した音声データを辞書として
登録するだけで更新できる。

【００８１】また強調関数を通してフレーム毎に正規化
することにより、より高い認識率を得ることができる。

【００８２】さらにまた男女同数の少数話者の発声した
音声データから辞書を作成することにより、さらに高い
認識率を得ることができる。

【００８３】このように、本発明は、不特定話者用音声
認識装置の性能向上および種々の用途へ適用するための
柔軟性の向上に対して極めて大きく貢献するものであ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施例を示す音声認識方法を実
施するための機能ブロック図

【図２】同実施例における類似度ベクトルの時系列の一
例を示す時系列図

【図３】同実施例における強調・正規化後の類似度ベク
トルの時系列の一例を示す時系列図

【図４】同実施例における２名の話者の登録音声に対す
る時間整合の一例を示す模式図

【図５】本発明の第２の実施例における機能ブロック図

【図６】本発明の第２の実施例の変形例を示す機能ブロ
ック図

【図７】従来の単語音声認識方法の一例を示す機能ブロ
ック図

【図８】従来の単語音声認識方法の他の例を示す機能ブ
ロック図

【符号の説明】

１音響分析部２特徴パラメータ抽出部３標準パターン格納部４類似度計算部５類似度の強調・正規化部６パラメータ時系列作成部７辞書格納部８パターンマッチング部１１音響分析部１２特徴パラメータ抽出部１３標準パターン格納部１４類似度計算部１５類似度の強調１６類似度の正規化部１７回帰係数計算部１８回帰係数の正規化部１９パラメータ時系列作成部２０辞書格納部２１パターンマッチング部

フロントページの続き (56)参考文献特開平１−216397（ＪＰ，Ａ) 特開昭60−200296（ＪＰ，Ａ) 特開昭２−248999（ＪＰ，Ａ) 特開昭62−66300（ＪＰ，Ａ) 特開昭62−145297（ＪＰ，Ａ) 特開昭60−202488（ＪＰ，Ａ) 特開昭60−209794（ＪＰ，Ａ) 特公昭62−17760（ＪＰ，Ｂ２) 特公昭61−54240（ＪＰ，Ｂ２) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−34, Ｎｏ．１，ｐ．52−59（1986) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 531 G10L 3/00 521 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】辞書作成時には、認識対象音声を１名か
ら数名の少数の話者が発声し、分析時間であるフレーム
毎にｍ個の特徴パラメータを求め、あらかじめ多数の話
者で作成しておいたｎ種類の標準パターンとマッチング
を行なってフレーム毎にｎ個の類似度を求め、前記求め
られたｎ次元の類似度ベクトルを類似度の大きいものが
より大きくなるような強調関数に通しフレーム毎に正規
化して作成したｎ次元の類似度ベクトルの時系列パター
ンを辞書として登録し、入力音声を認識させるときは、
入力音声を音響分析してフレーム毎に求めたｍ個の特徴
パラメータと前記ｎ種類の標準パターンとマッチングを
行なってｎ次元の類似度ベクトルを求め、これを辞書作
成時と同様の強調関数を通して類似度ベクトルの時系列
を作成し、この類似度ベクトルの時系列を前記辞書に登
録されている類似度ベクトルの時系列パターンと照合
し、入力音声を認識することを特徴とする音声認識方
法。
【請求項２】強調関数を施したｎ次元の各類似度ベク
トルの時系列のそれぞれの次元に対して類似度の時間変
化量をフレーム毎にｎ個求め、この類似度の時間変化量
のｎ次元ベクトルと類似度のｎ次元ベクトルを併用して
時系列パターンを作成することを特徴とする請求項１記
載の音声認識方法。
【請求項３】入力音声と辞書との照合の際、それぞれ
フレーム毎に正規化した入力音声の類似度ベクトルまた
は類似度ベクトルとその時間変化量ベクトルと、辞書音
声の類似度ベクトルまたは類似度ベクトルとその時間変
化量ベクトルとの距離によって照合することを特徴とす
る請求項１または２記載の音声認識方法。
【請求項４】強調関数として、類似度ベクトルの要素
を大きい順に並べたときの第１位から第ｋ位までを選択
して用い、第ｋ＋１位以下は最低値とする関数を用いて
順位の重み付けを行ない、入力音声と辞書との照合の距
離尺度としてユークリッド距離を用いることを特徴とす
る請求項１または２記載の音声認識方法。
【請求項５】強調関数として値の大きいものがより大
きくなるような指数関数を用い、入力音声と辞書との照
合の距離尺度として相関距離を用いることを特徴とする
請求項１または２記載の音声認識方法。
【請求項６】同一の認識対象音声を２名以上の話者が
発声し、それぞれ分析して得られるｎ次元類似度ベクト
ルまたはｎ次元類似度ベクトルとｎ次元時間変化量ベク
トルの時系列に対して、ＤＰマッチングによって話者間
の時間整合を行ない、時間的に整合したフレーム間で各
類似度の平均値を求め、その平均値の時系列パターンを
辞書に登録することを特徴とする請求項１または２記載
の音声認識方法。
【請求項７】同一の認識対象音声を２名以上の話者が
発声し、それぞれ分析してｎ次元類似度ベクトルまたは
ｎ次元類似度ベクトルとｎ次元時間変化量ベクトルの時
系列を複数個求め、これらを辞書として登録してマルチ
標準パターンとして使用することを特徴とする請求項１
または２記載の音声認識方法。
【請求項８】２名以上の話者の発声によって辞書を作
成する際、男女各１名ずつまたは男女ほぼ同数の発声に
よって辞書を作成する請求項６または７記載の音声認識
方法。