JP2502880B2

JP2502880B2 - 音声認識方法

Info

Publication number: JP2502880B2
Application number: JP5515192A
Authority: JP
Inventors: 昌克星見; 勝行二矢田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-03-13
Filing date: 1992-03-13
Publication date: 1996-05-29
Anticipated expiration: 2011-05-29
Also published as: JPH0643893A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、人間の声を機械に認識
させる音声認識方法に関するものである。

【０００２】

【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、本出願人が、以前に出願した２つの特許
（特開昭61-188599号公報、特開昭62-111293号公報）を
従来例として説明する。特開昭61-188599号公報を第１
の従来例、特開昭62-111293号公報を第２の従来例とす
る。

【０００３】第１の従来例の方法は入力音声の始端、終
端を求めて音声区間を決定し、音声区間を一定時間長に
（Ｉフレーム）に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。

【０００４】単語標準パターンは、認識対象単語を多く
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Ｉフレーム（実施例ではＩ＝１
６）に伸縮し、その後、単語ごとに音声サンプル間の統
計量（平均値ベクトルと共分散行列）を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定（Iフレーム）であ
り、原則として１単語に対し１標準パターンを用意して
いる。

【０００５】第１の従来例では、パターンマッチングの
前に音声区間を検出する必要があるが、第２の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法（ワードスポッティン
グ法）を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。

【０００６】この方法は小型化が可能な実用的な方法で
あり、特に第２の従来例は、騒音にも強いことから実用
として使われ始めている。しかし、単語固有の時間長お
よび近隣フレーム間の時間的な動きの情報の欠落により
十分な単語認識率が得られないという問題点があった。
そこで、これを改良した音声認識方法が本出願人により
出願されている（特願平３ー１４７４３８号）。

【０００７】この方法は、入力音声を含む十分広い区間
内を対象として、入力信号と標準パターンのマッチング
を区間全域にわたって単位時間ずつシフトしながら行な
い、距離が最小となる部分区間を切り出す方法である。
この種の方法を一般的にワードスポッティングと呼んで
いる。

【０００８】まず、図６を参照しながら説明する。図６
において、音響分析部８は入力信号をＡＤ変換して取込
み（サンプリング周波数１２kHz）、一定時間長（フレ
ームと呼ぶ。本実施例では10ms)ごとに分析する。本実
施例では線形予測分析（ＬＰＣ分析）を用いる。特徴パ
ラメータ抽出部９では分析結果に基づいて、特徴パラメ
ータを抽出する。本実施例では、ＬＰＣケプストラム係
数（Ｃ₀〜Ｃ₁₀）および差分パワー値Ｖ₀の１２個のパラ
メータを用いている。入力の１フレームあたりの特徴パ
ラメータを

【０００９】

【外１】

【００１０】と表すことにすると次のようになる。

【００１１】

【数１】

【００１２】ただし、jは入力のフレーム番号、pはケプ
ストラム係数の次数である（p＝10）。複数フレームバ
ッファ１０は第jフレームの近隣のフレームの特徴パラ
メータを統合して、パターンマッチング（部分マッチン
グ）に用いる入力ベクトルを形成する部分である。すな
わち、第jフレームに相当する入力ベクトル

【００１３】

【外２】

【００１４】は（数２）で表わされる。

【００１５】

【数２】

【００１６】すなわち、（数２）はmフレームおきにj−
L1〜j＋L2フレームの特徴パラメータを統合したベクト
ルである。L1=L2=3，m=1 とすると

【００１７】

【外３】

【００１８】の次元数は（P+2）×（L1+L2+1）＝12×7
＝84となる。音声サンプルの始端と終端の間において、
代表サンプルとの間でフレ−ム対応を求めて、対応する
フレ−ム毎に平均値と共分散を計算し、部分標準パター
ンを求める。周囲パターンは１フレームずつシフトさせ
ながら平均値と共分散を求める。上記のようにしてあら
かじめ作成されている各単語の部分標準パターンと複数
フレームバッファ１０との間の距離（部分距離）を部分
距離計算部１１において計算する。

【００１９】部分距離の計算は（数２）で示す複数フレ
ームの情報を含む入力ベクトルと各単語の部分パターン
との間で、統計的な距離尺度を用いて計算する。単語全
体としての距離は部分パターンとの距離（部分距離と呼
ぶ）を累積して求めることになるので、入力の位置や部
分パターンの違いにかかわらず、距離値が相互に比較で
きる方法で部分距離を計算する必要がある。このために
は、事後確率に基づく距離尺度を用いる必要がある。
（数２）の形式の入力ベクトルを

【００２０】

【外４】

【００２１】とする（簡単のため当分の間i,jを除いて
記述する）。単語kの部分パターンω_kに対する事後確率

【００２２】

【外５】

【００２３】はベイズ定理を用いて次のようになる。

【００２４】

【数３】

【００２５】右辺第１項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第２項の事前確率は、パ
ラメータの分布を正規分布と考え、（数４）で表わされ
る。

【００２６】

【数４】

【００２７】

【外６】

【００２８】は単語とその周辺情報も含めて、生起し得
る全ての入力条件に対する確率の和であり、パラメータ
がＬＰＣケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。

【００２９】

【外７】

【００３０】が正規分布に従うと仮定し、平均値を

【００３１】

【外８】

【００３２】、共分散行列を

【００３３】

【外９】

【００３４】を用いると、（数５）のようになる。

【００３５】

【数５】

【００３６】（数４）、（数５）を（数３）に代入し、
対数をとって、定数項を省略し、さらに−２倍すると、
次式を得る。

【００３７】

【数６】

【００３８】この式は、ベイズ距離を事後確率化した式
であり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を共通化し、（数６）の

【００３９】

【外１０】

【００４０】、

【００４１】

【外１１】

【００４２】のかわりに

【００４３】

【外１２】

【００４４】を代入すると、（数６）は次のように簡単
な一次判別式になる。

【００４５】

【数７】

【００４６】ここで、改めて、入力の第jフレーム成分
（数２）と単語kの第iフレーム成分の部分パターンとの
距離として（数７）を書き直すと、次のようになる。

【００４７】

【数８】

【００４８】Ｌ_k,i,jは単語kの第i部分パターンと入力
のjフレーム近隣のベクトルの部分類似度である。

【００４９】図１において距離累積部１４は、各単語に
対する部分距離を累積し、単語全体に対する距離を求め
る部分である。この計算はダイナミックプログラミング
の手法（ＤＰ法）を用いて効率よく計算できる。入力の
第ｊフレーム部分と第ｉ番目の部分パターンとの部分距
離Ｌ_i,jをｌ(ｉ，ｊ)と表現し、(ｉ，ｊ)フレームまで
の累積距離をｇ(ｉ，ｊ)と表現することにすると（数
９）のようになる。

【００５０】

【数９】

【００５１】経路判定部１４は（数９）における３つに
経路のうち累積距離が最小になる経路を選択する。

【００５２】認識を行う場合は、入力音声の前後のノイ
ズ区間を含む十分長い入力区間において１フレームずつ
シフトしながら、標準パターンとの照合を行なっていく
方法を採る。先ず、パターンマッチングが始る時点（ｊ
＝１の時点）が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点（ｊ＝Ｊの時点）が音声の終端
よりも後にある。

【００５３】この方法は、入力信号の中から距離が最小
の部分を切出すことによって単語を認識する方法であ
り、「ワードスポッティング法」の１つである。距離比
較部１５は各単語毎に入力の第ｊフレームまでの最小累
積距離求めこれをを一時記憶１６に記憶しておく。パタ
ーンマッチング範囲の終端に達した時、一時記憶に記憶
されている各単語毎の最小累積距離の中で最も累積距離
の小さい単語が認識結果となる。

【００５４】

【発明が解決しようとする課題】従来例の方法は音声区
間を検出せずにスポッティングを用いて認識を行うため
騒音に強い。しかし、実際に認識を行うと単語集団に対
する平均認識率はかなり高いが、認識対象単語群のなか
の特定の単語間での間違いが頻繁に起る場合がある。例
えば、「ふじいでら」と「ふじ」の２単語を考えた場
合、「ふじいでら」と発声すると”ふじ”の部分で単語
「ふじ」のスポッティングを行い「ふじいでら」を「ふ
じ」と誤認識しやすくなる。しかし、「ふじ」と発声し
た場合に「ふじいでら」に誤認識されることはほとんど
ない。このように特定の単語間での誤認識が多い場合が
有り、ある限度以上に認識率を向上させることが困難で
ある。

【００５５】本発明は上記課題に鑑み、特定の誤認識し
やすい単語の認識率を向上させ、単語認識率をより向上
させる音声認識方法を提供するものである。

【００５６】

【課題を解決するための手段】本発明では上記課題を解
決するために、あらかじめ単語間の混同確率を認識結果
または単語標準パタ−ン間の類似性から求めておき、入
力音声の類似度計算から得られる上位ｎ位までのｎ単語
を求め、前記入力音声と前記ｎ単語のそれぞれとの前記
類似度と、前記入力音声と前記ｎ単語のそれぞれとの前
記混同確率との積和を求めて新しく入力単語の類似度と
した後、最も類似度が大きい単語を認識結果とする処理
を設けたものである。

【００５７】

【作用】本発明は上記構成により、単語間の混同確率を
用いることで、認識率の悪い特定の単語間の認識率を向
上させる事が出来る。

【００５８】

【実施例】（実施例１）以下、本発明の第一の実施例について説明する。本実施
例では、単語認識の方法については従来例と同じ認識方
法を用いる。本発明は、単語認識方法によらず単語認識
を行った後の処理になるので認識方法の部分についての
説明は省略する。

【００５９】図１に本実施例の構成図を示す。図１にお
いて、１は単語音声認識部、２は第１次認識結果格納
部、３は第２次類似度計算部、４は単語間混同確率格納
部、５は認識結果判定部である。

【００６０】以上の様な図１の構成において、以下その
動作について説明をする。単語音声認識部１について
は、特徴パラメ−タを抽出し単語標準パタ−ンとマッチ
ングすることにより単語認識を行う。本発明は、認識方
法に左右される発明ではないので、どの様な認識方法を
用いてもよい。本実施例では、従来例と同じ認識方法を
使用する。したがって、認識方法の説明はここでは省略
する。

【００６１】次に、未知入力音声を認識する前にあらか
じめ用意しておく単語間の混同確率を求める方法につい
て説明を行う。単語間の混同確率を求めるために、あら
かじめ多くの話者の発声したデ−タの認識を行い各単語
が正解した個数と他の単語に誤認識した個数を求める。
例を図２に示す。図２はＫ個の単語群に対して各単語を
１００回認識したときの混同表である。図において縦軸
が入力音声の単語番号を示し、横軸がどの単語に認識さ
れたかの個数を示す。例えば、単語番号１の入力単語が
有った場合、単語番号１に正しく認識した場合が８０
個、単語番号２に誤認識した場合が２個、単語番号３に
誤認識した場合が６個、単語番号ｋに誤認識した場合が
１２個で合計１００回の認識を行ったことになる。この
様な認識結果を各単語毎に求め、図２のような混同表を
作成する。次に、図２の混同表から確率値に変換する。
図３に確率値に変換した混同確率表を示す。単語番号ｉ
の単語が単語ｊに誤認識する確率をconf（ｉ，ｊ）とす
る。図３において、単語番号１の単語が１に正しく認識
される確率はconf（１，１）＝０．８、単語番号２に誤
認識される確率はconf（１，２）＝０．０２である。こ
の混同確率表を単語間混同確率格納部４に格納してお
く。

【００６２】未知入力音声を認識する場合は、まず最初
に単語音声認識部１で単語認識を行い各単語の類似度を
求める。この結果を、第１次認識結果格納部２に送り格
納する。第２次類似度計算部３では、各単語の類似度を
確率値に変換し確率値ベクトル

【００６３】

【外１３】

【００６４】を作成する。

【００６５】

【数１０】

【００６６】各単語の類似度を（数３）にもとづいて確
率値に変換する。単語番号ｋの類似度をｌ_kとすると確
率値ｑ_kは次式で表される。

【００６７】

【数１１】

【００６８】ここで和が１になるように正規化を行い、
最終の確率値ｐ_kを（数１２）により求める。

【００６９】

【数１２】

【００７０】この確率値と単語間混同確率格納部４内の
混同確率をもちいて第２次類似度である確率Ｐ（ｋ）を
（数１３）によって求める。

【００７１】

【数１３】

【００７２】この結果得られる、確率Ｐ（ｋ）を最大に
する単語ｋを第２次判定部５で求め単語ｋを認識結果と
して出力する。（数１３）において、すべての単語に対
して混同確率との積和を求めなくても、認識結果の上位
ｎ位までの単語との積和を求めてもよい。（数１３）に
ついて簡単な例で説明を行う。例えば、入力音声が「ふ
じいでら」の場合、認識結果の１位が「ふじ」、２位が
「ふじいでら」と誤った時、図３において単語番号１が
「ふじ」、単語番号２が「ふじいでら」で、ｐ₁＝０．
４、ｐ₂＝０．３、上位２位までの認識結果を使用して
第２次類似度を求めるとＰ（１）＝ｐ₁・CONF（１，１）＋ｐ₂・CONF（１，２）＝０．４×０．８＋０．３×０．０２＝０．３２６Ｐ（２）＝ｐ₂・CONF（２，２）＋ｐ₁・CONF（２，１）＝０．３×０．５＋０．４×０．４５＝０．３３となりＰ（２）の「ふじいでら」の確率がＰ（１）より
大きくなり結果が修正される。一般的に「ふじいでら」
と発声した場合には、”ふじ”の部分区間で「ふじ」と
誤認識する場合は多いが、逆に「ふじ」と発声して「ふ
じいでら」に誤認識する場合はほとんどない。したがっ
て、CONF（２、１）の値は大きくCONF（１、２）の値は
小さい値となる。（数１３）を用いて第２次類似度を求
めればＰ（１）とＰ（２）の差が小さい場合は、認識結
果を正しく補正することが出来るようになる。

【００７３】１００地名を発声した５０名のデータを用
いて評価を行った。従来の方法だけでは９５．５％の単
語認識率が、本実施例を適用すると９７．５％まで改善
され、本発明が有効であることが分る。

【００７４】（実施例２）以下、第２の実施例について説明を行う。図４に第２の
実施例の構成図を示す。第１の実施例との違いは、単語
辞書６を用いて単語間混同確率作成部７で単語間混同確
率を作成し単語間混同確率格納部４に格納する部分であ
る。この部分についてのみ説明を行う。単語辞書６に格
納されている単語標準パタ−ンと単語の特徴パラメ−タ
の平均値の時系列パタ−ンを使用して単語間混同確率を
求める。単語の特徴パラメータの平均値パターンの時系
列の作成は単語標準パターン作成時に行う。単語ｋの時
系列パターンＴ_kは、単語長をＪ_k、ｊフレームにおける
平均値ベクトルを

【００７５】

【外１４】

【００７６】とすると、

【００７７】

【数１４】

【００７８】となる。このＴ_kを入力音声データと仮定
して、単語ｎの単語標準パターンを用いて認識を行い、
入力単語ｋと単語ｎとの類似度を求める。この類似度を
第１の実施例で用いた確率に変換する（数１１）、（数
１２）を適用して確率値ｒ _k ⁿ に変換する。入力単語ｋと
各単語ｎとの類似度を確率値に変換した確率値ベクトル

【００７９】

【外１５】

【００８０】を次式により求める。

【００８１】

【数１５】

【００８２】この（数１５）を各単語に対して求め、単
語間混同確率表を作成する。図５にこの単語間混同確率
表を示す。この単語間混同確率表を用いて第１の実施例
と同様に第２次類似度計算を行い、第２次類似度が最も
大きい単語を認識結果として出力する。

【００８３】１００地名を発声した５０名の評価を行っ
た。従来の方法だけでは９５．５％の単語認識率が、本
実施例を適用すると９７．２％まで改善され、本発明が
有効であることが分る。本実施例では、実際の認識結果
を使用せずに単語標準パターンがあれば単語間混同確率
を求めることが出来るので、単語集団が変更になっても
容易に単語間混同確率を求めることが出来る。したがっ
て、実際の使用を考慮すると認識実験結果がなくても適
用することが出来る長所がある。

【００８４】

【発明の効果】以上の様に本発明は、単語間混同確率を
用いて類似度を求め直すことにより特定の単語間の誤認
識を修正することができ高い認識率を得ることが出来
る。第１の実施例では、実際の認識結果を使用すること
により高い精度で誤認識を修正することが出来る。ま
た、第２の実施例では、実際の認識結果がなくても、単
語標準パターンから単語間混同確率を求め、誤認識を修
正することが出来る。

【００８５】このように、本発明は実用上有効な方法で
あり、その効果は大きい。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声認識方法を
具現化する機能ブロック図

【図２】同実施例における単語間混同表の説明図

【図３】同実施例における単語間混同確率の説明図

【図４】本発明の第２の実施例における音声認識方法を
具現化する機能ブロック図

【図５】同実施例における単語標準パターンを用いて作
成した単語間混同確率の説明図

【図６】従来例における音声認識方法を具現化する機能
ブロック図

【符号の説明】

１単語音声認識部２第１次認識結果格納部３第２次類似度計算部４単語間混同確率格納部５判定部６単語辞書７単語間混同確率作成部８音響分析部９特徴パラメータ抽出部１０複数フレームバッファ１１部分距離計算部１２部分標準パターン格納部１３経路判定部１４距離累積部１５距離比較部１６一時記憶部

Claims

(57)【特許請求の範囲】

【請求項１】入力音声の特徴抽出を行い、その特徴デ
−タと認識対象単語との類似度計算を行い、その類似度
が最も大きい単語を認識結果として出力する認識装置に
おいて、あらかじめ認識対象単語に対して認識実験を行
い、その結果からある単語が他の単語にどの程度誤認識
するかという単語間の混同確率を求めておき、入力音声
の類似度計算から得られる上位ｎ位までのｎ単語を求
め、前記入力音声と前記ｎ単語のそれぞれとの前記類似
度と、前記入力音声と前記ｎ単語のそれぞれとの前記混
同確率との積和を求めて新しく入力単語の類似度とした
後、最も類似度が大きい単語を認識結果とする処理を特
徴とする音声認識方法。
【請求項２】入力音声の特徴抽出を行い、その特徴デ
−タと認識対象単語との類似度計算を行い、その類似度
が最も大きい単語を認識結果として出力する認識装置に
おいて、あらかじめ認識対象単語のパラメータの平均値
の時系列に対して単語標準パターンを用いて認識実験を
行い類似度を求め、その結果からある単語が他の単語に
どの程度誤認識するかという単語間の混同確率を求めて
おき、入力音声の類似度計算から得られる上位ｎ位まで
のｎ単語を求め、前記入力音声と前記ｎ単語のそれぞれ
との前記類似度と、前記入力音声と前記ｎ単語のそれぞ
れとの前記混同確率との積和を求めて新しく入力単語の
類似度とした後、最も類似度が大きい単語を認識結果と
する処理を特徴とする音声認識方法。