JP2870224B2

JP2870224B2 - 音声認識方法

Info

Publication number: JP2870224B2
Application number: JP3147438A
Authority: JP
Inventors: 勝行二矢田; 昌克星見; 省二平岡; 達也木村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-06-19
Filing date: 1991-06-19
Publication date: 1999-03-17
Anticipated expiration: 2014-03-17
Also published as: JPH04369696A; US5309547A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識方法に関するものである。

【０００２】

【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、本出願人が、以前に出願した２つの特許
（特開昭61-188599号公報、特開昭62-111293号公報）を
従来例として説明する。特開昭61-188599号公報を第１
の従来例、特開昭62-111293号公報を第２の従来例とす
る。

【０００３】第１の従来例の方法は入力音声の始端、終
端を求めて音声区間を決定し、音声区間を一定時間長に
（Ｉフレーム）に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。

【０００４】単語標準パターンは、認識対象単語を多く
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Ｉフレーム（実施例ではＩ＝１
６）に伸縮し、その後、単語ごとに音声サンプル間の統
計量（平均値ベクトルと共分散行列）を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定（Iフレーム）であ
り、原則として１単語に対し１標準パターンを用意して
いる。

【０００５】第１の従来例では、パターンマッチングの
前に音声区間を検出する必要があるが、第２の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法（ワードスポッティン
グ法）を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。

【０００６】

【発明が解決しようとする課題】従来例の方法は、小型
化が可能な実用的な方法であり、特に第２の従来例は、
騒音にも強いことから実用として使われ始めている。

【０００７】しかし、従来例の問題点は、十分な単語認
識率が得られないことである。このため、語彙の数が少
ない用途にならば使うことが出来るが、語彙の数を増や
すと認識率が低下して実用にならなくなってしまう。従
って、従来例の方法では認識装置の用途が限定されてし
まうという課題があった。

【０００８】即ち、従来例において認識率が十分でない
要因は次の２点である。（１）認識対象とする全ての単語長（標準パターンの時
間長）を一定の長さＩフレームにしている。これは、単
語固有の時間長の情報を欠落させていることになる。

【０００９】（２）入力長をＩフレームに伸縮するので
欠落したり重複するフレームが生じる。前者は情報の欠
落になり、後者は冗長な計算を行なうことになる。そし
てどちらの場合も認識に重要な「近隣フレーム間の時間
的な動き」の情報が欠落してしまう。

【００１０】本発明は上記従来の課題を解決するもの
で、「処理が単純で装置の小型化が可能である」、「方
法が簡単なわりには認識率が高い」、「騒音に対して頑
強である」という従来の長所を生かしながら、従来例よ
りも格段に認識率を向上させる音声認識方法を提供する
ことを目的とするものである。

【００１１】

【課題を解決するための手段】本発明では上記目的を達
成するもので、以下の手段によって上記課題を解決し
た。

【００１２】まず課題（１）に対しては、単語ごとに標
準時間長Ｉ_k（k＝1,2,…K；Kは認識対象単語の種類）を
設定し、単語長情報の欠落がないようにした。Ｉ_kは単
語ごとに多くの発声サンプルを集め、その平均値とし
た。

【００１３】課題（２）に対しては、情報の欠落がない
ように、常に近隣の複数フレームをひとまとめにしたも
のをパラメーターとしてパターンマッチングを行なう。
また、近隣フレーム間の時間的な動きが欠落しないよう
にするために、パターンマッチングに用いる距離尺度に
はフレーム間の相関を含む統計的な距離尺度を用いる。
認識対象音声の標準パターンは次のようにして作成し
た。認識対象音声の標準パターンとして、多数の人が発
声した音声データを使用し、一定数の複数フレームから
なる部分パターンを、前記部分パターンの一部区間が重
複するようにして複数作成し、前記複数の部分パターン
を連接して認識対象音声の標準パターンとして予め作成
する。入力ベクトルと標準パターンとの距離を統計的距
離尺度で求める。そして、入力を１フレームずつシフト
しながら全認識対象音声の標準パターンに対する部分距
離の累計を求めていき、距離を最小とする音声名を認識
結果とする。

【００１４】

【作用】本発明は上記構成によって、不特定話者用の音
声認識に対して高い認識率が得られ、また処理が単純な
ので、信号処理プロセッサ（ＤＳＰ）を用いて、小型で
リアルタイム動作が可能な認識装置を実現することがで
きる。また、ワードスポッティング機能を導入すること
によって、騒音に対して頑強な、実用性の高い認識装置
が実現できる。

【００１５】

【実施例】以下、本発明において２種の実施例について
説明する。第１の実施例は入力音声の始端、終端があら
かじめ検出されている場合における実施例である。この
場合は音声区間でのみパターンマッチングを行なえばよ
い。第２の実施例は入力音声の始端、終端が未知の場合
の実施例である。この場合は入力音声を含む十分広い区
間内を対象として、入力信号と標準パターンのマッチン
グを区間全域にわたって単位時間ずつシフトしながら行
ない、距離が最小となる部分区間を切り出す方法を用い
る。この種の方法を一般的にワードスポッティングと呼
んでいる。

【００１６】（実施例１）まず、第１の実施例について
図１を参照しながら説明する。

【００１７】図１において、音響分析部１は入力信号を
ＡＤ変換して取込み（サンプリング周波数10kHz）、一
定時間長（フレームと呼ぶ。本実施例では10ms)ごとに
分析する。本実施例では線形予測分析（ＬＰＣ分析）を
用いる。特徴パラメータ抽出部２では分析結果に基づい
て、特徴パラメータを抽出する。本実施例では、ＬＰＣ
ケプストラム係数（C₀〜C₁₀）および差分パワー値V₀の
１２個のパラメータを用いている。入力の１フレームあ
たりの特徴パラメータを

【００１８】

【外１】

【００１９】と表すことにすると、特徴パラメータは
（数１）のようになる。

【００２０】

【数１】

【００２１】ただし、jは入力のフレーム番号、pはケプ
ストラム係数の次数である（p＝10）。フレーム同期信
号発生部１０は１０msごとに同期信号を発生する部分で
あり、その出力は全てのブロックに入る。即ち、システ
ム全体がフレーム同期信号に同期して作動する。

【００２２】音声区間検出部９は入力信号音声の始端、
終端を検出する部分である。音声区間の検出法は音声の
パワーを用いる方法が簡単で一般的であるが、どのよう
な方法でもよい。本実施例では音声の始端が検出された
時点で認識が始まり、j＝1になる。

【００２３】複数フレームバッファ３は第jフレームの
近隣のフレームの特徴パラメータを統合して、パターン
マッチング（部分マッチング）に用いる入力ベクトルを
形成する部分である。すなわち、第jフレームに相当す
る入力ベクトル

【００２４】

【外２】

【００２５】は、次式で表わされる。

【００２６】

【数２】

【００２７】すなわち、上記入力ベクトルはmフレーム
おきにj−L₁〜j＋L₂フレームの特徴パラメータを統合し
たベクトルである。L₁=L₂=3，m=1 とすると上記入力ベ
クトルの次元数は（P+2）×（L₁+L₂+1）＝12×7＝84と
なる。なお、（数２）ではフレーム間隔mは一定になっ
ているが、必ずしも一定である必要はない。mが可変の
場合は非線形にフレームを間引くことに相当する。

【００２８】部分標準パターン格納部５は、認識対象と
する各単語の標準パターンを、複数の部分パターンとし
て格納してある部分である。ここで、本実施例における
標準パターン作成法を、やや詳細に説明する。

【００２９】話をわかり易くするために、今、認識対象
単語を日本語の数字「イチ」「ニ」「サン」「ヨン」
「ゴ」「ロク」「ナナ」「ハチ」「キュウ」「ゼロ」の
１０種とする。このような例を用いても説明の一般性に
はなんら影響はない。

【００３０】たとえば、「サン」の標準パターンは次の
ような手順で作成する。（１）多数の人（１００名とする）が「サン」と発声し
たデータを用意する。

【００３１】（２）１００名の「サン」の持続時間分布
を調べ、１００名の平均時間長Ｉ₃を求める。

【００３２】（３）時間長のＩ₃サンプルを１００名の
中から探し出す。複数のサンプルがあった場合はフレー
ムごとに複数サンプルの平均値を計算する。このように
求められた代表サンプルを（数３）で示す。

【００３３】

【数３】

【００３４】ここで

【００３５】

【外３】

【００３６】は１フレームあたりのパラメータベクトル
であり、（数１）と同様に１１個のＬＰＣケプストラム
係数と差分パワーで構成される。

【００３７】（４）１００名分のサンプルの１つ１つと
代表サンプルとの間でパターンマッチングを行ない、代
表サンプルと１００名分の各サンプルとの間の対応関係
（最も類似したフレーム同士の対応）を求める。距離計
算はユークリッド距離を用いる。代表サンプルのiフレ
ームと、あるサンプルのi’フレームとの距離d_i,i' は
（数４）で表わされる。

【００３８】

【数４】

【００３９】ここで、tは転置行列であることを表す。
なお、フレーム間の対応関係はダイナミックプログラミ
ングの手法を用いれば効率よく求めることができる。

【００４０】（５）代表サンプルの各フレーム（i＝1〜
Ｉ₃）に対応して、１００名分のサンプルそれぞれから
（数２）の形の部分ベクトルを切出す。簡単化のためL₁
＝L₂＝3、m＝1 とする。

【００４１】代表サンプルの第iフレームに相当する、
１００名のうちの第n番目のサンプルの部分ベクトルは
以下のようになる。

【００４２】

【数５】

【００４３】ここで、（i）は第n番目のサンプル中、代
表ベクトルの第iフレームに対応するフレームであるこ
とを示す。

【００４４】

【外４】

【００４５】は本実施例では８４次元のベクトルである
（n＝1〜100）。（６）１００名分の上記ベクトルの平均値

【００４６】

【外５】

【００４７】（本例ではｋ＝３；８４次元）と共分散行
列

【００４８】

【外６】

【００４９】（８４×８４次元）を求める（i＝1〜
Ｉ₃）。平均値と共分散行列は標準フレーム長の数Ｉ₃だ
け存在することになる（ただし、これらは必ずしも全フ
レームに対して作成する必要はない。間引いて作成して
もよい。）。

【００５０】上記（１）〜（６）と同様の手続きで「サ
ン」以外の単語に対しても８４次元のベクトルと共分散
行列を求める。

【００５１】そして、全ての単語に対する１００名分す
べてのサンプルデータに対し、移動平均

【００５２】

【外７】

【００５３】（８４次元）と移動共分散行列

【００５４】

【外８】

【００５５】（８４×８４次元）を求める。これらを周
囲パターンと呼ぶ。次に平均値と共分散を用いて標準パ
ターンを作成する。

【００５６】ａ．（数６）により共分散行列を共通化す
る。

【００５７】

【数６】

【００５８】ここでKは認識対象単語の種類（K＝10）、
I_kは単語k（k＝1,2,…,K）の標準時間長を表す。また、
gは周囲パターンを混入する割合であり通常g＝1 とす
る。

【００５９】b．各単語の部分パターン

【００６０】

【外９】

【００６１】及び

【００６２】

【外１０】

【００６３】を作成する。

【００６４】

【数７】

【００６５】

【数８】

【００６６】これらの式の導出は後述する。図２に標準
パターン作成法の概念図を示す。図２（ａ）は入力信号
が「サン」の場合の音声のパワーパターンを示す。図２
（ｂ）は部分パターンの作成法を概念的に示したもので
ある。音声サンプルの始端と終端の間において、代表サ
ンプルとのフレーム対応を求めて、それによって音声サ
ンプルをＩ₃に分割する。図では代表サンプルとの対応
フレームを（i）で示してある。そして、音声の始端
（i）＝１から終端（i）＝Ｉ₃の各々について、（i）−
L₁〜（i）＋L₂の区間の１００名分のデータを用いて平
均値と共分散を計算し、部分パターン

【００６７】

【外１１】

【００６８】

【外１２】

【００６９】を求める。従って、単語kの標準パターン
は互にオーバーラップする区間を含むＩk個の部分パタ
ーンを連接して（寄せ集めた）ものになる。図２（ｃ）
は周囲パターンの作成方法を示す。周囲パターンは標準
パターン作成に使用した全データに対して、図のように
L1+L2+1フレームの部分区間を１フレームずつシフトさ
せながら移動平均値と移動共分散を求める。周囲パター
ン作成の範囲は音声区間内のみならず、前後のノイズ区
間も対象としてもよい。後述する第２の実施例では周囲
パターンにノイズ区間を含める必要がある。

【００７０】次に部分距離の計算についてのべる。上記
のようにしてあらかじめ作成されている各単語の部分標
準パターンと複数フレームバッファ３との間の距離（部
分距離）を部分距離計算部４において計算する。

【００７１】部分距離の計算は（数２）で示す複数フレ
ームの情報を含む入力ベクトルと各単語の部分パターン
との間で、統計的な距離尺度を用いて計算する。単語全
体としての距離は部分パターンとの距離（部分距離と呼
ぶ）を累積して求めることになるので、入力の位置や部
分パターンの違いにかかわらず、距離値が相互に比較で
きる方法で部分距離を計算する必要がある。このために
は、事後確率に基づく距離尺度を用いる必要がある。
（数２）の形式の入力ベクトルを

【００７２】

【外１３】

【００７３】とする（簡単のため当分の間i,jを除いて
記述する）。単語kの部分パターンω_kに対する事後確率

【００７４】

【外１４】

【００７５】はベイズ定理を用いて次のようになる。

【００７６】

【数９】

【００７７】右辺第１項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第２項の事前確率は、パ
ラメータの分布を正規分布と考え、

【００７８】

【数１０】

【００７９】で表わされる。

【００８０】

【外１５】

【００８１】は単語とその周辺情報も含めて、生起し得
る全ての入力条件に対する確率の和であり、パラメータ
がＬＰＣケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。

【００８２】

【外１６】

【００８３】が正規分布に従うと仮定し、平均値を

【００８４】

【外１７】

【００８５】、共分散行列を

【００８６】

【外１８】

【００８７】を用いると、（数１１）のようになる。

【００８８】

【数１１】

【００８９】（数１０）、（数１１）を（数９）に代入
し、対数をとって、定数項を省略し、さらに−２倍する
と、次式を得る。

【００９０】

【数１２】

【００９１】この式は、ベイズ距離を事後確率化した式
であり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を（数６）によって共通化
し、（数１２）の

【００９２】

【外１９】

【００９３】、

【００９４】

【外２０】

【００９５】のかわりに

【００９６】

【外２１】

【００９７】を代入すると、（数１２）の第１項、第２
項は次のように展開できる。

【００９８】

【数１３】

【００９９】

【数１４】

【０１００】（数１３）、（数１４）において

【０１０１】

【数１５】

【０１０２】

【数１６】

【０１０３】である。また、（数１２）の第３項は０に
なる。従って、（数１２）は次のように簡単な一次判別
式になる。

【０１０４】

【数１７】

【０１０５】ここで、改めて、入力の第jフレーム成分
（数２）と単語kの第iフレーム成分の部分パターンとの
距離として（数１７）を書き直すと、

【０１０６】

【数１８】

【０１０７】ここで

【０１０８】

【外２２】

【０１０９】は（数７）で、

【０１１０】

【外２３】

【０１１１】は（数８）で与えられる。Ｌ_k ^i,jは単語k
の第i部分パターンと入力のjフレーム近隣のベクトルの
部分類似度である。

【０１１２】図１において距離累積部７は、各単語に対
する部分距離をｉ＝１〜Ｉ_kの区間に対して累積し、単
語全体に対する距離を求める部分である。その場合、入
力音声長（Ｊフレーム）を各単語の標準時間長Ｉ_kに伸
縮しながら累積する必要がある。この計算はダイナミッ
クプログラミングの手法（ＤＰ法）を用いて効率よく計
算できる。

【０１１３】いま、例えば「サン」の累積距離を求める
ことにすると、常にｋ＝３なのでｋを省略して計算式を
説明する。

【０１１４】入力の第ｊフレーム部分と第ｉ番目の部分
パターンとの部分距離Ｌ^i,jをl（ｉ，ｊ）と表現し、
（ｉ，ｊ）フレームまでの累積距離をｇ（ｉ，ｊ）と表
現することにすると、

【０１１５】

【数１９】

【０１１６】となる。経路判定部６は（数１９）におけ
る３つに経路のうち累積距離が最小になる経路を選択す
る。

【０１１７】図３は、ＤＰ法によって累積距離を求める
方法を図示したものである。図のようにペン型非対称の
パスを用いているが、その他にもいろいろなパスが考え
られる。ＤＰ法の他に線形伸縮法を用いることもできる
し、また隠れマルコフモデルの手法（ＨＭＭ法）を用い
てもよい。

【０１１８】このようにして、逐次、距離を累積してゆ
き、ｉ＝Ｉ_k，ｊ＝Ｊとなる時点でので累積距離Ｇ_k（Ｉ
_k，Ｊ）を単語ごとに求める。

【０１１９】判定部８は、累積距離Ｇ_k（Ｉ_k，Ｊ）の最
小値を求めて、（式２０）により認識結果

【０１２０】

【外２４】

【０１２１】を出力する。

【０１２２】

【数２０】

【０１２３】（実施例２）次に本発明の第２の実施例を
図４によって説明する。第１の実施例では音声区間検出
の後にパータンマッチングを行なったが、第２の実施例
では音声区間検出が不要である。入力信号の中から距離
が最小の部分を切出すことによって単語を認識する方法
であり、「ワードスポッティング法」の１つである。

【０１２４】この方法は「入力信号中に目的の音声が含
まれていれば、その音声の区間において正しい標準パタ
ーンとの距離（累積距離）が最小になる」という考え方
に基づく方法である。したがって、入力音声の前後のノ
イズ区間を含む十分長い入力区間において１フレームず
つシフトしながら、標準パターンとの照合を行なってい
く方法を採る。図４において、図１と同一番号のブロッ
クは同じ機能を持つ。図４が図１と異なる部分は、音声
区間検出部９を有しないことと、判定部８のかわりに距
離比較部１２と一時記憶１１が存在することである。以
下第１の実施例と異なる部分のみを説明する。

【０１２５】先ず、パターンマッチングが始る時点（ｊ
＝１の時点）が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点（ｊ＝Ｊの時点）が音声の終端
よりも後にある。パターンマチングの終了を検出する方
法はいろいろと考えられるが、本実施例では全ての標準
パターンとの距離が十分大きくなる時点をｊ＝Ｊとして
いる。

【０１２６】標準パターンの作成法は第１の実施例と全
く同じである。ただ、音声サンプルを用いて周囲パター
ンを作成する範囲は音声区間の前後の十分広い区間を用
いる必要がある。その理由は、（数９）の分母項

【０１２７】

【外２５】

【０１２８】は、「パターンマッチングの対象となる全
てのパラメータに対する確率密度である」という定義に
よるものである。

【０１２９】第１の実施例との一番大きな構成上の違い
は、単語ごとの累積距離の大小比較をフレームごとに行
なう点である。距離比較部１２は（数２１）により、入
力の第ｊフレームにおける各単語の累積距離Ｇ_k（Ｉ_k、
ｊ）を比較して、第ｊフレームにおいて累積距離が最小
となる単語

【０１３０】

【外２６】

【０１３１】を求める。そして、そのときの最小値も同
時に求めておく。即ち、

【０１３２】

【数２１】

【０１３３】

【数２２】

【０１３４】一時記憶１１にはｊ−１フレームまでに出
現した累積距離の最小値Ｇ_minと累積距離が最小となっ
た時の標準パターン名ｋが記憶されている。

【０１３５】Ｇ_minと

【０１３６】

【外２７】

【０１３７】を比較し、

【０１３８】

【外２８】

【０１３９】ならば一時記憶１１はそのままにして、次
のフレーム（ｊ＝ｊ＋１）へ進む。

【０１４０】

【外２９】

【０１４１】ならば、

【０１４２】

【外３０】

【０１４３】として次のフレームへ進む。このように、
一時記憶１１には常にそのフレームまでの最小値と認識
結果が残っていることになる。パターンマッチング範囲
の終端（ｊ＝Ｊ）に達した時、一時記憶１１に記憶され
ている

【０１４４】

【外３１】

【０１４５】が認識結果である。第２の実施例は、騒音
中の発声など、音声区間検出が難しい場合には有効な方
法である。

【０１４６】本実施例の効果を確認するため、男女計１
５０名が発声した１０数字データを用いて認識実験を行
なった。このうち１００名（男女各５０名）のデータを
用いて標準パターンを作成し、残りの５０名を評価し
た。評価条件を（表１）に示し、

【０１４７】

【表１】

【０１４８】評価結果を（表２）に示す。

【０１４９】

【表２】

【０１５０】このように本実施例における認識率向上は
非常に顕著である。

【０１５１】

【発明の効果】本発明は複数のフレームで形成される入
力ベクトルと、認識対象音声の標準パターンとして、多
数の人が発声した音声データを使用し、一定数の複数フ
レームからなる部分パターンを、前記部分パターンの一
部区間が重複するようにして複数作成し、前記複数の部
分パターンを連接して認識対象音声の標準パターンとし
て予め作成した標準パターンとの部分距離を事後確率に
基づく統計的距離尺度で求め、フレームをシフトしなが
ら入力ベクトルを更新して各部分ベクトルとの間の距離
を累積し、累積距離が最小となる音声名を認識結果とす
るもので、情報の欠落がないように常に近隣の複数フレ
ームからなる部分パターンをひとまとめ（連接）にした
ものをパラメータとしてマッチングすることにより、高
い認識率が得られるものである。

【０１５２】本発明は先ず、高い認識率が得られること
が特長である。そして、計算の方法が単純であるので信
号処理プロセッサ（ＤＳＰ）を用いた小型装置として容
易に実現できる。

【０１５３】また、実施例２で示したように、ワードス
ポッティングを行なうことができるので、環境騒音や話
者自身が発する「え〜」，「あ〜」などの不要語が混入
した場合でも良好な認識率が確保できる。

【０１５４】このように本発明は実用上有効な方法であ
り、その効果は大きい。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声認識方法を
具現化する機能ブロック図

【図２】本発明における標準パターン作成法における部
分パターン、周囲パターン作成法を説明する概念図

【図３】本発明における入力音声と部分パターンを連接
した標準パターンの照合をダイナミックプログラミング
法で計算する方法を示した模式図

【図４】本発明の第２の実施例における音声認識方法を
具現化する機能ブロック図

【符号の説明】

１音響分析部２特徴パラメータ抽出部３複数フレームバッファ４部分距離計算部５部分標準パターン格納部６経路判定部７距離累積部８判定部９音声区間検出部１０フレーム同期信号発生部１１一時記憶１２距離比較部

フロントページの続き (72)発明者木村達也神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内 (56)参考文献特開平２−83595（ＪＰ，Ａ) 特開昭59−173884（ＪＰ，Ａ) 特開昭59−195699（ＪＰ，Ａ) 特開昭59−116795（ＪＰ，Ａ) 特公平２−51519（ＪＰ，Ｂ２) 古井著「ディジタル音声処理」（東海大学出版会）ｐ．42〜43（昭和60年) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 531 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】認識対象音声の標準パターンとして、多
数の人が発声した音声データを使用し、一定数の複数フ
レームからなる部分パターンを、前記部分パターンの一
部区間が重複するようにして複数作成し、前記複数の部
分パターンを連接して認識対象音声の標準パターンとし
て作成しておき、入力音声をフレームごとに分析して特
徴パラメータを求め、前記部分パターンと同一数のフレ
ームの特徴パラメータで入力ベクトルを形成し、前記入
力ベクトルと前記認識対象音声の標準パターンの一部で
ある部分パターンとの間で部分距離を統計的距離尺度で
計算するという操作を入力フレームをシフトしながら繰
り返し行って累積距離を求め、全認識対象音声の標準パ
ターンに対する累積距離を相互に比較して距離が最小と
なる標準パターンに対応する音声名を認識結果とするこ
とを特徴とする音声認識方法。
【請求項２】入力ベクトルと部分パターンとの距離を
計算する統計的距離尺度が、事後確率に基づく距離尺度
であることを特徴とする請求項１記載の音声認識方法。
【請求項３】統計的距離尺度が事後確率に基づく一次
判別式であることを特徴とする請求項１記載の音声認識
方法。
【請求項４】認識対象音声の標準パターンとして、多
数の人が発声した音声データを使用し、一定数の複数フ
レームからなる部分パターンを、前記部分パターンの一
部区間が重複するようにして複数作成し、前記複数の部
分パターンを連接して認識対象音声の標準パターンとし
て作成しておき、入力音声を含む十分長い入力区間に対
してフレームごとに分析して特徴パラメータを求め、前
記部分パターンと同一数のフレームの特徴パラメータで
入力ベクトルを形成し、前記入力ベクトルと前記認識対
象音声の標準パターンの一部である部分パターンとの間
で部分距離を統計的距離尺度で計算し、計算された部分
距離を累積することによって入力音声と標準パターンと
の累積距離を求め、さらに全認識対象音声の標準パター
ンに対する累積距離を相互に比較して最小距離とそれに
対応する音声名を求め、その最小距離と以前に記憶され
ている最小距離とを比較して最小距離と対応する音声名
を更新・記憶するという操作を、入力フレームをシフト
しながら次々と形成した入力ベクトルに対して逐次行っ
てゆき、入力区間の終了時点において記憶されている音
声名を認識結果とすることを特徴とする音声認識方法。
【請求項５】入力ベクトルと部分パターンとの距離を
計算する統計的距離尺度が、事後確率に基づく距離尺度
であることを特徴とする請求項４記載の音声認識方法。
【請求項６】統計的距離尺度が事後確率に基づく一次
判別式であることを特徴とする請求項４記載の音声認識
方法。