[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2879989B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2879989B2
JP2879989B2 JP3058796A JP5879691A JP2879989B2 JP 2879989 B2 JP2879989 B2 JP 2879989B2 JP 3058796 A JP3058796 A JP 3058796A JP 5879691 A JP5879691 A JP 5879691A JP 2879989 B2 JP2879989 B2 JP 2879989B2
Authority
JP
Japan
Prior art keywords
similarity
dictionary
vector
time
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3058796A
Other languages
English (en)
Other versions
JPH04293095A (ja
Inventor
田 麻 紀 宮
見 昌 克 星
勝 行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3058796A priority Critical patent/JP2879989B2/ja
Priority to US07/808,692 priority patent/US5345536A/en
Priority to DE69127961T priority patent/DE69127961T2/de
Priority to EP91121856A priority patent/EP0492470B1/en
Publication of JPH04293095A publication Critical patent/JPH04293095A/ja
Application granted granted Critical
Publication of JP2879989B2 publication Critical patent/JP2879989B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者が発声した
単語音声を認識するための方法に関する。
【0002】
【従来の技術】従来、不特定話者の発声した単語音声を
認識するための方法として、図7に示すように、単語の
入力音声を音響分析部71で分析して特徴パラメータを
抽出し、これをあらかじめ多数の話者で作成した単語標
準パターン72とマッチングさせて単語認識部73で単
語類似度を計算し、認識する方法が知られている。例え
ば、“ワードスポッティング手法を用いた不特定話者・
少数語向け音声認識装置”(電子通信情報学会 SP8
8−18)に記載されている方法である。
【0003】この方法では、不特定話者用の認識対象用
単語標準パターンを作成するために、実際に330名の
話者が発声した音声データを使用している。330名が
10数字を発声した音声データに対して人間がスペクト
ル波形などを参考にして目視で音声区間を切出して、分
析時間毎に得られる特徴パラメータ(LPCケプストラ
ム係数)の時系列を求め、各単語毎に決められた発声時
間になるように線形に音声データの圧縮を行ない、33
0名分のデータの絶対値によって単語標準パターンを作
成している。未知入力音声とこのようにして作成した標
準パターンとの照合を統計的距離尺度であるマハラノビ
ス距離を用いて行なうことによって、不特定話者の音声
認識を可能にしている。この方法は、統計的距離尺度を
用いて単語標準パターンとの照合、比較を行なうことに
よって、不特定話者のスペクトル変動を統計的に吸収し
ようという考え方に基づいており、統計的距離尺度のた
めの標準パターン作成には、1つの認識単語に対して数
百名以上の話者が発声したデータを必要とする。
【0004】単語標準パターンを利用した他の音声認識
方法として、マルチ標準パターンを用いる方法がある。
この方法は、多くのデータを分析して、それらの中から
代表的なものを複数個選択し、複数の単語標準パターン
と未知入力の照合を行なうことによって不特定話者のス
ペクトル変動に対処しようとするものである。この方法
においても、複数の単語標準パターンを作成するために
は、数百名のデータの収集と分析を必要とする。
【0005】また、不特定話者の単語音声を認識するた
めの別の方法として、図8に示すような音素認識による
方法がある。単語の入力音声を音響分析部81で分析し
て分析時間(フレーム)毎に特徴パラメータを抽出し、
セグメンテーション部82において入力音声を母音区間
と子音区間に切り分ける。音素標準パターン83はあら
かじめ多数の話者が発声した音声データを音響分析して
音素毎に作成しておく。次に音素認識部84において、
母音区間は母音の音素標準パターンと、子音区間は子音
の音素標準パターンとそれぞれ照合して音素の認識を行
ない、入力音声に対して音素記号列を求める。求められ
た音素記号列を今度は単語認識部85で音素表記された
単語辞書86と照合して単語の類似度を算出し、認識す
る。この方法は、上記した方法に比べ、単語辞書を音素
表記として登録できるため、単語標準パターン作成のた
めに膨大なデータの収集・分析する必要がなく、単語辞
書の変更が容易であるという利点があるが、音素を認識
の基本単位とするため、音素から音素へ時間的に変化す
る部分の情報が利用されず、認識率の点で限界がある。
【0006】
【発明が解決しようとする課題】このように、上記前者
の単語標準パターンを利用する音声認識方法では、認識
対象音声の単語標準パターン作成にデータの収集、音声
区間の切出しなどの膨大な作業量があり、そのために容
易に認識対象音声を変更できないという問題を有してい
た。
【0007】また後者の音素を認識の基本単位とする方
法は、音素から音素への時間的変化の要素が失われて認
識率を高める上で限界があるという問題を有していた。
【0008】本発明は、このような従来の問題を解決す
るものであり、1名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声の認識を可能にし、
容易に認識対象音声が変更でき、しかも高い認識率を得
ることができる音声認識方法を提供することを目的とす
る。
【0009】
【課題を解決するための手段】本発明は、上記目的を達
成するために、辞書作成時には、認識対象音声を1名ま
たは数名の少数話者が発声し、これを音響分析して特徴
パラメータを抽出し、今度はこれをあらかじめ多数の話
者で作成した音素標準パターンとマッチングさせてフレ
ーム毎の類似度ベクトルを求め、求められた類似度ベク
トルを類似0が大きいものはより大きくなるように類似
度の強調と正規化を行ない、得られた類似度ベクトルの
時系列を辞書に登録しておき、音声認識時には、不特定
話者の入力音声から辞書登録時と同様にして類似度ベク
トルの時系列を求めて辞書とのマッチングを行ない、も
っとも類似度の大きい認識対象音声を認識結果として出
力するようにしたものである。
【0010】
【作用】したがって、本発明によれば、入力音声を分析
して特徴パラメータを抽出し、多数の話者の音声データ
で作成した音素標準パターンとの類似度計算からフレー
ム毎に類似度ベクトルを求め、この類似度ベクトルに強
調関数を施してフレーム毎に正規化することにより、1
名または数名の少数話者の発声した音声の類似度ベクト
ル時系列を辞書として登録するだけで、不特定話者の音
声を精度良く認識することができる。
【0011】
【実施例】以下、本発明の実施例について説明するが、
その前に本発明の基本的な考え方について説明する。
【0012】人の声は有声音では声帯の振動として発せ
られ、その振動音が調音器官と呼ばれる喉頭、咽頭、
舌、あご、唇などで形成される声道を通る間に様々な変
調を受けて口から音声として出力される。したがって、
ア、イ、ウ、…などの音韻性は声道の形状として与えら
れる。無声音は音源が声帯でない場合もあるが、音韻性
はやはり声道の形状で決められる。ところが、声道を形
成する喉、舌、歯、あご、唇などの形状や寸法は、人ご
とに微妙に異なっており、声帯の大きさも性別や年齢で
異なる。このために、人ごとの声の違いが生じることに
なる。すなわち、人の違いによる声の差異は調音器官の
違いによるところが大きい。
【0013】一方、声がア、イ、ウ、…など音韻として
ではなく、単語や文として発せられるとき、声道の形が
時間的に変化する。すなわち、声道の時間的変化によっ
て言葉が形成される。たとえば、「赤い」(akai)と発
声する場合、声道は、あごが開き、舌の後方に狭めのあ
る/a/の発声から喉頭部の閉鎖と急激な開放を伴う破裂
音/k/に移り、さらに再び/a/の形状に戻ってから徐々に
舌を唇側に移動し、口を閉じた/i/に移る。このような
声道の変化パターンは発声しようとしている言葉によっ
て決まるものであり、人の違いによる差異は少ないと考
えられる。
【0014】このように言葉としての音声を静的な声道
の形状とその時間的な変化に分割して考えると、前者の
みが話者によって異なり、後者は話者による差は小さい
と見なすことができる。したがって、静的な声道の形状
の違いに基づく差異を何等かの方法で正規化できれば、
不特定話者の認識が可能となる。
【0015】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節などを短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることができる。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。
【0016】一方、声道の変化パターンは話者による差
異が少ないのであるから、1名から数名の少数話者の情
報を用いれば十分である。したがって、少数話者の単語
や文節などの発声を類似度情報の時間パターンとして辞
書に登録すれば、それは不特定話者用の辞書である。
【0017】本発明は、このような考え方に基づき、1
名から数名の話者が発声した認識対象音声を分析して得
られる特徴パラメータと、あらかじめ多数の話者で作成
したn種類の標準パターンとのマッチングを分析時間で
ある1フレーム毎に行なってn次元の類似度ベクトルの
時系列を求め、この類似度ベクトルを、上位の類似度を
強調するような強調関数に通し、フレーム毎に正規化
し、このようにして求まるn次元の類似度ベクトルの時
系列を辞書として登録しておくようにしたものである。
また、入力音声を認識させる場合は、入力音声も同様に
n種類の標準パターンとマッチングを行ない、辞書登録
時と同様の強調関数に通してフレーム毎に正規化し、得
られたn次元の類似度ベクトルの時系列と前記辞書との
照合を行なうことによって不特定話者の音声認識を行な
うようにしたものである。
【0018】本発明は上記構成により、まず1名から数
名の少数の話者が発声した音声を分析して得られる特徴
パラメータに対して多数の話者で作成したn種類の音素
や音節などの標準パターンとの類似度を単位時間毎(フ
レーム毎)に求める。この類似度は多数の話者で作成し
た汎用性のある標準パターンとのマッチング結果なの
で、n種類の類似度値の相対関係は個人性の影響を受け
にくい。したがって、単位時間毎の類似度の相対関係を
パラメータとして使用すれば不特定話者に対して有効で
ある。
【0019】さらに、認識率を向上させるためには認識
に寄与する部分を強調すればよいため、この類似度ベク
トルを、類似度の大きいところはより大きくし類似度の
小さいところは認識に寄与しないような小さい値にする
強調関数に通す。
【0020】また音声区間全体に渡って1フレーム内の
類似度の相対関係の特徴を平等にとらえるため、類似度
ベクトルをフレーム毎に正規化する。このようにして求
まるn次元の類似度ベクトルの時系列を辞書として登録
しておく。
【0021】次に、入力音声を認識させる場合は、辞書
として用意したn次元の類似度ベクトルの時系列と、入
力音声から辞書作成時と同様の手続きで得られる類似度
ベクトルの時系列とを照合する。これにより、少数の話
者で作成した辞書で不特定話者の音声を認識することが
できる。本発明では単位時間毎の類似度として、最も信
頼できるものを1つだけ用いるのではなく、複数の候補
を用いているのでより高い認識率を得ることができる。
【0022】なお、どのような言葉も音素や音節の組合
せで記述できるので、n種類の音素や音節の標準パター
ンは1度作成しておくことにより、認識対象音声を変更
しても常に同じものが使用できる。辞書を変更して他の
音声を認識できるようにするための認識語彙の変更に
は、少数の話者が発声するのみで良い。したがって、簡
単な手続きで不特定話者の音声認識が可能であり、さら
に、語彙の変更などに対して柔軟性のある認識装置の実
現が可能になる。
【0023】以下、本発明の第1の実施例について図1
を参照しながら説明する。図1において、1は音響分析
部、2は特徴パラメータ抽出部、3は標準パターン格納
部、4は類似度計算部、5は強調による類似度の正規化
部、6はパラメータ系列作成部、7は辞書格納部、8
はパターンマッチング部である。
【0024】次に本実施例の動作について、1名の話者
の音声を辞書に登録する場合について説明する。すなわ
ち、本実施例ではまず最初に、1名の発声した認識対象
音声を入力音声として辞書を作成しておき、認識時には
その辞書を用いて不特定話者の入力音声の認識を行な
う。
【0025】図1において、入力音声が入力されると音
響分析部1で分析時間であるフレーム(本実施例では1
フレーム=10msec)毎に線形予測係数(LPC)を求
める。
【0026】次に、特徴パラメータ抽出部2で、LPC
ケプストラム係数(C0〜C8まで9個)を求める。
【0027】標準パターン格納部3には、あらかじめ多
くの話者が発声したデータから作成したn種類の音素標
準パターンを格納してある。本実施例ではn=20と
し、/a/,/o/,/u/,/i/,/e/,/j/,/w/,/m/,/n/,/
【0028】
【外1】
【0029】/,/b/,/d/,/r/,/z/,/h/,/s/,/c/,/p/,/t/,
/k/ の20個の音素標準パターンを使用する。音素標準
パターンは各音素の特徴部(その音素の特徴をよく表現
する時間的な位置)を目視によって正確に検出し、この
特徴フレームを中心とした特徴パラメータの時間パター
ンを使用して作成する。本実施例では時間パターンとし
て、特徴フレームの前8フレーム、後3フレーム、計1
2フレーム分のLPCケプストラム係数(C0〜C8)
によってパラメータ系列を構成する。そして多くの人
が発声した多量のデータに対してパラメータ系列を抽
出し、各要素の平均値ベクトルμpと要素間の共分散行
列Σを求め標準パターンとする。このように本実施例で
用いている音素標準パターンは複数フレームの特徴パラ
メータを使用しており、パラメータの時間的動きを考慮
して標準パターンを作成しているのが特徴である。
【0030】この20種類の音素標準パターンと特徴パ
ラメータ抽出部2で得られた特徴パラメータ(LPCケ
プストラム係数)との類似度を類似度計算部4でフレー
ム毎に計算する。すなわち、入力を1フレームずつシフ
トさせながら標準パターンとマッチングを行ない、図2
のような類似度の時系列を求める。本実施例では類似度
計算の距離尺度として共分散行列を共通化したマハラノ
ビス距離を用いる。入力と音素pの標準パターンとの類
似度計算のためのマハラノビス距離dpは、以下の(数
1)で表される。ここで、xは入力の時間パターンであ
る12フレーム分の特徴パラメータによって構成された
ベクトルである。
【0031】
【数1】
【0032】ここで共分散行列Σp を各音素共通とする
と、 次の(数2)のように簡単な式に展開できる。共通
化された共分散行列をΣとする。
【0033】
【数2】
【0034】本実施例では、計算量の少ない上記(数
2)を用いる。ap、bpが音素pに対する標準パターン
であり、標準パターン格納部3にあらかじめ格納されて
いる。このようにして得られた20種類の音素標準パタ
ーンに対する類似度を要素とするベクトル(図2の斜線
部分)を、類似度ベクトルと呼ぶことにする。
【0035】類似度の強調・正規化部5では、類似度計
算部4で求められた類似度ベクトルを、上位の類似度を
強調するような強調関数に通し、フレーム毎に最大値が
1、最小値が0となるよう正規化する。これを全フレー
ムに亙って行ない、パラメータ系列作成部6で類似度ベ
クトルの時系列を作成する。
【0036】類似度の強調・正規化部5では、フレーム
毎に求まった類似度のベクトルを、次のように変換す
る。まず類似度ベクトルの20個の要素を大きい順に並
べ(値が大きい方がその音素標準パターンに類似してい
るとする。)、第1位の類似度が1、第k位の類似度が
0となるように、第1位から第k位までの類似度の値を
線形に1〜0に変換する。第k+1位から第20位まで
はすべて0とし、新しく20個の要素からなる類似度ベ
クトルを求める。すなわち、類似度ベクトルをa=(a
1,a2,…,ai,…,a20)とすると、強調関数Fは
次の(数3)のように表される。ここでMは類似度の最
大値、Mkは第k位の類似度の値である。
【0037】
【数3】
【0038】このような関数Fを通すことによって、上
位の音素に対する類似度が強調されるようになる。ま
た、MおよびMkの値はフレーム毎に異なるため、F
(ai)もフレーム毎に異なるが、常にフレーム内での
最大値は1、最小値は0となり、フレーム毎に正規化さ
れることになる。このようにフレーム毎に正規化を行な
うのは、音素標準パターンを特徴フレーム周辺の特徴パ
ラメータの時間パターンから作成しているため、音素の
渡り(遷移)の部分ではどの音素標準パターンに対する
類似度も全体的に小さくなり、フレーム毎に正規化を行
なわないと、音素の渡りの部分における類似度の相対関
係の特徴が過小評価されてしまうからである。そこでフ
レーム毎に正規化を行ない、全音声区間に亙って類似度
の相対関係を平等に扱えるようにする。
【0039】このようにして全音声区間に亙って新たな
類似度ベクトルを求め、パラメータ時系列作成部6で類
似度ベクトルの時系列を作成する。図3は図2の類似度
ベクトル時系列を強調・正規化したあとの類似度ベク
トル時系列の例である。ここで斜線部の類似度ベクト
ルに注目すると、図2において類似度が最大値となる音
素/ a/の類似度を1、第k位(例えば音素/p/ とする)
の類似度を0となるように第1位から第k位までを線形
に変換し、第k+1位以下の小さな値はすべて0として
いる。
【0040】ここまでの手続きは辞書作成時および認識
時ともに同じである。
【0041】辞書作成時には、1名の発声した認識対象
音声を入力音声として入力し、求められた類似度ベクト
ルの時系列を辞書格納部7に登録する。
【0042】認識時には、辞書作成時と同様に入力音声
から類似度ベクトルの時系列を求め、パターンマッチン
グ部8において、辞書格納部7にある類似度ベクトルの
時系列とをマッチングし、最もスコアの大きい辞書項目
を認識結果とする。本実施例ではマッチング方法として
DPマッチングを行なう。DPマッチングを行なう漸化
式の例を(数4)に示す。ここで、辞書の長さをJフレ
ーム、入力の長さをIフレーム、第iフレームと第jフ
レームの距離関数をl(i,j)、累積類似度をg
(i,j)とする。
【0043】
【数4】
【0044】距離関数l(i,j)の距離尺度として本
実施例ではユークリッド距離を用いる。入力音声のiフ
レームにおける類似度ベクトルをa=(a1,a2,…,
20)、辞書のjフレームにおける類似度ベクトルをb
=(b1,b2,…,b20)とすると、ユークリッド距離
を用いた場合のl(i,j)は、(数5)のようにな
る。
【0045】
【数5】
【0046】このように上位の音素に対する類似度を強
調し、下位の音素に対する類似度を一律に0としたベク
トル間のユークリッド距離を求めることにより、上位の
音素に対する類似度の動きを強調してとらえ、下位の音
素に対する類似度の動きは無視することができる。ま
た、フレーム毎に正規化を行なうことによって、音素の
渡りの部分における類似度の相対関係の特徴を、特徴フ
レーム周辺と同等の重みで扱うことができるようにな
る。したがってこのような強調・正規化をすることによ
り、高い認識率を得られる。
【0047】次に2名以上の発声話者の音声を辞書に登
録する場合について説明を行なう。認識方法はすでに述
べた1名の発声から辞書を登録した場合と同様である。
まず最初に複数話者の発声した同一音声をDPマッチン
グにより時間調整を行なって1つの辞書として登録する
方法について説明し、次に複数話者の発声した同一音声
をマルチ標準パターンとして辞書に登録する方法につい
て説明する。
【0048】発声話者が2名の場合は、2名の発声した
同一音声を、認識する場合と同様にDPマッチングを行
ない時間整合を行なう。時間整合について図4を用いて
説明を行なう。図4は「赤い」(akai)と2名の話者が
発声した例である。話者によって発声の時間長が異なる
ので、2名の話者の同一の認識対象音声間でDPマッチ
ングを行ない、その結果からDPパスを逆トレースし時
間整合を行なう。時間整合することによって、同じ音素
の区間(/a/,/k/,/a/,/i/)が整合するようになる。そ
してこの時間的に整合したフレーム間で各類似度の平均
値を求め、その時系列を辞書として登録する。
【0049】すなわち、図4の斜線で示した話者1の第
iフレームと話者2の第jフレームが時間的に整合する
場合は、話者1の第iフレームの類似度ベクトルをc=
(c 1,c2,…,c20)、話者2の第jフレームをe=
(e1,e2,…,e20)とすると、新しくf=((c1
+e1))/2,(c2+e2)/2,…,(c20
20)/2)を求め、この類似度ベクトルfを辞書のi
フレームの類似度ベクトルとして登録する。こうするこ
とによって、辞書の精度を向上させ、より高い認識率を
得ることができる。
【0050】次に、複数話者の発声した音声をマルチ標
準パターンとして辞書に登録するときは、認識対象音声
を複数話者が発声した音声の類似度ベクトル時系列をそ
のまま辞書として複数個登録する。この場合は、辞書項
目毎に複数個登録されている標準パターンの中のどの辞
書で認識されてもその辞書項目を認識したものとする。
【0051】ただし、2名以上の話者の発声によって辞
書を作成する場合、辞書パターンの男女差を減らすた
め、男女各1名ずつまたは男女ほぼ同数の発声によって
辞書を作成する。
【0052】次に、本実施例を用いた音声認識実験およ
びその結果について説明する。実験は、212単語を発
声した20名のデータを用い、20名の中の1名が21
2単語を発声したデータを辞書として登録し、他の19
名の発声した212単語を認識する方法で行なった。実
験の結果、88.5%という認識率を得ることができ
た。これに対し、音素標準パターンとのマッチングによ
り得られた類似度の時系列をそのまま使用し、フレーム
毎に正規化を行なわなかった場合の認識率は、82.1
%であり、類似度の強調効果が認識率に大きく寄与して
いることが明らかになった。
【0053】1名の話者の発声で辞書を作成した場合、
その話者と異性の話者の認識率は平均86.0%であ
り、同性の話者の音声の平均認識率91.4%に比べ5
%程度低い。そこで、男女各1名の計2名が発声した認
識対象音声から得られる類似度ベクトルの時系列を平均
化した時系列パターンを辞書として使用すると、男女差
が解消されるため、93.4%という高い認識率が得ら
れた。男女各1名の計2名が発声した音声を平均化しな
いで2つとも辞書として登録するマルチ標準パターンを
用いた方法では、93.2%という認識率が得られた。
【0054】以上のように、入力音声を分析して特徴パ
ラメータを抽出し、多数の話者の音声データで作成した
音素標準パターンとの類似度計算からフレーム毎に類似
度ベクトルを求め、この類似度ベクトルに強調関数を施
してフレーム毎に正規化することにより、1名または数
名の少数話者の発声した音声の類似度ベクトル時系列を
辞書として登録するだけで、入力音声の類似度ベクトル
時系列と辞書とのDPマッチングにより不特定話者の音
声を精度良く認識することができる。
【0055】次に、類似度ベクトルを指数関数などの類
似度の値の大きい部分を強調するような強調関数に通
し、その時間変化量を表す回帰係数を併用して、相関余
弦(correlation cosine)によって認識を行なう本発明
の第2の実施例について、図5を参照して説明する。
【0056】図5において、11は音響分析部、12は
特徴パラメータ抽出部、13は標準パターン格納部、1
4は類似度計算部、15は類似度の強調部、16は類似
度の正規化部、17は回帰係数計算部、18は回帰係数
の正規化部、19はパラメータ系列作成部、20は辞
書格納部、21はパターンマッチング部である。
【0057】この第2の実施例においても、前記第1の
実施例と同様に入力音声を音響分析部11で分析して特
徴パラメータ抽出部12で特徴パラメータを求め、あら
かじめ標準パターン格納部13に登録してある音素標準
パターンとフレーム毎にマッチングし、類似度ベクトル
の時系列を類似度計算部14で求める。
【0058】次に類似度の強調部15において、類似度
計算部14で求められた類似度を指数関数である強調関
数Gに通すことによって、値の大きい類似度がより大き
くなるよう変換する。この強調関数Gは、入力音声の類
似度ベクトルをa=(a1,a2,a3,…,ai,…,a
20)とすると(数6)で表される。
【0059】
【数6】
【0060】α、βは全音素、全フレームに対して共通
な定数であり、この式により全フレームに対して新たに
類似度ベクトルを計算する。
【0061】さらに類似度の正規化部16において、こ
のn次元の類似度ベクトルをフレーム毎に大きさ1に正
規化して新たな類似度ベクトルを作成する。これを式で
表すと(数7)のようになる。
【0062】
【数7】
【0063】ここで、強調関数Gによって強調された類
似度ベクトルをa’=(a1’,a2’,a3’,…,
i’,…,a20’)とし、大きさ1にしたベクトルを
a”=(a1”,a2”,a3”,…,ai”,…,
20”)とする。フレーム毎の類似度ベクトルの大きさ
を1にすることにより、全音声区間に亙って類似度の相
対関数の特徴を平等に扱うことができるようになる。
【0064】次に回帰係数計算部17で、正規化された
各類似度の時系列に対して類似度の時間的変化量である
回帰係数(n個)をフレーム毎に求める。回帰係数は、
各音素に対する類似度のそれぞれの時間方向の傾きであ
る。すなわち、例えばまず音素/a/の標準パターンに対
する類似度の時系列の、あるフレームの前後2フレーム
の類似度値(計5フレームの類似度値)の最小2乗近似
直線の傾き(類似度の時間的変化量)を求める。これを
(数8)に示す。
【0065】
【数8】
【0066】ここで、xt=(t=1,2,3,…)は
音素/a/に対する類似度の時系列を表し、K(/a/)は時
刻t+2における音素/a/の回帰係数である。これを各
音素に対する類似度について20個求め、さらに1フレ
ーム毎に全フレームに対して求め、回帰係数ベクトルの
時系列とする。
【0067】次に回帰係数の正規化部18で、類似度と
同様に回帰係数ベクトルをフレーム毎に大きさ1に正規
化する。
【0068】そしてパラメータ時系列作成部19で、指
数関数によって強調を施した大きさ1のn次元の類似度
ベクトルおよびそこから求めた大きさ1のn次元の回帰
係数ベクトルの時系列の両方をパラメータ系列とす
る。
【0069】ここまでの手続きは辞書作成時、認識時と
もに同じであり、辞書作成時には、第1の実施例と同様
にまず最初に1名の発声した認識対象音声を入力音声と
して辞書を作成し、認識時にはその辞書を用いて不特定
話者の入力音声の認識を行なう。
【0070】辞書作成時には、パラメータ系列作成部
19で求められたパラメータ系列を辞書格納部20に
登録する。なお、第1の実施例で既に述べた方法と同様
にして、2名以上の少数話者の発声した同一音声から辞
書を作成し登録してもよい。
【0071】認識時には、パターンマッチング部21に
おいて、辞書登録時と同様の方法で求めたパラメータ
系列と辞書格納部20にあるパラメータの系列とを相
関余弦を用いてDPマッチングし、もっとも類似度の大
きい辞書項目を認識結果とする。DPマッチングを行な
う漸化式は第1の実施例で用いた(数4)と同様である
が、距離関数1(i,j)の距離尺度として本実施例で
は相関余弦を用いる。回帰係数を併用して相関余弦を用
いた距離関数1(i,j)は、(数9)で表される。
【0072】
【数9】
【0073】ただし、入力音声のiフレームにおける類
似度ベクトルをa=(a1,a2,…,a20)、回帰係数
ベクトルをc=(c1,c2,…,c20)、辞書のjフレ
ームにおける類似度ベクトルをb=(b1,b2,…,b
20)、回帰係数ベクトルをd=(d1,d2,…,d20
とする。wは類似度と回帰係数の混合比率であり、0.
4から0.6がよい。実際にはすでに類似度ベクトル、
回帰係数ベクトルとも大きさ1に正規化されているた
め、それぞれ内積を求め、w:(1−w)の重みで足し
合わせるだけでよい。すなわち(数10)のようにな
る。
【0074】
【数10】
【0075】次に第2の実施例を用いた音声認識実験お
よびその結果について説明する。実験は、212単語を
発声した20名のデータを用い、20名の中の1名が2
12単語を発声したデータを辞書として登録し、他の1
9名の発声した212単語を認識する方法で行なった。
図1に示す第1の実施例に対しこの第2の実施例におけ
る回帰係数ベクトルを併用すると、90.3%の単語認
識率が得られた。これは回帰係数を併用しない88.5
%に比べ1.8%向上している。また、図5に示す第2
の実施例の方法で回帰係数を併用すると91.6%とな
り、さらに1.3%の認識率の向上がみられた。
【0076】また、男女各1名の計2名の話者の発声し
た単語音声を平均化したデータを辞書として登録し、残
り18名の単語音声を評価すると95.9%の高い認識
率が得られた。
【0077】以上のように、類似度に強調関数を施し、
その回帰係数を併用して相関余弦を用いたパターンマッ
チングを行なうことにより認識率が向上する。
【0078】なお、第2の実施例において回帰係数は、
類似度ベクトルを指数関数で強調して大きさ1に正規化
したものに対して求めたが,図6に示すように、類似度
の正規化部16で大きさ1にする前に,類似度の強調部
15における指数関数で強調した類似度系列に対して求
めてもよい。
【0079】
【発明の効果】以上のように、本発明は、音声を分析し
て得られた特徴パラメータに対してあらかじめ多くの話
者で作成したn種類の標準パターンとの類似度計算を行
なって類似度系列を求め,強調関数を通してフレーム毎
に類似度の大きいものがより大きくなるように類似度を
強調し、n次元の類似度ベクトルまたはn次元の類似度
ベクトルとそのn次元回帰係数ベクトルを音声認識のた
めの特徴パラメータとすることによって、1名から数名
の少数の話者が発声した認識対象音声を辞書として登録
するだけで、精度良く高い認識率で不特定話者の音声認
識を行なうことができる。
【0080】したがって、辞書の作成が極めて容易であ
り、また認識対象音声を変更したい場合には、1名また
は数名の少数の話者が発声した音声データを辞書として
登録するだけで更新できる。
【0081】また強調関数を通してフレーム毎に正規化
することにより、より高い認識率を得ることができる。
【0082】さらにまた男女同数の少数話者の発声した
音声データから辞書を作成することにより、さらに高い
認識率を得ることができる。
【0083】このように、本発明は、不特定話者用音声
認識装置の性能向上および種々の用途へ適用するための
柔軟性の向上に対して極めて大きく貢献するものであ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示す音声認識方法を実
施するための機能ブロック図
【図2】同実施例における類似度ベクトルの時系列の一
例を示す時系列図
【図3】同実施例における強調・正規化後の類似度ベク
トルの時系列の一例を示す時系列図
【図4】同実施例における2名の話者の登録音声に対す
る時間整合の一例を示す模式図
【図5】本発明の第2の実施例における機能ブロック図
【図6】本発明の第2の実施例の変形例を示す機能ブロ
ック図
【図7】従来の単語音声認識方法の一例を示す機能ブロ
ック図
【図8】従来の単語音声認識方法の他の例を示す機能ブ
ロック図
【符号の説明】
1 音響分析部 2 特徴パラメータ抽出部 3 標準パターン格納部 4 類似度計算部 5 類似度の強調・正規化部 6 パラメータ系列作成部 7 辞書格納部 8 パターンマッチング部 11 音響分析部 12 特徴パラメータ抽出部 13 標準パターン格納部 14 類似度計算部 15 類似度の強調 16 類似度の正規化部 17 回帰係数計算部 18 回帰係数の正規化部 19 パラメータ系列作成部 20 辞書格納部 21 パターンマッチング部
フロントページの続き (56)参考文献 特開 平1−216397(JP,A) 特開 昭60−200296(JP,A) 特開 昭2−248999(JP,A) 特開 昭62−66300(JP,A) 特開 昭62−145297(JP,A) 特開 昭60−202488(JP,A) 特開 昭60−209794(JP,A) 特公 昭62−17760(JP,B2) 特公 昭61−54240(JP,B2) IEEE Transactions on Acoustics,Spee ch and Signal proc essing,Vol.ASSP−34, No.1,p.52−59(1986) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 3/00 521 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 辞書作成時には、認識対象音声を1名か
    ら数名の少数の話者が発声し、分析時間であるフレーム
    毎にm個の特徴パラメータを求め、あらかじめ多数の話
    者で作成しておいたn種類の標準パターンとマッチング
    を行なってフレーム毎にn個の類似度を求め、前記求め
    られたn次元の類似度ベクトルを類似度の大きいものが
    より大きくなるような強調関数に通しフレーム毎に正規
    化して作成したn次元の類似度ベクトルの時系列パター
    ンを辞書として登録し、入力音声を認識させるときは、
    入力音声を音響分析してフレーム毎に求めたm個の特徴
    パラメータと前記n種類の標準パターンとマッチングを
    行なってn次元の類似度ベクトルを求め、これを辞書作
    成時と同様の強調関数を通して類似度ベクトルの時系列
    を作成し、この類似度ベクトルの時系列を前記辞書に登
    録されている類似度ベクトルの時系列パターンと照合
    し、入力音声を認識することを特徴とする音声認識方
    法。
  2. 【請求項2】 強調関数を施したn次元の各類似度ベク
    トルの時系列のそれぞれの次元に対して類似度の時間変
    化量をフレーム毎にn個求め、この類似度の時間変化量
    のn次元ベクトルと類似度のn次元ベクトルを併用して
    時系列パターンを作成することを特徴とする請求項1記
    載の音声認識方法。
  3. 【請求項3】 入力音声と辞書との照合の際、それぞれ
    フレーム毎に正規化した入力音声の類似度ベクトルまた
    は類似度ベクトルとその時間変化量ベクトルと、辞書音
    声の類似度ベクトルまたは類似度ベクトルとその時間変
    化量ベクトルとの距離によって照合することを特徴とす
    る請求項1または2記載の音声認識方法。
  4. 【請求項4】 強調関数として、類似度ベクトルの要素
    を大きい順に並べたときの第1位から第k位までを選択
    して用い、第k+1位以下は最低値とする関数を用いて
    順位の重み付けを行ない、入力音声と辞書との照合の距
    離尺度としてユークリッド距離を用いることを特徴とす
    る請求項1または2記載の音声認識方法。
  5. 【請求項5】 強調関数として値の大きいものがより大
    きくなるような指数関数を用い、入力音声と辞書との照
    合の距離尺度として相関距離を用いることを特徴とする
    請求項1または2記載の音声認識方法。
  6. 【請求項6】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られるn次元類似度ベクト
    ルまたはn次元類似度ベクトルとn次元時間変化量ベク
    トルの時系列に対して、DPマッチングによって話者間
    の時間整合を行ない、時間的に整合したフレーム間で各
    類似度の平均値を求め、その平均値の時系列パターンを
    辞書に登録することを特徴とする請求項1または2記載
    の音声認識方法。
  7. 【請求項7】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析してn次元類似度ベクトルまたは
    n次元類似度ベクトルとn次元時間変化量ベクトルの時
    系列を複数個求め、これらを辞書として登録してマルチ
    標準パターンとして使用することを特徴とする請求項1
    または2記載の音声認識方法。
  8. 【請求項8】 2名以上の話者の発声によって辞書を作
    成する際、男女各1名ずつまたは男女ほぼ同数の発声に
    よって辞書を作成する請求項6または7記載の音声認識
    方法。
JP3058796A 1990-12-21 1991-03-22 音声認識方法 Expired - Lifetime JP2879989B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP3058796A JP2879989B2 (ja) 1991-03-22 1991-03-22 音声認識方法
US07/808,692 US5345536A (en) 1990-12-21 1991-12-17 Method of speech recognition
DE69127961T DE69127961T2 (de) 1990-12-21 1991-12-19 Verfahren zur Spracherkennung
EP91121856A EP0492470B1 (en) 1990-12-21 1991-12-19 Method of speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3058796A JP2879989B2 (ja) 1991-03-22 1991-03-22 音声認識方法

Publications (2)

Publication Number Publication Date
JPH04293095A JPH04293095A (ja) 1992-10-16
JP2879989B2 true JP2879989B2 (ja) 1999-04-05

Family

ID=13094545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3058796A Expired - Lifetime JP2879989B2 (ja) 1990-12-21 1991-03-22 音声認識方法

Country Status (1)

Country Link
JP (1) JP2879989B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016036163A3 (ko) * 2014-09-03 2016-04-21 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5078032B2 (ja) * 2008-09-29 2012-11-21 国立大学法人 名古屋工業大学 音源同定方法及び音源同定装置
JP6845544B2 (ja) * 2017-10-20 2021-03-17 株式会社竹村製作所 異音評価装置及び異音評価方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60200296A (ja) * 1984-03-23 1985-10-09 株式会社東芝 音声認識装置
JPS60202488A (ja) * 1984-03-28 1985-10-12 松下通信工業株式会社 単語音声認識方法
JPS60209794A (ja) * 1984-03-31 1985-10-22 株式会社東芝 パタ−ンマツチング方法
US4585752A (en) * 1984-08-15 1986-04-29 W. R. Grace & Co. Catalyst composition for ultra high temperature operation
JPS6217760A (ja) * 1985-07-16 1987-01-26 Sharp Corp 複写装置
JP2601448B2 (ja) * 1985-09-19 1997-04-16 株式会社リコー 音声認識方法及びその装置
JPH0677199B2 (ja) * 1985-12-20 1994-09-28 キヤノン株式会社 音声認識装置
JPH0823758B2 (ja) * 1988-02-24 1996-03-06 日本電信電話株式会社 話者適応形音声認識装置
JPH02248999A (ja) * 1989-03-22 1990-10-04 Ricoh Co Ltd 音声認識方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on Acoustics,Speech and Signal processing,Vol.ASSP−34,No.1,p.52−59(1986)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016036163A3 (ko) * 2014-09-03 2016-04-21 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치

Also Published As

Publication number Publication date
JPH04293095A (ja) 1992-10-16

Similar Documents

Publication Publication Date Title
Saksamudre et al. A review on different approaches for speech recognition system
JP3006677B2 (ja) 音声認識装置
JPH07146699A (ja) 音声認識方法
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
JP2745535B2 (ja) 音声認識装置
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
US20030023434A1 (en) Linear discriminant based sound class similarities with unit value normalization
JP2879989B2 (ja) 音声認識方法
Unnibhavi et al. LPC based speech recognition for Kannada vowels
JPS63158596A (ja) 音韻類似度計算装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2574557B2 (ja) 音声認識方法
Womak et al. Improved speech recognition via speaker stress directed classification
JP2943473B2 (ja) 音声認識方法
JP2943445B2 (ja) 音声認識方法
JP2692382B2 (ja) 音声認識方法
US20120116764A1 (en) Speech recognition method on sentences in all languages
JP3277522B2 (ja) 音声認識方法
TWI460718B (zh) 一個辨認所有語言句子方法
JP3289670B2 (ja) 音声認識方法および音声認識装置
JP3115016B2 (ja) 音声認識方法および装置
JP2862306B2 (ja) 音声認識装置
Al Hindawi et al. The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090129

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090129

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100129

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110129

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110129

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120129

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120129

Year of fee payment: 13