JP2879989B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP2879989B2 JP2879989B2 JP3058796A JP5879691A JP2879989B2 JP 2879989 B2 JP2879989 B2 JP 2879989B2 JP 3058796 A JP3058796 A JP 3058796A JP 5879691 A JP5879691 A JP 5879691A JP 2879989 B2 JP2879989 B2 JP 2879989B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- dictionary
- vector
- time
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
単語音声を認識するための方法に関する。
認識するための方法として、図7に示すように、単語の
入力音声を音響分析部71で分析して特徴パラメータを
抽出し、これをあらかじめ多数の話者で作成した単語標
準パターン72とマッチングさせて単語認識部73で単
語類似度を計算し、認識する方法が知られている。例え
ば、“ワードスポッティング手法を用いた不特定話者・
少数語向け音声認識装置”(電子通信情報学会 SP8
8−18)に記載されている方法である。
単語標準パターンを作成するために、実際に330名の
話者が発声した音声データを使用している。330名が
10数字を発声した音声データに対して人間がスペクト
ル波形などを参考にして目視で音声区間を切出して、分
析時間毎に得られる特徴パラメータ(LPCケプストラ
ム係数)の時系列を求め、各単語毎に決められた発声時
間になるように線形に音声データの圧縮を行ない、33
0名分のデータの絶対値によって単語標準パターンを作
成している。未知入力音声とこのようにして作成した標
準パターンとの照合を統計的距離尺度であるマハラノビ
ス距離を用いて行なうことによって、不特定話者の音声
認識を可能にしている。この方法は、統計的距離尺度を
用いて単語標準パターンとの照合、比較を行なうことに
よって、不特定話者のスペクトル変動を統計的に吸収し
ようという考え方に基づいており、統計的距離尺度のた
めの標準パターン作成には、1つの認識単語に対して数
百名以上の話者が発声したデータを必要とする。
方法として、マルチ標準パターンを用いる方法がある。
この方法は、多くのデータを分析して、それらの中から
代表的なものを複数個選択し、複数の単語標準パターン
と未知入力の照合を行なうことによって不特定話者のス
ペクトル変動に対処しようとするものである。この方法
においても、複数の単語標準パターンを作成するために
は、数百名のデータの収集と分析を必要とする。
めの別の方法として、図8に示すような音素認識による
方法がある。単語の入力音声を音響分析部81で分析し
て分析時間(フレーム)毎に特徴パラメータを抽出し、
セグメンテーション部82において入力音声を母音区間
と子音区間に切り分ける。音素標準パターン83はあら
かじめ多数の話者が発声した音声データを音響分析して
音素毎に作成しておく。次に音素認識部84において、
母音区間は母音の音素標準パターンと、子音区間は子音
の音素標準パターンとそれぞれ照合して音素の認識を行
ない、入力音声に対して音素記号列を求める。求められ
た音素記号列を今度は単語認識部85で音素表記された
単語辞書86と照合して単語の類似度を算出し、認識す
る。この方法は、上記した方法に比べ、単語辞書を音素
表記として登録できるため、単語標準パターン作成のた
めに膨大なデータの収集・分析する必要がなく、単語辞
書の変更が容易であるという利点があるが、音素を認識
の基本単位とするため、音素から音素へ時間的に変化す
る部分の情報が利用されず、認識率の点で限界がある。
の単語標準パターンを利用する音声認識方法では、認識
対象音声の単語標準パターン作成にデータの収集、音声
区間の切出しなどの膨大な作業量があり、そのために容
易に認識対象音声を変更できないという問題を有してい
た。
法は、音素から音素への時間的変化の要素が失われて認
識率を高める上で限界があるという問題を有していた。
るものであり、1名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声の認識を可能にし、
容易に認識対象音声が変更でき、しかも高い認識率を得
ることができる音声認識方法を提供することを目的とす
る。
成するために、辞書作成時には、認識対象音声を1名ま
たは数名の少数話者が発声し、これを音響分析して特徴
パラメータを抽出し、今度はこれをあらかじめ多数の話
者で作成した音素標準パターンとマッチングさせてフレ
ーム毎の類似度ベクトルを求め、求められた類似度ベク
トルを類似0が大きいものはより大きくなるように類似
度の強調と正規化を行ない、得られた類似度ベクトルの
時系列を辞書に登録しておき、音声認識時には、不特定
話者の入力音声から辞書登録時と同様にして類似度ベク
トルの時系列を求めて辞書とのマッチングを行ない、も
っとも類似度の大きい認識対象音声を認識結果として出
力するようにしたものである。
して特徴パラメータを抽出し、多数の話者の音声データ
で作成した音素標準パターンとの類似度計算からフレー
ム毎に類似度ベクトルを求め、この類似度ベクトルに強
調関数を施してフレーム毎に正規化することにより、1
名または数名の少数話者の発声した音声の類似度ベクト
ル時系列を辞書として登録するだけで、不特定話者の音
声を精度良く認識することができる。
その前に本発明の基本的な考え方について説明する。
られ、その振動音が調音器官と呼ばれる喉頭、咽頭、
舌、あご、唇などで形成される声道を通る間に様々な変
調を受けて口から音声として出力される。したがって、
ア、イ、ウ、…などの音韻性は声道の形状として与えら
れる。無声音は音源が声帯でない場合もあるが、音韻性
はやはり声道の形状で決められる。ところが、声道を形
成する喉、舌、歯、あご、唇などの形状や寸法は、人ご
とに微妙に異なっており、声帯の大きさも性別や年齢で
異なる。このために、人ごとの声の違いが生じることに
なる。すなわち、人の違いによる声の差異は調音器官の
違いによるところが大きい。
ではなく、単語や文として発せられるとき、声道の形が
時間的に変化する。すなわち、声道の時間的変化によっ
て言葉が形成される。たとえば、「赤い」(akai)と発
声する場合、声道は、あごが開き、舌の後方に狭めのあ
る/a/の発声から喉頭部の閉鎖と急激な開放を伴う破裂
音/k/に移り、さらに再び/a/の形状に戻ってから徐々に
舌を唇側に移動し、口を閉じた/i/に移る。このような
声道の変化パターンは発声しようとしている言葉によっ
て決まるものであり、人の違いによる差異は少ないと考
えられる。
の形状とその時間的な変化に分割して考えると、前者の
みが話者によって異なり、後者は話者による差は小さい
と見なすことができる。したがって、静的な声道の形状
の違いに基づく差異を何等かの方法で正規化できれば、
不特定話者の認識が可能となる。
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節などを短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることができる。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。
異が少ないのであるから、1名から数名の少数話者の情
報を用いれば十分である。したがって、少数話者の単語
や文節などの発声を類似度情報の時間パターンとして辞
書に登録すれば、それは不特定話者用の辞書である。
名から数名の話者が発声した認識対象音声を分析して得
られる特徴パラメータと、あらかじめ多数の話者で作成
したn種類の標準パターンとのマッチングを分析時間で
ある1フレーム毎に行なってn次元の類似度ベクトルの
時系列を求め、この類似度ベクトルを、上位の類似度を
強調するような強調関数に通し、フレーム毎に正規化
し、このようにして求まるn次元の類似度ベクトルの時
系列を辞書として登録しておくようにしたものである。
また、入力音声を認識させる場合は、入力音声も同様に
n種類の標準パターンとマッチングを行ない、辞書登録
時と同様の強調関数に通してフレーム毎に正規化し、得
られたn次元の類似度ベクトルの時系列と前記辞書との
照合を行なうことによって不特定話者の音声認識を行な
うようにしたものである。
名の少数の話者が発声した音声を分析して得られる特徴
パラメータに対して多数の話者で作成したn種類の音素
や音節などの標準パターンとの類似度を単位時間毎(フ
レーム毎)に求める。この類似度は多数の話者で作成し
た汎用性のある標準パターンとのマッチング結果なの
で、n種類の類似度値の相対関係は個人性の影響を受け
にくい。したがって、単位時間毎の類似度の相対関係を
パラメータとして使用すれば不特定話者に対して有効で
ある。
に寄与する部分を強調すればよいため、この類似度ベク
トルを、類似度の大きいところはより大きくし類似度の
小さいところは認識に寄与しないような小さい値にする
強調関数に通す。
類似度の相対関係の特徴を平等にとらえるため、類似度
ベクトルをフレーム毎に正規化する。このようにして求
まるn次元の類似度ベクトルの時系列を辞書として登録
しておく。
として用意したn次元の類似度ベクトルの時系列と、入
力音声から辞書作成時と同様の手続きで得られる類似度
ベクトルの時系列とを照合する。これにより、少数の話
者で作成した辞書で不特定話者の音声を認識することが
できる。本発明では単位時間毎の類似度として、最も信
頼できるものを1つだけ用いるのではなく、複数の候補
を用いているのでより高い認識率を得ることができる。
せで記述できるので、n種類の音素や音節の標準パター
ンは1度作成しておくことにより、認識対象音声を変更
しても常に同じものが使用できる。辞書を変更して他の
音声を認識できるようにするための認識語彙の変更に
は、少数の話者が発声するのみで良い。したがって、簡
単な手続きで不特定話者の音声認識が可能であり、さら
に、語彙の変更などに対して柔軟性のある認識装置の実
現が可能になる。
を参照しながら説明する。図1において、1は音響分析
部、2は特徴パラメータ抽出部、3は標準パターン格納
部、4は類似度計算部、5は強調による類似度の正規化
部、6はパラメータ時系列作成部、7は辞書格納部、8
はパターンマッチング部である。
の音声を辞書に登録する場合について説明する。すなわ
ち、本実施例ではまず最初に、1名の発声した認識対象
音声を入力音声として辞書を作成しておき、認識時には
その辞書を用いて不特定話者の入力音声の認識を行な
う。
響分析部1で分析時間であるフレーム(本実施例では1
フレーム=10msec)毎に線形予測係数(LPC)を求
める。
ケプストラム係数(C0〜C8まで9個)を求める。
くの話者が発声したデータから作成したn種類の音素標
準パターンを格納してある。本実施例ではn=20と
し、/a/,/o/,/u/,/i/,/e/,/j/,/w/,/m/,/n/,/
/k/ の20個の音素標準パターンを使用する。音素標準
パターンは各音素の特徴部(その音素の特徴をよく表現
する時間的な位置)を目視によって正確に検出し、この
特徴フレームを中心とした特徴パラメータの時間パター
ンを使用して作成する。本実施例では時間パターンとし
て、特徴フレームの前8フレーム、後3フレーム、計1
2フレーム分のLPCケプストラム係数(C0〜C8)
によってパラメータ時系列を構成する。そして多くの人
が発声した多量のデータに対してパラメータ時系列を抽
出し、各要素の平均値ベクトルμpと要素間の共分散行
列Σを求め標準パターンとする。このように本実施例で
用いている音素標準パターンは複数フレームの特徴パラ
メータを使用しており、パラメータの時間的動きを考慮
して標準パターンを作成しているのが特徴である。
ラメータ抽出部2で得られた特徴パラメータ(LPCケ
プストラム係数)との類似度を類似度計算部4でフレー
ム毎に計算する。すなわち、入力を1フレームずつシフ
トさせながら標準パターンとマッチングを行ない、図2
のような類似度の時系列を求める。本実施例では類似度
計算の距離尺度として共分散行列を共通化したマハラノ
ビス距離を用いる。入力と音素pの標準パターンとの類
似度計算のためのマハラノビス距離dpは、以下の(数
1)で表される。ここで、xは入力の時間パターンであ
る12フレーム分の特徴パラメータによって構成された
ベクトルである。
と、 次の(数2)のように簡単な式に展開できる。共通
化された共分散行列をΣとする。
2)を用いる。ap、bpが音素pに対する標準パターン
であり、標準パターン格納部3にあらかじめ格納されて
いる。このようにして得られた20種類の音素標準パタ
ーンに対する類似度を要素とするベクトル(図2の斜線
部分)を、類似度ベクトルと呼ぶことにする。
算部4で求められた類似度ベクトルを、上位の類似度を
強調するような強調関数に通し、フレーム毎に最大値が
1、最小値が0となるよう正規化する。これを全フレー
ムに亙って行ない、パラメータ系列作成部6で類似度ベ
クトルの時系列を作成する。
毎に求まった類似度のベクトルを、次のように変換す
る。まず類似度ベクトルの20個の要素を大きい順に並
べ(値が大きい方がその音素標準パターンに類似してい
るとする。)、第1位の類似度が1、第k位の類似度が
0となるように、第1位から第k位までの類似度の値を
線形に1〜0に変換する。第k+1位から第20位まで
はすべて0とし、新しく20個の要素からなる類似度ベ
クトルを求める。すなわち、類似度ベクトルをa=(a
1,a2,…,ai,…,a20)とすると、強調関数Fは
次の(数3)のように表される。ここでMは類似度の最
大値、Mkは第k位の類似度の値である。
位の音素に対する類似度が強調されるようになる。ま
た、MおよびMkの値はフレーム毎に異なるため、F
(ai)もフレーム毎に異なるが、常にフレーム内での
最大値は1、最小値は0となり、フレーム毎に正規化さ
れることになる。このようにフレーム毎に正規化を行な
うのは、音素標準パターンを特徴フレーム周辺の特徴パ
ラメータの時間パターンから作成しているため、音素の
渡り(遷移)の部分ではどの音素標準パターンに対する
類似度も全体的に小さくなり、フレーム毎に正規化を行
なわないと、音素の渡りの部分における類似度の相対関
係の特徴が過小評価されてしまうからである。そこでフ
レーム毎に正規化を行ない、全音声区間に亙って類似度
の相対関係を平等に扱えるようにする。
類似度ベクトルを求め、パラメータ時系列作成部6で類
似度ベクトルの時系列を作成する。図3は図2の類似度
ベクトルの時系列を強調・正規化したあとの類似度ベク
トルの時系列の例である。ここで斜線部の類似度ベクト
ルに注目すると、図2において類似度が最大値となる音
素/ a/の類似度を1、第k位(例えば音素/p/ とする)
の類似度を0となるように第1位から第k位までを線形
に変換し、第k+1位以下の小さな値はすべて0として
いる。
時ともに同じである。
音声を入力音声として入力し、求められた類似度ベクト
ルの時系列を辞書格納部7に登録する。
から類似度ベクトルの時系列を求め、パターンマッチン
グ部8において、辞書格納部7にある類似度ベクトルの
時系列とをマッチングし、最もスコアの大きい辞書項目
を認識結果とする。本実施例ではマッチング方法として
DPマッチングを行なう。DPマッチングを行なう漸化
式の例を(数4)に示す。ここで、辞書の長さをJフレ
ーム、入力の長さをIフレーム、第iフレームと第jフ
レームの距離関数をl(i,j)、累積類似度をg
(i,j)とする。
実施例ではユークリッド距離を用いる。入力音声のiフ
レームにおける類似度ベクトルをa=(a1,a2,…,
a20)、辞書のjフレームにおける類似度ベクトルをb
=(b1,b2,…,b20)とすると、ユークリッド距離
を用いた場合のl(i,j)は、(数5)のようにな
る。
調し、下位の音素に対する類似度を一律に0としたベク
トル間のユークリッド距離を求めることにより、上位の
音素に対する類似度の動きを強調してとらえ、下位の音
素に対する類似度の動きは無視することができる。ま
た、フレーム毎に正規化を行なうことによって、音素の
渡りの部分における類似度の相対関係の特徴を、特徴フ
レーム周辺と同等の重みで扱うことができるようにな
る。したがってこのような強調・正規化をすることによ
り、高い認識率を得られる。
録する場合について説明を行なう。認識方法はすでに述
べた1名の発声から辞書を登録した場合と同様である。
まず最初に複数話者の発声した同一音声をDPマッチン
グにより時間調整を行なって1つの辞書として登録する
方法について説明し、次に複数話者の発声した同一音声
をマルチ標準パターンとして辞書に登録する方法につい
て説明する。
同一音声を、認識する場合と同様にDPマッチングを行
ない時間整合を行なう。時間整合について図4を用いて
説明を行なう。図4は「赤い」(akai)と2名の話者が
発声した例である。話者によって発声の時間長が異なる
ので、2名の話者の同一の認識対象音声間でDPマッチ
ングを行ない、その結果からDPパスを逆トレースし時
間整合を行なう。時間整合することによって、同じ音素
の区間(/a/,/k/,/a/,/i/)が整合するようになる。そ
してこの時間的に整合したフレーム間で各類似度の平均
値を求め、その時系列を辞書として登録する。
iフレームと話者2の第jフレームが時間的に整合する
場合は、話者1の第iフレームの類似度ベクトルをc=
(c 1,c2,…,c20)、話者2の第jフレームをe=
(e1,e2,…,e20)とすると、新しくf=((c1
+e1))/2,(c2+e2)/2,…,(c20+
e20)/2)を求め、この類似度ベクトルfを辞書のi
フレームの類似度ベクトルとして登録する。こうするこ
とによって、辞書の精度を向上させ、より高い認識率を
得ることができる。
準パターンとして辞書に登録するときは、認識対象音声
を複数話者が発声した音声の類似度ベクトル時系列をそ
のまま辞書として複数個登録する。この場合は、辞書項
目毎に複数個登録されている標準パターンの中のどの辞
書で認識されてもその辞書項目を認識したものとする。
書を作成する場合、辞書パターンの男女差を減らすた
め、男女各1名ずつまたは男女ほぼ同数の発声によって
辞書を作成する。
びその結果について説明する。実験は、212単語を発
声した20名のデータを用い、20名の中の1名が21
2単語を発声したデータを辞書として登録し、他の19
名の発声した212単語を認識する方法で行なった。実
験の結果、88.5%という認識率を得ることができ
た。これに対し、音素標準パターンとのマッチングによ
り得られた類似度の時系列をそのまま使用し、フレーム
毎に正規化を行なわなかった場合の認識率は、82.1
%であり、類似度の強調効果が認識率に大きく寄与して
いることが明らかになった。
その話者と異性の話者の認識率は平均86.0%であ
り、同性の話者の音声の平均認識率91.4%に比べ5
%程度低い。そこで、男女各1名の計2名が発声した認
識対象音声から得られる類似度ベクトルの時系列を平均
化した時系列パターンを辞書として使用すると、男女差
が解消されるため、93.4%という高い認識率が得ら
れた。男女各1名の計2名が発声した音声を平均化しな
いで2つとも辞書として登録するマルチ標準パターンを
用いた方法では、93.2%という認識率が得られた。
ラメータを抽出し、多数の話者の音声データで作成した
音素標準パターンとの類似度計算からフレーム毎に類似
度ベクトルを求め、この類似度ベクトルに強調関数を施
してフレーム毎に正規化することにより、1名または数
名の少数話者の発声した音声の類似度ベクトル時系列を
辞書として登録するだけで、入力音声の類似度ベクトル
時系列と辞書とのDPマッチングにより不特定話者の音
声を精度良く認識することができる。
似度の値の大きい部分を強調するような強調関数に通
し、その時間変化量を表す回帰係数を併用して、相関余
弦(correlation cosine)によって認識を行なう本発明
の第2の実施例について、図5を参照して説明する。
特徴パラメータ抽出部、13は標準パターン格納部、1
4は類似度計算部、15は類似度の強調部、16は類似
度の正規化部、17は回帰係数計算部、18は回帰係数
の正規化部、19はパラメータ時系列作成部、20は辞
書格納部、21はパターンマッチング部である。
実施例と同様に入力音声を音響分析部11で分析して特
徴パラメータ抽出部12で特徴パラメータを求め、あら
かじめ標準パターン格納部13に登録してある音素標準
パターンとフレーム毎にマッチングし、類似度ベクトル
の時系列を類似度計算部14で求める。
計算部14で求められた類似度を指数関数である強調関
数Gに通すことによって、値の大きい類似度がより大き
くなるよう変換する。この強調関数Gは、入力音声の類
似度ベクトルをa=(a1,a2,a3,…,ai,…,a
20)とすると(数6)で表される。
な定数であり、この式により全フレームに対して新たに
類似度ベクトルを計算する。
のn次元の類似度ベクトルをフレーム毎に大きさ1に正
規化して新たな類似度ベクトルを作成する。これを式で
表すと(数7)のようになる。
似度ベクトルをa’=(a1’,a2’,a3’,…,
ai’,…,a20’)とし、大きさ1にしたベクトルを
a”=(a1”,a2”,a3”,…,ai”,…,
a20”)とする。フレーム毎の類似度ベクトルの大きさ
を1にすることにより、全音声区間に亙って類似度の相
対関数の特徴を平等に扱うことができるようになる。
各類似度の時系列に対して類似度の時間的変化量である
回帰係数(n個)をフレーム毎に求める。回帰係数は、
各音素に対する類似度のそれぞれの時間方向の傾きであ
る。すなわち、例えばまず音素/a/の標準パターンに対
する類似度の時系列の、あるフレームの前後2フレーム
の類似度値(計5フレームの類似度値)の最小2乗近似
直線の傾き(類似度の時間的変化量)を求める。これを
(数8)に示す。
音素/a/に対する類似度の時系列を表し、K(/a/)は時
刻t+2における音素/a/の回帰係数である。これを各
音素に対する類似度について20個求め、さらに1フレ
ーム毎に全フレームに対して求め、回帰係数ベクトルの
時系列とする。
同様に回帰係数ベクトルをフレーム毎に大きさ1に正規
化する。
数関数によって強調を施した大きさ1のn次元の類似度
ベクトルおよびそこから求めた大きさ1のn次元の回帰
係数ベクトルの時系列の両方をパラメータ時系列とす
る。
もに同じであり、辞書作成時には、第1の実施例と同様
にまず最初に1名の発声した認識対象音声を入力音声と
して辞書を作成し、認識時にはその辞書を用いて不特定
話者の入力音声の認識を行なう。
19で求められたパラメータ時系列を辞書格納部20に
登録する。なお、第1の実施例で既に述べた方法と同様
にして、2名以上の少数話者の発声した同一音声から辞
書を作成し登録してもよい。
おいて、辞書登録時と同様の方法で求めたパラメータ時
系列と辞書格納部20にあるパラメータの時系列とを相
関余弦を用いてDPマッチングし、もっとも類似度の大
きい辞書項目を認識結果とする。DPマッチングを行な
う漸化式は第1の実施例で用いた(数4)と同様である
が、距離関数1(i,j)の距離尺度として本実施例で
は相関余弦を用いる。回帰係数を併用して相関余弦を用
いた距離関数1(i,j)は、(数9)で表される。
似度ベクトルをa=(a1,a2,…,a20)、回帰係数
ベクトルをc=(c1,c2,…,c20)、辞書のjフレ
ームにおける類似度ベクトルをb=(b1,b2,…,b
20)、回帰係数ベクトルをd=(d1,d2,…,d20)
とする。wは類似度と回帰係数の混合比率であり、0.
4から0.6がよい。実際にはすでに類似度ベクトル、
回帰係数ベクトルとも大きさ1に正規化されているた
め、それぞれ内積を求め、w:(1−w)の重みで足し
合わせるだけでよい。すなわち(数10)のようにな
る。
よびその結果について説明する。実験は、212単語を
発声した20名のデータを用い、20名の中の1名が2
12単語を発声したデータを辞書として登録し、他の1
9名の発声した212単語を認識する方法で行なった。
図1に示す第1の実施例に対しこの第2の実施例におけ
る回帰係数ベクトルを併用すると、90.3%の単語認
識率が得られた。これは回帰係数を併用しない88.5
%に比べ1.8%向上している。また、図5に示す第2
の実施例の方法で回帰係数を併用すると91.6%とな
り、さらに1.3%の認識率の向上がみられた。
た単語音声を平均化したデータを辞書として登録し、残
り18名の単語音声を評価すると95.9%の高い認識
率が得られた。
その回帰係数を併用して相関余弦を用いたパターンマッ
チングを行なうことにより認識率が向上する。
類似度ベクトルを指数関数で強調して大きさ1に正規化
したものに対して求めたが,図6に示すように、類似度
の正規化部16で大きさ1にする前に,類似度の強調部
15における指数関数で強調した類似度系列に対して求
めてもよい。
て得られた特徴パラメータに対してあらかじめ多くの話
者で作成したn種類の標準パターンとの類似度計算を行
なって類似度系列を求め,強調関数を通してフレーム毎
に類似度の大きいものがより大きくなるように類似度を
強調し、n次元の類似度ベクトルまたはn次元の類似度
ベクトルとそのn次元回帰係数ベクトルを音声認識のた
めの特徴パラメータとすることによって、1名から数名
の少数の話者が発声した認識対象音声を辞書として登録
するだけで、精度良く高い認識率で不特定話者の音声認
識を行なうことができる。
り、また認識対象音声を変更したい場合には、1名また
は数名の少数の話者が発声した音声データを辞書として
登録するだけで更新できる。
することにより、より高い認識率を得ることができる。
音声データから辞書を作成することにより、さらに高い
認識率を得ることができる。
認識装置の性能向上および種々の用途へ適用するための
柔軟性の向上に対して極めて大きく貢献するものであ
る。
施するための機能ブロック図
例を示す時系列図
トルの時系列の一例を示す時系列図
る時間整合の一例を示す模式図
ック図
ック図
ロック図
Claims (8)
- 【請求項1】 辞書作成時には、認識対象音声を1名か
ら数名の少数の話者が発声し、分析時間であるフレーム
毎にm個の特徴パラメータを求め、あらかじめ多数の話
者で作成しておいたn種類の標準パターンとマッチング
を行なってフレーム毎にn個の類似度を求め、前記求め
られたn次元の類似度ベクトルを類似度の大きいものが
より大きくなるような強調関数に通しフレーム毎に正規
化して作成したn次元の類似度ベクトルの時系列パター
ンを辞書として登録し、入力音声を認識させるときは、
入力音声を音響分析してフレーム毎に求めたm個の特徴
パラメータと前記n種類の標準パターンとマッチングを
行なってn次元の類似度ベクトルを求め、これを辞書作
成時と同様の強調関数を通して類似度ベクトルの時系列
を作成し、この類似度ベクトルの時系列を前記辞書に登
録されている類似度ベクトルの時系列パターンと照合
し、入力音声を認識することを特徴とする音声認識方
法。 - 【請求項2】 強調関数を施したn次元の各類似度ベク
トルの時系列のそれぞれの次元に対して類似度の時間変
化量をフレーム毎にn個求め、この類似度の時間変化量
のn次元ベクトルと類似度のn次元ベクトルを併用して
時系列パターンを作成することを特徴とする請求項1記
載の音声認識方法。 - 【請求項3】 入力音声と辞書との照合の際、それぞれ
フレーム毎に正規化した入力音声の類似度ベクトルまた
は類似度ベクトルとその時間変化量ベクトルと、辞書音
声の類似度ベクトルまたは類似度ベクトルとその時間変
化量ベクトルとの距離によって照合することを特徴とす
る請求項1または2記載の音声認識方法。 - 【請求項4】 強調関数として、類似度ベクトルの要素
を大きい順に並べたときの第1位から第k位までを選択
して用い、第k+1位以下は最低値とする関数を用いて
順位の重み付けを行ない、入力音声と辞書との照合の距
離尺度としてユークリッド距離を用いることを特徴とす
る請求項1または2記載の音声認識方法。 - 【請求項5】 強調関数として値の大きいものがより大
きくなるような指数関数を用い、入力音声と辞書との照
合の距離尺度として相関距離を用いることを特徴とする
請求項1または2記載の音声認識方法。 - 【請求項6】 同一の認識対象音声を2名以上の話者が
発声し、それぞれ分析して得られるn次元類似度ベクト
ルまたはn次元類似度ベクトルとn次元時間変化量ベク
トルの時系列に対して、DPマッチングによって話者間
の時間整合を行ない、時間的に整合したフレーム間で各
類似度の平均値を求め、その平均値の時系列パターンを
辞書に登録することを特徴とする請求項1または2記載
の音声認識方法。 - 【請求項7】 同一の認識対象音声を2名以上の話者が
発声し、それぞれ分析してn次元類似度ベクトルまたは
n次元類似度ベクトルとn次元時間変化量ベクトルの時
系列を複数個求め、これらを辞書として登録してマルチ
標準パターンとして使用することを特徴とする請求項1
または2記載の音声認識方法。 - 【請求項8】 2名以上の話者の発声によって辞書を作
成する際、男女各1名ずつまたは男女ほぼ同数の発声に
よって辞書を作成する請求項6または7記載の音声認識
方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3058796A JP2879989B2 (ja) | 1991-03-22 | 1991-03-22 | 音声認識方法 |
US07/808,692 US5345536A (en) | 1990-12-21 | 1991-12-17 | Method of speech recognition |
DE69127961T DE69127961T2 (de) | 1990-12-21 | 1991-12-19 | Verfahren zur Spracherkennung |
EP91121856A EP0492470B1 (en) | 1990-12-21 | 1991-12-19 | Method of speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3058796A JP2879989B2 (ja) | 1991-03-22 | 1991-03-22 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04293095A JPH04293095A (ja) | 1992-10-16 |
JP2879989B2 true JP2879989B2 (ja) | 1999-04-05 |
Family
ID=13094545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3058796A Expired - Lifetime JP2879989B2 (ja) | 1990-12-21 | 1991-03-22 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2879989B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016036163A3 (ko) * | 2014-09-03 | 2016-04-21 | 삼성전자 주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5078032B2 (ja) * | 2008-09-29 | 2012-11-21 | 国立大学法人 名古屋工業大学 | 音源同定方法及び音源同定装置 |
JP6845544B2 (ja) * | 2017-10-20 | 2021-03-17 | 株式会社竹村製作所 | 異音評価装置及び異音評価方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60200296A (ja) * | 1984-03-23 | 1985-10-09 | 株式会社東芝 | 音声認識装置 |
JPS60202488A (ja) * | 1984-03-28 | 1985-10-12 | 松下通信工業株式会社 | 単語音声認識方法 |
JPS60209794A (ja) * | 1984-03-31 | 1985-10-22 | 株式会社東芝 | パタ−ンマツチング方法 |
US4585752A (en) * | 1984-08-15 | 1986-04-29 | W. R. Grace & Co. | Catalyst composition for ultra high temperature operation |
JPS6217760A (ja) * | 1985-07-16 | 1987-01-26 | Sharp Corp | 複写装置 |
JP2601448B2 (ja) * | 1985-09-19 | 1997-04-16 | 株式会社リコー | 音声認識方法及びその装置 |
JPH0677199B2 (ja) * | 1985-12-20 | 1994-09-28 | キヤノン株式会社 | 音声認識装置 |
JPH0823758B2 (ja) * | 1988-02-24 | 1996-03-06 | 日本電信電話株式会社 | 話者適応形音声認識装置 |
JPH02248999A (ja) * | 1989-03-22 | 1990-10-04 | Ricoh Co Ltd | 音声認識方式 |
-
1991
- 1991-03-22 JP JP3058796A patent/JP2879989B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
IEEE Transactions on Acoustics,Speech and Signal processing,Vol.ASSP−34,No.1,p.52−59(1986) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016036163A3 (ko) * | 2014-09-03 | 2016-04-21 | 삼성전자 주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JPH04293095A (ja) | 1992-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saksamudre et al. | A review on different approaches for speech recognition system | |
JP3006677B2 (ja) | 音声認識装置 | |
JPH07146699A (ja) | 音声認識方法 | |
US20010010039A1 (en) | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector | |
US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
JP2745535B2 (ja) | 音声認識装置 | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
US20030023434A1 (en) | Linear discriminant based sound class similarities with unit value normalization | |
JP2879989B2 (ja) | 音声認識方法 | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
JPS63158596A (ja) | 音韻類似度計算装置 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP2574557B2 (ja) | 音声認識方法 | |
Womak et al. | Improved speech recognition via speaker stress directed classification | |
JP2943473B2 (ja) | 音声認識方法 | |
JP2943445B2 (ja) | 音声認識方法 | |
JP2692382B2 (ja) | 音声認識方法 | |
US20120116764A1 (en) | Speech recognition method on sentences in all languages | |
JP3277522B2 (ja) | 音声認識方法 | |
TWI460718B (zh) | 一個辨認所有語言句子方法 | |
JP3289670B2 (ja) | 音声認識方法および音声認識装置 | |
JP3115016B2 (ja) | 音声認識方法および装置 | |
JP2862306B2 (ja) | 音声認識装置 | |
Al Hindawi et al. | The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080129 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090129 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090129 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100129 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110129 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110129 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120129 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120129 Year of fee payment: 13 |