[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2001175276A - 音声認識装置及び記録媒体 - Google Patents

音声認識装置及び記録媒体

Info

Publication number
JP2001175276A
JP2001175276A JP35907699A JP35907699A JP2001175276A JP 2001175276 A JP2001175276 A JP 2001175276A JP 35907699 A JP35907699 A JP 35907699A JP 35907699 A JP35907699 A JP 35907699A JP 2001175276 A JP2001175276 A JP 2001175276A
Authority
JP
Japan
Prior art keywords
reliability
speech recognition
result
pattern matching
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP35907699A
Other languages
English (en)
Inventor
Norihide Kitaoka
教英 北岡
Ichiro Akahori
一郎 赤堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP35907699A priority Critical patent/JP2001175276A/ja
Publication of JP2001175276A publication Critical patent/JP2001175276A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】認識結果に対する信頼度を適切に評価可能な指
標としての正解確率を得ることで、アプリケーション構
築を容易ならしめる音声認識装置を提供する。 【解決手段】正解確率推定部14は、パターンマッチン
グ部13から「信頼度評価用特徴量」として、単語と音
節連接モデルの尤度比や、単語内の音節の継続時間の分
散に基づいて認識結果の正解確率の推定を行い、出力す
る。したがって、対話制御部50は、パターンマッチン
グ部13から出力された認識結果に対応する正解確率を
正解確率推定部14から取得できる。つまり対話制御部
50は、例えば正解確率が95%の認識結果であれば確
信して対話を進めるが、50%ならば確認を求める、と
いった誤認識を考慮した対処を行うことができる。ま
た、信頼度として正解確率を用いているので、アプリケ
ーション構築する際、信頼度を直観的に理解できるとい
う効果もある。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識結果に対
する絶対的な信頼度を推定することによって、その認識
結果を用いる外部のアプリケーション用装置、あるいは
音声認識装置内部にてその信頼度に基づく評価を行える
ようにする技術に関する。
【0002】
【従来技術】音声言語の認識と理解の能力は、人間の脳
の高次機能の1つである。人間にとってはあまりにも簡
単であり、当然のことであるので、コンピュータなどを
利用すれば、音声を自動的に認識・理解することもそう
難しいことではないと考えられがちである。しかし、こ
のような大脳の高次機能を現在のコンピュータによって
実現することは、一般に簡単でない。コンピュータの性
能が十分でないこともその一因であるが、それ以上に、
コンピュータにそのような機能を持たせるには何をどの
ようにすればよいのか、そのための確実な方法が知られ
ていないことである。
【0003】したがって、従来の音声認識では、その認
識結果があやふやな認識処理(例えばノイズがあって非
常に判りにくい声を認識した結果である、など)によっ
て得られたものか、あるいは確信を持って得られた結果
なのか、を判定できない。また、認識語彙にない発声を
認識した場合に、「判らない」と応えることができず、
何らかの認識結果を返してしまうという問題がある。
【0004】これに対して、Sukkarらは、認識時
に得られる確からしさ(尤度)の比を信頼度として用い
て語彙外単語の認識結果をリジェクトする方法を提案し
ている[参考文献1…R.A.Sukkar and C.-H.Lee.``Voca
bulary independent discriminative utterance verihi
cation for nonkeyword rejection in subword basedsp
eech recognition'',IEEE Trans.on Speech and Audi
o Processing, Vol.4,No.6, pp.420-429,1996.]。
【0005】
【発明が解決しようとする課題】しかし、この手法にあ
っては、尤度比が大きいほど信頼度が低く、逆に尤度比
が小さいほど信頼度が高いこと(つまり、信頼度の相対
的な高低関係)は判定できるが、信頼度の絶対的な高
さ、つまり、『どの程度の値がどの程度の信頼度となる
か』に関しては何ら言及していない。このように、その
数値を適切に評価するための意味付けがなされていない
ので、音声認識の結果に基づくアプリケーション処理を
考えた場合、そのアプリケーション処理においては、ど
のように対処してよいかが判らなくなる。
【0006】そこで、本発明は、認識結果に対して信頼
度を適切に評価可能な指標としての正解確率を付与する
ことによって、アプリケーション構築を容易にすること
が可能な音声認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段及び発明の効果】上記第1
の目的を達成するためになされた請求項1に記載の音声
認識装置は、音響分析手段、特徴抽出手段及びパターン
マッチング手段を備えており、外部から入力された音声
を所定周期で音響的に分析し、その分析された結果を基
に特徴パラメータを抽出し、その抽出された特徴パラメ
ータを予め記憶されている複数の比較対象パターンと比
較して一致度合いの高いものを認識結果とする。そし
て、信頼度推定手段が、音響分析手段、特徴抽出手段あ
るいはパターンマッチング手段の少なくとも何れかにお
いて得られる所定の信頼度評価用特徴量に基づき、認識
結果の絶対的な信頼度を推定する。
【0008】従来技術における問題点に対しては次のよ
うな分析ができる。つまり、パターンマッチングによっ
て得られる尤度は、比較対象パターンとの一致度合いを
示すものであり、あくまで相対的なものである。つま
り、尤度比が一番大きなものを選択したとしても、それ
は相対的に一致度合いが高いだけであり、実際に入力さ
れた音声に対してその認識結果がどの程度正しいかに関
しては、適切な評価ができない。そこで、本発明では、
認識結果に対する信頼度を絶対的な観点で評価可能な指
標としての「信頼度」を、音響分析手段、特徴抽出手段
あるいはパターンマッチング手段の少なくとも何れかに
おいて得られる所定の信頼度評価用特徴量に基づいて推
定するようにしたのである。
【0009】このような信頼度推定手段によって推定し
た信頼度をどのように用いるかについては、大きく分け
て次の(A),(B)に示す2つが考えられる。 (A)推定された信頼度を認識結果と共に出力する。例
えば請求項2に示すように、パターンマッチング手段は
認識結果を外部へ出力し、信頼度推定手段はパターンマ
ッチング手段から出力される認識結果に対応する信頼度
を推定して外部へ出力する。したがって、この音声認識
装置からの認識結果を基に動作するアプリケーション用
装置(例えばナビゲーション装置)があった場合には、
出力された認識結果と信頼度に基づき動作を変えること
ができる。例えば信頼度が低いから採用しない、とか、
信頼度が高ければ認識直後にコマンドを実行するが、低
い場合はユーザに確認を求めてからコマンドを実行す
る、といったことである。
【0010】この場合は、音響分析手段、特徴抽出手段
はもちろん、パターンマッチング手段に関しても、従来
と同様の構成でよく、信頼度推定手段が、それらの各手
段から信頼度評価用情報を得られるようにすればよいだ
けである。 (B)推定された信頼度を用いて、パターンマッチング
手段における認識結果を検証する。
【0011】これにはさらに次の、に示す2つの検
証手法が考えられる。 1つ目の検証手法は、例えば請求項3に示すものであ
る。つまり、パターンマッチング手段は、認識した最終
結果を無条件で出力するのではなく、信頼度推定手段に
より推定された信頼度に基づく検証を行う。そして、そ
の検証の結果、信頼度が低い場合には認識結果を外部へ
出力しないようにするのである。これによって、アプリ
ケーション用装置における誤動作を防止できる。
【0012】2つ目の検証手法は、例えば請求項4に
示すものである。つまり、パターンマッチング手段は、
認識途上の中間結果に対して、信頼度推定手段によって
推定された信頼度に基づく検証を行う。そして、その検
証の結果、信頼度が低い場合には中間結果を棄却するの
である。具体例に基づいてさらに説明する。前提とし
て、例えば「愛知県刈谷市昭和町」という地名を認識す
る場合、「愛知県刈谷市昭和町」という単位の認識結果
に尤度を付与することを考えられる。このようにした場
合には、「愛知県刈谷市昭和町」と「秋田県刈谷市昭和
町」という2つの認識結果について、前者の尤度の方が
後者よりも大きいので、前者を認識結果として出力す
る、といった具合である。これに対して、本手法では、
例えば「愛知県」、「刈谷市」、「昭和町」とというよ
うな相対的に短い検証単位で、信頼度による検証を行
う。したがって、例えば「秋田県」という中間結果に対
する検証の結果、その中間結果を棄却することとなる。
【0013】このようにすることで、計算量を削減し、
且つ誤りを出力してしまうことを防止できる。なお、必
ずしも都道府県市町村という単位で区切る必要はなく、
所定時間で区切ってもよい。その場合「あいちけんか」
の段階で検証単位となることもある。計算量の削減につ
いて補足する。例えば、愛知県…ではじまる認識結果候
補が10個、秋田県…ではじまる認識結果候補が10個
得られたとする。それぞれに対応する尤度に基づいて、
出力する認識結果を選択するのが従来手法である。この
場合には、20個の認識結果候補を得るための処理を実
行しなくてはならない。それに対して、秋田県と認識し
た段階でその中間結果を棄却すれば、結果的には、秋田
県…ではじまる10個分の候補を得る処理が早い段階で
終了する。したがって、計算量が減少する。
【0014】なお、実際には、単に愛知県と秋田県とい
う認識内容の違いだけでなく、認識段階の違いも存在す
る。例えば実際には「あいちけんか」まで認識されてい
るはずの場合に、正しく「あいちけんか」が中間結果と
して得られると共に、「あいちけん」までしか認識され
ていない中間結果も得られる可能性がある。この場合に
は、「あいちけん」という中間結果を棄却することで、
やはり、計算量の削減及び誤り出力防止の効果が得られ
る。
【0015】ところで、信頼度としては、請求項5に示
すように、認識結果が正解である確率(正解確率)に基
づいて推定することが考えられる。これは、アプリケー
ション構築する際、信頼度を直観的に理解できる意味付
けがある方が望ましいと考えられるため、そのような直
観的に理解できる意味付けの一例として「正解確率」と
いう概念を採用したのである。例えば対話システムを考
えた場合、請求項2のように認識結果と信頼度である正
解確率とを対応付けて出力すれば、例えば正解確率が9
5%の認識結果であれば確信して対話を進めるが、50
%ならば確認を求める、といった誤認識を考慮した対処
を行うことができる。
【0016】この正解確率に関しては、例えば請求項6
に示すように、信頼度評価用特徴量に対する正解確率
を、近似関数を用いて表現することが考えられる。関数
表現にした場合には、自乗誤差によって近似度合いの良
さが定義でき、関数評価が可能となる。この近似関数と
しては、発明の実施形態にて説明するようなシグモイド
関数などが考えられる。
【0017】続いて、信頼度評価用特徴量について説明
する。この信頼度評価用特徴量は、音響分析手段、特徴
抽出手段あるいはパターンマッチング手段の何れかにお
いて得られるものであるため、各手段にて得られる信頼
度評価用特徴量の具体例を説明する。なお、これらの具
体例に限定されないことは当然である。
【0018】(1)パターンマッチング手段にて得られ
る信頼度評価用特徴量について 例えば請求項7に示すように、尤度の比又は音節継続時
間長に基づく特徴量の少なくとも何れか一方であること
が考えられる。ここで、「尤度の比」とは、ある単語の
音声認識結果の尤度と、別に用意した対抗モデルの尤度
との比(一般的には、対数尤度における差が用いられ
る。)である。この尤度比を用いた信頼度(正解確率)
の推定例については、発明の実施形態の欄にて説明す
る。
【0019】また、「音節継続時間長に基づく特徴量」
としては、例えば請求項8に示すように、音節継続時間
長そのもの、音節継続時間長の単語内分散又は音節継続
時間長の単語内平均などが考えられる。この音節継続時
間長に基づく特徴量を用いた信頼度(正解確率)の推定
例については、「音節継続時間長の単語内分散」を用い
た例を発明の実施形態の欄にて説明する。
【0020】(2)音響分析手段にて得られる信頼度評
価用特徴量について 例えば請求項9に示すように、音響分析自体の成功度合
いを示す特徴量であることが考えられる。そして、この
「音響分析自体の成功度合いを示す特徴量」としては、
請求項10に示すように、音響分析手段にて得られるノ
イズ度合いが考えられる。これは、成功度合いを間接的
に示す特徴量である。また、請求項11に示すように、
音響分析手段がLPC(Linear Predictive Coding)を
用いて音響分析をする場合には、LPC残差を、音響分
析自体の成功度合いを示す特徴量としてもよい。
【0021】(3)特徴抽出手段にて得られる信頼度評
価用特徴量について 例えば請求項12に示すように、特徴抽出手段がケプス
トラム分析法によって特徴パラメータを抽出する場合に
は、ケプストラム係数を信頼度評価用特徴量とすること
が考えられる。
【0022】なお、請求項13に示すように、以上説明
した音声認識装置における信頼度推定手段をコンピュー
タシステムにて実現する機能は、例えば、コンピュータ
システム側で起動するプログラムとして備えられる。こ
のようなプログラムの場合、例えば、フロッピーディス
ク、光磁気ディスク、CD−ROM、DVD、ハードデ
ィスク等の記録媒体に記録し、必要に応じてコンピュー
タシステムにロードして起動することにより用いること
ができる。この他、ROMやバックアップRAMを記録
媒体として前記プログラムを記録しておき、このROM
あるいはバックアップRAMをコンピュータシステムに
組み込んで用いても良い。
【0023】また、請求項14に示すように、上述の信
頼度推定手段に加え、パターンマッチング手段としても
コンピュータシステムを機能させるためのプログラムを
記録媒体に記録してもよいし、さらには、以上説明した
音声認識装置における各手段をコンピュータシステムに
て実現する機能を全て記録媒体に記録するようにしても
よい。
【0024】推定された信頼度の用い方として、推定さ
れた信頼度を認識結果と共に出力する点を述べた(上述
の(A)参照)。この場合には、音響分析手段、特徴抽
出手段はもちろん、パターンマッチング手段に関して
も、従来と同様の構成でよく、信頼度推定手段が、それ
らの各手段から信頼度評価用情報を得られるようにすれ
ばよいだけである。したがって、このような用い方をす
る場合には、請求項13に示すように、信頼度推定手段
をコンピュータシステムにて実現する機能を記録媒体に
記録し、その記録媒体を、音響分析手段、特徴抽出手段
及びパターンマッチング手段を備える(例えば従来の)
音声認識装置に追加する、といった適用方法が考えられ
る。
【0025】
【発明の実施の形態】[第1実施形態]図1は本発明の
第1実施形態の音声認識装置10の概略構成を示すブロ
ック図である。本音声認識装置10は、マイクロフォン
30を介して入力された音声を認識し、その認識結果及
び後述する正解確率を、アプリケーション用装置として
の対話制御部50へ出力するものである。
【0026】音声認識装置10は、音響分析部11と、
特徴抽出部12と、パターンマッチング部13と、正解
確率推定部14とを備えている。なお、これら音響分析
部11、特徴抽出部12、パターンマッチング部13、
正解確率推定部14は、それぞれ「音響分析手段」、
「特徴抽出手段」、「パターンマッチング手段」、「正
解確率推定手段」に相当する。なお、請求項2に記載し
たパターンマッチング手段に相当するのがこの第1実施
形態のパターンマッチング部13である。
【0027】音響分析部11は、マイクロフォン30を
介して入力されたアナログ音声信号を例えば12KHz
のサンプリング周波数でデジタル信号に変換し、その変
換した信号をオーバーラップさせながら所定の切り出し
間隔で順次所定の長さのフレーム毎に切り出す。そし
て、フレーム毎の入力音声信号に対してフーリエ変換を
行なうことによって入力音声信号のスペクトラムを求
め、さらにスペクトラムの振幅の2乗を計算してパワー
スペクトラムを求める。そして、そのパワースペクトラ
ムに対して逆フーリエ変換を施して自己相関係数を求
め、この自己相関係数を用いてLPC分析を行い、LP
C係数を計算する。LPC分析は音声信号処理の分野で
は一般的な分析手法であり、例えば、古井「ディジタル
音声処理」(東海大学出版会)などに詳しく説明されて
いる。本実施形態においてはこのLPC分析に自己相関
法を用いており、自己相関係数を用いてm次のLPC係
数を計算する。このLPC係数は、特徴抽出部12へ順
次送られる。
【0028】特徴抽出部12は、音響分析部11から送
られてきたLPC係数を基に、フレーム毎のスペクトル
上の特徴パラメータとしてのLPCケプストラム係数を
計算する。そして、このLPCケプストラム係数はパタ
ーンマッチング部13へ送られる。
【0029】パターンマッチング部13は、予め計算し
ておいた認識対象語彙の標準パターン(特徴パラメータ
系列)と、特徴抽出部12から送られきたLPCケプス
トラム係数との間で類似度計算を行なう。これらは周知
のHMM(隠れマルコフモデル)などによって、この時
系列データをいくつかの区間に分け、各区間が辞書デー
タとして格納されたどの単語に対応しているかを求め
る。そして、各認識対象語彙のうち、計算された類似度
が高い上位所定数の語彙(最も高い1つの語彙だけでも
よい。)を認識結果として出力する。ここでは、類似度
を判定する上で、尤度の比を用いている。
【0030】しかし、パターンマッチングによって得ら
れる尤度は、比較対象パターンである認識対象語彙との
一致度合いを示すものであり、あくまで相対的なもので
ある。つまり、尤度比が一番大きなものを選択したとし
ても、それは相対的に一致度合いが高いだけであり、実
際に入力された音声に対してその認識結果がどの程度正
しいかに関しては、適切な評価ができない。つまり、尤
度比を適切に評価するための意味付けがなされていない
ので、認識結果を受けた対話制御部50では、どのよう
に対処してよいかが判らなくなる可能性がある。
【0031】そこで、本実施形態では、正解確率推定部
14により、パターンマッチング部13にて得られた認
識結果に対して信頼度を適切に評価可能な指標としての
正解確率を推定し、対話制御部50へ出力するようにし
た。つまり、対話制御部50は、音声認識装置10か
ら、認識結果を得ると共に、その認識結果に対応する正
解確率も得ることができる。
【0032】この正解確率推定部14は、パターンマッ
チング部13から「信頼度評価用特徴量」として、単語
と音節連接モデルの尤度比や、単語内の音節の継続時間
の分散に基づいて認識結果の正解確率の推定を行う。そ
れぞれ単独に用いる場合と、両方を同時に用いた場合を
考える。
【0033】信頼度はその閾値処理によって正解と誤認
識がよく分離できる方が精度がよいと考えられる。そこ
で正解確率に閾値処理をして、誤認識のリジェクション
を試みることで分離度を評価する。また、語彙外単語の
リジェクションに応用した場合の精度も評価する。 [正解確率に基づく信頼度] [正解確率]ある認識結果Wが正解である場合をC
(W)=1、誤認識である場合をC(W)=0と表現す
る。またWに対するある特徴量xの値をxwとする。こ
のとき、認識結果Wの特徴量xの値がxwであった場合
にWが正解である確率、すなわち、 p(C(W)=1 | x=xw) を考える。この値は、特徴量x=xwが得られた場合に
結果Wがどの程度信頼できるか、直感的にわかりやすく
表現できていると考える。
【0034】[正解確率の表現とその推定]特徴量xの
値xwが得られた場合に、Wの正解確率を知る方法を考
える。一般的には、多くの正解/誤認識のサンプルか
ら、あらゆる特徴量xの値に対する正解確率を事前に調
べておくことになる。しかし、xが連続値である場合、
特定の値に対して多くのサンプルを得て確率を求めるこ
とは不可能である。
【0035】そこで、正解確率はxの関数f(x)に従
っている、すなわち、 p(C(W)=1 | x=xw)=f(x) であると仮定する。この場合、正解確率を事前に推定す
る問題は、f(x)のパラメータを推定する問題とな
る。
【0036】パラメータ推定に用いる認識結果のサンプ
ルを{W1,W2,……,WN} としたとき、それらに対
応する特徴量を{xw1,xw2,……,xwN} とし、
それらが正解か誤認識かを表現した列を{C(W1),
C(W2),……,C(WN)}(1:正解、0:誤認
識)とする。このとき、
【0037】
【数1】
【0038】つまり、関数とサンプルの正解/誤認識の
自乗誤差により、その関数を評価する。 [正解確率の推定例]大語彙単語認識実験結果に対し
て、正解確率の推定を行った。認識実験は大語彙認識シ
ステム[参考文献8参照]を用いた。タスクはナビゲー
ションシステムで、認識語彙数は、全国の地名・施設名
約18万とナビゲーションシステムのコマンド約200
である。音声サンプルは走行中もしくは停車中の車室内
で録音した地名やナビゲーションシステムのコマンドの
発声(1162サンプル)である。認識率は80%であ
った。
【0039】[推定例1:尤度比に基づく正解確率]認
識された単語の正解確率を求めることを考える。ある単
語の音声認識結果の尤度と、別に用意した対抗モデルの
尤度との比(対数尤度における差)を信頼度の尺度とす
ることがよく行われる[参考文献1,6参照]。尤度比
は、正解と、誤認識もしくは語彙外単語発声の認識結果
をよく分離できる尺度である。ここでは対抗モデルとし
て、日本語の音節が自由に接続できる音節連接モデル
[参考文献2参照]を用いた。すなわち、認識結果の対
数尤度lw と、音節連接モデルの対数尤度lsc、音節の
継続時間Tとして、 xw=(LLR=lw−lsc)/T のように、対数尤度の差を時間正規化したものとする。
【0040】図2(a)に、尤度比軸方向に10区間に
分割した認識結果のヒストグラムを示す。各区間の正解
数(Nc)、誤認識数(Ni)をそれぞれ実線、破線で
示した。図2(b)の棒グラフは、各区間における正解
確率Nc/(Nc+Ni)である。上述した[正解確率
の表現とその推定]の欄における正解確率の関数推定
は、この棒グラフを連続的に表現できる関数を推定する
ことに対応する。この図から、尤度比の値に対して単調
増加な関数f(x)を仮定できると考えられる。
【0041】そこで、関数f(x)をシグモイド関数
【0042】
【数2】
【0043】と仮定し、f(x)とC(Wn) との誤差
を式1として、これを最小化するパラメータa,bを推
定する。図2(b)に、(xwn,C(Wn))を○で、
推定された関数f(x)を実線でプロットした。関数に
よって棒グラフで示された値がおおよそ求められること
がわかり、シグモイド関数による表現は適切であると考
えられる。
【0044】これまでにも、尤度比などの特徴量を、そ
のダイナミックレンジを小さく押えたり[参考文献5参
照]、確率的に用いるため[参考文献6参照]に、シグ
モイド関数で変換する方法は提案されている。パラメー
タ推定の評価関数として式1を用いることによって、正
解確率としての意味付けがなされる。
【0045】[推定例1:音節継続時間の単語内分散に
基づく正解確率]日本語では、短い時間範囲(例えば単
語中)において、その中に含まれる音節の継続時間はほ
ぼ等しい。つまり、単語中の音節の継続時間の分散は小
さい。しかし、一般的なHMMによる認識においては、
継続時間について考慮し難い。継続時間を考慮して認識
精度を向上させる方法は多くあるが、一般には音節や音
韻などのサブワード単位の最短・最長継続時間で打ち切
ったり、継続時間の分布を事前に求めておいて、その確
率値を尤度計算時にマージするなどの方法であり、単語
内などのサブワード間の継続時間の関係は考慮されな
い。そのため、モデルが部分的に伸縮することによって
音声と比較的よくマッチングしてしまい、誤認識となる
ことがある。
【0046】そこで、音節継続時間の単語内分散を、正
解と誤認識の分離の尺度とすることを考える。認識結果
のViterbiパス を調べることによって単語内の音節の継
続時間の標準偏差を求め、尤度比の場合と同様に、標準
偏差軸方向に分割して、ヒストグラムと区間毎の正解確
率を、それぞれ図3(a)及び(b)に、棒グラフで示
した。
【0047】図3(b)の棒グラフより、標準偏差に対
して単調減少な関数f(x)を仮定できると考えられ
る。この場合にも式2のシグモイド関数を仮定し、式1
で評価して、式2中の定数a,bを推定した。図3
(b)に、(xwn,C(Wn))を○で、推定された関
数f(x)を実線でプロットした。やはり、正解確率を
よく表現できていると考えられる。 [複数の特徴量を用いた正解確率]これまでは、正解確
率を対数尤度比もしくは継続時間の単語内分散に基づい
て定義したが、これら二つを同時に用いたほうが分離度
が高くなることが考えられる。そこで、この二つの特徴
量を用いて正解確率を定義することを考える。
【0048】二つの特徴量で張られる平面をメッシュで
区切り、各メッシュにおける正解数および誤認識数を元
に正解確率を求めてプロットしたものが図4である。こ
の図4を関数で表現することを考える。2つの特徴量の
値をx1,x2としたとき、正解確率の関数として、
【0049】
【数3】
【0050】を仮定する。ここで、g(x1,x2)と
して、次のような簡単な関数を用いた。 線形結合g(x1,x2))=a1x1+a2x2+a3x3 双一次結合g(x1,x2))=a1x1x2+a2x1+a3
x2+a4 これらの係数akを式1を最小化する基準で推定した。
それぞれの場合について推定された曲面を図5に示す。
つまり、図5(a)は対数尤度比と音節継続時間の単語
内分散の線形結合を示しており、図5(b)は同じく双
一次結合に基づく正解確率の表現を示している。
【0051】認識結果が正解である場合、それぞれの単
独の特徴量から得られる正解確率は両方高くなると考え
られる。そこで、2つの特徴量単独の正解確率f1(x
1),f2(x2)のAND条件の積で表せることが考え
られる。ここでは、重み付き相乗平均 f(x1,x2)=f1(x1)w・f2(x2)1-w によって、二つの特徴量に基づく正解確率を表現するこ
とを試みる。w=0.5の場合を図6に示す。複数の特
徴量を組み合わせて信頼度を得る方法はいくつか提案さ
れている[参考文献3,4,7参照]が、これらにおい
ても信頼度の積や最大値などの、AND条件に近い結合
を用いるほうが和を用いるよりもよい結果であるとされ
ている。
【0052】以上の正解確率の表現法によって、正解確
率をどの程度正確に表現できているかを知るため、式1
をサンプル数で割り、1サンプルあたりの誤差を、各方
法毎に求めた。その結果を表にして図7に示す。重み付
け相乗平均の場合で、重みが「1.0:0.0」若しく
は「0.0:1.0」となっている場合は、対数尤度若
しくは継続時間の分散単独の場合に相当する。両方を用
いた場合のほうが単独よりよく、この重みは等しい場合
に最も正確であった。また、特徴量の線形結合や双一次
結合を用いた場合の方が正確に表現できていることが分
かる。 [正解確率に基づくリジェクション] [誤認識検出実験]複数の特徴量から正解確率という信
頼度を得る方法を述べた。信頼度としては、正解と誤認
識の分離度合いが高いものがよいと考えられる。そこ
で、本節では、これまでに定義した正解確率に閾値処理
をすることによって、誤認識を検出しリジェクトする実
験を行い、信頼度としての評価を行った。
【0053】サンプルは上記[正解確率の推定例]の場
合と同条件で、推定用とは別に録音した1655発声で
ある。認識率は89.7%であった。対数尤度比と継続
時間の単語内分散を線形もしくは双一次に結合したもの
による正解確率と、単独の特徴量による正解確率の重み
付き相乗平均を、閾値を変化させた場合の、正解を誤っ
てリジェクトする率に対する誤認識のリジェクト率のプ
ロットを、図8に示す。なお、図8中の実線は2特徴量
による正解確率の重み付き相乗平均(尤度比:継続時
間)を示し、破線は2特徴量の線形結合に基づく正解確
率を示し、点破線は2特徴量の双一次結合に基づく正解
確率を示している。また、図8中に示した比は、対数尤
度比と継続時間の分散による正解確率の重みを示す。プ
ロットは、図中左上に近付くほど分離度が高いと考えら
れる。
【0054】対数尤度比(1.0:0.0)と継続時間
の分散(0.0:1.0)をそれぞれ単独で用いた場
合、対数尤度比の方が性能がよい。しかし、それらの重
み付け相乗平均を用いると、単独の場合よりもよい結果
となることがわかる。同比率で乗ずるのが最もよい結果
となった。
【0055】また、2つの特徴量を線形結合もしくは双
一次結合した場合にもよい結果であったが、それぞれを
別々に求めておいて相乗平均を求めた場合と同程度に留
まった。 [語彙外単語発声のリジェクション実験]語彙外(Out-
of-Vocabulary;OOV) 単語を認識した場合、一般に
語彙にある単語にマッチングして何らかの結果を返して
しまう。対数尤度比はこのような場合の分離に有効であ
るとされている[参考文献1参照]。また、音節継続時
間も、誤認識時と同様に伸縮されている場合が多く、そ
の分散は大きくなるため、分離に有効であると考えられ
る。そこで、[複数の特徴量を用いた正解確率]の欄で
説明した正解確率表現を用いてOOV単語のリジェクシ
ョン実験を行った。ただし、OOV単語の検出と正解確
率とは、直接の関係はない。
【0056】実験は、認識語彙からナビゲーションのコ
マンドの単語を除き、コマンド発声(800サンプル)
を認識した結果に対して行った。閾値を変化させた場合
の、正解を誤ってリジェクトする率に対する語彙外単語
のリジェクト率のプロットを、図9に示す。同様に、2
つの特徴量を組み合わせるとよい結果となった。[まと
め]このように、認識結果に対して正解確率の意味をも
つ信頼度を得る方法を採用し、単語と音節連接モデルの
尤度比に基づく場合、単語内の音節継続時間の分散に基
づく場合、それら両方を用いる場合について、シグモイ
ド関数を用いて正解確率を表現する方法を述べた。ま
た、正解確率に基づく正解と誤認識の分離度をリジェク
ション実験によって評価した。また、語彙外単語のリジ
ェクション実験も行った。その結果、複数の特徴量を本
方法によって組み合わせると単独よりも精度がよくなる
ことが確認できた。
【0057】したがって、音声認識装置10から認識結
果と正解確率を送られた対話制御部50では、例えば正
解確率が低いから認識結果は採用しない、とか、正解確
率が高いため、その認識結果を即座に採用する、といっ
た適切な対処が行える。また、信頼度が低い場合はユー
ザに確認を求めてからコマンドを実行する、といったこ
とも可能である。
【0058】また、信頼度として正解確率を用いている
ので、アプリケーション構築する際、信頼度を直観的に
理解できるという効果もある。つまり対話制御部50
は、例えば正解確率が95%の認識結果であれば確信し
て対話を進めるが、50%ならば確認を求める、といっ
た誤認識を考慮した対処を行うことができる。
【0059】また、本実施形態の場合は、音声認識装置
10内の音響分析部11、特徴抽出部12はもちろん、
パターンマッチング部13に関しても、従来と同様の構
成でよく、正解確率推定部14が、パターンマッチング
部13から信頼度評価用情報としての尤度比あるいは音
節継続時間の単語内分散を得られるようにすればよいだ
けである。
【0060】なお、本実施形態では、正解確率推定部1
4がパターンマッチング部13から得る信頼度評価用情
報の一例として「音節継続時間の単語内分散」を挙げた
が、これは、「音節継続時間長に基づく特徴量」の一例
である。それ以外にも、音節継続時間長そのもの、ある
いは音節継続時間長の単語内平均であってもよい。
【0061】また、パターンマッチング部13だけでは
なく、図1中に破線で示すように、音響分析部11や特
徴抽出部12からも信頼度評価用情報を得るようにして
もよい。その場合、音響分析部11から得られる信頼度
評価用特徴量としては、音響分析自体の成功度合いを示
す特徴量であることが考えられ、例えばノイズ度合いや
LPC残差が挙げられる。また、特徴抽出部12にて得
られる信頼度評価用特徴量としては、ケプストラム係数
が考えられる。
【0062】[第2実施形態]次に、第2実施形態につ
いて説明する。図10は第2実施形態の音声認識装置1
10の概略構成を示すブロック図である。本音声認識装
置110は、マイクロフォン130を介して入力された
音声を認識し、その認識結果を対話制御部150へ出力
するものである。
【0063】音声認識装置110は、音響分析部111
と、特徴抽出部112と、パターンマッチング部113
と、正解確率推定部114とを備えている。なお、これ
ら音響分析部111、特徴抽出部112、パターンマッ
チング部113、正解確率推定部114は、それぞれ
「音響分析手段」、「特徴抽出手段」、「パターンマッ
チング手段」、「正解確率推定手段」に相当する。な
お、請求項3,4に記載したパターンマッチング手段に
相当するのがこの第2実施形態のパターンマッチング部
113である。
【0064】上述した第1実施形態との違いは、音声認
識装置110から対話制御部150へは正解確率は出力
されず、パターンマッチング部113が正解確率推定部
114からの正解確率に基づいて、自ら認識結果に対す
る検証を行う点である。それ以外の音響分析部111や
特徴抽出部112については、特に変更はない。
【0065】また、正解確率推定部114における推定
処理内容自体は、やはり上述の第一実施形態と何ら変わ
らないため、パターンマッチング部113における処理
内容について説明する。パターンマッチング部113が
正解確率推定部114からの正解確率に基づいて、自ら
認識結果に対する検証を行う場合、次の、に示す2
つの検証手法が考えられる。
【0066】1つ目の検証手法 パターンマッチング部113は、認識結果を無条件で出
力するのではなく、正解確率に基づいて認識結果を検証
し、正解確率が低い場合には対話制御部150へ認識結
果を出力しない。つまり、対話制御部150にて正解確
率に基づいて判断をするのではなく、パターンマッチン
グ部113から出力する段階で、正解確率の低いものを
出力しないようにするのである。
【0067】2つ目の検証手法 これは、パターンマッチング部113が、認識途上の中
間結果に対して正解確率に基づく検証を行い、その検証
の結果、信頼度が低い場合には中間結果を棄却するとい
うもののである。例えば「愛知県刈谷市昭和町」という
地名を認識する場合、パターンマッチング部113本来
の機能によれば、「愛知県刈谷市昭和町」という単位の
認識結果に尤度を付与する。このようにした場合には、
「愛知県刈谷市昭和町」と「秋田県刈谷市昭和町」とい
う2つの認識結果について、前者の尤度の方が後者より
も大きいので、前者を認識結果として出力する、といっ
た具合である。実際には2つの認識結果ということは稀
であり、例えば20個の認識結果中より尤度の高いもの
を選択して出力する。
【0068】これに対して、本手法では、例えば「愛知
県」、「刈谷市」、「昭和町」というような相対的に短
い検証単位で、信頼度による検証を行う。したがって、
例えば「秋田県」という中間結果に対する検証の結果、
その中間結果を棄却することとなる。このようにするこ
とで、計算量を削減し、且つ誤りを出力してしまうこと
を防止できる。
【0069】このような正解確率に基づく検証に関して
は、例えば図11のフローチャートに示すように、所定
数の音節単位(例えば単語単位)ごとに検証する手法
や、図12のフローチャートに示すように、所定時間ご
と(つまり所定時間の分析データ単位ごと)に検証する
手法などが考えられる。
【0070】例えば、図11の場合には、「あいちけん
かりやし…」という地名に対して、まず「あいちけん」
という単語をテンプレートの先頭からマッチングしてい
き、そのマッチング結果に対して正解確率を取得する
(S13)。そして、その正解確率が所定値θよりも大
きければ(S14:YES)、次に「かりやし」をつな
いだ状態で同様の検証を行う(S13,S14)。正解
確率による検証が最後までOKであった場合には、その
認識結果を出力し(S17)、認識途中の何れかの段階
で正解確率が所定値θ以下となった場合(S14:N
O)は、その時点で処理を終了する。つまり、認識途上
でも中間結果を棄却するのである。
【0071】一方、図12の場合には、音節や単語の切
れ目とは限らず、所定時間ごとに得た分析データ単位で
マッチングを行い(S22)、そのマッチング結果に対
して正解確率を取得して(S23)、その正解確率が所
定値θよりも大きいか否かの判定を行う(S24)。な
お、この所定時間については、分析した毎回行うような
時間に設定してもよいし、何回かに1回行うような時間
に設定してもよい。
【0072】このような検証を行って中間結果を棄却す
る結果、計算量が削減できる点について補足する。例え
ば、愛知県…ではじまる認識結果候補が10個、秋田県
…ではじまる認識結果候補が10個得られたとする。そ
れぞれに対応する尤度に基づいて、出力する認識結果を
選択するのが従来手法である。この場合には、20個の
認識結果候補を得るための処理をそれぞれ最後まで実行
しなくてはならない。それに対して、例えば秋田県と認
識した段階でその中間結果を棄却すれば、結果的には、
秋田県…ではじまる10個分の候補を得るための処理が
早い段階で終了する。したがって、計算量が減少する。
【0073】[その他]上記実施形態では、音響分析部
11,111が自己相関係数を用いてm次のLPC係数
を計算し、特徴抽出部12がこのLPC係数を基にLP
Cケプストラム係数を計算するようにしたが、このよう
な音響分析手法や特徴抽出手法には限られない。例え
ば、 [参考文献の一覧] (1)R.A.Sukkar and C.-H.Lee.``Vocabulary indepen
dent discriminativeutterance verihication for nonk
eyword rejection in subword based speechrecognitio
n'',IEEE Trans.on Speech and Audio Processing, V
ol.4,No.6,pp.420-429,1996. (2)加藤正治,堀 貴明,伊藤彰則,好田正紀 ``音
素連接HMMを用いた尤度正規化に基づくワードスポッ
ティングの検討'',電子情報通信学会技術報告,SP97-7
7,pp.9-14,1997. (3)B.T.Tan,Y.Gu and T.Thomas.``Evaluation and
implementation of avoice activated dialing system
with utterance verification'',ICSLP-98,pp.1671-167
4, 1998. (4)K.Kirchhoff and J.A.Bilmes. ``Dynamic classi
fier combination inhybrid speech recognition syste
ms using utterance-level confidence values'',IEEE
ICASSP-98,pp.693-696,1998. (5)M -W.Koo,C.-H.Lee and B.-H.Juang. ``A new hi
brid decoding algorithm for speech recognition and
utterance verification'', IEEE ICASSP-98,pp.213-2
16, 1998. M.-W. Koo, C.-H. Lee and B.-H. Juang (6)實廣貴敏,高橋 敏,相川清明. ``対立音素間の
尤度差に基づく信頼度尺度によるリジェクション'', 電
子情報通信学会技術報告, SP97-76, pp.1-7, 1997. (7)E.Lleida and R.C.Rose. ``Efficient decoding
and training procedures for utterance verification
in continuous speech recognition'', IEEEICASSP-9
6, pp.507-600, 1996. (8)赤堀一郎,加藤利文,北岡教英. ``地名認識シ
ステムとその応用'',情報処理学会研究報告, 95-SLP-7-
9, pp.55-60, 1995.
【図面の簡単な説明】
【図1】 実施形態の音声認識装置の概略構成を示すブ
ロック図である。
【図2】(a)は対数尤度比に対する認識結果の分布
(実線:正解,破線:誤認識)を示す説明図、(b)は
対数尤度比に対する認識結果のプロット(正解:1,誤
認識:0)及び正解確率とその関数表現を示す説明図で
ある。
【図3】(a)は音節継続時間の単語内分散に対する認
識結果の分布(実線:正解,破線:誤認識)を示す説明
図であり、(b)は対数尤度比に対する認識結果のプロ
ット(正解:1,誤認識:0)及び正解確率とその関数
近似を示す説明図である。
【図4】対数尤度比と音節継続時間の単語内分散に対す
る正解確率を示す説明図である。
【図5】(a)は対数尤度比と音節継続時間の単語内分
散の線形結合を示す説明図、(b)は同じく双一次結合
に基づく正解確率の表現を示す説明図である。
【図6】対数尤度比と音節継続時間の単語内分散による
正解確率の相乗平均による正解確率の表現を示す説明図
である。
【図7】関数毎の正解確率との誤差(1サンプルあた
り)の説明図である。
【図8】対数尤度比と音節継続時間の単語内分散に基づ
く正解確率を用いたリジェクションの結果を示す説明図
である。
【図9】語彙外単語を用いたリジェクション実験結果を
示す説明図である。
【図10】別実施形態の音声認識装置の概略構成を示すブ
ロック図である。
【図11】別実施形態の音声認識装置のパターンマッチン
グ部にて実行される処理を示すフローチャートである。
【図12】別実施形態の音声認識装置のパターンマッチン
グ部にて実行される処理の別態様を示すフローチャート
である。
【符号の説明】
10,110…音声認識装置 11,111…音響分析部 12,112…特徴抽出部 13,113…パターンマッチング部 14,114…正解確率推定部 30,130…マイクロフォン 50,150…対話制御部
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/16 301B

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】外部から入力された音声を所定周期で音響
    的に分析する音響分析手段と、 その音響分析手段にて分析された結果を基に特徴パラメ
    ータを抽出する特徴抽出手段と、 その特徴抽出手段にて抽出された特徴パラメータを予め
    記憶されている複数の比較対象パターンと比較して一致
    度合いの高いものを認識結果とするパターンマッチング
    手段とを備える音声認識装置であって、 さらに、前記音響分析手段、特徴抽出手段あるいはパタ
    ーンマッチング手段の少なくとも何れかにおいて得られ
    る所定の信頼度評価用特徴量に基づき、前記認識結果の
    絶対的な信頼度を推定する信頼度推定手段を備えたこと
    を特徴とする音声認識装置。
  2. 【請求項2】請求項1記載の音声認識装置において、 前記パターンマッチング手段は、前記認識結果を外部へ
    出力し、 前記信頼度推定手段は、前記パターンマッチング手段か
    ら出力される認識結果に対応する信頼度を外部へ出力す
    ることを特徴とする音声認識装置。
  3. 【請求項3】請求項1記載の音声認識装置において、 前記パターンマッチング手段は、認識した最終結果に対
    して、前記信頼度推定手段により推定された信頼度に基
    づく検証を行い、その検証の結果、信頼度が低い場合に
    は前記認識結果を外部へ出力しないことを特徴とする音
    声認識装置。
  4. 【請求項4】請求項1記載の音声認識装置において、 前記パターンマッチング手段は、認識途上の中間結果に
    対して、前記信頼度推定手段によって推定された信頼度
    に基づく検証を行い、その検証の結果、信頼度が低い場
    合には、前記中間結果を棄却することを特徴とする音声
    認識装置。
  5. 【請求項5】請求項1〜4の何れか記載の音声認識装置
    において、 前記絶対的な信頼度は、前記認識結果が正解である確率
    に基づいて推定されていることを特徴とする音声認識装
    置。
  6. 【請求項6】請求項5記載の音声認識装置において、 前記信頼度評価用特徴量に対する前記正解確率が、近似
    関数を用いて表現されていることを特徴とする音声認識
    装置。
  7. 【請求項7】請求項1〜6の何れか記載の音声認識装置
    において、 前記パターンマッチング手段にて得られる信頼度評価用
    特徴量は、尤度の比又は音節継続時間長に基づく特徴量
    の少なくとも何れか一方であることを特徴とする音声認
    識装置。
  8. 【請求項8】請求項7記載の音声認識装置において、 前記音節継続時間長に基づく特徴量は、前記音節継続時
    間長そのもの、音節継続時間長の単語内分散又は前記音
    節継続時間長の単語内平均の少なくとも何れか一つであ
    ることを特徴とする音声認識装置。
  9. 【請求項9】請求項1〜6の何れか記載の音声認識装置
    において、 前記音響分析手段にて得られる信頼度評価用特徴量は、
    音響分析自体の成功度合いを示す特徴量であることを特
    徴とする音声認識装置。
  10. 【請求項10】請求項9記載の音声認識装置において、 前記音響分析自体の成功度合いを示す特徴量は、成功度
    合いを間接的に示す特徴量である、前記音響分析手段に
    て得られるノイズ度合いであることを特徴とする音声認
    識装置。
  11. 【請求項11】請求項9記載の音声認識装置において、 前記音響分析手段は、LPCを用いて音響分析をするも
    のであり、前記音響分析自体の成功度合いを示す特徴量
    は、LPC残差であることを特徴とする音声認識装置。
  12. 【請求項12】請求項1〜6の何れか記載の音声認識装
    置において、 前記特徴抽出手段は、ケプストラム分析法によって特徴
    パラメータを抽出するものであり、前記特徴抽出手段に
    て得られる信頼度評価用特徴量は、ケプストラム係数で
    あることを特徴とする音声認識装置。
  13. 【請求項13】請求項1〜12の何れか記載の音声認識
    装置における信頼度推定手段としてコンピュータシステ
    ムを機能させるためのプログラムを記録したコンピュー
    タ読取可能な記録媒体。
  14. 【請求項14】請求項13記載の記録媒体において、 前記信頼度推定手段に加え、請求項1〜12の何れか記
    載の音声認識装置におけるパターンマッチング手段とし
    てもコンピュータシステムを機能させるためのプログラ
    ムを記録した記録媒体。
JP35907699A 1999-12-17 1999-12-17 音声認識装置及び記録媒体 Pending JP2001175276A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35907699A JP2001175276A (ja) 1999-12-17 1999-12-17 音声認識装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35907699A JP2001175276A (ja) 1999-12-17 1999-12-17 音声認識装置及び記録媒体

Publications (1)

Publication Number Publication Date
JP2001175276A true JP2001175276A (ja) 2001-06-29

Family

ID=18462623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35907699A Pending JP2001175276A (ja) 1999-12-17 1999-12-17 音声認識装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP2001175276A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024052A1 (ja) * 2008-08-27 2010-03-04 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP2011017818A (ja) * 2009-07-08 2011-01-27 Nippon Telegr & Teleph Corp <Ntt> 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム
EP2947651A4 (en) * 2013-01-16 2016-01-06 Sharp Kk ELECTRONIC APPARATUS AND VACUUM
JP6336219B1 (ja) * 2017-03-24 2018-06-06 三菱電機株式会社 音声認識装置および音声認識方法
WO2020044755A1 (ja) * 2018-08-27 2020-03-05 日本電信電話株式会社 音声認識装置、音声認識方法、及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03208098A (ja) * 1990-01-10 1991-09-11 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識候補絞り込み方法
JPH03248199A (ja) * 1990-02-26 1991-11-06 Ricoh Co Ltd 音声認識方式
JPH04255900A (ja) * 1991-02-07 1992-09-10 Nec Corp 音声認識装置
JPH06130989A (ja) * 1992-10-20 1994-05-13 Ricoh Co Ltd 音声認識装置
JPH09292899A (ja) * 1996-04-26 1997-11-11 Nec Corp 音声認識装置
JPH10260693A (ja) * 1997-02-03 1998-09-29 Philips Electron Nv 音声認識方法及び装置
JPH1185188A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びそのプログラム記録媒体
JPH1195795A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 音声品質評価方法および記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03208098A (ja) * 1990-01-10 1991-09-11 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識候補絞り込み方法
JPH03248199A (ja) * 1990-02-26 1991-11-06 Ricoh Co Ltd 音声認識方式
JPH04255900A (ja) * 1991-02-07 1992-09-10 Nec Corp 音声認識装置
JPH06130989A (ja) * 1992-10-20 1994-05-13 Ricoh Co Ltd 音声認識装置
JPH09292899A (ja) * 1996-04-26 1997-11-11 Nec Corp 音声認識装置
JPH10260693A (ja) * 1997-02-03 1998-09-29 Philips Electron Nv 音声認識方法及び装置
JPH1185188A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びそのプログラム記録媒体
JPH1195795A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 音声品質評価方法および記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024052A1 (ja) * 2008-08-27 2010-03-04 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP2011017818A (ja) * 2009-07-08 2011-01-27 Nippon Telegr & Teleph Corp <Ntt> 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム
EP2947651A4 (en) * 2013-01-16 2016-01-06 Sharp Kk ELECTRONIC APPARATUS AND VACUUM
JP6336219B1 (ja) * 2017-03-24 2018-06-06 三菱電機株式会社 音声認識装置および音声認識方法
WO2020044755A1 (ja) * 2018-08-27 2020-03-05 日本電信電話株式会社 音声認識装置、音声認識方法、及びプログラム

Similar Documents

Publication Publication Date Title
EP2713367B1 (en) Speaker recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6138095A (en) Speech recognition
JP3762327B2 (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US6317711B1 (en) Speech segment detection and word recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP4897040B2 (ja) 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JPH10254475A (ja) 音声認識方法
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
EP1734509A1 (en) Method and system for speech recognition
JP3876703B2 (ja) 音声認識のための話者学習装置及び方法
JPH03167600A (ja) 音声認識装置
JP3444108B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JP4201470B2 (ja) 音声認識システム
JP2001175276A (ja) 音声認識装置及び記録媒体
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2745562B2 (ja) ノイズ適応形音声認識装置
JP4475380B2 (ja) 音声認識装置及び音声認識プログラム
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
EP1022724B1 (en) Speaker adaptation for confusable words

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091125

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100402