[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPH08123462A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08123462A
JPH08123462A JP6263399A JP26339994A JPH08123462A JP H08123462 A JPH08123462 A JP H08123462A JP 6263399 A JP6263399 A JP 6263399A JP 26339994 A JP26339994 A JP 26339994A JP H08123462 A JPH08123462 A JP H08123462A
Authority
JP
Japan
Prior art keywords
vector
feature vector
voice
unit
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6263399A
Other languages
English (en)
Inventor
Masao Watari
雅男 渡
Kazuo Ishii
和夫 石井
Yasuhiko Kato
靖彦 加藤
Hiroaki Ogawa
浩明 小川
Masanori Omote
雅則 表
Kazuo Watanabe
一夫 渡辺
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP6263399A priority Critical patent/JPH08123462A/ja
Priority to US08/548,278 priority patent/US5764853A/en
Publication of JPH08123462A publication Critical patent/JPH08123462A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 音声の認識率を向上させる。 【構成】 第m成分の関数fm(X)がLm個の関数gm k
(X)と係数cm kとの積の線形和で表される写像Fによ
って、特徴ベクトルXが、教師ベクトルに近い新たな特
徴ベクトルに変換され、それに基づいて音声認識が行わ
れる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識する音声認
識装置に関する。
【0002】
【従来の技術】従来の音声認識装置としては、例えば特
定話者対応の、いわゆる限定単語認識装置から、不特定
話者対応の、いわゆる文章認識装置まで種々の認識形態
のものがある。これらの何れの認識形態をとる音声認識
装置であっても、大きくは、音声からその特徴ベクトル
(特徴量)を抽出する特徴抽出部と、特徴ベクトルから
音声を認識する認識処理部とから構成されている。
【0003】認識処理部のアルゴリズムや構成は、認識
形態の違いに応じて様々であり、その代表的なものとし
ては、HMM(Hidden Markov Models)法を基本とした
ものなどがある。また、特徴抽出部としては、例えば入
力音声をバンドパスフィルタに通し、その整流平滑化出
力を特徴ベクトルとして出力するものや、LPCケプス
トラムを求めるものなどがある。
【0004】
【発明が解決しようとする課題】ところで、特徴抽出部
が音声から抽出する特徴ベクトルに対しては、まず異な
る音韻を識別するための情報(識別情報)が充分に含ま
れていることが要求される。これは、特徴ベクトルに、
音韻間の識別情報が殆ど含まれていなければ、後段の認
識処理部がどのように優れたものであっても高い認識性
能を得ることは困難となるからである。
【0005】しかしながら、上述したような、従来の特
徴抽出部から得られる特徴ベクトルによれば、例えば破
裂性子音のp,t,kの識別情報が不充分であることが
知られている。
【0006】これは、本来、非定常な音声信号を、定常
的なものとみなして分析する手法によって、特徴ベクト
ルの抽出を行っていることに本質的な問題がある。そこ
で、最近では、例えばウェーブレット変換などを用いた
分析手法により、音声から特徴ベクトルを抽出する方法
の研究がなされているが、現状では充分な効果を得るこ
とのできる方法は提案されていない。
【0007】ここで、例えば中語彙や大語彙の音声認識
装置に用いられる特徴ベクトルについて考察すると、こ
のような音声認識装置においては、一般に、各音韻を識
別の基本(カテゴリ)としている場合が多い。例えば、
認識処理部がHMM法による音韻モデルを用いる音声認
識装置では、通常、各音韻カテゴリごとに音韻モデルが
求められる。即ち、各音韻に対応する音韻モデルから所
定のコード(シンボル)が出力される出現確率と、音韻
モデルを構成する状態がコードを出力するときに、その
状態が遷移する遷移確率が、学習用のサンプルデータか
ら求められる。
【0008】遷移確率または出現確率のうちの、例えば
出現確率は、音韻記号によってラベル付けされたサンプ
ルデータから特徴ベクトル空間における確率分布を計算
することによって求められるが、この出現確率を、従来
の音声分析手法から得られる特徴ベクトルをそのまま用
いて求めた場合、例えば”a”と”i”などのような母
音それぞれに対する出現確率分布は重なりが少ない。し
かしながら、上述した破裂性子音における出現確率分布
は、音韻カテゴリ間で大きな重なりが生じる。
【0009】即ち、図7は、母音”a”および”i”、
並びに破裂性子音”p”および”t”についての音韻カ
テゴリ間の特徴ベクトルの分布の重なり具合を模式的に
示している。なお、同図(後述する図3、図4、図8、
および図9においても同様)においては、特徴ベクトル
空間を2次元とし、例えば90%の等確率面上の音韻カ
テゴリの境界を示してある。
【0010】図7は、ノイズを含まない音声データが作
るカテゴリを示しているが、このようにノイズを含まな
くても、破裂性子音”p”と”t”のカテゴリには大き
な重なりが生じる。即ち、破裂性子音”p”と”t”と
の分離性はかなり悪い(ここでは、破裂性子音のうち
の”p”および”t”についてのみ考えているが、その
他の破裂性子音相互間においても、この”p”および”
t”の場合と同様に分離性が悪い)。
【0011】一方、図8は、ノイズを含む音声データの
カテゴリの分布を示している。ノイズ環境(ノイズのあ
る環境)下で、発話がなされた場合、ノイズが微弱なも
のであれば、そのノイズを含む音声の特徴ベクトルは、
ノイズを含まない音声の場合(図7)から僅かに変形さ
れるだけであるが、ノイズのレベルが高くなるにしたが
って、変形も大きくなり、ノイズから得られる特徴ベク
トルに近づくようになる。
【0012】即ち、図7に示した音韻(”a”,”
i”,”p”,”t”)の特徴ベクトルが形成するカテ
ゴリは、ノイズのレベルが高くなるにしたがって、その
ノイズの特徴ベクトルが形成するカテゴリ方向に、いわ
ば瘤ができたように変形される。そして、ノイズのレベ
ルが高くなれば瘤も大きくなり、ノイズの種類が増加す
れば、複数の方向に瘤が形成される。
【0013】図8は、例えばエアコンのファンのノイズ
が存在する環境下における、図7に示した音韻カテゴリ
の特徴ベクトルの分布を模式的に示している。なお、図
中、点線で示す部分は、エアコンのノイズにより形成さ
れた瘤を示している。
【0014】図8からわかるように、ノイズの影響を受
けることによって、ノイズが存在しない場合でも大きな
重なりを有していた破裂性子音”p”と”t”のカテゴ
リ間の重なり部分は、さらに大きくなる。即ち、その音
韻カテゴリ間の分離性は、ノイズが存在することによっ
てさらに悪化する。
【0015】ノイズ環境下における音声認識が困難であ
る理由は、ここにある。
【0016】ところで、図7(図8も同様)では、各音
韻カテゴリの分布を、それが1つの正規分布で表される
ような単純な分布になるものとして示したが、実際に
は、調音結合などの影響によって、音韻カテゴリは、こ
のように単純に分布するのではなく、複雑に分布する。
即ち、同一のラベル付けがなされた音声データから得ら
れた特徴ベクトルであっても、その前後の音韻の違いに
より異なるものとなるため、その分布は、正規分布で表
されるような単純な分布にはならない。
【0017】図9は、例えば”a”に関する、実際の特
徴ベクトルの分布を模式的に示している。同図に示すよ
うに、特徴ベクトルは、1つの音韻カテゴリについて、
ある1つの範囲に分布するのではなく、通常、複数の範
囲に分布する。
【0018】このような分布の複雑さに対応すべく、例
えば連続HMM法による音声認識装置では、音韻モデル
の出現確率や遷移確率を正規分布の混合分布で記述する
ことなどが行われている。また、例えば離散HMM法に
よる音声認識装置においては、VQ(ベクトル量子化)
コードブックのコードブックサイズを大きくすることな
どが行われている。
【0019】しかしながら、この場合、連続HMM法に
よる音声認識装置では、図7や図8に示したように音韻
カテゴリが単一分布するとした場合に比較して、出現確
率や遷移確率を正規分布の混合分布で記述することによ
り、係数を格納するためのメモリ領域が大幅に増加し、
また音声認識に要する演算量も増大することになる。
【0020】また、離散HMM法による音声認識装置に
おいても、VQコードブックのサイズを大きくすること
により、連続HMM法による音声認識装置における場合
と同様に、メモリ領域および演算量が増加することにな
る。
【0021】さらに、不特定話者に対応するには、連続
HMM法による場合は混合分布の混合数を、離散HMM
法による場合はVQコードブックサイズを、それぞれさ
らに増加する必要があるが、これらの方法によれば、そ
の増加に見合った多くの学習用のサンプルデータを用い
て学習を行うことにより、その効果が発揮される。即
ち、認識性能を大幅に改善するには、膨大な数の学習用
のサンプルデータを用いて学習する必要がある。
【0022】しかしながら、実際に収集することのでき
るサンプルデータには限りがあるため、現実的なサンプ
ルデータ数による認識性能の改善には限界がある。
【0023】以上では、HMM法による音声認識装置に
ついて説明したが、特徴ベクトルに関する音韻間の分離
性および分布の複雑さは、認識処理部がHMM法以外
の、例えばマルチテンプレート型のDPマッチング方式
などによるものに対しても、上述の場合と同様の影響を
与える。
【0024】即ち、従来用いられている特徴ベクトルに
は、 1)音韻カテゴリ間の識別性(分離性)が悪い。 2)音韻カテゴリの分布が複雑である。 という2つの大きな問題があったため、音声の認識率の
大幅な改善を図ることが困難な課題があった。
【0025】本発明は、このような状況に鑑みてなされ
たものであり、音韻カテゴリ間の分離性を改善し、また
音韻カテゴリの分布を単純化することで、不特定話者の
認識やノイズ環境下での認識性能を大幅に改善すること
ができるようにするものである。
【0026】
【課題を解決するための手段】本発明の音声認識装置
は、音声を、所定のフレーム単位で音響分析し、特徴ベ
クトルXを抽出する分析手段(例えば、図1に示す音声
分析部2など)と、分析手段より出力される特徴ベクト
ルXに所定の変換処理を施し、新たな特徴ベクトルを出
力する変換手段(例えば、図1に示すGGM(Guarante
ed Global minimum Mapping)変換部4など)と、変換
手段より出力された新たな特徴ベクトルに基づいて、音
声を認識する認識手段(例えば、図1に示す認識処理部
5など)とを備え、変換手段は、N次元ベクトル空間Ω
NからM次元ベクトル空間ΩMへの写像Fにしたがって所
定の変換処理を行い、特徴ベクトルXは、N次元ベクト
ル空間ΩN上のベクトルであり、写像Fの第m成分の関
数fm(X)は、Lm個の関数gm k(X)と係数cm kとの
積の線形和
【数3】 で表されることを特徴とする。
【0027】この音声認識装置においては、関数g
m k(X)を、単項式とすることができる。
【0028】また、Q個のカテゴリCq(但し、q=
0,1,2,・・・,Q−1)に分類されているN次元
ベクトル空間ΩNの学習サンプルをSq(=(s0 q
1 q,s2 q,・・・,sN-1 q))とし、Q個のカテゴリ
qそれぞれに対するM次元ベクトル空間ΩM上のQ個の
教師ベクトルをTq(=(t0 q,t1 q,t2 q,・・・,
M- 1 q))とするとともに、学習サンプルSqの全要素
にわたって関数fm(X)の期待値を求める演算を、E
{X∈Sq}{f(X)}とするとき、係数cm kを、評
価関数
【数4】 を最小にするものとし、Q個のカテゴリCqを、Q種類
の音韻にそれぞれ対応させ、学習サンプルSqを、ラベ
ル付けされた音声データとすることができる。
【0029】写像Fによる変換後のベクトル空間の次元
Mは、音韻に対応するカテゴリCqの総数Qに等しくす
ることができる。また、教師ベクトルTqは、M次元ベ
クトル空間における単位ベクトルとすることができる。
さらに、Q個の教師ベクトルTqは、互いに直交するも
のとすることができる。また、音声データは、ノイズを
含むものとすることができる。
【0030】さらに、本発明の音声認識装置は、分析手
段より所定のフレーム単位で出力される特徴ベクトルX
を、複数フレーム分束ね、それを特徴ベクトルXとし
て、変換手段に供給する束化手段(例えば、図1に示す
特徴ベクトル束化部3など)をさらに備えることができ
る。
【0031】特徴ベクトルXは、LPCケプストラムで
なるものとすることができる。また、特徴ベクトルX
は、音声の所定の帯域幅ごとのパワーでなるものとする
ことができる。
【0032】また、認識手段には、変換手段より出力さ
れる新たな特徴ベクトル、および分析手段より出力され
る特徴ベクトルXの両方に基づいて、音声を認識させる
ことができる。さらに、分析手段が、音声を音響分析
し、特徴ベクトルXと、それとは異なる他の特徴ベクト
ルを抽出する場合、認識手段には、変換手段より出力さ
れる新たな特徴ベクトル、および分析手段より出力され
る他の特徴ベクトルの両方に基づいて、音声を認識させ
ることができる。他の特徴ベクトルは、所定のフレーム
数だけ離れた2つのフレームからそれぞれ抽出された特
徴ベクトルXどうしの差分でなるものとすることができ
る。
【0033】認識手段には、HMM(Hidden Markov Mo
dels)法にしたがって音声を認識させることができる。
また、認識手段に供給されるベクトルをベクトル量子化
し、所定のコードを出力するベクトル量子化手段(例え
ば、図5に示す41VQ処理部15や16次元VQ処理
部16など)をさらに備える場合、認識手段には、ベク
トル量子化手段より出力される所定のコードから、離散
HMM法にしたがって音声を認識させることができる。
【0034】
【作用】上記構成の音声認識装置においては、第m成分
の関数fm(X)がLm個の関数gm k(X)と係数cm k
の積の線形和で表される写像Fによって、特徴ベクトル
Xが新たな特徴ベクトルに変換され、それに基づいて音
声認識が行われる。従って、複雑に分布する特徴ベクト
ルXが、単純に分布する新たな特徴ベクトルに変換され
るので、即ち、複数の範囲に分布する特徴ベクトルX
が、1つの範囲に分布する新たな特徴ベクトルに変換さ
れるので、音声の認識率を大幅に改善することができ
る。
【0035】また、所定のフレーム単位で出力される特
徴ベクトルXを、複数フレーム分束ね、それを特徴ベク
トルXとする場合には、異なる音韻カテゴリどうしの分
離性を向上させることができるので、やはり音声の認識
率を大幅に改善することができる。
【0036】
【実施例】図1は、本発明を適用した音声認識装置の一
実施例の構成を示している。マイク(マイクロフォン)
1は、そこに音声が入力されると、その音声を電気信号
としての音声信号に変換するようになされている。音声
分析部2は、マイク1からの音声信号を、所定のフレー
ム単位で音響分析し、K次元の特徴ベクトルを抽出する
ようになされている。なお、音声分析部2は、音声か
ら、K次元の特徴ベクトルを抽出する他、その他の特徴
ベクトルの抽出、および音声区間の検出も行うようにな
されている。K次元の特徴ベクトルの他の特徴ベクト
ル、および音声区間は、認識処理部5に、直接供給され
るようになされている(詳細は後述する)。
【0037】特徴ベクトル束化部3は、音声分析部2よ
り所定のフレーム単位で出力される特徴ベクトルを、複
数フレーム分束ね、それをGGM変換部4に出力するよ
うになされている。
【0038】GGM変換部4は、音声分析部2より特徴
ベクトル束化部3を介して供給される特徴ベクトルに対
し、後述する写像Fにしたがって所定の変換処理を施
し、新たな特徴ベクトルを出力するようになされてい
る。認識処理部5は、GGM変換部4および音声分析部
2より供給される特徴パラメータから、例えばHMM法
などにしたがって入力音声を認識するようになされてい
る。
【0039】次に、その動作について説明する。マイク
1に音声が入力されると、その音声は電気信号としての
音声信号に変換され、音声分析部2に出力される。音声
分析部2では、マイク1からの音声信号から、所定のフ
レーム単位でK次元の特徴ベクトルが抽出され、特徴ベ
クトル束化部3に供給される。さらに、音声分析部2で
は、音声信号から、K次元の特徴ベクトル以外の特徴ベ
クトルが抽出され、認識処理部5に供給される。また、
音声分析部2は、音声信号から音声区間を検出し、認識
処理部5に供給する。
【0040】特徴ベクトル束化部3では、音声分析部2
からのK次元の特徴ベクトルが、複数フレーム分(例え
ば、Hフレーム分)束ねられ、K×H次元の特徴ベクト
ルとして、GGM変換部4に出力される。GGM変換部
4においては、特徴ベクトル束化部3からのK×H次元
の特徴ベクトルに対し、写像Fにしたがって所定の変換
処理が施され、その結果得られる新たなJ次元の特徴ベ
クトルが、認識処理部5に出力される。認識処理部5で
は、音声分析部2から供給された音声区間において、同
じく音声分析部2から供給される特徴パラメータと、G
GM変換部4から供給される特徴パラメータとから、H
MM法などにしたがって入力音声が認識され、その認識
結果が出力される。
【0041】次に、特徴ベクトル束化部3の処理の詳細
について、図2および図3を参照して説明する。図2
は、破裂性子音”p”および”t”の特徴ベクトルを、
時系列に表している。なお、同図においては、特徴ベク
トル空間が1次元としてある(従って、この場合、特徴
ベクトルは、ベクトル量ではなく、スカラー量であ
る)。
【0042】図2(a)は、無音の状態から”pa”と
発話がなされた場合の特徴ベクトル時系列を、無音、”
p”,”a”それぞれにラベル付けされた領域に示して
おり、また図2(b)は、同じく無音の状態から”t
a”と発話がなされた場合の特徴ベクトル時系列を、無
音、”t”,”a”それぞれにラベル付けされた領域に
示してある。
【0043】”p”にラベル付け(ラベリング)された
フレームから得られる特徴ベクトル(これは、いまの場
合、上述したようにスカラー量)は、図2(a)に示す
ように、「1」,「2」,「3」の3種類となってお
り、また、”t”にラベル付けされたフレームから得ら
れる特徴ベクトルも、図2(b)に示すように、
「1」,「2」,「3」の3種類となっている。
【0044】従って、子音”p”または”t”にラベル
付けされた1フレームから得られる、いわば局所的な特
徴ベクトルがなすカテゴリ(分布)(領域)は、図3
(a)に示すように、完全に重なっており、子音”p”
と”t”とは区別をすることができない。なお、実際に
は、子音”p”と”t”とラベル付けされた1フレーム
から得られる特徴ベクトルは、通常、完全に同一ではな
く、僅かには異なる場合があるので、図3(a)におい
ては、子音”p”または”t”のカテゴリが、ほぼ重な
るように示してある。
【0045】次に、ラベル付けされたフレームの両隣の
フレームまでを含めた特徴ベクトル、即ちいま注目して
いるフレームの特徴ベクトルと、その注目フレームの両
隣のフレームの特徴ベクトルとを束ねた特徴ベクトル
(以下、適宜、束化特徴ベクトルという)を考えると、
子音”p”の束化特徴ベクトルは、「012」,「12
3」,「234」の3種類であるのに対し、子音”t”
の束化特徴ベクトルは、「012」,「122」,「2
23」,「233」,「334」の5種類となる。この
場合、”p”と”t”とのカテゴリの重なりは、図3
(b)に示すように、「012」だけになり、その他の
部分は重ならないから、子音”p”と”t”の分離性が
大幅に改善されることになる。
【0046】さらに、注目フレームの特徴ベクトルと、
その両隣の2フレームずつの特徴ベクトルとを束ねた束
化特徴ベクトルを考えると、子音”p”と”t”の束化
特徴ベクトルがなすカテゴリは、図3(c)に示すよう
に、完全に分離する。
【0047】そこで、特徴ベクトル束化部3では、音声
分析部2からフレーム単位で出力される特徴ベクトル
を、複数フレーム分束ねて束化特徴ベクトルとし、これ
をGGM変換部4に出力するようになされている。
【0048】この場合、上述したように特徴ベクトルが
つくるカテゴリを分離することができるので、認識率を
大幅に改善することができる。
【0049】なお、束化特徴ベクトルは、上述したよう
に注目フレームの特徴ベクトルと、その左右の同一の数
のフレームの特徴ベクトルから作成するようにしても良
いし、注目フレームの特徴ベクトルと、その左右の異な
る数のフレームの特徴ベクトルから作成するようにして
も良い。即ち、束化特徴ベクトルは、注目フレームの特
徴ベクトルと、例えばその右側の1フレーム(時間的に
先行する1フレーム)の特徴ベクトル、およびその左側
の2フレーム(時間的に後行する2フレーム)の特徴ベ
クトルとを束ねて作成するようにしても良い。
【0050】次に、GGM変換部4の処理の詳細につい
て説明する。GGM変換部4では、次のような写像Fに
したがった変換処理が行われる。
【0051】即ち、写像Fは、N次元ベクトル空間ΩN
上のベクトルXをM次元ベクトル空間ΩM上のベクトル
に変換するもので、その第m成分の関数fm(X)は、
m個の関数gm k(X)と、所定の係数cm kとの線形和
として、次式で示すように定義される(但し、m=0,
1,2,・・・,M−1:k=0,1,2,・・・,L
m−1)。
【0052】
【数5】 ・・・(1)
【0053】関数gm k(X)としては、N変数関数空間
の完備(完全)な関数系が採用される。これは、ヒルベ
ルトの関数解析における公知の定理「任意の関数は、完
備な関数系の線形結合で表現することができる」から、
関数gm k(X)として、上述のようにN変数関数空間の
完備な関数系を採用し、かつその個数Lmを必要な数と
すれば、原理的には、任意の連続写像を、関数g
m k(X)によって表現することができるからである。
【0054】このことは、いわゆる階層型ニューラルネ
ットワークが、その中間層のニューロン素子の数を制限
しなければ、即ちその数を充分大きくすれば、原理的に
は、任意の連続写像を表現することができることに対応
する。
【0055】関数gm k(X)を所定のものに選択、設定
すれば、その後は、学習を行うことにより、係数cm k
設定することができ、その結果、所望する関数f
m(X)、即ち写像Fが得られることになる。
【0056】そして、この係数cm kを決定するに際し、
次式で定義されるような評価関数Jが採用される。
【0057】
【数6】 ・・・(2)
【0058】但し、Sq(=(s0 q,s1 q,s2 q,・・
・,sN-1 q))は、Q個のカテゴリCqに分類されてい
るN次元ベクトル空間ΩNの学習サンプルであり(但
し、q=0,1,2,・・・,Q−1)、またTq(=
(t0 q,t1 q,t2 q,・・・,tM -1 q))は、Q個のカ
テゴリCqそれぞれに対するM次元ベクトル空間ΩM上の
Q個の教師ベクトル(教師ベクトルの集合)である。ま
た、E{X∈Sq}{}は、{}内において、学習サン
プル(の集合)Sqの全要素にわたって期待値を求める
ことを意味する。従って、評価関数Jは、学習サンプル
に対する写像出力と教師ベクトルとの自乗誤差のアンサ
ンブル平均を意味している。
【0059】よって、学習サンプルに対する写像出力
が、教師ベクトルとなるような写像を得るには、評価関
数Jを最小にする係数cm kを求めれば良い。
【0060】そこで、式(1)を式(2)に代入する
と、次式が得られる。
【0061】
【数7】 ・・・(3)
【0062】ここで、
【数8】 とおくと、式(3)は、次にようになる。
【0063】
【数9】 ・・・(4)
【0064】そして、評価関数Jの極値を求めるため、
【数10】 とし、これを、式(4)から計算すると、次のようにな
る。
【0065】
【数11】 ・・・(5)
【0066】この式(5)は、各mに関し、Lm個の未
知数(係数)cm kに関する連立1次方程式となる。
【0067】式(5)は、
【数12】 とすると、次のような簡潔な形になる。
【0068】
【数13】 ・・・(6)
【0069】式(6)(式(5))は、1次方程式であ
るから、不定あるいは不能となる特殊な場合を除き、一
意に解が得られる。
【0070】このことは、式(2)で表される評価関数
Jを最小にする係数cm kが、式(6)(式(5))の方
程式を解くことにより求めることができることを意味す
る。従って、この場合、評価関数Jが、極小値(ローカ
ルミニマム)となる場合の係数cm kが求められてしまう
ような問題が、式(6)(式(5))の方程式が不定あ
るいは不能となるような特殊な場合を除いて、本質的に
存在しないことになる。
【0071】これは、式(6)(式(5))の方程式を
解く代わりに、式(4)で表された評価関数Jに、最急
降下法を適用しても、いわゆる初期値問題に煩わされる
ことなく、一意に解(係数)cm kが得られることを意味
する。
【0072】そして、このように、解が一意に決まると
いう特性によれば、ニューラルネットワークにおけるよ
うな準最適解を求めるために、初期値を変更して繰り返
し学習をせずに済むことになる。さらに、式(1)に示
すように写像を表現するようにしたため、係数cm kの値
の自由度と、関数gm k(X)として、どのような関数を
採用するのかの自由度があることになる(即ち、大きく
は、自由度が2種類となる)。
【0073】このため同程度の規模で考えれば、写像の
潜在的表現能力は、式(1)に示すように写像を表現す
る場合の方が、ニューラルネットワークより大きくな
る。これは、ニューラルネットワークの場合には、規模
が固定されれば、残る表現の自由度は、結合重み係数の
値の取り得る自由度だけとなるからである。
【0074】以上のように、式(1)で表現される写像
(以下、適宜、GGM(GuaranteedGlobal minimum Map
ping)という)によれば、 イ)誤差最小(グローバルミニマム)が保証され、 ロ)初期値問題が存在しないため、繰り返し学習が不要
で、学習の高速化が可能となる という本質的解決と、 ハ)関数gm k(X)の選択の自由度があるため、所望の
写像を決定する場合に、同程度の規模のニューラルネッ
トワークと比較して近似能力が高くなる という改善とを実現することができる。
【0075】なお、GGMについての詳細は、本件出願
人が先に出願している特願平6−221321号に記載
されている。
【0076】GGM変換部4では、N=K×H,M=J
とし、また、N次元ベクトル空間ΩNの、Q個のカテゴ
リCqを、Q種類の音韻にそれぞれ対応させ、各カテゴ
リCqに分類されている学習サンプルSqとして、各音韻
のラベル付けがなされた学習用の音声データを用い、さ
らにQ個のカテゴリCqそれぞれに対応するQ個の教師
ベクトルTqとして、M次元ベクトル空間ΩMにおける基
底ベクトル(互いに直交するM次元の単位ベクトル)を
採用して学習を行った結果得られた係数cm kを用いた写
像F(式(1))にしたがった変換が行われるようにな
されている。
【0077】したがって、GGM変換部4によれば、図
4に示すように、入力空間であるN次元ベクトル空間空
間ΩNでは、必ずしも単連結でなく、また複雑な(複雑
かもしれない)各カテゴリが、教師ベクトルの周りに集
まる単純なカテゴリに変換される。
【0078】ここで、この場合、Q個の教師ベクトルT
qとして、M次元ベクトル空間ΩMにおけるM個の基底ベ
クトルを採用しているから、GGM変換部4から出力さ
れる特徴ベクトル(写像出力)の次元数Mは、カテゴリ
数Qに等しく、さらに、Q種類の音韻それぞれにQ個の
教師ベクトルTq、即ちM(=Q)個の基底ベクトルが
対応しているから、写像出力であるM(=Q)次元のベ
クトルの要素(成分)のうちのいずれが大きいかを見る
だけで、音韻の判定が可能となる。
【0079】このような写像の決定は、従来のニューラ
ルネットワークによっても可能であるが、上述したよう
に誤差最小が保証されないなどの、効果的な写像を決定
することができない可能性が残る問題がある。しかしな
がら、GMMによれば、誤差最小が保証されているた
め、より好ましい形に(単純な形に)カテゴリを変換す
ることができる。即ち、カテゴリの分布形状を非常に単
純化することができるので、認識性能を大幅に改善する
ことができる。
【0080】次に、図5は、図1の音声認識装置のより
詳細な構成を示している。なお、図5においては、音声
分析部2は、A/D変換器7、プリエンファシス演算部
8、ハミング窓演算部9,LPCケプストラム演算部1
0、音声区間検出部11、およびディファレンシャル演
算部13から構成されている。また、認識処理部5は、
41次元VQ処理部15,16次元VQ処理部16、離
散HMM認識処理部17、認識対象語辞書格納部18、
および確率学習データ格納部19から構成されている。
【0081】マイク1に入力された音声は、音声信号に
変換され、A/D変換器7に出力される。A/D変換器
7では、音声信号が、所定のサンプリング周波数(例え
ば、12kHzなど)でサンプリングされ、プリエンフ
ァシス演算部8に供給される。プリエンファシス演算部
8では、A/D変換器7からの音声信号がプリエンファ
シスされ(例えば、H(z)=1−0.97z-1なる伝
達関数を有するフィルタを通され)、ハミング窓演算部
9に出力される。
【0082】ハミング窓演算部9では、例えば256点
のハミング窓が、プリエンファシス演算部8から出力さ
れた音声信号にかけられる。これにより、音声信号は、
256サンプル点ごとに、いわば切り出され、その単位
で、即ちフレーム単位で、LPCケプストラム演算部1
0に供給される。なお、この切り出しは、所定のフレー
ム周期(例えば、128点など)で行われる。即ち、音
声信号は、256点のハミング窓を、128点ずつずら
しながら切り出される。また、音声信号の切り出しのた
めに用いる窓は、ハミング窓の他、例えばハニング窓な
どのその他の窓関数を用いるようにしても良い。
【0083】LPCケプストラム分析部10では、ハミ
ング窓演算部9から供給されるフレーム単位の音声信号
から、特徴ベクトルXとしての、例えば16次のLPC
ケプストラム係数が求められる。即ち、第nフレームの
音声信号から、LPCケプストラム係数ci(n)が求
められる(但し、i=0,1,2,・・・,16)。さ
らに、LPCケプストラム演算部10は、フィルタバン
クを内蔵しており、そのフィルタバンクによって音声信
号をフィルタリングすることにより、所定の帯域幅ごと
のパワーp(n)が求められる。
【0084】そして、LPCケプストラム係数は特徴ベ
クトル束化部3およびディファレンシャル演算部13
に、パワーp(n)は音声区間検出部11に、それぞれ
出力される。
【0085】なお、LPCケプストラム演算部10から
は、フィルタバンクによって音声信号をフィルタリング
することにより得られた所定の帯域幅ごとのパワーp
(n)を、特徴ベクトルXとして、特徴ベクトル束化部
3およびディファレンシャル演算部13に出力するよう
にすることも可能である。即ち、LPCケプストラム演
算部10には、LPCケプストラム係数の他の特徴量
を、音声信号から抽出させ、それを特徴ベクトルとして
出力させるようにすることが可能である。
【0086】音声区間検出部11では、LPCケプスト
ラム演算部10からのパワーに基づいて、音声区間が検
出され、離散HMM認識処理部17に出力される。ま
た、ディファレンシャル演算部13では、LPCケプス
トラムケプストラム係数からディファレンシャルLPC
ケプストラム係数の計算が行なわれる。即ち、ディファ
レンシャル演算部13においては、所定のフレーム数だ
け離れた2つのフレーム(例えば隣接する2つのフレー
ム)におけるLPCケプストラム係数どうしの差分が演
算され、その演算結果(以下、適宜、差分LPCケプス
トラム係数という)が、特徴ベクトル束化部3に出力さ
れたLPCケプストラム係数とは、別の特徴ベクトルと
して、16次元VQ処理部16に出力される。
【0087】一方、特徴ベクトル束化部3では、例えば
3フレーム分のLPCケプストラム係数が束ねられ、4
8次(=16次×3フレーム)の束化特徴ベクトルとさ
れて、GGM変換部4に出力される。GGM変換部4で
は、既に学習により得られた、上述したような写像Fに
したがって、48次の束化特徴ベクトルが、例えば41
次のベクトル(以下、適宜、GGMベクトルという)に
変換(以下、適宜、GGM変換という)され、41次元
VQ処理部15に出力される。
【0088】41次元VQ処理部15では、41次のG
GMベクトルがベクトル量子化され、例えば512種類
のコード(VQコード)のうちのいずれかにエンコード
される。また同様に、16次元VQ処理部16では、デ
ィファレンシャル演算部13からの16次の特徴ベクト
ル(差分LPCケプストラム係数)がベクトル量子化さ
れ、例えば512種類のコード(VQコード)のうちの
いずれかにエンコードされる。なお、41次元VQ処理
部15および16次元VQ処理部16には、あらかじめ
学習により得られたコードブック(VQコードブック)
が記憶されており、このコードブックを参照することに
より、VQコードが出力されるようになされている。
【0089】この2種類のVQコードは、離散HMM認
識処理部17に供給される。離散HMM認識処理部17
では、音声区間検出部11から供給される音声区間にお
いて、41次元VQ処理部15および16次元VQ処理
部16から出力されるVQコードから、認識対象語辞書
格納部18と確率学習データ格納部19とを参照して、
例えば離散HMM法にしたがった音声認識処理を行い、
認識結果を出力する。
【0090】即ち、認識対象語辞書格納部18には、音
声認識対象とする語彙が記憶されており、また確率学習
データ格納部19には、既に学習(HMMの学習)によ
り得られた、音韻ごとの出現確率および遷移確率が記憶
されている。離散HMM認識処理部17は、そこに時系
列に供給されるVQコード系列が観測される尤度(確
率)が、出現確率および遷移確率を用いて計算される。
そして、認識対象語辞書格納部18に記憶されている語
彙のうち、計算された尤度の最も高いものが、音声認識
結果として出力される。
【0091】なお、離散HMM認識処理部17では、例
えば差分LPCケプストラム係数から得られたVQコー
ドを用いず、GGMベクトルから得られたVQコードの
みを用いて認識処理を行うようにすることが可能であ
る。また、離散HMM認識処理部17においては、離散
HMM法以外のアルゴリズムにしたがって音声認識処理
を行うようにすることも可能である。
【0092】次に、上述したように、N=48,M=Q
=41とし、関数gm k(X)として、5次までの単項式
を採用するとともに、関数fm(X)の項数をすべての
mについてLm=301とした場合のシミュレーション
結果を、表1に示す。また、表1に示したシミュレーシ
ョン結果をグラフ化したものを図6に示す。
【0093】
【表1】
【0094】なお、表1および図6において、「オリジ
ナル」とは、特徴ベクトル束化部3による特徴ベクトル
の束化、およびGGM変換部4による特徴ベクトルの変
換(GGM変換)のいずれも行わなかった場合であり、
また「束化」とは、GGM変換部4による特徴ベクトル
のGGM変換は行わなかったが、特徴ベクトル束化部3
による特徴ベクトルの束化は行った場合を示している。
さらに、「GGM出力」とは、特徴ベクトル束化部3に
よる特徴ベクトルの束化、およびGGM変換部4による
特徴ベクトルのGGM変換の両方を行った場合を示して
いる。
【0095】また、「ノイズ無し」とは、ノイズを含ま
ない音声データを認識した場合の認識結果を示してお
り、「ノイズ有り」(図6では、「S/N0dB」と図
示してある)とは、ノイズを含む、S/Nが0dBの音
声データを認識した場合の認識結果を示している。
【0096】さらに、「1コードブック」とは、41次
元VQ処理部15または16次元VQ処理部16のうち
の、41次元VQ処理部15の出力のみを用いて認識を
行った場合を示しており(図6では、点線で図示してあ
る)、また「2コードブック」とは、41次元VQ処理
部15および16次元VQ処理部16の両方の出力を用
いて認識を行った場合を示している(図6では、実線で
図示してある)。
【0097】また、関数fm(X)を構成するLm=30
1項のうちの241項は、すべてのmについて、定数項
1および入力変数(特徴ベクトルX)だけからなる1乃
至5次のいずれかの次数の項とした。さらに、残りの6
0項については、Q=41種類の各音韻カテゴリごと
に、学習用の音声データを用いて相関行列を計算し、相
関の強い変数に関してのクロスタームを含む単項式を優
先的に選択して用いた。
【0098】学習用の音声データ(音声資料)として
は、ATR(自動翻訳電話研究所)音韻バランス(41
の音韻すべてが、少なくとも1回は出現する)単語21
6語を、男女各20名分と、本件発明者が収集した音韻
バランス単語(ソニー音韻バランス単語)303語を、
男女各10名分だけ用いた。また、ATR音韻バランス
単語216語の男女各15名分と、ソニー音韻バランス
単語303語の男女各5名分は、無雑音学習用データ
(ノイズを含まない学習用の音声データ)とし、残りす
べてを無雑音実験用データ(ノイズを含まないシミュレ
ーション用(認識実験用)の音声データ)とした。
【0099】騒音下音声データ(ノイズを含む学習用お
よびシミュレーション用の音声データ)は、電子機械振
興協会の高速道路走行時騒音データのうちの非定常ノイ
ズが少ないと認められる部分を、5秒間単位で、100
ヶ所切り出し、この100種類の騒音データを、無雑音
データ(無雑音学習用データおよび無雑音実験用デー
タ)に順番に、音声区間内でS/Nが0dBとなるよう
に重畳して作成した。また、HMMの学習は、無雑音と
騒音下の学習用データのすべてを混合学習することによ
り行った。
【0100】VQコードブックは、HMMの学習に用い
た単語のうちの、mod10の単語を話者ごとにずらし
て得られたものを用いた作成した。即ち、1人目の話者
が発した単語のうち、1番目、11番目、21番目、・
・・のもの、2人目の話者が発した単語のうち、2番
目、12番目、22番目、・・・のもの、3人目の話者
が発した単語のうち、3番目、13番目、23番目、・
・・のもの、・・・を用いてVQコードブックを作成し
た(VQコードブックの作成にあたっては、HMMの学
習で用いた音声データ全体の10分の1のデータを用い
た)。
【0101】表1および図6から、特徴ベクトルの束化
によって認識性能が改善され、またGGM変換により、
さらに認識性能が改善されていることがわかる。
【0102】なお、本実施例においては、GGM変換の
結果得られるGGMベクトルの次元数Mを、音韻カテゴ
リ数Qと等しくなるようにしたが、この次元数Mと音韻
カテゴリ数Qとは異なっていても良い。
【0103】また、本実施例では、教師ベクトルを、G
GM変換後のM次元ベクトル空間ΩMにおける基底ベク
トルとするようにしたが、教師ベクトルは、GGM変換
後のベクトル空間の次元数に関係なく決めることも可能
である。
【0104】さらに、本実施例においては、N次元ベク
トル空間ΩNの、Q個のカテゴリCqを、Q種類の音韻に
それぞれ対応させることにより、1つの音韻に対し、1
つの教師ベクトルを対応させるようにしたが、この他、
例えば複数の音韻に対し、1つの教師ベクトルを対応さ
せたり、また1つの音韻に対し、複数の教師ベクトルを
対応させるようにすることも可能である。
【0105】また、表1および図6には、特徴ベクトル
の束化を行わず、GGM変換のみを行った場合について
は示していないが、この場合にも、認識性能が改善され
ることが確認されている。
【0106】
【発明の効果】以上の如く、本発明の音声認識装置によ
れば、複雑に分布する特徴ベクトルXが、単純に分布す
る新たな特徴ベクトルに変換されるので、音声の認識率
を大幅に改善することができる。
【0107】また、所定のフレーム単位で出力される特
徴ベクトルXを、複数フレーム分束ね、それを特徴ベク
トルXとする場合によれば、異なる音韻カテゴリどうし
を分離することができるので、やはり音声の認識率を大
幅に改善することができる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の一実施例の構
成を示すブロック図である。
【図2】図1の特徴ベクトル束化部3の処理を説明する
ための図である。
【図3】図1の特徴ベクトル束化部3の処理により、音
韻の分離性が向上することを説明する図である。
【図4】図1のGGM変換部4の処理を説明するための
図である。
【図5】図1の実施例のより詳細な構成を示すブロック
図である。
【図6】シミュレーション結果を示す図である。
【図7】ノイズを含まない音声データの特徴ベクトルの
分布を示す図である。
【図8】ノイズを含む音声データの特徴ベクトルの分布
を示す図である。
【図9】特徴ベクトルの分布の複雑さを説明するための
図である。
【符号の説明】
1 マイク 2 音声分析部 3 特徴ベクトル束化部 4 GGM変換部 5 認識処理部 7 A/D変換器 8 プリエンファシス演算部 9 ハミング窓演算部 10 LPCケプストラム演算部 11 音声区間検出部 13 ディファレンシャル演算部 15 41次元VQ処理部 16 16次元VQ処理部 17 離散HMM認識処理部 18 認識対象語辞書格納部 19 確率学習データ格納部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小川 浩明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 表 雅則 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 渡辺 一夫 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 南野 活樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声を、所定のフレーム単位で音響分析
    し、特徴ベクトルXを抽出する分析手段と、 前記分析手段より出力される特徴ベクトルXに所定の変
    換処理を施し、新たな特徴ベクトルを出力する変換手段
    と、 前記変換手段より出力された前記新たな特徴ベクトルに
    基づいて、前記音声を認識する認識手段とを備え、 前記変換手段は、N次元ベクトル空間ΩNからM次元ベ
    クトル空間ΩMへの写像Fにしたがって前記所定の変換
    処理を行い、 前記特徴ベクトルXは、前記N次元ベクトル空間ΩN
    のベクトルであり、 前記写像Fの第m成分の関数fm(X)は、Lm個の関数
    m k(X)と係数cm kとの積の線形和 【数1】 で表されることを特徴とする音声認識装置。
  2. 【請求項2】 前記関数gm k(X)は、単項式であるこ
    とを特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 Q個のカテゴリCq(但し、q=0,
    1,2,・・・,Q−1)に分類されているN次元ベク
    トル空間ΩNの学習サンプルをSq(=(s0 q,s1 q,s
    2 q,・・・,sN-1 q))とし、前記Q個のカテゴリCq
    それぞれに対するM次元ベクトル空間ΩM上のQ個の教
    師ベクトルをTq(=(t0 q,t1 q,t2 q,・・・,t
    M-1 q))とするとともに、前記学習サンプルSqの全要
    素にわたって前記関数fm(X)の期待値を求める演算
    を、E{X∈Sq}{f(X)}とするとき、 前記係数cm kは、評価関数 【数2】 を最小にするものであり、 前記Q個のカテゴリCqは、Q種類の音韻にそれぞれ対
    応し、 前記学習サンプルSqは、ラベル付けされた音声データ
    であることを特徴とする請求項1または2に記載の音声
    認識装置。
  4. 【請求項4】 前記写像Fによる変換後のベクトル空間
    の次元Mは、前記音韻に対応するカテゴリCqの総数Q
    に等しいことを特徴とする請求項3に記載の音声認識装
    置。
  5. 【請求項5】 前記教師ベクトルTqは、前記M次元ベ
    クトル空間における単位ベクトルであることを特徴とす
    る請求項3または4に記載の音声認識装置。
  6. 【請求項6】 前記Q個の教師ベクトルTqは、互いに
    直交することを特徴とする請求項3乃至5のいずれかに
    記載の音声認識装置。
  7. 【請求項7】 前記音声データは、ノイズを含むもので
    あることを特徴とする請求項3乃至6のいずれかに記載
    の音声認識装置。
  8. 【請求項8】 前記分析手段より前記所定のフレーム単
    位で出力される特徴ベクトルXを、複数フレーム分束
    ね、それを特徴ベクトルXとして、前記変換手段に供給
    する束化手段をさらに備えることを特徴とする請求項1
    乃至7のいずれかに記載の音声認識装置。
  9. 【請求項9】 前記特徴ベクトルXは、LPCケプスト
    ラムでなることを特徴とする請求項1乃至8のいずれか
    に記載の音声認識装置。
  10. 【請求項10】 前記特徴ベクトルXは、前記音声の所
    定の帯域幅ごとのパワーでなることを特徴とする請求項
    1乃至8のいずれかに記載の音声認識装置。
  11. 【請求項11】 前記認識手段は、前記変換手段より出
    力される前記新たな特徴ベクトル、および前記分析手段
    より出力される前記特徴ベクトルXの両方に基づいて、
    前記音声を認識することを特徴とする請求項1乃至10
    のいずれかに記載の音声認識装置。
  12. 【請求項12】 前記分析手段は、前記音声を音響分析
    し、前記特徴ベクトルXと、それとは異なる他の特徴ベ
    クトルを抽出し、 前記認識手段は、前記変換手段より出力される前記新た
    な特徴ベクトル、および前記分析手段より出力される前
    記他の特徴ベクトルの両方に基づいて、前記音声を認識
    することを特徴とする請求項1乃至10のいずれかに記
    載の音声認識装置。
  13. 【請求項13】 前記他の特徴ベクトルは、所定のフレ
    ーム数だけ離れた2つのフレームからそれぞれ抽出され
    た前記特徴ベクトルXどうしの差分でなることを特徴と
    する請求項12に記載の音声認識装置。
  14. 【請求項14】 前記認識手段は、HMM(Hidden Mar
    kov Models)法にしたがって前記音声を認識することを
    特徴とする請求項1乃至13のいずれかに記載の音声認
    識装置。
  15. 【請求項15】 前記認識手段に供給されるベクトルを
    ベクトル量子化し、所定のコードを出力するベクトル量
    子化手段をさらに備え、 前記認識手段は、前記ベクトル量子化手段より出力され
    る前記所定のコードから、離散HMM法にしたがって前
    記音声を認識することを特徴とする請求項14に記載の
    音声認識装置。
JP6263399A 1994-10-27 1994-10-27 音声認識装置 Pending JPH08123462A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6263399A JPH08123462A (ja) 1994-10-27 1994-10-27 音声認識装置
US08/548,278 US5764853A (en) 1994-10-27 1995-10-25 Voice recognition device and method using a (GGM) Guaranteed Global minimum Mapping

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6263399A JPH08123462A (ja) 1994-10-27 1994-10-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPH08123462A true JPH08123462A (ja) 1996-05-17

Family

ID=17388964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6263399A Pending JPH08123462A (ja) 1994-10-27 1994-10-27 音声認識装置

Country Status (2)

Country Link
US (1) US5764853A (ja)
JP (1) JPH08123462A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123473A (ja) * 1994-10-28 1996-05-17 Sony Corp 音韻ラベル化装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
JPH0916602A (ja) * 1995-06-27 1997-01-17 Sony Corp 翻訳装置および翻訳方法
JPH09330336A (ja) * 1996-06-11 1997-12-22 Sony Corp 情報処理装置
EP1039446B1 (en) * 1998-10-09 2010-12-08 Sony Corporation Learning device and method, recognizing device and method, and recording medium
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US6609094B1 (en) 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
US6957183B2 (en) * 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
US7089185B2 (en) * 2002-06-27 2006-08-08 Intel Corporation Embedded multi-layer coupled hidden Markov model
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
JP7383122B2 (ja) * 2019-07-30 2023-11-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232400A (ja) * 1988-07-21 1990-02-02 Sharp Corp 音声の特徴抽出方法
JPH02254498A (ja) * 1989-03-29 1990-10-15 Sharp Corp 音韻分類記号化装置
JPH0635707A (ja) * 1992-05-19 1994-02-10 Sanyo Electric Co Ltd 自己増殖型ニューロファジィ知識獲得装置およびそれを用いた次元推定装置
JPH07225747A (ja) * 1994-02-15 1995-08-22 Sony Corp 写像決定方法
JPH07234855A (ja) * 1993-12-28 1995-09-05 Sony Corp 写像決定方法および装置
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5187658A (en) * 1990-01-17 1993-02-16 General Electric Company System and method for segmenting internal structures contained within the interior region of a solid object
US5276771A (en) * 1991-12-27 1994-01-04 R & D Associates Rapidly converging projective neural network
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232400A (ja) * 1988-07-21 1990-02-02 Sharp Corp 音声の特徴抽出方法
JPH02254498A (ja) * 1989-03-29 1990-10-15 Sharp Corp 音韻分類記号化装置
JPH0635707A (ja) * 1992-05-19 1994-02-10 Sanyo Electric Co Ltd 自己増殖型ニューロファジィ知識獲得装置およびそれを用いた次元推定装置
JPH07234855A (ja) * 1993-12-28 1995-09-05 Sony Corp 写像決定方法および装置
JPH07225747A (ja) * 1994-02-15 1995-08-22 Sony Corp 写像決定方法
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123473A (ja) * 1994-10-28 1996-05-17 Sony Corp 音韻ラベル化装置

Also Published As

Publication number Publication date
US5764853A (en) 1998-06-09

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US6845357B2 (en) Pattern recognition using an observable operator model
US5758023A (en) Multi-language speech recognition system
KR100391243B1 (ko) 음조언어(tonallanguage)인식을위해콘텍스트의존형(contextdependent)부음절(sub-syllable)모델을생성하고사용하기위한시스템및방법
JPH08123462A (ja) 音声認識装置
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Ghule et al. Feature extraction techniques for speech recognition: A review
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
Ghosal et al. Automatic male-female voice discrimination
CN114298019A (zh) 情绪识别方法、装置、设备、存储介质、程序产品
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Shah et al. Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach
Sen et al. A novel bangla spoken numerals recognition system using convolutional neural network
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Aggarwal et al. Implementing a speech recognition system interface for indian languages
Alsadi et al. Automatic Speech Recognition Techniques: A Review
JP2813209B2 (ja) 大語彙音声認識装置
Kaur et al. Speech based retrieval system for Punjabi language
Joshi et al. Mfcc-based voice recognition system for home automation using dynamic programming
Majidnezhad A HTK-based method for detecting vocal fold pathology
Lee Automatic recognition of isolated cantonese syllables using neural networks
Thandil et al. Automatic speech recognition system for utterances in Malayalam language

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040702