JP2001067094A - Voice recognizing device and its method - Google Patents
Voice recognizing device and its methodInfo
- Publication number
- JP2001067094A JP2001067094A JP24285699A JP24285699A JP2001067094A JP 2001067094 A JP2001067094 A JP 2001067094A JP 24285699 A JP24285699 A JP 24285699A JP 24285699 A JP24285699 A JP 24285699A JP 2001067094 A JP2001067094 A JP 2001067094A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- spectrum
- speech
- feature vector
- types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は、騒音環境下で発
声され雑音が重畳した音声を対象とする音声認識装置及
び方法に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus and method for speech uttered in a noisy environment and overlaid with noise.
【0002】[0002]
【従来の技術】雑音環境下で発声された音声には背景雑
音が重畳しており音声認識率が劣化する。この重畳雑音
を除去するための簡単で有効な手法として、スペクトル
サブトラクション法が広く用いられる。ここでは、その
一例として、文献「日本音響学会編音響工学講座7改訂
音声」(中田和男、コロナ社、p.130−131)に
記載されているスペクトルサブトラクション法を用いる
従来の音声認識装置の説明を行う。2. Description of the Related Art Background noise is superimposed on speech uttered in a noise environment, and the speech recognition rate is degraded. As a simple and effective method for removing the superimposed noise, a spectral subtraction method is widely used. Here, as an example, a description is given of a conventional speech recognition apparatus using the spectral subtraction method described in the document “Acoustic Engineering Course edited by the Acoustical Society of Japan, 7 Revised Speech” (Kazuo Nakada, Corona, pp. 130-131). I do.
【0003】図8は従来の音声認識装置の構成を示すブ
ロック図である。図8において、101は雑音重畳音声
入力に対してスペクトル分析を施し雑音重畳音声スペク
トル時系列を抽出演算するスペクトル演算手段、102
は非音声区間のスペクトルを平均し雑音スペクトルとし
て出力する平均スペクトル演算手段、103は雑音重畳
音声スペクトル時系列から雑音スペクトルを減算し雑音
除去スペクトル時系列を出力する雑音除去スペクトル演
算手段、104は雑音除去スペクトル時系列から特徴ベ
クトル時系列を求める特徴ベクトル演算手段、105は
照合用の雑音無し音声パターンを記憶する照合モデルメ
モリ、106は特徴ベクトル時系列に対して、照合モデ
ルメモリ105が記憶する雑音無し音声パターンとの照
合処理を行い、最大の尤度を与える認識結果を出力する
照合手段である。FIG. 8 is a block diagram showing a configuration of a conventional voice recognition device. In FIG. 8, reference numeral 101 denotes a spectrum calculating means for performing spectrum analysis on a noise-superimposed speech input and extracting and computing a noise-superimposed speech spectrum time series;
Is an average spectrum calculating means for averaging the spectrum of the non-voice section and outputting the result as a noise spectrum; 103, a noise removing spectrum calculating means for subtracting the noise spectrum from the noise-superimposed voice spectrum time series to output a noise removing spectrum time series; A feature vector calculating means for obtaining a feature vector time series from the removed spectrum time series; 105, a matching model memory for storing a noise-free speech pattern for matching; and 106, a noise stored in the matching model memory 105 for the feature vector time series. This is a matching unit that performs a matching process with a no-voice pattern and outputs a recognition result that gives the maximum likelihood.
【0004】以下、従来の音声認識装置の動作について
説明する。スペクトル演算手段101では、雑音重畳音
声入力に対して、一定時間ごとにフーリエ変換によりパ
ワースペクトルを計算し、雑音重畳音声スペクトルの時
系列として出力する。また、平均スペクトル演算手段1
02では、雑音重畳音声スペクトル時系列の中の非音声
区間、例えば音声区間の直前、もしくは音声発声中の休
止区間から抽出した数フレーム分の雑音重畳音声スペク
トルを各周波数毎に平均し、雑音スペクトルとして出力
する。雑音除去スペクトル演算手段103では雑音重畳
音声スペクトルの時系列の各雑音重畳音声スペクトルか
ら雑音スペクトルを減算する。[0004] The operation of the conventional speech recognition apparatus will be described below. The spectrum calculating means 101 calculates a power spectrum by Fourier transform at predetermined time intervals with respect to the input of the noise-added speech, and outputs the power spectrum as a time series of the noise-added speech spectrum. Also, average spectrum calculation means 1
In No. 02, a noise-superimposed speech spectrum of several frames extracted from a non-speech section in the noise-superimposed speech spectrum time series, for example, immediately before a speech section or a pause section during speech production, is averaged for each frequency, and the noise spectrum is calculated. Output as The noise removal spectrum calculation means 103 subtracts the noise spectrum from each noise-superimposed speech spectrum in the time series of the noise-superimposed speech spectrum.
【0005】ここで、雑音除去音声スペクトルの周波数
ωにおけるパワーS(ω)、雑音重畳音声スペクトルの
周波数ωにおけるパワーX(ω)、および推定雑音スペ
クトルの周波数ωにおけるパワーN(ω)の関係を示す
と式(1)のとおりである。Here, the relationship between the power S (ω) at the frequency ω of the noise-removed voice spectrum, the power X (ω) at the frequency ω of the noise-superimposed voice spectrum, and the power N (ω) at the frequency ω of the estimated noise spectrum is shown. This is as shown in equation (1).
【0006】[0006]
【数1】 (Equation 1)
【0007】なお、αはサブトラクト係数と呼ばれるパ
ラメータで、雑音成分を除去する程度を表し、通常、認
識精度を最大にするように調整する。また、max{}
は、括弧内の要素の中で最大の値の要素を返す関数であ
る。Note that α is a parameter called a subtract coefficient, which represents the degree of noise component removal, and is usually adjusted to maximize recognition accuracy. Also, max {}
Is a function that returns the element with the largest value among the elements in parentheses.
【0008】特徴ベクトル演算手段104は、雑音除去
スペクトル演算手段103が出力する雑音除去音声スペ
クトル時系列から、LPC(Linear Predictive Codin
g)ケプストラムなどの音声認識において音響的な特徴
を表現するベクトルに変換する。[0008] The feature vector computing means 104 converts the noise-reduced speech spectrum time series output from the noise-removing spectrum computing means 103 into an LPC (Linear Predictive Codin).
g) Convert to a vector expressing acoustic features in speech recognition such as cepstrum.
【0009】照合手段106は、特徴ベクトル演算手段
104が出力する特徴ベクトル時系列に対して、照合モ
デルメモリ105が記憶する雑音無し音声パターンとの
照合を行い、最大尤度を与える認識候補を認識結果とし
て出力する。ここでは、照合手段の一例として、文献
「音声認識の基礎(下)」(Lawrence Rabiner, Biing-
Hwang Juang 共著、NTTアドバンステクノロジ株式会
社、p.125−128)に記載されている、隠れマル
コフモデル(以下HMMという)を用いた音声認識装置
における、Viterbiサーチを用いた最大尤度の演算方法
を説明する。[0009] The matching means 106 compares the feature vector time series output from the feature vector calculating means 104 with the noise-free voice pattern stored in the matching model memory 105 to recognize a recognition candidate giving the maximum likelihood. Output as result. Here, as an example of the matching means, the document “Basic of speech recognition (below)” (Lawrence Rabiner, Biing-
Hwang Juang, NTT Advanced Technology Corporation, p. 125-128), a method of calculating the maximum likelihood using a Viterbi search in a speech recognition apparatus using a hidden Markov model (hereinafter referred to as HMM) will be described.
【0010】すなわち、時刻1〜Tまでの特徴ベクトル
時系列Y=(y1,y2,・・・,y T )に対して尤度最
大となる一本の最適状態系列q=(q1,q2,・・・,
qT)を見つけるViterbiサーチは以下の4つのステップ
から構成される。That is, the feature vectors from time 1 to time T
Time series Y = (y1, YTwo, ..., y T) For the likelihood
One large optimal state sequence q = (q1, QTwo, ...,
qTViterbi search to find the following four steps
Consists of
【0011】STEP1(初期化)STEP 1 (initialization)
【0012】[0012]
【数2】 (Equation 2)
【0013】[0013]
【数3】 (Equation 3)
【0014】STEP2(繰り返し)STEP 2 (repeated)
【0015】[0015]
【数4】 (Equation 4)
【0016】[0016]
【数5】 (Equation 5)
【0017】STEP3(終了)STEP 3 (End)
【0018】[0018]
【数6】 (Equation 6)
【0019】[0019]
【数7】 (Equation 7)
【0020】STEP4(バックトラック)STEP 4 (backtrack)
【0021】[0021]
【数8】 (Equation 8)
【0022】ここで、δt(i)は一本のパス上の、時
刻tでの最大尤度であり、以下の式で表される。Here, δ t (i) is the maximum likelihood at time t on one path and is expressed by the following equation.
【0023】[0023]
【数9】 (Equation 9)
【0024】式(2)〜(8)において、Ψt(j)は
各時刻t、各状態jで式(9)を最大にする経路の引数
を記憶する配列である。また、aijは状態iから状態j
への遷移確率、bi(yt)は状態iにおける特徴ベクト
ルytの出力確率、πiは初期状態で状態iに存在する確
率、λは照合用音声モデルを表し、それぞれ雑音の無い
環境下で発声した音声データから学習される。In the equations (2) to (8), Ψ t (j) is an array for storing the argument of the path that maximizes the equation (9) at each time t and each state j. Also, a ij changes from state i to state j.
, B i (y t ) is the output probability of the feature vector y t in state i, π i is the probability of being in state i in the initial state, λ is the voice model for verification, and each is a noise-free environment. Learned from voice data uttered below.
【0025】一般的な音声認識装置では、照合用音声パ
ターンの状態遷移を、図9に示すような状態遷移に制約
のついたLeft-to-rightのHMMモデルで表現する。な
お、bi(y)は状態iにおける特徴ベクトルyの出力
確率である。In a general speech recognition apparatus, the state transition of a collation speech pattern is represented by a left-to-right HMM model with a restriction on the state transition as shown in FIG. Note that b i (y) is the output probability of the feature vector y in the state i.
【0026】照合用音声パターンの状態遷移をLeft-to-
rightのHMMモデルで表現する場合のViterbiサーチの
様子を図10に示す。図10は、時刻t、状態jにおけ
る最大尤度δt(j)が、時刻t−1、状態jにおける
最大尤度δtー1(j)と時刻t−1、状態j−1におけ
る最大尤度δ tー1(j−1)から、尤度最大になるよう
なパスが選択されることによって演算されることを示し
ている。The state transition of the matching voice pattern is defined as Left-to-
Viterbi search when expressing with the right HMM model
This is shown in FIG. FIG. 10 shows the state at time t and state j.
Maximum likelihood δt(J) is at time t-1, state j
Maximum likelihood δt-1(J) at time t-1, state j-1
Maximum likelihood δ t-1From (j-1), the likelihood is maximized.
Is calculated by selecting the appropriate path.
ing.
【0027】以上の動作により、入力される雑音重畳音
声信号のスペクトル時系列に非音声区間の雑音区間の平
均スペクトルが重畳していると見なして、パワースペク
トル上で雑音成分を除去した上で雑音無し照合モデルと
の照合処理を施し、認識結果を得る。By the above operation, it is considered that the average spectrum of the noise section of the non-voice section is superimposed on the spectrum time series of the input noise-superimposed speech signal, and the noise component is removed from the power spectrum. A matching process with the no-matching model is performed to obtain a recognition result.
【0028】[0028]
【発明が解決しようとしする課題】従来のスペクトルサ
ブトラクション法を用いた騒音下音声認識装置は上記の
ように構成されているため、発声直前等の雑音の平均ス
ペクトルと実際の音声区間に重畳している雑音スペクト
ルの差が小さい場合、即ち環境騒音の変動が小さい場合
は比較的良好に動作する。しかし、騒音源が移動物であ
り、音声信号の入力端から騒音源までの距離が変化する
場合や、環境騒音が非定常で変動が大きい場合は、推定
した雑音スペクトルと実際に音声に重畳している雑音ス
ペクトルとの推定誤差が大きくなり、認識性能が劣化す
るという問題があった。Since the conventional under-noise speech recognition apparatus using the spectral subtraction method is configured as described above, it is superimposed on the average spectrum of noise immediately before utterance or the like and the actual speech section. When the noise spectrum difference is small, that is, when the fluctuation of the environmental noise is small, the operation is relatively good. However, when the noise source is a moving object and the distance from the input end of the audio signal to the noise source changes, or when the environmental noise is unsteady and has large fluctuations, the estimated noise spectrum and the noise are actually superimposed on the voice. There is a problem that an estimation error with respect to the noise spectrum increases and the recognition performance deteriorates.
【0029】この発明は上記のような問題を解決するた
めのもので、音声信号の入力端と騒音源との距離の変化
による認識性能劣化を削減することができる音声認識装
置及び方法を得ることを目的としている。また、環境騒
音の変動による認識性能劣化を削減することができる音
声認識装置及び方法を得ることを目的としている。SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and has as its object to obtain a speech recognition apparatus and method capable of reducing the degradation of recognition performance due to a change in the distance between a speech signal input terminal and a noise source. It is an object. It is another object of the present invention to provide a speech recognition apparatus and method capable of reducing recognition performance deterioration due to fluctuations in environmental noise.
【0030】[0030]
【課題を解決するための手段】この発明に係る音声認識
装置は、非音声区間を含む雑音重畳入力音声信号をスペ
クトル分析しスペクトル特徴パラメータを求め音声認識
処理を行う音声認識装置において、雑音重畳入力音声信
号をスペクトル分析し雑音重畳音声スペクトル時系列を
出力するスペクトル演算手段と、上記スペクトル演算手
段から出力される雑音重畳音声スペクトル時系列の中の
非音声区間から重畳雑音のスペクトルを推定し雑音スペ
クトルとして出力する平均スペクトル演算手段と、上記
スペクトル演算手段から出力される雑音重畳音声スペク
トル時系列から上記平均スペクトル演算手段から出力さ
れる雑音スペクトルを減算する際の当該雑音スペクトル
に対する倍率を変えて複数種類の雑音除去音声スペクト
ル時系列を出力する雑音除去スペクトル群演算手段と、
上記雑音除去スペクトル群演算手段から出力される複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算手段と、
雑音のない環境下で発声した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリと、上記
特徴ベクトル群演算手段から出力される複数種類の雑音
除去音声特徴ベクトル時系列に対して、時刻、状態、特
徴ベクトルの種類の3軸からなる3次元空間内で、上記
照合モデルメモリに記憶された雑音無し音声パターンと
特徴ベクトルの種類の遷移を表したモデルとの照合を行
い認識結果を出力する3次元照合手段とを備えたことを
特徴とするものである。SUMMARY OF THE INVENTION A speech recognition apparatus according to the present invention is a speech recognition apparatus for analyzing a spectrum of a noise-superimposed input speech signal including a non-speech section to obtain spectrum characteristic parameters and performing speech recognition processing. Spectrum calculating means for analyzing the spectrum of the voice signal and outputting a noise-superimposed voice spectrum time series; and estimating the spectrum of the superimposed noise from the non-voice section in the noise-superimposed voice spectrum time series output from the spectrum calculating means. Means for calculating the average of the noise spectrum output from the spectrum calculating means and the noise spectrum output from the average spectrum calculating means when subtracting the noise spectrum output from the noise spectrum from the time series. The noise-removed speech spectrum time series And the noise removal spectrum group arithmetic means,
A feature vector group calculating means for converting a plurality of types of noise-removed speech spectrum time series output from the noise removing spectrum group calculating means into a plurality of types of feature vector time series;
A collation model memory storing a model representing a transition of the type of a feature vector and a noise-free speech pattern learned using speech data uttered in a noise-free environment, and output from the feature vector group calculating means. For a plurality of types of noise-removed speech feature vector time series, in a three-dimensional space consisting of three axes of time, state, and feature vector type, the noise-free speech pattern and the feature vector type stored in the matching model memory are stored. And a three-dimensional matching means for comparing the model with the model representing the transition and outputting a recognition result.
【0031】また、上記平均スペクトル演算手段から出
力される雑音スペクトル、及び予め大量の雑音データか
らクラスタリング手法を用いて学習した複数種類の雑音
スペクトルパターンを記憶する雑音スペクトルメモリを
さらに備え、上記雑音除去スペクトル演算手段は、上記
スペクトル演算手段から出力される雑音重畳音声スペク
トル時系列の各雑音重畳音声スペクトルから、上記雑音
ベクトルに対する複数種類の倍率と、上記雑音スペクト
ルメモリに記憶された複数種類の雑音スペクトルパター
ンとを組み合わせて、複数種類の雑音除去音声スペクト
ルを求めることを特徴とするものである。The apparatus further comprises a noise spectrum memory for storing a noise spectrum output from the average spectrum calculating means and a plurality of types of noise spectrum patterns previously learned from a large amount of noise data by using a clustering technique. The spectrum calculating means calculates a plurality of types of magnifications for the noise vector and a plurality of types of noise spectrums stored in the noise spectrum memory from each of the noise-superposed speech spectra of the noise-superposed speech spectrum output from the spectrum calculating means. It is characterized in that a plurality of types of noise-removed speech spectra are obtained by combining with a pattern.
【0032】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移を表したモデルとして、特徴ベクトル
の種類の遷移に制約を加えないモデルを記憶したことを
特徴とするものである。Further, the collation model memory is characterized in that a model which does not restrict the transition of the type of the feature vector is stored as a model representing the transition of the type of the feature vector.
【0033】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移に制約を加えないモデルとして、全て
の種類に遷移可能なelgotic 隠れマルコフモデルを記憶
したことを特徴とするものである。The matching model memory is characterized by storing an elgotic hidden Markov model capable of transitioning to all types as a model that does not impose restrictions on the transition of the types of feature vectors.
【0034】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移を表したモデルとして、特徴ベクトル
の種類の遷移に制約を加えたモデルを記憶したことを特
徴とするものである。The matching model memory is characterized by storing a model in which the transition of the type of the feature vector is restricted as a model representing the transition of the type of the feature vector.
【0035】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移に制約を加えたモデルとして、隣接す
る特徴ベクトルの種類間のみ遷移可能な隠れマルコフモ
デルを記憶したことを特徴とするものである。Further, the matching model memory is characterized in that a hidden Markov model capable of transitioning only between adjacent types of feature vectors is stored as a model in which transitions of types of feature vectors are restricted. .
【0036】また、この発明に係る音声認識方法は、非
音声区間を含む雑音重畳入力音声信号をスペクトル分析
しスペクトル特徴パラメータを求め音声認識処理を行う
音声認識方法において、雑音重畳入力音声に対しスペク
トル分析を施し雑音重畳音声スペクトル時系列を得るス
ペクトル演算工程と、上記スペクトル演算工程で得られ
る雑音重畳音声スペクトル時系列の中の非音声区間から
重畳雑音のスペクトルを推定し雑音スペクトルとして得
る平均スペクトル演算工程と、上記スペクトル演算工程
で得られる雑音重畳音声スペクトル時系列から上記平均
スペクトル演算工程で得られる雑音スペクトルを減算す
る際の当該雑音スペクトルに対する倍率を変えて複数種
類の雑音除去音声スペクトル時系列を得る雑音除去スペ
クトル群演算工程と、上記雑音除去スペクトル群演算工
程で得られる複数種類の雑音除去音声スペクトル時系列
を複数種類の特徴ベクトル時系列に変換する特徴ベクト
ル群演算工程と、上記特徴ベクトル群演算工程で得られ
る複数種類の雑音除去音声特徴ベクトル時系列に対し
て、時刻、状態、特徴ベクトルの種類の3軸からなる3
次元空間内で、雑音のない環境下で発声した音声データ
を用いて学習した雑音無し音声パターンと特徴ベクトル
の種類の遷移を表したモデルとの照合を行いその認識結
果を得る3次元照合工程とを備えたことを特徴とするも
のである。Further, according to the speech recognition method of the present invention, in the speech recognition method for analyzing the spectrum of a noise-superimposed input speech signal including a non-speech section to obtain a spectrum feature parameter and performing speech recognition processing, A spectrum calculation step of performing analysis to obtain a noise-superimposed speech spectrum time series, and an average spectrum calculation of estimating a spectrum of superimposed noise from a non-speech section in the noise-superimposed speech spectrum time series obtained in the spectrum calculation step to obtain a noise spectrum. And a plurality of types of noise-removed voice spectrum time series by changing the magnification for the noise spectrum when subtracting the noise spectrum obtained in the average spectrum calculation step from the noise superimposed voice spectrum time series obtained in the spectrum calculation step. Obtained noise removal spectrum group calculation process A feature vector group calculating step of converting a plurality of types of noise-removed voice spectrum time series obtained in the noise removing spectrum group calculating step into a plurality of types of feature vector time series; and a plurality of types of feature vector groups obtained in the feature vector group calculating step. For the noise-removed speech feature vector time series, three axes of time, state, and feature vector type
A three-dimensional matching step of comparing a noise-free speech pattern learned using speech data uttered in a noise-free environment in a three-dimensional space with a model representing a transition of the type of a feature vector to obtain a recognition result thereof; It is characterized by having.
【0037】また、上記雑音除去スペクトル演算工程
は、上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列の各雑音重畳音声スペクトルから、上記
雑音ベクトルに対する複数種類の倍率と、予め大量の雑
音データからクラスタリング手法を用いて学習した複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求めることを特徴とす
るものである。In addition, the noise removal spectrum calculation step includes a plurality of types of magnifications with respect to the noise vector and a large amount of noise data in advance from each noise superimposed speech spectrum of the noise superimposed speech spectrum time series obtained in the spectrum calculation step. It is characterized in that a plurality of types of noise-removed speech spectra are obtained by combining a plurality of types of noise spectrum patterns learned using a clustering method.
【0038】また、上記3次元照合工程は、特徴ベクト
ルの種類の遷移を表したモデルとして、特徴ベクトルの
種類の遷移に制約を加えないモデルを用いたことを特徴
とするものである。Further, the three-dimensional matching step is characterized in that a model that does not restrict the transition of the type of the feature vector is used as a model representing the transition of the type of the feature vector.
【0039】また、上記3次元照合工程は、上記特徴ベ
クトルの種類の遷移に制約を加えないモデルとして、全
ての種類に遷移可能なelgotic 隠れマルコフモデルを用
いたことを特徴とするものである。Further, the three-dimensional matching step is characterized in that an elgotic hidden Markov model capable of transitioning to all types is used as a model that does not impose restrictions on the transition of the types of the feature vectors.
【0040】また、上記3次元照合工程は、特徴ベクト
ルの種類の遷移を表したモデルとして、特徴ベクトルの
種類の遷移に制約を加えたモデルを用いたことを特徴と
するものである。Further, the three-dimensional matching step is characterized in that a model in which the transition of the type of the feature vector is restricted is used as the model representing the transition of the type of the feature vector.
【0041】さらに、上記3次元照合工程は、特徴ベク
トルの種類の遷移に制約を加えたモデルとして、隣接す
る特徴ベクトルの種類間のみ遷移可能な隠れマルコフモ
デルを用いたことを特徴とするものである。Further, the three-dimensional matching step is characterized in that a hidden Markov model capable of transitioning only between adjacent types of feature vectors is used as a model in which transitions of types of feature vectors are restricted. is there.
【0042】[0042]
【発明の実施の形態】実施の形態1.図1はこの発明の
実施の形態1に係る音声認識装置及び方法を説明するた
めの構成を示すブロック図である。図1において、図8
に示す従来例と同一部分は同一符号を付して示すものと
し、101は雑音重畳音声入力に対してスペクトル分析
を施し雑音重畳音声スペクトル時系列を抽出するスペク
トル演算手段、102は上記スペクトル演算手段101
から出力される雑音重畳音声スペクトル時系列の中の非
音声区間のスペクトルを平均し、雑音スペクトルとして
出力する平均スペクトル演算手段である。DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 FIG. 1 is a block diagram showing a configuration for explaining a speech recognition apparatus and method according to Embodiment 1 of the present invention. In FIG. 1, FIG.
Are denoted by the same reference numerals, 101 is a spectrum calculating means for performing spectrum analysis on the noise-superimposed speech input and extracting a noise-superimposed speech spectrum time series, and 102 is the spectrum computing means. 101
Average spectrum calculating means for averaging the spectrum of a non-speech section in the noise-superimposed speech spectrum time series output from, and outputting as a noise spectrum.
【0043】また、新たな符号として、201は上記ス
ペクトル演算手段101から出力される雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算手段102
から出力される雑音スペクトルを減算する際の雑音スペ
クトルに対する倍率を変えて雑音スペクトルを減算し、
複数種類の雑音除去スペクトル時系列を出力する雑音除
去スペクトル群演算手段、202は複数種類の雑音除去
スペクトル時系列を複数種類の特徴ベクトル時系列に変
換する特徴ベクトル群演算手段、203は上記特徴ベク
トル群演算手段202から出力される複数種類の雑音除
去音声特徴ベクトル時系列に対して、時刻、状態、特徴
ベクトルの種類の3軸からなる3次元空間内で、後述す
る照合モデルメモリ205が記憶する雑音無し音声パタ
ーンと特徴ベクトルの種類の遷移を表したモデルとの照
合を行い認識結果を出力する3次元照合手段、205は
雑音のない環境下で発生した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリである。As a new code, reference numeral 201 denotes the average spectrum calculating means 102 based on the noise-superimposed speech spectrum time series output from the spectrum calculating means 101.
The noise spectrum is subtracted by changing the magnification for the noise spectrum when subtracting the noise spectrum output from
A noise removal spectrum group calculating means for outputting a plurality of types of noise removal spectrum time series; a feature vector group calculating means for converting a plurality of types of noise removal spectrum time series into a plurality of types of feature vector time series; For a plurality of types of noise-removed speech feature vector time series output from the group calculation means 202, a collation model memory 205 described later stores in a three-dimensional space composed of three axes of time, state, and feature vector type. Three-dimensional matching means for matching a noise-free voice pattern with a model representing a transition of the type of a feature vector and outputting a recognition result; and 205, a noise-free voice trained using voice data generated in a noise-free environment This is a collation model memory that stores a model representing the transition between the types of patterns and feature vectors.
【0044】この図1に示す実施の形態1に係る音声認
識装置は、上述した図1に示すブロック図により構成さ
れるものであるが、対応する音声認識方法を構成する工
程としては次に示す工程を備える。 a.雑音重畳入力音声に対しスペクトル分析を施し雑音
重畳音声スペクトル時系列を得るスペクトル演算工程、 b.上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列の中の非音声区間から重畳雑音のスペク
トルを推定し雑音スペクトルとして得る平均スペクトル
演算工程、 c.上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算工程で得ら
れる雑音スペクトルを減算する際の当該雑音スペクトル
に対する倍率を変えて複数種類の雑音除去音声スペクト
ル時系列を得る雑音除去スペクトル群演算工程、 d.上記雑音除去スペクトル群演算工程で得られる複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算工程、 e.上記特徴ベクトル群演算工程で得られる複数種類の
雑音除去音声特徴ベクトル時系列に対して、時刻、状
態、特徴ベクトルの種類の3軸からなる3次元空間内
で、雑音のない環境下で発声した音声データを用いて学
習した雑音無し音声パターンと特徴ベクトルの種類の遷
移を表したモデルとの照合を行いその認識結果を得る3
次元照合工程。The speech recognition apparatus according to the first embodiment shown in FIG. 1 is constituted by the above-described block diagram shown in FIG. 1. The steps constituting the corresponding speech recognition method are as follows. Process. a. A spectrum calculation step of performing spectrum analysis on the noise-superimposed input speech to obtain a noise-superimposed speech spectrum time series; b. An average spectrum calculating step of estimating a spectrum of superimposed noise from a non-voice section in the noise-superimposed voice spectrum time series obtained in the spectrum calculating step and obtaining the spectrum as a noise spectrum; c. Noise removal to obtain a plurality of types of noise-removed speech spectrum time series by changing the magnification of the noise spectrum obtained when the noise spectrum obtained in the average spectrum calculation step is subtracted from the noise-superimposed speech spectrum time series obtained in the spectrum calculation step Spectrum group calculation step, d. A feature vector group calculating step of converting a plurality of types of noise-removed speech spectrum time series obtained in the noise removing spectrum group calculating step into a plurality of types of feature vector time series; e. A plurality of types of noise-removed speech feature vector time series obtained in the feature vector group calculation step were uttered in a three-dimensional space composed of three axes of time, state, and feature vector in a noise-free environment. Matching is performed between the noise-free speech pattern learned using the speech data and the model representing the transition of the type of the feature vector to obtain the recognition result 3
Dimension matching process.
【0045】次に、上記構成に係る実施の形態1の動作
について説明する。スペクトル演算手段101及び平均
スペクトル演算手段102の動作は従来例の動作と同様
なため、ここでは説明を省略する。雑音除去スペクトル
群演算手段201では、雑音重畳音声スペクトルの時系
列の各雑音重畳音声スペクトルから、V種類(複数種
類)のサブトラクト係数α(k ),(1≦k≦V)を用い
て、雑音スペクトルを減算し、V種類の雑音除去音声ス
ペクトルS(k)(ω)を求める。ここでは、以下のよう
に0.5刻みにα(k)の値を設定する。Next, the operation of the first embodiment having the above configuration will be described. The operations of the spectrum calculation means 101 and the average spectrum calculation means 102 are the same as the operations of the conventional example, and the description is omitted here. The noise removal spectrum group calculating means 201 uses V (multiple types) subtraction coefficients α (k ) and (1 ≦ k ≦ V) from each of the time-series noise-superimposed voice spectra of the noise-superimposed voice spectrum. The spectrum is subtracted to obtain V kinds of noise-removed speech spectra S (k) (ω). Here, the value of α (k) is set in 0.5 steps as follows.
【0046】[0046]
【数10】 (Equation 10)
【0047】ここで、S(k)(ω)はk種類目の雑音除
去音声スペクトルの周波数ωにおけるパワー、X(ω)
は雑音重畳音声スペクトルの周波数ωにおけるパワーを
表す。このようにして、V種類の雑音除去音声スペクト
ル時系列 S(1)(ω),S(2)(ω),・・・,S(v)(ω) (ただしS(k)(ω)=(S1 (k)(ω),S
2 (k)(ω),・・・,ST (k)(ω))) を求める。Here, S (k) (ω) is the power at the frequency ω of the k-th noise-removed voice spectrum, and X (ω)
Represents the power at the frequency ω of the noise-superimposed speech spectrum. In this way, V types of noise-removed speech spectrum time series S (1) (ω), S (2) (ω),..., S (v) (ω) (where S (k) (ω) = (S 1 (k) (ω), S
2 (k) (ω),..., ST (k) (ω))).
【0048】特徴ベクトル群演算手段202では、雑音
除去スペクトル群演算手段201が出力するV種類の雑
音除去音声スペクトル時系列S(1)(ω),S
(2)(ω),・・・,S(v)(ω)を従来例と同様に、L
PCケプストラムなどの音声認識において音響的な特徴
を表現するV種類の特徴ベクトル時系列Y(1),Y(2),
・・・,Y(v)(ただしY(k)=Y1 (k),Y2 (k),・・
・,YT (k))に変換する。The feature vector group calculating means 202 outputs V kinds of noise-removed speech spectrum time series S (1) (ω), S output by the noise removing spectrum group calculating means 201.
(2) (ω),..., S (v) (ω) is changed to L
V type feature vector time series Y (1) , Y (2) , representing acoustic features in speech recognition such as PC cepstrum
···, Y (v) (where Y (k) = Y 1 ( k), Y 2 (k), ··
, Y T (k) ).
【0049】3次元照合処理手段203では、特徴ベク
トル群演算手段202が出力するV種類の特徴ベクトル
時系列Y(1),Y(2),・・・,Y(v)に対して、時刻、
状態、特徴ベクトルの種類の3軸からなる3次元空間内
で照合を行い、最大尤度を与える認識候補を認識結果と
して出力する。[0049] In three-dimensional matching process unit 203, V type of time-series feature vector Y output from the feature vector group arithmetic unit 202 (1), Y (2 ), ···, against the Y (v), the time ,
Matching is performed in a three-dimensional space including three axes of the state and the type of feature vector, and a recognition candidate that gives the maximum likelihood is output as a recognition result.
【0050】特徴ベクトルの種類の遷移は、図2に示す
elgoticHMMモデルで表現する。図2において、ckl
は特徴ベクトルの種類kから特徴ベクトルの種類lへの
遷移確率であり、各状態間は観測事象を出力しないナル
遷移で結ばれている。elgoticHMMモデルを用いてい
るのは、本実施の形態1では特徴ベクトルの種類の遷移
に制約を付けないためである。The transition of the type of the feature vector is shown in FIG.
Expressed by an elgotic HMM model. In FIG. 2, c kl
Is the transition probability from the type k of the feature vector to the type 1 of the feature vector, and each state is connected by a null transition that does not output the observation event. The reason why the elgotic HMM model is used is that the first embodiment does not restrict the transition of the type of the feature vector.
【0051】尤度最大となる一本の最適な、状態及び特
徴ベクトルの種類の組み合わせの系列(q、v)=(q
1、v1),(q2、v2),・・・,(qT、vT)を見つ
けるために、以下の4つのステップから構成される、3
次元に拡張したViterbiサーチを実行する。A sequence (q, v) = (q) of one optimal combination of the type of the state and the feature vector having the maximum likelihood
1 , v 1 ), (q 2 , v 2 ),..., (Q T , v T )
Perform a Viterbi search extended to the dimension.
【0052】STEP1(初期化)STEP 1 (initialization)
【0053】[0053]
【数11】 [Equation 11]
【0054】[0054]
【数12】 (Equation 12)
【0055】STEP2(繰り返し)STEP 2 (Repeat)
【0056】[0056]
【数13】 (Equation 13)
【0057】[0057]
【数14】 [Equation 14]
【0058】STEP3(終了)STEP 3 (End)
【0059】[0059]
【数15】 (Equation 15)
【0060】[0060]
【数16】 (Equation 16)
【0061】STEP4(バックトラック)STEP 4 (Back Track)
【0062】[0062]
【数17】 [Equation 17]
【0063】ここで、δt(i,k)は時刻、状態、特
徴ベクトルの種類の3軸から構成される3次元空間内の
一本のパス上の、時刻t、状態i、特徴ベクトルの種類
kでの最大尤度であり、以下の式で表される。Here, δ t (i, k) is the time t, the state i, and the characteristic vector on one path in a three-dimensional space composed of three axes of time, state, and feature vector. This is the maximum likelihood of the type k, and is represented by the following equation.
【0064】[0064]
【数18】 (Equation 18)
【0065】式(11)〜(17)において、Ψ
t(j,l)は各時刻t、各状態j、特徴ベクトルの種
類lで式(18)を最大にする経路の引数を記憶する2
次元配列である。また、bi(yt (k))は状態iにおけ
る特徴ベクトルyt (k)の出力確率、cklは特徴ベクトル
の種類kから特徴ベクトルの種類lへの遷移確率、ρk
は初期状態で特徴ベクトルの種類がkである確率であ
る。In equations (11) to (17), Ψ
t (j, l) stores the argument of the path that maximizes the expression (18) at each time t, each state j, and the type 1 of the feature vector.
It is a dimensional array. B i (y t (k) ) is the output probability of feature vector y t (k) in state i, c kl is the transition probability from feature vector type k to feature vector type l, ρ k
Is the probability that the type of the feature vector is k in the initial state.
【0066】図3は照合用音声パターンの状態遷移をLe
ft-to-right のHMMモデルで表現し、特徴ベクトルの
種類の遷移をelgotic HMMモデルで表現する場合の3
次元Viterbiサーチの様子を表したものである。FIG. 3 shows the state transition of the verification voice pattern as Le.
3 in the case of expressing with ft-to-right HMM model and expressing the transition of the type of feature vector with elgotic HMM model
This shows the state of the dimensional Viterbi search.
【0067】また、図4は、図3における時刻t−1〜
tの範囲を抽出した図であり、時刻t、状態j、特徴ベ
クトルの種類lにおける最大尤度δt(j,l)が、時
刻t−1、状態j、特徴ベクトルの種類kにおける最大
尤度δtー1(j,k)(ただし(1≦k≦V))と、時
刻t−1、状態j−1、特徴ベクトルの種類k(におけ
る最大尤度δtー1(j−1,k)(ただし(1≦k≦
V))とから、尤度最大になるようなパスが選択される
ことによって演算されることを示している。FIG. 4 is a timing chart of FIG.
FIG. 6 is a diagram in which a range of t is extracted, and the maximum likelihood δ t (j, l) at time t, state j, and feature vector type 1 is the maximum likelihood at time t−1, state j, and feature vector type k. Degree δ t−1 (j, k) (where (1 ≦ k ≦ V)) and the maximum likelihood δ t−1 (j−1) at time t−1, state j−1, and feature vector type k. , K) (where (1 ≦ k ≦
V)), the calculation is performed by selecting a path that maximizes the likelihood.
【0068】以下、実施の形態1に対する作用効果を述
べる。従来の騒音下音声認識装置では、非音声区間から
推定した雑音スペクトルが全音声区間に一様に重畳して
いると仮定し、評価データに対して認識性能が最大にな
るように調整した唯一つのサブトラクト係数αの値を用
いていた。しかし、騒音源と音声入力端の距離が時刻と
共に変動する場合には、ある時刻において音声に重畳す
る雑音スペクトルのパワーが雑音推定時の雑音スペクト
ルのパワーと異なるため、雑音スペクトルを引き過ぎた
り、引かな過ぎたりすることが起こり、正確な雑音除去
音声スペクトルを求めることができない。その結果とし
て、雑音無し音声パターンとのミスマッチが起き認識率
が劣化する。The operation and effect of the first embodiment will be described below. In a conventional noisy speech recognition device, it is assumed that the noise spectrum estimated from the non-speech section is uniformly superimposed on the entire speech section, and the only one that is adjusted to maximize the recognition performance for the evaluation data The value of the subtraction coefficient α was used. However, when the distance between the noise source and the voice input terminal fluctuates with time, the power of the noise spectrum superimposed on the voice at a certain time is different from the power of the noise spectrum at the time of noise estimation. In some cases, the sound is over-pulled, and an accurate noise-free speech spectrum cannot be obtained. As a result, a mismatch with the noise-free speech pattern occurs, and the recognition rate deteriorates.
【0069】文献「並列HMM法とスペクトルサブトラ
クションによる非定常雑音騒音下における音声認識」
(嶺竜治、電子情報通信学会論文誌(D−II)、Vo
l.J−78−D−II、No.7、pp.1021−1
027、1995)では、雑音HMMをelgotic HMM
で表現し、スペクトルサブトラクション後の雑音除去音
声特徴ベクトルに対して、時刻、音声モデルの状態、雑
音モデルの状態の3次元空間上で照合処理を行うことに
よって非定常な雑音環境下での認識性能を向上させてい
る。しかし、上記文献には、サブトラクト係数の値につ
いての記述はないこと、本実施の形態1では、雑音モデ
ルではなく、特徴ベクトルの種類の遷移をモデル化して
いることから、両者は別の技術であるといえる。Document "Speech recognition under non-stationary noise by parallel HMM method and spectral subtraction"
(Ryuji Mine, IEICE Transactions (D-II), Vo
l. J-78-D-II, No. 7, pp. 1021-1
027, 1995), the noise HMM was transformed into an elgotic HMM.
And performs recognition processing on the noise-removed speech feature vector after spectral subtraction in a three-dimensional space of the time, the state of the speech model, and the state of the noise model, so that the recognition performance in an unsteady noise environment Has been improved. However, since the above document does not describe the value of the subtraction coefficient, and in the first embodiment, the transition of the type of the feature vector is modeled instead of the noise model. It can be said that there is.
【0070】本実施の形態1に係る音声認識装置及び方
法では、各時刻t毎にV種類のサブトラクト係数α(k)
を用いて演算されたV種類の特徴ベクトル候補が存在す
る。各時刻tにおける特徴ベクトルの種類kは、尤度が
最大となるように選択されるため、騒音源と音声入力端
の距離が変動しても雑音スペクトルを引き過ぎたり、引
かな過ぎたりすることを防ぎ、認識率の劣化を抑えるこ
とができる。In the speech recognition apparatus and method according to the first embodiment, V types of subtraction coefficients α (k) are provided at each time t.
There are V types of feature vector candidates calculated using Since the type k of the feature vector at each time t is selected such that the likelihood is maximized, the noise spectrum may be overdrawn or overdrawn even if the distance between the noise source and the voice input terminal fluctuates. Can be prevented, and the deterioration of the recognition rate can be suppressed.
【0071】また、本実施の形態1に係る音声認識装置
及び方法では、特徴ベクトルの種類の遷移を表したモデ
ルとして、特徴ベクトルの種類の遷移に制限を加えず
に、すべての種類に遷移可能なelgotic HMMモデルを
用いているが、特徴ベクトルの種類の遷移に制限を加え
たモデルとして、雑音除去時のサブトラクト係数α(k)
の値が隣接する特徴ベクトルの種類間のみ遷移可能にし
た図5に示すHMMモデルを用いることで、重畳雑音パ
ワーの時間的変化を適切にモデル化することが可能であ
る。Further, in the speech recognition apparatus and method according to the first embodiment, as a model representing the transition of the type of the feature vector, transition to all types is possible without restricting the transition of the type of the feature vector. Although the elgotic HMM model is used, the subtraction coefficient α (k) at the time of noise removal is used as a model that restricts the transition of the type of feature vector.
Can be appropriately modeled by using the HMM model shown in FIG. 5 in which the value of can be changed only between the types of adjacent feature vectors.
【0072】実施の形態2.次に、図6はこの発明の実
施の形態2に係る音声認識装置及び方法を説明するため
の構成を示すブロック図である。図6において、図1に
示す実施の形態1と同一部分は同一符号を付して示し、
その説明は省略する。新たな符号として、204は平均
スペクトル演算手段102から出力される雑音スペクト
ル及び予め大量の雑音データからクラスタリング手法を
用いて学習した複数種類の雑音スペクトルパターンを記
憶する雑音スペクトルメモリであり、雑音除去スペクト
ル演算手段201は、スペクトル演算手段101から出
力される雑音重畳音声スペクトル時系列の各雑音重畳音
声スペクトルから雑音ベクトルに対する複数種類の倍率
と、上記雑音スペクトルメモリ204に記憶された複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求めるようになされて
いる。Embodiment 2 Next, FIG. 6 is a block diagram showing a configuration for explaining a speech recognition apparatus and method according to Embodiment 2 of the present invention. 6, the same parts as those in the first embodiment shown in FIG.
The description is omitted. As a new code, reference numeral 204 denotes a noise spectrum memory that stores a noise spectrum output from the average spectrum calculation unit 102 and a plurality of types of noise spectrum patterns previously learned from a large amount of noise data using a clustering method. The calculating means 201 includes a plurality of types of magnifications for noise vectors from each of the noise-superimposed speech spectrums of the noise-superimposed speech spectrum time series output from the spectrum computing means 101, and a plurality of kinds of noise spectrum patterns stored in the noise spectrum memory 204. In order to obtain a plurality of types of noise-removed speech spectra.
【0073】なお、実施の形態2に係る音声認識装置
は、上述した図6に示すブロック図により構成されるも
のであるが、対応する音声認識方法を構成する工程とし
ては、前述した実施の形態1に係る雑音除去スペクトル
演算工程が、スペクトル演算工程で得られる雑音重畳音
声スペクトル時系列の各雑音重畳音声スペクトルから、
雑音ベクトルに対する複数種類の倍率と、予め大量の雑
音データからクラスタリング手法を用いて学習した複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求める点が異なるのみ
である。The speech recognition apparatus according to the second embodiment is constituted by the above-described block diagram shown in FIG. 6. The steps constituting the corresponding speech recognition method are the same as those of the above-described embodiment. The noise removal spectrum calculation step according to 1 is performed from each noise-added speech spectrum of the noise-added speech spectrum time series obtained in the spectrum calculation step.
The only difference is that a plurality of types of magnifications for the noise vector are combined with a plurality of types of noise spectrum patterns previously learned from a large amount of noise data by using a clustering method to obtain a plurality of types of noise-removed speech spectra.
【0074】次に上記構成に係る実施の形態2の動作に
ついて説明する。スペクトル演算手段101及び平均ス
ペクトル演算手段102の動作は従来例の動作と同様な
ため、ここでは説明を省略する。雑音スペクトルメモリ
204では、平均スペクトル演算手段102が出力する
雑音スペクトル及びに予め大量の雑音データからクラス
タリング手法を用いて学習した、V2 種類の代表雑音ス
ペクトルパターンを記憶する。Next, the operation of the second embodiment according to the above configuration will be described. The operations of the spectrum calculation means 101 and the average spectrum calculation means 102 are the same as the operations of the conventional example, and the description is omitted here. In noise spectrum memory 204, learned from the noise spectrum average spectrum calculating unit 102 outputs and advance a large amount of noise data by using clustering techniques, stores V 2 kinds of representative noise spectrum pattern.
【0075】雑音除去スペクトル群演算手段201で
は、雑音重畳音声スペクトルの時系列の各雑音重畳音声
スペクトルから、V1 種類のサブトラクト係数α(k1),
(1≦k1≦V1)と、V2 種類の雑音スペクトルパター
ンNk2(ω),(1≦k2≦V2)を組み合わせ、合計V
=V1V2 種類の雑音除去音声スペクトルS(k)(ω),
(1≦k≦V)を求める。ここでは、以下のように0.
5刻みにα(k1)の値を設定する。The noise-removed spectrum group calculating means 201 calculates V 1 types of subtraction coefficients α (k1) ,
(1 ≦ k 1 ≦ V 1 ) and V 2 kinds of noise spectrum patterns N k2 (ω), (1 ≦ k 2 ≦ V 2 )
= V 1 V Two types of noise-removed speech spectra S (k) (ω),
(1 ≦ k ≦ V) is obtained. Here, as below,
Set the value of α (k1) in 5 steps.
【0076】[0076]
【数19】 [Equation 19]
【0077】ここで、S(k)(ω)はk種類目の雑音除
去音声スペクトルの周波数ωにおけるパワー、X(ω)
は雑音重畳音声スペクトルの周波数ωにおけるパワー、
N(ω)は推定雑音スペクトルの周波数ωにおけるパワ
ーをそれぞれ表す。このようにして、V種類の雑音除去
音声スペクトル時系列S(1)(ω),S(2)(ω),・・
・,S(V)(ω)(ただし、S(k)(ω)=(S
1 (k)(ω),S2 (k)(ω),・・・,ST (k)(ω))を
求める。Here, S (k) (ω) is the power at the frequency ω of the k-th noise-removed voice spectrum, and X (ω)
Is the power at the frequency ω of the noise-superimposed speech spectrum,
N (ω) represents the power at the frequency ω of the estimated noise spectrum. In this way, V types of noise-removed speech spectrum time series S (1) (ω), S (2) (ω),.
·, S (V) (ω) (where S (k) (ω) = (S
1 (k) (ω), S 2 (k) (ω),..., ST (k) (ω)).
【0078】特徴ベクトル群演算手段202と3次元照
合手段203の動作は実施の形態1と同様なため、ここ
では説明を省略する。The operations of the feature vector group calculating means 202 and the three-dimensional collating means 203 are the same as those of the first embodiment, and the description is omitted here.
【0079】以下、実施の形態2に係る音声認識装置及
び方法に関する効果を述べる。従来の騒音下音声認識装
置では、非音声区間から推定した雑音スペクトルが全音
声区間に一様に重畳していると仮定している。しかし、
走行自動車内等の非定常騒音環境下のように、時刻と共
に音声に重畳するスペクトルのパターンが変動する場合
には、ある時刻において音声に重畳する雑音スペクトル
のパターンが平均スペクトル演算時の雑音スペクトルの
パターンと異なるため、正確な雑音除去音声スペクトル
を求めることができない。その結果として雑音無し音声
パターンとのミスマッチが起き認識率が劣化する。Hereinafter, effects of the speech recognition apparatus and method according to the second embodiment will be described. In the conventional noisy speech recognition device, it is assumed that a noise spectrum estimated from a non-speech section is uniformly superimposed on all speech sections. But,
When the spectrum pattern superimposed on the voice fluctuates with time, such as in a non-stationary noise environment such as in a running car, the noise spectrum pattern superimposed on the voice at a certain time becomes the noise spectrum Since it is different from the pattern, an accurate noise-removed speech spectrum cannot be obtained. As a result, a mismatch with a noise-free voice pattern occurs, and the recognition rate deteriorates.
【0080】また、実施の形態1の音声認識装置及び方
法では、スペクトルパワーの変動には対応できるもの
の、単一の雑音スペクトルパターンのみを用いるため、
スペクトルパターンの変動については対応できない。本
実施の形態2に係る音声認識装置及び方法では、各時刻
t毎に、V1 種類のサブトラクト係数α(k1)とV2 種類
の雑音スペクトルパターンNk2(ω)を用いて演算され
た、V=V1V2 種類の特徴ベクトル候補が存在する。
各時刻tにおける特徴ベクトルの種類kは、尤度が最大
となるように選択されるため、騒音源と音声入力端の距
離や音声に重畳する雑音スペクトルパターンが変動して
も、認識率の劣化を抑えることができる。Further, the speech recognition apparatus and method according to the first embodiment can cope with fluctuations in spectrum power, but use only a single noise spectrum pattern.
It cannot deal with fluctuations in the spectral pattern. In the speech recognition apparatus and method according to the second embodiment, each time t is calculated using V 1 types of subtraction coefficients α (k1) and V 2 types of noise spectrum patterns N k2 (ω). V = V 1 V There are two types of feature vector candidates.
Since the type k of the feature vector at each time t is selected such that the likelihood is maximized, the recognition rate deteriorates even if the distance between the noise source and the voice input terminal or the noise spectrum pattern superimposed on the voice fluctuates. Can be suppressed.
【0081】また、本実施の形態2に係る音声認識装置
及び方法では、特徴ベクトルの種類の遷移を表したモデ
ルとして、特徴ベクトルの種類の遷移に制限を加えず
に、すべての種類に遷移可能なelgotic HMMモデルを
用いているが、特徴ベクトルの種類の遷移に制限を加え
たモデルとして、雑音除去時の雑音スペクトルパターン
Nk2(ω)が類似する、もしくは雑音除去時のサブトラ
クト係数α(k)の値が隣接する特徴ベクトルの種類間の
み遷移可能にした図7に示すHMMモデルを用いること
で、雑音スペクトルの時間的変化及び重畳雑音パワーの
時間的変化を適切にモデル化することが可能である。Further, in the speech recognition apparatus and method according to the second embodiment, as a model representing the transition of the type of the feature vector, transition to all types is possible without restricting the transition of the type of the feature vector. Although the elgotic HMM model is used, the noise spectrum pattern N k2 (ω) at the time of noise removal is similar or the subtract coefficient α (k By using the HMM model shown in FIG. 7 in which the value of ( )) can be changed only between the types of adjacent feature vectors, it is possible to appropriately model the temporal change of the noise spectrum and the temporal change of the superimposed noise power. It is.
【0082】[0082]
【発明の効果】以上のように、この発明によれば、各時
刻毎に複数種類のサブトラクト係数を用いて演算された
複数種類の特徴ベクトル候補が存在し、各時刻における
特徴ベクトルの種類は、尤度が最大となるように選択さ
れるため、騒音源と音声入力端の距離が変動しても雑音
スペクトルを引き過ぎたり、引かな過ぎたりすることを
防ぎ、認識率の劣化を抑えることができ、音声信号の入
力端と騒音源との距離の変化による認識性能劣化を削減
することができる。As described above, according to the present invention, there are a plurality of types of feature vector candidates calculated using a plurality of types of subtract coefficients at each time, and the type of feature vector at each time is Since the likelihood is selected to be the maximum, it is possible to prevent the noise spectrum from being pulled too much or too much even if the distance between the noise source and the voice input terminal fluctuates, and to suppress the deterioration of the recognition rate. As a result, it is possible to reduce recognition performance deterioration due to a change in the distance between the input end of the audio signal and the noise source.
【0083】また、音声に重畳する雑音スペクトルパタ
ーンが変動しても、認識率の劣化を抑えることができ、
環境騒音の変動による認識性能劣化を削減することがで
きる。Further, even if the noise spectrum pattern to be superimposed on the voice fluctuates, the deterioration of the recognition rate can be suppressed.
Recognition performance degradation due to fluctuations in environmental noise can be reduced.
【0084】また、特徴ベクトルの種類の遷移を表した
モデルとして、特徴ベクトルの種類の遷移に制限を加え
ないモデルを用いることにより、認識率の劣化を抑える
ことができる。Further, by using a model that does not limit the transition of the type of the feature vector as a model representing the transition of the type of the feature vector, the deterioration of the recognition rate can be suppressed.
【0085】また、特徴ベクトルの種類の遷移に制限を
加えないモデルとして、すべての種類に遷移可能なelgo
tic HMMモデルを用いることにより、認識率の劣化を
抑えることができる。As a model that does not limit the transition of the types of feature vectors, elgo that can transition to all types
By using the tic HMM model, it is possible to suppress the deterioration of the recognition rate.
【0086】また、特徴ベクトルの種類の遷移を表した
モデルとして、特徴ベクトルの種類の遷移に制限を加え
たモデルを用いることにより、重畳雑音パワーの時間的
変化を適切にモデル化することができる。By using a model in which the transition of the type of the feature vector is restricted as a model representing the transition of the type of the feature vector, the temporal change of the superimposed noise power can be appropriately modeled. .
【0087】さらに、特徴ベクトルの種類の遷移に制限
を加えたモデルとして、隣接する特徴ベクトルの種類間
のみ遷移可能にしたHMMモデルを用いることにより、
重畳雑音パワーの時間的変化を適切にモデル化すること
ができる。Further, as a model in which the transition of the type of the feature vector is restricted, an HMM model in which transition is possible only between the types of adjacent feature vectors is used.
The temporal change of the superimposed noise power can be appropriately modeled.
【図1】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するための構成を示すブロック図であ
る。FIG. 1 is a block diagram showing a configuration for describing a speech recognition device and method according to Embodiment 1 of the present invention.
【図2】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するもので、特徴ベクトルの種類の遷移
を表すelgoticHMMモデルの説明図である。FIG. 2 is a diagram for explaining the speech recognition apparatus and method according to the first embodiment of the present invention, and is an explanatory diagram of an elegant HMM model representing a transition of a type of a feature vector.
【図3】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するもので、照合用音声パターンの状態
遷移をLeft-to-right のHMMモデルで表現し、特徴ベ
クトルの種類の遷移をelgotic HMMモデルで表現する
場合の3次元Viterbiサーチの様子を表した説明図であ
る。FIG. 3 is a diagram for explaining a speech recognition apparatus and method according to Embodiment 1 of the present invention, in which a state transition of a collation speech pattern is represented by a left-to-right HMM model, and a transition of a type of a feature vector is performed. FIG. 5 is an explanatory diagram showing a state of a three-dimensional Viterbi search when is represented by an elgotic HMM model.
【図4】 図3における時刻t−1〜tの範囲を抽出し
た説明図である。FIG. 4 is an explanatory diagram in which a range from time t-1 to time t in FIG. 3 is extracted.
【図5】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するもので、隣接する特徴ベクトルの種
類間のみ遷移可能にしたHMMモデルの説明図である。FIG. 5 is a diagram for explaining the speech recognition apparatus and method according to the first embodiment of the present invention, and is an explanatory diagram of an HMM model in which transition is possible only between types of adjacent feature vectors.
【図6】 この発明の実施の形態2に係る音声認識装置
及び方法を説明するための構成を示すブロック図であ
る。FIG. 6 is a block diagram showing a configuration for explaining a speech recognition apparatus and method according to Embodiment 2 of the present invention.
【図7】 この発明の実施の形態2に係る音声認識装置
及び方法を説明するもので、隣接する特徴ベクトルの種
類間のみ遷移可能にしたHMMモデルの説明図である。FIG. 7 is a diagram for explaining a speech recognition apparatus and method according to Embodiment 2 of the present invention, and is an explanatory diagram of an HMM model in which transition is possible only between types of adjacent feature vectors.
【図8】 従来例の音声認識装置の構成を示すブロック
図である。FIG. 8 is a block diagram showing a configuration of a conventional speech recognition apparatus.
【図9】 従来例の照合用音声パターンの状態遷移を状
態遷移に制約のついたLeft-to-rightのHMMモデルで
表現する説明図である。FIG. 9 is an explanatory diagram expressing a state transition of a matching voice pattern in a conventional example by a left-to-right HMM model with a restriction on the state transition.
【図10】 照合用音声パターンの状態遷移をLeft-to-
rightのHMMモデルで表現する場合のViterbiサーチの
様子を示す説明図である。FIG. 10 shows the state transition of the voice pattern for verification as Left-to-
FIG. 9 is an explanatory diagram showing a state of a Viterbi search when expressed by a right HMM model.
101 スペクトル演算手段、102 平均スペクトル
演算手段、201 雑音除去スペクトル群演算手段、2
02 特徴ベクトル群演算手段、203 3次元照合手
段、204 雑音スペクトルメモリ、205 照合モデ
ルメモリ。101 spectrum calculation means, 102 average spectrum calculation means, 201 noise removal spectrum group calculation means, 2
02 feature vector group calculating means, 203 three-dimensional matching means, 204 noise spectrum memory, 205 matching model memory.
Claims (12)
をスペクトル分析しスペクトル特徴パラメータを求め音
声認識処理を行う音声認識装置において、 雑音重畳入力音声信号をスペクトル分析し雑音重畳音声
スペクトル時系列を出力するスペクトル演算手段と、 上記スペクトル演算手段から出力される雑音重畳音声ス
ペクトル時系列の中の非音声区間から重畳雑音のスペク
トルを推定し雑音スペクトルとして出力する平均スペク
トル演算手段と、 上記スペクトル演算手段から出力される雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算手段から出
力される雑音スペクトルを減算する際の当該雑音スペク
トルに対する倍率を変えて複数種類の雑音除去音声スペ
クトル時系列を出力する雑音除去スペクトル群演算手段
と、 上記雑音除去スペクトル群演算手段から出力される複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算手段と、 雑音のない環境下で発声した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリと、 上記特徴ベクトル群演算手段から出力される複数種類の
雑音除去音声特徴ベクトル時系列に対して、時刻、状
態、特徴ベクトルの種類の3軸からなる3次元空間内
で、上記照合モデルメモリに記憶された雑音無し音声パ
ターンと特徴ベクトルの種類の遷移を表したモデルとの
照合を行い認識結果を出力する3次元照合手段とを備え
たことを特徴とする音声認識装置。1. A speech recognition apparatus for performing spectrum analysis on a noise-superimposed input speech signal including a non-speech section to obtain a spectrum feature parameter and perform speech recognition processing. A spectrum calculating means for outputting; a spectrum calculating means for estimating a spectrum of superimposed noise from a non-voice section in a noise-superimposed voice spectrum time series output from the spectrum calculating means and outputting the spectrum as a noise spectrum; Noise removal spectrum which outputs a plurality of types of noise removal speech spectrum time series by changing the magnification of the noise spectrum when subtracting the noise spectrum output from the average spectrum calculation means from the noise superimposed speech spectrum time series output from Group operation means, and the noise A feature vector group calculating means for converting a plurality of types of noise-reduced speech spectrum time series output from the spectrum group calculating means into a plurality of feature vector time series, and learning using voice data uttered in a noise-free environment. A matching model memory storing a model representing the transition of the type of the feature vector and the noise-free speech pattern, and a plurality of types of noise-removed speech feature vector time series output from the feature vector group calculating means. In a three-dimensional space composed of three axes of time, state, and feature vector type, the noise-free speech pattern stored in the matching model memory is compared with a model representing the transition of the feature vector type, and the recognition result is obtained. A speech recognition device comprising: a three-dimensional collating unit that outputs the speech.
て、上記平均スペクトル演算手段から出力される雑音ス
ペクトル、及び予め大量の雑音データからクラスタリン
グ手法を用いて学習した複数種類の雑音スペクトルパタ
ーンを記憶する雑音スペクトルメモリをさらに備え、上
記雑音除去スペクトル演算手段は、上記スペクトル演算
手段から出力される雑音重畳音声スペクトル時系列の各
雑音重畳音声スペクトルから、上記雑音ベクトルに対す
る複数種類の倍率と、上記雑音スペクトルメモリに記憶
された複数種類の雑音スペクトルパターンとを組み合わ
せて、複数種類の雑音除去音声スペクトルを求めること
を特徴とする音声認識装置。2. A speech recognition apparatus according to claim 1, wherein a noise spectrum output from said average spectrum calculation means and a plurality of types of noise spectrum patterns previously learned from a large amount of noise data using a clustering method are stored. A noise spectrum memory, wherein the noise elimination spectrum calculation means includes a plurality of types of magnifications for the noise vector from each of the noise superimposed speech spectra of the noise superimposed speech spectrum time series output from the spectrum calculation means; A speech recognition apparatus characterized in that a plurality of kinds of noise-reduced speech spectra are obtained by combining a plurality of kinds of noise spectrum patterns stored in a spectrum memory.
において、上記照合モデルメモリは、特徴ベクトルの種
類の遷移を表したモデルとして、特徴ベクトルの種類の
遷移に制約を加えないモデルを記憶したことを特徴とす
る音声認識装置。3. The speech recognition device according to claim 1, wherein the matching model memory stores a model that does not impose a restriction on the transition of the type of the feature vector as a model representing the transition of the type of the feature vector. A speech recognition device characterized by the following.
て、上記照合モデルメモリは、特徴ベクトルの種類の遷
移に制約を加えないモデルとして、全ての種類に遷移可
能なelgotic 隠れマルコフモデルを記憶したことを特徴
とする音声認識装置。4. The speech recognition apparatus according to claim 3, wherein the matching model memory stores an elgotic hidden Markov model capable of transitioning to all types as a model that does not impose restrictions on the transition of the types of feature vectors. A speech recognition device characterized by the above-mentioned.
において、上記照合モデルメモリは、特徴ベクトルの種
類の遷移を表したモデルとして、特徴ベクトルの種類の
遷移に制約を加えたモデルを記憶したことを特徴とする
音声認識装置。5. The speech recognition device according to claim 1, wherein the matching model memory stores a model in which the transition of the type of the feature vector is restricted as a model representing the transition of the type of the feature vector. A speech recognition device characterized by the following.
て、上記照合モデルメモリは、特徴ベクトルの種類の遷
移に制約を加えたモデルとして、隣接する特徴ベクトル
の種類間のみ遷移可能な隠れマルコフモデルを記憶した
ことを特徴とする音声認識装置。6. The speech recognition apparatus according to claim 5, wherein the matching model memory is a hidden Markov model capable of transitioning only between adjacent types of feature vectors, as a model in which transitions of types of feature vectors are restricted. A speech recognition device characterized by storing
をスペクトル分析しスペクトル特徴パラメータを求め音
声認識処理を行う音声認識方法において、 雑音重畳入力音声に対しスペクトル分析を施し雑音重畳
音声スペクトル時系列を得るスペクトル演算工程と、 上記スペクトル演算工程で得られる雑音重畳音声スペク
トル時系列の中の非音声区間から重畳雑音のスペクトル
を推定し雑音スペクトルとして得る平均スペクトル演算
工程と、 上記スペクトル演算工程で得られる雑音重畳音声スペク
トル時系列から上記平均スペクトル演算工程で得られる
雑音スペクトルを減算する際の当該雑音スペクトルに対
する倍率を変えて複数種類の雑音除去音声スペクトル時
系列を得る雑音除去スペクトル群演算工程と、 上記雑音除去スペクトル群演算工程で得られる複数種類
の雑音除去音声スペクトル時系列を複数種類の特徴ベク
トル時系列に変換する特徴ベクトル群演算工程と、 上記特徴ベクトル群演算工程で得られる複数種類の雑音
除去音声特徴ベクトル時系列に対して、時刻、状態、特
徴ベクトルの種類の3軸からなる3次元空間内で、雑音
のない環境下で発声した音声データを用いて学習した雑
音無し音声パターンと特徴ベクトルの種類の遷移を表し
たモデルとの照合を行いその認識結果を得る3次元照合
工程とを備えたことを特徴とする音声認識方法。7. A speech recognition method for performing a spectrum analysis on a noise-superimposed input speech signal including a non-speech section to obtain a spectrum feature parameter and perform speech recognition processing, wherein the spectrum analysis is performed on the noise-superimposed input speech and a noise-superimposed speech spectrum time series. A spectrum calculation step of estimating a spectrum of superimposed noise from a non-speech section in the noise-superimposed speech spectrum time series obtained in the spectrum calculation step, and obtaining an average spectrum as a noise spectrum. A noise removal spectrum group calculation step of obtaining a plurality of types of noise removal speech spectrum time series by changing the magnification for the noise spectrum when subtracting the noise spectrum obtained in the average spectrum calculation step from the noise superimposed speech spectrum time series, Above noise removal spectrum group calculation Vector operation sequence for converting a plurality of types of noise-removed speech spectrum time series obtained in the above process into a plurality of types of feature vector time series, and a plurality of types of noise-removed speech feature vector time series obtained in the feature vector group operation process On the other hand, in a three-dimensional space consisting of three axes of time, state, and type of feature vector, transition of a noise-free voice pattern and a type of feature vector learned using voice data uttered in a noise-free environment is performed. A three-dimensional matching step of performing matching with a represented model and obtaining a recognition result thereof.
て、上記雑音除去スペクトル演算工程は、上記スペクト
ル演算工程で得られる雑音重畳音声スペクトル時系列の
各雑音重畳音声スペクトルから、上記雑音ベクトルに対
する複数種類の倍率と、予め大量の雑音データからクラ
スタリング手法を用いて学習した複数種類の雑音スペク
トルパターンとを組み合わせて、複数種類の雑音除去音
声スペクトルを求めることを特徴とする音声認識方法。8. The speech recognition method according to claim 7, wherein the noise-removed spectrum calculation step includes a step of calculating a plurality of noise-free speech spectrums of the noise-superimposed speech spectrum time series obtained in the spectrum calculation step. A speech recognition method characterized by obtaining a plurality of types of noise-removed speech spectra by combining a plurality of types of magnifications and a plurality of types of noise spectrum patterns previously learned from a large amount of noise data using a clustering method.
において、上記3次元照合工程は、特徴ベクトルの種類
の遷移を表したモデルとして、特徴ベクトルの種類の遷
移に制約を加えないモデルを用いたことを特徴とする音
声認識方法。9. The speech recognition method according to claim 7, wherein the three-dimensional matching step includes, as a model representing the transition of the type of the feature vector, a model that does not restrict the transition of the type of the feature vector. A speech recognition method characterized by using:
て、上記3次元照合工程は、上記特徴ベクトルの種類の
遷移に制約を加えないモデルとして、全ての種類に遷移
可能なelgotic 隠れマルコフモデルを用いたことを特徴
とする音声認識方法。10. The speech recognition method according to claim 9, wherein in the three-dimensional matching step, an elgotic hidden Markov model capable of transitioning to all types is used as a model that does not impose restrictions on the types of the feature vectors. A speech recognition method characterized by using:
において、上記3次元照合工程は、特徴ベクトルの種類
の遷移を表したモデルとして、特徴ベクトルの種類の遷
移に制約を加えたモデルを用いたことを特徴とする音声
認識方法。11. The speech recognition method according to claim 7, wherein the three-dimensional matching step includes, as a model representing the transition of the type of the feature vector, a model in which the transition of the type of the feature vector is restricted. A speech recognition method characterized by using a character string.
いて、上記3次元照合工程は、特徴ベクトルの種類の遷
移に制約を加えたモデルとして、隣接する特徴ベクトル
の種類間のみ遷移可能な隠れマルコフモデルを用いたこ
とを特徴とする音声認識方法。12. The speech recognition method according to claim 11, wherein in the three-dimensional matching step, as a model in which a transition of a type of a feature vector is restricted, a hidden Markov that can transition only between adjacent types of a feature vector is provided. A speech recognition method characterized by using a model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24285699A JP2001067094A (en) | 1999-08-30 | 1999-08-30 | Voice recognizing device and its method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24285699A JP2001067094A (en) | 1999-08-30 | 1999-08-30 | Voice recognizing device and its method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001067094A true JP2001067094A (en) | 2001-03-16 |
Family
ID=17095296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24285699A Pending JP2001067094A (en) | 1999-08-30 | 1999-08-30 | Voice recognizing device and its method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001067094A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050974B1 (en) * | 1999-09-14 | 2006-05-23 | Canon Kabushiki Kaisha | Environment adaptation for speech recognition in a speech communication system |
US8423360B2 (en) | 2003-05-23 | 2013-04-16 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, method and computer program product |
JP2015069063A (en) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | Voice recognition system, voice recognition method, and voice recognition program |
US9666184B2 (en) | 2014-12-08 | 2017-05-30 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
JP2020068500A (en) * | 2018-10-26 | 2020-04-30 | 古野電気株式会社 | Underwater communication system and underwater communication method |
CN113223547A (en) * | 2021-04-30 | 2021-08-06 | 杭州朗和科技有限公司 | Method, device, equipment and medium for detecting double talk |
-
1999
- 1999-08-30 JP JP24285699A patent/JP2001067094A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050974B1 (en) * | 1999-09-14 | 2006-05-23 | Canon Kabushiki Kaisha | Environment adaptation for speech recognition in a speech communication system |
US8423360B2 (en) | 2003-05-23 | 2013-04-16 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, method and computer program product |
JP2015069063A (en) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | Voice recognition system, voice recognition method, and voice recognition program |
US9666184B2 (en) | 2014-12-08 | 2017-05-30 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
US10332510B2 (en) | 2014-12-08 | 2019-06-25 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
JP2020068500A (en) * | 2018-10-26 | 2020-04-30 | 古野電気株式会社 | Underwater communication system and underwater communication method |
JP7216520B2 (en) | 2018-10-26 | 2023-02-01 | 古野電気株式会社 | UNDERWATER COMMUNICATION SYSTEM AND UNDERWATER COMMUNICATION METHOD |
CN113223547A (en) * | 2021-04-30 | 2021-08-06 | 杭州朗和科技有限公司 | Method, device, equipment and medium for detecting double talk |
CN113223547B (en) * | 2021-04-30 | 2024-05-24 | 杭州网易智企科技有限公司 | Double-talk detection method, device, equipment and medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5924065A (en) | Environmently compensated speech processing | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
JP3154487B2 (en) | A method of spectral estimation to improve noise robustness in speech recognition | |
US20080300875A1 (en) | Efficient Speech Recognition with Cluster Methods | |
JP2003303000A (en) | Method and apparatus for feature domain joint channel and additive noise compensation | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
JPH0850499A (en) | Signal identification method | |
JPH09258768A (en) | Under-noise voice recognizing device and under-noise voice recognizing method | |
JPH11133992A (en) | Feature extracting device and feature extracting method, and pattern recognizing device and pattern recognizing method | |
González et al. | MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition | |
US6934681B1 (en) | Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
KR20050076696A (en) | Method of speech recognition using multimodal variational inference with switching state space models | |
JP2001067094A (en) | Voice recognizing device and its method | |
Abe et al. | Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction. | |
US5953699A (en) | Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
Stouten et al. | Joint removal of additive and convolutional noise with model-based feature enhancement | |
Windmann et al. | Approaches to iterative speech feature enhancement and recognition | |
Cerisara et al. | α-Jacobian environmental adaptation | |
JP4325044B2 (en) | Speech recognition system | |
US7912715B2 (en) | Determining distortion measures in a pattern recognition process | |
JP2000259198A (en) | Device and method for recognizing pattern and providing medium | |
JPH11212588A (en) | Speech processor, speech processing method, and computer-readable recording medium recorded with speech processing program |