JP3351746B2 - オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 - Google Patents
オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置Info
- Publication number
- JP3351746B2 JP3351746B2 JP28160498A JP28160498A JP3351746B2 JP 3351746 B2 JP3351746 B2 JP 3351746B2 JP 28160498 A JP28160498 A JP 28160498A JP 28160498 A JP28160498 A JP 28160498A JP 3351746 B2 JP3351746 B2 JP 3351746B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- mel
- signal
- frequency
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
変換したオーディオ信号や人の音声を電気信号に変換し
た音声信号の、少容量の伝送路での情報伝送,記録メデ
ィアへの効率的な蓄積を可能とするために、特に人間の
聴覚的な性質である聴覚感度特性に対応した周波数上の
重み付けに基づいてオーディオ信号あるいは音声信号を
圧縮する場合に、従来よりも効率よく、高音質を保った
まま圧縮することのできるオーディオ信号圧縮方法、お
よびオーディオ信号圧縮装置、あるいは音声信号圧縮方
法、および音声信号圧縮装置に関するものである。ま
た、本発明は、高性能な音声認識装置を実現するため
に、特に人間の聴覚的な性質である聴覚感度特性を取り
入れた線形予測分析法により求めた、周波数毎に分解能
を変化させた特徴量を用いて認識を行う場合に、従来よ
りも高い認識率を得ることのできる音声認識方法、およ
び音声認識装置に関するものである。
ては従来さまざまなものが提案されているが、以下では
その一例について、説明を行う。
は、例えばMDCT(modified discrete cosine trans
form:変形離散コサイン変換)、あるいはFFT(高速
フーリエ変換)等により一定周期の長さ(フレーム)毎
に周波数特性信号系列に変換され、さらに入力オーディ
オ信号をフレーム毎に線形予測分析(LPC分析)を行
うことにより、LPC係数(linear predictive coeffi
cient ;線形予測係数)やLSP係数(line spectrum
pair coefficient ),あるいはPARCOR係数(pa
rtial auto-correlation coefficient)等を抽出すると
ともに、これらの係数からLPCスペクトル包絡を求め
る。次に算出された周波数特性信号系列を、求めたLP
Cスペクトル包絡で割り算して正規化することにより、
周波数特性を平坦化し、さらにパワーの最大値,あるい
は平均値等に基づいてパワーの正規化を行なう。以降の
説明では、このパワーの正規化が行なわれた時点の出力
係数を残差信号とも呼ぶ。さらにこの平坦化された残差
信号を、スペクトル包絡を重み付けとしてベクトル量子
化する。このようなオーディオ信号圧縮方法の例として
は、TwinVQ(岩上、守谷、三樹:「周波数重み付
けインターリーブベクトル量子化(TwinVQ)によるオー
ディオ符号化」音響学会講演論文集、1-P-1,pp.339-34
0,(1994) )がある。
て、以下にその説明を行う。まず、入力された音声信号
の時系列は、フレーム毎に線形予測分析(LPC分析)
することにより、LPC係数(線形予測係数)やLSP
係数(line spectrum pair coefficient),あるいはP
ARCOR係数(偏自己相関係数)等のLPCスペクト
ル包絡成分と、周波数特性が平坦化された残差信号とに
分離される。そしてLPCスペクトル包絡成分はスカラ
ー量子化され、また平坦化された残差信号はあらかじめ
用意した音源コードブックにより量子化することで、デ
ィジタル信号へとそれぞれ変換される。このような音声
信号圧縮方法の例としては、CELP(M.R. Schroeder
and B.S. Atal: “Code-excited linear prediction(C
ELP) high quality speech atvery low rates", Proc.
ICASSP-85(March 1985)がある。
下にその説明を行う。一般に音声認識装置では、あらか
じめ基準となる音声データを用いて、音韻あるいは単語
毎の標準モデルを作成しておき、入力音声からスペクト
ル包絡に対応する特徴量を求め、その時系列と標準モデ
ルとの間の類似度を計算し、この類似度が最も大きい標
準モデルに対応する音韻あるいは単語を見つけること
で、音声認識を行う。この場合の標準モデルとしては、
例えば、隠れマルコフモデル(hidden Markov model ;
HMM)や、代表的な特徴量の時系列そのものを標準モ
デルとして用いている(中川聖一著、「確率モデルによ
る音声認識」、電子情報通信学会編、p18〜20)。
としては、入力された音声の時系列を、例えば線形予測
分析(LPC分析)により一定周期の長さ(フレーム)
毎の線形予測係数(LPC係数)に変換し、この線形予
測係数をケプストラム変換して得られるLPCケプスト
ラム係数(鹿野清宏、中村哲、伊勢史郎著、「音声・音
情報のディジタル信号処理」、昭晃堂、p10〜16)
や、あるいは入力音声をDFTやバンドパスフィルタバ
ンク等により一定周期の長さ(フレーム)毎のパワース
ペクトルに変換し、このパワースペクトルをケプストラ
ム変換して得られるケプストラム係数等を用いて認識を
行っている。
法の従来例では、MDCTあるいはFFT等により算出
された周波数特性信号系列をLPCスペクトル包絡で割
り算して正規化された残差信号を求めている。一方、音
声信号圧縮方法の従来例では、入力音声信号を、線形予
測分析により算出されたLPCスペクトル包絡と残差信
号とに分離しており、オーディオ信号圧縮方法の従来例
と音声信号圧縮方法の従来例とはともに、入力信号から
通常の線形予測分析によりスペクトル包絡成分を除去す
る、すなわち、入力信号をスペクトル包絡で正規化(平
坦化)して残差信号を求めていることでは同様である。
そこで、この線形予測分析の性能を向上させる、あるい
は線形予測分析により得られたスペクトル包絡の推定精
度を上げられれば、従来よりも効率よく、高音質を保っ
たまま情報を圧縮することができる。
周波数帯域に対しても同じ精度の周波数分解能で包絡を
推定することになるので、聴感上重要な,低い周波数帯
域の周波数分解能を上げる、すなわち、低い周波数帯域
のスペクトル包絡を正確に求めようとすると、分析次数
を上げる必要があり、結局、情報量が増えるという問題
があった。また、分析次数を上げると、聴感上あまり重
要ではない,高い周波数帯域の分解能を必要以上に上げ
ることになるので、高い周波数帯域にピークを持つスペ
クトル包絡を算出する場合がでてくるようになり、結
局、音質を劣化させる問題もある。
ように、ベクトル量子化を行う際には、量子化の際の重
み付けをスペクトル包絡のみに基づいて行なっているた
め、通常の線形予測分析では人間の聴覚的な性質を利用
して効率よく量子化することができないという問題があ
った。
通常の線形予測分析により求められたLPCケプストラ
ム係数では、人間の聴覚的な性質である聴覚感度特性を
取り入れた線形予測分析法を行っていないため、十分な
認識性能を発揮していない可能性がある。そもそも人間
の聴覚は、低域の周波数成分を重要視し、高域の周波数
成分は低域ほど重要視していない傾向があることが一般
に知られている。そこで、このLPCケプストラム(ce
pstrum)係数をメル(mel)変換することで得られるLP
Cメル係数(鹿野清宏、中村哲、伊勢史郎著、「音声・
音情報のディジタル信号処理」、昭晃堂、p39〜4
0)を用いて認識を行う方法もあるが、そもそもLPC
ケプストラム係数自体には線形予測分析の際に人間の聴
覚の特徴が十分考慮されていない。そのためメル変換さ
れたLPCメルケプストラム係数にも聴覚上重要な低域
の情報は十分反映されていない。
ら得られた尺度であり、音の高さは周波数に大きく依存
する量であるが、周波数だけではなく音の強さにも影響
されることもよく知られており、そこで、1000 Hz, 40
dB SPLの純音を基準の音を1000 melとして、これより2
倍の高さあるいは1/2の高さに知覚される音をマグニ
チュード測定法などで測定し、それぞれ2000 mel, 500m
elと決定したものであるが、上述のように、LPCケプ
ストラム係数自体は線形予測分析の際に人間の聴覚の特
徴が十分考慮されない以上、メル化、即ちメル変換を行
っても本質的な認識性能の向上は期待できない。
数帯域に対しても同じ周波数分解能でスペクトル包絡を
推定することになるので、聴感上重要な低い周波数帯域
の周波数分解能を上げようとすると、すなわち、低い周
波数帯域のスペクトル包絡を正確に求めようとすると、
分析次数を上げる必要があり、結局特徴量が増え、認識
にかかる処理量が増えるという問題がある。また、分析
次数を上げると、高い周波数帯域の分解能を必要以上に
上げることになるので、高い周波数帯域に不要な特徴を
持つことになり、却って認識性能を劣化させてしまうと
いう問題もある。
(band pass filter bank )等から求めたケプストラム
係数やメルケプストラム係数を特徴量として用いて音声
認識を行う方法もあるが、DFTやバンドパスフィルタ
バンクの演算量が線形予測分析に比べて非常に多いとい
う問題点もある。
めになされたものであり、線形予測分析の性能を向上さ
せる、すなわち人間の聴覚的な性質である聴覚感度特性
を取り入れた線形予測分析法(以降、メル線形予測分析
法(MLPC分析法)と呼ぶ)を行い、その結果得られ
たメル化された線形予測係数(以降、メル線形予測係数
と呼ぶ)を音声認識に用いたり、あるいは通常の線形予
測係数からPARCOR係数を求めるのと同様の公知の
手法によりメル線形予測係数から求めることのできるメ
ル化されたPARCOR係数(以降、メルPARCOR
係数と呼ぶ)や、通常の線形予測係数からLSP係数を
求めるのと同様の公知の手法によりメル線形予測係数か
ら求めることのできるメル化されたLSP係数(以降、
メルLSP係数と呼ぶ)や、さらにメル線形予測係数を
ケプストラム変換して得られるメルLPCケプストラム
係数を音声認識に用いることで、さらに認識性能の向上
を図ることが可能になる点に着眼してなされたものであ
る。この種のメル化された係数を用いることにより、オ
ーディオ信号や音声信号の圧縮性能の向上や音声の認識
性能の向上を図ることは従来より想定されてはいたが、
現実には計算量が膨大になり、実使用に供されることは
なかった。本件発明者は、かかる現状に鑑み鋭意研究を
行った結果、本来この種の係数を計算するのに無限回の
演算を行う必要があり、またこれを有限回で打ち切った
場合には演算誤差を伴っていたものが、所望の設定回数
の演算を行うだけで、無限回演算を行ったのと同等な演
算を行うことができ、しかもこの演算に誤差が伴わない
全く新規な演算が存在することを見い出した。本発明
は、かかる新たな演算を用いることにより、人間の聴覚
的な性質である聴覚感度特性に対応した周波数上の重み
付けを行ってオーディオ信号や音声信号の圧縮性能の向
上や音声の認識性能の向上を図ることができる、オーデ
ィオ信号圧縮方法、オーディオ信号圧縮装置、音声信号
圧縮方法、音声信号圧縮装置,音声認識方法および音声
認識装置を得ることを目的としている。
る聴覚感度特性に対応した周波数上の重み付けに基づい
てスペクトル包絡を求めて、線形予測分析の性能を向上
させる、あるいは線形予測分析により得られたスペクト
ル包絡の推定精度を上げ、従来よりも効率よく、高音質
を保ったまま圧縮することのできるオーディオ信号圧縮
方法、およびオーディオ信号圧縮装置あるいは音声信号
圧縮方法、および音声信号圧縮装置を提供することを目
的とする。
特性に対応した周波数上の重み付けに基づいたメル線形
予測分析によりスペクトル包絡に対応する特徴量を求め
ているため、少ない特徴量でも効率的にスペクトル包絡
の特徴を捉えていることができ、さらにこの特徴量を音
声認識に用いることで、従来よりも少ない処理量で高い
認識性能を実現することのできる音声認識方法、および
音声認識装置を提供することを目的とする。
に、本発明(請求項1)に係るオーディオ信号圧縮方法
は、入力されたオーディオ信号に対し、符号化を行い、
かつ、その情報量を圧縮するオーデオ信号圧縮方法にお
いて、上記入力されたオーディオ信号と、該入力された
オーディオ信号に対して人間の聴覚感度特性に対応する
周波数軸の伸縮を行ったオーディオ信号とを用いて、メ
ル周波数軸上の自己相関関数を求め、上記メル周波数軸
上の自己相関関数からメル線形予測係数を求め、上記メ
ル線形予測係数そのものをスペクトル包絡とするか、あ
るいは該メル線形予測係数からスペクトル包絡を求め、
上記スペクトル包絡を用いて、上記入力されたオーディ
オ信号を、フレーム毎に平滑化するものである。
オ信号圧縮方法は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーデオ信
号圧縮方法において、上記入力されたオーディオ信号か
ら、一定時間長のオーディオ信号を切り出し、該一定時
間長のオーディオ信号を、複数段のオールパスフィルタ
に通して、各段毎のフィルタ出力信号を求め、上記入力
されたオーディオ信号と、上記各段毎のフィルタ出力信
号との、有限回行う積和(数1)により、人間の聴覚感
度特性に対応する周波数軸の伸縮を行ったメル周波数軸
上の自己相関関数を求め、上記メル周波数軸上の自己相
関関数からメル線形予測係数を求め、上記メル線形予測
係数そのものをスペクトル包絡とするか、あるいは該メ
ル線形予測係数からスペクトル包絡を求め、上記スペク
トル包絡を用いて、上記入力されたオーディオ信号を、
フレーム毎に平滑化するものである。但し、(数1)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
オ信号圧縮方法は、請求項2に記載のオーディオ信号圧
縮方法において、上記オールパスフィルタは、1次のオ
ールパスフィルタである。
オ信号圧縮方法は、請求項2または請求項3に記載のオ
ーディオ信号圧縮方法において、上記オールパスフィル
タのフィルタ係数に、バーク尺度、またはメル尺度を用
い、人間の聴覚感度特性に対応する周波数上の重み付け
を行うものである。
オ信号圧縮装置は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーディオ
信号圧縮装置において、上記入力されたオーディオ信号
を、周波数領域信号に変換して出力する時間周波数変換
手段と、上記入力されたオーディオ信号と、該入力され
たオーディオ信号に対して人間の聴覚感度特性に対応す
る周波数軸の伸縮を行ったオーディオ信号とを用いて、
メル周波数軸上の自己相関関数を求め、該メル周波数軸
上の自己相関関数から得られるメル線形予測係数をスペ
クトル包絡とするか、あるいは、該メル線形予測係数か
らスペクトル包絡を求めるスペクトル包絡算出手段と、
上記周波数領域信号を上記スペクトル包絡で正規化し
て、残差信号を得る正規化手段と、上記残差信号をパワ
ーの最大値あるいは平均値に基づいて正規化し、正規化
残差信号を求めるパワー正規化手段と、上記正規残差信
号を、残差コードブックによりベクトル量子化し、残差
符号に変換するベクトル量子化手段とを備えるものであ
る。
オ信号圧縮装置は、請求項5に記載のオーディオ信号圧
縮装置において、上記スペクトル包絡に対して、人間の
聴覚感度特性に対応する周波数上の重み付けを行い、聴
覚重み付け係数として出力する聴覚重み付け計算手段を
備え、上記ベクトル量子化手段は、上記聴覚重み付け係
数を用いて、上記正規残差信号の量子化を行うものであ
る。
オ信号圧縮装置は、請求項6に記載のオーディオ信号圧
縮装置において、上記ベクトル量子化手段が、複数の縦
列に接続された複数の当該ベクトル量子化手段から構成
される多重量子化手段であって、上記多重量子化手段
は、該多重量子化手段を構成する少なくとも1つの上記
ベクトル量子化手段が、上記重み付け係数を用いて、上
記残差信号の量子化を行うものである。
オ信号圧縮装置は、請求項5ないし請求項7のいずれか
に記載のオーディオ信号圧縮装置において、上記スペク
トル包絡算出手段は、入力されたオーディオ信号から、
一定時間長のオーディオ信号を切り出し、上記一定時間
長のオーディオ信号を複数段のオールパスフィルタに通
して、各段毎のフィルタ出力信号を求め、上記入力され
たオーディオ信号と、上記各段毎のフィルタ出力信号と
の、有限回行う積和(数2)により、人間の聴覚感度特
性に対応する周波数軸の伸縮を行ったメル周波数軸上の
自己相関関数を求め、上記メル周波数軸上の自己相関関
数よりメル線形予測係数を求め、上記メル線形予測係数
そのものをスペクトル包絡とするか、あるいは、該メル
線形予測係数からスペクトル包絡を求めるものである。
但し、(数2)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
オ信号圧縮装置は、請求項8に記載のオーディオ信号圧
縮装置において、上記オールパスフィルタは、1次のオ
ールパスフィルタである。
ィオ信号圧縮装置は、請求項8または請求項9に記載の
オーディオ信号圧縮装置において、上記オールパスフィ
ルタのフィルタ係数に、バーク尺度、またはメル尺度を
用い、人間の聴覚感度特性に対応する周波数上の重み付
けを行うものである。
号圧縮方法は、入力された音声信号に対し、符号化を行
い、かつ、その情報量を圧縮する音声信号圧縮方法にお
いて、上記入力された音声信号と、該入力された音声信
号に対して人間の聴覚感度特性に対応する周波数軸の伸
縮を行った音声信号とを用いて、メル周波数軸上の自己
相関関数を求め、上記メル周波数軸上の自己相関関数か
らメル線形予測係数を求め、上記メル線形予測係数その
ものをスペクトル包絡とするか、あるいは該メル線形予
測係数からスペクトル包絡を求め、上記スペクトル包絡
を用いて、上記入力された音声信号を平滑化するもので
ある。
号圧縮方法は、入力された音声信号に対し、符号化を行
い、かつ、その情報量を圧縮する音声信号圧縮方法にお
いて、上記入力された音声信号から、一定時間長の音声
信号を切り出し、該一定時間長の音声信号を、複数段の
オールパスフィルタに通して、各段毎のフィルタ出力信
号を求め、上記入力された音声信号と、上記各段毎のフ
ィルタ出力信号との、有限回行う積和(数3)により、
人間の聴覚感度特性に対応する周波数軸の伸縮を行った
メル周波数軸上の自己相関関数を求め、該メル周波数軸
上の自己相関関数からメル線形予測係数を求め、該メル
線形予測係数そのものをスペクトル包絡とするか、ある
いは該メル線形予測係数からスペクトル包絡を求め、該
スペクトル包絡を用いて、上記入力された音声信号を平
滑化するものである。但し、(数3)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
号圧縮方法は、請求項12に記載の音声信号圧縮方法に
おいて、上記オールパスフィルタは、1次のオールパス
フィルタである。
号圧縮方法は、請求項12または請求項13に記載の音
声信号圧縮方法において、上記オールパスフィルタのフ
ィルタ係数に、バーク尺度、またはメル尺度を用い、人
間の聴覚感度特性に対応する周波数上の重み付けを行う
ものである。
号圧縮装置は、入力された音声信号に対し、符号化を行
い、かつ、その情報量を圧縮する音声信号圧縮装置にお
いて、上記入力された音声信号と、該入力された音声信
号に対して人間の聴覚感度特性に対応する周波数軸の伸
縮を行った音声信号とを用いて、メル周波数軸上の自己
相関関数を求め、該メル周波数軸上の自己相関関数から
得られるメル形成予測係数を、スペクトル包絡を表現す
る特徴量に変換する特徴量算出手段と、上記入力された
音声信号を、上記特徴量で逆フィルタリングして正規化
し、残差信号を得る包絡正規化手段と、上記残差信号を
パワーの最大値あるいは平均値に基づいて正規化し、正
規化残差信号を求めるパワー正規化手段と、上記正規化
残差信号を、残差コードブックによりベクトル量子化
し、残差符号に変換するベクトル量子化手段とを備える
ものである。
号圧縮装置は、請求項15に記載の音声信号圧縮装置に
おいて、上記特徴量算出手段は、上記入力された音声信
号から一定時間長の音声信号を切り出し、上記一定時間
長の音声信号を、複数段のオールパスフィルタに通し
て、各段毎のフィルタ出力信号を求め、上記入力された
音声信号と、上記各段毎のフィルタ出力信号との、有限
回行う積和(数4)により、人間の聴覚感度特性に対応
する周波数軸の伸縮を行ったメル周波数軸上の自己相関
関数を求め、上記メル周波数軸上の自己相関関数からメ
ル線形予測係数を求め、上記メル線形予測係数を、スペ
クトル包絡を表現する特徴量に変換するものである。但
し、(数4)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
号圧縮装置は、請求項16に記載の音声信号圧縮装置に
おいて、上記オールパスフィルタは、1次のオールパス
フィルタである。
号圧縮装置は、請求項16または請求項17に記載の音
声信号圧縮装置において、上記オールパスフィルタのフ
ィルタ係数に、バーク尺度、またはメル尺度を用い、人
間の聴覚感度特性に対応する周波数上の重み付けを行う
ものである。
識方法は、入力された音声信号から、音声を認識する音
声認識方法において、上記入力された音声信号と、該入
力された音声信号に対して人間の聴覚感度特性に対応す
る周波数軸の伸縮を行った音声信号とを用いて、メル周
波数軸上の自己相関関数を求め、上記メル周波数軸上の
自己相関関数からメル線形予測係数を求め、上記メル線
形予測係数からスペクトル包絡を表現する特徴量を求め
るものである。
識方法は、入力された音声信号から、音声を認識する音
声認識方法において、上記入力された音声信号から、一
定時間長の音声信号を切り出し、該一定時間長の音声信
号を、複数段のオールパスフィルタに通して、各段毎の
フィルタ出力信号を求め、上記入力された音声信号と、
上記各段毎のフィルタ出力信号との、有限回行う積和
(数5)により、人間の聴覚感度特性に対応する周波数
軸の伸縮を行ったメル周波数軸上の自己相関関数を求
め、該メル周波数軸上の自己相関関数からメル線形予測
係数を求め、該メル線形予測係数からスペクトル包絡を
表現する特徴量を求めるものである。但し、(数5)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
識方法は、請求項20に記載の音声認識方法において、
上記オールパスフィルタは、1次のオールパスフィルタ
である。
識方法は、請求項20または請求項21に記載の音声認
識方法において、上記オールパスフィルタのフィルタ係
数に、バーク尺度、またはメル尺度を用い、人間の聴覚
感度特性に対応する周波数上の重み付けを行うものであ
る。
識装置は、入力された音声信号から、音声を認識する音
声認識装置において、上記入力された音声信号と、該入
力された音声信号に対して、人間の聴覚感度特性に対応
する周波数軸の伸縮を行った音声信号とを用いて、メル
周波数軸上の自己相関関数を求め、該メル周波数軸上の
自己相関関数からメル形成予測係数を求めるメル線形予
測分析手段と、上記メル線形予測係数からケプストラム
係数を算出するケプストラム係数算出手段と、上記ケプ
ストラム係数の複数フレーム分と、複数の標準モデルと
の間の距離を算出し、該距離が最も短いものを、上記複
数の標準モデルの中で最も類似度が大きいものと認識す
る音声認識手段とを備えるものである。
識装置は、請求項23に記載の音声認識装置において、
上記メル線形予測分析手段は、上記入力された音声信号
から、一定時間長の音声信号を切り出し、該一定時間長
の音声信号を、複数段のオールパスフィルタに通して、
各段毎のフィルタ出力信号を求め、上記入力された音声
信号と、上記各段毎のフィルタ出力信号との、有限回行
う積和(数6)により、人間の聴覚感度特性に対応する
周波数軸の伸縮を行ったメル周波数軸上の自己相関関数
を求め、上記メル周波数軸上の自己相関関数からメル線
形予測係数を求めるものである。但し、(数6)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
識装置は、請求項24に記載の音声信号圧縮方法におい
て、上記オールパスフィルタは、1次のオールパスフィ
ルタである。
識装置は、請求項24または請求項25に記載の音声圧
縮方法において、上記オールパスフィルタのフィルタ係
数に、バーク尺度、またはメル尺度を用い、人間の聴覚
感度特性に対応する周波数上の重み付けを行うものであ
る。
第1の実施の形態によるオーディオ信号圧縮装置の構成
を示すブロック図である。同図において、1は、例え
ば、MDCT,あるいはFFT等により入力されたディ
ジタルオーディオ信号や音声信号の時系列を、一定周期
の長さ(フレーム)毎に周波数特性信号系列に変換する
時間周波数変換部である。また、2は、予測モデルに周
波数伸縮機能を組み込んだメル線形予測分析を用いて、
入力オーディオ信号から、周波数毎に分析精度を変化さ
せたスペクトル包絡をフレーム毎に求めるスペクトル包
絡算出部である。3は時間周波数変換部1で算出された
周波数特性信号系列をスペクトル包絡算出部2で求めた
スペクトル包絡で割り算して正規化することにより、周
波数特性を平坦化する正規化部、4は正規化部3で平坦
化された周波数特性信号系列に対し、パワーの最大値,
あるいは平均値等に基づいてパワーの正規化を行なうパ
ワー正規化部である。5は、正規化部3,パワー正規化
部4で平坦化された周波数特性信号系列をベクトル量子
化する多段量子化部であり、この多段量子化部5は、互
いに縦列接続された第1段の量子化器51,第2段の量
子化器52,・・・,第N段の量子化器53を含む。6
は、時間周波数変換部1から出力された周波数特性信号
系列とスペクトル包絡算出部2で求めたスペクトル包絡
を入力とし、人間の聴覚感度特性に基づいて、量子化部
5での量子化の際に用いる重み付け係数を求める聴覚重
み付け計算部である。
ィジタルオーディオ信号(以下、入力信号とも記す)の
時系列は、一定周期の長さ(フレーム)毎に時間周波数
変換部1でMDCT,FFT等により周波数特性信号系
列に変換される。
トル包絡算出部2で、予測モデルに周波数伸縮を組み込
んだメル線形予測分析を用いて、周波数毎に分析精度を
変化させたスペクトル包絡が求められる。図2は、入力
信号から、メル線形予測分析を用いて周波数毎に分析精
度を変化させたスペクトル包絡を求めるスペクトル包絡
算出部2を示した図である。同図において、スペクトル
包絡算出部2は、メル線形予測分析を用いて周波数毎に
分析精度を変化させた、すなわちメル化した線形予測係
数を求めるメル化係数算出部21と、スペクトル平坦化
のために用いる直線周波数のスペクトル包絡を計算する
包絡算出部22とからなる。以下、このメル化係数算出
部21と包絡算出部22のそれぞれについて説明する。
概略を、図3に示す。図3において、211は入力信号
の周波数軸の伸縮を行うオールパスフィルタ、212は
このオールパスフィルタ211の出力信号と予測係数と
の線形結合を作成し、オールパスフィルタ211の入力
信号の予測値を出力する線形結合部、213は線形結合
部212から出力される予測値とオールパスフィルタ2
11の出力信号とに対し最小2乗法を適用してメル化線
形予測係数を出力する最小2乗法演算部である。次に、
この図3を用いて周波数毎に分析精度を変化させた線形
予測係数、すなわちメル化した線形予測係数の推定方法
を説明する。先ず、入力信号x [n ]を、i 段のオール
パスフィルタ211
212により作成した,予測係数
ここで、オールパスフィルタ(数13)は、(数17)
で表される。また、出力信号yi[n ]は後述する(数2
1)および(数29)から求まる。
図5に示す。図5において、横軸が変換前の周波数軸
で、縦軸は変換後の周波数軸を表す。図では、α=-0.5
からα=0.8まで0.1 刻みでαの値を変化させたときの様
子を表示している。図からαの値が正のときは、低周波
数帯域が伸び、高周波数帯域が縮んでいることが分か
る。また、αの値が負の場合はその逆となる。
周波数,すなわち帯域幅、の異なるオーディオ信号や音
声信号を想定しているので、サンプリング周波数に応じ
てαの値をそれぞれの信号に合わせて決定することで、
スペクトル包絡を求める際に人間の聴覚特性に合った周
波数分解能を得ることで、スペクトル包絡を求める際に
人の聴覚特性に合った周波数分解能を得ることができ
る。例えば、聴覚の周波数分解能に関する臨界帯域幅の
観測から導かれた尺度としてバーク尺度が一般に知られ
ており、この特性に基づいてαの値を決定することも可
能である。
フィルタの概念から得られた尺度であり、Fletcherの言
う聴覚フィルタとは、中心周波数が連続的に変化する帯
域フィルタで、信号音に一番近い中心周波数を持つ帯域
フィルタが信号音の周波数分析を行い、音のマスキング
に影響を及ぼす雑音成分はこの帯域フィルタ内の周波数
成分に限られるようなフィルタである。Fletcherはこの
帯域フィルタのバンド幅を臨界帯域と名付けている。ま
た、人間の主観に基づいてピッチ感覚を直接数量化した
心理尺度としてメル尺度が一般に知られており、この特
性に基づいてαの値を決定することも可能である。
た周波数上の重み付けとして採用する場合、我々は、サ
ンプリング周波数が8kHzではα=0.31 とし、10kHz では
α=0.35 、12kHz ではα=0.41 、16kHz ではα=0.45 、
44.1kHz ではα=0.6〜0.7 とした。また、バーク尺度
を、聴覚感度特性に対応した周波数上の重み付けとして
採用する場合、αをこれらの値から適宜変更すればよ
い。たとえば、バーク尺度の場合、12kHz では、我々
は、α=0.51を採用している。
yi[n ]と、予測値(数15)との全2乗誤差εを最小
化するように、最小2乗法演算部213において、最小
2乗法を用いて係数
係数の次数であり、pは予め予備実験的に信号圧縮の計
算量を考慮してその値を設定しておけばよく、入力信号
が音声信号の場合、例えば8ないし14等に、また、入
力信号がオーディオ信号の場合、例えば10ないし20
等に設定しておけばよい。ただし、
小化する,メル化した線形予測係数は、次の正規方程式
で与えられる。
の自己相関関数(メル自己相関関数)であり、次式で与
えられる。
により、直線周波数軸上でのスペクトル
し、( )は周波数領域での数列を表わす。
式の形に書き換えると、
より表されるオールパスフィルタをフーリエ変換するこ
とで得られる。(数27)は、メル自己相関関数(数2
3)が、メル周波数軸上でのパワースペクトルの逆フー
リエ変換に等しいことを意味する。したがって、(数2
2)の係数行列はToeplitz形の自己相関行列となり、簡
単な漸化式でメル化した線形予測係数を求めることが可
能となる。以下、メル化した線形予測係数を求めるため
の実際の計算の手順を示し、そのフローを図4に示す。 (ステップ1)ステップS1において、入力信号x [n
]を得て、ステップS2において、i段のオールパスフ
ィルタに通すことにより、ステップS3において得た出
力信号yi[n ]を、次式により求める。
]と各段のフィルタ出力信号yi[n ]との次式のよう
な積和を演算することにより、ステップS5において、
メル周波数軸上の自己相関関数を得る。このときメル自
己相関関数(数23)は、(数27)の関係からオール
パスフィルタの段数差
のように、N項の積和演算で計算することができ、演算
の打ち切りによる近似を行う必要がない。なお、この
(数31)は、(数21)および(数29)を用いて
(数24)を変形することにより得られるものである。
この計算は(数24)に示された,通常の計算手法であ
れば本来無限回の計算を必要とすべきものが、有限回の
計算で終了するので、膨大な計算を必要としない。ま
た、無限回の演算を行う代わりに有限回の演算で演算を
打ち切る場合に必要な波形の打ち切り等の近似をまった
く必要とせず、波形の打ち切りに伴う誤差は全く発生し
ない。しかもその計算量は通常の自己相関係数の約2倍
の計算量で済むため、波形から直接求めることが可能で
ある。この点は、(数24)に示された,従来の計算法
とは決定的に異なる重要な点である。
ル自己相関関数(数23)を用いて(数22)の正規方
程式を、既に公知のアルゴリズム、たとえばDurbinの方
法などで解くことにより、ステップS7において、メル
化した線形予測係数(メル線形予測係数)を求める。
す。この図6において、221はメル化線形予測係数に
対し逆メル変換を行い直線周波数の線形予測係数を出力
する逆メル変換部、222は直線周波数の線形予測係数
をフーリエ変換しスペクトル包絡を出力するFFT部で
ある。次に、この図6を用いて、周波数毎に分析精度を
変化させた線形予測係数、すなわちメル化した線形予測
係数(数19)からスペクトル平坦化のために用いる直
線周波数のスペクトル包絡を求める方法を説明する。ま
ず、逆メル変換部221において、メル化した線形予測
係数(数19)から
測係数
良く知られたOppenheim の漸化式を計算することで解く
ことが可能である。ここで、オールパスフィルタ
換えた(数35)のオールパスフィルタを用いる必要が
ある。
と変換された予測係数を求めることが可能となる。さら
に、FFT部222において、この直線周波数の線形予
測係数(数33)からFFTを用いて(数36)によ
り、スペクトル平坦化のために用いる直線周波数のスペ
クトル包絡S(ejα) を求めることができる。
周波数特性信号系列をスペクトル包絡で割り算し正規化
することにより、周波数特性信号系列を平坦化する。正
規化部3で平坦化された周波数特性信号系列は、パワー
正規化部4において、さらにパワーの最大値,あるいは
平均値等に基づいてパワーの正規化が行われる。
部3と同様のスペクトル包絡による正規化を行ってい
る。すなわち、入力された音声信号の時系列は、フレー
ム毎に線形予測分析(LPC分析)することにより、L
PC係数(線形予測係数)やLSP係数(line spectru
m pair coefficient),あるいはPARCOR係数(偏
自己相関係数)等のLPCスペクトル包絡成分と周波数
特性が平坦化された残差信号とに分離しており、このこ
とはすなわち、上記実施の形態のように、スペクトル包
絡成分による周波数上での割算の処理と等価の処理であ
り、また線形予測分析により求めた線形予測係数やLS
P係数、あるいはPARCOR係数等のスペクトル包絡
成分を用いて、時間軸上での逆フィルタリング処理をす
ることとも等価な処理である。そこで、本発明のような
入力音声から求めたメル化された線形予測係数や、ある
いは通常の線形予測係数からPARCOR係数を求める
のと同様の公知の手法により、メル化された線形予測係
数から求めたメル化されたPARCOR係数や、あるい
は通常の線形予測係数からLSP係数を求めるのと同様
の公知の手法により、メル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理を行うことや、あるいはスペクトル
包絡成分と残差信号とに分離を行うことで、音声信号圧
縮を行うことは可能である。
波数変換部1から出力された周波数特性信号系列と、ス
ペクトル包絡算出部2で求めたスペクトル包絡とが入力
され、時間周波数変換部1から出力された周波数特性信
号系列のスペクトルについて、最小可聴限特性や聴覚マ
スキング特性等の人間の聴覚的な性質である聴覚感度特
性に基づいて、この聴覚感度特性を考慮した特性信号を
算出し、さらにこの特性信号とスペクトル包絡に基づい
て、量子化に用いる重み付け係数を求める。
は、多段量子化部5の第1段の量子化部51で聴覚重み
付け計算部6によって求められた重み付け係数を用いて
量子化され、第1段の量子化部51での量子化による量
子化誤差成分が、多段量子化部5の第2段の量子化部5
2で聴覚重み付け計算部6によって求められた重み付け
係数を用いて量子化され、以下同様にして、複数段の量
子化部のそれぞれにおいて、前段の量子化部での量子化
による量子化誤差成分の量子化が行なわれる。これらの
各量子化部は量子化結果としてコードを出力する。そし
て、第(N−1)段の量子化部での量子化による量子化
誤差成分に対して、第N段の量子化部53で聴覚重み付
け計算部6によって求められた重み付け係数を用いて量
子化が行なわれることにより、オーディオ信号の圧縮符
号化が完了する。
ィオ信号圧縮方法およびオーディオ信号圧縮装置によれ
ば、正規化部3で、入力オーディオ信号から算出された
周波数特性信号系列を、人間の聴覚的な性質である聴覚
感度特性に応じて周波数毎に分析精度を変化させたスペ
クトル包絡を用いて正規化する構成としたので、正確に
周波数特性信号系列の平坦化が行え、効率の良い量子化
を行なうことができる。
る際の負担が少なくなり、効率の良い量子化を行なうこ
とができる。ベクトル量子化では、ある限られた情報
(コード)で周波数特性信号系列を表現するため、周波
数特性信号系列の形状が単純であればあるほど、より少
ないコードで表現することができる。そこで、本発明で
は、周波数特性信号系列の形状を単純化するために、周
波数特性信号系列の概略形状を表現しているスペクトル
包絡を用いて正規化しているが、この概略形状として周
波数毎に分析精度を変化させたスペクトル包絡を用いる
ことで、より正確に周波数特性信号系列の形状を単純化
でき、効率の良い量子化が行なうことができる。
量子化部51〜53で、聴覚重み付け計算部6において
入力オーディオ信号のスペクトル,人間の聴覚的な性質
である聴覚感度特性,及び人間の聴覚的な性質である聴
覚感度特性に応じて、周波数毎に分析精度を変化させた
スペクトル包絡に基づいて算出された周波数上の重み付
け係数を量子化の際の重み付けとして用いてベクトル量
子化を行なう構成としたので、人間の聴覚的な性質を利
用して効率の良い量子化を行なうことができる。
から、メル線形予測分析を用いて周波数毎に分析精度を
変化させた線形予測係数、すなわちメル化した線形予測
係数を求める部分であるが、以下のような方法を用いて
これを求めても良い。すなわち、入力信号に対し、オー
ルパスフィルタを用いて周波数軸の伸縮を行うことで周
波数伸縮信号を求め、この周波数伸縮信号に対して通常
の線形予測分析を行うことで周波数毎に分析精度を変化
させたスペクトル包絡を求める方法である。以下、周波
数毎に分析精度を変化させた線形予測係数、すなわちメ
ル化した線形予測係数を推定する方法について説明す
る。まず、入力信号x [n ]を、
出力信号
常の線形予測分析を行うことでメル化された、すなわち
周波数毎に分析精度を変化させた線形予測係数
を解くには、良く知られたOppenheim の漸化式を計算す
ることで解くことが可能である。メル化係数算出部21
では、このような方法で求めた周波数毎に分析精度を変
化させた線形予測係数を用いても良い。
信号から直接オールパスフィルタを用いて周波数軸の伸
縮を行うことにより周波数伸縮信号を求めることで、周
波数毎に分析精度を変化させたスペクトル包絡を求める
方法以外に、入力信号のパワースペクトルを周波数軸上
で再標本化、すなわち補間処理を行うことで、周波数軸
伸縮した、すなわちメル変換したパワースペクトルを求
めておき、これを逆DFTすることで、周波数毎に分析
精度を変化させたスペクトル包絡を求めることも可能で
ある。
信号から求めた自己相関関数をm段のオールパスフィル
タを通して周波数軸の伸縮を行った自己相関関数を求
め、この自己相関関数から周波数毎に分析精度を変化さ
せたスペクトル包絡を求めることも可能である。
は、聴覚重み付け計算部6が重み付け係数の算出にスペ
クトル包絡を用いる構成としているが、入力オーディオ
信号のスペクトルと、人間の聴覚的な性質である聴覚感
度特性のみを用いて、重み付け係数を算出するようにし
てもよい。
は、多段量子化部5の複数段のベクトル量子化部の全て
が聴覚重み付け計算部6において求められた聴覚感度特
性に基づく重み付け係数を用いて量子化するようにして
いるが、多段量子化部5の複数段のベクトル量子化器の
いずれか1つが聴覚感度特性に基づく重み付け係数を用
いて量子化を行なうものであれば、このような聴覚感度
特性に基づく重み付け係数を用いない場合に比して、効
率のよい量子化を行なうことができる。さらに、図1の
オーディオ信号圧縮装置では、圧縮すべき信号がオーデ
ィオ帯域の信号であるとして説明を行ったが、これを音
声帯域の信号としてもよく、この場合、図1の装置がそ
のまま音声信号圧縮装置となる。また、図1のオーディ
オ信号圧縮装置では、人間の聴覚的な性質である聴覚感
度特性に対応した周波数上の重み付けとして、メル尺度
を用いるようにしたが、オールパスフィルタのαの値を
適宜変更することにより、図1のブロック構成そのまま
でバーク尺度に基づき信号圧縮を行うオーディオ信号圧
縮装置に装置を変更することができる。
施の形態による音声認識装置の構成を示すブロック図で
ある。同図において、7は、予測モデルに周波数伸縮を
組み込んだメル線形予測分析を用いて、入力音声から周
波数毎に分解能を変化させたメル線形予測係数をフレー
ム毎に算出するメル線形予測分析部である。8は、メル
線形予測分析部7で算出されたメル線形予測係数をケプ
ストラム係数へと変換するケプストラム係数算出部であ
る。9は、ケプストラム係数算出部8で算出されたケプ
ストラム係数の時系列と、あらかじめ用意した単語や音
韻などの複数の標準モデルとの間の類似度を算出し、最
も類似度の大きい単語や音韻を認識する音声認識部であ
る。なおこの音声認識部9は特定話者認識を行うもので
も、不特定話者認識を行うものでもよい。
入力されたディジタル音声(以下、「入力信号」とも記
す)の時系列は、一定周期の長さ(フレーム)毎にメル
線形予測分析部7で予測モデルに周波数伸縮を組み込ん
だメル線形予測分析を用いて、周波数毎に分解能を変化
させたスペクトル包絡に対応するメル線形予測係数が算
出される。以下、メル線形予測分析部7の動作について
説明する。
に示す。図8を用いて周波数毎に分解能を変化させた線
形予測係数、すなわちメル化した線形予測係数の算出方
法を説明する。
の分解能を周波数毎に変化させるための伸縮係数であ
る。オールパスフィルタの周波数特性は、図5に既に示
している。例えば、伸縮係数としては、サンプリング周
波数が、8kHzではα=0.31 、10kHz ではα=0.35 、12kH
z ではα=0.41 、16kHz ではα=0.45 、44.1kHz ではα
=0.6〜0.7 などの値を用いれば良い。ここで、長さN の
有限長波形x [n ](n=0,...,N-1) に対する予測誤差
を、
評価する。このとき、
[n ]をi 段のオールパスフィルタに通した出力波形と
すると、yi[n ]の予測値
43)は、次式の連立方程式で与えられる。
[n ]の共分散であるが、パーセバルの定理および、オ
ールパスフィルタ
を用いることにより、φijは次式のように有限回の積和
演算で与えられる。
の性質を持つことを示すことができ、
から分かるように、この計算は(数50)の中辺で示さ
れた通常の計算手法であれば本来無限回の計算を必要と
すべきものが、(数50)の右辺で示された有限回の計
算で終了するので、膨大な計算を必要としない。また、
無限回の演算を行う代わりに有限回の演算で演算を打ち
切る場合に必要な波形の打ち切り等の近似をまったく必
要とせず、波形の打ち切りに伴う誤差は全く発生しな
い。しかもその計算量は通常の自己相関係数の数倍の計
算量で済むため、波形から直接求めることが可能であ
る。この点は、従来の計算法とは決定的に異なる重要な
点である。
際の計算の手順を図8に示す。この部分は実施の形態1
の図3と同様であり、図8において、71は入力信号の
周波数軸の伸縮を行うオールパスフィルタ、72はこの
オールパスフィルタ71の出力信号と予測係数との線形
結合を作成し、オールパスフィルタ71の入力信号の予
測値を出力する線形結合部、73は線形結合部72から
出力される予測値と入力信号とに対し最小2乗法を適用
してメル化線形予測係数を出力する最小2乗法演算部で
ある。次に、この図8を用いて周波数毎に分析精度を変
化させた線形予測係数、すなわちメル化した線形予測係
数の推定方法を説明する。
オールパスフィルタ71に通した出力信号yi[n]を、
次式により求める。
る。 (ステップ2)線形結合部72において、入力信号x
[n]と各段のフィルタ出力信号yi[n]との次式のよ
うな積和により、メル周波数軸上の自己相関関数を求め
る。このときメル自己相関関数(数23)は、(数2
7)の関係からオールパスフィルタの段数差
ち切りの近似をすることなく、N項の積和演算で計算す
ることができる。
いて、メル自己相関関数(数23)を用いて(数22)
の正規方程式を、既に公知のアルゴリズム、たとえばDu
rbinの方法などで解くことにより、メル化した線形予測
係数(メル線形予測係数)を求める。
(数43)から、ケプストラム係数算出部8において、
ケプストラム係数へと変換する。ケプストラム係数への
変換の方法は既に公知であり、例えば文献(鹿野清宏、
中村哲、伊勢史郎著、「音声・音情報のディジタル信号
処理」、昭晃堂、p10〜16)に詳しく記載されてお
り、メル線形予測係数を通常の線形予測係数と同じよう
に扱って変換すれば良い。その結果、メル周波数軸上で
のケプストラム係数を求めることができる。
数(以下、メルLPCケプストラム係数と呼ぶ)の時系
列は、音声認識部9においてあらかじめ用意した単語や
音韻などの複数の標準モデルとの間の類似度を算出し、
最も類似度の大きい単語や音韻を認識する。
毎の特徴量の時系列を確率的な遷移として表現する隠れ
マルコフモデル(HMM)と呼ばれる方法があり、既に
幅広く利用されており公知である(例えば、中川聖一:
“確率モデルによる音声認識”、電子情報通信学会
編)。HMMとは、あらかじめ個人差による音韻や単語
の特徴量の時系列をHMMモデルに学習させておき、入
力音声がモデルに確率値としてどのくらい近いかを捉え
て認識する方法である。本実施の形態では、この特徴量
の時系列として、前述のメルLPCケプストラム係数の
時系列を用いる。
象語彙毎の特徴量の時系列の中の代表的な特徴量の時系
列をモデルとしても良いし、さらに特徴量の時系列を時
間的あるいは周波数的に正規化(伸縮)することで得ら
れる特徴量の正規化時系列を用いてもよい。例えば、時
間軸上で任意の長さに正規化する方法としてDPマッチ
ング(dynamic programming ;動的計画法)があり、あ
らかじめ決定した対応付けの規則に従って、時間的特徴
量の時系列を正規化することが可能である。本実施の形
態では、このようにいずれの場合の標準モデルを使用し
ても、特徴量の時系列として前述のメルLPCケプスト
ラム係数の時系列を用いれば良いので、何等問題はな
い。
求めた特徴量の時系列として、メルLPCケプストラム
係数を用いて認識を行っているが、通常の線形予測係数
からPARCOR係数を求めるのと同様の公知の手法に
よりメル線形予測係数から求めることのできるメルPA
RCOR係数や、あるいは通常の線形予測係数からLS
P係数を求めるのと同様の公知の手法によりメル線形予
測係数から求めることのできるメルLSP係数を音声認
識に用いることも可能である。また、これらメル線形予
測係数から求められるメル線形予測係数、メルPARC
OR係数、メルLSP係数、メルLPCケプストラム係
数等は、音声認識のみならず音声合成や音声符号化等の
幅広い分野で、従来の線形予測分析から求められる線形
予測係数、PARCOR係数、LSP係数、LPCケプ
ストラム係数等に置き換えて使用することができる。
測分析部7は、入力信号から、メル線形予測分析を用い
て周波数毎に分解能を変化させた線形予測係数、すなわ
ちメル化した線形予測係数を求めるものとしたが、第1
の実施の形態と同様な方法を用いて求めても良い。すな
わち、入力信号をオールパスフィルタを用いて周波数軸
の伸縮を行うことで周波数伸縮信号を求め、この周波数
伸縮信号に対して通常の線形予測分析を行うことによ
り、周波数毎に分解能を変化させたスペクトル包絡を求
める方法である。
覚感度特性に対応した周波数上の重み付けに基づいたメ
ル線形予測分析により、聴覚感度特性に応じて周波数毎
に分解能を変化させたスペクトル包絡に対応する特徴量
を求めることにより、少ない特徴量でも効率的にスペク
トル包絡の特徴を捉えていることができ、さらにこの特
徴量を音声認識に用いることで、従来よりも少ない処理
量で高い認識性能を実現することができる。
態3によるオーディオ信号圧縮装置の構成を示すブロッ
ク図である。本実施の形態によるオーディオ信号圧縮装
置は、主に音声などの狭帯域信号圧縮において用いられ
ている音声信号圧縮装置について説明したものである。
同図において、11は、予測モデルに周波数伸縮を組み
込んだメル線形予測分析により、入力オーディオ信号か
ら周波数毎に分析精度を変化させたスペクトル包絡を表
現するメル線形予測係数をフレーム毎に求めるメルパラ
メータ算出部である。12は、メルパラメータ算出部1
で求めたメル周波数軸上のメル線形予測係数を直線周波
数軸の線形予測係数などのスペクトル包絡を表現する特
徴量へと変換するパラメータ変換部である。13は、入
力オーディオ信号をパラメータ変換部2で求めた特徴量
で逆フィルタリングして正規化することにより残差信号
を算出する包絡正規化部、14は、包絡正規化部13で
算出した残差信号をパワーの最大値,あるいは平均値等
に基づいてパワーの正規化を行なうパワー正規化部であ
る。15は、パワー正規化部14で正規化された正規化
残差信号を残差コードブック16によりベクトル量子化
し、残差符号へと変換するベクトル量子化部である。
声などのディジタルオーディオ信号(以下、入力信号あ
るいは入力音声とも記す)の時系列は、一定周期の長さ
(フレーム)毎に、メルパラメータ算出部11で、予測
モデルに周波数伸縮を組み込んだメル線形予測分析によ
り、入力信号から周波数毎に分析精度を変化させたスペ
クトル包絡を表現するメル線形予測係数が求められる。
スペクトル包絡を表現するメル線形予測係数を求める部
分は、実施の形態1のメル化係数算出部21で説明して
いる方法と同じであり、同様の手順でスペクトル包絡を
表現する特徴量を求めることができる。
ラメータ算出部11で算出されたメル周波数軸上のメル
線形予測係数を直線周波数軸の線形予測係数などスペク
トル包絡を表現する特徴量へと変換する。この部分も、
実施の形態1で説明している方法と同じであり、包絡算
出部22と同様な方法で実現できる。ところで主に音声
信号の圧縮では、入力された音声信号の時系列は、フレ
ーム毎に線形予測分析(LPC分析)することにより、
LPC係数(線形予測係数)やLSP係数(line spect
rum pair coefficient),あるいはPARCOR係数
(偏自己相関係数)等のLPCスペクトル包絡成分を表
わす特徴量を求め、この特徴量で逆フィルタリングして
正規化することにより残差信号を算出している。そこで
本実施の形態のような入力音声から求めたメル化された
線形予測係数を正規化のための特徴量として用いたり、
あるいは通常の線形予測係数からPARCOR係数を求
めるのと同様の公知の手法によりメル化された線形予測
係数から求めたメル化されたPARCOR係数や、ある
いは通常の線形予測係数からLSP係数を求めるのと同
様の公知の手法によりメル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理や、あるいはスペクトル包絡成分と
残差信号とに分離を行えば、より精度の良い正規化や分
離が可能となる。
では、パラメータ変換部12で変換された直線周波数軸
の線形予測係数などスペクトル包絡を表現する特徴量を
用いて、逆フィルタリングし、スペクトル包絡成分の正
規化を行い、残差信号を算出している。さらにパワー正
規化部14では、包絡正規化部3で求められた残差信号
をパワーの最大値,あるいは平均値等に基づいてパワー
の正規化が行われる。そしてベクトル量子化部15で
は、パワー正規化部14から出力された残差信号が、あ
らかじめ求めておいた残差コードブック16を用いてベ
クトル量子化される。その結果、ベクトル量子化部15
は、量子化結果としてコードを出力することにより入力
信号の圧縮符号化が完了する。
オ信号圧縮方法、およびオーディオ信号圧縮装置によれ
ば、メルパラメータ算出部1において、入力オーディオ
信号から算出された周波数特性信号系列を人間の聴覚的
な性質である聴覚感度特性に応じて周波数毎に分析精度
を変化させたスペクトル包絡を表現するメル線形予測係
数を求め、パラメータ変換部2で、このメル線形予測係
数を直線周波数軸の線形予測係数などのスペクトル包絡
を表現する特徴量へと変換し、さらに包絡正規化部3
で、パラメータ変換部2で求めた特徴量で逆フィルタリ
ングして正規化することにより、残差信号を正規化する
構成としたので、正確に周波数特性信号系列の平坦化が
行え、効率の良い量子化を行なうことができる。また、
ベクトル量子化では、ある限られた情報(コード)で残
差信号を表現するため、残差信号の形状が単純であれば
あるほど、より少ないコードで表現することができる。
そこで本発明では、残差信号の形状を単純化するため
に、周波数毎に分析精度を変化させたスペクトル包絡を
用いることで、より正確に残差信号の形状の単純化を行
うことができ、効率の良い量子化を行なうことができ
る。
実施の形態による携帯電話機の構成を示すブロック図で
ある。本実施の形態による携帯電話機は、実施の形態3
における,主に音声などの狭帯域信号圧縮において用い
られている音声信号圧縮装置を用いて信号圧縮を行うよ
うしたものについて説明したものである。同図におい
て、11は、予測モデルに周波数伸縮を組み込んだメル
線形予測分析により、入力オーディオ信号から周波数毎
に分析精度を変化させたスペクトル包絡を表現するメル
線形予測係数をフレーム毎に求めるメルパラメータ算出
部である。12は、メルパラメータ算出部1で求めたメ
ル周波数軸上のメル線形予測係数を直線周波数軸の線形
予測係数などのスペクトル包絡を表現する特徴量へと変
換するパラメータ変換部である。13は、入力オーディ
オ信号をパラメータ変換部2で求めた特徴量で逆フィル
タリングして正規化することにより残差信号を算出する
包絡正規化部、14は、包絡正規化部13で算出した残
差信号をパワーの最大値,あるいは平均値等に基づいて
パワーの正規化を行なうパワー正規化部である。15
は、パワー正規化部14で正規化された正規化残差信号
を残差コードブック16によりベクトル量子化し、残差
符号へと変換するベクトル量子化部である。10はこれ
らメルパラメータ算出部11,パラメータ変換部12,
包絡正規化部13,パワー正規化部14,ベクトル量子
化部15および残差コードブック16からなり、マイク
ロフォンなどから入力される入力音声信号を、人間の聴
覚的な性質である聴覚感度特性に対応した周波数上の重
み付けに基づいて情報圧縮する音声圧縮部である。31
はこの音声圧縮部10により情報圧縮されたコードを、
携帯電話機の仕様に応じた周波数および変調方式の高周
波信号に変調し送信する送信部、32はこの送信部31
からの高周波信号を送信するアンテナである。
0の動作は第3の実施の形態による音声信号圧縮装置と
同様である。即ち、入力された音声などのディジタルオ
ーディオ信号(以下、入力信号あるいは入力音声とも記
す)の時系列は、一定周期の長さ(フレーム)毎に、メ
ルパラメータ算出部11で、予測モデルに周波数伸縮を
組み込んだメル線形予測分析により、入力信号から周波
数毎に分析精度を変化させたスペクトル包絡を表現する
メル線形予測係数が求められる。スペクトル包絡を表現
するメル線形予測係数を求める部分は、実施の形態1の
メル化係数算出部21で説明している方法と同じであ
り、同様の手順でスペクトル包絡を表現する特徴量を求
めることができる。
ラメータ算出部11で算出されたメル周波数軸上のメル
線形予測係数を直線周波数軸の線形予測係数などスペク
トル包絡を表現する特徴量へと変換する。この部分も、
実施の形態1で説明している方法と同じであり、包絡算
出部22と同様な方法で実現できる。ところで主に音声
信号の圧縮では、入力された音声信号の時系列は、フレ
ーム毎に線形予測分析(LPC分析)することにより、
LPC係数(線形予測係数)やLSP係数(line spect
rum pair coefficient),あるいはPARCOR係数
(偏自己相関係数)等のLPCスペクトル包絡成分を表
わす特徴量を求め、この特徴量で逆フィルタリングして
正規化することにより残差信号を算出している。そこで
本実施の形態のような入力音声から求めたメル化された
線形予測係数を正規化のための特徴量として用いたり、
あるいは通常の線形予測係数からPARCOR係数を求
めるのと同様の公知の手法によりメル化された線形予測
係数から求めたメル化されたPARCOR係数や、ある
いは通常の線形予測係数からLSP係数を求めるのと同
様の公知の手法によりメル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理や、あるいはスペクトル包絡成分と
残差信号とに分離を行えば、より精度の良い正規化や分
離が可能となる。
では、パラメータ変換部12で変換された直線周波数軸
の線形予測係数などスペクトル包絡を表現する特徴量を
用いて、逆フィルタリングし、スペクトル包絡成分の正
規化を行い、残差信号を算出している。さらにパワー正
規化部14では、包絡正規化部3で求められた残差信号
をパワーの最大値,あるいは平均値等に基づいてパワー
の正規化が行われる。そしてベクトル量子化部15で
は、パワー正規化部14から出力された残差信号が、あ
らかじめ求めておいた残差コードブック16を用いてベ
クトル量子化される。その結果、ベクトル量子化部15
は、量子化結果としてコードを出力することにより音声
信号の圧縮符号化が完了する。そして、このように音声
圧縮部10において圧縮符号化された音声信号のコード
は、送信部31に入力され、この送信部31において、
携帯電話機が採用している仕様に則った周波数および変
調方式の高周波に変換され、アンテナ32を介して基地
局に向けて送信される。
機によれば、メルパラメータ算出部1において、入力オ
ーディオ信号から算出された周波数特性信号系列を人間
の聴覚的な性質である聴覚感度特性に応じて周波数毎に
分析精度を変化させたスペクトル包絡を表現するメル線
形予測係数を求め、パラメータ変換部2で、このメル線
形予測係数を直線周波数軸の線形予測係数などのスペク
トル包絡を表現する特徴量へと変換し、さらに包絡正規
化部3で、パラメータ変換部2で求めた特徴量で逆フィ
ルタリングして正規化することにより、残差信号を正規
化する構成としたので、正確に周波数特性信号系列の平
坦化が行え、効率の良い量子化を行なうことができる。
また、ベクトル量子化では、ある限られた情報(コー
ド)で残差信号を表現するため、残差信号の形状が単純
であればあるほど、より少ないコードで表現することが
できる。そこで本発明では、残差信号の形状を単純化す
るために、周波数毎に分析精度を変化させたスペクトル
包絡を用いることで、より正確に残差信号の形状の単純
化を行うことができ、効率の良い量子化を行なうことが
できる。このため、同一の帯域を使用するのであれば、
従来のものに比しより通話品質を向上させることがで
き、従来と同等の通話品質でよいのであれば、よりチャ
ンネル数を増すことが可能となる。なお、本実施の形態
は、携帯電話機以外にも、自動車電話機等の移動体通信
に適用することが可能である。
実施の形態によるネットワーク機器の構成を示すブロッ
ク図である。本実施の形態によるネットワーク機器は、
実施の形態3における,主に音声などの狭帯域信号圧縮
において用いられている音声信号圧縮装置を用いて信号
圧縮を行い、これをインターネット等のネットワークを
介して他のネットワーク機器に送り込む,インターネッ
ト電話等を想定しているものである。同図において、1
1は、予測モデルに周波数伸縮を組み込んだメル線形予
測分析により、入力オーディオ信号から周波数毎に分析
精度を変化させたスペクトル包絡を表現するメル線形予
測係数をフレーム毎に求めるメルパラメータ算出部であ
る。12は、メルパラメータ算出部1で求めたメル周波
数軸上のメル線形予測係数を直線周波数軸の線形予測係
数などのスペクトル包絡を表現する特徴量へと変換する
パラメータ変換部である。13は、入力オーディオ信号
をパラメータ変換部2で求めた特徴量で逆フィルタリン
グして正規化することにより残差信号を算出する包絡正
規化部、14は、包絡正規化部13で算出した残差信号
をパワーの最大値,あるいは平均値等に基づいてパワー
の正規化を行なうパワー正規化部である。15は、パワ
ー正規化部14で正規化された正規化残差信号を残差コ
ードブック16によりベクトル量子化し、残差符号へと
変換するベクトル量子化部である。10はこれらメルパ
ラメータ算出部11,パラメータ変換部12,包絡正規
化部13,パワー正規化部14,ベクトル量子化部15
および残差コードブック16からなり、マイクロフォン
などから入力される入力音声信号を、人間の聴覚的な性
質である聴覚感度特性に対応した周波数上の重み付けに
基づいて情報圧縮する音声圧縮部である。40はこの音
声圧縮部10により情報圧縮されたコードを、ネットワ
ークで音声データの伝送用のコードに変換し、TCP/
IPプロトコル等のネットワークの仕様に応じたプロト
コルに則って伝送するネットワークインターフェース部
である。
0の動作は第3の実施の形態による音声信号圧縮装置と
同様である。即ち、入力された音声などのディジタルオ
ーディオ信号(以下、入力信号とも記す)の時系列は、
一定周期の長さ(フレーム)毎に、メルパラメータ算出
部11で、予測モデルに周波数伸縮を組み込んだメル線
形予測分析により、入力オーディオ信号から周波数毎に
分析精度を変化させたスペクトル包絡を表現するメル線
形予測係数が求められる。スペクトル包絡を表現するメ
ル線形予測係数を求める部分は、実施の形態1のメル化
係数算出部21で説明している方法と同じであり、同様
の手順でスペクトル包絡を表現する特徴量を求めること
ができる。
ラメータ算出部11で算出されたメル周波数軸上のメル
線形予測係数を直線周波数軸の線形予測係数などスペク
トル包絡を表現する特徴量へと変換する。この部分も、
実施の形態1で説明している方法と同じであり、包絡算
出部22と同様な方法で実現できる。ところで主に音声
信号の圧縮では、入力された音声信号の時系列は、フレ
ーム毎に線形予測分析(LPC分析)することにより、
LPC係数(線形予測係数)やLSP係数(line spect
rum pair coefficient),あるいはPARCOR係数
(偏自己相関係数)等のLPCスペクトル包絡成分を表
わす特徴量を求め、この特徴量で逆フィルタリングして
正規化することにより残差信号を算出している。そこで
本実施の形態のような入力音声から求めたメル化された
線形予測係数を正規化のための特徴量として用いたり、
あるいは通常の線形予測係数からPARCOR係数を求
めるのと同様の公知の手法によりメル化された線形予測
係数から求めたメル化されたPARCOR係数や、ある
いは通常の線形予測係数からLSP係数を求めるのと同
様の公知の手法によりメル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理や、あるいはスペクトル包絡成分と
残差信号とに分離を行えば、より精度の良い正規化や分
離が可能となる。
では、パラメータ変換部12で変換された直線周波数軸
の線形予測係数などスペクトル包絡を表現する特徴量を
用いて、逆フィルタリングし、スペクトル包絡成分の正
規化を行い、残差信号を算出している。さらにパワー正
規化部14では、包絡正規化部13で求められた残差信
号をパワーの最大値,あるいは平均値等に基づいてパワ
ーの正規化が行われる。そしてベクトル量子化部15で
は、パワー正規化部14から出力された残差信号が、あ
らかじめ求めておいた残差コードブック16を用いてベ
クトル量子化される。その結果、ベクトル量子化部15
は、量子化結果としてコードを出力することにより音声
信号の圧縮符号化が完了する。そして、このように音声
圧縮部10において圧縮符号化された音声信号のコード
は、ネットワークインターフェース部40に入力され、
このネットワークインターフェース部40において、音
声圧縮部10により情報圧縮されたコードを、ネットワ
ークで音声データの伝送用のコードに変換し、TCP/
IPプロトコル等のネットワークの仕様に応じたプロト
コルに則ってネットワークに向けて送出する。
ーク機器によれば、メルパラメータ算出部11におい
て、入力オーディオ信号から算出された周波数特性信号
系列を人間の聴覚的な性質である聴覚感度特性に応じて
周波数毎に分析精度を変化させたスペクトル包絡を表現
するメル線形予測係数を求め、パラメータ変換部12
で、このメル線形予測係数を直線周波数軸の線形予測係
数などのスペクトル包絡を表現する特徴量へと変換し、
さらに包絡正規化部13で、パラメータ変換部12で求
めた特徴量で逆フィルタリングして正規化することによ
り、残差信号を正規化する構成としたので、正確に周波
数特性信号系列の平坦化が行え、効率の良い量子化を行
なうことができる。また、ベクトル量子化では、ある限
られた情報(コード)で残差信号を表現するため、残差
信号の形状が単純であればあるほど、より少ないコード
で表現することができる。そこで本発明では、残差信号
の形状を単純化するために、周波数毎に分析精度を変化
させたスペクトル包絡を用いることで、より正確に残差
信号の形状の単純化を行うことができ、効率の良い量子
化を行なうことができる。このため、ネットワークのデ
ータ転送速度が同一であれば、従来のものに比しより通
話品質を向上させることができ、従来と同等の通話品質
でよいのであれば、より収容できる端末の数を増すこと
が可能となる。なお、本実施の形態は、パソコンやイン
ターネット電話機,インターネットTV等のインターネ
ット機器を想定しているが、パソコン通信等、インター
ネット以外のプロトコルを用いる端末にも適用すること
が可能である。
実施の形態によるネットワーク機器の構成を示すブロッ
ク図である。本実施の形態によるネットワーク機器は、
実施の形態1における,主にオーディオ帯域の信号圧縮
において用いられているオーディオ信号圧縮装置を用い
て信号圧縮を行い、これをインターネット等のネットワ
ークを介して他のネットワーク機器に送り込む,インタ
ーネット機器等を想定しているものである。同図におい
て、1は、例えば、MDCT,あるいはFFT等により
入力されたディジタルオーディオ信号や音声信号の時系
列を、一定周期の長さ(フレーム)毎に周波数特性信号
系列に変換する時間周波数変換部である。また、2は、
予測モデルに周波数伸縮機能を組み込んだメル線形予測
分析を用いて、入力オーディオ信号から、周波数毎に分
析精度を変化させたスペクトル包絡をフレーム毎に求め
るスペクトル包絡算出部である。3は時間周波数変換部
1で算出された周波数特性信号系列をスペクトル包絡算
出部2で求めたスペクトル包絡で割り算して正規化する
ことにより、周波数特性を平坦化する正規化部、4は正
規化部3で平坦化された周波数特性信号系列に対し、パ
ワーの最大値,あるいは平均値等に基づいてパワーの正
規化を行なうパワー正規化部である。5は、正規化部
3,パワー正規化部4で平坦化された周波数特性信号系
列をベクトル量子化する多段量子化部であり、この多段
量子化部5は、互いに縦列接続された第1段の量子化器
51,第2段の量子化器52,・・・,第N段の量子化
器53を含む。6は、時間周波数変換部1から出力され
た周波数特性信号系列とスペクトル包絡算出部2で求め
たスペクトル包絡を入力とし、人間の聴覚感度特性に基
づいて、量子化部5での量子化の際に用いる重み付け係
数を求める聴覚重み付け計算部である。20はこれら時
間周波数変換部1,スペクトル包絡算出部2,正規化部
3,パワー正規化部4,量子化部5および聴覚重み付け
計算部6からなり、外部から入力される入力オーディオ
音声信号を、人間の聴覚的な性質である聴覚感度特性に
対応した周波数上の重み付けに基づいて情報圧縮するオ
ーディオ信号圧縮部である。41はこのオーディオ信号
圧縮部20により情報圧縮されたコードを、ネットワー
クでオーディオデータの伝送用のコードに変換し、TC
P/IPプロトコル等のネットワークの仕様に応じたプ
ロトコルに則って伝送するネットワークインターフェー
ス部である。
号圧縮部20の動作は第1の実施の形態によるオーディ
オ信号圧縮装置と同様である。即ち、入力されたディジ
タルオーディオ信号(以下、入力信号とも記す)の時系
列は、一定周期の長さ(フレーム)毎に時間周波数変換
部1でMDCT,FFT等により周波数特性信号系列に
変換される。
トル包絡算出部2で、予測モデルに周波数伸縮を組み込
んだメル線形予測分析を用いて、周波数毎に分析精度を
変化させたスペクトル包絡が求められる。次に、正規化
部3では、上記で算出された周波数特性信号系列をスペ
クトル包絡で割り算し正規化することにより、周波数特
性信号系列を平坦化する。正規化部3で平坦化された周
波数特性信号系列は、パワー正規化部4において、さら
にパワーの最大値,あるいは平均値等に基づいてパワー
の正規化が行われる。一方、聴覚重み付け計算部6に
は、時間周波数変換部1から出力された周波数特性信号
系列と、スペクトル包絡算出部2で求めたスペクトル包
絡とが入力され、時間周波数変換部1から出力された周
波数特性信号系列のスペクトルについて、最小可聴限特
性や聴覚マスキング特性等の人間の聴覚的な性質である
聴覚感度特性に基づいて、この聴覚感度特性を考慮した
特性信号を算出し、さらにこの特性信号とスペクトル包
絡に基づいて、量子化に用いる重み付け係数を求める。
は、多段量子化部5の第1段の量子化部51で聴覚重み
付け計算部6によって求められた重み付け係数を用いて
量子化され、第1段の量子化部51での量子化による量
子化誤差成分が、多段量子化部5の第2段の量子化部5
2で聴覚重み付け計算部6によって求められた重み付け
係数を用いて量子化され、以下同様にして、複数段の量
子化部のそれぞれにおいて、前段の量子化部での量子化
による量子化誤差成分の量子化が行なわれる。これらの
各量子化部は量子化結果としてコードを出力する。そし
て、第(N−1)段の量子化部での量子化による量子化
誤差成分に対して、第N段の量子化部53で聴覚重み付
け計算部6によって求められた重み付け係数を用いて量
子化が行なわれることにより、オーディオ信号の圧縮符
号化が完了する。そして、このようにオーディオ信号圧
縮部20において圧縮符号化された音声信号のコード
は、ネットワークインターフェース部41に入力され、
このネットワークインターフェース部40において、オ
ーディオ信号圧縮部20により情報圧縮されたコード
を、ネットワークでオーディオデータの伝送用のコード
に変換し、TCP/IPプロトコル等のネットワークの
仕様に応じたプロトコルに則ってネットワークに向けて
送出する。
ワーク機器によれば、正規化部3で、入力オーディオ信
号から算出された周波数特性信号系列を、人間の聴覚的
な性質である聴覚感度特性に応じて周波数毎に分析精度
を変化させたスペクトル包絡を用いて正規化する構成と
したので、正確に周波数特性信号系列の平坦化が行え、
効率の良い量子化を行なうことができる。また、多段量
子化部5でベクトル量子化する際の負担が少なくなり、
効率の良い量子化を行なうことができる。ベクトル量子
化では、ある限られた情報(コード)で周波数特性信号
系列を表現するため、周波数特性信号系列の形状が単純
であればあるほど、より少ないコードで表現することが
できる。そこで、本発明では、周波数特性信号系列の形
状を単純化するために、周波数特性信号系列の概略形状
を表現しているスペクトル包絡を用いて正規化している
が、この概略形状として周波数毎に分析精度を変化させ
たスペクトル包絡を用いることで、より正確に周波数特
性信号系列の形状を単純化でき、効率の良い量子化が行
なうことができる。
量子化部51〜53で、聴覚重み付け計算部6において
入力オーディオ信号のスペクトル,人間の聴覚的な性質
である聴覚感度特性,及び人間の聴覚的な性質である聴
覚感度特性に応じて、周波数毎に分析精度を変化させた
スペクトル包絡に基づいて算出された周波数上の重み付
け係数を量子化の際の重み付けとして用いてベクトル量
子化を行なう構成としたので、人間の聴覚的な性質を利
用して効率の良い量子化を行なうことができる。このよ
うに、オーディオ信号の効率よい量子化を行っているた
め、ネットワークのデータ転送速度が同一あれば、従来
のものに比しよりオーディオ品質を向上させることがで
き、従来と同等のオーディオ品質でよいのであれば、よ
り収容できる端末の数を増すことが可能となる。なお、
本実施の形態は、パソコンやインターネットTV等のイ
ンターネット機器を想定しているが、パソコン通信等、
インターネット以外のプロトコルを用いる端末にも適用
することが可能である。
るオーディオ信号圧縮方法によれば、入力されたオーデ
ィオ信号に対し、符号化を行い、かつ、その情報量を圧
縮するオーデオ信号圧縮方法において、上記入力された
オーディオ信号と、該入力されたオーディオ信号に対し
て人間の聴覚感度特性に対応する周波数軸の伸縮を行っ
たオーディオ信号とを用いて、メル周波数軸上の自己相
関関数を求め、上記メル周波数軸上の自己相関関数から
メル線形予測係数を求め、上記メル線形予測係数そのも
のをスペクトル包絡とするか、あるいは該メル線形予測
係数からスペクトル包絡を求め、上記スペクトル包絡を
用いて、上記入力されたオーディオ信号を、フレーム毎
に平滑化するようにしたので、人間の聴覚的な性質を利
用して効率の良い信号圧縮を行うことができるオーディ
オ信号圧縮方法が得られる効果がある。
オ信号圧縮方法によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
デオ信号圧縮方法において、上記入力されたオーディオ
信号から、一定時間長のオーディオ信号を切り出し、該
一定時間長のオーディオ信号を、複数段のオールパスフ
ィルタに通して、各段毎のフィルタ出力信号を求め、上
記入力されたオーディオ信号と、上記各段毎のフィルタ
出力信号との、有限回行う積和(数1)により、人間の
聴覚感度特性に対応する周波数軸の伸縮を行ったメル周
波数軸上の自己相関関数を求め、上記メル周波数軸上の
自己相関関数からメル線形予測係数を求め、上記メル線
形予測係数そのものをスペクトル包絡とするか、あるい
は該メル線形予測係数からスペクトル包絡を求め、上記
スペクトル包絡を用いて、上記入力されたオーディオ信
号を、フレーム毎に平滑化するようにしたので、人間の
聴覚的な性質を利用して効率の良い信号圧縮を行うこと
ができるオーディオ信号圧縮方法が得られる効果があ
る。また、本来無限回の演算を必要としていたメル線形
予測係数の算出が、近似計算を全く必要とすることな
く、予め設定した有限回の演算により得られるので、上
記入力されるオーディオ信号の圧縮性能の向上や、認識
性能の向上を図ることができる。 但し、(数1)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
オ信号圧縮方法によれば、請求項2に記載のオーディオ
信号圧縮方法において、上記オールパスフィルタは、1
次のオールパスフィルタであるようにしたので、本来無
限回の演算を必要としていたものが、実際に実現可能な
1次のオールパスフィルタを用いることで、近似計算を
まったく必要とすることなく予め設定した有限回の演算
ですむこととなり、効率良い信号の圧縮を行うことがで
きる。
オ信号圧縮方法によれば、請求項2または請求項3に記
載のオーディオ信号圧縮方法において、上記オールパス
フィルタのフィルタ係数に、バーク尺度、またはメル尺
度を用い、人間の聴覚感度特性に対応する周波数上の重
み付けを行うようにしたので、バーク尺度あるいはメル
尺度を用いて、人間の聴覚上重要である低い周波数帯域
側を、高い周波数帯域側より周波数分解能を上げて分析
することが可能となり、人間の聴覚的な性質を利用して
効率の良い信号圧縮を行うことができるオーディオ信号
圧縮方法が得られる効果がある。
オ信号圧縮装置によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
ディオ信号圧縮装置において、上記入力されたオーディ
オ信号を、周波数領域信号に変換して出力する時間周波
数変換手段と、上記入力されたオーディオ信号と、該入
力されたオーディオ信号に対して人間の聴覚感度特性に
対応する周波数軸の伸縮を行ったオーディオ信号とを用
いて、メル周波数軸上の自己相関関数を求め、該メル周
波数軸上の自己相関関数から得られるメル線形予測係数
をスペクトル包絡とするか、あるいは、該メル線形予測
係数からスペクトル包絡を求めるスペクトル包絡算出手
段と、上記周波数領域信号を上記スペクトル包絡で正規
化して、残差信号を得る正規化手段と、上記残差信号を
パワーの最大値あるいは平均値に基づいて正規化し、正
規化残差信号を求めるパワー正規化手段と、上記正規残
差信号を、残差コードブックによりベクトル量子化し、
残差符号に変換するベクトル量子化手段とを備えるよう
にしたので、人間の聴覚的な性質を利用して効率の良い
信号の圧縮を行うことができるオーディオ信号圧縮装置
が得られる効果がある。
オ信号圧縮装置によれば、請求項5に記載のオーディオ
信号圧縮装置において、上記スペクトル包絡に対して、
人間の聴覚感度特性に対応する周波数上の重み付けを行
い、聴覚重み付け係数として出力する聴覚重み付け計算
手段を備え、上記ベクトル量子化手段は、上記聴覚重み
付け係数を用いて、上記正規残差信号の量子化を行うよ
うにしたので、上記聴覚重み付け係数が、無限回の演算
でなく、予め設定した有限回の演算により求めることが
可能なメル線形予測係数から得る、スペクトル包絡より
求められるため、人間の聴覚的な性質を利用して効率の
良い信号圧縮を行うことができるオーディオ信号圧縮装
置が得られる効果がある。
オ信号圧縮装置によれば、請求項6に記載のオーディオ
信号圧縮装置において、上記ベクトル量子化手段が、複
数の縦列に接続された複数の当該ベクトル量子化手段か
ら構成される多重量子化手段であって、上記多重量子化
手段は、該多重量子化手段を構成する少なくとも1つの
上記ベクトル量子化手段が、上記聴覚重み付け係数を用
いて、上記残差信号の量子化を行うものであるようにし
たので、人間の聴覚上重要である低い周波数帯域側を、
高い周波数帯域より周波数分解能を上げて分析すること
を可能とし、また、上記複数の量子化手段それぞれが用
いる個別の聴覚重み付け係数を算出する際に用いるスペ
クトル包絡を、無限回の演算でなく、予め設定した有限
回の演算により求めることができるため、人間の聴覚的
な性質を利用して効率の良い信号圧縮を行うことができ
るオーディオ信号圧縮装置が得られる効果がある。
オ信号圧縮装置によれば、請求項5ないし請求項7のい
ずれかに記載のオーディオ信号圧縮装置において、上記
スペクトル包絡算出手段は、入力されたオーディオ信号
から、一定時間長のオーディオ信号を切り出し、上記一
定時間長のオーディオ信号を複数段のオールパスフィル
タに通して、各段毎のフィルタ出力信号を求め、上記入
力されたオーディオ信号と、上記各段毎のフィルタ出力
信号との、有限回行う積和(数2)により、人間の聴覚
感度特性に対応する周波数軸の伸縮を行ったメル周波数
軸上の自己相関関数を求め、上記メル周波数軸上の自己
相関関数よりメル線形予測係数を求め、上記メル線形予
測係数そのものをスペクトル包絡とするか、あるいは、
該メル線形予測係数からスペクトル包絡を求めるもので
あるので、オーディオ信号の圧縮を行う際に、近似計算
を全く必要とせず、予め設定した有限回の演算で処理可
能となり、人間の聴覚的な性質を利用して効率の良い信
号圧縮を行うことができるオーディオ信号圧縮装置が得
られる効果がある。但し、(数2)は、
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
オ信号圧縮装置によれば、請求項8に記載のオーディオ
信号圧縮装置において、上記オールパスフィルタは、1
次のオールパスフィルタであるようにしたので、本来無
限回の演算を必要としていたものが、実際に実現可能な
1次のオールパスフィルタを用いることで、近似計算を
まったく必要とすることなく予め設定した有限回の演算
ですむこととなり、効率良い信号の圧縮を行うことがで
きる。
ィオ信号圧縮装置によれば、請求項8または請求項9に
記載のオーディオ信号圧縮装置において、上記オールパ
スフィルタのフィルタ係数に、バーク尺度、またはメル
尺度を用い、人間の聴覚感度特性に対応する周波数上の
重み付けを行うようにしたので、バーク尺度あるいはメ
ル尺度を用いて、人間の聴覚上重要である低い周波数帯
域側を、高い周波数帯域側より周波数分解能を上げて分
析することが可能となり、人間の聴覚的な性質を利用し
て効率の良い信号圧縮を行うことができるオーディオ信
号圧縮方法が得られる効果がある。
号圧縮方法によれば、入力された音声信号に対し、符号
化を行い、かつ、その情報量を圧縮する音声信号圧縮方
法において、上記入力された音声信号と、該入力された
音声信号に対して人間の聴覚感度特性に対応する周波数
軸の伸縮を行った音声信号とを用いて、メル周波数軸上
の自己相関関数を求め、上記メル周波数軸上の自己相関
関数からメル線形予測係数を求め、上記メル線形予測係
数そのものをスペクトル包絡とするか、あるいは該メル
線形予測係数からスペクトル包絡を求め、上記スペクト
ル包絡を用いて、上記入力された音声信号を平滑化する
ようにしたので、人間の聴覚的な性質を利用して効率の
良い信号圧縮を行うことができる音声信号圧縮方法が得
られる効果がある。
号圧縮方法によれば、入力された音声信号に対し、符号
化を行い、かつ、その情報量を圧縮する音声信号圧縮方
法において、上記入力された音声信号から、一定時間長
の音声信号を切り出し、該一定時間長の音声信号を、複
数段のオールパスフィルタに通して、各段毎のフィルタ
出力信号を求め、上記入力された音声信号と、上記各段
毎のフィルタ出力信号との、有限回行う積和(数3)に
より、人間の聴覚感度特性に対応する周波数軸の伸縮を
行ったメル周波数軸上の自己相関関数を求め、該メル周
波数軸上の自己相関関数からメル線形予測係数を求め、
該メル線形予測係数そのものをスペクトル包絡とする
か、あるいは該メル線形予測係数からスペクトル包絡を
求め、該スペクトル包絡を用いて、上記入力された音声
信号を平滑化するようにしたので、上記メル線形予測係
数を得る際に、近似計算を全く必要とすることなく、予
め設定した有限回の演算で処理が可能となり、人間の聴
覚的な性質を利用して効率の良い信号圧縮を行うことが
できる音声信号圧縮方法が得られる効果がある。但し、
(数3)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
号圧縮方法によれば、請求項12に記載の音声信号圧縮
方法において、上記オールパスフィルタは、1次のオー
ルパスフィルタであるようにしたので、本来無限回の演
算を必要としていたものが、実際に実現可能な1次のオ
ールパスフィルタを用いることで、近似計算をまったく
必要とすることなく予め設定した有限回の演算ですむこ
ととなり、効率良い信号の圧縮を行うことができる。
号圧縮方法によれば、請求項12または請求項13に記
載の音声信号圧縮方法において、上記オールパスフィル
タのフィルタ係数に、バーク尺度、またはメル尺度を用
い、人間の聴覚感度特性に対応する周波数上の重み付け
を行うようにしたので、バーク尺度あるいはメル尺度を
用いて、人間の聴覚上重要である低い周波数帯域側を、
高い周波数帯域側より周波数分解能を上げて分析するこ
とが可能となり、人間の聴覚的な性質を利用して効率の
良い信号圧縮を行うことができる音声信号圧縮方法が得
られる効果がある。
号圧縮装置によれば、入力された音声信号に対し、符号
化を行い、かつ、その情報量を圧縮する音声信号圧縮装
置において、上記入力された音声信号と、該入力された
音声信号に対して人間の聴覚感度特性に対応する周波数
軸の伸縮を行った音声信号とを用いて、メル周波数軸上
の自己相関関数を求め、該メル周波数軸上の自己相関関
数から得られるメル形成予測係数を、スペクトル包絡を
表現する特徴量に変換する特徴量算出手段と、上記入力
された音声信号を、上記特徴量で逆フィルタリングして
正規化し、残差信号を得る包絡正規化手段と、上記残差
信号をパワーの最大値あるいは平均値に基づいて正規化
し、正規化残差信号を求めるパワー正規化手段と、上記
正規化残差信号を、残差コードブックによりベクトル量
子化し、残差符号に変換するベクトル量子化手段とを備
えるようにしたので、人間の聴覚的な性質を利用して効
率の良い信号圧縮を行うことができる音声信号圧縮装置
が得られる効果がある。
号圧縮装置によれば、請求項15に記載の音声信号圧縮
装置において、上記特徴量算出手段は、上記入力された
音声信号から一定時間長の音声信号を切り出し、上記一
定時間長の音声信号を、複数段のオールパスフィルタに
通して、各段毎のフィルタ出力信号を求め、上記入力さ
れた音声信号と、上記各段毎のフィルタ出力信号との、
有限回行う積和(数4)により、人間の聴覚感度特性に
対応する周波数軸の伸縮を行ったメル周波数軸上の自己
相関関数を求め、上記メル周波数軸上の自己相関関数か
らメル線形予測係数を求め、上記メル線形予測係数を、
スペクトル包絡を表現する特徴量に変換するようにした
ので、音声信号の圧縮を行う際に、本来無限回の演算が
必要であったのが、近似計算を全く必要とせず、予め設
定した有限回の演算で処理可能となり、人間の聴覚的な
性質を利用して効率の良い信号圧縮を行うことができる
音声信号圧縮装置が得られる効果がある。但し、(数
4)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
号圧縮装置によれば、請求項16に記載の音声信号圧縮
装置において、上記オールパスフィルタは、1次のオー
ルパスフィルタであるようにしたので、本来無限回の演
算を必要としていたものが、実際に実現可能な1次のオ
ールパスフィルタを用いることで、近似計算をまったく
必要とすることなく予め設定した有限回の演算ですむこ
ととなり、効率良い音声信号の圧縮を行うことができ
る。
号圧縮装置によれば、請求項16または請求項17に記
載の音声信号圧縮装置において、上記オールパスフィル
タのフィルタ係数に、バーク尺度、またはメル尺度を用
い、人間の聴覚感度特性に対応する周波数上の重み付け
を行うようにしたので、バーク尺度あるいはメル尺度を
用いて、人間の聴覚上重要である低い周波数帯域側を、
高い周波数帯域側より周波数分解能を上げて分析するこ
とを可能とし、人間の聴覚的な性質を利用して効率の良
い信号圧縮を行うことができる音声信号圧縮装置が得ら
れる効果がある。
識方法によれば、入力された音声信号から、音声を認識
する音声認識方法において、上記入力された音声信号
と、該入力された音声信号に対して人間の聴覚感度特性
に対応する周波数軸の伸縮を行った音声信号とを用い
て、メル周波数軸上の自己相関関数を求め、上記メル周
波数軸上の自己相関関数からメル線形予測係数を求め、
上記メル線形予測係数からスペクトル包絡を表現する特
徴量を求めるようにしたので、人間の聴覚上重要である
低い周波数帯域側を、高い周波数帯域側より周波数分析
能を上げて分析することが可能となり、人間の聴覚的な
性質を利用して精度の高い音声認識を行うことができる
音声認識方法が得られる効果がある。
識方法によれば、入力された音声信号から、音声を認識
する音声認識方法において、上記入力された音声信号か
ら、一定時間長の音声信号を切り出し、該一定時間長の
音声信号を、複数段のオールパスフィルタに通して、各
段毎のフィルタ出力信号を求め、上記入力された音声信
号と、上記各段毎のフィルタ出力信号との、有限回行う
積和(数5)により、人間の聴覚感度特性に対応する周
波数軸の伸縮を行ったメル周波数軸上の自己相関関数を
求め、該メル周波数軸上の自己相関関数からメル線形予
測係数を求め、該メル線形予測係数からスペクトル包絡
を表現する特徴量を求めるようにしたので、音声信号の
圧縮を行う際に、本来無限回の演算が必要であったの
が、近似計算を全く必要とせず、予め設定した有限回の
演算で処理可能となり、人間の聴覚的な性質を利用して
より精度の高い音声認識を行うことができる音声認識方
法が得られる効果がある。但し、(数5)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
識方法によれば、請求項20に記載の音声認識方法にお
いて、上記オールパスフィルタは、1次のオールパスフ
ィルタであるようにしたので、本来無限回の演算を必要
としていたものが、実際に実現可能な1次のオールパス
フィルタで、近似計算をまったく必要とすることなく予
め設定した有限回の演算ですむこととなり、処理量がす
くなくなって、精度の高い音声認識を行うことができ
る。
識方法によれば、請求項20または請求項21に記載の
音声認識方法において、上記オールパスフィルタのフィ
ルタ係数に、バーク尺度、またはメル尺度を用い、人間
の聴覚感度特性に対応する周波数上の重み付けを行うよ
うにしたので、バーク尺度あるいはメル尺度を用いて、
人間の聴覚上重要である低い周波数帯域側を、高い周波
数帯域側より周波数分解能を上げて分析することを可能
とし、人間の聴覚的な性質を利用してより精度の高い音
声認識を行うことができる音声認識方法が得られる効果
がある。
識装置によれば、入力された音声信号から、音声を認識
する音声認識装置において、上記入力された音声信号
と、該入力された音声信号に対して、人間の聴覚感度特
性に対応する周波数軸の伸縮を行った音声信号とを用い
て、メル周波数軸上の自己相関関数を求め、該メル周波
数軸上の自己相関関数からメル形成予測係数を求めるメ
ル線形予測分析手段と、上記メル線形予測係数からケプ
ストラム係数を算出するケプストラム係数算出手段と、
上記ケプストラム係数の複数フレーム分と、複数の標準
モデルとの間の距離を算出し、該距離が最も短いもの
を、上記複数の標準モデルの中で最も類似度が大きいも
のと認識する音声認識手段とを備えるようにしたので、
人間の聴覚上重要である低い周波数帯域側を、高い周波
数帯域側より周波数分解能を上げて分析することを可能
とし、人間の聴覚的な性質を利用して高精度に音声認識
を行うことができる音声認識装置が得られる効果があ
る。
識装置によれば、請求項23に記載の音声認識装置にお
いて、上記メル線形予測分析手段は、上記入力された音
声信号から、一定時間長の音声信号を切り出し、該一定
時間長の音声信号を、複数段のオールパスフィルタに通
して、各段毎のフィルタ出力信号を求め、上記入力され
た音声信号と、上記各段毎のフィルタ出力信号との、有
限回行う積和(数6)により、人間の聴覚感度特性に対
応する周波数軸の伸縮を行ったメル周波数軸上の自己相
関関数を求め、上記メル周波数軸上の自己相関関数から
メル線形予測係数を求めるようにしたので、音声信号の
圧縮を行う際に、本来無限回の演算が必要であったの
を、近似計算を全く必要とせず予め設定した有限回の演
算で処理可能とし、人間の聴覚的な性質を利用して高精
度に音声認識を行うことができる音声認識装置が得られ
る効果がある。但し、(数6)は
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。
識装置によれば、請求項24に記載の音声信号圧縮方法
において、上記オールパスフィルタは、1次のオールパ
スフィルタであるようにしたので、本来無限回の演算を
必要としていたものが、実際に実現可能な1次のオール
パスフィルタを用いることで、近似計算をまったく必要
とすることなく予め設定した有限回の演算ですむことと
なり、処理量がすくなくなり、より精度の高い音声認識
を行うことができる。
識装置によれば、請求項24または請求項25に記載の
音声圧縮方法において、上記オールパスフィルタのフィ
ルタ係数に、バーク尺度、またはメル尺度を用い、人間
の聴覚感度特性に対応する周波数上の重み付けを行うよ
うにしたので、バーク尺度あるいはメル尺度を用いて、
人間の聴覚上重要である低い周波数帯域側を、高い周波
数帯域側より周波数分解能を上げて分析することを可能
とし、人間の聴覚的な性質を利用して高精度に音声認識
を行うことができる音声認識装置が得られる効果があ
る。
号圧縮装置の構成を示すブロック図
号圧縮装置に係るスペクトル包絡算出部の詳細な構成の
一例を示すブロック図
号圧縮装置に係るメル化係数算出部の詳細な構成の一例
を示すブロック図
号圧縮装置に係るメル化係数算出部の詳細な計算の手順
の一例を示すブロック図
性を示す図
号圧縮装置に係る包絡算出部の詳細な構成の一例を示す
ブロック図
の構成を示すブロック図
に係るメル線形予測分析部の詳細な構成の一例を示すブ
ロック図
号圧縮装置の構成を示すブロック図
の構成を示すブロック図
ク機器の構成を示すブロック図
ク機器の構成を示すブロック図
Claims (26)
- 【請求項1】 入力されたオーディオ信号に対し、符号
化を行い、かつ、その情報量を圧縮するオーデオ信号圧
縮方法において、上記入力されたオーディオ信号と、該入力されたオーデ
ィオ信号に対して人間の聴覚感度特性に対応する周波数
軸の伸縮を行ったオーディオ信号とを用いて、メル周波
数軸上の自己相関関数を求め、 上記メル周波数軸上の自己相関関数からメル線形予測係
数を求め、 上記メル線形予測係数そのものをスペクトル包絡とする
か、あるいは該メル線形予測係数からスペクトル包絡を
求め、 上記スペクトル包絡を用いて、上記入力されたオーディ
オ信号を、フレーム毎に平滑化する、 ことを特徴とするオーディオ信号圧縮方法。 - 【請求項2】 入力されたオーディオ信号に対し、符号
化を行い、かつ、その情報量を圧縮するオーデオ信号圧
縮方法において、 上記入力されたオーディオ信号から、一定時間長のオー
ディオ信号を切り出し、 該一定時間長のオーディオ信号を、複数段のオールパス
フィルタに通して、各段毎のフィルタ出力信号を求め、 上記入力されたオーディオ信号と、上記各段毎のフィル
タ出力信号との、有限回行う積和(数1)により、人間
の聴覚感度特性に対応する周波数軸の伸縮を行ったメル
周波数軸上の自己相関関数を求め、 上記メル周波数軸上の自己相関関数からメル線形予測係
数を求め、 上記メル線形予測係数そのものをスペクトル包絡とする
か、あるいは該メル線形予測係数からスペクトル包絡を
求め、 上記スペクトル包絡を用いて、上記入力されたオーディ
オ信号を、フレーム毎に平滑化する、 ことを特徴とするオーディオ信号圧縮方法。但し、(数
1)は 【数1】 により表され、φ(i,j)は自己相関関数、x[n]
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。 - 【請求項3】 請求項2に記載のオーディオ信号圧縮方
法において、上記オールパスフィルタは、1次のオールパスフィルタ
である、 ことを特徴とするオーディオ信号圧縮方法。 - 【請求項4】 請求項2または請求項3に記載のオーデ
ィオ信号圧縮方法において、上記オールパスフィルタのフィルタ係数に、バーク尺
度、またはメル尺度を用い、人間の聴覚感度特性に対応
する周波数上の重み付けを行う、 ことを特徴とするオーディオ信号圧縮方法。 - 【請求項5】 入力されたオーディオ信号に対し、符号
化を行い、かつ、その情報量を圧縮するオーディオ信号
圧縮装置において、上記入力されたオーディオ信号を、周波数領域信号に変
換して出力する時間周波数変換手段と、 上記入力されたオーディオ信号と、該入力されたオーデ
ィオ信号に対して人間の聴覚感度特性に対応する周波数
軸の伸縮を行ったオーディオ信号とを用いて、メル周波
数軸上の自己相関関数を求め、該メル周波数軸上の自己
相関関数から得られるメル線形予測係数をスペクトル包
絡とするか、あるいは、該メル線形予測係数からスペク
トル包絡を求めるスペクトル包絡算出手段と、 上記周波数領域信号を上記スペクトル包絡で正規化し
て、残差信号を得る正規化手段と、 上記残差信号をパワーの最大値あるいは平均値に基づい
て正規化し、正規化残差信号を求めるパワー正規化手段
と、 上記正規残差信号を、残差コードブックによりベクトル
量子化し、残差符号に変換するベクトル量子化手段と、
を備える、 ことを特徴とするオーディオ信号圧縮装置。 - 【請求項6】 請求項5に記載のオーディオ信号圧縮装
置において、 上記スペクトル包絡に対して、人間の聴覚感度特性に対
応する周波数上の重み付けを行い、聴覚重み付け係数と
して出力する聴覚重み付け計算手段を備え、 上記ベクトル量子化手段は、上記聴覚重み付け係数を用
いて、上記正規残差信号の量子化を行う、 ことを特徴とするオーディオ信号圧縮装置。 - 【請求項7】 請求項6に記載のオーディオ信号圧縮装
置において、 上記ベクトル量子化手段が、複数の縦列に接続された複
数の当該ベクトル量子化手段から構成される多重量子化
手段であって、 上記多重量子化手段は、該多重量子化手段を構成する少
なくとも1つの上記ベクトル量子化手段が、上記重み付
け係数を用いて、上記残差信号の量子化を行うものであ
る、 ことを特徴とするオーディオ信号圧縮装置。 - 【請求項8】 請求項5ないし請求項7のいずれかに記
載のオーディオ信号圧縮装置において、上記スペクトル包絡算出手段は、 入力されたオーディオ信号から、一定時間長のオーディ
オ信号を切り出し、 上記一定時間長のオーディオ信号を複数段のオールパス
フィルタに通して、各段毎のフィルタ出力信号を求め、 上記入力されたオーディオ信号と、上記各段毎のフィル
タ出力信号との、有限回行う積和(数2)により、人間
の聴覚感度特性に対応する周波数軸の伸縮を行ったメル
周波数軸上の自己相関関数を求め、 上記メル周波数軸上の自己相関関数よりメル線形予測係
数を求め、 上記メル線形予測係数そのものをスペクトル包絡とする
か、あるいは、該メル線形予測係数からスペクトル包絡
を求めるものである、 ことを特徴とするオーディオ信号圧縮装置。但し、(数
2)は 【数2】 により表され、φ(i,j)は自己相関関数、x[n]
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。 - 【請求項9】 請求項8に記載のオーディオ信号圧縮装
置において、上記オールパスフィルタは、1次のオールパスフィルタ
である、 ことを特徴とするオーディオ信号圧縮装置。 - 【請求項10】 請求項8または請求項9に記載のオー
ディオ信号圧縮装置において、 上記オールパスフィルタのフィルタ係数に、バーク尺
度、またはメル尺度を用い、人間の聴覚感度特性に対応
する周波数上の重み付けを行う、 ことを特徴とするオーディオ信号圧縮装置。 - 【請求項11】 入力された音声信号に対し、符号化を
行い、かつ、その情報量を圧縮する音声信号圧縮方法に
おいて、 上記入力された音声信号と、該入力された音声信号に対
して人間の聴覚感度特性に対応する周波数軸の伸縮を行
った音声信号とを用いて、メル周波数軸上の自己相関関
数を求め、 上記メル周波数軸上の自己相関関数からメル線形予測係
数を求め、 上記メル線形予測係数そのものをスペクトル包絡とする
か、あるいは該メル線形予測係数からスペクトル包絡を
求め、 上記スペクトル包絡を用いて、上記入力された音声信号
を平滑化する、 ことを特徴とする音声信号圧縮方法。 - 【請求項12】 入力された音声信号に対し、符号化を
行い、かつ、その情報量を圧縮する音声信号圧縮方法に
おいて、 上記入力された音声信号から、一定時間長の音声信号を
切り出し、 該一定時間長の音声信号を、複数段のオールパスフィル
タに通して、各段毎のフィルタ出力信号を求め、 上記入力された音声信号と、上記各段毎のフィルタ出力
信号との、有限回行う積和(数3)により、人間の聴覚
感度特性に対応する周波数軸の伸縮を行ったメル周波数
軸上の自己相関関数を求め、 該メル周波数軸上の自己相関関数からメル線形予測係数
を求め、 該メル線形予測係数そのものをスペクトル包絡とする
か、あるいは該メル線形予測係数からスペクトル包絡を
求め、 該スペクトル包絡を用いて、上記入力された音声信号を
平滑化する、 ことを特徴とする音声信号圧縮方法。但し、(数3)は【数3】 により表され、φ(i,j)は自己相関関数、x[n]
は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
号である。 - 【請求項13】 請求項12に記載の音声信号圧縮方法
において、 上記オールパスフィルタは、1次のオールパスフィルタ
である、 ことを特徴とする音声信号圧縮方法。 - 【請求項14】 請求項12または請求項13に記載の
音声信号圧縮方法において、 上記オールパスフィルタのフィルタ係数に、バーク尺
度、またはメル尺度を用い、人間の聴覚感度特性に対応
する周波数上の重み付けを行う、 ことを特徴とする音声信号圧縮方法。 - 【請求項15】 入力された音声信号に対し、符号化を
行い、かつ、その情報量を圧縮する音声信号圧縮装置に
おいて、 上記入力された音声信号と、該入力された音声信号に対
して人間の聴覚感度特性に対応する周波数軸の伸縮を行
った音声信号とを用いて、メル周波数軸上の自己相関関
数を求め、該メル周波数軸上の自己相関関数から得られ
るメル形成予測係数を、スペクトル包絡を表現する特徴
量に変換する特徴量算出手段と、 上記入力された音声信号を、上記特徴量で逆フィルタリ
ングして正規化し、残差信号を得る包絡正規化手段と、 上記残差信号をパワーの最大値あるいは平均値に基づい
て正規化し、正規化残差信号を求めるパワー正規化手段
と、 上記正規化残差信号を、残差コードブックによりベクト
ル量子化し、残差符号に変換するベクトル量子化手段
と、を備える、 ことを特徴とする音声信号圧縮装置。 - 【請求項16】 請求項15に記載の音声信号圧縮装置
において、 上記特徴量算出手段は、 上記入力された音声信号から一定時間長の音声信号を切
り出し、 上記一定時間長の音声信号を、複数段のオールパスフィ
ルタに通して、各段毎のフィルタ出力信号を求め、 上記入力された音声信号と、上記各段毎のフィルタ出力
信号との、有限回行う積和(数4)により、人間の聴覚
感度特性に対応する周波数軸の伸縮を行ったメル周波数
軸上の自己相関関数を求め、 上記メル周波数軸上の自己相関関数からメル線形予測係
数を求め、 上記メル線形予測係数を、スペクトル包絡を表現する特
徴量に変換する、 ことを特徴とする音声信号圧縮装置。但し、(数4)は【数4】 により表され、φ(i,j)は自己相関関数、x[n]
は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
号である。 - 【請求項17】 請求項16に記載の音声信号圧縮装置
において、 上記オールパスフィルタは、1次のオールパスフィルタ
である、 ことを特徴とする音声信号圧縮装置。 - 【請求項18】 請求項16または請求項17に記載の
音声信号圧縮装置に おいて、 上記オールパスフィルタのフィルタ係数に、バーク尺
度、またはメル尺度を用い、人間の聴覚感度特性に対応
する周波数上の重み付けを行う、 ことを特徴とする音声信号圧縮装置。 - 【請求項19】 入力された音声信号から、音声を認識
する音声認識方法において、 上記入力された音声信号と、該入力された音声信号に対
して人間の聴覚感度特性に対応する周波数軸の伸縮を行
った音声信号とを用いて、メル周波数軸上の自己相関関
数を求め、 上記メル周波数軸上の自己相関関数からメル線形予測係
数を求め、 上記メル線形予測係数からスペクトル包絡を表現する特
徴量を求める、 ことを特徴とする音声認識方法。 - 【請求項20】 入力された音声信号から、音声を認識
する音声認識方法において、 上記入力された音声信号から、一定時間長の音声信号を
切り出し、 該一定時間長の音声信号を、複数段のオールパスフィル
タに通して、各段毎のフィルタ出力信号を求め、 上記入力された音声信号と、上記各段毎のフィルタ出力
信号との、有限回行う積和(数5)により、人間の聴覚
感度特性に対応する周波数軸の伸縮を行ったメル周波数
軸上の自己相関関数を求め、 該メル周波数軸上の自己相関関数からメル線形予測係数
を求め、 該メル線形予測係数からスペクトル包絡を表現する特徴
量を求める、 ことを特徴とする音声認識方法。但し、(数5)は 【数5】 により表され、φ(i,j)は自己相関関数、x[n]
は入力信号、y (i-j) [ n]は各段毎のフィルタ出力信
号である。 - 【請求項21】 請求項20に記載の音声認識方法にお
いて、上記オールパスフィルタは、1次のオールパスフィルタ
である、 ことを特徴とする音声認識方法。 - 【請求項22】 請求項20または請求項21に記載の
音声認識方法において、 上記オールパスフィルタのフィルタ係数に、バーク尺
度、またはメル尺度を用い、人間の聴覚感度特性に対応
する周波数上の重み付けを行う、 ことを特徴とする音声認識方法。 - 【請求項23】 入力された音声信号から、音声を認識
する音声認識装置において、 上記入力された音声信号と、該入力された音声信号に対
して、人間の聴覚感度特性に対応する周波数軸の伸縮を
行った音声信号とを用いて、メル周波数軸上の自己相関
関数を求め、該メル周波数軸上の自己相関関数からメル
形成予測係数を求めるメル線形予測分析手段と、 上記メル線形予測係数からケプストラム係数を算出する
ケプストラム係数算出手段と、 上記ケプストラム係数の複数フレーム分と、複数の標準
モデルとの間の距離を算出し、該距離が最も短いもの
を、上記複数の標準モデルの中で最も類似度が大きいも
のと認識する音声認識手段と、を備える、 ことを特徴とする音声認識装置。 - 【請求項24】 請求項23に記載の音声認識装置にお
いて、上記メル線形予測分析手段は、 上記入力された音声信号から、一定時間長の音声信号を
切り出し、 該一定時間長の音声信号を、複数段のオールパスフィル
タに通して、各段毎のフィルタ出力信号を求め、 上記入力された音声信号と、上記各段毎のフィルタ出力
信号との、有限回行う積和(数6)により、人間の聴覚
感度特性に対応する周波数軸の伸縮を行ったメル周波数
軸上の自己相関関数を求め、 上記メル周波数軸上の自己相関関数からメル線形予測係
数を求める、 ことを特徴とする音声認識装置。但し、(数6)は 【数6】 により表され、φ(i,j)は自己相関関数、x[n]
は入力信号、y (i-j) [n]は各段毎のフィルタ出力信
号である。 - 【請求項25】 請求項24に記載の音声信号圧縮方法
において、上記オールパスフィルタは、1次のオールパスフィルタ
である、 ことを特徴とする音声認識装置。 - 【請求項26】 請求項24または請求項25に記載の
音声圧縮方法において、 上記オールパスフィルタのフィルタ係数に、バーク尺
度、またはメル尺度を用い、人間の聴覚感度特性に対応
する周波数上の重み付けを行う、 ことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28160498A JP3351746B2 (ja) | 1997-10-03 | 1998-10-02 | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27094597 | 1997-10-03 | ||
JP9-270945 | 1997-10-03 | ||
JP6500598 | 1998-03-16 | ||
JP10-65005 | 1998-03-16 | ||
JP28160498A JP3351746B2 (ja) | 1997-10-03 | 1998-10-02 | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11327600A JPH11327600A (ja) | 1999-11-26 |
JP3351746B2 true JP3351746B2 (ja) | 2002-12-03 |
Family
ID=27298633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28160498A Expired - Fee Related JP3351746B2 (ja) | 1997-10-03 | 1998-10-02 | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3351746B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230148264A1 (en) * | 2020-04-28 | 2023-05-11 | Pst Inc. | Information processing apparatus, method, and program |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4603727B2 (ja) * | 2001-06-15 | 2010-12-22 | セコム株式会社 | 音響信号分析方法及び装置 |
US7693707B2 (en) | 2003-12-26 | 2010-04-06 | Pansonic Corporation | Voice/musical sound encoding device and voice/musical sound encoding method |
JP2006235243A (ja) * | 2005-02-24 | 2006-09-07 | Secom Co Ltd | 音響信号分析装置及び音響信号分析プログラム |
JP4699117B2 (ja) * | 2005-07-11 | 2011-06-08 | 株式会社エヌ・ティ・ティ・ドコモ | 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。 |
JP4353202B2 (ja) | 2006-05-25 | 2009-10-28 | ソニー株式会社 | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
JP2010060989A (ja) | 2008-09-05 | 2010-03-18 | Sony Corp | 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム |
JP2010078965A (ja) | 2008-09-26 | 2010-04-08 | Sony Corp | 演算装置および方法、量子化装置および方法、並びにプログラム |
JP4702645B2 (ja) | 2008-09-26 | 2011-06-15 | ソニー株式会社 | 演算装置および方法、量子化装置および方法、並びにプログラム |
US8532985B2 (en) | 2010-12-03 | 2013-09-10 | Microsoft Coporation | Warped spectral and fine estimate audio encoding |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04264599A (ja) * | 1991-02-20 | 1992-09-21 | Hitachi Ltd | 音声分析合成装置 |
JP2899024B2 (ja) * | 1989-10-25 | 1999-06-02 | 日本電信電話株式会社 | ベクトル量子化方法 |
JPH0435527A (ja) * | 1990-05-31 | 1992-02-06 | Fujitsu Ltd | 多段符号化・復号化方式 |
JPH05313695A (ja) * | 1992-05-07 | 1993-11-26 | Sony Corp | 音声分析装置 |
JPH07160297A (ja) * | 1993-12-10 | 1995-06-23 | Nec Corp | 音声パラメータ符号化方式 |
JP3354252B2 (ja) * | 1993-12-27 | 2002-12-09 | 株式会社リコー | 音声認識装置 |
JP3087814B2 (ja) * | 1994-03-17 | 2000-09-11 | 日本電信電話株式会社 | 音響信号変換符号化装置および復号化装置 |
JPH08115095A (ja) * | 1994-10-14 | 1996-05-07 | Kobe Steel Ltd | 音素特徴列比較方法 |
JPH08123494A (ja) * | 1994-10-28 | 1996-05-17 | Mitsubishi Electric Corp | 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置 |
JP3353266B2 (ja) * | 1996-02-22 | 2002-12-03 | 日本電信電話株式会社 | 音響信号変換符号化方法 |
JP3515853B2 (ja) * | 1996-03-08 | 2004-04-05 | 聖 今井 | 音声符号/復号化方式及び装置 |
-
1998
- 1998-10-02 JP JP28160498A patent/JP3351746B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230148264A1 (en) * | 2020-04-28 | 2023-05-11 | Pst Inc. | Information processing apparatus, method, and program |
US12193818B2 (en) * | 2020-04-28 | 2025-01-14 | Pst Inc. | Information processing apparatus, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JPH11327600A (ja) | 1999-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100361883B1 (ko) | 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치 | |
EP0942411B1 (en) | Audio signal coding and decoding apparatus | |
CN1327405C (zh) | 分布式语音识别系统中语音识别的方法和设备 | |
EP0910067B1 (en) | Audio signal coding and decoding methods and audio signal coder and decoder | |
JP3680380B2 (ja) | 音声符号化方法及び装置 | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
JP3344962B2 (ja) | オーディオ信号符号化装置、及びオーディオ信号復号化装置 | |
JP3351746B2 (ja) | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 | |
US20090254352A1 (en) | Method and system for extracting audio features from an encoded bitstream for audio classification | |
KR20090117876A (ko) | 부호화 장치 및 부호화 방법 | |
JPWO2008108076A1 (ja) | 符号化装置および符号化方法 | |
US20020065649A1 (en) | Mel-frequency linear prediction speech recognition apparatus and method | |
JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
CN100585700C (zh) | 语音编码装置及其方法 | |
JP4274614B2 (ja) | オーディオ信号復号方法 | |
Korse et al. | Entropy Coding of Spectral Envelopes for Speech and Audio Coding Using Distribution Quantization. | |
US5822722A (en) | Wide-band signal encoder | |
JPH08123490A (ja) | スペクトル包絡量子化装置 | |
JP2002023797A (ja) | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 | |
JP4603727B2 (ja) | 音響信号分析方法及び装置 | |
JP4327420B2 (ja) | オーディオ信号符号化方法、及びオーディオ信号復号化方法 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
Ramachandran | Quantization of discrete time signals | |
JP2899024B2 (ja) | ベクトル量子化方法 | |
Lee et al. | Design of a speech coder utilizing speech recognition parameters for server-based wireless speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080920 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080920 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090920 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090920 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100920 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110920 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120920 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130920 Year of fee payment: 11 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |