JP2005010337A - Audio signal compression method and apparatus - Google Patents
Audio signal compression method and apparatus Download PDFInfo
- Publication number
- JP2005010337A JP2005010337A JP2003173046A JP2003173046A JP2005010337A JP 2005010337 A JP2005010337 A JP 2005010337A JP 2003173046 A JP2003173046 A JP 2003173046A JP 2003173046 A JP2003173046 A JP 2003173046A JP 2005010337 A JP2005010337 A JP 2005010337A
- Authority
- JP
- Japan
- Prior art keywords
- band
- audio signal
- subband
- critical
- valid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声信号圧縮方法及び音声信号圧縮装置に関し、特にサブバンド符号化及び人間の聴覚の特性を用いた心理聴覚分析処理により音声信号を圧縮する音声信号圧縮方法及び音声信号圧縮装置に関する。
【0002】
【従来の技術】
デジタルの音声信号(以下オーディオ信号と記載する)の圧縮符号化方式の1つであるMPEG(Moving Picture Coding Experts Group)1 Audio は、国際標準方式のISO/IEC 11172−3で規定されており、特に、MPEG1 Audio layer2(以下MP2と記載する)は、デジタルビデオカメラなどの音声記録の際に用いられている。
【0003】
図7は、ISO/IEC 11172−3で規定されるMPEG 1 Audio(layer1及びlayer2)のオーディオ信号圧縮回路の構成を示すブロック図である。
【0004】
図のように、オーディオ信号圧縮回路100は、デジタルのオーディオ信号を入力するオーディオ信号入力部101と、オーディオ信号をサブバンドに分割するフィルタバンク適用部102と、スケールファクタを計算するスケールファクタ計算部103と、量子化を行う量子化器104と、人間の聴覚の特性に基づいたマスキング(心理聴覚分析処理)を行ってデータ量を削減する心理聴覚分析部105bと、ビット割り当てを計算するビット割り当て計算部106と、MPEG1 Audioのビットストリームを生成するビットストリーム生成部107と、から構成されている。
【0005】
オーディオ信号入力部101に、外部A/Dコンバータなどによりデジタル化されたオーディオ信号がフレーム単位で入力されると、入力されたオーディオ信号はフィルタバンク適用部102及び心理聴覚分析部105bに渡される。フィルタバンク適用部102では、入力されたオーディオ信号が32個のサブバンドに線形に分割される。分割されたサブバンドは、スケールファクタ計算部103に入力される。スケールファクタ計算部103では、各サブバンドにおいて最大絶対値となるサンプルを検出し、その値を対数に変換して量子化したスケールファクタを計算する。このスケールファクタを用いて、最大振幅が1.0になるように正規化し、各サブバンドのダイナミックレンジをそろえる。
【0006】
一方、心理聴覚分析部105bでは、入力されたオーディオ信号からサブバンドごとに、人間の聴覚での音声の感知限界閾値(以下マスキング閾値と呼ぶ)を計算する。ビット割り当て計算部106では、計算されたマスキング閾値を用いてビットの割り当てを計算する。
【0007】
量子化器104では、スケールファクタ計算部103で計算されたスケールファクタと、ビット割り当て計算部106の出力を用いて、サブバンドが量子化される。最終的には、ビットストリーム生成部107で、MPEG1 Audioのビットストリームを生成する。
【0008】
図8は、心理聴覚分析部での処理の一例を示すフローチャートである。
この手順は、ISO/IEC 11172−3で規定されている心理聴覚モデルのMODEL1によるものであり、8つの手順からなる。
【0009】
ステップS100:フーリエ変換
オーディオ信号が入力されると心理聴覚分析部105bでは、まず、高速フーリエ変換(FFT)などを行い、オーディオ信号を周波数成分に変換する。なお、MP2では1フレームあたり1152オーディオサンプルを扱うが、FFTの性質により2の階乗個の1024オーディオサンプルに対して周波数変換を行う。
【0010】
また、ここでは、隣接2周波数成分の2乗和をとることで、パワースペクトルを求めている。隣接2周波数成分をまとめることで、帯域幅は1024から512に変わる。
【0011】
ステップS101:音圧レベル計算
ここでは、ステップS100の処理で算出した、512帯域のパワースペクトルを32個の線形なサブバンドに分割する。分割したサブバンドはそれぞれ16個のパワースペクトルを含んでいる。このパワースペクトルの総和をとることで、サブバンドの音圧レベルを計算する。従ってここでは、16回の和算を32回繰り返す。
【0012】
ステップS102:音選択
ここでは、512帯域のパワースペクトルの中から音としてマークする成分を探す。探索法は、まず下位帯域から上位帯域へ全てのパワースペクトルを探索し、変分点となるところ、すなわちスペクトルが上に凸になる場所を、音成分の可能性があるところとしてマークする。そしてマークした成分が周りの成分よりも7dB大きなところを、最終的に音成分として決定する。
【0013】
ステップS103:ノイズ選択
ここでは、512帯域のパワースペクトルを非線形なサブバンドに分割し、ノイズ成分の検出を行う。非線形サブバンドの分け方はサンプリング周波数に依存し、サンプリング周波数32kHzの場合は25個に分けられる。それ以外は27個に分けられる。ノイズの検出は非線形サブバンドごとに行われ、各サブバンドに属する全てのパワースペクトルを重み付けしながら足し合わせることでノイズか否かを判断する。この処理は積和処理になる。
【0014】
ステップS104:マスカー選択
ステップS102、S103で抽出された音、ノイズ成分(これらをマスカーと呼ぶ)を所定の間隔で間引き、マスカーを選択する。間引き方はISO/IEC 11172−3で規定されている。
【0015】
ステップS105:大域的マスク閾値計算
512帯域のパワースペクトルを非線形な133個のサブバンドに分割し、それぞれのサブバンド領域に対して、ステップS104の処理で選択したマスカーを用いてマスク閾値を計算する。なお、この133個の非線形なサブバンドを以下周波数バンドと呼ぶ。周波数バンドの分け方はISO/IEC 11172−3で規定されている。
【0016】
ステップS106:最小マスク閾値計算
ステップS101で算出した線形な32分割のサブバンドに対する最小マスク閾値を求める。これはステップS105で求めた非線形な周波数バンドごとのマスク閾値を線形な32分割のサブバンドに対応させる処理である。
【0017】
ステップS107:SMR計算
ここでは、32個のサブバンドごとに、ステップS106で求めた最小マスク閾値と、各サブバンドの信号の最大値の差(SMR:Signal Mask Ratio)を計算する。
【0018】
上記のような、心理聴覚分析部105bでの処理は、演算量が多く、計算に非常に時間がかかる欠点がある。
MP2の符号化ではオーディオ信号は、サブバンド符号化(帯域分割符号化ともいう)により、32個のサブバンドに分割され符合化される。しかしながら分割したサブバンドは32個全て使われることはない。サブバンドの使用数はビットレート及びサンプリング周波数に依存し、最大でも30個までしか使用しない。ISO/IEC 11172−3によれば、ビットレート32kbps、サンプリング周波数32kHzの条件では最大のサブバンドの使用数は12個と非常に少なくなる。従来、心理聴覚分析部105b以外の処理については、ISO/IEC 11172−3においてサブバンドの使用・未使用による高速化が図られていた。
【0019】
心理聴覚分析部105bの演算量を軽減する方法も、いつくか提案されている(例えば、特許文献1参照)。
【0020】
【特許文献1】
特開2002−189499号公報(段落番号〔0010〕〜〔0014〕,第1図)
【0021】
【発明が解決しようとする課題】
しかし、上記の従来技術では、ISO/IEC 11172−3による心理聴覚モデルのMODEL1とは異なる方法を用いており、国際標準の規格に準拠しない方法であるという問題があった。
【0022】
本発明はこのような点に鑑みてなされたものであり、ISO/IEC 11172−3による心理聴覚モデルのMODEL1に準拠しながらも、心理聴覚分析部の処理を高速化することが可能な、音声信号圧縮方法及び音声信号圧縮装置を提供することを目的とする。
【0023】
【課題を解決するための手段】
本発明では上記課題を解決するために、サブバンド符号化及び人間の聴覚の特性を用いた心理聴覚分析処理により音声信号を圧縮する音声信号圧縮方法において、前記音声信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、前記心理聴覚分析処理で使用するのに有効な帯域を線形近似により見積もり、見積もった前記有効な帯域に応じて、前記心理聴覚分析処理でノイズ選択の際に用いられる非線形なサブバンドにおいて、使用に足りる臨界のサブバンド数を決定し、前記心理聴覚分析処理で使用する線形または非線形なサブバンドに応じて前記有効な帯域を補正し、決定した前記臨界のサブバンド数及び補正した前記有効な帯域を用いて、前記心理聴覚分析処理を行うことを特徴とする音声信号圧縮方法が提供される。
【0024】
上記の方法によれば、音声信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、心理聴覚分析処理で使用するのに有効な帯域を見積もり、見積もった有効な帯域に応じてノイズ選択の際に用いられる非線形なサブバンドにおいて、使用に足りる臨界のサブバンド数を決定し、さらに、有効な帯域を補正した後、臨界のサブバンド数、有効な帯域を用いて心理聴覚分析処理を行うので、演算に使用する帯域が限定され、演算量を削減し、処理を高速化する。
【0025】
【発明の実施の形態】
以下本発明の実施の形態を図面を参照して説明する。
図1は、本発明の実施の形態の音声信号圧縮装置の主要部を示す機能ブロック図である。
【0026】
本発明の実施の形態の音声信号圧縮装置10は、心理聴覚分析部105aにおける、図8で示した、ISO/IEC 11172−3で規定される心理聴覚モデルのMODEL1で行う処理を高速化するためのものであり、有効帯域見積もり部11と、臨界サブバンド数決定部12と、有効帯域補正部13と、を有する。
【0027】
なお、図1において、図7で示したISO/IEC 11172−3で規定されるMPEG1 Audio(layer1及びlayer2)のオーディオ信号圧縮回路の構成のうち、従来の心理聴覚分析部105bは、図1の心理聴覚分析部105aに対応している。それ以外の構成要素は図7に示したものと同様であるので図示を省略している。
【0028】
有効帯域見積もり部11は、オーディオ信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、心理聴覚分析部105aで使用するのに有効な帯域(以下バリッドバンド(valid band)変数と呼ぶ)を線形近似により見積もる。
【0029】
臨界サブバンド数決定部12は、見積もったバリッドバンド変数に応じて、心理聴覚分析部105aでの図8のステップS103のノイズ選択の際に用いられる非線形なサブバンドにおいて、使用に足りる臨界のサブバンド数(以下クリティカルバンド(critical band)変数と呼ぶ)を決定する。
【0030】
有効帯域補正部13は、心理聴覚分析部105aで使用する線形または非線形なサブバンドに応じてバリッドバンド変数を補正する。
心理聴覚分析部105aで使用する線形なサブバンドとしては、図8で示した、ISO/IEC 11172−3で規定される心理聴覚モデルのMODEL1で行う処理のうち、ステップS101の音圧レベル計算で使用する512帯域を32個に線形に分割したサブバンドがある。
【0031】
非線形なサブバンドとしては、前述したノイズ選択の際に用いられる512帯域を25または27個に非線形に分割したサブバンドや、図8のステップS105の処理で大域的マスク閾値計算の際に用いられる133個に非線形に分割したサブバンドがある(詳しくは後述する)。
【0032】
以下、図1で示した音声信号圧縮装置10の動作を説明する。
まず、有効帯域見積もり部11においてバリッドバンド変数を見積もる。
音声信号圧縮装置10において、図7で示した構成のうち、心理聴覚分析部105a以外では1152オーディオサンプルを用いている。そのため、心理聴覚分析部105a以外のサブバンドは、1152オーディオサンプルのオーディオ信号を32個の周波数帯に分割したものである。オーディオ信号のビットレート及びサンプリング周波数が決まると、ISO/IEC 11172−3の仕様により、サブバンド使用数が決まる。例えば、ビットレート32kbps、サンプリング周波数32kHzの場合、使用するサブバンド数は12個である。
【0033】
心理聴覚分析部105aでの処理ではオーディオ信号は512帯域で表される。そこで、有効帯域見積もり部11は、サブバンド使用数をもとに線形近似により心理聴覚分析部105aで使用する512帯域時のうち有効である帯域、すなわちバリッドバンド変数を見積もる。
【0034】
図2は、バリッドバンド変数の見積もり方を示す図である。
図では、1152オーディオサンプルのオーディオデータを32個の周波数帯に分割したものと、心理聴覚分析部105aで使用する512帯域を、線形な32個の周波数帯域に分割したものとの対応を示している。
【0035】
心理聴覚分析部105a以外での1152オーディオサンプルにおけるサブバンド使用数を“sblimit”とし、バリッドバンド変数を“valid_band”と表記すると、単純比例計算になるので、バリッドバンド変数は、次のように概算できる。
【0036】
【数1】
valid_band=sblimit×512/32 ……(1)
サブバンド使用数“sblimit”は、オーディオ信号のビットレート及びサンプリング周波数に応じて決定される。例えば、ビットレート32kbps、サンプリング周波数32kHzの場合、サブバンド使用数“sblimit=12”となる。これを図2で示すように、心理聴覚分析部105aで使用する512帯域に対応させると、(1)式より、“valid_band=192”となり、バリッドバンド変数を見積もることができる。
【0037】
次に、臨界サブバンド数決定部12では、見積もったバリッドバンド変数に応じて、心理聴覚分析部105aで図8のステップS103のノイズ選択の際に用いるためのクリティカルバンド変数を決定する。
【0038】
図3は、サンプリング周波数32kHzの場合のクリティカルバンド変数と、クリティカルバンド変数の値に対応する帯域幅の図である。
非線形のサブバンドの分け方はISO/IEC 11172−3で規定されており、サンプリング周波数に依存する。サンプリング周波数32kHzの場合は512帯域を25個に分け、最大のクリティカルバンド変数は“24”となる。それ以外は512帯域を27個に分け、最大のクリティカルバンド変数は“26”となる。図では、32kHzの場合、最大のクリティカルバンド変数が“24”の場合について示している。
【0039】
従来では、どの帯域まで使用されているかにかかわらず(サブバンドの使用数にかかわらず)クリティカルバンド変数が最大の“24”まで、帯域幅でいうと480までを計算していた。本発明の実施の形態では、有効帯域見積もり部11で見積もったバリッドバンド変数に応じて、ノイズ選択の際に使用に足りるだけのクリティカルバンド変数を決定する。例えば、前述したようにビットレート32kbpsで、サンプリング周波数32kHzの場合、バリッドバンド変数は“valid_band=192”となるから、図3を参照すると、バリッドバンド変数に対応したクリティカルバンド変数は、“19”となる。クリティカルバンド変数とバリッドバンド変数の関係は、以下の式のように示される。
【0040】
【数2】
band_width[crit_band−1]<valid_band≦band_width[crit_band] ……(2)
上式において、クリティカルバンド変数は“crit_band”、バリッドバンド変数は“valid_band”と表記しており、“band_width”は帯域幅を示し、例えば、“band_width[crit_band]”はクリティカルバンド変数“crit_band”の帯域幅を示す。
【0041】
式(2)のようにして、“valid_band”の値が、“crit_band−1”の帯域幅と“crit_band”の帯域幅の間に収まるクリティカルバンド変数を探す。
【0042】
このようにして、クリティカルバンド変数を、見積もったバリッドバンド変数に応じて、使用に足りる分だけ計算すればよいので、演算量を減らすことができる。
【0043】
次に有効帯域補正部13にて、バリッドバンドの補正を行う。バリッドバンド変数の補正は、まず、臨界サブバンド数決定部12において決定したクリティカルバンド変数に応じて行う。具体的には、以下の式に従って補正する。
【0044】
【数3】
valid_band=band_width[crit_band]……(3)
式(3)のように、バリッドバンド変数を、クリティカルバンド変数の帯域幅に合わせる。例えば、図3のようにクリティカルバンド変数“19”の帯域幅に合わせるために“Δwd”だけバリッドバンド変数を引き上げる。
【0045】
心理聴覚分析部105aの処理では、ISO/IEC 11172−3による心理聴覚モデルのMODEL1の処理を示す図8のステップS105の大域的マスク閾値計算において、512帯域を133個に分割した非線形なサブバンド(周波数バンド)を用いる。以下の処理では、この周波数バンドに対応させるために、バリッドバンド変数を補正する。
【0046】
図4は、サンプリング周波数32kHzの場合の周波数バンドと、帯域幅の関係を示す図である。
周波数バンドの分け方はISO/IEC 11172−3で規定されている。
【0047】
ここで示した周波数バンドに応じて、前述のクリティカルバンド変数に応じた補正と同様にして、バリッドバンド変数を補正することで、133個の非線形な周波数バンドに対応させることができる。具体的には、以下の式に従って補正する。
【0048】
【数4】
band_width[frequency_band−1]<valid_band≦band_width[frequency_band]……(4)
なお、ここで、周波数バンドは“frequency_band”と表記している。“band_width[frequency_band]”は、周波数バンドの帯域幅となる。
【0049】
式(4)において周波数バンドの帯域幅を決定し、決定した周波数バンドの帯域幅が補正されたバリッドバンド変数となる。すなわち次式のようになる。
【0050】
【数5】
valid_band=band_width[frequency_band] ……(5)
上記のように、始めに、512帯域を32個に線形に分割したサブバンドから、バリッドバンド変数を補正し、次に512帯域を133個に非線形に分割したサブバンドで補正することで精度のよい補正を行うことができる。
【0051】
心理聴覚分析部105aの処理では、ISO/IEC 11172−3による心理聴覚モデルのMODEL1の処理を示す図8のステップS101の音圧レベル計算において、512帯域を32個のサブバンドへ線形に対応させるために16サンプルごとに演算する必要がある。これに対応するため、バリッドバンド変数をさらに16の倍数になるように補正する。例えば、以下の式に従って補正する。
【0052】
【数6】
valid_band=valid_band_old−(valid_band_old % 16)+16 ……(6)
ここで、“valid_band_old”は、16の倍数に補正する前のバリッドバンド変数、“valid_band_old % 16”は、“valid_band_old”を16で割ったときの余りを表している。
【0053】
以上のようにして、補正したバリッドバンド変数と、クリティカルバンド変数を用いて図8で示したようなISO/IEC 11172−3による心理聴覚モデルのMODEL1の処理を行う。
【0054】
以下、上記の処理の流れをフローチャートでまとめる。
図5は、本発明の実施の形態の音声信号圧縮方法の処理の流れを説明するフローチャートである。
【0055】
S1:バリッドバンド変数見積もり
オーディオ信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、心理聴覚分析処理で使用するのに有効なバリッドバンドを線形近似により見積もる。
【0056】
S2:クリティカルバンド変数決定
見積もったバリッドバンド変数に応じて、心理聴覚分析部105aで図8のステップS103のノイズ選択の際に用いるためのクリティカルバンド変数を決定する。
【0057】
S3:バリッドバンド変数補正
心理聴覚分析処理で使用する線形または非線形なサブバンドに応じてバリッドバンド変数を補正する。具体的には、以下の3段階で行う。すなわち、1.決定したクリティカルバンド変数の帯域に合わせるように補正する。2.512帯域を非線形に133個に分割したサブバンドである周波数バンドに応じて補正する。3.16の倍数になるように補正する。
【0058】
S4:心理聴覚分析処理
ステップS2の処理で決定したクリティカルバンド変数及び、ステップS3の処理で補正したバリッドバンド変数を用いて、図8で示したISO/IEC 11172−3による心理聴覚モデルのMODEL1の処理を行う。
【0059】
上記のようにして算出したバリッドバンド変数と、クリティカルバンド変数を用いて心理聴覚分析処理を行うことで、以下のような効果が期待できる。
まず、図8のステップS100のフーリエ変換処理の後のパワースペクトルを求める際、従来では512帯域全てにわたって2乗和を計算していたが、本発明の実施の形態の処理により決定したバリッドバンド変数を用いることにより、512帯域全てについて演算を行う必要がなくなり、バリッドバンド変数まで演算すればよい。
【0060】
また、ステップS101の音圧レベル計算においても、512帯域全てについて音圧計算をする必要がなくなる。バリッドバンド変数は補正して16の倍数になっているため、計算頻度は、16回の和算をバリッドバンド変数/16回、繰り返すだけで済むようになる。
【0061】
ステップS102の音選択においては、バリッドバンド変数を導入することで、512帯域から変分点を探す処理、すなわち512回の隣接3成分間の比較処理が、バリッドバンド変数までの領域で変分点を探す処理、すなわちバリッドバンド変数回の隣接3成分間の比較処理で済むようになる。
【0062】
また、ステップS103のノイズ選択においては、ステップS2の処理で決定したクリティカルバンド変数を導入することで、例えば25個の非線形サブバンド全てについて、それぞれ積和処理をするのではなく、クリティカルバンド変数までの非線形サブバンドまで、それぞれ積和処理をするだけで済むようになる。
【0063】
以上により、心理聴覚分析部105aでの演算量を大幅に削減することができ、処理を高速化することが可能になる。
次に、本発明の実施の形態の音声信号圧縮装置を適用した具体的なハードウェア構成例を示す。
【0064】
図6は、オーディオ信号を記録するオーディオ信号記録装置の概略の構成図である。
図のように、オーディオ信号記録装置20は、入力されたアナログのオーディオ信号をデジタル信号に変換するA/D変換器21と、オーディオ信号をMP2形式で圧縮符号化するMP2エンコーダ22とからなる。本発明の実施の形態の音声信号圧縮装置10は、ここで示したMP2エンコーダ22により実現できる。
【0065】
図6で示したようなオーディオ信号記録装置20は、例えば、デジタルビデオカメラに搭載される。
オーディオ信号記録装置20の動作について簡単に説明する。
【0066】
アナログのオーディオ信号が入力されると、A/D変換器21は、オーディオ信号をデジタルのオーディオ信号に変換する。変換後、オーディオ信号は、MP2エンコーダ22に入力される。MP2エンコーダ22では、図7に示したような各部での処理や、図1に示した各機能により演算量が削減された心理聴覚分析部105aでの処理により、オーディオ信号をMP2形式に圧縮符号化し、記録メディア30に記録する。
【0067】
記録メディア30としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto−Optical disc)などがある。
【0068】
上記のように、本発明によれば、心理聴覚分析処理の演算量を削減することができ、処理時間を大幅に短縮することができる。また、処理時間の短縮は、ISO/IEC 11172−3に準拠していながら達成されている。処理時間が短縮されることにより、図6で示したようなオーディオ信号記録装置20をより低い低周波数で駆動することができるようになり、オーディオ信号記録装置20の低消費電力化、電力供給装置の小型化、オーディオ信号記録装置20自体の小型化が期待できる。
【0069】
なお、本発明は、ISO/IEC 11172−3に準拠していることを特徴としているが、上記の規格に限定されるものではない。
【0070】
【発明の効果】
以上説明したように本発明では、音声信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、心理聴覚分析処理で使用するのに有効な帯域(バリッドバンド変数)を見積もり、見積もったバリッドバンドに応じてノイズ選択の際に用いられる非線形なサブバンドにおいて、使用に足りる臨界のサブバンド数(クリティカルバンド変数)を決定し、さらに、バリッドバンド変数を補正した後、クリティカルバンド変数、バリッドバンド変数を用いて心理聴覚分析処理を行うので、演算に使用する帯域が限定され、演算量を削減することができる。これにより、従来では演算量が多く処理に時間がかかった心理聴覚分析処理を高速化することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の音声信号圧縮装置の主要部を示す機能ブロック図である。
【図2】バリッドバンド変数の見積もり方を示す図である。
【図3】サンプリング周波数32kHzの場合のクリティカルバンド変数と、クリティカルバンド変数の値に対応する帯域幅の図である。
【図4】サンプリング周波数32kHzの場合の周波数バンドと、帯域幅の関係を示す図である。
【図5】本発明の実施の形態の音声信号圧縮方法の処理の流れを説明するフローチャートである。
【図6】オーディオ信号を記録するオーディオ信号記録装置の概略の構成図である。
【図7】ISO/IEC 11172−3で規定されるMPEG 1 Audio(layer1及びlayer2)のオーディオ信号圧縮回路の構成を示すブロック図である。
【図8】心理聴覚分析部での処理の一例を示すフローチャートである。
【符号の説明】
10……音声信号圧縮装置,11……有効帯域見積もり部,12……臨界サブバンド決定部,13……有効帯域補正部,105a……心理聴覚分析部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal compression method and an audio signal compression device, and more particularly, to an audio signal compression method and an audio signal compression device for compressing an audio signal by subband coding and psychoacoustic analysis processing using human auditory characteristics.
[0002]
[Prior art]
MPEG (Moving Picture Coding Experts Group) 1 Audio, which is one of the compression coding systems for digital audio signals (hereinafter referred to as audio signals), is defined by ISO / IEC 11172-3 of the international standard system. In particular, MPEG1 Audio layer 2 (hereinafter referred to as MP2) is used for audio recording of a digital video camera or the like.
[0003]
FIG. 7 is a block diagram showing a configuration of an audio signal compression circuit of
[0004]
As illustrated, the audio
[0005]
When an audio signal digitized by an external A / D converter or the like is input to the audio signal input unit 101 in units of frames, the input audio signal is passed to the filter
[0006]
On the other hand, the psychoacoustic analysis unit 105b calculates a perception threshold value (hereinafter referred to as a masking threshold value) for human hearing for each subband from the input audio signal. The bit
[0007]
In the quantizer 104, the subband is quantized using the scale factor calculated by the scale
[0008]
FIG. 8 is a flowchart illustrating an example of processing in the psychoacoustic analysis unit.
This procedure is based on the psychoacoustic model MODEL1 defined in ISO / IEC 11172-3, and consists of eight procedures.
[0009]
Step S100: Fourier transform
When an audio signal is input, the psychoacoustic analysis unit 105b first performs a fast Fourier transform (FFT) or the like to convert the audio signal into a frequency component. Note that MP2 handles 1152 audio samples per frame, but frequency conversion is performed on 2 factorial 1024 audio samples due to the nature of FFT.
[0010]
Here, the power spectrum is obtained by taking the sum of squares of the adjacent two frequency components. By combining adjacent two frequency components, the bandwidth changes from 1024 to 512.
[0011]
Step S101: Sound pressure level calculation
Here, the 512-band power spectrum calculated in step S100 is divided into 32 linear subbands. Each divided subband includes 16 power spectra. The sound pressure level of the subband is calculated by taking the sum of the power spectrum. Therefore, here, 16 sums are repeated 32 times.
[0012]
Step S102: Sound selection
Here, a component to be marked as a sound is searched from the power spectrum of 512 bands. In the search method, first, all power spectra are searched from the lower band to the upper band, and a place that becomes a variation point, that is, a place where the spectrum is convex upward is marked as a potential sound component. A place where the marked component is 7 dB larger than the surrounding components is finally determined as a sound component.
[0013]
Step S103: Noise selection
Here, the 512-band power spectrum is divided into non-linear subbands to detect noise components. The method of dividing the nonlinear subband depends on the sampling frequency, and is divided into 25 when the sampling frequency is 32 kHz. The others are divided into 27 pieces. Noise is detected for each non-linear subband, and it is determined whether or not it is noise by adding all power spectra belonging to each subband while weighting them. This process is a product-sum process.
[0014]
Step S104: Masker selection
The sound and noise components (these are called maskers) extracted in steps S102 and S103 are thinned out at predetermined intervals to select a masker. The thinning method is defined in ISO / IEC 11172-3.
[0015]
Step S105: Global mask threshold calculation
The 512-band power spectrum is divided into non-linear 133 subbands, and a mask threshold is calculated for each subband region using the masker selected in the process of step S104. The 133 non-linear subbands are hereinafter referred to as frequency bands. The frequency band division method is defined in ISO / IEC 11172-3.
[0016]
Step S106: Minimum mask threshold calculation
The minimum mask threshold value for the linear 32-divided subband calculated in step S101 is obtained. In this process, the mask threshold value for each nonlinear frequency band obtained in step S105 is made to correspond to a linear sub-band of 32 divisions.
[0017]
Step S107: SMR calculation
Here, for each of the 32 subbands, a difference (SMR: Signal Mask Ratio) between the minimum mask threshold obtained in step S106 and the maximum value of each subband signal is calculated.
[0018]
The processing in the psychoacoustic analysis unit 105b as described above has a drawback that the calculation amount is large and the calculation takes a very long time.
In MP2 encoding, an audio signal is divided into 32 subbands and encoded by subband encoding (also referred to as band division encoding). However, all 32 divided subbands are not used. The number of subbands used depends on the bit rate and sampling frequency, and only 30 at most are used. According to ISO / IEC 11172-3, the maximum number of subbands used is very small, 12 under the conditions of a bit rate of 32 kbps and a sampling frequency of 32 kHz. Conventionally, the processing other than the psychoacoustic analysis unit 105b has been speeded up by using / not using subbands in ISO / IEC 11172-3.
[0019]
Some methods for reducing the amount of computation of the psychoacoustic analysis unit 105b have been proposed (see, for example, Patent Document 1).
[0020]
[Patent Document 1]
Japanese Patent Laid-Open No. 2002-189499 (paragraph numbers [0010] to [0014], FIG. 1)
[0021]
[Problems to be solved by the invention]
However, the above-described conventional technique uses a method different from the psycho-
[0022]
The present invention has been made in view of the above points, and is capable of speeding up the processing of the psychoacoustic analysis unit while conforming to MODEL1 of the psychoacoustic model according to ISO / IEC 11172-3. An object is to provide a signal compression method and an audio signal compression apparatus.
[0023]
[Means for Solving the Problems]
In the present invention, in order to solve the above-described problem, in the audio signal compression method for compressing the audio signal by the sub-band coding and the psychoacoustic analysis process using the characteristics of human auditory sense, Based on the number of subband usages determined accordingly, a band effective for use in the psychoacoustic analysis process is estimated by linear approximation, and noise is determined in the psychoacoustic analysis process according to the estimated effective band. In the non-linear sub-band used for selection, the critical sub-band number sufficient for use is determined, and the effective band is corrected and determined according to the linear or non-linear sub-band used in the psychoacoustic analysis processing. The psychoacoustic analysis processing is performed using the critical subband number and the corrected effective band. A method is provided.
[0024]
According to the above method, based on the number of subbands determined according to the bit rate and sampling frequency of the audio signal, the effective band to be used in the psychoacoustic analysis processing is estimated, and the estimated effective band The number of critical subbands that are sufficient for use is determined in the nonlinear subbands used for noise selection according to the above, and after correcting the effective band, the number of critical subbands and the effective band are used. Since psychoacoustic analysis processing is performed, the bandwidth used for the calculation is limited, the amount of calculation is reduced, and the processing speed is increased.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a functional block diagram showing the main part of an audio signal compression apparatus according to an embodiment of the present invention.
[0026]
The audio
[0027]
In FIG. 1, the conventional psychoacoustic analysis unit 105b in the configuration of the audio signal compression circuit of MPEG1 Audio (
[0028]
The effective
[0029]
The critical subband
[0030]
The effective
As the linear subband used in the
[0031]
As the non-linear sub-band, the sub-band obtained by nonlinearly dividing the 512 band used in the above-described noise selection into 25 or 27 or used in the global mask threshold calculation in the process of step S105 in FIG. There are 133 subbands which are nonlinearly divided (details will be described later).
[0032]
Hereinafter, the operation of the audio
First, the valid
In the audio
[0033]
In the processing by the
[0034]
FIG. 2 is a diagram illustrating how to estimate a valid band variable.
The figure shows the correspondence between the audio data of 1152 audio samples divided into 32 frequency bands and the 512 bands used in the
[0035]
If the number of subbands used in the 1152 audio sample other than the
[0036]
[Expression 1]
valid_band = sblimit × 512/32 (1)
The subband usage number “sblimit” is determined according to the bit rate and sampling frequency of the audio signal. For example, when the bit rate is 32 kbps and the sampling frequency is 32 kHz, the number of subbands used is “sblimit = 12”. As shown in FIG. 2, when this is made to correspond to the 512 band used in the
[0037]
Next, the critical subband
[0038]
FIG. 3 is a diagram of the critical band variable when the sampling frequency is 32 kHz and the bandwidth corresponding to the value of the critical band variable.
The method of dividing the non-linear subband is defined by ISO / IEC 11172-3 and depends on the sampling frequency. When the sampling frequency is 32 kHz, the 512 band is divided into 25, and the maximum critical band variable is “24”. Otherwise, the 512 band is divided into 27, and the maximum critical band variable is “26”. In the figure, in the case of 32 kHz, the maximum critical band variable is “24”.
[0039]
Conventionally, the critical band variable is calculated up to “24” which is the maximum, regardless of how much band is used (regardless of the number of subbands used), and up to 480 in terms of bandwidth. In the embodiment of the present invention, a critical band variable sufficient for use is determined in the noise selection in accordance with the valid band variable estimated by the effective
[0040]
[Expression 2]
band_width [crit_band-1] <valid_band ≦ band_width [crit_band] (2)
In the above equation, the critical band variable is expressed as “crit_band”, the valid band variable is expressed as “valid_band”, “band_width” indicates the bandwidth, for example, “band_width [crit_band]” is the critical band variable “crit_band”. Indicates bandwidth.
[0041]
As in Expression (2), a critical band variable in which the value of “valid_band” falls between the bandwidth of “crit_band-1” and the bandwidth of “crit_band” is searched.
[0042]
In this way, since the critical band variables need only be calculated according to the estimated valid band variables, the amount of calculation can be reduced.
[0043]
Next, the valid
[0044]
[Equation 3]
valid_band = band_width [crit_band] (3)
As shown in Expression (3), the valid band variable is matched with the bandwidth of the critical band variable. For example, as shown in FIG. 3, the valid band variable is raised by “Δwd” to match the bandwidth of the critical band variable “19”.
[0045]
In the process of the
[0046]
FIG. 4 is a diagram showing the relationship between the frequency band and the bandwidth when the sampling frequency is 32 kHz.
The frequency band division method is defined in ISO / IEC 11172-3.
[0047]
According to the frequency band shown here, it is possible to correspond to 133 non-linear frequency bands by correcting the valid band variable in the same manner as the correction according to the critical band variable described above. Specifically, correction is performed according to the following equation.
[0048]
[Expression 4]
band_width [frequency_band-1] <valid_band ≦ band_width [frequency_band] (4)
Here, the frequency band is described as “frequency_band”. “Band_width [frequency_band]” is the bandwidth of the frequency band.
[0049]
In Equation (4), the bandwidth of the frequency band is determined, and the determined bandwidth of the frequency band is a corrected valid band variable. That is, the following equation is obtained.
[0050]
[Equation 5]
valid_band = band_width [frequency_band] (5)
As described above, first, the valid band variable is corrected from the subband obtained by linearly dividing the 512 band into 32 bands, and then the accuracy is obtained by correcting with the subband obtained by nonlinearly dividing the 512 band into 133 bands. Good correction can be made.
[0051]
In the processing of the
[0052]
[Formula 6]
valid_band = valid_band_old− (valid_band_old% 16) +16 (6)
Here, “valid_band_old” represents a valid band variable before correction to a multiple of 16, and “valid_band_old% 16” represents a remainder when “valid_band_old” is divided by 16.
[0053]
As described above, MODE1 of the psychoacoustic model according to ISO / IEC 11172-3 as shown in FIG. 8 is performed using the corrected valid band variable and the critical band variable.
[0054]
Hereinafter, the flow of the above processing is summarized in a flowchart.
FIG. 5 is a flowchart for explaining the processing flow of the audio signal compression method according to the embodiment of the present invention.
[0055]
S1: Valid band variable estimation
Based on the number of subbands used determined in accordance with the bit rate and sampling frequency of the audio signal, a valid band effective for use in psychoacoustic analysis processing is estimated by linear approximation.
[0056]
S2: Critical band variable determination
In accordance with the estimated valid band variable, the
[0057]
S3: Valid band variable correction
The valid band variable is corrected according to the linear or nonlinear subband used in the psychoacoustic analysis processing. Specifically, the following three steps are performed. That is: Correction is made to match the determined critical band variable band. Correction is made in accordance with a frequency band which is a sub-band obtained by dividing the 2.512 band into 133 non-linearly. 3. Correct to be a multiple of 16.
[0058]
S4: Psychological auditory analysis processing
Using the critical band variable determined in the process of step S2 and the valid band variable corrected in the process of step S3, the psychoacoustic model MODEL1 process according to ISO / IEC 11172-3 shown in FIG. 8 is performed.
[0059]
The following effects can be expected by performing the psychoacoustic analysis process using the valid band variable calculated as described above and the critical band variable.
First, when obtaining the power spectrum after the Fourier transform process in step S100 of FIG. 8, the sum of squares is conventionally calculated over all 512 bands, but the valid band variable determined by the process of the embodiment of the present invention. By using, it is not necessary to perform the calculation for all 512 bands, and it is sufficient to calculate up to the valid band variable.
[0060]
Also in the sound pressure level calculation in step S101, it is not necessary to calculate the sound pressure for all 512 bands. Since the valid band variable is corrected to be a multiple of 16, the calculation frequency only needs to be repeated 16 times the sum of the valid band variables / 16 times.
[0061]
In the sound selection in step S102, a valid band variable is introduced to search for a variation point from the 512 band, that is, 512 comparisons between three adjacent components are performed in the region up to the valid band variable. In other words, the process of searching for the adjacent three components of the valid band variable times is sufficient.
[0062]
In addition, in the noise selection in step S103, by introducing the critical band variable determined in the process of step S2, for example, all the 25 non-linear subbands are not subjected to product-sum processing, but to the critical band variable. It is only necessary to perform product-sum processing for each non-linear subband.
[0063]
As described above, the amount of calculation in the
Next, a specific hardware configuration example to which the audio signal compression apparatus according to the embodiment of the present invention is applied will be described.
[0064]
FIG. 6 is a schematic configuration diagram of an audio signal recording apparatus for recording an audio signal.
As shown in the figure, the audio
[0065]
The audio
The operation of the audio
[0066]
When an analog audio signal is input, the A /
[0067]
Examples of the
[0068]
As described above, according to the present invention, it is possible to reduce the amount of computation of psychoacoustic analysis processing, and it is possible to greatly reduce the processing time. Further, the processing time is shortened in conformity with ISO / IEC 11172-3. By shortening the processing time, the audio
[0069]
Although the present invention is characterized by conforming to ISO / IEC 11172-3, it is not limited to the above standards.
[0070]
【The invention's effect】
As described above, in the present invention, a band (valid band variable) that is effective for use in psychoacoustic analysis processing based on the number of subband usages determined according to the bit rate and sampling frequency of the audio signal. In the non-linear subband used for noise selection according to the estimated and estimated valid band, the critical number of subbands (critical band variable) that is sufficient for use is determined, and after validating the valid band variable, the critical band is corrected. Since the psychoacoustic analysis process is performed using the band variable and the valid band variable, the band used for the calculation is limited, and the calculation amount can be reduced. Thereby, it is possible to speed up the psychoacoustic analysis processing, which conventionally requires a large amount of calculation and takes time to process.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing a main part of an audio signal compression apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a method of estimating a valid band variable.
FIG. 3 is a diagram of a critical band variable in the case of a sampling frequency of 32 kHz and a bandwidth corresponding to the value of the critical band variable.
FIG. 4 is a diagram showing a relationship between a frequency band and a bandwidth when a sampling frequency is 32 kHz.
FIG. 5 is a flowchart illustrating a processing flow of the audio signal compression method according to the embodiment of the present invention.
FIG. 6 is a schematic configuration diagram of an audio signal recording apparatus for recording an audio signal.
FIG. 7 is a block diagram showing a configuration of an audio signal compression circuit of
FIG. 8 is a flowchart illustrating an example of processing in a psychoacoustic analysis unit.
[Explanation of symbols]
DESCRIPTION OF
Claims (6)
前記音声信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、前記心理聴覚分析処理で使用するのに有効な帯域を線形近似により見積もり、
見積もった前記有効な帯域に応じて、前記心理聴覚分析処理でノイズ選択の際に用いられる非線形なサブバンドにおいて、使用に足りる臨界のサブバンド数を決定し、
前記心理聴覚分析処理で使用する線形または非線形なサブバンドに応じて前記有効な帯域を補正し、
決定した前記臨界のサブバンド数及び補正した前記有効な帯域を用いて、前記心理聴覚分析処理を行う、
ことを特徴とする音声信号圧縮方法。In an audio signal compression method for compressing an audio signal by psycho-acoustic analysis processing using subband coding and human auditory characteristics,
Based on the number of subbands used determined according to the bit rate and sampling frequency of the audio signal, the effective band to be used in the psychoacoustic analysis processing is estimated by linear approximation,
In accordance with the estimated effective band, in the non-linear subband used for noise selection in the psychoacoustic analysis processing, the number of critical subbands sufficient for use is determined,
Correct the effective band according to the linear or non-linear subband used in the psychoacoustic analysis process,
The psychoacoustic analysis process is performed using the determined critical subband number and the corrected effective band.
An audio signal compression method.
前記音声信号のビットレート及びサンプリング周波数に応じて決定されるサブバンド使用数をもとに、前記心理聴覚分析処理で使用するのに有効な帯域を線形近似により見積もる有効帯域見積もり部と、
見積もった前記有効な帯域に応じて、前記心理聴覚分析処理でノイズ選択の際に用いられる非線形なサブバンドにおいて、使用に足りる臨界のサブバンド数を決定する臨界サブバンド数決定部と、
前記心理聴覚分析処理で使用する線形または非線形なサブバンドに応じて前記有効な帯域を補正する有効帯域補正部と、
を有することを特徴とする音声信号圧縮装置。In an audio signal compression apparatus that compresses an audio signal by psycho-acoustic analysis processing using subband coding and human auditory characteristics,
Based on the number of subbands used determined according to the bit rate and sampling frequency of the audio signal, an effective band estimation unit that estimates a band effective for use in the psychoacoustic analysis process by linear approximation;
In accordance with the estimated effective band, a critical subband number determination unit that determines the number of critical subbands that are sufficient for use in a non-linear subband used in noise selection in the psychoacoustic analysis process;
An effective band correction unit that corrects the effective band according to a linear or non-linear subband used in the psychoacoustic analysis process;
An audio signal compression apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003173046A JP2005010337A (en) | 2003-06-18 | 2003-06-18 | Audio signal compression method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003173046A JP2005010337A (en) | 2003-06-18 | 2003-06-18 | Audio signal compression method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005010337A true JP2005010337A (en) | 2005-01-13 |
Family
ID=34096989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003173046A Pending JP2005010337A (en) | 2003-06-18 | 2003-06-18 | Audio signal compression method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005010337A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010170124A (en) * | 2008-12-30 | 2010-08-05 | Huawei Technologies Co Ltd | Signal compression method and device |
JP2016527546A (en) * | 2013-07-01 | 2016-09-08 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Method and apparatus for signal encoding and decoding |
-
2003
- 2003-06-18 JP JP2003173046A patent/JP2005010337A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010170124A (en) * | 2008-12-30 | 2010-08-05 | Huawei Technologies Co Ltd | Signal compression method and device |
US8560329B2 (en) | 2008-12-30 | 2013-10-15 | Huawei Technologies Co., Ltd. | Signal compression method and apparatus |
JP2016527546A (en) * | 2013-07-01 | 2016-09-08 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Method and apparatus for signal encoding and decoding |
US10152981B2 (en) | 2013-07-01 | 2018-12-11 | Huawei Technologies Co., Ltd. | Dynamic bit allocation methods and devices for audio signal |
US10789964B2 (en) | 2013-07-01 | 2020-09-29 | Huawei Technologies Co., Ltd. | Dynamic bit allocation methods and devices for audio signal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Johnston | Transform coding of audio signals using perceptual noise criteria | |
TWI397903B (en) | Economical loudness measurement of coded audio | |
JP5539203B2 (en) | Improved transform coding of speech and audio signals | |
KR101220621B1 (en) | Encoder and encoding method | |
JP4991397B2 (en) | How to enhance the performance of coding systems that use high-frequency reconstruction methods | |
KR101143724B1 (en) | Encoding device and method thereof, and communication terminal apparatus and base station apparatus comprising encoding device | |
US20140200900A1 (en) | Encoding device and method, decoding device and method, and program | |
JP2005202248A (en) | Audio encoding device and frame region allocating circuit of audio encoding device | |
US20040162720A1 (en) | Audio data encoding apparatus and method | |
JP2001053617A (en) | Device and method for digital sound single encoding and medium where digital sound signal encoding program is recorded | |
JP2006011456A (en) | Method and device for coding/decoding low-bit rate and computer-readable medium | |
JP2005534947A (en) | Scale-factor feedforward prediction based on acceptable distortion of noise formed when compressing on a psychoacoustic basis | |
US8149927B2 (en) | Method of and apparatus for encoding/decoding digital signal using linear quantization by sections | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
KR100695125B1 (en) | Digital signal encoding/decoding method and apparatus | |
US20030014241A1 (en) | Method of and apparatus for converting an audio signal between data compression formats | |
KR100477701B1 (en) | An MPEG audio encoding method and an MPEG audio encoding device | |
TW200414126A (en) | Method for determining quantization parameters | |
JP2005010337A (en) | Audio signal compression method and apparatus | |
KR100590340B1 (en) | Digital audio encoding method and device thereof | |
JP3504485B2 (en) | Tone encoding device, tone decoding device, tone encoding / decoding device, and program storage medium | |
JP2001154697A (en) | Audio signal encoding method | |
CN110534119A (en) | A kind of audio encoding and decoding method based on human auditory system dimensions in frequency signal decomposition | |
JP2004233570A (en) | Encoding device for digital data | |
JP2006504993A (en) | Digital audio encoding method and apparatus using improved psychoacoustic model |