JP6179122B2

JP6179122B2 - オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム

Info

Publication number: JP6179122B2
Application number: JP2013031476A
Authority: JP
Inventors: 俊輔武内; 洋平岸; 鈴木　政直; 政直鈴木; 晃釜野; 美由紀白川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-02-20
Filing date: 2013-02-20
Publication date: 2017-08-16
Anticipated expiration: 2033-02-20
Also published as: JP2014160212A; EP2770505B1; US9508352B2; US20140236603A1; EP2770505A1

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラムに関する。

従来より、３チャネル以上のチャネルを有するマルチチャネルオーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式の一つとして、Moving Picture Experts Group (MPEG)により標準化されたMPEG Surround方式が知られている。MPEG Surround方式では、例えば、符号化対象となる５．１チャネル(５．１ch)のオーディオ信号が時間周波数変換され、その時間周波数変換により得られた周波数信号がダウンミックスされることにより、一旦３チャネルの周波数信号が生成される。さらに、その３チャネルの周波数信号が再度ダウンミックスされることにより２チャネルのステレオ信号に対応する周波数信号が算出される。そしてステレオ信号に対応する周波数信号は、Advanced Audio Coding(AAC)符号化方式及びSpectral Band Replication(SBR)符号化方式により符号化される。その一方で、MPEG Surround方式では、５．１chの信号を３チャネルの信号へダウンミックスする際、及び３チャネルの信号を２チャネルの信号へダウンミックスする際、音の広がりまたは定位を表す空間情報が算出され、この空間情報が符号化される。このように、MPEG Surround方式では、マルチチャネルオーディオ信号をダウンミックスすることにより生成されたステレオ信号とデータ量の比較的少ない空間情報が符号化される。これにより、MPEG Surround方式では、マルチチャネルオーディオ信号に含まれる各チャネルの信号を独立に符号化するよりも高い圧縮効率が得られる。

MPEG Surround方式では、符号化情報量を削減するため、３チャネル周波数信号をステレオ周波数信号と２つの予測係数(channel prediction coefficient)に分けて符号化する。予測係数とは、３チャネル中の一つのチャネルの信号をその他の２つのチャネルの信号に基づいて予測符号化するための係数である。この予測係数は符号帳と称されるテーブルに複数格納されている。この符号帳は、使用ビット効率の向上の為に用いられるものである。符号化器と復号器で予め定められた共通の（あるいは共通の方法で作成する）符号帳を持つことで、少ないビット数でより重要な情報を送ることが出来る。復号時においては、上述の予測係数に基づいて３チャネル中の一つのチャネルの信号を再現する。この為、符号化時においては、符号帳から予測係数を選択する必要がある。

符号帳から予測係数を選択する方法は、予測符号化される前のチャネル信号と予測符号化された後のチャネル信号の差分で規定される誤差を、符号帳に格納されている全ての予測係数を用いて算出し、予測符号化における誤差が最小になる予測係数を選択する方法が開示されている。また、最小二乗法を用いた計算法により誤差が最小になる予測係数を算出する方法も開示されている。

特表２００８−５１７３３８号公報

上述の最小二乗法を用いた計算法では、少ない処理量で誤差が最小になる予測係数を算出することは出来るものの、最小二乗法の解が存在しない場合があり、この場合には予測係数を算出することは出来ない。更には、最小二乗法を用いた計算法は、符号帳に格納されている予測係数を用いることを前提としていない為、算出した予測係数が符号帳に格納されていない場合がある。この為、予測符号化においては、符号帳に格納されている全ての予測係数を用いて、予測符号化における誤差が最も小さくなる予測係数を選択することが一般的な手法とされている。

しかしながら、符号帳から予測係数を選択する方法においては、選択出来る予測係数が有限個数である為、予測符号化における誤差が０になることは少なく、予測符号化における音質の劣化が少なからず発生していることが現状である。予測符号化時における誤差成分を表した残差信号を生成する手法も存在するが、符号化効率（低ビットレート化）を考慮すると好ましくはない。

本発明は、符号化効率を低下させずに予測符号化における誤差を抑制させることが可能となるオーディオ符号化装置を提供することを目的とする。

本発明が開示するオーディオ符号化装置は、オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、当該複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化装置である。当該オーディオ符号化装置は、予測符号化前の当該第３チャネル信号と予測符号化後の当該第３チャネル信号の差分で規定される誤差が最小となる当該第１チャネル信号と当該第２チャネル信号にそれぞれ対応する当該予測係数を選択する選択部を有する。更に、当該オーディオ符号化装置は、当該誤差が更に小さくなる様に当該第１チャネル信号または当該第２チャネル信号を制御する制御部を有する。

なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示されるオーディオ符号化装置は、予測符号化における誤差を抑制させることが可能となる。

一つの実施形態によるオーディオ符号化装置の機能ブロック図である。予測係数に対する量子化テーブル（符号帳）の一例を示す図である。マスキング閾値の概念図である。類似度に対する量子化テーブルの一例を示す図である。インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。強度差に対する量子化テーブルの一例を示す図である。符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。オーディオ符号化処理の動作フローチャートである。実施例１における予測符号化の概念図である。一つの実施形態によるオーディオ符号化装置のハードウェア構成図である。一つの実施形態によるオーディオ復号装置の機能ブロックを示す図である。一つの実施形態によるオーディオ符号化復号システムの機能ブロックを示す図（その１）である。一つの実施形態によるオーディオ符号化復号システムの機能ブロックを示す図（その２）である。

以下に、一つの実施形態によるオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム、ならびにオーディオ復号装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

（実施例１）
図１は、一つの実施形態によるオーディオ符号化装置１の機能ブロック図である。図１に示す様に、オーディオ符号化装置１は，時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１５、予測符号化部１３、チャネル信号符号化部１８、空間情報符号化部２２、多重化部２３を有する。

また、予測符号化部１３は、選択部１４を含み、第２ダウンミックス部１５は、算出部１６と制御部１７を含んでいる。更に、チャネル信号符号化部１８は、ＳＢＲ(Spectral Band Replication)符号化部１９と、周波数時間変換部２０と、ＡＡＣ(Advanced Audio Coding)符号化部２１を含んでいる。

オーディオ符号化装置１が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置１が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置１に実装されてもよい。さらに、オーディオ符号化装置１が有するこれらの各部は、オーディオ符号化装置１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

時間周波数変換部１１は、オーディオ符号化装置１に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。本実施形態では、時間周波数変換部１１は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
（数１）

ここでnは時間を表す変数であり、１フレームのオーディオ信号を時間方向に１２８等分したときのn番目の時間を表す。なお，フレーム長は、例えば、１０〜８０msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を６４等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのＱＭＦである。時間周波数変換部１１は、QMF(k,n)を入力されたチャネルの１フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。なお、時間周波数変換部１１は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号をそれぞれ周波数信号に変換してもよい。

時間周波数変換部１１は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号を第１ダウンミックス部１２へ出力する。

第１ダウンミックス部１２は、各チャネルの周波数信号を受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル，中央チャネル及び右チャネルの周波数信号を生成する。例えば、第１ダウンミックス部１２は、次式に従って、以下の３個のチャネルの周波数信号を算出する。
（数２）

ここで、L_Re(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの実数部を表し、L_Im(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの虚数部を表す。またSL_Re(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの実数部を表し、SL_Im(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの虚数部を表す。そしてL_in(k,n)は、ダウンミックスにより生成される左チャネルの周波数信号である。なお、L_inRe(k,n)は、左チャネルの周波数信号のうちの実数部を表し、L_inIm(k,n)は、左チャネルの周波数信号のうちの虚数部を表す。

同様に、R_Re(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの実数部を表し、R_Im(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの虚数部を表す。またSR_Re(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの実数部を表し、SR_Im(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの虚数部を表す。そしてR_in(k,n)は、ダウンミックスにより生成される右チャネルの周波数信号である。なお、R_inRe(k,n)は、右チャネルの周波数信号のうちの実数部を表し、R_inIm(k,n)は、右チャネルの周波数信号のうちの虚数部を表す。

さらに、C_Re(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実数部を表し、C_Im(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚数部を表す。またLFE_Re(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実数部を表し、LFE_Im(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚数部を表す。そしてC_in(k,n)は、ダウンミックスにより生成される中央チャネルの周波数信号である。なお、C_inRe(k,n)は、中央チャネルの周波数信号C_in(k,n)のうちの実数部を表し、C_inIm(k,n)は、中央チャネルの周波数信号C_in(k,n)のうちの虚数部を表す。

また、第１ダウンミックス部１２は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報となる当該周波数信号間の類似度を周波数帯域ごとに算出する。第１ダウンミックス部１２が算出するこれらの空間情報は、３チャネル空間情報の一例である。本実施形態では、第１ダウンミックス部１２は、次式に従って左チャネルについての周波数帯域kの強度差CLD_L(k)と類似度ICC_L(k)を算出する。
（数３）

（数４）

ここで、Nは、１フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは１２８である。また、e_L(k)は、左前方チャネルの周波数信号L(k,n)の自己相関値であり、e_SL(k)は、左後方チャネルの周波数信号SL(k,n)の自己相関値である。またe_LSL(k)は、左前方チャネルの周波数信号L(k,n)と左後方チャネルの周波数信号SL(k,n)との相互相関値である。

同様に、第１ダウンミックス部１２は、次式に従って右チャネルについての周波数帯域kの強度差CLD_R(k)と類似度ICC_R(k)を算出する。
（数５）

（数６）

ここで、e_R(k)は、右前方チャネルの周波数信号R(k,n)の自己相関値であり、e_SR(k)は、右後方チャネルの周波数信号SR(k,n)の自己相関値である。またe_RSR(k)は、右前方チャネルの周波数信号R(k,n)と右後方チャネルの周波数信号SR(k,n)との相互相関値である。

さらに、第１ダウンミックス部１２は、次式に従って中央チャネルについての周波数帯域kの強度差CLD_C(k)を算出する。
（数７）

ここで、e_C(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、e_LFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。

第１ダウンミックス部１２は、３チャネルの周波数信号を生成した後、更に、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。第１ダウンミックス部１２は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。第１ダウンミックス部１２は、例えば、次式に従ってステレオ周波数信号の左側周波数信号L₀(k,n)及び右側周波数信号R₀(k,n)を生成する。さらに第１ダウンミックス部１２は、例えば、符号帳に含まれる予測係数を選択する為に利用される中央チャネルの信号C₀(k,n)を次式に従って算出する。
（数８）

ここで、L_in(k,n)、R_in(k,n)、C_in(k,n)は、それぞれ、第１ダウンミックス部１２により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。左側周波数信号L₀(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号R₀(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。

第１ダウンミックス部１２は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)を、第２ダウンミックス部１５へ出力する。また、第１ダウンミックス部１２は、空間情報となる強度差CLD_L(k)、CLD_R(k)、CLD_C(k)と、類似度ICC_L(k)、ICC_R(k)を空間情報符号化部２２へ出力する。

第２ダウンミックス部１５は、第１ダウンミックス部１２から受け取った左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)の３チャネルの周波数信号のうちの二つの周波数信号をダウンミックスすることにより、２チャネルのステレオ周波数信号を生成する。例えば、２チャネルのステレオ周波数信号は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)から生成される。そして、第２ダウンミックス部１５は、後述する制御ステレオ周波数信号をチャネル信号符号化部１８へ出力する。なお、上述の（数８）の左側周波数信号L₀(k,n)と、右側周波数信号R₀(k,n)を展開すると次式の通りとなる。
（数９）

予測符号化部１３に含まれる選択部１４は、第２ダウンミックス部１５においてダウンミックスされる二つのチャネルの周波数信号についての予測係数を符号帳から選択する。左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)とから、中央チャネルの信号C₀(k,n)の予測符号化を行う場合は、第２ダウンミックス部１５は、右側周波数信号R₀(k,n)と左側周波数信号L₀(k,n)をダウンミックスすることにより、２チャネルのステレオ周波数信号を生成する。なお、予測符号化部１３に含まれる選択部１４は、予測符号化を行う場合、周波数帯域ごとに、C₀(k,n)と、L₀(k,n)、R₀(k,n)から次式で定義される予測符号化前と予測符号化後の周波数信号の誤差d(k,n)が最小となる予測係数c₁(k)とc₂(k)を符号帳から選択する。この様にして予測符号化部１３は、予測符号化後の中央チャネルの信号C'₀(k,n)を予測符号化する。
（数１０）

また、上述の（数１０）は、実数部と虚数部を用いると次式の通りに表現できる。
（数１１）

なお、L_0Re(k,n)はL₀(k,n)の実数部、L_0Im(k,n)はL₀(k,n)の虚数部、R_0Re(k,n)はR₀(k,n)の実数部、R_0Im(k,n)はR₀(k,n)の虚数部を表す。

予測符号化部１３は、符号帳に含まれる予測係数c₁(k)、c₂(k)を用いて、予測符号化部１３が有する予測係数c₁(k)、c₂(k)の代表値とインデックス値との対応関係を示した量子化テーブル（符号帳）を参照する。そして、予測符号化部１３は、量子化テーブルを参照することにより、各周波数帯域についての予測係数c₁(k)、c₂(k)に対して、最も値が近いインデックス値を決定する。ここで、具体例について説明する。図２は、予測係数に対する量子化テーブル（符号帳）の一例を示す図である。図２に示す量子化テーブル２００において、行２０１、２０３、２０５、２０７及び２０９の各欄はインデックス値を表す。一方、行２０２、２０４、２０６、２０８及び２１０の各欄は、それぞれ、同じ列の行２０１、２０３、２０５、２０７及び２０９の各欄に示されたインデックス値に対応する予測係数の代表値を表す。例えば、予測符号化部１３は、周波数帯域kに対する予測係数c₁(k)が１．２である場合、予測係数c₁(k)に対するインデックス値を１２に設定する。

次に、予測符号化部１３は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が２であり、周波数帯域(k-1)に対するインデックス値が４であれば、予測符号化部１３は、周波数帯域kに対するインデックスの差分値を−２とする。

次に、予測符号化部１３は、インデックス間の差分値と予測係数符号の対応を示した符号化テーブルを参照する。そして予測符号化部１３は、符号化テーブルを参照することにより、予測係数c_m(k)(m=1,2 or m=1)の各周波数帯域kの差分値に対する予測係数符号idxc_m(k)(m=1,2 or m=1)を決定する。予測係数符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め、予測符号化部１３が有する図示しないメモリに格納される。図１において、予測符号化部１３は、予測係数符号idxc_m(k)(m=1,2)を空間情報符号化部２２へ出力する。また、予測符号化部１３は、誤差d(k,n)と予測係数c₁(k)、c₂(k)を第２ダウンミックス部１５に出力する。

第２ダウンミックス部１５は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)の３チャネルの周波数信号を第１ダウンミックス部から受け取る。また、第２ダウンミックス部１５は、誤差d(k,n)と、予測係数c₁(k)、c₂(k)を予測符号化部１３から受け取る。第２ダウンミックス部１５に含まれる算出部１６は、例えば、誤差d(k,n)が０以外の場合に、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)にそれぞれ対応するマスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)を算出する。なお、誤差d(k,n)が０の場合は、第２ダウンミックス部１５が左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)から２チャネルのステレオ周波数信号を生成し、当該ステレオ周波数信号をチャネル信号符号化部１８に出力すれば良い。

マスキング閾値とは、マスキング効果により人間に知覚されないスペクトル電力の限界値であり、静的マスキング閾値(qthr)と動的マスキング閾値(dthr)の組み合わせにより規定することが出来る。なお、静的マスキング閾値(qthr)とは、聴覚的に人間が知覚出来ない最小可聴域であり、例えば、公知の技術であるISO/IEC13818-7記載の閾値を使用することが出来る。また、動的マスキング閾値(dthr)とは、任意の周波数においてスペクトル電力が大きい信号を入力すると、その近接する周辺帯域のスペクトル電力が知覚されない限界値であり、例えば、公知の技術であるISO/IEC13818-7規格に記載の方法で求めることが出来る。

図３は、マスキング閾値の概念図である。図３においては、左側周波数信号L₀(k,n)を例として用いているが、右側周波数信号R₀(k,n)でも同様の概念となる為、右側周波数信号R₀(k,n)の詳細な説明は省略する。図３には、任意のL₀(k,n)のパワーが示されており、当該パワーに基づいて動的マスキング閾値(dthr)が規定される。また、静的マスキング閾値(qthr)は一意的に規定される。上述の通り、マスキング閾値未満の音は知覚されないことになる。実施例１においては、この現象を利用し、左側周波数信号L₀(k,n)や右側周波数信号R₀(k,n)を音質に影響を与えない範囲で制御する。具体的には、マスキング閾値threshold-L₀(k,n)の範囲内であれば、左側周波数信号L₀(k,n)を自在に制御しても主観的な音質に影響を及ぼすことがない。なお、実施例１においては、主観的な音質に影響を与えない閾値の例としてマスキング閾値を例として挙げているが、マスキング閾値以外のパラメータを適用することも可能である、マスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)は次式を用いて算出することが出来る。
（数１２）

算出部１６は算出したマスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)ならびに、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)の３チャネルの周波数信号を制御部１７に出力する。なお、算出部１６は上述の（数１２）において、静的マスキング閾値(qthr)または動的マスキング閾値(dthr)の何れか一つのみを用いてマスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)を算出しても良い。

制御部１７は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、マスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)に基づいて、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)に対して主観的な音質に影響を及ぼさない範囲となる許容制御範囲R₀thr(k,n)、L₀thr(k,n)を、例えば、ISO/IEC13818-7記載の方法を用いて算出する。制御部１７は、許容制御範囲R₀thr(k,n)ならびにL₀thr(k,n)を、例えば次式を用いて算出することが出来る。
（数１３）

制御部１７は、上述の（数１３）を用いて算出した許容制御範囲R₀thr(k,n)、ならびにL₀thr(k,n)に基づいて、誤差d’(k,n)が最小となる様に、左側周波数信号L₀(k,n)の制御量ΔL₀(k,n)ならびに、右側周波数信号R₀(k,n)の制御量ΔR₀(k,n)を規定する。なお、誤差d’(k,n)の詳細は後述する。制御量ΔL₀(k,n)と制御量ΔR₀(k,n)の規定方法は、例えば、以下に記載する方法を用いることが出来る。始めに制御部１７は、許容制御範囲R₀thr(k,n)、L₀thr(k,n)の範囲内で任意に制御量を選択する。制御部１７は、例えば、次式の範囲内で制御量ΔL₀(k,n)と制御量ΔR₀(k,n)を任意に選択する。
（数１４）

但し、ΔL_0Re(k,n)は、L₀(k,n)の実数部の制御量、ΔL_0Im(k,n)は、L₀(k,n)の虚数部の制御量、ΔR_0Re(k,n)は、R₀(k,n)の実数部の制御量、ΔR_0Im(k,n)は、R₀(k,n)の虚数部の制御量である。

次に制御部１７は、左側周波数信号L₀(k,n)の制御量ΔL_0Re(k,n)とΔL_0Im(k,n)、右側周波数信号R₀(k,n)の制御量ΔR_0Re(k,n)とΔR_0Im(k,n)、ならびに、予測係数c₁(k)、c₂(k)に基づいて、再予測制御後の中央チャネルの信号C’’₀(k,n)を次式を用いて算出する。
（数１５）

但し、L_0Re(k,n)はL₀(k,n)の実数部、L_0Im(k,n)はL₀(k,n)の虚数部を表し、R_0Re(k,n)はR₀(k,n)の実数部、R_0Im(k,n)はR₀(k,n)の虚数部を表す。

制御部１７は、再予測制御後の中央チャネルの信号C’’₀(k,n)と予測符号化前の中央チャネルの信号C₀(k,n)の差分で規定される誤差d’(k,n)を、次式を用いて算出する。
（数１６）

但し、C_0Re(k,n)はC₀(k,n)の実数部、C_0Im(k,n)はC₀(k,n)の虚数部を表し、C’’_0Re(k,n)はC’’₀(k,n)の実数部、C_0Im(k,n)はC’’₀(k,n)の虚数部を表す。

制御部１７は、誤差d’(k,n)が最小となる制御量ΔL_0Re(k,n)とΔL_0Im(k,n)、ならびに、制御量ΔR_0Re(k,n)とΔR_0Im(k,n)に基づいて、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)を次式に基づいて制御し、制御左側周波数信号L’₀(k,n)と、制御右側周波数信号R’₀(k,n)を生成する。
（数１７）

第２ダウンミックス１５は、制御部１７が生成した制御左側周波数信号L’₀(k,n)と、制御右側周波数信号R’₀(k,n)を、制御ステレオ周波数信号としてチャネル信号符号化部１８へ出力する。なお、制御ステレオ周波数信号を、単にステレオ周波数信号と称しても良い。

チャネル信号符号化部１８は、第２ダウンミックス部１５から受け取った制御ステレオ周波数信号を符号化する。なお、チャネル信号符号化部１８には、ＳＢＲ符号化部１９と、周波数時間変換部２０と、ＡＡＣ符号化部２１が含まれる。

ＳＢＲ符号化部１９は、制御ステレオ周波数信号を受け取る度に、チャネルごとに、制御ステレオ周波数信号のうち、高周波数帯域に含まれる成分である高域成分を、ＳＢＲ符号化方式にしたがって符号化する。これにより、ＳＢＲ符号化部１９は、ＳＢＲ符号を生成する。例えば、ＳＢＲ符号化部１９は、特開２００８−２２４９０２号公報に開示されているように、ＳＢＲ符号化の対象となる高域成分と強い相関のある各チャネルの周波数信号の低域成分を複製する。なお、低域成分は、ＳＢＲ符号化部１９が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれる各チャネルの周波数信号の成分であり、後述するＡＡＣ符号化部２１により符号化される。そしてＳＢＲ符号化部１９は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。またＳＢＲ符号化部１９は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そしてＳＢＲ符号化部１９は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。ＳＢＲ符号化部１９は、上記の符号化された情報であるＳＢＲ符号を多重化部２３へ出力する。

周波数時間変換部２０は、制御ステレオ周波数信号を受け取る度に、各チャネルの制御ステレオ周波数信号を時間領域のステレオ信号に変換する。例えば、時間周波数変換部１１がＱＭＦフィルタバンクを用いる場合、周波数時間変換部２０は、次式に示す複素型のＱＭＦフィルタバンクを用いて各チャネルの制御ステレオ周波数信号を周波数時間変換する。
（数１８）

ここでIQMF(k,n)は、時間n、周波数kを変数とする複素型のＱＭＦである。なお、時間周波数変換部１１が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、周波数時間変換部２０は、その時間周波数変換処理の逆変換を使用する。周波数時間変換部２０は、各チャネルの周波数信号を周波数時間変換することにより得られた各チャネルのステレオ信号をＡＡＣ符号化部２１へ出力する。

ＡＡＣ符号化部２１は、各チャネルのステレオ信号を受け取る度に、各チャネルの信号の低域成分をＡＡＣ符号化方式にしたがって符号化することにより、ＡＡＣ符号を生成する。そこで、ＡＡＣ符号化部２１は、例えば、特開２００７−１８３５２８号公報に開示されている技術を利用できる。具体的には、ＡＡＣ符号化部２１は、受け取った各チャネルのステレオ信号を離散コサイン変換することにより、再度制御ステレオ周波数信号を生成する。そしてＡＡＣ符号化部２１は、再生成した制御ステレオ周波数信号から心理聴覚エントロピー（ＰＥ；Perceptual Entropy）を算出する。ＰＥは、リスナーが雑音を知覚することがないようにそのブロックを量子化するために必要な情報量を表す。

このＰＥは、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、ＡＡＣ符号化部２１は、ＰＥの値が比較的大きくなるフレームに対しては、窓を短くし、ＰＥの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、２５６個のサンプルを含み、長い窓は、２０４８個のサンプルを含む。ＡＡＣ符号化部２１は、決定された長さを持つ窓を用いて各チャネルのステレオ信号に対して修正離散コサイン変換（ＭＤＣＴ；Modified Discrete Cosine Transform）を実行することにより、各チャネルのステレオ信号をＭＤＣＴ係数の組に変換する。そしてＡＡＣ符号化部２１は、ＭＤＣＴ係数の組を量子化し、その量子化されたＭＤＣＴ係数の組を可変長符号化する。ＡＡＣ符号化部２１は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、ＡＡＣ符号として多重化部２３へ出力する。

空間情報符号化部２２は、第１ダウンミックス部１２から受け取った空間情報と、予測符号化部１３から受け取った予測係数符号からMPEG Surround符号（以下、ＭＰＳ符号と称する）を生成する。

空間情報符号化部２２は、空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部２２は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICC_i(k)(i=L,R,0)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部２２が有する図示しないメモリ等に格納される。

図４は、類似度に対する量子化テーブルの一例を示す図である。図４に示す量子化テーブル４００において、上段の行４１０の各欄はインデックス値を表し、下段の行４２０の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は−０．９９〜＋１である。例えば、周波数帯域kに対する類似度が０．６である場合、量子化テーブル４００では、インデックス値３に対応する類似度の代表値が、周波数帯域kに対する類似度に最も近い。そこで、空間情報符号化部２２は、周波数帯域kに対するインデックス値を３に設定する。

次に、空間情報符号化部２２は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が３であり、周波数帯域(k-1)に対するインデックス値が０であれば、空間情報符号化部２２は、周波数帯域kに対するインデックスの差分値を３とする。

空間情報符号化部２２は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部２２は、符号化テーブルを参照することにより、類似度ICC_i(k)(i=L,R,0)の各周波数についてインデックス間の差分値に対する類似度符号idxicc_i(k)(i=L,R,0)を決定する。なお、符号化テーブルは、予め、空間情報符号化部２２が有するメモリ等に格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。

図５は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。図５に示す例では、類似度符号はハフマン符号である。図５に示す符号化テーブル５００において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICC_L(k)に対するインデックスの差分値が３である場合、空間情報符号化部２２は、符号化テーブル５００を参照することにより、周波数帯域kの類似度ICC_L(k)に対する類似度符号idxicc_L(k)を"111110"に設定する。

空間情報符号化部２２は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部２２は、量子化テーブルを参照することにより、各周波数についての強度差CLD_j(k)(j=L,R,C,1,2)と最も値が近いインデックス値を決定する。空間情報符号化部２２は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が２であり、周波数帯域(k-1)に対するインデックス値が４であれば、空間情報符号化部２２は、周波数帯域kに対するインデックスの差分値を−２とする。

空間情報符号化部２２は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部２２は、符号化テーブルを参照することにより、強度差CLD_j(k)の各周波数帯域kの差分値に対する強度差符号idxcld_j(k)(j=L,R,C)を決定する。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め空間情報符号化部２２が有するメモリに格納される。

図６は、強度差に対する量子化テーブルの一例を示す図である。図６に示す量子化テーブル６００において、行６１０、６３０及び６５０の各欄はインデックス値を表し、行６２０、６４０及び６６０の各欄は、それぞれ、同じ列の行６１０、６３０及び６５０の各欄に示されたインデックス値に対応する強度差の代表値を表す。例えば、周波数帯域kに対する強度差CLD_L(k)が１０．８dBである場合、量子化テーブル６００では、インデックス値５に対応する強度差の代表値がCLD_L (k)に最も近い。そこで、空間情報符号化部２２は、CLD_L(k)に対するインデックス値を５に設定する。

空間情報符号化部２２は、類似度符号idxicc_i(k)、強度差符号idxcld_j(k)及び、予測係数符号idxc_m(k)を用いてＭＰＳ符号を生成する。例えば、空間情報符号化部２２は、類似度符号idxicc_i(k)、強度差符号idxcld_j(k)及び予測係数符号idxc_m(k)を所定の順序に従って配列することにより、ＭＰＳ符号を生成する。この所定の順序については、例えば、ＩＳＯ／ＩＥＣ２３００３−１:２００７に記述されている。空間情報符号化部２２は、生成したＭＰＳ符号を多重化部２３へ出力する。

多重化部２３は、ＡＡＣ符号、ＳＢＲ符号及びＭＰＳ符号を所定の順序に従って配列することにより多重化する。そして多重化部２３は、多重化により生成された符号化オーディオ信号を出力する。図７は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。図７の例では、符号化オーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。図７に示される符号化データ列７００において、データブロック７１０にＡＡＣ符号が格納される。またＡＤＴＳ形式のＦＩＬＬエレメントが格納されるブロック７２０の一部領域にＳＢＲ符号及びＭＰＳ符号が格納される。

図８は、オーディオ符号化処理の動作フローチャートを示す。なお、図８に示されたフローチャートは、１フレーム分のマルチチャネルオーディオ信号に対する処理を表す。オーディオ符号化装置１は、マルチチャネルオーディオ信号を受信し続けている間、フレームごとに図８に示されたオーディオ符号化処理の手順を繰り返し実行する。

時間周波数変換部１１は、各チャネルの信号を周波数信号に変換する（ステップＳ８０１）。時間周波数変換部１１は、各チャネルの周波数信号を第１ダウンミックス部１２へ出力する。

次に、第１ダウンミックス部１２は、各チャネルの周波数信号をダウンミックスすることにより右、左、中央の３チャネルの周波数信号{L₀(k,n)、R₀(k,n)、C₀(k,n)}を生成する。さらに第１ダウンミックス部１２は、右、左、中央の各チャネルの空間情報を算出する（ステップＳ８０２）。第１ダウンミックス部１２は、３チャネルの周波数信号を予測符号化部１３ならびに第２ダウンミックス部１５へ出力する。

予測符号化部１３は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)の３チャネルの周波数信号を第１ダウンミックス部１２から受け取る。予測符号化部１３に含まれる選択部１４は、ダウンミックスされる二つのチャネルの周波数信号についての予測係数を符号帳から上述の（数１０）を用いて、予測符号化前と予測符号化後の周波数信号の誤差d(k,n)が最小となる予測係数c₁(k)、c₂(k)を符号帳から選択する（ステップＳ８０３）。予測符号化部１３は、予測係数c₁(k)、c₂(k)に対応する予測係数符号idxc_m(k)(m=1,2)を空間情報符号化部２２へ出力する。また、予測符号化部１３は、誤差d(k,n)と、予測係数c₁(k)、c₂(k)を第２ダウンミックス部１５に出力する。

第２ダウンミックス部１５は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)の３チャネルの周波数信号を第１ダウンミックス部から受け取る。また、第２ダウンミックス部１５は、誤差d(k,n)と、予測係数c₁(k)、c₂(k)を予測符号化部１３から受け取る。算出部１６は、誤差d(k,n)が０か否かを判断する（ステップＳ８０４）。誤差d(k,n)が０の場合（ステップＳ８０４−Ｎｏ）は、オーディオ符号化装置１は、第２ダウンミックス部１５にステレオ周波数信号を生成させ、当該ステレオ周波数信号をチャネル信号符号化部１８に出力させた上でステップＳ８１１に処理を進める。誤差d(k,n)が０以外の場合（ステップＳ８０４−Ｙｅｓ）は、算出部１６は、マスキング閾値threshold-L₀(k,n)、またはthreshold-R₀(k,n)を、上述の（数１２）を用いて算出する（ステップＳ８０５）。なお、算出部１６は、マスキング閾値threshold-L₀(k,n)とthreshold-R₀(k,n)のいずれか一方のみを算出しても良い。この場合は、以降の処理を、マスキング閾値を算出した周波数成分のみ処理の対象とすることが出来る。算出部１６は、算出したマスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)ならびに、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネルの信号C₀(k,n)の３チャネルの周波数信号を制御部１７に出力する。

制御部１７は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、マスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)に基づいて、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)に対して主観的な音質に影響を及ぼさない範囲となる許容制御範囲R₀thr(k,n)、L₀thr(k,n)を、上述の（数１３）を用いて算出する（ステップＳ８０６）。制御部１７は、上述の（数１３）を用いて算出した許容制御範囲R₀thr(k,n)、ならびにL₀thr(k,n)に基づいて、誤差d’(k,n)が最小となる様に、左側周波数信号L₀(k,n)の制御量ΔL₀(k,n)ならびに、右側周波数信号R₀(k,n)の制御量ΔR₀(k,n)を規定する。この為、制御部１７は、上述の（数１４）の範囲内で制御量ΔL₀(k,n)と制御量ΔR₀(k,n)を任意に選択する（ステップＳ８０７）。制御部１７は、再予測制御後の中央チャネルの信号C’’₀(k,n)と予測符号化前の中央チャネルの信号C₀(k,n)の差分で規定される誤差d’(k,n)を、上述の（数１６）を用いて算出する（ステップＳ８０８）。

制御部１７は、誤差d’(k,n)が許容制御範囲内で最小か否かを判断し（ステップＳ８０９）、誤差d’(k,n)が最小でない場合（ステップＳ８０９−Ｎｏ）は、制御部１７は、ステップＳ８０７〜Ｓ８０９の処理を繰り返す。制御部１７は、誤差d’(k,n)が許容制御範囲内で最小となる場合（ステップＳ８０９−Ｙｅｓ）は、誤差d’(k,n)が最小となる制御量ΔL_0Re(k,n)とΔL_0Im(k,n)、ならびに、制御量ΔR_0Re(k,n)とΔR_0Im(k,n)に基づいて、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)を、上述の（数１５）に基づいて制御し、制御左側周波数信号L’₀(k,n)と、制御右側周波数信号R’₀(k,n)を生成することで、制御ステレオ周波数信号を生成する（ステップＳ８１０）。第２ダウンミックス１５は、制御部１７が生成した制御左側周波数信号L’₀(k,n)と、制御右側周波数信号R’₀(k,n)を、制御ステレオ周波数信号としてチャネル信号符号化部１８へ出力する。

チャネル信号符号化部１８は、受け取った各チャネルの制御ステレオ周波数信号またはステレオ周波数信号のうち、高域成分をＳＢＲ符号化する。またチャネル信号符号化部１８は、受け取った各チャネルの制御ステレオ周波数信号またはステレオ周波数信号のうち、ＳＢＲ符号化されない低域成分をＡＡＣ符号化する（ステップＳ８１１）。そしてチャネル信号符号化部１８は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報などのＳＢＲ符号と、ＡＡＣ符号を多重化部２３へ出力する。

空間情報符号化部２２は、第１ダウンミックス部１２から受け取った符号化する空間情報と、予測符号化部１５から受け取った予測係数符号からＭＰＳ符号を生成する（ステップＳ８１２）。そして空間情報符号化部２２は、ＭＰＳ符号を多重化部２３へ出力する。

最後に、多重化部２３は、生成されたＳＢＲ符号、ＡＡＣ符号、ＭＰＳ符号を多重化することにより、符号化されたオーディオ信号を生成する（ステップＳ８１３）。多重化部２３は、符号化されたオーディオ信号を出力する。そしてオーディオ符号化装置１は、符号化処理を終了する。

なお、オーディオ符号化装置１は、ステップＳ８１１の処理とステップＳ８１２の処理を並列に実行してもよい。あるいは、オーディオ符号化装置１は、ステップＳ８１１の処理を行う前にステップＳ８１２の処理を実行してもよい。

図９は、実施例１における予測符号化の概念図である。図９において、座標軸となるＲｅ軸とＩｍ軸はそれぞれ周波数信号の実数部と虚数部を示す。左側周波数信号L₀(k,n)、右側周波数信号R₀ (k,n)ならびに中央チャネルの信号C₀ (k,n)は、上述の（数２）、（数８）、（数９）等で表現されている通り、それぞれ実数部と虚数部からなるベクトルで表現することが可能である。

図９においては、左側周波数信号L₀(k,n)のベクトルと、右側周波数信号R₀(k,n)のベクトル、予測符号化される中央チャネルの信号C₀(k,n)のベクトルを模式的に示している。なお、予測符号化においては、中央チャネルの信号C₀(k,n)が、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)ならびに予測係数c₁(k)、c₂(k)によってベクトル分解が出来ることを利用している。

ここで、予測符号化部１３は、上述の通り、予測符号化前の中央チャネルの信号C₀(k,n)と予測符号化後の中央チャネルの信号C'₀(k,n)の周波数信号の誤差d(k,n)が最小となる予測係数c1(k)とc2(k)を符号帳から選択することで、中央チャネルの信号C₀(k,n)を予測符号化することが可能となる。なお、この概念を数式で示したものが上述の（数９）である。しかしながら、符号帳から予測係数を選択する方法においては、選択出来る予測係数が有限個数である為、予測符号化における誤差は０に収束するとは限らない。一方、実施例１においては、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)に対して主観的な音質に影響を及ぼさない範囲となる許容制御範囲R₀thr(k,n)、L₀thr(k,n)の範囲で左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)を制御することが出来る。また制御の範囲が図２のテーブル２００に示す量子化テーブルとは異なり許容制御範囲内であれば任意の係数で制御できる為、予測符号化における誤差を大幅に改善することが可能となる。以上の理由により、実施例１におけるオーディオ符号化装置によれば、符号化効率を低下させずに予測符号化における誤差を抑制させることが可能となる。

（実施例２）
実施例１における図１に示す算出部１６は、誤差d(k,n)が０以外の場合に、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)にそれぞれ対応するマスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)を算出する。実施例２における算出部１６は、誤差d(k,n)が０以外の場合に、初めに中央チャネルの信号C₀(k,n)のマスキング閾値threshold-C₀(k,n)を算出する。マスキング閾値threshold-C₀(k,n)の算出方法は、上述のマスキング閾値threshold-L₀(k,n)、threshold-R₀(k,n)と同様の方法を用いることが出来る為、詳細な説明は省略する。

算出部１６は、例えば制御部１７から予測係数c₁(k)、c₂(k)を受け取り、上述の数（１０）を用いて、予測符号化後の中央チャネルの信号C'₀(k,n)を生成する。中央チャネルの信号C₀(k,n)と予測符号化後の中央チャネルの信号C'₀(k,n)の絶対値の差分がマスキング閾値threshold-C₀(k,n)未満の場合は、予測符号化後の中央チャネルの信号C'₀(k,n)の誤差は主観的な音質に影響を与えないと考えることが出来る。この場合、第２ダウンミックス部１５が第２左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)から２チャネルのステレオ周波数信号を生成し、当該ステレオ周波数信号をチャネル信号符号化部１８に出力する。中央チャネルの信号C₀(k,n)と予測符号化後の中央チャネルの信号C'₀(k,n)の絶対値の差分がマスキング閾値threshold-C₀(k,n)より大きい場合は、オーディオ符号化装置１は、実施例１に示す方法で制御ステレオ周波数信号を生成すれば良い。なお、マスキング閾値threshold-C₀(k,n)を第１閾値と称しても良い。

実施例２におけるオーディオ符号化装置によれば、符号化効率を低下させずに予測符号化における誤差の抑制と演算負荷を軽減させることが可能となる。

（実施例３）
図１に示す、図１の制御部１７は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)の双方を制御しているが、左側周波数信号L₀(k,n)または右側周波数信号R₀(k,n)のいずれか一方のみを制御することのみでも制御ステレオ周波数信号を生成することが可能である。例えば、制御部１７は、右側周波数信号R₀(k,n)のみ制御する場合は、上述の（数１４）、（数１５）において、R₀(k,n)関する式のみを用いて、誤差d’(k,n)を（数１６）により算出し、（数１７の）R’₀(k,n)を算出する。そして、第２ダウンミックス１５は、制御右側周波数信号R’₀(k,n)と左側周波数信号L₀(k,n)を制御ステレオ周波数信号としてチャネル信号符号化部１８へ出力する。

実施例３におけるオーディオ符号化装置によれば、符号化効率を低下させずに予測符号化における誤差の抑制と演算負荷を軽減させることが可能となる。

（実施例４）
図１０は、他の実施形態によるオーディオ符号化装置のハードウェア構成図である。図１０に示すように、オーディオ符号化装置１は、制御部９０１、主記憶部９０２、補助記憶部９０３、ドライブ装置９０４、ネットワークＩ／Ｆ部９０６、入力部９０７、表示部９０８を含む。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。

制御部９０１は、コンピュータの中で、各装置の制御やデータの演算、加工を行うＣＰＵである。また、制御部９０１は、主記憶部９０２や補助記憶部９０３に記憶されたプログラムを実行する演算装置であり、入力部９０７や記憶装置からデータを受け取り、演算、加工した上で、表示部９０８や記憶装置などに出力する。

主記憶部９０２は、ＲＯＭ(Read Only Memory)やＲＡＭ(Random Access Memory)などであり、制御部９０１が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。

補助記憶部９０３は、ＨＤＤ(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

ドライブ装置９０４は、記録媒体９０５、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部９０３にインストールする。

また、記録媒体９０５に、所定のプログラムを格納し、この記録媒体９０５に格納されたプログラムはドライブ装置９０４を介してオーディオ符号化装置１にインストールされる。インストールされた所定のプログラムは、オーディオ符号化装置１により実行可能となる。

ネットワークＩ／Ｆ部９０６は、有線及び/又は無線回線などのデータ伝送路により構築されたＬＡＮ(Local Area Network)、ＷＡＮ(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器とオーディオ符号化装置１とのインターフェースである。

入力部９０７は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部９０８の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部９０７は、ユーザが制御部９０１に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。

表示部９０８は、ＣＲＴ(Cathode Ray Tube)やＬＣＤ(Liquid Crystal Display)等により構成され、制御部９０１から入力される表示データに応じた表示が行われる。

なお、上述したオーディオ符号化処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述したオーディオ符号化処理を実現することができる。

また、このプログラムを記録媒体９０５に記録し、このプログラムが記録された記録媒体９０５をコンピュータや携帯端末に読み取らせて、前述したオーディオ符号化処理を実現させることも可能である。なお、記録媒体９０５は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

さらに他の実施形態によれば、オーディオ符号化装置のチャネル信号符号化部は、制御ステレオ周波数信号を他の符号化方式に従って符号化してもよい。例えば、チャネル信号符号化部は、周波数信号全体をＡＡＣ符号化方式にしたがって符号化してもよい。この場合、図１に示されたオーディオ符号化装置において、ＳＢＲ符号化部は省略される。

また、符号化の対象となるマルチチャネルオーディオ信号は、５．１chオーディオ信号に限られない。例えば、符号化の対象となるオーディオ信号は、３ch、３．１chまたは７．１chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。

上記の各実施形態におけるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。

また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装させることが可能である。

（実施例５）
図１１は、一つの実施形態によるオーディオ復号装置１００の機能ブロックを示す図である。図１１に示す様に、オーディオ復号装置１００は、分離部１０１、チャネル信号復号部１０２、空間情報復号部１０６、予測復号部１０７、アップミックス部１０８、周波数時間変換部１０９を含んでいる。また、チャネル信号復号部１０２は、ＡＡＣ復号部１０３、時間周波数変換部１０４、ＳＢＲ復号部１０５を含んでいる。

オーディオ復号装置１００が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ復号装置１００が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ復号装置１００に実装されてもよい。さらに、オーディオ復号装置１００が有するこれらの各部は、オーディオ復号装置１００が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

分離部１０１は、多重化された符号化オーディオ信号を外部から受け取る。分離部１０１は、符号化オーディオ信号に含まれる符号化された状態のＡＡＣ符号、ＳＢＲ符号とＭＰＳ符号を分離する。なお、ＡＡＣ符号、ＳＢＲ符号をチャネル符号化信号と称し、ＭＰＳ符号を符号化空間情報と称しても良い。なお、分離方法は、例えば、ＩＳＯ／ＩＥＣ１４４９６−３に記載の方法を用いることが出来る。分離部１０１は、分離したＭＰＳ符号を空間情報復号部１０６へ、ＡＡＣ符号をＡＡＣ復号部１０３へ、ＳＢＲ復号部１０５へ出力する。

空間情報復号部１０６は、分離部１０１からＭＰＳ符号を受け取る。空間情報復号部１０６は、ＭＰＳ符号から図４に示す類似度に対する量子化テーブルの一例を用いて類似度ICC_i(k)を復号し、アップミックス部１０８に出力する。また、空間情報復号部１０６は、ＭＰＳ符号から図６に示す強度差に対する量子化テーブルの一例を用いて強度差CLD_j(k)を復号し、アップミックス部１０８に出力する。また、空間情報復号部１０６は、ＭＰＳ符号化から図２に示す予測係数に対する量子化テーブルの一例を用いて予測係数を復号し、予測復号部１０７へ出力する。

ＡＡＣ復号部１０３は、分離部１０１からＭＰＳ符号を受け取り、各チャネルの信号の低域成分をＡＡＣ復号方式に従って復号し、時間周波数変換部１０４へ出力する。なお、ＡＡＣ復号方法は、例えば、ＩＳＯ／ＩＥＣ１３８１８−７に記載の方法を用いることが出来る。

時間周波数変換部１０４は、ＡＡＣ復号部１０３で復号された時間信号である各チャネルの信号を、例えば、ＩＳＯ／ＩＥＣ１４４９６−３記載のＱＭＦフィルタバンクを用いて周波数信号へ変換し、ＳＢＲ復号部１０５へ出力する。また、時間周波数変換部１０４は、次式に示す複素型のＱＭＦフィルタバンクを用いて時間周波数変換しても良い。
（数１９）

ここでQMF(k,n)は、時間n、周波数kを変数とする複素型のＱＭＦである。

ＳＢＲ復号部１０５は、各チャネルの信号の高域成分をＳＢＲ復号方式に従って復号する。なお、ＳＢＲ復号方法は、例えばＩＳＯ／ＩＥＣ１４４９６−３に記載の方法を用いることが出来る。

チャネル信号復号部１０２は、ＡＡＣ復号部１０３と、ＳＢＲ復号部１０５で復号された各チャネルのステレオ周波数信号を予測復号部１０７へ出力する。

予測復号部１０７は、空間情報復号部１０６から受け取る予測係数と、チャネル信号復号部１０２から受け取る制御ステレオ周波数信号から予測符号化された何れかの中央チャネル信号C₀(k,n)の予測復号を行う。例えば、予測復号部１０７は、制御左側周波数信号L’₀(k,n)と制御右側周波数信号R’₀(k,n)の制御ステレオ周波数信号と予測係数c₁(k)、c₂(k)から、中央チャネル信号C₀(k,n)を、次式により予測復号することができる。
（数２０）

予測復号部１０７は、制御左側周波数信号L₀(k,n)、制御右側周波数信号R₀(k,n)、中央チャネル信号C₀(k,n)をアップミックス部１０８に出力する。

アップミックス部１０８は、予測復号部１０７から受け取った制御左側周波数信号L’₀(k,n)、制御右側周波数信号R’₀(k,n)、中央チャネル信号C₀(k,n)について、次式に従いマトリクス変換を行う。
（数２１）

ここで、L_out(k,n)、R_out(k,n)、C_out(k,n)は、それぞれ、左チャネル、右チャネル及び中央チャネルの周波数信号である。アップミックス部１０８は、マトリクス変換した、左チャネルの周波数信号L_out(k,n)、右チャネルの周波数信号R_out(k,n)及び、中央チャネルの周波数信号C_out(k,n)と、空間情報復号部１０６から受け取る空間情報から、例えば、５．１chのオーディオ信号へアップミックスする。なお、アップミックス方法は例、えば、ＩＳＯ／ＩＥＣ２３００３―１に記載の方法を用いることが出来る。

周波数時間変換部１０９は、アップミックス部１０８から受け取る各信号を、次式に示すＱＭＦフィルタバンクを用いて周波数信号から時間信号に変換する。
（数２２）

この様に、実施例４に開示するオーディオ復号装置においては、誤差を抑制させた予測符号化されたオーディオ信号を、正確に復号することが出来る。

（実施例５）
図１２は、一つの実施形態によるオーディオ符号化復号システム１０００の機能ブロックを示す図（その１）である。図１３は、一つの実施形態によるオーディオ符号化復号システム１０００の機能ブロックを示す図（その２）である。図１２と図１３に示す様に、オーディオ符号化復号システム１０００は、時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１５、予測符号化部１３、チャネル信号符号化部１８、空間情報符号化部２２、多重化部２３を有する。また、予測符号化部１３は、選択部１４を含み、第２ダウンミックス部１５は、算出部１６と制御部１７を含んでいる。更に、チャネル信号符号化部１８は、ＳＢＲ(Spectral Band Replication)符号化部１９と、周波数時間変換部２０と、ＡＡＣ(Advanced Audio Coding)符号化部２１を含んでいる。また、オーディオ符号化復号システム１０００は、分離部１０１、チャネル信号復号部１０２、空間情報復号部１０６、予測復号部１０７、アップミックス部１０８、周波数時間変換部１０９を含んでいる。また、チャネル信号復号部１０２は、ＡＡＣ復号部１０３、時間周波数変換部１０４、ＳＢＲ復号部１０５を含んでいる。なお、オーディオ符号化復号システム１０００が含む各機能は、図１ならびに図１１に示す機能と同様となる為、詳細な説明は省略する。

また、上述の実施例において、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

ここに挙げられた全ての例及び特定の用語は、当業者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化装置において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択する選択部と、
前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御する制御部
を備えることを特徴とするオーディオ符号化装置。
（付記２）
前記第１チャネル信号または前記第２チャネル信号のマスキング閾値を算出する算出部を更に備え、
前記制御部は、前記マスキング閾値より規定される許容制御量に基づいて、前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする付記１記載のオーディオ符号化装置。
（付記３）
前記制御部は、前記誤差が所定の第１閾値以上の場合に、前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする付記１または付記２記載のオーディオ符号化装置。
（付記４）
前記第１閾値は、前記予測符号化前の前記第３チャネル信号のマスキング閾値に基づいて規定されることを特徴とする付記３記載のオーディオ符号化装置。
（付記５）
前記マスキング閾値は、静的マスキング閾値または動的マスキング閾値であることを特徴とする付記２記載のオーディオ符号化装置。
（付記６）
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化方法において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択し、
前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御する
ことを含むことを特徴とするオーディオ符号化方法。
（付記７）
前記第１チャネル信号または前記第２チャネル信号のマスキング閾値を算出することを更に含み、
前記制御することは、前記マスキング閾値より規定される許容制御量に基づいて、前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする付記６記載のオーディオ符号化方法。
（付記８）
前記制御することは、前記誤差が所定の第１閾値以上の場合に、前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする付記６または付記７記載のオーディオ符号化方法。
（付記９）
前記第１閾値は、前記予測符号化前の前記第３チャネル信号のマスキング閾値に基づいて規定されることを特徴とする付記７記載のオーディオ符号化方法。
（付記１０）
前記マスキング閾値は、静的マスキング閾値または動的マスキング閾値であることを特徴とする付記７記載のオーディオ符号化方法。
（付記１１）
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化することをコンピュータに実行させるオーディオ符号化用コンピュータプログラムであって、コンピュータに、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択し、
前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御する
ことを実行させることを特徴とするオーディオ符号化プログラム。
（付記１２）
前記第１チャネル信号または前記第２チャネル信号のマスキング閾値を算出することを更に含み、
前記制御することは、前記マスキング閾値より規定される許容制御量に基づいて、前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする付記１１記載のオーディオ符号化プログラム。
（付記１３）
前記制御することは、前記誤差が所定の第１閾値以上の場合に、前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする付記１１または付記１２記載のオーディオ符号化プログラム。
（付記１４）
前記第１閾値は、前記予測符号化前の前記第３チャネル信号のマスキング閾値に基づいて規定されることを特徴とする付記１３記載のオーディオ符号化プログラム。
（付記１５）
前記マスキング閾値は、静的マスキング閾値または動的マスキング閾値であることを特徴とする付記１２記載のオーディオ符号化プログラム。
（付記１６）
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化装置において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差を選択する選択部と、
前記誤差が前記予測符号化前の前記第３チャネル信号のマスキング閾値未満か否かを判定する判定部と、
前記マスキング閾値以上の場合、前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御する制御部
を備えることを特徴とするオーディオ符号化装置。
（付記１７）
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測復号するオーディオ復号装置において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数が選択された後に、前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号が制御された符号化チャネル信号と、
前記複数のチャネル間の強度差と類似度を含む符号化空間情報と、
が多重化された入力信号を分離する分離部と、
復号処理された前記第１チャネル信号、前記第２チャネル信号ならびに前記第３チャネル信号をアップミックスするアップミックス部
を備えることを特徴とするオーディオ復号装置。
（付記１８）
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化復号システムにおいて、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択する選択部と、
前記誤差が更に小さくなる様に前記第１チャネル信号または前記第２チャネル信号を制御する制御部と、
前記第１チャネル信号または前記第２チャネル信号が制御された符号化チャネル信号と、前記複数のチャネル間の強度差と類似度を含む符号化空間情報とが多重化された入力信号を分離する分離部と、
復号処理された前記第１チャネル信号、前記第２チャネル信号ならびに前記第３チャネル信号をアップミックスするアップミックス部
を備えることを特徴とするオーディオ符号化復号システム。

１オーディオ符号化装置
１１時間周波数変換部
１２第１ダウンミックス部
１３予測符号化部
１４選択部
１５第２ダウンミックス部
１６算出部
１７制御部
１８チャネル信号符号化部
１９ＳＢＲ符号化部
２０周波数時間変換部
２１ＡＡＣ符号化部
２２空間情報符号化部
２３多重化部
１００オーディオ復号装置
１０１分離部
１０２チャネル信号復号部
１０３ＡＡＣ復号部
１０４時間周波数変換部
１０５ＳＢＲ復号部
１０６空間情報復号部
１０７予測復号部
１０８アップミックス部
１０９周波数時間変換部

Claims

オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化装置において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択する選択部と、
前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方のマスキング閾値を算出する算出部と、
前記各マスキング閾値より規定される許容制御量の範囲内で、前記誤差が更に小さくなる様に前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方を制御する制御部
を備えることを特徴とするオーディオ符号化装置。
前記制御部は、前記誤差が所定の第１閾値以上の場合に、前記第１チャネル信号または前記第２チャネル信号を制御することを特徴とする請求項１記載のオーディオ符号化装置。
前記第１閾値は、前記予測符号化前の前記第３チャネル信号のマスキング閾値に基づいて規定されることを特徴とする請求項２記載のオーディオ符号化装置。
前記マスキング閾値は、静的マスキング閾値または動的マスキング閾値であることを特徴とする請求項１記載のオーディオ符号化装置。
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化方法において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択し、
前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方のマスキング閾値を算出し、
前記各マスキング閾値より規定される許容制御量の範囲内で、前記誤差が更に小さくなる様に前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方を制御する
ことを含むことを特徴とするオーディオ符号化方法。
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化することをコンピュータに実行させるオーディオ符号化用コンピュータプログラムであって、コンピュータに、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差が最小となる前記第１チャネル信号と前記第２チャネル信号にそれぞれ対応する前記予測係数を選択し、
前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方のマスキング閾値を算出し、
前記各マスキング閾値より規定される許容制御量の範囲内で、前記誤差が更に小さくなる様に前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方を制御する
ことを実行させることを特徴とするオーディオ符号化プログラム。
オーディオ信号に含まれる複数のチャネルに含まれる第１チャネル信号と第２チャネル信号と、符号帳に含まれる複数の予測係数とに基づいて、前記複数のチャネルに含まれる第３チャネル信号を予測符号化するオーディオ符号化装置において、
予測符号化前の前記第３チャネル信号と予測符号化後の前記第３チャネル信号の差分で規定される誤差を算出する制御部と、
前記第１チャネル信号、前記第２チャネル信号のいずれかまたは双方、及び前記第３チャネル信号のマスキング閾値を算出する算出部と、
前記誤差が前記予測符号化前の前記第３チャネル信号のマスキング閾値未満か否かを判定する判定部
を備え、
前記制御部は、前記誤差が前記予測符号化前の前記第３チャネル信号の前記マスキング閾値以上の場合、前記第１チャネル信号及び前記第２チャネル信号のいずれかまたはそれぞれのマスキング閾値より規定される許容制御量の範囲内で、前記誤差が更に小さくなる様に前記第１チャネル信号及び前記第２チャネル信号のいずれかまたは双方を制御する
ことを特徴とするオーディオ符号化装置。