JP5166292B2

JP5166292B2 - 主成分分析によりマルチチャネルオーディオ信号を符号化するための装置および方法

Info

Publication number: JP5166292B2
Application number: JP2008558859A
Authority: JP
Inventors: マニュエル・ブリヤン; ダヴィド・ヴィレット
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-03-15
Filing date: 2007-03-08
Publication date: 2013-03-21
Anticipated expiration: 2027-03-08
Also published as: US20090083044A1; EP2005420B1; EP2005420A1; JP2009530651A; WO2007104882A1; CN101401152A; ATE531036T1; KR20080104065A; US8370134B2; KR101339854B1; CN101401152B

Description

本発明は、様々なデータ転送速度での、様々な伝送網上のオーディオデジタル伝送のための、主成分分析(Principal Component Analysis)によるマルチチャネルオーディオ信号の符号化の分野に関する。より詳細には、本発明の目的は、ステレオ(2チャネル)もしくは5.1(6チャネル)のタイプ、または他のマルチチャネルオーディオ信号の、低データ転送速度での伝送を可能にすることである。

マルチチャネルオーディオ信号の符号化の枠組みにおいて、2つの手法が特によく知られ、使用されている。

第1のもっとも古い手法は、伝送すべき信号の数を低減させるような方式で、元のマルチチャネル信号の各チャネルをマトリクス化することにある。一例として、Dolby(登録商標) Pro Logic(登録商標) II マルチチャネルオーディオ符号化法は、5.1信号の6つのチャネルをマトリクス化して、伝送すべき2つの信号にする。元の6つのチャネルを可能な限り忠実に再現するために、いくつかのタイプの復号化を適用することができる。

パラメトリックオーディオ符号化と呼ばれる第2の手法は、聴取者の空間認知を再現するために、空間パラメータ(spatialization parameters)を抽出することに基づく。この手法は、主として「バイノーラルキューコーディング」(Binaural Cue Coding; BCC)と呼ばれる方法に基づいており、この方法は、一方では聴覚定位(hearing localization)のインデックスを抽出して符号化することを目的としており、他方では元のマルチチャネル信号のマトリクス化から生じるモノラルまたはステレオの信号を符号化することを目的とする。

さらに、「主成分分析」(Principal Component Analysis; PCA)と呼ばれる方法に基づく、上記2つの手法を混成した1つの手法がある。実際には、PCAは、符号化すべきマルチチャネル信号の各チャネルを動的にマトリクス化することと考えることができる。より正確には、PCAは、少なくともステレオの場合において、主要音源の空間位置にその角度が対応するデータの回転(rotation)によって得られる。この変換は、さらに、多成分信号(multi-component signal)の各成分のエネルギーを圧縮することを可能にする最適な無相関法と考えられる。文書WO 03/085643およびWO 03/085645には、PCAを使用するステレオオーディオ符号化の一例が開示されている。

しかし、従来技術に従って実行されるPCAによれば、各信号の正確な特性化(characterization)を符号化することができず、したがってこの分析から得られる各信号のエネルギーは、その主成分において十分には圧縮されない。
国際公開第WO 03/085643号パンフレット国際公開第WO 03/085645号パンフレット

本発明は、主成分分析(PCA)により、マルチチャネルオーディオ信号を符号化するための方法に関する。この方法は、
オーディオ信号の少なくとも2つのチャネルを、複数の周波数サブバンドに分解するステップと、
複数の周波数サブバンドのうちの少なくともいくつかの関数として、少なくとも1つの変換パラメータを計算するステップと、
複数の周波数サブバンドのうちの少なくともいくつかを、前記少なくとも1つの変換パラメータの関数としての、主要周波数副成分を含む複数の周波数副成分に変換するステップと、
主要周波数副成分のうちの少なくともいくつかを結合して、主成分を形成するステップと、
マルチチャネルオーディオ信号を表し、主成分および前記少なくとも1つの変換パラメータを含む、符号化されたオーディオ信号を定義するステップとを含む。

したがって、本発明による主成分分析は、周波数サブバンドを使用する周波数領域での分析であり、聴覚の臨界帯域の尺度に等しい尺度によって確立することができ、符号化すべき信号に対して、より正確な特性づけが得られるようになる。したがって、周波数サブバンド毎に実行される主成分分析PCAから生じる各信号のエネルギーは、時間領域で実行されるPCAから生じる各信号のエネルギーと比較して、主成分においてさらに圧縮される。

したがって、符号化されたオーディオ信号は、元のマルチチャネルオーディオ信号の良好な圧縮信号であり、元の信号でのチャネルの数に関係なく低データ転送速度の伝送網上で伝送することができる一方、元のオーディオ信号に知覚的に非常に近い高品質のオーディオ信号の復元を可能にする。

本発明の1つの特徴によれば、複数の周波数副成分はまた、残留周波数副成分を含む。

残留周波数副成分は、無相関化された2次的な背景音源を表し、背景音をよりよく復元するために使用してもよい。

本発明の他の特徴によれば、本発明による符号化法は、残留周波数副成分の関数として、周波数サブバンド毎に1組のエネルギーパラメータを形成/抽出するステップを含む。

本発明の他の特徴によれば、1組のエネルギーパラメータは、主要周波数副成分と残留周波数副成分との間の、周波数サブバンド毎のエネルギー差を抽出することによって形成される。

本発明の他の特徴によれば、1組のエネルギーパラメータは、残留周波数副成分の周波数サブバンド毎の各エネルギーに対応する。

残留副成分の周波数サブバンド毎のエネルギー差またはエネルギーを抽出することにより、背景音に対応するエネルギーのバンド毎の伝送が可能になる。

本発明の他の特徴によれば、本発明による符号化法は、1組のエネルギーパラメータを抽出する前に、主要周波数副成分をフィルタリングするステップを含む。

これにより、復号化においても使用されるフィルタリングが信号の振幅を変化させる場合に、振幅におけるいかなる潜在的な変化をも補償することができる。

本発明の他の特徴によれば、符号化されたオーディオ信号はまた、1組のエネルギーパラメータの中からの少なくとも1つのエネルギーパラメータを含む。

したがって、背景音は、主成分から、また符号化されたオーディオ信号内に含まれるエネルギーパラメータから容易に合成することができ、元のオーディオ信号の知覚をさらに改善する。

本発明の他の特徴によれば、本発明による符号化法は、残留周波数副成分のうちの少なくともいくつかを結合して、少なくとも1つの残留成分を形成するステップを含み、符号化されたオーディオ信号は、また、前記少なくとも1つの残留成分を含む。

これはまた、背景音すなわち元の信号を、符号化されたオーディオ信号から可能な限り忠実に復元できるようにする一変形形態である。

本発明の他の特徴によれば、本発明による符号化法は、前記少なくとも2つのチャネル間の相関分析を行って、対応する相関値を決定するステップを含み、符号化されたオーディオ信号はまた、この相関値を含む。

したがって、この相関値は、元の信号中に残響が存在する可能性を示すことができ、符号化された信号の復号化の質を改善することができるようになる。

本発明の他の特徴によれば、複数の周波数サブバンドは、知覚的な尺度に従って定義される。

したがって、この符号化法は、人間の聴覚系の周波数分解能を考慮する。

本発明の他の特徴によれば、符号化されたオーディオ信号を定義するステップは、主成分のオーディオ符号化と、前記少なくとも1つの変換パラメータの定量化、および/または前記少なくとも1つのエネルギーパラメータの定量化、および/または前記少なくとも1つの残留成分の定量化とを含む。

したがって、符号化されたオーディオ信号は、様々な伝送網において様々なデータ転送速度で容易に伝送することができる。

2つのチャネルを越えるチャネルを符号化する場合は、ステレオ符合器または他の符合器を用いて(少なくとも)2つの主成分を符号化することができるようになることに留意されたい。

本発明の他の特徴によれば、オーディオ信号は、一連のフレームによって定義され、前記少なくとも2つのチャネルは各フレームに対して定義される。

これにより、主成分分析の精度が向上し、したがって符号化された信号の質が改善されるようになる。

本発明の他の特徴によれば、マルチチャネルオーディオ信号は、ステレオ信号である。

本発明の他の特徴によれば、マルチチャネルオーディオ信号は、以下のチャネル、すなわち左、中央、右、左サラウンド、右サラウンド、および低周波効果を含む、5.1形式でのオーディオ信号である。

本発明の他の特徴によれば、本発明による符号化方法は、左、中央、および左サラウンドのチャネルを含む第1の3つで1組の信号と、右、中央、および右サラウンドのチャネルを含む第2の3つで1組の信号とを形成するステップを含み、第1および第2の3つで1組の信号は別々に使用されて、第1および第2のオイラー角を含む変換パラメータに応じて、それぞれ第1および第2の主成分を形成する。

本発明の他の主題は、以上に述べた符号化法に従って構成された、符号化されたオーディオ信号を含む受信信号を復号化するための方法である。この復号化法は、以下のステップ、すなわち、
符号化されたオーディオ信号を受け取るステップと、
復号化された主成分および少なくとも1つの復号化された変換パラメータを抽出するステップと、
復号化された主成分を、復号化された主要周波数副成分に分解するステップと、
復号化された主要周波数副成分を、複数の復号化された周波数サブバンドに変換するステップと、
復号化された周波数副成分を結合して、元のマルチチャネルオーディオ信号から生じる前記少なくとも2つのチャネルに対応する、少なくとも2つの復号化されたチャネルを形成するステップとを含む。

本発明の1つの特徴によれば、本発明による復号化法は、符号化されたオーディオ信号内に含まれるエネルギーパラメータの逆定量化を行って、復号化された残留周波数副成分を合成するステップを含む。

本発明の他の特徴によれば、本発明による復号化法は、復号化された残留周波数副成分を無相関化して、無相関化された残留副成分を形成するためのステップを含む。

本発明の他の特徴によれば、本発明による復号化法の無相関化のステップは、符号化されたオーディオ信号に含まれる相関値に従って、無相関化または残響フィルタリングによって実行される。

本発明の他の主題は、マルチチャネルオーディオ信号の主成分分析(PCA)を使用するエンコーダであって、
オーディオ信号の少なくとも2つのチャネルを、複数の周波数サブバンドに分解するための分解手段と、
複数の周波数サブバンドのうちの少なくともいくつかの関数として、少なくとも1つの変換パラメータを計算するための計算手段と、
複数の周波数サブバンドのうちの少なくともいくつかを、前記少なくとも1つの変換パラメータの関数としての、主要周波数副成分を含む複数の周波数副成分に変換するための変換手段と、
主要周波数副成分のうちの少なくともいくつかを結合して、主成分を形成するための結合手段と、
マルチチャネルオーディオ信号を表し、主成分および前記少なくとも1つの変換パラメータを含む、符号化されたオーディオ信号を定義するための定義手段とを含む。

本発明の他の主題は、少なくとも2つのチャネルを含む元のマルチチャネル信号から生じる、符号化されたオーディオ信号を含む受信信号のデコーダである。このデコーダは、
復号化された主成分および少なくとも1つの復号化された変換パラメータを抽出するための抽出手段と、
復号化された主成分を復号化された主要周波数副成分に分解するための復号化分解手段と、
復号化された主要周波数副成分を複数の復号化された周波数サブバンドに変換するための逆変換手段と、
復号化された周波数サブバンドを結合して、元のマルチチャネルオーディオ信号から生じる前記少なくとも2つのチャネルに対応する、少なくとも2つの復号化されたチャネルを形成するための復号化結合手段とを含む。

本発明の他の主題は、前述のような本発明によるエンコーダおよびデコーダを備えるシステムである。

一変形形態として、前述の符号化法および復号化法の様々なステップは、コンピュータのプログラム命令によって決定される。

したがって、本発明の他の主題は、前記プログラムがコンピュータによって実行された場合に前述の符号化法および/または復号化法の各ステップを実行するための命令を含むコンピュータプログラムである。

このプログラムは、どんなプログラミング言語を使用してもよく、ソースコード、オブジェクトコードの形式、または、部分的にコンパイルされた形式もしくは望まれる可能性のある他の任意の形式などでの、ソースコードとオブジェクトコードとの中間のコードの形式でもよい。

本発明の他の主題は、前述の符号化法および/または復号化法の各ステップを実行するための命令を含むコンピュータプログラムが記録される、コンピュータで読取りが可能な記録媒体である。

情報媒体は、プログラムを記憶することのできる、いかなる構成要素または装置でもよい。たとえば、媒体は、ROM、たとえばCD ROMもしくはマイクロ電子回路ROM、または代替的に磁気記録手段、たとえばフロッピー（登録商標）ディスクもしくはハードディスクなどの記憶手段を含むことができる。

さらに、情報媒体は、電気ケーブルまたは光ケーブルを介して、無線または他の手段によって運ぶことができる、電気信号または光信号などの伝送可能な媒体でもよい。本発明によるプログラムは、具体的にはインターネット型のネットワークとの間でアップロードおよびダウンロードを行ってもよい。

あるいは、情報媒体は、プログラムがその中に組み込まれ、本方法を実行するまたは実行する際に使用されるように設計された集積回路でもよい。

したがって、本発明は、従来技術の文書WO 03/085643およびWO 03/085645に記載されている方法よりも信号の特性によく適合された、PCAから生じる信号を符号化するための方法を使用する。実際には、これらの文書に記載されている方法は、PCAから生じる信号の線形予測を使用する。しかし、線形予測は、相関関係のある信号の符号化に適した方法であり、処理信号の差に関係する誤り信号を低エネルギーで生成する。したがって、これらの文書において使用され、PCAから生じる無相関化された信号に適用される線形予測は、うまく適合されない。

こうした理由で、本発明は、周波数サブバンド毎の周波数分析に基づいてPCAから生じる信号を符号化するための新規な方法を提案し、これにより、PCAから生じる各成分間のエネルギー差の抽出、または背景音成分のバンド毎のエネルギーの(定量化後の)伝送を可能にする。

周波数サブバンド毎に実行されるPCAは、周波数サブバンド毎の周波数分析が速やかであることから、帯域制限された成分を引き渡すことに留意されたい。したがって、デコーダは、符号化され伝送される主なエネルギー成分、および定量化され伝送されるエネルギーパラメータを使用して、PCAから生じる低エネルギー成分を生成することができる。

互いに無相関化された成分を得るために、デコーダは、デフォルトでは、無相関フィルタとして知られている全通過フィルタを使用する。文書WO 03/085643およびWO 03/085645では残響フィルタが使用されているが、本発明は、符号化において実行される信号の分析により、元の信号中に残響が存在することが検出されたときにのみ、無相関フィルタと残響フィルタの間で切り替えることを提案する。実際には、インデックスのみが、エンコーダで計算され、使用すべきフィルタのタイプをデコーダに通知するように処理された各フレームに対して伝送される。次いで、使用される各フィルタ間でこうして切り替えることにより、元来的には残響を含まない各信号の残響を回避し、したがって復号化された信号のオーディオ品質を改善することができる。

最後に、本発明は、サブバンド内でのPCAに基づくステレオ信号向けの符号化法の拡張を構成する、5.1タイプの信号の符号化に適合された新規の符号化法を提案する。このために、3次元のPCAが実施され、そのパラメータがオイラー角によって設定される。この拡張は、チャネルの数に関して改善された音のシーンのパラメトリックオーディオ符号化(たとえば、6.1、7.1、アンビソニックスなど)に対して基礎の役割を果たすこともできる。

本発明の他の特徴および利点は、添付の図面を参照しながら、限定しない例として以下に提示される説明を読むことによって明らかになろう。

本発明によれば、図1は、符号化装置3および復号化装置5を備える通信システム1の概略図である。符号化装置3および復号化装置5は、通信ネットワークまたは回線7により、互いに接続されることができる。

符号化装置3はエンコーダ9を備え、このエンコーダ9は、マルチチャネルオーディオ信号C₁,...,C_Mを受信すると、元のマルチチャネルオーディオ信号C₁,...,C_Mを表す符号化されたオーディオ信号SCを生成する。

エンコーダ9は、符号化された信号SCを、通信ネットワーク7を介して復号化装置5に向けて送信するための送信手段11に接続することができる。

復号化装置5は、符号化装置3によって送信された、符号化された信号SCを受信するための受信機13を備える。さらに、復号化装置5はデコーダ15を備え、このデコーダ15は、符号化された信号SCを受信すると、元のマルチチャネルオーディオ信号C₁,...,C_Mに対応する復号化されたオーディオ信号C’₁,...,C’_Mを生成する。

図2はエンコーダ9の概略図であり、このエンコーダ9は、分解手段(decomposition means)21、計算手段23、変換手段25、結合手段27および定義手段29を備える。

図2はまた、本発明による符号化法の主なステップを示す図である。

分解手段21は、マルチチャネルオーディオ信号C₁,...,C_Mのうちの少なくとも2つのチャネルLおよびRを、複数の周波数サブバンドl(b₁),...,l(b_N),r(b₁),...,r(b_N)に分解するように設計されている。

有利には、複数の周波数サブバンドl(b₁),...,l(b_N),r(b₁),...,r(b_N)は、知覚的な尺度に従って定義される。

さらに、2つのチャネルLおよびRの分解は、まず、各時間チャネルLまたはRを周波数チャネルに変換して、このように2つの周波数成分を形成することによって実行することができる。一例として、これら2つの周波数信号の形成は、短時間フーリエ変換(Short-term Fourier Transform; STFT)を2つのチャネルLおよびRに適用することによって実行される。続いて、複数の周波数サブバンドl(b₁),...,l(b_N),r(b₁),...,r(b_N)を得るために、各周波数信号の周波数係数は、サブバンド(b₁,...,b_N)にグループ化されることができる。

計算手段23は、複数の周波数サブバンドのうちの少なくともいくつかの関数としての複数の変換パラメータθ(b₁),...,θ(b_N)の中から、少なくとも1つの変換パラメータθ(b_i)を計算するように設計されている。

一例として、変換パラメータの計算は、複数の周波数サブバンドl(b₁),...,l(b_N),r(b_i),...,r(b_N)の各周波数サブバンドについて共分散行列(covariance matrix)を計算することによって実行することができる。したがって、各周波数サブバンドについて固有値(eigenvalues)を計算することができるようになる。最後に、これらの固有値により、変換パラメータθ(b₁),...,θ(b_N)を計算することができるようになる。

したがって、各周波数サブバンドb_iに対して、周波数サブバンドの主要源の位置に対応する回転角を定義する変換パラメータθ(b_i)が対応することができる。

また、2つの元のチャネルLおよびRの共分散のみに基づいて、変換パラメータを計算することが可能であることに留意されたい。

変換手段25は、PCAにより、複数の周波数サブバンドl(b₁),...,l(b_N),r(b_i),...,r(b_N)のうちの少なくともいくつかを、少なくとも1つの変換パラメータθ(b_i)の関数としての複数の周波数副成分に変換するように設計されている。複数の周波数副成分は、主要周波数副成分(principal frequency sub-components)CP(b₁),...,CP(b_N)を含む。

実際には、変換パラメータθ(b_i)により、周波数サブバンド毎のデータの回転が実行できるようになり、その結果、サブバンドb_iについて計算されたもっとも高い固有値にそのエネルギーが対応する主成分CP(b_i)が得られる。

結合手段27は、主要周波数副成分CP(b₁),...,CP(b_N)のうちの少なくともいくつかを結合して、単一の主成分CPを形成するように設計されている。

これは、主要周波数成分を形成するために、主要周波数副成分CP(b₁),...,CP(b_N)を合計することによって実行することができる。続いて、主要時間成分CPを形成するために、主要周波数成分に逆短時間フーリエ変換(STFT)^-1が適用される。

定義手段29は、マルチチャネルオーディオ信号C₁,...,C_Mを表す符号化されたオーディオ信号SCを定義するように設計されている。この符号化されたオーディオ信号SCは、主成分CPと、複数の変換パラメータθ(b₁),...,θ(b_N)の中からの少なくとも1つの変換パラメータθ(b_i)を含む。

したがって、周波数サブバンド毎のPCAにより、符号化される信号のより正確な特性化が得られるようになる。したがって、周波数サブバンド毎に実行されるPCAから生じる各信号のエネルギーは、時間領域で実行されるPCAから生じる各信号のエネルギーと比較して、主成分においていっそう圧縮される。

マルチチャネルオーディオ信号は、一連のフレームn、n+1などによって定義することができ、その結果、2つのチャネルLおよびRが各フレームnに対して定義されることに留意されたい。

図3は、複数の周波数副成分が残留周波数副成分A(b₁),...,A(b_N)をも含むことを示す、図2の一変形形態である。

実際には、各周波数サブバンドに対して、変換パラメータθ(b_i)により、周波数サブバンド毎のデータの回転がもたらされ、その結果、主成分CP(b_i)および少なくとも1つの残留成分A(b_i)が得られる。また、残留成分A(b_i)のエネルギーは、それに関連する固有値に比例する。主成分CP(b_i)に関連する固有値は、残留成分A(b_i)に関連する固有値よりも高いことに留意されよう。したがって、残留成分A(b_i)のエネルギーは、主成分CP(b_i)のエネルギーよりも低い。

したがって、エンコーダ9は周波数分析手段31を備え、この周波数分析手段31は、残留周波数副成分A(b₁),...,A(b_N)および/または主要周波数副成分CP(b₁),...,CP(b_N)の関数としての1組のエネルギーパラメータE(b₁),...,E(b_N)の中から、少なくとも1つのエネルギーパラメータE(b_i)を形成するように設計される。

第1の実施形態によれば、エネルギーパラメータE(b₁),...,E(b_N)は、主要周波数副成分CP(b₁),...,CP(b_N)と残留周波数副成分A(b₁),...,A(b_N)との間の、周波数サブバンド毎のエネルギー差を抽出することによって形成される。

他の実施形態によれば、エネルギーパラメータE(b₁),...,E(b_N)は、残留周波数副成分A(b₁),...,A(b_N)の、周波数サブバンド毎のエネルギーに直接対応する。

さらに、潜在的な振幅変化を補償するために、エンコーダ9は、エネルギーパラメータE(b_i),...,E(b)を抽出する前に主要周波数副成分をフィルタリングするためのフィルタリング手段32を備えることができる。

したがって、背景音(background sound)をよりよく合成するために、有利には、符号化されたオーディオ信号SCは、1組のエネルギーパラメータE(b₁),...,E(b_N)の中からの少なくとも1つのエネルギーパラメータを含むことができる。

さらに、エンコーダ9は、2つのチャネルLとRの間の時間的な相関分析(a time correlation analysis)を実行して、インデックスまたは対応する相関値cを決定するための相関分析手段33を備えることができる。したがって、符号化されたオーディオ信号SCは、有利には、元の信号中に残響が存在する可能性があることを示すために、この相関値cを含むことができる。

定義手段29は、主成分CPを符号化するためのオーディオ符号化手段29aと、1つまたは複数の変換パラメータ、および1つまたは複数のエネルギーパラメータEを定量化するための定量化手段29b、29c、29dとを備えることができる。

任意的には、2チャネルを上回るチャネルを符号化する場合は、ステレオ符合化手段または他の手段を用いて、結果として生じる少なくとも2つの主成分を符号化することが可能である。

図4はエンコーダ9を示す一変形形態であり、このエンコーダ9は、少なくとも1つの残留成分Aを形成するために残留周波数副成分のうちの少なくともいくつかを結合することを可能にする別の結合手段28で周波数分析手段31を置き換えた点でのみ、図3におけるエンコーダと異なる。したがって、この場合、符号化されたオーディオ信号は、また、定量化手段29eによって定量化されたこの残留成分Aを含む。

図5はデコーダ15の概略図であり、このデコーダ15は、抽出手段41、復号化分解手段43、逆変換手段47、および復号化結合手段49を備える。

図5は、また、本発明による復号化法の主なステップを示す。

したがって、デコーダ15が、符号化されたオーディオ信号SCを受信すると、抽出手段41は、オーディオ復号化手段41aにより、復号化された主成分CP’の抽出を実行すると共に、逆定量化手段(dequantification means)41bにより、少なくとも1つの復号化された変換パラメータθ’(b_i)の抽出を実行する。

復号化分解手段43は、復号化された主成分CP’を、復号化された主要周波数副成分CP’(b₁),...,CP’(b_N)に分解するように設計されている。

逆変換手段47は、復号化された主要周波数副成分CP’(b₁),...,CP’(b_N)を、複数の復号化された周波数サブバンドl’(b₁),...,l’(b_N)およびr’(b₁),...,r’(b_N)に変換するように設計されている。

最後に、復号化結合手段49は、復号化された周波数サブバンドを結合して、元のマルチチャネルオーディオ信号から生じる2つのチャネルLおよびRに対応する、少なくとも2つの復号化されたチャネルL’およびR’を形成するように設計されている。

図6はデコーダ15を示す一変形形態であり、このデコーダ15は、41bに加えて別の逆定量化手段41cおよび41dと、周波数合成手段45と、フィルタリング手段51を備える点でのみ、図5におけるデコーダと異なる。

したがって、逆定量化手段41cは、符号化されたオーディオ信号SCに含まれる少なくとも1つのエネルギーパラメータE(b_i)の逆定量化(an inverse quantification)を実行すると共に、周波数合成手段45は、復号化された残留周波数副成分A’(b₁),...,A’(b_N)の合成を実行する。

さらに、逆定量化手段41dは、符号化されたオーディオ信号に含まれる相関値cの逆定量化を実行し、そして、フィルタリング手段51は、復号化された残留周波数副成分A’(b₁),...,A’(b_N)の無相関化(decorrelation)を実行して、無相関化された残留副成分A_H’(b₁),...,A_H’(b_N)を形成する。

フィルタリング手段51は、相関値cの関数としての無相関化または残響フィルタリングによる無相関化を実行する。

図7から15には、本発明の具体的な実施形態が図式的に示してある。

図7は、PCAにより周波数サブバンド毎にステレオ信号を符号化するエンコーダ9を示す。ステレオ信号は、一連のフレームn、n+1などによって定義され、Lで表される左チャネルおよびRで表される右チャネルの2つのチャネルを含む。

したがって、所与のフレームnについて、分解手段21は、2つのチャネルL(n)およびR(n)を、複数の周波数サブバンドF_L(n,b₁),...,F_L(n,b_N)、F_R(n,b₁),...,F_R(n,b_N)に分解する。

実際には、分解手段21は、短時間フーリエ変換(STFT)手段61aおよび61bと、短時間フーリエ変換の各係数をサブバンドにグループ化することを可能にする周波数ウィンドウモジュール63aおよび63bを備える。

したがって、短時間フーリエ変換は、入力チャネルL(n)およびR(n)のそれぞれに適用される。次いで、周波数領域で表されるこれらのチャネルは、臨界帯域に等しい知覚的尺度に従って定義されるN個のバンドにより、ウィンドウモジュール63aおよび63bによって周波数においてウィンドウ処理される。

次いで、共分散行列は、分析された各信号フレームnおよび各周波数サブバンドb_iについて、計算手段23によって計算することができる。次いで、ステレオ信号の固有値λ₁(n,b_i)およびλ₂(n,b_i)は、各フレームnおよび各サブバンドb_iについて推定され、変換パラメータまたは回転角θ(n,b_i)を計算することができるようになる。

この回転角θ(n, b_i)は、サブバンドb_iについてのフレームnにおける主要源の位置に対応し、次いで、回転または変換手段25が、周波数サブバンド毎にデータの回転を実行して、主要周波数成分CP(n,b_i)および残留(または背景音)周波数成分A(n,b_i)を決定することができるようになる。各成分CP(n,b_i)およびA(n,b_i)のエネルギーは、固有値λ₁およびλ₂に比例する(λ₁>λ₂)。したがって、信号A(b)のエネルギーは、信号CP(b)のエネルギーよりもはるかに低い。

結合手段27は、主要周波数副成分CP(n,b₁),...,CP(n,b_N)を結合して、単一の主成分CP(n)を形成する。

実際には、これらの結合手段27は、逆STFT手段65aおよび加算手段67aを備える。次いで、これら限られた帯域の周波数成分CP(n,b_i)を、加算手段67aを使用して合計することにより、周波数領域でのフルバンドの主成分CP(n)を得ることができるようになる。成分CP(n)の逆STFTは、フルバンドの時間成分を生成する。

この例によるエンコーダ9は他の結合手段28を備え、また、結合手段28は、他の逆STFT手段65bおよび他の加算手段67bを備え、成分A(n,b_i)の合計の逆STFTを実行することができるようになる。

主成分CP(n)は、主要音源の合計、および元の信号に存在するこれらの主要源と空間的に一致する背景音成分の一部分を含むことに留意されたい。残留成分A(n)は、主要源とスペクトル的にオーバーラップする2次的な音源とその他の背景音成分との合計に相当する。

最後に、定義手段29は、ステレオオーディオ信号を表すオーディオストリームまたは符号化されたオーディオ信号SC(n)を定義する。この例によれば、定義手段29は、主成分CP(n)を符号化するモノラルオーディオ符号化手段29aと、残留成分A(n)のオーディオ符号化手段29eと、変換パラメータを定量化する手段(図示せず)を備える。

次いで、ステレオ信号の符号化は、従来のモノラルオーディオ符号器29a(たとえば、MPEG-1 Layer IIIまたはアドバンストオーディオコーディング符号器)を使用して信号CP(n)を符号化すること、各サブバンドについて計算された回転角θ(n,b_i)を定量化すること、および信号A(n)のパラメトリック符号化を実行することにある。

図8は、他の結合手段28が、残留周波数成分A(n,b_i)のパラメトリック符号化を実行する周波数分析手段31で置き換えられた点で、図7と異なる一変形形態を示す。

このパラメトリック符号化は、信号A(n,b_i)と信号CP(n,b_i)の間の周波数サブバンド毎のエネルギー差E(n, b_i)を抽出することにある。

実際には、パラメトリック符号化の目的は、復号化(図9参照)において、モノラルオーディオデコーダ41aによって復号化される信号CP’(n)に基づく残留成分A’(n,b_i)と、エンコーダ9によって定量化され伝送されるエネルギーパラメータE(n,b_i)を合成できることである。

さらに、この例によるエンコーダ9は、フレームnにおける元の信号の相関値c(n)を決定する相関分析手段33を備える。

最後に、主成分すなわち信号CP(n)は、モノラルオーディオ符合器29aにより前述の通り符号化される。さらに、エネルギーパラメータE(n,b_i)、各サブバンドに対する回転角θ(n,b_i)、および相関値c(n)は、それぞれ定量化手段29c、29bおよび29dによって定量化され、そして、逆PCAを実行するためにデコーダ15に伝送される。

図9はデコーダ15の概略図であり、デコーダ15は、オーディオストリームおよび復号化のためのパラメータを含む符号化されたオーディオ信号SC(n)を、周波数サブバンド毎に逆PCAに基づいてステレオ信号に復号化するためのものである。

したがって、符号化されたオーディオ信号SC(n)を受け取る際、デコーダ15は、復号化された主成分CP’(n)を抽出するモノラル復号化手段41aと、変換パラメータまたは回転角θ_Q(n,b_i)、エネルギーパラメータE_Q(n, b_i)および相関値c_Q(n)を抽出する逆定量化手段41b、41c、41dを備える。

復号化分解手段43は、N個のバンドでの周波数ウィンドウ処理を使用して、復号化された主成分CP’(n)を、復号化された主要周波数副成分に分解する。

さらに、残留成分A’(n,b_i)は、逆定量化されたエネルギーパラメータE_Q(n,b)によってスペクトル的に調整された、復号化されたオーディオストリームCP’(n,b_i)から、周波数合成手段45によって合成することができる。

次いで、PCAは線形変換であるから、デコーダ15は、符合器とは逆の演算を実行する。信号CP’(n,b_i)およびA’_H(n,b_i)に、符号化で使用される回転行列の転置行列を乗算することにより、逆変換手段によって逆PCAが実行される。これは、周波数サブバンド毎の回転角の逆定量化によって可能にされる。

信号A’_H(n,b_i)は、無相関化または残響フィルタリング手段49によって無相関化された残留成分A’(n,b_i)に対応することに留意されたい。

実際には、PCAが無相関特性をもつために、無相関フィルタまたは残響フィルタを使用して、信号A’(n,b_i)の、したがって信号CP’(n,b_i)の無相関化された成分A’_H(n,b_i)を合成することが望ましい。

フィルタリング手段49は、そのパルス応答h(n)が元の信号の特性の関数であるフィルタを備える。実際には、フレームnにおける元の信号の相関を時間分析することで、復号化で使用されるフィルタの選択に対応する相関値c(n)が決定される。デフォルトでは、c(n)は、信号A’(n,b_i)およびA’_H(n,b_i)の相互相関(inter-correlation)を大幅に低減させるランダム位相を有する全通過フィルタのパルス応答を強要(impose)する。ステレオ信号の時間分析により残響の存在が明らかになれば、c(n)は、たとえば、信号A’(n,b_i)のコンテンツを反響(reverberate)させるようにしてエネルギーが減衰するガウス性白色雑音の使用を強要する。

最後に、逆STFT手段71aおよび71bと加算手段73aおよび73bを備える結合手段49および51は、復号化された周波数サブバンドを結合して、元のステレオオーディオ信号から生じる2つの成分L(n)およびR(n)に対応する2つの復号化された成分L’(n)およびR’(n)を形成する。

図10および11は、図7ないし図9の変形形態であり、エンコーダ9と、それに対応するデコーダ15とを示す。

実際には、フィルタリングにより、フィルタリングされた信号の振幅が変化する場合、特に残響フィルタの場合がそうであるが、前述の符号化法の一変形形態を考えることができる。

したがって、図10におけるエンコーダ9は、フィルタリングされた信号CP_H(n,b_i)を形成する主成分CP(n,b_i)をフィルタリングするフィルタリング手段79を備える。

さらに、デコーダ15は、図9のフィルタリング手段と同様のフィルタリング手段49を備える。

この場合、信号CP_H(n,b_i)とA(n,b_i)との間のエネルギーパラメータE(n,b_i)を推定する前に、復号化および符号化においてフィルタリングが使用される。したがって、エネルギーパラメータE(n,b_i)は、信号CP_H(n,b_i)とA(n,b_i)との間のサブバンド毎のエネルギー差を特性づける。

このようにして、復号化においては(図11参照)、残留成分A’(n,b_i)は、逆定量化されたエネルギーパラメータE_Q(n,b)によってスペクトル的に調整(conditioned)された、復号化された信号CP’_H(n,b_i)のフィルタリングから合成することができる。

さらに、他の変形形態によれば、伝送されるエネルギーE_Q(n,b)は、残留成分A(n,b_i)のサブバンド毎のエネルギーに対応することができ、したがって、逆PCAに先だって、背景音または残留信号A’(n)を合成するために、復号化された主成分に適用される。

図12は、3つのチャネルにPCAを適用する、マルチチャネル信号用のエンコーダ109を示す。実際には、このエンコーダは、各サブバンドbについて推定されたオイラー角(α,β,γ)_bによってそのパラメータが設定される3つのチャネルを有する信号の3次元PCAを使用する。

エンコーダ109は、3つの短時間フーリエ変換(STFT)手段61a、61bおよび61c、ならびに3つの周波数ウィンドウモジュール63a、63bおよび63cを備える点で、図7におけるエンコーダと異なる。

さらに、エンコーダ109は、3つの加算手段73a、73bおよび73cと共に、3つの逆STFT手段65a、65bおよび65cを備える。

次いで、PCAは、3つ1組の信号L、CおよびRに適用される。次いで、3D(3次元)PCAは、オイラー角(α,β,γ)によってそのパラメータが設定されるデータの3D回転によって実行される。ステレオの場合と同様に、これらの回転角は、各周波数サブバンドについて、元のマルチチャネル信号の共分散および固有値から推定される。

信号CPは、主要音源と、元の信号に存在するこれらの音源と空間的に一致する背景音成分の一部分との合計を含む。

λ₁>λ₂>λ₃であるから、主要音源とスペクトル的にオーバーラップする2次的な音源と、その他の背景音成分との合計は、信号CPよりもはるかにエネルギーの少ない信号A₁およびA₂中の固有値λ₂およびλ₃に対して比例的に分配される。

したがって、ステレオ信号に適用される符号化法は、以下のチャネル、すなわち左Lと、中央Cと、右Rと、左サラウンドLsと、右サラウンドRsと、低周波効果LFEを含む5.1形式のマルチチャネル信号C₁,...,C₆の場合に拡張されてもよい。

実際には、図13は、5.1形式でのマルチチャネル信号のエンコーダ209を示す概略図である。この例によれば、5.1信号のパラメトリックオーディオ符号化は、中央平面に沿って分割される各信号の2つの3D PCAに基づく。

したがって、このエンコーダ209は、図12でのエンコーダ109により3つで1組の信号(L、C、L_s)80aの第1のPCA₁を実行できるようにし、同様に、エンコーダ109により、3つで1組の信号(R、C、R_s)80bの第2のPCA₂を実行できるようにする。

したがって、主成分(CP₁,CP₂)の対は、元のマルチチャネル信号と空間的にコヒーレントなステレオ信号(L、R)とみなしてもよい。

このチャネルの、分離性(discrete natures)を有する低周波のコンテンツは、チャネル間の冗長性を低減させることにそれほど影響を受けないので、信号LFEは、その他の信号から独立して符号化できることに留意されたい。

図13による符号化は、各フレームnおよび各周波数サブバンドb_iに対して定義される定量化手段81b、81cおよび81dによって定量化されるパラメータを伴ってステレオオーディオ符合器81aによって符号化されたステレオ信号を伝送することにより、伝送網のデータ転送速度の制限に適合されることができる。

したがって、ステレオオーディオ符号器81aにより、1対の主成分(CP₁,CP₂)を符号化することができるようになる。定量化手段81bにより、各3つで1組の信号のPCAに有用なオイラー角(α,β,γ)を定量化することができるようになる。

定量化手段81dにより、各3つで1組の信号用に使用されるフィルタの選択を決定する値c₁(n)およびc₂(n)を定量化することができるようになる。

さらに、フィルタリング手段および周波数分析手段83aおよび83bにより、それぞれ信号CP₁とA₁₁、A₁₂との間、また信号CP₂とA₂₁、A₂₂との間の周波数サブバンドE_ij(n,b) (1≦i, j≦2)毎のエネルギーパラメータまたはエネルギー差を決定することができるようになる。

一変形形態として、エネルギーパラメータは、サブバンド毎のA₁₁、A₁₂およびA₂₁、A₂₂のエネルギーに対応する。

最後に、エネルギーパラメータE_ij(n,b)は、定量化手段81cによって定量化することができる。

図14は、図13でのエンコーダ209によって符号化された信号用のデコーダ215を示す。

このデコーダ215は、前述の各図におけるデコーダ15の手段と同様の手段を備える。

さらに、デコーダ215は、ステレオ復号化手段241aならびに逆定量化手段241b、241cおよび241dを備える。

それらは、また、短時間フーリエ変換(STFT)手段244aおよび244bと、周波数ウィンドウモジュール246を備える。

さらに、デコーダ215は、フィルタリング手段249aおよび249bと、周波数合成手段245と、逆変換手段247a(PCA₁ ^-1)および247b(PCA₂ ^-1)を備える。

復号化は、フィルタリング手段249aおよび249bによってフィルタリングされた、復号化された主成分を処理することにあり、これらフィルタリング手段249aおよび249bは、それらのパルス応答が全帯域通過のランダム位相フィルタから残響フィルタに切り替わることを把握することができ、残響フィルタのパルス応答は、相関値C_Q1およびC_Q2に応じて包絡線が減少する白色雑音の形式をとることができる。

続いて、周波数合成手段245は周波数領域での合成を実行し、そのパラメータは、図13での3Dにおいて2つのPCA₁およびPCA₂から生じる各成分間の、符号化において抽出されるエネルギー差(または、サブバンド毎の背景音信号のエネルギー)によって設定される。

一旦、背景音成分が合成されると、信号(L’,C’,L’s)および(R’,C’’,R’s)の対を形成するように、逆定量化されたオイラー角によってそのパラメータが設定される3D回転行列の転置を用いて、逆変換手段247a(PCA₁ ^-1)および247b (PCA₂ ^-1)により逆3D PCAが実行される。

元の信号Cに可能な限り近い中心チャネルを生成するために、信号C’およびC’’を合計して、

C’’’=(C’+C’’)/2

で与えられる信号C’’’を形成することができることに留意されよう。2つの信号C’およびC’’のうちの1つを選択することも可能である。

次いで、信号LFEは、(フィルタリング手段249aによって)独立して復号化されるか、または、復号化中心チャネルC’’’の(フィルタリング手段249aによる)ローパスフィルタリング(遮断周波数が120Hz)により、或いは任意的(option)には信号Cと信号LFEとの間の符号化で抽出されるエネルギーパラメータおよび復号化中心信号C’’’から開始する周波数合成によって得られる。

復号化された主成分(CP’₁およびCP’₂)は、元の5.1信号と空間的にコヒーレントなステレオ信号を形成するので、前述の符号化技法は、5.1サウンドシステムとステレオサウンドシステムの互換性を確かなものにする。

符号化において2つの3D PCAによって抽出される2つの主成分の2次元PCA(2D PCA)を実行することにより、モノラルサウンドシステムとの互換性も可能である。

実際には、図15は、2つの3次元PCA手段380a(PCA₁)および380b(PCA₁)を備えるエンコーダ305の概略図である。

したがって、エンコーダ305は、中央平面に沿った別個の信号により、2つの3次元PCA手段380a(PCA₁)および380b(PCA₁)に基づいて、5.1信号のパラメトリックオーディオ符号化を実行する。

この後、2次元PCA手段により、元の5.1信号の主成分の2次元PCAが続いて行われる。

したがって、エンコーダ305は、モノラル符号化手段329aにより、成分CPのモノラルオーディオ符号化を実行する。

さらに、フィルタリング手段および周波数分析手段383aおよび383bにより、それぞれ信号CP₁とA₁₁、A₁₂との間、また信号CP₂とA₂₁、A₂₂との間のエネルギーパラメータまたはエネルギー差E_ij(n,b_i) (1≦i, j≦2)を、各フレームnおよび各周波数サブバンドb₁について決定することができるようになる。(一変形形態として、エネルギーパラメータは、サブバンド毎の信号A₁₁、A₁₂およびA₂₁、A₂₂のエネルギーに対応する)。

これらのエネルギーパラメータE_ij(n,b)は、定量化手段381cによって定量化することができる。

定量化手段381b1および381b2により、各3つで1組の信号のPCAに有用なオイラー角(α₁,β₁,γ₁)および(α₂,β₂,γ₂)を定量化することができるようになる。

定量化手段81d1、81d2および329dにより、使用すべきフィルタの選択を決定して、主成分とは無相関化された背景音成分を生成する各値c₁(n)、c₂(n)およびc(n)を、それぞれ定量化することができるようになる。

定量化手段329bにより、変換手段325(2D PCA)から生じる主成分の2D PCAに有用な回転角を定量化することができるようになる。

さらに、フィルタリングおよび周波数分析手段331から生じる、各フレームnおよび各周波数サブバンドbに対する、信号CPとA(または、サブバンド毎の信号Aのエネルギー)との間のエネルギー差E(n,b_i)は、定量化手段329cによって定量化することができる。

したがって、関連するデコーダは、ストリームを直接復号化して、モノラル信号CP’にすることができる。逆定量化された適切なパラメータ(E_Q(n,b),c_Q(n)およびθ(n,b))を使用することにより、デコーダは、背景音成分A’を生成し、逆2D PCAを実行することができる。続いて、デコーダは、ステレオ信号CP’₁、CP’₂を引き渡すことができる。同様に、逆定量化された適切なパラメータ(E_ijQ(n,b)(1≦i, j≦2)、C_1Q(n)、C_2Q(n)、(α₁,β₁,γ₁)_(n,b)および(α₂,β₂,γ₂)_(n,b)を使用することにより、デコーダは、2つの逆3D PCAを実行し、このように5.1信号を復元するのに必要とされる背景音成分を合成することができる。

5.1タイプのオーディオ信号を符号化するために提案されたこの方法は、中央平面(聴取者の左右を分離する垂直面)に沿った信号の分離に基づいており、それにより、3つで1組の2つの信号(L,C,Ls)および(R,C,Rs)の3D PCAが可能になる。信号の前/後の分離を考えてもよいことに留意されたい。この場合、3つで1組の信号(L、C、R:前部のシーン)の3D PCA、および1対の信号(Ls、Rs:後部のシーン)の2D PCAを利用することができる。次いで、これらのPCAから生じる信号を符号化するための技法は、前述の原理と同じ原理に従う。それにもかかわらず、この場合、ステレオサウンドシステムとの互換性は失われることがある。

2D PCAおよび/または3D PCAモジュールの組合せに基づく多くの構成を考えてもよい。図15の例は、これら数多くの実現可能な構成のほんの一例を表している。

実際には、5.1タイプのオーディオ信号の符号化は、たとえば、各対(L,Ls)、(C,LFE)、(R,Rs)の3つの2D PCAと、その後に続く、結果として生じる3つの主成分(CP₁,CP₂,CP₃)の3D PCAを用いて実行されてもよい。

図16は、図1〜15によるエンコーダまたはデコーダを実装するコンピュータシステムを、非常に概略的に示す。従来から、このコンピュータ化されたシステムは、信号432を介して、メモリ434、入力ユニット436および出力ユニット438を制御する中央処理装置430を備えている。すべての要素は、データバス440を介して互いに接続されている。

さらに、このコンピュータ化されたシステムは、本発明による符号化法または復号化法を実施するためのプログラムコード命令を含むコンピュータプログラムを実行するために使用することができる。

実際には、本発明の他の目的は、通信ネットワークからダウンロード可能で、コンピュータ上で実行されると、本発明による符号化法または復号化法の各ステップを実行するためのプログラムコード命令を含むコンピュータプログラムプロダクトを提供することである。このコンピュータプログラムは、コンピュータで読取りが可能な媒体に記憶することができ、マイクロプロセッサによって実行可能である。

このプログラムは、どんなプログラミング言語を使用してもよく、ソースコード、オブジェクトコード、または、部分的にコンパイルされた形式もしくは望まれる可能性のある他の任意の形式などのようなソースコードとオブジェクトコードとの中間のコードの形式でもよい。

本発明の他の目的は、コンピュータで読取りが可能で、前述のようなコンピュータプログラム用の命令を含む情報媒体を提供することである。

この情報媒体は、プログラムを記憶することのできるいかなる構成要素または装置でもよい。たとえば、媒体は、ROM、たとえばCD ROMもしくはマイクロ電子回路ROM、または代替的に磁気記録手段、たとえばフロッピー（登録商標）ディスクもしくはハードディスクなどの記憶手段を含むことができる。

したがって、本発明に従って周波数サブバンド毎に実行されるPCAにより、時間領域で実行されるPCAと比較して、元の成分のエネルギーをさらに圧縮することができるようになる。背景音成分Aのエネルギー(それぞれ、CP)は、周波数サブバンド毎に実行されるPCAを用いて、より低くなる(それぞれは、より高い)。

さらに、この方法は、様々なタイプのマルチチャネルオーディオ信号(2Dおよび3Dのオーディオ形式)の符号化にまで拡張することができる。

さらに、本発明による符号化法は、復号化されるチャネルの数において拡張性がある。たとえば、5.1形式で信号を符号化することにより、それを復号化しステレオ信号にして、様々な再生システムとの互換性を確実にすることも可能になる。

提案された方法により、符号化速度をネットワークまたは望まれる品質に従って適合させることができるので、本発明の適用分野は、様々なデータ転送速度での、様々な伝送網上のオーディオデジタル伝送である。

さらに、この方法は、より多くの信号を伴うマルチチャネルオーディオ符号化に一般化してもよい。実際には、提案された方法は、本質的に、数多くの2Dおよび3Dオーディオ形式(6.1、7.1形式、アンビソニックス(ambisonic)、波面合成(wave-field synthesis)など)に対して一般化可能であり、適用可能である。

適用の具体的な一例は、ユーザ(聴取者)が要求/購入した後の、インターネット上のマルチチャネルオーディオ信号の圧縮、伝送、そして再生である。このサービスは、さらに一般には「オーディオ・オン・デマンド」と呼ばれている。次いで、提案された方法により、聴取者をサーバに接続するインターネット網によってサポートされるデータ転送速度で、(ステレオまたは5.1タイプの)マルチチャネル信号を符号化することができるようになる。したがって、聴取者は、自分のマルチチャネル・サウンドシステムで、求められる形式で復号化された音のシーンを聞くことができる。伝送すべき信号は5.1タイプであるが、ユーザがマルチチャネル再生システムを所有していない場合、伝送は、最初のマルチチャネル信号の主成分に限定されてもよく、続いて、デコーダは、たとえばステレオ信号など、より少ないチャネルで信号を送達する。

本発明による符号化装置および復号化装置を備える通信システムの概略図である。本発明によるエンコーダの概略図である。図2の変形形態の図である。図2の変形形態の図である。本発明によるデコーダの概略図である。図5の一変形形態の図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。本発明の具体的な実施形態によるエンコーダおよびデコーダの概略図である。図1〜15によるエンコーダおよびデコーダを実施するコンピュータシステムの概略図である。

符号の説明

1 通信システム
3 符号化装置
5 復号化装置
7 通信ネットワーク
9 エンコーダ
11 送信手段
13 受信機
15 デコーダ
21 分解手段
23 計算手段
25 変換手段
27 結合手段
28 結合手段
29 定義手段
29a オーディオ符号化手段
29b 定量化手段
29c 定量化手段
29d 定量化手段
29e 定量化手段
31 周波数分析手段
32 フィルタリング手段
33 相関分析手段
41 抽出手段
41a オーディオ復号化手段
41b 逆定量化手段
41c 逆定量化手段
41d 逆定量化手段
43 復号化分解手段
45 周波数合成手段
47 逆変換手段
49 復号化結合手段
51 フィルタリング手段
61a 短時間フーリエ変換手段
61b 短時間フーリエ変換手段
61c 短時間フーリエ変換手段
63a 周波数ウィンドウモジュール
63b 周波数ウィンドウモジュール
63c 周波数ウィンドウモジュール
65a 逆STFT手段
65b 逆STFT手段
65c 逆STFT手段
67a 加算手段
67b 加算手段
71a 逆STFT手段
71b 逆STFT手段
73a 加算手段
73b 加算手段
73c 加算手段
79 フィルタリング手段
80a 3つ1組の信号
80b 3つ1組の信号
81a ステレオオーディオ符合器
81b 定量化手段
81c 定量化手段
81d 定量化手段
83a 周波数分析手段
83b 周波数分析手段
109 エンコーダ
209 エンコーダ
241a ステレオ復号化手段
241b 逆定量化手段
241c 逆定量化手段
241d 逆定量化手段
215 デコーダ
244a 短時間フーリエ変換手段
244b 短時間フーリエ変換手段
245 周波数合成手段
246 周波数ウィンドウモジュール
247a 逆変換手段
247b 逆変換手段
249a フィルタリング手段
249b フィルタリング手段
305 エンコーダ
329a モノラル符号化手段
329b 定量化手段
329c 定量化手段
329d 定量化手段
331 周波数分析手段
380a 3次元PCA手段
380b 3次元PCA手段
381 定量化手段
383a 周波数分析手段
383b 周波数分析手段
430 中央処理装置
432 信号
434 メモリ
436 入力ユニット
438 出力ユニット
440 データバス

Claims

マルチチャネルオーディオ信号(C₁,...,C_M)を主成分分析(PCA)によって符号化するための方法であって、
前記オーディオ信号の少なくとも2つのチャネル(L,R)を、複数の周波数サブバンド(l(b₁),...,l(b_N),r(b₁),...,r(b_N))に分解するステップと、
前記複数の周波数サブバンドのうちの少なくともいくつかのサブバンド毎の少なくとも１つの回転角(θ(b ₁ ),...,θ(b _N ))を含む少なくとも１つの変換パラメータを計算するステップであって、前記少なくとも１つの回転角は、前記オーディオ信号の前記少なくとも２つのチャネルの共分散から推定される、ステップと、
前記複数の周波数サブバンドのうちの少なくともいくつかを、推定された少なくとも１つの回転角(θ(b₁),...,θ(b_N))を使用して少なくとも１つの回転によって、主要周波数副成分(CP(b₁),...,CP(b_N))を含む複数の周波数副成分に変換するステップと、
前記主要周波数副成分(CP(b₁),...,CP(b_N))のうちの少なくともいくつかを結合して、主成分(CP)を形成するステップと、
前記マルチチャネルオーディオ信号(C₁,...,C_M)を表し、前記主成分(CP)および前記少なくとも1つの変換パラメータ(θ(b₁),...,θ(b_N))を含む、符号化されたオーディオ信号(SC)を定義するステップとを含むことを特徴とする方法。
前記複数の周波数副成分は、また、残留周波数副成分(A(b₁),...,A(b_N))を含むことを特徴とする、請求項1に記載の方法。
前記残留周波数副成分(A(b₁),...,A(b_N))の関数としての1組のエネルギーパラメータ(E(b_i),...,E(b_N))を形成するステップを含むことを特徴とする、請求項2に記載の方法。
前記1組のエネルギーパラメータ(E(b₁),...,E(b_N))は、前記主要周波数副成分(CP(b₁),...,CP(b_N))と前記残留周波数副成分(A(b₁),...,A(b_N))との間の、周波数サブバンド毎のエネルギー差を抽出することによって形成されることを特徴とする、請求項3に記載の方法。
前記1組のエネルギーパラメータ(E(b₁),...,E(b_N))は、前記残留周波数副成分(A(b₁),...,A(b_N))のエネルギーに対応することを特徴とする、請求項3に記載の方法。
前記1組のエネルギーパラメータ(E(b₁),...,E(b_N))を抽出する前に、前記主要周波数副成分をフィルタリングするステップを含むことを特徴とする、請求項3から5のいずれか一項に記載の方法。
前記符号化されたオーディオ信号(SC)は、また、前記1組のエネルギーパラメータ(E(b₁),...,E(b_N))の中からの少なくとも1つのエネルギーパラメータを含むことを特徴とする、請求項3から6のいずれか一項に記載の方法。
前記残留周波数副成分のうちの少なくともいくつかを結合して、少なくとも1つの残留成分(A)を形成するステップを含むこと、および前記符号化されたオーディオ信号はまた、前記少なくとも1つの残留成分(A)を含むことを特徴とする、請求項2から7のいずれか一項に記載の方法。
前記少なくとも2つのチャネル(L,R)間の相関を分析して、対応する相関値(c)を決定するステップを含むこと、および前記符号化されたオーディオ信号はまた、前記相関値(c)を含むことを特徴とする、請求項1から8のいずれか一項に記載の方法。
前記複数の周波数サブバンド(l(b₁),...,l(b_N),r(b₁),...,r(b_N))は、知覚的な尺度に従って定義されることを特徴とする、請求項1から9のいずれか一項に記載の方法。
前記符号化されたオーディオ信号の定義は、前記主成分(CP)のオーディオ符号化と、前記少なくとも1つの変換パラメータの量子化、および/または前記少なくとも1つのエネルギーパラメータの量子化、および/または前記少なくとも1つの残留成分(A)の量子化とを含むことを特徴とする、請求項7に記載の方法。
前記オーディオ信号は、一連のフレームによって定義され、その結果、前記少なくとも2つのチャネル(L,R)が各フレームnに対して定義されることを特徴とする、請求項1から11のいずれか一項に記載の方法。
前記マルチチャネルオーディオ信号(C₁,...,C_M)はステレオ信号であることを特徴とする、請求項1から12のいずれか一項に記載の方法。
前記マルチチャネルオーディオ信号(C₁,...,C_M)は、以下のチャネル、すなわち左(L)、中央(C)、右(R)、左サラウンド(Ls)、右サラウンド(Rs)、および低周波効果(LFE)を含む5.1形式のオーディオ信号であることを特徴とする、請求項1から12のいずれか一項に記載の方法。
前記左、中央、および左サラウンド(L,C,Ls)のチャネルを含む第1の3つで1組の信号、ならびに前記右、中央、および右サラウンド(R,C,Rs)のチャネルを含む第2の3つで1組の信号を形成するステップを含むこと、ならびに前記第1および第2の3つで1組の信号は別々に使用されて、第1および第2のオイラー角を含む変換パラメータに応じて、それぞれ第1および第2の主成分(CP1,CP2)を形成することを特徴とする、請求項14に記載の方法。
請求項1から15のいずれか一項に記載の、符号化されたオーディオ信号を含む受信信号を復号化する方法であって、
前記符号化されたオーディオ信号(SC)を受け取るステップと、
復号化された主成分(CP’)および少なくとも1つの復号化された変換パラメータを抽出するステップと、
前記復号化された主成分(CP’)を、復号化された主要周波数副成分に分解するステップと、
前記復号化された主要周波数副成分を、複数の復号化された周波数サブバンドに変換するステップと、
前記復号化された周波数サブバンドを結合して、前記元のマルチチャネルオーディオ信号から生じる前記少なくとも2つのチャネル(L,R)に対応する、少なくとも2つの復号化されたチャネル(L’,R’)を形成するステップとを含むことを特徴とする方法。
前記符号化されたオーディオ信号内に含まれるエネルギーパラメータ(E(b₁),...,E(b_N))を逆量子化して、復号化された残留周波数副成分(A’(b₁),...,A’(b_N))を合成するステップを含むことを特徴とする、請求項16に記載の復号化法。
前記復号化された残留周波数副成分(A’(b₁),...,A’(b_N))を無相関化して、復号化された残留副成分(A_H’(b₁),...,A_H’(b_N))を形成するためのステップを含むことを特徴とする、請求項17に記載の復号化法。
前記無相関化ステップは、前記符号化されたオーディオ信号に含まれる相関値(c)に従って、無相関化または残響フィルタリングによって実行されることを特徴とする、請求項18に記載の復号化法。
主成分分析(PCA)を使用する、マルチチャネルオーディオ信号(C₁,...,C_M)のエンコーダ(9)であって、
前記オーディオ信号の少なくとも2つのチャネル(L,R)を、複数の周波数サブバンド(l(b₁),...,l(b_N),r(b₁),...,r(b_N))に分解するための分解手段(21)と、
前記複数の周波数サブバンドのうちの少なくともいくつかのサブバンド毎の少なくとも１つの回転角(θ(b ₁ ),...,θ(b _N ))を含む少なくとも1つの変換パラメータを計算するための計算手段であって、前記少なくとも１つの回転角は、前記オーディオ信号の前記少なくとも２つのチャネルの共分散から推定される、計算手段(23)と、
前記複数の周波数サブバンドのうちの少なくともいくつかを、推定された少なくとも１つの回転角(θ(b₁),...,θ(b_N))を使用して少なくとも１つの回転によって、主要周波数副成分(CP(b₁),...,CP(b_N))を含む複数の周波数副成分に変換するための変換手段(25)と、
前記主要周波数副成分(CP(b₁),...,CP(b_N))のうちの少なくともいくつかを結合して、主成分(CP)を形成するための結合手段(27)と、
前記マルチチャネルオーディオ信号(C₁,...,C_M)を表し、前記主成分(CP)および前記少なくとも1つの変換パラメータ(θ(b₁),...,θ(b_N))を含む、符号化されたオーディオ信号(SC)を定義するための定義手段(29)とを備えることを特徴とするエンコーダ(9)。
少なくとも2つのチャネル(L,R)を含む元のマルチチャネル信号から生じる、符号化されたオーディオ信号(SC)を含む受信信号のデコーダ(15)であって、
復号化された主成分(CP’)および少なくとも1つの復号化された変換パラメータを抽出するための抽出手段(41)と、
前記復号化された主成分(CP’)を、復号化された主要周波数副成分に分解するための復号化分解手段(43)と、
前記復号化された主要周波数副成分(CP’(b₁),...,CP’(b_N))を、複数の復号化された周波数サブバンド(l’(b₁),...,l’(b_N))に変換するための逆変換手段(47)と、
前記復号化された周波数サブバンドを結合して、前記元のマルチチャネルオーディオ信号から生じる前記少なくとも2つのチャネル(L,R)に対応する、少なくとも2つの復号化されたチャネル(L’,R’)を形成するための復号化結合手段(49)とを備えることを特徴とするデコーダ(15)。
請求項20に記載のエンコーダと、請求項21に記載のデコーダとを備えるシステム。
通信ネットワークからダウンロード可能な、および/またはコンピュータで読取りが可能な媒体に記憶された、および/またはマイクロプロセッサが実行可能なコンピュータプログラムであって、コンピュータプログラムがコンピュータ上で実行された場合に請求項1から15のうちの少なくとも一項に記載の前記符号化法の各ステップを実行するためのプログラムコード命令を含むことを特徴とするコンピュータプログラム。
通信ネットワークからダウンロード可能な、および/またはコンピュータで読取りが可能な媒体に記憶された、および/またはマイクロプロセッサが実行可能なコンピュータプログラムであって、コンピュータプログラムがコンピュータ上で実行された場合に請求項16から19のうちの少なくとも一項に記載の前記復号化法の各ステップを実行するためのプログラムコード命令を含むことを特徴とするコンピュータプログラム。