JP2010505328A

JP2010505328A - オブジェクトベースオーディオ信号をエンコーディング及びデコーディングする方法及び装置

Info

Publication number: JP2010505328A
Application number: JP2009530280A
Authority: JP
Inventors: ヨンユーン，スン; スクパン，ヒー; クークリー，ヒュン; スーキム，ドン; ヒュンリム，ジェ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-09-29
Filing date: 2007-10-01
Publication date: 2010-02-18
Anticipated expiration: 2027-10-01
Also published as: RU2010141970A; BRPI0711102A2; MX2008012315A; US20090164222A1; US8625808B2; CA2645910A1; US20140303985A1; BRPI0711104A2; KR100987457B1; WO2008039043A1; AU2007300810A1; US8762157B2; MX2008012251A; AU2007300812A1; KR20090013178A; AU2007300814B2; EP2071563A1; KR101065704B1; CA2645908C; US7979282B2

Abstract

【課題】各オブジェクトオーディオ信号に対して所定の位置に音像が位置できるようにオーディオ信号がエンコーディングされたりデコーディングされることができるオーディオエンコーディング方法及び装置並びにオーディオデコーディング方法及び装置を提供する。
【解決手段】入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出する段階と、入力制御データに基づいてレンダリング情報を生成する段階と、オブジェクトベース付加情報及びレンダリング情報に基づいて空間情報を生成する段階と、を含むオーディオデコーディング方法とした。
【選択図】図３

Description

オーディオ信号デコーディング方法は、オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出する段階と、前記オブジェクトベース付加情報から抽出された前記ダウンミックス信号及び抽出された情報に基づいて修正されたダウンミックス信号を生成する段階と、前記ダウンミックス信号をレンダリングするための制御データ及び前記オブジェクトベース付加情報に基づいてチャネルベース付加情報を生成する段階と、前記修正されたダウンミックス信号及び前記チャネルベース付加情報に基づいてマルチチャネルオーディオ信号を生成する段階と、を含む。

一般に、マルチチャネルオーディオエンコーディング（ｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｅｎｃｏｄｉｎｇ）及びデコーディング（ｄｅｃｏｄｉｎｇ）技術において、マルチチャネル信号の多チャネル信号は、より少ない数のチャネル信号にダウンミックス（ｄｏｗｎｍｉｘ）され、元のチャネル信号（ｏｒｉｇｉｎａｌｃｈａｎｎｅｌｓｉｇｎａｌ）に関する付加情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）が転送され、元のマルチチャネル信号と同じ程度の多チャネルを持つマルチチャネル信号に復元される。

オブジェクトベースオーディオエンコーディング及びデコーディング技術は、数個の音源（ｓｏｕｎｄｓｏｕｒｃｅ）をより少ない数の音源信号にダウンミックスし、元の音源に関する付加情報を転送する点で、マルチチャネルオーディオエンコーディング及びデコーディング技術と基本的に同様である。しかし、オブジェクトベースオーディオエンコーディング及びデコーディング技術において、チャネル信号の基本的な成分（例えば、楽器または人の声）であるオブジェクト信号は、マルチチャネルオーディオエンコーディング及びデコーディング技術のチャネル信号と同一に取り扱われてコーディングされることができる。

すなわち、オブジェクトベースオーディオエンコーディング及びデコーディング技術では、各オブジェクト信号はコーディングされる個体と見なされる。これと関連して、マルチチャネルオーディオコーディング動作が、コーディングされるチャネル信号の成分の数によらずチャネル間情報（ｉｎｔｅｒ−ｃｈａｎｎｅｌｉｎｆｏｒｍａｔｉｏｎ）に基づいて簡単に実行されるという点で、オブジェクトベースオーディオエンコーディング及びデコーディング技術はマルチチャネルオーディオエンコーディング及びデコーディング技術と異なる。

本発明の目的は、各オブジェクトオーディオ信号に対して所定の位置に音像が位置することができるようにオーディオ信号がエンコーディングされたりデコーディングされるオーディオエンコーディング方法及び装置並びにオーディオデコーディング方法及び装置を提供することにある。

本発明の一態様によれば、入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出する段階と、入力制御データに基づいてレンダリング情報を生成する段階と、前記オブジェクトベース付加情報及び前記レンダリング情報に基づいて空間情報を生成する段階と、を含むオーディオデコーディング方法が提供される。

本発明の他の態様によれば、入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出するデマルチプレクサ（ｄｅｍｕｌｔｉｐｌｅｘｅｒ）と、入力制御データに基づいてレンダリング情報を生成するレンダリング部（ｒｅｎｄｅｒｅｒ）と、前記オブジェクトベース付加情報及び前記レンダリング情報に基づいて空間情報を生成するトランスコーディング部（ｔｒａｎｓｃｏｄｅｒ）と、を含むオーディオデコーディング装置が提供される。

本発明の一態様によれば、入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出する段階と、入力制御データに基づいてレンダリング情報を生成する段階と、前記オブジェクトベース付加情報及び前記レンダリング情報に基づいて空間情報を生成する段階と、を含むオーディオデコーディング方法を実行するためのコンピュータプログラムを記録した、コンピュータ読取り可能記録媒体が提供される。

各オブジェクトオーディオ信号に対して所定の位置に音像が位置できるようにオーディオ信号がエンコーディングされたりデコーディングされることができるオーディオエンコーディング方法及び装置並びにオーディオデコーディング方法及び装置を提供することが可能になる。

一般的なオブジェクトベースオーディオエンコーディング／デコーディングシステムを示すブロック図である。本発明の第１実施例によるオーディオデコーディング装置を示すブロック図である。本発明の第２実施例によるオーディオデコーディング装置を示すブロック図である。互いに独立した振幅差及び時間差の音像の定位（ｌｏｃａｌｉｚａｔｉｏｎ）への影響を説明するための図である。あらかじめ定められた位置に音像を位置させるのに要求される振幅差及び時間差間の対応（ｃｏｒｒｅｓｐｏｎｄａｎｃｅ）に関する関数を示す図である。調和情報を含む制御情報のフォーマットを示す図である。本発明の第３実施例によるオーディオデコーディング装置を示すブロック図である。図７に示すオーディオデコーディング装置に用いられうるアーティスティックダウンミックスゲイン（ＡＤＧ：ａｒｔｉｓｔｉｃｄｏｗｎｍｉｘｇａｉｎ）を示すブロック図である。本発明の第４実施例によるオーディオデコーディング装置を示すブロック図である。本発明の第５実施例によるオーディオデコーディング装置を示すブロック図である。本発明の第６実施例によるオーディオデコーディング装置を示すブロック図である。本発明の第７実施例によるオーディオデコーディング装置を示すブロック図である。本発明の第８実施例によるオーディオデコーディング装置を示すブロック図である。図１３に示すオーディオデコーディング装置によるフレームへの３次元（３Ｄ）情報の適用を説明するための図である。本発明の第９実施例によるオーディオデコーディング装置を示すブロック図である。本発明の第１０実施例によるオーディオデコーディング装置を示すブロック図である。本発明の一実施例によるオーディオデコーディング方法を説明する図である。本発明の一実施例によるオーディオデコーディング方法を説明する図である。本発明の一実施例によるオーディオデコーディング方法を説明する図である。本発明の一実施例によるオーディオエンコーディング装置を示すブロック図である。

以下、添付の図面を参照しつつ本発明の例示的な実施例を用いて本発明を詳細に開示する。

本発明によるオーディオエンコーディング方法及び装置並びにオーディオデコーディング方法及び装置は、オブジェクトベースオーディオ処理動作に適用することができるが、本発明がこれに限定されるわけではない。言い換えると、本発明によるオーディオエンコーディング方法及び装置及びオーディオデコーディング方法及び装置は、オブジェクトベースオーディオ処理動作の他、数多くの信号処理動作に適用することもできる。

図１は、一般のオブジェクトベースオーディオエンコーディング／デコーディングシステムを示すブロック図である。一般に、オブジェクトベースオーディオエンコーディング装置に入力されたオーディオ信号は、マルチチャネル信号のチャネルと一致しないが、独立したオブジェクト信号である。この点で、オブジェクトベースオーディオエンコーディング装置は、マルチチャネル信号のチャネル信号が入力されるマルチチャネルオーディオエンコーディング装置と区別される。

例えば、５．１チャネル信号のフロントレフト（ｆｒｏｎｔｌｅｆｔ）チャネル信号及びフロントライト（ｆｒｏｎｔｒｉｇｈｔ）チャネル信号のようなチャネル信号はマルチチャネルオーディオ信号に入力されることができるのに対し、チャネル信号よりも小さい個体（ｅｎｔｉｔｙ）である人の声または楽器の音（バイオリンまたはピアノの音）のようなオブジェクトオーディオ信号は、オブジェクトベースオーディオエンコーディング装置に入力されることができる。

図１を参照すると、オブジェクトベースオーディオエンコーディング／デコーディングシステムは、オブジェクトベースオーディオエンコーディング装置及びオブジェクトベースオーディオデコーディング装置を含む。オブジェクトベースオーディオエンコーディング装置は、オブジェクトエンコーディング部１００を含み、オブジェクトベースオーディオデコーディング装置は、オブジェクトデコーディング部１１１及びレンダリング部（ｒｅｎｄｅｒｅｒ）１１３を含む。

オブジェクトエンコーディング部１００は、Ｎ個のオブジェクトオーディオ信号を受信し、エネルギー差、位相差及び相関値（ｃｏｒｒｅｌａｔｉｏｎｖａｌｕｅ）のようなＮ個のオブジェクトオーディオ信号から抽出された多数の情報を含む付加情報及び一つ以上のチャネルを持つオブジェクトベースダウンミックス信号を生成する。付加情報及びオブジェクトベースダウンミックス信号は一つのビットストリームに統合され、このビットストリームはオブジェクトベースデコーディング装置に転送される。

付加情報は、チャネルベースオーディオコーディングを実行するか或いはオブジェクトベースオーディオコーディングを実行するかを表すフラッグを含むことができ、この付加情報のフラッグに基づいてオブジェクトベースオーディオコーディングを実行するかチャネルベースオーディオコーディングを実行するかが決定されることができる。この付加情報は、オブジェクト信号に関するエンベロープ情報（ｅｎｖｅｌｏｐｅｉｎｆｏｒｍａｔｉｏｎ）、グルーピング情報（ｇｒｏｕｐｉｎｇｉｎｆｏｒｍａｔｉｏｎ）、無音期間情報（ｓｉｌｅｎｔｐｅｒｉｏｄｉｎｆｏｒｍａｔｉｏｎ）及び遅延情報（ｄｅｌａｙｉｎｆｏｒｍａｔｉｏｎ）も含むことができる。付加情報は、オブジェクトレベル差情報（ｏｂｊｅｃｔｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅｓｉｎｆｏｒｍａｔｉｏｎ）、オブジェクト間相互相関情報（ｉｎｔｅｒ−ｏｂｊｅｃｔｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）、ダウンミックス利得情報、ダウンミックスチャネルレベル差情報及び絶対的オブジェクトエネルギー情報を含むことができる。

オブジェクトデコーディング部１１１は、オブジェクトベースオーディオエンコーディング装置から付加情報及びオブジェクトベースダウンミックス信号を受信し、オブジェクトベースダウンミックス信号及び付加情報に基づいてＮ個のオブジェクトオーディオ信号の特性と同一の特性を持つオブジェクト信号を復元する。オブジェクトデコーディング部１１１により生成されたオブジェクト信号は、マルチチャネル空間内の所定の位置にまだ割り当てられていない。したがって、レンダリング部１１３は、オブジェクトデコーディング部１１１により生成されたオブジェクト信号のそれぞれを、マルチチャネル空間内のあらかじめ定められた位置に割り当て、オブジェクト信号のレベルを決定し、これにより、レンダリング部１１３により指定されたそれぞれの対応する位置からオブジェクト信号がレンダリング部１１３により決定されたそれぞれの対応するレベルで再生されるようにする。オブジェクトデコーディング部１１１により生成されたオブジェクト信号のそれぞれに関する制御情報は、オーバータイム（ｏｖｅｒｔｉｍｅ）を変えることができるので、オブジェクトデコーディング部１１１により生成されたオブジェクト信号のレベル及び空間位置は制御情報によって変わることができる。

図２は、本発明の第１実施例によるオーディオデコーディング装置１２０を示すブロック図である。図２を参照すると、オーディオデコーディング装置１２０は、オブジェクトデコーディング部１２１、レンダリング部１２３及びパラメータコンバーティング部１２５を含む。オーディオデコーディング装置１２０は、入力されたビットストリームからの付加情報及びダウンミックス信号を抽出するデマルチプレクサ（ｄｅｍｕｌｔｉｐｌｅｘｅｒ）（図示せず）を含んでも良く、これは、本発明の他の実施例によるオーディオデコーディング装置のいずれにも適用されることができる。

オブジェクトデコーディング部１２１は、パラメータコンバーティング部１２５により提供された修正された（ｍｏｄｉｆｉｅｄ）付加情報及びダウンミックス信号に基づいて多くのオブジェクト信号を生成する。レンダリング部１２３は、マルチチャネル空間内のあらかじめ定められた位置に、オブジェクトデコーディング部１２１により生成されたオブジェクト信号のそれぞれを割り当て、制御情報によってオブジェクトデコーディング部１２１により生成されたオブジェクト信号のレベルを決定する。パラメータコンバーティング部１２５は、付加情報と制御情報とを結合させることによって修正された付加情報を生成する。続いて、パラメータコンバーティング部１２５は、修正された付加情報をオブジェクトデコーディング部１２１に転送する。

オブジェクトデコーディング部１２１は、修正された付加情報中の制御情報を分析することによって適切なデコーディングを実行することができる。

例えば、第１オブジェクト信号及び第２オブジェクト信号がマルチチャネル空間内の同一位置に割り当てられ且つ同一レベルを持つということを制御情報が示すと、一般のオーディオデコーディング装置は、第１及び第２オブジェクト信号を個別にデコーディングでき、続いてミキシング／レンダリング動作を通じてマルチチャネル空間内にそれらを配置することができる。

これに対し、オーディオデコーディング装置１２０のオブジェクトデコーディング部１２１は、修正された付加情報中の制御情報から、第１及び第２オブジェクト信号がマルチチャネル空間内の同一位置に割り当てられ、これらが一つの音源のように同一レベルを持つということがわかる。したがって、オブジェクトデコーディング部１２１は、第１及び第２オブジェクト信号を個別にデコーディングせずに、一つの音源として取扱ってデコーディングする。その結果、デコーディングの複雑度は減少する。しかも、処理されるべき音源数の減少によって、ミキシング／レンダリングの複雑度も減少する。

複数のオブジェクト信号が同一空間位置に割り当てられることは殆どないので、オーディオデコーディング装置１２０は、オブジェクト信号の数が出力チャネルの数よりも多い状況で有効に用いられることができる。

また、オーディオデコーディング装置１２０は、第１オブジェクト信号及び第２オブジェクト信号がマルチチャネル空間内の同一位置に割り当てられるが、異なるレベルを持つ状況で用いられることができる。この場合、オーディオデコーディング装置１２０は、第１及び第２オブジェクト信号を個別にデコーディングし、デコーディングされた第１及び第２オブジェクト信号をレンダリング部１２３に転送する代わりに、第１及び第２オブジェクト信号を一つとして取扱って第１及び第２オブジェクト信号をデコーディングする。より詳細には、オブジェクトデコーディング部１２１は、修正された付加情報中の制御情報から第１及び第２オブジェクト信号のレベル間の差に関する情報を獲得でき、獲得された情報に基づいて第１及び第２オブジェクト信号をデコーディングすることができる。その結果、第１及び第２オブジェクト信号が異なるレベルを持つ場合であっても、第１及び第２オブジェクト信号は一つの音源のようにデコーディングされることができる。

また、オブジェクトデコーディング部１２１は、制御情報によってオブジェクトデコーディング部１２１により生成されたオブジェクト信号のレベルを調節できる。続いて、オブジェクトデコーディング部１２１は、レベルの調節されたオブジェクト信号をデコーディングすることができる。したがって、レンダリング部１２３は、オブジェクトデコーディング部１２１から供給されたデコーディングされたオブジェクト信号のレベルを調節する必要はなく、単に、オブジェクトデコーディング部１２１から供給されたデコーディングされたオブジェクト信号をマルチチャネル空間内に配置する。要するに、オブジェクトデコーディング部１２１が制御情報によってオブジェクトデコーディング部１２１で生成されたオブジェクト信号のレベルを調節するので、オブジェクトデコーディング部１２１により生成されたオブジェクト信号のレベルをさらに調節する必要無しに、レンダリング部１２３は、オブジェクトデコーディング部１２１により生成されたオブジェクト信号をマルチチャネル空間内に容易に配置することができる。したがって、ミキシング／レンダリングの複雑度を減少させることが可能になる。

図２の実施例によれば、オーディオデコーディング装置１２０のオブジェクトデコーディング部は、制御情報の分析を通じてデコーディング動作を適切に実行することによって、デコーディングの複雑度及びミキシング／レンダリングの複雑度を減少させることができる。オーディオデコーディング装置１２０により実行された上記の方法の組合せが用いられることができる。

図３は、本発明の第２実施例によるオーディオデコーディング装置１３０を示すブロック図である。図３を参照すると、オーディオデコーディング装置１３０は、オブジェクトデコーディング部１３１及びレンダリング部１３３を含む。オーディオデコーディング装置１３０は、付加情報をオブジェクトデコーディング部１３１だけでなくレンダリング部１３３にも供給するという特徴を有する。

オーディオデコーディング装置１３０は、無音期間に相応するオブジェクト信号がある場合にもデコーディング動作を效果的に実行することができる。例えば、第２から第４オブジェクト信号は、楽器が演奏される間の音楽演奏期間に対応することができ、第１オブジェクト信号は伴奏が演奏される間の無音期間に対応することができる。この場合、複数のオブジェクト信号のいずれかが無音期間に対応するかを表す情報が付加情報に含まれることができ、この付加情報は、オブジェクトデコーディング部１３１だけでなくレンダリング部１３３にも供給されることができる。

オブジェクトデコーディング部１３１は、無音期間に対応するオブジェクト信号をデコーディングしないことによってデコーディングの複雑度を最小化することができる。オブジェクトデコーディング部１３１は、０値に対応するオブジェクト信号を設定し、このオブジェクト信号のレベルをレンダリング部１３３に転送する。通常、０値を持つオブジェクト信号は０でない値を持つオブジェクト信号と同一に取り扱われてミキシング／レンダリング動作が行なわれることがある。

これに対し、オーディオデコーディング装置１３０は、複数のオブジェクト信号のいずれかが無音期間に相応するかを表す情報を含む付加情報をレンダリング部１３３に転送するから、無音期間に対応するオブジェクト信号がレンダリング部１３３でミキシング／レンダリングされるのを防ぐことができる。したがって、オーディオデコーディング装置１３０は、ミキシング／レンダリングの余分な複雑度の増加を防止することができる。

レンダリング部１３３は、ステレオ場面（ｓｔｅｒｅｏｓｃｅｎｅ）に各オブジェクト信号の音像を位置させる目的で、制御情報中に含まれたミキシングパラメータ情報を用いることができる。ミキシングパラメータ情報は、振幅情報のみを含んだり、振幅情報と時間情報を両方とも含むことができる。ミキシングパラメータ情報は、ステレオ音像の定位の他に、利用者による空間音質の心理音響認知にも影響を及ぼすことができる。

例えば、時間パンニング方法（ｔｉｍｅｐａｎｎｉｎｇｍｅｔｈｏｄ）及び振幅パンニング方法（ａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇｍｅｔｈｏｄ）のそれぞれを用いて生成され、２−チャネルステレオスピーカーを用いて同一位置に再生された二つの音像を比較すると、振幅パンニング方法が音像の正確な定位に寄与し、時間パンニング方法が空間の深い感じを持つ自然的な音を提供することが見分けられる。したがって、マルチチャネル空間にオブジェクト信号を配置する上でレンダリング部１３３が振幅パンニング方法のみを利用するとすれば、レンダリング部１３３は、各音像を正確に配置することはできるが、時間パンニング方法を利用する場合のように音の奥深い感じを提供することはできない。利用者は、音源の種類によって音像の正確な定位よりも音の奥深い感じを好む場合もあり、その反対の場合もある。

図４（ａ）及び図４（ｂ）では、２−チャネルステレオスピーカーで信号の再生を実行する際に、音像の定位上の時間差及び強度（振幅差）の影響を説明する。図４（ａ）及び図４（ｂ）を参照すると、音像は互いに独立した振幅差及び時間差によってあらかじめ定められた角度に位置することができる。例えば、約８ｄＢの振幅差、または約８ｄＢの振幅差と等価である約０.５ｍｓの時間差は、２０゜の角度に音像を位置させるために用いられることができる。したがって、振幅差のみがミキシングパラメータ情報として提供される場合であっても、音像の定位の間に、振幅差を該振幅差と等価である時間差に変換することによって、異なる特性を持つ様々な音を得ることが可能である。

図５は、１０゜、２０゜及び３０゜の角度に音像を位置させるのに必要な振幅差と時間差間の対応に関する関数を示す。図５に示す関数は、図４（ａ）及び図４（ｂ）に基づいて得られることができる。図５を参照すると、様々な振幅差−時間差の組合せが、あらかじめ定められた位置に音像を位置させるために提供されることができる。例えば、２０゜の角度に音像を位置させるために８ｄＢの振幅差がミキシングパラメータ情報として提供されると仮定する。図５に示す関数によって、また３ｄＢの振幅差と０．３ｍｓの時間差の組合せを用いて音像は２０゜の角度に位置することができる。この場合、振幅差情報だけでなく時間差情報がミキシングパラメータ情報として提供されることができ、これによって空間の感じ（ｆｅｅｌｉｎｇｏｆｓｐａｃｅ）を向上させることができる。

したがって、ミキシング／レンダリング動作の間に利用者の所望する特性を持つ音を生成すべく、ミキシングパラメータ情報は、振幅パンニングと時間パンニングのうち、利用者に適しているいずれかが実行されうるように適切に変換されることができる。すなわち、ミキシングパラメータ情報が振幅差情報のみを含み、利用者が空間の奥深い感じを持つ音を希望する場合では、振幅差情報は心理音響的データを参照して振幅差情報と等価である時間差情報に変換されることができる。また、利用者が空間の奥深い感じを持つ音及び音像の正確な定位を希望する場合では、振幅差情報を、元来の振幅情報と等価である時間差情報と振幅差情報の組合せに変換することができる。

また、ミキシングパラメータ情報が時間差情報のみを含み、利用者が音像の正確な定位を好む場合では、時間差情報を、時間差情報と等価である振幅差情報に変換したり、音像定位の正確性及び空間の感じを両方とも向上させることによって利用者の好みを満足させることのできる振幅差情報と時間差情報との組合せに変換することができる。

また、ミキシングパラメータ情報が振幅差情報及び時間差情報を含み、利用者が音像の正確な定位を好む場合では、振幅差情報と時間差情報との組合せを、元来の振幅差情報と時間差情報との組合せと等価である振幅差情報に変換することができる。一方、ミキシングパラメータ情報が振幅差情報及び時間差情報を含み、利用者が空間感の向上を好む場合では、振幅差情報と時間差情報との組合せを、振幅差情報と元来の時間差情報との組合せと等価である時間差情報に変換することができる。

図６において、制御情報は、一つ以上のオブジェクト信号に関する調和情報及びミキシング／レンダリング情報を含むことができる。調和情報は、ピッチ（ｐｉｔｃｈ）情報、基本周波数情報、一つ以上のオブジェクト信号に関する優勢周波数バンド情報、及びオブジェクト信号のそれぞれの各サブバンドのエネルギー及びスペクトラムの説明のうち少なくとも一つを含むことができる。

サブバンド部でのレンダリング動作を実行するレンダリング部の解像度が充分でないから、調和情報をレンダリング動作中にオブジェクト信号を処理するのに用いることができる。

調和情報が一つ以上のオブジェクト信号に関するピッチ情報を含む場合では、オブジェクト信号のそれぞれの利得は、コムフィルター（ｃｏｍｂｆｉｌｔｅｒ）または逆コムフィルター（ｉｎｖｅｒｓｅｃｏｍｂｆｉｌｔｅｒ）を用いてあらかじめ定められた周波数ドメインを弱化させたり強化させたりすることによって調節されることができる。例えば、複数のオブジェクト信号の一つが音声信号（ｖｏｃａｌｓｉｇｎａｌ）であれば、オブジェクト信号を、音声信号のみを弱化させることによってカラオケとして用いられることができる。また、調和情報が一つ以上のオブジェクト信号に関する優勢周波数ドメイン情報を含む場合では、優勢周波数ドメインを弱化させたり強化させる処理を実行することができる。また、調和情報が一つ以上のオブジェクト信号に関するスペクトラム情報を含む場合では、オブジェクト信号のそれぞれの利得をサブバンド境界によって制限されずに弱化または強化を実行することによって制御することができる。

図７は、本発明の第３実施例によるオーディオデコーディング装置１４０を示すブロック図である。図７を参照すると、オーディオデコーディング装置１４０は、オブジェクトデコーディング部及びレンダリング部の代わりに、マルチチャネルデコーディング部１４１を採用し、オブジェクト信号がマルチチャネル空間内に適当に配置された後に複数のオブジェクト信号をデコーディングする。

より詳細には、オーディオデコーディング装置１４０は、マルチチャネルデコーディング部１４１及びパラメータコンバーティング部１４５を含む。マルチチャネルデコーディング部１４１は、パラメータコンバーティング部１４５より提供されたチャネルベース付加情報である空間パラメータ情報及びダウンミックス信号に基づいて、マルチチャネル空間内にそのオブジェクト信号が既に配置されたマルチチャネル信号を生成する。パラメータコンバーティング部１４５は、オーディオエンコーディング装置（図示せず）より転送された制御情報及び付加情報を分析し、分析結果に基づく空間パラメータ情報を生成する。より詳細には、パラメータコンバーティング部１４５は、プレイバック構成情報（ｐｌａｙｂａｃｋｓｅｔｕｐｉｎｆｏｒｍａｔｉｏｎ）及びミキシング情報を含む制御情報と付加情報とを結合させることによって空間パラメータ情報を生成する。すなわち、パラメータコンバーティング部１４５は、付加情報と制御情報との組合せをＯＴＴ（Ｏｎｅ−Ｔｏ−Ｔｗｏｂｏｘ）またはＴＴＴ（Ｔｗｏ−Ｔｏ−Ｔｈｒｅｅｂｏｘ）に対応する空間データへの変換を実行する。

オーディオデコーディング装置１４０は、オブジェクトベースデコーディング動作及びミキシング／レンダリング動作が統合されるようにマルチチャネルデコーディングを実行でき、各オブジェクト信号のデコーディングをスキップ（ｓｋｉｐ）することができる。したがって、デコーディング及び／またはミキシング／レンダリングの複雑度を減少させることが可能になる。

例えば、１０個のオブジェクト信号が存在し、１０個のオブジェクト信号に基づいて獲得されたマルチチャネル信号が５．１チャネルスピーカー再生システムにより再生される場合、一般のオブジェクトベースオーディオデコーディング装置は、ダウンミックス信号及び付加情報に基づく１０個のオブジェクト信号に対応してデコーディングされた信号を個別に生成し、続いて、それらオブジェクト信号が５．１チャネルスピーカー環境に適合するようにマルチチャネル空間内に１０個のオブジェクト信号を適切に配置することによって５．１チャネル信号を生成する。しかし、５．１チャネル信号の生成の際に１０個のオブジェクト信号を生成するということは非効率的であり、この問題は、生成されたマルチチャネル信号のチャネル数とオブジェクト信号数との差が増加するほどより深刻化する。

これに対し、図７の実施例によれば、オーディオデコーディング装置１４０は、付加情報及び制御情報に基づいて５．１チャネル信号に適合した空間パラメータ情報を生成し、空間パラメータ情報及びダウンミックス信号をマルチチャネルデコーディング部１４１に供給する。続いて、マルチチャネルデコーディング部１４１は、空間パラメータ情報及びダウンミックス信号に基づいて５．１チャネル信号を生成する。言い換えると、出力されるチャネルの数が５．１チャネルである場合、オーディオデコーディング装置１４０は、１０個のオブジェクト信号を生成せずに、ダウンミックス信号に基づいて５．１チャネル信号を迅速に生成でき、よって、複雑度において一般のオーディオデコーディング装置に比べてより効果的となる。

オーディオエンコーディング装置より転送された制御情報及び付加情報の分析を通じて、ＯＴＴｂｏｘ及びＴＴＴｂｏｘそれぞれに対応する空間パラメータ情報を計算するのに必要な計算量が、各オブジェクト信号のデコーディング後にミキシング／レンダリング動作を実行するのに必要な計算量よりも少ない場合に、オーディオデコーディング装置１４０は効率的なものと見なされる。

オーディオデコーディング装置１４０は、付加情報及び制御情報の分析を通じて空間パラメータ情報を生成するためのモジュールを、一般のマルチチャネルオーディオデコーディング装置に加えることによって簡単に得られることができ、したがって、一般のマルチチャネルオーディオデコーディング装置と互換性を維持することができる。また、エンベロープシェイパ（ｅｎｖｅｌｏｐｅｓｈａｐｅｒ）、サブバンド時間処理（ＳＴＰ；ｓｕｂ−ｂａｎｄｔｅｍｐｏｒａｌｐｒｏｃｅｓｓｉｎｇ）ツール及びデコリレータ（ｄｅｃｏｒｒｅｌａｔｏｒ）のような一般のマルチチャネルオーディオデコーディング装置の現存するツールを用いて、オーディオデコーディング装置１４０は音質を向上させることができる。与えられたこれら全てから、一般のマルチチャネルオーディオデコーディング方法の全て利点は、オブジェクトオーディオデコーディング方法に容易に適用されることができるという結論に導かれる。

パラメータコンバーティング部１４５よりマルチチャネルデコーディング部１４１に転送された空間パラメータ情報は、転送されるのに適合するように圧縮されることができる。また、空間パラメータ情報は、一般のマルチチャネルエンコーディング装置より転送されたデータのフォーマットと同一のフォーマットを持つことができる。すなわち、空間パラメータ情報は、ハフマンデコーディング動作（Ｈｕｆｆｍａｎｄｅｃｏｄｉｎｇｏｐｅｒａｔｉｏｎ）またはパイロットデコーディング動作（ｐｉｌｏｔｄｅｃｏｄｉｎｇｏｐｅｒａｔｉｏｎ）が行なわれることができ、よって、圧縮されていない空間キューデータ（ｃｕｅｄａｔａ）として各モジュールに転送されることができる。ハフマンデコーディング動作は、空間パラメータ情報を遠隔位置のマルチチャネルオーディオデコーディング装置に転送するのに適合し、パイロットデコーディング動作は、マルチチャネルオーディオデコーディング装置が、圧縮された空間キューデータを、デコーディング動作に容易に用いられうる圧縮されていない空間キューデータに変換する必要がないという点で便利である。

付加情報及び制御情報の分析に基づく空間パラメータ情報の構成は、ダウンミックス信号と空間パラメータ情報間の遅延を引き起こすことができる。これをアドレスするために、ダウンミックス信号及び空間パラメータ情報が互いに同期化するように追加的なバッファーがダウンミックス信号または空間パラメータ情報のために提供されることができる。しかし、これらの方法は、追加的なバッファーの提供が要求されるという点で不便である。また、付加情報は、ダウンミックス信号と空間パラメータ情報間の遅延発生の可能性を考慮し、ダウンミックス信号に先立って転送されることができる。この場合に、付加情報と制御情報を結合することによって得られた空間パラメータ情報は調節されることなく容易に用いられることができる。

ダウンミックス信号の複数のオブジェクト信号が、異なるレベルを持つ場合、ダウンミックス信号を直接補償できるＡＤＧモジュールが、オブジェクト信号の相対的なレベルを決定することができ、よって、オブジェクト信号のそれぞれは、チャネルレベル差情報、チャネル間相関（ＩＣＣ；ｉｎｔｅｒ−ｃｈａｎｎｅｌｃｏｒｒｅｌａｔｉｏｎ）情報及びチャネル予測係数（ＣＰＣ；ｃｈａｎｎｅｌｐｒｅｄｉｃｉｏｎｃｏｅｆｆｉｃｉｅｎｔ）のような空間キューデータを用いてマルチチャネル空間内のあらかじめ定められた位置に割り当てられることができる。

例えば、あらかじめ定められたオブジェクト信号がマルチチャネル空間内のあらかじめ定められた位置に割り当てられ、他のオブジェクト信号よりも高いレベルを持つということを制御情報が示す場合では、一般のマルチチャネルデコーディング部はダウンミックス信号のチャネルエネルギー間の差を計算し、このダウンミックス信号を計算の結果に基づいて多くの出力チャネルに分割することができる。しかし、一般のマルチチャネルデコーディング部は、ダウンミックス信号中の特定の音のボリュームを上げたり下げたりすることはできない。言い換えると、一般のマルチチャネルデコーディング部は、ダウンミックス信号を多くの出力チャネルに簡単に分配し、よって、ダウンミックス信号中の音のボリュームを上げたり下げたりすることができない。

オブジェクトエンコーディング部により生成されたダウンミックス信号の複数のオブジェクト信号のそれぞれを制御情報によってマルチチャネル空間内のあらかじめ定められた位置に割り当てることは比較的易しい。しかし、あらかじめ定められたオブジェクト信号の振幅を増やしたり減らしたりするには特別な技術が要求される。言い換えると、オブジェクトエンコーディング部により生成されたダウンミックス信号をそのまま利用するとしたらダウンミックス信号のそれぞれのオブジェクト信号の振幅は減らし難い。

したがって、本発明の実施例によって、オブジェクト信号の相対的な振幅が、図８に示すＡＤＧモジュールを用いて制御情報によって変わることができる。より詳細には、オブジェクトエンコーディング部より転送されたダウンミックス信号の複数のオブジェクト信号のいずれか一つの振幅を、ＡＤＧモジュール１４７によって増加させたり減少させたりすることができる。ＡＤＧモジュール１４７により実行された補償によって得られたダウンミックス信号はマルチチャネルデコーディングされることができる。

ダウンミックス信号のオブジェクト信号の相対的な振幅が、ＡＤＧモジュール１４７を用いて適切に調節される場合では、一般のマルチチャネルデコーディング部を用いてオブジェクトデコーディングを実行することができる。オブジェクトエンコーディング部により生成されたダウンミックス信号がモノまたはステレオ信号または３以上のチャネルを持つマルチチャネル信号であると、ダウンミックス信号は、ＡＤＧモジュール１４７により処理されることができる。オブジェクトエンコーディング部により生成されたダウンミックス信号が２以上のチャネルを有し、ＡＤＧモジュール１４７により調節されるべきあらかじめ定められたオブジェクト信号がダウンミックス信号の一つのチャネルでのみ存在する場合では、ＡＤＧモジュール１４７は、ダウンミックス信号の全てのチャネルに適用される代わりに、あらかじめ定められたオブジェクト信号を含むチャネルにのみ適用されることができる。上記の方法でＡＤＧモジュール１４７により処理されたダウンミックス信号を、マルチチャネルデコーディング部の構造を修正することなく一般のマルチチャネルデコーディング部を用いて容易に処理することができる。

最終出力信号が、マルチチャネルスピーカーにより再生されうるマルチチャネル信号ではなくバイノーラル（ｂｉｎａｕｒａｌ）信号である場合でっても、ＡＤＧモジュール１４７は、最終出力信号のオブジェクト信号の相対的な振幅を調節するのに用いられることができる。

ＡＤＧモジュール１４７を用いる代わりに、複数のオブジェクト信号の生成の間に各オブジェクト信号に適用される利得値を特定する利得情報が制御情報中に含まれることができる。このため、一般のマルチチャネルデコーディング部の構造は修正されることができる。存在するマルチチャネルデコーディング部の構造の修正を必要とするとはいえ、この方法は、ＡＤＧを計算して各オブジェクト信号を補償することなく、デコーディング動作の間に各オブジェクト信号に利得値を適用するから、デコーディングの複雑度を低減する上で便利である。

図９は、本発明の第４実施例によるオーディオデコーディング装置１５０を示すブロック図である。図９を参照すると、オーディオデコーディング装置１５０は、バイノーラル信号を生成することに特徴がある。

より詳細には、オーディオデコーディング装置１５０は、マルチチャネルバイノーラルデコーディング部１５１、第１パラメータコンバーティング部１５７及び第２パラメータコンバーティング部１５９を含む。

第２パラメータコンバーティング部１５９は、オーディオエンコーディング装置より供給された制御情報及び付加情報を分析し、分析の結果に基づいて空間パラメータ情報を構成する。第１パラメータコンバーティング部１５７は、頭部伝達関数（ＨＲＴＦ；ｈｅａｄ−ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）パラメータのような３次元（３Ｄ）情報を空間パラメータ情報に追加することによって、マルチチャネルバイノーラルデコーディング部１５１で使用できるようなバイノーラルパラメータ情報を構成する。マルチチャネルバイノーラルデコーディング部１５１は、仮想３Ｄパラメータ情報をダウンミックス信号に適用することによって仮想３Ｄ信号を生成する。

第１パラメータコンバーティング部１５７及び第２パラメータコンバーティング部１５９は、付加情報、制御情報及びＨＲＴＦパラメータを受信し、これら付加情報、制御情報及びＨＲＴＦパラメータに基づいてバイノーラルパラメータ情報を構成する単一モジュール、すなわち、パラメータ変換モジュール１５５に取って代わっても良い。

一般に、ヘッドホンで１０個のオブジェクト信号を含むダウンミックス信号の再生のためのバイノーラル信号を生成するために、オブジェクト信号は、ダウンミックス信号及び付加情報に基づく１０個のオブジェクト信号に対応するそれぞれの１０個のデコーディングされた信号を生成しなければならない。その後、レンダリング部は、５−チャネルスピーカー環境に適合するように制御情報を参照してマルチチャネル空間内のあらかじめ定められた位置に１０個のオブジェクト信号のそれぞれを割り当てる。その後に、レンダリング部は、５−チャネルスピーカを用いて再生できる５−チャネル信号を生成する。その後、レンダリング部は、ＨＲＴＦパラメータを５−チャネル信号に適用して２−チャネル信号を生成する。要するに、上記の一般的なオーディオデコーディング方法は、１０個のオブジェクト信号を再生する段階、１０個のオブジェクト信号を５−チャネル信号に変換する段階、及び５−チャネル信号に基づく２−チャネル信号を生成する段階を含み、効果的でない。

これに対し、オーディオデコーディング装置１５０は、オブジェクトオーディオ信号に基づいてヘッドホンを用いて再生できるバイノーラル信号を容易に生成できる。しかも、オーディオデコーディング装置１５０は、付加情報及び制御情報の分析を通じて空間パラメータ情報を構成し、よって、一般的なマルチチャネルバイノーラルデコーディング部を用いてバイノーラル信号を生成できる。さらに、付加情報、制御情報及びＨＲＴＦパラメータを受信する統合されたパラメータコンバーティング部が組み込まれる場合においても、オーディオデコーディング装置１５０は一般的なマルチチャネルバイノーラルデコーディング部を依然として利用でき、付加情報、制御情報及びＨＲＴＦパラメータに基づくバイノーラルパラメータ情報を構成できる。

図１０は、本発明の第５実施例によるオーディオデコーディング装置１６０を示すブロック図である。図１０を参照すると、オーディオデコーディング装置１６０は、ダウンミックスプロセシング部１６１、マルチチャネルデコーディング部１６３及びパラメータコンバーティング部１６５を含む。ダウンミックスプロセシング部１６１及びパラメータコンバーティング部１６３は、単一モジュール１６７としても良い。

パラメータコンバーティング部１６５は、マルチチャネルデコーディング部１６３で用いられうるような空間パラメータ情報及びダウンミックスプロセシング部１６１で用いられうるようなパラメータ情報を生成する。ダウンミックスプロセシング部１６１は、ダウンミックス信号に前処理動作を実行し、前処理動作により生成されたダウンミックス信号をマルチチャネルデコーディング部１６３に転送する。マルチチャネルデコーディング部１６３は、ダウンミックスプロセシング部１６１より転送されたダウンミックス信号にデコーディング動作を実行し、ステレオ信号、バイノーラルステレオ信号またはマルチチャネル信号を出力する。ダウンミックスプロセシング部１６１により実行された前処理動作の例には、フィルタリングを用いた時間ドメインまたは周波数ドメインへのダウンミックス信号の変換または修正が含まれる。

オーディオデコーディング装置１６０に入力されたダウンミックス信号がステレオ信号であれば、マルチチャネルデコーディング部１６３は、複数のチャネルの一つであるレフトチャネルに対応するダウンミックス信号の成分を複数のチャネルの他の一つであるライトチャネルにマッピングできないから、ダウンミックス信号は、マルチチャネルデコーディング部１６３に入力される前にダウンミックスプロセシング部１６１で実行されたダウンミックス前処理されることができる。したがって、レフトチャネルに分類されたオブジェクト信号の位置をライトチャネルの方向に移動させるために、オーディオデコーディング装置１６０に入力されたダウンミックス信号は、ダウンミックスプロセシング部１６１により前処理されることができ、前処理されたダウンミックス信号は、マルチチャネルデコーディング部１６３に入力されることができる。

ステレオダウンミックス信号の前処理は、付加情報から及び制御情報から獲得された前処理した情報に基づいて実行されることができる。

図１１は、本発明の第６実施例によるオーディオデコーディング装置１７０のブロック図である。図１１を参照すると、オーディオデコーディング装置１７０は、マルチチャネルデコーディング部１７１、チャネルプロセシング部１７３及びパラメータコンバーティング部１７５を含む。

パラメータコンバーティング部１７５は、マルチチャネルデコーディング部１７３で用いられうるような空間パラメータ情報及びチャネルプロセシング部１７３で用いられうるようなパラメータ情報を生成する。チャネルプロセシング部１７３は、マルチチャネルデコーディング部１７３より出力された信号に後処理動作を実行する。マルチチャネルデコーディング部１７３より出力された信号の例には、ステレオ信号、バイノーラルステレオ信号及びマルチチャネル信号を含む。

ポストプロセシング部１７３により実行された後処理（ｐｏｓｔ−ｐｒｏｃｅｓｓｉｎｇ）動作には、出力信号の各チャネルまたは全てのチャネルの修正及び変換が含まれる。例えば、付加情報があらかじめ定められたオブジェクト信号に関する基本周波数情報を含む場合では、チャネルプロセシング部１７３は、基本周波数情報を参照してあらかじめ定められたオブジェクト信号から調和成分を除去することができる。マルチチャネルオーディオデコーディング方法は、カラオケシステムに用いられるには充分に効果的でない場合もあり得る。しかし、音声オブジェクト信号に関する基本周波数情報が付加情報内に含まれ、音声オブジェクト信号の調和成分が後処理動作中に除去される場合では、図１１の実施例を用いる高性能カラオケシステムを実現することができる。図１１の実施例は、音声オブジェクト信号を除くオブジェクト信号に適用されることができる。例えば、図１１の実施例を用いてあらかじめ定められた楽器の音を除去することが可能である。また、図１１の実施例を用いてオブジェクト信号に関する基本周波数情報によってあらかじめ定められた調和成分を増幅することができる。

チャネルプロセシング部１７３は、ダウンミックス信号に追加的な効果処理（ｅｆｆｅｃｔｐｒｏｃｅｓｓｉｎｇ）を実行することができる。また、チャネルプロセシング部１７３は、追加的な効果処理によって得た信号を、マルチチャネルデコーディング部１７１より出力された信号に付加することができる。チャネルプロセシング部１７３は、必要時にオブジェクトのスペクトラムを変化させたりダウンミックス信号を修正したりすることができる。ダウンミックス信号への反射のような効果処理動作を直接実行し、エフェクト処理動作によって得られた信号をマルチチャネルデコーディング部１７１に転送することが適切でない場合では、ダウンミックスプロセシング部１７３は、ダウンミックス信号へのエフェクトプロセシングを実行する代わりに、エフェクトプロセシング動作によって得た信号をマルチチャネルデコーディング部１７１の出力に付加することができる。

オーディオデコーディング装置１７０は、チャネルプロセシング部１７３の他、ダウンミックスプロセシング部を含むように製作されることができる。この場合に、ダウンミックスプロセシング部は、マルチチャネルデコーディング部１７３の前に配置されることができ、チャネルプロセシング部１７３はマルチチャネルデコーディング部１７３の後に配置されることができる。

図１２は、本発明による第７実施例によるオーディオデコーディング装置２１０を示すブロック図である。図１２を参照すると、オーディオデコーディング装置２１０は、オブジェクトデコーディング部の代わりに、マルチチャネルデコーディング部２１３を用いる。

より詳細には、オーディオデコーディング装置２１０は、マルチチャネルデコーディング部２１３、トランスコーディング部２１５、レンダリング部２１７及び３Ｄ情報データベース２１９を含む。

レンダリング部２１７は、制御情報に含まれたインデックスデータに対応する３Ｄ情報に基づいて複数のオブジェクト信号の３Ｄ位置を決定する。トランスコーディング部２１５は、レンダリング部２１７により適用された３Ｄ情報に複数のオブジェクトオーディオ信号に関する位置情報を合成することによってチャネルベース付加情報を生成する。マルチチャネルデコーディング部２１３は、チャネルベース付加情報をダウンミックス信号に適用することによって３Ｄ信号を出力する。

ＨＲＴＦは３Ｄ情報として用いられることができる。ＨＲＴＦは、任意位置における音源と鼓膜との間の音波の転送を説明し、音源の高度及び方向によって変わる値を返す伝達関数である。方向性を持たない信号がＨＲＴＦを用いてフィルタリングされると、信号は、特定の方向から再生されるかのように聞こえることができる。

入力ビットストリームを受信する場合、オーディオデコーディング装置２１０は、デマルチプレクサ（図示せず）を用いて入力ビットストリームからオブジェクトベースパラメータ情報及びオブジェクトベースダウンミックス信号を抽出する。その後、レンダリング部２１７は、複数のオブジェクトオーディオ信号の位置を決定するのに用いられる制御情報からインデックスデータを抽出し、３Ｄ情報データベース２１９から抽出されたインデックスデータに対応する３Ｄ情報を回収する。

より詳細には、オーディオデコーディング装置２１０で用いられる制御情報に含まれたミキシングパラメータ情報は、３Ｄ情報を検索するのに必要なレベル情報だけでなく、インデックスデータも含むことができる。このミキシングパラメータ情報は、レベル情報及び時間情報を適切に結合することによって得られた一つ以上のパラメータ、位置情報及びチャネル間の時間差に関する時間情報を含むことができる。

オブジェクトオーディオ信号の位置は、デフォルト（ｄｅｆａｕｌｔ）ミキシングパラメータ情報によって初期に決定されることができ、利用者が希望する位置に対応する３Ｄ情報をオブジェクトオーディオ信号に適用することによって後ほど変更されることができる。また、利用者が３Ｄ効果をいくつかのオブジェクトオーディオ信号に適用することを希望する場合では、利用者が３Ｄ効果を適用することを希望しない他のオブジェクトオーディオ信号に関する時間情報及びレベル情報は、ミキシングパラメータ情報として用いられることができる。

レンダリング部２１７によってＨＲＴＦのような３Ｄ情報が適用される複数のオブジェクト信号の位置情報とオーディオエンコーディング装置より転送されたＮ個のオブジェクト信号に関するオブジェクトベースパラメータ情報とを合成することによって、トランスコーディング部２１５はＭ個のチャネルに関するチャネルベース付加情報を生成する。

マルチチャネルデコーディング部２１３は、トランスコーディング部２１５より供給されたチャネルベース付加情報及びダウンミックス信号に基づくオーディオ信号を生成し、チャネルベース付加情報に含まれた３Ｄ情報を用いて３Ｄレンダリング動作を実行することによって３Ｄマルチチャネル信号を生成する。

図１３は、本発明の第８実施例によるオーディオデコーディング装置２２０を示すブロック図である。図１３を参照すると、オーディオデコーディング装置２２０は、トランスコーディング部２２５がチャネルベース付加情報と３Ｄ情報を個別にマルチチャネルデコーディング部２２３に転送するという点で、図１２に示すオーディオデコーディング装置２１０と異なる。言い換えると、オーディオデコーディング装置２１０のトランスコーディング部２１５は、３Ｄ情報を含むチャネルベース付加情報をマルチチャネルデコーディング部２１３に転送する一方、オーディオデコーディング装置２２０のトランスコーディング部２２５はＮ個のオブジェクト信号に関するオブジェクトベースパラメータ情報からＭ個のチャネルに関するチャネルベース付加情報を得、Ｎ個のオブジェクト信号のそれぞれに適用された３Ｄ情報をマルチチャネルデコーディング部２２３に転送する。

図１４を参照すると、チャネルベース付加情報及び３Ｄ情報は、複数のフレームインデックスなどを含むことができる。したがって、マルチチャネルデコーディング部２２３は、３Ｄ情報及びチャネルベース付加情報のそれぞれのフレームインデックスを参照した３Ｄ情報及びチャネルベース付加情報を同期化することができ、よって、３Ｄ情報を、Ｄ情報に対応するビットストリームのフレームに適用することができる。例えば、インデックス２を持つ３Ｄ情報を、インデックス２を持つフレーム２の始部に適用することができる。

チャネルベース付加情報及び３Ｄ情報はいずれもフレームインデックスを含むので、３Ｄ情報が時間を超過して更新されても、３Ｄ情報の適用されるチャネルベース付加情報の時間的位置を效果的に決定することができる。言い換えると、トランスコーディング部２２５は、チャネルベース付加情報中に複数のフレームインデックス及び３Ｄ情報を含み、よって、マルチチャネルデコーディング部２２３はチャネルベース付加情報と３Ｄ情報を容易に同期化することができる。

ダウンミックスプロセシング部２３１、トランスコーディング部２３５、レンダリング部２３７及び３Ｄ情報データベースは、単一モジュール２３９にしても良い。

図１５は、本発明の第９実施例によるオーディオデコーディング装置２３０を示すブロック図である。図１５を参照すると、オーディオデコーディング装置２３０は、ダウンミックスプロセシング部２３１をさらに含むという点で、図１４に示すオーディオデコーディング装置２２０と区別される。

より詳細には、オーディオデコーディング装置２３０は、トランスコーディング部２３５、レンダリング部２３７、３Ｄ情報データベース２３９、マルチチャネルデコーディング部２３３及びダウンミックスプロセシング部２３１を含む。トランスコーディング部２３５、レンダリング部２３７、３Ｄ情報データベース２３９及びマルチチャネルデコーディング部２３３は、図１４におけるそれらとそれぞれ同一である。ダウンミックスプロセシング部２３１は、位置調節のためにステレオダウンミックス信号に前処理動作を実行する。３Ｄ情報データベース２３９はレンダリング部２３７と統合されることができる。あらかじめ定められた効果をダウンミックス信号に適用するためのモジュールもこのオーディオデコーディング装置２３０内に組み込まれることができる。

図１６は、本発明の第１０実施例によるオーディオデコーディング装置２４０を示すブロック図である。図１６を参照すると、オーディオデコーディング装置２４０は、多点制御部コンバイナ２４１を含むという点で、図１５に示すオーディオデコーディング装置２３０と区別される。

すなわち、オーディオデコーディング装置２３０と同様に、オーディオデコーディング装置２４０は、ダウンミックスプロセシング部２４３、マルチチャネルデコーディング部２４４、トランスコーディング部２４５、レンダリング部２４７及び３Ｄ情報データベース２４９を含む。多点制御部コンバイナ２４１は、オブジェクトベースエンコーディングによって得た複数のビットストリームを結合して単一のビットストリームを得る。例えば、第１オーディオ信号のための第１ビットストリームと第２オーディオ信号のための第２ビットストリームが入力される場合、多点制御部コンバイナ２４１は、第１ビットストリームから第１ダウンミックス信号を抽出し、第２ビットストリームから第２ダウンミックス信号を抽出した後、第１及び第２ダウンミックス信号を結合させることによって第３ダウンミックス信号を生成する。なお、多点制御部コンバイナ２４１は、第１ビットストリームから第１オブジェクトベース付加情報を抽出し、第２ビットストリームから第２オブジェクトベース付加情報を抽出した後、第１オブジェクトベース付加情報と第２オブジェクトベース付加情報とを結合させることによって第３オブジェクトベース付加情報を生成する。その後、多点制御部コンバイナ２４１は、第３ダウンミックス信号と第３オブジェクトベース付加情報とを結合させることによってビットストリームを生成し、生成されたビットストリームを出力する。

したがって、各オブジェクト信号をエンコーディングまたはデコーディングする場合に比べて、本発明の第１０実施例によると、２以上の通信相手より転送された信号まで效果的に処理することが可能になる。

多点制御部コンバイナ２４１が、複数のビットストリームから個別に抽出され、他の圧縮コーデックで結合された複数のダウンミックス信号を単一のダウンミックス信号内に統合するようにするために、これらのダウンミックス信号は、ダウンミックス信号の圧縮コーデックの種類によってあらかじめ定められた周波数ドメインの信号またはパルスコード変調（ＰＣＭ；ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）信号に変換される必要があり、この変換によって得た信号またはＰＣＭ信号は共に結合される必要があり、この結合によって得られた信号は、あらかじめ定められた圧縮コーデックを用いて変換される必要があり得る。この場合に、ダウンミックス信号があらかじめ定められた周波数ドメインの信号またはＰＣＭ信号に統合されるかによって遅延が発生することができる。しかし、遅延はデコーディング部によって正確に推定されることができない。したがって、遅延はビットストリームに含まれ、ビットストリームと共に転送される必要があり得る。遅延は、ＰＣＭ信号内の遅延サンプルの数またはあらかじめ定められた周波数ドメイン内の遅延サンプルの数を表すことができる。

一般的なマルチチャネルコーディング動作（例えば、５．１チャネルまたは７．１チャネルコーディング動作）中に一般的に処理された入力信号の数に比べてオブジェクトベースオーディオコーディング動作中に多くの入力信号が時々処理されるべき場合があり得る。したがって、オブジェクトベースオーディオコーディング方法は、一般的なチャネルベースマルチチャネルオーディオコーディング方法に比べてより高いビットレートを必要とする。しかし、オブジェクトベースオーディオコーディング方法は、チャネル信号よりも少ない数のオブジェクト信号の処理を含むから、オブジェクトベースオーディオコーディング方法を用いて動的な出力信号を生成することが可能である。

以下、本発明の一実施例によるオーディオエンコーディング方法を、図１７〜図２０を参照して詳細に説明する。

オブジェクトベースオーディオエンコーディング方法において、オブジェクト信号は、人の声または楽器の音のような個別の音を表すように定義されることができる。また、弦楽器（例えば、バイオリン、ヴィオラ及びチェロ）の音のような類似な特性を持つ音、同一周波数バンドを持つ音またはこれら音源の方向及び角によって同一カテゴリーに分類される音は一緒にグルーピングすることができ、同一オブジェクト信号によって定義されることができる。また、オブジェクト信号は上記の方法の組合せを用いて定義されることができる。

複数のオブジェクト信号は、ダウンミックス信号及び付加情報として転送されることができる。転送される情報が生成される間に、ダウンミックス信号またはダウンミックス信号の複数のオブジェクト信号のそれぞれのエネルギーまたはパワーは、ダウンミックス信号のエンベロープを検出する目的で最初から計算される。この計算の結果は、オブジェクト信号またはダウンミックス信号を転送するのに用いられたり、オブジェクト信号のレベルの比を計算するのに用いられることができる。

線形予測コーディング（ＬＰＣ；ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）アルゴリズムが、ビットレートをより下げるのに用いられることができる。より詳細には、信号のエンベロープを表す多くのＬＰＣ係数は信号の分析を通じて生成され、信号に関するエンベロープ情報を転送する代わりにＬＰＣ係数が転送される。この方法は、ビットレートにおいて効果的である。しかし、これらＬＰＣ係数は信号の実際エンベロープから非常にずれやすいため、この方法は誤り訂正（ｅｒｒｏｒｃｏｒｒｅｃｔｉｏｎ）のような追加プロセスを必要とする。要するに、信号のエンベロープ情報を転送することを含む方法は、高音質を保障することはできるが、転送されるべき情報量が相当増加してしまう。一方、ＬＰＣ係数の利用を含む方法は、転送されるへぎ情報量を低減することはできるが、誤り訂正のような追加的なプロセスが必要とされ、音質低下を招く。

本発明の一実施例によって、これらの方法の組合せが用いられることができる。言い換えると、信号のエンベロープは、信号のパワーまたはエネルギーまたはインデックス値または信号のパワーまたはエネルギーに対応するＬＰＣ係数のような他の値で表現されることができる。

信号に関するエンベロープ情報は、時間セクションまたは周波数セクションのユニットで得ることができる。より詳細には、図１７を参照すると、信号に関するエンベロープ情報は、フレームユニットで得ることができる。また、信号がＱＭＦ（ｑｕａｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒ）バンクのようなフィルタバンクを用いて周波数バンド構造で表現されるとしたら、信号に関するエンベロープ情報は、周波数サブバンド、周波数サブバンドよりも小さい個体である周波数サブバンドパーティション、周波数サブバンドのグループまたは周波数サブバンドパーティションのグループのユニットで得ることができる。また、フレームベースの方法、周波数サブバンドベースの方法及び周波数サブバンドパーティションベースの方法の組合せが本発明の範囲内で用いられることができる。

また、信号の低周波成分が信号の高周波成分よりも一般的により多くの情報を持つとすれば、信号の低周波成分と関連したエンベロープ情報はそれ自体のまま転送されることができるが、信号の高周波成分に関するエンベロープ情報はＬＰＣ係数または他の値で表現されることができ、信号の高周波成分に関するエンベロープ情報の代わりにＬＰＣ係数または他の値が転送されることができる。しかし、信号の低周波成分が必ずしも信号の高周波成分よりも多い情報を持つというわけにはいかない。したがって、上記の方法は、環境によって柔軟に適用すれば良い。

本発明の実施例によって、時間／周波数軸上にドミナントとして現れる信号の一部（以下、主要部という。）対応するインデックスデータまたはエンベロープ情報は転送されることができ、信号のドミナントでない部分に対応するインデックスデータ及びエンベロープ情報はいずれも転送されなくても良い。また、信号のドミナント部分のエネルギー及びパワーを表す値（例えば、ＬＰＣ係数）が転送されることができ、信号のドミナントでない部分に対応するかかる値は転送されなくても良い。また、信号のドミナント部分に対応するインデックスデータまたはエンベロープ情報は転送されることができ、信号のドミナントでない部分のエネルギーまたはパワーを表す値も転送されても良い。また、信号のドミナントでない部分が信号のドミナント部分に関する情報に基づいて推定されるように、信号のドミナント部分にのみ関連した情報が転送されても良い。また、上記の方法の組合せが用いられても良い。

例えば、図１８を参照すると、信号がドミナント期間とドミナントでない期間とに分けられるとしたら、信号に関する情報は図１８（ａ）〜（ｄ）で表わされた通り、４つの異なる方法で転送されることができる。

ダウンミックス信号及び付加情報の組合せとして複数のオブジェクト信号を転送するために、デコーディング動作の一部として、例えば、オブジェクト信号のレベルの比を考慮し、ダウンミックス信号は複数の成分に分けられるように要求される。ダウンミックス信号の成分間の独立性を保障するために、デコリリーション動作がさらに実行される必要がある。

オブジェクトベースコーディング方法においてコーディングユニットであるオブジェクト信号は、マルチチャネルコーディング方法においてコーディングユニットであるチャネル信号よりも大きい独立性を持つ。言い換えると、チャネル信号は、オブジェクト信号を含むから、デコリレートされる必要がある。これに対し、オブジェクト信号は互いに独立しており、よって、チャネル分離が、デコリリーション動作を要求することなく、単純にオブジェクト信号の特性を用いて容易に実行されることができる。

より詳細には、図１９を参照すると、オブジェクト信号Ａ、Ｂ及びＣは、周波数軸上にドミナントとして順に現れる。この場合に、オブジェクト信号Ａ、Ｂ及びＣのレベルの比によってダウンミックス信号を多くの信号に分け、デコリリーションを行う必要がない。その代わりに、オブジェクト信号Ａ、Ｂ及びＣのドミナント期間に関する情報が転送されたり、利得値がオブジェクト信号Ａ、Ｂ及びＣのそれぞれの各周波数成分に適用され、デコリリーションをスキップすることができる。これにより、計算量の低減が可能となり、さもなければデコリリーションに必要な付加情報によって要求されるかもしれない量だけのビットレートを減らすことが可能となる。

要するに、ダウンミックス信号のオブジェクト信号の比の比率によってダウンミックス信号を分けて得られた複数の信号間の独立性を保障すべく実行されるデコリリーションをスキップする目的で、各オブジェクト信号を含む周波数ドメインに関する情報を付加情報として転送することができる。また、相異なる利得値が、各オブジェクト信号がドミナントとして現れる期間であるドミナント期間、及び各オブジェクト信号がより少なくドミナントとして現れる期間であるドミナントでない期間に適用されることができ、したがって、ドミナント期間に関する情報は付加情報として主に提供されることができる。また、このドミナント期間に関する情報を、付加情報として転送することができ、ドミナントでない期間に関する情報は転送しなくても良い。なお、デコリリーション方法の代案として上述された方法の組合せが用いられても良い。

デコリリーション方法の代案である上記の方法は、全てのオブジェクト信号または容易に区別可能なドミナント期間を持つ一部のオブジェクト信号にのみ適用されることができる。また、デコリリーション方法の代案である上記の方法は、フレームのユニットに可変的に適用されることができる。

以下、残余信号を用いたオブジェクトオーディオ信号のエンコーディングが詳細に説明される。

一般に、オブジェクトベースオーディオコーディング方法において、複数のオブジェクト信号がエンコーディングされ、これらエンコーディングの結果がダウンミックス信号と付加情報との組合せとして転送される。続いて、複数のオブジェクト信号が付加情報によってデコーディングを通じてダウンミックス信号から復元され、これら復元されたオブジェクト信号が、例えば、制御情報によって利用者の要請に応じて適切に混合され、最終チャネル信号が生成される。オブジェクトベースオーディオコーディング方法は、ミキサ（ｍｉｘｅｒ）を用いて制御情報によって出力チャネル信号を自由に変えるのを一般的な目標としている。しかし、オブジェクトベースオーディオコーディング方法は、制御情報によらず、あらかじめ定義された方法でチャネル出力を生成するのに用いられても良い。

このため、付加情報は、ダウンミックス信号から複数のオブジェクト信号を得るのに必要な情報だけでなく、チャネル信号を生成するのに必要なミキシングパラメータ情報を含むことができる。したがって、ミキサを用いずにも最終チャネル出力信号を生成することが可能である。この場合、残余コーディングのようなアルゴリズムが音質を向上させるために用いられることができる。

一般的な残余コーディング方法は、信号をコーディングし、コーディングされた信号と元の信号間の誤り、すなわち残余信号をコーディングすることを含む。デコーディング動作の間に、コーディングされた信号は、このコーディングされた信号と元の信号との間の誤りを補償すると同時にデコーディングされ、これにより、可能な限り元の信号と類似な信号を復元する。コーディングされた信号と元の信号との間の誤りは通常少ないので、残余コーディングを実行するのに追加的に必要な情報の量を減らすことが可能である。

デコーディング部の最終チャネル出力が固定される場合では、最終チャネル信号を生成するのに必要なミキシングパラメータ情報だけでなく残余コーディング情報が付加情報として提供されることができる。この場合、音質を向上させることが可能である。

図２０は、本発明の一実施例によるオーディオエンコーディング装置３１０を示すブロック図である。図２０を参照すると、オーディオエンコーディング装置３１０は、残余信号を用いることに特徴がある。

より詳細には、オーディオエンコーディング装置３１０は、エンコーディング部３１１、デコーディング部３１３、第１ミキサ３１５、第２ミキサ３１９、加算器３１７及びビットストリーム生成器３２１を含む。

第１ミキサ３１５は、元の信号にミキシング動作を実行し、第２ミキサ３１９は、エンコーディング動作を実行することによって得られた信号にミキシング動作を実行し、続いて元の信号にデコーディング動作を実行する。加算器３１７は、第１ミキサ３１５より出力された信号と第２ミキサ３１９より出力された信号との間の残余信号を計算する。ビットストリーム生成器３２１は、付加情報に残余信号を加え、その結果を転送する。この方法で、音質を向上させることができる。

残余信号の計算は、信号の全ての部分にまたは信号の低周波数部分にのみ適用されることができる。また、残余信号の計算は、フレーム対フレームに基づくドミナント信号を含む周波数ドメインにのみ可変的に適用されても良い。また、上記の方法の組合せが用いられても良い。

残余信号情報を含む付加情報の量が、残余信号情報を含まない付加情報の量よりも多いため、残余信号の計算は、音質に直接影響を与える信号の一部分にのみ適用されることができ、これにより、ビットレートの過度な増加を抑止することができる。

本発明は、コンピュータが読取りできる記録媒体上に書き込まれた、コンピュータが読取りできるコードとして実現されることができる。コンピュータが読取りできる記録媒体は、コンピュータが読取りできる方法でデータが記憶される記録装置の一つでありうる。コンピュータが読取りできる記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク（登録商標）、光学データ記憶装置及びキャリアウェーブ（ｃａｒｒｉｅｒｗａｖｅ）（例えば、インターネットを通じたデータ転送）が含まれる。コンピュータが読取りできる記録媒体は、コンピュータが読取りできるコードがそこに書き込まれ、分散された方法でそこから実行されるように、ネットワークに連結された複数のコンピュータシステムで分配されることができる。本発明を実現するのに必要な機能的プログラム、コード、コード断片は、この分野における通常の知識を持つ者によって容易に解析されることができる。

本発明によると、オブジェクトベースオーディオエンコーディング及びデコーディング方法の利点からの利得によって、音像が各オブジェクトオーディオ信号に対して定位する。その結果、オブジェクトオーディオ信号の再生を通じてより実際的な音を提供することが可能になる。なお、本発明は双方向ゲームに適用されることができ、利用者にとってはより現実的な仮想現実経験が可能になる。

以上では好適な実施例に挙げて本発明を説明してきたが、説明及び形態における様々な変化が、添付の請求項によって定義された本発明の範囲及び思想を逸脱しない限度内でできるということは、当該分野における通常の知識を持つ者にとっては自明である。

Claims

入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出する段階と、
入力制御情報に基づいてレンダリング情報を生成する段階と、
前記オブジェクトベース付加情報及び前記レンダリング情報に基づいてチャネルベース付加情報を生成する段階と、
を含むことを特徴とする、オーディオデコーディング方法。
前記チャネルベース付加情報及び前記ダウンミックス信号に基づいてマルチチャネルオーディオ信号を生成する段階をさらに含むことを特徴とする、請求項１に記載のオーディオデコーディング方法。
前記制御情報が、あらかじめ定められたオブジェクト信号を処理するための３次元（３Ｄ）情報、ミキシング情報及び調和情報のうち少なくとも一つを含むことを特徴とする、請求項１に記載のオーディオデコーディング方法。
前記レンダリング情報を生成する段階が、前記ミキシング情報内に含まれた時間情報を利用者命令に応じて等価の振幅情報に変換する段階を含むことを特徴とする、請求項１に記載のオーディオデコーディング方法。
前記レンダリング情報を生成する段階が、前記ミキシング情報内に含まれた振幅情報を利用者命令に応じて等価の時間情報に変換する段階をさらに含むことを特徴とする、請求項３に記載のオーディオデコーディング方法。
前記調和情報が、前記あらかじめ定められたオブジェクト信号のピッチ情報（ｐｉｔｃｈｉｎｆｏｒｍａｔｉｏｎ）、基本周波数情報及びドミナント周波数情報のうち少なくとも一つを含むことを特徴とする、請求項３に記載のオーディオデコーディング方法。
前記調和情報に基づいて前記あらかじめ定められたオブジェクト信号の利得を調節する段階をさらに含むことを特徴とする、請求項６に記載のオーディオデコーディング方法。
前記調和情報に基づいてあらかじめ定められた周波数バンド内のオブジェクト信号を補償する段階をさらに含むことを特徴とする、請求項６に記載のオーディオデコーディング方法。
前記空間情報と前記ダウンミックス信号間の遅延を補償する段階をさらに含むことを特徴とする、請求項１に記載のオーディオデコーディング方法。
入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出するデマルチプレクサと、
入力制御情報に基づいてレンダリング情報を生成するレンダリング部と、
前記オブジェクトベース付加情報及び前記レンダリング情報に基づいてチャネルベース付加情報を生成するトランスコーディング部と、
を含むことを特徴とする、オーディオデコーディング装置。
前記チャネルベース付加情報及び前記ダウンミックス信号に基づいてマルチチャネルオーディオ信号を生成するマルチチャネルデコーディング部をさらに含むことを特徴とする、請求項１０に記載のオーディオデコーディング装置。
前記制御データが、あらかじめ定められたオブジェクト信号を処理するための３Ｄ情報、ミキシング情報及び調和情報のうち少なくとも一つを含むことを特徴とする、請求項１０に記載のオーディオデコーディング装置。
前記レンダリング情報の生成の間に利用者命令に応じて、前記レンダリング部が、前記ミキシング情報中に含まれた時間情報を等価の振幅情報に変換することを特徴とする、請求項１２に記載のオーディオデコーディング装置。
前記レンダリング情報の生成の間に利用者命令に応じて、前記レンダリング部が、前記ミキシング情報中に含まれた振幅情報を等価の時間情報に変換することを特徴とする、請求項１２に記載のオーディオデコーディング装置。
前記調和情報が、前記あらかじめ定められたオブジェクト信号のピッチ情報、基本周波数情報及びドミナント周波数情報のうち少なくとも一つを含むことを特徴とする、請求項１２に記載のオーディオデコーディング装置。
前記レンダリング部が、前記調和情報に基づいて前記あらかじめ定められたオブジェクト信号の利得を調節することを特徴とする、請求項１５に記載のオーディオデコーディング装置。
前記レンダリング部が、前記調和情報に基づいてあらかじめ定められた周波数バンド内のオブジェクト信号を補償することを特徴とする、請求項１５に記載のオーディオデコーディング装置。
前記ダウンミックス信号と前記空間情報間の遅延を補償するバッファーをさらに含むことを特徴とする、請求項１０に記載のオーディオデコーディング装置。
入力オーディオ信号からオブジェクトベース付加情報及びダウンミックス信号を抽出する段階と、
入力制御データに基づいてレンダリング情報を生成する段階と、
前記オブジェクトベース付加情報及び前記レンダリング情報に基づいてチャネルベース付加情報を生成する段階と、を含むオーディオデコーディング方法を実行するためのコンピュータプログラムを記録した、コンピュータが読取りできる記録媒体。
前記オーディオデコーディング方法が、前記チャネルベース付加情報及び前記ダウンミックス信号を用いてマルチチャネルオーディオ信号を生成する段階をさらに含むことを特徴とする、請求項１９に記載のコンピュータ読取り可能記録媒体。