JP5485909B2

JP5485909B2 - オーディオ信号処理方法及び装置

Info

Publication number: JP5485909B2
Application number: JP2010541397A
Authority: JP
Inventors: ヒュンリム，ジェ; スーキム，ドン; ククリ，ヒュン; ヨンユン，スン; スクパン，ヘ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2007-12-31
Filing date: 2008-12-31
Publication date: 2014-05-07
Anticipated expiration: 2028-12-31
Also published as: AU2008344134B2; RU2439718C1; EP2229676B1; EP2229676A1; AU2008344134A1; KR20100086001A; KR101162275B1; US9659568B2; US20110015768A1; EP2229676A4; WO2009084918A1; JP2011509428A; CN101933086A; CA2711047A1; CA2711047C; CN101933086B

Description

本発明は、オーディオ信号の損失信号を処理する信号処理方法及び装置に関する。本発明は、広範囲のアプリケーションに適するものであるが、特に、オーディオ信号の損失信号の処理に適する。

一般に、マスキング（ｍａｓｋｉｎｇ）効果は、心理音響理論によるもので、大きさの大きい信号に隣接した小さい信号が大きい信号によって遮蔽されることによって、人間の聴覚構造がこれをよく認知できないという特性を用いるものである。このようなマスキング効果を用いることによって、オーディオ信号のエンコーディング時に一部のデータを損失するおそれがある。

従来のデコーダは、マスキング及び量子化による損失信号を補償するのに不十分であるという問題を有する。

したがって、本発明は、従来技術の制限及び欠点に起因する１つまたはそれより多い問題点を解決するオーディオ信号処理方法及び装置としてなされたものである。

本発明の目的は、マスキング過程及び量子化過程で損失した信号を非常に少ないビットの情報を用いて補償できる信号処理方法及び装置を提供することにある。

本発明の他の目的は、周波数ドメイン上のマスキング及び時間ドメイン上のマスキングなどの多様な方式を適宜組み合わせてマスキングを行うことができる信号処理方法及び装置を提供することにある。

本発明の更に他の目的は、音声信号及びオーディオ信号などのように互いに異なる特性を有する信号をその特性によって適切な方式で処理しながらも、ビット率を最小化することができる信号処理方法及び装置を提供することにある。

本発明のさらなる特徴および利点は、以下の説明に記述されており、その一部についてはこの説明から明らかであり、また、発明の一般として理解できるであろう。本発明の目的および他の利点は、添付の図面とともに記載された説明および請求項で特に指摘した構成によって理解および実現できるであろう。

本発明の目的に従い、これら及び他の利点を達成するために、オーディオ信号処理方法は、スペクトルデータ及び損失信号補償パラメータを獲得し；前記スペクトルデータに基づいて損失信号を検出し；前記損失信号補償パラメータに基づいて、ランダム信号を用いて前記損失信号に対応する第１の補償データを生成し；前記第１の補償データに対応するスケールファクタを生成し、前記第１の補償データに前記スケールファクタを適用して第２の補償データを生成することを含む。

好適には、前記損失信号は、前記スペクトルデータが基準値以下である信号に該当する。

好適には、前記損失信号補償パラメータは補償レベル情報を含み、前記第１の補償データのレベルは前記補償レベル情報に基づいて決定される。

好適には、前記スケールファクタは、スケールファクタ基準値及びスケールファクタ差分値を用いて生成されたもので、前記スケールファクタ基準値は前記損失信号補償パラメータに含まれる。

好適には、前記第２の補償データはスペクトル係数に該当する。

本発明の目的に従い、これら及び他の利点をさらに達成するために、オーディオ信号処理装置は、スペクトルデータ及び損失信号補償パラメータを獲得するデマルチプレクサと、前記スペクトルデータに基づいて損失信号を検出する損失信号検出ユニットと、前記損失信号補償パラメータに基づいて、ランダム信号を用いて前記損失信号に対応する第１の補償データを生成する補償データ生成ユニットと、前記第１の補償データに対応するスケールファクタを生成し、前記第１の補償データに前記スケールファクタを適用して第２の補償データを生成するリスケーリングユニットと、を含む。

本発明の目的に従い、これら及び他の利点をさらに達成するために、オーディオ信号処理方法は、マスキングしきい値に基づいてマスキング効果を適用して入力信号のスペクトル係数を量子化することによって、スケールファクタ及びスペクトルデータを生成し；前記入力信号のスペクトル係数、前記スケールファクタ及び前記スペクトルデータを用いて損失信号を決定し；前記損失信号を補償するための損失信号補償パラメータを生成することを含む。

好適には、前記損失信号補償パラメータは、補償レベル情報及びスケールファクタ基準値を含み、前記補償レベル情報は、前記損失信号のレベルと関連した情報に対応し、前記スケールファクタ基準値は、前記損失信号のスケーリングと関連した情報に対応する。

本発明の目的に従い、これら及び他の利点をさらに達成するために、オーディオ信号処理装置は、マスキングしきい値に基づいてマスキング効果を適用して入力信号のスペクトル係数を量子化することによって、スケールファクタ及びスペクトルデータを獲得する量子化ユニットと、前記入力信号のスペクトル係数、前記スケールファクタ及び前記スペクトルデータを用いて損失信号を決定し、前記損失信号を補償するための損失信号補償パラメータを生成する損失信号予測ユニットと、を含む。

好適には、前記補償パラメータは、補償レベル情報及びスケールファクタ基準値を含み、前記補償レベル情報は、前記損失信号のレベルと関連した情報に対応し、前記スケールファクタ基準値は、前記損失信号のスケーリングと関連した情報に対応する。

本発明の目的に従い、これら及び他の利点をさらに達成するために、デジタルオーディオデータを格納し、コンピュータで読み取り可能な格納媒体において、前記デジタルオーディオデータは、スペクトルデータ、スケールファクタ及び損失信号補償パラメータを含み、前記損失信号補償パラメータは、量子化による損失信号を補償するための情報として補償レベル情報を含み、前記補償レベル情報は前記損失信号のレベルと関連した情報に対応する。

前述の概略的な説明および後述の詳細な説明はともに例示的かつ典型例であり、請求された本発明についてさらなる説明を提供するものであることを理解すべきである。

本発明は、次のような効果と利点を提供する。

第一に、マスキング及び量子化過程で損失された信号をデコーディング過程で補償できるので、音質が向上するという効果がある。

第二に、損失信号を補償するために非常に少ないビットの情報のみが必要であるので、ビット数を著しく節減させることができる。

第三に、周波数ドメイン上のマスキング及び時間ドメイン上のマスキングなどの多様な方式でマスキングを行うことによって、マスキングによるビット節減を最大化しながらも、ユーザの選択によってマスキングによる損失信号を補償し、結果として、音質損失を最小化できるという効果がある。

第四に、音声信号の特性を有する信号は音声コーディング方式でデコーディングし、オーディオ信号の特性を有する信号はオーディオコーディング方式でデコーディングするので、各信号の特性に符合するデコーディング方式が適応的に選択されるという効果がある。

本発明の実施例に係る損失信号分析装置の構成図である。本発明の実施例に係る損失信号分析方法のフローチャートである。スケールファクタ及びスペクトルデータを説明するための図である。スケールファクタの適用範囲に対する各例を説明するための図である。図１のマスキング／量子化ユニットの詳細な構成図である。本発明の実施例に係るマスキング過程を説明するための図である。本発明の実施例に係る損失信号分析装置が適用されたオーディオ信号エンコーディング装置の第１の例を示す図である。本発明の実施例に係る損失信号分析装置が適用されたオーディオ信号エンコーディング装置の第２の例を示す図である。本発明の実施例に係る損失信号補償装置の構成図である。本発明の実施例に係る損失信号補償方法のフローチャートである。本発明の実施例に係る第１の補償データ生成過程を説明するための図である。本発明の実施例に係る損失信号補償装置が適用されたオーディオ信号デコーディング装置の第１の例を示す図である。本発明の実施例に係る損失信号補償装置が適用されたオーディオ信号デコーディング装置の第２の例を示す図である。

以下、添付の図面を参照して本発明の好適な実施例を詳細に説明する。

本発明において、次の用語は次のような基準で解釈され、記載されていない用語も下記の趣旨によって解釈される。「コーディング」は、場合によってエンコーディング又はデコーディングに解釈され、「情報」は、値、パラメータ、係数、成分などを総称する用語であって、場合によって異なる意味に解釈されることもあり、本発明がこれに限定されることはない。

ここで、オーディオ信号は、広義では、ビデオ信号と区分される概念として、再生時に聴覚で識別可能な信号を意味し、狭義では、音声信号と区分される概念として、音声特性のない信号又は音声特性の少ない信号を意味する。

本発明に係るオーディオ信号処理方法及び装置は、損失信号分析装置及び方法又は損失信号補償装置及び方法になり、さらに、この装置及び方法が適用されたオーディオ信号エンコーディング方法及び装置又はオーディオ信号デコーディング方法及び装置になる。以下、損失信号分析／補償装置及び方法について説明し、オーディオ信号エンコーディング／デコーディング装置が行うオーディオ信号エンコーディング／デコーディング方法について説明する。

図１は、本発明の実施例に係るオーディオ信号エンコーディング装置の構成を示す図であり、図２は、本発明の実施例に係るオーディオ信号エンコーディング方法の順序を示す図である。

まず、図１及び図２のうち図１を参照すれば、損失信号分析装置１００は、損失信号予測ユニット１２０を含み、マスキング／量子化ユニット１１０をさらに含むことができる。ここで、損失信号予測ユニット１２０は、損失信号決定ユニット１２２及びスケールファクタコーディングユニット１２４を含むことができる。以下、図１及び図２を参照しながら説明する。

まず、マスキング／量子化ユニット１１０は、心理音響モデルを用いてスペクトルデータに基づいてマスキングしきい値を生成する。そして、マスキング／量子化ユニット１１０は、このマスキングしきい値を用いてダウンミックス（ＤＭＸ）に該当するスペクトル係数を量子化することによって、スケールファクタ及びスペクトルデータを獲得する（Ｓ１１０段階）。ここで、スペクトル係数は、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＴｒａｎｓｆｏｒｍ）を通して獲得されたＭＤＣＴ係数であるが、本発明がこれに限定されることはない。ここで、マスキングしきい値は、マスキング効果を適用するためのものである。

マスキング効果は、心理音響理論によるもので、大きさの大きい信号に隣接した小さい信号が大きい信号によって遮蔽されることによって、人間の聴覚構造がこれをよく認知できないという特性を用いるものである。

例えば、周波数帯域に該当する各データのうち最も大きい信号が中間に存在し、この信号より遥かに小さい大きさの信号が周辺にいくつか存在する。ここで、最も大きい信号がマスカー（ｍａｓｋｅｒ）になり、このマスカーを基準にしてマスキングカーブが描かれる。このマスキングカーブによって遮蔽される小さい信号は、マスキングされた信号又はマスキー（ｍａｓｋｅｅ）になる。マスキングは、このマスキングされた信号を除外し、残りの信号のみを有効な信号として残すことである。このとき、マスキング効果で除去された各損失信号は、原則的に０にセッティングされ、場合によってデコーダで復元されるが、これについては、本発明に係る損失信号補償方法及び装置についての説明と共に後で説明する。

一方、本発明に係るマスキング方式には多様な実施例が存在するが、これについての具体的な説明は、図５及び図６を参照して後で具体的に説明する。

上述したように、マスキング効果を適用するためにはマスキングしきい値が用いられるが、マスキングしきい値が用いられる過程は次の通りである。

各スペクトル係数はスケールファクタバンド単位で分けられるが、このスケールファクタバンド別にエネルギー（Ｅ_n）を求めることができる。このときに得られた各エネルギー値を対象にして心理音響モデル理論によるマスキングスキームを適用することができる。そして、スケールファクタ単位のエネルギー値である各マスカーからマスキングカーブを得る。そして、これを連結すれば、全体的なマスキングカーブを得ることができる。このマスキングカーブを参照し、各スケールファクタバンド別に量子化の基本になるマスキングしきい値（Ｅ_th）を獲得することができる。

マスキング／量子化ユニット１１０は、前記マスキングしきい値を用いてマスキング及び量子化を行うことによって、スペクトル係数からスケールファクタ及びスペクトルデータを獲得するが、まず、スペクトル係数は、下記の数式１のように、整数であるスケールファクタ及び整数であるスペクトルデータを通して類似した形態で表現される。このように整数である二つのファクタで表現されることが量子化過程である。

ここで、「Ｘ」はスペクトル係数、「ｓｃａｌｅｆａｃｔｏｒ」はスケールファクタ、「ｓｐｅｃｔｒａｌｄａｔａ」はスペクトルデータである。

数式１によれば、等号が使用されていないことが分かる。すなわち、スケールファクタとスペクトルデータが整数のみを有し、その値の解像度によって任意のＸを全て表現できないことから、等号が成立しない。したがって、数式１の右辺は、下記の数式２のようにＸ’で表現される。

図３は、本発明の実施例に係る量子化過程を説明するための図であり、図４は、スケールファクタの適用範囲に対する各例を説明するための図である。

まず、図３には、スペクトル係数（ａ、ｂ、ｃなど）をスケールファクタ（Ａ、Ｂ、Ｃなど）及びスペクトルデータ（ａ’、ｂ’、ｃ’など）で表す過程が概念的に示されている。スケールファクタ（Ａ、Ｂ、Ｃなど）は、グループ（特定バンド又は特定区間）に適用されるファクタである。このように、所定のグループ（例えば、スケールファクタバンド）を代表するスケールファクタを用いて、そのグループに属する各係数の大きさを一括的に変換することによって、コーディング効率を高めることができる。

一方、このようにスペクトル係数を量子化する過程でエラーが発生しうるが、このエラー信号は、次の数式３のように元の係数Ｘと量子化による値Ｘ’との差として見ることができる。

ここで、Ｘは数式１、Ｘ’は数式２で表現された通りである。

前記エラー信号（Ｅｒｒｏｒ）に対応するエネルギーが量子化エラー（Ｅ_error）である。

このように獲得されたマスキングしきい値（Ｅ_th）及び量子化エラー（Ｅ_error）を用いて下記の数式４に表示された条件を満足するように、スケールファクタ及びスペクトルデータを求める。

ここで、Ｅ_thはマスキングしきい値で、Ｅ_errorは量子化エラーである。

すなわち、前記条件を満足すれば、量子化エラーがマスキングしきい値より小さくなるので、量子化によるノイズのエネルギーはマスキング効果によって遮蔽される。すなわち、量子化によるノイズは聴取者によって聞き取れないことがある。

このように前記条件を満足するようにスケールファクタ及びスペクトルデータを生成して伝送すれば、デコーダは、これを用いて元のオーディオ信号とほぼ同一の信号を生成することができる。

しかし、ビットレートの不足によって量子化の解像度が充分でないことから前記条件を満足しない場合、音質劣化が発生するおそれがある。特に、あらゆるスケールファクタバンド内に存在するスペクトルデータが全て０になる場合、音質劣化が著しく感じられる。また、心理音響モデルによる前記条件を満足するとしても、特定人には音質劣化が感じられることもある。このようにスペクトルデータが０になってはならない区間で０に変換される信号などは、元の信号から損失される信号になる。

図４には、スケールファクタが適用される対象に対する多様な例が示されている。

まず、図４の（Ａ）を参照すれば、特定フレーム（ｆｒａｍｅ_N）に属するｋ個のスペクトルデータが存在するとき、スケールファクタ（ｓｃｆ）は、一つのスペクトルデータに対応するファクタであることが分かる。図４の（Ｂ）を参照すれば、一つのフレーム内にスケールファクタバンド（ｓｆｂ）が存在し、スケールファクタの適用対象は、特定スケールファクタバンド内に存在するスペクトルデータであることが分かる。一方、図４の（Ｃ）を参照すれば、スケールファクタの適用対象は、特定フレーム内に存在するスペクトルデータ全体であることが分かる。すなわち、スケールファクタの適用対象は多様であるが、一つのスペクトルデータ、一つのスケールファクタバンドに存在する多数のスペクトルデータ、一つのフレーム内に存在する多数のスペクトルデータのうち一つである。

このように、マスキング／量子化ユニットは、上記のような方式でマスキング効果を適用してスケールファクタ及びスペクトルデータを獲得する。

再び図１及び図２を参照すれば、損失信号予測ユニット１２０の損失信号決定ユニット１２２は、元のダウンミックス（スペクトル係数）と量子化されたオーディオ信号（スケールファクタ及びスペクトルデータ）を分析することによって、損失信号を決定する（Ｓ１２０段階）。

具体的には、スケールファクタ及びスペクトルデータを用いてスペクトル係数を復元し、この係数と元のスペクトル係数との差を求め、前記数式３のようなエラー信号（Ｅｒｒｏｒ）を獲得する。前記数式４のような条件下でスケールファクタとスペクトルデータを決定する。すなわち、補正されたスケールファクタ及び補正されたスペクトルデータを出力する。場合（例えば、ビットレートが低い場合）によっては、数式４のような条件にしたがわないこともある。

このようにスケールファクタとスペクトルデータを確定した後、これによる損失信号を決定する。損失信号は、条件にしたがって基準値以下の信号になったり、条件から逸脱するが、任意に基準値にセッティングされる信号になる。ここで、基準値は０であるが、本発明がこれに限定されることはない。

損失信号決定ユニット１２２は、上記のように損失信号を決定した後、この損失信号に対応する補償レベル情報を生成する。このとき、補償レベル情報は、損失信号のレベルに対応する情報である。デコーダが補償レベル情報を用いて損失信号を補償する場合、補償レベル情報に対応する値より小さい絶対値を有する損失信号に補償することができる。

スケールファクタコーディングユニット１２４は、スケールファクタを受信し、特定領域に対応するスケールファクタに対してスケールファクタ基準値及びスケールファクタ差分値を生成する（Ｓ１４０段階）。ここで、特定領域は、損失信号が存在する領域のうち一部に対応する領域である。例えば、特定バンドに属する情報がいずれも損失信号に対応する領域に該当するが、本発明がこれに限定されることはない。

一方、前記スケールファクタ基準値は、フレームごとに決定される値になる。そして、前記スケールファクタ差分値は、スケールファクタからスケールファクタ基準値を引いた値であって、スケールファクタが適用される対象（例えば、フレーム、スケールファクタバンド、各サンプルなど）ごとに決定される値であるが、本発明がこれに限定されることはない。

上述したＳ１３０段階で生成された補償レベル情報及びＳ１４０段階で生成されたスケールファクタ基準値が損失信号補償パラメータとしてデコーダに伝送され、スケールファクタ差分値とスペクトルデータは元のスキームとしてデコーダに伝送される。

以上、損失信号の予測過程について説明したが、以下では、上述したように、図５及び図６を参照しながら本発明の実施例に係るマスキング方式について具体的に説明する。

マスキング方式における多様な実施例

図５を参照すれば、マスキング／量子化ユニット１２０は、周波数マスキング部１１２、時間マスキング部１１４、マスカー決定部１１６及び量子化部１１８を含むことが分かる。

周波数マスキング部１１２は、周波数ドメイン上でのマスキングを処理することによってマスキングしきい値を算出し、時間マスキング部１１４は、時間ドメイン上でのマスキングを処理することによってマスキングしきい値を算出する。マスカー決定部１１６は、周波数ドメイン上又は時間ドメイン上でのマスカーを決定する役割を担当する。また、量子化部１１８は、周波数マスキング部１１２又は時間マスキング部１１４によって算出されたマスキングしきい値を用いてスペクトル係数を量子化する。

一方、図６の（Ａ）を参照すれば、時間ドメインのオーディオ信号が存在することが分かる。オーディオ信号は、特定数のサンプルをグルーピングしたフレーム単位で処理されるが、図６の（Ｂ）は、各フレームのデータに対して周波数変換を行った結果を示す図である。

図６の（Ｂ）を参照すれば、一つのフレームに対応するデータが一つのバー形態で表示されており、縦軸は周波数軸である。一つのフレーム内で各バンドに対応するデータは、バンド単位で周波数ドメイン上のマスキング処理が完了した結果である。すなわち、周波数ドメイン上のマスキング処理は、図５の周波数マスキング部１１２によって行われる。

一方、ここで、バンドは、臨界帯域（ｃｒｉｔｉｃａｌｂａｎｄ：クリティカルバンド）に該当するが、臨界帯域は、人間の聴覚構造において周波数領域全体に対する刺激を独立的に受け入れる各区間の単位を意味する。任意の臨界帯域内に特定マスカーが存在し、そのバンド内でマスキング処理が行われるが、このマスキング処理は、隣接した臨界帯域内の他の信号には影響を与えない。

一方、図６の（Ｃ）は、各バンドごとに存在するデータのうち特定バンドに該当するデータの大きさを見やすくするために縦軸で表示した図である。

図６の（Ｃ）を参照すれば、横軸は時間軸であって、フレーム別（Ｆ_n-1、Ｆ_n、Ｆ_n+1）にデータの大きさが縦軸方向に表示されていることが分かる。このフレーム別データがそれぞれ独立的にマスカーとしての機能を行い、このマスカーを基準にしてマスキングカーブが描かれる。このマスキングカーブを基準にして時間方向にマスキング処理を行うことができる。ここで、時間ドメイン上のマスキングは、図５の時間マスキング部１１４によって行われる。

以下、図５の各構成要素がそれぞれの機能を行うための多様な方式について説明する。

１．マスキング処理方向

図６の（Ｃ）には、マスカーを基準にして右側方向のみが示されているが、時間マスキング部１１４は、時間的に順方向のマスキング処理だけでなく、逆方向のマスキング処理も行うことができる。時間軸上で隣接した未来に大きな信号が存在する場合、それより時間的にやや先んじた現在信号のうち大きさの小さい信号は、人間の聴覚機関に影響を及ぼさないことがある。具体的には、その小さい信号を認知する前に、隣接した未来の大きな信号によってその信号が埋め込まれることがある。もちろん、逆方向にマスキング効果が起きる時間範囲は、順方向にマスキング効果が起きる時間範囲より短い。

２．マスカー算出基準

マスカー決定部１１６は、マスカーを決定するにおいて、最も大きい信号をマスカーとして決定することができ、該当臨界帯域に属する各信号に基づいてマスカーの大きさを決定することができる。例えば、臨界帯域の信号全体に対して平均値を求めたり、絶対値の平均を求めたり、エネルギーの平均を求めることによってマスカーの大きさを決定することもでき、その他の代表値をマスカーとして使用することもできる。

３．マスキング処理単位

周波数マスキング部１１２は、周波数変換された結果をマスキング処理するにおいて、マスキング処理単位を異ならせることができる。具体的に、周波数変換の結果として、同一フレーム内でも時間上に連続した複数の信号が生成される。例えば、ウェーブレットパケット変換（ＷａｖｅｌｅｔＰａｃｋｅｔＴｒａｎｓｆｏｒｍ：ＷＰＴ）、ＦＶ―ＭＬＴ（ＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）などの周波数変換の場合、一つのフレーム内でも同一の周波数領域で時間上に連続する複数の信号が生成される。このような周波数変換の場合、図６に示したフレーム単位で存在していた各信号がより小さい単位で存在するようになり、マスキング処理は、この小さい単位の各信号間で行われる。

４．マスキング処理の遂行条件（マスカーのしきい値、マスキングカーブ形態）

マスカー決定部１１６は、マスカーを決定するにおいて、マスカーのしきい値を設定したり、マスキングカーブ形態を決定することができる。

周波数変換を行えば、一般的に高周波に行くほど各信号の値が徐々に小さくなる。このような小さい信号は、マスキング処理を行わないとしても、量子化過程で０になる。また、各信号の大きさが小さい分だけマスカーの大きさも小さいので、マスカーによって除去される効果がなく、マスキング効果の意味がなくなる。

このようにマスキング処理が無意味になる場合があるので、マスカーのしきい値を設定することによって、マスカーが適正な大きさ以上である場合のみにマスキング処理を行うことができる。このしきい値は、あらゆる周波数範囲に対して同一である。また、高周波に行くほど信号の大きさが徐々に小さくなる特性を用いて、このしきい値は、その大きさが高周波に行くほど徐々に小さくなるように設定することができる。

また、マスキングカーブの形状は、周波数にしたがって緩慢な傾斜又は急な傾斜を有するように説明することができる。

また、信号の大きさが不均一な信号、すなわち、トランジェント信号が存在する部分でマスキング効果がより大きく表れるので、トランジェント信号であるか、それともステーショナリー信号であるかに対する特性に基づいてマスカーのしきい値を定めることができる。また、このような特性に基づいてマスカーのカーブ形態も決定することができる。

５．マスキング処理順序

上述したように、マスキング処理としては、周波数マスキング部１１２による周波数ドメイン上の処理、及び時間マスキング部１１４による時間ドメイン上の処理がある。これらを同時に使用する場合、次のような順序で処理することができる。

すなわち、ｉ）周波数ドメイン上のマスキングを先に処理し、その次に時間ドメイン上のマスキングを適用したり、ii）周波数変換を通して時間順に配列された信号を対象にしてマスキングを先に適用し、その次に周波数軸上にマスキングを処理したり、iii ）周波数変換を通して得られた信号を対象にして周波数軸上のマスキング理論と時間軸上のマスキング理論を同時に適用し、二つの方法によって得られたカーブを通して得られた値でマスキングを適用したり、iv）上記の三つの方法を組み合わせて行うことができる。

以下では、図７を参照しながら図１及び図２を参照して説明した本発明の実施例に係る損失信号分析装置が適用されたオーディオ信号エンコーディング装置及び方法の第１の例について説明する。

図７を参照すれば、オーディオ信号エンコーディング装置２００は、複数チャネルエンコーダ２１０、オーディオ信号エンコーダ２２０、音声信号エンコーダ２３０、損失信号分析装置２４０及びマルチプレクサ２５０を含む。

複数チャネルエンコーダ２１０は、複数のチャネル信号（二つ以上のチャネル信号）（以下、マルチャネル信号）の入力を受け、ダウンミックスを行うことによってモノ又はステレオのダウンミックス信号を生成し、ダウンミックス信号をマルチャネル信号にアップミックスするために必要な空間情報を生成する。ここで、空間情報は、チャネルレベル差情報、チャネル間相関情報、チャネル予測係数及びダウンミックスゲイン情報などを含むことができる。

ここで、複数チャネルエンコーダ２１０で生成されたダウンミックス信号は、時間ドメインの信号、又は周波数変換が行われた周波数ドメインの情報である。さらに、ダウンミックス信号がバンド別スペクトル係数である場合もあるが、本発明がこれに限定されることはない。

オーディオ信号エンコーディング装置２００がモノ信号を受信する場合、複数チャネルエンコーダ２１０がモノ信号をダウンミックスせずにバイパスできることは当然である。

一方、オーディオ信号エンコーディング装置２００は、帯域拡張エンコーダ（図示せず）をさらに含むことができる。帯域拡張エンコーダ（図示せず）は、ダウンミックス信号の一部帯域（例えば、高周波帯域）のスペクトルデータを除外し、この除外されたデータを復元するための帯域拡張情報を生成することができる。したがって、デコーダでは、残りの帯域のダウンミックスと帯域拡張情報のみで全帯域のダウンミックスを復元することができる。

オーディオ信号エンコーダ２２０は、ダウンミックス信号の特定フレーム又は特定セグメントが大きいオーディオ特性を有する場合、オーディオコーディング方式によってダウンミックス信号をエンコーディングする。ここで、オーディオコーディング方式は、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）標準又はＨＥ―ＡＡＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）標準にしたがうものであるが、本発明がこれに限定されることはない。一方、オーディオ信号エンコーダ２２０は、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＴｒａｎｓｆｏｒｍ）エンコーダに該当する。

音声信号エンコーダ２３０は、ダウンミックス信号の特定フレーム又は特定セグメントが大きい音声特性を有する場合、音声コーディング方式にしたがってダウンミックス信号をエンコーディングする。ここで、音声コーディング方式は、ＡＭＲ―ＷＢ（Ａｄａｐｔｉｖｅｍｕｌｔｉ―ｒａｔｅＷｉｄｅ―Ｂａｎｄ）標準にしたがうものであるが、本発明がこれに限定されることはない。

一方、音声信号エンコーダ２３０は、線形予測符号化（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）方式をさらに用いることができる。ハーモニック信号が時間軸上で高い重複性を有する場合、過去の信号から現在の信号を予測する線形予測によってモデリングされるが、この場合、線形予測符号化方式を採択すれば、符号化効率を高めることができる。一方、音声信号エンコーダ２３０はタイムドメインエンコーダに該当する。

損失信号分析装置２４０は、オーディオコーディング方式又は音声コーディング方式でコーディングされたスペクトルデータを受信し、マスキング及び量子化を行い、これによて損失された信号を補償するための損失信号補償パラメータを生成する。一方、損失信号分析装置２４０は、オーディオ信号エンコーダ２２０によってコーディングされたスペクトルデータのみに対して損失信号補償パラメータを生成することができる。損失信号分析装置２４０が行う機能及び段階は、図１及び図２を参照して説明した損失信号分析装置１００が行う機能及び段階と同一である。

マルチプレクサ２５０は、空間情報、損失信号補償パラメータ、スケールファクタ（又はスケールファクタ差分値）及びスペクトルデータなどを多重化してオーディオ信号ビットストリームを生成する。

図８は、本発明の実施例に係る損失信号分析装置が適用されたオーディオ信号エンコーディング装置の第２の例を示す図である。

図８を参照すれば、オーディオ信号エンコーディング装置３００は、ユーザインタフェース３１０及び損失信号分析装置３２０を含み、マルチプレクサ３３０をさらに含むことができる。

ユーザインタフェース３１０は、ユーザから入力信号を受信し、損失信号分析装置３２０に損失信号分析に関する命令信号を伝達する。具体的には、ユーザが損失信号予測モードを選択した場合、ユーザインタフェース３１０は、損失信号分析に関する命令信号を損失信号分析装置３２０に伝達する。また、ユーザがロービットレートモードを選択した場合、ロービットレートを合わせるために、オーディオ信号のうち一部が強制に０にセッティングされる。したがって、ユーザインタフェース３１０は、損失信号分析に関する命令信号を損失信号分析装置３２０に伝達することができる。また、ユーザインタフェース３１０は、ビットレートに関する情報のみを損失信号分析装置３２０にそのまま伝達することもできる。

損失信号分析装置３２０は、図１及び図２を参照して説明した損失信号分析装置１００とほぼ類似している。ただし、ユーザインタフェース３１０から損失信号分析に関する命令信号を受信した場合のみに損失信号分析装置３２０は損失信号補償パラメータを生成する。また、損失信号分析に関する命令信号の代わりに、ビットレートに関する情報のみを受信した場合、損失信号分析装置３２０はこれに基づいて損失信号補償パラメータを生成するかどうかを決定し、該当段階を行うことができる。

マルチプレクサ３３０は、損失信号分析装置３２０によって生成された量子化されたスペクトルデータ（スケールファクタを含む）及び損失信号補償パラメータを多重化してビットストリームを生成する。

図９は、本発明の実施例に係る損失信号補償装置の構成を示す図であり、図１０は、本発明の実施例に係る損失信号補償方法の順序を示す図である。

まず、図９を参照すれば、本発明の実施例に係る損失信号補償装置４００は、損失信号検出ユニット４１０及び補償データ生成ユニット４２０を含み、スケールファクタ獲得ユニット４３０及びリスケーリングユニット４４０をさらに含むことができる。以下、図９及び図１０を参照しながら損失信号補償装置４００がオーディオ信号の損失を補償する方法について説明する。

損失信号検出ユニット４１０は、スペクトルデータに基づいて損失信号を検出する。損失信号は、該当スペクトルデータが予め決定された値（例えば、０）以下である信号に該当する。この信号は、サンプルに対応するビン（ｂｉｎ）単位である。このような損失信号は、上述したように、マスキング及び量子化過程で所定値以下になるために発生する。このように損失信号が発生し、特に信号が０である区間が発生すれば、場合によって音質劣化をもたらすようになる。マスキング効果が人間の聴覚構造を通した認知特性を用いるものであるとしても、全ての人がマスキング効果による音質劣化を認知できないわけではない。また、信号の大きさ変化が激しいトランジェント区間でマスキング効果が集中的に適用される場合、部分的な音質劣化が生じるようになる。したがって、このような損失区間に適切な信号を充填することによって音質を向上させることができる。

補償データ生成ユニット４２０は、損失信号補償パラメータのうち損失信号補償レベル情報を用いて、ランダム信号を用いて前記損失信号に対応する第１の補償データを生成する（Ｓ２２０段階）。第１の補償データは、補償レベル情報に対応する大きさのランダム信号である。

図１１は、本発明の実施例に係る第１の補償データ生成過程を説明するための図である。図１１の（Ａ）は、損失された各信号の各バンド別スペクトルデータ（ａ’、ｂ’、ｃ’など）を示す図であり、図１１の（Ｂ）は、第１の補償データのレベル範囲を示す図である。具体的には、補償データ生成ユニット４２０は、補償レベル情報に対応する特定値（例えば、２）以下のレベルを有する第１の補償データを生成することができる。

スケールファクタ獲得ユニット４３０は、スケールファクタ基準値とスケールファクタ差分値を用いてスケールファクタを生成する（Ｓ２３０段階）。ここで、スケールファクタは、エンコーダでスペクトル係数をスケーリングするための情報である。ここで、損失信号基準値は、損失信号が存在する区間のうち一部の区間に対応する値であるが、例えば、サンプル全体が０からなるバンドに対応する。前記一部の区間に対しては、スケールファクタ差分値にスケールファクタ基準値が組み合わされる（例えば、加算される）ことによってスケールファクタが獲得され、その残りの区間に対しては、伝送されたスケールファクタ差分値がそのままスケールファクタになる。

リスケーリングユニット４４０は、第１の補償データ又は伝送されたスペクトルデータをスケールファクタでリスケーリングすることによって、第２の補償データを生成する（Ｓ２４０段階）。具体的には、リスケーリングユニット４４０は、損失信号が存在する領域に対しては第１の補償データをリスケーリングし、その他の領域に対しては伝送されたスペクトルデータをリスケーリングする。第２の補償データは、スペクトルデータ及びスケールファクタから生成されたスペクトル係数に該当する。このスペクトル係数は、後で説明するオーディオ信号デコーダ又は音声信号デコーダに入力される。

図１２は、本発明の実施例に係る損失信号補償装置が適用されたオーディオ信号デコーディング装置の第１の例を示す図である。

図１２を参照すれば、オーディオ信号デコーディング装置５００は、デマルチプレクサ５１０、損失信号補償装置５２０、オーディオ信号デコーダ５３０、音声信号デコーダ５４０及び複数チャネルデコーダ５５０を含む。

デマルチプレクサ５１０は、オーディオ信号ビットストリームからスペクトルデータ、損失信号補償パラメータ及び空間情報などを抽出する。

損失信号補償装置５２０は、伝送されたスペクトルデータ及び損失信号補償パラメータに基づいて、ランダム信号を用いて損失信号に対応する第１の補償データを生成し、第１の補償データに前記スケールファクタを適用することによって第２の補償データを生成する。損失信号補償装置５２０は、図９及び図１０を参照して説明した損失信号補償装置４００とほぼ同一の機能を行う構成要素である。一方、損失信号補償装置５２０は、オーディオ特性を有するスペクトルデータのみに対して損失復元信号を生成することができる。

一方、オーディオ信号デコーディング装置５００は、帯域拡張デコーダ（図示せず）をさらに含むことができる。帯域拡張デコーダ（図示せず）は、損失復元信号に対応するスペクトルデータのうち一部又は全部を用いて他の帯域（例えば、高周波帯域）のスペクトルデータを生成する。このとき、エンコーダから伝送された帯域拡張情報が用いられる。

オーディオ信号デコーダ５３０は、損失復元信号に対応するスペクトルデータ（場合によって、帯域拡張デコーダによって生成されたスペクトルデータを含む）のオーディオ特性が大きい場合、オーディオコーディング方式でスペクトルデータをデコーディングする。ここで、オーディオコーディング方式は、上述したように、ＡＡＣ標準、ＨＥ―ＡＡＣ標準にしたがう。

音声信号デコーダ５４０は、前記スペクトルデータの音声特性が大きい場合、音声コーディング方式でダウンミックス信号をデコーディングする。音声コーディング方式は、上述したように、ＡＭＲ―ＷＢ標準にしたがうが、本発明がこれに限定されることはない。

複数チャネルデコーダ５５０は、デコーディングされたオーディオ信号（すなわち、デコーディングされた損失復元信号）がダウンミックスである場合、空間情報を用いてマルチャネル信号（ステレオ信号を含む）の出力チャネル信号を生成する。

図１３は、本発明の実施例に係る損失信号補償装置が適用されたオーディオ信号デコーディング装置の第２の例を示す図である。

図１３を参照すれば、オーディオ信号デコーディング装置６００は、デマルチプレクサ６１０、損失信号補償装置６２０及びユーザインタフェース６３０を含む。

デマルチプレクサ６１０は、ビットストリームを受信し、これから損失信号補償パラメータ及び量子化されたスペクトルデータなどを抽出する。もちろん、スケールファクタ（差分値）がさらに抽出される。

損失信号補償装置６２０は、図９及び図１０を参照して説明した損失信号補償装置４００とほぼ同一の機能を行う装置である。ただし、損失信号補償パラメータがデマルチプレクサ６１０から受信された場合、損失信号補償装置６２０はこの事実をユーザインタフェース６３０に知らせる。ユーザインタフェース６３０から損失信号補償に対する命令信号が受信された場合、損失信号補償装置６２０は損失信号を補償する機能を行う。

ユーザインタフェース６３０は、損失信号補償装置６２０から損失信号補償パラメータの存在に対する情報が受信された場合、ディスプレイなどによって表示することによって、ユーザにその情報の存在を知らせる。

そして、ユーザによって損失信号補償モードが選択された場合、ユーザインタフェース６３０は、損失信号補償装置６２０に損失信号補償に対する命令信号を伝達する。このように損失信号補償装置が適用されたオーディオ信号デコーディング装置は、上記のような構成要素を備えることによって、ユーザの選択によって損失信号を補償したり、損失信号を補償しなかったりする。

本発明に係るオーディオ信号処理方法は、コンピュータで実行されるためのプログラムで製作され、コンピュータで読み取り可能な記録媒体に格納される。また、本発明に係るデータ構造を有するマルチメディアデータも、コンピュータで読み取り可能な記録媒体に格納される。前記コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読まれるデータが格納されるあらゆる種類の格納装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ―ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ格納装置などがあり、キャリアウェーブ（例えば、インターネットを介した伝送）の形態で具現されるものも含む。また、前記エンコーディング方法によって生成されたビットストリームは、コンピュータで読み取り可能な記録媒体に格納されたり、有無線通信網を用いて伝送される。

以上のように、本発明を限定された実施例と図面によって説明したが、本発明がこれによって限定されることはなく、本発明の属する技術分野で通常の知識を有する者によって本発明の技術思想と下記に記載する特許請求の範囲の均等範囲内で多様な修正及び変形が可能であることは当然である。

本発明は、オーディオ信号をエンコーディング及びデコーディングするのに適用される。

Claims

オーディオ信号ビットストリームからスペクトルデータ及び損失信号補償パラメータを抽出するステップであって、前記損失信号補償パラメータは補償レベル情報及びスケールファクタ基準値を含む、ステップと、
前記スペクトルデータに基づいて損失信号を検出するステップと、
前記補償レベル情報に基づいて、ランダム信号を用いて前記損失信号に対応する第１の補償データを生成するステップであって、前記第１の補償データのレベルは前記補償レベル情報に基づいて決定される、ステップと、
スケールファクタが０に量子化されたすべてのスペクトルデータサンプルを有するバンドに対応するとき、前記スケールファクタ基準値にスケールファクタ差分値を加えることによって前記スケールファクタを生成するステップと、
前記第１の補償データに前記スケールファクタを適用して第２の補償データを生成するステップと、
を有するオーディオ信号処理方法。
前記損失信号は、前記スペクトルデータが基準値以下である信号に該当する、請求項１に記載のオーディオ信号処理方法。
前記スケールファクタが０に量子化されたすべてのスペクトルデータサンプルを有する前記バンドに対応しないとき、前記スケールファクタ差分値に基づいてスケールファクタを生成するステップを更に有し、
前記補償レベル情報は前記損失信号のレベルに対応する、請求項１に記載のオーディオ信号処理方法。
前記第２の補償データはスペクトル係数に該当する、請求項１に記載のオーディオ信号処理方法。
オーディオ信号ビットストリームからスペクトルデータ及び損失信号補償パラメータを抽出するデマルチプレクサであって、前記損失信号補償パラメータは補償レベル情報及びスケールファクタ基準値を含む、デマルチプレクサと、
前記スペクトルデータに基づいて損失信号を検出する損失信号検出ユニットと、
前記補償レベル情報に基づいて、ランダム信号を用いて前記損失信号に対応する第１の補償データを生成する補償データ生成ユニットであって、前記第１の補償データのレベルは前記補償レベル情報に基づいて決定される、補償データ生成ユニットと、
スケールファクタが０に量子化されたすべてのスペクトルデータサンプルを有するバンドに対応するとき、前記スケールファクタ基準値にスケールファクタ差分値を加えることによって前記スケールファクタを生成し、前記第１の補償データに前記スケールファクタを適用して第２の補償データを生成するリスケーリングユニットと、
を備えるオーディオ信号処理装置。
前記損失信号は、前記スペクトルデータが基準値以下である信号に該当する、請求項５に記載のオーディオ信号処理装置。
前記リスケーリングユニットは、前記スケールファクタが０に量子化されたすべてのスペクトルデータサンプルを有する前記バンドに対応しないとき、前記スケールファクタ差分値に基づいてスケールファクタを生成し、
前記補償レベル情報は前記損失信号のレベルに対応する、請求項５に記載のオーディオ信号処理装置。
スケールファクタ基準値及びスケールファクタ差分値を用いて前記スケールファクタを生成するスケールファクタ獲得ユニットをさらに含み、
前記スケールファクタ基準値は前記損失信号補償パラメータに含まれる、請求項５に記載のオーディオ信号処理装置。
前記第２の補償データはスペクトル係数に該当する、請求項５に記載のオーディオ信号処理装置。