JP3926399B2

JP3926399B2 - オーディオ信号コーディング中にノイズ置換を信号で知らせる方法

Info

Publication number: JP3926399B2
Application number: JP50619399A
Authority: JP
Inventors: ユルゲンヘルレ; ウヴェグブル; アンドレアスエーレット; マルチンディーツ; ボドタイヒマン; オリファークンツ; カールハインツブランデンブルク; ハインツゲルホイザー
Original assignee: フラウンホーファー−ゲゼルシャフト・ツア・フォルデルング・デア・アンゲヴァンテン・フォルシュング・エー・ファウ
Priority date: 1997-07-14
Filing date: 1998-03-13
Publication date: 2007-06-06
Anticipated expiration: 2018-03-13
Also published as: US6766293B1; JP2005049889A; PT931386E; DE19730129A1; EP0931386B1; DE19730129C2; JP2000515266A; CA2284220A1; AU7035298A; ES2150313T3; GR3033861T3; JP3878952B2; DK0931386T3; DE59800189D1; EP0931386A1; KR100304055B1; KR20000070280A; WO1999004505A1; ATE194440T1; AU716982B2

Description

【０００１】
本願発明はオーディオコーディング方法、特に、高品質のオーディオ信号のデータが縮小された表現のための、ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−２ＡＡＣ等のＩＳＯ／ＭＰＥＧ標準によるオーディオコーディング方法に関する。
ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐ（ＭＰＥＧ）としても知られる標準化団体ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１は、低データレートでのデジタルビデオおよびオーディオコーディングの枠組みを規格化するために、１９８８年に設立された。１９９２年１１月、最初の規格段階がＭＰＥＧ−１標準によって完成された。ＩＳＯ１１１７２−３において規格化されているＭＰＥＧ−１によるオーディオコーディングシステムは、サンプリング周波数３２ｋＨｚ、４４．１ｋＨｚおよび４８ｋＨｚで、１チャンネルまたは２チャンネルのステレオ方式で作動する。ＭＰＥＧ−１レイヤーＩＩ標準は、国際電気通信連合によって規定されているように、１チャンネルにつき１２８ｋｂ／ｓのデータレートで、ラジオ品質を送信する。
【０００２】
第２の開発段階において、ＭＰＥＧの目的は、現存のＭＰＥＧ−１システムと後方互換性があるＭＰＥＧ−１オーディオの多重チャンネル拡張を規定すること、またＭＰＥＧ−１よりも低いサンプリング周波数（１６ｋＨｚ、２２．５ｋＨｚ、２４ｋＨｚ）でのオーディオコーディング標準を定義することであった。後方互換性のある標準（ＭＰＥＧ−２ＢＣ）およびより低いサンプリング周波数の標準（ＭＰＥＧ−２ＬＳＦ）は、１９９４年１１月に完成された。ＭＰＥＧ−２ＢＣは、フルバンド幅の５チャンネルについて、６４０〜８９６ｋｂ／ｓのデータレートで良好なオーディオ品質を伝達する。１９９４年以来、ＭＰＥＧ−２オーディオ標準化委員会は、ＭＰＥＧ−１との後方互換性が必要とされる場合、達成可能であるよりも高品質の多重チャンネル標準を定義しようと努めてきた。このＭＰＥＧ−２の非後方互換性のオーディオ標準は、ＭＰＥＧ−２ＮＢＣと表示される。この開発の目的は、各チャンネルがフルバンド幅を有する５チャンネルオーディオ信号について、データレート３８４ｋｂ／ｓまたはそれ以下で、ＩＴＵ−Ｒ要件に従うラジオ品質を達成することである。オーディオコーディング標準ＭＰＥＧ−２ＮＢＣは、１９９７年４月に完成された。ＭＰＥＧ−２ＮＢＣの枠組みは、より高いデータレート（１チャンネルにつき４０ｋｂ／ｓを超える）となる既に計画されているＭＰＥＧ−４オーディオ標準の土台となるであろう。ＮＢＣ、すなわち非後方互換性標準は、非常に低いデータレートでのラジオ品質のオーディオコーディングを達成するために、高分解能フィルタバンク、予測技術および冗長性減少ハフマンコーディングのコーディング効率性を組み合わせている。ＭＰＥＧ−２ＮＢＣ標準はまた、ＭＰＥＧ−２ＮＢＣＡＡＣ（ＡＡＣ＝ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）と表示される。ＭＰＥＧ−２ＡＡＣの技術内容の詳細な説明は、Ｍ．Ｂｏｓｉ、Ｋ．Ｂｒａｎｄｅｎｂｕｒｇ、Ｓ．Ｑｕａｃｋｅｎｂｕｓｈ、Ｌ．Ｆｉｅｄｌｅｒ、Ｋ．Ａｋａｇｉｒｉ、Ｈ．Ｆｕｃｈｓ、Ｍ．Ｄｉｅｔｚ、Ｊ．Ｈｅｒｒｅ、Ｇ．Ｄａｖｉｄｓｏｎ、ＹｏｓｈｉａｋｉＯｉｋａｗａ著”ＩＳＯ／ＩＥＣＭＰＥＧ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ”１０１ｓｔＡＥＳＣｏｎｖｅｎｔｉｏｎ、ＬｏｓＡｎｇｅｌｅｓ１９９６、Ｐｒｅｐｒｉｎｔ４３８２に見出される。
【０００３】
有効なオーディオコーディング方法は、冗長性と無関連性の両方をオーディオ信号から取り除く。冗長性を取り除くために、オーディオサンプリング値とサンプリング値表示の統計の相関関係が開発されている。感知されない信号成分（無関連性）を取り除くために、人間の聴覚システムの周波数ドメインと時間ドメインマスキング特性が開発されている。オーディオ信号の周波数内容は、フィルタバンクによってサブバンドに再分割される。心理音響学モデルに従って時間ドメイン信号のスペクトルを量子化することによって、データレートの減少が達成され、それはおそらく損失のないコーディング方法を含む。
【０００４】
一般的に、時間連続オーディオ信号は、時間離散オーディオ信号を得るために、サンプリングされる。時間離散オーディオ信号は、窓がけ時間離散サンプリング値の１０２４等の特定の数字が付いた連続的なブロックまたはフレームを得るために、窓関数によって窓がけされる。窓がけ時間離散サンプリングオーディオ信号値の各ブロックは、たとえば修正離散コサイン変換（ＭＤＣＴ）を用いて、周波数ドメインに順に変換される。この方法で得られるスペクトル値は、まだ量子化されていないので、それらを量子化する必要がある。ここでの主な目的は、量子化ノイズが量子化された信号自体によってマスキングまたは修正されるようにスペクトルデータを量子化することである。これは、人間の耳の特別な特性を考慮に入れて、関連のオーディオ信号に従ってマスキング閾値を計算する、ＭＰＥＧＡＡＣ標準において記述される心理音響学モデルを利用して達成される。スペクトル値は、導入される量子化ノイズが修正され、よって非可聴であるように量子化される。よって、量子化はいかなる可聴のノイズをも生じさせない。
【０００５】
ＮＢＣ標準においては、いわゆる非直線量子化器が使用される。付加的に、量子化ノイズの成形方法が使用される。前の標準と同様に、ＮＢＣ方法は、スケールファクターバンドとして知られるスペクトル係数のグループの個々の増幅を使用する。できるだけ効率的に作動するために、人間の聴覚システムの周波数グループにできるだけ近く基づいて量子化ノイズをユニットに成形することができることが望ましい。このようにして、周波数グループのバンド幅を非常に近く反映しているスペクトル値をまとめることができる。個々のスケールファクターバンドは、１．５ｄＢの段階でスケールファクターにより増幅されることが可能である。増幅された係数はより大きい振幅を有しているので、ノイズ成形が達成される。よって、概してそれらは量子化後に、より高いＳＮ比を有する。一方、より大きい振幅は、コーディングにより多くのビットを必要とする、すなわちスケールファクターバンド間のビット分布が暗に変更される。スケールファクターによる増幅は、もちろんデコーダにおいて補正されなければならない。この理由で、１．５ｄＢステップのユニットにおけるスケールファクターで蓄積される増幅情報は、サイド情報としてデコーダに送信されなければならない。
【０００６】
スペクトル値の量子化後、おそらくスケールファクターにより増幅されて、スケールファクターバンドにおいて、スペクトル値自体がコード化されるべきである。それゆえ、ノイズのないコーディングモジュールへの入力信号は、たとえば１０２４量子化スペクトル係数のセットである。１０２４量子化スペクトル係数のセットは、単一のハフマンコードブックが各セクションのコーディングに使用されるように、ノイズのないコーディングモジュールによって「セクション」に区切られる。コーディングの効率の理由で、セクションの境界は、スケールファクターバンド境界にのみ存在し得るため、スペクトルの各セクションについて、スケールファクターバンドにおけるセクションの長さおよびセクションに使用されるハフマンコードブック数の両方がサイド情報として送信されなければならない。
【０００７】
セクションの形成は動的であり、量子化スペクトル係数のフルセットを表示するために必要なビット数が縮小されるように、ブロックからブロックへと典型的に変化する。量子化係数のｎ−タプルを表示するために、ハフマンコーディングが用いられ、ハフマンコードは１２のコードブックのうちの１つから引き出される。各ハフマンコードブックによって表示可能な量子化係数の最大絶対値および各コードブックの各ｎ−タプルでの係数の数は、先験的に特定される。
よって、セクション形成のポイントは、単一のハフマンコードブックで、可能な最高のコーディング利得を得るために、同じ信号統計の領域をまとめることにあり、コーディング利得とは概してコーディング前のビットとコーディング後のビットの指数として定められる。ＮＢＣ法で使用されるビットストリームシンタクスにおいて特定されるコードブック数によって、１２のハフマンコードブックのうち１つ、すなわち特定のセクションについて最高のコーディング利得を可能にするものが参照される。よって、本願における「コードブック数」という表現は、コードブック数のために保存されるビットストリームシンタクス中の場所を指定するものである。１１の異なるコードブック数を２進法でコーディングするためには、４ビットが必要である。各セクションについて、すなわち各スペクトル値グループについて、デコーダがデコーディングの際に正しく適切なコードブックを選択することが可能となるように、これらの４ビットはサイド情報として送信されなければならない。
【０００８】
最近興味が高まっている別の技術は「ノィズ置換」であり、その特徴はＤｏｎａｌｄＳｃｈｕｌｚ著”ＩｍｐｒｏｖｉｎｇＡｕｄｉｏＣｏｄｅｃｓｂｙＮｏｉｓｅＳｕｂｓｔｉｔｕｔｉｏｎ“、ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．４４、Ｎｏ．７／８、ｐｐ．５９３−５９８、Ｊｕｌｙ／Ａｕｇｕｓｔ１９９６に詳細に記述されている。既に言及したように、伝統的なオーディオコーディングアルゴリズムは通常、決定的にデータレートすなわち送信されるビット数を減少させるために、人間の耳のマスキング効果を利用する。よって、マスキングとは、スペクトル値としての１以上の周波数成分が、より低いレベルの他の成分を非可聴にするという意味である。この効果は２つの方法で利用され得る。第１に、他の成分によってマスキングされているオーディオ信号成分はコード化される必要はない。第２に、先ほど記述された量子化によるノイズの導入は、このノイズがオリジナルの信号の成分によって隠蔽されている場合には許容される。
【０００９】
ノイジィな信号では、人間の聴覚システムはそのような信号の時間に伴う正確な変化を検知することができない。結果として、通常のアルゴリズムでは、実際上人間の耳には関係無いホワイトノイズの波形でさえも、コーディングされた。よって、特別の処置が取られない限り、人間の耳を考慮したノイジィな信号のコーディングは、非可聴の情報について高いビットレートを必要とする。しかし、もし信号のノイジィな成分が検知され、そのノイズレベル、周波数帯域または持続時間についての情報でもってコーディングされるならば、そのような余分なコーディングが減少され、非常に大きなビット利益となり得る。この事実は、ノイズ信号の感知は主にそのスペクトル成分によるのであり、実際の波形によるのではないと教示する心理音響学の技術によって実証される。したがって、これはオーディオ信号のデータ減少におけるノイズ置換技術の使用を可能にする。
よってコーダは、オーディオ信号の全体のスペクトルにおいて、ノイズ様のまたはノイジィなスペクトル値を発見または認識するという課題に直面する。ノイジィなスペクトル値の１つの定義は次のとおりである。すなわち、ある信号成分が、人間の聴覚システムにとって可聴な相違無しにノイズ置換方法によって再構築可能なように、そのレベル、周波数帯域および持続時間によって特徴付けすることが可能ならば、この信号成分はノイズとして分類される。この特性の検知は、先ほど引用した文献に記述されていたように、周波数ドメインにおいても、時間ドメインにおいても実行可能である。最も単純な方法は、たとえば、時間−周波数変換を利用することによって、および連続した時間ドメインのスペクトルにおける定常ピークに従うことによって、トーンの、すなわち非ノイジィな成分を検出するというものである。これらのピークはトーンとして、その他すべてはノイジィであるとして表される。しかし、これは比較的粗いノイズ検知である。ノイジイとトーンのスペクトル成分を区別する別の可能性は、連続したブロックにおけるスペクトル値について予測器を使用することである。ここで、１つのスペクトルから次のスペクトル、すなわち次の時間ドメインブロックまたはフレームに割り振られるスペクトルにかけて予測が実行される。もし予測されたスペクトル値が、変換によって実際に確認される次の時間ドメインのブロックまたはフレームのスペクトル値と異ならない、または少ししか異ならないならば、このスペクトル値はトーンのスペクトル成分を表すと仮定される。これから、音調性指標μが引き出され、その値はトーンとノイジィのスペクトル値との区別を決定する基礎を形成する。しかしこの検知方法は、厳密に静止した信号についてのみ適する。それは時間の関数として少し周波数を変化させるサイン信号を伴う状況の検知をしない。そのような信号は、たとえばヴィブラートとしてオーディオ信号にしばしば現れ、当業者にとってこれらがノイジィ成分によって置換できないことは明らかである。
【００１０】
ノイジィ信号の検知の更なる可能性は、時間ドメインにおける予測によるノイズの検知である。ここでは、技術分野において周知であるように、幾度も直線予測の実行に使用できるように調節されたフィルタが、予測器として使用するのに適している。過去のオーディオ信号が供給され、出力信号が実際のオーディオサンプリング値と比較される。予測エラーが小さければ、音調性が仮定できる。異なる周波数領域の特徴を決定する、すなわちスペクトル領域におけるスペクトル値グループがノイジィなグループであるかどうかを検知するためには、オリジナルおよび予測された信号の時間−周波数変換が実行されなければならない。音調性指標は、オリジナルと予測された値を互いに比較することによって各周波数グループについて計算される。それによる主な問題は、予測器の制限されたダイナミックレンジである。生ずる大きなエラーのために、高レベルのノイジィな周波数グループが予測器において優勢となる。トーン成分の他の周波数領域がノイジィであるとして解釈され得る。この問題は、エラー信号は通常オリジナルの信号よりも低いレベルを有し、他の予測器によって再び供給され、その後２つの予測された信号は加えられるという反復アルゴリズムの使用によって軽減される。更なる方法はＳｃｈｕｌｚの文献において説明される。
【００１１】
ここでノイジィであるとして分類されたスペクトル値のグループは、通常通り、量子化されず、（たとえばハフマンコードブックにより）エントロピーコーディングまたは冗長コーディングされた形で受信器に送信される。その代わり、ノイズ置換を示すＩＤおよびスペクトル値のノイジィなグループのエネルギーの指標のみがサイド情報として送信される。それから、受信器において送信されたエネルギーを有するランダム値（ノイズ）が置換された係数に挿入される。よって、ノイジィなスペクトル値は相当するエネルギー指標を有するランダムなスペクトル値によって置換される。
【００１２】
量子化されたスペクトル係数について、コードのグループ、すなわち量子化されコーディングされた複数のスペクトル値に代わるエネルギー情報の単一の項目の送信によって、かなりのデータ削減が可能となる。達成可能なデータレートの削減は信号次第であることは明らかである。信号が非常に低いノイズ内容を有する場合、すなわち非常に少ないノイジィグループである場合、または一過性特性を有する場合、可能なデータレート削減は、非常に多くのノイジィグループを有する非常にノイジィな信号がコーディングされる場合よりも少なくなるであろう。
【００１３】
最初に記述したＭＰＥＧ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）標準は、ノイズ置換の可能性を支持するものではない。よって、大きなデータレートの削減は、現在の標準では可能ではない。
【００１４】
本願発明の目的は、基本のコーディング構造および現在のビットストリームシンタクスの構造の両方が影響されずにノイズ置換の可能性を含むよう現在のＭＰＥＧ−２ＡＡＣ標準の範囲を拡張することである。
【００１５】
この目的は、請求項１によるオーディオ信号をコーディングする際ノイズ置換を信号で知らせる方法、請求項７によるオーディオ信号をコーディングする方法、および請求項８によるオーディオ信号をデコーディングする方法によって達成される。
【００１６】
本願発明は、ノイジィバンドについてノイズ置換が実行される場合、スペクトル値の量子化および冗長コーディングまたはハフマンコーディングが実行される必要がないという洞察に基づく。その代わりに、すでに記述したように、ノイジィグループのノイズスペクトル値がデコーダにおいて生成され、前記スペクトル値のエネルギーの指標は、ノイズ置換されたスペクトル値のエネルギーの指標に相当する。言いかえれば、冗長コーディングが起こらないので、ノイジィグループについてコードブックが使用されない。したがって、コードブック数、すなわちコーディングされたオーディオ信号のビットストリームシンタクスにおける相当する場所もまた余分である。このビットストリームシンタクスにおける場所、すなわちコードブック数は、本願発明によって、あるグループがノイジィでありノイズ置換の対象であるということを示すのに使用され得る。またすでに言及されたように、１２のコードブックしか予想されていないが、ビットストリームシンタクスにおける場所は４ビットを供給し、それによって２進法で合計０〜１５の数字の範囲が示されることが可能であって、結果、いかなるコードブックも指し示していないいわゆる付加コードブック数が存在する。０〜１１までのコードブック数のみがあるコードブックを指し示す。本願発明の実施例において、サイド情報においてコードブック数１３、すなわち付加コードブック数を有するグループが、ノイジィグループであり、ノイズ置換の対象となったということを、デコーダに信号で知らせるために、コードブック数１３が使用される。しかし、当業者にとっては、付加の、またはフリーのコードブック数１２、１４または１５が使用され得ることは明らかである。
【００１７】
すでに記述されたように、時間ドメインオーディオ信号の周波数ドメイン変換の後に存在するスペクトル値は、量子化ノイズの最適なマスキングを達成するために、スケールファクターバンドにグループ化され得る。ＭＰＥＧ−２ＡＡＣ標準において、いくつかのスケールファクターバンドがまたセクションにグループ化される。よって、大部分について、１つのセクションはいくつかのスケールファクターバンドで構成される。これは、ノイズ置換が完全なセクションについて常に信号で合図される、すなわちノイズ置換が活性か活性でないかを知らされることを意味する。ノイジィなスケールファクターバンドが量子化されないために、これらについてのスケールファクターは計算または送信またはコーディングされる必要がない。これは、ノイズ置換そのものを示すコードブック数に加えて、ビットストリームにおける他の場所が空いており、他の目的に使用可能であることを意味する。本願発明の実施例において、置換されたスペクトル係数のエネルギー指標が、あるスケールファクターバンドのサイド情報におけるスケールファクターについて供給された場所に書き込まれる。すでに記述したように、ノイズ信号の感知は、主にそのスペクトル成分に依存するのであって、その実際の波形に依存するものではない。よって、ノイジィスケールファクターバンドのスペクトル値から、ノイジィスケールファクターバンドのスペクトル値のエネルギー指標が計算される。この量は、いかなる付加サイド情報も必要とせず、ビットストリームシンタクスの構造を変化させる必要もなく、スケールファクターバンドのサイド情報に入れられる。送信されるこの量は、ノイジィスケールファクターバンドにおけるスペクトル値の合計エネルギーでもあり得るし、またたとえばスケールファクターバンドにおいてスペクトル値またはスペクトルラインに基づいて正規化された平均エネルギーでもあり得る。本願発明の実施例においては、平均エネルギーではなく合計エネルギーがエネルギー指標として使用される。
【００１８】
置換されたスペクトル値のエネルギー指標の送信について、送信されたスペクトルデータのインバーススケーリングに使用されるのと同じ分解能、すなわちＡＡＣ標準における１．５ｄＢの分解能での対数スケーリングが使用されることが好ましい。レイヤーＩＩＩ法についての状況と同様に、ＡＡＣ法においても、非ノイジィな、すなわちトーンのスペクトル内容の再構築が、ａ）非直線量子化器のインバース特性をスペクトルライン（Ｙ＝Ｘ^4/3）の量子化値（Ｘ）に適用し、それからｂ）送信されたスケールファクターにしたがって「インバーススケーリング」を実行することによって達成される（Ｚ＝Ｙ×２^(SF/4)）、ここでＳＦは各スケールファクターバンドのスケールファクターであり、Ｚは量子化されたスペクトル値を示す。よって、分解能は１．５ｄＢにのぼる。
【００１９】
ノイジィスケールファクターバンドについてスケールファクターが必要でなく、その代わり置換されたスペクトル値のエネルギー指標が使用される本願発明によるオーディオ信号のコーディングの際のノイズ置換の信号を送る方法において、あるいはスケールファクターについて使用されるかもしれない同じコーディングの法則が、置換されたスペクトル値のエネルギー指標について使用される。これはＡＡＣコーダにおいてすでに利用可能な資源の活用となり、他のサイド情報を必要としない。
【００２０】
ノイズ置換の信号送信の更なる有用な適用は、ステレオオーディオ信号について生ずる。人間の耳はある程度まで、信号問、またはＡＡＣにおいて「チャンネルペア」と呼ばれるステレオチャンネルのペアのチャンネル（ＬおよびＲ）間の相関性を感知することが可能である。この理由で、チャンネルペアの２つの置換されたノイズの信号間の相関性は、ノイズ置換の場合においても同様にオリジナル信号のそれに類似しているべきである。同じ中間周波数を有する左チャンネルおよび右チャンネルにおけるスケールファクターバンドは、ノイズ性が検知された場合、ともにノイズ置換され得る。もし両方のチャンネルがノイズ置換されたならば、また更なる方法がとられなければ、コーダにおいてランダムに生成されたノイズスペクトル値はもちろんオリジナルのオーディオ信号と同じ合計エネルギーを有するであろうが、ランダムな生成のためにそれらは完全に相関されていない。これは特定の状況下では可聴のエラーになり得る。これを避けるために、両方のチャンネルについて、左右チャンネルのノイジィスケールファクターバンドの完全な相関性に対応するところの、同じランダムに生成されたスケールファクターのノイズスペクトル値を使用することが可能である。
【００２１】
本願発明の実施例によると、この場合には次の手順が採られる。すなわち、各チャンネルペアについて、ＡＡＣ標準において、いわゆるミドル／サイドマスク（Ｍ／Ｓマスク）が存在し、それは標準自体において「ｍｓ＿ｕｓｅｄ」と表示される。このＭ／Ｓマスクはバンド毎にＭ／Ｓステレオコーディングが使用されたか否かを示すビットベクトルであり、これは当業者には公知であって、Ｊ．Ｄ．Ｊｏｈｎｓｔｏｎ、Ａ．Ｊ．Ｆｅｒｒｅｉｒａ著、”Ｓｕｍ−ＤｉｆｆｅｒｅｎｃｅＳｔｅｒｅｏＴｒａｎｓｆｏｒｍＣｏｄｉｎｇ”、ＩＥＥＥＩＣＡＳＳＰ１９９２、ｐｐ５６９−５７１において紹介という方法で記述されており、またＭＰＥＧ−ＡＡＣ標準においても記述されている。Ｍ／Ｓマスクは数個のビットで構成され、その各々がスケールファクターバンドに割り振られる。スケールファクターバンドにおいてＭ／Ｓコーディングが使用された場合、Ｍ／Ｓコーディングをデコーダに伝達する信号ビットは、サイド情報におけるＭ／Ｓマスクに配置される。しかしながら、（ＬとＲそれぞれの）スケールファクターバンドの同じ中間周波数について、左右のチャンネルにおいてノイジィスケールファクターバンドが検知された場合、そのときは明らかにミドル／サイドコーディングは起こらない。よって、このスケールファクターバンドについてのＭ／Ｓビットは、コードブック数やスケールファクターのように、他の何かを信号で合図するために、ビットストリームシンタクスによるビットストリームにおいて利用可能である。この場合、独立のノイズスペクトル値またはノイズベクトルが左右チャンネルについて生成されるべきか否か（これは通常の場合に相当する）、またはノイジィスケールファクターバンドにおいて、左右両方のチャンネルについて同じノイズベクトルが使用されるべきであるか否かを示すために、Ｍ／Ｓマスクにおけるビットは、両方のチャンネルのノイジィスケールファクターバンドについて使用されることが可能である。
【００２２】
当業者には公知のように、非ノイジィスケールファクターバンドの場合、スケールファクターは差分コーディングによってコーディングが可能である。後に続くスケールファクターバンドにおける相当するスケールファクターについて、再びスケールファクターの合計値をコーディングする必要はなく、ただこの値と前のものとの差をコーディングすればよい。これがいわゆる差分コーディングである。本願発明の実施例において、この差分コーディングは、ノイズのスケールファクターバンドにおけるスペクトル内容のエネルギー指標をコーディングするのにも同様に使用される。結果として、エネルギー指標の合計量が、後に続くスケールファクターバンドについて再びコーディングされる必要はなく、ただ現在の量と前のものとの差をコーディングすればよいのであって、これはまたビット削減の機会をもたらす。最初のスタート値は常に利用可能でなければならないことは明らかであるが、これはまた最初に前もって決定された固定値であってもよい。よってこの差分コーディングの方法は、フレームにおける連続したスケールファクターバンドがノイジィである場合に特に有効である。

Claims

オーディオ信号のコーディングの際ノイズ置換を信号で知らせる方法であって、下記のステップを含む：
スペクトル値の連続的なブロックを得るために、時間離散サンプリング値の連続的なブロックを有している時間ドメインのオーディオ信号を周波数ドメインに変換するステップ；
前記ブロックのためにスペクトル値のグループを形成するために、連続的なブロックの１つのブロックの前記スペクトル値をまとめるステップであって、グループは少なくとも１つのスケールファクターバンドを含み、各グループは割り振られたサイド情報を含み、前記サイド情報は、１つのコードブック数を受け取るための１つの定義されたコードブック数の場所、および少なくとも１つのスケールファクターを受け取るための１つの定義されたスケールファクターの場所を含むステップ；
あるスペクトル値のグループがブロックのために少なくとも１つのノイジィグループおよび少なくとも１つの非ノイジィグループを得るためにノイジィグループであるか否かを検知するステップ；
少なくとも１つの非ノイジィグループのために、非ノイジィグループの冗長コーディングのために、複数のコードブックの中からあるコードブックを割り当て、前記グループに割り当てられた前記コードブックは、コードブック数によって示され、前記コードブック数は、前記非ノイジィグループのための前記サイド情報の前記定義されたコードブック数の場所に挿入され、前記グループにおいて少なくとも１つのスケールファクターバンドへの非ノイジィグループを量子化するために少なくとも１つのスケールファクターを割り当て、前記定義されたスケールファクターの場所に少なくとも１つのスケールファクターが挿入されるステップ；および
少なくとも１つのノイジィグループのために、このグループがノイジィであり、それゆえ量子化および冗長コーディングされないことを信号で知らせるために、このグループにコードブックを示さない付加コードブック数を割り当て、前記付加コードブック数は、前記ノイジィグループのための前記サイド情報の前記定義されたコードブック数の場所に挿入され、少なくとも１つのスケールファクターバンドにおけるスペクトル値のエネルギー指標が、前記ノイジィグループにおける前記少なくとも１つのスケールファクターバンドのためのスケールファクターの代わりに、前記定義されたスケールファクターの場所に挿入されるステップ。
ノイジィグループにおけるスペクトル値のエネルギー指標は、少なくとも１つのスケールファクターバンドにおいて、参照値に基づいて正規化された、スペクトル値の平均エネルギーである、請求項１に記載の方法。
エネルギー指標は少なくとも１つのスケールファクターバンドにおけるスペクトル値の合計エネルギーである、請求項１に記載の方法。
非ノイジィグループのスケールファクターバンドのスケールファクターをコーディングするのに通常使用されるのと同じスケーリングが、少なくとも１つのスケールファクターバンドにおけるエネルギー指標のコーディングに使用される、請求項１に記載の方法。
ノイジィグループの少なくとも１つのスケールファクターバンドにおけるスペクトル値のエネルギー指標のコーディングは差分コーディングである、請求項１に記載の方法。
あるスペクトル値のグループがノイジィグループであるか否かの検知は、時間ドメインオーディオ信号によって、または時間ドメインオーディオ信号のスペクトル値によって、または時間ドメインオーディオ信号および時間ドメインオーディオ信号のスペクトル値の両方によって実行される、先行する請求項のいずれかに記載の方法。
オーディオ信号のコーディングの方法であって、下記のステップを含む：
連続的なブロックのスペクトル値を得るために、時間離散サンプリング値の連続的なブロックを有する時間ドメインのオーディオ信号を周波数ドメインに変換するステップ；
ブロックのためのスペクトル値のグループを形成するために、連続的なブロックの１つのブロックの前記スペクトル値をまとめるステップであって、グループは、少なくとも１つのスケールファクターバンドを含み、各グループは割り振られたサイド情報を含み、前記サイド情報は、１つのコードブック数を受け取るための１つの定義されたコードブック数の場所、および少なくとも１つのスケールファクターを受け取るための１つの定義されたスケールファクターの場所を含むステップ；
あるスペクトル値のグループがブロックのために少なくとも１つのノイジィグループおよび少なくとも１つの非ノイジィグループを得るためにノイジィグループであるか否かを検知するステップ；
少なくとも１つの非ノイジィグループのために、非ノイジィグループの冗長コーディングのために、複数のコードブックの中からあるコードブックを割り当て、前記グループに割り当てられた前記コードブックは、コードブック数によって示され、前記コードブック数は、前記非ノイジィグループのための前記サイド情報の前記定義されたコードブック数の場所に挿入され、前記グループにおいて少なくとも１つのスケールファクターバンドへの非ノイジィグループを量子化するために少なくとも１つのスケールファクターを割り当て、前記定義されたスケールファクターの場所に少なくとも１つのスケールファクターが挿入されるステップ；および
少なくとも１つのノイジィグループのために、このグループがノイジィであり、それゆえ量子化および冗長コーディングされないことを信号で知らせるために、このグループにコードブックを示さない付加コードブック数を割り当てるステップ；
前記ノイジィなグループの少なくとも１つのスケールファクターバンドのエネルギー指標を計算するステップ；
前記エネルギー指標を前記少なくとも１つのノイジィグループに割り振られたサイド情報の前記定義されたスケールファクターの場所に入れるステップ；
前記ノイジィグループに割り振られた前記サイド情報の前記定義されたコードブック数の場所に付加コードブック数を挿入するステップ；
定義されたスケールファクタの場所におけるスケールファクターを用いて少なくとも１つの非ノイジィグループを量子化し、量子化された少なくとも１つの非ノイジィグループを、コードブック数によって示されるコードブックを用いて冗長コーディングする一方、少なくとも１つのノイジィグループについては量子化またはコーディングが起こらないステップ；および
主要情報として、前記量子化され、冗長コーディングされた少なくとも１つの非ノイジィグループおよび、サイド情報として、少なくとも１つのノイジィなグループについては、前記定義されたスケールファクターの場所において少なくとも１つのノイジィなグループのスペクトル値のエネルギー指標および前記定義されたコードブック数の場所において少なくとも１つのノイジィなグループを信号で知らせるための付加コードブック数を含むビットストリームを形成するステップ。
コーディングされたオーディオ信号をデコーディングする方法であって、前記コーディングされたオーディオ信号は、エンコードされたフォームにおけるスペクトル値の少なくとも１つのノイジィグループおよびスペクトル値の少なくとも１つの非ノイジィグループを含み、スペクトル値のグループがスペクトル値の連続的なブロックからスペクトル値の１つのブロックを形成し、時間離散サンプル値の連続的なブロックを表し、下記のステップを含む：
前記スペクトル値のブロックのためのビットストリームを受信するステップであって、前記ビットストリームは前記スペクトル値のブロックのためのサイド情報を含み、１つの定義されたコードブック数の場所、および少なくとも１つのノイジィグループと少なくとも１つの非ノイジィグループのための定義されたスケールファクトの場所を含むステップ；
コードブック数によって示されるコードブックに基づいて前記少なくとも１つの非ノイジィグループを、前記少なくとも１つの非ノイジィグループについての前記サイド情報の前記コードブック数の場所において冗長デコーディングし、冗長デコーディングされ、前記少なくとも１つの非ノイジィグループのための前記定義されたスケールファクターの場所に基づいてスケールファクターを使うことで量子化されたスペクトル値を再量子化するステップ；
スペクトル値の前記少なくとも１つのノイジィグループに割り振られた付加コードブック数に基づいて、前記少なくとも１つのノイジィグループについての前記サイド情報の前記コードブック数の場所において、前記ノイジィグループを特定するステップ；
前記少なくとも１つのノイジィグループに割り振られたサイド情報の前記定義されたスケールファクターの場所における前記少なくとも１つのノイジィグループにおけるスペクトル値のエネルギー指標を確立するステップ；
ノイジィグループについてのノイズスペクトル値を生成し、前記少なくとも１つのノイジィグループにおける前記発生したノイズスペクトル値のエネルギー指標は、コーディング前の１つのオーディオ信号におけるノイジィグループのスペクトル値のエネルギー指標と同じであるステップ；および
デコーディングされたオーディオ信号を得るために、少なくとも１つの非ノイジィグループのための再量子化されたスペクトル値および少なくとも１つのノイジィグループのためのノイズのスペクトル値を時間ドメイン表示に変換するステップ。