JP6769299B2

JP6769299B2 - オーディオ符号化装置およびオーディオ符号化方法

Info

Publication number: JP6769299B2
Application number: JP2016254286A
Authority: JP
Inventors: 晃釜野; 洋平岸; 鈴木　政直; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2020-10-14
Anticipated expiration: 2036-12-27
Also published as: US10224048B2; EP3343560B1; EP3343560A1; US20180182403A1; JP2018106076A

Description

本発明は、オーディオ符号化装置およびオーディオ符号化方法に関する。

音声や音楽などのオーディオ信号を圧縮・伸張するオーディオ符号化技術の一つに、ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）技術がある。ＳＢＲ技術は、低域成分から高域成分を再現することにより、オーディオ信号を圧縮する技術である。ＳＢＲ技術は、低レートで高音質に符号化が可能な技術であるため、様々な用途で用いられている。

オーディオ符号化においてＳＢＲ技術は、入力音源から低域成分を抽出すると共に、高域成分からは情報量圧縮のため、包絡情報とトーン情報を抽出する。ＳＢＲ技術は、低域成分を複製し高域成分を再現する。包絡情報は、複製し再現した高域成分のエネルギーの大きさを補正するために使用される。一方、高域成分にのみ存在する信号は、低域成分の複製では再現することが出来ない。そこで、ＳＢＲ技術は、高域成分にのみ存在するトーン信号の、周波数とエネルギーの大きさに関する情報をトーン情報として取得する。トーン信号は、人工的に付与された単一周波数の信号である。高域のみに存在するトーン信号は、電子楽器によって演奏される楽曲等に含まれる。復号時には、包絡情報により再現した高域成分に対しトーン情報に基づきトーン信号を付加することにより、高域成分を精度よく復号することが出来る。例えば特許文献１には、ＳＢＲを用いた技術が開示されている。

特開２００８−９６５６７号公報

しかしながら、特許文献１の技術では、包絡情報に基づき再現した包絡線上のピークと、トーン情報に基づき付与したトーン信号のピークが非常に小さな周波数の差分で存在する場合がある。このようなピークが存在する場合に、包絡情報とトーン情報に基づきＳＢＲ技術で高域成分を再現すると、復号した信号には２つのピークが隣接して存在することとなる。２つのピークが隣接することにより聴覚上、唸りが発生し、復号されたオーディオ信号が著しく劣化する。

開示の技術は、トーン信号に対し周波数の隣接するピークが取得された場合であっても、唸りの生じないトーン信号が復号されるようにする符号化処理を実現することを目的とする。

上述した課題を解決し、目的を達成するため、オーディオ符号化装置は、入力信号から低域の周波数成分を有する低域信号を抽出するフィルタと、入力信号のうち低域信号よりも周波数の高い高域信号の包絡線に関する包絡情報を抽出する包絡情報抽出部と、入力信号から高域信号スペクトルに含まれるトーン信号の情報であるトーン情報を検出するトーン情報検出部と、トーン信号の周波数と包絡線のピークの周波数との差分に基づき包絡情報を補正する包絡情報補正部と、低域信号、トーン情報、および補正された包絡情報を符号化する符号化部とを有する。

本件の開示するオーディオ符号化装置およびオーディオ符号化方法の一つの態様によれば、トーン信号に対し周波数の隣接するピークが取得された場合であっても、唸りの生じないトーン信号が復号されるようにする符号化処理を実現することが出来るという効果を奏する。

図１は、オーディオ符号化装置の一例を示す機能ブロック図である。図２は、オーディオ符号化装置に入力される入力音源のスペクトル図である。図３は、トーン情報検出時に発生する問題を説明する図である。図４は、包絡情報補正処理を説明する図である。図５は、包絡情報補正処理フローを示す図である。図６は、サブバンド番号ｉに対するサブバンド幅ＳＢＷの変化を示すグラフである。図７は、包絡情報のピーク検出における検出範囲の具体例を示す図である。図８は、包絡情報のピーク検出における検出範囲の他の具体例を示す図である。図９は、包絡情報のピークの補正について説明する図である。図１０は、包絡情報のピークの他の補正について説明する図である。図１１は、オーディオ符号化装置のハードウェアブロック図である。図１２は、オーディオ復号装置の機能ブロック図である。図１３は、オーディオ復号装置による復号処理を説明する図である。

図１は、オーディオ符号化装置の一例を示す機能ブロック図である。図１においてオーディオ符号化装置１は、ローパスフィルタ２、包絡情報抽出部３、トーン情報検出部４、包絡情報補正部５、符号化部６を有する。

包絡情報補正部５は、包絡情報抽出部３から出力された包絡情報、およびトーン情報検出部４から出力されたトーン情報に基づき、包絡情報の補正を行う。包絡情報補正部５は、包絡ピーク検出部７、補正判定部８、ピーク抑圧部９を有する。

包絡ピーク検出部７は、包絡情報からあらかじめ設定した閾値以上のピークを検出した場合に、ピークの周波数およびピーク値をピーク情報として出力する。補正判定部８は、包絡ピーク検出部７から出力されたピーク情報およびトーン情報検出部４から出力されたトーン情報に基づき、包絡情報を補正すべきか否かの補正要否判定処理を行う。補正判定部８は、ピーク情報およびトーン情報に含まれる周波数およびピーク値に関する情報に基づき補正要と判定した場合、判定結果として、包絡情報の補正をピーク抑圧部９に指示するための補正制御信号を出力する。ピーク抑圧部９は、補正判定部８から包絡情報の補正を指示する補正制御信号を受信した場合に、包絡ピーク検出部７から受信したピーク情報に基づき、包絡情報抽出部３から受信した包絡情報を補正し、補正包絡情報を符号化部６へ出力する。

符号化部６は、ローパスフィルタ２から受信した低域信号、包絡情報補正部５から受信した補正包絡情報、およびトーン情報検出部４から受信したトーン情報を符号化および多重化処理し、ストリーム信号として出力する。

以上の通りオーディオ符号化装置１は、包絡情報およびトーン情報に基づき、包絡情報を補正することが出来る。

図２は、オーディオ符号化装置に入力される入力音源のスペクトル図である。図２において、横軸は周波数、縦軸は各周波数における音源のエネルギーの大きさを示す。領域４１は低域信号領域を示す。領域４２は高域信号領域を示す。例えば低域の周波数領域は０〜５ｋＨｚ、高域の周波数領域は５ｋ〜２４ｋＨｚとする。

スペクトル４５は、入力音源をフーリエ変換等により周波数変換した周波数スペクトルである。オーディオ符号化装置１におけるローパスフィルタ２は、入力音源に対応するスペクトル４５のうち、領域４１にある低域のスペクトルを抽出する。包絡線４３は、包絡情報抽出部３により抽出された包絡情報である。包絡情報抽出部３は、スペクトル４５のうち領域４２に含まれる高域のスペクトルから包絡線４３に示す包絡情報を抽出する。ピーク４４は、トーン情報検出部４により抽出されたトーン情報である。トーン情報検出部４は、スペクトル４５のうち領域４２に含まれる高域のスペクトルからピーク４４に示すトーン情報を検出する。

以上の通りオーディオ符号化装置１は、入力音源に対しＳＢＲ処理を行い、高域信号について包絡情報およびトーン情報を抽出することにより、符号化における圧縮率を上げることが出来る。

図３は、トーン情報検出時に発生する問題を説明する図である。図３において、グラフ１４は、オーディオ符号化装置１に入力されるトーン信号の原音の時間波形を示す。グラフ１４において、横軸は時間、縦軸はエネルギーを示す。トーン信号は単一の周波数を有する信号なので、グラフ１４に示す通り、一定振幅を有する正弦波となる。

グラフ１８は、周波数変換した原音であるトーン信号からトーン情報を抽出する処理を示すものである。グラフ１８において、スペクトル１１は周波数変換した原音のスペクトルを示す。領域１７ａおよび１７ｂは、サブバンド領域を示す。サブバンド領域とは、オーディオ符号化の対象となる周波数領域を複数の周波数領域に分割したものである。グラフ１８のように、原音のスペクトル１１のピークが領域１７ａと領域１７ｂの境界に位置する場合、スペクトル１１のピークの情報が領域１７ａと領域１７ｂの双方に含まれる。オーディオ符号化装置１において、包絡情報の抽出処理とトーン情報の検出処理はそれぞれのサブバンド領域において別個に行われる。したがって、例えば包絡情報の抽出処理とトーン情報の検出処理が異なる分解能で行われている場合、トーン情報が異なるサブバンド領域で取得される場合がある。グラフ１８において、包絡線１２は、領域１７ａにおいて、包絡情報抽出部３により原音のスペクトル１１を抽出したものである。またトーン情報１３は、領域１７ｂにおいて、トーン情報検出部４により原音のスペクトル１１からトーン信号の情報を抽出したものである。２つの異なるサブバンド領域において包絡情報とトーン情報が原音の情報を抽出することにより、原音の情報として元々１つのピークであったにも関わらず、符号化により２つのピークが隣接して存在する情報となる。

グラフ１９は、グラフ１８の通り、オーディオ符号化において１つのトーン信号１１の原音に対し、包絡情報として包絡線１２の通りピークが抽出され、トーン情報としてトーン情報１３の通り包絡線１２のピーク周波数と異なる周波数でピークが検出された場合に、トーン信号１１を復号した結果である。ＳＢＲ処理された高域信号の復号は、低域スペクトルを高域にコピーし、包絡情報に基づきエネルギーレベルを調整する。低域スペクトルをコピーした結果、コピーしたスペクトルのピークと包絡線１２のピークの周波数が重なった場合、包絡情報により抽出されたピークが高域信号スペクトルとして残る。包絡情報に基づき復号した高域信号スペクトルに対し、トーン情報１３に基づきトーン信号スペクトルを復号すると、スペクトル１５の通り、２つのピークが隣接するスペクトルが復号される。

グラフ１６は、スペクトル１５に対応する時間波形である。２つのピークが隣接するスペクトルを逆フーリエ変換等により時間波形に変換すると、グラフ１６に示す通り、2つの隣接する周波数の信号が互いに干渉し、唸りが生じる。このような唸りは原音では生じていないため、唸りの発生は、復号した音質の低下の原因となる。

なお、図３では原音であるトーン信号がサブバンド領域の境界に存在する場合を例に包絡情報におけるピーク周波数とトーン情報におけるピーク周波数が隣接する場合を説明したが、２つの異なる情報におけるピーク周波数が発生する原因を特定するものではない。

図４は、包絡情報補正処理を説明する図である。図４においてグラフ３１は、包絡情報におけるピーク周波数とトーン情報におけるピーク周波数が隣接している様子を示す。図１における包絡情報補正部５は、包絡情報において閾値２１以上のピークを検出すると、当該ピークがトーン情報のピーク周波数に対し検出範囲３５以内に存在するか否かをチェックする。包絡情報について当該条件を満たすピークが検出された場合、当該ピークを包絡情報の補正対象とする。検出範囲３５の具体例については後述する。

グラフ３２は、包絡情報におけるピーク周波数とトーン情報におけるピーク周波数がΔ以上離れている必要があることを示す。Δは限りなくゼロに近い値であるが、Δがゼロの場合は唸りが発生しないため、唸りが発生しない場合を除く主旨である。

グラフ３３は、グラフ３１およびグラフ３２に示す条件を満たす包絡情報のピークが検出された場合における包絡情報の補正を示すものである。グラフ３３において、点線は補正前の包絡情報、実線３８は補正後の包絡情報を示す。包絡情報補正部５は、検出された包絡情報について、あらかじめ定めた一定の範囲３７に基づき、実線３８に示す通り補正する。補正の結果、包絡情報のピークエネルギーはトーン情報のピークエネルギーよりも十分小さくなるため、唸りの発生を抑えることが出来る。

なお、図４では、包絡情報のピーク値を抑える場合について説明しているが、包絡情報のかわりにトーン情報のピーク値を抑えることによっても、唸りの発生を抑えることが出来る。また、ＳＢＲのトーン情報は、ＭＰＥＧなどの規格上ではサブバンド毎にＯＮ／ＯＦＦを指定する方式になっている為、トーン情報をＯＦＦにすることができる。この方式の場合、トーン情報が有するピークの周波数は、サブバンド毎にあらかじめ対応づけられた所定の周波数となる。

図５は、包絡情報補正処理フローを示す図である。包絡情報補正処理フローは、例えば包絡情報補正部５により実行される。包絡情報補正処理フローは、メモリとプロセッサを有する汎用コンピュータにおいて、メモリに記憶された包絡情報補正プログラムをプロセッサにより実行することで実現してもよい。

包絡情報補正部５は、トーン情報に基づき、検出範囲内の包絡情報のピークを検出する（ステップＳ１１）。包絡情報補正部５は、検出したピークの値が予め設定した閾値以上である場合（ステップＳ１２：ＹＥＳ）、検出した包絡情報のピーク周波数と、トーン情報のピーク周波数との差を算出する（ステップＳ１３）。なお、検出したピークの値が閾値より小さい場合（ステップＳ１２：ＮＯ）、包絡情報補正部５は包絡情報補正処理を終了する。

ステップＳ１３において算出した差分値が予め設定した閾値以上である場合（ステップＳ１４：ＹＥＳ）、包絡情報補正部５は検出範囲内の包絡情報のピークを抑圧し、ピークの値を唸りが発生しないレベルに補正する（ステップＳ１５）。なお、差分値が閾値より小さい場合（ステップＳ１４：ＮＯ）、包絡情報補正部５は包絡情報補正処理を終了する。

以上の通り包絡情報補正部５は、包絡情報補正処理フローに基づき包絡情報を補正することにより、唸りの発生を防ぐことが出来る。

（数１）は、サブバンド番号ｉとサブバンド幅ＳＢＷとの関係を表す式である。（数１）において、ＩＮＴは小数点以下を切り捨てる関数、ｐｏｗは指数関数、Ｆは周波数分解能、ｓｔａｒｔは高域生成開始周波数ｉｎｄｅｘ、ｓｔｏｐは高域生成終了周波数ｉｎｄｅｘ、ｎｕｍｂａｎｄｓはサブバンド数を示す。周波数ｉｎｄｅｘは、Ｆに対応する周波数分解能で分割した周波数帯域について、低域から順に番号を付与したものである。例えば、４８ｋＨｚサンプリングの信号を分析長１０２４サンプルずつ変形離散コサイン変換等の直行変換により周波数変換した場合、上限を２４ｋＨｚとする５１２サンプルで表現できる周波数スペクトルとなる。この周波数スペクトルとｓｐｅｃ［ｊ］（ｊ＝０〜５１２）と表現した場合、ｊが周波数ｉｎｄｅｘとなる。
（数１）

図６は、サブバンド番号ｉに対するサブバンド幅ＳＢＷの変化を示すグラフである。グラフ９１は、（数１）において、Ｆ＝１、ｓｔａｒｔ＝１、ｓｔｏｐ＝１０２５、ｎｕｍｂａｎｄｓ＝２０を設定した場合のサブバンド番号ｉとサブバンド幅ＳＢＷとの関係を示したものとなっている。

サブバンド番号ｉは、オーディオ符号化処理の対象となる周波数帯域を複数の帯域に分割した場合に、周波数の低い帯域から順に番号付けしたものである。サブバンド幅ＳＢＷは、各サブバンド番号ｉを付したサブバンドの帯域幅である。図６におけるグラフ９１に示す通り、サブバンド番号ｉが大きくなるほど、すなわち、周波数が高くなるほど、サブバンド幅ＳＢＷは大きくなる。サブバンド幅ＳＢＷが小さい領域を人の可聴帯域に対応させることにより、可聴帯域に含まれるサブバンドの数を多くすることが出来る。オーディオ信号の処理はサブバンド単位で実行されるため、サブバンドごとに設定されるサンプリング数が同じである場合、サブバンドの数を多くすることにより、可聴帯域の分解能を高くすると共に、重要度の低い帯域の分解能を低くすることが出来る。

図７は、包絡情報のピーク検出における検出範囲の具体例を示す図である。図７において、サブバンド９２ａ〜９２ｄはそれぞれのサブバンド領域、範囲９３ａ〜９３ｃはピーク検出処理における検出範囲を示す。

図７の実施形態において、包絡情報のピークを検出するための検出範囲Ｗは、連続する２つのサブバンドのサブバンド幅ＳＢＷを合計した値となる。包絡情報補正部５は、サブバンド番号ｉを１ずつ増加させながら、検出範囲Ｗの帯域を変化させる。図３で説明したように、原音のトーン信号がサブバンド領域の境界に存在する場合、包絡情報のピークとトーン情報のピークがそれぞれ異なるサブバンド領域に含まれる。この場合でもそれぞれのピークが検出できるようにするため、検出範囲Ｗをサブバンド領域２つ分の帯域幅とするのが望ましい。なお検出範囲Ｗは、サブバンド領域２つ分に限定されるものではない。

（数２）は、ピーク検出の検出範囲Ｗを（数１）に基づき定めたものである。
（数２）

（数１）と（数２）を比較すると、サブバンド番号ｉに加算する整数値が１から２に変更されている。包絡情報補正部５は、（数２）に基づきサブバンド番号ｉに加算する整数値を調整し検出範囲Ｗを定めることにより、包絡情報のピーク検出を実行することが出来る。

図８は、包絡情報のピーク検出における検出範囲の他の具体例を示す図である。図８において、図７と同一要素には同一符号を付する。図８の通りサブバンド領域９２ｃにトーン情報１３がある場合に、トーン情報１３に対応するトーン周波数をｆｔ、サブバンド領域９２ｃの帯域の最小値をＴ⁻（ｆｔ）、最大値をＴ^＋（ｆｔ）とする。トーン周波数ｆｔに対し、Ｔ⁻（ｆｔ）およびＴ^＋（ｆｔ）との差分のうち、絶対値が大きい方の差分値をｄ（ｆｔ）とすると、ｄ（ｆｔ）＝ｍａｘ｛｜Ｔ⁻（ｆｔ）−ｆｔ｜，｜Ｔ^＋（ｆｔ）−ｆｔ｜｝となる。図８において、範囲９４ａが差分ｄ（ｆｔ）に相当する。図８の通りトーン周波数ｆｔに対しＴ^＋（ｆｔ）との差分が大きい場合に、包絡情報補正部５は、検出範囲Ｗを、トーン周波数ｆｔを基準とする周波数の低い方へも範囲ｄ（ｆｔ）を拡げる。すなわち、包絡情報補正部５は、検出範囲Ｗを、Ｗ＝［ｆｔ−ｄ（ｆｔ），ｆｔ＋ｄ（ｆｔ）］と設定する。図８において、範囲９９が検出範囲Ｗに相当し、範囲９４ａと範囲９４ｂを足した範囲となる。

以上の通り包絡情報補正部５は、トーン周波数を中心として検出範囲Ｗを設定することにより、トーン情報１３に関連のある包絡情報１２のピークをより効率よく検出することが出来る。

図９は、包絡情報のピークの補正について説明する図である。図９において、包絡情報１２のピークが唸りを発生させる原因となる場合に、包絡情報１２のピークが存在するサブバンド区間のピーク値を抑圧する。包絡情報１２のピークが検出されたサブバンド領域のサブバンド番号をｂとすると、図９におけるピーク抑圧区間の最小値ｉ０および最大値ｉ１はそれぞれ（数３）の通りとなる。
（数３）

包絡情報補正部５は、包絡情報１２のピークが検出されたサブバンド領域のサブバンド番号ｂおよび（数３）に基づきｉ０およびｉ１を算出し、包絡情報１２において、ｉ０に対応する値とｉ１に対応する値とを直線で結ぶ包絡線に補正する。かかる補正によって唸りを発生させる包絡情報のピークを抑制することによりオーディオ符号化装置１は、復号後のオーディオ信号の品質が向上するように入力信号を符号化することが出来る。

図１０は、包絡情報のピークの他の補正について説明する図である。図１０において、マスキング閾値９８は、等ラウドネス曲線などにより求められる、人の音量に対する聴覚限界に基づいて設定した閾値である。等ラウドネス曲線は、音の周波数を変化させたときに、人の聴覚による音の大きさが等しくなる音圧レベルを測定し、等高線として結んだものである。等ラウドネス曲線はＩＳＯ２２６：２００３として国際標準規格化されている。

マスキング閾値には、オーディオ符号化対象となる信号の、周波数帯域に対応する等ラウドネス曲線の最小値を設定してもよいし、包絡情報の補正対象となるピークの周波数に基づき、等ラウドネス曲線が示す音圧レベルを設定してもよい。

マスキング閾値との大小関係に基づいて包絡情報の補正を行うことにより、より少ない計算量で復号時の唸りを防止することが出来る。

図１１は、オーディオ符号化装置のハードウェアブロック図である。オーディオ符号化装置１は、ＣＰＵ５０、記憶装置５２、入力装置５６、出力装置５８、ＤＳＰ６０、インタフェース装置６２を有する。それぞれの装置は、互いにバス６８で接続されている。

ＣＰＵ５０は、記憶装置５２に記憶されたオーディオ符号化プログラム５３を実行することにより、図１に示された各機能ブロックを機能的に実現する。記憶装置５２は、プログラムやデータを記憶するための装置であり、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含む。

入力装置５６は、オーディオ符号化装置１の処理に必要な情報を外部から入力するための装置である。入力装置５６は、マイク、キーボード、マウスなどを含む。出力装置５８は、オーディオ符号化装置１の処理結果を外部に出力するための装置である。出力装置５８は、スピーカー、ディスプレイなどを含む。ＤＳＰ６０はＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒの略であり、デジタル信号に変換されたオーディオ信号の周波数変換などの処理を高速に実行する。インタフェース装置６２は、オーディオ符号化装置１のネットワークへの接続や、外部の記憶装置への接続を実現するための接続部分である。

以上の通りオーディオ符号化装置１は、汎用的なコンピュータを用いて、オーディオ符号化プログラムを実行することにより実現することが出来る。

図１２は、オーディオ復号装置の機能ブロック図である。オーディオ復号装置１０は、オーディオ符号化装置１により符号化されたストリーム信号を復号し、オーディオ信号を出力する。オーディオ復号装置１０は、ＤＥＭＵＸ７１、低域信号復号部７２、高域生成部７３、包絡情報復号部７４、トーン情報復号部７５、高域整形部７６、トーン生成部７７、ＭＩＸ７８を有する。

ＤＥＭＵＸ７１は、デマルチプレクサの意味であり、多重化されたストリーム信号を複数の信号に分離する。低域信号復号部７２は、分離された信号のうち、符号化された低域信号スペクトルを復号する。高域生成部７３は、復号した低域信号スペクトルを高域にコピーすることにより、高域信号スペクトルを生成する。包絡情報復号部７４は、分離された信号のうち、符号化された包絡情報を復号する。トーン情報復号部７５は、分離された信号のうち、符号化されたトーン情報を復号する。高域整形部７６は、包絡情報復号部７４から出力された包絡情報に基づき、高域生成部７３により生成された高域信号スペクトルのピークを補正する。トーン生成部７７は、復号されたトーン情報に基づき、トーン信号を生成する。ＭＩＸ７８は、高域整形部７６から出力された、補正後の高域信号スペクトルと、トーン生成部７７から出力されたトーン信号とを合成し、合成された復号信号スペクトルを出力する。

以上の通りオーディオ復号装置１０は、本実施形態により符号化された信号に基づき、復号された信号を出力することが出来る。

図１３は、オーディオ復号装置による復号処理を説明する図である。図１３のグラフ１０１において、領域８１は低域信号領域、領域８２は高域信号領域を示す。高域生成部７３は、領域８１の低域信号スペクトルを領域８２にコピーし、高域信号スペクトルを生成する。

グラフ１０２において、包絡線８３は包絡情報に基づく高域信号スペクトルの包絡線、ピーク８４はトーン情報に基づくトーン信号のピークを示す。高域整形部７６は、コピーした高域信号スペクトルに対し、包絡線８３に基づくエネルギーレベルの補正を行う。ＭＩＸ７８は、包絡線８３により補正された高域信号スペクトルに対し、ピーク８４を合成する。

以上の通りオーディオ復号装置１０は、復号した低域信号スペクトル、包絡情報、およびピーク情報に基づき、オーディオ信号を復号することが出来る。

１：オーディオ符号化装置
３：包絡情報抽出部
４：トーン情報検出部
５：包絡情報補正部
７：包絡ピーク検出部
８：補正判定部
９：ピーク抑圧部
５０：ＣＰＵ
５２：記憶装置
５３：オーディオ符号化プログラム
５６：入力装置
５８：出力装置
６０：ＤＳＰ
６２：インタフェース装置

Claims

入力信号から低域の周波数成分を有する低域信号を抽出するフィルタと、
前記入力信号のうち前記低域信号よりも周波数の高い高域信号の包絡線に関する包絡情報を抽出する包絡情報抽出部と、
前記入力信号から高域信号スペクトルに含まれるトーン信号の情報であるトーン情報を検出するトーン情報検出部と、
前記トーン信号の周波数と前記包絡線のピークの周波数との差分に基づき前記包絡情報を補正する包絡情報補正部と、
前記低域信号、前記トーン情報、および補正された前記包絡情報を符号化する符号化部と
を有するオーディオ符号化装置。
前記包絡情報補正部は、
前記包絡情報に含まれるピークである包絡ピークを検出する包絡ピーク検出部と、
前記包絡ピークと前記トーン情報に基づき、前記包絡情報を補正するか否かを判定する補正判定部と、
前記補正判定部の判定結果に基づき、前記包絡情報に含まれるピークを抑圧するピーク抑圧部と
を有する、請求項１に記載のオーディオ符号化装置。
前記補正判定部は、前記包絡ピークのピーク値、および前記包絡ピークのピーク値における周波数と前記トーン情報のピーク値における周波数との差分値が所定値以上の場合に補正要と判定する、請求項２に記載のオーディオ符号化装置。
前記高域信号スペクトルを複数のサブバンドに分割して符号化処理する場合に、隣接する２つの前記サブバンドを前記包絡ピーク検出部における検出範囲として前記包絡ピークを検出する、請求項２に記載のオーディオ符号化装置。
前記補正判定部が補正要と判定した場合に、マスキング閾値に基づいて前記包絡ピークのピーク値または前記トーン情報のピーク値を補正する、請求項３に記載のオーディオ符号化装置。
入力信号を符号化処理するオーディオ符号化方法であって、コンピュータに、
前記入力信号から低域の周波数成分を有する低域信号を抽出し、
前記入力信号のうち前記低域信号よりも周波数の高い高域信号の包絡線に関する包絡情報を抽出し、
前記入力信号から高域信号スペクトルに含まれるトーン信号の情報であるトーン情報を検出し、
前記トーン信号の周波数と前記包絡線のピークの周波数との差分に基づき前記包絡情報を補正し、
前記低域信号および補正された前記包絡情報を符号化する
処理を実行させる、オーディオ符号化方法。