JP2009524101A

JP2009524101A - 符号化／復号化装置及び方法

Info

Publication number: JP2009524101A
Application number: JP2008551189A
Authority: JP
Inventors: ウォンジュン，ヤン; オオー，ヒュン; ジンキム，ヒョ; ジョンチョイ，スン; グムリー，ドン; グーカン，ホン; ソンリー，ジェ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-01-18
Filing date: 2007-01-18
Publication date: 2009-06-25
Also published as: US20090281812A1; WO2007083933A1; TW200746052A; EP1989702A4; EP1989703A4; JP2009524100A; KR20080101872A; KR20080101873A; AU2007206167A1; AU2007206167B8; MX2008009088A; TWI333643B; JP2009524099A; TW200737738A; EP1989702A1; US20110057818A1; EP1989703A1; CA2636493A1; WO2007083931A1; TW200746051A

Abstract

【解決手段】符号化／復号化装置及び方法を提供する。復号化方法は、入力ビットストリームから複数の符号化信号及び前記符号化信号の分割情報を抽出する段階と、前記複数の符号化信号のそれぞれを復号化するために複数の復号化方式のうちのいずれを使用するかを決定する段階と、決定された復号化方式によって前記符号化信号を復号化する段階と、前記復号化された複数の信号を、前記分割情報を参照しながら合成する段階と、を含む。したがって、信号の特性に従って信号を分類し、対応する信号が属するクラスに最も適合する符号化器を用いて信号の各々を符号化することによって、相互に異なる特性を有する信号を最適のビットレートで符号化できる。さらに、オーディオ信号、音声信号などの様々な信号をいずれも效率的に符号化可能になる。

Description

本発明は、信号の符号化／復号化装置及び方法に関し、より詳細には、信号の特性によって最適のビットレートで符号化／復号化できるようにする効率的な符号化／復号化装置及び方法に関する。

従来のオーディオ符号化器は、４８ｋｂｐｓ以上の高いビットレートでは高音質のオーディオ信号を提供するが、音声信号の処理には非効率的である。それに対し、従来の音声符号化器は、１２ｋｂｐｓ以下の低いビットレートでは音声信号を效果的に符号化できるが、様々なオーディオ信号を符号化するのには不十分である。

本発明の目的は、音声信号、オーディオ信号などのように互いに異なる特性を有する信号を、最適のビットレートで符号化できるようにする符号化／復号化装置及び方法を提供することにある。

上記の目的を解決するための本発明による復号化方法は、入力ビットストリームから複数の符号化信号及び前記符号化信号の分割情報を抽出する段階と、前記複数の符号化信号のそれぞれを復号化するために複数の復号化方式のうちのいずれを使用するかを決定する段階と、決定された復号化方式によって前記符号化信号を復号化する段階と、前記復号化された複数の信号を、前記分割情報を参照しながら合成する段階と、を含むことを特徴とする。

上記の目的を達成するための本発明による復号化装置は、複数の符号化信号及び前記復号化信号の分割情報を入力ビットストリームから抽出するビットアンパッキング部と、前記複数の符号化信号のそれぞれを復号化するために複数の復号化器のうちのいずれを使用するかを決定する復号化器決定部と、前記複数の復号化器を含み、前記決定された復号化器を用いて前記符号化信号の各々を復号化する復号化部と、前記復号化された複数の信号を、前記分割情報を参照しながら合成する合成部と、を含むことを特徴とする。

上記の目的を達成するための本発明による符号化方法は、入力信号を複数の分割信号に分割する段階と、前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する段階と、決定された符号化方式を用いて前記分割信号を符号化する段階と、前記符号化された分割信号を用いてビットストリームを生成する段階と、を含むことを特徴とする。

上記の目的を達成するための本発明による符号化装置は、入力信号を複数の信号に分割し、前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する分類部と、決定された符号化方式を用いて前記分割信号を符号化する符号化部と、前記符号化された分割信号を用いてビットストリームを生成するビットパッキング部と、を含むことを特徴とする。

本発明の符号化／復号化装置及び方法によれば、特性によって信号を分類し、それに合う符号化器を用いて信号を符号化するので、相互に異なる特性を有する信号を最適のビットレートで符号化することができ、その結果、オーディオ信号、音声信号などの様々な信号をいずれも效率的に符号化することが可能になる。

以下、添付の図面を参照しつつ、本発明による符号化／復号化装置及び方法の好適な実施例について詳細に説明する。

図１は、本発明の第１実施例による符号化装置のブロック図である。図１を参照すると、符号化装置は、分類部１００、符号化部２００及びビットパッキング部３００を含む。

図１に示すように、本発明による符号化装置は、相互に異なる方式で符号化を行う複数の符号化部２１０，２２０を含む。

分類部１００は、入力信号を複数の分割信号に分割した後、複数の分割信号のそれぞれを複数の符号化器２１０，２２０のいずれかに対応させる。複数の符号化器２１０，２２０の一部が複数の分割信号に対応しても良く、又は複数の分割信号に全く対応しなくても良い。

分類部１００は、複数の分割信号のそれぞれに符号化ビット数を割り当てたり、符号化順序を決定することができる。

符号化部２００は、複数の分割信号を、分類部１００により対応された符号化部を用いて符号化する。分類部１００は、複数の分割信号のそれぞれの特性を分析し、この分析された特性に基づいて複数の符号化器２１０，２２０のうち、前記信号を最も效率的に符号化できる符号化器を選択する。

信号を最も效率的に符号化できる符号化器とは、前記信号を符号化した時に圧縮効率が最も高い符号化器を指す。

例えば、係数及び残差として容易にモデリングできる分割信号を、音声符号化器によって効率的に符号化することができ、係数及び残差として容易にモデリングできない分割信号を、オーディオ符号化器によって容易に符号化することができる。

分割信号のエネルギーに対する分割信号をモデリングすることによって得られた残差のエネルギーの分割信号のエネルギーに対する比が、予め設定されたしきい値より小さい場合、分割信号を、容易にモデリングできる信号とみなすことができる。

時間軸上で大きな重複を示す分割信号を、現在の信号を以前の信号に基づいて予測する線形予測法を用いて良好にモデリングすることができるので、分割信号を、線形予測符号化法を用いる音声符号化器によって最も効率的に符号化することができる。

ビットパッキング部３００は、符号化部２００によって提供される符号化された分割信号及び符号化された分割信号に関する符号化情報に基づいて、転送するビットストリームを生成する。ビットパッキング部３００は、ビット−プレーン（ｂｉｔ−ｐｌａｉｎ）方式やＢＳＡＣ（ＢｉｔＳｌｉｃｅｄＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ）方式などを用いて、可変ビットレート特性を有するビットストリームを生成できる。

ビットレートの制限によって符号化されなかった信号又は帯域を、補間、外挿、複製（ｒｅｐｌｉｃａｔｉｏｎ）などの方法を用いて復号化装置で復号化された信号又は帯域から再生できる。また、符号化されなかった分割信号に対する補償情報を、転送されるビットストリームに含むことができる。

図１を参照すると、分類部１００は、複数の分類器１１０，１２０を含む。第１分類器乃至第ｎ分類器１１０，１２０のそれぞれは、入力信号を複数の分割信号に分割し、入力信号のドメインを変換し、入力信号の特性を抽出し、入力信号を入力信号の特性によって分類し、又は入力信号を複数の符号化部２１０，２２０のいずれか一つに対応させることができる。

第１分類器乃至第ｎ分類器１１０，１２０のいずれか一つは、入力信号に前処理を行い、入力信号を符号化に効率的な信号に変換する前処理部であっても良い。この前処理部は、入力される信号を複数の成分、例えば、係数成分と信号成分とに分割でき、他の分類器が動作を行う前に入力信号に前処理を行うことが好ましい。

入力信号を、入力信号の特性、外部環境要因、目標ビットレート等に従って選択的に前処理することができ、入力信号から得られる複数の分割信号の一部のみを前処理することができる。

分類部１００は、心理音響モデリング部４００によって提供される入力信号の心理聴覚特性情報に従って入力信号を分類することができる。心理聴覚特性情報の例は、マスキングしきい値、信号対マスク比（ＳＭＲ：Ｓｉｇｎａｌ−ｔｏ−ＭａｓｋＲａｔｉｏ）、心理聴覚エントロピー（ＰｅｒｃｅｐｔｕａｌＥｎｔｒｏｐｈｙ）を含む。

すなわち、分類部１００は、入力信号の心理聴覚特性情報、例えば、入力信号のマスキングしきい値及び信号対マスク比（ＳＭＲ）にしたがって入力信号を複数の分割信号に分割したり、複数の分割信号を第１符号化器２１０乃至第ｍ符号化器２２０の一つ以上に対応させることができる。

また、分類部１００は、調性（ｔｏｎａｌｉｔｙ）、ＺＣＲ（ＺｅｒｏＣｒｏｓｓｉｎｇＲａｔｅ）、線形予測係数、以前のフレームの分類情報のような情報を受信し、受信した情報を用いて入力される信号を分類できる。

図１に示すように、符号化部２００から出力される符号化結果に関する情報を、分類部１００にフィードバックされることができる。

入力信号が分類部１００で複数の信号に分割され、これら複数の分割信号のそれぞれに対する符号化器、符号化ビット数又は符号化順序などが決定されると、分割信号は、決定の結果に従って符号化される。分割信号の各々の符号化に実際使用されたビット数は、分類部１００が割り当てた符号化ビット数と必ずしも同一でなくても良い。

実際使用されたビット数と割り当てられた符号化ビット数との差に関する情報が分類部１００にフィードバックされ、分類部１００は、他の分割信号に割り当てられたビット数を増加することができる。実際使用されたビット数が割り当てられたビット数より多い場合、分類部１００は、他の信号に割り当てられたビット数を減少することができる。

実際に分割信号を符号化する符号化器は、分類部１００によって分割信号に対応した符号化器と必ずしも同一でなくても良い。この場合、実際に分割信号を符号化する符号化器が分類部１００によって分割信号に対応した符号化器と同一でないことを表す情報を分類部１００にフィードバックすることができる。その後、分類部１００は、以前に分割信号に対応した符号化器以外の符号化器に対して分類器を対応させることができる。

また、フィードバックされた符号化結果情報を用いて、分類部１００は、入力信号を複数の信号に再分割しても良く、その場合、分類部１００は、当該入力信号を、以前に得られた分割信号と異なる構造を持つ複数の分割信号を得ることができる。

分類部１００により選択された符号化動作が、実際に行われた符号化動作と異なる場合、分類部１００により選択された符号化動作と実際に行われた符号化動作との差異に関する情報を分類部１００にフィードバックし、分類部１００は、符号化動作に関連する情報を再決定することができるようにしても良い。

図２は、図１に示す分類部の第１実施例を示すブロック図であり、同図の第１分類部１１０は、入力信号を符号化に効率的な信号の形態に変換する前処理を行う前処理部であっても良い。

図２を参照すると、第１分類部１１０は、相互に異なる方式の前処理を行う複数の前処理部１１１，１１２を含むことができ、入力信号の特性、外部環境要因、目標ビットレート等に従って入力信号の前処理を行うために第１前処理部乃至第ｎ前処理部１１１，１１２のいずれか一つを用いることができる。また、第１分類器１１０は、第１前処理部１１１乃至第ｎ前処理部１１２を用いて入力信号に２以上の前処理を行っても良い。

図３は、図２に示す前処理部の一実施例のブロック図であり、同図の前処理部は、係数抽出部１１３及び残差抽出部１１４を含む。

係数抽出部１１３は、入力信号を分析し、入力信号の特性を表す係数を入力信号から抽出する。残差抽出部１１４は、抽出された係数を用いて、重複成分が除去された残差を入力信号から抽出する。

前記前処理部は、入力される信号に線形予測符号化を行うことができ、この場合、係数抽出部１１３は、入力信号に対して線形予測分析を行うことによって線形予測係数を抽出し、残差抽出部１１４は、係数抽出部１１３によって提供される線形予測係数を用いて入力信号から残差を抽出する。重複部分が除去された残差は、白色雑音と同一の形態を有することができる。

以下では、本発明による線形予測分析方法について詳細に説明する。

線形予測分析により得られた予測信号は、下記の数式１のように以前の入力信号の線形的な組み合わせによって構成することができる。

上記数ｐは線形予測次数を表し、α₁乃至α_pは、入力信号と推定信号との間のＭＳＥ（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）を最小化することによって得られる線形予測係数を表す。

線形予測分析のための伝達関数ｐ（ｚ）は、下記の数式２で表されることができる。

図３を参照すると、前処理部は、他の線形予測分析方法であるＷＬＰＣ（Ｗａｒｐｅｄｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎｃｏｄｉｎｇ）を用いて線形予測係数及び残差を入力信号から抽出できる。このＷＬＰＣは、単位遅延であるＺ^-1を、下記の数式３のような伝達関数を有する全域通過フィルターを代用することによって実現することができる。

上記数式３で、λは、全域通過係数を表す。この全域通過係数λを変化させることによって、分析しようとする信号の解像度を変化させることができる。分析しようとする信号が所定の周波数帯域に集中している場合、例えば、分析しようとする信号が、低周波帯域に集中したオーディオ信号である場合、低周波帯域信号の解像度を高めることができるように全域通過係数λを設定することによって信号を效率的に符号化することができる。

ＷＬＰＣ方式において、低周波領域の信号は、高周波領域の信号よりも高い解像度で分析される。したがって、ＷＬＰＣ方式は、低周波数領域信号に対して高い予測性能を示すとともに、低周波数領域信号をより旨くモデルすることができる。

全域通過係数λを、入力される信号の特性、外部環境要因及び目標ビットレートに従って時間軸上で変化させることができる。全域通過係数λが時間によって変化する場合、復号化によって得られるオーディオ信号に著しい歪曲が発生することがある。したがって、全域通過係数λが変化するときには、平滑化手法を全域通過係数λに適用して全域通過係数λが徐々に変化するようにし、歪曲を最小にすることができる。現在の全域通過係数λとして決定することができる値の範囲を、以前の全域通過係数λ値によって決定することができる。

線形予測係数の推定のための入力として、元の信号の代わりにマスキングしきい値を使用することができる。更に詳しくは、マスキングしきい値を時間領域信号に変換し、この変換された信号を入力として用いることによってＷＬＰＣを行うことができる。また、残差を入力として用いることによって線形予測係数の推定を行うことができる。すなわち、線形予測分析を複数回行うことによって、更に白色度の増した（ｗｈｉｔｅｎｅｄ）残差を得ることができる。

図２に示す第１分類器１１０は、上記数式１及び数式２を参照して説明した線形予測分析を行う第１前処理部１１１と上記のＷＬＰＣを行う第２前処理部（図示せず）を含み、入力信号の特性、外部環境要因及び目標ビットレートに従って第１及び第２前処理部のいずれかを選択したり、入力信号に対して線形予測分析を行わないように決定することができる。

全域通過係数λが０である場合、第２前処理部は第１前処理部１１１と同一であってもよい。この場合、第１分類器１１０は、第２前処理部のみを含み、上記の２つの線形予測符号化方法のうちいずれかを全域通過係数λに従って選択することができる。また、第一分類器１１０は、線形予測分析法を実行することができ、又は、線形予測分析法とＷＬＰＣ方式のいずれかをフレーム単位で選択する。

線形予測分析を行うか否かを表す情報及び線形予測分析法とＷＬＰＣ方式のいずれを選択するかを表す情報を、転送されるビットストリームに含めることができる。

ビットパッキング部３００は、線形予測係数、線形予測符号化を行うか否かを表す情報及び実際に使用された線形予測符号化器を識別する情報を第１分類器１１０から受信し、受信した全ての情報を、転送するビットストリームに挿入することができる。

入力信号を元の入力信号からほとんど区別することができない音質を有する信号に変換するのに必要なビット数を、入力信号の心理聴覚エントロピーを計算することによって決定することができる。

図４は、本発明の実施の形態による心理聴覚エントロピーを計算する装置のブロック図である。図４を参照すると、装置は、フィルターバンク１１５、線形予測部１１６、心理音響モデリング部１１７、第１ビット計算部１１８及び第２ビット計算部１１９を含む。

入力信号の心理聴覚エントロピーＰＥを、下記の数式４を用いて計算できる。

上記数式４で、Ｘ（ｅ^jw）は、元の信号のエネルギーレベルを表し、Ｔ(ｅ^jw)は、マスキングしきい値を表す。

全域通過フィルターを用いるＷＬＰＣ方式において、入力信号の心理聴覚エントロピーを、入力信号の残差のエネルギーと残差のマスキングしきい値との比を用いて計算できる。さらに詳しくは、ＷＬＰＣ方式を用いる符号化装置は、入力信号の心理聴覚エントロピーＰＥを、下記の数式５を用いて計算することができる。

上記数式５で、Ｒ(ｅ^jw)は、入力信号の残差のエネルギーを表し、Ｔ'(ｅ^jw)は、残差のマスキングしきい値を表す。

また、残差のマスキングしきい値Ｔ'(ｅ^jw)を、下記の数式６で表すことができる。

上記数式６で、Ｔ(ｅ^jw)は、元の信号のマスキングしきい値を表し、Ｈ(ｅ^jw)は、ＷＬＰＣの伝達関数を表す。心理音響モデリング部１１７は、スケールファクターバンド（ｓｃａｌｅｆａｃｔｏｒｂａｎｄ）領域における元の信号のマスキングしきい値を用いるとともに伝達関数Ｈ(ｅ^jw)を用いることによって残差のマスキングしきい値（Ｔ'(ｅ^jw)）を計算することができる。

図４を参照すると、第１ビット計算部１１８は、線形予測部１１６によって実行されるＷＬＰＣによって得られた残差と、心理音響モデリング部１１７から出力されるマスキングしきい値を受信する。また、フィルターバンク１１５は元の信号を周波数変換し、周波数変換の結果を、心理音響モデリング部１１７及び第２ビット計算部１１９に入力することができる。フィルターバンク１１５は、元の信号にフーリエ変換を行うことができる。

第１ビット計算部１１８は、元の信号のマスキングしきい値をＷＬＰＣ合成フィルターの伝達関数スペクトルで除算した値と残差エネルギーとの比を用いて心理聴覚エントロピーを計算することができる。

異なる帯域幅を有する６０個以上の一様でない分割バンドに分割された信号のワープ心理知覚エントロピーＷＰＥ（ｗａｒｐｅｄｐｅｒｃｅｐｔｕａｌｅｎｔｒｏｐｙ）を、下記の数式７のようにＷＬＰＣを用いて計算することができる。

上記数式７で、ｂは、心理音響モデルを用いて得られた分割バンドのインデックスを表し、ｅ_res(ｂ)は、分割バンドにおける残差のエネルギー和を表し、ｗ＿ｌｏｗ(ｂ)及びｗ＿ｈｉｇｈ(ｂ)はそれぞれ、分割バンドにおける最低周波数と最高周波数を表す。また、ｎｂ_linear(ｗ)は、線形的にマッピングされた分割バンドにおけるマスキングしきい値を表し、ｈ(ｗ)²は、１フレームの線形予測符号化（ＬＰＣ）エネルギースペクトルを表す。ｎｂ_res(ｗ)は、残差に対応する線形的なマスキングしきい値を表す。

それに対し、同じ帯域幅を有する６０個以上の一様でない分割に分割された信号のワープ心理知覚エントロピーＷＰＥを、下記の数式８のようにＷＬＰＣを用いて計算することができる。

上記数式８で、ｓは、線形的に分割されたサブバンドのインデックスを表し、ｓ_low(ｗ)とｓ_high(ｗ)は、サブバンドｓにおける最低周波数と最高周波数をそれぞれ表す。ｎｂ_sub(ｓ)は、線形的に分割されたサブバンドｓのマスキングしきい値を表し、ｅ_sub(ｓ)は、線形的に分割されたサブバンドｓのエネルギー、すなわち、線形的に分割されたサブバンドｓの周波数の和を表す。マスキングしきい値ｎｂ_sub(ｓ)は、線形的に分割されたサブバンドｓの複数のマスキングしきい値の最小値である。

同一帯域幅を有するとともに入力スペクトルの和より大きいしきい値を有するバンドに対しては心理聴覚エントロピーを計算しなくてもよい。したがって、数式８のワープ心理知覚エントロピーＷＰＥを数式７のワープ心理知覚エントロピーＷＰＥより低くすることができ、これによって、低周波帯域に対して高い解像度となる。

数式９に示すように、ワープ心理聴覚エントロピーＷＰＥ_ｓｆを、異なる帯域幅のスケールファクターバンドに対し、ＷＬＰＣを用いて計算することができる。

上記数式９で、ｆは、スケールファクターバンドのインデックスを表し、ｎ_bsf(ｆ)は、スケールファクターバンドの最小のマスキングしきい値を表す。また、ＷＰＥ_sfは、スケールファクターバンドｆの入力信号とスケールファクターバンドｆのマスキングしきい値との比を表し、ｅ_sf(ｓ)は、スケールファクターバンドｆの全ての周波数の和、すなわち、スケールファクターバンドｆのエネルギーを表す。

図５は、図１に示す分類部１００の他の実施例を示すブロック図である。図５を参照すると、同図の分類部は、信号分割部１２１及び決定部１２２を含む。

更に詳しくは、信号分割部１２１は、入力信号を複数の分割信号に分割する。例えば、信号分割部１２１は、サブバンドフィルターを用いて、入力信号を複数の周波数帯域に分割できる。周波数帯域は、同一又は異なる帯域幅を有することができる。上記のように、分割信号を、分割信号の特性に最も適合することができる符号化器によって他の分割信号とは別個に符号化することができる。

信号分割部１２１は、入力信号を複数の分割信号、例えば、複数の帯域信号に分割することができ、その結果、帯域信号間の干渉を最小にすることができる。信号分割部１２１は、二重フィルターバンク構造を有することができる。この場合、信号分割部１２１は、分割信号の各々を更に分割することができる。

信号分割部１２１によって得られた分割信号に関する分割情報、例えば、分割信号の総数及び分割信号の各々の帯域情報を、転送されるビットストリームに含めることができる。復号化装置は、分割情報を参照しながら分割信号を個別に復号化するとともに復号化された信号を合成し、これによって、元の入力信号を復元する。

分割情報を一つのテーブルとして記憶することができる。ビットストリームは、元の入力信号を分割するのに用いられるテーブルの識別情報を含むことができる。

音の品質に対する分割信号（例えば、複数の周波数帯域信号）のそれぞれの重要度を決定することができ、ビットレートを、決定の結果に従って分割信号の各々に対して調節することができる。更に詳しくは、分割信号の重要度を、固定値として又は各フレームに対する入力信号の特性に従って変動する固定されていない値として規定することができる。

音声信号とオーディオ信号が入力信号に混合される場合、信号分割部１２１は、音声信号の特性とオーディオ信号の特性に従って入力信号を音声信号とオーディオ信号とに分割することができる。

決定部１２２は、符号化部２００の第１乃至第ｍ符号化器２１０及び２２０のいずれが分割信号の各々を最も効率的に符号化することができるかを決定することができる。

決定部１２２は、分割信号を複数のグループに分類する。例えば、決定部１２２は、分割信号をＮ個のクラスに分類し、Ｎ個のクラスの各々を第１乃至第ｍ符号化部２１０及び２２０に対応させることによって分割信号の各々を符号化するために第１乃至第ｍ符号化部２１０及び２２０のいずれを使用するかを決定する。

更に詳しくは、符号化モジュール２００が第１乃至第ｍ符号化部２１０及び２２０を含む場合、決定部１２２は、分割信号を、第１乃至第ｍ符号化部２１０及び２２０により最も效率的に符号化できる第１乃至第ｍクラスに分類することができる。

このために、第１乃至第ｍ符号化部２１０及び２２０の各々により最も效率的に符号化できる信号の特性を予め決定することができ、第１乃至第ｍ符号化部２１０及び２２０の特性を、決定の結果に従って規定することができる。その後、決定部１２２は、分割信号のそれぞれの特性を抽出し、抽出の結果に従って、分割信号の各々を、対応する分割信号と同一の特性を共有する第１乃至第ｍ符号化部２１０及び２２０の一つに分類することができる。

第１乃至第ｍクラスの例は、有声音クラス、無声音クラス、バックグラウンド雑音クラス、黙音クラス、調性（ｔｏｎａｌ）のあるオーディオクラス、調性のないオーディオクラス、有声音とオーディオが混合されたクラスを含む。

決定部１２２は、心理音響モデリング部４００によって提供される分割信号に関する心理聴覚特性情報、例えば、分割信号のマスキングしきい値、ＳＭＲ又は心理聴覚エントロピーを参照することによって、分割信号の各々を符号化するために第１乃至第ｍ符号化部２１０及び２２０のいずれを用いるかを決定することができる。

決定部１２２は、分割信号に関する心理聴覚特性情報を参照することによって分割信号のそれぞれを符号化するためのビット数又は分割信号の符号化順序を決定することができる。

決定部１２２によって行われる決定により得られる情報、例えば、分割信号の各々を符号化するのに第１乃至第ｍ符号化器２１０及び２２０によって何ビットで行われるかを表す情報及び分割信号を符号化する順序を表す情報を、転送されるビットストリームに含めることができる。

図６は、図５に示す信号分割部１２１の一実施例のブロック図である。図６を参照すると、信号分割部は、分割部１２３及び併合部１２４を含む。

分割部１２３は、入力信号を複数の分割信号に分割することができる。併合部１２４は、同様な特性を有する分割信号を併合して一つの信号にすることができる。このために、併合部１２４は合成フィルターバンクを含むことができる。

例えば、分割部１２３は、入力信号を２５６個の帯域に分割する。２５６個の帯域のうち、同様な特性を有する帯域を併合部１２４により併合して一つの帯域にすることができる。

図７を参照すると、併合部１２４は、互いに隣接する複数の分割信号を併合して一つの併合信号にすることができる。この場合、併合部１２４は、隣接する分割信号の特性に関係なく予め規定された規則に従って複数の分割信号を併合して一つの併合信号にすることができる。

また、図８を参照すると、併合部１２４は、分割信号が互いに隣接するか否かに関係なく同様な特性を有する複数の分割信号を併合して一つの併合信号にすることができる。この場合、併合部１２４は、同じ符号化器を用いて效率的に符号化できる複数の信号を併合して一つの信号にすることが好ましい。

図９は、図５に示す信号分割部の他の例のブロック図である。図９を参照すると、信号分割部は、第１分割部１２３、第２分割部１２６及び第３分割部１２７を含む。

更に詳しくは、信号分割部１２１は、入力信号を階層的に分割できる。例えば、入力信号は、第１分割部１２３で２個の分割信号に分割され、２個の分割信号のうちの１個は第２分割部１２６で３個の分割信号に分割され、３個の分割信号のうちの１個は、第３分割部１２７で３個の分割信号に分割される。このようにして、入力信号を合計６個の信号に分割することができる。信号分割部１２１は、入力信号を異なる帯域幅を有する複数の帯域に階層的に分割することができる。

図９に示す例において、入力信号を３階層に分けて分割しているが、本発明はこれに限定されるものではない。すなわち、入力信号を２階層又は４以上の階層に分けて複数の分割信号に分割することも可能である。

信号分割部１２１の第１乃至第３分割部１２３，１２５及び１２７の一つは、入力信号を複数のタイムドメイン信号に分割しても良い。

図１０は、信号分割部１２１が入力信号を複数の分割信号に分割する例を説明する。

音声又はオーディオ信号は、一般的に、短いフレーム長の期間中に定常である。しかしながら、音声又はオーディオ信号は、時々、例えば遷移期間中に非定常特性を有することができる。

非定常信号を效果的に分析するとともにそのような非定常信号の符号化効率を高めるために、本発明による符号化装置は、ウェーブレット法又は経験的モード分解（ＥＭＤ）法を用いることができる。すなわち、本実施の形態による符号化装置は、入力信号の特性を固定されない変換関数を用いて分析することができる。例えば、信号分割部１２１は、周波数帯域が固定されないサブバンドフィルタリング方法を用いて入力信号を可変帯域幅を有する複数の帯域に分割することができる。

以下、入力信号をＥＭＤによって複数の分割信号に分割する方法について説明する。

ＥＭＤ法において、入力信号を一つ以上の固有モード関数（ＩＭＦ)に分解することができる。ＩＭＦは、極値の個数とゼロ交差の個数が等しく又は最大でも１だけ異なるとともに極大値によって決定される包絡線と極小値によって決定される包絡線の平均値が‘０’になるという条件を満足する必要がある。

ＩＭＦは、簡単なハーモニック関数の成分と同様な簡単な振動モードを表し、これによって、ＥＭＤ法を用いて入力信号を効率的に分解することができる。

更に詳しくは、入力信号ｓ（ｔ）からＩＭＦを抽出するために、上側の包絡線を、入力信号ｓ（ｔ）の極大値によって決定される全ての極値を立方スプライン補間法を用いて接続することによって生成することができ、下側の包絡線を、入力信号ｓ（ｔ）の極小値によって決定される全ての極値を立方スプライン補間法を用いて接続することによって生成することができる。入力信号ｓ（ｔ）が有することができる全ての値は、上側の包絡線と下側の包絡線との間に存在することができる。

その後、上側の包絡線と下側の包絡線の平均ｍ(ｔ)を求めることができる。その後、下記の数式１０によって、平均ｍ(ｔ)を入力信号ｓ(ｔ)から除去することで、第１成分ｈ₁(ｔ)を求める。

第１成分ｈ₁(ｔ)が上記ＩＭＦ条件を満たさない場合、第１成分ｈ₁(ｔ)を、入力信号ｓ(ｔ)と同一であるものとして決定することができ、上記動作を、上記ＩＭＦ条件を満足する第１のＩＭＦＣ_１（ｔ）が得られるまで再び実行することができる。

第１のＩＭＦＣ₁(ｔ)が得られると、下記の数式１１のようにして第１のＩＭＦＣ₁(ｔ)を除去し、残差ｒ₁(ｔ)を求める。

その後、残差ｒ₁(ｔ)を新しい入力信号として使用することによって、上記ＩＭＦ抽出動作を再び実行することができ、これによって、第２のＩＭＦＣ₂(ｔ)と残差ｒ₁(ｔ)が得られる。

上記ＩＭＦ抽出動作中に得られる残差ｒ_n(ｔ)が、定数、単調増加関数、又は極値が１個若しくは全く存在しない一つの周期の関数である場合、上記ＩＭＦ抽出過程を終了する。

上記のようなＩＭＦ抽出動作の結果、入力信号ｓ(ｔ)を、下記の数式１２のように複数のＩＭＦＣ_０（ｔ）乃至Ｃ_Ｍ（ｔ）と最終的な残差ｒ_m(ｔ)との和で表すことができる。

上記数式１２で、Ｍは、抽出されたＩＭＦの総数を表す。ｒ_m(ｔ)は、入力信号ｓ（ｔ）の一般的な特性を反映する。

図１０は、ＥＭＤ法を用いて元の入力信号を分解することによって得られる１１個のＩＭＦと最終的な残差を示している。図１０を参照すると、ＩＭＦ抽出の前の段階で元の入力信号から得られるＩＭＦの周波数は、ＩＭＦ抽出の後の段階で元の入力信号から得られるＩＭＦの周波数より高くなる。

また、下記の数式１３のような以前の差分ｈ_{１（ｋ−１）}と現在の差分ｈ_１ｋとの間の標準偏差ＳＤを用いて、ＩＭＦの抽出を簡単化できる。

標準偏差ＳＤが基準値以下である場合、例えば、標準偏差ＳＤが０．３以下である場合、現在の残差ｈ_1kをＩＭＦとみなすことができる。

一方、下記の数式１４で表されるヒルベルト変換によって信号ｘ(ｔ)を解析信号に変換することができる。

上記数式１４で、α(ｔ)は、瞬時の振幅を表し、θ(ｔ)は瞬時の位相を表し、Ｈ[]は、ヒルベルト変換を表す。

ヒルベルト変換の結果、入力信号を、実数成分と虚数成分からなる解析信号に変換することができる。

平均が０である信号に上記のようなヒルベルト変換を適用すると、時間領域と周波数領域ともに対して高い解像度の周波数成分を得ることができる。

以下では、図５に示す決定部１２２が、入力信号を分解することによって得られる複数の分割信号のそれぞれを符号化するのに用いられる符号化器がいずれであるかを決定する方法について説明する。

決定部１２２は、音声符号化器とオーディオ符号化器のうちのいずれが分割信号の各々をより效率的に符号化できるか決定することができる。すなわち、決定部１２２は、音声符号化器である第１乃至第ｍ符号化器２１０及び２２０のいずれかを用いて、音声符号化器によって効率的に符号化することができる分割信号を符号化することを決定するとともに、オーディオ符号化器である第１乃至第ｍ符号化器２１０及び２２０のいずれかを用いて、オーディオ符号化器によって効率的に符号化することができる分割信号を符号化することを決定することができる。

以下では、決定部１２２が音声符号化器とオーディオ符号化器のうちのいずれが分割信号をより效率的に符号化できるかを決定する方法を詳細に説明する。

決定部１２２は、分割信号の変化量を測定し、測定結果があらかじめ設定された基準値よりも大きい場合、オーディオ符号化器が音声符号化器より効率的に分割信号を符号化できると決定することができる。

また、決定部１２２は、分割信号の所定の部分に含まれる調性（ｔｏｎａｌ）成分を測定し、測定結果があらかじめ設定された基準値よりも大きい場合、音声符号化器がオーディオ符号化器より効率的に分割信号を符号化できると決定することができる。

図１１は、図５に示す決定部１２２の一実施例を示すブロック図である。図１１を参照すると、決定部１２２は、音声符号化／復号化部５００、第１フィルターバンク５１０、第２フィルターバンク５２０、判断部５３０及び心理音響モデリング部５４０を含む。

図１１に示す決定部１２２は、音声符号化器とオーディオ符号化器のうちのいずれが分割信号をより效率的に符号化できるかを決定することができる。

図１１を参照すると、入力信号は、音声符号化／復号化部５００によって符号化され、符号化された信号は、音声符号化／復号化部５００によって復号化され、これによって元の入力信号が復元される。音声符号化／復号化部５００は、ＡＭＲ−ＷＢ音声コーダ／デコーダ（ＡＭＲ−ＷＢｓｐｅｅｃｈｃｏｄｅｒ／ｄｅｃｏｄｅｒ）を含むことができ、このＡＭＲ−ＷＢ音声コーダ／デコーダは、ＣＥＬＰ（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ）構造を有することができる。

入力信号を、音声符号化／復号化部５００に入力する前にダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）することができる。音声符号化／復号化部５００から出力された信号をアップサンプリング（ｕｐｓａｍｐｌｉｎｇ）して元の信号を復元することができる。

入力信号を第１フィルターバンク５１０によって周波数変換することができる。

音声符号化／復号化部５００から出力された信号は、第２フィルターバンク５２０によって周波数ドメイン信号に変換される。第１フィルターバンク５１０又は第２フィルターバンク５２０は、入力された信号に対してコサイン変換、例えば、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＴｒａｎｓｆｏｒｍ）を行うことができる。

第１フィルターバンク５１０から出力した元の入力信号の周波数成分と第２フィルターバンク５２０から出力した復元された入力信号の周波数成分の両方が、判断部５３０に入力される。判断部５３０は、入力された周波数成分に基づいて音声符号化器とオーディオ符号化器のいずれが入力信号をより效率的に符号化できるか決定することができる。

更に詳しくは、判断部５３０は、下記の数式１５を用いて周波数成分の各々の心理聴覚エントロピーＰＥｉを計算することによって、入力された周波数成分に基づいて音声符号化器とオーディオ符号化器のいずれが入力信号をより效率的に符号化できるか決定することができる。

上記数式１５で、ｘ(ｊ)は周波数成分の係数を表し、ｊは周波数成分のインデックスを表し、δは量子化ステップサイズを表し、ｎiｎｔ()は最も近い整数を引数に返す関数を表し、ｊ_low(i)とｊ_High(i)はそれぞれ、スケールファクターバンドの開始周波数インデックスと終了周波数インデックスを表す。

判断部５３０は、上記数式１５を用いて元の入力信号の周波数成分の心理聴覚エントロピーと復元された信号の周波数成分の心理聴覚エントロピーを計算し、計算結果に基づいてオーディオ符号化器と音声符号化器のいずれが入力信号の符号化に用いるのにより有効であるか決定することが判断できる。

例えば、元の入力信号の周波数成分の心理聴覚エントロピーが、復元された入力信号の周波数成分の心理聴覚エントロピー未満である場合、判断部５３０は、音声符号化器よりオーディオ符号化器の方が入力信号をより效率的に符号化できると決定することができる。それに対し、復元された入力信号の周波数成分の心理聴覚エントロピーが、元の入力信号の周波数成分の心理聴覚エントロピー未満である場合、判断部５３０は、オーディオ符号化器より音声符号化器の方が入力信号をより效率的に符号化できると決定することができる。

図１２は、図１に示す第１符号化器２１０乃至第ｍ符号化器２２０の１個の例のブロック図である。図１２に示す符号化器を音声符号化器とすることができる。

一般に、音声符号化器は、入力信号をフレーム単位で線形予測符号化でき、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎアルゴリズムを用いて入力信号の各フレームからＬＰＣ係数、例えば、１６次のＬＰＣ係数を抽出することができる。励起信号を、適応コードブック検索及び固定コードブック検索過程を通じて量子化することができる。励起信号を、台数符号励振型線形予測法を用いて量子化することができる。ベクトル量子化を、共役構造を有する量子化表を用いることによって励起信号の利得に対して行うことができる。

図１２に示す音声符号化器は、線形予測分析部６００、ピッチ推定部６１０、コードブック検索部６２０、ＬＳＰ部６３０及び量子化部６４０を含む。

線形予測分析部６００は、非対称窓を用いて得た自己相関係数を用いることによって入力信号に対してフレーム単位で線形予測分析を行う。予測区間すなわち非対称ウィンドが３０ｍｓの長さを有する場合、線形予測分析部６００は、５ｍｓの長さを有する予測区間をおいて線形予測分析を行うことができる。

自己相関係数は、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎアルゴリズムを用いて線形予測係数に変換される。ＬＳＰ６３０は、量子化と線形補間のために線形予測係数をＬＳＰに変換する。量子化部６４０は、ＬＳＰに変換された線形予測係数を量子化する。

ピッチ推定部６１０は、適応コードブック検索の複雑度を減らすために開ループピッチを推定する。更に詳しくは、ピッチ推定部６１０は、各フレームの加重音声信号ドメインで開ループピッチ周期を推定する。その後、推定されたピッチ周期を用いてハーモニック雑音成形フィルターが構成される。ハーモニック雑音成形フィルター、線形予測合成フィルター及びフォーマント心理聴覚加重フィルターによってインパルス応答が計算される。インパルス応答を、励起信号の量子化のためのターゲット信号の生成に用いることができる。

コードブック検索部６２０は、適応コードブックと固定コードブックを検索する。適応コードブック検索を、閉ループピッチ検索及び以前の励起信号の補間によって適応コードブックベクトルを計算することによってサブフレーム単位で行うことができる。適応コードブック変数は、ピッチフィルターのピッチ周期と利得を含むことができる。励起信号を、閉ループ検索を単純化するために線形予測合成フィルターにより生成することができる。

固定コードブックの構造を、ＩＳＰＰ（ＩｎｔｅｒｌｅａｖｅｄＳｉｎｇｌｅＰｕｌｓｅＰｅｒｍｕｔａｔｉｏｎ）設計に基づいて確立することができる。６４個のパルスがそれぞれ配置された位置を有するコードブックベクトルは、各々が１６個の位置を有する４個のトラックに分けられる。予め決定されたパルス数を、転送率に従って４個のトラックの各々に配置される。コードブックインデックスは、パルスのトラック位置と符号を表すので、コードブックを保存する必要がなく、励起信号を、コードブックインデックスを用いて簡単に生成することができる。

図１２に示す音声符号化器は、上記のような符号化過程を時間領域で行うことができる。また、入力信号が、図１に示す分類部１００で線形予測符号化により符号化される場合、線形予測分析部６００を任意ものとすることができる。

本発明は、図１２に示す音声符号化器に限定されない。すなわち、図１２に示す音声符号化器以外の音声信号を效率的に符号化できる様々な音声符号化器が、本発明の範囲内で使用可能である。

図１３は、図１に示す第１符号化器２１０乃至第ｍ符号化器２２０の１個の他の例のブロック図である。図１３に示す符号化器をオーディオ符号化器とすることができる。

図１３を参照すると、オーディオ符号化器は、フィルターバンク７００、心理音響モデリング部７１０及び量子化部７２０を含む。

フィルターバンク７００は、入力信号を周波数ドメイン信号に変換する。フィルターバンク７００は、入力信号に対してコサイン変換、例えば、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＴｒａｎｓｆｏｒｍ）を行うことができる。

心理音響モデリング部７１０は、入力信号のマスキングしきい値又は入力信号のＳＭＲを計算する。量子化部７２０は、心理音響モデリング部７１０によって計算されたマスキングしきい値を用いて、コサイン変換部７００から出力されるＭＤＣＴ係数を量子化する。また、量子化部７２０は、与えられたビットレート内で量子化された信号の可聴歪を最小化すべく入力信号のＳＭＲを用いることができる。

図１３に示すオーディオ符号化器は、上記のような符号化過程を周波数領域で行うことができる。

本発明は、図１３に示すオーディオ符号化器に限定されない。すなわち、図１３に示すオーディオ符号化器以外のオーディオ信号を效率的に符号化できる様々なオーディオ符号化器（例えば、アドバンスオーディオ符号化器（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ））を、本発明の範囲内で用いることができる。

アドバンスオーディオ符号化器は、時間領域雑音整形（ＴＮＳ）、強度／結合（Ｉｎｔｅｎｓｉｔｙ／Ｃｏｕｐｌｉｎｇ）、予測及びミドル／サイド（ｍｉｄｄｌｅ／ｓｉｄｅ（Ｍ／Ｓ））ステレオ符号化（ｓｔｅｒｅｏｃｏｄｉｎｇ）を行う。ＴＮＳは、フィルターバンクウィンド内で時間領域の量子化雑音を適切に分散して聴覚的に聞こえないようにする動作である。強度／結合は、高周波帯域における音の方向知覚が主にエネルギーの時間スケールに依存するという事実のみに基づいてオーディオ信号を符号化するとともにオーディオ信号のエネルギーを伝送することによって空間情報の転送量を減少させることができる動作である。

予測は、フレームのスペクトル成分間の相関性を用いて、統計的特性が変化しない信号から重複を除去する動作である。Ｍ／Ｓステレオ符号化は、左右のチャネル信号を転送する代わりにステレオ信号の正規化された和（すなわち、Ｍｉｄｄｌｅ）と差（すなわち、Ｓｉｄｅ）を転送する。

ＴＮＳ、強度／結合、予測及びＭ／Ｓステレオ符号化を行う信号は、心理音響モデルで得たＳＭＲを用いて合成による分析（ＡｂＳ：Ａｎａｌｙｓｉｓ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）を行う量子化器により量子化される。

上記のように、オーディオ符号化器は、線形予測符号化のようなモデリング手法を用いて入力信号を符号化するので、図１５に示す決定部１２２は、入力信号が一定の基準に従って簡単にモデリングされるか否か決定することができる。その後、入力信号を簡単にモデリングできると決定した場合、決定部１２２は、音声符号化器を用いて入力信号を符号化すると決定する。それに対し、入力信号を簡単にモデリングできると決定した場合、決定部１２２は、オーディオ符号化器を用いて入力信号を符号化すると決定する。

図１４は、本発明の他の実施の形態による符号化装置のブロック図である。図１乃至図１４において、同様な参照番号は同様な構成要素を表し、したがって、その詳細な説明を省略する。

図１４を参照すると、分類部１００は、入力信号を複数の第１分割信号乃至第ｎ分割信号に分割し、第１分割信号乃至第ｎ分割信号の各々を符号化するために、複数の符号化器２３０，２４０，２５０，２６０，２７０のうちのいずれを使用するかを決定する。

図１４を参照すると、符号化器２３０，２４０，２５０，２６０，２７０は、第１分割信号乃至第ｎ分割信号を順次に符号化することができる。また、入力信号が複数の周波数帯域信号に分割された場合、低周波帯域信号から高周波帯域信号の順に周波数帯域信号を符号化することができる。

分割信号が順次に符号化される場合、以前の信号の符号化誤差を次の信号の符号化に用いることができる。その結果、種々の符号化方式を用いて分割信号を符号化でき、したがって、信号歪を防止するとともにバンド幅スケーラビリティ（ｂａｎｄｗｉｄｔｈｓｃａｌａｂｉｌｉｔｙ）を提供することができる。

図１４を参照すると、符号化器２３０は、第１分割信号を符号化し、符号化された第１分割信号を復号化し、復号化された信号と第１分割信号との間の誤差を符号化器２４０に出力する。符号化器２４０は、符号化器２３０から出力された誤差を用いて第２分割信号を符号化する。第２信号及び第３信号に対しても、上記のように、以前の分割信号それぞれの符号化誤差を考慮しながら第２乃至第ｍ分割信号が符号化される。したがって、誤差のない符号化を実現することができるとともに音質を向上させることができる。

図１４に示す符号化装置は、図１乃至図１４に示す符号化装置によって実行される動作を逆に実行することによって入力ビットストリームから信号を復元することができる。

図１５は、本発明の実施の形態による復号化装置のブロック図である。図１５を参照すると、復号化装置は、ビットアンパッキング部８００、復号化器決定部８１０、復号化部８２０、合成部８３０を含む。

ビットアンパッキング部８００は、入力ビットストリームから１個以上の符号化信号及び符号化信号を復号化するのに必要な付加情報を抽出する。

復号化部８２０は、種々の復号化方式を実行する複数の第１乃至第ｍ復号化部８２１，８２２を含む。

復号化器決定部８１０は、第１乃至第ｍ復号化部８２１，８２２のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定する。復号化器決定部８１０は、第１乃至第ｍ復号化部８２１，８２２のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定するために、図１に示す分類部１００の方法と同様な方法を用いることができる。すなわち、復号化器決定部８１０は、符号化信号の各々の特性に基づいて第１乃至第ｍ復号化部８２１，８２２のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定することができる。好適には、復号化器決定部８１０は、入力ビットストリームから抽出された付加情報に基づいて第１乃至第ｍ復号化部８２１，８２２のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定することができる。

付加情報は、分類された分割信号が属するクラスを符号化装置によって識別する分類情報、符号化信号を生成するのに用いられる符号化器を識別する符号化器情報、及び符号化信号を復号化するのに用いられる復号化器を識別する復号化器情報を含むことができる。

例えば、復号化器決定部８１０は、符号化信号が属するクラスを付加情報に基づいて決定するとともに、符号化信号に対して、符号化信号のクラスに対応する第１復号化器８２１乃至第ｍ復号化器８２２を選択することができる。この場合、選択された復号化器は、最も効率的に符号化された信号と同一のクラスに属する信号を復号化することができる構造を有することができる。

復号化器決定部８１０は、符号化信号を生成するのに用いられる符号化器を付加情報に基づいて識別するとともに、符号化信号に対して、識別された符号化器に対応する第１復号化器８２１乃至第ｍ復号化器８２２を選択することができる。例えば、符号化信号が音声符号化器で符号化された場合、復号化器決定部８１０は、符号化信号に対して、音声復号化器である第１復号化器８２１乃至第ｍ復号化器８２２を選択することができる。

また、復号化器決定部８１０は、符号化信号を復号化することができる復号化部を付加信号に基づいて識別し、符号化信号に対して、識別された復号化器に対応する第１復号化器８２１乃至第ｍ復号化器８２２を選択することができる。

また、復号化器決定部８１０は、付加情報より符号化信号の特性を得ることができ、符号化信号と同一の特性を有する信号を最も效率的に復号化できる第１復号化部８２１乃至第ｍ復号化部８２２を選択することができる。

このようにして、入力ビットストリームから抽出された符号化信号のそれぞれは、対応する符号化信号を最も効率的に復号化することができると決定された第１復号化部８２１乃至第ｍ復号化部８２２により復号化される。復号化された信号は、合成部８３０により合成され、元の信号に復元される。

ビットアンパッキング部８００は、符号化信号に関する分割情報、例えば、符号化信号の個数、符号化信号の各々の帯域情報を抽出し、合成部８３０は、復号化部８２０によって復号化された信号を、分割情報を参照しながら合成することができる。

合成部８３０は、複数の第１合成部８３１乃至第ｎ合成部８３２を含むことができる。複数の第１合成部８３１乃至第ｎ合成部８３２のそれぞれは、復号化部８２０によって復号化された信号を合成し、又は復号化された信号の一部若しくは全部に対してドメイン変換若しくは更なる復号化を行うことができる。

第１合成部８３１乃至第ｎ合成部８３２のいずれか一つは、符号化装置で行われた前処理の逆過程である後処理を合成信号に対して行うことができる。後処理を行うか否かに関する情報及び後処理に用いられる復号化情報を、入力ビットストリームから抽出することができる。

図１６を参照すると、第１合成部８３１乃至第ｎ合成部８３２のいずれか一つ、特に、第２合成部８３３は、複数の第１後処理部８３４乃至第ｎ後処理部８３５を含むことができる。第１合成部８３１は、複数の復号化された信号を合成して一つの信号にし、第１後処理部８３４乃至第ｎ後処理部８３５のいずれか一つは、合成信号に後処理を行う。

合成によって得られた一つの信号に対して後処理を行うのは第１後処理部８３４乃至第ｎ後処理部８３５のいずれであるかを表す情報を、入力ビットストリームに含めることができる。

複数の第１合成部８３１乃至第ｎ合成部８３２のうちいずれか一つは、ビットストリームから抽出された線形予測係数を用いて、合成により得られた一つの信号に対して線形予測復号化を行い、元の信号を復元することができる。

本発明を、コンピュータにより読み取り可能な記録媒体に書き込まれたコンピュータにより読み取り可能なコードとして実現することができる。前記コンピュータにより読み取り可能な記録媒体を、コンピュータシステムによって読み取り可能なデータが保存されるあらゆる種類の記録装置とすることができる。コンピュータにより読み取り可能な記録媒体の例は、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置、及び搬送波（例えば、インターネットを介した転送）を含む。コンピュータにより読み取り可能な記録媒体を、ネットワークに接続したコンピュータシステムに分配することができ、その結果、分散方式でコンピュータが読み取りできるコードが書き込まれるとともに実行される。そして、本発明を実現するのに必要な機能プログラム、コード及びコードセグメントを、当業者によって容易に構成することができる。

本発明を特に典型的な実施の形態を参照して説明したが、本発明は、特定の実施例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない範囲で様々な変形実施が可能であることは、当業者にとっては明らかである。

上記のような本発明による符号化／復号化方法及び装置によれば、信号の特性に従って信号を分類し、対応する信号が属するクラスに最も適合する符号化器を用いて信号の各々を符号化することによって、相互に異なる特性を有する信号を最適のビットレートで符号化できる。その結果、オーディオ信号、音声信号などの様々な信号をいずれも效率的に符号化可能になる。

本発明の第１実施例による符号化装置を示すブロック図である。図１における分類部の第１実施例を示すブロック図である。図２に示す前処理部の一実施例を示すブロック図である。入力される信号の心理聴覚エントロピーを計算する装置の一実施例を示すブロック図である。図１に示す分類部の第２実施例を示すブロック図である。図５に示す信号分割部の第１実施例を示すブロック図である。複数の信号を併合する方法の実施例を示す図である。複数の信号を併合する方法の実施例を示す図である。図５に示す信号分割部の第２実施例を示すブロック図である。入力信号を複数の分割信号に分割する方法の一実施例を示す図である。図５に示す決定部の一実施例を示すブロック図である。図１に示す符号化部の第１実施例を示すブロック図である。図１に示す符号化部の第２実施例を示すブロック図である。本発明の第２実施例による符号化装置を示すブロック図である。本発明の一実施例による復号化装置を示すブロック図である。図１５に示す合成部の一実施例を示すブロック図である。

Claims

入力ビットストリームから複数の符号化信号及び前記符号化信号の分割情報を抽出する段階と、
前記複数の符号化信号のそれぞれを復号化するために複数の復号化方式のうちのいずれを使用するかを決定する段階と、
決定された復号化方式によって前記符号化信号を復号化する段階と、
前記復号化された複数の信号を、前記分割情報を参照しながら合成する段階と、
を含むことを特徴とする復号化方法。
前記分割情報は、前記符号化信号の個数又は前記符号化信号の周波数帯域情報を含むことを特徴とする、請求項１に記載の復号化方法。
前記符号化信号は、複数の周波数帯域信号を含むことを特徴とする、請求項１に記載の復号化方法。
前記複数の周波数帯域は可変であることを特徴とする、請求項３に記載の復号化方法。
前記符号化信号は、音声復号化器を用いて效率的に復号化できる信号とオーディオ符号化器を用いて效率的に復号化できる信号とを含むことを特徴とする、請求項１に記載の復号化方法。
前記符号化信号のクラス情報を前記入力ビットストリームから抽出する段階をさらに含み、
前記復号化方式決定段階は、前記抽出されたクラス情報に基づいて前記符号化信号を復号化する復号化方式を決定することを特徴とする、請求項１に記載の復号化方法。
前記クラス情報は、前記符号化信号を生成するのに用いられる符号化方式を識別する符号化方式情報と、前記符号化信号を復号化するのに用いられる復号化方式を識別する復号化方式情報と、前記符号化信号の特性に関する情報のうち少なくとも一つを含むことを特徴とする、請求項６に記載の復号化方法。
前記クラス情報は、音声復号化方式とオーディオ復号化方式のうちのいずれが前記符号化信号を最も效率的に復号化するかを表す情報を含むことを特徴とする、請求項６に記載の復号化方法。
前記クラス情報は、前記符号化信号を容易にモデリングできるか否かを表す情報を含むことを特徴とする、請求項６に記載の復号化方法。
前記復号化方式決定段階は、前記符号化信号を容易にモデリングできる場合、前記符号化信号を、音声復号化方式を用いて復号化するように決定し、前記符号化信号を容易にモデリングできない場合、前記符号化信号を、オーディオ復号化方式を用いて復号化するように決定することを特徴とする、請求項１に記載の復号化方法。
前記音声復号化方式は、前記符号化信号を時間ドメインで復号化し、前記オーディオ復号化方式は、前記信号を周波数ドメインで復号化することを特徴とする、請求項８〜１０にいずれか１項に記載の復号化方法。
前記復号化方式決定段階は、前記符号化信号を復号化する復号化方式を前記符号化信号の各々の変化量又は前記符号化信号の調性によって決定することを特徴とする、請求項１に記載の復号化方法。
前記合成段階は、前記復号化された信号のうち少なくとも一つを、複数の信号に分割する段階と、
前記複数の信号のうち２以上の信号を一つの信号に併合する段階と、
を含むことを特徴とする、請求項１に記載の復号化方法。
前記合成段階は、
前記復号化された信号の２以上を一つの信号に合成する段階と、
前記一つの信号及び前記復号化された信号の少なくとも一つを合成する段階と、
を含むことを特徴とする、請求項１に記載の復号化方法。
複数の符号化信号及び前記復号化信号の分割情報を入力ビットストリームから抽出するビットアンパッキング部と、
前記複数の符号化信号のそれぞれを復号化するために複数の復号化器のうちのいずれを使用するかを決定する復号化器決定部と、
前記複数の復号化器を含み、前記決定された復号化器を用いて前記符号化信号の各々を復号化する復号化部と、
前記復号化された複数の信号を、前記分割情報を参照しながら合成する合成部と、
を含むことを特徴とする復号化装置。
入力されるビットストリームから、符号化された複数の信号と前記複数の信号の分割情報を抽出するビットアンパッキング部と、
前記符号化された複数の信号のそれぞれに対して、複数の復号化器のうち、前記信号を復号化する復号化器を決定する復号化器決定部と、
前記複数の復号化器を含み、前記複数の信号を、前記決定された復号化器を用いて復号化する復号化部と、
前記抽出された分割情報を用いて、前記復号化された複数の信号を合成する合成部と、
を含むことを特徴とする復号化装置。
前記分割情報は、前記符号化信号の個数又は前記符号化信号の周波数帯域情報を含むことを特徴とする、請求項１５に記載の復号化装置。
前記ビットアンパッキング部は、前記復号化信号の復号化器情報を前記入力ビットストリームから抽出することを特徴とする、請求項１５に記載の復号化装置。
前記復号化部は、音声復号化器及びオーディオ復号化器を含み、前記符号化信号を容易にモデリングできる場合、前記符号化信号を、音声復号化方式を用いて復号化するように決定し、前記符号化信号を容易にモデリングできない場合、前記符号化信号を、オーディオ復号化方式を用いて復号化するように決定することを特徴とする、請求項１５に記載の復号化装置。
入力信号を複数の分割信号に分割する段階と、
前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する段階と、
決定された符号化方式を用いて前記分割信号を符号化する段階と、
前記符号化された分割信号を用いてビットストリームを生成する段階と、
を含むことを特徴とする符号化方法。
前記信号分割段階は、前記入力信号を、それぞれが極値の個数とゼロ交差の個数との差が１以下であり、かつ、最大値による包絡線と最小値による包絡線の平均が実質的に０である条件を満足する複数の分割信号に分割することを特徴とする、請求項１９に記載の符号化方法。
前記信号分割段階は、前記入力信号を、音声符号化方式を用いて效率的に符号化できる複数の分割信号とオーディオ符号化方式を用いて效率的に符号化できる複数の分割信号とに分割することを特徴とする、請求項１９に記載の符号化方法。
前記信号分割段階は、
前記入力信号を複数の分割信号に分割する段階と、
前記分割信号の２以上の信号を一つの信号に併合する段階と、
を含むことを特徴とする、請求項１９に記載の符号化方法。
前記併合段階は、隣接せず、かつ、同様な特性を有する２以上の分割信号を、一つの信号に併合することを特徴とする、請求項２２に記載の符号化方法。
前記信号分割段階は、
前記入力信号を複数の信号に分割する段階と、
前記分割信号の少なくとも一つを２以上の分割信号に再分割する段階と、
を含むことを特徴とする、請求項１９に記載の符号化方法。
前記分類段階は、音声符号化方式とオーディオ符号化方式のうちのいずれが前記分割信号を最も效率的に符号化できるかを決定することを特徴とする、請求項１９に記載の符号化方法。
入力信号を複数の信号に分割し、前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する分類部と、
決定された符号化方式を用いて前記分割信号を符号化する符号化部と、
前記符号化された分割信号を用いてビットストリームを生成するビットパッキング部と、
を含むことを特徴とする符号化装置。
前記分類部は、
前記入力信号を複数の信号に分割する分割部と、
前記分割信号の２以上の信号を一つの信号に併合する併合部と、
を含むことを特徴とする、請求項２６に記載の符号化装置。
前記分類部は、
前記入力信号を複数の信号に分割する第１分割部と、
前記分割信号の少なくとも一つを２以上の分割信号に再分割する第２分割部と、
を含むことを特徴とする、請求項２６に記載の符号化装置。
前記符号化部は、音声符号化器とオーディオ符号化器を含み、
前記分類部は、前記音声符号化器とオーディオ符号化器のうちのうちのいずれが前記分割信号の各々を最も效率的に符号化できるかを判断することを特徴とする、請求項２６に記載の符号化装置。
請求項１〜１４のいずれか１項に記載の復号化方法又は請求項１９〜２５のいずれか１項に記載の符号化方法をコンピュータで実行するプログラムを有する、コンピュータで読み取り可能な記録媒体。