JP2009524101A - 符号化/復号化装置及び方法 - Google Patents
符号化/復号化装置及び方法 Download PDFInfo
- Publication number
- JP2009524101A JP2009524101A JP2008551189A JP2008551189A JP2009524101A JP 2009524101 A JP2009524101 A JP 2009524101A JP 2008551189 A JP2008551189 A JP 2008551189A JP 2008551189 A JP2008551189 A JP 2008551189A JP 2009524101 A JP2009524101 A JP 2009524101A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- signals
- encoded
- decoding
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 239000000284 extract Substances 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000012856 packing Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 25
- 238000007781 pre-processing Methods 0.000 description 24
- 230000000873 masking effect Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000012805 post-processing Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 10
- 230000005284 excitation Effects 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】符号化/復号化装置及び方法を提供する。復号化方法は、入力ビットストリームから複数の符号化信号及び前記符号化信号の分割情報を抽出する段階と、前記複数の符号化信号のそれぞれを復号化するために複数の復号化方式のうちのいずれを使用するかを決定する段階と、決定された復号化方式によって前記符号化信号を復号化する段階と、前記復号化された複数の信号を、前記分割情報を参照しながら合成する段階と、を含む。したがって、信号の特性に従って信号を分類し、対応する信号が属するクラスに最も適合する符号化器を用いて信号の各々を符号化することによって、相互に異なる特性を有する信号を最適のビットレートで符号化できる。さらに、オーディオ信号、音声信号などの様々な信号をいずれも效率的に符号化可能になる。
Description
本発明は、信号の符号化/復号化装置及び方法に関し、より詳細には、信号の特性によって最適のビットレートで符号化/復号化できるようにする効率的な符号化/復号化装置及び方法に関する。
従来のオーディオ符号化器は、48kbps以上の高いビットレートでは高音質のオーディオ信号を提供するが、音声信号の処理には非効率的である。それに対し、従来の音声符号化器は、12kbps以下の低いビットレートでは音声信号を效果的に符号化できるが、様々なオーディオ信号を符号化するのには不十分である。
本発明の目的は、音声信号、オーディオ信号などのように互いに異なる特性を有する信号を、最適のビットレートで符号化できるようにする符号化/復号化装置及び方法を提供することにある。
上記の目的を解決するための本発明による復号化方法は、入力ビットストリームから複数の符号化信号及び前記符号化信号の分割情報を抽出する段階と、前記複数の符号化信号のそれぞれを復号化するために複数の復号化方式のうちのいずれを使用するかを決定する段階と、決定された復号化方式によって前記符号化信号を復号化する段階と、前記復号化された複数の信号を、前記分割情報を参照しながら合成する段階と、を含むことを特徴とする。
上記の目的を達成するための本発明による復号化装置は、複数の符号化信号及び前記復号化信号の分割情報を入力ビットストリームから抽出するビットアンパッキング部と、前記複数の符号化信号のそれぞれを復号化するために複数の復号化器のうちのいずれを使用するかを決定する復号化器決定部と、前記複数の復号化器を含み、前記決定された復号化器を用いて前記符号化信号の各々を復号化する復号化部と、前記復号化された複数の信号を、前記分割情報を参照しながら合成する合成部と、を含むことを特徴とする。
上記の目的を達成するための本発明による符号化方法は、入力信号を複数の分割信号に分割する段階と、前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する段階と、決定された符号化方式を用いて前記分割信号を符号化する段階と、前記符号化された分割信号を用いてビットストリームを生成する段階と、を含むことを特徴とする。
上記の目的を達成するための本発明による符号化装置は、入力信号を複数の信号に分割し、前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する分類部と、決定された符号化方式を用いて前記分割信号を符号化する符号化部と、前記符号化された分割信号を用いてビットストリームを生成するビットパッキング部と、を含むことを特徴とする。
本発明の符号化/復号化装置及び方法によれば、特性によって信号を分類し、それに合う符号化器を用いて信号を符号化するので、相互に異なる特性を有する信号を最適のビットレートで符号化することができ、その結果、オーディオ信号、音声信号などの様々な信号をいずれも效率的に符号化することが可能になる。
以下、添付の図面を参照しつつ、本発明による符号化/復号化装置及び方法の好適な実施例について詳細に説明する。
図1は、本発明の第1実施例による符号化装置のブロック図である。図1を参照すると、符号化装置は、分類部100、符号化部200及びビットパッキング部300を含む。
図1に示すように、本発明による符号化装置は、相互に異なる方式で符号化を行う複数の符号化部210,220を含む。
分類部100は、入力信号を複数の分割信号に分割した後、複数の分割信号のそれぞれを複数の符号化器210,220のいずれかに対応させる。複数の符号化器210,220の一部が複数の分割信号に対応しても良く、又は複数の分割信号に全く対応しなくても良い。
分類部100は、複数の分割信号のそれぞれに符号化ビット数を割り当てたり、符号化順序を決定することができる。
符号化部200は、複数の分割信号を、分類部100により対応された符号化部を用いて符号化する。分類部100は、複数の分割信号のそれぞれの特性を分析し、この分析された特性に基づいて複数の符号化器210,220のうち、前記信号を最も效率的に符号化できる符号化器を選択する。
信号を最も效率的に符号化できる符号化器とは、前記信号を符号化した時に圧縮効率が最も高い符号化器を指す。
例えば、係数及び残差として容易にモデリングできる分割信号を、音声符号化器によって効率的に符号化することができ、係数及び残差として容易にモデリングできない分割信号を、オーディオ符号化器によって容易に符号化することができる。
分割信号のエネルギーに対する分割信号をモデリングすることによって得られた残差のエネルギーの分割信号のエネルギーに対する比が、予め設定されたしきい値より小さい場合、分割信号を、容易にモデリングできる信号とみなすことができる。
時間軸上で大きな重複を示す分割信号を、現在の信号を以前の信号に基づいて予測する線形予測法を用いて良好にモデリングすることができるので、分割信号を、線形予測符号化法を用いる音声符号化器によって最も効率的に符号化することができる。
ビットパッキング部300は、符号化部200によって提供される符号化された分割信号及び符号化された分割信号に関する符号化情報に基づいて、転送するビットストリームを生成する。ビットパッキング部300は、ビット−プレーン(bit−plain)方式やBSAC(Bit Sliced Arithmetic Coding)方式などを用いて、可変ビットレート特性を有するビットストリームを生成できる。
ビットレートの制限によって符号化されなかった信号又は帯域を、補間、外挿、複製(replication)などの方法を用いて復号化装置で復号化された信号又は帯域から再生できる。また、符号化されなかった分割信号に対する補償情報を、転送されるビットストリームに含むことができる。
図1を参照すると、分類部100は、複数の分類器110,120を含む。第1分類器乃至第n分類器110,120のそれぞれは、入力信号を複数の分割信号に分割し、入力信号のドメインを変換し、入力信号の特性を抽出し、入力信号を入力信号の特性によって分類し、又は入力信号を複数の符号化部210,220のいずれか一つに対応させることができる。
第1分類器乃至第n分類器110,120のいずれか一つは、入力信号に前処理を行い、入力信号を符号化に効率的な信号に変換する前処理部であっても良い。この前処理部は、入力される信号を複数の成分、例えば、係数成分と信号成分とに分割でき、他の分類器が動作を行う前に入力信号に前処理を行うことが好ましい。
入力信号を、入力信号の特性、外部環境要因、目標ビットレート等に従って選択的に前処理することができ、入力信号から得られる複数の分割信号の一部のみを前処理することができる。
分類部100は、心理音響モデリング部400によって提供される入力信号の心理聴覚特性情報に従って入力信号を分類することができる。心理聴覚特性情報の例は、マスキングしきい値、信号対マスク比(SMR:Signal−to−Mask Ratio)、心理聴覚エントロピー(Perceptual Entrophy)を含む。
すなわち、分類部100は、入力信号の心理聴覚特性情報、例えば、入力信号のマスキングしきい値及び信号対マスク比(SMR)にしたがって入力信号を複数の分割信号に分割したり、複数の分割信号を第1符号化器210乃至第m符号化器220の一つ以上に対応させることができる。
また、分類部100は、調性(tonality)、ZCR(Zero Crossing Rate)、線形予測係数、以前のフレームの分類情報のような情報を受信し、受信した情報を用いて入力される信号を分類できる。
図1に示すように、符号化部200から出力される符号化結果に関する情報を、分類部100にフィードバックされることができる。
入力信号が分類部100で複数の信号に分割され、これら複数の分割信号のそれぞれに対する符号化器、符号化ビット数又は符号化順序などが決定されると、分割信号は、決定の結果に従って符号化される。分割信号の各々の符号化に実際使用されたビット数は、分類部100が割り当てた符号化ビット数と必ずしも同一でなくても良い。
実際使用されたビット数と割り当てられた符号化ビット数との差に関する情報が分類部100にフィードバックされ、分類部100は、他の分割信号に割り当てられたビット数を増加することができる。実際使用されたビット数が割り当てられたビット数より多い場合、分類部100は、他の信号に割り当てられたビット数を減少することができる。
実際に分割信号を符号化する符号化器は、分類部100によって分割信号に対応した符号化器と必ずしも同一でなくても良い。この場合、実際に分割信号を符号化する符号化器が分類部100によって分割信号に対応した符号化器と同一でないことを表す情報を分類部100にフィードバックすることができる。その後、分類部100は、以前に分割信号に対応した符号化器以外の符号化器に対して分類器を対応させることができる。
また、フィードバックされた符号化結果情報を用いて、分類部100は、入力信号を複数の信号に再分割しても良く、その場合、分類部100は、当該入力信号を、以前に得られた分割信号と異なる構造を持つ複数の分割信号を得ることができる。
分類部100により選択された符号化動作が、実際に行われた符号化動作と異なる場合、分類部100により選択された符号化動作と実際に行われた符号化動作との差異に関する情報を分類部100にフィードバックし、分類部100は、符号化動作に関連する情報を再決定することができるようにしても良い。
図2は、図1に示す分類部の第1実施例を示すブロック図であり、同図の第1分類部110は、入力信号を符号化に効率的な信号の形態に変換する前処理を行う前処理部であっても良い。
図2を参照すると、第1分類部110は、相互に異なる方式の前処理を行う複数の前処理部111,112を含むことができ、入力信号の特性、外部環境要因、目標ビットレート等に従って入力信号の前処理を行うために第1前処理部乃至第n前処理部111,112のいずれか一つを用いることができる。また、第1分類器110は、第1前処理部111乃至第n前処理部112を用いて入力信号に2以上の前処理を行っても良い。
図3は、図2に示す前処理部の一実施例のブロック図であり、同図の前処理部は、係数抽出部113及び残差抽出部114を含む。
係数抽出部113は、入力信号を分析し、入力信号の特性を表す係数を入力信号から抽出する。残差抽出部114は、抽出された係数を用いて、重複成分が除去された残差を入力信号から抽出する。
前記前処理部は、入力される信号に線形予測符号化を行うことができ、この場合、係数抽出部113は、入力信号に対して線形予測分析を行うことによって線形予測係数を抽出し、残差抽出部114は、係数抽出部113によって提供される線形予測係数を用いて入力信号から残差を抽出する。重複部分が除去された残差は、白色雑音と同一の形態を有することができる。
以下では、本発明による線形予測分析方法について詳細に説明する。
線形予測分析により得られた予測信号は、下記の数式1のように以前の入力信号の線形的な組み合わせによって構成することができる。
上記数pは線形予測次数を表し、α1乃至αpは、入力信号と推定信号との間のMSE(mean square error)を最小化することによって得られる線形予測係数を表す。
線形予測分析のための伝達関数p(z)は、下記の数式2で表されることができる。
図3を参照すると、前処理部は、他の線形予測分析方法であるWLPC(Warped linear prediction coding)を用いて線形予測係数及び残差を入力信号から抽出できる。このWLPCは、単位遅延であるZ-1を、下記の数式3のような伝達関数を有する全域通過フィルターを代用することによって実現することができる。
上記数式3で、λは、全域通過係数を表す。この全域通過係数λを変化させることによって、分析しようとする信号の解像度を変化させることができる。分析しようとする信号が所定の周波数帯域に集中している場合、例えば、分析しようとする信号が、低周波帯域に集中したオーディオ信号である場合、低周波帯域信号の解像度を高めることができるように全域通過係数λを設定することによって信号を效率的に符号化することができる。
WLPC方式において、低周波領域の信号は、高周波領域の信号よりも高い解像度で分析される。したがって、WLPC方式は、低周波数領域信号に対して高い予測性能を示すとともに、低周波数領域信号をより旨くモデルすることができる。
全域通過係数λを、入力される信号の特性、外部環境要因及び目標ビットレートに従って時間軸上で変化させることができる。全域通過係数λが時間によって変化する場合、復号化によって得られるオーディオ信号に著しい歪曲が発生することがある。したがって、全域通過係数λが変化するときには、平滑化手法を全域通過係数λに適用して全域通過係数λが徐々に変化するようにし、歪曲を最小にすることができる。現在の全域通過係数λとして決定することができる値の範囲を、以前の全域通過係数λ値によって決定することができる。
線形予測係数の推定のための入力として、元の信号の代わりにマスキングしきい値を使用することができる。更に詳しくは、マスキングしきい値を時間領域信号に変換し、この変換された信号を入力として用いることによってWLPCを行うことができる。また、残差を入力として用いることによって線形予測係数の推定を行うことができる。すなわち、線形予測分析を複数回行うことによって、更に白色度の増した(whitened)残差を得ることができる。
図2に示す第1分類器110は、上記数式1及び数式2を参照して説明した線形予測分析を行う第1前処理部111と上記のWLPCを行う第2前処理部(図示せず)を含み、入力信号の特性、外部環境要因及び目標ビットレートに従って第1及び第2前処理部のいずれかを選択したり、入力信号に対して線形予測分析を行わないように決定することができる。
全域通過係数λが0である場合、第2前処理部は第1前処理部111と同一であってもよい。この場合、第1分類器110は、第2前処理部のみを含み、上記の2つの線形予測符号化方法のうちいずれかを全域通過係数λに従って選択することができる。また、第一分類器110は、線形予測分析法を実行することができ、又は、線形予測分析法とWLPC方式のいずれかをフレーム単位で選択する。
線形予測分析を行うか否かを表す情報及び線形予測分析法とWLPC方式のいずれを選択するかを表す情報を、転送されるビットストリームに含めることができる。
ビットパッキング部300は、線形予測係数、線形予測符号化を行うか否かを表す情報及び実際に使用された線形予測符号化器を識別する情報を第1分類器110から受信し、受信した全ての情報を、転送するビットストリームに挿入することができる。
入力信号を元の入力信号からほとんど区別することができない音質を有する信号に変換するのに必要なビット数を、入力信号の心理聴覚エントロピーを計算することによって決定することができる。
図4は、本発明の実施の形態による心理聴覚エントロピーを計算する装置のブロック図である。図4を参照すると、装置は、フィルターバンク115、線形予測部116、心理音響モデリング部117、第1ビット計算部118及び第2ビット計算部119を含む。
入力信号の心理聴覚エントロピーPEを、下記の数式4を用いて計算できる。
上記数式4で、X(ejw)は、元の信号のエネルギーレベルを表し、T(ejw)は、マスキングしきい値を表す。
全域通過フィルターを用いるWLPC方式において、入力信号の心理聴覚エントロピーを、入力信号の残差のエネルギーと残差のマスキングしきい値との比を用いて計算できる。さらに詳しくは、WLPC方式を用いる符号化装置は、入力信号の心理聴覚エントロピーPEを、下記の数式5を用いて計算することができる。
上記数式5で、R(ejw)は、入力信号の残差のエネルギーを表し、T'(ejw)は、残差のマスキングしきい値を表す。
また、残差のマスキングしきい値T'(ejw)を、下記の数式6で表すことができる。
上記数式6で、T(ejw)は、元の信号のマスキングしきい値を表し、H(ejw)は、WLPCの伝達関数を表す。心理音響モデリング部117は、スケールファクターバンド(scalefactor band)領域における元の信号のマスキングしきい値を用いるとともに伝達関数H(ejw)を用いることによって残差のマスキングしきい値(T'(ejw))を計算することができる。
図4を参照すると、第1ビット計算部118は、線形予測部116によって実行されるWLPCによって得られた残差と、心理音響モデリング部117から出力されるマスキングしきい値を受信する。また、フィルターバンク115は元の信号を周波数変換し、周波数変換の結果を、心理音響モデリング部117及び第2ビット計算部119に入力することができる。フィルターバンク115は、元の信号にフーリエ変換を行うことができる。
第1ビット計算部118は、元の信号のマスキングしきい値をWLPC合成フィルターの伝達関数スペクトルで除算した値と残差エネルギーとの比を用いて心理聴覚エントロピーを計算することができる。
異なる帯域幅を有する60個以上の一様でない分割バンドに分割された信号のワープ心理知覚エントロピーWPE(warped perceptual entropy)を、下記の数式7のようにWLPCを用いて計算することができる。
上記数式7で、bは、心理音響モデルを用いて得られた分割バンドのインデックスを表し、eres(b)は、分割バンドにおける残差のエネルギー和を表し、w_low(b)及びw_high(b)はそれぞれ、分割バンドにおける最低周波数と最高周波数を表す。また、nblinear(w)は、線形的にマッピングされた分割バンドにおけるマスキングしきい値を表し、h(w)2は、1フレームの線形予測符号化(LPC)エネルギースペクトルを表す。nbres(w)は、残差に対応する線形的なマスキングしきい値を表す。
それに対し、同じ帯域幅を有する60個以上の一様でない分割に分割された信号のワープ心理知覚エントロピーWPEを、下記の数式8のようにWLPCを用いて計算することができる。
上記数式8で、sは、線形的に分割されたサブバンドのインデックスを表し、slow(w)とshigh(w)は、サブバンドsにおける最低周波数と最高周波数をそれぞれ表す。nbsub(s)は、線形的に分割されたサブバンドsのマスキングしきい値を表し、esub(s)は、線形的に分割されたサブバンドsのエネルギー、すなわち、線形的に分割されたサブバンドsの周波数の和を表す。マスキングしきい値nbsub(s)は、線形的に分割されたサブバンドsの複数のマスキングしきい値の最小値である。
同一帯域幅を有するとともに入力スペクトルの和より大きいしきい値を有するバンドに対しては心理聴覚エントロピーを計算しなくてもよい。したがって、数式8のワープ心理知覚エントロピーWPEを数式7のワープ心理知覚エントロピーWPEより低くすることができ、これによって、低周波帯域に対して高い解像度となる。
数式9に示すように、ワープ心理聴覚エントロピーWPEsfを、異なる帯域幅のスケールファクターバンドに対し、WLPCを用いて計算することができる。
上記数式9で、fは、スケールファクターバンドのインデックスを表し、nbsf(f)は、スケールファクターバンドの最小のマスキングしきい値を表す。また、WPEsfは、スケールファクターバンドfの入力信号とスケールファクターバンドfのマスキングしきい値との比を表し、esf(s)は、スケールファクターバンドfの全ての周波数の和、すなわち、スケールファクターバンドfのエネルギーを表す。
図5は、図1に示す分類部100の他の実施例を示すブロック図である。図5を参照すると、同図の分類部は、信号分割部121及び決定部122を含む。
更に詳しくは、信号分割部121は、入力信号を複数の分割信号に分割する。例えば、信号分割部121は、サブバンドフィルターを用いて、入力信号を複数の周波数帯域に分割できる。周波数帯域は、同一又は異なる帯域幅を有することができる。上記のように、分割信号を、分割信号の特性に最も適合することができる符号化器によって他の分割信号とは別個に符号化することができる。
信号分割部121は、入力信号を複数の分割信号、例えば、複数の帯域信号に分割することができ、その結果、帯域信号間の干渉を最小にすることができる。信号分割部121は、二重フィルターバンク構造を有することができる。この場合、信号分割部121は、分割信号の各々を更に分割することができる。
信号分割部121によって得られた分割信号に関する分割情報、例えば、分割信号の総数及び分割信号の各々の帯域情報を、転送されるビットストリームに含めることができる。復号化装置は、分割情報を参照しながら分割信号を個別に復号化するとともに復号化された信号を合成し、これによって、元の入力信号を復元する。
分割情報を一つのテーブルとして記憶することができる。ビットストリームは、元の入力信号を分割するのに用いられるテーブルの識別情報を含むことができる。
音の品質に対する分割信号(例えば、複数の周波数帯域信号)のそれぞれの重要度を決定することができ、ビットレートを、決定の結果に従って分割信号の各々に対して調節することができる。更に詳しくは、分割信号の重要度を、固定値として又は各フレームに対する入力信号の特性に従って変動する固定されていない値として規定することができる。
音声信号とオーディオ信号が入力信号に混合される場合、信号分割部121は、音声信号の特性とオーディオ信号の特性に従って入力信号を音声信号とオーディオ信号とに分割することができる。
決定部122は、符号化部200の第1乃至第m符号化器210及び220のいずれが分割信号の各々を最も効率的に符号化することができるかを決定することができる。
決定部122は、分割信号を複数のグループに分類する。例えば、決定部122は、分割信号をN個のクラスに分類し、N個のクラスの各々を第1乃至第m符号化部210及び220に対応させることによって分割信号の各々を符号化するために第1乃至第m符号化部210及び220のいずれを使用するかを決定する。
更に詳しくは、符号化モジュール200が第1乃至第m符号化部210及び220を含む場合、決定部122は、分割信号を、第1乃至第m符号化部210及び220により最も效率的に符号化できる第1乃至第mクラスに分類することができる。
このために、第1乃至第m符号化部210及び220の各々により最も效率的に符号化できる信号の特性を予め決定することができ、第1乃至第m符号化部210及び220の特性を、決定の結果に従って規定することができる。その後、決定部122は、分割信号のそれぞれの特性を抽出し、抽出の結果に従って、分割信号の各々を、対応する分割信号と同一の特性を共有する第1乃至第m符号化部210及び220の一つに分類することができる。
第1乃至第mクラスの例は、有声音クラス、無声音クラス、バックグラウンド雑音クラス、黙音クラス、調性(tonal)のあるオーディオクラス、調性のないオーディオクラス、有声音とオーディオが混合されたクラスを含む。
決定部122は、心理音響モデリング部400によって提供される分割信号に関する心理聴覚特性情報、例えば、分割信号のマスキングしきい値、SMR又は心理聴覚エントロピーを参照することによって、分割信号の各々を符号化するために第1乃至第m符号化部210及び220のいずれを用いるかを決定することができる。
決定部122は、分割信号に関する心理聴覚特性情報を参照することによって分割信号のそれぞれを符号化するためのビット数又は分割信号の符号化順序を決定することができる。
決定部122によって行われる決定により得られる情報、例えば、分割信号の各々を符号化するのに第1乃至第m符号化器210及び220によって何ビットで行われるかを表す情報及び分割信号を符号化する順序を表す情報を、転送されるビットストリームに含めることができる。
図6は、図5に示す信号分割部121の一実施例のブロック図である。図6を参照すると、信号分割部は、分割部123及び併合部124を含む。
分割部123は、入力信号を複数の分割信号に分割することができる。併合部124は、同様な特性を有する分割信号を併合して一つの信号にすることができる。このために、併合部124は合成フィルターバンクを含むことができる。
例えば、分割部123は、入力信号を256個の帯域に分割する。256個の帯域のうち、同様な特性を有する帯域を併合部124により併合して一つの帯域にすることができる。
図7を参照すると、併合部124は、互いに隣接する複数の分割信号を併合して一つの併合信号にすることができる。この場合、併合部124は、隣接する分割信号の特性に関係なく予め規定された規則に従って複数の分割信号を併合して一つの併合信号にすることができる。
また、図8を参照すると、併合部124は、分割信号が互いに隣接するか否かに関係なく同様な特性を有する複数の分割信号を併合して一つの併合信号にすることができる。この場合、併合部124は、同じ符号化器を用いて效率的に符号化できる複数の信号を併合して一つの信号にすることが好ましい。
図9は、図5に示す信号分割部の他の例のブロック図である。図9を参照すると、信号分割部は、第1分割部123、第2分割部126及び第3分割部127を含む。
更に詳しくは、信号分割部121は、入力信号を階層的に分割できる。例えば、入力信号は、第1分割部123で2個の分割信号に分割され、2個の分割信号のうちの1個は第2分割部126で3個の分割信号に分割され、3個の分割信号のうちの1個は、第3分割部127で3個の分割信号に分割される。このようにして、入力信号を合計6個の信号に分割することができる。信号分割部121は、入力信号を異なる帯域幅を有する複数の帯域に階層的に分割することができる。
図9に示す例において、入力信号を3階層に分けて分割しているが、本発明はこれに限定されるものではない。すなわち、入力信号を2階層又は4以上の階層に分けて複数の分割信号に分割することも可能である。
信号分割部121の第1乃至第3分割部123,125及び127の一つは、入力信号を複数のタイムドメイン信号に分割しても良い。
図10は、信号分割部121が入力信号を複数の分割信号に分割する例を説明する。
音声又はオーディオ信号は、一般的に、短いフレーム長の期間中に定常である。しかしながら、音声又はオーディオ信号は、時々、例えば遷移期間中に非定常特性を有することができる。
非定常信号を效果的に分析するとともにそのような非定常信号の符号化効率を高めるために、本発明による符号化装置は、ウェーブレット法又は経験的モード分解(EMD)法を用いることができる。すなわち、本実施の形態による符号化装置は、入力信号の特性を固定されない変換関数を用いて分析することができる。例えば、信号分割部121は、周波数帯域が固定されないサブバンドフィルタリング方法を用いて入力信号を可変帯域幅を有する複数の帯域に分割することができる。
以下、入力信号をEMDによって複数の分割信号に分割する方法について説明する。
EMD法において、入力信号を一つ以上の固有モード関数(IMF)に分解することができる。IMFは、極値の個数とゼロ交差の個数が等しく又は最大でも1だけ異なるとともに極大値によって決定される包絡線と極小値によって決定される包絡線の平均値が‘0’になるという条件を満足する必要がある。
IMFは、簡単なハーモニック関数の成分と同様な簡単な振動モードを表し、これによって、EMD法を用いて入力信号を効率的に分解することができる。
更に詳しくは、入力信号s(t)からIMFを抽出するために、上側の包絡線を、入力信号s(t)の極大値によって決定される全ての極値を立方スプライン補間法を用いて接続することによって生成することができ、下側の包絡線を、入力信号s(t)の極小値によって決定される全ての極値を立方スプライン補間法を用いて接続することによって生成することができる。入力信号s(t)が有することができる全ての値は、上側の包絡線と下側の包絡線との間に存在することができる。
その後、上側の包絡線と下側の包絡線の平均m(t)を求めることができる。その後、下記の数式10によって、平均m(t)を入力信号s(t)から除去することで、第1成分h1(t)を求める。
第1成分h1(t)が上記IMF条件を満たさない場合、第1成分h1(t)を、入力信号s(t)と同一であるものとして決定することができ、上記動作を、上記IMF条件を満足する第1のIMF C1(t)が得られるまで再び実行することができる。
第1のIMF C1(t)が得られると、下記の数式11のようにして第1のIMF C1(t)を除去し、残差r1(t)を求める。
その後、残差r1(t)を新しい入力信号として使用することによって、上記IMF抽出動作を再び実行することができ、これによって、第2のIMF C2(t)と残差r1(t)が得られる。
上記IMF抽出動作中に得られる残差rn(t)が、定数、単調増加関数、又は極値が1個若しくは全く存在しない一つの周期の関数である場合、上記IMF抽出過程を終了する。
上記のようなIMF抽出動作の結果、入力信号s(t)を、下記の数式12のように複数のIMFC0(t)乃至CM(t)と最終的な残差rm(t)との和で表すことができる。
図10は、EMD法を用いて元の入力信号を分解することによって得られる11個のIMFと最終的な残差を示している。図10を参照すると、IMF抽出の前の段階で元の入力信号から得られるIMFの周波数は、IMF抽出の後の段階で元の入力信号から得られるIMFの周波数より高くなる。
また、下記の数式13のような以前の差分h1(k−1)と現在の差分h1kとの間の標準偏差SDを用いて、IMFの抽出を簡単化できる。
標準偏差SDが基準値以下である場合、例えば、標準偏差SDが0.3以下である場合、現在の残差h1kをIMFとみなすことができる。
一方、下記の数式14で表されるヒルベルト変換によって信号x(t)を解析信号に変換することができる。
上記数式14で、α(t)は、瞬時の振幅を表し、θ(t)は瞬時の位相を表し、H[]は、ヒルベルト変換を表す。
ヒルベルト変換の結果、入力信号を、実数成分と虚数成分からなる解析信号に変換することができる。
平均が0である信号に上記のようなヒルベルト変換を適用すると、時間領域と周波数領域ともに対して高い解像度の周波数成分を得ることができる。
以下では、図5に示す決定部122が、入力信号を分解することによって得られる複数の分割信号のそれぞれを符号化するのに用いられる符号化器がいずれであるかを決定する方法について説明する。
決定部122は、音声符号化器とオーディオ符号化器のうちのいずれが分割信号の各々をより效率的に符号化できるか決定することができる。すなわち、決定部122は、音声符号化器である第1乃至第m符号化器210及び220のいずれかを用いて、音声符号化器によって効率的に符号化することができる分割信号を符号化することを決定するとともに、オーディオ符号化器である第1乃至第m符号化器210及び220のいずれかを用いて、オーディオ符号化器によって効率的に符号化することができる分割信号を符号化することを決定することができる。
以下では、決定部122が音声符号化器とオーディオ符号化器のうちのいずれが分割信号をより效率的に符号化できるかを決定する方法を詳細に説明する。
決定部122は、分割信号の変化量を測定し、測定結果があらかじめ設定された基準値よりも大きい場合、オーディオ符号化器が音声符号化器より効率的に分割信号を符号化できると決定することができる。
また、決定部122は、分割信号の所定の部分に含まれる調性(tonal)成分を測定し、測定結果があらかじめ設定された基準値よりも大きい場合、音声符号化器がオーディオ符号化器より効率的に分割信号を符号化できると決定することができる。
図11は、図5に示す決定部122の一実施例を示すブロック図である。図11を参照すると、決定部122は、音声符号化/復号化部500、第1フィルターバンク510、第2フィルターバンク520、判断部530及び心理音響モデリング部540を含む。
図11に示す決定部122は、音声符号化器とオーディオ符号化器のうちのいずれが分割信号をより效率的に符号化できるかを決定することができる。
図11を参照すると、入力信号は、音声符号化/復号化部500によって符号化され、符号化された信号は、音声符号化/復号化部500によって復号化され、これによって元の入力信号が復元される。音声符号化/復号化部500は、AMR−WB音声コーダ/デコーダ(AMR−WB speech coder/decoder)を含むことができ、このAMR−WB音声コーダ/デコーダは、CELP(Code−Excited Linear Predictive)構造を有することができる。
入力信号を、音声符号化/復号化部500に入力する前にダウンサンプリング(downsampling)することができる。音声符号化/復号化部500から出力された信号をアップサンプリング(upsampling)して元の信号を復元することができる。
入力信号を第1フィルターバンク510によって周波数変換することができる。
音声符号化/復号化部500から出力された信号は、第2フィルターバンク520によって周波数ドメイン信号に変換される。第1フィルターバンク510又は第2フィルターバンク520は、入力された信号に対してコサイン変換、例えば、MDCT(Modified Discrete Transform)を行うことができる。
第1フィルターバンク510から出力した元の入力信号の周波数成分と第2フィルターバンク520から出力した復元された入力信号の周波数成分の両方が、判断部530に入力される。判断部530は、入力された周波数成分に基づいて音声符号化器とオーディオ符号化器のいずれが入力信号をより效率的に符号化できるか決定することができる。
更に詳しくは、判断部530は、下記の数式15を用いて周波数成分の各々の心理聴覚エントロピーPEiを計算することによって、入力された周波数成分に基づいて音声符号化器とオーディオ符号化器のいずれが入力信号をより效率的に符号化できるか決定することができる。
上記数式15で、x(j)は周波数成分の係数を表し、jは周波数成分のインデックスを表し、δは量子化ステップサイズを表し、nint()は最も近い整数を引数に返す関数を表し、jlow(i)とjHigh(i)はそれぞれ、スケールファクターバンドの開始周波数インデックスと終了周波数インデックスを表す。
判断部530は、上記数式15を用いて元の入力信号の周波数成分の心理聴覚エントロピーと復元された信号の周波数成分の心理聴覚エントロピーを計算し、計算結果に基づいてオーディオ符号化器と音声符号化器のいずれが入力信号の符号化に用いるのにより有効であるか決定することが判断できる。
例えば、元の入力信号の周波数成分の心理聴覚エントロピーが、復元された入力信号の周波数成分の心理聴覚エントロピー未満である場合、判断部530は、音声符号化器よりオーディオ符号化器の方が入力信号をより效率的に符号化できると決定することができる。それに対し、復元された入力信号の周波数成分の心理聴覚エントロピーが、元の入力信号の周波数成分の心理聴覚エントロピー未満である場合、判断部530は、オーディオ符号化器より音声符号化器の方が入力信号をより效率的に符号化できると決定することができる。
図12は、図1に示す第1符号化器210乃至第m符号化器220の1個の例のブロック図である。図12に示す符号化器を音声符号化器とすることができる。
一般に、音声符号化器は、入力信号をフレーム単位で線形予測符号化でき、Levinson−Durbinアルゴリズムを用いて入力信号の各フレームからLPC係数、例えば、16次のLPC係数を抽出することができる。励起信号を、適応コードブック検索及び固定コードブック検索過程を通じて量子化することができる。励起信号を、台数符号励振型線形予測法を用いて量子化することができる。ベクトル量子化を、共役構造を有する量子化表を用いることによって励起信号の利得に対して行うことができる。
図12に示す音声符号化器は、線形予測分析部600、ピッチ推定部610、コードブック検索部620、LSP部630及び量子化部640を含む。
線形予測分析部600は、非対称窓を用いて得た自己相関係数を用いることによって入力信号に対してフレーム単位で線形予測分析を行う。予測区間すなわち非対称ウィンドが30msの長さを有する場合、線形予測分析部600は、5msの長さを有する予測区間をおいて線形予測分析を行うことができる。
自己相関係数は、Levinson−Durbinアルゴリズムを用いて線形予測係数に変換される。LSP630は、量子化と線形補間のために線形予測係数をLSPに変換する。量子化部640は、LSPに変換された線形予測係数を量子化する。
ピッチ推定部610は、適応コードブック検索の複雑度を減らすために開ループピッチを推定する。更に詳しくは、ピッチ推定部610は、各フレームの加重音声信号ドメインで開ループピッチ周期を推定する。その後、推定されたピッチ周期を用いてハーモニック雑音成形フィルターが構成される。ハーモニック雑音成形フィルター、線形予測合成フィルター及びフォーマント心理聴覚加重フィルターによってインパルス応答が計算される。インパルス応答を、励起信号の量子化のためのターゲット信号の生成に用いることができる。
コードブック検索部620は、適応コードブックと固定コードブックを検索する。適応コードブック検索を、閉ループピッチ検索及び以前の励起信号の補間によって適応コードブックベクトルを計算することによってサブフレーム単位で行うことができる。適応コードブック変数は、ピッチフィルターのピッチ周期と利得を含むことができる。励起信号を、閉ループ検索を単純化するために線形予測合成フィルターにより生成することができる。
固定コードブックの構造を、ISPP(Interleaved Single Pulse Permutation)設計に基づいて確立することができる。64個のパルスがそれぞれ配置された位置を有するコードブックベクトルは、各々が16個の位置を有する4個のトラックに分けられる。予め決定されたパルス数を、転送率に従って4個のトラックの各々に配置される。コードブックインデックスは、パルスのトラック位置と符号を表すので、コードブックを保存する必要がなく、励起信号を、コードブックインデックスを用いて簡単に生成することができる。
図12に示す音声符号化器は、上記のような符号化過程を時間領域で行うことができる。また、入力信号が、図1に示す分類部100で線形予測符号化により符号化される場合、線形予測分析部600を任意ものとすることができる。
本発明は、図12に示す音声符号化器に限定されない。すなわち、図12に示す音声符号化器以外の音声信号を效率的に符号化できる様々な音声符号化器が、本発明の範囲内で使用可能である。
図13は、図1に示す第1符号化器210乃至第m符号化器220の1個の他の例のブロック図である。図13に示す符号化器をオーディオ符号化器とすることができる。
図13を参照すると、オーディオ符号化器は、フィルターバンク700、心理音響モデリング部710及び量子化部720を含む。
フィルターバンク700は、入力信号を周波数ドメイン信号に変換する。フィルターバンク700は、入力信号に対してコサイン変換、例えば、MDCT(Modified Discrete Transform)を行うことができる。
心理音響モデリング部710は、入力信号のマスキングしきい値又は入力信号のSMRを計算する。量子化部720は、心理音響モデリング部710によって計算されたマスキングしきい値を用いて、コサイン変換部700から出力されるMDCT係数を量子化する。また、量子化部720は、与えられたビットレート内で量子化された信号の可聴歪を最小化すべく入力信号のSMRを用いることができる。
図13に示すオーディオ符号化器は、上記のような符号化過程を周波数領域で行うことができる。
本発明は、図13に示すオーディオ符号化器に限定されない。すなわち、図13に示すオーディオ符号化器以外のオーディオ信号を效率的に符号化できる様々なオーディオ符号化器(例えば、アドバンスオーディオ符号化器(Advanced Audio Coding))を、本発明の範囲内で用いることができる。
アドバンスオーディオ符号化器は、時間領域雑音整形(TNS)、強度/結合(Intensity/Coupling)、予測及びミドル/サイド(middle/side(M/S))ステレオ符号化(stereo coding)を行う。TNSは、フィルターバンクウィンド内で時間領域の量子化雑音を適切に分散して聴覚的に聞こえないようにする動作である。強度/結合は、高周波帯域における音の方向知覚が主にエネルギーの時間スケールに依存するという事実のみに基づいてオーディオ信号を符号化するとともにオーディオ信号のエネルギーを伝送することによって空間情報の転送量を減少させることができる動作である。
予測は、フレームのスペクトル成分間の相関性を用いて、統計的特性が変化しない信号から重複を除去する動作である。M/Sステレオ符号化は、左右のチャネル信号を転送する代わりにステレオ信号の正規化された和(すなわち、Middle)と差(すなわち、Side)を転送する。
TNS、強度/結合、予測及びM/Sステレオ符号化を行う信号は、心理音響モデルで得たSMRを用いて合成による分析(AbS:Analysis−by−synthesis)を行う量子化器により量子化される。
上記のように、オーディオ符号化器は、線形予測符号化のようなモデリング手法を用いて入力信号を符号化するので、図15に示す決定部122は、入力信号が一定の基準に従って簡単にモデリングされるか否か決定することができる。その後、入力信号を簡単にモデリングできると決定した場合、決定部122は、音声符号化器を用いて入力信号を符号化すると決定する。それに対し、入力信号を簡単にモデリングできると決定した場合、決定部122は、オーディオ符号化器を用いて入力信号を符号化すると決定する。
図14は、本発明の他の実施の形態による符号化装置のブロック図である。図1乃至図14において、同様な参照番号は同様な構成要素を表し、したがって、その詳細な説明を省略する。
図14を参照すると、分類部100は、入力信号を複数の第1分割信号乃至第n分割信号に分割し、第1分割信号乃至第n分割信号の各々を符号化するために、複数の符号化器230,240,250,260,270のうちのいずれを使用するかを決定する。
図14を参照すると、符号化器230,240,250,260,270は、第1分割信号乃至第n分割信号を順次に符号化することができる。また、入力信号が複数の周波数帯域信号に分割された場合、低周波帯域信号から高周波帯域信号の順に周波数帯域信号を符号化することができる。
分割信号が順次に符号化される場合、以前の信号の符号化誤差を次の信号の符号化に用いることができる。その結果、種々の符号化方式を用いて分割信号を符号化でき、したがって、信号歪を防止するとともにバンド幅スケーラビリティ(bandwidth scalability)を提供することができる。
図14を参照すると、符号化器230は、第1分割信号を符号化し、符号化された第1分割信号を復号化し、復号化された信号と第1分割信号との間の誤差を符号化器240に出力する。符号化器240は、符号化器230から出力された誤差を用いて第2分割信号を符号化する。第2信号及び第3信号に対しても、上記のように、以前の分割信号それぞれの符号化誤差を考慮しながら第2乃至第m分割信号が符号化される。したがって、誤差のない符号化を実現することができるとともに音質を向上させることができる。
図14に示す符号化装置は、図1乃至図14に示す符号化装置によって実行される動作を逆に実行することによって入力ビットストリームから信号を復元することができる。
図15は、本発明の実施の形態による復号化装置のブロック図である。図15を参照すると、復号化装置は、ビットアンパッキング部800、復号化器決定部810、復号化部820、合成部830を含む。
ビットアンパッキング部800は、入力ビットストリームから1個以上の符号化信号及び符号化信号を復号化するのに必要な付加情報を抽出する。
復号化部820は、種々の復号化方式を実行する複数の第1乃至第m復号化部821,822を含む。
復号化器決定部810は、第1乃至第m復号化部821,822のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定する。復号化器決定部810は、第1乃至第m復号化部821,822のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定するために、図1に示す分類部100の方法と同様な方法を用いることができる。すなわち、復号化器決定部810は、符号化信号の各々の特性に基づいて第1乃至第m復号化部821,822のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定することができる。好適には、復号化器決定部810は、入力ビットストリームから抽出された付加情報に基づいて第1乃至第m復号化部821,822のうちのいずれが符号化信号の各々を最も效率的に復号化するかを決定することができる。
付加情報は、分類された分割信号が属するクラスを符号化装置によって識別する分類情報、符号化信号を生成するのに用いられる符号化器を識別する符号化器情報、及び符号化信号を復号化するのに用いられる復号化器を識別する復号化器情報を含むことができる。
例えば、復号化器決定部810は、符号化信号が属するクラスを付加情報に基づいて決定するとともに、符号化信号に対して、符号化信号のクラスに対応する第1復号化器821乃至第m復号化器822を選択することができる。この場合、選択された復号化器は、最も効率的に符号化された信号と同一のクラスに属する信号を復号化することができる構造を有することができる。
復号化器決定部810は、符号化信号を生成するのに用いられる符号化器を付加情報に基づいて識別するとともに、符号化信号に対して、識別された符号化器に対応する第1復号化器821乃至第m復号化器822を選択することができる。例えば、符号化信号が音声符号化器で符号化された場合、復号化器決定部810は、符号化信号に対して、音声復号化器である第1復号化器821乃至第m復号化器822を選択することができる。
また、復号化器決定部810は、符号化信号を復号化することができる復号化部を付加信号に基づいて識別し、符号化信号に対して、識別された復号化器に対応する第1復号化器821乃至第m復号化器822を選択することができる。
また、復号化器決定部810は、付加情報より符号化信号の特性を得ることができ、符号化信号と同一の特性を有する信号を最も效率的に復号化できる第1復号化部821乃至第m復号化部822を選択することができる。
このようにして、入力ビットストリームから抽出された符号化信号のそれぞれは、対応する符号化信号を最も効率的に復号化することができると決定された第1復号化部821乃至第m復号化部822により復号化される。復号化された信号は、合成部830により合成され、元の信号に復元される。
ビットアンパッキング部800は、符号化信号に関する分割情報、例えば、符号化信号の個数、符号化信号の各々の帯域情報を抽出し、合成部830は、復号化部820によって復号化された信号を、分割情報を参照しながら合成することができる。
合成部830は、複数の第1合成部831乃至第n合成部832を含むことができる。複数の第1合成部831乃至第n合成部832のそれぞれは、復号化部820によって復号化された信号を合成し、又は復号化された信号の一部若しくは全部に対してドメイン変換若しくは更なる復号化を行うことができる。
第1合成部831乃至第n合成部832のいずれか一つは、符号化装置で行われた前処理の逆過程である後処理を合成信号に対して行うことができる。後処理を行うか否かに関する情報及び後処理に用いられる復号化情報を、入力ビットストリームから抽出することができる。
図16を参照すると、第1合成部831乃至第n合成部832のいずれか一つ、特に、第2合成部833は、複数の第1後処理部834乃至第n後処理部835を含むことができる。第1合成部831は、複数の復号化された信号を合成して一つの信号にし、第1後処理部834乃至第n後処理部835のいずれか一つは、合成信号に後処理を行う。
合成によって得られた一つの信号に対して後処理を行うのは第1後処理部834乃至第n後処理部835のいずれであるかを表す情報を、入力ビットストリームに含めることができる。
複数の第1合成部831乃至第n合成部832のうちいずれか一つは、ビットストリームから抽出された線形予測係数を用いて、合成により得られた一つの信号に対して線形予測復号化を行い、元の信号を復元することができる。
本発明を、コンピュータにより読み取り可能な記録媒体に書き込まれたコンピュータにより読み取り可能なコードとして実現することができる。前記コンピュータにより読み取り可能な記録媒体を、コンピュータシステムによって読み取り可能なデータが保存されるあらゆる種類の記録装置とすることができる。コンピュータにより読み取り可能な記録媒体の例は、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置、及び搬送波(例えば、インターネットを介した転送)を含む。コンピュータにより読み取り可能な記録媒体を、ネットワークに接続したコンピュータシステムに分配することができ、その結果、分散方式でコンピュータが読み取りできるコードが書き込まれるとともに実行される。そして、本発明を実現するのに必要な機能プログラム、コード及びコードセグメントを、当業者によって容易に構成することができる。
本発明を特に典型的な実施の形態を参照して説明したが、本発明は、特定の実施例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない範囲で様々な変形実施が可能であることは、当業者にとっては明らかである。
上記のような本発明による符号化/復号化方法及び装置によれば、信号の特性に従って信号を分類し、対応する信号が属するクラスに最も適合する符号化器を用いて信号の各々を符号化することによって、相互に異なる特性を有する信号を最適のビットレートで符号化できる。その結果、オーディオ信号、音声信号などの様々な信号をいずれも效率的に符号化可能になる。
Claims (30)
- 入力ビットストリームから複数の符号化信号及び前記符号化信号の分割情報を抽出する段階と、
前記複数の符号化信号のそれぞれを復号化するために複数の復号化方式のうちのいずれを使用するかを決定する段階と、
決定された復号化方式によって前記符号化信号を復号化する段階と、
前記復号化された複数の信号を、前記分割情報を参照しながら合成する段階と、
を含むことを特徴とする復号化方法。 - 前記分割情報は、前記符号化信号の個数又は前記符号化信号の周波数帯域情報を含むことを特徴とする、請求項1に記載の復号化方法。
- 前記符号化信号は、複数の周波数帯域信号を含むことを特徴とする、請求項1に記載の復号化方法。
- 前記複数の周波数帯域は可変であることを特徴とする、請求項3に記載の復号化方法。
- 前記符号化信号は、音声復号化器を用いて效率的に復号化できる信号とオーディオ符号化器を用いて效率的に復号化できる信号とを含むことを特徴とする、請求項1に記載の復号化方法。
- 前記符号化信号のクラス情報を前記入力ビットストリームから抽出する段階をさらに含み、
前記復号化方式決定段階は、前記抽出されたクラス情報に基づいて前記符号化信号を復号化する復号化方式を決定することを特徴とする、請求項1に記載の復号化方法。 - 前記クラス情報は、前記符号化信号を生成するのに用いられる符号化方式を識別する符号化方式情報と、前記符号化信号を復号化するのに用いられる復号化方式を識別する復号化方式情報と、前記符号化信号の特性に関する情報のうち少なくとも一つを含むことを特徴とする、請求項6に記載の復号化方法。
- 前記クラス情報は、音声復号化方式とオーディオ復号化方式のうちのいずれが前記符号化信号を最も效率的に復号化するかを表す情報を含むことを特徴とする、請求項6に記載の復号化方法。
- 前記クラス情報は、前記符号化信号を容易にモデリングできるか否かを表す情報を含むことを特徴とする、請求項6に記載の復号化方法。
- 前記復号化方式決定段階は、前記符号化信号を容易にモデリングできる場合、前記符号化信号を、音声復号化方式を用いて復号化するように決定し、前記符号化信号を容易にモデリングできない場合、前記符号化信号を、オーディオ復号化方式を用いて復号化するように決定することを特徴とする、請求項1に記載の復号化方法。
- 前記音声復号化方式は、前記符号化信号を時間ドメインで復号化し、前記オーディオ復号化方式は、前記信号を周波数ドメインで復号化することを特徴とする、請求項8〜10にいずれか1項に記載の復号化方法。
- 前記復号化方式決定段階は、前記符号化信号を復号化する復号化方式を前記符号化信号の各々の変化量又は前記符号化信号の調性によって決定することを特徴とする、請求項1に記載の復号化方法。
- 前記合成段階は、前記復号化された信号のうち少なくとも一つを、複数の信号に分割する段階と、
前記複数の信号のうち2以上の信号を一つの信号に併合する段階と、
を含むことを特徴とする、請求項1に記載の復号化方法。 - 前記合成段階は、
前記復号化された信号の2以上を一つの信号に合成する段階と、
前記一つの信号及び前記復号化された信号の少なくとも一つを合成する段階と、
を含むことを特徴とする、請求項1に記載の復号化方法。 - 複数の符号化信号及び前記復号化信号の分割情報を入力ビットストリームから抽出するビットアンパッキング部と、
前記複数の符号化信号のそれぞれを復号化するために複数の復号化器のうちのいずれを使用するかを決定する復号化器決定部と、
前記複数の復号化器を含み、前記決定された復号化器を用いて前記符号化信号の各々を復号化する復号化部と、
前記復号化された複数の信号を、前記分割情報を参照しながら合成する合成部と、
を含むことを特徴とする復号化装置。
入力されるビットストリームから、符号化された複数の信号と前記複数の信号の分割情報を抽出するビットアンパッキング部と、
前記符号化された複数の信号のそれぞれに対して、複数の復号化器のうち、前記信号を復号化する復号化器を決定する復号化器決定部と、
前記複数の復号化器を含み、前記複数の信号を、前記決定された復号化器を用いて復号化する復号化部と、
前記抽出された分割情報を用いて、前記復号化された複数の信号を合成する合成部と、
を含むことを特徴とする復号化装置。 - 前記分割情報は、前記符号化信号の個数又は前記符号化信号の周波数帯域情報を含むことを特徴とする、請求項15に記載の復号化装置。
- 前記ビットアンパッキング部は、前記復号化信号の復号化器情報を前記入力ビットストリームから抽出することを特徴とする、請求項15に記載の復号化装置。
- 前記復号化部は、音声復号化器及びオーディオ復号化器を含み、前記符号化信号を容易にモデリングできる場合、前記符号化信号を、音声復号化方式を用いて復号化するように決定し、前記符号化信号を容易にモデリングできない場合、前記符号化信号を、オーディオ復号化方式を用いて復号化するように決定することを特徴とする、請求項15に記載の復号化装置。
- 入力信号を複数の分割信号に分割する段階と、
前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する段階と、
決定された符号化方式を用いて前記分割信号を符号化する段階と、
前記符号化された分割信号を用いてビットストリームを生成する段階と、
を含むことを特徴とする符号化方法。 - 前記信号分割段階は、前記入力信号を、それぞれが極値の個数とゼロ交差の個数との差が1以下であり、かつ、最大値による包絡線と最小値による包絡線の平均が実質的に0である条件を満足する複数の分割信号に分割することを特徴とする、請求項19に記載の符号化方法。
- 前記信号分割段階は、前記入力信号を、音声符号化方式を用いて效率的に符号化できる複数の分割信号とオーディオ符号化方式を用いて效率的に符号化できる複数の分割信号とに分割することを特徴とする、請求項19に記載の符号化方法。
- 前記信号分割段階は、
前記入力信号を複数の分割信号に分割する段階と、
前記分割信号の2以上の信号を一つの信号に併合する段階と、
を含むことを特徴とする、請求項19に記載の符号化方法。 - 前記併合段階は、隣接せず、かつ、同様な特性を有する2以上の分割信号を、一つの信号に併合することを特徴とする、請求項22に記載の符号化方法。
- 前記信号分割段階は、
前記入力信号を複数の信号に分割する段階と、
前記分割信号の少なくとも一つを2以上の分割信号に再分割する段階と、
を含むことを特徴とする、請求項19に記載の符号化方法。 - 前記分類段階は、音声符号化方式とオーディオ符号化方式のうちのいずれが前記分割信号を最も效率的に符号化できるかを決定することを特徴とする、請求項19に記載の符号化方法。
- 入力信号を複数の信号に分割し、前記分割信号のそれぞれを前記信号の特性に基づいて複数のクラスの一つに分類する分類部と、
決定された符号化方式を用いて前記分割信号を符号化する符号化部と、
前記符号化された分割信号を用いてビットストリームを生成するビットパッキング部と、
を含むことを特徴とする符号化装置。 - 前記分類部は、
前記入力信号を複数の信号に分割する分割部と、
前記分割信号の2以上の信号を一つの信号に併合する併合部と、
を含むことを特徴とする、請求項26に記載の符号化装置。 - 前記分類部は、
前記入力信号を複数の信号に分割する第1分割部と、
前記分割信号の少なくとも一つを2以上の分割信号に再分割する第2分割部と、
を含むことを特徴とする、請求項26に記載の符号化装置。 - 前記符号化部は、音声符号化器とオーディオ符号化器を含み、
前記分類部は、前記音声符号化器とオーディオ符号化器のうちのうちのいずれが前記分割信号の各々を最も效率的に符号化できるかを判断することを特徴とする、請求項26に記載の符号化装置。 - 請求項1〜14のいずれか1項に記載の復号化方法又は請求項19〜25のいずれか1項に記載の符号化方法をコンピュータで実行するプログラムを有する、コンピュータで読み取り可能な記録媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US75962206P | 2006-01-18 | 2006-01-18 | |
US79778206P | 2006-05-03 | 2006-05-03 | |
US81792606P | 2006-06-29 | 2006-06-29 | |
US84451006P | 2006-09-13 | 2006-09-13 | |
US84821706P | 2006-09-29 | 2006-09-29 | |
US86082206P | 2006-11-24 | 2006-11-24 | |
PCT/KR2007/000305 WO2007083934A1 (en) | 2006-01-18 | 2007-01-18 | Apparatus and method for encoding and decoding signal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009524101A true JP2009524101A (ja) | 2009-06-25 |
Family
ID=38287837
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008551188A Pending JP2009524100A (ja) | 2006-01-18 | 2007-01-18 | 符号化/復号化装置及び方法 |
JP2008551189A Pending JP2009524101A (ja) | 2006-01-18 | 2007-01-18 | 符号化/復号化装置及び方法 |
JP2008551187A Pending JP2009524099A (ja) | 2006-01-18 | 2007-01-18 | 符号化/復号化装置及び方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008551188A Pending JP2009524100A (ja) | 2006-01-18 | 2007-01-18 | 符号化/復号化装置及び方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008551187A Pending JP2009524099A (ja) | 2006-01-18 | 2007-01-18 | 符号化/復号化装置及び方法 |
Country Status (10)
Country | Link |
---|---|
US (3) | US20090281812A1 (ja) |
EP (3) | EP1989703A4 (ja) |
JP (3) | JP2009524100A (ja) |
KR (3) | KR20080097178A (ja) |
AU (1) | AU2007206167B8 (ja) |
BR (1) | BRPI0707135A2 (ja) |
CA (1) | CA2636493A1 (ja) |
MX (1) | MX2008009088A (ja) |
TW (3) | TWI318397B (ja) |
WO (3) | WO2007083931A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011501228A (ja) * | 2007-10-31 | 2011-01-06 | ケンブリッジ シリコン ラジオ リミテッド | 知覚モデルの適応的調整 |
JP2015501452A (ja) * | 2011-11-03 | 2015-01-15 | ヴォイスエイジ・コーポレーション | 低レートcelpデコーダに関する非音声コンテンツの向上 |
JP2015511433A (ja) * | 2012-01-25 | 2015-04-16 | テクニシェ・ユニヴェルシテイト・デルフト | 適応型多次元データ分解 |
US10504534B2 (en) | 2014-07-28 | 2019-12-10 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007003187A1 (de) * | 2007-01-22 | 2008-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines zu sendenden Signals oder eines decodierten Signals |
US7908103B2 (en) * | 2007-05-21 | 2011-03-15 | Nilanjan Senroy | System and methods for determining masking signals for applying empirical mode decomposition (EMD) and for demodulating intrinsic mode functions obtained from application of EMD |
EP2210253A4 (en) | 2007-11-21 | 2010-12-01 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING A SIGNAL |
EP2258111A4 (en) * | 2008-03-28 | 2014-01-22 | Thomson Licensing | APPARATUS AND METHOD FOR DECODING SIGNALS |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
KR101381513B1 (ko) | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
KR101261677B1 (ko) | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
KR20130133917A (ko) * | 2008-10-08 | 2013-12-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 다중 분해능 스위치드 오디오 부호화/복호화 방법 |
CN101763856B (zh) * | 2008-12-23 | 2011-11-02 | 华为技术有限公司 | 信号分类处理方法、分类处理装置及编码系统 |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
JP5358270B2 (ja) * | 2009-04-28 | 2013-12-04 | パナソニック株式会社 | デジタル信号再生装置及びデジタル信号圧縮装置 |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
PL2489041T3 (pl) * | 2009-10-15 | 2020-11-02 | Voiceage Corporation | Jednoczesne kształtowanie szumu w dziedzinie czasu i w dziedzinie częstotliwości dla przekształcenia tdac |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
KR102296955B1 (ko) | 2010-07-02 | 2021-09-01 | 돌비 인터네셔널 에이비 | 선택적인 베이스 포스트 필터 |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US8660848B1 (en) * | 2010-08-20 | 2014-02-25 | Worcester Polytechnic Institute | Methods and systems for detection from and analysis of physical signals |
US20120095729A1 (en) * | 2010-10-14 | 2012-04-19 | Electronics And Telecommunications Research Institute | Known information compression apparatus and method for separating sound source |
CA2827335C (en) | 2011-02-14 | 2016-08-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
MX2013009301A (es) | 2011-02-14 | 2013-12-06 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio. |
CA2827266C (en) | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
TWI469136B (zh) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
SG192748A1 (en) * | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
JP6110314B2 (ja) | 2011-02-14 | 2017-04-05 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法 |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
TWI492615B (zh) * | 2011-05-23 | 2015-07-11 | Nat Univ Chung Hsing | 改良向量量化編碼還原影像品質與快速編碼簿訓練方法、壓縮方法、解壓縮方法及其程式產品 |
US9070361B2 (en) * | 2011-06-10 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component |
US9858942B2 (en) * | 2011-07-07 | 2018-01-02 | Nuance Communications, Inc. | Single channel suppression of impulsive interferences in noisy speech signals |
KR20130093783A (ko) * | 2011-12-30 | 2013-08-23 | 한국전자통신연구원 | 오디오 객체 전송 장치 및 방법 |
SG194706A1 (en) * | 2012-01-20 | 2013-12-30 | Fraunhofer Ges Forschung | Apparatus and method for audio encoding and decoding employing sinusoidalsubstitution |
CN105469805B (zh) | 2012-03-01 | 2018-01-12 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
CN106409299B (zh) * | 2012-03-29 | 2019-11-05 | 华为技术有限公司 | 信号编码和解码的方法和设备 |
CN103839551A (zh) * | 2012-11-22 | 2014-06-04 | 鸿富锦精密工业(深圳)有限公司 | 音频处理系统与音频处理方法 |
CN104112451B (zh) * | 2013-04-18 | 2017-07-28 | 华为技术有限公司 | 一种选择编码模式的方法及装置 |
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US20170201356A1 (en) * | 2016-01-08 | 2017-07-13 | Rohde & Schwarz Gmbh & Co. Kg | Method and apparatus for expanding a message coverage |
CN107316649B (zh) * | 2017-05-15 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
CN111149160B (zh) * | 2017-09-20 | 2023-10-13 | 沃伊斯亚吉公司 | 在celp编解码器中在子帧之间分派比特预算的方法和设备 |
KR102432406B1 (ko) * | 2018-09-05 | 2022-08-12 | 엘지전자 주식회사 | 비디오 신호의 부호화/복호화 방법 및 이를 위한 장치 |
CN113892265A (zh) * | 2019-05-30 | 2022-01-04 | 夏普株式会社 | 图像解码装置 |
EP3751567B1 (en) * | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
KR20210003507A (ko) | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
CN110489606B (zh) * | 2019-07-31 | 2023-06-06 | 云南师范大学 | 一种分组Hilbert编码和解码方法 |
CN112155523B (zh) * | 2020-09-27 | 2022-09-16 | 太原理工大学 | 一种基于模态能量主成分比量化的脉搏信号特征提取与分类方法 |
TWI768674B (zh) * | 2021-01-22 | 2022-06-21 | 宏碁股份有限公司 | 諧振峰強化的語音編碼裝置及語音編碼方法 |
US20230025801A1 (en) | 2021-07-08 | 2023-01-26 | Boomcloud 360 Inc. | Colorless generation of elevation perceptual cues using all-pass filter networks |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091497A (ja) * | 2000-09-18 | 2002-03-27 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号符号化方法、復号化方法及びそれらの方法を実行するプログラム記憶媒体 |
JP2002532765A (ja) * | 1998-12-14 | 2002-10-02 | マイクロソフト コーポレイション | 周波数領域オーディオ符号化のためのエントロピー符号モード切替え |
Family Cites Families (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US714559A (en) * | 1902-06-10 | 1902-11-25 | John Byrne | Railway-tie. |
US5235623A (en) * | 1989-11-14 | 1993-08-10 | Nec Corporation | Adaptive transform coding by selecting optimum block lengths according to variatons between successive blocks |
FR2674710B1 (fr) * | 1991-03-27 | 1994-11-04 | France Telecom | Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle. |
JPH05158495A (ja) * | 1991-05-07 | 1993-06-25 | Fujitsu Ltd | 音声符号化伝送装置 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
WO1995001633A1 (fr) * | 1993-06-30 | 1995-01-12 | Sony Corporation | Procede et appareil de codage de signaux numeriques, procede et appareil de decodage des signaux codes, et support d'enregistrement des signaux codes |
JP3277677B2 (ja) * | 1994-04-01 | 2002-04-22 | ソニー株式会社 | 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置 |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
KR100430328B1 (ko) * | 1996-04-18 | 2004-07-14 | 노키아 모빌 폰즈 리미티드 | 비디오데이터엔코더및디코더 |
US5881053A (en) * | 1996-09-13 | 1999-03-09 | Qualcomm Incorporated | Method for a wireless communications channel |
JP3849210B2 (ja) * | 1996-09-24 | 2006-11-22 | ヤマハ株式会社 | 音声符号化復号方式 |
US6148282A (en) * | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
WO1999003097A2 (en) * | 1997-07-11 | 1999-01-21 | Koninklijke Philips Electronics N.V. | Transmitter with an improved speech encoder and decoder |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
DE69836785T2 (de) * | 1997-10-03 | 2007-04-26 | Matsushita Electric Industrial Co., Ltd., Kadoma | Audiosignalkompression, Sprachsignalkompression und Spracherkennung |
US6263312B1 (en) * | 1997-10-03 | 2001-07-17 | Alaris, Inc. | Audio compression and decompression employing subband decomposition of residual signal and distortion reduction |
US6493385B1 (en) * | 1997-10-23 | 2002-12-10 | Mitsubishi Denki Kabushiki Kaisha | Image encoding method, image encoder, image decoding method, and image decoder |
US6418147B1 (en) * | 1998-01-21 | 2002-07-09 | Globalstar Lp | Multiple vocoder mobile satellite telephone system |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
US6029126A (en) * | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
JP4618823B2 (ja) * | 1998-10-22 | 2011-01-26 | ソニー株式会社 | 信号符号化装置及び方法 |
US6278972B1 (en) * | 1999-01-04 | 2001-08-21 | Qualcomm Incorporated | System and method for segmentation and recognition of speech signals |
US6278982B1 (en) * | 1999-04-21 | 2001-08-21 | Lava Trading Inc. | Securities trading system for consolidation of trading on multiple ECNS and electronic exchanges |
US6549147B1 (en) * | 1999-05-21 | 2003-04-15 | Nippon Telegraph And Telephone Corporation | Methods, apparatuses and recorded medium for reversible encoding and decoding |
JP4438127B2 (ja) * | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
JP2003510643A (ja) * | 1999-09-20 | 2003-03-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号を補正する処理回路、受信機、通信システム、携帯装置、及びその方法 |
US7054809B1 (en) * | 1999-09-22 | 2006-05-30 | Mindspeed Technologies, Inc. | Rate selection method for selectable mode vocoder |
US6697776B1 (en) * | 2000-07-31 | 2004-02-24 | Mindspeed Technologies, Inc. | Dynamic signal detector system and method |
US6373411B1 (en) * | 2000-08-31 | 2002-04-16 | Agere Systems Guardian Corp. | Method and apparatus for performing variable-size vector entropy coding |
US6760698B2 (en) * | 2000-09-15 | 2004-07-06 | Mindspeed Technologies Inc. | System for coding speech information using an adaptive codebook with enhanced variable resolution scheme |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
US6862558B2 (en) * | 2001-02-14 | 2005-03-01 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Empirical mode decomposition for analyzing acoustical signals |
US6996522B2 (en) * | 2001-03-13 | 2006-02-07 | Industrial Technology Research Institute | Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse |
ES2266481T3 (es) * | 2001-04-18 | 2007-03-01 | Koninklijke Philips Electronics N.V. | Codificacion de audio con encriptacion parcial. |
US6820054B2 (en) * | 2001-05-07 | 2004-11-16 | Intel Corporation | Audio signal processing for speech communication |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
KR100434275B1 (ko) * | 2001-07-23 | 2004-06-05 | 엘지전자 주식회사 | 패킷 변환 장치 및 그를 이용한 패킷 변환 방법 |
KR100460109B1 (ko) * | 2001-09-19 | 2004-12-03 | 엘지전자 주식회사 | 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법 |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
BR0206783A (pt) * | 2001-11-30 | 2004-02-25 | Koninkl Philips Electronics Nv | Método e codificador para codificar um sinal, corrente de bits que representa um sinal codificado, meio de armazenagem, método e decodificador para decodificar uma corrente de bits que representa um sinal codificado, transmissor, receptor, e, sistema |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
CN100370517C (zh) * | 2002-07-16 | 2008-02-20 | 皇家飞利浦电子股份有限公司 | 一种对编码信号进行解码的方法 |
US7970606B2 (en) * | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
KR100604032B1 (ko) * | 2003-01-08 | 2006-07-24 | 엘지전자 주식회사 | 복수 코덱을 지원하는 장치와 방법 |
KR100621076B1 (ko) * | 2003-05-02 | 2006-09-08 | 삼성전자주식회사 | 마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성인식 방법 및 장치 |
WO2004107318A1 (en) * | 2003-05-27 | 2004-12-09 | Koninklijke Philips Electronics N.V. | Audio coding |
US20050159942A1 (en) * | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
PL1735774T3 (pl) * | 2004-04-05 | 2008-11-28 | Koninl Philips Electronics Nv | Koder wielokanałowy |
CN1947407A (zh) * | 2004-04-09 | 2007-04-11 | 日本电气株式会社 | 音频通信方法和装置 |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
EP1747554B1 (en) * | 2004-05-17 | 2010-02-10 | Nokia Corporation | Audio encoding with different coding frame lengths |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
MXPA06012578A (es) * | 2004-05-17 | 2006-12-15 | Nokia Corp | Codificacion de audio con distintos modelos de codificacion. |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US7873515B2 (en) * | 2004-11-23 | 2011-01-18 | Stmicroelectronics Asia Pacific Pte. Ltd. | System and method for error reconstruction of streaming audio information |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
US7196641B2 (en) * | 2005-04-26 | 2007-03-27 | Gen Dow Huang | System and method for audio data compression and decompression using discrete wavelet transform (DWT) |
-
2007
- 2007-01-18 JP JP2008551188A patent/JP2009524100A/ja active Pending
- 2007-01-18 TW TW096102004A patent/TWI318397B/zh not_active IP Right Cessation
- 2007-01-18 WO PCT/KR2007/000302 patent/WO2007083931A1/en active Application Filing
- 2007-01-18 TW TW096102003A patent/TWI333643B/zh not_active IP Right Cessation
- 2007-01-18 CA CA002636493A patent/CA2636493A1/en not_active Abandoned
- 2007-01-18 US US12/161,165 patent/US20090281812A1/en not_active Abandoned
- 2007-01-18 TW TW096102002A patent/TW200737738A/zh unknown
- 2007-01-18 KR KR1020087016358A patent/KR20080097178A/ko not_active Application Discontinuation
- 2007-01-18 US US12/161,163 patent/US20090222261A1/en not_active Abandoned
- 2007-01-18 EP EP07708512A patent/EP1989703A4/en not_active Withdrawn
- 2007-01-18 JP JP2008551189A patent/JP2009524101A/ja active Pending
- 2007-01-18 AU AU2007206167A patent/AU2007206167B8/en active Active
- 2007-01-18 WO PCT/KR2007/000304 patent/WO2007083933A1/en active Application Filing
- 2007-01-18 KR KR1020087016357A patent/KR20080101873A/ko not_active Application Discontinuation
- 2007-01-18 WO PCT/KR2007/000305 patent/WO2007083934A1/en active Application Filing
- 2007-01-18 EP EP07708513A patent/EP1984911A4/en not_active Withdrawn
- 2007-01-18 MX MX2008009088A patent/MX2008009088A/es active IP Right Grant
- 2007-01-18 US US12/161,162 patent/US20110057818A1/en not_active Abandoned
- 2007-01-18 BR BRPI0707135-3A patent/BRPI0707135A2/pt not_active IP Right Cessation
- 2007-01-18 JP JP2008551187A patent/JP2009524099A/ja active Pending
- 2007-01-18 EP EP07708510A patent/EP1989702A4/en not_active Withdrawn
- 2007-01-18 KR KR1020087016356A patent/KR20080101872A/ko not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002532765A (ja) * | 1998-12-14 | 2002-10-02 | マイクロソフト コーポレイション | 周波数領域オーディオ符号化のためのエントロピー符号モード切替え |
JP2002091497A (ja) * | 2000-09-18 | 2002-03-27 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号符号化方法、復号化方法及びそれらの方法を実行するプログラム記憶媒体 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011501228A (ja) * | 2007-10-31 | 2011-01-06 | ケンブリッジ シリコン ラジオ リミテッド | 知覚モデルの適応的調整 |
JP2015501452A (ja) * | 2011-11-03 | 2015-01-15 | ヴォイスエイジ・コーポレーション | 低レートcelpデコーダに関する非音声コンテンツの向上 |
JP2015511433A (ja) * | 2012-01-25 | 2015-04-16 | テクニシェ・ユニヴェルシテイト・デルフト | 適応型多次元データ分解 |
US10504534B2 (en) | 2014-07-28 | 2019-12-10 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
US10706866B2 (en) | 2014-07-28 | 2020-07-07 | Huawei Technologies Co., Ltd. | Audio signal encoding method and mobile phone |
Also Published As
Publication number | Publication date |
---|---|
US20090281812A1 (en) | 2009-11-12 |
WO2007083933A1 (en) | 2007-07-26 |
TW200746052A (en) | 2007-12-16 |
EP1989702A4 (en) | 2012-03-14 |
EP1989703A4 (en) | 2012-03-14 |
JP2009524100A (ja) | 2009-06-25 |
KR20080101872A (ko) | 2008-11-21 |
KR20080101873A (ko) | 2008-11-21 |
AU2007206167A1 (en) | 2007-07-26 |
AU2007206167B8 (en) | 2010-06-24 |
MX2008009088A (es) | 2009-01-27 |
TWI333643B (en) | 2010-11-21 |
JP2009524099A (ja) | 2009-06-25 |
TW200737738A (en) | 2007-10-01 |
EP1989702A1 (en) | 2008-11-12 |
US20110057818A1 (en) | 2011-03-10 |
EP1989703A1 (en) | 2008-11-12 |
CA2636493A1 (en) | 2007-07-26 |
WO2007083931A1 (en) | 2007-07-26 |
TW200746051A (en) | 2007-12-16 |
EP1984911A1 (en) | 2008-10-29 |
KR20080097178A (ko) | 2008-11-04 |
AU2007206167B2 (en) | 2010-06-10 |
BRPI0707135A2 (pt) | 2011-04-19 |
WO2007083934A1 (en) | 2007-07-26 |
EP1984911A4 (en) | 2012-03-14 |
TWI318397B (en) | 2009-12-11 |
US20090222261A1 (en) | 2009-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009524101A (ja) | 符号化/復号化装置及び方法 | |
KR101896504B1 (ko) | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 | |
KR101139172B1 (ko) | 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술 | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
KR100949232B1 (ko) | 인코딩 장치, 디코딩 장치 및 그 방법 | |
KR101171098B1 (ko) | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 | |
TWI415114B (zh) | 用於計算頻譜包絡數目之裝置與方法 | |
CN101903945B (zh) | 编码装置、解码装置以及编码方法 | |
CN101371295B (zh) | 用于编码和解码信号的设备和方法 | |
CN1890714B (zh) | 一种优化的复合编码方法 | |
CN101518083A (zh) | 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法、介质和系统 | |
JP3297749B2 (ja) | 符号化方法 | |
RU2414009C2 (ru) | Устройство и способ для кодирования и декодирования сигнала | |
US20220392458A1 (en) | Methods and system for waveform coding of audio signals with a generative model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121016 |