[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102576536B - 数字音频信号的增强的编码/解码方法和装置 - Google Patents

数字音频信号的增强的编码/解码方法和装置 Download PDF

Info

Publication number
CN102576536B
CN102576536B CN2010800396757A CN201080039675A CN102576536B CN 102576536 B CN102576536 B CN 102576536B CN 2010800396757 A CN2010800396757 A CN 2010800396757A CN 201080039675 A CN201080039675 A CN 201080039675A CN 102576536 B CN102576536 B CN 102576536B
Authority
CN
China
Prior art keywords
band
coding
bit
function
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010800396757A
Other languages
English (en)
Other versions
CN102576536A (zh
Inventor
D.维雷特
S.拉格特
B.科维西
P.伯塞特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN102576536A publication Critical patent/CN102576536A/zh
Application granted granted Critical
Publication of CN102576536B publication Critical patent/CN102576536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种用于将数字音频输入信号层级地编码为若干频率子波段的方法,所述编码包括所述输入信号的根据第一吞吐量的核心编码以及残留信号的更高吞吐量的至少一个增强编码,所述核心编码使用根据能量标准的二进制分配(506)。所述方法在于包括用于所述增强编码的以下步骤:针对通过所述增强编码处理的频段的至少一部分计算基于频率的掩蔽阈值(511);将每个频率子波段的感知重要性确定(512)为所计算的掩蔽阈值的函数以及为所述核心编码所分配的比特数的函数;在通过所述增强编码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的二进制分配(512);以及根据比特的分配编码所述残留信号(513)。本发明还涉及合适的解码方法、编码器和解码器。

Description

数字音频信号的增强的编码/解码方法和装置
技术领域
本发明涉及一种声音数据的处理。 
背景技术
该处理特别适合于诸如音频信号(语音、音乐等)的数字信号的传输和/或存储。 
本发明更特别地适用于层级(hierarchical)编码(或“可缩放”编码),其生成所谓的“层级”二进制流,因为其包括核心比特率以及一个或多个增强(improvement)层。48、56和64千比特/秒(kbit/s)的G.722标准是比特率可缩放的编解码器的示例,而UIT-T G.729.1和MPEG-4CELP编解码器是在比特率和带宽方面可缩放的编解码器的示例。 
下面详细描述层级编码,其具有通过将有关要编码的音频信号的信息分配到层级化子集中而提供可变的比特率的能力,使得可以从音频重现(rendition)质量的角度以重要性的顺序使用该信息。所考虑的用于确定顺序的标准是所编码的音频信号的质量优化(或者更少恶化)的标准。层级编码特别适用于异质网络或者呈现随时间变化的可用比特率的那些网络上的传输,或者适应于去往呈现变化的能力的终端的传输。 
可以如下描述层级(或“可缩放”)的音频编码的基本概念。 
二进制流包括基本层以及一个或多个增强层。通过称为“核心编解码器”的固定比特率编解码器确保编码的最低质量来产生基本层。必须由解码器接收该层,以保持可接受的质量水平。增强层用于提高质量。然而,可能发生它们不全由解码器接收。 
层级编码的主要益处是其接着允许通过简单的“二进制流的截断”来进行比特率的适配。层的数目(即二进制流的可能的截断的数目)定义编码的粒度。如果二进制流包括很少的层(在2至4的量级上),则称为“高粒度”,如果其允许例如1至2kbit/s的量级的增加,则称为“精细粒度”。 
下文更具体地描述在电话波段(telephonic band)以及加宽波段中的一个 或多个增强层中的、具有CELP类型的核心编码器的、比特率和带宽可缩放编码的技术。在具有精细粒度的从8至32kbit/s的标准UIT-T G.729.1中给出这种系统的示例。下面总结G.729.1编码/解码算法。 
关于G.729.1编码器的回顾 
G.729.1编码器是UIT-T G.729编码器的扩展。其需要修改的G.729核心层级编码器,产生具有8至32kbit/s比特率的用于会话服务的、带宽从窄波段(50-4000Hz)至加宽波段(50-7000Hz)的信号。该编解码器与使用G.729编解码器的现有的IP上传送语音(voice over IP)设备兼容。 
图1中以框图示出了G.729.1编码器。以16kHz采样的加宽波段输入信号Swb首先被QMF(“正交镜像滤波器”)滤波分解为两个子波段。通过低通滤波LP(块100)和抽取(decimation)(块101)获得低波段(0-4000Hz),并且通过高通滤波HP(块102)和抽取(块103)获得高波段(4000-8000Hz)。滤波器LP和HP的长度是64。 
在8和12kbit/s的窄波段CELP编码(块105)之前,通过消除低于50Hz的分量的高通滤波器(块104)预处理低波段,以获得信号SLB。该高通滤波考虑有用波段被限定为覆盖区间50-7000Hz的事实。窄波段CELP编码是级联CELP编码,其包括没有预处理滤波器的修改的G.729解码作为第一级、以及附加的固定CELP库作为第二级。 
首先预处理(块106)高波段,以补偿由于高通滤波器(块102)与抽取(块103)一起导致的混淆。接着通过消除高波段的3000与4000Hz之间的分量(即原始信号中的7000与8000Hz之间的分量)的低通滤波器(块107)对高波段进行滤波,以获得信号sHB。下面执行参数波段扩展(块108)。 
根据图1的G.729.1编码器的重要特征如下。基于CELP编码器(块105)的输出计算低波段的误差信号dLB(块109),并且在块110中执行(在G.729.1标准中用于“时域混淆消除”类型的TDAC的)预测变换编码。参照图1,尤其可以看出,TDAC编码既被应用到低波段上的误差信号,还被应用到高波段上的经滤波的信号。 
可以通过块111将附加参数传输到同类解码器,该块111执行“帧删除隐蔽”(简称为“FEC”)处理,如果存在,以重建删除的帧为目的。 
由编码块105、108、110和111产生的各种二进制流最终在复用块112中被复用和构建为层级二进制串。按照20毫秒(ms)的采样(或帧)的块 执行编码,即每帧320个采样。 
G.729.1编解码因此具有作为三个编码步骤的架构,包括: 
-级联CELP编码, 
-通过TDBWE(“时域带宽扩展”)类型的模块108的参数波段扩展,以及 
-在MDCT(“修改的离散余弦变换”)类型的变换之后应用的预测TDAC变换编码。 
关于G.729.1解码器的回顾 
图2中示出了G.729.1解码器。描述每20ms帧的比特在块200中解复用。 
由CELP解码器(块201)使用8和12kbit/s的层的二进制流,以产生窄波段合成(0-4000Hz)。二进制流的与14kbit/s的层关联的那部分由波段扩展模块(块202)解码。二进制流的与高于14kbit/s的比特率关联的那部分由TDAC模块(块203)解码。通过块204和207以及增强(块205)和低波段的后处理(块206)执行对前回波和后回波的处理。 
通过集成反向混淆(块28)的合成QMF滤波器(块209、210、211、212和213)的群(bank)获得以16kHz采样的加宽波段输出信号 
Figure BDA0000141191210000031
下面详细描述变换编码层。 
关于G.729.1编码器中的基于TDAC变换的编码器的回顾 
图3中示出了G.729.1编码器中的TDAC类型的变换编码。 
滤波器WLB(z)(块300)是具有增益补偿的感知加权滤波器(perceptual weighting filter),其被应用于低波段误差信号dLB。接着计算(块301和302)MDCT变换,以获得: 
-经感知滤波的、差信号的MDCT频谱 
Figure BDA0000141191210000032
以及 
-高波段的原始信号的MDCT频谱SHB。 
这些MDCT变换(块301和303)被应用到以8kHz采样的20ms的信号(160个系数)。来自合并(fusion)块303的频谱Y(k)因此包括2x 160(即320)个系数。其可以被如下定义: 
Figure BDA0000141191210000033
此频谱被划分为18个子波段,子波段j被分配系数为nb_coef(j)的数目。下面在表1中具体给出了子波段的划分。 
因此,子波段j包括系数Y(k),其中sb_bound(j)≤k<sb_bound(j+1)。 
注意,对应于7000Hz-8000Hz频段的系数280-319未被编码;它们在解码器处被设定为0,因为编解码器的通波段是从50至7000Hz。 
  J  sb_bound(j)   nb_coef(j)
  0  0   16
  1  16   16
  2  32   16
  3  48   16
  4  64   16
  5  80   16
  6  96   16
  7  112   16
  8  128   16
  9  144   16
  10  160   16
  11  176   16
  12  192   16
  13  208   16
  14  224   16
  15  240   16
  16  256   16
  17  272   8
  18  280   -
表1:TDAC编码中的子波段的限制和大小
在块304中根据以下公式计算频谱包络{log_rms(j)}j=0,...,17: 
log _ rms ( j ) = 1 2 log 2 [ 1 nb _ coef ( j ) Σ k = sb _ bound ( j ) sb _ bound ( j + 1 ) - 1 Y ( k ) 2 + ϵ rms ] , j = 0 , . . . , 17
其中εrms=2-24。 
在块305中以可变的比特率编码该频谱包络。该块305通过简单的标量量化rms_index(j)=round(2·log_rms(j))产生量化的整数值,其表示为rms_index(j)(其中j=0,...,17), 
其中表达“round”表示取整到最近的整数,并具有以下限制: 
-11≤rms_index(j)≤+20 
该该量化值rms_index(j)被传输到比特分配块306。 
块305进一步针对低波段(rms_index(j),其中j=0,...,9)和高波段(rms_index(j),其中j=10,...,17)独立地执行频谱包络的编码本身。在每个波段中,可以根据给定的标准选择两种类型的编码,并且,更准确地,值rms_index(j): 
-可以通过所谓的“差分霍夫曼”编码进行编码, 
-或者可以通过自然二进制编码进行编码。 
将比特(0或1)传输到解码器,以指示已经选择的编码模式。 
基于来自于块305的量化的频谱包络,在块306中确定分配给每个子波段的用于其量化的比特数。 
所执行的比特分配最小化二次误差,同时满足对每个子波段所分配的比特整数数目以及不超过最大比特数的限制。接着通过球矢量量化(块307)编码子波段的频谱内容。 
接着在复用块308中将块305和307产生的各种二进制流复用和构建为层级二进制串。 
关于G.729.1解码器中的基于变换的解码器的回顾 
图4中示出了G.729.1解码器中基于TDAC型变换的解码的步骤。 
以与编码器(图3)对称的方式,解码的频谱包络(块401)使得可以撷取比特的分配(块402)。包络解码(块401)基于块305产生的二进制串重建频谱包络的量化值(rms_index(j),其中j=0,...,17)(复用),并从其导出解码的包络: 
rms_q(j)=21/2rms_index(j)
通过反向球矢量量化(块403)撷取每个子波段的频谱内容。基于波段扩展块(图2的块202)输出的信号的MDCT变换外插(块404)未传输(由于缺少足够的比特“预算”)的子波段。 
在作为频谱包络的函数的该频谱的升级(快405)以及后处理(块406)之后,将MDCT频谱分割为两部分(块407): 
-具有与经感知滤波的低波段解码的差信号的频谱 
Figure BDA0000141191210000051
对应的106个第一系数, 
-以及与高波段解码的原始信号的频谱 
Figure BDA0000141191210000061
对应的106个后续系数。 
通过反向MDCT变换(标注为IMDCT(块408和410))将这两个频谱变换为时间信号,并且对来自反向变换的信号 (块409)应用反向感知加权(滤波器,标注为WLB(z)-1)。 
下面更具体地说明比特向子波段的分配(图3的块306或者图4的块402)。 
块306和402基于值rms_index(j)执行相同的操作,其中j=10,...,17。因此,下面仅描述该块306的操作。 
二进制分配的目的是在每个子波段之间分配某一(可变的)比特预算(表示为nbits_VQ),其中: 
nbits_VQ=351-nbits_rms,其中nbits_rms是频率包络的编码所使用的比特数。 
分配的结果是分配给每个子波段的整数个比特(表示为nbit(j)(j=0,...,17))满足下式,作为全局限制: 
Σ j = 0 17 nbit ( j ) ≤ nbits _ VQ
在G.729.1标准中,值nbit(j)(j=0,...,17)还受如下事实限制:nbit(j)必须从下面的表2中具体给出的值的缩减集中选择。
表2:在TDAC子波段中分配的比特数的可能值。 
G.729.1标准中的分配依赖于每个子波段的与子波段的能量相关的“感知重要性”,表示为ip(j)(j=0..17),其被如下定义: 
ip ( j ) = 1 2 log 2 ( rms _ q ( j ) 2 × nb _ coef ( j ) ) + offset , 其中offset=-2。 
因为值rms_q(j)=21/2rms_index(j),所以该公式简化为以下形式:
ip ( j ) = 1 2 rms _ index ( j ) j = 0 , . . . , 16 1 2 ( rms _ index ( j ) - 1 ) j = 17 .
基于每个子波段的感知重要性,如下计算分配nbit(j): 
nbit ( j ) = arg min r ∈ R nb _ coef ( j ) | nb _ coef ( j ) × ( ip ( j ) - λ opt ) - r |
其中λopt是通过最佳近似阈值nbits_VQ而被二分法优化的参数,以满足全局限制 
Σ j = 0 17 nbit ( j ) ≤ nbits _ VQ .
现在更详细地说明感知加权(块300的滤波)对基于TDAC变换的编码器的比特分配(块306)的影响。 
在G.729.1标准中,TDAC编码使用滤波器WLB(z)用于低波段中的感知加权(块300),如上面所指示的。本质上,感知加权滤波使得可以塑形编码噪声。该滤波的原理是使用如下事实:可以将更多的噪声注入到原始信号具有高能量的频率区域中。 
窄波段CELP编码中最通常使用的感知加权滤波器是 
Figure BDA0000141191210000074
的形式,其中0≤γ2≤γ1<1和 
Figure BDA0000141191210000075
表示线性预测频谱(LPC)。CELP编码中的基于合成(synthesis)的分析因此意味着最小化由此类型的滤波器感知加权的信号域中的二次误差。 
然而,为了当频率 
Figure BDA0000141191210000076
和SHB相接时(图3中的块303)确保频谱连续性,以下列形式定义滤波器WLB(z): 
W LB ( z ) = fac A ^ ( z / γ 1 ) A ^ ( z / γ 2 )
其中,γ1=0.96,γ2=0.6以及 fac = | Σ i = 0 p ( - γ 2 ) i a ^ i Σ i = 0 p ( - γ 1 ) i a ^ i | .
因子fac使得可以当低波段和高波段(4kHz)相接时在1至4kHz中确保滤波器的增益。重要的是注意:在根据G.729.1标准的TDAC编码中,该编码仅依赖于能量标准。 
现有技术的缺点 
在高波段(4000-7000Hz)中使用的、G.729.1的TDAC编码的能量标准从感知的角度不是最优的,特别是对于编码音乐信号。 
感知加权滤波器特别适用于话音信号。其被广泛使用在基于CELP类型的编码的话音编码中。然而,对于音乐信号,显然,基于依照输入信号的构成成分(formant)对量化噪声的塑形的该感知加权就不够了。大部分语音编码器依赖于使用频率掩蔽(masking)模型或同时掩蔽的变换编码;它们更一般(generic)(因为它们不使用CELP型的话音产生模型),并因此更适用于编码音乐信号。 
可以参考2003年Kluver Academic出版社出版的、M.Bosi和R.Goldberg的题为“Introduction to digital audio coding and standards”的文献,以获得关于掩蔽模型以及它们在基于变换的编码器中的应用的更多细节。 
因此存在提高信号的编码质量以获得更好感知的再现并同时保持与G.729.1编码的协同性的需求。 
发明内容
本发明改善了改情形。 
为此目的,提出一种用于将数字音频输入信号层级地编码为若干频率子波段的方法,所述编码包括所述输入信号的根据第一比特率的核心编码以及残留信号的更高比特率的至少一个增强编码,所述核心编码使用根据能量标准的二进制分配。所述方法包括用于所述增强编码的以下步骤: 
-针对通过所述增强编码处理的频段的至少一部分计算频率掩蔽阈值; 
-将每个频率子波段的感知重要性确定为所计算的掩蔽阈值的函数以及为所述核心编码所分配的比特数的函数,; 
-在通过所述增强编码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的二进制分配;以及 
-根据比特的分配编码所述残留信号。 
因此,从感知的角度,根据本发明的编码得益于增强编码层而提高了编码质量。增强层因此将得益于在核心编码阶段中不存在的频率掩蔽,从而在增强编码的频段中最佳地分配比特。 
该操作不修改核心编码,因此其保持与现有的标准化编码兼容,从而确保能够与市场上已有的使用现有标准化编码的设备一起工作。 
可以独立地或者彼此组合地将下文提及的各种具体实施例添加到上文所定义的编码方法的步骤。 
在一个具体实施例中,确定感知重要性的步骤包括: 
-第一步骤,针对所述增强编码的至少一个频率子波段将第一感知重要性定义作为所述子波段的频率掩蔽阈值、所述频率子波段的频谱包络的编码的量化值、以及所确定的归一化因子的函数, 
-第二步骤,从所述第一感知重要性中减去为所述核心编码所分配的比特数与所述子波段中的系数的数目的比。 
因此,将用于增强层的第一感知重要性不考虑核心编码而仅考虑信号掩蔽比,以定义关键重要性。对基于变换的编码器输入信号确定该感知重要性。 
简单地通过减去已分配的每个样本的平均比特数来考虑核心编码。在感知的意义上,基于信号掩蔽比的感知重要性的使用使得可以获得最佳分配。然而,如果直接编码变换编码层的输入信号,则该分配是有用的。现在,在本发明的框架内,基于能量分配的第一变换编码层已经对每个子波段分配了一定数量的比特。 
如果期望通过编码核心编码器的该层的残留信号而不浪费比特率来提高质量,则必须是基于输入信号的信号掩蔽比的感知重要性与残留信号适配。因此,从第一感知重要性中减去表示核心编码器中所分配的比特数的值。应该注意,不可能计算基于残留信号的信号掩蔽比的感知重要性。确实,在此情况中,将被计算的掩蔽曲线不实际具有任何感知意义,因为其不基于实际感知的信号。 
在一个变形实施例中,还将所述感知重要性确定为对先前的核心编码的增强编码所分配的比特的函数,该增强编码具有根据能量标准的二进制分配。 
在G.729.1解码器中,基于波段扩展块(图2的块202)输出的信号的MDCT变换外插(块404)未传输(由于缺少足够的比特预算)的子波段。即使在G.729.1编码的最高比特率(32kbit/s),某些频段因此保持被外插。在应用根据本发明的增强编码之前,首先可以调用用于核心编码的第一增强编码,以便为这些未传输的子波段补偿核心编码的比特率的缺少。该第一增强编码使用原始信号并根据用于比特分配的能量标准工作。根据本发明的一个实施例,该第一增强编码修改分配给子波段的比特数nbit(j)以及经解码的子波段Yq(k)(后面在图5中定义)。 
因此,在核心编码中分配的比特之外,根据本发明的增强编码还考虑在此第一增强编码期间分配的比特。 
有利地,通过用于所计算的频谱包络的表达与包含子波段的中心频率的加宽函数之间的卷积,为所述子波段确定所述掩蔽阈值。 
在变形实施例中,所述方法包括根据要被编码的信号是声调还是非声调而获得的信息项的步骤,并且仅在所述信号时非声调的情况下执行计算所述掩蔽阈值的步骤以及将感知重要性确定为该掩蔽阈值的函数的步骤。 
因此,该编码根据信号是声调还是不是声调而适配于该信号,并且允许比特的最佳分配。 
在本发明的特别适合的应用中,所述增强编码是扩展编码器中的、TDAC类型的增强编码,该扩展编码器的核心编码是G.729.1标准编码器类型。 
因此,加宽波段(50-7000Hz)中的G.729.1编解码器的质量被提高。这样的提高对于将G.729.1编码器的波段从加宽波段(50-7000Hz)扩展到超加宽波段(50-14000Hz)很重要。 
本发明还涉及一种用于将数字音频输入信号层级地解码为若干频率子波段的方法,所述解码包括根据第一比特率接收的核心解码以及残留信号的更高比特率的至少一个增强解码,所述核心解码使用根据能量标准的二进制分配。所述方法包括用于所述增强解码的以下步骤: 
-针对通过所述增强解码处理的频率子波段的至少一部分计算频率掩蔽阈值; 
-将每个频率子波段的感知重要性确定为所计算的掩蔽阈值的函数以及为所述核心解码所分配的比特数的函数; 
-在通过所述增强解码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的分配;以及 
-根据比特的分配解码所述残留信号。 
以与编码相同的方式并具有相同的优点,确定感知重要性的步骤包括: 
-第一步骤,针对所述增强解码的至少一个频率子波段定义第一感知重要性,作为所述子波段中的频率掩蔽阈值、所述频率子波段的频谱包络的解码的量化值、以及所确定的归一化因子的函数, 
-第二步骤,从所述第一感知重要性中减去为所述核心解码所分配的比特数与所述子波段中的系数的数目的比。 
本发明涉及一种将数字音频输入信号编码为若干频率子波段的层级编码器,包括所述输入信号的根据第一比特率的核心编码器以及残留信号的更高比特率的至少一个增强编码器,所述核心编码器使用根据能量标准的二进制分配。所述增强编码器包括: 
-用于针对通过所述增强编码器处理的频段的至少一部分计算频率掩蔽阈值的模块;
-用于将每个频率子波段的感知重要性确定为所计算的掩蔽阈值的函数以及为所述核心编码器所分配的比特数的函数的模块; 
-用于在通过所述增强编码器处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的二进制分配的模块;以及 
-用于根据比特的分配编码所述残留信号的模块。 
本发明还涉及一种将数字音频信号编码为若干频率子波段的层级解码器,包括根据第一比特率接收的信号的核心解码器以及残留信号的更高比特率的至少一个增强解码器,所述核心解码器使用根据能量标准的二进制分配。所述增强解码器包括: 
-用于针对通过所述增强解码器处理的频率子波段的至少一部分计算频率掩蔽阈值的模块; 
-用于将每个频率子波段的感知重要性确定为所计算的掩蔽阈值的函数以及为所述核心解码器所分配的比特数的函数的模块; 
-用于在通过所述增强解码器处理的频率子波段中对比特进行作为所确定的感知重要性的函数的分配的模块;以及 
-用于根据比特的分配解码所述残留信号的模块。 
最后,本发明涉及一种包括代码指令的计算机程序,当所述代码指令被处理器执行时,实现根据本发明的编码方法的步骤;并涉及一种包括代码指令的计算机程序,当所述代码指令被处理器执行时,实现根据本发明的解码方法的步骤。 
附图说明
在阅读以下说明时,本发明的其他特性和优点将更清楚,以下说明仅通过非限制性的示例并参照附图给出,其中: 
图1示出G.729.1型的前述编码器的结构; 
图2示出G.729.1型的前述解码器的结构; 
图3示出包括在G.729.1型的编码器中的前述TDAC编码器的结构; 
图4示出包括在G.729.1型的解码器中的诸如前述的TDAC解码器的结构; 
图5示出根据本发明的一个实施例的包括增强编码的TDAC编码器的结构; 
图6示出根据本发明的一个实施例的包括增强解码的TDAC解码器的结构; 
图7示出在本发明的意义中的用于掩蔽的有利扩展(spreading)函数; 
图8示出本发明的一个实施例中的掩蔽曲线的归一化; 
图9示出包括根据本发明的一个实施例的TDAC编码器的频率波段扩展的G.729.1编码器的结构; 
图10示出包括本发明的一个实施例的TDAC解码器的频率波段扩展的G.729.1解码器的结构; 
图11a示出包括根据本发明的一个实施例的编码器的终端的示例硬件实施例;以及 
图11b示出包括根据本发明的一个实施例的解码器的终端的示例硬件实施例。 
具体实施方式
本发明的一个目的是提高G.729.1在加宽波段(50-7000Hz)中的质量,特别是对于音乐信号。这里回顾:G.729.1编码具有50-7000Hz的有用波段。此外,G.729.1对于某些信号(诸如音乐信号)的质量在其最高比特率(32kbit/s)处是不透明的-该限制是由于CELP+TDBWE+TDAC层级结构以及比特率限制为32kbit/s。 
本发明受UIT-T正在进行的对G.729.1的可缩放扩展的标准化激励,尤其是针对将由G.729.1编码的波段扩展为超加宽波段(50-14000Hz)的可缩放扩展。经验表明具有有限波段(例如50-7000Hz)的信号的波段扩展(例如,7000-14000Hz)需要已经具有良好质量的有限波段信号;确实,波段扩展强化了在该信号中的已有缺陷。因此,存在提高G.729.1在加宽波段(50-7000Hz)中的质量的需求。 
可以利用一个或多个附加比特率增强层(在32kbit/s之外)实现G.729.1的质量的增强。实践中,这些附加比特率增强层可以用于波段扩展(7000-14000Hz)以及用于提高加宽波段(50-7000Hz)中的质量两者。因此,增强层的附加比特率的部分可以致力于提高G.729.1解码器解码的加宽波段信号。 
注意,可以在当前文件中考虑的层级编码中区分两个核心:G.729.1具有窄波段CELP核心编码器,同时G.729.1的用于超加宽波段(50-14000Hz)的扩展具有G.729.1作为核心。 
下文中,术语核心编码以及核心比特率被理解为意思是G.729.1型的编码以及所关联的32kbit/s的比特率。 
在本发明的一个实施例中,我们更具体地关心诸如前述的、在其中集成了增强层的TDAC编码器和解码器。 
图5示出了如此增强的TDAC编码器。 
考虑G.729.1的可缩放扩展作为若干增强层。这里,核心编码是G.729.1编码,其基于14kbit/s直到32kbit/s的比特率在[50-7000Hz]波段中使用TDAC编码。假设在32与48kbit/s之间产生两个8kibt/s的增强层,以便将波段从7000扩展到14000Hz,并取代G.729.1的TDAC的未传输的子波段。这里不描述使得可以从30kbit/s到达48kbit/s的那些8kbit/s增强层。 
本发明涉及TDAC编码在50至7000Hz波段中并且将比特率从48kbit/s切换到56和64kbit/s的两个附加8kbit/s增强层。 
应用本发明的编码器包括将额外比特率添加到G.729.1核心比特率(32kbit/s)的增强层。这些增强层用于提高加宽波段(50-7000Hz)中的质量,并用于扩展从7000至14000Hz的更高波段。下文中忽略从7000至14000Hz的扩展,因为该功能不影响本发明的实施。为了简化的原因,对应于从7000至14000Hz的波段扩展的模块不在图5和图6中示出。 
这里将相同的块(块500至507)描述为在G.729.1的基本层中使用的块(块300至307),诸如参照图3所描述的。 
这里,根据本发明的一个实施例的TDAC编码器包括增强核心层(块504至507)的增强层(块509至513)。 
注意,这里块507对应于G.729.1的球矢量量化(SVQ),其可以包括诸如前述的修改。因此,在此块507中,调用用于G.729.1核心编码的第一增强 编码,以便补偿用于未传输的子波段(其中nbit(j)=0)的比特率的缺少。此修改使用原始信号Y(k)并根据用于比特分配的能量标准操作。接着修改分配给所述子波段和经解码的子波段Yq(k)的比特数nbit(j)。 
块506基于诸如参照图3中所述的能量标准执行二进制分配。 
因此,将核心层编码并派送到复用模块508。 
核心信号也在编码器中由执行球并缩放的去量化(dequantization)的块510局部解码;在509中,在变换的域中,将该核心信号从原始信号中减去,以获得残留信号err(k)。然后,在块513中,基于48kbit/s的比特率编码该残留信号。 
块511基于由块505获得的经编码的频谱包络rms_q(jj)计算掩蔽曲线,其中j=0,...,17是子波段数。 
通过能量包络 
Figure BDA0000141191210000141
与扩展函数B(v)的卷积定义子波段j的掩蔽阈值M(j)。 
在第一实施例中,仅对信号的高波段执行此掩蔽,其中: 
M ( j ) = Σ k = 10 17 σ ^ 2 ( k ) × B ( ν j - ν k )
其中vk是Bark中的子波段k的中心频率, 
符号“×”表示“乘以”下文描述的扩展函数。 
在更一般的情况下,因此由下面两者间的卷积定义用于子波段j的掩蔽阈值M(j): 
-用于频率包络的表达式,以及 
-涉及子波段j的中心频率的扩展函数。 
有利的扩展函数是图7中显现的那个。其需要第一斜率是+27dB/Bark并且第二斜率是-10dB/Bark的三角函数。扩展函数的该表达允许掩蔽曲线的以下迭代计算: 
M ( j ) = M - ( 10 ) j = 10 M + ( j ) + M - ( j ) + σ ^ 2 ( j ) j = 1 , . . , 16 M + ( 17 ) j = 17 ,
其中 
M + ( j ) = σ ^ 2 ( j - 1 ) · Δ 2 ( j ) + M + ( j - 1 ) · Δ 2 ( j ) , j = 11 , . . , 17
M - ( j ) = σ ^ 2 ( j + 1 ) · Δ 1 ( j ) + M - ( j + 1 ) · Δ 1 ( j ) , j = 10 , . . , 16
以及 
Δ 2 ( j ) = 10 - 10 10 ( υ j - υ j - 1 )
Δ 1 ( j ) = 10 27 10 ( υ j - υ j + 1 )
Δ1(j)和Δ2(j)的值可以被预先计算和存储。 
低波段已经由模块500感知滤波,在此实施例中,掩蔽阈值的应用限于高波段。为了确保低波段频谱与被掩蔽阈值加权的高波段频谱之间的频谱连续性,以及为了避免混淆二进制分配,例如,掩蔽阈值通过其在低波段的最后一个子波段上的值被归一化。 
接着通过考虑由下式给出的信号掩蔽比来执行感知重要性计算的第一步骤: 
1 2 log 2 ( σ ^ 2 ( j ) M ( j ) )
因此,在块511中如下定义感知重要性: 
ip ( j ) = 1 2 log 2 ( σ ^ 2 ( j ) ) + offset j = 0 . . 9 1 2 [ log 2 ( σ ^ 2 ( j ) M ( j ) ) + normfac ] + offset j = 10 . . 17
其中,offset(偏置)=-2,normfac是依据如下关系计算的归一化因子: 
normfac = log 2 [ Σ j = 9 17 σ ^ 2 ( j ) × B ( ν 9 - ν j ) ]
注意,感知重要性jp(j)与G.729.1标准中定义的完全相同,j=0,...,9。另一方面,改变了项jp(j)的定义,j=10,...,17。 
上面定义的感知重要性现在可以被表述为: 
ip ( j ) = 1 2 rms _ index ( j ) j = 0 , . . . , 9 1 2 [ rms _ index ( j ) - log _ mask ( j ) ] j = 10 , . . . , 17
其中,log_mask(j)=log2(M(j))-normfac 
图8中给出了掩蔽阈值的归一化的图示,其示出了其上应用掩蔽的高波段(4-7kHz)与低波段(0-4kHz)的连接。 
在对掩蔽阈值关于其在低波段的最后一个子波段上的值进行归一化的此实施例的变型中,可以基于高波段的第一个子波段中的掩蔽阈值的值执行掩 蔽阈值的归一化,如下: 
normfac = log 2 [ Σ j = 10 17 σ ^ 2 ( j ) × B ( ν 10 - ν j ) ]
在再一变型中,可以利用下式对整个频段计算掩蔽阈值: 
M ( j ) = Σ k = 0 17 σ ^ 2 ( k ) × B ( ν j - ν k )
接着在通过掩蔽阈值在低波段的最后一个子波段上的值: 
normfac = log 2 [ Σ j = 0 17 σ ^ 2 ( j ) × B ( ν 9 - ν j ) ]
或者通过其在高波段的第一个子波段上的值: 
normfac = log 2 [ Σ j = 0 17 σ ^ 2 ( j ) × B ( ν 10 - ν j ) ]
归一化该掩蔽阈值之后,将该掩蔽阈值仅应用到高波段。 
当然,给出归一化因子normfac或掩蔽阈值M(j)的这些关系可以被推广到高波段(具有不同于8的数目)中的任何数目(总数不等于18)的子波段,如在低波段(具有不同于10的数目)中一样。 
基于该频率掩蔽计算,第一感知重要性ip(j)被派送到二进制分配块512用于重要性编码。 
该块512还接收比特分配信息nbit(j)用于G.729.1的核心层的TDAC编码。 
因此,块512定义同时考虑这些信息项的新感知重要性。 
因此,如下定义第二感知重要性: 
ip ′ ( j ) = ip ( j ) - nbit ( j ) nb _ coeff ( j ) , j = 1 , . . . , 18
其中,nbit(j)表示由基本层分配到频段j的比特数,nb_coeff(j)表示根据前述表1的波段j的系数的数目。 
换言之,通过从第一感知重要性中减去为核心编码而分配的比特数与子波段中的可能的系数的数目的比例而计算该新感知重要性。 
利用该新感知重要性,块512执行残留信号上的比特的分配,以便编码增强层。 
如下计算该比特分配: 
nbit _ err ( j ) = arg r ∈ R nb _ coef ( j ) min | nb _ coef ( j ) × ( ip ′ ( j ) - λ opt ) - r |
其中,该优化必须满足如下限制: 
Σ j = 0 17 nbit _ err ( j ) ≤ nbits _ VQ _ err
Nbit_VQ_err对应于增强层中的附加比特数(对于两个8kbit/s层是320个比特)。 
因此,其考虑该新计算的感知重要性。 
接着由模块513通过球矢量量化使用(诸如前面所计算的)所分配的比特数nbit_err(j)编码残留信号err(k)。 
接着由复用模块508将该经编码的残留信号与来自核心编码和经编码的包络的信号复用。该增强编码不仅扩展所分配的比特率,而且从感知的角度增强了信号的编码。 
回顾:在已经修改了G.729.1的TDAC编码之后可以应用诸如上述的TDAC编码的增强层。在32kbit/s至48kbit/s的增强层中,执行G.729.1的TDAC编码的第一增强(这里未描述)。该增强甚至以其最高比特率32kbit/s也将比特分配到位于4至7kHz之间的子波段中,通过G.729.1的TDAC核心编码未对这些子波段分配比特率。G.729.1的TDAC编码的该第一增强因此使用4至7kHz之间的原始信号,并且不执行本发明的编码方法的计算掩蔽阈值或确定感知重要性的步骤。考虑了块507对应于集成了此增强的该修改的TDAC编码。 
因此,在本发明的编码方法的增强中,在从48kbit/s至64kbit/s的比特率处,感知重要性的确定(块511、512)不仅考虑为核心编码或基本编码而分配的比特,而且考虑为之前的增强编码而分配的比特,在此实例中,为40kbit/s比特率的增强编码。 
图5不仅示出了具有增强编码级的TDAC编码器,而且示出了根据本发明的诸如前述的一个实施例的编码方法的步骤,具体的步骤为: 
-为通过增强编码处理的频段的至少一部分计算频率掩蔽阈值; 
-将每个频率子波段的感知重要性确定作所计算的掩蔽阈值的函数以及为核心编码所分配的比特数的函数; 
-在通过增强编码处理的频率子波段中对比特进行作为所确定的感知重要性的函数的二进制分配,;以及 
-根据比特分配编码残留信号。 
图6示出了具有增强解码级的TDAC解码器、以及根据本发明的一个实施例的解码方法的步骤。 
该解码器包括与参照图4而为G.729.1编码器的TDAC解码所描述的模块(401、402、403、406、407、408、409和410)相同的模块(601、602、603、606、607、608、609和610)。注意,用于MDCT域中的后处理的块606(目的在于塑形编码噪声)此处是可选的,因为本发明提高了来自于块603的经解码的MDCT频谱的质量。 
解码器的模块605对应于编码器的模块511,并基于频谱包络的量化值以相同的方式操作。 
基于由此模块605所计算的第一感知重要性ip(j),分配模块604以与编码的模块512中相同的方式,通过考虑从核心编码接收的比特的分配而确定第二感知重要性。 
用于增强编码的比特的该分配允许模块611通过球矢量去量化解码从解复用模块600接收的信号。 
来自模块611的经解码的信号是误差信号err(k),其然后在612中与在603中解码的核心信号组合。 
然后,如针对参考图4所描述的G.729.1编码一样处理此信号,以给出低波段差信号dLB和高波段信号SHB。 
还指出,可以或者可以不根据要被编码的信号(尤其根据其是否是声调(tonal))执行由模块511或605进行的诸如前述的频率掩蔽的计算。 
确实,已经可以观察到:当要被编码的信号不是声调时掩蔽阈值的计算特别有利。
如果信号是声调,则扩展函数B(v)的应用产生非常接近于在频率上略有加宽的声调(tone)的掩蔽阈值。针对掩蔽的最小化编码噪声比率的标准接着给出不一定是最优的比特分配。 
为了改进该分配,因此可以使用根据用于声调信号的能量标准的比特分配。 
因此,在变型的实施例中,仅在要编码的信号不是声调时,应用根据本发明的掩蔽阈值的计算以及将感知重要性确定为此掩蔽阈值的函数。 
在一般的意义上,因此(从块505)获得信息项,根据该信息项要被编码的信号是声调或非声调,并且仅在该信号是非声调时进行高波段的感知加 权,其中确定掩蔽阈值并进行归一化。 
利用G.729.1类型的核心编码,有关频谱包络的编码(块505或601)的模式的比特指示“差分霍夫曼”模式或“直接自然二进制”模式。该模式比特可以被解析为声调性的检查,这是因为,一般地,声调信号导致“直接自然二进制”模式的包络编码,而大多数非声调信号(其具有更大限制的频谱动态范围)导致“差分霍夫曼”模式的包络编码。 
因此,可以从实施频率掩蔽还是其它的“信号的声调性检测”中得到优点。更具体地,在已经以“差分霍夫曼”模式编码了频谱包络的情况中应用该掩蔽阈值计算,并且接着在本发明的意义中定义第一感知重要性,如下: 
ip ( j ) = 1 2 rms _ index ( j ) j = 0 . . 9 1 2 [ rms _ index ( j ) - log _ mask ( j ) ] j = 10 . . 17
另一方面,如果已经以“直接自然二进制”模式编码了包络,则第一感知重要性保持如G.729.1标准所定义的: 
ip ( j ) = 1 2 rms _ index ( j ) j = 0 , . . . , 16 1 2 ( rms _ index ( j ) - 1 ) j = 17
现在说明本发明对G.729.1编码器的扩展(尤其是扩展到超加宽波段)的可能应用。 
参照图9说明这样的编码器。诸如所述将G.729.1编码器扩展到超加宽波段包括由模块915编码的频率的扩展、所使用的频段从[50Hz-7kHz]切换到[50Hz-14kHz]、以及由TDAC编码模块(块910)进行的对G.729.1的基本层的增强(诸如参照图5所说明的)。 
因此,诸如图9中所表示的编码器包括与图1中所表示的G.729.1核心编码相同的模块以及用于波段扩展的附加模块915,其向复用模块912提供扩展信号。 
对全波段原始信号SSWB计算该频段扩展,而通过抽取(块913)和低通滤波器(块914)获取用于核心编码器的输入信号。在这些块的输出处获得加宽波段输入信号SSW。 
TDAC编码模块910与图1中所示的模块不同。此模块例如是参照图5所述的模块,并向复用模块提供经编码的核心信号和根据本发明编码的增强 信号。 
以相同的方式,参照图10描述扩展到超加宽波段的G.729.1解码器。其包括与参照图2所述的G.729.1解码器相同的模块。 
然而,其包括用于波段扩展1014的附加模块,该附加模块从解复用模块1000接收波段扩展信号。 
其还包括合成滤波器群(块1015、1016),使得可以获得超加宽波段的输出信号 
Figure BDA0000141191210000201
TDAC解码模块1003也与参照图2所述的TDAC解码模块不同。此模块例如是参照图6所描述和说明的模块。因此,其从解复用模块接收核心信号和增强信号两者。 
在前述的优选实施例中,本发明被用于提高G.729.1编解码器中的TDAC编码的质量。自然地,本发明适用于其他类型的利用二进制分配的变换编码,并适用于除G.729.1之外的核心编解码器的可缩放扩展。 
现在参照图11a和11b说明诸如参照图5和图6所述的编码器和解码器的示例硬件实施例。 
因此,图11a示出了诸如图5中所示的编码器或包括这种编码器的终端。其包括与包括存储器和/或工作存储器MEM的存储器块BM一起工作的处理器PROC。 
此终端包括能够接收低波段信号dLB和高波段信号SHB或要被编码的任何类型数字信号的输入模块。这些信号可以来自于另一编码级,来自于通信网络,或者来自于数字内容存储器。 
存储块BM可以有利地包括计算机程序,该计算机程序包括代码指令,当这些指令被处理器PROC执行时执行本发明意义中的编码方法的步骤,具体地,所述步骤为: 
-针对通过增强编码处理的频率子波段的至少一部分计算频率掩蔽阈值; 
-将每个频率子波段的感知重要性确定为所计算的掩蔽阈值的函数以及为核心编码所分配的比特数的函数; 
-在通过增强编码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的分配;以及 
-根据比特的分配编码残留信号。 
典型地,图5的说明采用这样的计算机程序的算法的步骤。计算机程序 还可以存储在可以由终端或编码器的读取器读取的存储介质中,或者可以被下载到编码器的存储空间中。 
终端包括能够发送来自于输入信号的编码的复用流的输出模块。 
以相同的方式,图11b示出了诸如参照图6所述的示例解码器或者包括这种解码器的终端。 
此终端包括与包括存储器和/或工作存储器MEM的存储块BM一起工作的处理器PROC。 
该终端包括能够从存储模块接收例如源自通信网络的复用流的输入模块。 
该存储块可以有利地包括计算机程序,该计算机程序包括代码指令,当这些指令被处理器PROC执行时执行本发明意义中的解码方法的步骤,具体地,所述步骤为: 
-针对通过增强解码处理的频率子波段的至少一部分计算频率掩蔽阈值; 
-将每个频率子波段的感知重要性确定为所计算的掩蔽阈值的函数以及为核心解码所分配的比特数的函数,; 
-在通过增强解码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的分配;以及 
-根据比特的分配解码残留信号。 
典型地,图6的说明采用这样的计算机程序的算法的步骤。计算机程序还可以存储在可以由终端的读取器读取的存储介质中,或者可以被下载到终端的存储空间中。 
终端包括能够发送用于另一编码级或用于内容重建的经编码的信号(dLB、SHB)的输出模块。 
相当明显,这样的终端可以包括根据本发明的编码器和解码器两者。 

Claims (10)

1.一种用于将数字音频输入信号层级地编码为若干频率子波段的方法,所述编码包括所述输入信号的根据第一比特率的核心编码以及残留信号的更高比特率的至少一个增强编码,所述核心编码使用根据能量标准的二进制分配(506),其特征在于,所述方法包括用于所述增强编码的以下步骤:
-针对通过所述增强编码处理的频段的至少一部分计算频率掩蔽阈值(511);
-将每个频率子波段的感知重要性确定(511、512)为所计算的掩蔽阈值的函数以及为所述核心编码所分配的比特数的函数;
-在通过所述增强编码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的二进制分配(512);以及
-根据比特的分配编码所述残留信号(513)。
2.如权利要求1所述的方法,其特征在于,确定感知重要性的步骤包括:
-第一步骤(511),针对所述增强编码的至少一个频率子波段将第一感知重要性定义为所述子波段的频率掩蔽阈值、所述频率子波段的频谱包络的编码的量化值、以及所确定的归一化因子的函数;
-第二步骤(512),从所述第一感知重要性中减去为所述核心编码所分配的比特数与所述子波段中的系数的数目的比。
3.如权利要求1所述的方法,其特征在于,将所述感知重要性进一步确定为对先前的核心编码的增强编码所分配的比特的函数,所述增强编码具有根据能量标准的二进制分配。
4.如权利要求1所述的方法,其特征在于,通过用于所计算的频谱包络的表达与涉及子波段的中心频率的扩展函数之间的卷积,为所述子波段确定所述掩蔽阈值。
5.如权利要求1所述的方法,其特征在于,其还包括获得关于要被编码的信号是声调还是非声调的信息项的步骤,并且仅在所述信号是非声调的情况下执行计算所述掩蔽阈值的步骤以及将感知重要性确定为该掩蔽阈值的函数的步骤。
6.如权利要求1所述的方法,其特征在于,所述增强编码是扩展编码器中的、TDAC类型的增强编码,所述扩展编码器的核心编码是G.729.1标准化编码器类型。
7.一种用于将数字音频输入信号层级地解码为若干频率子波段的方法,所述解码包括根据第一比特率接收的核心解码以及残留信号的更高比特率的至少一个增强解码,所述核心解码使用根据能量标准的二进制分配,其特征在于所述方法包括用于所述增强解码的以下步骤:
-针对通过所述增强解码处理的频率子波段的至少一部分计算频率掩蔽阈值(605);
-将每个频率子波段的感知重要性确定(604)为所计算的掩蔽阈值的函数以及为所述核心解码所分配的比特数的函数;
-在通过所述增强解码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的分配(604、605);以及
-根据比特的分配解码(611)所述残留信号。
8.如权利要求7所述的方法,其特征在于,确定感知重要性的步骤包括:
-第一步骤(605),针对所述增强解码的至少一个频率子波段将第一感知重要性定义为所述子波段中的频率掩蔽阈值、所述频率子波段的频谱包络的解码的量化值、以及所确定的归一化因子的函数,
-第二步骤(604),从所述第一感知重要性中减去为所述核心解码所分配的比特数与所述子波段中可能系数的数目的比。
9.一种将数字音频输入信号编码为若干频率子波段的层级编码器,包括所述输入信号的根据第一比特率的核心编码器以及残留信号的更高比特率的至少一个增强编码器,所述核心编码器使用根据能量标准的二进制分配(506),其特征在于所述增强编码器包括:
-用于针对通过所述增强编码器处理的频段的至少一部分计算频率掩蔽阈值的模块(511);
-用于将每个频率子波段的感知重要性确定(512)为所计算的掩蔽阈值的函数以及为所述核心编码器所分配的比特数的函数的模块;
-用于在通过所述增强编码器处理的频率子波段中对比特进行作为所确定的感知重要性的函数的二进制分配(512)的模块;以及
-用于根据比特的分配编码所述残留信号(513)的模块。
10.一种将数字音频信号解码为若干频率子波段的层级解码器,包括根据第一比特率接收的信号的核心解码器以及残留信号的更高比特率的至少一个增强解码器,所述核心解码器使用根据能量标准的二进制分配,其特征在于所述增强解码器包括:
-用于针对通过所述增强解码器处理的频率子波段的至少一部分计算频率掩蔽阈值(605)的模块;
-用于将每个频率子波段的感知重要性确定(604)为所计算的掩蔽阈值的函数以及为所述核心解码器所分配的比特数的函数的模块;
-用于在通过所述增强解码器处理的频率子波段中对比特进行作为所确定的感知重要性的函数的分配(604)的模块;以及
-用于根据比特的分配解码(611)所述残留信号的模块。
CN2010800396757A 2009-07-07 2010-06-25 数字音频信号的增强的编码/解码方法和装置 Active CN102576536B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0954682A FR2947944A1 (fr) 2009-07-07 2009-07-07 Codage/decodage perfectionne de signaux audionumeriques
FR0954682 2009-07-07
PCT/FR2010/051307 WO2011004097A1 (fr) 2009-07-07 2010-06-25 Codage/décodage perfectionne de signaux audionumériques

Publications (2)

Publication Number Publication Date
CN102576536A CN102576536A (zh) 2012-07-11
CN102576536B true CN102576536B (zh) 2013-09-04

Family

ID=41531514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800396757A Active CN102576536B (zh) 2009-07-07 2010-06-25 数字音频信号的增强的编码/解码方法和装置

Country Status (7)

Country Link
US (1) US8812327B2 (zh)
EP (1) EP2452336B1 (zh)
KR (1) KR101698371B1 (zh)
CN (1) CN102576536B (zh)
CA (1) CA2766864C (zh)
FR (1) FR2947944A1 (zh)
WO (1) WO2011004097A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
FR3003683A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage optimise de flux audio codes selon un codage par sous-bandes
FR3003682A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage partiel optimise de flux audio codes selon un codage par sous-bandes
CN104282312B (zh) 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
US10424305B2 (en) * 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
EP3685376A4 (en) * 2017-09-20 2021-11-10 VoiceAge Corporation METHOD AND DEVICE FOR ALLOCATING A BIT BUDGET BETWEEN SUBFRAMES IN THE CASE OF A CELP CODEC
CN110556117B (zh) 2018-05-31 2022-04-22 华为技术有限公司 立体声信号的编码方法和装置
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN111246469B (zh) * 2020-03-05 2020-10-16 北京花兰德科技咨询服务有限公司 人工智能保密通信系统及通信方法
CN111294367B (zh) 2020-05-14 2020-09-01 腾讯科技(深圳)有限公司 音频信号后处理方法和装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675683A (zh) * 2002-08-09 2005-09-28 弗兰霍菲尔运输应用研究公司 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
CN1681213A (zh) * 2004-03-10 2005-10-12 三星电子株式会社 无损音频编码/解码方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
DE19743662A1 (de) * 1997-10-02 1999-04-08 Bosch Gmbh Robert Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
AU2002246280A1 (en) * 2002-03-12 2003-09-22 Nokia Corporation Efficient improvements in scalable audio coding
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
EP1907812B1 (fr) * 2005-07-22 2010-12-01 France Telecom Procede de commutation de debit en decodage audio scalable en debit et largeur de bande
KR100827458B1 (ko) * 2006-07-21 2008-05-06 엘지전자 주식회사 오디오 부호화 방법
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US20100292986A1 (en) * 2007-03-16 2010-11-18 Nokia Corporation encoder
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2009144953A1 (ja) * 2008-05-30 2009-12-03 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675683A (zh) * 2002-08-09 2005-09-28 弗兰霍菲尔运输应用研究公司 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
CN1681213A (zh) * 2004-03-10 2005-10-12 三星电子株式会社 无损音频编码/解码方法和装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Akio Jin,et al..SCALABLE AUDIO CODER BASED ON QUANTIZER UNITS OF MDCT COEFFICIENTS.《IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999》.1999,第2卷897 - 900.
Akio Jin,et al..SCALABLE AUDIO CODER BASED ON QUANTIZER UNITS OF MDCT COEFFICIENTS.《IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999》.1999,第2卷897- 900. *
AN EMBEDDED VARIABLE BIT-RATE CODER BASED ON GSM EFR: EFR-EV;Sung-Kyo Jung,et al.;《IEEE International Conference on Acoustics, Speech and Signal Processing, 2008. ICASSP 2008.》;20080404;4765 - 4768 *
Balázs K&amp *
Balázs K&ouml
ouml *
Sung-Kyo Jung,et al..AN EMBEDDED VARIABLE BIT-RATE CODER BASED ON GSM EFR: EFR-EV.《IEEE International Conference on Acoustics, Speech and Signal Processing, 2008. ICASSP 2008.》.2008,4765 - 4768.
vesi,et al..A SCALABLE SPEECH AND AUDIO CODING SCHEME WITH CONTINUOUS BITRATE FLEXIBILITY.《IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings.(ICASSP"04)》.2004,第1卷I-273-I-276. *

Also Published As

Publication number Publication date
US8812327B2 (en) 2014-08-19
US20120185255A1 (en) 2012-07-19
EP2452336A1 (fr) 2012-05-16
KR101698371B1 (ko) 2017-01-26
CA2766864A1 (fr) 2011-01-13
CA2766864C (fr) 2015-10-27
CN102576536A (zh) 2012-07-11
KR20120032025A (ko) 2012-04-04
FR2947944A1 (fr) 2011-01-14
WO2011004097A1 (fr) 2011-01-13
EP2452336B1 (fr) 2013-11-27

Similar Documents

Publication Publication Date Title
CN102576536B (zh) 数字音频信号的增强的编码/解码方法和装置
CN102511062B (zh) 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配
CN101622661B (zh) 一种数字语音信号的改进编解码方法
RU2459282C2 (ru) Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра
JP4950210B2 (ja) オーディオ圧縮
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
CN101622662B (zh) 编码装置和编码方法
KR101161866B1 (ko) 오디오 코딩 장치 및 그 방법
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US20070016404A1 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
CN103380455B (zh) 对音频信号的高效编码/解码
US20080140393A1 (en) Speech coding apparatus and method
CA2840732A1 (en) Apparatus and method for generating bandwidth extension signal
CN101371296A (zh) 用于编码和解码信号的设备和方法
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
KR20100113065A (ko) 정수 변환에 기초한 부호화 및 복호화에 대한 반올림 노이즈 셰이핑
US20100280830A1 (en) Decoder
US7848923B2 (en) Method for reducing decoder complexity in waveform interpolation speech decoding by converting dimension of vector
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
KR100765747B1 (ko) 트리 구조 벡터 양자화를 이용한 스케일러블 음성 부호화장치
De Meuleneire et al. Algebraic quantization of transform coefficients for embedded audio coding
Moreau et al. Codeur Audio (20Hz-15kHz) Hiérarchique (64-32 kbit/s) et À Faible Retard (< 25 ms)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant