CN103155035A

CN103155035A - 基于celp的语音编码器中的音频信号带宽扩展

Info

Publication number: CN103155035A
Application number: CN201180049837XA
Authority: CN
Inventors: 乔纳森·A·吉布斯; 詹姆斯·P·阿什利; 乌达·米塔尔
Original assignee: Motorola Mobility LLC
Current assignee: Google Technology Holdings LLC
Priority date: 2010-10-15
Filing date: 2011-10-05
Publication date: 2013-06-12
Anticipated expiration: 2031-10-05
Also published as: KR20130090413A; US20120095757A1; EP2628155B1; WO2012051012A1; US8868432B2; EP2628155A1; CN103155035B; KR101452666B1

Abstract

一种在包括基于CELP的解码器元件的音频解码器中对具有扩展超出CELP激励信号的带宽的带宽的音频信号进行解码的方法。该方法包括：获得第二激励信号，第二激励信号具有扩展超出CELP激励信号的音频带宽的音频带宽；通过使用带通滤波器集合对第二激励信号进行滤波获得信号集合；使用基于能量的参数集合缩放信号集合；以及通过将缩放的信号集合与以基于CELP的解码器元件解码的音频信号为基础的信号进行组合获得组合输出信号。

Description

基于CELP的语音编码器中的音频信号带宽扩展

相关申请的交叉引用

本申请与共同待决且共同受让的2011年9月28日提交的美国申请No.13/247140(摩托罗拉，代理人签号No.CS37811AUD)相关，通过引用将其全部内容合并于此。

技术领域

本公开总的来说涉及音频信号处理，更具体地，涉及基于码激励线性预测(CELP)的语音编码器中的音频信号带宽扩展及对应方法。

背景技术

一些嵌入式语音编码器，诸如ITU-T G.718和G.729.1兼容语音编码器，具有核心码激励线性预测(CELP)语音编解码器，以低于输入和输出语音带宽的带宽进行操作。例如，G.718兼容编码器使用基于以12.8kHz采样率操作的自适应多速率宽带(AMR-WB)架构的核心CELP。这样带来6.4kHz的标称CELP编码带宽。因此，必须分别解决对于宽带信号的从6.4kHz到7kHz的带宽以及对于超宽带信号的从6.4kHz到14kHz的带宽的编码。

一种解决超过CELP核心截止频率的带的编码的方法是计算原始信号的谱与CELP核心的谱之间的差，并且在谱域对该差分信号进行编码，通常采用改进离散余弦变换(MDCT)。此方法具有这样的缺点：必须在编码器对CELP编码的信号进行解码，然后加窗并分析，以得出差分信号，如在ITU-T推荐G.729.1，修改6(ITU-T RecommendationG.729.1,Amendment6)以及ITU-T推荐G.718主体和修改2(ITU-TRecommendation G.718Main Body and Amendment2)中更加全面描述的。然而，这通常导致长的算法延迟，原因是CELP编码延迟，随后是MDCT分析延迟。在上述示例中，算法延迟是对于CELP部分大约26-30ms加上对于谱MDCT部分的大约10-20ms。图1A示出现有技术的编码器，并且图1B示出现有技术的解码器，这两个都具有与MDCT核心和CELP核心相关联的对应延迟。因此，通常需要对扩展超出核心CELP编解码器的带宽的音频信号带进行编码的替换方法，以减小算法延迟。

受让给摩托罗拉公司的美国专利No.5,127,054描述了通过非线性处理已知的语音带然后对处理的信号进行带通滤波来重新产生子带编码语音信号的缺失的带，以得到期望的信号。摩托罗拉专利处理语音信号，因此需要连续的滤波和处理。摩托罗拉专利还对所有子带采用共同的编码方法。

通常已知通过在谱域中从编码区转置和转移分量来对缺失带的精细结构进行编码和再现，且有时被称为谱带复制(SBR)。为了在语音编解码器在除了输入和输出音频带宽之外的带宽操作的情况下采用SBR处理，按照ITU-T推荐G.729.1，修改6(ITU-T Recommendation G.729.1,Amendment6)以及ITU-T推荐G.718主体和修改2(ITU-TRecommendation G.718Main Body and Amendment2)，需要分析解码的语音，这样导致相对长的算法延迟。

仔细考虑下面的详细描述以及附图之后，本发明的各个方面、特征和优点对于本领域的普通技术人员将变得更加明显。为了简明和清楚，没有必要按照比例绘制附图。

附图说明

图1A是现有技术宽带音频信号编码器的示意性框图。

图1B是现有技术宽带音频信号解码器的示意性框图。

图2是对音频信号进行解码的处理示图。

图3是音频信号解码器的示意性框图。

图4是解码器中带通滤波器组的示意性框图。

图5是编码器中带通滤波器组的示意性框图。

图6是互补滤波器组的示意性框图。

图7是替换的互补滤波器组的示意性框图。

图8A是第一谱成形处理的示意图。

图8B是与图8A中的处理等同的第二谱成形处理的示意图。

具体实施方式

根据本公开的一个方面，在包括基于码激励线性预测(CELP)的解码器元件的音频解码器中对音频信号进行解码，该音频信号的带宽扩展超出CELP激励信号的音频带宽。这种解码器可以用于其中存在窄带或宽带语音信号的宽带或超宽带带宽扩展的应用。更一般地，这种解码器可以用于其中待处理的信号的带宽大于基本解码器元件的带宽的任何应用。

在图2的示图200中总体地示出此处理。在210，获得或产生第二激励信号，第二激励信号的音频带宽扩展超出CELP激励信号的音频带宽。在此，认为CELP激励信号是第一激励信号，其中，“第一”和“第二”修饰语是将不同激励信号进行区分的标记。

在更加具体的实施中，如下所述，从上采样CELP激励信号获得第二激励信号，其中上采样CELP激励信号基于CELP激励信号，即，第一激励信号。在图3的示意性框图300中，通过利用上采样实体304将来自固定码本302的固定码本分量，例如，固定码本向量，上采样到更高的采样率，来获得上采样固定码本信号c’(n)。通过采样倍数或因子L表示上采样因子。上述上采样CELP激励信号与图3中的上采样固定码本信号c’(n)对应。

通常，上采样激励信号基于上采样固定码本信号和上采样基音周期值。在一个实施中，上采样基音周期值是上采样自适应码本输出的特性。根据此实施，在图3中，基于上采样固定码本信号c’(n)和来自以上采样率操作的第二自适应码本305的输出v’(n)，来获得上采样激励信号u’(n)。在图3中，“上采样自适应码本”305对应于第二自适应码本。基于构成自适应码本的存储的上采样激励信号u’(n)的先前值和上采样基音周期值T_u，来获得自适应码本输出信号v’(n)。因此，上采样基音周期值T_u和上采样激励信号u’(n)被输入到上采样自适应码本305。直接从基于CELP的解码器元件获得的两个增益参数g_c和g_p用于缩放。参数g_c缩放固定码本信号c’(n)且也被称为固定码本增益。参数g_p缩放自适应码本信号v’(n)且被成为基音增益。

在一个实施例中，如图3所示，上采样基音周期值T_u基于采样倍数L与基于CELP的解码器元件的基音周期T的乘积。基于CELP的解码器通常使用分数表示的基音周期值，典型地有1/4、1/3或1/2采样分辨率。在采样倍数L和分辨率数值上不相关的情况下，例如，1/4采样分辨率并且L=5，则用于上采样自适应码本的各个基音值在与L相乘之后将具有非整数值。为了确保基于CELP的解码器元件的自适应码本与上采样自适应码本彼此保持同步，也可以以分数采样分辨率实施上采样自适应码本。然而，与使用整数采样分辨率相比，在实施自适应码本中需要额外的复杂度。为了在上采样自适应码本中利用整数采样分辨率，当设置下一上采样基音周期值时，通过从先前上采样基音周期值累积近似误差并对其进行校正，可以最小化对准误差。

在图3中，通过将由g_c缩放的上采样固定码本信号c’(n)与由g_p缩放的上采样自适应慢信号v’(n)进行组合，获得上采样激励信号u’(n)。此上采样激励信号u’(n)也被反馈到上采样自适应码本305，以在后续子帧中使用，如上所述。

在替换实施中，上采样基音周期值是上采样长期预测器滤波器的特性。根据此替换实施，通过使上采样固定码本信号c’(n)经过上采样长期预测器滤波器，来获得上采样激励信号u’(n)。在上采样固定码本信号c’(n)被施加到上采样长期预测器滤波器之前，可以缩放上采样固定码本信号c’(n)，或者可以对上采样长期预测器滤波器的输出施加缩放。上采样长期预测器滤波器L_u(z)特征在于上采样基音周期T_u和可以与g_p不同的增益参数G，且具有与下述等式形式类似的z域变换函数。

L_{u} (z) = \frac{1}{1 - {Gz}^{- T_{u}}}

等式(1)

通常，通过将非线性操作应用于第二激励信号或者第二激励信号的前导，在基于CELP的解码器元件的音频带宽之外扩展第二激励信号的音频带宽。在图3中，通过将非线性算子306应用于上采样激励信号u’(n)，在基于CELP的解码器元件的音频带宽之外扩展上采样激励信号u’(n)的音频带宽。或者，在产生上采样激励信号u’(n)之前，通过将非线性算子306应用于上采样固定码本信号c’(n)，在基于CELP的解码器元件的音频带宽之外扩展上采样固定码本信号c’(n)的音频带宽。图3中经历非线性操作的上采样激励信号u’(n)对应于如上所述在图2中块210处获得的第二激励信号。

在特别设计用于解决清音语言的一些实施例中，在滤波之前，第二激励信号可以被缩放且与缩放的宽带高斯信号组合。使用与解码的语音信号的浊音水平V的估计相关的混合参数，以便控制混合处理。从低频区(CELP输出信号)中的信号能量与高频区中的信号能量的比率来估计值V，如基于能量的参数所描述的。高浊音信号特征在于在低频处具有高能量且在高频处具有低能量，导致V值接近单位值。而高清音信号特征在于在高频处具有高能量且在低频处具有低能量，导致V值接近0。将理解，此过程将得到听起来更平滑的清音语言信号，并且实现与受让给Ericsson Telefon AB的美国专利No.6,301,556中描述的结果类似的结果。

第二激励信号经过带通滤波处理，不管是否如上所述第二激励信号被缩放且与缩放的宽带高斯信号组合。具体地，通过使用带通滤波器集合对第二激励信号进行滤波来获得或产生信号集合。通常，在音频解码器中执行的带通滤波处理对应于在编码器应用于输入音频信号的等同滤波处理。在图3中，在310，通过利用带通滤波器集合对上采样激励信号u’(n)进行滤波来产生信号集合。在音频解码器中带通滤波器集合执行的滤波对应于编码器中应用于输入音频信号的子带的、用于得到基于能量的参数或缩放参数的集合的等同处理，如下面参照图5进一步描述的。通常预期编码器中的对应等同滤波处理包括相似的滤波器和结构。然而，尽管为了信号重建在时域执行解码器处的滤波处理，但是编码器滤波主要用于获得带能量。因此，在替换实施例中，可以使用等同频域滤波方法来获得这些能量，其中，滤波被实施为傅立叶变换域中的乘法，并且首先在频域计算带能量，然后使用例如帕斯瓦尔关系转换到时域中的能量。

图4示出对于超宽带信号在解码器执行的滤波和谱成形。核心CELP编解码器经由合理比率M/L(在此情况下5/2)的插值阶段产生低频分量，而通过利用带通滤波布置对带宽扩展的第二激励信号进行滤波来产生高频分量，该带通滤波布置具有被调谐到6.4kHz之上且15kHz之下的剩余频率的第一带通预滤波器。然后，利用带宽近似与人听力最相关的带，通常被称为“临界带”的四个带通滤波器进一步划分频率范围6.4kHz至15kHz。来自这些滤波器的每一个的能量与使用基于能量的参数的编码器中测量的能量相匹配，基于能量的参数由编码器量化并发送。

图5示出对于超宽带信号在编码器执行的滤波。32kHz的输入信号被分成两个信号路径。低频分量经由合理比率L/M(在此情况下5/2)的抽取阶段而指向核心CELP编解码器，而高频分量由被调谐到6.4kHz之上15kHz之下的剩余频率的带通预滤波器滤出。然后，利用带宽接近于人听力最相关的带的四个带通滤波器(BPF#1-#4)进一步划分频率范围6.4kHz至15kHz。测量来自这些滤波器的每一个的能量，并且将与能量相关的参数进行量化以传输到解码器。在编码器和解码器中使用相同的滤波将确保两个处理等同。然而，如果编码器和解码器滤波处理使用类似的等同带宽和带通角频率，那么也可以保持等同。在设计和特征化期间可以补偿不同滤波器结构之间的增益差异，且并入到信号缩放过程中。

在一个实施中，解码器中的带通滤波处理包括将互补全通滤波器集合的输出进行组合。互补全通滤波器的每一个在全频率范围上提供相同的固定单位增益，结合有非均匀的相位相应。对于每个全通滤波器，相位响应特征可以在于，在截止频率以下具有恒定时间延迟(线性相位)，并且在截止频率以上具有恒定时间延迟加上π相位移位。当一个全通滤波器被添加到包括恒定时间延迟(z^-d)的全通滤波器时，输出具有低通特性，其特征在于截止频率以下的频率同相的，因此彼此加强，而在截止频率以上，分量是异相的，因此彼此抵消。由于增强区和抵消区互换，因此两个滤波器的输出相减产生高通响应。当两个全通滤波器的输出彼此相减时，两个滤波器的同相分量彼此抵消，而异相分量加强，以产生带通响应。在图6中进行了描述，图6中示出使用全通原理对超宽带信号的滤波处理的优选实施例。

图7示出利用互补全通滤波器将从6.4kHz至15kHz的频率范围划分为4个带的具体实施。采样三个全通滤波器，这三个全通滤波器具有交叉频率7.7kHz、9.5kHz和12.0kHz，当与如上所述的被调谐到6.4kHz至15kHz带的第一带通预滤波器组合时，提供4个带通响应。

在另一实施中，在解码器中执行的滤波处理在单个带通滤波阶段执行而没有带通预滤波器。

在一些实施中，从带通滤波输出的信号集合在组合之前首先使用基于能量的参数集合进行缩放。如上所述从编码器获得基于能量的参数。在图2中，在250示出此缩放处理。在图3中，通过滤波产生的信号集合在316经过谱成形和缩放操作。

图8A示出对于从6.4kHz到15kHz具有4个带的超宽带信号的缩放操作。对于4个离散带通滤波器的每一个，缩放因子(S₁、S₂、S₃和S₄)用作对应带通滤波器的输出处的倍数，以对扩展带宽的谱进行成形。图8B描述了图8A所示的操作的等同缩放操作。在图8B中，具有复振幅响应的单个滤波器向图8A所示的离散带通滤波器模型提供相似的频谱特性。

在一个实施例中，基于能量的参数集合通常代表在编码器处的输入音频信号。在另一实施例中，在解码器处使用的基于能量的参数集合代表在编码器处的输入音频信号的带通滤波处理，其中，在编码器执行的带通滤波处理等同于解码器处第二激励信号的带通滤波。明显的是，通过在编码器和解码器采样等同甚至相同的滤波器且解码器滤波器的输出处的能量与编码器处的能量匹配，编码器信号将尽可能忠实地被再现。

在一个实施中，基于音频解码器中带通滤波器集合的输出处的能量，缩放信号集合。通过以基于CELP的解码器元件的基音周期为基础的能量测量间隔，来确定音频解码器中带通滤波器集合的输出处的能量。能量测量间隔I_e与基于CELP的解码器元件的基音周期T相关，且通过下面的等式而取决于解码器中估计的浊音水平V。

I_{e} = \{\begin{matrix} LT & ; V &GreaterEqual; 0.7 \\ S & ; V < 0.7 \end{matrix}

等式(2)

其中，S是与语音合成间隔相对应的固定采样数，L是上采样倍数。语音合成间隔通常与基于CELP的解码器元件的子帧长度相同。

在图2中，在230，在获得第二激励信号和信号集合时，通过基于CELP的解码器元件对音频信号进行解码。在240，通过将信号集合与基于通过基于CELP的解码器元件解码的音频信号的信号进行组合，获得或产生组合输出信号。组合输出信号包括扩展超出CELP激励信号带宽的带宽部分。

在图3中，通常，基于滤波和缩放之后的上采样激励信号u’(n)以及基于CELP的解码器元件的输出信号，来获得组合输出信号，其中，组合输出信号包括扩展超出基于CELP的解码器元件的音频带宽的音频带宽部分。通过将到基于CELP的解码器元件的带宽扩展信号与基于CELP的解码器元件的输出信号进行组合，获得组合输出信号。在一个实施例中，可以使用共同采样率的各种信号的简单逐采样相加，来实现信号的组合。

尽管已经以建立拥有并且使本领域普通技术人员能够做出和使用的方式描述了本公开和最佳模式，但是可以理解和领会，在不脱离本发明的范围和精神的情况下，存在在此公开的示例性实施例的等同物，并且可以对其进行修改和改变，本发明的范围和精神由所附权利要求限定而不是由示例性实施例限定。

Claims

1.一种用于在音频解码器中对音频信号进行解码的方法，所述音频信号具有扩展超出CELP激励信号音频带宽的音频带宽，所述音频解码器包括基于CELP的解码器元件，所述方法包括：

获得第二激励信号，所述第二激励信号具有扩展超出CELP激励信号音频带宽的音频带宽；

通过利用带通滤波器集合对所述第二激励信号进行滤波，来获得信号集合；

使用基于能量的参数集合来缩放所述信号集合；以及

通过将所缩放的信号集合与由所述基于CELP的解码器元件所解码的所述音频信号为基础的信号进行组合，来获得组合输出信号。

2.如权利要求1所述的方法，还包括：在获得所述第二激励信号时和在获得所述信号集合时，利用所述基于CELP的解码器元件对所述音频信号进行解码。

3.如权利要求2所述的方法，其中，所述组合输出信号包括扩展超出所述CELP激励信号带宽的带宽部分。

4.如权利要求1所述的方法，

基于所述CELP激励信号来获得上采样CELP激励信号，

从所述上采样CELP激励信号获得所述第二激励信号。

5.如权利要求1所述的方法，其中，由所述音频解码器中的所述带通滤波器集合执行的滤波包括：组合互补全通滤波器集合的输出。

6.如权利要求1所述的方法，其中，由所述带通滤波器集合执行的滤波包括由宽带通滤波器进行的滤波。

7.如权利要求4所述的方法，其中，由所述带通滤波器集合执行的滤波包括由互补全通滤波器集合进行的滤波。

8.如权利要求1所述的方法，其中，由所述音频解码器中的所述带通滤波器集合执行的滤波与在编码器处被应用于输入音频信号子带的等同处理相对应。

9.如权利要求1所述的方法，其中，由所述音频解码器中的所述带通滤波器集合执行的滤波与在编码器处被应用于输入音频信号的等同带通滤波处理相对应。

10.如权利要求1所述的方法，其中，在所述解码器处使用的所述基于能量的参数集合代表在编码器处输入音频信号的带通滤波处理，其中，在所述编码器处执行的带通滤波处理等同于在所述解码器处所述第二激励信号的带通滤波。

11.如权利要求1所述的方法，所述基于能量的参数集合代表编码器处的输入音频信号。

12.如权利要求1所述的方法，

基于在所述音频解码器中的所述带通滤波器集合的输出处的能量来缩放所述信号集合，

通过以所述基于CELP的解码器元件的基音周期T为基础的能量测量间隔，来确定在所述音频解码器中的所述带通滤波器集合的输出处的能量。

13.如权利要求12所述的方法，通过I_e给出的能量测量间隔与所述基于CELP的解码器元件的所述基音周期T相关，且通过下面的等式而取决于所述解码器中估计的浊音水平V：

I_{e} = \{\begin{matrix} LT & ; V &GreaterEqual; 0.7 \\ S & ; V < 0.7 \end{matrix}

其中，S是与语音合成间隔相对应的固定采样数，并且L是上采样因子。

14.如权利要求1所述的方法，通过将非线性操作应用于所述第二激励信号的前导，来将所述第二激励信号的音频带宽扩展超出所述CELP激励信号的音频带宽。