CN101325058A

CN101325058A - 语音编码发送和接收解码的方法及装置

Info

Publication number: CN101325058A
Application number: CNA2007101267077A
Authority: CN
Inventors: 胡晨; 杜正中; 苗磊; 许剑峰; 张清; 许丽净; 杨毅; 李伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-06-15
Filing date: 2007-06-15
Publication date: 2008-12-17
Anticipated expiration: 2027-06-15
Also published as: CN101325058B

Abstract

本发明涉及通信领域，公开了一种语音编码发送和接收解码的方法及装置，使得语音质量得以提高。本发明中，对语音信号进行窄带编码，得到基本窄带编码信号。对该基本窄带编码信号进行解码，得到解码信号。用语音信号和对应的解码信号相减，得到残差信号，对残差信号进行量化编码，得到增强窄带编码信号，将增强窄带编码信号与基本窄带编码信号一起发送。在对残差信号进行量化编码的过程中，先根据编码端与解码端均可获知的关联信息，对残差信号进行归一化，再对经归一化后的残差信号进行量化。

Description

语音编码发送和接收解码的方法及装置

技术领域

本发明涉及通信领域，特别涉及语音编解码技术。

背景技术

随着宽带城域网建设的发展，宽带业务也越来越丰富，对宽带高质量语音业务需求的也日益增长，诸如宽带IP电话和多点视频会议等。因此也将高质量低复杂度的宽带语音编解码器提到了日程上来。而如何和目前广泛使用的语音编解码器相兼容则是一个正在研究的课题。

国际电信联盟-电信标准部(International Telecommunication UnionTelecommunication Standardization Sector，简称“ITU-T”)于2006年成功的标准化了和G.729兼容的语音频编解码器。ITU-T又于2007年3月启动的G.711宽带扩展(7kHz带宽)的标准方案征集正是来解决宽带语音和G.711窄带编解码器(4kHz带宽)兼容的问题。

现有的宽带语音频编解码解决方案都是针对于某种具体的核心编解码器的，如G.729.1是针对G.729窄带编解码器的宽带扩展。在现有技术G.729.1中，是将信号分成两路，窄带语音信号和宽带语音信号，分别对窄带语音信号和宽带语音信号进行编码，得到窄带语音信号的编码码流和宽带语音信号的编码码流。解码端分别对这两个码流进行解码，得到传输信号。

然而，本发明的发明人发现，在对窄带语音信号进行编码的过程中，由于需要对原始的窄带语音信号进行码本量化，因此将导致解码端在对收到的窄带语音信号进行解码后，得到的解码信号仍是量化后的离散数值，与原始的窄带语音信号存在一定的量化误差，因此，在解码端恢复出的语音质量不够好。

发明内容

本发明实施方式要解决的主要技术问题是提供一种语音编码发送和接收解码的方法及装置，使得语音质量得以提高。

为解决上述技术问题，本发明的实施方式提供了一种语音编码发送方法，包含以下步骤：

对语音信号进行窄带编码，得到基本窄带编码信号；

对基本窄带编码信号进行解码，得到解码信号；

用语音信号和对应的解码信号相减，得到残差信号；

对残差信号进行量化编码，得到增强窄带编码信号；

发送基本窄带编码信号和增强窄带编码信号。

本发明的实施方式还提供了一种语音接收解码方法，包含以下步骤：

接收基本窄带编码信号和增强窄带编码信号；

对收到的基本窄带编码信号进行窄带解码，得到基本窄带解码信号，并对收到的增强窄带编码信号进行量化解码，得到残差信号；

将得到的基本窄带解码信号分别与相应的残差信号相加，得到窄带语音信号。

本发明的实施方式还提供了一种语音编码发送装置，包括：

窄带编码模块，用于对语音信号进行窄带编码，得到基本窄带编码信号；

窄带解码模块，用于对窄带编码模块得到的基本窄带编码信号进行解码，得到解码信号；

残差信号获取模块，用于将语音信号和对应的解码信号相减，得到残差信号；

量化编码模块，用于对残差信号获取模块得到的残差信号进行量化编码，得到增强窄带编码信号；

发送模块，用于发送窄带编码模块得到的基本窄带编码信号和量化编码模块得到的增强窄带编码信号。

本发明的实施方式还提供了一种语音接收解码装置，包括：

接收模块，用于接收基本窄带编码信号和增强窄带编码信号；

窄带解码模块，用于对接收模块收到的基本窄带编码信号进行窄带解码，得到基本窄带解码信号；

量化解码模块，用于对接收模块收到的增强窄带编码信号进行量化解码，得到残差信号；

语音信号获取模块，用于将窄带解码模块得到的基本窄带解码信号分别与相应的残差信号相加，得到窄带语音信号。

本发明实施方式与现有技术相比，主要效果在于：由于该增强窄带编码信号中携带了解码后的各解码信号与语音信号的量化误差信息，使得解码端能够根据各解码信号的量化误差信息，还原出相应的语音信号，避免了在窄带编码过程中各语音信号因量化编码而导致的信息损失，从而提高了语音质量，增强了窄带性能。

附图说明

图1是根据本发明第一实施方式的语音编码发送方法示意图；

图2是根据本发明第一实施方式中对窄带语音信号的处理流程图；

图3是根据本发明第一实施方式中对残差信号的绝对值进行量化编码的示意图；

图4是根据本发明第一实施方式中对宽带语音信号的处理流程图；

图5是根据本发明第二实施方式的语音接收解码方法示意图；

图6是根据本发明第二实施方式中获取窄带语音信号的处理流程图；

图7是根据本发明第二实施方式中为残差信号添加符号信息的示意图；

图8是根据本发明第二实施方式中获取宽带语音信号的处理流程图；

图9是根据本发明第二实施方式中对MDCT系数进行精细频谱结构裁减示意图；

图10是根据本发明第二实施方式中的丢包补偿流程图；

图11是根据本发明第二实施方式中的复用MDCT引入的窄带缓冲区示意图；

图12是根据本发明第二实施方式中的自适应网络状态比特流裁减示意图；

图13是根据本发明第六实施方式的语音编码发送装置的结构示意图；

图14是根据本发明第七实施方式的语音接收解码装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明的第一实施方式涉及一种语音编码发送方法，在本实施方式中，编码端通过分析正交镜像滤波器，将16kHz的信号分为低频部分的窄带语音信号，和高频部分的宽带语音信号。对窄带语音信号进行窄带编码，得到基本窄带编码信号，并对得到的基本窄带编码信号进行解码，得到解码信号，将窄带语音信号与对应的解码信号相减，得到残差信号，通过对残差信号进行量化编码，得到增强窄带编码信号。对宽带语音信号进行改进型离散余弦变换(ModifiedDiscrete Cosine Transform，简称“MDCT”)编码的处理过程，得到宽带编码信号。最后将得到的基本窄带编码信号、增强窄带编码信号、和宽带编码信号复用为一个码流后发送给解码端，如图1所示。由于该增强窄带编码信号中携带了解码后的各解码信号与语音信号的量化误差信息，使得解码端能够根据各解码信号的量化误差信息，还原出相应的语音信号，避免了在窄带编码过程中各语音信号因量化编码而导致的信息损失，从而提高了语音质量，增强了窄带性能。

本实施方式中对经分析正交镜像滤波器后，得到的窄带语音信号进行的具体处理流程如图2所示。

在步骤210中，编码端对得到的窄带语音信号进行窄带编码，得到基本窄带码流。具体地说，由于G.711技术采用脉冲编码调制(Pulsed Code Modulation，简称“PCM”)的语音编解码标准(A律或μ律)，传输带宽为64kbit/s(千比特每秒)，这种方式的压缩对语音信号的损失很小。因此，本实施方式以对窄带语音信号进行G.711编码为例进行说明。G.711A律方法将13比特的线性PCM样本压缩为8比特的对数PCM格式。G.711μ律方法将14比特的线性PCM样本压缩为8比特的对数PCM格式。对窄带语音信号进行G.711编码后，得到基本窄带码流。

接着，进入步骤220，编码端对经G.711编码后的基本窄带编码信号进行解码，得到解码信号。具体地说，当G.711编码器对N点输入信号S(i)编码后，立即在编码端进行解码，得到该N点G.711解码后的信号

接着，进入步骤230，用未经G.711编码的窄带语音信号和对应的解码信号相减，得到残差信号。具体地说，可以将N点输入信号S(i)分别减去相应的经G.711解码后的信号

得到各信号的残差信号(即量化误差)e(i)：

接着，进入步骤240，对得到的各残差信号进行量化编码，得到增强窄带编码信号。具体地说，为了简化对各残差信号进行量化编码的处理过程，可以先取出各残差信号的符号信息，即对各残差信号的绝对值进行量化编码，如图3所示。

在量化编码的过程中，需要先根据编码端与解码端均可获知的关联信息，对残差信号的绝对值进行归一化，再对经归一化后的残差信号的绝对值进行量化。通过对残差信号的绝对值进行归一化，使得残差信号的范围被控制在预定的范围之内，进而节约了用于传输残差信号的资源。

本实施方式中的关联信息为上述N个解码信号的能量之和，或上述N个解码信号的平均能量，即每N点对应一个关联信息。比如说，当前帧N＝8，经G.711解码后的输出的N个解码信号为{80，150，500，850，700，550，300，200}，则这8个点对应的以能量之和为关联信息的值为这8个值的平方和，即1923900；这8个点以平均能量为关联信息的值为能量和除以8，即240487.5。由于在解码端也可通过解码信号得到该关联信息，因此该关联信息无需在编码端与解码端之间进行传输，节约了传输资源。需要说明的是，该关联信息可以在本步骤中进行计算，也可以在步骤230或步骤220中进行计算。

编码端可通过以下方式，将得到的关联信息用于对残差信号的绝对值进行归一化：将与N个解码信号相对应的N个残差信号的绝对值，分别乘以该关联信息的倒数，得到N个归一化后的残差信号的绝对值。

然后，通过对归一化后的残差信号的绝对值，进行量化，得到增强窄带编码信号。

本实施方式中对经分析正交镜像滤波器后得到的宽带语音信号，按如图4所示的流程进行处理。下面对图4中的宽带语音信号处理方法进行说明。

在步骤410中，编码端对得到的N个宽带语音信号进行时频变换，得到X个频域变换系数。具体地说，编码端对N个宽带语音信号进行MDCT编码，可得到X个MDCT系数，X的值为2/N。以N＝80为例，MDCT的变换公式如下：

S_{HB}^{w} (k) = \sqrt{\frac{2}{40}} Σ_{n = 0}^{79} w_{MDCT} (n) \cos (\frac{π}{40} (n + 80.5) (k + 0.5)) s_{HB} (n), k = 0, . . ., 39

其中，

w_{MDCT} (n) = \sin (\frac{π}{80} (n + 0.5)), n = 0, . . ., 79

接着，进入步骤420，编码端将得到的X个MDCT系数分为M个子带，每个子带包含至少一个MDCT系数。然后，分别对每个子带进行归一化。比如说，在每个子带范围内，计算绝对值最大的MDCT系数，利用该绝对值最大的MDCT系数，对该每个子带范围内的各MDCT系数进行归一化。

接着，进入步骤430，对各子带的用于归一化的归一化因子进行量化，得到量化后的各子带的归一化因子。

在步骤440中，对经归一化后的各子带中的MDCT系数进行量化，得到宽带编码信号。在对MDCT系数进行量化的过程中，需要对相对重要的Y个MDCT系数(如前Y个MDCT系数)以第一码本进行量化，对剩余的X-Y个MDCT系数以第二码本进行量化，第一码本的码字数量大于第二码本的码字数量，X≥Y≥1。其中，相对重要的Y个MDCT系数为至少一个子带中的所有MDCT系数。

具体地说，如果经MDCT编码后，得到32个MDCT系数，并且将这32个MDCT系数划分为7个子带，则在码本矢量的维数为4维的情况下(即一个码字可对4个MDCT系数进行量化)，可以将这32个MDCT系数划分为[4，4，4，4，4，4，8]这样7个子带。假定相对重要的Y个MDCT系数为前12个MDCT系数，则以第一码本对第一至第三子带中的12个归一化后的MDCT系数进行量化，以第二码本对第四至第七子带中的20个归一化后的MDCT系数进行量化，第一码本的码字数量大于第二码本的码字数量。由于对相对重要的MDCT系数采用包含更多的码字数量的码本进行量化，可使得量化后的MDCT系数更接近于原始的MDCT系数，从而提高了编码效率，减少主观听觉失真。

其中，第一码本和第二码本可以均为独立的码本，使得量化后的MDCT系数可以通过码本中的码字索引即可表示，提高了传输效率。或者，第一码本包括至少两个基本码本，第二码本包括至少一个基本码本，第一码本和第二码本共享至少一个基本码本，比如说，选择一个通用的码本用于大多数MDCT系数的量化，而对某些特定的譬如失真较大的码字使用另外的一个或多个码本进行量化，从而提高编码效率，减少主观听觉失真。在这种情况下，虽然量化后的MDCT系数需要通过码本索引以及码字索引来共同表示，但由于第一码本和第二码本能够共享基本码本中的码字，因此可节约编码端与解码端内的码本存储空间。而且，由于第一码本和第二码本是对归一化后的MDCT系数进行量化，也就是说，需要量化的MDCT系数都被限制在一个较小的范围内，因此，可以进一步节约编码端与解码端内的码本存储空间。

需要说明的是，本实施方式中的宽带语音信号的编码是基于MDCT的，在实际应用中，也可以是基于快速傅里叶变换(Fast Fourier Transform，简称“FFT”)的。另外，本实施方式中的步骤430和步骤440并无明确的先后关系，也就是说，步骤430也可以在步骤440之后。

编码端在获取到宽带编码信号、基本窄带编码信号、和增强窄带编码信号后，将该宽带编码信号、基本窄带编码信号、和增强窄带编码信号，复用为码流后发送给解码端。另外，由于在本实施方式中，在对残差信号进行量化编码的过程中，是对残差信号的绝对值进行量化编码的；在对各子带的MDCT系数进行量化之前，先对各子带的MDCT系数在子带范围内进行了归一化，因此，编码端还需要将各残差信号的符号信息，以及各子带的量化后的归一化因子发送给解码端。

本发明的第二实施方式涉及一种语音接收解码方法，本实施方式对应于第一实施方式的语音编码发送方法。在本实施方式中，解码端将收到的码流进行解复用，得到基本窄带编码信号、增强窄带编码信号、和宽带编码信号。根据基本窄带编码信号和增强窄带编码信号得到窄带语音信号，根据宽带编码信号得到宽带语音信号，将得到的窄带语音信号和宽带语音信号进行综合正交镜像滤波，得到语音信号，如图5所示。其中，在发生丢包时，利用丢包前的窄带语音信号预测出基音周期，根据预测的基音周期，恢复出丢失的窄带语音信号和宽带语音信号，如图5中的窄带丢包补偿模块和宽带丢包补偿模块所示。下面分别对根据基本窄带编码信号和增强窄带编码信号得到窄带语音信号的处理流程，和根据宽带编码信号得到宽带语音信号的处理流程进行说明。

根据基本窄带编码信号和增强窄带编码信号得到窄带语音信号的处理流程如图6所示。

在步骤610中，解码端对解复用出的基本窄带编码信号进行解码，得到基本窄带解码信号。针对第一实施方式中的案例，解码端对解复用出的基本窄带编码信号进行G.711解码，得到基本窄带解码信号。在本步骤中，可以根据获得的基本窄带解码信号，计算关联信息。解码端计算关联信息的方式与编码端计算关联信息的方式完全相同，在此不再赘述。

在步骤620中，解码端对解复用出的增强窄带编码信号进行量化解码，得到残差信号。具体地说，在本步骤中，需要先对收到的增强窄带编码信号进行量化解码，得到归一化后的各残差信号，再根据计算出的关联信息，对归一化后的各残差信号进行归一化还原，得到各残差信号。比如说，关联信息为N个解码信号的能量之和，将与这N个解码信号相对应的N个归一化后的残差信号，分别乘以该关联信息，得到N个归一化还原后的残差信号。

由于编码端在对各残差信号进行量化编码的处理过程中，先取出了各残差信号的符号信息，即对各残差信号的绝对值进行量化编码。因此，在解码端中进行量化解码后得到的各残差信号，实际上也是各残差信号的绝对值。所以，解码端还需接收来自编码端的各残差信号的符号信息，将归一化还原后的残差信号分别加上相应的符号信息，得到完整的表示量化误差的残差信号，如图7所示。

接着，在步骤630中，将加上符号信息的各残差信号分别与相应的基本窄带解码信号相加，得到窄带语音信号。

根据宽带编码信号得到宽带语音信号的处理流程如图8所示，在步骤810中，解码端对宽带编码信号进行量化解码，得到X个频域变换系数。具体地说，解码端对宽带编码信号中对相对重要的宽带编码信号以第一码本进行量化解码，得到Y个频域变换系数，对剩余的宽带编码信号以第二码本进行量化解码，得到X-Y个频域变换系数，第一码本的码字数量大于第二码本的码字数量，X≥Y≥1。

针对第一实施方式中的案例，解码端对宽带编码信号中对应第一至第三子带的宽带编码信号，以与编码端相同的第一码本进行量化解码，得到12个MDCT系数；对宽带编码信号中对应第四至第七子带的宽带编码信号，以与编码端相同的第二码本进行量化解码，得到20个MDCT系数。该第一码本和第二码本可以均为独立的码本，此时，根据码本中的码字索引对宽带编码信号进行量化解码。或者，第一码本包括至少两个基本码本，第二码本包括至少一个基本码本，第一码本和第二码本共享至少一个基本码本，此时，根据码本索引和码字索引对宽带编码信号进行量化解码。

接着，在步骤820中，解码端对量化解码后的各子带的频域变换系数(即MDCT系数)分别进行归一化还原。具体地说，由于编码端是对经归一化后的各子带中的MDCT系数进行量化的，因此，解码端还需要接收经量化的各子带的归一化因子，然后，在本步骤中，对经量化的各子带的归一化因子进行量化解码，得到各子带的归一化因子，并根据各子带的归一化因子分别对各子带中的MDCT系数进行归一化还原，恢复出还原后的MDCT系数。

接着，在步骤830中，解码端对还原后的MDCT系数进行自适应后滤波。具体地说，解码端对包括至少两个MDCT系数的MDCT系数块，计算平均频谱幅度和最大频谱幅度的比值，根据计算出的比值大小裁减MDCT系数块中MDCT系数的精细频谱结构，其中，比值越小对精细频谱结构的裁减程度越大。

根据计算出的比值大小裁减MDCT系数块中MDCT系数的精细频谱结构的方式如下：对MDCT系数块中的每个MDCT系数，根据该比值计算对应该MDCT系数的调整因子，其中，该调整因子是该比值的单调函数，该比值越大则该调整因子越大。然后，对每个MDCT系数乘以该MDCT系数对应的调整因子。该调整因子的fac的计算公式如下：

fac = beta \times \frac{| X [i] |}{MaxAMP} + (1 - beta), i = 1,2, . . . . . ., n .

其中，beta＝1.2-AvgAmp/MaxAmp，MaxAmp为MDCT系数块的最大频谱幅度，AvgAmp为MDCT系数块的平均频谱幅度，X[i]为MDCT系数块中的MDCT系数，n为MDCT系数块中包含的MDCT系数数目。

以4个MDCT系数为一个MDCT系数块为例进行说明，如图9所示，计算X(1)、X(2)、X(3)、X(4)的最大频谱幅度MaxAmp，和平均频谱幅度AvgAmp。根据AvgAmp/MaxAmp的值，对X(i)进行精细频谱结构裁减(i＝1，2，3，4)，如X(i)＝fac×X(i)。其中，

fac = beta \times \frac{| X [i] |}{MaxAMP} + (1 - beta), i = 1,2, . . . . . ., 4,

beta＝1.2-AvgAmp/MaxAmp。

由于正弦频谱的量化会导致正弦频谱相邻的频谱产生较大的失真，表现形式为频谱的波谷处被提升，噪声很容易被人察觉。因此，在本步骤中，根据每个量化块的平均频谱幅度和最大频谱幅度的比值，来决定该量化块中MDCT系数的精细频谱结构裁减的程度。平均频谱幅度和最大频谱幅度的比值越小，则需要加大精细频谱结构裁减的程度，平均频谱幅度和最大频谱幅度的比值越大，则需要减小精细频谱结构裁减的程度，以便达到减少量化噪声的效果。如图9所示，在正弦部分占主导的信号条件下，第1，3，4个MDCT系数量化引入的噪声会令人容易觉察到编码带来的损伤。而通过判断平均频谱幅度和最大频谱幅度的比值来进行精细频谱结构裁减，能很好的自适应不同的编码块特性，以达到性能的优化。当然，本实施方式中也可以采用固定的包络裁减来达到优化性能的目的。

接着，在步骤840中，将裁减后的MDCT系数进行频时变换，即逆MDCT变换，得到时域的语音信号，该时域的语音信号为宽带语音信号。

解码端在得到宽带语音信号和窄带语音信号之后，将窄带语音信号和宽带语音信号进行综合正交镜像滤波，得到完整的语音信号。

值得一提的是，本实施方式中，可通过丢包补偿来提高丢包处宽带语音的性能。具体地说，在发生丢包时，利用丢包前的窄带语音预测出基音周期，根据预测的基音周期恢复出丢失的窄带语音信号和宽带语音信号。由于宽带的丢包补偿容易带来7kHz～8kHz频带的失真，因此，需要加上7kHz以下的频域低通滤波以解决该问题，如图10所示。另外，为了和丢包前的信息保持连续性，丢包前的信息需要延时一段输出，这段时间建议是3.75ms。由于在对宽带语音编码信号使用MDCT的过程中，将会带来一个变换块的延时，而恢复出G.711窄带语音是没有延时的，因此，可以通过复用MDCT引入的窄带缓冲区，使得丢包补偿的处理流程不会带来任何额外的延时，如图11所示。

本发明的第三实施方式涉及一种语音编码发送方法，本实施方式与第一实施方式大致相同，其区别在于，在第一实施方式中，编码端在得到基本窄带编码信号、增强窄带编码信号和宽带编码信号后，直接将得到的基本窄带编码信号、增强窄带编码信号和宽带编码信号发送给解码端。而在本实施方式中，在发送基本窄带编码信号、增强窄带编码信号和宽带编码信号之前，先根据当前网络状态判断是否需要裁减编码信号，如果判定为需要裁减编码信号，则发送基本窄带编码信号(如图12中的模式1)，或基本窄带编码信号和增强窄带编码信号的组合(如图12中的模式2)，或基本窄带编码信号和宽带编码信号的组合(如图12中的模式3)；如果判定为不需要裁减编码信号，则发送基本窄带编码信号、增强窄带编码信号和宽带编码信号(如图12中的模式0)。

由于在本实施方式中，可根据当前网络状态裁减编码信号，因此可以在网络状态较差时保证基本音质的通信，在网络状态较好时进行较高音质的通信。

相应的，在解码端接收码流时，同样需要先根据当前网络状态判断编码信号是否被裁减，如果判定为编码信号被裁减，则接收窄带编码信号，或基本窄带编码信号和增强窄带编码信号的组合，或基本窄带编码信号和宽带编码信号的组合；如果判定为编码信号未被裁减，则接收基本窄带编码信号、增强窄带编码信号和宽带编码信号。

另外，值得一提的是，本实施方式中对宽带语音信号也可以按现有技术的方式进行处理，比如说，在将宽带语音信号进行时频变换，得到X个频域变换系数后，以相同的码本对这X个频域变换系数进行量化编码。此时，解码端对收到的宽带编码信号需要以相应的方式进行解码(如以相同的码本对收到的宽带编码信号进行量化解码)，得到宽带语音信号。甚至，本实施方式可以不考虑对宽带语音信号的处理。

本发明的第四实施方式涉及一种语音编码发送方法，本实施方式与第一实施方式大致相同，其区别在于，在第一实施方式中，关联信息为N个解码信号的能量之和，或N个解码信号的平均能量；而在本实施方式中，关联信息为N个解码信号的幅度的绝对值之和，或N个解码信号的平均绝对值。具体实现方式与第一实施方式类似，在此不再赘述。

由于解码端中的关联信息需要保证与编码端中的关联信息一致，因此相应地，在解码端中的关联信息也为N个解码信号的幅度的绝对值之和，或N个解码信号的平均绝对值。对应于第四实施方式的语音编码发送的语音接收解码方法，与第二实施方式类似，在此不再赘述。

本发明的第五实施方式涉及一种语音编码发送方法，本实施方式与第一实施方式大致相同，其区别在于，在第一实施方式中，关联信息为N个解码信号的能量之和，或N个解码信号的平均能量。而在本实施方式中，每个残差信号对应一个关联信息，该关联信息为与该残差信号相对应的解码信号的幅度绝对值所在值域区间内的最大量化误差。

具体地说，由于对窄带语音信号进行的G.711编码，而量化产生的最大量化误差可以根据解码信号的幅度绝对值大小有8个取值。以μ律为例：

绝对值在(0，255)的最大量化误差值为5；

绝对值在(256，511)的最大量化误差值为9；

绝对值在(512，1023)的最大量化误差值为17；

绝对值在(1024，2047)的最大量化误差值为33；

绝对值在(2048，4095)的最大量化误差值为65；

绝对值在(4096，8191)的最大量化误差值为129；

绝对值在(8192，16383)的最大量化误差为257；

绝对值在(16384，32768)的最大量化误差为513。

比如说，某个残差信号所对应的解码信号的幅度绝对值在(256，511)之间，则该残差信号所对应的关联信息即为9，在对该残差信号进行归一化时，将该残差信号乘以对应的关联信息的倒数，即将该残差信号乘以1/9(约为0.1111111)，得到归一化后的该残差信号。

由于在对残差信号进行归一化时，需要将该残差信号乘以对应的关联信息的倒数，而关联信息根据解码信号的幅度绝对值大小有8个取值，即(5，9，17，33，65，129，257，513)(以μ律为例)，因此，可在编码端直接保存这8个取值的倒数，即(0.2，0.1111111，0.0588235，0.0303030，0.0153846，0.0077519，0.0038911，0.0019493)，以便在对残差信号进行归一化时，直接将该残差信号乘以(0.2，0.1111111，0.0588235，0.0303030，0.0153846，0.0077519，0.0038911，0.0019493)中的某个值，从而省去了除法处理带来的复杂度的增加，快速地得到归一化后的该残差信号。当然，具体乘以其中的哪个值，还需根据该残差信号对应的解码信号的幅度绝对值大小进行选择。

相应地，在解码端中，每个归一化后的残差信号同样对应一个关联信息，该关联信息为与该归一化后的残差信号相对应的解码信号的幅度绝对值所在值域区间内的最大量化误差。也就是说，以μ律为例时，关联信息根据解码信号的幅度绝对值大小有8个取值，即(5，9，17，33，65，129，257，513)，每个归一化后的残差信号所对应的关联信息为这8个取值中的某个取值，具体为哪个取值，需要根据与该残差信号相对应的解码信号的幅度绝对值所在值域区间来决定。

本实施方式中是以μ律为例进行说明的，如果是对窄带语音信号进行G.711A律编码时，关联信息根据解码信号的幅度绝对值大小有8个取值，为(9，9，17，33，65，129，257，513)，在编码端可以保存这8个取值的倒数，即(0.1111111，0.1111111，0.0588235，0.0303030，0.0153846，0.0077519，0.0038911，0.0019493)，在解码端可直接保存这8个取值，即(9，9，17，33，65，129，257，513)。

根据大量语音音频序列进行测试后的结果显示，本实施方式是一种高质量、低复杂度的编码方法。如表1所示，前两列表示分别对A律和μ律的量化误差训练码本采用4比特编码的平均失真，第三列是对A律和μ律的量化误差训练码本采用4比特编码的总平均失真，第四列是对A律和μ律的量化误差训练码本采用5比特编码的总平均失真。可以发现，A律和μ律的量化误差分布非常接近，因此可以对A律和μ律的量化误差采用统一的码本进行量化编码。

	A律(4比特)	μ律(4比特)	A律和μ律(4比特)	A律和μ律(5比特)
	A律(4比特)	μ律(4比特)	A律和μ律(4比特)	A律和μ律(5比特)	失真	0.1307	0.1313	0.1317	0.0950

表1

本实施方式的平均计算复杂度如下：普通语音信号编码复杂度为0.67900WMOPS(加权百万操作每秒)；音乐语音信号编码复杂度为0.69511WMOPS。相应地，普通语音信号解码复杂度为0.17615WMOPS；音乐语音信号解码复杂度为0.17922WMOPS。对普通语音信号而言，总体复杂度为0.85515WMOPS；对音乐语音信号而言，总体复杂度为0.87433WMOPS。

本发明的第六实施方式涉及一种语音编码发送装置，如图13所示，包括：窄带编码模块，用于对语音信号进行窄带编码，得到基本窄带编码信号；窄带解码模块，用于对该窄带编码模块得到的基本窄带编码信号进行解码，得到解码信号；残差信号获取模块，用于将语音信号和对应的解码信号相减，得到残差信号；量化编码模块，用于对残差信号获取模块得到的残差信号进行量化编码，得到增强窄带编码信号；发送模块，用于发送该窄带编码模块得到的基本窄带编码信号和该量化编码模块得到的增强窄带编码信号。由于在增强窄带编码信号中携带了解码后的各解码信号与语音信号的量化误差信息，使得解码端能够根据各解码信号的量化误差信息，还原出相应的语音信号，避免了在窄带编码过程中各语音信号因量化编码而导致的信息损失，从而提高了语音质量，增强了窄带性能。

其中，量化编码模块包含以下子模块：归一化子模块，用于根据编码端与解码端均可获知的关联信息，对得到的残差信号进行归一化；量化模块，用于对经归一化后的残差信号进行量化。在具体实现中，关联信息可以为N个解码信号的能量之和，或N个解码信号的平均能量；或者，关联信息为N个解码信号的幅度的绝对值之和，或N个解码信号的平均绝对值。归一化子模块进行归一化的方式如下：将与这N个解码信号相对应的N个残差信号，分别乘以该关联信息的倒数，得到N个归一化后的残差信号。再或者，每个残差信号均对应一个关联信息，该关联信息为与该残差信号相对应的解码信号的幅度绝对值所在值域区间内的最大量化误差。归一化子模块进行归一化的方式如下：将残差信号乘以对应的关联信息的倒数，得到归一化后的该残差信号。

本实施方式中的语音编码发送装置还包括：正交镜像滤波分析模块和MDCT编码模块。该正交镜像滤波分析模块用于对原始语音信号进行分析正交镜像滤波，得到低频部分的窄带语音信号和高频部分的宽带语音信号，并将该窄带语音信号输出到该窄带编码模块和该残差信号获取模块，将该宽带语音信号输出到该MDCT编码模块。该MDCT编码模块用于对宽带语音信号进行MDCT编码，得到宽带编码信号。发送模块将该窄带编码模块得到的基本窄带编码信号、量化编码模块得到的增强窄带编码信号、和MDCT编码模块得到宽带编码信号，复用为一个码流后发送。

本发明的第七实施方式涉及一种语音接收解码装置，如图14所示，包括：接收模块，用于接收基本窄带编码信号和增强窄带编码信号；窄带解码模块，用于对该接收模块收到的基本窄带编码信号进行窄带解码，得到基本窄带解码信号；量化解码模块，用于对该接收模块收到的增强窄带编码信号进行量化解码，得到残差信号；语音信号获取模块，用于将该窄带解码模块得到的基本窄带解码信号分别与相应的残差信号相加，得到窄带语音信号。

其中，量化解码模块包括以下子模块：解码子模块，用于对收到的增强窄带编码信号进行量化解码，得到归一化后的残差信号；归一化还原子模块，用于根据编码端与解码端均可获知的关联信息，对归一化后的残差信号进行归一化还原，得到残差信号。该关联信息可以是基本窄带编码信号中的N个解码信号的能量之和，或N个解码信号的平均能量；或者，该关联信息可以是基本窄带编码信号中的N个解码信号的幅度的绝对值之和，或N个解码信号的平均绝对值。归一化还原子模块进行归一化还原的方式如下：将与N个解码信号相对应的N个归一化后的残差信号，分别乘以该关联信息，得到N个归一化还原后的残差信号。再或者，每个归一化后的残差信号对应一个关联信息，该关联信息为与该归一化后的残差信号相对应的解码信号的幅度绝对值所在值域区间内的最大量化误差。归一化还原子模块进行归一化还原的方式如下：将归一化后的残差信号乘以对应的关联信息，得到归一化还原后的该残差信号。

本实施方式的语音接收解码装置中，还包括：逆MDCT解码模块和正交镜像滤波综合模块。其中，逆MDCT解码模块用于对宽带编码信号进行逆MDCT解码，得到宽带语音信号。

接收模块包含以下子模块：复用码流接收子模块，用于接收包含基本窄带编码信号、增强窄带编码信号、和宽带编码信号的复用码流；解复用子模块，用于将收到的复用码流解复用为基本窄带编码信号、增强窄带编码信号、和宽带编码信号，并将该基本窄带编码信号输出到该窄带解码模块，将该增强窄带编码信号输出到该量化解码模块，将该宽带编码信号输出到该逆MDCT解码模块。

正交镜像滤波综合模块，用于将该语音信号获取模块得到的窄带语音信号，和该逆MDCT解码模块得到的宽带语音信号进行综合正交镜像滤波，得到语音信号。

综上所述，在本发明的实施方式中，对语音信号进行窄带编码，得到基本窄带编码信号。对该基本窄带编码信号进行解码，得到解码信号。用语音信号和对应的解码信号相减，得到残差信号，对残差信号进行量化编码，得到增强窄带编码信号，将增强窄带编码信号与基本窄带编码信号一起发送。由于该增强窄带编码信号中携带了解码后的各解码信号与语音信号的量化误差信息，使得解码端能够根据各解码信号的量化误差信息，还原出相应的语音信号，避免了在窄带编码过程中各语音信号因量化编码而导致的信息损失，从而提高了语音质量，增强了窄带性能。

在对残差信号进行量化编码的过程中，先根据编码端与解码端均可获知的关联信息，对残差信号进行归一化，再对经归一化后的残差信号进行量化。由于对残差信号进行了归一化，使得残差信号的范围被控制在预定的范围之内，进而节约了用于传输残差信号的资源。而且，用于归一化的关联信息是解码端可知的，因此编码端无需再将关联信息发送给解码端，进一步节约了传输资源。

关联信息可以为N个解码信号的能量之和，或平均能量；或者，关联信息可以为N个解码信号的幅度的绝对值之和，或平均绝对值。将与该N个解码信号相对应的N个残差信号，分别乘以该关联信息的倒数，得到N个归一化后的残差信号。关联信息还可以是与残差信号相对应的解码信号的幅度绝对值所在值域区间内的最大量化误差，残差信号与关联信息一一对应。将残差信号乘以相应的关联信息的倒数，得到归一化后的该残差信号。使得本发明的实施方式可灵活实现。

残差信号的符号单独传输，在进行归一化时只要考虑残差的绝对值即可，简化了归一化的处理。

根据当前网络状态裁减编码信号，可以在网络状态较差时保证基本音质的通信，在网络状态较好时进行较高音质的通信。

在发生丢包时，可利用丢包前的窄带语音预测出基音周期，根据预测的基音周期恢复出丢失的窄带语音信号和宽带语音信号，使得丢包处宽带语音的性能得以提高。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语音编码发送方法，其特征在于，包含以下步骤：

对语音信号进行窄带编码，得到基本窄带编码信号；

对所述基本窄带编码信号进行解码，得到解码信号；

用所述语音信号和对应的所述解码信号相减，得到残差信号；

对所述残差信号进行量化编码，得到增强窄带编码信号；

发送所述基本窄带编码信号和增强窄带编码信号。

2.根据权利要求1所述的语音编码发送方法，其特征在于，在对所述残差信号进行量化编码的步骤中，包含以下步骤：

根据编码端与解码端均可获知的关联信息，对所述残差信号进行归一化；

对经归一化后的所述残差信号进行量化。

3.根据权利要求2所述的语音编码发送方法，其特征在于，所述关联信息为N个所述解码信号的能量之和，或N个所述解码信号的平均能量；

所述进行归一化的步骤中包含以下子步骤：

将与所述N个解码信号相对应的N个残差信号，分别乘以所述关联信息的倒数，得到N个归一化后的残差信号。

4.根据权利要求2所述的语音编码发送方法，其特征在于，所述关联信息为N个所述解码信号的幅度的绝对值之和，或N个所述解码信号的平均绝对值；

所述进行归一化的步骤中包含以下子步骤：

5.根据权利要求2所述的语音编码发送方法，其特征在于，每个所述残差信号对应一个所述关联信息，该关联信息为与该残差信号相对应的所述解码信号的幅度绝对值所在值域区间内的最大量化误差；

所述进行归一化的步骤中包含以下子步骤：

将所述残差信号乘以对应的所述关联信息的倒数，得到归一化后的该残差信号。

6.根据权利要求1至5中任一项所述的语音编码发送方法，其特征在于，在所述对语音信号进行窄带编码的步骤之前还包含以下步骤：

对原始语音信号进行分析正交镜像滤波，得到低频部分的窄带语音信号和高频部分的宽带语音信号；

所述对语音信号进行窄带编码的步骤中，对所述窄带语音信号进行窄带编码；

所述分析正交镜像滤波的步骤之后还包含以下步骤：

对所述宽带语音信号进行改进型离散余弦变换MDCT编码，得到宽带编码信号；

在所述发送的步骤中包含以下子步骤：

发送所述基本窄带编码信号、增强窄带编码信号和宽带编码信号。

7.根据权利要求6所述的语音编码发送方法，其特征在于，在所述发送基本窄带编码信号、增强窄带编码信号和宽带编码信号的步骤之前，还包含以下步骤：

根据当前网络状态判断是否需要裁减编码信号；如果判定为需要裁减编码信号，则发送所述基本窄带编码信号，或所述基本窄带编码信号和增强窄带编码信号的组合，或所述基本窄带编码信号和宽带编码信号的组合；如果判定为不需要裁减编码信号，则执行所述发送基本窄带编码信号、增强窄带编码信号和宽带编码信号的步骤。

8.根据权利要求1至5中任一项所述的语音编码发送方法，其特征在于，在对所述残差信号进行量化编码的步骤中，对所述残差信号的绝对值进行所述量化编码；

所述方法还包含以下步骤：

将各所述残差信号的符号信息发送给解码端。

9.一种语音接收解码方法，其特征在于，包含以下步骤：

接收基本窄带编码信号和增强窄带编码信号；

对收到的所述基本窄带编码信号进行窄带解码，得到基本窄带解码信号，并对收到的所述增强窄带编码信号进行量化解码，得到残差信号；

将得到的所述基本窄带解码信号分别与相应的所述残差信号相加，得到窄带语音信号。

10.根据权利要求9所述的语音接收解码方法，其特征在于，对收到的所述增强窄带编码信号进行量化解码的步骤中，包含以下步骤：

对收到的所述增强窄带编码信号进行量化解码，得到归一化后的残差信号；

根据编码端与解码端均可获知的关联信息，对所述归一化后的残差信号进行归一化还原，得到所述残差信号。

11.根据权利要求10所述的语音接收解码方法，其特征在于，所述关联信息为所述基本窄带编码信号中的N个所述解码信号的能量之和，或N个所述解码信号的平均能量；

所述进行归一化还原的步骤中，包含以下子步骤：

将与所述N个解码信号相对应的N个归一化后的残差信号，分别乘以所述关联信息，得到N个归一化还原后的所述残差信号。

12.根据权利要求10所述的语音接收解码方法，其特征在于，所述关联信息为所述基本窄带编码信号中的N个所述解码信号的幅度的绝对值之和，或N个所述解码信号的幅度的平均绝对值；

所述进行归一化还原的步骤中，包含以下子步骤：

13.根据权利要求10所述的语音接收解码方法，其特征在于，每个所述归一化后的残差信号对应一个所述关联信息，该关联信息为与该归一化后的残差信号相对应的所述解码信号的幅度绝对值所在值域区间内的最大量化误差；

所述进行归一化还原的步骤中，包含以下子步骤：

将所述归一化后的残差信号乘以对应的所述关联信息，得到归一化还原后的该残差信号。

14.根据权利要求9至13中任一项所述的语音接收解码方法，其特征在于，在所述接收基本窄带编码信号和增强窄带编码信号的步骤中，还包含以下子步骤：接收宽带编码信号；

在所述接收基本窄带编码信号和增强窄带编码信号的步骤之后，还包含以下步骤：

对收到的所述宽带编码信号进行逆MDCT解码，得到宽带语音信号；

在得到所述宽带语音信号和所述窄带语音信号之后，还包含以下步骤：

将所述窄带语音信号和所述宽带语音信号进行综合正交镜像滤波，得到语音信号。

15.根据权利要求14所述的语音接收解码方法，其特征在于，还包含以下步骤：

在发生丢包时，利用丢包前的所述窄带语音信号预测出基音周期；

根据预测的所述基音周期，恢复出丢失的所述窄带语音信号和所述宽带语音信号。

16.根据权利要求15所述的语音接收解码方法，其特征在于，在所述进行综合正交镜像滤波的步骤中，包含以下子步骤：

将所述窄带语音信号延时一个变换块后，和所述宽带语音信号进行综合正交镜像滤波，得到语音信号。

17.根据权利要求14所述的语音接收解码方法，其特征在于，在所述接收基本窄带编码信号、增强窄带编码信号和宽带编码信号的步骤之前，还包含以子步骤：

根据当前网络状态判断编码信号是否被裁减，如果判定为编码信号被裁减，则接收所述窄带编码信号，或所述基本窄带编码信号和增强窄带编码信号的组合，或所述基本窄带编码信号和宽带编码信号的组合；如果判定为编码信号未被裁减，则执行所述接收基本窄带编码信号、增强窄带编码信号和宽带编码信号的步骤。

18.根据权利要求9至13中任一项所述的语音接收解码方法，其特征在于，还包含以下步骤：

接收来自编码端的符号信息；

所述将得到的所述基本窄带解码信号分别与相应的所述残差信号相加的步骤中，包含以下子步骤：

为所述残差信号加上相应的符号信息；

将得到的所述基本窄带解码信号分别与相应的添加上符号信息的所述残差信号相加，得到所述窄带语音信号。

19.一种语音编码发送装置，其特征在于，包括：

窄带解码模块，用于对所述窄带编码模块得到的所述基本窄带编码信号进行解码，得到解码信号；

残差信号获取模块，用于将所述语音信号和对应的所述解码信号相减，得到残差信号；

量化编码模块，用于对所述残差信号获取模块得到的所述残差信号进行量化编码，得到增强窄带编码信号；

发送模块，用于发送所述窄带编码模块得到的所述基本窄带编码信号和所述量化编码模块得到的增强窄带编码信号。

20.根据权利要求19所述的语音编码发送装置，其特征在于，所述量化编码模块包含以下子模块：

归一化子模块，用于根据编码端与解码端均可获知的关联信息，对得到的所述残差信号进行归一化；

量化模块，用于对经归一化后的所述残差信号进行量化。

21.根据权利要求20所述的语音编码发送装置，其特征在于，所述关联信息为N个所述解码信号的能量之和，或N个所述解码信号的平均能量；或者，

所述关联信息为N个所述解码信号的幅度的绝对值之和，或N个所述解码信号的平均绝对值；

所述归一化子模块进行归一化的方式如下：将与所述N个解码信号相对应的N个残差信号，分别乘以所述关联信息的倒数，得到N个归一化后的残差信号。

22.根据权利要求20所述的语音编码发送装置，其特征在于，每个所述残差信号对应一个所述关联信息，该关联信息为与该残差信号相对应的所述解码信号的幅度绝对值所在值域区间内的最大量化误差；

所述归一化子模块进行归一化的方式如下：将所述残差信号乘以对应的所述关联信息的倒数，得到归一化后的该残差信号。

23.根据权利要求19至22中任一项所述的语音编码发送装置，其特征在于，还包括正交镜像滤波分析模块和MDCT编码模块；

所述正交镜像滤波分析模块用于对原始语音信号进行分析正交镜像滤波，得到低频部分的窄带语音信号和高频部分的宽带语音信号，并将该窄带语音信号输出到所述窄带编码模块和所述残差信号获取模块，将该宽带语音信号输出到所述MDCT编码模块；

所述MDCT编码模块用于对所述宽带语音信号进行MDCT编码，得到宽带编码信号；

所述发送模块将所述窄带编码模块得到的所述基本窄带编码信号、所述量化编码模块得到的增强窄带编码信号、和所述MDCT编码模块得到宽带编码信号，复用为一个码流后发送。

24.一种语音接收解码装置，其特征在于，包括：

窄带解码模块，用于对所述接收模块收到的所述基本窄带编码信号进行窄带解码，得到基本窄带解码信号；

量化解码模块，用于对所述接收模块收到的所述增强窄带编码信号进行量化解码，得到残差信号；

语音信号获取模块，用于将所述窄带解码模块得到的所述基本窄带解码信号分别与相应的所述残差信号相加，得到窄带语音信号。

25.根据权利要求24所述的语音接收解码装置，其特征在于，所述量化解码模块包括以下子模块：

解码子模块，用于对收到的所述增强窄带编码信号进行量化解码，得到归一化后的残差信号；

归一化还原子模块，用于根据编码端与解码端均可获知的关联信息，对所述归一化后的残差信号进行归一化还原，得到所述残差信号。

26.根据权利要求25所述的语音接收解码装置，其特征在于，所述关联信息为所述基本窄带编码信号中的N个所述解码信号的能量之和，或N个所述解码信号的平均能量；或者，

所述关联信息为所述基本窄带编码信号中的N个所述解码信号的幅度的绝对值之和，或N个所述解码信号的平均绝对值；

所述归一化还原子模块进行归一化还原的方式如下：将与所述N个解码信号相对应的N个归一化后的残差信号，分别乘以所述关联信息，得到N个归一化还原后的所述残差信号。

27.根据权利要求25所述的语音接收解码装置，其特征在于，每个所述归一化后的残差信号对应一个所述关联信息，该关联信息为与该归一化后的残差信号相对应的所述解码信号的幅度绝对值所在值域区间内的最大量化误差；

所述归一化还原子模块进行归一化还原的方式如下：将所述归一化后的残差信号乘以对应的所述关联信息，得到归一化还原后的该残差信号。

28.根据权利要求24至27中任一项所述的语音接收解码装置，其特征在于，还包括逆MDCT解码模块，用于对宽带编码信号进行逆MDCT解码，得到宽带语音信号；

所述接收模块包含以下子模块：

复用码流接收子模块，用于接收包含基本窄带编码信号、增强窄带编码信号、和宽带编码信号的复用码流；

解复用子模块，用于将收到的所述复用码流解复用为基本窄带编码信号、增强窄带编码信号、和宽带编码信号，并将该基本窄带编码信号输出到所述窄带解码模块，将该增强窄带编码信号输出到所述量化解码模块，将该宽带编码信号输出到所述逆MDCT解码模块；

所述装置还包括：正交镜像滤波综合模块，用于将所述语音信号获取模块得到的所述窄带语音信号，和所述逆MDCT解码模块得到的所述宽带语音信号进行综合正交镜像滤波，得到语音信号。