CN101325059B - 语音编解码收发方法及装置 - Google Patents
语音编解码收发方法及装置 Download PDFInfo
- Publication number
- CN101325059B CN101325059B CN2007101267185A CN200710126718A CN101325059B CN 101325059 B CN101325059 B CN 101325059B CN 2007101267185 A CN2007101267185 A CN 2007101267185A CN 200710126718 A CN200710126718 A CN 200710126718A CN 101325059 B CN101325059 B CN 101325059B
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency domain
- codebook
- mrow
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 37
- 238000013139 quantization Methods 0.000 claims description 96
- 230000009466 transformation Effects 0.000 claims description 56
- 230000003595 spectral effect Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 abstract description 9
- 238000004891 communication Methods 0.000 abstract description 6
- 238000010606 normalization Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 10
- 238000001914 filtration Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000012086 standard solution Substances 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及通信领域,公开了一种语音编解码收发方法及装置,使得语音信号的编码效率得以增加,并提高了语音质量。本发明中对语音信号进行时频变换,得到X个频域变换系数,对这X个频域变换系数进行量化得到宽带编码信号,其中对相对重要的Y个频域变换系数以第一码本进行量化,对剩余的X-Y个频域变换系数以第二码本进行量化,第一码本的码字数量大于第二码本的码字数量,X≥Y≥1,发送得到的宽带编码信号。根据每个量化块的平均频谱幅度和最大频谱幅度的比值,来裁减该量化块中频域量化信号的精细频谱结构,其中,比值越小对精细频谱结构的裁减程度越大。
Description
技术领域
本发明涉及通信领域,特别涉及语音编解码技术。
背景技术
随着宽带城域网建设的发展,宽带业务也越来越丰富,对宽带高质量语音业务需求的也日益增长,诸如宽带IP电话和多点视频会议等。因此也将高质量低复杂度的宽带语音编解码器提到了日程上来。而如何和目前广泛使用的语音编解码器相兼容则是一个正在研究的课题。
国际电信联盟-电信标准部(International Telecommunication UnionTelecommunication Standardization Sector,简称“ITU-T”)于2006年成功的标准化了和G.729兼容的语音频编解码器。ITU-T又于2007年3月启动的G.711宽带扩展(7kHz带宽)的标准方案征集正是来解决宽带语音和G.711窄带编解码器(4kHz带宽)兼容的问题。
现有的宽带语音频编解码解决方案都是针对于某种具体的核心编解码器的,如G.729.1是针对G.729窄带编解码器的宽带扩展。在现有技术G.729.1中,是将信号分成两路,窄带语音信号和宽带语音信号,分别对窄带语音信号和宽带语音信号进行编码,得到窄带语音信号的编码码流和宽带语音信号的编码码流。解码端分别对这两个码流进行解码,得到传输信号。其中,在对宽带语音信号进行编码时,先将宽带语音信号进行时频变换,得到X个频域变换系数,再将X个频域变换系数均以同样的码本进行量化编码。
然而,本发明的发明人发现,在X个频域变换系数中总会有相对重要的一些频域变换系数,相对次要的一些频域变换系数,如果以同样的码本对各频域变换系数进行量化编码,则可能会影响到编码效率。
另一方面,由于正弦频谱的量化会导致正弦频谱相邻的频谱产生较大的失真,表现形式为频谱的波谷处被提升,噪声很容易被人察觉。而目前的技术中并未对其作相关的处理,因此,语音质量不够好。
发明内容
本发明实施方式要解决的主要技术问题是提供一种语音编解码收发方法及装置,使得语音信号的编码效率得以增加,并提高了语音质量。
为解决上述技术问题,本发明的实施方式提供了一种语音编码发送方法,包括以下步骤:
对语音信号进行时频变换,得到X个频域变换系数;
对X个频域变换系数进行量化得到宽带编码信号,其中对相对重要的Y个频域变换系数以第一码本进行量化,对剩余的X-Y个频域变换系数以第二码本进行量化,第一码本的码字数量大于第二码本的码字数量,X≥Y≥1;
发送宽带编码信号。
本发明的实施方式还提供了一种语音接收解码方法,包括以下步骤:
接收宽带编码信号;
将收到的宽带编码信号进行量化解码,得到X个频域变换系数,其中对相对重要的宽带编码信号以第一码本进行量化解码,得到Y个频域变换系数,对剩余的宽带编码信号以第二码本进行量化解码,得到X-Y个频域变换系数,第一码本的码字数量大于第二码本的码字数量,X≥Y≥1;
将得到的X个频域变换系数进行频时变换,得到时域的语音信号。
本发明的实施方式还提供了一种语音解码方法,包括以下步骤:
对包括至少两个频域量化信号的量化块,计算平均频谱幅度和最大频谱幅度的比值;
根据比值裁减量化块中频域量化信号的精细频谱结构,其中,比值越小对精细频谱结构的裁减程度越大;
对经裁减的频域量化信号进行频时变换得到时域的语音信号。
本发明的实施方式还提供了一种语音编码发送装置,包括:
时频变换模块,用于对语音信号进行时频变换,得到X个频域变换系数;
码本存储模块,用于保存第一码本和第二码本,其中第一码本的码字数量大于第二码本的码字数量;
量化模块,用于对时频变换模块得到的X个频域变换系数进行量化得到宽带编码信号,其中对相对重要的Y个频域变换系数以第一码本进行量化,对剩余的X-Y个频域变换系数以第二码本进行量化,X≥Y≥1;
发送模块,用于发送量化模块得到的宽带编码信号。
本发明的实施方式还提供了一种语音编接收解码装置,包括:
码本存储模块,用于保存第一码本和第二码本,其中第一码本的码字数量大于第二码本的码字数量;
接收模块,用于接收宽带编码信号;
量化解码模块,用于将接收模块收到的宽带编码信号进行量化解码,得到X个频域变换系数,其中对相对重要的宽带编码信号以第一码本进行量化解码,得到Y个频域变换系数,对剩余的宽带编码信号以第二码本进行量化解码,得到X-Y个频域变换系数,X≥Y≥1;
频时变换模块,用于将量化解码模块得到的X个频域变换系数进行频时变换,得到时域的语音信号。
本发明的实施方式还提供了一种语音解码装置,包括:
比值计算模块,用于对包括至少两个频域量化信号的量化块,计算平均频谱幅度和最大频谱幅度的比值;
裁减模块,用于根据比值计算模块得到的比值裁减量化块中频域量化信号的精细频谱结构,其中,比值越小对精细频谱结构的裁减程度越大;
频时变换模块,用于对经裁减的频域量化信号进行频时变换得到时域的语音信号。
本发明实施方式与现有技术相比,主要效果在于:由于对相对重要的MDCT系数采用包含更多的码字数量的码本进行量化,可使得量化后的MDCT系数更接近于原始的MDCT系数,从而提高了编码效率,减少主观听觉失真。
附图说明
图1是根据本发明第一实施方式的语音编码发送方法示意图;
图2是根据本发明第一实施方式中对窄带语音信号的处理流程图;
图3是根据本发明第一实施方式中对残差信号的绝对值进行量化编码的示意图;
图4是根据本发明第一实施方式中对宽带语音信号的处理流程图;
图5是根据本发明第二实施方式的语音接收解码方法示意图;
图6是根据本发明第二实施方式中获取窄带语音信号的处理流程图;
图7是根据本发明第二实施方式中为残差信号添加符号信息的示意图;
图8是根据本发明第二实施方式中获取宽带语音信号的处理流程图;
图9是根据本发明第二实施方式中对MDCT系数进行精细频谱结构裁减示意图;
图10是根据本发明第二实施方式中的丢包补偿流程图;
图11是根据本发明第二实施方式中的复用MDCT引入的窄带缓冲区示意图;
图12是根据本发明第二实施方式中的自适应网络状态比特流裁减示意图;
图13是根据本发明第四实施方式的语音编码发送装置的结构示意图;
图14是根据本发明第五实施方式的语音编码发送装置的结构示意图;
图15是根据本发明第六实施方式的语音接收解码装置的结构示意图;
图16是根据本发明第七实施方式的语音接收解码装置的结构示意图;
图17是根据本发明第八实施方式的语音解码方法流程图;
图18是根据本发明第九实施方式的语音解码装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明的第一实施方式涉及一种语音编码发送方法,在本实施方式中,编码端通过分析正交镜像滤波器,将16kHz的信号分为低频部分的窄带语音信号,和高频部分的宽带语音信号。对窄带语音信号进行窄带编码,得到基本窄带编码信号,并对得到的基本窄带编码信号进行解码,得到解码信号,将窄带语音信号与对应的解码信号相减,得到残差信号,通过对残差信号进行量化编码,得到增强窄带编码信号。对宽带语音信号进行改进型离散余弦变换(ModifiedDiscrete Cosine Transform,简称“MDCT”)编码的处理过程,得到宽带编码信号。最后将得到的基本窄带编码信号、增强窄带编码信号、和宽带编码信号复用为一个码流后发送给解码端,如图1所示。
本实施方式中对经分析正交镜像滤波器后,得到的窄带语音信号进行的具体处理流程如图2所示。
在步骤210中,编码端对得到的窄带语音信号进行窄带编码,得到基本窄带码流。具体地说,由于G.711技术采用脉冲编码调制(Pulsed Code Modulation,简称“PCM”)的语音编解码标准(A律或μ律),传输带宽为64kbit/s(千比特每秒),这种方式的压缩对语音信号的损失很小。因此,本实施方式以对窄带语音信号进行G.711编码为例进行说明。G.711A律方法将13比特的线性PCM样本压缩为8比特的对数PCM格式。G.711μ律方法将14比特的线性PCM样本压缩为8比特的对数PCM格式。对窄带语音信号进行G.711编码后,得到基本窄带码流。
接着,进入步骤220,编码端对经G.711编码后的基本窄带编码信号进行解码,得到解码信号。具体地说,当G.711编码器对N点输入信号S(i)编码后,立即在编码端进行解码,得到该N点G.711解码后的信号
接着,进入步骤230,用未经G.711编码的窄带语音信号和对应的解码信号相减,得到残差信号。具体地说,可以将N点输入信号S(i)分别减去相应的经G.711解码后的信号得到各信号的残差信号(即量化误差)e(i):
接着,进入步骤240,对得到的各残差信号进行量化编码,得到增强窄带编码信号。具体地说,为了简化对各残差信号进行量化编码的处理过程,可以先取出各残差信号的符号信息,即对各残差信号的绝对值进行量化编码,如图3所示。
在量化编码的过程中,需要先根据编码端与解码端均可获知的关联信息,对残差信号的绝对值进行归一化,再对经归一化后的残差信号的绝对值进行量化。通过对残差信号的绝对值进行归一化,使得残差信号的范围被控制在预定的范围之内,进而节约了用于传输残差信号的资源。
本实施方式中的关联信息为上述N个解码信号的能量之和,或上述N个解码信号的平均能量,即每N点对应一个关联信息。比如说,当前帧N=8,经G.711解码后的输出的N个解码信号为{80,150,500,850,700,550,300,200},则这8个点对应的以能量之和为关联信息的值为这8个值的平方和,即1923900;这8个点以平均能量为关联信息的值为能量和除以8,即240487.5。由于在解码端也可通过解码信号得到该关联信息,因此该关联信息无需在编码端与解码端之间进行传输,节约了传输资源。需要说明的是,该关联信息可以在本步骤中进行计算,也可以在步骤230或步骤220中进行计算。
编码端可通过以下方式,将得到的关联信息用于对残差信号的绝对值进行归一化:将与N个解码信号相对应的N个残差信号的绝对值,分别乘以该关联信息的倒数,得到N个归一化后的残差信号的绝对值。
然后,通过对归一化后的残差信号的绝对值,进行量化,得到增强窄带编码信号。由于该增强窄带编码信号中携带了解码后的各解码信号与语音信号的量化误差信息,使得解码端能够根据各解码信号的量化误差信息,还原出相应的语音信号,避免了在窄带编码过程中各语音信号因量化编码而导致的信息损失,从而提高了语音质量,增强了窄带性能。
本实施方式中对经分析正交镜像滤波器后得到的宽带语音信号,按如图4所示的流程进行处理。下面对图4中的宽带语音信号处理方法进行说明。
在步骤410中,编码端对得到的N个宽带语音信号进行时频变换,得到X个频域变换系数。具体地说,编码端对N个宽带语音信号进行MDCT编码,可得到X个MDCT系数,X的值为2/N。以N=80为例,MDCT的变换公式如下:
接着,进入步骤420,编码端将得到的X个MDCT系数分为M个子带,每个子带包含至少一个MDCT系数。然后,分别对每个子带进行归一化。比如说,在每个子带范围内,计算绝对值最大的MDCT系数,利用该绝对值最大的MDCT系数,对该每个子带范围内的各MDCT系数进行归一化。
接着,进入步骤430,对各子带的用于归一化的归一化因子进行量化,得到量化后的各子带的归一化因子。
在步骤440中,对经归一化后的各子带中的MDCT系数进行量化,得到宽带编码信号。在对MDCT系数进行量化的过程中,需要对相对重要的Y个MDCT系数(如前Y个MDCT系数)以第一码本进行量化,对剩余的X-Y个MDCT系数以第二码本进行量化,第一码本的码字数量大于第二码本的码字数量,X≥Y≥1。其中,相对重要的Y个MDCT系数为至少一个子带中的所有MDCT系数。
具体地说,如果经MDCT编码后,得到32个MDCT系数,并且将这32个MDCT系数划分为7个子带,则在码本矢量的维数为4维的情况下(即一个码字可对4个MDCT系数进行量化),可以将这32个MDCT系数划分为[4,4,4,4,4,4,8]这样7个子带。假定相对重要的Y个MDCT系数为前12个MDCT系数,则以第一码本对第一至第三子带中的12个归一化后的MDCT系数进行量化,以第二码本对第四至第七子带中的20个归一化后的MDCT系数进行量化,第一码本的码字数量大于第二码本的码字数量。由于对相对重要的MDCT系数采用包含更多的码字数量的码本进行量化,可使得量化后的MDCT系数更接近于原始的MDCT系数,从而提高了编码效率,减少主观听觉失真。
其中,第一码本和第二码本可以均为独立的码本,使得量化后的MDCT系数可以通过码本中的码字索引即可表示,提高了传输效率。或者,第一码本包括至少两个基本码本,第二码本包括至少一个基本码本,第一码本和第二码本共享至少一个基本码本,比如说,选择一个通用的码本用于大多数MDCT系数的量化,而对某些特定的譬如失真较大的码字使用另外的一个或多个码本进行量化,从而提高编码效率,减少主观听觉失真。在这种情况下,虽然量化后的MDCT系数需要通过码本索引以及码字索引来共同表示,但由于第一码本和第二码本能够共享基本码本中的码字,因此可节约编码端与解码端内的码本存储空间。而且,由于第一码本和第二码本是对归一化后的MDCT系数进行量化,也就是说,需要量化的MDCT系数都被限制在一个较小的范围内,因此,可以进一步节约编码端与解码端内的码本存储空间。
需要说明的是,本实施方式中的宽带语音信号的编码是基于MDCT的,在实际应用中,也可以是基于快速傅里叶变换(Fast Fourier Transform,简称“FFT”)的。另外,本实施方式中的步骤430和步骤440并无明确的先后关系,也就是说,步骤430也可以在步骤440之后。
编码端在获取到宽带编码信号、基本窄带编码信号、和增强窄带编码信号后,将该宽带编码信号、基本窄带编码信号、和增强窄带编码信号,复用为码流后发送给解码端。另外,由于在本实施方式中,在对残差信号进行量化编码的过程中,是对残差信号的绝对值进行量化编码的;在对各子带的MDCT系数进行量化之前,先对各子带的MDCT系数在子带范围内进行了归一化,因此,编码端还需要将各残差信号的符号信息,以及各子带的量化后的归一化因子发送给解码端。
本发明的第二实施方式涉及一种语音接收解码方法,本实施方式对应于第一实施方式的语音编码发送方法。在本实施方式中,解码端将收到的码流进行解复用,得到基本窄带编码信号、增强窄带编码信号、和宽带编码信号。根据基本窄带编码信号和增强窄带编码信号得到窄带语音信号,根据宽带编码信号得到宽带语音信号,将得到的窄带语音信号和宽带语音信号进行综合正交镜像滤波,得到语音信号,如图5所示。其中,在发生丢包时,利用丢包前的窄带语音信号预测出基音周期,根据预测的基音周期,恢复出丢失的窄带语音信号和宽带语音信号,如图5中的窄带丢包补偿模块和宽带丢包补偿模块所示。下面分别对根据基本窄带编码信号和增强窄带编码信号得到窄带语音信号的处理流程,和根据宽带编码信号得到宽带语音信号的处理流程进行说明。
根据基本窄带编码信号和增强窄带编码信号得到窄带语音信号的处理流程如图6所示。
在步骤610中,解码端对解复用出的基本窄带编码信号进行解码,得到基本窄带解码信号。针对第一实施方式中的案例,解码端对解复用出的基本窄带编码信号进行G.711解码,得到基本窄带解码信号。在本步骤中,可以根据获得的基本窄带解码信号,计算关联信息。解码端计算关联信息的方式与编码端计算关联信息的方式完全相同,在此不再赘述。
在步骤620中,解码端对解复用出的增强窄带编码信号进行量化解码,得到残差信号。具体地说,在本步骤中,需要先对收到的增强窄带编码信号进行量化解码,得到归一化后的各残差信号,再根据计算出的关联信息,对归一化后的各残差信号进行归一化还原,得到各残差信号。比如说,关联信息为N个解码信号的能量之和,将与这N个解码信号相对应的N个归一化后的残差信号,分别乘以该关联信息,得到N个归一化还原后的残差信号。
由于编码端在对各残差信号进行量化编码的处理过程中,先取出了各残差信号的符号信息,即对各残差信号的绝对值进行量化编码。因此,在解码端中进行量化解码后得到的各残差信号,实际上也是各残差信号的绝对值。所以,解码端还需接收来自编码端的各残差信号的符号信息,将归一化还原后的残差信号分别加上相应的符号信息,得到完整的表示量化误差的残差信号,如图7所示。
接着,在步骤630中,将加上符号信息的各残差信号分别与相应的基本窄带解码信号相加,得到窄带语音信号。
根据宽带编码信号得到宽带语音信号的处理流程如图8所示,在步骤810中,解码端对宽带编码信号进行量化解码,得到X个频域变换系数。具体地说,解码端对宽带编码信号中对相对重要的宽带编码信号以第一码本进行量化解码,得到Y个频域变换系数,对剩余的宽带编码信号以第二码本进行量化解码,得到X-Y个频域变换系数,第一码本的码字数量大于第二码本的码字数量,X≥Y≥1。
针对第一实施方式中的案例,解码端对宽带编码信号中对应第一至第三子带的宽带编码信号,以与编码端相同的第一码本进行量化解码,得到12个MDCT系数;对宽带编码信号中对应第四至第七子带的宽带编码信号,以与编码端相同的第二码本进行量化解码,得到20个MDCT系数。该第一码本和第二码本可以均为独立的码本,此时,根据码本中的码字索引对宽带编码信号进行量化解码。或者,第一码本包括至少两个基本码本,第二码本包括至少一个基本码本,第一码本和第二码本共享至少一个基本码本,此时,根据码本索引和码字索引对宽带编码信号进行量化解码。
接着,在步骤820中,解码端对量化解码后的各子带的频域变换系数(即MDCT系数)分别进行归一化还原。具体地说,由于编码端是对经归一化后的各子带中的MDCT系数进行量化的,因此,解码端还需要接收经量化的各子带的归一化因子,然后,在本步骤中,对经量化的各子带的归一化因子进行量化解码,得到各子带的归一化因子,并根据各子带的归一化因子分别对各子带中的MDCT系数进行归一化还原,恢复出还原后的MDCT系数。
接着,在步骤830中,解码端对还原后的MDCT系数进行自适应后滤波。具体地说,解码端对包括至少两个MDCT系数的MDCT系数块,计算平均频谱幅度和最大频谱幅度的比值,根据计算出的比值大小裁减MDCT系数块中MDCT系数的精细频谱结构,其中,比值越小对精细频谱结构的裁减程度越大。
根据计算出的比值大小裁减MDCT系数块中MDCT系数的精细频谱结构的方式如下:对MDCT系数块中的每个MDCT系数,根据该比值计算对应该MDCT系数的调整因子,其中,该调整因子是该比值的单调函数,该比值越大则该调整因子越大。然后,对每个MDCT系数乘以该MDCT系数对应的调整因子。该调整因子的fac的计算公式如下: 其中,beta=1.2-AvgAmp/MaxAmp,MaxAmp为MDCT系数块的最大频谱幅度,AvgAmp为MDCT系数块的平均频谱幅度,X[i]为MDCT系数块中的MDCT系数,n为MDCT系数块中包含的MDCT系数数目。
以4个MDCT系数为一个MDCT系数块为例进行说明,如图9所示,计算X(1)、X(2)、X(3)、X(4)的最大频谱幅度MaxAmp,和平均频谱幅度AvgAmp。根据AvgAmp/MaxAmp的值,对X(i)进行精细频谱结构裁减(i=1,2,3,4),如X(i)=fac×X(i)。其中, beta=1.2-AvgAmp/MaxAmp。
由于正弦频谱的量化会导致正弦频谱相邻的频谱产生较大的失真,表现形式为频谱的波谷处被提升,噪声很容易被人察觉。因此,在本步骤中,根据每个量化块的平均频谱幅度和最大频谱幅度的比值,来决定该量化块中MDCT系数的精细频谱结构裁减的程度。平均频谱幅度和最大频谱幅度的比值越小,则需要加大精细频谱结构裁减的程度,平均频谱幅度和最大频谱幅度的比值越大,则需要减小精细频谱结构裁减的程度,以便达到减少量化噪声的效果。如图9所示,在正弦部分占主导的信号条件下,第1,3,4个MDCT系数量化引入的噪声会令人容易觉察到编码带来的损伤。而通过判断平均频谱幅度和最大频谱幅度的比值来进行精细频谱结构裁减,能很好的自适应不同的编码块特性,以达到性能的优化。当然,本实施方式中也可以采用固定的包络裁减来达到优化性能的目的。
接着,在步骤840中,将裁减后的MDCT系数进行频时变换,即逆MDCT变换,得到时域的语音信号,该时域的语音信号为宽带语音信号。
解码端在得到宽带语音信号和窄带语音信号之后,将窄带语音信号和宽带语音信号进行综合正交镜像滤波,得到完整的语音信号。
值得一提的是,本实施方式中,可通过丢包补偿来提高丢包处宽带语音的性能。具体地说,在发生丢包时,利用丢包前的窄带语音预测出基音周期,根据预测的基音周期恢复出丢失的窄带语音信号和宽带语音信号。由于宽带的丢包补偿容易带来7kHz~8kHz频带的失真,因此,需要加上7kHz以下的频域低通滤波以解决该问题,如图10所示。另外,为了和丢包前的信息保持连续性,丢包前的信息需要延时一段输出,这段时间建议是3.75ms。由于在对宽带语音编码信号使用MDCT的过程中,将会带来一个变换块的延时,而恢复出G.711窄带语音是没有延时的,因此,可以通过复用MDCT引入的窄带缓冲区,使得丢包补偿的处理流程不会带来任何额外的延时,如图11所示。
本发明的第三实施方式涉及一种语音编码发送方法,本实施方式与第一实施方式大致相同,其区别在于,在第一实施方式中,编码端在得到基本窄带编码信号、增强窄带编码信号和宽带编码信号后,直接将得到的基本窄带编码信号、增强窄带编码信号和宽带编码信号发送给解码端。而在本实施方式中,在发送基本窄带编码信号、增强窄带编码信号和宽带编码信号之前,先根据当前网络状态判断是否需要裁减编码信号,如果判定为需要裁减编码信号,则发送基本窄带编码信号(如图12中的模式1),或基本窄带编码信号和增强窄带编码信号的组合(如图12中的模式2),或基本窄带编码信号和宽带编码信号的组合(如图12中的模式3);如果判定为不需要裁减编码信号,则发送基本窄带编码信号、增强窄带编码信号和宽带编码信号(如图12中的模式0)。
由于在本实施方式中,可根据当前网络状态裁减编码信号,因此可以在网络状态较差时保证基本音质的通信,在网络状态较好时进行较高音质的通信。
相应的,在解码端接收码流时,同样需要先根据当前网络状态判断编码信号是否被裁减,如果判定为编码信号被裁减,则接收窄带编码信号,或基本窄带编码信号和增强窄带编码信号的组合,或基本窄带编码信号和宽带编码信号的组合;如果判定为编码信号未被裁减,则接收基本窄带编码信号、增强窄带编码信号和宽带编码信号。
另外,值得一提的是,本实施方式中对窄带语音信号也可以按现有技术的方式进行处理,比如说,在对窄带语音信号进行编码,得到窄带语音编码信号后,直接将得到窄带语音编码信号和宽带语音编码信号发送给解码端。此时,解码端需要以相应的方式对收到的编码信号进行处理,如将收到的编码信号分为窄带语音编码信号和宽带语音编码信号,分别进行解码。
本发明的第四实施方式涉及一种语音编码发送装置,如图13所示,包括:时频变换模块,用于对语音信号进行时频变换,得到X个频域变换系数;码本存储模块,用于保存第一码本和第二码本,其中第一码本的码字数量大于第二码本的码字数量;量化模块,用于对该时频变换模块得到的X个频域变换系数进行量化得到宽带编码信号,其中对相对重要的Y个频域变换系数以第一码本进行量化,对剩余的X-Y个频域变换系数以第二码本进行量化,X≥Y≥1;发送模块,用于发送该量化模块得到的宽带编码信号。由于对相对重要的MDCT系数采用包含更多的码字数量的码本进行量化,可使得量化后的MDCT系数更接近于原始的MDCT系数,从而提高了编码效率,减少主观听觉失真。
其中,码本存储模块独立地存储该第一码本和第二码本;或者,码本存储模块存储该第一码本和第二码本所包含的所有基本码本,其中,第一码本包括至少两个基本码本,第二码本包括至少一个基本码本,第一码本和第二码本共享至少一个基本码本。时频变换可以是MDCT编码,时频变换后得到X个MDCT系数,相对重要的Y个频域变换系数为前Y个MDCT系数。
量化模块包含以下子模块:第一子模块,用于将X个频域变换系数分为M个子带,每个子带包含至少一个频域变换系数,分别对每个子带进行归一化;第二子模块,用于对经归一化后的各子带中的频域变换系数进行量化,并对各子带的用于归一化的归一化因子进行量化,相对重要的Y个频域变换系数为至少一个子带中的所有频域变换系数。该发送模块还用于发送量化后的各子带的归一化因子。
本发明的第五实施方式涉及一种语音编码发送装置,本实施方式在第四实施方式的基础上,进一步将语音信号分为宽带语音信号和窄带语音信号,时频变换模块对宽带语音信号进行时频变换,得到X个频域变换系数,并且,本实施方式增加了用于对窄带语音信号进行处理的模块,具体包括以下模块:
窄带编码模块,用于对窄带语音信号进行窄带编码,得到基本窄带编码信号;
窄带解码模块,用于对窄带编码模块得到的基本窄带编码信号进行解码,得到解码信号;
残差信号获取模块,用于将窄带语音信号和对应的解码信号相减,得到残差信号;
量化编码模块,用于对残差信号获取模块得到的残差信号进行量化编码,得到增强窄带编码信号。
如图14所示,本实施方式的语音编码发送装置还包括:正交镜像滤波分析模块,用于对原始语音信号进行分析正交镜像滤波,得到低频部分的窄带语音信号和高频部分的宽带语音信号,并将该窄带语音信号输出到该窄带编码模块和该残差信号获取模块,将该宽带语音信号输出到该时频变换模块。发送模块将该窄带编码模块得到的基本窄带编码信号、量化编码模块得到的增强窄带编码信号、和量化模块得到的宽带编码信号,复用为一个码流后发送。
本发明的第六实施方式涉及一种语音接收解码装置,本实施方式对应于第四实施方式的语音编码发送装置。如图15所示,包括:码本存储模块,用于保存第一码本和第二码本,其中第一码本的码字数量大于第二码本的码字数量;接收模块,用于接收宽带编码信号;量化解码模块,用于将该接收模块收到的宽带编码信号进行量化解码,得到X个频域变换系数,其中对相对重要的宽带编码信号以第一码本进行量化解码,得到Y个频域变换系数,对剩余的宽带编码信号以第二码本进行量化解码,得到X-Y个频域变换系数,X≥Y≥1;频时变换模块,用于将量化解码模块得到的X个频域变换系数进行频时变换,得到时域的语音信号。
其中,码本存储模块独立地存储第一码本和第二码本;或者,码本存储模块存储第一码本和第二码本所包含的所有基本码本,其中,第一码本包括至少两个基本码本,第二码本包括至少一个基本码本,第一码本和第二码本共享至少一个基本码本。量化解码模块得到的X个频域变换系数为MDCT系数,频时变换模块进行的频时变换为逆MDCT变换。
该量化解码模块得到的X个MDCT系数为被划分为M个子带,每个子带包含至少一个MDCT系数,该接收模块还用于接收经量化的各子带的归一化因子。量化解码模块还包含以下子模块:第一子模块,用于将收到的经量化的各子带的归一化因子进行量化解码,得到各子带的归一化因子;第二子模块,用于将各子带的归一化因子分别对量化解码后得到的各子带的MDCT系数进行归一化的还原,得到归一化还原后的X个MDCT系数。该频时变换模块对归一化还原后的X个MDCT系数进行频时变换,得到时域的语音信号。
本发明的第七实施方式涉及一种语音接收解码装置,本实施方式对应于第五实施方式的语音编码发送装置。因此,本实施方式中的接收模块还需接收基本窄带编码信号和增强窄带编码信号,频时变换模块得到时域的语音信号为宽带语音信号。另外,本实施方式还需增加用于对基本窄带编码信号和增强窄带编码信号进行处理的模块,具体包括以下模块:
窄带解码模块,用于对接收模块收到的基本窄带编码信号进行窄带解码,得到基本窄带解码信号;
残差信号获取模块,用于对接收模块收到的增强窄带编码信号进行量化解码,得到残差信号;
语音信号获取模块,用于将窄带解码模块得到的基本窄带解码信号分别与相应的残差信号相加,得到窄带语音信号。
如图16所示,接收模块将收到的基本窄带编码信号输入到窄带解码模块,将增加窄带编码信号输入到残差信号获取模块,将宽带编码信号输入到量化解码模块。频时变换模块将量化解码模块得到的X个频域变换系数进行频时变换,得到时域的宽带语音信号输入到正交镜像滤波综合模块,语音信号获取模块将得到的窄带语音信号也输入到正交镜像滤波综合模块,该正交镜像滤波综合模块用于将窄带语音信号和宽带语音信号进行综合正交镜像滤波,得到完整的语音信号。
本发明的第八实施方式涉及一种语音解码方法,具体流程如图17所示。
在步骤1710中,对包括至少两个频域量化信号的量化块,计算平均频谱幅度和最大频谱幅度的比值。
接着,进入步骤1720,根据计算到的比值裁减该量化块中频域量化信号的精细频谱结构,以便达到减少量化噪声的效果。其中,比值越小对精细频谱结构的裁减程度越大。
具体地说,对该量化块中的每个频域量化信号,根据平均频谱幅度和最大频谱幅度的比值,计算对应该频域量化信号的调整因子,其中,该调整因子是该比值的单调函数,比值越大该调整因子越大。调整因子fac的计算公式如下: 其中,beta=1.2-AvgAmp/MaxAmp,Maxmp为该量化块的最大频谱幅度,AvgAmp为该量化块的平均频谱幅度,X[i]为该量化块中的频域量化信号,n为该量化块中包含的频域量化信号数目。
在计算出频域量化信号对应的调整因子fac后,通过将该频域量化信号乘以该调整因子,对该频域量化信号进行精细频谱结构的裁减。
接着,在步骤1730,对经裁减的频域量化信号进行频时变换得到时域的语音信号。该频时变换可以是逆MDCT变换。
本发明的第九实施方式涉及一种语音解码装置,如图18所示,包括:比值计算模块,用于对包括至少两个频域量化信号的量化块,计算平均频谱幅度和最大频谱幅度的比值;裁减模块,用于根据比值计算模块得到的比值裁减该量化块中频域量化信号的精细频谱结构,以达到减少量化噪声的效果。其中,比值越小对精细频谱结构的裁减程度越大;频时变换模块,用于对经裁减的频域量化信号进行频时变换得到时域的语音信号。
其中,裁减模块包括以下子模块:调整因子获取子模块,用于对量化块中的每个频域量化信号,根据比值计算模块得到的比值,计算对应该频域量化信号的调整因子,其中,该调整因子是该比值的单调函数,该比值越大该调整因子越大;乘法子模块,用于对每个频域量化信号乘以该频域量化信号对应的调整因子。
调整因子获取子模块中调整因子fac的计算公式如下:
其中,beta=1.2-AvgAmp/MaxAmp,MaxAmp为量化块的最大频谱幅度,AvgAmp为量化块的平均频谱幅度,X[i]为量化块中的频域量化信号,n为量化块中包含的频域量化信号数目。
综上所述,在本发明的实施方式中,对语音信号进行时频变换,得到X个频域变换系数,对这X个频域变换系数进行量化得到宽带编码信号,其中对相对重要的Y个频域变换系数以第一码本进行量化,对剩余的X-Y个频域变换系数以第二码本进行量化,第一码本的码字数量大于第二码本的码字数量,X≥Y≥1,发送得到的宽带编码信号。由于对相对重要的MDCT系数采用包含更多的码字数量的码本进行量化,可使得量化后的MDCT系数更接近于原始的MDCT系数,从而提高了编码效率,减少主观听觉失真。
根据每个量化块的平均频谱幅度和最大频谱幅度的比值,来裁减该量化块中频域量化信号的精细频谱结构,其中,比值越小对精细频谱结构的裁减程度越大,以便达到减少量化噪声的效果。
第一码本和第二码本可以均为独立的码本,使得量化后的MDCT系数可以通过码本中的码字索引即可表示,提高了传输效率。或者,第一码本包括至少两个基本码本,第二码本包括至少一个基本码本,第一码本和第二码本共享至少一个基本码本,由于第一码本和第二码本能够共享至少一个基本码本中的码字,因此可节约编码端与解码端内的码本存储空间。
对归一化后的MDCT系数进行量化,使得需要量化的MDCT系数都被限制在一个较小的范围内,因此,可以进一步节约编码端与解码端内的码本存储空间。
根据当前网络状态裁减编码信号,可以在网络状态较差时保证基本音质的通信,在网络状态较好时进行较高音质的通信。
在发生丢包时,可利用丢包前的窄带语音预测出基音周期,根据预测的基音周期恢复出丢失的窄带语音信号和宽带语音信号,使得丢包处宽带语音的性能得以提高。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (3)
1.一种语音解码方法,其特征在于,包括以下步骤:
对包括至少两个频域量化信号的量化块,计算平均频谱幅度和最大频谱幅度的比值;
根据所述比值裁减所述量化块中频域量化信号的精细频谱结构,其中,所述比值越小对所述精细频谱结构的裁减程度越大;
对经所述裁减的频域量化信号进行频时变换得到时域的语音信号;
其中,所述裁减的步骤中包括以下子步骤:
对所述量化块中的每个频域量化信号,根据所述比值计算对应该频域量化信号的调整因子,其中,该调整因子是所述比值的单调函数,所述比值越大该调整因子越大;
对每个所述频域量化信号乘以该频域量化信号对应的调整因子;
所述调整因子fac的计算公式如下:
其中,beta=1.2-AvgAmp/MaxAmp,MaxAmp为所述量化块的最大频谱幅度,AvgAmp为所述量化块的平均频谱幅度,为所述量化块中的频域量化信号,n为所述量化块中包含的频域量化信号数目。
2.根据权利要求1所述的语音解码方法,其特征在于,所述频时变换是逆MDCT变换。
3.一种语音解码装置,其特征在于,包括:
比值计算模块,用于对包括至少两个频域量化信号的量化块,计算平均频谱幅度和最大频谱幅度的比值;
裁减模块,用于根据所述比值计算模块得到的比值裁减所述量化块中频域量化信号的精细频谱结构,其中,所述比值越小对所述精细频谱结构的裁减程度越大;
频时变换模块,用于对经所述裁减的频域量化信号进行频时变换得到时域的语音信号;
其中,所述裁减模块包括以下子模块:
调整因子获取子模块,用于对所述量化块中的每个频域量化信号,根据所述比值计算对应该频域量化信号的调整因子,其中,该调整因子是所述比值的单调函数,所述比值越大该调整因子越大;
乘法子模块,用于对每个所述频域量化信号乘以该频域量化信号对应的调整因子;
所述调整因子获取子模块中调整因子fac的计算公式如下:
其中,beta=1.2-AvgAmp/MaxAmp,MaxAmp为所述量化块的最大频谱幅度,AvgAmp为所述量化块的平均频谱幅度,X[i]为所述量化块中的频域量化信号,n为所述量化块中包含的频域量化信号数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101267185A CN101325059B (zh) | 2007-06-15 | 2007-06-15 | 语音编解码收发方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101267185A CN101325059B (zh) | 2007-06-15 | 2007-06-15 | 语音编解码收发方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101325059A CN101325059A (zh) | 2008-12-17 |
CN101325059B true CN101325059B (zh) | 2011-12-21 |
Family
ID=40188561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101267185A Expired - Fee Related CN101325059B (zh) | 2007-06-15 | 2007-06-15 | 语音编解码收发方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101325059B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5299327B2 (ja) * | 2010-03-17 | 2013-09-25 | ソニー株式会社 | 音声処理装置、音声処理方法、およびプログラム |
CN102208188B (zh) | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN103856808B (zh) * | 2012-11-28 | 2019-05-21 | 中兴通讯股份有限公司 | 音视频信号处理设备、播放设备、系统及方法 |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10531099B2 (en) * | 2016-09-30 | 2020-01-07 | The Mitre Corporation | Systems and methods for distributed quantization of multimodal images |
CN113113032B (zh) * | 2020-01-10 | 2024-08-09 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
CN113470667B (zh) * | 2020-03-11 | 2024-09-27 | 腾讯科技(深圳)有限公司 | 语音信号的编解码方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1065168A (zh) * | 1991-02-19 | 1992-10-07 | 菲利浦光灯制造公司 | 传输系统以及用于该系统的接收机 |
WO1994007237A1 (en) * | 1992-09-21 | 1994-03-31 | Aware, Inc. | Audio compression system employing multi-rate signal analysis |
CN1224523A (zh) * | 1997-05-15 | 1999-07-28 | 松下电器产业株式会社 | 音频信号编码装置和译码装置以及音频信号编码和译码方法 |
US6108625A (en) * | 1997-04-02 | 2000-08-22 | Samsung Electronics Co., Ltd. | Scalable audio coding/decoding method and apparatus without overlap of information between various layers |
CN1331826A (zh) * | 1998-12-21 | 2002-01-16 | 高通股份有限公司 | 可变速率语音编码 |
CN1419349A (zh) * | 2001-11-13 | 2003-05-21 | 松下电器产业株式会社 | 语音编码装置、语音解码装置以及语音编码/解码方法 |
CN1909381A (zh) * | 2005-08-03 | 2007-02-07 | 上海杰得微电子有限公司 | 宽带音频压缩编码器的频带组划分方法 |
CN1910657A (zh) * | 2004-01-19 | 2007-02-07 | 松下电器产业株式会社 | 声频信号编码方法、声频信号解码方法、发送器、接收器和无线传声系统 |
-
2007
- 2007-06-15 CN CN2007101267185A patent/CN101325059B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1065168A (zh) * | 1991-02-19 | 1992-10-07 | 菲利浦光灯制造公司 | 传输系统以及用于该系统的接收机 |
WO1994007237A1 (en) * | 1992-09-21 | 1994-03-31 | Aware, Inc. | Audio compression system employing multi-rate signal analysis |
US6108625A (en) * | 1997-04-02 | 2000-08-22 | Samsung Electronics Co., Ltd. | Scalable audio coding/decoding method and apparatus without overlap of information between various layers |
CN1224523A (zh) * | 1997-05-15 | 1999-07-28 | 松下电器产业株式会社 | 音频信号编码装置和译码装置以及音频信号编码和译码方法 |
CN1331826A (zh) * | 1998-12-21 | 2002-01-16 | 高通股份有限公司 | 可变速率语音编码 |
CN1419349A (zh) * | 2001-11-13 | 2003-05-21 | 松下电器产业株式会社 | 语音编码装置、语音解码装置以及语音编码/解码方法 |
CN1910657A (zh) * | 2004-01-19 | 2007-02-07 | 松下电器产业株式会社 | 声频信号编码方法、声频信号解码方法、发送器、接收器和无线传声系统 |
CN1909381A (zh) * | 2005-08-03 | 2007-02-07 | 上海杰得微电子有限公司 | 宽带音频压缩编码器的频带组划分方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101325059A (zh) | 2008-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6518361B2 (ja) | オーディオ/音声符号化方法およびオーディオ/音声符号化装置 | |
CN101325059B (zh) | 语音编解码收发方法及装置 | |
EP2260487B1 (en) | Mixing of input data streams and generation of an output data stream therefrom | |
EP2224429B1 (en) | Embedded silence and background noise compression | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
EP2402939B1 (en) | Full-band scalable audio codec | |
US8417515B2 (en) | Encoding device, decoding device, and method thereof | |
JP2019191594A (ja) | 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 | |
US9037454B2 (en) | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT) | |
JP4390208B2 (ja) | 音声を可変レートで符号化および復号する方法 | |
EP1203370A1 (en) | Method for improving the coding efficiency of an audio signal | |
US8099275B2 (en) | Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal | |
Kovesi et al. | A scalable speech and audio coding scheme with continuous bitrate flexibility | |
CN101325058B (zh) | 语音编码发送和接收解码的方法及装置 | |
WO1998006090A1 (en) | Speech/audio coding with non-linear spectral-amplitude transformation | |
Bhatt et al. | A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods | |
JP7581265B2 (ja) | 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 | |
Viswanathan et al. | Baseband LPC coders for speech transmission over 9.6 kb/s noisy channels | |
Hoang et al. | Embedded transform coding of audio signals by model-based bit plane coding | |
AU2012202581B2 (en) | Mixing of input data streams and generation of an output data stream therefrom | |
De Meuleneire et al. | Algebraic quantization of transform coefficients for embedded audio coding | |
CN101488343A (zh) | 一种宽带语音编码器及方法 | |
Sinaga et al. | Scalable audio coding using the oversampled discrete wavelet transform and temporal masking | |
De Meuleneire et al. | Wavelet scalable speech coding using algebraic quantization | |
Ito et al. | A band extension of G. 711 speech with low computational cost for data hiding application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111221 Termination date: 20160615 |
|
CF01 | Termination of patent right due to non-payment of annual fee |