CN105247614B - 音频编码器和解码器 - Google Patents
音频编码器和解码器 Download PDFInfo
- Publication number
- CN105247614B CN105247614B CN201480024367.5A CN201480024367A CN105247614B CN 105247614 B CN105247614 B CN 105247614B CN 201480024367 A CN201480024367 A CN 201480024367A CN 105247614 B CN105247614 B CN 105247614B
- Authority
- CN
- China
- Prior art keywords
- envelope
- transform coefficients
- blocks
- transform
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 claims abstract description 101
- 238000009432 framing Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 81
- 238000013139 quantization Methods 0.000 claims description 41
- 230000005236 sound signal Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 26
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 14
- 238000009499 grossing Methods 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract description 2
- 238000000926 separation method Methods 0.000 abstract 2
- 239000013598 vector Substances 0.000 description 52
- 230000009286 beneficial effect Effects 0.000 description 19
- 230000001419 dependent effect Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004321 preservation Methods 0.000 description 11
- 238000012937 correction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 101100301783 Treponema pallidum (strain Nichols) rfuA gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本文涉及一种音频编码和解码系统(被称为音频编解码器系统)。具体地,本文涉及一种特别适合于话音编码/解码的基于变换的音频编解码器系统。描述了被配置为将语音信号编码为比特流的基于变换的语音编码器(100、170)。编码器(100、170)包括被配置为接收块集合(132、332)的组帧单元(101);其中,块集合(132、332)包括变换系数的多个顺序块(131);其中,多个块(131)指示语音信号的采样;其中,变换系数的块(131)包括用于对应的多个频率区间(301)的多个变换系数。此外,编码器(100、170)包括包络估计单元(102),其被配置为基于变换系数的多个顺序块(131)来确定当前包络(133);其中,当前包络(133)指示关于对应的多个频率区间(301)的多个频谱能量值(303)。此外,编码器(100、170)包括包络插值单元(104),其被配置为基于当前包络(133)来分别地确定用于变换系数的多个块(131)的多个插值的包络(136)。此外,编码器(100、170)包括平整单元(108),其被配置为通过分别使用对应的多个插值的包络(136)使变换系数的对应的多个块(131)平整来确定平整的变换系数的多个块(140);其中比特流基于平整的变换系数的多个块(140)而确定。
Description
技术领域
本文件涉及一种音频编码和解码系统(被称为音频编解码器系统)。具体地,本文件涉及一种特别适合于话音编码/解码的基于变换的音频编解码器系统。
背景技术
通用的感知音频编解码器通过按采样的覆盖几十毫秒(例如,20ms)的块大小使用诸如修正离散余弦变换(MDCT)的变换来实现相对高的编码增益。这样的基于变换的音频编解码器系统的例子是高级音频编码(AAC)或高效率(HE)-AAC。然而,当将这样的基于变换的音频编解码器系统用于话音信号时,话音信号的质量向着较低比特率恶化快于音乐信号,尤其是在干瘪的(非回响的)语音信号的情况下。因此,基于变换的音频编解码器系统本质上并不非常适合于话音信号的编码或者包括话音分量的音频信号的编码。换句话说,与对于话音信号实现的编码增益相比,基于变换的音频编解码器系统就对于音乐信号实现的编码增益而言表现出不对称性。该不对称性可以通过向基于变换的编码提供附件来解决,其中,这些附件旨在改进频谱成形或信号匹配。关于这样的附件的例子是预/后成形、时间噪声成形(TNS)和时间扭曲MDCT。此外,该不对称性可以通过基于短期预测滤波(LPC)和长期预测(LTP)合并经典的时域语音编码器来解决。
可以表明,通过向基于变换的编码提供附件而获得的改进通常不足以拉平音乐信号和语音信号的编码之间的性能差距。另一方面,经典的时域语音编码器的合并填平了性能差距,但是,达到了使得性能不对称性被反转到相对方向的程度。这是由于经典的时域语音编码器对人类语音生成系统进行建模并且针对语音信号的编码进行了优化的事实而导致的。
鉴于以上,基于变换的音频编解码器可以与经典的时域语音编解码器组合使用,其中,经典的时域语音编解码器用于音频信号的语音段,并且其中,基于变换的编解码器用于音频信号的其余段。然而,单个音频编解码器系统中的时域编解码器和变换域编解码器的共存需要用于基于音频信号的性质在不同编解码器之间切换的可靠工具。此外,时域编解码器(用于语音内容)和变换域编解码器(用于其余内容)之间的实际切换可能难以实现。具体地,可能难以确保时域编解码器和变换域编解码器之间的平滑过渡(反之亦然)。此外,为了使时域编解码器对于非语音信号的不可避免的偶然的编码(例如,对于具有乐器背景的歌声的编码)更加鲁棒,可能需要对时域编解码器进行修改。本文件解决了音频编解码器系统的以上提及的技术问题。具体地,本文件描述了如下的音频编解码器系统,该音频编解码器系统仅对语音编解码器的关键特征进行转化,从而对语音和音乐实现平稳性能,同时保持在基于变换的编解码器架构内。换句话说,本文件描述了特别适合于语音或话音信号的编码的基于变换的音频编解码器。
发明内容
根据一方面,描述了一种基于变换的语音编码器。该语音编码器被配置为将语音信号编码为比特流。应注意,在下面,描述这样的基于变换的语音编码器的各个方面。明确地指出,这些方面可以以各种方式彼此组合。具体地,在不同的独立权利要求的从属权利要求中描述的方面可以与其它独立权利要求组合。此外,在编码器的上下文中描述的方面可以以类似的方式应用于对应的解码器。
语音编码器可以包括被配置为接收块集合的组帧单元。块集合可以对应于在本文件的详细描述中描述的移位的块集合。可替代地,块集合可以对应于在本文件的详细描述中描述的当前块集合。块集合包括变换系数的多个顺序块,所述多个顺序块指示语音信号的采样。具体地,块集合可以包括变换系数的四个或更多个块。所述多个顺序块中的块可能已经使用变换单元从语音信号确定,所述变换单元被配置为将语音信号的预定数量的采样从时域变换到频域中。具体地,变换单元可以被配置为执行时域到频域变换,诸如修正离散余弦变换(MDCT)。就这一点而论,变换系数的一个块可以包括用于对应的多个频率区间的多个变换系数(也被称为频率系数或频谱系数)。具体地,变换系数的一个块可以包括MDCT系数。
频率区间的数量或块的大小通常取决于变换单元执行的变换的大小。在优选例子中,所述多个顺序块中的块对应于所谓的包括例如256个频率区间的短块。除了短块之外,变换单元可以被配置为产生所谓的包括例如1024个频率区间的长块。长块可以被音频编码器用于对输入音频信号的静止段进行编码。然而,用于对语音信号(或输入音频信号内所包括的语音段)进行编码的所述多个顺序块可以仅包括短块。具体地,变换系数的块可以包括在256个频率区间中的256个变换系数。
更一般地,频率区间的数量或块的大小可以使得变换系数的一个块覆盖在语音信号的3至7毫秒(例如,语音信号的5ms)的范围内。块的大小可以被选为使得语音编码器可以与视频编码器编码的视频帧同步。变换单元可以被配置为产生变换系数的具有不同数量的频率区间的块。举例来说,变换单元可以被配置为以48kHz采样速率产生具有1920、960、480、240、120个频率区间的块。覆盖在语音信号的3至7ms的范围内的块大小可以用于语音编码器。在以上例子中,包括240个频率区间的块可以用于语音编码器。
语音编码器还可以包括包络估计单元,其被配置为基于变换系数的所述多个顺序块来确定当前包络。当前包络可以基于块集合的所述多个顺序块而确定。可以考虑附加块,例如在所述块集合正前面的一个块集合中的块。可替代地或另外地,可以考虑所谓的前瞻(look-ahead)块。总的来说,这对于提供相继的块集合之间的连续性可能是有益的。当前包络可以指示关于对应的多个频率区间的多个频谱能量值。换句话说,当前包络可以具有与所述多个顺序块内的每个块相同的尺寸。又换句话说,可以对语音信号的多个(例如,多于一个的)块确定单个当前包络。为了提供关于多个顺序块内所包括的频谱数据的有意义的统计,这是有利的。
当前包络可以指示关于对应的多个频带的多个频谱能量值。频带可以包括一个或更多个频率区间。具体地,频率区间中的一个或更多个可以包括多于一个的频率区间。每一频带的频率区间的数量可以随着频率增大而增加。换句话说,每一频带的频率区间的数量可以取决于心理声学考虑。包络估计单元可以被配置为基于落在特定频带内的多个顺序块的变换系数来确定关于该特定频带的频谱能量值。具体地,包络估计单元可被配置为基于落在特定频带内的多个顺序块的变换系数的均方根值来确定关于该特定频带的频谱能量值。就这一点而论,当前包络可以指示所述多个顺序块的频谱包络的平均频谱包络。此外,当前包络可以具有带状频率分辨率。
语音编码器还可以包括包络插值单元,其被配置为基于当前包络来分别地确定用于变换系数的所述多个顺序块的多个经插值的包络。具体地,多个经插值的包络可以基于经量化的当前包络而确定,所述经量化的当前包络也可以在对应的解码器处获得。通过这样做,确保所述多个经插值的包络在语音编码器和对应的语音解码器处可以以相同的方式确定。因此,在语音解码器的上下文中描述的包络插值单元的特征也适用于语音编码器,反之亦然。总的来说,包络插值单元可以被配置为基于当前包络来确定所述多个顺序块中的每个的频谱包络的近似(即,经插值的包络)。
语音编码器还可以包括平整单元,其被配置为通过分别使用对应的多个经插值的包络使变换系数的对应的多个块平整来确定平整的变换系数的多个块。具体地,用于特定块的经插值的包络(或者其推导的包络)可以用于使该特定块内所包括的变换系数的频谱形状平整(即,移除该频谱形状)。应注意,该平整过程不同于应用于变换系数的特定块的变白操作。也就是说,平整的变换系数不能被解释为通过经典的语音编码器的LPC(线性预测编码)分析通常生成的时域的变白的信号的变换系数。只有创建具有相对平坦的功率谱的信号的方面是共享的。然而,获得这样的平坦的功率谱的过程是不同的。如本文件中将概述的,估计的用于使变换系数的块平整的频谱包络的使用是有益的,这是因为该估计的频谱包络可以用于比特分配目的。
基于变换的语音编码器还可以包括包络增益确定单元,其被配置为分别地确定用于变换系数的所述多个块的多个包络增益。此外,基于变换的语音编码器可以包括包络细化单元,其被配置为通过分别根据多个包络增益移动多个经插值的包络来确定多个调整的包络。包络增益确定单元可以被配置为确定用于变换系数的(所述多个顺序块中的)第一块的第一包络增益,以使得:平整的变换系数的被使用第一调整的包络推导出的对应的第一块的平整的变换系数的方差、与平整的变换系数的被使用第一经插值的包络推导的对应的第一块的平整的变换系数的方差相比减小。第一调整的包络可以通过使用第一包络增益移动第一经插值的包络而确定。第一经插值的包络可以是所述多个经插值的包络中的如下经插值的包络:该包络用于变换系数的所述多个块中的变换系数的第一块。
具体地,包络增益确定单元可以被配置为确定用于变换系数的第一块的第一包络增益,以使得平整的变换系数的被使用第一调整的包络推导出的对应的第一块的平整的变换系数的方差是一。平整单元可以被配置为通过分别使用对应的多个调整的包络使变换系数的对应的多个块平整来确定平整的变换系数的所述多个块。结果,平整的变换系数的各个块均可以具有方差一。
包络增益确定单元可以被配置为将指示所述多个包络增益的增益数据插入到比特流中。结果,使得对应的解码器能够以与编码器相同的方式确定多个调整的包络。
语音编码器可以被配置为基于平整的变换系数的所述多个块来确定比特流。具体地,语音编码器可以被配置为基于平整的变换系数的所述多个块来确定系数数据,其中,系数数据被插入到比特流中。下面描述用于基于平整的变换系数的所述多个块来确定系数数据的示例手段。
基于变换的语音编码器可以包括包络量化单元,其被配置为通过对当前包络进行量化来确定经量化的当前包络。此外,包络量化单元可以被配置为将包络数据插入到比特流中,其中,包络数据指示经量化的当前包络。结果,可以使对应的解码器通过对包络数据进行解码来知道经量化的当前包络。包络插值单元可以被配置为基于经量化的当前包络来确定多个经插值的包络。通过这样做,可以确保编码器和解码器被配置为确定相同的多个经插值的包络。
基于变换的语音编码器可以被配置为在多种不同的模式下进行操作。所述不同模式可以包括短步幅模式和长步幅模式。当基于变换的语音编码器在短步幅模式下操作时,组帧单元、包络估计单元和包络插值单元可以被配置为对包括变换系数的所述多个顺序块的块集合进行处理。因此,当在短步幅模式下时,编码器可以被配置为将音频信号的段/帧再分为顺序块序列,该顺序块序列被编码器以顺序的方式处理。
另一方面,当基于变换的语音编码器在长步幅模式下操作时,组帧单元、包络估计单元和包络插值单元可以被配置为对仅包括变换系数的单个块的块集合进行处理。因此,当在长步幅模式下时,编码器可以被配置为对音频信号的整个段/帧进行处理,而不再分为块。这对于音频信号的短段/帧和/或对于音乐信号可能是有益的。当在长步幅模式下时,包络估计单元可以被配置为确定块集合内所包括的变换系数的单个块的当前包络。包络插值单元可以被配置为将用于变换系数的所述单个块的经插值的包络确定为变换系数的所述单个块的当前包络。换句话说,当在长步幅模式下时,可以绕开本文件中所描述的包络插值,并且所述单个块的当前包络可以被设置为经插值的包络(以用于进一步处理)。
根据另一方面,描述了一种被配置为对比特流进行解码以提供重构的语音信号的基于变换的语音解码器。如以上已经指示的,解码器可以包括与对应的编码器的组件类似的组件。解码器可以包括包络解码单元,其被配置为从比特流内所包括的包络数据确定经量化的当前包络。如以上所指示的,量化的当前包络通常指示关于频带的对应的多个频率区间的多个频谱能量值。此外,比特流可以包括指示重构的平整的变换系数的多个顺序块的数据(例如,系数数据)。重构的平整的变换系数的所述多个顺序块通常与编码器处的平整的变换系数的对应的多个顺序块相关联。所述多个顺序块可以对应于块集合(例如,以下所述的移位的块集合)的多个顺序块。重构的平整的变换系数的一个块可以包括用于对应的多个频率区间的多个重构的平整的变换系数。
解码器还可以包括包络插值单元,其被配置为基于经量化的当前包络来确定用于重构的平整的变换系数的所述多个块的多个经插值的包络。解码器的包络插值单元通常以与编码器的包络插值单元相同的方式操作。包络插值单元可以被配置为基于经量化的前一个包络来确定多个经插值的包络。经量化的前一个包络可以与在重构的变换系数的所述多个块正前面的重构的变换系数的多个前面的块相关联。就这一点而论,经量化的前一个包络可能已经被解码器作为关于变换系数的前一个块集合的包络数据接收(例如,在所谓的P帧的情况下)。可替代地或另外地,除了指示经量化的当前包络之外,关于所述块集合的包络数据还可以指示经量化的前一个包络(例如,在所谓的I帧的情况下)。这使得I帧能够在不知道前面的数据的情况下被解码。
包络插值单元可以被配置为通过对第一中间时刻的、关于经量化的当前包络和经量化的前一个包络的特定频率区间的频谱能量值进行插值来确定关于第一经插值的包络的特定频率区间的频谱能量值。第一经插值的包络与重构的平整的变换系数的所述多个顺序块中的第一块相关联,或者对应于该第一块。如以上所概述的,经量化的前一个包络和当前包络通常是带状包络。关于特定频带的频谱能量值对于该频带内所包括的所有频率区间通常是恒定的。
包络插值单元可以被配置为通过对关于经量化的当前包络和经量化的前一个包络的特定频率区间的频谱能量值之间的插值进行量化来确定关于第一经插值的包络的特定频率区间的频谱能量值。就这一点而论,所述多个经插值的包络可以是经量化的插值的包络。
包络插值单元可以被配置为通过对第二中间时刻的、关于经量化的当前包络和经量化的前一个包络的特定频率区间的频谱能量值进行插值来确定关于第二经插值的包络的特定频率区间的频谱能量值。第二经插值的包络可以与重构的平整的变换系数的所述多个块中的第二块相关联,或者可以对应于该第二块。重构的平整的变换系数的第二块可以在重构的平整的变换系数的第一块之后,第二中间时刻可以在第一中间时刻之后。具体地,第二中间时刻和第一中间时刻之间的差值可以对应于重构的平整的变换系数的第二块和重构的平整的变换系数的第一块之间的时间间隔。
包络插值单元可以被配置为执行以下操作中的一个或更多个:线性插值、几何插值和谐波插值。此外,包络插值单元可以被配置为在对数域中执行插值。
此外,解码器可以包括逆向平整单元,其被配置为通过分别使用对应的多个经插值的包络为重构的平整的变换系数的对应的多个块提供频谱形状来确定重构的变换系数的多个块。如以上所指示的,比特流可以指示分别用于重构的平整的变换系数的多个块的多个包络增益(在增益数据内)。基于变换的语音解码器还可以包括包络细化单元,其被配置为通过分别将多个包络增益应用于多个插值的包络来确定多个调整的包络。逆向平整单元可以被配置为通过分别使用对应的多个调整的包络为重构的平整的变换系数的对应的多个块提供频谱形状来确定重构的变换系数的所述多个块。
解码器可以被配置为基于重构的变换系数的所述多个块来确定重构的语音信号。
根据另一方面,描述了一种被配置为把语音信号编码到比特流中的基于变换的语音编码器。编码器可以包括本文件中所描述的编码器相关的特征和/或组件中的任何一个。具体地,编码器可以包括组帧单元,其被配置为接收变换系数的多个顺序块。所述多个顺序块包括当前块以及一个或更多个前面的块。如以上所指示的,所述多个顺序块指示语音信号的采样。
此外,编码器可以包括平整单元,其被配置为通过分别使用对应的当前块包络以及对应的一个或更多个前面的块包络使变换系数的对应的当前块以及一个或更多个前面的块平整来确定平整的变换系数的当前块以及一个或更多个前面的块。块包络可以对应于以上提及的调整的包络。
此外,编码器包括预测器,其被配置为基于重构的变换系数的一个或更多个前面的块并且基于一个或更多个预测器参数来确定估计的平整的变换系数的当前块。重构的变换系数的所述一个或更多个前面的块可能已经分别从平整的变换系数的所述一个或更多个前面的块推导(例如,通过使用预测器)。
预测器可以包括提取器,其被配置为基于重构的变换系数的所述一个或更多个前面的块并且基于所述一个或更多个预测器参数来确定估计的变换系数的当前块。就这一点而论,提取器可以在未平整的域中进行操作(即,提取器可以对具有频谱形状的变换系数的块进行操作)。这对于被提取器使用的用于确定估计的变换系数的当前块的信号模型可能是有益的。
此外,预测器可以包括频谱成形器,其被配置为基于估计的变换系数的当前块、基于所述一个或更多个前面的块包络中的至少一个、并且基于所述一个或更多个预测器参数中的至少一个来确定估计的平整的变换系数的当前块。就这一点而论,频谱成形器可以被配置为将估计的变换系数的当前块转换到平整的域中以提供估计的平整的变换系数的当前块。如在对应的解码器的上下文中所概述的,频谱成形器可以将多个调整的包络(或多个块包络)用于这个目的。
如以上所指示的,预测器(具体地,提取器)可以包括使用信号模型的基于模型的预测器。信号模型可以包括一个或更多个模型参数,所述一个或更多个预测器参数可以指示所述一个或更多个模型参数。基于模型的预测器的使用对于提供用于描述由子带(或频率区间)预测器所使用的预测系数的、比特率高效的方式可能是有益的。具体地,可以仅使用几个模型参数来确定整个预测系数集合,所述几个模型参数可以作为预测器数据以比特率高效的方式被发送到对应的解码器。就这一点而论,基于模型的预测器可以被配置为确定信号模型的所述一个或更多个模型参数(例如,通过使用Durbin-Levinson算法)。
此外,基于模型的预测器可以被配置为基于信号模型并且基于所述一个或更多个模型参数来确定预测系数,该预测系数将被应用于重构的变换系数的前一个块的第一频率区间中的第一重构的变换系数。具体地,可以确定用于多个重构的变换系数的多个预测系数。通过这样做,可以通过将预测系数应用于第一重构的变换系数来确定估计的变换系数的当前块的第一频率区间中的第一估计的变换系数的估计值。具体地,通过这样做,可以确定估计的变换系数的当前块的估计的变换系数。
举例来说,信号模型可以包括一个或更多个正弦模型分量,所述一个或更多个模型参数可以指示所述一个或更多个正弦模型分量的频率。具体地,所述一个或更多个模型参数可以指示多正弦信号模型的基本频率。这样的基本频率可以对应于时域中的延迟。预测器可以被配置为确定所述一个或更多个预测器参数,以使得预测误差系数的当前块的预测误差系数的均方值减小(例如,最小)。这可以使用例如Durbin-Levinson算法来实现。预测器可以被配置为将指示所述一个或更多个预测器参数的预测器数据插入到比特流中。结果,使得对应的解码器能够以与编码器相同的方式确定估计的平整的变换系数的当前块。
此外,编码器可以包括差分单元,其被配置为基于平整的变换系数的当前块并且基于估计的平整的变换系数的当前块来确定预测误差系数的当前块。比特流可以基于预测误差系数的当前块而确定。具体地,比特流的系数数据可以指示预测误差系数的当前块。
根据另一方面,描述了一种被配置为对比特流进行解码以提供重构的语音信号的基于变换的语音解码器。该解码器可以包括本文件中所描述的解码器相关的特征和/或组件中的任何一个。具体地,解码器可以包括预测器,其被配置为基于重构的变换系数的一个或更多个前面的块并且基于从比特流(的预测器数据)推导的一个或更多个预测器参数来确定估计的平整的变换系数的当前块。如在对应的编码器的上下文中所概述的,预测器可以包括提取器,其被配置为基于重构的变换系数的所述一个或更多个前面的块中的至少一个并且基于所述一个或更多个预测器参数中的至少一个来确定估计的变换系数的当前块。此外,预测器可以包括频谱成形器,其被配置为基于估计的变换系数的当前块、基于一个或更多个前面的块包络(例如,前面的调整的包络)并且基于所述一个或更多个预测器参数来确定估计的平整的变换系数的当前块。
所述一个或更多个预测器参数可以包括块滞后参数T。块滞后参数可以指示在估计的平整的变换系数的当前块前面的块的数量。具体地,块滞后参数T可以指示语音信号的周期性。就这一点而论,块滞后参数T可以指示重构的变换系数的前面的块中的哪一个或哪些个(最)类似于变换系数的当前块,并且因此可以被用于预测变换系数的当前块,即,可以被用于确定估计的变换系数的当前块。
频谱成形器可以被配置为使用当前的估计的包络来使估计的变换系数的当前块平整。此外,频谱成形器可以被配置为基于所述一个或更多个前面的块包络中的至少一个并且基于块滞后参数来确定当前的估计的包络。具体地,频谱成形器可以被配置为基于块滞后参数T来确定整数滞后值T0。整数滞后值T0可以通过将块滞后参数T舍入处理为最接近的整数而确定。此外,频谱成形器可以被配置为将当前的估计的包络确定为重构的变换系数的前一个块的前一个块包络(例如,前一个调整的包络),所述前一个块比估计的平整的变换系数的当前块领先与整数滞后值对应的块数。应注意,关于解码器的频谱成形器描述的特征也适用于编码器的频谱成形器。
提取器可以被配置为基于重构的变换系数的所述一个或更多个前面的块中的至少一个并且基于块滞后参数T来确定估计的变换系数的当前块。为了这个目的,提取器可以使用如在对应的编码器的上下文中概述的基于模型的预测器。在这个上下文中,块滞后参数T可以指示多正弦模型的基本频率。
此外,语音解码器可以包括频谱解码器,其被配置为基于比特流内所包括的系数数据来确定经量化的预测误差系数的当前块。为了这个目的,频谱解码器可以使用如在本文件中描述的逆量化器。此外,语音解码器可以包括加法单元,其被配置为基于估计的平整的变换系数的当前块并且基于量化的预测误差系数的当前块来确定重构的平整变换系数的当前块。此外,语音解码器可以包括逆向平整单元,其被配置为通过使用当前块包络为重构的平整的变换系数的当前块提供频谱形状来确定重构的变换系数的当前块。此外,平整单元可以被配置为通过分别使用一个或更多个前面的块包络(例如,前面的调整的包络)为重构的平整的变换系数的一个或更多个前面的块提供频谱形状来确定重构的变换系数的所述一个或更多个前面的块。语音解码器可以被配置为基于重构的变换系数的当前块以及所述一个或更多个前面的块来确定重构的语音信号。
基于变换的语音解码器可以包括包络缓冲器,其被配置为存储一个或更多个前面的块包络。频谱成形器可以被配置为通过使整数滞后值T0限于存储在包络缓冲器内的前面的块包络的数量来确定整数滞后值T0。存储在包络缓冲器内的前面的块包络的数量可以变化(例如,在I帧的开头)。频谱成形器可以被配置为确定存储在包络缓冲器中的前面的包络的数量并且相应地限制整数滞后值T0。通过这样做,可以避免错误的包络循环。
频谱成形器可以被配置为使估计的变换系数的当前块平整,以使得在应用所述一个或更多个预测器参数之前(特别是在应用预测器增益之前),平整的估计的变换系数的当前块表现出单位方差(例如,在频带中的一些或全部中)。为了这个目的,比特流可以包括方差增益参数,并且频谱成形器可以被配置为将方差增益参数应用于估计的变换系数的当前块。这对于预测的质量可能是有益的。
根据另一方面,描述了一种被配置为将语音信号编码为比特流的基于变换的语音编码器。如以上已经指示的,编码器可以包括本文件中所描述的编码器相关的特征和/或组件中的任何一个。具体地,编码器可以包括组帧单元,其被配置为接收变换系数的多个顺序块。所述多个顺序块包括当前块以及一个或更多个前面的块。此外,所述多个顺序块指示语音信号的采样。
此外,语音编码器可以包括平整单元,其被配置为通过使用对应的当前块包络(例如,对应的调整的包络)使变换系数的对应的当前块平整来确定平整的变换系数的当前块。此外,语音编码器可以包括预测器,其被配置为基于重构的变换系数的一个或更多个前面的块并且基于一个或更多个预测器参数(包括例如预测器增益)来确定估计的平整的变换系数的当前块。如以上所概述的,重构的变换系数的所述一个或更多个前面的块可能已经从变换系数的所述一个或更多个前面的块推导得到。此外,语音编码器可以包括差分单元,其被配置为基于平整的变换系数的当前块并且基于估计的平整的变换系数的当前块来确定预测误差系数的当前块。
预测器可以被配置为使用加权均方误差标准(例如,通过使加权均方误差标准最小化)来确定估计的平整的变换系数的当前块。加权均方误差标准可以将当前块包络或当前块包络的一些预定义函数考虑作为权重。在本文件中,描述了用于使用加权均方误差标准来确定预测器增益的各种不同的方式。
此外,语音编码器可以包括系数量化单元,其被配置为使用一组预定量化器来对从预测误差系数的当前块推导的系数进行量化。系数量化单元可以被配置为根据所述一个或更多个预测器参数中的至少一个来确定所述一组预定量化器。这意味着预测器的性能可能对系数量化单元所使用的量化器有影响。系数量化单元可以被配置为基于量化的系数来确定用于比特流的系数数据。就这一点而论,系数数据可以指示预测误差系数的当前块的量化版本。
基于变换的语音编码器还可以包括缩放单元,其被配置为使用一个或更多个缩放规则、基于预测误差系数的当前块来确定重新缩放的误差系数的当前块。重新缩放的误差系数的当前块可以被确定为使得、和/或所述一个或更多个缩放规则可以使得,平均来说,重新缩放的误差系数的当前块的重新缩放的误差系数的方差高于预测误差系数的当前块的预测误差系数的方差。具体地,所述一个或更多个缩放规则可以使得预测误差系数的方差对于所有频率区间或频带更接近于一。系数量化单元可以被配置为对重新缩放的误差系数的当前块的重新缩放的误差系数进行量化以提供系数数据。
预测误差系数的当前块通常包括用于对应的多个频率区间的多个预测误差系数。被缩放单元根据缩放规则应用于预测误差系数的缩放增益可以取决于相应的预测误差系数的频率区间。此外,缩放规则可以取决于所述一个或更多个预测器参数,例如,预测器增益。可替代地或另外地,缩放规则可以取决于当前块包络。在本文件中,描述了用于确定频率区间相关的缩放规则的各种不同的方式。
基于变换的语音编码器还可以包括比特分配单元,其被配置为基于当前块包络来确定分配矢量。分配矢量可以指示所述一组预定量化器中的将用于对从预测误差系数的当前块推导的第一系数进行量化的第一量化器。具体地,分配矢量可以指示分别将用于对从预测误差系数的当前块推导的所有系数进行量化的量化器。举例来说,分配矢量可以指示将用于每个频带的不同量化器。
比特分配单元可以被配置为确定分配矢量,以使得用于预测误差系数的当前块的系数数据不超过预定的比特数量。此外,比特分配单元可以被配置为确定偏移值,该偏移值指示将应用于从当前块包络推导的(例如,从当前的调整的包络推导的)分配包络的偏移。偏移值可以被包括到比特流中以使得对应的解码器能够标识已经被用于确定系数数据的量化器。根据另一方面,描述了一种被配置为对比特流进行解码以提供重构的语音信号的基于变换的语音解码器。
语音解码器可以包括本文件中所描述的特征和/或组件中的任何一个。具体地,解码器可以包括预测器,其被配置为基于重构的变换系数的一个或更多个前面的块并且基于从比特流推导的一个或更多个预测器参数来确定估计的平整的变换系数的当前块。此外,语音解码器可以包括频谱解码器,其被配置为使用一组预定量化器、基于比特流内所包括的系数数据来确定量化的预测误差系数(或者其重新缩放的版本)的当前块。具体地,频谱解码器可以使用与由对应的语音编码器所使用的所述一组预定量化器对应的一组预定逆量化器。
频谱解码器可以被配置为根据所述一个或更多个预测器参数来确定所述一组预定量化器(和/或对应的一组预定逆量化器)。具体地,频谱解码器可以对所述一组预定量化器执行与对应的语音编码器的系数量化单元相同的选择过程。通过使所述一组预定量化器取决于所述一个或更多个预测器参数,可以改进重构的语音信号的感知质量。
所述一组预定量化器可以包括具有不同信噪比(以及不同的相关联的比特率)的不同量化器。此外,所述一组预定量化器可以包括至少一个抖动量化器。所述一个或更多个预测器参数可以包括预测器增益g。预测器增益g可以指示重构的变换系数的所述一个或更多个前面的块对于重构的变换系数的当前块的相关性的程度。就这一点而论,预测器增益g可以提供预测误差系数的当前块内所包括的信息量的指示。相对较高的预测器增益g可以指示相对较少量的信息,反之亦然。所述一组预定量化器内所包括的抖动量化器的数量可以取决于预测器增益。具体地,所述一组预定量化器内所包括的抖动量化器的数量可以随着预测器增益增大而增加。
频谱解码器可以访问第一组预定量化器和第二组预定量化器。第二组所包括的抖动量化器的数量可以少于第一组量化器。频谱解码器可以被配置为基于预测器增益g来确定设置标准rfu。频谱解码器可以被配置为:如果设置标准rfu小于预定阈值,则使用第一组预定量化器。此外,频谱解码器可以被配置为:如果设置标准rfu大于或等于预定阈值,则使用第二组预定量化器。设置标准可以是rfu=min(1,max(g,0)),其中,预测器增益是g。该设置标准rfu采用大于或等于零且小于或等于一的值。预定阈值可以是0.75。
如以上所指示的,设置标准可以取决于预定控制参数rfu。在替代例子中,可以使用以下条件来确定控制参数rfu:对于g<-1.0,rfu=1.0;对于-1.0≤g<0.0,rfu=-g;对于0.0≤g<1.0,rfu=g;对于1.0≤g<2.0,rfu=2.0-g;和/或对于g≥2.0,rfu=0.0。
此外,语音解码器可以包括加法单元,其被配置为基于估计的平整的变换系数的当前块和量化的预测误差系数的当前块来确定重构的平整的变换系数的当前块。此外,语音解码器可以包括逆向平整单元,其被配置为通过使用当前块包络为重构的平整的变换系数的当前块提供频谱形状来确定重构的变换系数的当前块。重构的语音信号可以基于重构的变换系数的当前块而确定(例如,通过使用逆向变换单元)。
基于变换的语音解码器可以包括逆向重新缩放单元,其被配置为使用逆向缩放规则来重新缩放量化的预测误差系数的当前块的量化的预测误差系数,以提供重新缩放的预测误差系数的当前块。被逆向缩放单元根据逆向缩放规则应用于量化的预测误差系数的缩放增益可以取决于相应的量化的预测误差系数的频率区间。换句话说,逆向缩放规则可以是频率相关的,即,缩放增益可以取决于频率。逆向缩放规则可以被配置为调整用于不同频率区间的量化的预测误差系数的方差。
逆向缩放规则通常是对应的基于变换的语音编码器的缩放单元所应用的缩放规则的逆规则。因此,本文中关于缩放规则的确定和性质的方面也适用于(以类似的方式)逆向缩放规则。
加法单元于是可以被配置为通过将重新缩放的预测误差系数的当前块与估计的平整的变换系数的当前块相加来确定重构的平整的变换系数的当前块。
所述一个或更多个控制参数可以包括方差保持标志。方差保持标志可以指示量化的预测误差系数的当前块的方差将被如何成形。换句话说,方差保持标志可以指示将被解码器执行的处理,该处理对量化的预测误差系数的当前块的方差有影响。
举例来说,所述一组预定量化器可以根据方差保持标志而确定。具体地,所述一组预定量化器可以包括噪声合成量化器。噪声合成量化器的噪声增益可以取决于方差保持标志。可替代地或另外地,所述一组预定量化器包括覆盖SNR范围的一个或更多个抖动量化器。SNR范围可以根据方差保持标志而确定。当确定量化的预测误差系数时,所述一个或更多个抖动量化器中的至少一个可以被配置为应用后增益γ。后增益γ可以取决于方差保持标志。
基于变换的语音解码器可以包括逆向重新缩放单元,其被配置为重新缩放量化的预测误差系数的当前块的量化的预测误差系数以提供重新缩放的预测误差系数的当前块。加法单元可以被配置为通过将重新缩放的预测误差系数的当前块相加或者通过将量化的预测误差系数的当前块与估计的平整的变换系数的当前块相加(这依方差保持标志而定)来确定重构的平整的变换系数的当前块。
方差保持标志可以用于使量化器的噪声程度适应预测的质量。作为这的结果,可以改进编解码器的感知质量。
根据另一方面,描述了一种基于变换的音频编码器。音频编码器被配置为将包括第一段(例如,语音段)的音频信号编码为比特流。具体地,音频编码器可以被配置为使用基于变换的语音编码器对音频信号的一个或更多个语音段进行编码。此外,音频编码器可以被配置为使用通用的基于变换的音频编码器对音频信号的一个或更多个非语音段进行编码。
音频编码器可以包括信号分类器,其被配置为从音频信号标识第一段(例如,语音段)。更一般地,信号分类器可以被配置为从将被基于变换的语音编码器编码的音频信号确定一个段。确定的第一段可以被称为语音段(即使该段可能不一定包括实际的语音)。具体地,信号分类器可以被配置为将音频信号的不同段(例如,帧或块)分类为语音或非语音。
如以上所概述的,变换系数的一个块可以包括用于对应的多个频率区间的多个变换系数。此外,音频编码器可以包括变换单元,其被配置为基于第一段来确定变换系数的多个顺序块。变换单元可以被配置为对语音段和非语音段进行变换。
变换单元可以被配置为确定包括第一数量的变换系数的长块以及包括第二数量的变换系数的短块。第一数量的采样可以多于第二数量的采样。具体地,第一数量的采样可以是1024个,第二数量的采样可以是256个。所述多个顺序块中的块可以是短块。具体地,音频编码器可以被配置为将音频信号的已经被分类为语音的所有段都变换为短块。
此外,音频编码器可以包括基于变换的语音编码器(如在本公开中所描述的那样),其被配置为将所述多个顺序块编码为比特流。此外,音频编码器可以包括通用的基于变换的音频编码器,其被配置为对音频信号的除了第一段之外的段(例如,非语音段)进行编码。通用的基于变换的音频编码器可以是AAC(高级音频编码器)或HE(高效率)-AAC编码器。如以上已经概述的,变换单元可以被配置为执行MDCT。就这一点而论,音频编码器可以被配置为在变换域中对整个输入音频信号(包括语音段和非语音段)进行编码(通过使用单个变换单元)。
根据另一方面,描述了一种对应的基于变换的音频解码器,其被配置为对指示包括语音段(即,已经使用基于变换的语音编码器进行编码的段)的音频信号的比特流进行解码。该音频解码器可以包括基于变换的语音解码器,其被配置为基于比特流内所包括的数据(例如,包络数据、增益数据、预测器数据和系数数据)来确定重构的变换系数的多个顺序块。此外,比特流可以指示接收的数据将使用语音解码器进行解码。
此外,音频解码器可以包括逆向变换单元,其被配置为基于重构的变换系数的所述多个顺序块来确定重构的语音段。重构的变换系数的一个块可以包括用于对应的多个频率区间的多个重构的变换系数。逆向变换单元可以被配置为对包括第一数量的重构的变换系数的长块以及包括第二数量的重构的变换系数的短块进行处理。第一数量的采样可以多于第二数量的采样。所述多个顺序块中的块可以是短块。
根据另一方面,描述了一种用于将语音信号编码为比特流的方法。所述方法可以包括接收块集合。块集合可以包括变换系数的多个顺序块。所述多个顺序块可以指示语音信号的采样。此外,变换系数的块可以包括用于对应的多个频率区间的多个变换系数。所述方法可以继续基于变换系数的所述多个顺序块来确定当前包络。当前包络可以指示关于对应的多个频率区间的多个频谱能量值。此外,所述方法可以包括基于当前包络来确定用于变换系数的所述多个块的多个插值的包络。此外,所述方法可以包括通过分别使用对应的多个插值的包络使变换系数的对应的多个块平整来确定平整的变换系数的多个块。比特流可以基于平整的变换系数的所述多个块而确定。
根据另一方面,描述了一种用于对比特流进行解码以提供重构的语音信号的方法。所述方法可以包括从比特流内所包括的包络数据确定量化的当前包络。量化的当前包络可以指示关于对应的多个频率区间的多个频谱能量值。比特流可以包括指示重构的平整的变换系数的多个顺序块的数据(例如,系数数据和/或预测器数据)。重构的平整的变换系数的一个块可以包括用于对应的多个频率区间的多个重构的平整的变换系数。此外,所述方法可以包括基于量化的当前包络来确定分别用于重构的平整的变换系数的所述多个块的多个插值的包络。所述方法可以继续通过分别使用对应的多个插值的包络为重构的平整的变换系数的对应的多个块提供频谱形状来确定重构的变换系数的多个块。重构的语音信号可以基于重构的变换系数的所述多个块。
根据另一方面,描述了一种用于将语音信号编码为比特流的方法。所述方法可以包括接收变换系数的包括当前块以及一个或更多个前面的块的多个顺序块。所述多个顺序块可以指示语音信号的采样。所述方法可以继续通过分别使用对应的当前块包络以及对应的一个或更多个前面的块包络使变换系数的对应的当前块以及对应的一个或更多个前面的块平整来确定平整的变换系数的当前块以及一个或更多个前面的块。
此外,所述方法可以包括基于重构的变换系数的一个或更多个前面的块并且基于预测器参数来确定估计的平整的变换系数的当前块。这可以使用预测技术来实现。重构的变换系数的所述一个或更多个前面的块可能已经分别从平整的变换系数的所述一个或更多个前面的块推导得到。确定估计的平整的变换系数的当前块的步骤可以包括:基于重构的变换系数的所述一个或更多个前面的块并且基于预测器参数来确定估计的变换系数的当前块;并且基于估计的变换系数的当前块、基于所述一个或更多个前面的块包络并且基于预测器参数来确定估计的平整的变换系数的当前块。
此外,所述方法可以包括基于平整的变换系数的当前块并且基于估计的平整的变换系数的当前块来确定预测误差系数的当前块。比特流可以基于预测误差系数的当前块而确定。
根据另一方面,描述了一种用于对比特流进行解码以提供重构的语音信号的方法。所述方法可以包括基于重构的变换系数的一个或更多个前面的块并且基于从比特流推导的预测器参数来确定估计的平整的变换系数的当前块。确定估计的平整的变换系数的当前块的步骤可以包括:基于重构的变换系数的所述一个或更多个前面的块并且基于预测器参数来确定估计的变换系数的当前块;并且基于估计的变换系数的当前块、基于一个或更多个前面的块包络并且基于预测器参数来确定估计的平整的变换系数的当前块。
此外,所述方法可以包括基于比特流内所包括的系数数据来确定量化的预测误差系数的当前块。所述方法可以继续基于估计的平整的变换系数的当前块并且基于量化的预测误差系数的当前块来确定重构的平整的变换系数的当前块。可通过使用当前块包络(例如,当前的调整的包络)为重构的平整的变换系数的当前块提供频谱形状来确定重构的变换系数的当前块。此外,可以通过分别使用所述一个或更多个前面的块包络(例如,所述一个或更多个前面的调整的包络)为重构的平整的变换系数的一个或更多个前面的块提供频谱形状来确定重构的变换系数的所述一个或更多个前面的块。此外,所述方法可以包括基于重构的变换系数的当前块以及一个或更多个前面的块来确定重构的语音信号。
根据另一方面,描述了一种用于将语音信号编码为比特流的方法。所述方法可以包括接收变换系数的包括当前块以及一个或更多个前面的块的多个顺序块。所述多个顺序块可以指示语音信号的采样。
此外,所述方法可以包括基于重构的变换系数的一个或更多个前面的块并且基于预测器参数来确定估计的变换系数的当前块。重构的变换系数的所述一个或更多个前面的块可能已经从变换系数的所述一个或更多个前面的块推导得到。所述方法可以继续基于变换系数的当前块并且基于估计的变换系数的当前块来确定预测误差系数的当前块。
此外,所述方法可以包括使用一组预定量化器对从预测误差系数的当前块推导的系数进行量化。所述一组预定量化器可以取决于预测器参数。此外,所述方法可以包括基于量化的系数来确定用于比特流的系数数据。
根据另一方面,描述了一种用于对比特流进行解码以提供重构的语音信号的方法。所述方法可以包括基于重构的变换系数的一个或更多个前面的块并且基于从比特流推导的预测器参数来确定估计的变换系数的当前块。此外,所述方法可以包括使用一组预定量化器、基于比特流内所包括的系数数据来确定量化的预测误差系数的当前块。所述一组预定量化器可以是预测器参数的函数。所述方法可以继续基于估计的变换系数的当前块并且基于量化的预测误差系数的当前块来确定重构的变换系数的当前块。重构的语音信号可以基于重构的变换系数的当前块而确定。
根据另一方面,描述了一种用于将包括语音段的音频信号编码为比特流的方法。所述方法可以包括从音频信号标识语音段。此外,所述方法可以包括使用变换单元、基于语音段来确定变换系数的多个顺序块。变换单元可以被配置为确定包括第一数量的变换系数的长块以及包括第二数量的变换系数的短块。第一数量可以多于第二数量。所述多个顺序块中的块可以是短块。此外,所述方法可以包括将所述多个顺序块编码为比特流。
根据另一方面,描述了一种用于对指示包括语音段的音频信号的比特流进行解码的方法。所述方法可以包括基于比特流内所包括的数据来确定重构的变换系数的多个顺序块。此外,所述方法可以包括使用逆向变换单元、基于重构的变换系数的所述多个顺序块来确定重构的语音段。逆向变换单元可以被配置为对包括第一数量的重构的变换系数的长块以及包括第二数量的重构的变换系数的短块进行处理。第一数量可以多于第二数量。所述多个顺序块中的块可以是短块。
根据另一方面,描述了一种软件程序。所述软件程序可以适于在处理器上执行并且当在该处理器上被执行时执行本文件中所概述的方法步骤。
根据另一方面,描述了一种存储介质。所述存储介质可以包括软件程序,该软件程序可以适于在处理器上执行并且当在该处理器上被执行时执行本文件中所概述的方法步骤。
根据另一方面,描述了一种计算机程序产品。所述计算机程序产品可以包括当在计算机上被执行时执行本文件中所概述的方法步骤的可执行指令。
应注意,如本专利申请中所概括的方法和系统(包括其优选实施例)可以独立地使用,或者与本文件中所公开的其它方法和系统组合使用。此外,本专利申请中所概述的方法和系统的所有方面都可以以各种方式组合。具体地,权利要求的特征可以以任意的方式彼此组合。
附图说明
下面参照附图来以示例性的方式说明本发明,其中
图1a示出以恒定的比特率提供比特流的示例音频编码器的框图;
图1b示出以可变的比特率提供比特流的示例音频编码器的框图;
图2例示说明基于变换系数的多个块的示例包络的产生;
图3a例示说明变换系数的块的示例包络;
图3b例示说明示例的插值的包络的确定;
图4例示说明示例的多组量化器;
图5a示出示例音频解码器的框图;
图5b示出图5a的音频解码器的示例包络解码器的框图;
图5c示出图5a的音频解码器的示例子带预测器的框图;以及
图5d示出图5a的音频解码器的示例频谱解码器的框图。
具体实施方式
如在背景部分中所概述的,可取的是提供一种对语音或话音信号都表现出相对较高的编码增益的基于变换的音频编解码器。这样的基于变换的音频编解码器可以被称为基于变换的语音编解码器或基于变换的话音编解码器。基于变换的语音编解码器可以方便地与通用的基于变换的音频编解码器(诸如AAC或HE-AAC)组合,因为它也在变换域中进行操作。此外,由于两个编解码器都在变换域中进行操作的事实,将输入音频信号的段(例如,帧)分类为语音或非语音、随后在通用的音频编解码器和特定的语音编解码器之间进行切换的操作可以被简化。
图1a示出示例的基于变换的语音编码器100的框图。编码器100接收作为输入的、变换系数的块131(也被称为编码单元)。变换系数的块131可能已经通过被配置为将输入音频信号的采样序列从时域变换到频域中的变换单元获得。变换单元可以被配置为执行MDCT。变换单元可以是通用的音频编解码器(诸如AAC或HE-AAC)的一部分。这样的通用的音频编解码器可以使用不同的块大小,例如,长块和短块。示例块大小对于长块是1024个采样,对于短块是256个采样。假定采样速率为44.1kHz、重叠为50%,则长块覆盖输入音频信号的大约20ms,短块覆盖输入音频信号的大约5ms。长块通常用于输入音频信号的静止段,短块通常用于输入音频信号的瞬时段。
语音信号可以被认为在大约20ms的短暂段中是静止的。具体地,语音信号的频谱包络可以被认为在大约20ms的短暂段中是静止的。为了能够在变换域中对这样的20ms段推导有意义的统计,向基于变换的语音编码器100提供变换系数的短块131(具有例如5ms的长度)可能是有用的。通过这样做,多个短块131可以用于推导关于例如20ms的时间段(例如,长块或帧的时间段)的统计。此外,这具有为语音信号提供足够的时间分辨率的优点。
因此,变换单元可以被配置为:如果输入音频信号的当前段被分类为语音,则提供变换系数的短块131。编码器100可以包括被配置为提取变换系数的多个块131的组帧单元101,这些块131被称为块131的集合132。块集合132也可以被称为帧。举例来说,块131的集合132可以包括256个变换系数的四个短块,从而覆盖输入音频信号的大约20ms的段。
基于变换的语音编码器100可以被配置为在多种不同的模式下(例如,在短步幅模式下以及在长步幅模式下)进行操作。当在短步幅模式下进行操作时,基于变换的语音编码器100可以被配置为将音频信号(例如,语音信号)的段或帧再分为短块131的集合132(如以上所概述的那样)。另一方面,当在长步幅操作下进行操作时,基于变换的语音编码器100可以被配置为直接对音频信号的段或帧进行处理。
举例来说,当在短步幅模式下进行操作时,编码器100可以被配置为每一帧对四个块131进行处理。对于视频帧同步操作的某些设置,编码器100的帧的物理时间可能相对较短。对于提高的视频帧频率(例如,100Hz对50Hz),情况尤其如此,这导致语音信号的段或帧的时间长度缩短。在这样的情况下,由于变换域中的分辨率降低,将帧再分为多个(短)块131可能是不利的。因此,长步幅模式可以用于调用每一帧仅一个块131的使用。每一帧单个块131的使用对于对包括音乐的音频信号(甚至对于相对较长的帧)进行编码也是有益的。这些益处可能是由于当每一帧仅使用单个块131时或者当每一帧使用数量减少的块131时变换域中的分辨率提高而导致的。
在下面,更详细地描述编码器100在长步幅模式下的操作。块集合132可以被提供给包络估计单元102。包络估计单元102可以被配置为基于块集合132来确定包络133。包络133可以基于块集合132内所包括的多个块131的对应的变换系数的均方根(RMS)值。块131通常在对应的多个频率区间301(参见图3a)中提供多个变换系数(例如,256个变换系数)。所述多个频率区间301可以被分组为多个频带302。所述多个频带302可以基于心理声学考虑来选择。举例来说,可以根据对数刻度或Bark刻度来将频率区间301分组为频带302。已经基于当前块集合132确定的包络134可以包括分别关于所述多个频带302的多个能量值。可以基于集合132的块131的变换系数来确定关于特定频带302的特定能量值,这些变换系数对应于落在特定频带302内的频率区间301。可以基于这些变换系数的RMS值来确定所述特定能量值。就这一点而论,用于当前块集合132的包络133(被称为当前包络133)可以指示当前块集合132内所包括的变换系数的块131的平均包络,或者可以指示用于确定包络133的、变换系数的块132的平均包络。
应注意,可以基于变换系数的与当前块集合132相邻的一个或更多个另外的块131来确定当前包络133。这在图2中被示出,在图2中,当前包络133(用量化的当前包络134指示)是基于当前块集合132的块131并且基于在当前块集合132前面的块集合中的块201而确定的。在所示的例子中,当前包络133是基于五个块131确定的。通过在确定当前包络133时考虑相邻的块,可以确保相邻的块集合132的包络的连续性。
当确定当前包络133时,可以对不同块131的变换系数进行加权。具体地,确定当前包络133所考虑的最外面的块201、202可以具有比其余的块131低的权重。举例来说,用0.5对最外面的块201、202的变换系数进行加权,其中,其它的块131的变换系数可以用1进行加权。
应注意,以与考虑前面的块集合132的块201类似的方式,在块集合132正后面的一个或更多个块(所谓的前瞻块)可以被考虑用于确定当前包络133。
当前包络133的能量值可以在对数刻度上(例如,在dB刻度上)表示。当前包络133可以被提供给包络量化单元103,包络量化单元103被配置为对当前包络133的能量值进行量化。包络量化单元103可以提供预定的量化器分辨率,例如,3dB的分辨率。包络133的量化指数可以在由编码器100产生的比特流内被作为包络数据161提供。此外,量化的包络134(即,包括包络133的量化的能量值的包络)可以被提供给插值单元104。
插值单元104被配置为基于量化的当前包络134并且基于量化的前一个包络135(其已经针对在当前块集合132正前面的块集合132确定)来确定用于当前块集合132的每个块131的包络。插值单元104的操作在图2、3a和3b中被示出。图2示出了变换系数的块131的序列。块131的序列被分组为相继的块集合132,其中,每个块集合132用于确定量化的包络,即,量化的当前包络134和量化的前一个包络135。图3a示出了量化的前一个包络135和量化的当前包络134的例子。如以上所指示的,包络可以指示频谱能量303(例如,在dB刻度上)。可以对用于同一个频带302的量化的前一个包络135和量化的当前包络134的对应的能量值303进行插值(例如,通过使用线性插值)以确定插值的包络136。换句话说,可以对特定频带302的能量值303进行插值以提供该特定频带302内的插值的包络136的能量值303。
应注意,对其确定并应用插值的包络136的块集合可能不同于基于其确定量化的当前包络134的当前块集合132。这在图2中被示出,图2示出了移位的块集合332,该块集合332与当前块集合132相比移位,并且包括前一个块集合132的块3和4(分别用标号203和201指示)以及当前块集合132的块1和2(分别用标号204和205指示)。事实上,与对于当前块集合132的块的相关性相比,基于量化的当前包络134并且基于量化的前一个包络135确定的插值的包络136对于移位的块集合332的块的相关性可以提高。
因此,图3b中所示的插值的包络136可以用于使移位的块集合332的块平整。这用图3b与图2组合示出。可以看出,图3b的插值的包络341可以应用于图2的块203,图3b的插值的包络342可以应用于图2的块201,图3b的插值的包络343可以应用于图2的块204,图3b的插值的包络344(其在所示的例子中对应于量化的当前包络136)可以应用于图2的块205。就这一点而论,用于确定量化的当前包络134的块集合132可能不同于对其确定插值的包络136并且应用这些插值的包络136(为了平整的目的)的移位的块集合332。具体地,可以使用相对于移位的块集合332的块203、201、204、205的某一前瞻来确定量化的当前包络134,这些块将被使用量化的当前包络134进行平整。从连续性的观点来讲,这是有益的。
对能量值303进行插值以确定插值的包络136在图3b中被示出。可以看出,通过量化的前一个包络135的能量值和量化的当前包络134的对应的能量值之间的插值,可以对移位的块集合332的块131确定插值的包络136的能量值。具体地,对于移位的集合332的每个块131,可以确定插值的包络136,从而提供用于移位的块集合332的多个块203、201、204、205的多个插值的包络136。变换系数的块131(例如,移位的块集合332的块203、201、204、205中的任何一个)的插值的包络136可以用于对变换系数的块131进行编码。应注意,当前包络133的量化指数161在比特流内被提供给对应的解码器。因此,对应的解码器可以被配置为以类似于编码器100的插值单元104的方式确定所述多个插值的包络136。
组帧单元101、包络估计单元102、包络量化单元103和插值单元104对块集合(即,当前块集合132和/或移位的块集合332)进行操作。另一方面,可以逐个块地执行变换系数的实际编码。在下面,论述变换系数的当前块131的编码,当前块131可以是移位的块集合(或者可能地,在基于变换的语音编码器100的其它实现中,当前块集合132)的多个块131中的任何一个。
此外,应注意,编码器100可以在所谓的长步幅模式下进行操作。在这种模式下,音频信号的段的帧不被再分,而是被作为单个块进行处理。因此,每一帧只确定变换系数的单个块131。当在长步幅模式下进行操作时,组帧单元101可以被配置为提取用于音频信号的段或帧的、变换系数的单个当前块131。包络估计单元102可以被配置为确定用于当前块131的当前包络133,包络量化单元103可以被配置为对单个当前包络133进行量化以确定量化的当前包络134(并且确定关于当前块131的包络数据161)。当在长步幅模式下时,包络插值通常是废弃的。因此,用于当前块131的插值的包络136通常对应于量化的当前包络134(当编码器100在长步幅模式下进行操作时)。
用于当前块131的当前的插值的包络136可以提供当前块131的变换系数的频谱包络的近似。编码器100可以包括预平整单元105和包络增益确定单元106,这些单元被配置为基于当前的插值的包络136并且基于当前块131来确定用于当前块131的调整的包络139。具体地,用于当前块131的包络增益可以被确定为使得当前块131的平整的变换系数的方差被调整,k=1,…,K可以是当前块131的变换系数(例如,K=256),E(k),k=1,…,K可以是当前的插值的包络136的频谱能量均值303(同一频带302的能量值E(k)是相等的)。包络增益a可以被确定为使得平整的变换系数的方差被调整。具体地,包络增益a可以被确定为使得方差为一。
应注意,包络增益a可以针对变换系数的当前块131的整个频率范围的子范围确定。换句话说,可以仅基于频率区间301的子集和/或仅基于频带302的子集来确定包络增益a。举例来说,可以基于大于起始频率区间304(起始频率区间大于0或1)的频率区间301来确定包络增益a。因此,可以通过仅将包络增益a应用于当前的插值的包络136的频谱能量均值131来确定用于当前块131的调整的包络139,当前的插值的包络136与位于起始频率区间304之上的频率区间301相关联。因此,对于位于起始频率区间处的及其之下的频率区间301,用于当前块131的调整的包络139可以对应于当前的插值的包络136,并且对于起始频率区间之上的频率区间301,可以对应于按包络增益a偏移的当前的插值的包络136。这在图3a中用调整的包络339(用虚线示出)例示说明。包络增益a 137(也被称为水平校正增益)对于当前的插值的包络136的应用对应于当前的插值的包络136的调整或偏移,从而得到如图3a所示的调整的包络139。包络增益a 137可以被作为增益数据162编码到比特流中。
编码器100还可以包括包络细化单元107,其被配置为基于包络增益a 137并且基于当前的插值的包络136来确定调整的包络139。调整的包络139可以用于对变换系数的块131进行信号处理。与当前的插值的包络136(其可以按3dB的步长进行量化)相比,包络增益a 137可以被量化到更高的分辨率(例如,按1dB的步长)。就这一点而论,调整的包络139可以被量化到包络增益a 137的更高分辨率(例如,按1dB的步长)。
此外,包络细化单元107可以被配置为确定分配包络138。分配包络138可以对应于调整的包络139的量化版本(例如,被量化到3dB量化水平)。分配包络138可以用于比特分配的目的。具体地,分配包络138可以用于从预定的一组量化器中确定——对于当前块131的特定变换系数——特定量化器,其中,该特定量化器将用于对该特定变换系数进行量化。
编码器100包括平整单元108,其被配置为使用调整的包络139来使当前块131平整,从而得到平整的变换系数的块140。可以使用变换域内的预测回路来对平整的变换系数的块140进行编码。就这一点而论,可以使用子带预测器117来对块140进行编码。预测回路包括差分单元115,其被配置为基于平整的变换系数的块140并且基于估计的变换系数的块150来确定预测误差系数Δ(k)的块141,例如,应指出,由于块140包括平整的变换系数(即,已经使用调整的包络139的能量值303进行规范化或平整的变换系数)的事实,估计的变换系数的块150也包括平整的变换系数的估计值。换句话说,差分单元115在所谓的平整域中进行操作。结果,预测误差系数Δ(k)的块141在平整域中被表示。预测误差系数Δ(k)的块141可以表现出彼此不同的方差。编码器100可以包括重新缩放单元111,其被配置为重新缩放预测误差系数Δ(k)以得到重新缩放的误差系数的块142。重新缩放单元111可以使用一个或更多个预定的启发式规则来执行重新缩放。结果,重新缩放的误差系数的块142表现出(平均来说)更接近于一的方差(与预测误差系数的块141相比)。这对于随后的量化和编码可能是有益的。编码器100包括系数量化单元112,其被配置为对预测误差系数的块141或重新缩放的误差系数的块142进行量化。系数量化单元112可以包括或使用一组预定量化器。该组预定量化器可以提供具有不同精度或不同分辨率的量化器。这在图4中被例示说明,在图4中,例示说明了不同的量化器321、322、323。不同的量化器可以提供不同的精度(用不同的dB值指示)。所述多个量化器321、322、323中的特定量化器可以对应于分配包络138的特定值。就这一点而论,分配包络138的能量值可以指向所述多个量化器中的对应的量化器。就这一点而论,分配包络138的确定可以简化将用于特定误差系数的量化器的选择过程。换句话说,分配包络138可以简化比特分配过程。
所述组量化器可以包括使用抖动来使量化误差随机化的一个或更多个量化器322。这在图4中被例示说明,图4示出了第一组预定量化器326和第二组预定量化器327,第一组预定量化器326包括抖动量化器子集324,第二组预定量化器327包括抖动量化器子集325。就这一点而论,系数量化单元112可以使用不同组的预定量化器326、327,其中,将被系数量化单元112使用的一组预定量化器可以取决于由预测器117所提供的控制参数146。具体地,系数量化单元112可以被配置为基于控制参数146来选择用于对重新缩放的误差系数的块142进行量化的一组预定量化器326、327,其中,控制参数146可以取决于由预测器117所提供的一个或更多个预测器参数。所述一个或更多个预测器参数可以指示由预测器117所提供的估计的变换系数的块150的质量。
可以使用例如Huffman代码对量化的误差系数进行熵编码,从而得到将被包括到编码器100所产生的比特流中的系数数据163。
编码器100可以被配置为执行比特分配过程。为了这个目的,编码器100可以包括比特分配单元109、110。比特分配单元109可以被配置为确定可供用于对重新缩放的误差系数的当前块142进行编码的比特总数143。比特总数143可以基于分配包络138而确定。比特分配单元110可以被配置为根据分配包络138中的对应的能量值来提供比特对不同的重新缩放的误差系数的相关分配。
比特分配过程可以使用迭代分配过程。在分配过程中,可以使用偏移参数来使分配包络138偏移,从而选择分辨率提高/降低的量化器。就这一点而论,偏移参数可以用于细化或粗化总体量化。偏移参数可以被确定为使得使用由偏移参数所给予的量化器和分配包络138而获得的系数数据163包括与分配给当前块131的比特总数143相对应(或者不超过比特总数143)的比特数量。已经被编码器100用于对当前块131进行编码的偏移参数被作为系数数据163包括到比特流中。因此,使得对应的解码器能够确定已经被系数量化单元112用于对重新缩放的误差系数的块142进行量化的量化器。
作为重新缩放的误差系数的量化的结果,获得量化的误差系数的块145。量化的误差系数的块145对应于在对应的解码器处可获得的误差系数的块。
因此,量化的误差系数的块145可以用于确定估计的变换系数的块150。编码器100可以包括逆向重新缩放单元113,其被配置为执行重新缩放单元113所执行的重新缩放操作的逆操作,从而得到缩放的量化的误差系数的块147。加法单元116可以用于通过将估计的变换系数的块150与缩放的量化的误差系数的块147相加来确定重构的平整的系数的块148。此外,逆向平整单元114可以用于将调整的包络139应用于重构的平整的系数的块148,从而得到重构的系数的块149。重构的系数的块149对应于在对应的解码器处可获得的变换系数的块131的版本。结果,重构的系数的块148可以在预测器117中用于确定估计的系数的块150。
重构的系数的块149在未平整域中被表示,即,重构的系数的块149也表示当前块131的频谱包络。如以下所概述的,这对于预测器117的性能可能是有益的。
预测器117可以被配置为基于重构的系数的一个或更多个前面的块149来估计被估计的变换系数的块150。具体地,预测器117可以被配置为确定一个或更多个预测器参数以使得预定的预测误差标准减小(例如,最小)。举例来说,所述一个或更多个预测器参数可以被确定为使得预测误差系数的块141的能量或感知加权能量减小(例如,最小)。所述一个或更多个预测器参数可以被作为预测器数据164被包括到编码器100所产生的比特流中。
预测器数据164可以指示所述一个或更多个预测器参数。如在本文件中将概述的,预测器117可以仅用于音频信号的帧或块131的子集。具体地,预测器117不可以用于I帧(独立帧)的第一块131,I帧通常被以独立于前一个块的方式编码。除此之外,预测器数据164可以包括指示用于特定块131的预测器117的存在的一个或更多个标志。对于其中预测器的贡献几乎不显著(例如,当预测器增益被量化为零时)的块,使用预测器存在标志来用信号通知该情况(与发送零增益相比,该情况通常需要少得多的比特数量)可能是有益的。换句话说,用于块131的预测器数据164可以包括指示一个或更多个预测器参数是否已经被确定(并且被包括在预测器数据164内)的一个或更多个预测器存在标志。如果预测器117不用于特定块131,则一个或更多个预测器存在标志的使用可以用于节省比特。因此,根据不使用预测器117进行编码的块131的数量,一个或更多个预测器存在标志的使用可以比默认(例如,零值)预测器参数的发送的比特率效率更高(平均来说)。
预测器117的存在可以在每一个块的基础上明确地发送。这使得当不使用预测时可以节省比特。举例来说,对于I帧,因为I帧的第一个块不能使用预测,所以只可以使用三个预测器存在标志。换句话说,如果已知特定块131是I帧的第一个块,则没有预测器存在标志可需要为该特定块131而被发送(因为对应的解码器已经知道该特定块131不使用预测器117)。
预测器117可以使用如在专利申请US61750052以及要求其优先权的专利申请中描述的信号模型,该申请的内容通过引用并入。所述一个或更多个预测器参数可以对应于信号模型的一个或更多个模型参数。
图1b示出了另一示例的基于变换的语音编码器170的框图。图1b的基于变换的语音编码器170包括图1a的编码器100的组件中的许多组件。然而,图1b的基于变换的语音编码器170被配置为产生具有可变比特率的比特流。为了这个目的,编码器170包括平均比特率(ABR)状态单元172,其被配置为记录已经被用于前面的块131的比特流用完的比特率。比特分配单元171使用该信息来确定可供用于对变换系数的当前块131进行编码的比特总数143。总的来说,基于变换的语音编码器100、170被配置为产生指示以下各项或者包括以下各项的比特流:
●包络数据161,其指示量化的当前包络134。量化的当前包络134用于描述变换系数的当前块集合132或移位块集合332的块的包络。
●增益数据162,其指示用于调整变换系数的当前块131的插值的包络的水平校正增益a。通常,不同的增益a被提供给当前块集合132或移位块集合332的每个块131。
●系数数据163,其指示用于当前块131的预测误差系数的块141。具体地,系数数据163指示量化的误差系数的块145。此外,系数数据163可以指示可以用于确定用于在解码器处执行反量化的量化器的偏移参数。
●预测器数据164,其指示将用于从重构的系数的前面的块149确定估计的系数的块150的一个或更多个预测器系数。
在下面,在图5a至5d的上下文中描述对应的基于变换的语音解码器500。图5a示出了示例的基于变换的语音解码器500的框图。该框图示出了用于将重构的系数的块149从变换域转换到时域中的合成滤波器组504(也被称为逆向变换单元),从而得到解码的音频信号的采样。合成滤波器组504可以使用具有预定步幅(例如,步幅约为5ms或256个采样)的逆向MDCT。解码器500的主回路以该步幅为单位进行操作。每一步生成具有与系统的预定带宽设置对应的长度或尺寸的变换域矢量(也被称为块)。当零填充一直到合成滤波器组504的变换大小时,变换域矢量将用于将预定长度(例如,5ms)的时域信号更新合成到合成滤波器组504的重叠/加法过程。
如以上所指示的,通用的基于变换的音频编解码器通常利用具有5ms范围内的短块序列的帧来进行瞬时处理。就这一点而论,通用的基于变换的音频编解码器提供用于短块和长块的无缝共存的必要的变换和窗口切换工具。通过省略图5a的合成滤波器组504而限定的话音频谱前端因此可以被方便地集成到一般用途的基于变换的音频编解码器,而无需引入附加的切换工具。换句话说,图5a的基于变换的语音解码器500可以方便地与通用的基于变换的音频解码器组合。具体地,图5a的基于变换的语音解码器500可以使用由通用的基于变换的音频解码器(例如,AAC或HE-AAC解码器)所提供的合成滤波器组504。
从传入的比特流(具体地,从包络数据161以及从比特流内所包括的增益数据162),包络解码器503可以确定信号包络。具体地,包络解码器503可以被配置为基于包络数据161和增益数据162来确定调整的包络139。就这一点而论,包络解码器503可以执行与编码器100、170的插值单元104和包络细化单元107类似的任务。如以上所概述的,调整的包络109表示一组预定义频带302中的信号方差的模型。
此外,解码器500包括逆向平整单元114,其被配置为将调整的包络139应用于平整域矢量,该平整域矢量的条目标称地可以是方差一。平整域矢量对应于在编码器100、170的上下文中描述的重构的平整的系数的块148。在逆向平整单元114的输出处,获得重构的系数的块149。重构的系数的块149被提供给合成滤波器组504(用于产生解码的音频信号)和子带预测器517。
子带预测器517以与编码器100、170的预测器117类似的方式进行操作。具体地,子带预测器517被配置为基于重构的系数的一个或更多个前面的块149来(在平整域中)确定估计的变换系数的块150(通过使用在比特流内用信号发送的所述一个或更多个预测器参数)。换句话说,子带预测器517被配置为基于预测器参数(诸如预测器滞后和预测器增益)来从前面解码的输出矢量和信号包络的缓冲器输出预测的平整域矢量。解码器500包括预测器解码器501,其被配置为对预测器数据164进行解码以确定所述一个或更多个预测器参数。
解码器500还包括频谱解码器502,其被配置为通常基于比特流的最大部分(即,基于系数数据163)将附加校正供给预测的平整域矢量。频谱解码过程主要由分配矢量控制,分配矢量从包络和发送的分配控制参数(也被称为偏移参数)推导得到。如图5a所示,频谱解码器502可能直接依赖于预测器参数520。就这一点而论,频谱解码器502可以被配置为基于接收的系数数据163来确定缩放的量化的误差系数的块147。如在编码器100、170的上下文中概述的,用于对重新缩放的误差系统的块142进行量化的量化器321、322、323通常取决于分配包络138(其可以从调整的包络139推导得到)和偏移参数。此外,量化器321、322、323可以取决于预测器117所提供的控制参数146。控制参数146可以由解码器500使用预测器参数520推导得到(以类似于编码器100、170的方式)。
如以上所指示的,接收的比特流包括包络数据161和增益数据162,这些数据可以用于确定调整的包络139。具体地,包络解码器503的单元531可以被配置为从包络数据161确定量化的当前包络134。举例来说,量化的当前包络134在预定义频带302中可以具有3dB分辨率(如图3a中所指示的那样)。量化的当前包络134可以针对每一个块集合132、332(例如,每四个编码单元,即,块,或者每20ms),特别是针对每一个移位的块集合332进行更新。量化的当前包络134的频带302可以包括随着频率的变化而增多数量的频带301,以便适应人类听力的性质。
可以线性地将量化的当前包络134从量化的前一个包络135插值到用于移位的块集合332(或者可能地,当前块集合132)的每个块131的插值的包络136中。插值的包络136可以在量化的3dB域中被确定。这意味着插值的能量值303可以被舍入处理到最接近的3dB水平。示例的插值的包络136用图3a的点图示出。对于每个量化的当前包络134,四个水平校正增益a 137(也被称为包络增益)被作为增益数据162提供。增益解码单元532可以被配置为从增益数据162确定水平校正增益a 137。水平校正增益可以按1dB的步长进行量化。每个水平校正增益被应用于对应的插值的包络136,以便提供用于不同块131的调整的包络139。由于水平校正增益137的分辨率提高,调整的包络139可以具有提高的分辨率(例如,1dB分辨率)。
图3b示出了在量化的前一个包络135和量化的当前包络134之间的示例线性或几何插值。包络135、134可以分为对数频谱的均值水平部分和形状部分。这些部分可以用独立的策略(诸如线性、几何或谐波(并行电阻器)策略)进行插值。就这一点而论,不同的插值方案可以用于确定插值的包络136。解码器500所使用的插值方案通常对应于由编码器100、170所使用的插值方案。
包络解码器503的包络细化单元107可以被配置为通过对调整的包络139进行量化(例如,按3dB步长进行量化)来从调整的包络139确定分配包络138。分配包络138可以与分配控制参数或偏移参数(包括在系数数据163内)结合用于创建用于控制频谱解码(即,系数数据163的解码)的标称整数分配矢量。具体地,标称整数分配矢量可以用于确定用于对系数数据163内所包括的量化指数进行逆向量化的量化器。分配包络138和标称整数分配矢量在编码器100、170中以及在解码器500中可以以类似的方式确定。
为了使得解码器500可以与接收的比特流同步,可以发送不同类型的帧。帧可以对应于块集合132、332,特别是移位的块集合332。具体地,可以发送所谓的P帧,P帧被以相对于前一帧的相对方式编码。在以上描述中,假定解码器500知道量化的前一个包络135。量化的前一个包络135可以在前一个帧内提供,以使得当前集合132或对应的移位的集合332可以对应于P帧。然而,在启动情况下,解码器500通常不知道量化的前一个包络135。为了这个目的,可以发送I帧(例如,当启动时或者定期地)。I帧可以包括两个包络,其中一个用作量化的前一个包络135,另一个用作量化的当前包络134。I帧可以用于话音频谱前端(即,基于变换的语音解码器500)的启动情况,例如,当跟随在利用不同的音频编码模式的帧的后面和/或作为明确地启用音频比特流的拼接点的工具时。
子带预测器517的操作在图5d中被例示说明。在所示的例子中,预测器参数520是滞后参数和预测器增益参数g。预测器参数520可以使用用于滞后参数和预测器增益参数的可能值的预定表从预测器数据164确定。这使得预测器参数520能够比特率高效地发送。
所述一个或更多个前面解码的变换系数矢量(即,重构系数的所述一个或更多个前面的块149)可以被存储在子带(或MDCT)信号缓冲器541中。缓冲器541可以根据步幅(例如,每一个5ms)进行更新。预测器提取器543可以被配置为根据规范化的滞后参数T对缓冲器541进行操作。可以通过将滞后参数520规范化为步幅单位(例如,MDCT步幅单位)来确定规范化的滞后参数T。如果滞后参数T是整数,则提取器543可以将一个或更多个前面解码的变换系数矢量T个时间单位提取到缓冲器541中。换句话说,滞后参数T可以指示重构的系数的所述一个或更多个前面的块149中的哪些个块将用于确定估计的变换系数的块150。在专利申请US61750052以及要求其优先权的专利申请中提供了关于提取器543的可能实现的详细讨论,该申请的内容通过引用并入。
提取器543可以对携带完整的信号包络的矢量(或块)进行操作。另一方面,(将由子带预测器517提供的)估计的变换系数的块150在平整域中被表示。因此,提取器543的输出可以被成形为平整域矢量。这可以使用成形器544来实现,成形器544使用重构的系数的所述一个或更多个前面的块149的调整的包络139。重构的系数的所述一个或更多个前面的块149的调整的包络139可以被存储在包络缓冲器542中。成形器单元544可以被配置为将在平整中将使用的延迟的信号包络从T0个时间单位提取到包络缓冲器542中,其中,T0是最接近于T的整数。然后,可以用增益参数g对平整域矢量进行缩放以得到估计的变换系数的块150(在平整域中)。
成形器单元544可以被配置为确定平整域矢量以使得成形器单元544的输出处的平整域矢量在每个频带中都表现出单位方差。成形器单元544可以完全依赖于包络缓冲器542中的数据来实现该目标。举例来说,成形器单元544可以被配置为选择延迟的信号包络以使得成形器单元544的输出处的平整域矢量在每个频带中都表现出单位方差。
可替代地或附加地,成形器单元544可以被配置为测量成形器单元544的输出处的平整域矢量的方差并且朝向单位方差性质调整矢量的方差。可能的类型的规范化可以使用将平整域矢量规范化为单位方差矢量的单个宽带增益(每一时隙)。这些增益可以在比特流内从编码器100发送到对应的解码器500(例如,以量化的编码的形式)。
作为替代方案,通过使用在平整域中进行操作的子带预测器517(即,对重构的平整的系数的块148进行操作的子带预测器517),可以省略成形器544所执行的延迟平整过程。然而,已经发现,由于变换(例如,MDCT变换)的时间混叠方面,平整域矢量(或块)序列没有很好地映射到时间信号。因此,对提取器543的基本信号模型的配合降低,并且替代结构导致更高水平的编码噪声。换句话说,已经发现,子带预测器517所使用的信号模型(例如,正弦或周期模型)在未平整域中得到提高的性能(与平整域相比)。
应注意,在替代例子中,预测器517(即,估计的变换系数的块150)的输出可以在逆向平整单元114的输出处被相加(即,与重构的系数的块149相加)(参见图5a)。图5c的成形器单元544于是可以被配置为执行延迟平整和逆向平整的组合操作。
接收的比特流中的元素可以控制子带缓冲器541和包络缓冲器542的偶尔的刷新,例如,在I帧的第一编码单元(即,第一块)的情况下。这使得能够在不知道前面的数据的情况下对I帧进行解码。第一编码单元通常将不能使用预测贡献,但是却可以使用相对少的比特数量来传达预测器信息520。可以通过将更多比特分配给这个第一编码单元的预测误差编码来补偿预测增益的损失。通常,预测器贡献对于I帧的第二编码单元(即,第二块)再次是巨大的。由于这些方面,可以在比特率的提高相对较小的情况下保持质量,即使非常频繁地使用I帧也是如此。
换句话说,块集合132、332(也被称为帧)包括可以使用预测编码进行编码的多个块131。当对I帧进行编码时,块集合332中只有第一块203不能使用通过预测编码器实现的编码增益进行编码。紧随后面的块201可能已经使用了预测编码的益处。这意味着I帧关于编码效率的缺点限于帧332的变换系数的第一块203的编码,而不适用于帧332的其它块201、204、205。因此,在本文件中描述的基于变换的语音编码方案使得可以在不显著地影响编码效率的情况下相对频繁地使用I帧。就这一点而论,目前描述的基于变换的语音编码方案特别适合于要求解码器和编码器之间相对快速地和/或相对频繁地同步的应用。如以上所指示的,在I帧的初始化期间,预测器信号缓冲器(即,子带缓冲器541)可以用零刷新,并且包络缓冲器542可以仅用一个时隙的值填充,即,可以仅用单个调整的包络139(对应于I帧的第一块131)填充。I帧的第一块131通常将不使用预测。第二块131仅可以访问包络缓冲器542的两个时隙(即,第一块和第二块131的包络139),第三块仅可以访问三个时隙(即,三个块131的包络139),第四块131仅可以访问四个时隙(即,四个块131的包络139)。
频谱成形器544(用于标识用于确定估计的变换系数的块150(在平整域中))的延迟平整规则基于整数滞后值T0,该整数滞后值T0通过以块大小K为单位(其中,块大小的单位可以被称为时隙或槽)将预测器滞后参数T舍入处理为最接近的整数而确定。然而,在I帧的情况下,该整数滞后值T0可以指向包络缓冲器542中的不可获得条目。鉴于此,频谱成形器544可以被配置为确定整数滞后值T0以使得整数滞后值T0限于存储在包络缓冲器542内的包络139的数量,即,以使得整数滞后值T0不指向在包络缓冲器542内不可获得的包络139。为了这个目的,整数滞后值T0可以限于作为当前帧内部的块索引的函数的值。举例来说,整数滞后值T0可以限于当前帧内的(将被编码的)当前块131的索引值(例如,用于帧的第一块131的1、用于第二块131的2、用于第三块131的3、以及用于第四块131的4)。通过这样做,可以避免由于平整过程而导致的不可取的状态和/或失真。
图5d示出了示例频谱解码器502的框图。频谱解码器502包括无损解码器551,其被配置为对熵编码的系数数据163进行解码。此外,频谱解码器502包括逆量化器522,其被配置为将系数值分配给系数数据163内所包括的量化索引。如在编码器100、170的上下文中所概述的,可以使用选自一组预定量化器(例如,有限的一组基于模型的标量量化器)的不同量化器对不同的变换系数进行量化。如图4所示,一组量化器321、322、323可以包括不同类型的量化器。该组量化器可以包括提供噪声合成(在零比特率的情况下)的量化器321、一个或更多个抖动量化器322(用于相对较低的信噪比、SNR,以及用于中间比特率)、和/或一个或更多个普通量化器323(用于相对较高的SNR以及用于相对较高的比特率)。
包络细化单元107可以被配置为提供分配包络138,其可以与系数数据163内所包括的偏移参数组合以得到分配矢量。分配矢量包含用于每个频带302的整数值。用于特定频带302的整数值指向将用于该特定带302的变换系数的逆量化的率失真点。换句话说,用于特定频带302的整数值指向将用于该特定带302的变换系数的逆量化的量化器。将该整数值增加1对应于SNR提高1.5dB。对于抖动量化器322和普通量化器323,在可以利用算术编码的无损编码中可以使用Laplacian概率分布模型。一个或更多个抖动量化器322可以用于在低比特率情况和高比特率情况之间以无缝的方式桥接间隙。抖动量化器322在对静止噪声式信号创建足够平滑的输出音频质量中可能是有益的。
换句话说,逆量化器552可以被配置为接收变换系数的当前块131的系数量化索引。特定频带302的所述一个或更多个系数量化索引已经被使用来自预定的一组量化器中的对应的量化器确定。用于特定频带302的分配矢量(其可以通过用偏移参数使分配包络138偏移而确定)的值指示已经被用于确定该特定频带302的所述一个或更多个系数量化索引的量化器。在标识该量化器之后,可以对所述一个或更多个系数量化索引进行逆量化以得到量化的误差系数的块145。
此外,频谱解码器502可以包括逆向重新缩放单元113以提供缩放的量化的误差系数的块147。围绕图5d的无损解码器551和逆量化器552的附加的工具和互连可以用于使频谱解码适应其在图5a中所示的整体解码器500中的使用,其中,频谱解码器502(即,量化的误差系数的块145)的输出用于对预测的平整域矢量(即,估计的变换系数的块150)的附加校正。具体地,这些附加工具可以确保解码器500所执行的处理对应于编码器100、170所执行的处理。
具体地,频谱解码器502可以包括启发式缩放单元111。如结合编码器100、170所示的,启发式缩放单元111可能对比特分配有影响。在编码器100、170中,可以通过启发式规则将预测误差系数的当前块141一直缩放到单位方差。结果,默认的分配可能导致启发式缩放单元111的最终的缩小的输出的量化太细。因此,应以与预测误差系数的修改类似的方式修改分配。然而,如以下所概述的,避免用于低频区间(或低频带)中的一个或更多个的编码资源减少可能是有益的。具体地,这对于对在发声的情况下恰巧是最突出的LF(低频)隆隆声/噪声伪影进行计数可能是有益的。就这一点而论,以下描述的取决于控制参数146的比特分配/量化器选择可以被认为是“发声自适应LF质量提升”。
频谱解码器可以取决于被命名为rfu的控制参数146,其可以是预测器增益g的有限版本,例如,
rfu=min(1,max(g,0))
可以使用用于确定控制参数146,即rfu的替代方法。具体地,可以使用表1中给出的伪代码来确定控制参数146。
表1
变量f_gain和f_pred_gain可以被设置为相等。具体地,变量f_gain可以对应于预测器增益g。控制参数146即rfu在表1中被称为f_rfu。增益f_gain可以是实数。
与控制参数146的第一定义相比,后一定义(根据表1)对于高于1的预测器增益减小控制参数146即rfu,并且对负预测器增益增大控制参数146即rfu。
使用控制参数146,可以改造编码器100、170的系数量化单元112中所使用的以及逆量化器552中所使用的量化器组。具体地,可以基于控制参数146来改造量化器组的噪声特性。举例来说,控制参数146rfu的接近于1的值可以使用抖动量化器来触发分配水平范围的限制,并且可以触发噪声合成水平的方差的减小。在例子中,可以设置抖动决策阈值为rfu=0.75以及等于1-rfu的噪声增益。抖动改造可以影响无损解码和逆量化器两者,而噪声增益改动通常仅影响逆量化器。
可以假定,预测器贡献对于发声/音调情况是巨大的。就这一点而论,相对较高的预测器增益g(即,相对较高的控制参数146)可以指示发声或音调语音信号。在这样的情况下,抖动相关的或明显的(零分配情况)噪声的添加依经验表明对于编码的信号的感知质量是适得其反的。因此,可以基于预测器增益g来改造抖动量化器322的数量和/或用于噪声合成量化器321的噪声的类型,从而改进编码的语音信号的感知质量。
就这一点而论,控制参数146可以用于修改使用了抖动量化器322的SNR范围324、325。举例来说,如果控制参数146rfu<0.75,则对于抖动量化器可以使用范围324。换句话说,如果控制参数146低于预定阈值,则可以使用第一组量化器326。另一方面,如果控制参数146rfu≥0.75,则对于抖动量化器可以使用范围325。换句话说,如果控制参数146大于或等于预定阈值,则可以使用第二组量化器327。
此外,控制参数146可以用于修改方差和比特分配。这样的原因是,通常,成功的预测将需要较小的校正,尤其是在从0-1kHz的低频范围内。使量化器明确地知道与单位方差模型的这个偏差以便将编码资源释放到更高频带302可能是有利的。这在WO2009/086918的图17c第三版面的上下文中被描述,该申请的内容通过引用并入。在解码器500中,该修改可以通过下述方式来实现,即,根据启发式缩放规则(通过使用缩放单元111而被应用)来修改标称分配矢量,同时,使用逆向缩放单元113根据逆向启发式缩放规则来缩放逆量化器552的输出。遵循WO2009/086918的理论,启发式缩放规则和逆向启发式缩放规则应紧密匹配。然而,已经在经验上发现,有利的是取消对一个或更多个最低频带302的分配修改,以便对抗发声信号分量的关于LF(低频)噪声的偶尔问题。可以根据预测器增益g和/或控制参数146的值来执行分配修改的取消。具体地,只有当控制参数146超过抖动决策阈值时,才可以执行分配修改的取消。
如以上所概述的,编码器100、170和/或解码器500可以包括缩放单元111,其被配置为重新缩放预测误差系数Δ(k)以得到重新缩放的误差系数的块142。重新缩放单元111可以使用一个或更多个预定启发式规则来执行重新缩放。在例子中,重新缩放单元111可以使用包括增益d(f)的启发式缩放规则,例如,
其中,拐点频率f0可以被设置为例如1000Hz。因此,重新缩放单元111可以被配置为将依赖于频率的增益d(f)应用于预测误差系数以得到重新缩放的误差系数的块142。逆向重新缩放单元113可以被配置为应用依赖于频率的增益d(f)的倒数。依赖于频率的增益d(f)可以取决于控制参数rfu 146。在以上例子中,增益d(f)表现出低通特性,使得预测误差系数在更高频率处的衰减大于更低频率处,和/或使得预测误差系数在更低频率处的加重大于更高频率处。以上提及的增益d(f)总是大于或等于一。因此,在优选实施例中,启发式缩放规则使得预测误差系数被加重一倍或更多倍(这依频率而定)。
应注意,依赖于频率的增益可以指示功率或方差。在这样的情况下,应基于依赖于频率的增益的平方根(例如,基于)来推导缩放规则和逆向缩放规则。
加重和/或衰减的程度可以取决于预测器117所实现的预测的质量。预测器增益g和/或控制参数rfu 146可以指示预测的质量。具体地,控制参数rfu 146的相对较低的值(相对地更接近于零)可以指示低预测质量。在这样的情况下,预计预测误差系数在所有频率上具有相对较高的(绝对)值。控制参数rfu 146的相对较高的值(相对更接近于一)可以指示高预测质量。在这样的情况下,预计预测误差系数对于高频具有相对较高的(绝对)值(这些值更难以预测)。因此,为了在重新缩放单元111的输出处实现单位方差,增益d(f)可以使得在相对较低的预测质量的情况下,增益d(f)对于所有频率都基本上是平坦的,而在相对较高的预测质量的情况下,增益d(f)具有低通特性,以提高或提升低频处的方差。对于以上提及的依赖于rfu的增益d(f),情况就是这样。
如以上所概述的,比特分配单元110可以被配置为根据分配包络138中的对应的能量值将相对的比特分配提供给不同的重新缩放的误差系数。比特分配单元110可以被配置为考虑启发式重新缩放规则。启发式重新缩放规则可以取决于预测的质量。在相对较高的预测质量的情况下,可能有益的是,与预测误差系数(或重新缩放的误差系数的块142)在低频处的编码相比,将相对增多数量的比特分配给这些系数在高频处的编码。这可能是由于下述事实而导致的,即,在高预测质量的情况下,低频系数已经被很好地预测,而高频系数的预测通常不太好。另一方面,在相对低的预测质量的情况下,比特分配应保持不变。
以上行为可以通过下述方式来实现,即,将启发式规则/增益d(f)的倒数应用于当前的调整的包络139,以便确定考虑预测质量的分配包络138。
调整的包络139、预测误差系数和增益d(f)可以在对数或dB域中被表示。在这样的情况下,增益d(f)对于预测误差系数的应用可以对应于“加法”运算,增益d(f)的倒数对于调整的包络139的应用可以对应于“减法”运算。
应注意,启发式规则/增益d(f)的各种变体是可能的。具体地,低通特性的固定依赖于频率曲线可以用取决于包络数据(例如,用于当前块131的调整的包络139)的函数取代。修改的启发式规则可以取决于控制参数rfu 146和包络数据两者。
在下面,描述用于确定预测器增益ρ的不同方式,预测器增益ρ可以对应于预测器增益g。预测器增益ρ可以用作预测质量的指示。预测残差矢量(即,预测误差系数z的块141)可以由z=x-ρy给出,其中,x是目标矢量(例如,平整的变换系数的当前块140或变换系数的当前块131),y是表示用于预测的选定候选的矢量(例如,重构的系数的前一个块149),ρ是(标量)预测器增益。
w≥0可以是用于确定预测器增益ρ的权重矢量。在一些实施例中,权重矢量是信号包络的函数(例如,调整的包络139的函数,调整的包络139可以在编码器100、170处被估计,然后被发送到解码器500)。权重矢量通常具有与目标矢量和候选矢量相同的维度。矢量x的第i条目可以用xi(例如,i=1,…,K)表示。
存在用于定义预测器增益ρ的不同方式。在实施例中,预测器增益ρ是根据最小均方误差标准定义的MMSE(最小均方误差)增益。在这种情况下,可以使用以下公式来计算预测器增益ρ:
这样的预测器增益ρ通常最小化被定义为的均方误差。
将加权引入到均方误差D的定义通常(在感知上)是有益的。加权可以用于强调用于信号频谱的感知上重要的部分的x和y之间的匹配的重要性,并且削弱用于信号频谱的相对而言不太重要的部分的x和y之间的匹配的重要性。这样的方法导致以下误差标准:这导致最佳预测器增益的以下定义(从加权均方误差的意义上来讲):
预测器增益的以上定义通常导致无界的增益。
如以上所指示的,可以基于调整的包络139来确定权重矢量w的权重wi。例如,可以使用调整的包络139的预定义函数来确定权重矢量w。该预定义函数可以在编码器处以及在解码器处是已知的(对于调整的包络139,情况也是这样)。因此,在编码器处以及在解码器处可以以相同的方式确定权重矢量。
另一个可能的预测器增益公式由以下公式给出:
其中,并且预测器增
益的这个定义得到总是在区间[-1,1]内的增益。由后一公式指定的预测器增益的重要特征
是,预测器增益ρ促进目标信号x的能量和残差信号z的能量之间的易控制关系。LTP残差能
量可以被表达为:
可以使用以上提及的公式、基于预测器增益g来确定控制参数rfu146。预测器增益g可以等于使用以上提及的公式中的任何一个确定的预测器增益ρ。
如以上所概述的,编码器100、170被配置为对残差矢量z(即,预测误差系数的块141)进行量化和编码。量化过程通常由信号包络(例如,分配包络138)根据基本感知模型引导,以便以感知上有意义的方式在信号的频谱分量之间分布可用比特。率分配的过程由从输入信号(例如,变换系数的块131)推导的信号包络(例如,分配包络138)引导。预测器117的操作通常改变信号包络。量化单元112通常使用根据对单位方差源进行操作的假定而设计的量化器。可注意到,在高质量预测的情况下(即,当预测器117成功时),单位方差性质可能不再是情况,即,预测误差系数的块141可能不表现出单位方差。
估计预测误差系数(即,用于残差z)的块141的包络并且将该包络发送到解码器(并且重新使用估计的包络使预测误差系数的块141平整)通常是低效的。相反,编码器100和解码器500可以使用启发式规则来重新缩放预测误差系数的块141(如以上所概述的那样)。启发式规则可以用于重新缩放预测误差系数的块141,以使得重新缩放的系数的块142接近单位方差。作为这的结果,可以改进量化结果(通过使用假定单位方差的量化器)。
此外,如以上概述的,启发式规则可以用于修改用于比特分配过程的分配包络138。分配包络138的修改和预测误差系数的块141的重新缩放通常由编码器100和解码器500以相同的方式执行(通过使用相同的启发式规则)。
以上已经描述了可能的启发式规则d(f)。在下面,描述用于确定启发式规则的另一种方法。加权域能量预测增益的倒数可以由p∈[0,1]给出,以使得其中,指示加权域中的残差矢量(即,预测误差系数的块141)的平方能量,并且其中,指示加权域中的目标矢量(即,平整的变换系数的块140)的平方能量。
可以采取以下假定:
1.目标矢量x的条目具有单位方差。这可以是由平整单元108执行平整的结果。该假定根据平整单元108所执行的基于包络的平整的质量而实现。
2.预测残差矢量z的条目的方差是(对于i=1,…,K,并且对于一些t≥0)的形式。该假定是基于下述启发,即,面向最小平方的预测器搜索导致加权域中的均匀分布的误差分布,使得残差矢量更平坦或者更不平坦。此外,可以预计预测器候选接近于平坦,这导致合理的边界E{z2(i)}≤1。应注意,可以使用这个第二假定的各种修改。
为了估计参数t,可以将以上提及的两个假定插入到预测误差公式(例如,)中,从而提供“水平面类型”方程:
可以表明,在区间t∈[0,max(w(i))]中存在对于以上方程的解。可以使用排序例程来对用于找到参数t的方程进行求解。
启发式规则然后可以由给出,其中,i=1,…,K标识频率区间。启发式缩放规则的逆规则由给出。启发式缩放规则的逆规则由逆向重新缩放单元113应用。依赖于频率的缩放规则取决于权重W(i)=Wi。如以上所指示的,权重W(i)可以取决于变换系数(例如,调整的包络139、或调整的包络139的某一预定义函数)的当前块131,或者对应于该当前块131。
可以表明,当使用公式来确定预测器增益时,以下关系适用:p=1-ρ2。
因此,可以以各种不同的方式确定启发式缩放规则。已经通过实验表明,基于以上提及的两个假定而确定的缩放规则(被称为缩放方法B)与固定缩放规则d(f)相比是有利的。具体地,基于这两个假定而确定的缩放规则可以考虑在预测器候选搜索的过程中使用的加权的效果。缩放方法B方便与增益的定义组合,因为残差的方差和信号的方差之间的关系在分析上是易控制的(这促进如以上所概述的那样推导p)。
在下面,描述用于改进基于变换的音频编解码器的性能的进一步的方面。具体地,提议使用所谓的方差保持标志。可以在每一个块131的基础上确定并发送方差保持标志。方差保持标志可以指示预测的质量。在实施例中,在相对较高的预测质量的情况下,方差保持标志关,在相对较低的预测质量的情况下,方差保持标志开。方差保持标志可以由编码器100、700例如基于预测器增益ρ和/或基于预测器增益g确定。举例来说,如果预测器增益ρ或g(或从其推导的参数)低于预定阈值(例如,2dB),则方差保持标志可以被设置为“开”,反之亦然。如以上所概述的,加权域能量预测增益p的倒数通常取决于预测器增益,例如,p=1-ρ2。参数p的倒数可以用于确定方差保持标志的值。举例来说,可以将1/p(例如,用dB表达)与预定阈值(例如,2dB)进行比较,以便确定方差保持标志的值。如果1/p大于预定阈值,则方差保持标志可以被设置为“关”(指示相对较高的预测质量),反之亦然。
方差保持标志可以用于控制编码器100和解码器500的各种不同的设置。具体地,方差保持标志可以用于控制多个量化器321、322、323的噪声特性的程度。具体地,方差保持标志可以影响以下设置中的一个或更多个:
●用于零比特分配的自适应噪声增益。换句话说,噪声合成量化器321的噪声增益可能受方差保持标志影响。
●抖动量化器的范围。换句话说,使用抖动量化器322的SNR的范围324、325可能受方差保持标志的影响。
●抖动量化器的后增益。后增益可以被应用于抖动量化器的输出,以便影响抖动量化器的均方误差性能。后增益可以取决于方差保持标志。
●启发式缩放的应用。启发式缩放的使用(在重新缩放单元111中以及在逆向重新缩放单元113中)可以取决于方差保持标志。
表2中提供了方差保持标志可以如何改变编码器100和/或解码器500的一个或更多个设置的例子。
表2
在关于后增益的公式中,是预测误差系数(将被量化)的块141的系数中的一个或更多个的方差,Δ是应用后增益的抖动量化器的标量量化器(612)的量化器步长大小。
从表2的例子可以看出,噪声合成量化器321的噪声增益gN(即,噪声合成量化器321的方差)可以取决于方差保持标志。如以上所概述的,控制参数rfu 146可以在范围[0,1]内,其中,rfu的相对较低的值指示相对较低的预测质量,rfu的相对较高的值指示相对较高的预测质量。对于[0,1]的范围内的rfu值,左列公式所提供的噪声增益gN低于右列公式。因此,当方差保持标志开(指示相对较低的预测质量)时,所使用的噪声增益高于当方差保持标志关(指示相对较高的预测质量)时。已经通过实验表明,这改进了总体感知质量。
如以上所概述的,抖动量化器322的SNR范围324、325可以根据控制参数rfu而变化。根据表2,当方差保持标志为开(指示相对较低的预测质量)时,使用固定的大范围的抖动量化器322(例如,范围324)。另一方面,当方差保持标志为关(指示相对较高的预测质量)时,根据控制参数rfu,使用不同的范围324、325。
量化的误差系数的块145的确定可以涉及将后增益γ应用于已经使用抖动量化器322进行量化的量化的误差系数。后增益γ可以被推导以改进抖动量化器322(例如,具有减抖动的量化器)的MSE性能。后增益可以由以下方程给出:
已经通过实验表明,当使后增益取决于方差保持标志时,可以改进感知编码质量。当方差保持标志为关(指示相对较高的预测质量)时,使用以上提及的MSE最佳后增益。另一方面,当方差保持标志为开(指示相对较低的预测质量)时,使用更高的后增益(根据表2的右侧的公式而确定)可能是有益的。
如以上所概述的,启发式缩放可以用于提供比预测误差系数的块141更接近单位方差性质的重新缩放的误差系数的块142。可以使启发式缩放规则取决于控制参数146。换句话说,可以使启发式缩放规则取决于预测质量。在相对较高的预测质量的情况下,启发式缩放可能是特别有益的,而在相对较低的预测质量的情况下,这些益处可能是受限的。鉴于此,当方差保持标志为关(指示相对较高的预测质量)时仅使用启发式缩放可能是有益的。
在本文件中,已经描述了基于变换的语音编码器100、700和对应的基于变换的语音解码器500。基于变换的语音编解码器可以使用使得可改进编码的语音信号的质量的各种方面。语音编解码器可以使用例如在5ms的范围内的相对较短的块(也被称为编码单位),从而确保对于语音信号的适合的时间分辨率和有意义的统计。此外,语音编解码器可以提供编码单位的时变的频谱包络的足够描述。此外,语音编解码器可以使用变换域中的预测,其中,该预测可以考虑编码单位的频谱包络。因此,语音编解码器可以将包络知晓预测更新提供给编码单位。此外,语音编解码器可以使用适于预测结果的预定量化器。换句话说,语音编解码器可以使用预测自适应标量量化器。
本文件中所描述的方法和系统可以被实现为软件、固件和/或硬件。某些组件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其它组件可以例如被实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以被存储在诸如随机存取存储器或光学存储介质之类的介质上。它们可以经由网络传送,所述网络诸如无线电网络、卫星网络、无线网络或有线网络(例如,互联网)。使用本文件中所描述的方法和系统的典型的装置是便携式电子装置或者用于存储和/或渲染音频信号的其它的消费者设备。
Claims (24)
1.一种被配置为将语音信号编码为比特流的基于变换的语音编码器(100、170),该编码器(100、170)包括:
-组帧单元(101),所述组帧单元(101)被配置为接收块集合(132、332);其中,所述块集合(132、332)包括变换系数的多个顺序块;其中,所述多个顺序块指示所述语音信号的采样;其中,变换系数的每个块包括用于对应的多个频率区间(301)的多个变换系数;
-包络估计单元(102),被配置为基于变换系数的所述多个顺序块来确定当前包络(133);其中,所述当前包络(133)指示用于所述对应的多个频率区间(301)的多个频谱能量值(303);
-包络量化单元(103),被配置为通过对当前包络(133)量化来确定经量化的当前包络(134);
-包络插值单元(104),被配置为基于所述经量化的当前包络(134)和经量化的前一个包络(135)来分别确定用于变换系数的所述多个顺序块的多个经插值包络(136);以及
-平整单元(108),被配置为通过分别使用对应的所述多个经插值包络(136)使变换系数的对应的所述多个顺序块平整来确定平整的变换系数的多个块(140);其中,所述比特流基于所述平整的变换系数的多个块(140)而被确定。
2.根据权利要求1所述的基于变换的语音编码器(100、170),其中
-基于变换的语音编码器(100、170)还包括包络增益确定单元(105、106),所述包络增益确定单元(105、106)被配置为分别地确定用于变换系数的所述多个顺序块的多个包络增益;
-基于变换的语音编码器(100、170)还包括包络细化单元(107),所述包络细化单元(107)被配置为通过分别根据所述多个包络增益偏移所述多个经插值包络(136)的频谱能量值(303)来确定多个调整的包络(139);
-所述平整单元(108)被配置为通过分别使用对应的所述多个调整的包络(139)使变换系数的对应的所述多个顺序块平整来确定所述平整的变换系数的多个块(140)。
3.根据权利要求2所述的基于变换的语音编码器(100、170),其中,所述包络增益确定单元(105、106)被配置为确定用于变换系数的第一块的第一包络增益,以使得与使用第一经插值包络(139)推导出的平整的变换系数的对应的第一块(140)的平整的变换系数的方差相比较,使用第一调整的包络(139)推导出的平整的变换系数的对应的第一块(140)的平整的变换系数的方差被调整。
4.根据权利要求3所述的基于变换的语音编码器(100、170),其中,所述包络增益确定单元(105、106)被配置为确定用于变换系数的所述第一块的第一包络增益,以使得使用第一调整的包络(139)推导出的平整的变换系数的对应的第一块(140)的平整的变换系数的方差是一。
5.根据权利要求2至4中的任何一个所述的基于变换的语音编码器(100、170),其中,所述包络增益确定单元(105、106)被配置为将指示所述多个包络增益的增益数据(162)插入到所述比特流中。
6.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中
-当前包络(133)指示关于对应的多个频带(302)的多个频谱能量值(303);
-频带(302)包括一个或更多个频率区间(301);
-包络估计单元(102)被配置为基于针对特定频带(302)的所述多个顺序块的变换系数来确定关于所述特定频带(302)的频谱能量值(303)。
7.根据权利要求6所述的基于变换的语音编码器(100、170),其中,每一频带(302)的频率区间(301)的数量随着频率增大而增大。
8.根据权利要求6所述的基于变换的语音编码器(100、170),其中,所述包络估计单元(102)被配置为基于针对所述特定频带(302)的所述多个顺序块的变换系数的均方根值来确定关于所述特定频带(302)的频谱能量值(303)。
9.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中所述包络量化单元(103)被配置为:-将包络数据(161)插入到指示所述经量化的当前包络(134)的比特流中。
10.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中
-变换系数的每个块包括MDCT系数;和/或
-变换系数的每个块包括在256个频率区间(301)中的256个变换系数;和/或
-块集合(132、332)包括变换系数的四个或更多个顺序块。
11.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中
-基于变换的语音编码器(100、170)被配置为在多种不同的模式下进行操作,所述多种不同的模式包括短步幅模式和长步幅模式;
-当基于变换的语音编码器(100、170)在短步幅模式下操作时,组帧单元(101)、包络估计单元(102)和包络插值单元(104)被配置为对包括变换系数的所述多个顺序块的块集合(132、332)进行处理;以及
-当基于变换的语音编码器(100、170)在长步幅模式下时,组帧单元(101)、包络估计单元(102)和包络插值单元(104)被配置为对包括变换系数的单个块的块集合(132、332)进行处理。
12.根据权利要求11所述的基于变换的语音编码器(100、170),在长步幅模式下,
-所述包络估计单元(102)被配置为确定所述块集合(132、133)内所包括的变换系数的所述单个块的当前包络(133);以及
-所述包络插值单元(104)被配置为将用于变换系数的所述单个块的经插值包络(136)确定为变换系数的所述单个块的当前包络(133)。
13.一种被配置为对比特流进行解码以提供重构的语音信号的基于变换的语音解码器(500),所述解码器(500)包括:
-包络解码单元(531),所述包络解码单元(531)被配置为从所述比特流内所包括的包络数据(161)确定经量化的当前包络(134);其中,所述经量化的当前包络(134)指示关于对应的多个频率区间的多个频谱能量值(303);其中,所述比特流包括指示重构的平整的变换系数的多个顺序块(148)的数据(163、164);其中,重构的平整的变换系数的每个块(148)包括用于对应的所述多个频率区间(301)的多个重构的平整的变换系数;
-包络插值单元(104),所述包络插值单元(104)被配置为基于经量化的当前包络(134)和基于经量化的前一个包络(135)来分别地确定用于重构的平整的变换系数的所述多个顺序块(148)的多个经插值包络(136);以及
-逆向平整单元(108),所述逆向平整单元(108)被配置为通过分别使用对应的所述多个经插值包络(136)为重构的平整的变换系数的对应的所述多个顺序块(148)提供频谱形状来确定重构的变换系数的多个块(149);其中,所述重构的语音信号基于所述重构的变换系数的多个块(149)而确定。
14.根据权利要求13所述的基于变换的语音解码器(500),其中,所述经量化的前一个包络(136)与在所述重构的变换系数的多个块(149)正前面的重构的变换系数的前面的多个块(149)相关联。
15.根据权利要求13至14中的任何一个所述的基于变换的语音解码器(500),其中
-重构的平整的变换系数的多个顺序块(148)包括第一中间时刻的重构的平整的变换系数的第一块(148);
-所述包络插值单元(104)被配置为通过对第一中间时刻的、关于经量化的当前包络(134)和经量化的前一个包络(135)的特定频率区间(301)的频谱能量值(303)进行插值来确定关于第一经插值包络(136)的特定频率区间(301)的频谱能量值(303);
-第一经插值包络(136)与重构的平整的变换系数的第一块(148)相关联。
16.根据权利要求15所述的基于变换的语音解码器(500),其中,所述包络插值单元(104)被配置为执行以下操作中的一个或更多个:线性插值、几何插值和谐波插值。
17.根据权利要求15所述的基于变换的语音解码器(500),其中,所述包络插值单元(104)被配置为在对数域中执行插值。
18.根据权利要求15所述的基于变换的语音解码器(500),其中,所述包络插值单元(104)被配置为:通过对关于经量化的当前包络(134)和经量化的前一个包络(135)的特定频率区间(301)的频谱能量值(303)之间的插值进行量化,来确定关于第一经插值的包络(136)的特定频率区间(301)的频谱能量值(303)。
19.根据权利要求15所述的基于变换的语音解码器(500),其中
-重构的平整的变换系数的多个顺序块(148)包括第二中间时刻的重构的平整的变换系数的第二块(148);
-所述包络插值单元(104)被配置为:通过对第二中间时刻的、关于经量化的当前包络(134)和经量化的前一个包络(135)的特定频率区间(301)的频谱能量值(303)进行插值,来确定关于第二经插值的包络(136)的特定频率区间(301)的频谱能量值(303);
-所述第二经插值的包络(136)与重构的平整的变换系数的第二块(148)相关联;
-重构的平整的变换系数的第二块(148)在重构的平整的变换系数的第一块(148)之后;并且
-所述第二中间时刻在所述第一中间时刻之后。
20.根据权利要求19所述的基于变换的语音解码器(500),其中,所述第二中间时刻和所述第一中间时刻之间的差值对应于在重构的平整的变换系数的第二块和重构的平整的变换系数的第一块(148)之间的时间间隔。
21.根据权利要求13至14中的任何一个所述的基于变换的语音解码器(500),其中
-所述比特流指示分别用于重构的平整的变换系数的所述多个顺序块(148)的多个包络增益;
-基于变换的语音解码器(500)还包含包络细化单元(107),包络细化单元(107)被配置为通过分别将所述多个包络增益应用于所述多个经插值的包络(136)来确定多个调整的包络(139);
-所述逆向平整单元(108)被配置为:通过分别使用对应的所述多个调整的包络(139)为重构的平整的变换系数的对应的多个顺序块(148)提供频谱形状,来确定所述重构的变换系数的多个块(149)。
22.一种被配置为对指示包括第一段的音频信号的比特流进行解码的基于变换的音频解码器,所述音频解码器包括:
-根据权利要求13-21中任一项所述的基于变换的语音解码器(500),被配置为基于所述比特流内所包括的数据(161、162、163、164)来确定重构的变换系数的多个块(149);
-逆向变换单元(504),被配置为基于所述重构的变换系数的多个块(149)来确定重构的第一段;其中,重构的变换系数的每个块(149)包括用于对应的多个频率区间(301)的多个重构的变换系数;其中,所述逆向变换单元(504)被配置为对包括第一数量的重构的变换系数的长块以及包括第二数量的重构的变换系数的短块进行处理;其中,第一数量大于第二数量;其中,所述多个块(149)中的块(149)是短块。
23.一种用于将语音信号编码为比特流的方法,所述方法包括:
-接收块集合(132、332);其中,所述块集合(132、332)包括变换系数的多个顺序块;其中,所述多个顺序块指示语音信号的采样;其中,变换系数的每个块包括用于对应的多个频率区间(301)的多个变换系数;基于变换系数的所述多个顺序块来确定当前包络(133);其中,所述当前包络(133)指示关于对应的所述多个频率区间(301)的多个频谱能量值(303);
-通过对当前包络(133)量化来确定经量化的当前包络(134);
-基于经量化的当前包络(134)和经量化的前一个包络(135)来分别确定用于变换系数的所述多个顺序块的多个经插值的包络(136);
-通过分别使用对应的多个经插值的包络(136)使变换系数的对应的多个顺序块平整来确定平整的变换系数的多个块(140);以及
-基于所述平整的变换系数的多个块(140)来确定所述比特流。
24.一种用于对比特流进行解码以提供重构的语音信号的方法,所述方法包括:
-从所述比特流内所包括的包络数据(161)确定经量化的当前包络(134);其中,经量化的当前包络(134)指示关于对应的多个频率区间(301)的多个频谱能量值(303);其中,所述比特流包括指示重构的平整的变换系数的多个顺序块(148)的数据(163、164);其中,重构的平整的变换系数的每个块(148)包括用于对应的多个频率区间(301)的多个重构的平整的变换系数;
-基于经量化的当前包络(134)和基于经量化的前一个包络(135)来确定分别用于重构的平整的变换系数的多个顺序块(148)的多个经插值的包络(136);
-通过分别使用对应的多个经插值的包络(136)为重构的平整的变换系数的对应的多个顺序块(148)提供频谱形状来确定重构的变换系数的多个块(149);以及
-基于重构的变换系数的多个块(149)来确定重构的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910177919.0A CN109712633B (zh) | 2013-04-05 | 2014-04-04 | 音频编码器和解码器 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361808675P | 2013-04-05 | 2013-04-05 | |
US61/808,675 | 2013-04-05 | ||
US201361875553P | 2013-09-09 | 2013-09-09 | |
US61/875,553 | 2013-09-09 | ||
PCT/EP2014/056851 WO2014161991A2 (en) | 2013-04-05 | 2014-04-04 | Audio encoder and decoder |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910177919.0A Division CN109712633B (zh) | 2013-04-05 | 2014-04-04 | 音频编码器和解码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105247614A CN105247614A (zh) | 2016-01-13 |
CN105247614B true CN105247614B (zh) | 2019-04-05 |
Family
ID=50439392
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910177919.0A Active CN109712633B (zh) | 2013-04-05 | 2014-04-04 | 音频编码器和解码器 |
CN201480024367.5A Active CN105247614B (zh) | 2013-04-05 | 2014-04-04 | 音频编码器和解码器 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910177919.0A Active CN109712633B (zh) | 2013-04-05 | 2014-04-04 | 音频编码器和解码器 |
Country Status (20)
Country | Link |
---|---|
US (4) | US10043528B2 (zh) |
EP (3) | EP3671738B1 (zh) |
JP (1) | JP6227117B2 (zh) |
KR (5) | KR102245916B1 (zh) |
CN (2) | CN109712633B (zh) |
AU (8) | AU2014247000B2 (zh) |
BR (3) | BR122020017837B1 (zh) |
CA (6) | CA3029041C (zh) |
DK (1) | DK2981958T3 (zh) |
ES (2) | ES2665599T3 (zh) |
HK (2) | HK1218802A1 (zh) |
HU (1) | HUE039143T2 (zh) |
IL (6) | IL294836B2 (zh) |
MX (1) | MX343673B (zh) |
MY (2) | MY176447A (zh) |
PL (1) | PL2981958T3 (zh) |
RU (3) | RU2740690C2 (zh) |
SG (1) | SG11201507703SA (zh) |
UA (1) | UA114967C2 (zh) |
WO (1) | WO2014161991A2 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2740690C2 (ru) * | 2013-04-05 | 2021-01-19 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
PL3699910T3 (pl) * | 2014-05-01 | 2021-11-02 | Nippon Telegraph And Telephone Corporation | Urządzenie generujące sekwencję okresowej połączonej obwiedni, sposób generowania sekwencji okresowej połączonej obwiedni, program do generowania sekwencji okresowej połączonej obwiedni i nośnik rejestrujący |
SG11201701197TA (en) * | 2014-07-25 | 2017-03-30 | Panasonic Ip Corp America | Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method |
US9530400B2 (en) * | 2014-09-29 | 2016-12-27 | Nuance Communications, Inc. | System and method for compressed domain language identification |
EP3107096A1 (en) * | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
US10210871B2 (en) * | 2016-03-18 | 2019-02-19 | Qualcomm Incorporated | Audio processing for temporally mismatched signals |
CN106782573B (zh) * | 2016-11-30 | 2020-04-24 | 北京酷我科技有限公司 | 一种编码生成aac文件的方法 |
US11545164B2 (en) * | 2017-06-19 | 2023-01-03 | Rtx A/S | Audio signal encoding and decoding |
CN110764422A (zh) * | 2018-07-27 | 2020-02-07 | 珠海格力电器股份有限公司 | 电器的控制方法和装置 |
EP3751567B1 (en) | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
KR20220104049A (ko) * | 2019-11-27 | 2022-07-25 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 코딩을 위한 음조 신호의 주파수 도메인 장기 예측을 위한 인코더, 디코더, 인코딩 방법 및 디코딩 방법 |
CN112201283B (zh) * | 2020-09-09 | 2022-02-08 | 北京小米松果电子有限公司 | 音频播放方法及装置 |
US11935546B2 (en) * | 2021-08-19 | 2024-03-19 | Semiconductor Components Industries, Llc | Transmission error robust ADPCM compressor with enhanced response |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0673014A2 (en) * | 1994-03-17 | 1995-09-20 | Nippon Telegraph And Telephone Corporation | Acoustic signal transform coding method and decoding method |
CN101572586A (zh) * | 2008-04-30 | 2009-11-04 | 北京工业大学 | 编解码方法、装置及系统 |
CN102150205A (zh) * | 2008-07-14 | 2011-08-10 | 韩国电子通信研究院 | 用于编码和解码统合的语音与音频的设备 |
Family Cites Families (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
JP3123286B2 (ja) * | 1993-02-18 | 2001-01-09 | ソニー株式会社 | ディジタル信号処理装置又は方法、及び記録媒体 |
JP3087814B2 (ja) | 1994-03-17 | 2000-09-11 | 日本電信電話株式会社 | 音響信号変換符号化装置および復号化装置 |
US5751903A (en) | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
DE60124521T2 (de) * | 2000-04-07 | 2007-09-06 | Broadcom Corp., Irvine | Rahmenbasierte übertragung von nutzdaten mit veränderlicher datenrate |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
JP3590342B2 (ja) | 2000-10-18 | 2004-11-17 | 日本電信電話株式会社 | 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体 |
US6636830B1 (en) * | 2000-11-22 | 2003-10-21 | Vialta Inc. | System and method for noise reduction using bi-orthogonal modified discrete cosine transform |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6963842B2 (en) | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US7599835B2 (en) * | 2002-03-08 | 2009-10-06 | Nippon Telegraph And Telephone Corporation | Digital signal encoding method, decoding method, encoding device, decoding device, digital signal encoding program, and decoding program |
US7752052B2 (en) * | 2002-04-26 | 2010-07-06 | Panasonic Corporation | Scalable coder and decoder performing amplitude flattening for error spectrum estimation |
CN100370517C (zh) * | 2002-07-16 | 2008-02-20 | 皇家飞利浦电子股份有限公司 | 一种对编码信号进行解码的方法 |
SG108862A1 (en) * | 2002-07-24 | 2005-02-28 | St Microelectronics Asia | Method and system for parametric characterization of transient audio signals |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
US7318027B2 (en) * | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
WO2004082288A1 (en) | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
US8359197B2 (en) * | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
US7299174B2 (en) * | 2003-04-30 | 2007-11-20 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus including enhancement layer performing long term prediction |
US7460684B2 (en) * | 2003-06-13 | 2008-12-02 | Nielsen Media Research, Inc. | Method and apparatus for embedding watermarks |
US7325023B2 (en) | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
AU2006232362B2 (en) * | 2005-04-01 | 2009-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for highband time warping |
DK1760696T3 (en) * | 2005-09-03 | 2016-05-02 | Gn Resound As | Method and apparatus for improved estimation of non-stationary noise to highlight speech |
RU2008112137A (ru) * | 2005-09-30 | 2009-11-10 | Панасоник Корпорэйшн (Jp) | Устройство кодирования речи и способ кодирования речи |
RU2427978C2 (ru) * | 2006-02-21 | 2011-08-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование и декодирование аудио |
US7590523B2 (en) | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US20070270987A1 (en) * | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
DE602007005729D1 (de) | 2006-06-19 | 2010-05-20 | Sharp Kk | Signalverarbeitungsverfahren, Signalverarbeitungsvorrichtung und Aufzeichnungsmedium |
US7987089B2 (en) | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8135047B2 (en) * | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
EP2095560B1 (en) * | 2006-10-11 | 2015-09-09 | The Nielsen Company (US), LLC | Methods and apparatus for embedding codes in compressed audio data streams |
RU2462769C2 (ru) * | 2006-10-24 | 2012-09-27 | Войсэйдж Корпорейшн | Способ и устройство кодирования кадров перехода в речевых сигналах |
CA2645618C (en) | 2006-10-25 | 2013-01-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples |
US20100017197A1 (en) | 2006-11-02 | 2010-01-21 | Panasonic Corporation | Voice coding device, voice decoding device and their methods |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
US8214200B2 (en) | 2007-03-14 | 2012-07-03 | Xfrm, Inc. | Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid |
PL2165328T3 (pl) * | 2007-06-11 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną |
KR101411901B1 (ko) | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
US20110035212A1 (en) * | 2007-08-27 | 2011-02-10 | Telefonaktiebolaget L M Ericsson (Publ) | Transform coding of speech and audio signals |
EP2191467B1 (en) | 2007-09-12 | 2011-06-22 | Dolby Laboratories Licensing Corporation | Speech enhancement |
US9177569B2 (en) * | 2007-10-30 | 2015-11-03 | Samsung Electronics Co., Ltd. | Apparatus, medium and method to encode and decode high frequency signal |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
CN101465122A (zh) | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和系统 |
EP2077550B8 (en) | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
CN101527138B (zh) * | 2008-03-05 | 2011-12-28 | 华为技术有限公司 | 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统 |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
EP2410519B1 (en) * | 2008-07-11 | 2019-09-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for encoding and decoding an audio signal and computer programs |
MX2011000372A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Sintetizador de señales de audio y codificador de señales de audio. |
US8515747B2 (en) | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
US8463603B2 (en) * | 2008-09-06 | 2013-06-11 | Huawei Technologies Co., Ltd. | Spectral envelope coding of energy attack signal |
WO2010028299A1 (en) | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8352279B2 (en) | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
AU2010209673B2 (en) * | 2009-01-28 | 2013-05-16 | Dolby International Ab | Improved harmonic transposition |
US8848788B2 (en) * | 2009-05-16 | 2014-09-30 | Thomson Licensing | Method and apparatus for joint quantization parameter adjustment |
JP5678071B2 (ja) * | 2009-10-08 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム |
CN102859589B (zh) * | 2009-10-20 | 2014-07-09 | 弗兰霍菲尔运输应用研究公司 | 多模式音频编译码器及其适用的码簿激励线性预测编码 |
JP5316896B2 (ja) | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
EP4398244A3 (en) * | 2010-07-08 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder using forward aliasing cancellation |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US8560330B2 (en) | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
CN102436820B (zh) | 2010-09-29 | 2013-08-28 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
CN103229235B (zh) * | 2010-11-24 | 2015-12-09 | Lg电子株式会社 | 语音信号编码方法和语音信号解码方法 |
TWI469136B (zh) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
JP6185457B2 (ja) * | 2011-04-28 | 2017-08-23 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
WO2013002696A1 (en) * | 2011-06-30 | 2013-01-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal |
PL2791937T3 (pl) * | 2011-11-02 | 2016-11-30 | Wytworzenie rozszerzenia pasma wysokiego sygnału dźwiękowego o poszerzonym paśmie | |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
WO2014046526A1 (ko) * | 2012-09-24 | 2014-03-27 | 삼성전자 주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
RU2742460C2 (ru) | 2013-01-08 | 2021-02-08 | Долби Интернешнл Аб | Предсказание на основе модели в наборе фильтров с критической дискретизацией |
RU2740690C2 (ru) * | 2013-04-05 | 2021-01-19 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
US9487224B1 (en) * | 2015-09-22 | 2016-11-08 | Siemens Industry, Inc. | Mechanically extendable railroad crossing gate |
-
2014
- 2014-04-04 RU RU2017129566A patent/RU2740690C2/ru active
- 2014-04-04 ES ES14715307.6T patent/ES2665599T3/es active Active
- 2014-04-04 CA CA3029041A patent/CA3029041C/en active Active
- 2014-04-04 ES ES19200800T patent/ES2982183T3/es active Active
- 2014-04-04 RU RU2017129552A patent/RU2740359C2/ru active
- 2014-04-04 KR KR1020207024594A patent/KR102245916B1/ko active Application Filing
- 2014-04-04 KR KR1020217011662A patent/KR102383819B1/ko active IP Right Grant
- 2014-04-04 AU AU2014247000A patent/AU2014247000B2/en active Active
- 2014-04-04 BR BR122020017837-0A patent/BR122020017837B1/pt active IP Right Grant
- 2014-04-04 KR KR1020167029688A patent/KR102028888B1/ko active IP Right Grant
- 2014-04-04 PL PL14715307T patent/PL2981958T3/pl unknown
- 2014-04-04 KR KR1020157027587A patent/KR101739789B1/ko active IP Right Grant
- 2014-04-04 CN CN201910177919.0A patent/CN109712633B/zh active Active
- 2014-04-04 MY MYPI2015703311A patent/MY176447A/en unknown
- 2014-04-04 BR BR122020017853-1A patent/BR122020017853B1/pt active IP Right Grant
- 2014-04-04 IL IL294836A patent/IL294836B2/en unknown
- 2014-04-04 HU HUE14715307A patent/HUE039143T2/hu unknown
- 2014-04-04 CA CA2948694A patent/CA2948694C/en active Active
- 2014-04-04 CN CN201480024367.5A patent/CN105247614B/zh active Active
- 2014-04-04 BR BR112015025139-0A patent/BR112015025139B1/pt active IP Right Grant
- 2014-04-04 DK DK14715307.6T patent/DK2981958T3/en active
- 2014-04-04 MY MYPI2019000561A patent/MY198461A/en unknown
- 2014-04-04 CA CA2997882A patent/CA2997882C/en active Active
- 2014-04-04 EP EP19200800.1A patent/EP3671738B1/en active Active
- 2014-04-04 SG SG11201507703SA patent/SG11201507703SA/en unknown
- 2014-04-04 EP EP18154660.7A patent/EP3352167B1/en active Active
- 2014-04-04 WO PCT/EP2014/056851 patent/WO2014161991A2/en active Application Filing
- 2014-04-04 US US14/781,219 patent/US10043528B2/en active Active
- 2014-04-04 MX MX2015013927A patent/MX343673B/es active IP Right Grant
- 2014-04-04 JP JP2016505841A patent/JP6227117B2/ja active Active
- 2014-04-04 IL IL312887A patent/IL312887A/en unknown
- 2014-04-04 IL IL278164A patent/IL278164B/en unknown
- 2014-04-04 EP EP14715307.6A patent/EP2981958B1/en active Active
- 2014-04-04 CA CA3029033A patent/CA3029033C/en active Active
- 2014-04-04 KR KR1020197028066A patent/KR102150496B1/ko active IP Right Grant
- 2014-04-04 CA CA2908625A patent/CA2908625C/en active Active
- 2014-04-04 RU RU2015147276A patent/RU2630887C2/ru active
- 2014-04-04 UA UAA201510735A patent/UA114967C2/uk unknown
- 2014-04-04 CA CA3029037A patent/CA3029037C/en active Active
-
2015
- 2015-09-21 IL IL241739A patent/IL241739A/en active IP Right Grant
-
2016
- 2016-06-10 HK HK16106671.5A patent/HK1218802A1/zh unknown
-
2017
- 2017-03-20 AU AU2017201874A patent/AU2017201874B2/en active Active
- 2017-03-20 AU AU2017201872A patent/AU2017201872B2/en active Active
- 2017-06-04 IL IL252640A patent/IL252640B/en active IP Right Grant
-
2018
- 2018-03-25 IL IL258331A patent/IL258331B/en active IP Right Grant
- 2018-07-11 US US16/032,921 patent/US10515647B2/en active Active
- 2018-08-09 HK HK18110247.0A patent/HK1250836A1/zh unknown
- 2018-11-07 AU AU2018260843A patent/AU2018260843B2/en active Active
-
2019
- 2019-12-18 US US16/719,857 patent/US11621009B2/en active Active
-
2020
- 2020-12-02 AU AU2020281040A patent/AU2020281040B2/en active Active
-
2023
- 2023-01-13 AU AU2023200174A patent/AU2023200174B2/en active Active
- 2023-03-31 US US18/194,251 patent/US20230238011A1/en active Pending
-
2024
- 2024-05-08 AU AU2024203054A patent/AU2024203054B2/en active Active
- 2024-09-12 AU AU2024219670A patent/AU2024219670A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0673014A2 (en) * | 1994-03-17 | 1995-09-20 | Nippon Telegraph And Telephone Corporation | Acoustic signal transform coding method and decoding method |
CN101572586A (zh) * | 2008-04-30 | 2009-11-04 | 北京工业大学 | 编解码方法、装置及系统 |
CN102150205A (zh) * | 2008-07-14 | 2011-08-10 | 韩国电子通信研究院 | 用于编码和解码统合的语音与音频的设备 |
Non-Patent Citations (3)
Title |
---|
Digital Audio Coding: Dolby AC-3;Grant A.Davidson et al.;《Digital Signal Processing Handbook》;19990101;第1-23页 |
MP3 AND AAC EXPLAINED;Karlheinz Brandenburg;《17th International Conference on High Quality Audio Coding》;19990101;第99-110页 |
MPEG Unified Speech and Audio Coding;Schuyler Quackenbush;《IEEE Computer Society》;20130401;第20卷(第2期);第72-78页 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105247614B (zh) | 音频编码器和解码器 | |
RU2828411C2 (ru) | Звуковые кодирующее устройство и декодирующее устройство |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |