[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111179952A - 用于信息编码的概念 - Google Patents

用于信息编码的概念 Download PDF

Info

Publication number
CN111179952A
CN111179952A CN201911362154.4A CN201911362154A CN111179952A CN 111179952 A CN111179952 A CN 111179952A CN 201911362154 A CN201911362154 A CN 201911362154A CN 111179952 A CN111179952 A CN 111179952A
Authority
CN
China
Prior art keywords
frequency
zero
spectrum
polynomial
derived
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911362154.4A
Other languages
English (en)
Other versions
CN111179952B (zh
Inventor
汤姆·巴克斯特伦
克里斯蒂安·弗斯彻彼得森
尤纳斯·弗斯彻
马蒂亚斯·哈特伯格
阿尔弗索·皮诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN201911362154.4A priority Critical patent/CN111179952B/zh
Publication of CN111179952A publication Critical patent/CN111179952A/zh
Application granted granted Critical
Publication of CN111179952B publication Critical patent/CN111179952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明提供了一种用于对信息信号编码的信息编码器,包括:分析器,用于分析信息信号,以获得预测多项式A(z)的线性预测系数;转换器,用于将预测多项式A(z)的线性预测系数转换为预测多项式A(z)的频谱频率表示的频率值f1...fn,转换器被配置为通过分析被定义为P(z)=A(z)+z‑m‑1A(z‑1)和Q(z)=A(z)‑z‑m‑1A(z‑1)的一对多项式P(z)和Q(z)来确定频率值f1...fn,m是预测多项式A(z)的阶数,且l大于等于零,转换器被配置为通过建立根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱,并通过识别根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱中的零,来获得频率值f1...fn;量化器,用于根据频率值f1...fn来获得量化频率值fq1...fqn;以及比特流产生器,用于产生包括量化频率值fq1...fqn在内的比特流。

Description

用于信息编码的概念
本申请是申请日为2015年2月9日的国际申请PCT/EP2015/052634于2016年9月6日进入中国国家阶段的中国发明专利申请No.201580012260.3的分案申请。
背景技术
语音编码中最常用的范例是代数码激励线性预测(ACELP),其在诸如AMR族、G.718和MPEG USAC[1-3]之类的标准中使用。其基于使用源模型对语音建模,包含用于对频谱包络进行建模的线性预测器(LP)、用于对基频进行建模的长期预测器(LTP)以及针对残留的代数码本。
线性预测模型的系数对于量化是非常灵敏的,由此通常在量化之前首先将它们变换为线谱频率(LSF)或导抗谱频率(Imittance Spectral Frequencies,即ISF)。LSF/ISF域对于量化误差是鲁棒的;且在这些域中,可以容易地保留预测器的稳定性,由此其提供了用于量化的合适域[4]。
可以如下根据具有阶数m的线性预测多项式A(z)来获得在下文中被称为频率值的LSF/ISF。将线性频谱对多项式定义为:
P(z)=A(z)+z-m-1A(z-1)
Q(z)=A(z)-z-m-1A(z-1) (1)
其中,对于线谱对来说,l=1,且对于导抗谱对表示来说,1=0,但是原则上任何l≥0是有效的。在下文中,从而将仅假设l≥0。
注意到:可以始终使用A(z)=1/2[P(z)+Q(z)]来重构原始预测器。从而多项式P(z)和Q(z)包含A(z)的所有信息。
LSP/ISP多项式的中心特性是:当且仅当A(z)的所有根都在单位圆内,P(z)和Q(z)的根才在单位圆上交错。由于P(z)和Q(z)的根在单位圆上,可以仅用其角度来表示它们。这些角度对应于频率,且由于P(z)和Q(z)的频谱在其对数幅度频谱中与根相对应的频率处具有垂直的线,这些根被称为频率值。
由此可见,频率值对预测器A(z)的所有信息进行编码。此外,已发现频率值对于量化误差来说是鲁棒的,使得频率值之一的小误差产生了重构预测器的频谱中的小误差,其在频谱中对应频率附近局部化。由于这些有利特性,LSF或ISF域中的量化在所有主流语音编解码器[1-3]中使用。
然而,使用频率值时的挑战之一是根据多项式P(z)和Q(z)的系数高效地找到频率值的位置。归根结底,找到多项式的根是经典难题。之前提出的用于该任务的方法包括以下方案:
·早期方案之一使用了零驻留在单位圆上这一事实,由此它们表现为幅度频谱中的零[5]。通过取P(z)和Q(z)的系数的离散傅立叶变换,从而可以在幅度频谱中搜索波谷。每个波谷指示了根的位置,且如果对频谱进行重复上采样,则可以找到所有的根。然而该方法仅得到了近似位置,因为难以根据波谷位置来确定精确的位置。
·最常用的方案基于切比雪夫多项式,且在[6]中提出。其依赖于以下认识:多项式P(z)和Q(z)分别是对称和反对称,由此它们包含大量冗余信息。通过移除在z=±1处的琐碎零且代入x=z+z-1(其被称为切比雪夫变换),可以将多项式变换为备选表示FP(x)和FQ(x)。这些多项式的阶数是P(z)和Q(z)的阶数的一半,且它们在范围-2到+2上仅具有实数根。注意到:当x为实数时,多项式FP(x)和FQ(x)是实值的。此外,由于根是简单的,FP(x)和FQ(x)将在其每个根处具有零交点(zero-crossing)。
在诸如AMR-WB之类的语音编解码中,应用该方案,使得在实数轴上的固定网格上对多项式FP(x)和FQ(x)求值,以找到所有零交点。通过在零交点附近进行线性插值对根位置进一步求精。该方案的优点是由于省略了冗余系数而导致降低了复杂度。
尽管上述方法在现有编解码器中足够有效,但它们确实具有大量的问题。
发明内容
要解决的问题是提供改进的用于信息编码的概念。
在第一方案中,该问题是由用于对信息信号编码的信息编码器来解决的。该信息编码器包括:
分析器,用于分析信息信号,以获得预测多项式A(z)的线性预测系数;
转换器,用于将预测多项式A(z)的线性预测系数转换为预测多项式A(z)的频谱频率表示的频率值,其中,所述转换器被配置为通过分析如下定义的一对多项式P(z)和Q(z)来确定频率值:
P(z)=A(z)+z-m-1A(z-1)以及
Q(z)=A(z)-z-m+1A(z-1),
其中,m是预测多项式A(z)的阶数,且l大于等于零,其中,转换器被配置为通过建立根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱,并通过识别根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱中的零,来获得频率值;
量化器,用于根据频率值来获得量化频率值;以及
比特流产生器,用于产生包括量化频率值在内的比特流。
根据本发明的信息编码器使用零交点搜索,反之根据现有技术的用于寻找根的频谱方案依赖于找到幅度频谱中的波谷。然而,当搜索波谷时,准确度比在搜索零交点时差。考虑例如序列[4,2,1,2,3]。清楚的是,最小值是第三个元素,由此零将位于第二个和第四个元素之间某处。换言之,不可能确定零是在第三个元素的左侧还是右侧。然而,如果考虑序列[4,2,1,一2,-3],可以立刻看到零交点在第三个和第四个元素之间,由此将我们的误差余量减半。由此可见:使用幅度频谱方案,需要将分析点的数量加倍以获得与零交点搜索相同的准确度。
与对幅度|P(z)|和|Q(z)|求值相比,零交点方案在准确度方面具有显著的优势。考虑例如序列3,2,-1,-2。使用零交点方案,显而易见的是零位于2和-1之间。然而,通过研究对应幅度序列3,2,1,2,仅可以推断出零位于第二个和最后一个元素之间某处。换言之,使用零交点方案,与基于幅度的方案相比将准确度加倍。
此外,根据本发明的信息编码器可以使用长预测器,例如m=128。与此相对,切比雪夫变换仅在A(z)的长度相对小(例如,m≤20)的时候才充分执行。对于长预测器,切比雪夫变换是数值不稳定的,由此该算法的实际实现是不可能的。
因此所提出的信息编码器的主要特性是:可以获得与基于切比雪夫的方法一样高或更好的准确度,因为搜索零交点,且由于进行了时域到频域的转换,使得可以用非常低的计算复杂度来找到零。
作为结果,根据本发明的信息编码器不仅更准确地确定零(根),还具有低计算复杂度。
根据本发明的信息编码器可以在需要确定序列的线谱的任何信号处理应用中使用。本文中,该信息编码器在语音编码的上下文中示例讨论。本发明适用于语音、音频和/或视频编码设备或应用,其采用了用于对频谱幅度包络、感知频率遮蔽阈值、时间幅度包络、感知时间遮蔽阈值、或其他包络形状、或等价于包络形状的其他表示(例如,自相关信号)进行建模的线性预测器,其使用线谱来表示包络的信息,用于编码、分析或处理,其需要用于根据输入信号(例如语音或通用音频信号)来确定线谱的方法,且其中,输入信号被表示为数字滤波器或其他数列。
信息信号可以是例如音频信号或视频信号。频率值可以是线谱频率或导抗谱频率。在比特流内发送的量化频率值将使得解码器能够对比特流解码,以重新创建音频信号或视频信号。
根据本发明的优选实施例,转换器包括:确定设备,用于根据预测多项式A(z)来确定多项式P(z)和Q(z)。
根据本发明的优选实施例,转换器包括:零识别器,用于识别根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱中的零。
根据本发明的优选实施例,零识别器被配置为通过以下方式来识别零:
a)在零频率上以实频谱开始;
b)增加频率,直到找到实频谱上的符号改变为止;
c)增加频率,直到找到虚频谱上的另一符号改变为止;以及
d)重复步骤b)和c),直到找到所有零为止。
注意到:Q(z)始终在零频率上具有零,且从而频谱的虚部始终在零频率上具有零。由于根是重叠的,则P(z)将始终在零频率上是非零的,且从而频谱的实部将始终在零频率上是非零的。因此可以以实部在零频率处开始,并增加频率,直到找到第一个符号改变为止,其指示了第一个零交点且从而指示了第一个频率值。
由于根是交错的,Q(z)的频谱将具有下一个符号改变。从而可以增加频率,直到找到Q(z)的频谱的符号改变。然后可以重复该过程,在频谱P(z)和Q(z)之间交替,直到找到所有频率值为止。用于在频谱中定位零交点的方案从而类似于在切比雪夫域中应用的方案[6,7]。
由于P(z)和Q(z)的零是交错的,可以在搜索实部和复数部(complex part)上的零之间交替,使得一遍就找到所有零,并与完全搜索相比,将复杂度减半。
根据本发明的优选实施例,零识别器被配置为通过插值来识别零。
除了零交点方案之外,可以容易地应用捅值,使得可以例如用甚至更高的准确度来估计零的位置,如在传统方法中所作的那样,例如[7]。
根据本发明的优选实施例,转换器包括:零填充设备,用于向多项式P(z)和Q(z)添加具有“0”值的一个或多个系数,以产生一对加长多项式Pe(z)和Qe(z)。准确度可以通过扩展求值频谱的长度来进一步提升。基于与系统有关的信息,实际上在一些情况下有可能确定频率值之间的最小距离,且从而确定频谱的可以找到所有频率值的最小长度[8]。
根据本发明的优选实施例,转换器以下述方式配置:在将线性预测系数转换为预测多项式A(z)的频谱频率表示的频率值期间,省略针对加长多项式Pe(z)和Qe(z)的已知具有“0”值的系数的至少一部分运算。
然而,增加频谱的长度也确实增加了计算复杂度。对于复杂度最大的贡献者是对A(z)的系数的时域至频域变换,例如快速傅立叶变换。由于已经将系数向量零填充到期望长度,然而其是非常稀疏的。该事实可被容易地用于降低复杂度。在以下意义上这是相当简单的问题:精确知道哪些系数是零,由此在快速傅立叶变换的每次迭代时,可以简单地省略涉及零的那些运算。对这种稀疏快速傅立叶变换的应用是直观的,且本领域任何程序员可以实现它。这种实现的复杂度是O(Nlog2(1+m+1)),其中,N是频谱的长度,且m和l如之前一样定义。
根据本发明的优选实施例,转换器包括:合成多项式形成器,被配置为根据加长多项式Pe(z)和Qe(z)来建立合成多项式Ce(Pe(z),Qe(z))。
根据本发明的优选实施例,转换器被配置为使得:根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱是通过变换合成多项式Ce(Pe(z),Qe(z))的单傅立叶变换来建立的。
根据本发明的优选实施例,转换器包括:傅立叶变换设备,用于将一对多项式P(z)和Q(z)或根据一对多项式P(z)和Q(z)导出的一个或多个多项式傅立叶变换到频域中;以及调整设备,用于调整根据P(z)导出的频谱的相位,使得其是严格实数的,以及用于调整根据Q(z)导出的频谱的相位,使得其是严格虚数的。傅立叶变换设备可以基于快速傅立叶变换或基于离散傅立叶变换。
根据本发明的优选实施例,调整设备被配置为系数移位器,用于将一对多项式P(z)和Q(z)或根据一对多项式P(z)和Q(z)导出的一个或多个多项式的系数进行循环移位。
根据本发明的优选实施例,系数移位器被配置用于以下述方式对系数进行循环移位:将系数的序列的原始中点移位到所述序列的第一位置。
理论上,众所周知的是针对对称序列的傅立叶变换是实值的,且针对反对称序列的傅立叶变换具有纯虚数傅立叶频谱。在本情况下,我们的输入序列是多项式P(z)或Q(z)的系数,其具有长度m+1,反之将优选具有大得多的长度N>>(m+1)的离散傅立叶变换。用于创建较长傅立叶频谱的传统方案是对输入信号的零填充。然而,必须小心地实现对序列的零填充,以保留对称性。
首先,具有以下系数的多项式P(z)
[p0,p1,p2,p1,p0]
被考虑。
通常应用FFT算法的方式要求对称点是第一元素,由此当例如在MATLAB中应用时,可以编写
fft([p2,p1,p0,p0,p1])
以获得实值输出。具体地,可以应用循环移位,使得与中点元素相对应的对称点(即,系数p2)向左移位,使得其在第一位置上。然后将曾在p2左侧的系数附加到序列的末尾。
对于零填充的序列
[p0,p1,p2,p1,p0,0,0...0]
可以应用相同过程。从而序列
[p2,p1,p0,0,0...0,p0,p1]
将具有实值的离散傅立叶变换。此处,如果N是频谱的期望长度,则输入序列中零的数目是N-m-l。
对应地,考虑系数
[q0,q1,0,-q1,-q0]
对应于多项式Q(z)。通过应用循环移位,使得之前的中点来到第一位置,获得了:
[0,-q1,-q0,q0,q1]
其具有纯虚数离散傅立叶变换。然后可以针对以下序列来取零填充的变换
[0,-q1,-q0,0,0...0,q0,q1]
注意到:上式仅对于序列长度为奇数的情况成立,由此m+1是偶数。对于m+1是奇数的情况,具有两种选项。要么可以实现频域中的循环移位,要么针对半采样应用DFT(见下文)。
根据本发明的优选实施例,调整设备被配置为移相器,用于对傅立叶变换设备的输出的相位进行移位。
根据本发明的优选实施例,移相器被配置用于通过将第k个频率区间乘以exp(i2πkh/N)对傅立叶变换设备的输出的相位进行移位,其中,N是采样的长度且h=(m+1)/2。
众所周知的是:时域中的循环移位等价于频域中的相位旋转。具体地,时域中的h=(m+1)/2个步长的移位对应于第k个频率区间与exp(-i2πkh/N)的乘法,其中,N是频谱的长度。从而可以代替循环移位而应用频域中的乘法,以获得完全相同的结果。该方案的成本是稍微增加的复杂度。注意到:h=(m+1)/2仅在m+1为偶数时是整数。当m+1为奇数时,循环移位将要求有理数个步长的延迟,这难以直接实现。取而代之地,可以通过上述相位旋转来应用频域中的对应移位。
根据本发明的优选实施例,转换器包括:傅立叶变换设备,用于针对半采样,将一对多项式P(z)和Q(z)或根据一对多项式P(z)和Q(z)导出的一个或多个多项式傅立叶变换到频域中,使得根据P(z)导出的频谱(RES)是严格实数的且根据Q(z)导出的频谱(IES)是严格虚数的。
备选是针对半采样实现的DFT。具体地,与被定义为下式的传统DFT相反地
Figure BDA0002333583420000081
可以将半采样DFT定义为
Figure BDA0002333583420000082
针对该公式,可以容易地设想出作为FFT的快速实现。
该公式的优点是:现在对称点位于n=1/2,而不是通常的n=1。在使用该半采样的DFT的情况下,则将使用序列
[2,1,0,0,1,2]
来获得实值傅立叶频谱。
在奇数m+1的情况下,对于具有系数p0,p1,p2,p2,p1,p0的多项式P(z),则在输入序列是以下序列时可以使用半采样DFT和零填充来获得实值频谱:
[p2,p1,p0,0,0...0,p0,p1,p2]。
对应地,对于多项式Q(z),可以针对以下序列来应用半采样DFT
[-q2,-q1,-q0,0,0...0,q0,q1,q2]
以获得纯虚数频谱。
在使用这些方法的情况下,对于m和l的任何组合,针对多项式P(z),可以获得实值频谱,且针对任何Q(z),可以获得纯虚数频谱。事实上,由于P(z)和Q(z)的频谱分别是纯实数和纯虚数的,可以将它们存储在单一复频谱中,则该复频谱对应于P(z)+Q(z)=2A(z)的频谱。以因子2来扩缩并不改变根的位置,由此可以将其忽略。从而可以通过使用单一FFT仅对A(z)的频谱求值来获得P(z)和Q(z)的频谱。如上面解释过的,仅需要对A(z)的系数应用循环移位。
例如,对于m=4和1=0,A(z)的系数是
[a0,a1,a2,a3,a4]
其可以被零填充至任意长度N:
[a0,a1,a2,a3,a4,0,0...0]。
如果之后应用(m+1)/2=2个步长的循环移位,则获得
[a2,a3,a4,0,0...0,a0,a1]。
通过取该序列的DFT,在频谱的实部和复数部中得到P(z)和Q(z)的频谱。
根据本发明的优选实施例,转换器包括:合成多项式形成器,被配置为根据多项式P(z)和Q(z)来建立合成多项式C(P(z),Q(z))。
根据本发明的优选实施例,转换器被配置为使得:根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱是通过变换合成多项式C(P(z),Q(z))的单傅立叶变换(例如,快速傅立叶变换(FFT))来建立的。
多项式P(z)和Q(z)分别是对称和反对称的,且对称轴在z-(m+1)/2处。由此可知:在单位圆z=exp(iθ)上分别求值的z-(m+1)/2p(z)和z-(m+1)/2Q(z)的频谱分别是实值和复数值的。由于零在单位圆上,可以通过搜索零交点来找到他们。此外,在单位圆上求值可以简单地通过快速傅立叶变换来实现。
由于与z-(m+1)/2P(z)和z-(m+i)/2Q(z)对应的频谱分别是实数和复数,2是可以使用单一快速傅立叶变换来实现它们。具体地,如果取和z-(m+1)/2(P(z)+Q(z)),则频谱的实部和复数部分别对应于z-(m+1)/2P(z)和z-(m+1)/2Q(z)。此外,由于
z-(m+1)/2(P(z)+Q(z))=2z-(m+1)/2A(z),(4)
可以直接取2z-(m+1)/2A(z)的FFT,以获得与z-(m+1)/2P(z)和z-(m+1)/2Q(z)相对应的频谱,而不需要显式确定P(z)和Q(z)。由于仅关注零的位置,可以省略与标量2的乘法,并代之以通过FFT对z-(m+1)/2A(z)求值。观察到:由于A(z)仅具有m+1个非零系数,可以使用FFT修剪(pruning)以降低复杂度[11]。为了确保找到所有根,必须使用具有充分高长度N的FFT,使得在每两个零之间的至少一个频率上对频谱求值。
根据本发明的优选实施例,转换器包括:限制设备,用于通过将多项式P(z)和Q(z)或根据多项式P(z)和Q(z)导出的一个或多个多项式与滤波多项式B(z)相乘来限制多项式P(z)和Q(z)的频谱的数值范围,其中,滤波多项式B(z)是对称的且在单位圆上不具有任何根。
语音编解码器经常实现在具有有限资源的移动设备上,由此必须使用定点(fixed-point)表示来实现数值运算。因此必要的是:所实现的算法针对范围受限的数值表示能够工作。然而对于常见语音频谱包络,傅立叶频谱的数值范围如此之大,使得需要FFT的32比特实现来确保保留零交点的位置。
另一方面,经常以较低复杂度来实现16比特FFT,由此将频谱值的范围限制为适合16比特范围是有利的。根据公式|P(e)|≤2|A(e)|和|Q(e)|≤2|A(e)|,知道:通过限制B(z)A(z)的数值范围,也限制了B(z)P(z)和B(z)Q(z)的数值范围。如果B(z)在单位圆上不具有零,则B(z)P(z)和B(z)Q(z)将与P(z)和Q(z)在单位圆上具有相同的零交点。此外,B(z)必须是对称的,使得z-(m+1+n)/2P(z)B(z)和z-(m+1+n)/2Q(z)B(z)保持对称和反对称,且其频谱分别是纯实数和纯虚数。取代对z(n+1)/2A(z)的频谱求值,从而可以对z(n+l+n)/2A(z)B(z)求值,其中,B(z)是在单位圆上没有根的n阶对称多项式。换言之,可以应用与上述相同的方案,但是首先将A(z)与滤波器B(z)相乘,并应用经修改的相位移位z-(m+1+n)/2
剩下的任务是在具有约束“B(z)必须是对称的且在单位圆上没有根”的情况下设计滤波器B(z),使得A(z)B(z)的数值范围受限。满足要求的最简单的滤波器是2阶线性相位滤波器:
B1(z)=β01z-12z-2 (5)
其中,βk∈R是参数且|β2|>2|β1|。通过调整βk,可以修改频谱倾斜,并从而减小乘积A(z)B1(z)的数值范围。计算非常高效的方案是:选择β,使得在0频率处和奈奎斯特处的幅度相等,|A(1)B1(1)|=|A(-1)B1(-1)|,由此,可以选择例如
β0=A(1)-A(-1)和β1=2(A(1)+A(-1)) (6)
该方案提供了近似平坦的频谱。
观察到(也参见图5):与A(z)具有高通特性相反,B1(z)是低通的,由此乘积A(z)B1(z)如期望的一样在0频率和奈奎斯特频率处具有相同幅度,且或多或少是平坦的。由于B1(z)仅具有一个自由度,明显不能期望乘积将是完全平坦的。仍然观察到:B1(z)A(z)的最高波峰和最低波谷之间的比率可能远小于A(z)的最高波峰和最低波谷之间的比率。这意味着已获得了期望效果;B1(z)A(z)的数值范围远小于A(z)的数值范围。
其次,稍微复杂一些的方法是计算A(0.5z)的脉冲响应的自相关rk。此处,与0.5的乘法将A(z)的零沿起点(origo)的方向移动,由此将频谱幅度近似减半。通过对自相关rk应用莱文森-德宾(Levinson-Durbin),获得了作为最小相位的n阶滤波器H(z)。然后可以定义B2(z)=z-nH(z)H(z-1),以获得近似常数的|B2(z)A(z)|。将注意到:|B2(z)A(z)|的范围小于|B1(z)A(z)|的范围。用于B(z)设计的其他方案可以容易地在FIR设计的经典文献[18]中找到。
根据本发明的优选实施例,转换器包括:限制设备,用于通过将加长多项式Pe(z)和Qe(z)与滤波多项式B(z)相乘来限制加长多项式Pe(z)和Qe(z)或根据加长多项式Pe(z)和Qe(z)导出的一个或多个多项式的频谱的数值范围,其中,滤波多项式B(z)是对称的且在单位圆上没有任何根。可以如上所述找到B(z)。
在另一方案中,问题是通过用于操作对信息信号进行编码的信息编码器的方法来实现的。该方法包括以下步骤:
分析信息信号,以获得预测多项式A(z)的线性预测系数;
将预测多项式A(z)的线性预测系数转换为预测多项式A(z)的频谱频率表示的频率值f1...fn,其中,通过分析如下定义的一对多项式P(z)和Q(z)来确定频率值f1...fn
P(z)=A(z)+z-m-1A(z-1)以及
Q(z)=A(z)-z-m-1A(z-1),
其中,m是预测多项式A(z)的阶数,且l大于等于零,其中,通过建立根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱,并通过识别根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱中的零,来获得频率值f1...fn
根据频率值f1...fn来获得量化频率fq1...fqn值;以及
产生包括量化频率值fq1...fqn在内的比特流。
此外,程序由计算机程序所注意,该计算机程序当在处理器上运行时执行根据本发明的方法。
附图说明
以下结合附图讨论本发明的优选实施例,附图中:
图1在示意视图中示出了根据本发明的信息编码器的实施例;
图2示出了A(z)、P(z)和Q(z)的示例关系;
图3在示意视图中示出了根据本发明的信息编码器的转换器的第一实施例;
图4在示意视图中示出了根据本发明的信息编码器的转换器的第二实施例;
图5示出了预测器A(z)、对应的平坦化滤波器B1(z)和B2(z)以及乘积A(z)B1(z)和A(z)B2(z)的示例幅度频谱;
图6在示意视图中示出了根据本发明的信息编码器的转换器的第三实施例;
图7在示意视图中示出了根据本发明的信息编码器的转换器的第四实施例;以及
图8在示意视图中示出了根据本发明的信息编码器的转换器的第五实施例。
具体实施方式
图1在示意视图中示出了根据本发明的信息编码器1的实施例。
用于对信息信号IS编码的信息编码器1包括:
分析器2,用于分析信息信号IS,以获得预测多项式A(z)的线性预测系数;
转换器3,用于将预测多项式A(z)的线性预测系数转换为预测多项式A(z)的频谱频率表示的频率值f1...fn,其中,转换器3被配置为通过分析如下定义的一对多项式P(z)和Q(z)来确定频率值f1...fn
P(z)=A(z)+z-m-1A(z-1)以及
Q(z)=A(z)-z-m-1A(z-1),
其中,m是预测多项式A(z)的阶数,且l大于等于零,其中,转换器3被配置为通过建立根据P(z)导出的严格实频谱RES和根据Q(z)导出的严格虚频谱IES,并通过识别根据P(z)导出的严格实频谱RES和根据Q(z)导出的严格虚频谱IES中的零,来获得频率值f1...fn
量化器4,用于根据频率值f1...fn来获得量化频率fq1...fqn值;以及
比特流产生器5,用于产生包括量化频率值fq1...fqn在内的比特流BS。
根据本发明的信息编码器1使用零交点搜索,反之根据现有技术的用于寻找根的频谱方案依赖于找到幅度频谱中的波谷。然而,当搜索波谷时,准确度比在搜索零交点时差。考虑例如序列[4,2,1,2,3]。清楚的是,最小值是第三个元素,由此零将位于第二个和第四个元素之间某处。换言之,不可能确定零是在第三个元素的左侧还是右侧。然而,如果考虑序列[4,2,1,-2,-3],可以立刻看到零交点在第三个和第四个元素之间,由此将我们的误差余量减半。由此可见:使用幅度频谱方案,需要将分析点的数量加倍以获得与零交点搜索相同的准确度。
与对幅度|P(z)|和|Q(z)|求值相比,零交点方案在准确度方面具有显著的优势。考虑例如序列3,2,-1,-2。使用零交点方案,显而易见的是零位于2和-1之间。然而,通过研究对应幅度序列3,2,1,2,仅可以推断出零位于第二个和最后一个元素之间某处。换言之,使用零交点方案,与基于幅度的方案相比将准确度加倍。
此外,根据本发明的信息编码器可以使用长预测器,例如m=128。与此相对,切比雪夫变换仅在A(z)的长度相对小(例如,m≤20)的时候才充分执行。对于长预测器,切比雪夫变换是数值不稳定的,由此该算法的实际实现是不可能的。
因此所提出的信息编码器1的主要特性是:因为搜索零交点,可以获得与基于切比雪夫的方法一样高或更好的准确度,且由于进行了时域到频域的转换,使得可以用非常低的计算复杂度来找到零。
作为结果,根据本发明的信息编码器1不仅更准确地确定零(根),还具有低计算复杂度。
根据本发明的信息编码器1可以在需要确定序列的线谱的任何信号处理应用中使用。本文中,该信息编码器1在语音编码的上下文中示例讨论。本发明适用于语音、音频和/或视频编码设备或应用,其采用了用于对频谱幅度包络、感知频率遮蔽阈值、时间幅度包络、感知时间遮蔽阈值、或其他包络形状、或等价于包络形状的其他表示(例如,自相关信号)进行建模的线性预测器,其使用线谱来表示包络的信息,用于编码、分析或处理,其需要用于根据输入信号(例如语音或通用音频信号)来确定线谱的方法,且其中,输入信号被表示为数字滤波器或其他数列。
信息信号IS可以是例如音频信号或视频信号。
图2示出了A(z)、P(z)和Q(z)的示例关系。垂直短划线绘出了频率值f1...f6。注意到:在线性轴上表达幅度,而不是以分贝刻度来表达幅度,以保持零交点可见。可以看到:线谱频率出现在P(z)和Q(z)的零交点处。此外,在所有位置上P(z)和Q(z)的幅度小于等于2|A(z)|;|P(e)|≤2|A(e)|且|Q(e)|≤2|A(e)|。
图3在示意视图中示出了根据本发明的信息编码器的转换器的第一实施例。
根据本发明的优选实施例,转换器3包括:确定设备6,用于根据预测多项式A(z)来确定多项式P(z)和Q(z)。
根据本发明的优选实施例,转换器包括:傅立叶变换设备8,用于将一对多项式P(z)和Q(z)或根据一对多项式P(z)和Q(z)导出的一个或多个多项式傅立叶变换到频域中;以及调整设备7,用于调整根据P(z)导出的频谱RES的相位,使得其是严格实数的,以及用于调整根据Q(z)导出的频谱IES的相位,使得其是严格虚数的。傅立叶变换设备8可以基于快速傅立叶变换或基于离散傅立叶变换。
根据本发明的优选实施例,调整设备7被配置为系数移位器7,用于对一对多项式P(z)和Q(z)或根据一对多项式P(z)和Q(z)导出的一个或多个多项式的系数进行循环移位。
根据本发明的优选实施例,系数移位器7被配置用于以下述方式对系数进行循环移位:将系数的序列的原始中点移位到序列的第一位置。
理论上,众所周知的是针对对称序列的傅立叶变换是实值的,且针对反对称序列的傅立叶变换具有纯虚数傅立叶频谱。在本情况下,我们的输入序列是多项式P(z)或Q(z)的系数,其具有长度m+1,反之将优选具有大得多的长度N>>(m+1)的离散傅立叶变换。用于创建较长傅立叶频谱的传统方案是对输入信号的零填充。然而,必须小心地实现对序列的零填充,以保留对称性。
首先,具有以下系数的多项式P(z)
[p0,p1,p2,p1,p0]
被考虑。
通常应用快速傅立叶变换算法的方式要求对称点是第一元素,由此当例如在MATLAB中应用时,可以编写
fft([p2,p1,p0,p0,p1])
以获得实值输出。具体地,可以应用循环移位,使得与中点元素相对应的对称点(即,系数p2)向左移位,使得其在第一位置上。然后将曾在p2左侧的系数附加到序列的末尾。
对于零填充的序列
[p0,p1,p2,p1,p0,0,0...0]
可以应用相同过程。序列
[p2,p1,p0,0,0...0,p0,p1]
从而将具有实值的离散傅立叶变换。此处,如果N是频谱的期望长度,则输入序列中零的数目是N-m-l。
对应地,考虑系数
[q0,q1,0,-q1,-q0]
对应于多项式Q(z)。通过应用循环移位,使得之前的中点来到第一位置,获得了:
[0,-q1,-q0,q0,q1]
其具有纯虚数离散傅立叶变换。然后可以针对以下序列来取零填充的变换
[0,-q1,-q0,0,0...0,q0,q1]
注意到:上式仅对于序列长度为奇数的情况成立,由此m+1是偶数。对于m+1是奇数的情况,具有两种选项。要么可以实现频域中的循环移位,要么针对半采样应用DFT。
根据本发明的优选实施例,转换器3包括:零识别器9,用于识别根据P(z)导出的严格实频谱RES和根据Q(z)导出的严格虚频谱IES中的零。
根据本发明的优选实施例,零识别器9被配置为通过以下方式来识别零:
a)在零频率上以实频谱RES开始;
b)增加频率,直到找到实频谱RES上的符号改变为止;
c)增加频率,直到找到虚频谱IES上的另一符号改变为止;以及
d)重复步骤b)和c),直到找到所有零为止。
注意到:Q(z)始终在零频率上具有零,且从而频谱的虚部1ES始终在零频率上具有零。由于根是重叠的,则P(z)将始终在零频率上是非零的,且从而频谱的实部RES将始终在零频率上是非零的。因此可以以实部RES在零频率处开始,并增加频率,直到找到第一个符号改变为止,其指示了第一个零交点且从而指示了第一个频率值f1
由于根是交错的,Q(z)的频谱IES将具有下一个符号改变。从而可以增加频率,直到找到Q(z)的频谱IES的符号改变。然后可以重复该过程,在频谱P(z)和Q(z)之间交替,直到找到所有频率值f1...fn为止。用于在频谱RES和IES中定位零交点的方案从而类似于在切比雪夫域中应用的方案[6,7]。
由于P(z)和Q(z)的零是交错的,可以在搜索实部RES和复数部IES上的零之间交替,使得一遍就找到所有零,并与完全搜索相比,将复杂度减半。
根据本发明的优选实施例,零识别器9被配置为通过插值来识别零。
除了零交点方案之外,可以容易地应用插值,使得可以例如用甚至更高的准确度来估计零的位置,如在传统方法中所作的那样,例如[7]。
图4在示意视图中示出了根据本发明的信息编码器1的转换器3的第二实施例。
根据本发明的优选实施例,转换器3包括:零填充设备10,用于向多项式P(z)和Q(z)添加具有“0”值的一个或多个系数,以产生一对加长多项式Pe(z)和Qe(z)。准确度可以通过扩展求值频谱RES、IES的长度来进一步提升。基于与系统有关的信息,实际上在一些情况下有可能确定频率值f1...fn之间的最小距离,且从而确定频谱RES、IES的可以找到所有频率值f1...fn的最小长度[8]。
根据本发明的优选实施例,转换器3被以下述方式配置:在将线性预测系数转换为预测多项式A(z)的频谱频率表示RES、IES的频率值f1...fn期间,省略针对加长多项式Pe(z)和Qe(z)的已知具有“0”值的系数的至少一部分运算。
然而增加频谱的长度也确实增加了计算复杂度。对于复杂度最大的贡献者是对A(z)的系数的时域至频域变换,例如快速傅立叶变换。由于已经将系数向量零填充到期望长度,然而其是非常稀疏的。该事实可被容易地用于降低复杂度。在以下意义上这是相当简单的问题:精确知道哪些系数是零,由此在快速傅立叶变换的每次迭代时,可以简单地省略涉及零的那些运算。对这种稀疏快速傅立叶变换的应用是直观的,且本领域任何程序员可以实现它。这种实现的复杂度是O(N log2(1+m+1)),其中,N是频谱的长度,且m和l如之前一样定义。
根据本发明的优选实施例,转换器包括:限制设备11,用于通过将加长多项式Pe(z)和Qe(z)与滤波多项式B(z)相乘来限制加长多项式Pe(z)和Qe(z)或根据加长多项式Pe(z)和Qe(z)导出的一个或多个多项式的频谱的数值范围,其中,滤波多项式B(z)是对称的且在单位圆上没有任何根。可以如上所述找到B(z)。
图5示出了预测器A(z)、对应的平坦化滤波器B1(z)和B2(z)以及乘积A(z)B1(z)和A(z)B2(z)的示例幅度频谱。水平点线示出了A(z)B1(z)在0频率和奈奎斯特频率处的级别。
根据本发明的优选实施例(未示出),转换器3包括:限制设备11,用于通过将多项式P(z)和Q(z)或根据多项式P(z)和Q(z)导出的一个或多个多项式与滤波多项式B(z)相乘来限制多项式P(z)和Q(z)的频谱RES、IES的数值范围,其中,滤波多项式B(z)是对称的且在单位圆上不具有任何根。
语音编解码器经常实现在具有有限资源的移动设备上,由此必须使用定点(fixed-point)表示来实现数值运算。因此必要的是:所实现的算法针对范围受限的数值表示能够工作。然而对于常见语音频谱包络,傅立叶频谱的数值范围如此之大,使得需要FFT的32比特实现来确保保留零交点的位置。
另一方面,经常以较低复杂度来实现16比特FFT,由此将频谱值的范围限制为适合16比特范围是有利的。根据公式|P(e)|≤2|A(e)|和|Q(e)|≤2|A(e)|,知道:通过限制B(z)A(z)的数值范围,也限制了B(z)P(z)和B(z)Q(z)的数值范围。如果B(z)在单位圆上不具有零,则B(z)P(z)和B(z)Q(z)将与P(z)和Q(z)在单位圆上具有相同的零交点。此外,B(z)必须是对称的,使得z-(m+1+n)/2P(z)B(z)和z-(m+1+n)/2Q(z)B(z)保持对称和反对称,且其频谱分别是纯实数和纯虚数。取代对z(n+1)/2A(z)的频谱求值,从而可以对z(n+1+n)/2A(z)B(z)求值,其中,B(z)是在单位圆上没有根的n阶对称多项式。换言之,可以应用与上述相同的方案,但是首先将A(z)与滤波器B(z)相乘,并应用经修改的相位移位z-(m+1+n)/2
剩下的任务是在具有约束“B(z)必须是对称的且在单位圆上没有根”的情况下设计滤波器B(z),使得A(z)B(z)的数值范围受限。满足要求的最简单滤波器是2阶线性相位滤波器B1(z)=β01z-12z-2,其中,βk∈R是参数且|β2|>2|β1|。通过调整βk,可以修改频谱倾斜,并从而减小乘积A(z)B1(z)的数值范围。计算非常高效的方案是:选择β,使得在0频率处和奈奎斯特处的幅度相等,|A(1)B1(1)|=|A(-1)B1(-1)|,由此,可以选择例如β0=A(1)-A(-1)和β1=2(A(1)+A(-1))。
该方案提供了近似平坦的频谱。
从图5中观察到:与A(z)具有高通特性相反,B1(z)是低通的,由此乘积A(z)B1(z)如期望的一样在0频率和奈奎斯特频率处具有相同幅度,且或多或少是平坦的。由于B1(z)仅具有一个自由度,明显不能期望乘积将是完全平坦的。仍然观察到:B1(z)A(z)的最高波峰和最低波谷之间的比率可能远小于A(z)的最高波峰和最低波谷之间的比率。这意味着已获得了期望效果;B1(z)A(z)的数值范围远小于A(z)的数值范围。
其次,稍微复杂一些的方法是计算A(0.5z)的脉冲响应的自相关rk。此处,与0.5的乘法将A(z)的零沿起点(origo)的方向移动,由此将频谱幅度近似减半。通过对自相关rk应用莱文森-德宾(Levinson-Durbin),获得了作为最小相位的n阶滤波器H(z)。然后可以定义B2(z)=z-nH(z)H(z-1),以获得近似常数的|B2(z)A(z)|。将注意到:|B2(z)A(z)|的范围小于|B1(z)A(z)|的范围。用于B(z)设计的其他方案可以容易地在FIR设计的经典文献[18]中找到。
图6在示意视图中示出了根据本发明的信息编码器1的转换器3的第三实施例。
根据本发明的优选实施例,调整设备12被配置为移相器12,用于对傅立叶变换设备8的输出的相位进行移位。
根据本发明的优选实施例,移相器12被配置用于通过将第k个频率区间乘以exp(i2πkh/N)对傅立叶变换设备8的输出的相位进行移位,其中,N是采样的长度且h=(m+1)/2。
众所周知的是:时域中的循环移位等价于频域中的相位旋转。具体地,时域中的h=(m+1)/2个步长的移位对应于第k个频率区间与exp(-i2πkh/N)的乘法,其中,N是频谱的长度。从而可以代替循环移位而应用频域中的乘法,以获得完全相同的结果。该方案的成本是稍微增加的复杂度。注意到:h=(m+1)/2仅在m+1为偶数时是整数。当m+1为奇数时,循环移位将要求有理数个步长的延迟,这难以直接实现。取而代之地,可以通过上述相位旋转来应用频域中的对应移位。
图7在示意视图中示出了根据本发明的信息编码器1的转换器3的第四实施例。
根据本发明的优选实施例,转换器3包括:合成多项式形成器13,被配置为根据多项式P(z)和Q(z)来建立合成多项式C(P(z),Q(z))。
根据本发明的优选实施例,转换器3被配置为使得:根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱是通过变换合成多项式C(P(z),Q(z))的单傅立叶变换(例如,快速傅立叶变换(FFT))来建立的。
多项式P(z)和Q(z)分别是对称和反对称的,且对称轴在z-(m+1)/2处。由此可知:在单位圆z=exp(iθ)上分别求值的z-(m+1)/2P(z)和z-(m+1)/2Q(z)的频谱分别是实值和复数值的。由于零在单位圆上,可以通过搜索零交点来找到他们。此外,在单位圆上求值可以简单地通过快速傅立叶变换来实现。
由于与z-(m+1)/2P(z)和z-(m+1)/2Q(z)对应的频谱分别是实数和复数,2是可以使用单一快速傅立叶变换来实现它们。具体地,如果取和z-(m+1)/2(P(z)+Q(z)),则频谱的实部和复数部分别对应于z-(m+1)/2P(z)和z-(m+1)/2Q(z)。此外,由于z-(m+1)/2(P(z)+Q(z))=2z-(m+1)/2A(z),可以直接取2z-(m+1)/2A(z)的FFT,以获得与z-(m+1)/2P(z)和z-(m+1)/2Q(z)相对应的频谱,而不需要显式确定P(z)和Q(z)。由于仅关注零的位置,可以省略与标量2的乘法,并代之以通过FFT对z-(m+1)/2A(z)求值。观察到:由于A(z)仅具有m+1个非零系数,可以使用FFT修剪(pruning)以降低复杂度[11]。为了确保找到所有根,必须使用具有充分高长度N的FFT,使得在每两个零之间的至少一个频率上对频谱求值。
根据本发明的优选实施例(未示出),转换器3包括:合成多项式形成器,被配置为根据加长多项式Pe(z)和Qe(z)来建立合成多项式Ce(Pe(z),Qe(z))。
根据本发明的优选实施例(未示出),转换器被配置为使得:根据P(z)导出的严格实频谱和根据Q(z)导出的严格虚频谱是通过变换合成多项式Ce(Pe(z),Qe(z))的单傅立叶变换来建立的。
图8在示意视图中示出了根据本发明的信息编码器1的转换器3的第五实施例。
根据本发明的优选实施例,转换器3包括:傅立叶变换设备14,用于针对半采样,将一对多项式P(z)和Q(z)或根据一对多项式P(z)和Q(z)导出的一个或多个多项式傅立叶变换到频域中,使得根据P(z)导出的频谱是严格实数的且根据Q(z)导出的频谱是严格虚数的。
备选是实现针对半采样的DFT。具体地,与被定义为下式的传统DFT相反地
Figure BDA0002333583420000211
可以将半采样DFT定义为
Figure BDA0002333583420000212
针对该公式,可以容易地设想出作为FFT的快速实现。
该公式的优点是:现在对称点位于n=1/2,而不是通常的n=1。在使用该半采样的DFT的情况下,则将使用序列
[2,1,0,0,1,2]
来获得实值傅立叶频谱RES。
在奇数m+1的情况下,对于具有系数p0,p1,p2,p2,p1,p0的多项式P(z),则在输入序列是以下序列时可以使用半采样DFT和零填充来获得实值频谱RES:
[p2,p1,p0,0,0...0,p0,p1,p2]。
对应地,对于多项式Q(z),可以针对以下序列来应用半采样DFT
[-q2,-q1,-q0,0,0...0,q0,q1,q2]
以获得纯虚数频谱IES。
在使用这些方法的情况下,对于m和l的任何组合,针对多项式P(z),可以获得实值频谱,且针对任何Q(z),可以获得纯虚数频谱。事实上,由于P(z)和Q(z)的频谱分别是纯实数和纯虚数的,可以将它们存储在单一复频谱中,则该复频谱对应于P(z)+Q(z)=2A(z)的频谱。以因子2来扩缩并不改变根的位置,由此可以将其忽略。从而可以通过使用单一FFT仅对A(z)的频谱求值来获得P(z)和Q(z)的频谱。如上面解释过的,仅需要对A(z)的系数应用循环移位。
例如,对于m=4和1=0,A(z)的系数是
[a0,a1,a2,a3,a4]
其可以被零填充至任意长度N:
[a0,a1,a2,a3,a4,0,0...0]。
如果之后应用(m+1)/2=2个步长的循环移位,则获得
[a2,a3,a4,0,0...0,a0,a1]。
通过取该序列的DFT,在频谱的实部RES和复数部IES中得到P(z)和Q(z)的频谱。
可以如下声明在m+1为偶数的情况下的整体算法。令A(z)的系数(表示为ak)驻留在长度N的缓冲区中。
1.对ak应用向左(m+1)/2个步长的循环移位。
2.计算序列ak的快速傅立叶变换,并用Ak来表示它。
3.以k=0开始且在以下二者之间交替,直到找到所有频率值为止:
(a)当sign(real(Ak))=sign(real(Ak+1))时,增加k:=k+1。一旦找到零交点,在频率值列表中存储k。
(b)当sign(imag(Ak))=sign(imag(Ak+1))时,增加k:=k+1。一旦找到零交点,在频率值列表中存储k。
4.对于每个频率值,在Ak和Ak+1之间插值,以确定准确位置。
此处,函数sign(x)、real(x)和imag(x)分别指代x的符号、x的实部和x的虚部。
对于m+1奇数的情况,将循环移位减少到仅向左(m+1-1)/2个步长,且用半采样快速傅立叶变换来替换常用的快速傅立叶变换。
备选地,我们始终可以用快速傅立叶变换和频域中的相位移位来替换循环移位和第一傅立叶变换的组合。
对于根的更准确的位置,有可能使用上面提出的方法来提供第一猜测,然后应用对根位置求精的第二步骤。对于求精,我们可以应用任何经典的多项式根寻找方法,例如Durand-Kerner、Aberth-Ehrlich’s、Laguerre的Gauss-Newton法或其他方法[11-17]。
在一个公式中,所提出的方法包含以下步骤:
(a)对于长度m+1+1的被零填充到长度N的序列,其中,m+1是偶数,应用向左的(m+1)/2个步长的循环移位,使得缓冲区长度为N且对应于输出频谱的期望长度,或者
对于长度m+1+1的被零填充到长度N的序列,其中,m+1是奇数,应用向左的(m+1-1)/2个步长的循环移位,使得缓冲区长度为N且对应于输出频谱的期望长度。
(b)如果m+1为偶数,则对序列应用常用DFT。如果m+1为奇数则如公式3或等价表示所描述的对序列应用半采样DFT。
(c)如果输入信号曾是对称或反对称的,则搜索频域表示的零交点,并在列表中存储位置。
如果输入信号曾是合成序列B(z)=P(z)+Q(z),则在频域表示的实部和虚部中都搜索零交点,并在列表中存储位置。如果输入信号曾是合成序列B(z)=P(z)+Q(z),并且P(z)和Q(z)的根交替或具有相似结构,则通过在频域表示的实部和虚部之间交替来搜索零交点,并在列表中存储位置。
在另一个公式中,所提出的方法包含以下步骤:
(a)对于具有与前一点中的输入信号相同形式的输入信号,对输入序列应用DFT。
(b)对频域值应用相位旋转,其等价于对输入信号进行向左(m+1)/2个步长的循环移位。
(c)应用于在前一点中曾进行过的一样的零交点搜索。
针对上述实施例的编码器1和方法,注意以下内容:
虽然已经在装置的上下文中描述了一些方案,但是将清楚的是,这些方案也表示对相应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应装置的相应块或项目或者特征的描述。
取决于某些实现要求,可以用硬件或软件来实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行该实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括用于执行本文所述的方法之一的计算机程序,其中将所述计算机程序存储在机器可读的载体或非暂时性存储介质上。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传递。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,可以有利地由任意硬件装置来执行所述方法。
尽管根据若干实施例描述了本发明,然而存在落入本发明范围内的变更、置换和等同物。此外,应注意,存在多种备选方式来执行本发明的方法和组成。因此,意在将所附权利要求理解为包括落入本发明实质精神和范围内的全部这些变更、置换和等同物。
附图标记:
1 信息编码器
2 分析器
3 转换器
4 量化器
5 比特流产生器
6 确定设备
7 系数移位器
8 傅立叶变换设备
9 零识别器
10 零填充设备
11 限制设备
12 移相器
13 合成多项式形成器
14 半采样傅立叶变换设备
IS 信息信号
RES 实频谱
IES 虚频谱
f1...fn 频率值
fq1...fqn 量化频率值
BS 比特流
参考文献
[1]B.Bessette,R.Salami,R.Lefebvre,M.Jelinek,J.Rotola-Pukkila,J.Vainio,H.Mikkola,and K.
Figure BDA0002333583420000262
“The adaptive multirate wideband speechcodec(AMR-WB)”,Speech and Audio Processing,IEEE Transac-tions on,vol.10,no.8,pp.620-636,2002.
[2]ITU-T G.718,“Frame error robust narrow-band and wideband embeddedvariable bit-rate coding of speech and audio from 8-32kbit/s”,2008.
[3]M.Neuendorf, P.Gournay,M.Multrus,J.Lecomte,B.Bessette,R.Geiger,S.Bayer,G.Fuchs,J.Hilpert,N.Rettelbach,R.Salami,G.Schuller,R.Lefebvre,andB.Grill,“Unified speech and audio coding schemefor high quality at lowbitrates”,in Acoustics,Speech and Signal Processing.ICASSP 2009.IEEE IntConf,2009,pp.1-4.
[4]T.
Figure BDA0002333583420000261
and C.Magi,“Properties of line spectrum pairpolynomials-a review”,Signal Processing,vol.86,no.11,pp.3286-3298,November2006.
[5]G.Kang and L.Fransen,“Application of line-spectrum pairs to low-bit-rate speech encoders”,in Acoustics,Speech,and Signal Processing,IEEEInternational Conference on ICASSP’85.,vo1.10.IEEE,1985,pp.244-247.
[6]P.Kabal and R.P.Ramachandran,“The computation of linespectralfrequencies using Chebyshev polynomials”,Acoustics,Speech and SignalProcessing,IEEE Transactions on,vol.34,no.6,pp.1419-1426,1986.
[7]3GPP TS 26.190V7.0.0,“Adaptive multi-rate(AMR-WB)speech codec”,2007.
[8]T.
Figure BDA0002333583420000271
C.Magi,and P.Alku,“Minimum separation of line spec-tral frequencies”,IEEE Signal Process.Lett.,vol.14,no.2,pp.145-147,February2007.
[9]T.
Figure BDA0002333583420000272
“Vandermonde factorization of Toeplitz matrices andapplications in filtering and warping,”IEEE Trans.Signal Process.,vol.61,no.24,pp.6257-6263,2013.
[10]V.F.Pisarenko,“The retrieval of harmonicsfrom a covariancefunction”,Geophysical Journal of the Royal Astronomical Society,vol.33,no.3,pp.347-366,1973.
[11]E.Durand,Solutions Numériques des Equations Algébriques.Paris:Masson,1960.
[12]I.Kerner,“Ein Gesamtschrittverfahren zur Berechnung derNullstellen von Polynomen”,Numerische Mathematik,vol.8,no.3,pp.290-294,May1966.
[13]O.Aberth,“Iteration methods for finding all zeros of a polynomialsimultaneously”,Mathematics of Computation,vol.27,no.122,pp.339-344,April1973.
[14]L.Ehrlich,“A modified newton methodfbr polynomials”,Communications of the ACM,vol.10,no.2,pp.107-108,February 1967.
[15]D.Starer and A.Nehorai,“Polynomial factorization algorithms foradaptive root estimation”,in Int.Conf.on Acoustics,Speech,and SignalProcessing,vo1.2.Glasgow,UK:IEEE,May 1989,pp.1158-1161.
[16]——,“Adaptive polynomial factorization by coefficient matching”,IEEE Transactions on Signal Processing,vol.39,no.2,pp.527-530,February 1991.
[17]G.H.Golub and C.F.van Loan,Matrix Computations,3rd ed.JohnHopkins University Press,1996.
[18]T.
Figure BDA0002333583420000281
“Finite impulse response filter design”,Handbook forDigital Signal Processing,pp.155-277,1993.

Claims (10)

1.一种用于对信息信号(IS)编码的信息编码器,所述信息编码器(1)包括:
分析器(2),用于分析信息信号(IS),以获得预测多项式A(z)的线性预测系数;
转换器(3),用于将预测多项式A(z)的线性预测系数转换为预测多项式A(z)的频谱频率表示的频率值f1...fn,其中,所述转换器(3)被配置为通过分析如下定义的一对多项式P(z)和Q(z)来确定频率值f1...fn
P(z)=A(z)+z-m-1A(z-1)以及
Q(z)=A(z)-z-m-1A(z-1),
其中,m是预测多项式A(z)的阶数,且1大于等于零,其中,所述转换器(3)被配置为通过建立根据P(z)导出的严格实频谱(RES)和根据Q(z)导出的严格虚频谱(IES),并通过识别根据P(z)导出的严格实频谱(RES)和根据Q(z)导出的严格虚频谱(IES)中的零,来获得频率值(f1...fn);
量化器(4),用于根据频率值(f1...fn)来获得量化频率(fq1...fqn)值;以及
比特流产生器(5),用于产生包括量化频率值(fq1...fqn)在内的比特流。
2.根据权利要求1所述的信息编码器,其中,所述转换器(3)包括:确定设备(6),用于根据所述预测多项式A(z)来确定多项式P(z)和Q(z)。
3.根据权利要求1所述的信息编码器,其中,所述转换器(3)包括:零识别器(9),用于识别根据P(z)导出的严格实频谱(RES)和根据Q(z)导出的严格虚频谱(IES)中的零。
4.根据权利要求3所述的信息编码器,其中,所述零识别器(9)被配置为通过以下方式来识别零:
a)在零频率上以实频谱(RES)开始;
b)增加频率,直到找到实频谱(RES)上的符号改变为止;
c)增加频率,直到找到虚频谱(IES)上的另一符号改变为止;以及
d)重复步骤b)和c),直到找到所有零为止。
5.根据权利要求3所述的信息编码器,其中,所述零识别器被配置为通过插值来识别零。
6.根据权利要求1所述的信息编码器,其中,所述转换器(3)包括:零填充设备(10),用于向多项式P(z)和Q(z)添加具有“0”值的一个或多个系数,以产生一对加长多项式Pe(z)和Qe(z)。
7.根据权利要求5所述的信息编码器,其中,所述转换器(3)被配置为使得:在将线性预测系数转换为预测多项式A(z)的频谱频率表示(RES、IES)的频率值(f1...fn)期间,省略针对加长多项式Pe(z)和Qe(z)的已知具有“0”值的系数的至少一部分运算。
8.根据权利要求5所述的信息编码器,其中,所述转换器(3)包括:合成多项式形成器(13),被配置为根据所述加长多项式Pe(z)和Qe(z)来建立合成多项式Ce(Pe(z),Qe(z))。
9.一种用于操作对信息信号(IS)进行编码的信息编码器(1)的方法,所述方法包括以下步骤:
分析信息信号(IS),以获得预测多项式A(z)的线性预测系数;
将预测多项式A(z)的线性预测系数转换为预测多项式A(z)的频谱频率表示(RES、IES)的频率值(f1...fn),其中,通过分析如下定义的一对多项式P(z)和Q(z)来确定频率值(f1...fn):
P(z)=A(z)+z-m-1A(z-1)以及
Q(z)=A(z)-z-m-1A(z-1),
其中,m是预测多项式A(z)的阶数,且l大于等于零,其中,通过建立根据P(z)导出的严格实频谱(RES)和根据Q(z)导出的严格虚频谱(IES),并通过识别根据P(z)导出的严格实频谱(RES)和根据Q(z)导出的严格虚频谱(IES)中的零,来获得频率值(f1...fn);
根据频率值(f1...fn)来获得量化频率(fq1...fqn)值;以及
产生包括量化频率值(fq1...fqn)在内的比特流(BS)。
10.一种计算机程序,当在处理器上运行时,执行根据权利要求9所述的方法。
CN201911362154.4A 2014-03-07 2015-02-09 用于信息编码的概念 Active CN111179952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911362154.4A CN111179952B (zh) 2014-03-07 2015-02-09 用于信息编码的概念

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP14158396.3 2014-03-07
EP14158396 2014-03-07
EP14178789.5A EP2916319A1 (en) 2014-03-07 2014-07-28 Concept for encoding of information
EP14178789.5 2014-07-28
PCT/EP2015/052634 WO2015132048A1 (en) 2014-03-07 2015-02-09 Concept for encoding of information
CN201580012260.3A CN106068534B (zh) 2014-03-07 2015-02-09 用于信息编码的概念
CN201911362154.4A CN111179952B (zh) 2014-03-07 2015-02-09 用于信息编码的概念

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580012260.3A Division CN106068534B (zh) 2014-03-07 2015-02-09 用于信息编码的概念

Publications (2)

Publication Number Publication Date
CN111179952A true CN111179952A (zh) 2020-05-19
CN111179952B CN111179952B (zh) 2023-07-18

Family

ID=51260570

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201911362154.4A Active CN111179952B (zh) 2014-03-07 2015-02-09 用于信息编码的概念
CN201580012260.3A Active CN106068534B (zh) 2014-03-07 2015-02-09 用于信息编码的概念

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580012260.3A Active CN106068534B (zh) 2014-03-07 2015-02-09 用于信息编码的概念

Country Status (18)

Country Link
US (3) US10403298B2 (zh)
EP (4) EP2916319A1 (zh)
JP (3) JP6420356B2 (zh)
KR (1) KR101875477B1 (zh)
CN (2) CN111179952B (zh)
AR (1) AR099616A1 (zh)
AU (1) AU2015226480B2 (zh)
BR (1) BR112016018694B1 (zh)
CA (1) CA2939738C (zh)
ES (1) ES2721029T3 (zh)
MX (1) MX358363B (zh)
MY (1) MY192163A (zh)
PL (2) PL3503099T3 (zh)
PT (1) PT3097559T (zh)
RU (1) RU2670384C2 (zh)
SG (1) SG11201607433YA (zh)
TW (1) TWI575514B (zh)
WO (1) WO2015132048A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2806268T3 (es) 2011-04-29 2021-02-17 Selecta Biosciences Inc Nanoportadores sintéticos tolerogénicos para reducir las respuestas de anticuerpos
ES2701402T3 (es) 2012-10-05 2019-02-22 Fraunhofer Ges Forschung Aparato para codificar una señal de voz empleando ACELP en el dominio de autocorrelación
CN111686255A (zh) 2013-05-03 2020-09-22 西莱克塔生物科技公司 用于诱导免疫耐受的具有特定药效学有效持续期之免疫抑制剂与抗原的递送
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
AU2015251609B2 (en) * 2014-04-25 2018-05-17 Ntt Docomo, Inc. Linear prediction coefficient conversion device and linear prediction coefficient conversion method
CA2957737A1 (en) * 2014-09-07 2016-03-10 Selecta Biosciences, Inc. Methods and compositions for attenuating gene expression modulating anti-viral transfer vector immune responses
US10349127B2 (en) * 2015-06-01 2019-07-09 Disney Enterprises, Inc. Methods for creating and distributing art-directable continuous dynamic range video
US10211953B2 (en) * 2017-02-07 2019-02-19 Qualcomm Incorporated Antenna diversity schemes
WO2022137645A1 (en) 2020-12-23 2022-06-30 Mitsubishi Electric Corporation Interactive online adaptation for digital pre-distortion and power amplifier system auto-tuning

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372683A (zh) * 1999-07-05 2002-10-02 诺基亚有限公司 改善音频信号编码效率的方法
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
CN1669075A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1739142A (zh) * 2002-12-24 2006-02-22 诺基亚有限公司 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备
CN101662288A (zh) * 2008-08-28 2010-03-03 华为技术有限公司 音频编码、解码方法及装置、系统
CN101667170A (zh) * 2008-09-05 2010-03-10 索尼株式会社 计算、量化、音频编码的装置和方法及程序
CN101779236A (zh) * 2007-08-24 2010-07-14 高通股份有限公司 基于频率子频带中的频谱动态的音频译码中的时间掩蔽
CN101908949A (zh) * 2010-08-20 2010-12-08 西安交通大学 无线通信系统及其基站、中继站、用户终端和数据的发送接收方法
CN102648494A (zh) * 2009-10-08 2012-08-22 弗兰霍菲尔运输应用研究公司 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序
CN102867516A (zh) * 2012-09-10 2013-01-09 大连理工大学 一种采用高阶线性预测系数分组矢量量化的语音编解方法
CN102884574A (zh) * 2009-10-20 2013-01-16 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
CN102884570A (zh) * 2010-04-09 2013-01-16 杜比国际公司 基于mdct的复数预测立体声编码
CN103052983A (zh) * 2010-04-13 2013-04-17 弗兰霍菲尔运输应用研究公司 音频或视频编码器、音频或视频解码器及利用可变预测方向处理多信道音频或视频信号的相关方法
CN103262161A (zh) * 2010-10-18 2013-08-21 三星电子株式会社 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法
CN103383846A (zh) * 2006-12-26 2013-11-06 华为技术有限公司 改进语音丢包修补质量的语音编码方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3246029B2 (ja) * 1993-01-29 2002-01-15 ソニー株式会社 音声信号処理装置及び電話装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
DE69626088T2 (de) * 1995-11-15 2003-10-09 Nokia Corp., Espoo Bestimmung der Linienspektrumfrequenzen zur Verwendung in einem Funkfernsprecher
JPH09212198A (ja) * 1995-11-15 1997-08-15 Nokia Mobile Phones Ltd 移動電話装置における線スペクトル周波数決定方法及び移動電話装置
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6611560B1 (en) * 2000-01-20 2003-08-26 Hewlett-Packard Development Company, L.P. Method and apparatus for performing motion estimation in the DCT domain
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
KR20020028224A (ko) * 2000-07-05 2002-04-16 요트.게.아. 롤페즈 선 스펙트럼 주파수를 선형 예측 계수로 다시 변환하는 방법
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
EP1711938A1 (en) * 2004-01-28 2006-10-18 Koninklijke Philips Electronics N.V. Audio signal decoding using complex-valued data
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
CN101149927B (zh) * 2006-09-18 2011-05-04 展讯通信(上海)有限公司 在线性预测分析中确定isf参数的方法
KR101531910B1 (ko) * 2007-07-02 2015-06-29 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
EP2077550B8 (en) 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US20130211846A1 (en) * 2012-02-14 2013-08-15 Motorola Mobility, Inc. All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9396734B2 (en) * 2013-03-08 2016-07-19 Google Technology Holdings LLC Conversion of linear predictive coefficients using auto-regressive extension of correlation coefficients in sub-band audio codecs
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372683A (zh) * 1999-07-05 2002-10-02 诺基亚有限公司 改善音频信号编码效率的方法
CN1766990A (zh) * 1999-07-05 2006-05-03 诺基亚有限公司 改善音频信号编码效率的方法
CN1669075A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
CN1739142A (zh) * 2002-12-24 2006-02-22 诺基亚有限公司 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN103383846A (zh) * 2006-12-26 2013-11-06 华为技术有限公司 改进语音丢包修补质量的语音编码方法
CN101779236A (zh) * 2007-08-24 2010-07-14 高通股份有限公司 基于频率子频带中的频谱动态的音频译码中的时间掩蔽
CN101662288A (zh) * 2008-08-28 2010-03-03 华为技术有限公司 音频编码、解码方法及装置、系统
CN101667170A (zh) * 2008-09-05 2010-03-10 索尼株式会社 计算、量化、音频编码的装置和方法及程序
CN102648494A (zh) * 2009-10-08 2012-08-22 弗兰霍菲尔运输应用研究公司 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序
CN102884574A (zh) * 2009-10-20 2013-01-16 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
CN102884570A (zh) * 2010-04-09 2013-01-16 杜比国际公司 基于mdct的复数预测立体声编码
CN103052983A (zh) * 2010-04-13 2013-04-17 弗兰霍菲尔运输应用研究公司 音频或视频编码器、音频或视频解码器及利用可变预测方向处理多信道音频或视频信号的相关方法
CN101908949A (zh) * 2010-08-20 2010-12-08 西安交通大学 无线通信系统及其基站、中继站、用户终端和数据的发送接收方法
CN103262161A (zh) * 2010-10-18 2013-08-21 三星电子株式会社 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法
CN102867516A (zh) * 2012-09-10 2013-01-09 大连理工大学 一种采用高阶线性预测系数分组矢量量化的语音编解方法

Also Published As

Publication number Publication date
JP2021006922A (ja) 2021-01-21
US10403298B2 (en) 2019-09-03
AR099616A1 (es) 2016-08-03
WO2015132048A1 (en) 2015-09-11
EP3097559A1 (en) 2016-11-30
US20210335373A1 (en) 2021-10-28
CA2939738C (en) 2018-10-02
EP3503099A1 (en) 2019-06-26
CN111179952B (zh) 2023-07-18
EP2916319A1 (en) 2015-09-09
US11640827B2 (en) 2023-05-02
AU2015226480B2 (en) 2018-01-18
KR20160129891A (ko) 2016-11-09
CN106068534A (zh) 2016-11-02
MY192163A (en) 2022-08-03
TW201537566A (zh) 2015-10-01
ES2721029T3 (es) 2019-07-26
RU2016137805A (ru) 2018-04-10
PL3503099T3 (pl) 2024-09-02
EP3097559B1 (en) 2019-03-13
BR112016018694A2 (zh) 2017-08-22
BR112016018694B1 (pt) 2022-09-06
JP6420356B2 (ja) 2018-11-07
KR101875477B1 (ko) 2018-08-02
JP7077378B2 (ja) 2022-05-30
US20190341065A1 (en) 2019-11-07
EP3503099C0 (en) 2024-05-01
JP2017513048A (ja) 2017-05-25
MX2016011516A (es) 2016-11-29
JP6772233B2 (ja) 2020-10-21
TWI575514B (zh) 2017-03-21
RU2670384C2 (ru) 2018-10-22
CA2939738A1 (en) 2015-09-11
CN106068534B (zh) 2020-01-17
PL3097559T3 (pl) 2019-08-30
AU2015226480A1 (en) 2016-09-01
SG11201607433YA (en) 2016-10-28
PT3097559T (pt) 2019-06-18
JP2019049729A (ja) 2019-03-28
EP3503099B1 (en) 2024-05-01
EP4318471A3 (en) 2024-04-10
US11062720B2 (en) 2021-07-13
US20160379656A1 (en) 2016-12-29
EP4318471A2 (en) 2024-02-07
MX358363B (es) 2018-08-15

Similar Documents

Publication Publication Date Title
CN106068534B (zh) 用于信息编码的概念
JP6543640B2 (ja) エンコーダ、デコーダ並びに符号化及び復号方法
KR101733326B1 (ko) 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩
EP2128858B1 (en) Encoding device and encoding method
KR20150108848A (ko) 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법
EP2267699A1 (en) Encoding device and encoding method
Giacobello et al. Speech coding based on sparse linear prediction
CA2914418C (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
Bäckström et al. Finding line spectral frequencies using the fast Fourier transform
CN118230741A (zh) 一种基于正弦谐波模型的低速率语音编解码方法
Bäckström et al. Spectral Envelope and Perceptual Masking Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant