CN105122356A - 信号解码期间帧丢失的改进型校正 - Google Patents
信号解码期间帧丢失的改进型校正 Download PDFInfo
- Publication number
- CN105122356A CN105122356A CN201480007003.6A CN201480007003A CN105122356A CN 105122356 A CN105122356 A CN 105122356A CN 201480007003 A CN201480007003 A CN 201480007003A CN 105122356 A CN105122356 A CN 105122356A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- spectrum component
- segment
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title abstract description 7
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 60
- 238000005070 sampling Methods 0.000 claims description 56
- 238000001228 spectrum Methods 0.000 claims description 49
- 239000002131 composite material Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 18
- 238000012952 Resampling Methods 0.000 claims description 11
- 238000010183 spectrum analysis Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 5
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 239000000872 buffer Substances 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 17
- 230000009467 reduction Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明涉及信号处理,所述信号包括在连续帧中分布的一系列采样。在这种信号解码期间进行处理,以便替换在解码过程中丢失的至少一个信号帧,所述处理具体包括以下步骤:1)在解码器可利用的有效信号中搜索(S3)具有与基于所述有效信号而确定的周期相对应的时长的信号段;2)分析(S4)信号段的频谱,以确定信号段的频谱分量;3)通过从至少一部分频谱分量中构成一个合成信号来合成(S6)丢失帧的至少一个替换帧。
Description
技术领域
本发明涉及到一种信号校正,尤其是在解码器中,收到信号时该解码器发生帧丢失的情况下的信号校正。
背景技术
信号具有一系列采样的形式,这些采样分解成连续帧,而“帧”的意思是由几个采样组成的信号段(如果信号的形式是例如根据ITU-TG.711建议的编码解码器中的一系列采样,那么有可能实现一个帧包含单独一个采样)。
本发明涉及到数字信号处理领域,具体为但不专属于音频信号编码/解码领域。采用编码器和解码器(通过实时传输或者通过储存后续传输)的通信被信道条件扰乱时(例如,由于无线电问题、接入网络阻塞等),发生帧丢失。
在这种情况下,解码器利用帧丢失校正(或“隐蔽”)机制,以便尝试通过解码器内的可用信息以重构信号代替丢失的信号(例如,已经解码的信号或者在上一帧中收到的参数)。通过这种技术,即使信道性能已经劣化,也可以保持良好的服务质量。
帧丢失校正技术通常与编码用途的类型密切相关。
如果是以CELP(码激励线性预测)类型技术为基础的语音信号编码,那么帧丢失校正尤其利用CELP模型。比如,在根据ITU-TG.722.2建议的编码过程中,代替一个丢失帧(或一个“数据包”)的解决方案包括通过衰减器扩展长期增益预测的使用,以及通过使导谱频率ISF(ImmittanceSpectralFrequency)趋向于各自的平均值而扩展每个ISF参数的使用。还要重复语音信号的基音(指定为“LTP延迟”的参数)。此外,向解码器提供具有“创新”(在CELP编码过程中进行激励)特征的参数的随机值。
需要注意的是,将此类方法应用于变换编码或PCM或ADPCM型波形编码需要在传输信号的解码器中进行CELP型参数分析,这带来额外的复杂性。
在与波形编码器相对应的ITU-TG.711建议中,(在该建议文本的附录I中列举的)帧丢失校正处理的信息性示例包括在已经解码的语音信号中找到基音周期,通过在已解码的信号和(通过隐蔽重构的)重复的信号之间还原-添加(“重叠相加”)来重复最后的基音周期。通过这样处理,可以“平顺”音频失真(artifacts),但是在解码器中需要额外延迟(该延时对应于还原时间)。
在通过转换进行编码的情况下,替换帧丢失的最常用的技术包括重复最后收到的帧的解码频谱。例如,如果按照ITU-TG.722.1建议,相当于具有50%还原和正弦型分析/合成窗口的改进离散余弦变换(MDCT)的MLT(“改进重叠变换”)变换用来提供最后丢失的帧与重复帧之间足够缓慢的转换,以便平顺与频谱简单重复相关的失真;通常,如果大于一个帧丢失,则把重复频谱设为零。
有利的是,这种隐蔽的方法不需要额外延迟,因为它利用重构信号与传递信号之间的还原-添加,以便形成一种“交叉渐变”(由于MLT变换导致时间混叠)。它代表一种资源成本非常低的技术。
然而,它有一个关于在帧丢失前的信号和重复信号之间时序不一致的缺点。这一缺点的结果是相位不连续性(或不一致性),如果减少与两帧相关联的信号之间的还原时间,所述相位不连续性则会产生严重的音频失真(尤其在采用称为“短延时”的MDCT帧的情况下)。图1B中阐释了在短延时MLT变换情况下的短期还原状况,与此相对的是图1A所示的根据G.722.1建议采用正弦窗的通常情况(从而为非常渐进式的调制提供较长的还原时间ZRA)。如图1B所示,短延时窗口的调制产生相位偏移,由于还原区ZRB较短,可听见所述相位偏移。
在这种情况下,尽管能够实施将基音搜索(根据G.711建议附录I解码的情况)与通过MDCT变换的窗口产生的还原-添加相结合的解决方案,也不足以消除音频失真,尤其是与频率分量之间的相移改变相关的音频失真。
发明内容
本发明旨在改善这种状况。
为此,提出一种处理信号的方法,所述信号包括在连续帧中分布的一系列采样,其中,在所述信号解码期间实施该方法,以便替换至少一个在解码过程中丢失的信号帧。具体而言,该方法包括以下步骤:
1)在解码器可利用的有效信号中搜索其时长与根据所述有效信号设置的周期相对应的信号段;
2)分析信号段的频谱,以确定该段的频谱分量;
3)通过从至少一部分频谱分量中构成一个合成信号来合成至少一个丢失帧的替换帧。
本文所述“帧”的意思应理解为至少一个采样块。在大多数解码编码器中,这些帧是由多个采样构成。然而,在例如根据G.711建议的某些编码解码器中,特别是PCM(“脉冲编码调制”)型解码编码器中,信号仅仅是由一系列采样构成的(从本发明的意义上说,一“帧”仅包括一个采样)。本发明也可以用于此类型的解码编码器。
例如,有效信号可由在帧丢失前收到的最后的有效帧构成。也可以采用丢失帧之后随后收到的一个或多个有效帧(尽管这样实施会导致解码延迟)。所采用的来自有效信号的采样可以是直接来自帧的采样,也可以是与存储器相对应的通过变换得到的采样,后者在通过还原变换的MLT或MDCT型解码的情况下通常含有混叠。
本发明提供一种校正帧丢失的有利解决方案,尤其是在禁止额外的解码延迟的情况下,例如,通过窗口使用变换解码器时,所述窗口在替代信号和时间演变的信号之间没有大范围的重叠(如图1b所示的MDCT或MLT短延时窗口的典型情况)。因为利用了所收到的最后有效帧的频谱分量,以构成包含最后有效帧的频谱颜色的合成信号,所以本发明针对还原具有独特优势。然而,本发明显然也适用于任何类型(通过变换、CELP、PCM或其它)的编码/解码。
在一个实施例中,该方法包括按照有效信号的相关性对一个重复周期进行搜索,上述信号段的时长包括至少一个重复周期。
例如,在语声信号的情况下,此“重复周期”与基音周期相对应(与信号的基频相反)。尽管如此,信号也可以来自音乐信号,例如,该音乐信号具有和基频相关的整体音调,也具有对应于前述重复周期的基本周期。
例如,可以对与信号音调有关的周期采用重复周期搜索。例如,可以通过有效接收的最后几个采样构建第一存储缓存,可以通过第二缓存的某些采样的相关性搜索第二个尺寸较大的缓存,所述采样的次序最符合第一缓存的那些采样。从第二缓存识别的采样与从第一缓存识别的采样之间的时间偏移可以构成一个重复周期或者多个重复周期(取决于相关性搜索的精细度)。应注意的是,采取多个重复周期不会降低实施本发明的质量,因为在这种情况下,仅对覆盖几个周期而不是一个周期的时长进行频谱分析,这样有助于增加分析的精度。
因此,进行频谱分析的信号时长可以确定为下列时长:
-(如果可以清晰辨认信号的音调)则为与一个重复周期相对应的时长;
-如果相关性给出了大于预定阈值的第一个相关性结果,如在下文的操作性实施例中所解释的,则为与几个重复周期相对应的时长(例如,基音周期);
-如果无法辨认该音调(信号基本上由噪音构成),则为任意信号时长(比如数十个采样)。
在一个具体实施例中,前述重复周期与其相关性超出预设阈值的时长相对应。因此,在这个实施过程中,一旦相关性超出该时间的预定阈值,则识别出信号时长。如此识别的时长与一个或多个与前述整体音调的频率相关的周期相对应。通过如此实施,即使实际上检测到的不是一个而是多个基音周期(例如介于两个和五个基音周期之间),也可以有利地限制根据相关性的搜索复杂性(例如,通过把相关性阈值设为60或70%)。第一,相关性搜索的复杂性便较低。第二,多个周期的频谱分析更为精细,而且更为精确地分析所产生的频谱分量。
关于通过信号段分析获得频谱分量(例如,通过快速傅立叶变换或者FFT),该方法还包括确定与这些频谱分量相关的各个相位,然后合成信号的构成包括频谱分量的相位。正如下文可见,为了优化合成信号与最后有效帧的连接,在最自然的情况下,是与随后的有效帧的连接,信号的构成包含这些相位。
在具体实施例中,该方法还包括确定与频谱分量相关的各个振幅,合成信号的构成包括频谱分量的这些振幅(在构成合成信号的过程供其参考)。
在具体实施例中,可选择对合成信号构成进行分析后的分量。例如,在一个实施例中,该方法包括确定与频谱分量相关的各个振幅,最大振幅的频谱分量是为了构成合成信号而选出的频谱分量。因此,作为补充或者作为一个变体,可以选择其振幅在频谱中形成峰值的频谱分量。
在选出单独一部分频谱分量的情况下,在具体实施例中,可以把噪音加入合成信号中,以补偿相对于构成合成信号时未选中的频谱分量的能量损失。
在一个实施例中,通过信号段的信号与合成信号之间的(时间)加权余量(residue)得到上述噪音。例如,在通过还原转换进行编码/解码的情况下,可以通过还原窗口加权。
信号段的频谱分析包括通过时长最好为2^k的快速傅立叶变换(FFT)进行的正弦分析,其中k大于或等于log2(P),P是信号段中采样的数量。该实施例有助于降低处理的复杂性,之后将对此进行详细说明。应注意的是,作为FFT变换的一个可能的替代,可以是例如复数调制重叠变换(MCLT)型变换。
具体而言,频谱分析步骤能提供:
-插入来自信号段的采样,以便得到包括2^ceil(log2(P))个采样的第二信号段,其中ceil(x)是大于或等于x的整数;
-计算第二信号段的傅里叶变换;以及,
-确定频谱分量之后,识别与分量相关的频率,通过修改根据重新采样的所述频率而进行的重新采样来构成合成信号。
本发明可有利地,但绝非限制性地应用于通过还原变换的解码的情况。在这种情况下,可有利地经过至少两个帧的时长(重复)构成合成信号,以便也覆盖包括超出单帧的时间混叠的部分。
在具体实施例中,可以经过两个帧的时长以及经过与由重采样过滤器引起的延迟相对应的一个额外时长构成合成信号(尤其是在上文所述的提供重采样的实施例中)。
在一些实施例中,可有利地管理抖动缓存。在结合抖动缓存管理进行帧丢失校正的情况下,通过调整合成信号的时长本发明可以应用于这种情况。
在一个实施例中,该方法还包括将有效帧的信号划分到高频带和低频带,而且在低频带中选择频谱分量。通过该实施例,因为高频部分为合成信号提供较少的频谱丰富度,且可以更简单地重复,所以基本可以把处理的复杂性限制到低频带。
在本实施例中,可以添加以下内容合成替换帧:
-在低频带中选择的频谱分量所构成的第一信号,以及,
-在高频带筛选过程中的第二信号,
其中,通过连续复制至少一个有效半帧以及其暂时折叠态(temporallyfoldedversion)得到第二信号。
本发明还涉及一种计算机程序,其包括执行此方法的指令(例如,图2中的总图可以是总体框图,在某些实施例可以是图5和/或图8中的具体框图)。
本发明还涉及一种信号解码的设备,所述信号包括在连续帧中分布的一系列采样,其中该设备包括替换至少一个丢失的信号帧的工具,其包括:
1)在解码器可利用的有效信号中搜索其时长与根据所述有效信号设置的周期相对应的信号段的装置;
2)分析信号段的频谱以确定信号段的频谱分量的工具;
3)通过从至少一部分频谱分量中构成一个合成信号来合成至少一个丢失帧的替换帧的工具。
该设备能采用例如是处理器的硬件形式,以及可能是通常在通信终端中的工作存储器。
附图说明
通过阅读下文中本发明的实施例的详细说明并细阅附图,本发明的其它优点和特征将表现出,在附图中:
-图1A显示了与MLT变化有关的传统窗口的还原。
-图1B显示了相对于图1A中的示例的小延迟窗口的还原。
-图2显示了根据本发明的一个通常处理的实例。
-图3显示了确定与基本周期相对应的信号段。
-图4显示了在具有相关性搜索偏移的实施例中确定与基本周期相对应的信号段。
-图5显示了一个信号段频谱分析的实施例。
-图6显示了一个在高频中复制有效帧以替换多个丢失帧的实现例。
-图7显示了通过合成窗口加权从丢失帧中重构信号。
-图8显示了应用本发明所述的方法进行信号解码的实例。
-图9显示了包括实施本发明所述方法的装置的一种设备。
具体实施方式
本发明所述的处理如图2所示。该处理应用于解码器中。所述解码器可以是任何类型的解码器,因为整个处理过程不受编码/解码特性的影响。在所述实例中,所述处理应用于接收到的音频信号。当然,更普遍而言,所述处理可用于任何类型的信号,该信号是通过时间窗和转换进行分析的,在通过还原-添加进行合成的过程中,调谐具有一个或多个替换帧。
在图2的第一个处理步骤S1期间,N个音频采样连续储存在存储缓存中(例如FIFO型)。因此,可以从47ms信号以给定的采样频率Fs(如Fs=32kHz)构建音频缓存b(n),例如每20ms有2.35=47/20个音频帧。这些采样与已经解码的采样相对应,因此在帧的丢失校正处理时可获取这些采样。如果待合成的第一个采样是(针对一个或多个连续丢失帧的)时间指数为N的采样,那么音频缓存b(n)与之前的N个时间指数为0至N-1的采样相对应。如果是通过变换进行编码的编码器,那么音频缓存则与在过去帧中已经解码的(并且因此不可修改的)采样相对应。如果能够为(例如D个采样的)解码器增加额外的延迟,那么缓存则可能只包含解码器可利用的一部分采样,(在图2的步骤S10)为还原-添加留下例如最后D个采样。
在滤波步骤S2中,音频缓存b(n)接着划分为两个频带:低频带LFB和高频带HFB,频率分隔写作Fc,例如Fc=4kHz。此滤波过程最好没有延迟。之前定义的音频缓存的大小现在优先与具有该频率Fc的N′=NFc/Fe相对应。
应用于低频带的步骤S3接着包括寻找一个循环点和在缓存b(n)内与基础周期(或基音周期)相对应的一个段P,所述缓存b(n)是以频率Fc重采样的。为此,在一个实施例中,在下列段之间计算归一化相关性Corr(n):
-缓存的目标段(参考图3中的标记CIB),其中该段Ns的大小介于N′-Ns与N′-1之间(例如,其时长为6ms);以及
-大小为Ns的滑动段,从位于采样0与采样Nc之间的采样开始(Nc>N′-Ns;其中,例如,Nc与35ms的时长相对应),
其中:
根据图3,如果在采样的时间指数n=mc时达到采样的最大相关性,那么指数n=pb的一个基音周期的循环点则与采样mc+Ns相对应,图3中随后用p(n)表示的段则与大小为P=N′-Ns-mc的基音周期相对应,其定义在采样n=pb至n=N′-1之间。
如图3所示,滑动搜索段在目标段之前。尤其是,目标段的第一个采样与搜索段的最后一个采样相对应。如果目标段CIB的最大相关性位于搜索段早期的指数点mc处,那么至少一个基音周期(例如具有相同正弦强度)在时间指数点mc和时间指数为mc+P的采样之间消逝。以同样的方法,至少一个基音周期消逝在指数为mc+Ns的采样(循环点,指数pb)和缓存N′的最后一个采样之间。
该实施的变形包括在缓存上的自相关,相当于找到缓存所识别的平均周期P。在这种情况下,用于合成的段包括缓存的最后P个采样。但是,较长段上的自相关计算会比较复杂,且比上述类型的简单相关性需要更多的计算机资源。
此外,该实施例的另一个变形包括无须在整个搜索段搜索最大相关性,而是简单地搜索与目标段的相关性大于所选阈值(例如70%)的段。这样的实施例不会精确地给定一个单独基音周期P(但可能是几个连续周期),尽管如此,与处理长合成段(用多个基音周期)的复杂性相比,在整个搜索段搜索相关性最大值的复杂性需要同样多或更多的资源。
在下文中,假设将单独一个基音周期用于信号的合成,但是适合回顾处理原则也同样适用于超出多个基础周期的段。在FFT变换的精度和产生的频谱分量的丰富度方面,结果甚至比几个基音周期还好。
在缓存所包含的音频信号中可能出现瞬变(音频信号中很短的持续时间强度峰值)的情况下,则可采用相关性搜索区域,例如,通过抵消相关性搜索(如图4所示的实例中,通常使其在音频缓存开始后的30ms开始,或者在瞬态结束之后开始的时间区域内进行相关性搜索)。
随后的步骤S4包括把段p(n)分解为正弦的总和。按照惯例,将信号分解为正弦的总和包括在与信号时长相对应的时间内计算离散傅里叶变换(或DFT)。因此得到组成信号的每个正弦分量的频率、相位和振幅。在本发明的一个具体实施例中,为了降低复杂性,通过时长为2^k(k大于或等于log2(P))的快速傅立叶变换FFT进行该分析。
在这个具体实施例中,步骤S4分解为三步操作,参考图5:
-操作步骤S41,以内插值替换来自段p(n)的采样,以得到由采样构成的段p′(n),其中,ceil(x)是大于或等于x的整数(例如,而且没有限制,可以采用直线型插入,或者三次样条型插入);
-操作步骤S42,计算p′(n):Π(k)=FFT(p′(n))的FFT变换;以及,
-操作步骤S43,根据FFT变换,直接得到正弦分量的相位和振
幅A(k),其中通过下式给出在0和1之间标准化的频率:
在图2的步骤S5中,选定正弦分量,以便只保存最重要的分量。在一个具体实施例中,分量的选择相当于:
-首先选择振幅A(k),使得A(k)>A(k-1),而且A(k)>A(k+1)
-然后,例如为了降低振幅,从首先选择的振幅中选择分量,以便使得所选峰值的累积振幅至少为半频谱的累积振幅的x%(例如x=70%)。
此外,还可以限制分量的数量(例如限制到20),从而使合成的复杂性降低。作为选择,可以针对最大峰值的预设数量进行搜索。
当然,选择频谱分量的方法不仅限于上文所示实例。可有变体。具体而言,可以以任何标准为基础,通过所述标准识别信号合成中有用的频谱分量(例如,与隐藏有关的主观标准,与信号和谐性有关的标准,或其它标准)。
随后的步骤S6包括正弦合成。在一个实施例中,包括生成时长至少等于丢失帧(T)大小的段s(n)。在一个具体实施例中,生成等于两个帧(例如40ms)的时长,以便在再次正确接收帧时能够在(通过帧丢失校正)合成的信号和从随后有效帧中分解的信号之间进行(作为转变的)“交错淡出(cross-fade)”型的声混合。
为了预测(采样时长标记为LF)的帧的重新采样,可以按照重采样过滤器(LF)的大小的一半增加待合成的采样数量。合成信号s(n)计算为所选正弦分量的总和:
其中k是步骤S5中所选的K个分量的指数。可以采用多种常规方法进行此正弦合成。
图2中的步骤S7包括注入噪音以补偿在低频带中与省略的某些频率分量有关的能量损失。一个具体的实施例包括计算在基音p(n)的相应段与合成信号s(n)之间的余量r(n)=p(n)-s(n),其中n∈[0;P-1].。
重复大小为P的余量,直到它的大小达到
然后将信号s(n)(通过添加可能的加权)混合入信号r(n)。
当然,(为了得到自然背景噪音)生成噪音的方法不仅限于之前的实例,可以有多个变体。例如,还可以在频域内(通过消除选自原始频谱的频谱分量)计算余量,并且通过逆变换得到背景噪音。
并行的步骤S8包括通过简单地重复信号处理高频带。例如,可涉及到重复一个帧T的时长。在更为复杂的实施例中,如图6所示,通过在帧丢失前取最后T′个采样(例如T′=N/2),对其进行暂时折叠,然后,通过对其进行无折叠的重复等,得到HFB合成。该实施过程有利的是,可以通过以相同响度设置帧的起止来避免可听见的失真。
在一个具体实施例中,可以加权大小为T′的帧,以便信号在高频带具有较高能量时避免某些失真。例如,在时长为T/2的帧的开始和结束处可以采用1ms正弦半窗形式的加权(图6中标记为W)。连续帧也可以重叠。
在步骤S9中,通过以原始频率Fc对低频带进行重采样,并将其加入到在高频带中步骤S8进行的重复信号中,来合成信号。
在步骤S10中,进行还原-添加,用来保证帧丢失前的信号与合成信号之间的连续性。例如,在通过低时延变换进行编码的情况下,L个采样位于MDCT变换的混叠部分(剩余的混叠部分)的起点和窗口四分之三标记之间(例如,窗口的时间混叠轴照例与MDCT变换有关)。参考图7,MDCT变换的合成窗口W1已经覆盖了这些采样。为了能够把还原窗口W2应用于这些采样,将所述采样除以窗口W1(通过解码器已知)并且乘以窗口W2。因此通过执行前述步骤S1至步骤S9合成的信号S(n)写为:
还原函数例如可定义为:
和W3(n)=1-W2(n)n∈[0;L-1],或者还原函数没有上述定义限制。
如前所述,如果允许在解码器中延迟,那么可以采用适合于还原-添加的任何加权,把该延迟时间用于对合成部分进行还原。
当然,本发明不仅限于上述实施例;它可延伸到其它变体。
因此,例如在步骤S2中划分为高频带和低频带是可选的。在一个实施例的变体中,来自缓存(步骤S1)的信号未分为两个子频带,步骤S3至步骤S10仍与上述步骤相同。尽管如此,仅在低频时对频谱分量的处理能有利地限制其复杂性。
在帧丢失的情况下,可在会话解码器中实施本发明。实质上,可在解码电路中实施本发明,通常是在电话终端中实施。为此,这样的电路CIR可以包括或者连接到处理器PROC,如图9所示,并且可以包括一个工作存储器MEM,根据执行上述方法的本发明的计算机程序指令对所述工作存储器进行编程。
例如,可以在通过变换进行解码的实时解码器中实施本发明。参考图8,解码器发送请求,以得到音频帧和帧缓存(步骤S81)。如果帧可用(从测试中输出OK),那么解码器便将帧解码(S82),所述被解码的帧有助于得到“混叠”时间采样,然后(通过合成窗口)继续进行最终开窗(windowing),并执行还原步骤S84,以便得到避免混叠的时间采样,然后采样将被发送到数模转换器进行还原。
帧丢失时(测试中的KO输出),解码器便按照本发明帧丢失校正的方法使用已经解码的信号以及前一帧(步骤S85)中的“混叠”部分。
Claims (16)
1.处理信号的方法,所述信号包括在连续帧中分布的一系列采样,其中,在所述信号解码期间实施该方法,以便替换至少一个在解码过程中丢失的信号帧;
其特征在于,所述方法包括以下步骤:
1)在解码器可利用的有效信号中,搜索(S3)其时长与根据所述有效信号设置的周期相对应的信号段;
2)分析(S4)信号段的频谱,以便确定该信号段的频谱分量;
3)通过从至少一部分频谱分量中构成一个合成信号来合成(S6)至少一个丢失帧的替换帧。
2.根据权利要求1所述的方法,其特征在于,所述方法包括按照所述有效信号的相关性在一个重复周期内进行搜索,其中信号段的时长包括至少一个重复周期。
3.根据权利要求2所述的方法,其特征在于,重复周期对应于其相关性超出预设阈值的时长。
4.根据上述任一项权利要求所述的方法,其特征在于,还包括确定与频谱分量相关的各个相位,以及合成信号的构成包括频谱分量的所述相位。
5.根据上述任一项权利要求所述的方法,其特征在于,还包括确定与频谱分量相关的各个振幅,以及合成信号的构成包括频谱分量的所述振幅。
6.根据上述任一项权利要求所述的方法,其特征在于,还包括确定与频谱分量相关的各个振幅,以及选择(S5)频谱分量的最大振幅用于构成合成信号。
7.根据上述任一项权利要求所述的方法,其特征在于,把噪音加入(S7)合成信号中,以便补偿相对于构成合成信号时未选择的频谱分量的能量损失。
8.根据权利要求7所述的方法,其特征在于,通过信号段的信号与合成信号之间的加权余量得到上述噪音。
9.根据上述任一项权利要求所述的方法,其特征在于,信号段的频谱分析包括通过时长优选为2^k的快速傅立叶变换(FFT)进行的正弦分析,其中k大于或等于log2(P),P是信号段中采样数。
10.根据权利要求9所述的方法,其特征在于,频谱分析包括:
-插入(S41)来自信号段的采样,以便得到由2^ceil(log2(P))个采样组成的第二段,其中ceil(x)是大于或等于x的整数;
-计算(S42)第二段的傅里叶变换;以及,
-确定频谱分量之后,识别与分量相关的频率,通过修改根据重新采样的所述频率而进行的重新采样来构成合成信号。
11.根据上述任一项权利要求所述的方法,其特征在于,所述方法用于通过还原变换的解码的情况,其中,在至少两个帧的时长上构成合成信号。
12.根据权利要求10和11所述的方法,其特征在于,在两个帧的时长和一个与由重采样过滤器引入的延迟相对应的额外时长上构成合成信号。
13.根据上述任一项权利要求所述的方法,其特征在于,还包括把来自所述有效帧的信号划分(S2)为高频带和低频带,以及在低频带中选择频谱分量。
14.根据权利要求13所述的方法,其特征在于,通过添加以下内容合成替换帧:
-选自低频带的频谱分量所构成的第一信号,以及
-在高频带筛选过程中的第二信号,
其中,第二信号是通过连续复制(S8)至少一个有效半帧及其暂时折叠态得到的。
15.计算机程序,包括用于执行根据权利要求1至14的所述方法的指令。
16.用于信号解码的设备,所述信号包括在连续帧中分布的一系列采样,所述设备包括替换至少一个丢失信号帧的装置(MEM、REOC),其特征在于,所述设备包括:
1)在解码器可利用的有效信号中搜索(S3)其时长与根据所述有效信号设置的周期相对应的信号段的装置;
2)分析信号段的频谱以便确定信号段的频谱分量的装置;
3)通过从至少一部分频谱分量中构成一个合成信号来合成至少一个丢失帧的替换帧的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1350845 | 2013-01-31 | ||
FR1350845A FR3001593A1 (fr) | 2013-01-31 | 2013-01-31 | Correction perfectionnee de perte de trame au decodage d'un signal. |
PCT/FR2014/050166 WO2014118468A1 (fr) | 2013-01-31 | 2014-01-30 | Correction perfectionnée de perte de trame au décodage d'un signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105122356A true CN105122356A (zh) | 2015-12-02 |
CN105122356B CN105122356B (zh) | 2019-12-20 |
Family
ID=48901064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007003.6A Active CN105122356B (zh) | 2013-01-31 | 2014-01-30 | 信号解码期间帧丢失的改进型校正 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9613629B2 (zh) |
EP (1) | EP2951813B1 (zh) |
JP (1) | JP6426626B2 (zh) |
KR (1) | KR102398818B1 (zh) |
CN (1) | CN105122356B (zh) |
BR (1) | BR112015018102B1 (zh) |
CA (1) | CA2899438C (zh) |
FR (1) | FR3001593A1 (zh) |
MX (1) | MX350634B (zh) |
RU (1) | RU2652464C2 (zh) |
WO (1) | WO2014118468A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109525373A (zh) * | 2018-12-25 | 2019-03-26 | 歌尔科技有限公司 | 数据处理方法、数据处理装置和播放设备 |
CN113454714A (zh) * | 2019-02-21 | 2021-09-28 | 瑞典爱立信有限公司 | 根据mdct系数的频谱形状估计 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3020732A1 (fr) | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
FR3023646A1 (fr) * | 2014-07-11 | 2016-01-15 | Orange | Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame |
CN108922551B (zh) * | 2017-05-16 | 2021-02-05 | 博通集成电路(上海)股份有限公司 | 用于补偿丢失帧的电路及方法 |
CN110710181B (zh) | 2017-05-18 | 2022-09-23 | 弗劳恩霍夫应用研究促进协会 | 管理网络设备 |
US10663040B2 (en) | 2017-07-27 | 2020-05-26 | Uchicago Argonne, Llc | Method and precision nanopositioning apparatus with compact vertical and horizontal linear nanopositioning flexure stages for implementing enhanced nanopositioning performance |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3984026A1 (en) * | 2019-06-13 | 2022-04-20 | Telefonaktiebolaget LM Ericsson (publ) | Time reversed audio subframe error concealment |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006064879A1 (ja) * | 2004-12-15 | 2006-06-22 | Matsushita Electric Industrial Co., Ltd. | 音声符号化方法、音声復号化方法、音声符号化装置および音声復号化装置 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CN101627423A (zh) * | 2006-10-20 | 2010-01-13 | 法国电信 | 有音调周期的校正的数字音频信号丢失块的合成 |
CN102754150A (zh) * | 2010-02-11 | 2012-10-24 | 高通股份有限公司 | 在子带译码解码器中隐藏遗失包 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
US7054453B2 (en) * | 2002-03-29 | 2006-05-30 | Everest Biomedical Instruments Co. | Fast estimation of weak bio-signals using novel algorithms for generating multiple additional data frames |
KR100954668B1 (ko) * | 2003-04-17 | 2010-04-27 | 주식회사 케이티 | 손실 전/후 패킷정보를 이용한 패킷손실 은닉 방법 |
RU2462769C2 (ru) * | 2006-10-24 | 2012-09-27 | Войсэйдж Корпорейшн | Способ и устройство кодирования кадров перехода в речевых сигналах |
JP5618826B2 (ja) * | 2007-06-14 | 2014-11-05 | ヴォイスエイジ・コーポレーション | Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 |
WO2010086342A1 (en) * | 2009-01-28 | 2010-08-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an input audio information, method for decoding an input audio information and computer program using improved coding tables |
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
-
2013
- 2013-01-31 FR FR1350845A patent/FR3001593A1/fr active Pending
-
2014
- 2014-01-30 CN CN201480007003.6A patent/CN105122356B/zh active Active
- 2014-01-30 CA CA2899438A patent/CA2899438C/fr active Active
- 2014-01-30 BR BR112015018102-3A patent/BR112015018102B1/pt active IP Right Grant
- 2014-01-30 WO PCT/FR2014/050166 patent/WO2014118468A1/fr active Application Filing
- 2014-01-30 EP EP14705848.1A patent/EP2951813B1/fr active Active
- 2014-01-30 KR KR1020157023696A patent/KR102398818B1/ko active IP Right Grant
- 2014-01-30 MX MX2015009964A patent/MX350634B/es active IP Right Grant
- 2014-01-30 JP JP2015555770A patent/JP6426626B2/ja active Active
- 2014-01-30 RU RU2015136540A patent/RU2652464C2/ru active
- 2014-01-30 US US14/764,422 patent/US9613629B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
WO2006064879A1 (ja) * | 2004-12-15 | 2006-06-22 | Matsushita Electric Industrial Co., Ltd. | 音声符号化方法、音声復号化方法、音声符号化装置および音声復号化装置 |
CN101627423A (zh) * | 2006-10-20 | 2010-01-13 | 法国电信 | 有音调周期的校正的数字音频信号丢失块的合成 |
CN102754150A (zh) * | 2010-02-11 | 2012-10-24 | 高通股份有限公司 | 在子带译码解码器中隐藏遗失包 |
Non-Patent Citations (2)
Title |
---|
ITU-T: "《ITU-T Recommendation G.711 - Appendix I》", 30 September 1999 * |
VIPUL N. PARIKH ET AL: "Frame Erasure Concealment Using Sinusoidal Analysis-Synthesis and Its Application to MDCT-Based Codecs", 《ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2000. ICASSP"00. PROCEEDINGS. 2000 IEEE INTERNATIONAL CONFERENCE ON》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109525373A (zh) * | 2018-12-25 | 2019-03-26 | 歌尔科技有限公司 | 数据处理方法、数据处理装置和播放设备 |
CN109525373B (zh) * | 2018-12-25 | 2021-08-24 | 荣成歌尔科技有限公司 | 数据处理方法、数据处理装置和播放设备 |
CN113454714A (zh) * | 2019-02-21 | 2021-09-28 | 瑞典爱立信有限公司 | 根据mdct系数的频谱形状估计 |
CN113454714B (zh) * | 2019-02-21 | 2024-05-14 | 瑞典爱立信有限公司 | 根据mdct系数的频谱形状估计 |
Also Published As
Publication number | Publication date |
---|---|
JP2016511432A (ja) | 2016-04-14 |
BR112015018102B1 (pt) | 2022-03-22 |
RU2652464C2 (ru) | 2018-04-26 |
KR102398818B1 (ko) | 2022-05-17 |
RU2015136540A (ru) | 2017-03-06 |
CA2899438A1 (fr) | 2014-08-07 |
CN105122356B (zh) | 2019-12-20 |
MX2015009964A (es) | 2016-06-02 |
US20150371647A1 (en) | 2015-12-24 |
EP2951813A1 (fr) | 2015-12-09 |
US9613629B2 (en) | 2017-04-04 |
KR20150113161A (ko) | 2015-10-07 |
EP2951813B1 (fr) | 2016-12-07 |
MX350634B (es) | 2017-09-12 |
BR112015018102A2 (pt) | 2017-07-18 |
FR3001593A1 (fr) | 2014-08-01 |
CA2899438C (fr) | 2021-02-02 |
JP6426626B2 (ja) | 2018-11-21 |
WO2014118468A1 (fr) | 2014-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105122356A (zh) | 信号解码期间帧丢失的改进型校正 | |
KR100348899B1 (ko) | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 | |
RU2507572C2 (ru) | Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала | |
RU2679254C1 (ru) | Устройство и способ для обработки аудиосигнала для получения обработанного аудиосигнала с использованием целевой огибающей во временной области | |
US6377916B1 (en) | Multiband harmonic transform coder | |
EP2176860B1 (en) | Processing of frames of an audio signal | |
JP4861196B2 (ja) | Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス | |
RU2414010C2 (ru) | Трансформация шкалы времени кадров в широкополосном вокодере | |
JPH0744193A (ja) | 高能率符号化方法 | |
KR102380205B1 (ko) | 오디오 신호 디코더에서의 개선된 주파수 대역 확장 | |
EP3866164B1 (en) | Audio frame loss concealment | |
JP2014508322A (ja) | 帯域拡張方法及び装置 | |
NO312428B1 (no) | Fremgangsmåte og anordning for syntetisering av tale | |
EP2267699A1 (en) | Encoding device and encoding method | |
KR20170003596A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
JP3362471B2 (ja) | 音声信号の符号化方法及び復号化方法 | |
KR100579797B1 (ko) | 음성 코드북 구축 시스템 및 방법 | |
US12148434B2 (en) | Audio frame loss concealment | |
JPH07114396A (ja) | ピッチ検出方法 | |
Kang et al. | A phase generation method for speech reconstruction from spectral envelope and pitch intervals | |
JPH07104777A (ja) | ピッチ検出方法及び音声分析合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |