CN111261197B

CN111261197B - 一种复杂噪声场景下的实时语音段落追踪方法

Info

Publication number: CN111261197B
Application number: CN202010029721.0A
Authority: CN
Inventors: 马翼平; 张玮
Original assignee: Avic East China Photoelectric Shanghai Co ltd
Current assignee: Avic East China Photoelectric Shanghai Co ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2022-11-25
Anticipated expiration: 2040-01-13
Also published as: CN111261197A

Abstract

本发明公开了一种复杂噪声场景下的实时语音段落追踪方法，包含以下步骤：A、预处理；B、计算输入音频帧的离散傅里叶变换系数，C、假设前帧为噪声帧，计算初始噪声的功率，即计算傅里叶变换幅度谱的算术平均值；假设帧后的数据为带噪信号，计算带噪信号的功率；D、计算后验信噪比；E、计算先验信噪比；F、语音激活检测；G、噪声谱更新；H、计算增益系数，先利用语段之间的段落噪声估计场景中平稳噪声的频谱属性，然后设计增益函数增强语音、抑制平稳噪声。在此基础上进行浊音检测，追踪语音段落，并屏蔽语段之间的各类噪声。这样可以提高语音检测的准确率，抑制语音段叠加的噪声，以及彻底屏蔽影响听感的语段间的噪声。

Description

一种复杂噪声场景下的实时语音段落追踪方法

技术领域

本发明涉及语音处理技术领域，具体是一种复杂噪声场景下的实时语音段落追踪方法。

背景技术

语音信号处理领域的工程实现要面对复杂的噪声场景，包括各种统计学特性不同的平稳噪声、瞬时噪声、时变噪声和强噪声等。使用近讲拾音设备进行语音采集、语音通信及语音识别时，背景噪声很容易被麦克风拾取，从听感方面对语音通信造成直接的影响，也会进一步影响后端语音识别等处理模块的性能。在复杂的噪声场景下，抑制混杂在语音中的稳态噪声、屏蔽语音段落间夹杂的其它类型噪声，追踪得到纯净的语音段落，能够有效地提高语音通信的听感，提高语音识别等后端处理模块的性能。统计学特性单一噪声场景下的语音追踪相对容易处理，而在复杂噪声场景下的语音段落追踪则是难点问题。

发明内容

本发明的目的在于提供一种复杂噪声场景下的实时语音段落追踪方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种复杂噪声场景下的实时语音段落追踪方法，其特征在于，包含以下步骤：

A、预处理：对输入的音频信号分帧并加窗；取16ms数据为一帧x_i(n)，其中i为帧号；

B、计算输入音频帧

的离散傅里叶变换系数Y_i(ω_k)，其中k为频谱分量的标号；

C、假设前L帧为噪声帧，计算初始噪声的功率，即计算

傅里叶变换幅度谱的算术平均值；假设L帧后的数据为带噪信号，计算带噪信号的功率

D、计算后验信噪比

E、计算先验信噪比

F、语音激活检测；

G、噪声谱更新；

H、计算增益系数；

I、重建信号：计算当前帧的增强语音的幅度谱和功率谱，对增强语音的频谱做逆傅里叶变换，即可得到重建信号；

J、计算

的自相关函数

其中r_t(τ)为延时为τ的自相关函数，N为窗长且1≤n≤N；

K、计算差分函数：

计算：

L、根据下列条件进行浊音判断：计算p＝1-d'(τ)，p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1]，则p的取值范围为[0,1]；以p_th作为阈值，大于p_th的语音帧作为浊音保留；

M、清音补偿和噪声屏蔽。

作为本发明的进一步方案：所述步骤A中对输入的音频信号分帧并加窗，窗函数为汉明窗：

作为本发明的进一步方案：所述步骤F具体是:对输入帧做语音激活检测，挑选出噪声帧。根据后验信噪比γ_k和先验信噪比

求取激活语音检测的判决参数v，若v大于判决门限eta则判别为语音，若小于eta则判别为噪声，用来更新噪声谱。判决参数v的计算方法为。

作为本发明的进一步方案：所述步骤G具体是：挑选出噪声帧后，按下式更新噪声谱：

作为本发明的进一步方案：所述步骤H具体是：根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数：

作为本发明的进一步方案：所述步骤I建好的函数为：

作为本发明的进一步方案：所述步骤M中，若某帧被判定为浊音，而其后400毫秒内的信号帧为非浊音，则进行补偿，即不对其进行处理直接输出；对不满足补偿条件的非浊音帧进行屏蔽，即做限幅处理后输出。

与现有技术相比，本发明的有益效果是：本发明完整地追踪了语音段落，屏蔽语段外的噪声，对叠加在语音上的噪声也起到了抑制作用，增强了语音本身的听感效果。

附图说明

图1为语音叠加平稳噪声和瞬时噪声且噪声峰值超过60分贝的音频信号时域波形图；

图2为图1信号经过本实施例处理后的时域波形图；

图3为语音叠加平稳噪声和瞬时噪声且噪声峰值超过110分贝的音频信号时域波形图；

图4为图3信号经过本发明处理后的时域波形图；

图5为本实施例所述方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-5，实施例1：本发明实施例中，一种复杂噪声场景下的实时语音段落追踪方法，包含以下步骤：

A、预处理。对输入的音频信号分帧并加窗。取16ms(256个样点)数据为一帧x_i(n)，其中i为帧号。对其进行加窗，窗函数为汉明窗：

B、计算输入音频帧

的离散傅里叶变换系数Y_i(ω_k)，其中k为频谱分量的标号：

Y_i(ω_k)＝Y_kexp(jθ_y(k))

C、假设前L帧为噪声帧，计算初始噪声的功率，即计算

傅里叶变换幅度谱的算术平均值：

假设L帧后的数据为带噪信号，计算带噪信号的功率

|Y_i(ω_k)|²；

D、计算后验信噪比γ_k＝|Y_i(ω_k)|²/λ_d(k)；

E、计算先验信噪比

F、语音激活检测。由于噪声可能是短时平稳的，因此需要实时更新噪声谱，以保证噪声抑制的效果。对输入帧做语音激活检测，挑选出噪声帧。根据后验信噪比γ_k和先验信噪比

求取激活语音检测的判决参数v。若v大于判决门限eta则判别为语音，若小于eta则判别为噪声，用来更新噪声谱。判决参数v的计算方法为：

G、噪声谱更新。挑选出噪声帧后，按下式更新噪声谱：

H、计算增益系数。根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数：

其中exp(·)为以自然常数e为底的指数函数，expint(·)为以自然常数e为底的指数积分函数。

I、重建信号。计算当前帧的增强语音的幅度谱和功率谱，对增强语音的频谱做逆傅里叶变换，即可得到重建信号：

J、计算

的自相关函数

其中r_t(τ)为延时为τ的自相关函数，N为窗长且1≤n≤N；

K、计算差分函数：

计算：

L、根据下列条件进行浊音判断：

计算p＝1-d'(τ)，p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1]，则p的取值范围为[0,1]。以p_th作为阈值，大于p_th的语音帧作为浊音保留；

M、清音补偿和噪声屏蔽。若某帧被判定为浊音，而其后400毫秒内的信号帧为非浊音，则进行补偿，即不对其进行处理直接输出；对不满足补偿条件的非浊音帧进行屏蔽，即做限幅处理后输出。

图3和图5为经本发明方法处理过的音频时域波形，对比原始波形可以看到，在复杂噪声背景下，本方法完整地追踪了语音段落，屏蔽语段外的噪声，对叠加在语音上的噪声也起到了抑制作用，增强了语音本身的听感效果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。