CN117351986A

CN117351986A - 一种噪声抑制方法及装置

Info

Publication number: CN117351986A
Application number: CN202311530092.XA
Authority: CN
Inventors: 邹灵琦; 董鹏宇; 居彩霞
Original assignee: Shanghai Fullhan Microelectronics Co ltd
Current assignee: Shanghai Fullhan Microelectronics Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-05

Abstract

本发明公开了一种噪声抑制方法及装置，属于音频处理技术领域，该噪声抑制方法，包括以下步骤：信号预处理，对获得的麦克风信号进行时频变换，计算其梅尔频带功率谱；噪声估计，基于最小值跟踪法和NN‑VAD估计噪声，利用预设参数对不同频带进行噪声估计修正；噪声抑制，使用OM‑LSA计算梅尔频带增强增益，获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号，将所述频域信号经过逆变换得到噪声抑制后的时域信号。通过对带噪的麦克风信号进行梅尔频带划分，然后利用基于最小值跟踪法结合NN‑VAD进行频带噪声估计，通过OM‑LSA进行频带增强增益的计算，保证了对噪声抑制的效果。

Description

一种噪声抑制方法及装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种噪声抑制方法及装置。

背景技术

语音增强技术，通常是指对语音信号进行降噪处理，在通讯技术日益发达的今天，有着非常广泛的应用场景。在传统语音增强技术中，可以通过诸如分位数估计的方法估计噪声成分并通过谱减法、维纳滤波器等去除噪声，然而噪声抑制的过程中如果对噪声的抑制不强，会残留较多的噪声，如果对噪声的抑制过强，也会损失语音的质量。

需要说明的是，公开于该发明背景技术部分的信息仅仅旨在加深对本发明一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种噪声抑制方法及装置，以解决现有噪声抑制方法对噪声抑制程度难以控制的问题。

为解决上述技术问题，本发明提供一种噪声抑制方法，包括以下步骤：

信号预处理，对获得的麦克风信号进行时频变换，计算其梅尔频带功率谱；

噪声估计，基于最小值跟踪法和NN-VAD估计噪声，利用预设参数对不同频带进行噪声估计修正；

噪声抑制，使用OM-LSA计算梅尔频带增强增益，获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号，将所述频域信号经过逆变换得到噪声抑制后的时域信号。

优选地，基于最小值跟踪法和NN-VAD估计噪声包括：

对所述梅尔频带功率谱进行帧间平滑，使用改进的最小值跟踪法，即采用如下公式结合相邻频带获得频带的最小值：

E_min(b_i，t)＝Min(E_min(b_i，t-1)，E_mel‘(b_i-1，t)，

E_mel‘(b_i，t)，E_mel‘(b_i+1，t))

其中，E_mel‘(b_i，t)为当前时刻t的第i个梅尔频带功率谱，E_mel‘(b_i，t-1)为上一时刻t-1的第i个梅尔频带功率谱；E_mel‘(b_i+1，t)为当前时刻t的第i+1个梅尔频带功率谱，E_min(b_i，t-1)为上一时刻t-1的最小值。

优选地，在获得频带的最小值后，计算语音存在概率的估计值：

其中，thr、beta为预设的常数门限，E_mel(b_i，t)表示当前时刻t的第i个梅尔频带功率谱；E_min(b_i，t)为频带的最小值。

优选地，使用NN-VAD的结果对所述语音存在概率的估计值进行修正：

P′_speech(b_i，t)＝P_speech(b_i，t)*P_NN(t)

其中，P_NN(t)为NN-VAD输出的当前帧为语音的概率，P_speech(b_i，t)为所述语音存在概率的估计值；

根据所述语音存在概率利用一阶递归计算噪声频带功率谱的估计值；

使用所述预设参数进行所述噪声频带功率谱的估计值的修正：

其中，λ(b_i)为各个频带的噪声估计修正因子，λ(b_i)取值范围为(0，10]。

优选地，使用OM-LSA计算梅尔频带增强增益的过程包括：计算先验信噪比和后验信噪比：

其中，γ是后验信噪比，是修正后的所述噪声频带功率谱的估计值，E_mel(b_i，t)表示t时刻的第i个梅尔频带功率谱，η是先验信噪比，a_η是预设平滑常数，G_H1(b_i，t一1)是上一时刻计算得到的语音存在时的增益，G_H1的计算公式如下：

其中，

再进行先验信噪比的平滑：

ξ(b_i，t)＝α_ξξ(b_i，t-1)+(1-α_ξ)η(b_i，t)

其中α_ξ为预设的平滑因子。

优选地，在计算先验信噪比和后验信噪比后，计算各频带和全频带的语音存在概率：

其中，P_local(b_i，t)为各频带的语音存在概率，P_frame(t)为全频带的语音存在概率，thr_ll、thr_lu、thr_fl、thr_fu均为预设门限值，P_min为预设的较小常量；为ξ(b_i，t)转化为dB的表示：

为ξ(b_i，t)取均值后转化为dB的表示：

优选地，修正所述各频带的语音存在概率：

P_local‘(b_i，t)＝P_local(b_i，t)*alpha_local，i＝[l_start，l_end]

其中，alpha_local为预设常数，alpha_local∈(0，1)；

由所述各频带的语音存在概率和所述全频带的语音存在概率得到语音不存在概率：

其中，q_max为预设常量，q_max＜1。

优选地，使用所述语音不存在概率计算所述梅尔频带增强增益：

其中，G_min是预设最小增益，p(b_i，t)的计算公式如下：

优选地，将得到的所述梅尔频带增强增益经过三角滤波器组计算得到每个频点的增益：

其中，G_mel(b_i，t)为所述梅尔频带增强增益，a(b_i，ω_k，t)表示第i个梅尔频带对应的频点k的滤波器系数。

一种噪声抑制装置，包括：

信号预处理模块，用于对获得的麦克风信号进行时频变换，计算其梅尔频带功率谱；

噪声估计模块，用于基于最小值跟踪法和NN-VAD估计噪声，利用预设参数对不同频带进行噪声估计修正；

噪声抑制模块，用于使用OM-LSA计算梅尔频带增强增益，获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号，将所述频域信号经过逆变换得到噪声抑制后的时域信号。

在本发明提供的噪声抑制方法中，通过对带噪的麦克风信号进行梅尔频带划分，然后利用基于最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合神经网络语音活动检测(NN-VAD)进行频带噪声估计，通过最优改进对数幅度谱估计(OM-LSA)进行频带增强增益的计算，保证了对噪声抑制的效果。

本发明提供的噪声抑制装置与本发明提供的噪声抑制方法属于同一发明构思，因此，本发明提供的噪声抑制装置至少具有本发明提供的噪声抑制方法的所有优点，在此不再赘述。进一步的，通过引入表征人耳听觉感知特性的梅尔频带功率谱，利用最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合NN-VAD进行频带噪声，还通预设参数进行噪声估计修正，便于调整噪声抑制的强弱。

附图说明

图1是本发明一实施例提供的噪声抑制的总体流程图；

图2是本发明一实施例提供的的信号预处理模块的方法流程图；

图3是本发明一实施例提供的噪声估计模块的方法流程图；

图4是本发明一实施例提供的噪声抑制模块的方法流程图。

具体实施方式

以下结合附图和具体实施例对本发明提出的噪声抑制方法及装置作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。应当了解，说明书附图并不一定按比例地显示本发明的具体结构，并且在说明书附图中用于说明本发明某些原理的图示性特征也会采取略微简化的画法。本文所公开的本发明的具体设计特征包括例如具体尺寸、方向、位置和外形将部分地由具体所要应用和使用的环境来确定。以及，在以下说明的实施方式中，有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分，而省略其重复说明。在本说明书中，使用相似的标号和字母表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

发明人研究发现，现有的噪声抑制方法大致如下：时频变换获取频域信号；基于最小值递归、分位数等的噪声估计；后验信噪比的计算和先验信噪比的估计；基于谱减法、维纳滤波等的语音增强增益的计算；将带噪音频的原始频域信号实部和虚部与噪声抑制增益相乘后逆变换回时域中。上述方法对噪声的抑制强度难以控制，影响输出语音质量。

基于此，本发明实的核心思想在于，通过引入表征人耳听觉感知特性的梅尔频带功率谱，利用最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合NN-VAD进行频带噪声，还通预设参数进行噪声估计修正，便于调整噪声抑制的强弱。

具体的，请参考图1所示，一种噪声抑制方法，包括以下步骤：

S1，信号预处理，对获得的麦克风信号进行时频变换，计算其梅尔频带功率谱。

S2，噪声估计，基于最小值跟踪法和NN-VAD估计噪声，利用预设参数对不同频带进行噪声估计修正。

S3，噪声抑制，使用OM-LSA计算梅尔频带增强增益，获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号，将所述频域信号经过逆变换得到噪声抑制后的时域信号。

对带噪语音信号进行梅尔频带划分，然后基于最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合神经网络语音活动检测(NN-VAD)进行频带噪声估计，通过最优改进对数幅度谱估计(OM-LSA)进行频带增强增益的计算，保证了对噪声抑制的效果。

在S1进行信号预处理时，将采集的麦克风信号进行频域变换，即对t时刻且帧长为N的时域信号进行短时傅里叶变换得到频域信号及其功率谱，见公式1：

表示频点序列号。之后将梅尔滤波器组乘以功率谱，得到基于人耳感知的实时梅尔频带功率谱，见公式2：

其中E_mel(b_i，t)表示t时刻的第i个梅尔频带功率谱，b_{i_start}和b_{i_end}分别表示第i个梅尔频带功率谱对应的起始频点和结束频点；a(b_i，ω_k，t)表示第i个梅尔频带功率谱对应的频点k的滤波器系数。

在一种示例中，进行分频带噪声估计时，还对获得的梅尔频带功率谱进行帧间平滑，常见的平滑方法有IIR滤波法和FIR滤波法，这里仅以IIR滤波法为例：

E_mel‘(b_i，t)＝α_YE_mel‘(b_i，t-1)+(1-α_Y)E_mel(b_i，t) (3)

上述公式中的，α为按照经验预先设定常数，E_mel‘(b_i，t)为平滑处理后的当前时刻t的梅尔频带功率谱，E_mel‘(b_i，t-1)为平滑处理后的上一时刻t-1的梅尔频带功率谱。

具体的，在S2中，基于最小值跟踪法和NN-VAD估计噪声包括：

在得到平滑后的梅尔频带功率谱后，对所述梅尔频带功率谱进行帧间平滑，使用改进的最小值跟踪法，即采用如下公式结合相邻频带获得频带的最小值：

E_min(b_i，t)＝Min(E_min(b_i，t-1)，E_mel(b_i-1，t)，

E_mel‘(b_i，t)，E_mel‘(b_i+1，t)) (4)

其中，E_mel‘(b_i，t)为当前时刻t的第i个梅尔频带功率谱，E_mel‘(b_i，t-1)为上一时刻t-1的第i个梅尔频带功率谱；E_mel‘(b_i+1，t)为当前时刻t的第i+1个梅尔频带功率谱，E_min(b_i，t-1)为上一时刻t-1的最小值。为减少频谱泄露带来的影响，区别于一般的最小值跟踪法只跟踪单一频点上的最小值，采用上述公式4的方式结合相邻频带进行最小值跟踪。

具体的，在获得频带的最小值后，计算语音存在概率的估计值：

在一种实施方式中，使用NN-VAD的结果对所述语音存在概率的估计值进行修正：

P‘_speech(b_i，t)＝P_speech(b_i，t)*P_NN(t) (6)

其中，P_NN(t)为NN-VAD输出的当前帧为语音的概率，P_speech(b_i，t)为所述语音存在概率的估计值。在得到修正后的语音存在概率的估计值后，根据所述语音存在概率利用一阶递归计算噪声频带功率谱的估计值，具体的，采用如下公示表7通过一阶IIR平滑得到频带噪声功率谱：

其中，α_d为预设的平滑常数。进一步的，可以根据经验或者实际场景中获得的关于噪声分布的先验知识按照不同频带进行噪声估计的修正，使用所述预设参数进行所述噪声频带功率谱的估计值的修正：

可以理解的，使用OM-LSA计算梅尔频带增强增益的过程包括：计算先验信噪比和后验信噪比：

其中，γ是后验信噪比，是修正后的所述噪声频带功率谱的估计值，E_mel(b_i，t)表示t时刻的第i个梅尔频带功率谱，η是先验信噪比，a_η是预设平滑常数，G_H1(b_i，t-1)是上一时刻计算得到的语音存在时的增益，G_H1的计算公式如下：

其中，在计算完当前帧的先验信噪比后，再进行先验信噪比的平滑：

ξ(b_i，t)＝α_ξξ(b_i，t-1)+(1-α_ξ)η(b_i，t) (12)

其中α_ξ为预设的平滑因子。在计算先验信噪比和后验信噪比后，计算各频带和全频带的语音存在概率：

为ξ(b_i，t)取均值后转化为dB的表示：

在一种实施方式中，还可抽取感兴趣频带的语音存在概率均值和门限相比较的结果，从而进一步地修正频带语音存在概率，语音存在概率均值如下：

此外，修正所述各频带的语音存在概率：

P_local‘(b_i，t)＝P_local(b_i，t)*alpha_local，i＝[l_start，l_end] (18)

其中，alpha_local为预设常数，alpha_local∈(0，1)，alpha_local取值范围在0到1之间。

其中，q_max为预设常量，q_max＜1，q_max略小于1。最后，使用所述语音不存在概率计算所述梅尔频带增强增益：

其中，G_min是预设最小增益，p(b_i，t)的计算公式如下：

将得到的所述梅尔频带增强增益经过三角滤波器组计算得到每个频点的增益：

其中，G_mel(b_i，t)为所述梅尔频带语音增强增益，a(b_i，ω_k，t)表示第i个梅尔频带对应的频点k的滤波器系数。

最后，将初始带噪的麦克风信号和计算得到的上述频点增益相乘得到噪声抑制后的频域信号，最后经过逆短时傅里叶变换回时域得到经过噪声抑制的时域信号。

如图2-图4所示，本发明还提供了一种噪声抑制装置，包括：

信号预处理模块，用于对获得的麦克风信号进行时频变换，计算其梅尔频带功率谱。

噪声估计模块，用于基于最小值跟踪法和NN-VAD估计噪声，利用预设参数对不同频带进行噪声估计修正。

如图1所示，信号预处理模块将接收到的麦克风信号转换到频域并进行处理；在噪声估计模块中基于最小值跟踪法和NN-VAD估计噪声，利用预设参数进行噪声估计修正；噪声抑制模块中获得计算梅尔频带增强增益，然后获得每个频点的增益和麦克风信号的频点相乘获得噪声抑制后的频域信号，将频域信号进行逆傅里叶变换，得到噪声抑制后的时域信号。

具体的，如图2所示，在信号预处理模块中，将时域信号进行短时傅里叶变换得到频域信号，计算频域信号的功率谱，再将功率谱经过梅尔频带滤波器组得到梅尔频带功率谱。

其中，图3是本发明提供的噪声估计模块的详细流程图。在噪声估计模块中，先使用IIR滤波器对帧间进行平滑，得到平滑后的频带功率谱，获取相邻频带的最小值，结合相邻频带进行最小值跟踪，和预设的门限进行比较，得到语音存在概率的估计值，利用NN-VAD的结果进行语音存在概率的修正，还利用一阶递归平滑估计噪声频带功率谱，使用预设参数进行噪声频带功率谱估计的修正。

如图4所示的噪声抑制模块的详细流程图。具体包括以下步骤：计算后验信噪比和先验信噪比；根据平滑后的先验信噪比估计语音存在概率，根据若干感兴趣的频带语音存在概率的均值，修正语音存在概率；计算语音不存在概率；基于OMLSA方法计算频带增强增益；将频带增益经过梅尔频带滤波器组得到频点增益；将初始带噪信号的频点和计算得到的频点增益相乘得到噪声抑制后的频域信号；将噪声抑制后的频域信号经过逆短时傅里叶变换得到噪声抑制后的时域信号。

综上可见，在本发明实施例提供的噪声抑制方法及装置中，通过对带噪的麦克风信号进行梅尔频带划分，然后利用基于改进的最小值控制的递归平均算法(MMCRA)结合神经网络语音活动检测(NN-VAD)进行频带噪声估计，通过最优改进对数幅度谱估计(OM-LSA)进行频带增强增益的计算，使用了预设参数及多类常数门限对估计值进行修正，保证了对噪声抑制的效果，另外结合相邻频带进行最小值跟踪，有效减少了频谱泄露带来的影响。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种噪声抑制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的噪声抑制方法，其特征在于，基于最小值跟踪法和NN-VAD估计噪声包括：

E_min(b_i，t)＝Min(E_min(b_i，t-1)，E_mel(b_i-1，t)，

E_mel′(b_i，t)，E_mel′(b_i+1，t))

其中，E_mel′(b_i，t)为当前时刻t的第i个梅尔频带功率谱，E_mel′(b_i，t-1)为上一时刻t-1的第i个梅尔频带功率谱；E_mel′(b_i+1，t)为当前时刻t的第i+1个梅尔频带功率谱，E_min(b_i，t-1)为上一时刻t-1的最小值。

3.如权利要求2所述的噪声抑制方法，其特征在于，在获得频带的最小值后，计算语音存在概率的估计值：

4.如权利要求3所述的噪声抑制方法，其特征在于，使用NN-VAD的结果对所述语音存在概率的估计值进行修正：

P′_speech(b_i，t)＝P_speech(b_i，t)*P_NN(t)

5.如权利要求4所述的噪声抑制方法，其特征在于，使用OM-LSA计算梅尔频带增强增益的过程包括：计算先验信噪比和后验信噪比：

其中，

再进行先验信噪比的平滑：

ξ(b_i，t)＝α_ξξ(b_i，t-1)+(1-α_ξ)η(b_i，t)

其中α_ξ为预设的平滑因子。

6.如权利要求5所述的噪声抑制方法，其特征在于，在计算先验信噪比和后验信噪比后，计算各频带和全频带的语音存在概率：

为ξ(b_i，t)取均值后转化为dB的表示：

7.如权利要求6所述的噪声抑制方法，其特征在于，修正所述各频带的语音存在概率：

P_localη(b_i，t)＝P_local(b_i，t)*alpha_local，i＝[l_start，l_end]

其中，alpha_local为预设常数，alpha_local∈(0，1)；

其中，q_max为预设常量，q_max＜1。

8.如权利要求7所述的噪声抑制方法，其特征在于，使用所述语音不存在概率计算所述梅尔频带增强增益：

其中，G_min是预设最小增益，p(b_i，t)的计算公式如下：

9.如权利要求8所述的噪声抑制方法，其特征在于，将得到的所述梅尔频带增强增益经过三角滤波器组计算得到每个频点的增益：

10.一种噪声抑制装置，其特征在于，包括：