CN111477243B

CN111477243B - 音频信号处理方法及电子设备

Info

Publication number: CN111477243B
Application number: CN202010301746.1A
Authority: CN
Inventors: 王少华
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-05-23
Anticipated expiration: 2040-04-16
Also published as: CN111477243A

Abstract

本发明实施例提供了一种音频信号处理方法及电子设备。所述方法包括：获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；所述判断阈值为根据所述第一音频信号的前一帧音频信号确定的；根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益；根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；所述目标时域信号为所述第一音频信号增强后的音频信号。本发明实施例解决了现有技术中，语音增强方案容易引入残留噪声，且损失一些弱语音信号的问题。

Description

音频信号处理方法及电子设备

技术领域

本发明涉及移动通信技术领域，尤其涉及一种音频信号处理方法电子设备。

背景技术

随着移动通信技术的迅速发展，以智能手机为首的电子设备已成为人们生活中各方面不可或缺的工具。电子设备的各种应用程序(Application，APP)的功能也逐渐完善，不再只是单纯地起到通信作用，较多的是为用户提供各种智能化服务，给用户工作、生活带来了极大的便利。

对智能手机来说，通话的音质是衡量其性能好坏的一个重要指标，因此，在嘈杂的环境下，如何为用户提供更清晰的通话体验也是厂商需要解决的问题。目前，通话降噪方案通常包括单通道的解决方案和基于多麦克风阵列的解决方案，上述两种方案在降噪过程中需要进行语音增强，而现有技术中的语音增强方案效果较差，增强后的语音容易引入残留噪声，如音乐噪声；且增强之后的语音信号容易损失一些弱语音信号，特别是当信噪比比较低的时候，容易损失听感能感知到的弱语音信号。

发明内容

本发明实施例提供一种音频信号处理方法及电子设备，能够解决现有技术中，语音增强方案容易引入残留噪声，且损失一些弱语音信号的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种音频信号处理方法，所述方法包括：

获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；其中，所述第一音频信号为单帧音频信号，所述第一能量值为所述第一音频信号对应的频域信号的能量，所述第二能量值为与所述第一音频信号相关联的第二音频信号对应的频域信号的能量，所述第二音频信号为包括所述第一音频信号的多帧所述单帧音频信号；

根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；所述判断阈值为根据所述第一音频信号的前一帧音频信号确定的；

根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益；

根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；所述目标时域信号为所述第一音频信号增强后的音频信号。

第二方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

获取模块，用于获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；其中，所述第一音频信号为单帧音频信号，所述第一能量值为所述第一音频信号对应的频域信号的能量，所述第二能量值为与所述第一音频信号相关联的第二音频信号对应的频域信号的能量，所述第二音频信号为包括所述第一音频信号的多帧所述单帧音频信号；

概率确定模块，用于根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；所述判断阈值为根据所述第一音频信号的前一帧音频信号确定的；

增益确定模块，用于根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益；

语音增强模块，用于根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；所述目标时域信号为所述第一音频信号增强后的音频信号。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的音频信号处理方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的音频信号处理方法中的步骤。

在本发明实施例中，通过获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益，并进一步根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；本发明实施例中提供的音频信号处理方法，复杂度低，可适用于非平稳噪声；基于先验概率进行能量估计，区分噪声能量与语音能量，消除第一音频信号中的噪声，避免引入残留噪声；基于维纳增益获得目标音频信号，避免损失原始音频信号中的弱语音信号。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例提供的音频信号处理方法的流程图之一；

图2表示本发明实施例提供的音频信号处理方法的流程图之二；

图3表示本发明实施例提供的具体示例的流程图；

图4表示本发明的实施例提供的电子设备的结构示意图；

图5表示本发明的实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参见图1，本发明一实施例提供了一种音频信号处理方法，所述方法包括：

步骤101，获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；其中，所述第一音频信号为单帧音频信号，所述第一能量值为所述第一音频信号对应的频域信号的能量，所述第二能量值为与所述第一音频信号相关联的第二音频信号对应的频域信号的能量，所述第二音频信号为包括所述第一音频信号的多帧所述单帧音频信号。

其中，第一音频信号来自于原始音频信号，原始音频信号即待进行语音增强的音频信号；对原始音频信号进行分帧处理，得到多个预设时长的单帧语音信号，以提高音频信号增强的处理精度。预设时长可以为毫秒(ms)级的时长，比如为30ms，由于语音信号是短时平稳的，在如几十毫秒以内近似认为是平稳的，而长时间则不平稳，因此以相对短时的信号做分析。

得到多帧信号之后，基于作为处理目标的第一音频信号，获取包括该帧音频信号的第二音频信号作为参考音频信号，比如，第一音频信号为分帧处理并根据时序排序的单帧音频信号中的第k帧，则第二音频信号可以为第k-m帧，第k-m+1帧，……，第k+n帧，m＜k。

能量为音频信号对应的频域信号的能量，获取第一音频信号以及第二音频信号之后，分别获取第一能量值和第二能量值，然后确定二者额能量差值。

可以理解的是，本发明实施例中所述的音频信号，可以是语音信号，或其他形式的音频信号，例如包括音频的多媒体文件中的音频信号。

步骤102，根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；所述判断阈值为根据所述第一音频信号的前一帧音频信号确定的。

其中，判断阈值用于判断所述第一音频信号是否为语音信号，且判断阈值与第一音频信号的前一帧语音信号具有一定的相关性，由于语音具有短时平稳的特征，因此通过与第一音频信号相邻的前一帧音频信号来判断第一音频信号是否为语音信号。

先验概率是指根据以往经验和分析得到的概率，在贝叶斯统计推断中，不确定数量的先验概率分布是在考虑一些因素之前，表达对这一数量的置信程度的概率分布。由于语音段存在间隙，而间隙处为纯噪声，其频点能量通常情况下小于语音和噪声同时存在时的频点能量。也就是说，若当前帧(即第一音频信号)能量大于噪声段能量，则当前帧大概率为语音；反之，则为噪声。因此，获取当前帧的能量水平和当前一段时间的噪声能量水平(即第二音频信号)，用于判断当前帧上的频点是否是语音信号，得到语音信号存在的先验概率。

具体地，若第一音频信号为语音信号，则先验概率为1，若第一音频信号为噪声信号，则先验概率为0。

步骤103，根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益。

本步骤中，根据先验概率估计第一音频信号中所含的噪声部分，确定噪声部分的噪声能量，然后根据噪声能量确定维纳增益。

步骤104，根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；所述目标时域信号为所述第一音频信号增强后的音频信号。

本步骤中，通过维纳增益得到增强后的目标频域信号，最后转化为目标时域信号，即语音增强后的第一音频信号。

本发明实施例中，获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益，并进一步根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；本发明实施例中提供的音频信号处理方法，复杂度低，可适用于非平稳噪声；基于先验概率进行能量估计，区分噪声能量与语音能量，消除第一音频信号中的噪声，避免引入残留噪声；基于维纳增益获得目标音频信号，避免损失原始音频信号中的弱语音信号。本发明实施例解决了现有技术中，语音增强方案容易引入残留噪声，且损失一些弱语音信号的问题。

可选地，本发明实施例中，如图2所示，所述获取第一音频信号的第一能量值以及第二能量值的步骤，包括：

步骤201，对原始音频信号进行分帧处理，得到多帧预设时长的单帧音频信号；其中，所述第一音频信号为对所述原始音频信号进行分帧处理后得到的单帧音频信号中的一帧。

以电子设备为例，每次麦克风采集到的语音信号会实时传输至数字处理芯片中，比如每次传输10ms长度的数据。由于语音信号是短时平稳的，在如几十毫秒以内近似认为是平稳的，而长时间则不平稳，因此以相对短时的信号做分析。以预设时长为30ms为例，取30ms左右的信号为处理的一帧。

步骤202，基于所述单帧音频信号中的第一音频信号，获取包括所述第一音频信号的多帧所述单帧音频信号作为第二音频信号。

第二音频信号可以包括连续多帧所述单帧音频信号；得到多帧信号之后，基于作为处理目标的第一音频信号，获取包括该帧音频信号的第二音频信号作为参考音频信号，比如，第一音频信号为分帧处理并根据时序排序的单帧音频信号中的第k帧，则第二音频信号可以为第k-m帧，第k-m+1帧，……，第k+n帧，m＜k。

步骤203，对所述第一音频信号进行快速傅里叶变换FFT到频域，得到第一频域信号以及对所述第二音频信号进行FFT变换到频域，得到第二频域信号。

通过快速傅里叶变换(Fast Fourier Transform，FFT)将时域信号转换为频域信号。

步骤204，获取第一频域信号的第一能量值，以及获取所述第二频域信号的第二能量值。

得到频域信号后，基于音频信号分别获得能量值。

进一步地，本发明实施例中，所述获取第一频域信号的第一能量值，以及获取所述第二频域信号的第二能量值的步骤，包括：

获取第一频域信号的第三原始能量值，以及所述第二频域信号的第四原始能量值；

对所述第三原始能量值进行低通滤波，得到第一能量值，以及对所述第四原始能量值进行低通滤波，得到第二能量值。

本发明实施例中，第三原始能量值即第一原始能量值，第四原始能量值即第二原始能量值。

其中，对第三原始能量值、第四原始能量值分别进行低通滤波，以滤除其中的高频噪声；在低通滤波的过程中，对第一频域信号采用的滤波器的带宽应宽于第二频域信号所采用的低通滤波器。

具体地，对第一频域信号进行低通滤波的过程中，可采用无限脉冲响应滤波器(Infinite Impulse Response，IIR)滤波器，其系统函数如以下公式1所示，公式1：

其中，系数λ₁优选接近1的数值，如0.9、0.85等；

还可采用有限脉冲响应滤波器(Finite Impulse Response，FIR)滤波器，其系统函数例如以下公式2所示。

公式2：

其中，

即对第三原始能量值加权求和取平均，其中λ(i)有最大的权重，如λ(i)＝[0.1 0.8 0.1]等。

对第二频域信号进行低通滤波的过程中，可采用IIR滤波器，其系统函数如以下公式3所示，公式3：

其中，系数α₁优选接近0的数值，如0.04、0.05等；

还可采用FIR滤波器，其系统函数例如以下公式4所示。

公式4：

其中，α(i)＝1/(2M+1)，比如M＝10，即对较长的一段时间求和取平均。

可选地，本发明实施例中，所述获取第一频域信号的第三原始能量值，以及所述第二频域信号的第四原始能量值的步骤，包括：

获取所述第一频域信号的第一幅度信号，对所述第一幅度信号进行取对数处理，得到第三原始能量值；以及获取所述第二频域信号的第二幅度信号，对所述第二幅度信号进行取对数处理，得到第四原始能量值。

其中，在将频域信号转化为能量值的过程中，首先对频域信号取幅度，然后对幅度取对数，得到原始能量值。

可选地，本发明实施例中，所述确定所述第一音频信号为语音信号的先验概率的步骤之后，所述方法还包括：

根据所述先验概率，更新所述判断阈值；

所述根据所述先验概率，更新所述判断阈值的步骤，包括：

根据以下第一公式，确定所述第一音频信号的语音能量：

第一公式：

E1(k)＝(1-γ)*E1(k-1)+γ*Ea(k)

其中，0＜γ＜1，k为所述第一音频信号在多个所述单帧音频信号中的序号，E1(k)为所述第一音频信号的语音能量，Ea(k)为第一原始能量值，E1(k-1)为所述第一音频信号的前一帧音频信号的语音能量；

以及根据以下第二公式，确定所述第二音频信号的语音能量；

第二公式：

E2(k)＝(1-α)*E2(k-1)+α*Eb(k)

其中，0＜α＜1，k为所述第一音频信号在多个所述单帧音频信号中的序号，E2(k)为所述第二音频信号的语音能量，Eb(k)为第二原始能量值，E2(k-1)为所述第一音频信号的前一帧音频信号的第二音频信号的语音能量；

确定所述第一音频信号的语音能量与所述第二音频信号的语音能量之间的目标能量差值；

基于所述目标能量差值，更新所述判断阈值。

比如，若先验概率为1，则更新E1，根据第一公式，确定所述第一音频信号的语音能量；若先验概率为0，则更新E2，根据第二公式，确定所述第二音频信号的语音能量。

可选地，基于所述目标能量差值，更新所述判断阈值，比如将所述能量差值乘以一预设参数，得到更新后的判断阈值；所述预设参数可以是大于0且小于1的常数，可以用户预先设定。确定第一音频信号的先验概率之后，分别确定第一音频信号的语音能量以及第二音频信号的语音能量，根据两个语音能量的差值更新判断阈值，以形成反馈回路，通常当前帧的先验概率影响下一帧的判决；作为示例，如图3所示，更新判断阈值的过程包括以下步骤：

步骤301，确定第一音频信号的第一原始能量值E1以及第二音频信号的第二原始能量值E2；

步骤302，E1低通滤波得到E3；

步骤303，E2低通滤波得到E4；

步骤304，计算E3与E4差值D1＝E3-E4；

步骤305，D1是否大于或等于判断阈值THR；

若是，执行步骤306，先验概率P(H1|X)＝1，更新E3；

若否，执行步骤307，先验概率P(H1|X)＝0，更新E4；

步骤308，根据更新后的E3或E4更新THR。

可选地，本发明实施例中，所述根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率的步骤，包括以下情况中的至少一项：

情况一：若所述能量差值大于或等于所述判断阈值所述第一音频信号为语音信号的先验概率为1；

情况二：若所述能量差值小于所述判断阈值所述第一音频信号为语音信号的先验概率为0。

即若第一音频信号为语音信号，则先验概率P(H1|X)＝1；若第一音频信号为噪声信号，则先验概率P(H1|X)＝0。

进一步地，本发明实施例中，所述根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益的步骤，包括：

根据以下第三公式以及所述先验概率，对所述第一音频信号进行估计噪声处理，得到所述第一音频信号的噪声能量；

所述第三公式为：

En(n)＝P(H1|X)En(n-1)+[1-P(H1|X)]|X|²

其中，En(n)为所述第一音频信号的噪声能量，P(H1|X)为所述先验概率，En(n-1)为所述第一音频信号的前一帧音频信号的噪声能量，X为所述第一音频信号的频域信号；

根据所述噪声能量，计算维纳增益。

得到先验概率之后，进一步根据先验概率计算噪声能量，通过噪声能量计算维纳增益，维纳增益即通过维纳滤波器计算所述原始音频信号的增益，然后根据所述维纳增益进行语音增强。

具体地，根据以下公式5计算维纳增益：

G＝Ey/(Ey+En)

其中，G为维纳增益，Ey为所述前一帧音频信号进行语音增强后的噪声能量，En为所述第一音频信号的噪声能量。

可选地，本发明实施例中，所述根据所述维纳增益，确定第一音频信号增强后的目标频域信号的步骤，包括：

根据所述维纳增益，确定所述第一音频信号的频域语音信号；

对所述频域语音信号进行快速傅里叶逆变换IFFT，得到增强后的时域信号。

确定维纳增益后，对语音信号进行语音增强，令增强之后的频域语音信号Y＝G*X，X为所述第一音频信号的频域信号。然后将乘以维纳增益之后的频域信号做IFFT变换，即频域信号变换为时域，得到增强之后的时域信号，即语音增强信号。后续每新读入一帧数据，实时地计算下一帧的语音增强信号。

通过先验概率，降低带噪语音中的噪声成分，同时保留带噪语音中语音的质量，提升语音增强的效果。

在本发明的实施例中，通过获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益，并进一步根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；本发明实施例中提供的音频信号处理方法，复杂度低，可适用于非平稳噪声；基于先验概率进行能量估计，区分噪声能量与语音能量，消除第一音频信号中的噪声，避免引入残留噪声；基于维纳增益获得目标音频信号，避免损失原始音频信号中的弱语音信号。

以上介绍了本发明实施例提供的音频信号处理方法，下面将结合附图介绍本发明实施例提供的电子设备。

参见图4，本发明实施例还提供了一种电子设备400，所述电子设备400包括：

获取模块401，用于获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；其中，所述第一音频信号为单帧音频信号，所述第一能量值为所述第一音频信号对应的频域信号的能量，所述第二能量值为与所述第一音频信号相关联的第二音频信号对应的频域信号的能量，所述第二音频信号为包括所述第一音频信号的多帧所述单帧音频信号；

概率确定模块402，用于根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；所述判断阈值为根据所述第一音频信号的前一帧音频信号确定的；

增益确定模块403，用于根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益；

语音增强模块404，用于根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；所述目标时域信号为所述第一音频信号增强后的音频信号。

可选地，本发明实施例中，所述获取模块401包括：

分帧处理子模块，用于对原始音频信号进行分帧处理，得到多帧预设时长的单帧音频信号；其中，所述第一音频信号为对所述原始音频信号进行分帧处理后得到的单帧音频信号中的一帧；

信号获取子模块，用于基于所述单帧音频信号中的第一音频信号，获取包括所述第一音频信号的多帧所述单帧音频信号作为第二音频信号；

时频转换子模块，用于对所述第一音频信号进行快速傅里叶变换FFT到频域，得到第一频域信号以及对所述第二音频信号进行FFT变换到频域，得到第二频域信号；

能量获取子模块，用于获取第一频域信号的第一能量值，以及获取所述第二频域信号的第二能量值。

可选地，本发明实施例中，所述能量获取子模块包括：

获取单元，用于获取第一频域信号的第三原始能量值，以及所述第二频域信号的第四原始能量值；

滤波单元，用于对所述第三原始能量值进行低通滤波，得到第一能量值，以及对所述第四原始能量值进行低通滤波，得到第二能量值。

可选地，本发明实施例中，所述获取单元用于：

可选地，本发明实施例中，所述电子设备400还包括：

阈值更新模块，用于根据所述先验概率，更新所述判断阈值；

可选地，本发明实施例中，所述阈值更新模块具体用于：

根据以下第一公式，确定所述第一音频信号的语音能量：

E1(k)＝(1-γ)*E1(k-1)+γ*Ea(k)

E2(k)＝(1-α)*E2(k-1)+α*Eb(k)

基于所述目标能量差值，更新所述判断阈值。

可选地，本发明实施例中，所述概率确定模块402包括以下至少一项：

第一确定子模块，用于若所述能量差值大于或等于所述判断阈值所述第一音频信号为语音信号的先验概率为1；

第二确定子模块，用于若所述能量差值小于所述判断阈值所述第一音频信号为语音信号的先验概率为0。

可选地，本发明实施例中，所述增益确定模块403包括：

估计噪声子模块，用于根据以下第三公式以及所述先验概率，对所述第一音频信号进行估计噪声处理，得到所述第一音频信号的噪声能量；

所述第三公式为：

En(n)＝P(H1|X)En(n-1)+[1-P(H1|X)]|X|²

增益计算子模块，用于根据所述噪声能量，计算维纳增益。

可选地，本发明实施例中，所述语音增强模块404包括：

信号确定子模块，用于根据所述维纳增益，确定所述第一音频信号的频域语音信号；

变换子模块，用于对所述频域语音信号进行快速傅里叶逆变换IFFT，得到增强后的时域信号。

本发明实施例提供的电子设备400能够实现图1至图3的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

在本发明的实施例中，通过获取模块401获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；概率确定模块402根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；增益确定模块403根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益，语音增强模块404根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；本发明实施例中提供的音频信号处理方法，复杂度低，可适用于非平稳噪声；基于先验概率进行能量估计，区分噪声能量与语音能量，消除第一音频信号中的噪声，避免引入残留噪声；基于维纳增益获得目标音频信号，避免损失原始音频信号中的弱语音信号。

图5为实现本发明各个实施例的一种电子设备的硬件结构示意图；

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器510，用于获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；其中，所述第一音频信号为单帧音频信号，所述第一能量值为所述第一音频信号对应的频域信号的能量，所述第二能量值为与所述第一音频信号相关联的第二音频信号对应的频域信号的能量，所述第二音频信号为包括所述第一音频信号的多帧所述单帧音频信号；

本发明的实施例中，获取第一音频信号的第一能量值以及第二能量值，确定所述第一能量值以及所述第二能量值之间的能量差值；根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率；根据所述先验概率，确定所述第一音频信号的噪声能量以及维纳增益，并进一步根据所述维纳增益，确定第一音频信号增强后的目标频域信号，将所述目标频域信号转换为目标时域信号；本发明实施例中提供的音频信号处理方法，复杂度低，可适用于非平稳噪声；基于先验概率进行能量估计，区分噪声能量与语音能量，消除第一音频信号中的噪声，避免引入残留噪声；基于维纳增益获得目标音频信号，避免损失原始音频信号中的弱语音信号。

需要说明的是，本实施例中上述电子设备500可以实现本发明实施例中方法实施例中的各个过程，以及达到相同的有益效果，为避免重复，此处不再赘述。

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

电子设备500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在电子设备500移动到耳边时，关闭显示面板5061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板5071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中，触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与电子设备500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

电子设备500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源511可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备500包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器510，存储器509，存储在存储器509上并可在所述处理器510上运行的计算机程序，该计算机程序被处理器510执行时实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

所述第三公式为：

En(n)＝P(H1|X)En(n-1)+1-P(H1|X)|X|²

根据所述噪声能量，计算维纳增益；

2.根据权利要求1所述的音频信号处理方法，其特征在于，所述确定所述第一音频信号为语音信号的先验概率的步骤之后，所述方法还包括：

根据所述先验概率，更新所述判断阈值。

3.根据权利要求2所述的音频信号处理方法，其特征在于，所述根据所述先验概率，更新所述判断阈值的步骤，包括：

根据以下第一公式，确定所述第一音频信号的语音能量：

E1(k)＝(1-γ)*E1(k-1)+γ*Ea(k)

E2(k)＝(1-α)*E2(k-1)+α*Eb(k)

基于所述目标能量差值，更新所述判断阈值。

4.根据权利要求1所述的音频信号处理方法，其特征在于，所述获取第一音频信号的第一能量值以及第二能量值的步骤，包括：

对原始音频信号进行分帧处理，得到多帧预设时长的单帧音频信号；其中，所述第一音频信号为对所述原始音频信号进行分帧处理后得到的单帧音频信号中的一帧；

基于所述单帧音频信号中的第一音频信号，获取包括所述第一音频信号的多帧所述单帧音频信号作为第二音频信号；

对所述第一音频信号进行快速傅里叶变换FFT到频域，得到第一频域信号以及对所述第二音频信号进行FFT变换到频域，得到第二频域信号；

获取第一频域信号的第一能量值，以及获取所述第二频域信号的第二能量值。

5.根据权利要求4所述的音频信号处理方法，其特征在于，所述获取第一频域信号的第一能量值，以及获取所述第二频域信号的第二能量值的步骤，包括：

6.根据权利要求5所述的音频信号处理方法，其特征在于，所述获取第一频域信号的第三原始能量值，以及所述第二频域信号的第四原始能量值的步骤，包括：

7.根据权利要求1所述的音频信号处理方法，其特征在于，所述根据所述能量差值以及预设的判断阈值，确定所述第一音频信号为语音信号的先验概率的步骤，包括以下至少一项：

若所述能量差值大于或等于所述判断阈值所述第一音频信号为语音信号的先验概率为1；

若所述能量差值小于所述判断阈值所述第一音频信号为语音信号的先验概率为0。

8.一种电子设备，其特征在于，所述电子设备包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频信号处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音频信号处理方法的步骤。