CN116013344A

CN116013344A - 一种多种噪声环境下的语音增强方法

Info

Publication number: CN116013344A
Application number: CN202211637892.7A
Authority: CN
Inventors: 张新曼; 李扬科; 杨剑锋; 彭豪鸿; 王静静; 贾士凡; 赵红超; 黄永文; 李桂成; 王歆叶
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-12-17
Filing date: 2022-12-17
Publication date: 2023-04-25

Abstract

本发明公开了一种多种噪声环境下的语音增强方法，其包括：1)完成音频的预处理与数据增强操作；2)使用基于Transformer架构的多尺度编码器提取多层次音频特征，并借助特征提升模块强化关键的特征；3)借助基于双路架构的长短期感知模块分别实现不同维度上长短期特征的捕获；4)使用残差解码器和掩码估计模块获得纯净语音信号；5)借助均方误差损失项和信噪比损失项联合训练网络模型。此方法的鲁棒性强，实时性高，可以有效地处理鸣笛声、喧嚣声、鼓掌声、鸟鸣声等十种常见的噪声，从而改善短视频、网络直播、视频会议、语音通话等应用的用户体验。与部分主流语音增强模型相比，在相关评价指标上可以平均提升16％。

Description

一种多种噪声环境下的语音增强方法

技术领域

本发明属于语音降噪技术领域，特别涉及一种多种噪声环境下的语音增强方法。

背景技术

无论是短视频还是网络直播，其都面临着一个较大的问题：拍摄者在进行说话的时候，周围的背景噪声也同样会被采集，这会极大地降低听众的实际体验。此外，不同的拍摄者所处的周围环境不同，因而噪声的种类也多种多样，例如：汽车鸣笛声、广场音乐声、孩童哭闹声、工地机器声、人群喧嚣声等。周围环境的干扰与应用场景的复杂多变要求利用一种鲁棒性的语音增强技术处理含噪音频。

当然，语音增强技术的应用不仅仅局限于短视频或网络直播，还可以服务于多种下游语音相关的任务，包括：语音智能交互、语音情感分析、智能语音输入等方面。在语音智能交互领域，常见如智能音箱。在智能语音输入领域，常见如语音输入法。以智能家居为例，用户可以借助语音实现指令的下达，从而真正地解放了双手，避免了与设备进行直接接触。虽然基于语音的智能交互正成为主流的人机交互方式，但是由于用户所处的复杂噪声环境使其依然无法在日常生活中完全替代键盘或触摸屏进行输入。因而，借助语音增强技术实时地从含噪声的混合音频中获取纯净语音便显得至关重要。

目前，语音增强算法根据处理方式的不同，主要分为：谐波增强法，其仅适用于平稳白噪声的去除，同时无法准确地估计出语音的基音周期；谱减法，其在处理宽带噪声时较为有效，但增强后的结果会存在噪声分量残余；维纳滤波法，其增强后的残留噪声类似于白噪声而非音乐噪声；基于语音模型参数的增强法，其在低信噪比的情况下性能较差，而且往往需要多次迭代运算；基于信号子空间法，其所需要的运算量较大难以满足实时的要求；基于小波变换的增强法，其对非平稳噪声的去噪能力较差；基于深度学习的方法，其借助数据驱动直接估计纯净的语音信号，具有较强的鲁棒性与实时性。与传统方法相比，基于深度学习的方法具有无可比拟的性能优势，因而其已经成为了语音增强的主流方法。

但是目前用于语音增强的深度学习方法，仍然面临无法有效捕获长短期特征以及增强关键特征等原因而导致噪声效果去除不佳、鲁棒性不强等问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种多种噪声环境下的语音增强方法，以期能够更加有效地去除语音中的噪声，并具有较强的鲁棒性与实时性。

为了实现上述目的，本发明采用的技术方案是：

一种多种噪声环境下的语音增强方法，其特征在于，包括以下步骤：

步骤1：对获取的音频数据进行预处理操作与数据增强操作，将处理之后的音频数据输入至长短期感知强化模型；所述长短期感知强化模型包括：多尺度编码器、长短期感知模块以及残差解码器；

步骤2：对于所述处理之后的音频数据，利用所述多尺度编码器提取其深层音频特征；

步骤3：利用所述长短期感知模块分别捕获不同维度上的特征；

步骤4：利用所述残差解码器重构语音信号，并利用掩码估计模块估计纯净语音的掩码，将其与原始输入音频相乘，获得增强后的纯净语音。

在一个实施例中，所述预处理操作包括如下操作的一种或者多种：对音频进行重采样操作、对音频长度进行裁剪操作、对音频进行通道压缩操作；

所述数据增强操作包括如下操作的一种或者多种：按照随机信噪比混合噪声音频、随机改变音频的音量、随机添加混响效果。

在一个实施例中，所述多尺度编码器基于Transformer架构，由多个特征捕获模块堆叠而成，并借助池化操作实现特征的下采样；每个特征捕获模块包括：特征提升模块、归一化层和前馈神经网络；

所述特征提升模块用于捕获关键音频特征以及全局范围内特征之间的关系，其利用卷积层、全连接层以及Sigmoid函数获取注意力权重，并利用矩阵对应元素相乘实现关键特征增强，利用多头注意力机制捕获全局范围内特征之间的关系；所述归一化层进行归一化操作；所述前馈神经网络利用双向门控循环单元捕获长短期特征，并结合全连接层提取深层特征；

其中，不同特征捕获模块使用不同的膨胀卷积操作，从而捕获不同尺度的特征。

在一个实施例中，所述特征捕获模块的计算公式如下：

式中，

和

分别为特征捕获模块的输入特征、中间过程特征和输出特征，LayerNorm(·)为层归一化操作，FBM(·)为特征提升模块操作，FNN(·)为前馈神经网络；

所述特征提升模块的计算公式如下：

式中，

和

分别为特征提升模块的输入特征、中间特征和输出特征；C_1D(·)、FC(·)和R(·)分别为一维卷积、全连接层和调整通道操作；⊙和

分别表示矩阵对应元素相乘与相加操作；σ表示激活函数Sigmoid；MAM(·)表示多头注意力机制操作。

在一个实施例中，所述多头注意力机制操作，首先利用可学习的线性变换根据输入特征

分别获得队列Q_i、键K_i、值V_i，计算公式如下：

式中，W_i ^Q、W_i ^K和W_i ^V分别为全连接层的权重；

其次，利用点积的方式计算队列与键值之前的相似度，同时除以缩放因子；

然后，应用Softmax激活函数获得每个值对应的权重，并与所对应的值相乘；

最后，将所有头部获得的结果串联，并再次进行线性投影操作，获得最终的输出；

多头注意力机制的具体计算公式如下：

MAM(Q,K,V)＝Concat(head₁,…,head_h)W^mh

式中，W^mh是线性变换矩阵，h为并行注意力层的数目，d是缩放因子；

多头注意力机制的输出作为前馈神经网络的输入，从而获得最终的输出特征；

前馈神经网络包括门控循环单元、激活函数以及全连接层，其计算公式如下：

式中，W_fc和b_fc表示全连接层的权重以及对应的偏置，δ表示激活函数ReLU，所述门控循环单元包括更新门与重置门，计算公式如下：

z_t＝σ(W_z·[h_t-1,x_t])r_t＝σ(W_r·[h_t-1,x_t])

式中，σ和γ分别表示激活函数Sigmoid和Tanh，x_t、h_t-1和h_t分别为此刻输入的特征、上一时刻的隐藏状态以及当前时刻的隐藏状态。

在一个实施例中，所述长短期感知模块采用双路架构，包括门控循环单元、一维卷积模块、即时层归一化模块和通道调整模块；所述门控循环单元捕获特征的长短期特征，所述一维卷积模块提取深层特征，所述即时层归一化模块进行特征归一化处理。

在一个实施例中，所述长短期感知模块的计算公式如下：

式中，GRU(·)为门控循环单元，C_1D(·)为一维卷积操作，iLN(·)为即时归一化操作，R(·)为通道调整操作，

和

分别为长短期感知模块的输入特征、中间特征以及输出特征；

所述即时层归一化模块的计算公式如下：

式中，X_tf为输入的特征，N和K分别为特征的维度，

和

分别为均值操作和方差操作，符号ε和β分别为可学习的参数，符号λ为正则化参数。

在一个实施例中，所述残差解码器包括多个解码单元，每个解码单元包括一维反卷积模块、归一化模块与激活函数；每个解码单元的输入均为上一个解码单元的输出

和同级特征捕获模块的输出

其计算公式如下：

式中，TC_1D(·)为一维反卷积操作，B(·)为批归一化操作，θ为激活函数PReLU，

为当前解码单元的输出特征，解码器的输出为重构的语音信号。

在一个实施例中，所述掩码估计模块由一维卷积模块和多个不同的激活函数构成，其计算公式如下：

式中，

和

分别为掩码估计模块的输入特征、中间过程特征以及输出的掩码，γ、δ和σ分别为激活函数Tanh、ReLU和Sigmoid；

将掩码估计模块的输出特征与原始输入的语音信号相乘，获得模型估计的纯净语音信号，其计算公式如下：

式中，X_in为原始输入的音频信号，X_est为模型估计的纯净语音。

并且，本发明利用联合损失函数对该长短期感知强化模型进行训练，所述联合损失函数由均方误差损失项与信噪比损失项构成，所述均方误差损失项用于实现语音波形图上的优化，所述信噪比损失项用于实现语音频谱图上的优化；其中所述均方误差损失项取对数以确保其与信噪比损失项具有相同的数量级。

与现有技术相比，本发明的有益效果是：

(1)本发明借助深度学习提出了一个基于长短期感知增强模型的实时语音降噪方法，其参数量少，鲁棒性强，实时性高，能够较好地应用于各类噪声场景中。

(2)本发明提出了一种基于Transformer架构的编码器，其引入了注意力机制与门控循环单元，这有利于解决关键特征的捕获与长短期特征的依赖问题。

(3)本发明提出了一种基于注意力机制的特征提升模块，其能够有效地捕获不同范围内音频特征之间的关系，从而强化关键的音频特征。

(4)本发明提出了一种基于双路架构的长短期感知模块，其可以实现不同维度上长短期特征的提取，进而为语音增强提供更具判别性的特征。

附图说明

图1为本发明中实时语音增强方法流程图。

图2为本发明中长短期感知强化模型框架图。

图3为本发明中多尺度编码器的特征捕获模块示意图。

图4为本发明中多头注意力机制示意图。

图5为本发明中基于注意力机制的特征提升模块示意图。

图6为本发明中门控循环单元示意图。

图7为本发明中基于双路架构的长短期感知模块示意图。

图8为本发明中多种噪声下语音增强的效果图。

具体实施方式

下面结合附图及实例对本发明如何应用技术手段解决技术问题，并达成技术效果的实现过程进行详细阐述。需要明确的是，下述具体实施方式仅用于说明本发明，而不用于限制本发明的范围。此外，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

本发明公开了一种多种噪声环境下的语音增强方法，如图1所示，包含以下步骤：

步骤1：获取音频数据，并进行预处理操作与数据增强操作。

步骤1.1：完成音频的预处理操作

基于深度学习的语音增强技术作为一种数据驱动的监督学习方法，其要求输入的音频数据有固定的长度，因而需要将音频分割为固定的长度片段。考虑到不同音频的采样率均不相同，因此需要首先对其进行重采样操作。借助音频处理库librosa可以将音频的采样率调整为16KHz，并将其以WAV的格式进行存储。由于某些音频可能是多通道的，因而需要进行通道压缩操作，将其统一转为单通道的音频数据。为了便于计算简单，这里直接采用多通道相加取平均的融合策略，具体的计算公式如下：

式中，K为音频通道的数目，S_mono为处理后的单通道音频，S_i为特定通道的音频，通过通道压缩，将多通道音频信号压缩为单通道音频信号。

此外，假定模型的输入音频长度为4秒，则需要根据音频裁剪算法对音频长度执行裁剪操作，从而确保每个音频片段的长度为4秒。由于音频的采样率为16KHz，因此每个音频片段所包含的采样点为64000。假设音频的总采样点数为T，具体的音频裁剪计算公式如下：

式中，l为正整数，S_start和S_end分别为起始采样点的ID和结束采样点的ID。当裁剪后的音频采样点数不满足64000但总采样点数大于50000时，可以使用线性插值的方式补齐至64000个采样点。当裁剪的采样点数小于50000时，可以直接舍弃该裁剪的音频片段。

步骤1.2：完成音频的数据增强操作

考虑到模型应用场景的复杂多变，需要利用数据增强技术提高模型的鲁棒性。为了能够增强音频的复杂性，这里引入了三种音频数据增强方法，其主要包括：随机信噪比混合噪声音频、随机改变音频音量、随机添加混响效果。

随机混合噪声音频操作主要是通过引入其他额外的背景噪声数据并按照随机信噪比混合输入音频。示例地，可选取电钻声、鸣笛声、喧嚣声、犬吠声、鼓掌声、鸟鸣声、枪击声、蛙叫声、机器声、音乐声等多种常见的噪声。此数据增强的具体操作流程为，首先利用均匀随机采样方法在[-15,15]范围内生成信噪比，将随机信噪比与原始语音进行相乘，并将相乘后的结果与噪声音频相加，从而获得含噪混合音频。

随机改变音量操作主要是借助随机缩放因子将输入音频的音量进行放大或缩小操作，其主要采用随机均匀采样在[0,2]范围内生成音频缩放因子，并将缩放因子与原始音频相乘获得经过随机调整音量的音频。

随机添加混响效果的操作流程包括如下几个方面：创建所处的房间(定义房间大小、所需的混响时间、墙面材料、允许的最大反射次数)、在房间内创建信号源、在房间内放置麦克风、创建房间冲击响应、模拟声音传播、合成混响效果。在本实施例中，可以直接借助Pyroomacoustics库实现语音数据的混响效果添加。

步骤2：借助多尺度编码器提取深层音频特征。

本发明借助深度学习技术设计了一个高效的长短期感知强化模型，将步骤1处理后的音频输入至该长短期感知强化模型中，从而实现多种噪声下的实时语音增强。图2展示了此模型的整体架构。该模型主要包括多尺度编码器、长短期感知模块以及残差解码器。多尺度编码器主要用于实现音频特征的压缩与深层特征的提取，残差解码器则主要用于实现音频信号的重构。本实施例中，多尺度编码器基于Transformer架构，其主要由多个特征捕获模块堆叠构成，本实施例中为5个。每个特征捕获模块又包括：特征提升模块、归一化层和前馈神经网络。

图3展示了基于Transformer架构的多尺度编码器中特征捕获模块的详细信息，其具体计算公式如下：

式中，

和

分别为特征捕获模块的输入特征、中间过程特征和输出特征。LayerNorm(·)为层归一化操作，FBM(·)为特征提升模块操作，FNN(·)为前馈神经网络。此外，特征捕获模块引入了残差连接保持原始特征，并使用基于注意力机制的特征提升模块实现关键特征的捕获与强化。图4展示了此模块中所采用的多头注意力机制的细节信息。对于特征捕获模块的整体流程而言，为了有效地捕获关键的音频特征和解决长短期特征依赖，首先将获取后的特征X_ie_n输入至特征提升模块，利用基于注意力机制的特征提升模块捕获关键的长短期特征，进而借助层归一化操作实现特征归一化，然后利用前馈神经网络实现深层特征的捕获，最后利用层归一化操作进行处理。此外，不同特征捕获模块之间借助最大池化操作实现特征的下采样。同时，不同特征捕获模块采用不同的膨胀卷积操作捕获不同尺度的特征。

特征提升模块是特征捕获模块的核心组件，本发明借助特征提升模块捕获关键音频特征以及全局范围内特征之间的关系，即有效地捕获与强化重要特征。图5展示了此模块的细节架构。此模块主要借助卷积层、全连接层以及Sigmoid函数获取注意力权重，并利用矩阵对应元素相乘实现关键特征增强。同时，其借助多头注意力机制还可以捕获较大范围内特征之间的关系，从而尽可能地消除谐波。其具体计算公式如下：

式中，

和

分别为特征提升模块的输入特征、中间特征和输出特征。C_1D(·)、FC(·)和R(·)分别为一维卷积、全连接层和调整通道操作。⊙和

分别表示矩阵对应元素相乘与相加操作。此外，σ表示激活函数Sigmoid，从而便于求取关键特征对应的权重。MAM(·)则表示多头注意力机制操作。这里，使用卷积核大小为1的一维卷积操作实现特征通道的压缩，进而借助全连接层与激活函数Sigmoid获取相应的权重矩阵，最后利用矩阵对应元素相乘实现关键特征的强化。对于多头注意力机制而言，首先借助可学习的线性变换根据输入特征

分别获得队列Q_i、键K_i、值V_i，其具体的计算公式如下：

式中，W_i ^Q、W_i ^K和W_i ^V分别为全连接层的权重。其次，利用点积的方式计算队列与键值之前的相似度，同时还需要除以缩放因子。然后，应用Softmax激活函数获得每个值对应的权重，并与所对应的值相乘。最后，需要将所有头部获得的结果串联，并再次进行线性投影操作获得最终的输出。多头注意力机制的具体计算公式如下：

MAM(Q,K,V)＝Concat(head₁,…,head_h)W^mh

式中，W^mh是线性变换矩阵，h为并行注意力层的数目。多头注意力模块的输出将会作为前馈神经网络的输入，从而获得最终的输出特征。在此模块中，残差连接与层归一化操作也被引入进一步改善特征的提取效果。

前馈神经网络主要包括：门控循环单元、激活函数以及全连接层，主要主要借助双向门控循环单元实现长短期特征的捕获，并结合全连接层实现深层特征的提取，其具体的计算公式如下：

式中，W_fc和b_fc表示全连接层的权重以及对应的偏置，δ表示激活函数ReLU。这里，采用双向门控循环单元实现音频特征的捕获，其不仅可以有效地捕获长短期的特征，同时也避免了LSTM计算较为复杂的问题。此外，这种方式与单纯使用全连接层相比，往往能够获得更令人满意的效果。同时，双向门控循环单元与一维卷积相比，其可以感知更远特征之间的关系，自动关注更为重要的特征。图6展示了门控循环单元的具体实现细节，其主要包括更新门与重置门，具体的计算公式如下：

z_t＝σ(W_z·[h_t-1,x_t])r_t＝σW_r·[h_t-1,x_t])

步骤3：借助长短期感知模块捕获不同维度上的特征。

对于多尺度编码器提取的语音特征，还需要进一步处理不同维度上特征之间的关系。因而，本发明设计了一种采用双路架构的长短期感知模块，其可以有效地实现不同维度上长短期音频特征的捕获，从而有效地解决特征之间的长短期依赖关系。如图7所示，展示了长短期感知模块的细节架构。此模块主要借助门控循环单元、一维卷积操作、即时层归一化操作和通道调整操作，分别实现时间维度与特征维度上的长短期特征捕获。值得注意的是，本实施例采用了即时层归一化操作替代传统的层归一化操作，降低模型对输入信号能量的敏感度。同时，为了保持原有特征，此模块还引入了残差连接的思想。无论是时间维度还是特征维度，其均是借助门控循环单元实现不同范围内长短期特征的提取，并利用一维卷积操作实现深层特征的捕获，进而借助即时归一化操作实现特征的归一化。

此模块的具体计算公式如下：

式中，GRU(·)为门控循环单元，C_1D(·)为一维卷积操作，iLN(·)为即时归一化操作，R(·)为通道调整操作。此外，

和

分别为此模块的输入特征、中间特征以及输出特征。当特征输入至网络中，首先利用GRU实现时间维度上长短期特征的捕获，进而利用一维卷积操作实现深层特征的提取，然后借助即时层归一化操作进行特征归一化处理。这里之所以采用GRU，是因为其与LSTM相比所需要的计算资源与时间成本更少，却能够达到相同的效果。GRU仅包含控制重置的门控和控制更新的门控，其有效地解决了长短期记忆的问题。另外，此模块所使用的即时层归一化操作的具体计算公式如下：

式中，X_tf为输入的特征，N和K分别为特征的维度。此外，

和

分别为均值操作和方差操作。此外，符号ε和β分别为可学习的参数，符号λ为正则化参数。该归一化操作可以降低模型对输入信号能量的敏感程度。为了实现特征维度上长短期特征的捕获，需要将特征的两个通道进行调换，进而利用GRU捕获长期特征，其次借助一维卷积实现深层特征的提取，并使用即时归一化操作进行处理，最后借助通道调整操作获得输出特征。

步骤4：借助残差解码器获得增强后的纯净语音。

为了能够获得纯净语音，需要首先借助残差解码器重构语音信号。此残差解码器主要包含多个解码单元，本实施例中为5个，其可以逐步实现频谱图掩码的估计。对于每个解码单元，其主要由一维反卷积操作、归一化操作与激活函数构成。同时，为了能够较好地重构语音信号，每一个解码单元的输入均包含两部分：一个是来自于上一个解码单元的输出

另一个是来自于同级特征捕获模块的输出

解码单元使用一维反卷积同时实现特征的提取与上采样操作，并借助激活函数PReLU增加模型的非线性能力。其具体的计算公式如下：

式中，TC_1D(·)为一维反卷积操作，其主要用于实现特征提取与上采样操作。B(·)为批归一化操作，θ为激活函数PReLU。此外，

为当前解码单元的输出特征，解码器的输出为重构的语音信号。此时，需要借助掩码估计模块处理解码器输出的重构语音信号，估计纯净语音信号的掩码，从而实现纯净语音掩码的生成。此掩码估计模块由一维卷积操作和多个不同的激活函数构成，其具体的计算公式如下：

式中，

和

分别为掩码估计模块的输入特征、中间过程特征以及输出的掩码。此外，γ、δ和σ分别为激活函数Tanh、ReLU和Sigmoid。将掩码估计模块的输出特征与原始输入的语音信号相乘即可获得模型估计的纯净语音信号，其计算公式如下：

本发明的模型以及其流程如上，进一步地，还需要对上述模型进行训练或测试，以获取满足要求的模型。

具体地，为了完成模型的监督训练，本发明引入了一种联合损失函数，其包括两部分：信噪比损失项f(·)与均方误差损失项MSE(·)。前者主要用于实现语音波形图上的优化，后者主要用于实现语音频谱图上的优化。此外，需要对均方误差损失项取对数以确保其与信噪比损失项具有相同的数量级。

该损失函数的具体表达式如下：

式中，s和

分别为纯净的音频与模型估计的音频，S_r和

分别为纯净的频谱图的实部与模型估计的频谱图的实部，S_i和

分别为纯净的频谱图的虚部与模型估计的频谱图的虚部，|S|和

分别为纯净的频谱图的幅值与模型估计的频谱图的幅值。此外，均方误差损失项可以测量模型估计频谱图和真实频谱图之间的实部、虚部以及幅度的差异。同时，对均方误差损失项取对数，以确保其与信噪比损失项具有相同的数量级。信噪比损失项则可以约束输出的振幅，避免输入和输出之间的电平偏移。该损失项具体的计算公式如下：

为了能够证明本发明所提方法的有效性，便开展了相关的实验测试。在现有纯净语音的基础上融合了大量的噪声音频，从而模拟各种噪声下所采集的语音。这里选择的噪声种类为：电钻声、鸣笛声、喧嚣声、犬吠声、鼓掌声、鸟鸣声、枪击声、蛙叫声、机器声、音乐声。同时，借助语音增强常用三个的评价指标衡量语音增强的效果，其分别为：感知语音质量评估(PESQ)、短时语音可懂度(STOI)和源伪影比(SAR)。其中，PESQ和STOI均属于感知级别的评估方法，其均是数值越大表示语音增强的效果越好。对于STOI而言，其计算过程主要包括三个步骤：去除静音帧；对信号完成DFT的1/3倍频带分解；计算增强前后时间包络之前的相关系数并取平均。对于PESQ而言，其需要带噪的衰减信号和一个原始的参考信号，计算过程包括了预处理、时间对齐、感知滤波、掩蔽效果等等操作。其能够对客观语音质量评估提供一个主观预测值，而且可以映射到MOS刻度范围，得分范围在-0.5–4.5之间。另外，评价指标SAR可以看做是信号级别的评估指标，其数值越大表示语音增强的效果越好，具体计算公式如下：

式中，e_interf、e_noise和e_artif分别为由干扰、噪声和伪影引入的误差信号，s_target则为目标信号。表1展示了本发明在上述评价指标上与主流方法的效果比较。不难发现，其可以在PESQ评价指标上比主流语音增强模型Demucs提升了约16％，在SAR评价指标上比主流语音增强模型MannerNet提升了约16％。同时，在评价指标STOI上可以达到0.94的优异表现。另外，针对十种不同的噪声干扰环境，图8展示了基于本发明提出的长短期感知强化模型降噪后的语音效果图，其可以获得令人满意的效果。

表1本发明的长短期感知强化模型与主流语音增强模型的效果对比

	PESQ	STOI	SAR
				Demucs	2.08	0.93	18.70
MannerNet	2.22	0.94	17.41
				长短期感知强化模型	2.41	0.94	20.27

Claims

1.一种多种噪声环境下的语音增强方法，其特征在于，包括以下步骤：

步骤1：对获取的音频数据进行预处理操作与数据增强操作，将处理之后的音频数据输入至长短期感知强化模型；所述长短期感知强化模型包括多尺度编码器、长短期感知模块以及残差解码器；

步骤4：利用所述残差解码器重构语音信号，并利用掩码估计模块估计纯净语音的掩码，将其与原始输入音频相乘，获得增强后的纯净语音。借助联合损失函数来完成模型的训练。

2.根据权利要求1所述一种多种噪声环境下的语音增强方法，其特征在于，所述预处理操作包括如下操作的一种或者多种：对音频进行重采样操作、对音频长度进行裁剪操作、对音频进行通道压缩操作；

3.根据权利要求1所述一种多种噪声环境下的语音增强方法，其特征在于，所述多尺度编码器基于Transformer架构，由多个特征捕获模块堆叠而成，并借助池化操作实现特征的下采样；每个特征捕获模块包括：特征提升模块、归一化层和前馈神经网络；

4.根据权利要求3所述一种多种噪声环境下的语音增强方法，其特征在于，所述特征捕获模块的计算公式如下：

式中，

和

所述特征提升模块的计算公式如下：

式中，

和

5.根据权利要求4所述一种多种噪声环境下的语音增强方法，其特征在于，所述多头注意力机制操作，首先利用可学习的线性变换根据输入特征

分别获得队列Q_i、键K_i、值V_i，计算公式如下：

式中，W_i ^Q、W_i ^K和W_i ^V分别为全连接层的权重；

多头注意力机制的具体计算公式如下：

MAM(Q,K,V)＝Concat(head₁,…,head_h)W^mh

前馈神经网络包括：门控循环单元、激活函数以及全连接层，其计算公式如下：

z_t＝σ(W_z·[h_t-1,x_t])r_t＝σ(W_r·[h_t-1,x_t])

6.根据权利要求1所述一种多种噪声环境下的语音增强方法，其特征在于，所述长短期感知模块采用双路架构，包括门控循环单元、一维卷积模块、即时层归一化模块和通道调整模块；所述门控循环单元捕获特征的长短期特征，所述一维卷积模块提取深层特征，所述即时层归一化模块进行特征归一化。

7.根据权利要求6所述一种多种噪声环境下的语音增强方法，其特征在于，所述长短期感知模块的计算公式如下：

和

所述即时层归一化模块的计算公式如下：

式中，X_tf为输入的特征，N和K分别为特征的维度，

和

8.根据权利要求1所述一种多种噪声环境下的语音增强方法，其特征在于，所述残差解码器包括多个解码单元，每个解码单元包括一维反卷积模块、归一化模块与激活函数；每个解码单元的输入均为上一个解码单元的输出

和同级特征捕获模块的输出

其计算公式如下：

9.根据权利要求1所述一种多种噪声环境下的语音增强方法，其特征在于，所述掩码估计模块由一维卷积模块和多个不同的激活函数构成，其计算公式如下：

式中，

和

10.根据权利要求1所述一种多种噪声环境下的语音增强方法，其特征在于，所述长短期感知强化模型利用联合损失函数进行训练，所述联合损失函数由均方误差损失项与信噪比损失项构成，所述均方误差损失项用于实现语音波形图上的优化，所述信噪比损失项用于实现语音频谱图上的优化；其中所述均方误差损失项取对数以确保其与信噪比损失项具有相同的数量级。