CN110867181B

CN110867181B - 基于scnn和tcnn联合估计的多目标语音增强方法

Info

Publication number: CN110867181B
Application number: CN201910935064.3A
Authority: CN
Inventors: 李如玮; 孙晓月; 李涛; 赵丰年
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-05-06
Anticipated expiration: 2039-09-29
Also published as: CN110867181A

Abstract

本发明提出了基于SCNN和TCNN联合估计的多目标语音增强方法。基于SCNN和TCNN提出了新的堆叠和时序卷积神经网络(STCNN)，将对数功率谱(LPS)作为主要特征并输入到SCNN来提取高级抽象特征。其次，提出了一种更符合人耳听觉特性的幂函数压缩梅尔倒谱系数(PC‑MFCC)。时间卷积神经网络(TCNN)将堆叠卷积神经网络提取的高层次抽象特征和PC‑MFCC作为输入，进行序列建模并对干净的LPS，PC‑MFCC和理想比例掩蔽(IRM)进行联合估计。最后，在增强阶段，由于不同的语音特征在合成语音过程中具有互补性。提出了一种基于IRM的后处理方法，通过语音存在信息自适应地调节估计的LPS和IRM的权重来合成增强语音。

Description

基于SCNN和TCNN联合估计的多目标语音增强方法

技术领域：

本发明属于语音信号处理技术领域，涉及到语音识别和移动语音通信中的语音增强，这一关键的语音信号处理技术。

背景技术：

语音增强的目的是去除含噪语音中的背景噪声，提高含噪语音的质量和可懂度。单通道语音增强技术广泛应用于语音信号处理的许多领域，包括移动语音通信、语音识别和数字助听器等。但目前，这些领域中的语音增强系统在实际声学环境中的性能并不总是令人满意的。传统语音增强技术，如谱减法、维纳滤波、最小均方误差、统计模型和小波变换这些无监督语音增强方法，在过去几十年中得到了广泛的研究。

随着深度学习技术的出现，基于深度学习的语音增强方法在信号处理领域得到了广泛的应用。在基于深度学习的语音增强算法中，语音特征参数提取，深度神经网络模型构建，训练目标设置和合成增强语音的后处理过程是基于深度学习的语音增强算法的核心内容。语音特征参数的提取直接影响着神经网络获得信息的质量，若特征参数可以从各个方面模拟人耳的听觉特性，则深度神经网络可以获得更多的有用信息，从而产生更好的语音增强效果。同时，深度神经网络模型直接决定了一个语音增强系统的降噪性能，因为这个神经网络结构通常在基于深度学习的语音增强模型中作为含噪语音特征到干净语音特征的映射器，不同的神经网络模型的构建方式直接影响着语音增强模型的降噪效果。此外，不同的训练目标从不同的角度训练神经网络的参数，多目标学习过程中，不同目标也存在着相互约束的关系。后处理过程通过以不同的权重选择不同的训练目标合成增强语音，可以避免由训练目标直接合成增强语音所造成的过高估计或过低估计的现象，进而改善增强语音的质量。

在噪声环境下，一些语音增强算法对语音可懂度的提高程度仍十分有限。首先，大多数语音增强算法通常采用单一目标学习的方式，即深度神经网络的输入和输出都是单一的语音特征，这很使神经网络不能获得丰富的有用信息，从而使得深度神经网络的训练不能达到最好的效果。此外，一些深度神经网络模型并不适合处理语音增强这类时序建模任务，导致一些基于深度学习的语音增强模型并不能达到一个最优的降噪性能。其次，由于缺少合理的后处理过程，常常使得网络估计的语音特征参数不能被充分利用，进而导致增强语音的失真。

本发明提出了一种基于堆叠卷积神经网络(SCNN)和时序卷积神经网络(temporal convolutional neural network，TCNN)联合估计的多目标语音增强技术。该技术首先构建了一个堆叠时序卷积神经网络(stacked and temporal convolutionalneural network，STCNN)，然后利用SCNN提取对数功率谱 (log-power spectra，LPS)的高级抽象特征。同时，在梅尔倒谱系数 (Mel-frequency cepstral coefficient，MFCC)的基础上，将对数压缩替换为幂函数压缩，提出了一种基于幂函数压缩的梅尔倒谱系数(powerfunction compression Mel-frequency cepstral coefficient，PC-MFCC)。然后将SCNN的输出与PC-MFCC作为TCNN的输入进行时序建模，并分别预测干净的LPS，PC-MFCC 和理想比值掩蔽(ideal ratio mask，IRM)。最后，采用基于IRM的后处理过程根据语音存在信息调节LPS和IRM的权重，并合成增强语音。

发明内容：

本发明的目的是针对目前的语音增强算法在非平稳噪声下语音增强性能不理想的问题，提出了一种全新的多目标语音增强算法。首先，构造了一个基于堆叠和时序卷积的深度神经网络模型(STCNN)。然后，提取LPS特征输入到SCNN中，利用SCNN在二维平面上的局部连接特性提取高层次抽象信息。此外，在MFCC的基础上将对数压缩替换为幂函数压缩，得到了一种新的语音特征参数PC-MFCC，使其更符合人耳听觉特性。将PC-MFCC和 SCNN的输出一起输入到TCNN中进行时序建模，并分别预测干净的LPS, PC-MFCC和IRM。最后，提出了一种基于IRM的后处理过程，将估计的LPS 和IRM根据语音存在信息联合重建语音。从而减少因网络的误估计而造成的增强语音的失真情况。

基于堆叠卷积神经网络(stacked convolutional neural network，SCNN)和时序卷积神经网络(TCNN)联合估计的多目标语音增强方法的实现步骤如下：

步骤一，将含噪语音的采样频率设置为16kHz，并对其进行分帧加窗，得到其时频域表示形式(时频单元)；

(1)帧长为20ms，帧移为10ms，求每个时频单元的能量；

(2)对每个时频单元的能量进行离散傅里叶变换，得到每帧的频谱；

(3)计算每个时频单元的频谱能量；

步骤二，提取每个时频单元的LPS特征参数。

对频谱能量取对数，得到对数能量谱(LPS)。

步骤三，提取每个时频单元的PC-MFCC特征参数

(1)将每帧的频谱能量通过梅尔滤波器进行滤波，得到每帧对应的梅尔域能量；

(2)将梅尔域能量进行幂函数压缩，并计算离散余弦运算(Discrete CosineTransform,DCT)，得到基于幂函数压缩的梅尔倒谱系数(PC-MFCC)。

步骤四，计算理想比率掩蔽(IRM)

步骤五，构建互补特征集

将步骤二和步骤三提取的含噪LPS和PC-MFCC作为本方法的互补特征集。

步骤六，构建互补目标集

将步骤二，步骤三和步骤四提取的干净的LPS，PC-MFC和IRM作为本方法的互补目标集。

步骤七，构建了一个基于堆叠卷积和时序卷积的STCNN网络模型，该模型由3层堆叠卷积层，3个堆叠在一起的膨胀块组成。其中每个膨胀块由6个膨胀率指数增加的残余块叠加而成，膨胀率被设置为1、2、4、8、16和32。

(1)将含噪的LPS输入到SCNN中，利用SCNN在二维平面上的局部连接特性提取高层次抽象信息。

(2)将SCNN的输出与PC-MFCC作为TCNN的输入，并预测干净的 LPS，PC-MFCC和IRM。

步骤八，将通过步骤五提取的含噪互补特征集作为输入，通过步骤六提取的干净互补目标集作为训练目标，训练STCNN模型，得到网络的权值和偏置。

步骤九，按步骤二和步骤三的方法提取测试的含噪语音的LPS和PC-MFCC 特征参数，输入到步骤五中已经训练好的STCNN神经网络中，输出预测的LPS， PC-MFCC和IRM。

步骤十，提出一个基于IRM的后处理过程，由于在合成语音过程中，LPS 在低信噪比条件下表现良好，IRM在高信噪比条件下表现良好。利用IRM衡量时频单元信噪比的高低，将估计的LPS和IRM根据语音存在信息也就是信噪比的高低联合重建语音，形成最后的增强语音。

本发明从增强语音的特征、网络模型和后处理等方面对增强语音的性能进行了改进。首先，该技术计算了两种互补特征LPS和PC-MFFC作为神经网络的输入。对于LPS特征，将含噪语音信号分帧加窗，进行离散傅里叶变换并计算频谱能量，最后取对数得到LPS特征。对于PC-MFCC，将含噪语音信号进行分帧加窗以及傅里叶变换得到频谱能量后，利用梅尔滤波器计算梅尔域的能量，然后利用幂函数压缩和离散傅里叶变换得到PC-MFCC。然后提出了一个基于堆叠和时序卷积提出了STCNN神经网络模型。将LPS输入到SCNN中利用其局部连接特性提取高层次抽象特征。然后，将SCNN的输出和PC-MFCC一起作为TCNN的输入，并将干净LPS，PC-MFCC和IRM作为训练目标，利用TCNN 的残差块在处理时序建模方面的优势，进行时序建模。然后，从测试集中提取互补含噪语音特征并输入到训练好的STCNN中，得到预测的LPS，PC-MFCC 和IRM。最后，提出了基于IRM的后处理过程，将估计的LPS和IRM根据语音存在信息也就是信噪比的高低联合重建语音，从而降低因神经网络的误估计而造成的增强语音的失真，改善增强语音的性能。

附图说明

图1本发明的实现流程图

图2语音特征参数的提取流程图

图3梅尔滤波器组图

图4STCNN的网络框架

具体实施方式

为了更好地理解本发明，下面将详细描述本发明的具体实施方式：

如图1所示，本发明提供一种新的基于多目标学习的语音增强方法，包括以下步骤：

步骤一，对输入的信号进行加窗分帧处理，得到输入信号的时频表示形式；

(1)首先对输入的信号进行时频分解；

语音信号是典型的时变信号，而时频分解正是着眼于真实语音信号组成成分的这种时变谱特征，将一维的语音信号分解成时间-频率表示的二维信号, 旨在揭示语音信号中包含多少频率分量级及每个分量随时间是如何变化的。

首先，原始语音信号y(p)通过方程(1)中的预处理，将信号分帧，并利用汉明窗对每帧进行平滑处理得到y_t(n)。

其中y_t(n)为第t帧语音信号的第n个样点，L为帧长，p为窗长。w(n)为汉明窗，它的表达式为：

(2)离散傅里叶变换

由于语音信号在时域上的变换通常很难看出信号的特性，所以通常将其变换到频域上的能量分布来观察，不同频率的能量分布，代表了语音信号不同的特性。因此对每帧信号y_t(n)进行离散傅里叶变换，得到每帧信号的频谱 Y(t，f)。如公式(3)所示：

Y(t，f)＝DFT[y_t(n)] (3)

式中f表示频域中的第f个频点，0≤f≤L/2+1。

(3)计算谱线能量

频域中的每一帧语音信号谱线的能量E(t，f)可表示为：

E(t，f)＝[Y(t，f)]² (4)

步骤二，对输入信号的时频单元进行LPS特征参数提取

对每一帧的频谱能量做对数运算，得到LPS特征参数：

z^LPS(t，f)＝log E(t，f) (5)

步骤三，对输入信号的时频单元进行PC-MFCC特征参数提取

(1)计算通过Mel滤波器的能量

每一帧谱线能量通过Mel滤波器(如图3所示)的能量S(t，r)可定义为：

其中N表示DFT点数，H_r(f)表示第r个Mel滤波器，R表示Mel滤波器的个数，R＝20。

(2)对Mel能量进行幂函数压缩

为了使所提取的特征更加符合人类听觉特性，采用幂函数对Mel滤波器能量进行压缩，得到S_p(t，r)：

S_p(t，r)＝[S(t，r)]^α (7)

其中α ＝1/15，实验结果表明，当α ＝1/15时，幂函数可以很好地模拟人类听觉感知地非线性特性。

(3)去相关操作

最后利用DCT变换去除不同维度之间的相关性，并提取1维动态能量特征进而得到改进的21维的PC-MFCC：

其中m代表第m维PC-MFCC特征参数，M代表PC-MFCC特征总的维数， M＝21。

步骤四，计算理想比值掩蔽(IRM)

理想比值掩蔽(IRM)是一个比值的时频掩蔽矩阵，通过纯净语音能量和噪声能量计算得到，其定义为：

其中，x(t，f)和n(t，f)分别代表干净语音能量和噪声能量，z^IRM(t，f)为 IRM。

步骤五，构建互补特征集

互补特征集由含噪LPS和PC-MFCC组成，具体的互补特征提取过程见图2。

步骤六，构建互补目标集

互补目标集由干净的LPS，PC-MFCC和IRM组成。

步骤七，构建深度神经网络STCNN模型

为了学习含噪的语音特征到干净的训练目标之间的映射关系，本方法提出了一种基于SCNN和TCNN的深度神经网络模型STCNN。STCNN模型的结构由3部分组成：SCNN层、TCNN层和前馈层，如图4所示。

(1)SCNN层提取高层次抽象特征

SCNN在二维平面上的局部连接特性使其能够更好地利用噪声语音的时频相关性，从而具有较好的局部特征提取能力。此外，堆栈卷积核可以用较少的参数进行更多的非线性处理，进而提高网络非线性表达的能力。SCNN 将含噪LPS特征序列作为输入，提取高层抽象特征。SCNN的输入维度是 T×F×1，其中T是语音信号的帧数，F是每一帧的特征维度，1是输入信道的数目。本方法中SCNN层包含3个卷积层，每个后面都跟随一个批量归一化层和最大池化层，其中卷积核大小设置为3×3，最大池化层的尺寸分别设置为1×8，1×8和1×5，并将通道数从1增加到64。最后，堆叠卷积网络的最终输出维度为T×4×64。

(2)TCNN层进行时序建模

TCNN结合了因果卷积层和扩张卷积层来增强因果约束。与传统的卷积神经网络不同，因果卷积是一种只看到历史信息的单向模型。这种严格的时间限制确保了信息不会从未来泄漏到过去。然而，因果卷积建模的时间长度仍然受到卷积核大小的限制。为了解决这个问题，扩展卷积通过间隔采样来增加感受野。接收范围越大，网络就越能回顾历史信息。

此外，TCNN利用残差学习来避免深度网络中的梯度消失或爆炸。剩余块由三个卷积层组成：输入1×1卷积层、深度卷积层和输出1×1卷积层。输入卷积使通道数加倍，以便数据可以并行处理。输出卷积代替完全连接层返回原始信道号，使输入和输出的维数一致。深度卷积用于降低网络的空间复杂度，非线性激活函数(ReLU)和归一化层被加在和两个卷积层之间。

本方法中，将SCNN的输出整形为T×256的一维信号，并与特征维度为 T×21的PC-MFCC相结合。因此TCNN的输入维度为T×277。本方法中将 TCNN设置为3层，其中每一层都是由6个具有递增膨胀因子的一维卷积块组成，这6个卷积块的膨胀率以依次为1、2、4、8、16、32每个卷积块的填充为零，以确保输入和输出维度一致。

(3)前馈层整合输出

最后，两个前馈层根据目标的不同返回每个目标对应维度的输出。

步骤八，将步骤五中构建的互补特征集和步骤六构建的互补目标集分别作为STCNN的输入和输出，采用自适应学习率的随机梯度下降算法对网络进行训练，训练完成以后，保存网络的权值和偏置，其训练采用的是线下训练。

本方法采用多目标学习，将LPS特征，PC-NFCC特征和IRM进行联合估计，以完善神经网络的预测，如式(10)。

其中F＝L/2+1＝161，是LPS和IRM的特征维数，T是语音信号的帧数。 E_r一个平均加权的均方误差函数。z^LPS(t，f)，z^PC-MFCC(t，m)和z^IRM(t，f)分别是对应时频单元的干净LPS，PC-MFCC和IRM。相对应的，

和

分别是神经网络估计的LPS，PC-MFCC和IRM。

步骤九，采用训练集未见的15种噪声(如表1所示)与纯净语音合成测试的含噪语音，并提取互补特征集，输入到步骤八中已经训练好的STCNN中，进而预测干净的LPS，PC-MFCC和IRM。

步骤十，构建基于IRM的后处理过程

在多目标学习的增强阶段，通常加入后处理过程，以充分利用神经网络学习到的互补目标，从而缓解某些时频单元对训练目标估计过高或低估而造成的增强语音失真的问题。此外，由于LPS在低信噪比条件下合成增强语音获得了较好的语音清晰度，而基于IRM合成增强语音在高信噪比条件下表现出了良好的性能。同时，IRM是(0，1)范围内的连续信息。它可以明确地表示时频单元中的语音存在信息，并在一定程度上反应出视频单元内的信噪比高低。具体地说，IRM越接近1，这个时频单元中语音能量的比例越大，信噪比越高。相反，IRM越接近于0，信噪比越低。因此，除了利用IRM进行语音重构外，还可以将IRM作为自适应调节系数，根据语音存在信息动态控制IRM和LPS在后处理过程中的比例，如公式(11)所示。

其中

是估计的干净的LPS和IRM，x^LPS(t，f)是含噪的LPS特征，

是IRM掩蔽后的LPS特征。

的值越接近1，

在重建语音过程中所占比例越大。相反，

的值越接近0，

所占比例越大。最后对合成的

分别进行步骤二和步骤一的逆运算，得到增强后的语音信号。

表1 测试集15种噪声

N1:Babble	N2:Buccaneer1	N3:Buccaneer2
			N4:Destroyerengine	N5:Destroyerops	N6:F-16
N7:Factory1	N8:Factory2	N9:Hfchannel
			N10:Leopard	N11:M109	N12:Machinegun
N13:Pink	N14:Volvo	N15:White

Claims

1.基于SCNN和TCNN联合估计的多目标语音增强方法，其特征在于，包括以下步骤：

(1)首先对输入的信号进行时频分解；

首先，原始语音信号y(p)通过方程(1)中的预处理，将信号分帧，并利用汉明窗对每帧进行平滑处理得到y_t(n)；

其中y_t(n)为第t帧语音信号的第n个样点，L为帧长，p为窗长；w(n)为汉明窗，它的表达式为：

(2)离散傅里叶变换

对每帧信号y_t(n)进行离散傅里叶变换，得到每帧信号的频谱Y(t,f)；如公式(3)所示：

Y(t,f)＝DFT[y_t(n)] (3)

式中f表示频域中的第f个频点，0≤f≤L/2+1；

(3)计算谱线能量

频域中的每一帧语音信号谱线的能量E(t,f)表示为：

E(t,f)＝[Y(t,f)]² (4)

步骤二，对输入信号的时频单元进行LPS特征参数提取

对每一帧的频谱能量做对数运算，得到LPS特征参数：

z^LPS(t,f)＝logE(t,f) (5)

步骤三，对输入信号的时频单元进行PC-MFCC特征参数提取

(1)计算通过Mel滤波器的能量

每一帧谱线能量通过Mel滤波器的能量S(t,r)定义为：

其中N表示DFT点数，H_r(f)表示第r个Mel滤波器，R表示Mel滤波器的个数，R＝20；

(2)对Mel能量进行幂函数压缩

为了使所提取的特征更加符合人类听觉特性，采用幂函数对Mel滤波器能量进行压缩，得到S_p(t,r)：

S_p(t,r)＝[S(t,r)]^α (7)

其中α ＝1/15

(3)去相关操作

其中m代表第m维PC-MFCC特征参数，M代表PC-MFCC特征总的维数，M＝21；

步骤四，计算理想比值掩蔽IRM

理想比值掩蔽IRM是一个比值的时频掩蔽矩阵，通过纯净语音能量和噪声能量计算得到，其定义为：

其中，x(t,f)和n(t,f)分别代表干净语音能量和噪声能量，z^IRM(t,f)为IRM；

步骤五，构建互补特征集

互补特征集由含噪LPS和PC-MFCC组成；

步骤六，构建互补目标集

互补目标集由干净的LPS，PC-MFCC和IRM组成；

步骤七，构建深度神经网络STCNN模型；STCNN模型的结构由3部分组成：SCNN层、TCNN层和前馈层；

(1)SCNN层提取高层次抽象特征

SCNN将含噪LPS特征序列作为输入，提取高层抽象特征；SCNN的输入维度是T×F×1，其中T是语音信号的帧数，F是每一帧的特征维度，1是输入信道的数目；SCNN层包含3个卷积层，每个后面都跟随一个批量归一化层和最大池化层，其中卷积核大小设置为3×3，最大池化层的尺寸分别设置为1×8，1×8和1×5，并将通道数从1增加到64；最后，堆叠卷积网络的最终输出维度为T×4×64；

(2)TCNN层进行时序建模

TCNN的剩余块；由三个卷积层组成：输入1×1卷积层、深度卷积层和输出1×1卷积层；输入卷积使通道数加倍，以便数据并行处理；输出卷积代替完全连接层返回原始信道号，使输入和输出的维数一致；深度卷积用于降低网络的空间复杂度，非线性激活函数(ReLU)和归一化层被加在和两个卷积层之间；

将SCNN的输出整形为T×256的一维信号，并与特征维度为T×21的PC-MFCC相结合；因此TCNN的输入维度为T×277；将TCNN设置为3层，其中每一层都是由6个具有递增膨胀因子的一维卷积块组成，这6个卷积块的膨胀率以依次为1、2、4、8、16、32每个卷积块的填充为零，以确保输入和输出维度一致；

(3)前馈层整合输出

最后，两个前馈层根据目标的不同返回每个目标对应维度的输出；

步骤八，将步骤五中构建的互补特征集和步骤六构建的互补目标集分别作为STCNN的输入和输出，采用自适应学习率的随机梯度下降算法对网络进行训练，训练完成以后，保存网络的权值和偏置，其训练采用的是线下训练；

采用多目标学习，将LPS特征，PC-NFCC特征和IRM进行联合估计，以完善神经网络的预测，如式(10)；