CN110867181B - 基于scnn和tcnn联合估计的多目标语音增强方法 - Google Patents
基于scnn和tcnn联合估计的多目标语音增强方法 Download PDFInfo
- Publication number
- CN110867181B CN110867181B CN201910935064.3A CN201910935064A CN110867181B CN 110867181 B CN110867181 B CN 110867181B CN 201910935064 A CN201910935064 A CN 201910935064A CN 110867181 B CN110867181 B CN 110867181B
- Authority
- CN
- China
- Prior art keywords
- lps
- irm
- mfcc
- speech
- scnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000295 complement effect Effects 0.000 claims abstract description 27
- 238000012805 post-processing Methods 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 5
- 230000000873 masking effect Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 11
- 238000007906 compression Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 239000013307 optical fiber Substances 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000007493 shaping process Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 9
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 210000005069 ears Anatomy 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000001364 causal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 241000282373 Panthera pardus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了基于SCNN和TCNN联合估计的多目标语音增强方法。基于SCNN和TCNN提出了新的堆叠和时序卷积神经网络(STCNN),将对数功率谱(LPS)作为主要特征并输入到SCNN来提取高级抽象特征。其次,提出了一种更符合人耳听觉特性的幂函数压缩梅尔倒谱系数(PC‑MFCC)。时间卷积神经网络(TCNN)将堆叠卷积神经网络提取的高层次抽象特征和PC‑MFCC作为输入,进行序列建模并对干净的LPS,PC‑MFCC和理想比例掩蔽(IRM)进行联合估计。最后,在增强阶段,由于不同的语音特征在合成语音过程中具有互补性。提出了一种基于IRM的后处理方法,通过语音存在信息自适应地调节估计的LPS和IRM的权重来合成增强语音。
Description
技术领域:
本发明属于语音信号处理技术领域,涉及到语音识别和移动语音通信中的语音增强,这一关键的语音信号处理技术。
背景技术:
语音增强的目的是去除含噪语音中的背景噪声,提高含噪语音的质量和可懂度。单通道语音增强技术广泛应用于语音信号处理的许多领域,包括移动语音通信、语音识别和数字助听器等。但目前,这些领域中的语音增强系统在实际声学环境中的性能并不总是令人满意的。传统语音增强技术,如谱减法、维纳滤波、最小均方误差、统计模型和小波变换这些无监督语音增强方法,在过去几十年中得到了广泛的研究。
随着深度学习技术的出现,基于深度学习的语音增强方法在信号处理领域得到了广泛的应用。在基于深度学习的语音增强算法中,语音特征参数提取,深度神经网络模型构建,训练目标设置和合成增强语音的后处理过程是基于深度学习的语音增强算法的核心内容。语音特征参数的提取直接影响着神经网络获得信息的质量,若特征参数可以从各个方面模拟人耳的听觉特性,则深度神经网络可以获得更多的有用信息,从而产生更好的语音增强效果。同时,深度神经网络模型直接决定了一个语音增强系统的降噪性能,因为这个神经网络结构通常在基于深度学习的语音增强模型中作为含噪语音特征到干净语音特征的映射器,不同的神经网络模型的构建方式直接影响着语音增强模型的降噪效果。此外,不同的训练目标从不同的角度训练神经网络的参数,多目标学习过程中,不同目标也存在着相互约束的关系。后处理过程通过以不同的权重选择不同的训练目标合成增强语音,可以避免由训练目标直接合成增强语音所造成的过高估计或过低估计的现象,进而改善增强语音的质量。
在噪声环境下,一些语音增强算法对语音可懂度的提高程度仍十分有限。首先,大多数语音增强算法通常采用单一目标学习的方式,即深度神经网络的输入和输出都是单一的语音特征,这很使神经网络不能获得丰富的有用信息,从而使得深度神经网络的训练不能达到最好的效果。此外,一些深度神经网络模型并不适合处理语音增强这类时序建模任务,导致一些基于深度学习的语音增强模型并不能达到一个最优的降噪性能。其次,由于缺少合理的后处理过程,常常使得网络估计的语音特征参数不能被充分利用,进而导致增强语音的失真。
本发明提出了一种基于堆叠卷积神经网络(SCNN)和时序卷积神经网络(temporal convolutional neural network,TCNN)联合估计的多目标语音增强技术。该技术首先构建了一个堆叠时序卷积神经网络(stacked and temporal convolutionalneural network,STCNN),然后利用SCNN提取对数功率谱 (log-power spectra,LPS)的高级抽象特征。同时,在梅尔倒谱系数 (Mel-frequency cepstral coefficient,MFCC)的基础上,将对数压缩替换为幂函数压缩,提出了一种基于幂函数压缩的梅尔倒谱系数(powerfunction compression Mel-frequency cepstral coefficient,PC-MFCC)。然后将SCNN的输出与PC-MFCC作为TCNN的输入进行时序建模,并分别预测干净的LPS,PC-MFCC 和理想比值掩蔽(ideal ratio mask,IRM)。最后,采用基于IRM的后处理过程根据语音存在信息调节LPS和IRM的权重,并合成增强语音。
发明内容:
本发明的目的是针对目前的语音增强算法在非平稳噪声下语音增强性能不理想的问题,提出了一种全新的多目标语音增强算法。首先,构造了一个基于堆叠和时序卷积的深度神经网络模型(STCNN)。然后,提取LPS特征输入到SCNN中,利用SCNN在二维平面上的局部连接特性提取高层次抽象信息。此外,在MFCC的基础上将对数压缩替换为幂函数压缩,得到了一种新的语音特征参数PC-MFCC,使其更符合人耳听觉特性。将PC-MFCC和 SCNN的输出一起输入到TCNN中进行时序建模,并分别预测干净的LPS, PC-MFCC和IRM。最后,提出了一种基于IRM的后处理过程,将估计的LPS 和IRM根据语音存在信息联合重建语音。从而减少因网络的误估计而造成的增强语音的失真情况。
基于堆叠卷积神经网络(stacked convolutional neural network,SCNN)和时序卷积神经网络(TCNN)联合估计的多目标语音增强方法的实现步骤如下:
步骤一,将含噪语音的采样频率设置为16kHz,并对其进行分帧加窗,得到其时频域表示形式(时频单元);
(1)帧长为20ms,帧移为10ms,求每个时频单元的能量;
(2)对每个时频单元的能量进行离散傅里叶变换,得到每帧的频谱;
(3)计算每个时频单元的频谱能量;
步骤二,提取每个时频单元的LPS特征参数。
对频谱能量取对数,得到对数能量谱(LPS)。
步骤三,提取每个时频单元的PC-MFCC特征参数
(1)将每帧的频谱能量通过梅尔滤波器进行滤波,得到每帧对应的梅尔域能量;
(2)将梅尔域能量进行幂函数压缩,并计算离散余弦运算(Discrete CosineTransform,DCT),得到基于幂函数压缩的梅尔倒谱系数(PC-MFCC)。
步骤四,计算理想比率掩蔽(IRM)
步骤五,构建互补特征集
将步骤二和步骤三提取的含噪LPS和PC-MFCC作为本方法的互补特征集。
步骤六,构建互补目标集
将步骤二,步骤三和步骤四提取的干净的LPS,PC-MFC和IRM作为本方法的互补目标集。
步骤七,构建了一个基于堆叠卷积和时序卷积的STCNN网络模型,该模型由3层堆叠卷积层,3个堆叠在一起的膨胀块组成。其中每个膨胀块由6个膨胀率指数增加的残余块叠加而成,膨胀率被设置为1、2、4、8、16和32。
(1)将含噪的LPS输入到SCNN中,利用SCNN在二维平面上的局部连接特性提取高层次抽象信息。
(2)将SCNN的输出与PC-MFCC作为TCNN的输入,并预测干净的 LPS,PC-MFCC和IRM。
步骤八,将通过步骤五提取的含噪互补特征集作为输入,通过步骤六提取的干净互补目标集作为训练目标,训练STCNN模型,得到网络的权值和偏置。
步骤九,按步骤二和步骤三的方法提取测试的含噪语音的LPS和PC-MFCC 特征参数,输入到步骤五中已经训练好的STCNN神经网络中,输出预测的LPS, PC-MFCC和IRM。
步骤十,提出一个基于IRM的后处理过程,由于在合成语音过程中,LPS 在低信噪比条件下表现良好,IRM在高信噪比条件下表现良好。利用IRM衡量时频单元信噪比的高低,将估计的LPS和IRM根据语音存在信息也就是信噪比的高低联合重建语音,形成最后的增强语音。
本发明从增强语音的特征、网络模型和后处理等方面对增强语音的性能进行了改进。首先,该技术计算了两种互补特征LPS和PC-MFFC作为神经网络的输入。对于LPS特征,将含噪语音信号分帧加窗,进行离散傅里叶变换并计算频谱能量,最后取对数得到LPS特征。对于PC-MFCC,将含噪语音信号进行分帧加窗以及傅里叶变换得到频谱能量后,利用梅尔滤波器计算梅尔域的能量,然后利用幂函数压缩和离散傅里叶变换得到PC-MFCC。然后提出了一个基于堆叠和时序卷积提出了STCNN神经网络模型。将LPS输入到SCNN中利用其局部连接特性提取高层次抽象特征。然后,将SCNN的输出和PC-MFCC一起作为TCNN的输入,并将干净LPS,PC-MFCC和IRM作为训练目标,利用TCNN 的残差块在处理时序建模方面的优势,进行时序建模。然后,从测试集中提取互补含噪语音特征并输入到训练好的STCNN中,得到预测的LPS,PC-MFCC 和IRM。最后,提出了基于IRM的后处理过程,将估计的LPS和IRM根据语音存在信息也就是信噪比的高低联合重建语音,从而降低因神经网络的误估计而造成的增强语音的失真,改善增强语音的性能。
附图说明
图1本发明的实现流程图
图2语音特征参数的提取流程图
图3梅尔滤波器组图
图4STCNN的网络框架
具体实施方式
为了更好地理解本发明,下面将详细描述本发明的具体实施方式:
如图1所示,本发明提供一种新的基于多目标学习的语音增强方法,包括以下步骤:
步骤一,对输入的信号进行加窗分帧处理,得到输入信号的时频表示形式;
(1)首先对输入的信号进行时频分解;
语音信号是典型的时变信号,而时频分解正是着眼于真实语音信号组成成分的这种时变谱特征,将一维的语音信号分解成时间-频率表示的二维信号, 旨在揭示语音信号中包含多少频率分量级及每个分量随时间是如何变化的。
首先,原始语音信号y(p)通过方程(1)中的预处理,将信号分帧,并利用汉明窗对每帧进行平滑处理得到yt(n)。
其中yt(n)为第t帧语音信号的第n个样点,L为帧长,p为窗长。w(n)为汉明窗,它的表达式为:
(2)离散傅里叶变换
由于语音信号在时域上的变换通常很难看出信号的特性,所以通常将其变换到频域上的能量分布来观察,不同频率的能量分布,代表了语音信号不同的特性。因此对每帧信号yt(n)进行离散傅里叶变换,得到每帧信号的频谱 Y(t,f)。如公式(3)所示:
Y(t,f)=DFT[yt(n)] (3)
式中f表示频域中的第f个频点,0≤f≤L/2+1。
(3)计算谱线能量
频域中的每一帧语音信号谱线的能量E(t,f)可表示为:
E(t,f)=[Y(t,f)]2 (4)
步骤二,对输入信号的时频单元进行LPS特征参数提取
对每一帧的频谱能量做对数运算,得到LPS特征参数:
zLPS(t,f)=log E(t,f) (5)
步骤三,对输入信号的时频单元进行PC-MFCC特征参数提取
(1)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器(如图3所示)的能量S(t,r)可定义为:
其中N表示DFT点数,Hr(f)表示第r个Mel滤波器,R表示Mel滤波器的个数,R=20。
(2)对Mel能量进行幂函数压缩
为了使所提取的特征更加符合人类听觉特性,采用幂函数对Mel滤波器能量进行压缩,得到Sp(t,r):
Sp(t,r)=[S(t,r)]α (7)
其中α =1/15,实验结果表明,当α =1/15时,幂函数可以很好地模拟人类听觉感知地非线性特性。
(3)去相关操作
最后利用DCT变换去除不同维度之间的相关性,并提取1维动态能量特征进而得到改进的21维的PC-MFCC:
其中m代表第m维PC-MFCC特征参数,M代表PC-MFCC特征总的维数, M=21。
步骤四,计算理想比值掩蔽(IRM)
理想比值掩蔽(IRM)是一个比值的时频掩蔽矩阵,通过纯净语音能量和噪声能量计算得到,其定义为:
其中,x(t,f)和n(t,f)分别代表干净语音能量和噪声能量,zIRM(t,f)为 IRM。
步骤五,构建互补特征集
互补特征集由含噪LPS和PC-MFCC组成,具体的互补特征提取过程见图2。
步骤六,构建互补目标集
互补目标集由干净的LPS,PC-MFCC和IRM组成。
步骤七,构建深度神经网络STCNN模型
为了学习含噪的语音特征到干净的训练目标之间的映射关系,本方法提出了一种基于SCNN和TCNN的深度神经网络模型STCNN。STCNN模型的结构由3部分组成:SCNN层、TCNN层和前馈层,如图4所示。
(1)SCNN层提取高层次抽象特征
SCNN在二维平面上的局部连接特性使其能够更好地利用噪声语音的时频相关性,从而具有较好的局部特征提取能力。此外,堆栈卷积核可以用较少的参数进行更多的非线性处理,进而提高网络非线性表达的能力。SCNN 将含噪LPS特征序列作为输入,提取高层抽象特征。SCNN的输入维度是 T×F×1,其中T是语音信号的帧数,F是每一帧的特征维度,1是输入信道的数目。本方法中SCNN层包含3个卷积层,每个后面都跟随一个批量归一化层和最大池化层,其中卷积核大小设置为3×3,最大池化层的尺寸分别设置为1×8,1×8和1×5,并将通道数从1增加到64。最后,堆叠卷积网络的最终输出维度为T×4×64。
(2)TCNN层进行时序建模
TCNN结合了因果卷积层和扩张卷积层来增强因果约束。与传统的卷积神经网络不同,因果卷积是一种只看到历史信息的单向模型。这种严格的时间限制确保了信息不会从未来泄漏到过去。然而,因果卷积建模的时间长度仍然受到卷积核大小的限制。为了解决这个问题,扩展卷积通过间隔采样来增加感受野。接收范围越大,网络就越能回顾历史信息。
此外,TCNN利用残差学习来避免深度网络中的梯度消失或爆炸。剩余块由三个卷积层组成:输入1×1卷积层、深度卷积层和输出1×1卷积层。输入卷积使通道数加倍,以便数据可以并行处理。输出卷积代替完全连接层返回原始信道号,使输入和输出的维数一致。深度卷积用于降低网络的空间复杂度,非线性激活函数(ReLU)和归一化层被加在和两个卷积层之间。
本方法中,将SCNN的输出整形为T×256的一维信号,并与特征维度为 T×21的PC-MFCC相结合。因此TCNN的输入维度为T×277。本方法中将 TCNN设置为3层,其中每一层都是由6个具有递增膨胀因子的一维卷积块组成,这6个卷积块的膨胀率以依次为1、2、4、8、16、32每个卷积块的填充为零,以确保输入和输出维度一致。
(3)前馈层整合输出
最后,两个前馈层根据目标的不同返回每个目标对应维度的输出。
步骤八,将步骤五中构建的互补特征集和步骤六构建的互补目标集分别作为STCNN的输入和输出,采用自适应学习率的随机梯度下降算法对网络进行训练,训练完成以后,保存网络的权值和偏置,其训练采用的是线下训练。
本方法采用多目标学习,将LPS特征,PC-NFCC特征和IRM进行联合估计,以完善神经网络的预测,如式(10)。
其中F=L/2+1=161,是LPS和IRM的特征维数,T是语音信号的帧数。 Er一个平均加权的均方误差函数。zLPS(t,f),zPC-MFCC(t,m)和zIRM(t,f)分别是对应时频单元的干净LPS,PC-MFCC和IRM。相对应的, 和分别是神经网络估计的LPS,PC-MFCC和IRM。
步骤九,采用训练集未见的15种噪声(如表1所示)与纯净语音合成测试的含噪语音,并提取互补特征集,输入到步骤八中已经训练好的STCNN中,进而预测干净的LPS,PC-MFCC和IRM。
步骤十,构建基于IRM的后处理过程
在多目标学习的增强阶段,通常加入后处理过程,以充分利用神经网络学习到的互补目标,从而缓解某些时频单元对训练目标估计过高或低估而造成的增强语音失真的问题。此外,由于LPS在低信噪比条件下合成增强语音获得了较好的语音清晰度,而基于IRM合成增强语音在高信噪比条件下表现出了良好的性能。同时,IRM是(0,1)范围内的连续信息。它可以明确地表示时频单元中的语音存在信息,并在一定程度上反应出视频单元内的信噪比高低。具体地说,IRM越接近1,这个时频单元中语音能量的比例越大,信噪比越高。相反,IRM越接近于0,信噪比越低。因此,除了利用IRM进行语音重构外,还可以将IRM作为自适应调节系数,根据语音存在信息动态控制IRM和LPS在后处理过程中的比例,如公式(11)所示。
其中是估计的干净的LPS和IRM,xLPS(t,f)是含噪的LPS特征,是IRM掩蔽后的LPS特征。的值越接近1,在重建语音过程中所占比例越大。相反,的值越接近0,所占比例越大。最后对合成的分别进行步骤二和步骤一的逆运算,得到增强后的语音信号。
表1 测试集15种噪声
N1:Babble | N2:Buccaneer1 | N3:Buccaneer2 |
N4:Destroyerengine | N5:Destroyerops | N6:F-16 |
N7:Factory1 | N8:Factory2 | N9:Hfchannel |
N10:Leopard | N11:M109 | N12:Machinegun |
N13:Pink | N14:Volvo | N15:White |
Claims (1)
1.基于SCNN和TCNN联合估计的多目标语音增强方法,其特征在于,包括以下步骤:
步骤一,对输入的信号进行加窗分帧处理,得到输入信号的时频表示形式;
(1)首先对输入的信号进行时频分解;
首先,原始语音信号y(p)通过方程(1)中的预处理,将信号分帧,并利用汉明窗对每帧进行平滑处理得到yt(n);
其中yt(n)为第t帧语音信号的第n个样点,L为帧长,p为窗长;w(n)为汉明窗,它的表达式为:
(2)离散傅里叶变换
对每帧信号yt(n)进行离散傅里叶变换,得到每帧信号的频谱Y(t,f);如公式(3)所示:
Y(t,f)=DFT[yt(n)] (3)
式中f表示频域中的第f个频点,0≤f≤L/2+1;
(3)计算谱线能量
频域中的每一帧语音信号谱线的能量E(t,f)表示为:
E(t,f)=[Y(t,f)]2 (4)
步骤二,对输入信号的时频单元进行LPS特征参数提取
对每一帧的频谱能量做对数运算,得到LPS特征参数:
zLPS(t,f)=logE(t,f) (5)
步骤三,对输入信号的时频单元进行PC-MFCC特征参数提取
(1)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器的能量S(t,r)定义为:
其中N表示DFT点数,Hr(f)表示第r个Mel滤波器,R表示Mel滤波器的个数,R=20;
(2)对Mel能量进行幂函数压缩
为了使所提取的特征更加符合人类听觉特性,采用幂函数对Mel滤波器能量进行压缩,得到Sp(t,r):
Sp(t,r)=[S(t,r)]α (7)
其中α =1/15
(3)去相关操作
最后利用DCT变换去除不同维度之间的相关性,并提取1维动态能量特征进而得到改进的21维的PC-MFCC:
其中m代表第m维PC-MFCC特征参数,M代表PC-MFCC特征总的维数,M=21;
步骤四,计算理想比值掩蔽IRM
理想比值掩蔽IRM是一个比值的时频掩蔽矩阵,通过纯净语音能量和噪声能量计算得到,其定义为:
其中,x(t,f)和n(t,f)分别代表干净语音能量和噪声能量,zIRM(t,f)为IRM;
步骤五,构建互补特征集
互补特征集由含噪LPS和PC-MFCC组成;
步骤六,构建互补目标集
互补目标集由干净的LPS,PC-MFCC和IRM组成;
步骤七,构建深度神经网络STCNN模型;STCNN模型的结构由3部分组成:SCNN层、TCNN层和前馈层;
(1)SCNN层提取高层次抽象特征
SCNN将含噪LPS特征序列作为输入,提取高层抽象特征;SCNN的输入维度是T×F×1,其中T是语音信号的帧数,F是每一帧的特征维度,1是输入信道的数目;SCNN层包含3个卷积层,每个后面都跟随一个批量归一化层和最大池化层,其中卷积核大小设置为3×3,最大池化层的尺寸分别设置为1×8,1×8和1×5,并将通道数从1增加到64;最后,堆叠卷积网络的最终输出维度为T×4×64;
(2)TCNN层进行时序建模
TCNN的剩余块;由三个卷积层组成:输入1×1卷积层、深度卷积层和输出1×1卷积层;输入卷积使通道数加倍,以便数据并行处理;输出卷积代替完全连接层返回原始信道号,使输入和输出的维数一致;深度卷积用于降低网络的空间复杂度,非线性激活函数(ReLU)和归一化层被加在和两个卷积层之间;
将SCNN的输出整形为T×256的一维信号,并与特征维度为T×21的PC-MFCC相结合;因此TCNN的输入维度为T×277;将TCNN设置为3层,其中每一层都是由6个具有递增膨胀因子的一维卷积块组成,这6个卷积块的膨胀率以依次为1、2、4、8、16、32每个卷积块的填充为零,以确保输入和输出维度一致;
(3)前馈层整合输出
最后,两个前馈层根据目标的不同返回每个目标对应维度的输出;
步骤八,将步骤五中构建的互补特征集和步骤六构建的互补目标集分别作为STCNN的输入和输出,采用自适应学习率的随机梯度下降算法对网络进行训练,训练完成以后,保存网络的权值和偏置,其训练采用的是线下训练;
采用多目标学习,将LPS特征,PC-NFCC特征和IRM进行联合估计,以完善神经网络的预测,如式(10);
其中F=L/2+1=161,是LPS和IRM的特征维数,T是语音信号的帧数;Er一个平均加权的均方误差函数;zLPS(t,f),zPC-MFCC(t,m)和zIRM(t,f)分别是对应时频单元的干净LPS,PC-MFCC和IRM;相对应的, 和分别是神经网络估计的LPS,PC-MFCC和IRM;
步骤九,采用训练集未见的15种噪声与纯净语音合成测试的含噪语音,并提取互补特征集,输入到步骤八中已经训练好的STCNN中,进而预测干净的LPS,PC-MFCC和IRM;
步骤十,构建基于IRM的后处理过程
将IRM作为自适应调节系数,根据语音存在信息动态控制IRM和LPS在后处理过程中的比例,如公式(11)所示;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910935064.3A CN110867181B (zh) | 2019-09-29 | 2019-09-29 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910935064.3A CN110867181B (zh) | 2019-09-29 | 2019-09-29 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110867181A CN110867181A (zh) | 2020-03-06 |
CN110867181B true CN110867181B (zh) | 2022-05-06 |
Family
ID=69652460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910935064.3A Active CN110867181B (zh) | 2019-09-29 | 2019-09-29 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867181B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524530A (zh) * | 2020-04-23 | 2020-08-11 | 广州清音智能科技有限公司 | 一种基于膨胀因果卷积的语音降噪方法 |
CN111755022B (zh) * | 2020-07-15 | 2023-05-05 | 广东工业大学 | 基于时序卷积网络的混合听诊信号分离方法及相关装置 |
CN111899711A (zh) * | 2020-07-30 | 2020-11-06 | 长沙神弓信息科技有限公司 | 一种无人机传感器振动噪声抑制方法 |
CN111968666B (zh) * | 2020-08-20 | 2022-02-01 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
US12062369B2 (en) | 2020-09-25 | 2024-08-13 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN112349277B (zh) * | 2020-09-28 | 2023-07-04 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
CN112466318B (zh) * | 2020-10-27 | 2024-01-19 | 北京百度网讯科技有限公司 | 语音处理方法、装置及语音处理模型的生成方法、装置 |
CN116508099A (zh) * | 2020-10-29 | 2023-07-28 | 杜比实验室特许公司 | 基于深度学习的语音增强 |
CN113057653B (zh) * | 2021-03-19 | 2022-11-04 | 浙江科技学院 | 一种基于信道混合卷积神经网络的运动脑电信号分类方法 |
CN115188389B (zh) * | 2021-04-06 | 2024-04-05 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
US11514927B2 (en) * | 2021-04-16 | 2022-11-29 | Ubtech North America Research And Development Center Corp | System and method for multichannel speech detection |
CN113241083B (zh) * | 2021-04-26 | 2022-04-22 | 华南理工大学 | 一种基于多目标异质网络的集成语音增强系统 |
CN113903352B (zh) * | 2021-09-28 | 2024-10-29 | 阿里云计算有限公司 | 一种单通道语音增强方法及装置 |
CN114692681B (zh) * | 2022-03-18 | 2023-08-15 | 电子科技大学 | 基于scnn的分布式光纤振动及声波传感信号识别方法 |
CN116778970B (zh) * | 2023-08-25 | 2023-11-24 | 长春市鸣玺科技有限公司 | 强噪声环境下的语音检测模型训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017165551A1 (en) * | 2016-03-22 | 2017-09-28 | Sri International | Systems and methods for speech recognition in unseen and noisy channel conditions |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN110060704A (zh) * | 2019-03-26 | 2019-07-26 | 天津大学 | 一种改进的多目标准则学习的语音增强方法 |
CN110120227A (zh) * | 2019-04-26 | 2019-08-13 | 天津大学 | 一种深度堆叠残差网络的语音分离方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190095787A1 (en) * | 2017-09-27 | 2019-03-28 | Hsiang Tsung Kung | Sparse coding based classification |
-
2019
- 2019-09-29 CN CN201910935064.3A patent/CN110867181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017165551A1 (en) * | 2016-03-22 | 2017-09-28 | Sri International | Systems and methods for speech recognition in unseen and noisy channel conditions |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN110060704A (zh) * | 2019-03-26 | 2019-07-26 | 天津大学 | 一种改进的多目标准则学习的语音增强方法 |
CN110120227A (zh) * | 2019-04-26 | 2019-08-13 | 天津大学 | 一种深度堆叠残差网络的语音分离方法 |
Non-Patent Citations (3)
Title |
---|
一种基于组合深层模型的语音增强方法;李璐君等;《信息工程大学学报》;20180815(第04期);全文 * |
基于深度学习的听觉倒谱系数语音增强算法;李如玮,孙晓月,刘亚楠,李涛;《华中科技大学学报(自然科学版)》;20190916;全文 * |
基于深度学习的语音增强技术研究;徐思颖;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I136-333 * |
Also Published As
Publication number | Publication date |
---|---|
CN110867181A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Zhao et al. | Late reverberation suppression using recurrent neural networks with long short-term memory | |
CN105448302B (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN111986660A (zh) | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
Zhang et al. | Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss. | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN110931034B (zh) | 一种送话拾音麦克风内置型耳机的拾音降噪方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |