CN118692481A - 消噪及啸叫检测方法、装置、电子设备和存储介质 - Google Patents
消噪及啸叫检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN118692481A CN118692481A CN202310306525.7A CN202310306525A CN118692481A CN 118692481 A CN118692481 A CN 118692481A CN 202310306525 A CN202310306525 A CN 202310306525A CN 118692481 A CN118692481 A CN 118692481A
- Authority
- CN
- China
- Prior art keywords
- noise
- signal data
- howling
- howling detection
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 239
- 230000008030 elimination Effects 0.000 title claims abstract description 99
- 238000003379 elimination reaction Methods 0.000 title claims abstract description 99
- 230000005236 sound signal Effects 0.000 claims abstract description 158
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 54
- 238000012216 screening Methods 0.000 claims description 25
- 238000004088 simulation Methods 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 230000010339 dilation Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开涉及一种消噪及啸叫检测方法、装置、电子设备和存储介质,该方法包括:通过消噪及啸叫检测网络模型中的降采样模块接收待啸叫检测及消噪的音频信号数据并进行降采样;通过消噪及啸叫检测网络模型中的编码模块对降采样后的信号进行特征提取;通过消噪及啸叫检测网络模型中的线性层模块对提取的特征进行线性变换;通过消噪及啸叫检测网络模型中的降噪解码模块对线性变换后的特征进行上采样,得到消噪后的音频信号数据;通过消噪及啸叫检测网络模型中的啸叫检测模块对线性变换后的特征进行啸叫检测,得到啸叫检测结果。本公开实现了利用一个量级轻、延迟低,适合于低功耗、小型化场景的网络模型执行消噪和啸叫检测的双重噪声处理。
Description
技术领域
本公开涉及计算机和神经网络技术领域,特别涉及一种消噪及啸叫检测方法、装置、电子设备和存储介质。
背景技术
啸叫是噪音的一种。啸叫现象一般出现在会议室、KTV(Karaoke TV,卡拉OK)等带有公放拾音系统的场所,啸叫产生的原因是声学传播路径存在麦克风和扬声器之间的反馈闭环通路。在网络通话的场景中,通话双方或者多方之间,由扬声器发出的声音被麦克风接收使得网络和通话者之间形成闭环,给通话质量带来严重干扰。
在传统的场景中,由于系统相对稳定,所产生的啸叫具有明显的时频域特征,例如具有稳定的啸叫频点,啸叫的能量逐渐增大,并且会长时间持续产生。而在RTC(Real-TimeCommunication,实时通信)场景中,由于环境的多样性,设备的多样性,设备位置的变化等非线性和多样性因素的存在,整个系统呈现出非线性、时变的特征,从而导致最终啸叫表现出间断性、多频点、频点扩散、频点移动、点叫等的特征。也正是因为场景的复杂性以及啸叫特征的多样性,基于传统的信号处理的检测方案很难准确地捕捉到RTC场景下的啸叫特征。另外,除啸叫以外的其他形式的噪音也影响着RTC场景中的通话质量。
因此,如何去除包含啸叫在内的各种噪音并对啸叫进行实时检测,便成为亟待解决的问题。
发明内容
有鉴于此,本公开提供一种消噪及啸叫检测方法、装置、电子设备和存储介质,实现了利用一个量级轻、延迟低,适合于低功耗、小型化场景的消噪及啸叫检测网络模型完成消噪和啸叫检测的双重噪声处理。
本公开的技术方案是这样实现的:
根据本公开实施例的一方面,提供一种消噪及啸叫检测方法,包括:
通过训练后的消噪及啸叫检测网络模型中的降采样模块,接收待啸叫检测及消噪的音频信号数据并进行降采样;
通过所述训练后的消噪及啸叫检测网络模型中的编码模块,对经由所述降采样模块降采样后的信号进行特征提取;
通过所述训练后的消噪及啸叫检测网络模型中的线性层模块,对经由所述编码模块提取的特征进行线性变换;
通过所述训练后的消噪及啸叫检测网络模型中的降噪解码模块,对经由所述线性层模块线性变换后的特征进行上采样,得到消噪后的音频信号数据;以及,
通过所述训练后的消噪及啸叫检测网络模型中的啸叫检测模块,对经由所述线性层模块线性变换后的特征进行啸叫检测,得到所述待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
在一种可能实施方式中,所述训练后的消噪及啸叫检测网络模型通过如下过程获得:
获取纯净音频信号数据和噪声信号数据,根据所述纯净音频信号数据和所述噪声信号数据,得到含有啸叫和噪声特征的音频训练样本;
将所述音频训练样本输入预训练的消噪及啸叫检测网络模型,以所述纯净音频信号数据作为目标,并以啸叫标签作为分类标签,对所述预训练的消噪及啸叫检测网络模型进行训练,得到所述训练后的消噪及啸叫检测网络模型。
在一种可能实施方式中,根据所述纯净音频信号数据和所述噪声信号数据,得到含有啸叫和噪声特征的音频训练样本,包括:
采用加窗方式从所述噪声信号数据中得到至少一个噪声片段信号数据的功率值,其中,所述至少一个噪声片段信号数据满足预设的功率筛选阈值条件;
从所述纯净音频信号数据中得到至少一个纯净音频片段信号数据的功率值,其中,所述至少一个纯净音频片段信号数据与所述至少一个噪声片段信号数据处于所述加窗方式中相同的时间窗口内;
根据所述至少一个纯净音频片段信号数据的功率值得到所述至少一个纯净音频片段信号数据的平均功率值,根据所述至少一个噪声片段信号数据的功率值得到所述至少一个噪声片段信号数据的平均功率值;
根据所述至少一个纯净音频片段信号数据的平均功率值、所述至少一个噪声片段信号数据的平均功率值、以及预设的信噪比,得到噪声缩放因子;
根据所述纯净音频信号数据、所述噪声信号数据、以及所述噪声缩放因子,得到含噪信号数据;
对所述含噪信号数据进行啸叫处理,得到所述音频训练样本。
在一种可能实施方式中,所述采用加窗方式从所述噪声信号数据中得到至少一个噪声片段信号数据的功率值,包括:
将所述噪声信号数据按照时间顺序划分为多个所述时间窗口,从所述噪声信号数据中得到每一个所述时间窗口中的待选噪声片段信号数据;
根据每一个所述待选噪声片段信号数据,得到每一个所述待选噪声片段信号数据的功率值;
从所有所述待选噪声片段信号数据中筛选出功率值满足所述功率筛选阈值条件的至少一个待选噪声片段信号数据;
将功率值满足所述功率筛选阈值条件的至少一个待选噪声片段信号数据,确定为所述至少一个噪声片段信号数据,得到所述至少一个噪声片段信号数据的功率值。
在一种可能实施方式中,所述对所述含噪信号数据进行啸叫处理,包括:
对所述含噪信号数据进行啸叫仿真和啸叫操作中的至少一种。
在一种可能实施方式中,在根据所述纯净音频信号数据和所述噪声信号数据,得到含有啸叫和噪声特征的音频训练样本之前,还包括:
对所述纯净音频信号数据和所述噪声信号数据进行归一化处理。
在一种可能实施方式中,所述对所述预训练的消噪及啸叫检测网络模型进行训练,包括:
将交叉熵损失函数作为啸叫检测损失函数,将平均绝对值误差损失函数和多尺度短时傅立叶变换损失函数作为消噪处理损失函数,根据啸叫检测损失函数和消噪处理损失函数构建联合损失函数;
将所述音频训练样本输入所述预训练的消噪及啸叫检测网络模型,获得消噪及啸叫检测预测值;
根据所述消噪及啸叫检测预测值、所述纯净音频信号数据、所述啸叫标签,通过所述联合损失函数得到所述消噪及啸叫检测预测值与所述纯净音频信号数据和所述啸叫标签之间的差异损失;
根据所述差异损失调整所述消噪及啸叫检测网络模型的模型参数,直至所述差异损失低于预设的损失阈值或者达到设定的迭代次数。
在一种可能实施方式中,在得到消噪后的音频信号数据,并得到音频信号数据中是否存在啸叫的检测结果之后,进一步包括:
在得到音频信号数据中存在啸叫的检测结果的情况下,将所述消噪后的音频信号数据中对应于存在啸叫的部分的频率点进行幅度补偿。
根据本公开实施例的另一方面,提供一种消噪及啸叫检测装置,包括:
降采样处理模块,被配置为执行通过训练后的消噪及啸叫检测网络模型中的降采样模块,接收待啸叫检测及消噪的音频信号数据并进行降采样;
特征提取模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的编码模块,对经由所述降采样模块降采样后的信号进行特征提取;
线性变换模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的线性层模块,对经由所述编码模块提取的特征进行线性变换;
消噪处理模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的降噪解码模块,对经由所述线性层模块线性变换后的特征进行上采样,得到消噪后的音频信号数据;以及,
啸叫检测处理模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的啸叫检测模块,对经由所述线性层模块线性变换后的特征进行啸叫检测,得到所述待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
根据本公开实施例的另一方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现能够实现上述任一实施方式所述的消噪及啸叫检测方法。
根据本公开实施例的另一方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时,使得所述电子设备能够实现上述任一实施方式所述的消噪及啸叫检测方法。
从上述方案可以看出,本公开的消噪及啸叫检测方法、装置、电子设备和存储介质中,根据噪声信号数据中的功率值大于功率筛选阈值的部分确定噪声缩放因子进而得到音频训练样本,从而在音频训练样本中保持了短时噪声的瞬时特定,进而基于这种音频训练样本所训练得到的消噪网络模型增强了消除短时噪声的能力,能够有效地消除音频信号中的短时噪声。另外在制备音频训练样本的过程中还执行了啸叫操作,使得音频训练样本中包含了啸叫的特征,基于这种啸叫的特征能够使得本公开中的消噪及啸叫检测网络模型还同时具备了检测啸叫的能力。本公开的技术方案,实现了通过一个神经网络模型完成消噪和啸叫检测的双重噪声处理任务的目的,并且在此基础之上,在得到音频信号数据中存在啸叫的检测结果的情况下,将消噪后的音频信号数据中对应于存在啸叫的部分进行补偿,能够极大提升消噪后的音频信号数据的质量。另外,本公开提供的消噪及啸叫检测网络模型量级轻、延迟低,适合于低功耗、小型化的场景。本公开的消噪及啸叫检测方法、装置、电子设备和存储介质,实现了利用一个量级轻、延迟低,适合于低功耗、小型化场景的消噪及啸叫检测网络模型执行消噪和啸叫检测的双重噪声处理。
附图说明
图1是根据一示意性实施例示出的一种消噪及啸叫检测方法流程图;
图2是根据一示意性实施例示出的得到含有啸叫和噪声特征的音频训练样本的流程图;
图3是根据一示意性实施例示出的得到噪声片段信号数据的功率值的流程图;
图4是根据本公开实施例得到的含噪信号数据与传统混噪方式得到的含噪信号数据的对比图;
图5是根据一示意性实施例示出的啸叫仿真原理图;
图6是根据一示意性实施例示出的音频信号在啸叫仿真前后的音频信号比较示意图;
图7是根据一示意性实施例示出的消噪及啸叫检测网络模型结构示意图;
图8是根据一示意性实施例示出的对预训练的消噪及啸叫检测网络模型进行训练的流程图;
图9是根据一示意性实施例示出的一种消噪及啸叫检测方法的应用场景流程图;
图10是根据一示意性实施例示出的消噪网络的流式推理图;
图11是根据一示意性实施例示出的另一种消噪及啸叫检测方法流程图;
图12是根据一示意性实施例示出的一种消噪及啸叫检测装置结构示意图;
图13是根据一示意性实施例示出的另一种消噪及啸叫检测装置结构示意图;
图14是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本公开作进一步详细说明。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
啸叫抑制的方法通常采用估计啸叫点的频率,通过降低啸叫频率处的增益的方式,达到抑制啸叫的目的。啸叫本身属于一种噪声类型。鉴于此,本公开实施例提供一种利用一个神经网络模型实现联合消噪和啸叫检测的方案,在消除包含啸叫的噪音的同时,得到啸叫检测结果,可以实时检测啸叫出现的时间点,同时抑制啸叫和其他类型的噪声。由于啸叫点能量较高,在啸叫抑制时对正常的如人声等纯净声音会造成一定损伤,因此实时检测啸叫也有助于对啸叫产生时间点的纯净声音进行一定的补偿。
图1是根据一示意性实施例示出的一种消噪及啸叫检测方法流程图,如图1所示,该消噪及啸叫检测方法主要包括以下步骤101至步骤103。
步骤101、获取纯净音频信号数据和噪声信号数据,根据纯净音频信号数据和噪声信号数据,得到含有啸叫和噪声特征的音频训练样本。
传统的信号混噪方案是计算整个时间段内纯净音频信号和噪声信号的功率,然后根据纯净音频信号和噪声信号之间的信噪比得到噪声信号的缩放因子,再将纯净音频信号和噪声信号相加。然而,这种混噪方案对于诸如关门声、短时嚎叫声(如狗叫)等短时噪声来说并不能保持原来的瞬时特性,会降低整个区间段内的噪声幅值,钝化了信号的瞬时变化。
为了解决这一问题,本公开实施例中,在步骤101中通过如下方法得到含有啸叫和噪声特征的音频训练样本,保持了音频训练样本中的短时噪声的瞬时特性,进而基于这种音频训练样本所训练得到的消噪网络模型能够具备消除短时噪声的能力,能够有效地消除音频信号中的短时噪声。
图2是根据一示意性实施例示出的得到含有啸叫和噪声特征的音频训练样本的流程图,如图2所示,步骤101具体包括如下步骤201至步骤206。
步骤201、采用加窗方式从噪声信号数据中得到至少一个噪声片段信号数据的功率值,其中,至少一个噪声片段信号数据满足预设的功率筛选阈值条件。
其中,加窗方式是指设置时间窗口,在噪声信号数据中,按照设置的时间窗口得到多个待选噪声片段信号数据。例如,时间窗口为4ms(毫秒),时间窗口的移动步长为2ms,那么对于一段10s(秒)的噪声信号数据,则会得到4999个噪声片段信号。
图3是根据一示意性实施例示出的得到噪声片段信号数据的功率值的流程图,如图3所示,步骤201可以具体包括如下步骤301至步骤304。
步骤301、将噪声信号数据按照时间顺序划分为多个时间窗口,从噪声信号数据中得到每一个时间窗口中的待选噪声片段信号数据。
在示意性实施例中,每个时间窗口的时长例如为4ms,相邻时间窗口之间的移动步长例如为2ms,也就是说,一段音频数据中,从0ms到4ms为第一个时间窗口,2ms到6ms为第二个时间窗口,以此类推。
在示意性实施例中,假设噪声信号数据的时长为10s,并且每个时间窗口的时长为4ms,相邻时间窗口之间的移动步长为2ms,则在步骤301中得到的时间窗口的数量为4999,得到的对应于每一个时间窗口的待选噪声片段信号数据的数量为4999。
步骤302、根据每一个待选噪声片段信号数据,得到每一个待选噪声片段信号数据的功率值。
在示意性实施例中,通过如下公式(1)得到待选噪声片段信号数据的功率值:
在公式(1)中,noise_seg_spe为待选噪声片段信号数据的功率值,N为时间窗口的长度,因为音频数据采用数字音频形式,所以时间窗口的长度反映于这段时间窗口中的音频数据点的数量,因此N也可以理解为时间窗口内音频数据的数据点数量,noise[i]为N中的第i个噪声数据点的幅度值;在示意性实施例中,noise[i]从归一化处理后的噪声信号数据中得到,关于归一化处理,详见后续说明。
步骤303、从所有待选噪声片段信号数据中筛选出功率值满足功率筛选阈值条件的至少一个待选噪声片段信号数据。
在示意性实施例中,步骤303中通过将预设的功率筛选阈值和每一个待选噪声片段信号数据的功率值相比较的方式而筛选出功率值满足功率筛选阈值条件的至少一个待选噪声片段信号数据。在示意性实施例中,功率筛选阈值条件为功率值大于功率筛选阈值。
步骤304、将功率值满足功率筛选阈值条件的至少一个待选噪声片段信号数据,确定为至少一个噪声片段信号数据,得到至少一个噪声片段信号数据的功率值。
由于噪声片段信号数据是从待选噪声片段信号数据中筛选而出的,所以,噪声片段信号数据的功率值也是由上述得到待选噪声片段信号数据的功率值的公式而得到。在示意性实施例中,由于功率值大于功率筛选阈值的待选噪声片段信号数据为筛选出的噪声片段信号数据,因此,可以直接缓存大于功率筛选阈值的待选噪声片段信号数据的功率值。
在示意性实施例中,可以通过列表的形式将得到的噪声片段信号数据的功率值进行缓存。
在示意性实施例中,在步骤301至步骤304中,可以通过时间顺序依次得到各个待选噪声片段信号数据的功率值并与功率筛选阈值进行比较而筛选出噪声片段信号数据,得到噪声片段信号数据。
步骤202、从纯净音频信号数据中得到至少一个纯净音频片段信号数据的功率值,其中,至少一个纯净音频片段信号数据与至少一个噪声片段信号数据处于加窗方式中相同的时间窗口内。
在示意性实施例中,纯净音频信号数据的时长和噪声信号数据的时长相等。如果原始的纯净音频信号数据的时长和噪声信号数据的时长不相等,则可以在先前的预处理阶段,通过截断、连接的方式将纯净音频信号数据的时常和噪声信号数据预处理为时长相等。
针对步骤202的技术方案,举例来说,经过步骤201得到的某一个噪声片段信号数据处于第a1个时间窗口,则在步骤202中,从纯净音频信号数据中得到第a1个时间窗口中的纯净音频片段信号数据,同样地,经过步骤201得到的某另一个噪声片段信号数据处于第a2个时间窗口,则在步骤202中,从纯净音频信号数据中得到第a2个时间窗口中的纯净音频片段信号数据,以此类推,从纯净音频信号数据中得到至少一个纯净音频片段信号数据的功率值。其中,a1、a2可以是所有A个时间窗口当中的任意两个时间窗口。
在示意性实施例中,通过如下公式(2)得到纯净音频片段信号数据的功率值:
在公式(2)中,clean_seg_spe为纯净音频片段信号数据的功率值,N为时间窗口的长度,clean[i]为N中的第i个纯净音频数据点的幅度值;在示意性实施例中,clean[i]从归一化处理后的纯净音频信号数据中得到,关于归一化处理,详见后续说明。
通过上述方式筛选出的噪声片段信号数据中剔除了噪声信号数据中功率过小的部分,因此结合于后续步骤203至步骤206进行混噪所得到的音频训练样本中,能够更好地保留其中瞬时噪声的特性。
步骤203、根据至少一个纯净音频片段信号数据的功率值得到至少一个纯净音频片段信号数据的平均功率值,根据至少一个噪声片段信号数据的功率值得到至少一个噪声片段信号数据的平均功率值。
在示意性实施例中,将至少一个纯净音频片段信号数据的功率值的算术平均值,作为至少一个纯净音频片段信号数据的平均功率值;将至少一个噪声片段信号数据的功率值的算术平均值,作为至少一个噪声片段信号数据的平均功率值。
在示意性实施例中,通过如下公式(3)和公式(4)得到至少一个纯净音频片段信号数据的平均功率值和至少一个噪声片段信号数据的平均功率值:
在公式(3)中,clean_spe为至少一个纯净音频片段信号数据的平均功率值,L为至少一个纯净音频片段信号数据的总数量,clean_seg_spe_list[i]为至少一个纯净音频片段信号数据的功率值当中的第i个纯净音频片段信号数据的功率值,i为整数且i的取值范围为[0,L-1]。在公式(4)中,noise_spe为至少一个噪声片段信号数据的平均功率值,L为至少一个噪声片段信号数据的总数量,noise_seg_spe_list[i]为至少一个噪声片段信号数据的功率值当中的第i个噪声片段信号数据的功率值,i为整数且i的取值范围为[0,L-1]。
步骤204、根据至少一个纯净音频片段信号数据的平均功率值、至少一个噪声片段信号数据的平均功率值、以及预设的信噪比,得到噪声缩放因子。
在示意性实施例中,通过如下公式(5)得到噪声缩放因子:
noise_scalar=clean_spe/(10snr/10*noise_spe) (5)
在公式(5)中,noise_scalar为噪声缩放因子,clean_spe为至少一个纯净音频片段信号数据的平均功率值,noise_spe为至少一个噪声片段信号数据的平均功率值,snr为信噪比。
步骤205、根据纯净音频信号数据、噪声信号数据、以及噪声缩放因子,得到含噪信号数据。
在示意性实施例中,通过如下公式(6)得到含噪信号数据:
noisy_signal=clean+noise_scalar*noise (6)
公式(6)中,noisy_signal为含噪信号数据,clean为纯净音频信号数据,noise为噪声信号数据,noise_scalar为噪声缩放因子。
图4是根据本公开实施例得到的含噪信号数据与传统混噪方式得到的含噪信号数据的对比图。图4中上部分为传统混噪方式得到的含噪信号数据,下部分为采用本公开实施例中的上述步骤201至步骤205得到的含噪信号数据,其中,上部分和下部分的含噪信号数据均是由相同的纯净音频信号数据和噪声信号数据所得到。在图4中方框框选区域中,上部分的传统混噪方式得到的含噪信号数据中的混噪信号平稳,没有瞬时变化,而下部分采用本公开实施例中的上述步骤201至步骤205得到的含噪信号数据中的混噪信号出现瞬时幅值的变化,在图4所示的实例中,方框框选区域中的混噪信号对应于噪声信号数据是一段瞬时的关门声音信号。从图4的对比能够看出,传统混噪方式得到的含噪信号数据中没有很好地保留住原有噪声信号数据中瞬时噪声的特性,而本公开实施例的方案,能更好地保留瞬时噪声的特性,反映的噪声场景更真实。因此,基于本公开实施例的方案得到的音频训练样本对相关的消噪模型进行训练,能够使得消噪模型具有准确分辨瞬时噪声特征的能力,具有更加良好的消噪效果。
步骤206、对含噪信号数据进行啸叫处理,得到音频训练样本。
在示意性实施例中,可以采用多种方式对含噪信号数据进行啸叫处理,例如可以对含噪信号数据进行啸叫仿真和啸叫操作中的至少一种,实现对含噪信号数据的啸叫处理。
其中,在示意性实施例中,啸叫操作可以包括:在拾音器(如麦克风)和扬声器之间建立回路连接,通过扬声器播放含噪信号数据,并通过拾音器接收扬声器播放的音频,使得拾音器接收的音频从扬声器播放而再次由拾音器接收并再次从扬声器播放,在拾音器和扬声器之间发生循环,进而产生啸叫。
关于啸叫仿真,可以参见图5所示的啸叫仿真原理图,如图5所示,麦克风收录含噪信号数据之后进行增益放大,之后通过扬声器播出,经过房间脉冲响应(RIR,Room ImpluseResponse)后被麦克风再次收录,循环反复形成闭环通路,从而产生啸叫。其中,房间脉冲响应,可以根据房间的尺寸、麦克风和扬声器的位置、混响时间等来计算得到,通过RIR系数与扬声器的信号进行卷积来模拟房间内的混响信号,关于进一步具体的模拟过程,可参见已有技术,此处不再赘述。
图6是根据一示意性实施例示出的音频信号在啸叫仿真前后的音频信号比较示意图,其中,从上至下依次为音频信号在啸叫仿真前的音频时域图、在啸叫仿真前的音频频域图、在啸叫仿真后的音频时域图、在啸叫仿真后的音频频域图,其中,方框中为啸叫仿真处理的音频信号部分,能够看出,进行啸叫仿真之后,该音频信号部分的幅值明显增大,频谱值也更大。
如上,本公开实施例中,音频训练样本是基于对纯净音频信号数据和噪声信号数据而获得,在这种情况下,在纯净音频信号数据和噪声信号数据之间,如果纯净音频信号数据过大或者如果噪声信号数据过大,有会影响到纯净音频信号数据和噪声信号数据各自特征在音频训练样本当中的比重,进而可能导致音频训练样本质量过低的问题,为了解决这一问题,平衡纯净音频信号数据和噪声信号数据各自特征在音频训练样本当中的比重,在示意性实施例中,在执行步骤101之前,本公开实施例的消噪及啸叫检测方法还可以进一步包括:
对纯净音频信号数据和噪声信号数据进行归一化处理。
在示意性实施例中,依据如下公式(7)和公式(8)对纯净音频信号数据和噪声信号数据进行归一化处理:
cleannormal=clean/(max(abs(clean))+EPS) (7)
noisenormal=noise/(max(abs(noise))+EPS) (8)
在公式(7)中,cleannormal表示归一化后的纯净音频信号数据,clean表示纯净音频信号数据,abs(clean)表示纯净音频信号数据中的各个数据点的绝对值,即纯净音频信号数据中的各个数据点的幅值大小,max(abs(clean))表示纯净音频信号数据的最大幅值。
在公式(8)中,noisenormal表示归一化后的噪声信号数据,noise表示噪声信号数据,abs(noise)表示噪声信号数据中的各个数据点的绝对值,即噪声信号数据中的各个数据点的幅值大小,max(abs(noise))表示噪声信号数据的最大幅值。
在公式(7)和公式(8)中,EPS为调节系数,EPS是为了防止分母为0而设置的系数,EPS取较小的数值,例如EPS=10-5。
步骤102、将音频训练样本输入预训练的消噪及啸叫检测网络模型,以纯净音频信号数据作为目标,并以啸叫标签作为分类标签,对预训练的消噪及啸叫检测网络模型进行训练,得到训练后的消噪及啸叫检测网络模型,消噪及啸叫检测网络模型用于根据输入的音频信号数据,得到消噪后的音频信号数据以及音频信号数据中是否存在啸叫的检测结果。
本公开实施例的消噪及啸叫检测方法中,消噪及啸叫检测网络模型具有两个输出结果,其中一个为消噪后的音频信号数据,另一个为音频信号数据中是否存在啸叫的检测结果。基于此,本公开中,消噪及啸叫检测网络模型具有支持两个输出结果的相关结构,并且,对消噪及啸叫检测网络模型的训练依据这两个输出结果而制定相关的损失函数。
图7是根据一示意性实施例示出的消噪及啸叫检测网络模型结构示意图,如图7所示,消噪及啸叫检测网络模型包括降采样模块701、编码模块702、线性层模块703、降噪解码模块704和啸叫检测模块705。其中,降采样模块701用于接收待啸叫检测及消噪的音频信号数据并进行降采样;编码模块702连接于降采样模块701并用于对降采样的信号进行特征提取;线性层模块703连接于编码模块702并用于对编码模块702提取的特征进行线性变换;降噪解码模块704连接于线性层模块703并用于对经由线性层模块703线性变换后的特征进行上采样,得到消噪后的音频信号数据,在示意性实施例中,降噪解码模块704采用上采样方式,降噪解码模块704对线性变换后的特征进行上采样而得到消噪后的音频信号数据,因此,降噪解码模块704也可称为上采样输出模块;啸叫检测模块705连接于线性层模块703并用于对经由线性层模块703特征进行啸叫检测,得到所述待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果,在示意性实施例中,啸叫检测模块705采用分类器的形式实现,因此,啸叫检测模块705也可称为分类输出模块。
图8是根据一示意性实施例示出的对预训练的消噪及啸叫检测网络模型进行训练的流程图。如图8所示,在示意性实施例中,步骤102中的对预训练的消噪及啸叫检测网络模型进行训练,包括以下步骤801至步骤804。
步骤801、将交叉熵损失函数作为啸叫检测损失函数,将平均绝对值误差损失函数和多尺度短时傅立叶变换损失函数作为消噪处理损失函数,根据啸叫检测损失函数和消噪处理损失函数构建联合损失函数。
其中,交叉熵损失函数也可称为CE(Cross Entropy)loss函数,平均绝对值误差损失(MAE)函数也可称为L1 loss函数、L1范数损失函数、最小绝对偏差(LAD)函数,多尺度短时傅立叶变换损失函数也可称为多尺度stft loss(短时傅里叶变换损失)函数。
在示意性实施例中,消噪及啸叫检测网络模型的损失函数如下:
total_loss=Lhowling+Ldenoise
其中,total_loss为联合损失函数,Lhowling为啸叫检测损失函数,Lhowling可以采用交叉熵损失函数,Ldenoise为消噪处理损失函数,y为纯净音频信号数据,为经过消噪及啸叫检测网络模型推理而得到的消噪之后的音频信号数据,为y和之差的L1范数,为以y和为变量的第i个尺度的短时傅里叶变换损失,M为总的尺度数量,为以y和为变量的谱收敛损失,为以y和为变量的对数短时傅里叶变换幅度损失,|STFT(y)|为对y的短时傅里叶变换取模,为对的短时傅里叶变换取模,为y和计算短时傅里叶变换之后的Frobenius(弗罗贝尼乌斯)范数(F-范数就是矩阵元素的平方和再开方),|||STFT(y)|||F为y计算短时傅里叶变换取模之后再取F-范数。
Frobenius范数,简称F-范数,是一种矩阵范数,记为||·||F。矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和开根。
步骤802、将音频训练样本输入预训练的消噪及啸叫检测网络模型,获得消噪及啸叫检测预测值。
步骤803、根据消噪及啸叫检测预测值、纯净音频信号数据、啸叫标签,通过联合损失函数得到消噪及啸叫检测预测值与纯净音频信号数据和啸叫标签之间的差异损失。
步骤804、根据差异损失调整消噪及啸叫检测网络模型的模型参数,直至差异损失低于预设的损失阈值或者达到设定的迭代次数。
步骤103、利用训练后的消噪及啸叫检测网络模型,对音频信号数据进行消噪处理和啸叫检测,得到消噪后的音频信号数据,并得到音频信号数据中是否存在啸叫的检测结果。
经过本公开中训练后的消噪及啸叫检测网络模型对音频信号数据的消噪处理得到的消噪后的音频信号数据中,抑制了其中的啸叫和噪音,但是,因为啸叫点能量较高,所以在啸叫抑制时对其中的纯净声音(如人声)会造成一定损伤,因此基于对音频信号数据中是否存在啸叫的进行检测,还能够实现对出现啸叫时的纯净声音(如人声)进行的补偿。在这种情况下,在完成步骤103得到消噪后的音频信号数据,并得到音频信号数据中是否存在啸叫的检测结果之后,在示意性实施例中,还可以进一步包括以下步骤:
在得到音频信号数据中存在啸叫的检测结果的情况下,将消噪后的音频信号数据中对应于存在啸叫的部分的频率点进行幅度补偿。
本公开实施例的消噪及啸叫检测方法,根据噪声信号数据中的功率值大于功率筛选阈值的部分确定噪声缩放因子进而得到音频训练样本,从而在音频训练样本中保持了短时噪声的瞬时特定,进而基于这种音频训练样本所训练得到的消噪网络模型增强了消除短时噪声的能力,能够有效地消除音频信号中的短时噪声。另外在制备音频训练样本的过程中还执行了啸叫操作,使得音频训练样本中包含了啸叫的特征,基于这种啸叫的特征能够使得本公开中的消噪及啸叫检测网络模型还同时具备了检测啸叫的能力。本公开实施例的消噪及啸叫检测方法,实现了通过一个神经网络模型完成消噪和啸叫检测的双重噪声处理任务的目的,并且在此基础之上,在得到音频信号数据中存在啸叫的检测结果的情况下,将消噪后的音频信号数据中对应于存在啸叫的部分进行补偿,能够极大提升消噪后的音频信号数据的质量。另外,本公开实施例中的消噪及啸叫检测网络模型量级轻、延迟低,适合于低功耗、小型化的场景,实现了利用一个量级轻、延迟低,适合于低功耗、小型化场景的消噪及啸叫检测网络模型执行消噪和啸叫检测的双重噪声处理。
图9是根据一示意性实施例示出的一种消噪及啸叫检测方法的应用场景流程图,如图9所示,该应用场景包括以下步骤901至步骤912。
步骤901、获取纯净音频信号数据和噪声信号数据,之后执行步骤902。
其中,纯净音频信号数据和噪声信号数据的时长相等,如果纯净音频信号数据的时长和噪声信号数据的时长不相等,则将纯净音频信号数据的时常和噪声信号数据预处理为时长相等。
步骤902、对纯净音频信号数据和噪声信号数据进行归一化处理,之后执行步骤903。
在示意性实施例中,根据上述公式(7)和公式(8)对纯净音频信号数据和噪声信号数据进行归一化处理。
步骤903、判断噪声信号数据中在当前时间窗口内的噪声片段信号数据是否大于预设的功率筛选阈值,如果是则执行步骤904,否则执行步骤905。
步骤904、缓存该时间窗口内的噪声片段信号数据的功率值,并缓存纯净音频信号数据中在该时间窗口内的纯净音频片段信号数据的功率值,之后执行步骤905。
步骤905、移动至下一个时间窗口,之后执行步骤906。
步骤906、判断当前时间窗口内是否有噪声片段信号数据,如果是则执行步骤903,否则执行步骤907。
上述步骤903至步骤906是针对功率值大于功率筛选阈值的噪声片段信号数据和与其对应的纯净音频片段信号数据的筛选和响应功率值的获得。
在步骤906中,当前时间窗口内没有噪声片段信号数据,表明时间窗口已经移出噪声信号数据,例如噪声信号数据的长度为10s,如果当前时间窗口位于10s至10s+4ms区间,则在前时间窗口内没有噪声片段信号数据。
步骤907、根据缓存的各个时间窗口内的噪声片段信号数据的功率值,得到缓存的所有噪声片段信号数据的平均功率值,根据缓存的各个时间窗口内的纯净音频片段信号数据的功率值,得到缓存的所有纯净音频片段信号数据的平均功率值,之后执行步骤908。
在示意性实施例中,根据上述公式(3)和公式(4)得到缓存的所有噪声片段信号数据的平均功率值和缓存的所有纯净音频片段信号数据的平均功率值。
步骤908、根据缓存的所有噪声片段信号数据的平均功率值、缓存的所有纯净音频片段信号数据的平均功率值、以及预设的信噪比,得到噪声缩放因子,之后执行步骤909。
在示意性实施例中,根据上述公式(5)得到噪声缩放因子。
步骤909、根据纯净音频信号数据、噪声信号数据、以及噪声缩放因子,得到含噪信号数据,之后执行步骤910。
在示意性实施例中,根据上述公式(6)得到含噪信号数据。在示意性实施例中,步骤909中所使用的纯净音频信号数据和噪声信号数据为归一化后的纯净音频信号数据和归一化后的噪声信号数据。在示意性实施例中,在步骤909中还可以对含噪信号数据的信号幅值进行调节而将含噪信号数据的幅值调节到适合的幅值范围区间中。
步骤910、对含噪信号数据进行啸叫仿真,得到音频训练样本,之后执行步骤911。
在示意性实施例中,还可以由啸叫操作替代啸叫仿真而得到音频训练样本。
步骤911、利用音频训练样本对预训练的消噪及啸叫检测网络模型进行训练,得到训练后的消噪及啸叫检测网络模型,之后执行步骤912。
其中,消噪及啸叫检测网络模型的结构可参见图7所示。在示意性实施例中,音频信号(如音频训练样本、待消噪的音频信号数据)的频率为16KHz(千赫兹);降采样模块701中包括卷积单元,卷积单元的参数例如ksize=64、stride=32、c_in=1、c_out=128,其中,ksize为卷积核尺寸(kernel size),stride为步长,c_in为卷积核的输入通道数量,c_out为卷积核的输出通道数量,卷积单元将音频信号按照32点(2ms)进行降采样;编码模块702中包括encoder block(编码器块),在编码模块702中,通过encoder block对信号进行编码,encoder block中包括卷积单元,在示意性实施例中,encoder block对信号顺次进行4次编码,其中,第1次编码的参数例如ksize=3、dilation=1、c_in=128、c_out=128,第2次编码的参数例如ksize=3、dilation=2、c_in=128、c_out=128,第3次编码的参数例如ksize=3、dilation=4、c_in=128、c_out=128,第4次编码的参数例如ksize=3、dilation=8、c_in=128、c_out=128,其中,dilation为膨胀系数;线性层模块703中包括卷积单元,卷积单元的参数例如ksize=1、stride=1、c_in=1、c_out=128;降噪解码模块704中包括转置卷积(conv transpose)单元,转置卷积单元的参数例如ksize=64、stride=32、c_in=128、c_out=1;啸叫检测模块705中包括分类层,分类层的参数例如ksize=1、stride=1、c_in=128、c_out=2。
在示意性实施例中,步骤911的具体训练过程可参见上述步骤801至步骤804的相关说明,此处不再赘述。
步骤912、利用训练后的消噪及啸叫检测网络模型,对待处理的音频信号数据进行消噪处理和啸叫检测,得到消噪后的音频信号数据,并得到音频信号数据中是否存在啸叫的检测结果。
在示意性实施例中,在完成步骤912之后,还可以进一步将消噪后的音频信号数据中对应于存在啸叫的部分的频率点进行幅度补偿。
图10是根据一示意性实施例示出的消噪网络的流式推理图。在示意性实施例中,图10所示中是以卷积核大于1的block为例,卷积核为1的计算不需要数据缓存。如图10所示,在示意性实施例中,每次输入32个数据点,降采样模块的ksize=64、stride=32,因此buffer_in_0(缓冲器输入_0)缓存32个数据点,与新来的32个数据点拼成64个点用于计算,新来的32个点用于下次推理使用,因此新来的32个点放到buffer_out_0(缓冲器输出_0)中,下次推理时替换buffer_in_0作为新的缓存,编码模块的各个卷积单元(编码器块)的场景与降采样模块类似,不再赘述。
图10所示中,最后一层上采样(上采样输出模块、降噪解码模块),通过卷积来实现转置卷积的功能,流式推理时只缓存一个单位长度的buffer_in_up(缓冲器输入_上采样),与新来的一个数据点拼接在一起,前后、中间各填充31个零值,组成95个数据点,然后使用ksize=64、stride=1的卷积进行计算,最终得到32个数据点。
图11是根据一示意性实施例示出的另一种消噪及啸叫检测方法流程图,如图11所示,该另一种消噪及啸叫检测方法主要包括以下步骤1101至步骤1105。
步骤1101、通过训练后的消噪及啸叫检测网络模型中的降采样模块,接收待啸叫检测及消噪的音频信号数据并进行降采样;
步骤1102、通过训练后的消噪及啸叫检测网络模型中的编码模块,对经由降采样模块降采样后的信号进行特征提取;
步骤1103、通过训练后的消噪及啸叫检测网络模型中的线性层模块,对经由编码模块提取的特征进行线性变换;
步骤1104、通过训练后的消噪及啸叫检测网络模型中的降噪解码模块,对经由线性层模块线性变换后的特征进行上采样,得到消噪后的音频信号数据;
步骤1105、通过训练后的消噪及啸叫检测网络模型中的啸叫检测模块,对经由线性层模块线性变换后的特征进行啸叫检测,得到待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
在示意性实施例中,训练后的消噪及啸叫检测网络模型通过如下过程获得:
获取纯净音频信号数据和噪声信号数据,根据纯净音频信号数据和噪声信号数据,得到含有啸叫和噪声特征的音频训练样本;
将音频训练样本输入预训练的消噪及啸叫检测网络模型,以纯净音频信号数据作为目标,并以啸叫标签作为分类标签,对预训练的消噪及啸叫检测网络模型进行训练,得到训练后的消噪及啸叫检测网络模型。
关于上述该另一种消噪及啸叫检测方法以及其中训练后的消噪及啸叫检测网络模型的进一步获得过程可参见图1至图10以及前述的消噪及啸叫检测方法中的相关说明,此处不再赘述。
图12是根据一示意性实施例示出的一种消噪及啸叫检测装置结构示意图,如图12所示,该消噪及啸叫检测装置包括训练样本获得模块1201、训练模块1202和消噪及检测模块1203。
训练样本获得模块1201,被配置为执行获取纯净音频信号数据和噪声信号数据,根据纯净音频信号数据和噪声信号数据,得到含有啸叫和噪声特征的音频训练样本。
训练模块1202,被配置为执行将音频训练样本输入预训练的消噪及啸叫检测网络模型,以纯净音频信号数据作为目标,并以啸叫标签作为分类标签,对预训练的消噪及啸叫检测网络模型进行训练,得到训练后的消噪及啸叫检测网络模型,消噪及啸叫检测网络模型用于根据输入的音频信号数据,得到消噪后的音频信号数据以及音频信号数据中是否存在啸叫的检测结果。
消噪及检测模块1203,被配置为执行利用训练后的消噪及啸叫检测网络模型,对音频信号数据进行消噪处理和啸叫检测,得到消噪后的音频信号数据,并得到音频信号数据中是否存在啸叫的检测结果。
在示意性实施例中,训练样本获得模块1201包括:
第一功率值获得子模块,被配置为执行采用加窗方式从噪声信号数据中得到至少一个噪声片段信号数据的功率值,其中,至少一个噪声片段信号数据满足预设的功率筛选阈值条件;
第二功率值获得子模块,被配置为执行从纯净音频信号数据中得到至少一个纯净音频片段信号数据的功率值,其中,至少一个纯净音频片段信号数据与至少一个噪声片段信号数据处于加窗方式中相同的时间窗口内;
平均功率值获得子模块,被配置为执行根据至少一个纯净音频片段信号数据的功率值得到至少一个纯净音频片段信号数据的平均功率值,根据至少一个噪声片段信号数据的功率值得到至少一个噪声片段信号数据的平均功率值;
缩放因子获得子模块,被配置为执行根据至少一个纯净音频片段信号数据的平均功率值、至少一个噪声片段信号数据的平均功率值、以及预设的信噪比,得到噪声缩放因子;
含噪信号获得子模块,被配置为执行根据纯净音频信号数据、噪声信号数据、以及噪声缩放因子,得到含噪信号数据;
训练样本获得子模块,被配置为执行对含噪信号数据进行啸叫处理,得到音频训练样本。
在示意性实施例中,第一功率值获得子模块,包括:
待选噪声获得子模块,被配置为执行将噪声信号数据按照时间顺序划分为多个时间窗口,从噪声信号数据中得到每一个时间窗口中的待选噪声片段信号数据;
待选噪声功率值获得子模块,被配置为执行根据每一个待选噪声片段信号数据,得到每一个待选噪声片段信号数据的功率值;
待选噪声筛选子模块,被配置为执行从所有待选噪声片段信号数据中筛选出功率值满足功率筛选阈值条件的至少一个待选噪声片段信号数据;
噪声片段功率值获得子模块,被配置为执行将功率值满足功率筛选阈值条件的至少一个待选噪声片段信号数据,确定为至少一个噪声片段信号数据,得到至少一个噪声片段信号数据的功率值。
在示意性实施例中,训练样本获得子模块进一步被配置为执行:
对含噪信号数据进行啸叫仿真和啸叫操作中的至少一种。
在示意性实施例中,在训练样本获得模块1201之前,该消噪及啸叫检测装置进一步包括:
归一化处理模块,被配置为执行对纯净音频信号数据和噪声信号数据进行归一化处理。
在示意性实施例中,训练模块1202进一步包括:
联合损失函数构建子模块,被配置为执行将交叉熵损失函数作为啸叫检测损失函数,将平均绝对值误差损失函数和多尺度短时傅立叶变换损失函数作为消噪处理损失函数,根据啸叫检测损失函数和消噪处理损失函数构建联合损失函数;
预测值获得子模块,被配置为执行将音频训练样本输入预训练的消噪及啸叫检测网络模型,获得消噪及啸叫检测预测值;
差异损失获得子模块,被配置为执行根据消噪及啸叫检测预测值、纯净音频信号数据、啸叫标签,通过联合损失函数得到消噪及啸叫检测预测值与纯净音频信号数据和啸叫标签之间的差异损失;
模型参数调整子模块,被配置为执行根据差异损失调整消噪及啸叫检测网络模型的模型参数,直至差异损失低于预设的损失阈值或者达到设定的迭代次数。
在示意性实施例中,在消噪及检测模块1203之后,该消噪及啸叫检测装置进一步包括:
补偿模块,被配置为执行在得到音频信号数据中存在啸叫的检测结果的情况下,将消噪后的音频信号数据中对应于存在啸叫的部分的频率点进行幅度补偿。
在示意性实施例中,消噪及啸叫检测网络模型包括降采样模块、线性层模块、降噪解码模块和啸叫检测模块,降采样模块用于接收待啸叫检测及消噪的音频信号数据并进行降采样,编码模块连接于降采样模块并用于对降采样的信号进行特征提取,线性层模块连接于编码模块并用于对编码模块提取的特征进行线性变换,降噪解码模块连接于线性层模块并用于对线性变换后的特征进行上采样而得到消噪后的音频信号数据,啸叫检测模块连接于线性层模块并用于根据线性变换后的特征得到待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
本公开实施例的消噪及啸叫检测装置,根据噪声信号数据中的功率值大于功率筛选阈值的部分确定噪声缩放因子进而得到音频训练样本,从而在音频训练样本中保持了短时噪声的瞬时特定,进而基于这种音频训练样本所训练得到的消噪网络模型增强了消除短时噪声的能力,能够有效地消除音频信号中的短时噪声。另外在制备音频训练样本的过程中还执行了啸叫操作,使得音频训练样本中包含了啸叫的特征,基于这种啸叫的特征能够使得本公开中的消噪及啸叫检测网络模型还同时具备了检测啸叫的能力。本公开实施例的消噪及啸叫检测装置,实现了通过一个神经网络模型完成消噪和啸叫检测的双重噪声处理任务的目的,并且在此基础之上,在得到音频信号数据中存在啸叫的检测结果的情况下,将消噪后的音频信号数据中对应于存在啸叫的部分进行补偿,能够极大提升消噪后的音频信号数据的质量。另外,本公开实施例中的消噪及啸叫检测网络模型量级轻、延迟低,适合于低功耗、小型化的场景,实现了利用一个量级轻、延迟低,适合于低功耗、小型化场景的消噪及啸叫检测网络模型执行消噪和啸叫检测的双重噪声处理。
图13是根据一示意性实施例示出的另一种消噪及啸叫检测装置结构示意图,如图13所示,该另一种消噪及啸叫检测装置包括降采样处理模块1301、特征提取模块1302、线性变换模块1303、消噪处理模块1304和啸叫检测处理模块1305。
降采样处理模块1301,被配置为执行通过训练后的消噪及啸叫检测网络模型中的降采样模块,接收待啸叫检测及消噪的音频信号数据并进行降采样。
特征提取模块1302,被配置为执行通过训练后的消噪及啸叫检测网络模型中的编码模块,对经由降采样模块降采样后的信号进行特征提取。
线性变换模块1303,被配置为执行通过训练后的消噪及啸叫检测网络模型中的线性层模块,对经由编码模块提取的特征进行线性变换。
消噪处理模块1304,被配置为执行通过训练后的消噪及啸叫检测网络模型中的降噪解码模块,对经由线性层模块线性变换后的特征进行上采样,得到消噪后的音频信号数据。
啸叫检测处理模块1305,被配置为执行通过训练后的消噪及啸叫检测网络模型中的啸叫检测模块,对经由线性层模块线性变换后的特征进行啸叫检测,得到待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
关于上述实施例中的消噪及啸叫检测装置,其中各个单元执行操作的具体方式已经在有关该消噪及啸叫检测方法的实施例中进行了详细描述,此处将不作详细阐述说明。
需要说明的是:上述实施例仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图14是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中,该电子设备为服务器。该电子设备1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1401和一个或一个以上的存储器1402,其中,该存储器1402中存储有至少一条程序代码,该至少一条程序代码由该处理器1401加载并执行以实现上述各个实施例提供的消噪及啸叫检测方法。当然,该电子设备1400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备1400还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括至少一条指令的计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的消噪及啸叫检测方法。
可选地,上述计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。
Claims (11)
1.一种消噪及啸叫检测方法,包括:
通过训练后的消噪及啸叫检测网络模型中的降采样模块,接收待啸叫检测及消噪的音频信号数据并进行降采样;
通过所述训练后的消噪及啸叫检测网络模型中的编码模块,对经由所述降采样模块降采样后的信号进行特征提取;
通过所述训练后的消噪及啸叫检测网络模型中的线性层模块,对经由所述编码模块提取的特征进行线性变换;
通过所述训练后的消噪及啸叫检测网络模型中的降噪解码模块,对经由所述线性层模块线性变换后的特征进行上采样,得到消噪后的音频信号数据;以及,
通过所述训练后的消噪及啸叫检测网络模型中的啸叫检测模块,对经由所述线性层模块线性变换后的特征进行啸叫检测,得到所述待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
2.根据权利要求1所述的消噪及啸叫检测方法,其特征在于,所述训练后的消噪及啸叫检测网络模型通过如下过程获得:
获取纯净音频信号数据和噪声信号数据,根据所述纯净音频信号数据和所述噪声信号数据,得到含有啸叫和噪声特征的音频训练样本;
将所述音频训练样本输入预训练的消噪及啸叫检测网络模型,以所述纯净音频信号数据作为目标,并以啸叫标签作为分类标签,对所述预训练的消噪及啸叫检测网络模型进行训练,得到所述训练后的消噪及啸叫检测网络模型。
3.根据权利要求2所述的消噪及啸叫检测方法,其特征在于,根据所述纯净音频信号数据和所述噪声信号数据,得到含有啸叫和噪声特征的音频训练样本,包括:
采用加窗方式从所述噪声信号数据中得到至少一个噪声片段信号数据的功率值,其中,所述至少一个噪声片段信号数据满足预设的功率筛选阈值条件;
从所述纯净音频信号数据中得到至少一个纯净音频片段信号数据的功率值,其中,所述至少一个纯净音频片段信号数据与所述至少一个噪声片段信号数据处于所述加窗方式中相同的时间窗口内;
根据所述至少一个纯净音频片段信号数据的功率值得到所述至少一个纯净音频片段信号数据的平均功率值,根据所述至少一个噪声片段信号数据的功率值得到所述至少一个噪声片段信号数据的平均功率值;
根据所述至少一个纯净音频片段信号数据的平均功率值、所述至少一个噪声片段信号数据的平均功率值、以及预设的信噪比,得到噪声缩放因子;
根据所述纯净音频信号数据、所述噪声信号数据、以及所述噪声缩放因子,得到含噪信号数据;
对所述含噪信号数据进行啸叫处理,得到所述音频训练样本。
4.根据权利要求3所述的消噪及啸叫检测方法,其特征在于,所述采用加窗方式从所述噪声信号数据中得到至少一个噪声片段信号数据的功率值,包括:
将所述噪声信号数据按照时间顺序划分为多个所述时间窗口,从所述噪声信号数据中得到每一个所述时间窗口中的待选噪声片段信号数据;
根据每一个所述待选噪声片段信号数据,得到每一个所述待选噪声片段信号数据的功率值;
从所有所述待选噪声片段信号数据中筛选出功率值满足所述功率筛选阈值条件的至少一个待选噪声片段信号数据;
将功率值满足所述功率筛选阈值条件的至少一个待选噪声片段信号数据,确定为所述至少一个噪声片段信号数据,得到所述至少一个噪声片段信号数据的功率值。
5.根据权利要求3所述的消噪及啸叫检测方法,其特征在于,所述对所述含噪信号数据进行啸叫处理,包括:
对所述含噪信号数据进行啸叫仿真和啸叫操作中的至少一种。
6.根据权利要求3所述的消噪及啸叫检测方法,其特征在于,在根据所述纯净音频信号数据和所述噪声信号数据,得到含有啸叫和噪声特征的音频训练样本之前,还包括:
对所述纯净音频信号数据和所述噪声信号数据进行归一化处理。
7.根据权利要求2所述的消噪及啸叫检测方法,其特征在于,所述对所述预训练的消噪及啸叫检测网络模型进行训练,包括:
将交叉熵损失函数作为啸叫检测损失函数,将平均绝对值误差损失函数和多尺度短时傅立叶变换损失函数作为消噪处理损失函数,根据啸叫检测损失函数和消噪处理损失函数构建联合损失函数;
将所述音频训练样本输入所述预训练的消噪及啸叫检测网络模型,获得消噪及啸叫检测预测值;
根据所述消噪及啸叫检测预测值、所述纯净音频信号数据、所述啸叫标签,通过所述联合损失函数得到所述消噪及啸叫检测预测值与所述纯净音频信号数据和所述啸叫标签之间的差异损失;
根据所述差异损失调整所述消噪及啸叫检测网络模型的模型参数,直至所述差异损失低于预设的损失阈值或者达到设定的迭代次数。
8.根据权利要求2所述的消噪及啸叫检测方法,其特征在于,在得到消噪后的音频信号数据,并得到音频信号数据中是否存在啸叫的检测结果之后,进一步包括:
在得到音频信号数据中存在啸叫的检测结果的情况下,将所述消噪后的音频信号数据中对应于存在啸叫的部分的频率点进行幅度补偿。
9.一种消噪及啸叫检测装置,其特征在于,包括:
降采样处理模块,被配置为执行通过训练后的消噪及啸叫检测网络模型中的降采样模块,接收待啸叫检测及消噪的音频信号数据并进行降采样;
特征提取模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的编码模块,对经由所述降采样模块降采样后的信号进行特征提取;
线性变换模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的线性层模块,对经由所述编码模块提取的特征进行线性变换;
消噪处理模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的降噪解码模块,对经由所述线性层模块线性变换后的特征进行上采样,得到消噪后的音频信号数据;以及,
啸叫检测处理模块,被配置为执行通过所述训练后的消噪及啸叫检测网络模型中的啸叫检测模块,对经由所述线性层模块线性变换后的特征进行啸叫检测,得到所述待啸叫检测及消噪的音频信号数据中是否存在啸叫的检测结果。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1至7任一项所述的消噪及啸叫检测方法。
11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时,使得所述电子设备能够实现如权利要求1至7任一项所述的消噪及啸叫检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306525.7A CN118692481A (zh) | 2023-03-21 | 2023-03-21 | 消噪及啸叫检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306525.7A CN118692481A (zh) | 2023-03-21 | 2023-03-21 | 消噪及啸叫检测方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118692481A true CN118692481A (zh) | 2024-09-24 |
Family
ID=92763336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306525.7A Pending CN118692481A (zh) | 2023-03-21 | 2023-03-21 | 消噪及啸叫检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118692481A (zh) |
-
2023
- 2023-03-21 CN CN202310306525.7A patent/CN118692481A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
CN111833896B (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
CN104520925B (zh) | 噪声降低增益的百分位滤波 | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
JP6169849B2 (ja) | 音響処理装置 | |
KR0175965B1 (ko) | 통신 시스템에서의 송신 노이즈 감축 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
JP4836720B2 (ja) | ノイズサプレス装置 | |
US8515085B2 (en) | Signal processing apparatus | |
JP5153886B2 (ja) | 雑音抑圧装置および音声復号化装置 | |
JP5300861B2 (ja) | 雑音抑圧装置 | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
KR20130108063A (ko) | 다중 마이크로폰의 견고한 잡음 억제 | |
KR20060046450A (ko) | 이득-제한된 잡음 억제 | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN115472153A (zh) | 语音增强系统、方法、装置及设备 | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 | |
JP6265903B2 (ja) | 信号雑音減衰 | |
CN106328160B (zh) | 一种基于双麦克的降噪方法 | |
Saleem | Single channel noise reduction system in low SNR | |
CN118692481A (zh) | 消噪及啸叫检测方法、装置、电子设备和存储介质 | |
Kawamura et al. | A noise reduction method based on linear prediction analysis | |
CN116597854A (zh) | 一种音频降噪模型训练方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |