CN117238307B

CN117238307B - 基于深度学习的音频优化处理方法及系统

Info

Publication number: CN117238307B
Application number: CN202311500231.4A
Authority: CN
Inventors: 刘耀明; 翟立志
Original assignee: Shenzhen Cloudwinner Network Technology Co ltd
Current assignee: Shenzhen Cloudwinner Network Technology Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-09
Anticipated expiration: 2043-11-13
Also published as: CN117238307A

Abstract

本发明公开了基于深度学习的音频优化处理方法及系统，涉及音频数据处理技术领域，包括：获取音频信号；基于深度学习，建立背景噪音模型，建立音频优化模型；利用背景噪音模型，将噪音分为易辨识噪音和难辨识噪音，将从属易辨识噪音的音频强度降低至预设强度；将第一正弦音频信号的音频强度降低至预设强度；对第二正弦音频信号进行扰动处理，得到第三正弦音频信号；对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分；输出优化音频信号。通过设置深度学习模块、噪声分类模块、噪声处理模块和音频优化模块，降噪处理更为精确，能有针对性的对音频进行优化，进而提升音频效果。

Description

基于深度学习的音频优化处理方法及系统

技术领域

本发明涉及音频数据处理技术领域，具体是涉及基于深度学习的音频优化处理方法及系统。

背景技术

随着互联网技术的发展，互联网应用也得到迅速发展；其中，互联网应用可包括但不限于：即时通信应用、社会性网络服务应用、语音通信应用等。诸如笔记本电脑、手机、PAD等终端中可安装上述互联网应用，终端侧用户可使用终端中的互联网应用与其他用户进行诸如语音电话、音频聊天等音频通话。音质是影响音频通话的一个重要因素。

实践中发现，音响系统在进行音频播放时，扬声器中有时混有爆破音或出现变调、失真等现象。经反复实验找到了发生这种现象的原因：数据处理模块的优化处理方法按照设定的固定模式进行，即对接收到的所有音频数据不加区分地采取相同的降噪优化措施，导致有些音频数据降噪优化后的播放效果反而更差。

发明内容

为解决上述技术问题，提供基于深度学习的音频优化处理方法及系统，本技术方案解决了上述背景技术中提出的对接收到的所有音频数据不加区分地采取相同的降噪优化措施，导致有些音频数据降噪优化后的播放效果反而更差的问题。

为达到以上目的，本发明采用的技术方案为：

基于深度学习的音频优化处理方法，包括：

获取音频信号，将连续信号数字化变成音频数字信号，数字化包括采样、量化和编码，使用傅里叶变换，将音频数字信号分解为至少一个正弦音频信号；

基于深度学习，建立背景噪音模型，建立音频优化模型；

利用背景噪音模型，得到噪音特征，根据噪音特征，将噪音分为易辨识噪音和难辨识噪音，捕获至少一个正弦音频信号中的从属易辨识噪音，从属易辨识噪音为正弦音频信号中与易辨识噪音差距在预设范围内的信号，将从属易辨识噪音的音频强度降低至预设强度，人耳无法识别低于所述预设强度的音频；

对于难辨识噪音，使用傅里叶变换，将难辨识噪音分解为至少一个正弦噪声信号，在至少一个正弦音频信号中，捕获与正弦噪声信号差距在预设范围内的第一正弦音频信号，将第一正弦音频信号的音频强度降低至预设强度，其中，第一正弦音频信号与正弦噪声信号差距的计算方式为在二者定义域上对第一正弦音频信号与正弦噪声信号的差的绝对值进行积分；

使用音频优化模型，获取至少一个特征优化音频信号，在至少一个正弦音频信号中，捕获与特征优化音频信号差距在预设范围内的第二正弦音频信号，对第二正弦音频信号进行扰动处理，得到第三正弦音频信号，其中，第二正弦音频信号与特征优化音频信号差距的计算方式为在二者定义域上对第二正弦音频信号与特征优化音频信号的差的绝对值进行积分；

对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分；

将调整后的至少一个正弦音频信号进行傅里叶逆变换，得到优化后的音频数字信号，重新变换音频数字信号为优化音频信号，输出优化音频信号。

优选的，所述采样、量化和编码包括以下步骤：

作出音频信号的连续图像，横轴为时间，纵轴为音频信号强度；

取有限个时间点，完成采样；

采集时间点处对应的音频信号强度，完成量化；

对得到的量化数据进行编码，表示成计算机能够识别的数字格式。

优选的，所述基于深度学习，建立背景噪音模型包括以下步骤：

大数据获取各种实际的噪声，剔除音频信号中不会出现的噪声，得到样本噪声；

对于样本噪声进行采样、量化和编码，得到噪声数字信号。

优选的，所述建立音频优化模型包括以下步骤：

大数据获取各类标准音频信号；

对于各类标准音频信号进行采样、量化和编码，得到标准音频数字信号。

优选的，所述根据噪音特征，将噪音分为易辨识噪音和难辨识噪音包括以下步骤：

获取背景噪音模型中的所有噪声数字信号；

在噪声数字信号与音频数字信号的定义域上，对噪声数字信号与音频数字信号的差的绝对值进行积分，得到积分差值；

若积分差值大于预设差值，则噪声数字信号为易辨识噪音；

若积分差值不超过预设差值，则噪声数字信号为难辨识噪音。

优选的，所述傅里叶变换具体如下：

其中，F（x）为傅里叶变换后的信号，i为单位虚数，e为自然常数，f（t）为傅里叶变换前的信号；

傅里叶逆变换具体如下：

其中，G（t）为傅里叶逆变换前的信号，i为单位虚数，e为自然常数，g（x）为傅里叶逆变换后的信号。

优选的，所述捕获至少一个正弦音频信号中的从属易辨识噪音，将从属易辨识噪音的音频强度降低至预设强度包括以下步骤：

获取易辨识噪音，在至少一个正弦音频信号中进行检索，得到与易辨识噪音差距在预设范围内的从属易辨识噪音；

获取从属易辨识噪音的第一拟合函数，在至少一个正弦音频信号中添加函数图像为/>的噪音逆反信号；

从属易辨识噪音与噪音逆反信号叠加，得到噪声抵消信号，噪声抵消信号的音频强度降低至预设强度；

将第一正弦音频信号的音频强度降低至预设强度包括以下步骤：

获得第一正弦音频信号的第二拟合函数，在至少一个正弦音频信号中添加函数图像为/>的正弦逆反信号；

第一正弦音频信号与正弦逆反信号叠加，得到噪声消除信号，噪声消除信号的音频强度降低至预设强度。

优选的，所述对第二正弦音频信号进行扰动处理包括以下步骤：

获取拟合第二正弦音频信号的正弦函数，获取拟合特征优化音频信号的特征函数/>；

将正弦函数与特征函数/>作差，得到补偿函数/>，在第二正弦音频信号中添加补偿逆反函数/>，得到第三正弦音频信号，完成扰动。

优选的，所述对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分包括以下步骤：

将第三正弦音频信号与特征优化音频信号在同一个坐标系中作出，横轴为时间，纵轴为音频信号强度；

在坐标系中寻找至少一个关键时间点，第三正弦音频信号与特征优化音频信号满足于在所述关键时间点处的差值超出预设范围；

截取关键时间点处的第三正弦音频信号作为音频关键帧，并在关键时间点处截取特征优化音频信号作为对比关键帧；

获取音频关键帧中第三正弦音频信号的取值p，获取对比关键帧中特征优化音频信号的取值q；

作出突变消除信号的函数，/>满足于在关键时间点处取值为/>，在除关键时间点之外的点处取值为0；

将突变消除信号与第三正弦音频信号叠加输出，完成修正。

基于深度学习的音频优化处理系统，用于实现上述的基于深度学习的音频优化处理方法，包括：

音频处理模块，所述音频处理模块获取音频信号，将连续信号数字化变成音频数字信号，所述音频处理模块得到优化后的音频数字信号，重新变换音频数字信号为优化音频信号，输出优化音频信号；

傅里叶处理模块，所述傅里叶处理模块进行傅里叶变换和傅里叶逆变换；

深度学习模块，所述深度学习模块基于深度学习，建立背景噪音模型，建立音频优化模型；

噪声分类模块，所述噪声分类模块根据噪音特征，将噪音分为易辨识噪音和难辨识噪音；

噪声处理模块，所述噪声处理模块将从属易辨识噪音的音频强度降低至预设强度，将第一正弦音频信号的音频强度降低至预设强度；

音频优化模块，所述音频优化模块对第二正弦音频信号进行扰动处理，得到第三正弦音频信号，所述音频优化模块对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分。

与现有技术相比，本发明的有益效果在于：

通过设置深度学习模块、噪声分类模块、噪声处理模块和音频优化模块，对噪声进行分类，将噪音分为易辨识噪音和难辨识噪音，采用两种降噪方法，对易辨识噪音和难辨识噪音分别进行降噪，降噪处理更为精确，同时也十分快捷，不会影响音频数据，将音频傅里叶变换分解后，使用音频优化模型中的标准音频对对分解的信号进行优化，对个别存在爆破点的分解信号，使用音频关键帧截取的方式进行音频优化，能有针对性的对音频进行优化，进而提升音频效果。

附图说明

图1为本发明的基于深度学习的音频优化处理方法流程示意图；

图2为本发明的采样、量化和编码流程示意图；

图3为本发明的基于深度学习，建立背景噪音模型流程示意图；

图4为本发明的建立音频优化模型流程示意图；

图5为本发明的根据噪音特征，将噪音分为易辨识噪音和难辨识噪音流程示意图；

图6为本发明的捕获至少一个正弦音频信号中的从属易辨识噪音，将从属易辨识噪音的音频强度降低至预设强度流程示意图；

图7为本发明的对第二正弦音频信号进行扰动处理流程示意图；

图8为本发明的对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分流程示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

参照图1所示，基于深度学习的音频优化处理方法，包括：

基于深度学习，建立背景噪音模型，建立音频优化模型；

利用背景噪音模型，得到噪音特征，根据噪音特征，将噪音分为易辨识噪音和难辨识噪音，捕获至少一个正弦音频信号中的从属易辨识噪音，将从属易辨识噪音的音频强度降低至预设强度，人耳无法识别低于所述预设强度的音频；

使用音频优化模型，获取至少一个特征优化音频信号，在至少一个正弦音频信号中，捕获与特征优化音频信号差距在预设范围内的第二正弦音频信号，第二正弦音频信号必然是与特征优化音频信号同种的信号，但二者之间存在差距，而特征优化音频信号为标准信号，因此，要以特征优化音频信号为基础，对第二正弦音频信号进行优化，对第二正弦音频信号进行扰动处理，得到第三正弦音频信号，其中，第二正弦音频信号与特征优化音频信号差距的计算方式为在二者定义域上对第二正弦音频信号与特征优化音频信号的差的绝对值进行积分；

参照图2所示，采样、量化和编码包括以下步骤：

取有限个时间点，完成采样；

采集时间点处对应的音频信号强度，完成量化；

参照图3所示，基于深度学习，建立背景噪音模型包括以下步骤：

对于样本噪声进行采样、量化和编码，得到噪声数字信号；

即将所有可能在音频信号中出现的噪声进行收集，作为样本，在对音频信号降噪时，用于比对找寻音频信号中的噪声。

参照图4所示，建立音频优化模型包括以下步骤：

大数据获取各类标准音频信号；

对于各类标准音频信号进行采样、量化和编码，得到标准音频数字信号；

在优化时，将音频数字信号分解为至少一个正弦音频信号，预先在音频优化模型存储各类标准音频信号，使用标准音频信号对正弦音频信号进行优化。

参照图5所示，根据噪音特征，将噪音分为易辨识噪音和难辨识噪音包括以下步骤：

获取背景噪音模型中的所有噪声数字信号；

若积分差值大于预设差值，说明噪声数字信号与音频数字信号的区别十分大，则噪声数字信号为易辨识噪音；

若积分差值不超过预设差值，说明噪声数字信号与音频数字信号的区别不明显，则噪声数字信号为难辨识噪音。

傅里叶变换具体如下：

傅里叶逆变换具体如下：

参照图6所示，捕获至少一个正弦音频信号中的从属易辨识噪音，将从属易辨识噪音的音频强度降低至预设强度包括以下步骤：

音频数字信号中存在噪声，因此，音频数字信号分解得到的至少一个正弦音频信号中也存在噪声；

获取易辨识噪音，在至少一个正弦音频信号中进行检索，得到与易辨识噪音差距在预设范围内的从属易辨识噪音，从属易辨识噪音与易辨识噪音临近，因此，必然为噪声；

获取从属易辨识噪音的第一拟合函数，在至少一个正弦音频信号中添加函数图像为/>的噪音逆反信号，噪音逆反信号是与从属易辨识噪音相反的信号，二者叠加会互相消除；

参照图7所示，对第二正弦音频信号进行扰动处理包括以下步骤：

将正弦函数与特征函数/>作差，得到补偿函数/>，在第二正弦音频信号中添加补偿逆反函数/>，得到第三正弦音频信号，完成扰动；

扰动后的第三正弦音频信号与特征优化音频信号仍然不完全一致，第三正弦音频信号可能在某点处，存在爆破音，即突变音，原因是，正弦函数是对第二正弦音频信号的近似拟合函数，特征函数/>是对特征优化音频信号的近似拟合函数，正弦函数和特征函数中不存在突变音，因而，使用正弦函数和特征函数所完成的扰动，不会消除第二正弦音频信号中的突变音，得到的第三正弦音频信号中会存在突变音。

因此针对第三正弦音频信号中的突变音，要进行音频关键帧提取，在音频关键帧中将突变音抵消处理。

参照图8所示，对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分包括以下步骤：

将突变消除信号与第三正弦音频信号叠加输出，完成修正。

上述基于深度学习的音频优化处理系统的工作过程如下：

步骤一：音频处理模块获取音频信号，将连续信号数字化变成音频数字信号，数字化包括采样、量化和编码，傅里叶处理模块使用傅里叶变换，将音频数字信号分解为至少一个正弦音频信号；

步骤二：深度学习模块基于深度学习，建立背景噪音模型，建立音频优化模型；

步骤三：噪声分类模块利用背景噪音模型，得到噪音特征，根据噪音特征，将噪音分为易辨识噪音和难辨识噪音，噪声处理模块捕获至少一个正弦音频信号中的从属易辨识噪音，将从属易辨识噪音的音频强度降低至预设强度，人耳无法识别低于所述预设强度的音频；

步骤四：傅里叶处理模块对于难辨识噪音，使用傅里叶变换，将难辨识噪音分解为至少一个正弦噪声信号，噪声处理模块在至少一个正弦音频信号中，捕获与正弦噪声信号差距在预设范围内的第一正弦音频信号，将第一正弦音频信号的音频强度降低至预设强度；

步骤五：音频优化模块使用音频优化模型，获取至少一个特征优化音频信号，在至少一个正弦音频信号中，捕获与特征优化音频信号差距在预设范围内的第二正弦音频信号，对第二正弦音频信号进行扰动处理，得到第三正弦音频信号；

步骤六：音频优化模块对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分；

步骤七：傅里叶处理模块将调整后的至少一个正弦音频信号进行傅里叶逆变换，音频处理模块得到优化后的音频数字信号，重新变换音频数字信号为优化音频信号，输出优化音频信号。

再进一步的，本方案还提出一种存储介质，其上存储有计算机可读程序，计算机可读程序被调用时执行上述的基于深度学习的音频优化处理方法。

可以理解的是，存储介质可以是磁性介质，例如，软盘、硬盘、磁带；光介质例如，DVD；或者半导体介质例如固态硬盘SolidStateDisk，SSD等。

综上所述，本发明的优点在于：通过设置深度学习模块、噪声分类模块、噪声处理模块和音频优化模块，对噪声进行分类，将噪音分为易辨识噪音和难辨识噪音，采用两种降噪方法，对易辨识噪音和难辨识噪音分别进行降噪，降噪处理更为精确，同时也十分快捷，不会影响音频数据，将音频傅里叶变换分解后，使用音频优化模型中的标准音频对对分解的信号进行优化，对个别存在爆破点的分解信号，使用音频关键帧截取的方式进行音频优化，能有针对性的对音频进行优化，进而提升音频效果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.基于深度学习的音频优化处理方法，其特征在于，包括：

基于深度学习，建立背景噪音模型，建立音频优化模型；

2.根据权利要求1所述的基于深度学习的音频优化处理方法，其特征在于，所述采样、量化和编码包括以下步骤：

取有限个时间点，完成采样；

采集时间点处对应的音频信号强度，完成量化；

3.根据权利要求2所述的基于深度学习的音频优化处理方法，其特征在于，所述基于深度学习，建立背景噪音模型包括以下步骤：

对于样本噪声进行采样、量化和编码，得到噪声数字信号。

4.根据权利要求3所述的基于深度学习的音频优化处理方法，其特征在于，所述建立音频优化模型包括以下步骤：

大数据获取各类标准音频信号；

5.根据权利要求4所述的基于深度学习的音频优化处理方法，其特征在于，所述根据噪音特征，将噪音分为易辨识噪音和难辨识噪音包括以下步骤：

获取背景噪音模型中的所有噪声数字信号；

若积分差值大于预设差值，则噪声数字信号为易辨识噪音；

6.根据权利要求5所述的基于深度学习的音频优化处理方法，其特征在于，所述傅里叶变换具体如下：

，

傅里叶逆变换具体如下：

，

7.根据权利要求6所述的基于深度学习的音频优化处理方法，其特征在于，所述捕获至少一个正弦音频信号中的从属易辨识噪音，将从属易辨识噪音的音频强度降低至预设强度包括以下步骤：

8.根据权利要求7所述的基于深度学习的音频优化处理方法，其特征在于，所述对第二正弦音频信号进行扰动处理包括以下步骤：

获取拟合第二正弦音频信号的正弦函数，获取拟合特征优化音频信号的特征函数；

9.根据权利要求8所述的基于深度学习的音频优化处理方法，其特征在于，所述对第三正弦音频信号进行音频关键帧提取，改变第三正弦音频信号中被音频关键帧截取的突变部分包括以下步骤：

将突变消除信号与第三正弦音频信号叠加输出，完成修正。

10.基于深度学习的音频优化处理系统，用于实现如权利要求1-9任一项所述的基于深度学习的音频优化处理方法，其特征在于，包括：