CN117809655A

CN117809655A - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN117809655A
Application number: CN202311841788.4A
Authority: CN
Inventors: 轩晓光; 劳振锋; 陈传艺; 黄杰雄
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-02

Abstract

本申请公开了一种音频处理方法、装置、设备及存储介质，属于人工智能领域。该方法包括：获取音频中待预测的人声片段；对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。本申请中，通过获取音频中的待预测人声片段，可以有针对性的对音频进行审核，通过对人声片段进行识别，可以将语音内容转换为文本形式，对转为文本形式的文本识别内容进行检测，可以直接得到该音频的检测结果，提高了音频检测的准确性和效率。

Description

音频处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种音频处理方法、装置、设备及存储介质。

背景技术

在对音频进行处理时，通常需要对音频的内容进行识别，判断该音频是否属于广告。

相关技术中，在对音频的内容进行识别时，通常会对已知音频的广告部分提取特征，并建立音频广告特征库。对于未知音频，同样将未知音频中的广告部分进行特征提取，并将其与音频广告特征库中的特征进行匹配检索，如果匹配成功，则认定该未知音频为广告。

然而，这种特征匹配的方法对音频广告特征库依赖性高，如果音频广告特征库较小或者更新不及时，就无法监测到新的未知音频是否属于广告，会存在漏检的情况。因此，如何对音频进行高效准确的识别和判断，是目前亟需解决的问题。

发明内容

本申请提供了一种音频处理方法、装置、设备及存储介质，所述技术方案如下：

根据本申请的一方面，提供了一种音频处理方法，所述方法包括：

获取音频中待预测的人声片段；

对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；

对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

根据本申请的另一方面，提供了一种音频处理装置，所述装置包括：

获取模块，用于获取音频中待预测的人声片段；

识别模块，用于对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；

检测模块，用于对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

根据本申请的一方面，提供了一种音频处理方法，所述方法包括：将所述音频分为多个片段，所述多个片段包括所述语音片段和非语音片段；基于所述神经网络模型标记出所述多个片段中的语音片段，输出所述语音片段。

根据本申请的一方面，提供了一种音频处理方法，所述方法包括：将所述语音片段输入所述人声分离模型，所述语音片段包括所述人声片段和背景扰动音片段，所述背景扰动音片段是所述语音片段中除所述人声片段外的其他片段；基于所述人声分离模型将所述人声片段和所述背景扰动音片段进行分离，输出所述待预测的人声片段。

根据本申请的一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器，用于执行所述存储器中的所述至少一段程序以实现上述音频处理方法。

根据本申请的一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有可执行指令，所述可执行指令由处理器加载并执行以实现上述音频处理方法。

根据本申请的一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述音频处理方法。

本申请提供的技术方案带来的有益效果至少包括：

通过对音频中待预测的人声片段进行识别，可以得到文本识别内容，文本识别内容是待预测的人声片段对应的文本内容，对文本识别内容进行检测，可以得到文本识别内容的检测结果。通过获取音频中的人声片段，可以有针对性的对音频进行审核，通过对人声片段进行识别，可以将语音内容转换为文本形式，对转为文本形式的文本识别内容进行检测，可以直接得到该音频的检测结果。这种对音频的检测方式不需要在有限的音频广告特征库中进行匹配检索，同时不需要人工进行审核，节省了人工时间和成本，提高了音频检测的准确性和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的示意图；

图2是本申请一个示例性实施例提供的音频处理方法的示意图；

图3是本申请一个示例性实施例提供的音频处理方法的流程图；

图4是本申请一个示例性实施例提供的音频处理方法的流程图；

图5是本申请一个示例性实施例提供的音频处理方法的示意图；

图6是本申请一个示例性实施例提供的音频处理方法的流程图；

图7是本申请一个示例性实施例提供的音频处理方法的流程图；

图8是本申请一个示例性实施例提供的音频处理方法的流程图；

图9是本申请一个示例性实施例提供的音频处理方法的流程图；

图10是本申请一个示例性实施例提供的通用语音识别模型的模型训练方法的示意图；

图11是本申请一个示例性实施例提供的音频处理方法的流程图；

图12是本申请一个示例性实施例提供的通用大型语言模型的模型训练方法的示意图；

图13是本申请一个示例性实施例提供的音频处理装置的结构框图；

图14是本申请一个示例性实施例提供的服务器的结构框图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的音频等信息都是在充分授权的情况下获取的。

应当理解，尽管在本公开可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请涉及的相关名词做出介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

神经网络模型：是一种人工神经网络，由n个神经元相互连接而形成，n为正整数。在本申请中，神经网络模型是用于识别音频中的语音片段的人工神经网络。示意性的，该神经网络模型可以分为输入层、隐藏层和输出层，终端将取景图像输入神经网络模型的输入层，由隐藏层对输入的取景图像进行下采样，即对取景图像中的像素点进行卷积计算，最终通过输出层输出识别得到的人像类型。神经网络模型包括了CNN(Convolutional NeuralNetwork，卷积神经网络)模型、FCN(Fully Convolutional Networks，全卷积神经网络)模型、DNN(Deep Neural Network，深度神经网络)模型、RNN(Recurrent Neural Networks，循环神经网络)模型、embedding(嵌入)模型、GBDT(Gradient Boosting Decision Tree，梯度提升决策树)模型、LR(Logistic Regression，逻辑回归)模型等模型中的至少一种。

人声分离模型：一种深度学习模型，旨在从混合的音频信号中分离出特定的声音成分，例如音乐、语音或其他声音。这种模型在音频处理、语音识别、音乐处理等领域具有重要的应用。在本申请中，人声分离模型可以是用于分离语音片段中的人声片段的深度学习模型。人声分离模型包括BSRNN(Blind So urce Separation with Recurrent NeuralNetworks，基于循环神经网络的盲源分离)模型、ResUnet(Residual Network，基于残差连接的深度学习)模型、Tra nsfromerde(Transformer Encoder-Decoder，基于自注意力机制的深度学习)模型等模型中的至少一种。

语音识别模型：一种深度学习模型，用于将人类语音信号转化为可识别的文本数据。语音识别模型可以将声音信号转换为文本或命令，从而实现对语音信号的理解和处理。在本申请中，语音识别模型是将人声片段转化为文本识别内容的深度学习模型。

大型语言模型：通常指参数量大，网络层数深的模型。大模型是指具有大量参数和计算资源的机器学习模型。这些模型在训练过程中需要大量的数据和计算能力，并且具有数百万到数十亿个参数。大模型的设计目的是为了提高模型的表示能力和性能，在处理复杂任务时能够更好地捕捉数据中的模式和规律。

图1示出了本申请一个实施例提供的计算机系统的示意图。该计算机系统可以实现成为音频处理方法的系统架构。该计算机系统可以包括：终端100和服务器120，其中，终端100和服务器120之间通过通信网络140连接。

终端100通过通信网络140向服务器120发送音频，服务器120获取音频后，首先将音频通过神经网络模型分离出音频中的语音片段，然后将语音片段输入人声分离模型，提取出语音片段中的人声片段，语音识别模型将人声片段识别为文本识别内容，大型语言模型将对文本识别内容进行检测，并得到检测结果。服务器120将检测结果通过通信网络140返回给终端100。

终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(Personal Computer，PC)、车载终端等电子设备。终端100中可以安装运行目标应用程序的客户端，该目标应用程序可以是音频处理的应用程序，也可以是提供有音频处理功能的其他应用程序，本申请对此不作限定。另外，本申请对该目标应用程序的形式不作限定，包括但不限于安装在终端100中的应用程序(Application，App)、小程序等，还可以是网页形式。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工掌部图像识别平台等基础云计算服务的云服务器。服务器120可以是上述目标应用程序的后台服务器，用于为目标应用程序的客户端提供后台服务。

本申请实施例提供的音频处理方法，各步骤的执行主体可以是计算机设备，所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图1所示的方案实施环境为例，可以由终端100执行音频处理方法(如终端100中安装运行的目标应用程序的客户端执行该音频处理方法)，也可以由服务器120执行该音频处理方法，或者由终端100和服务器120交互配合执行，本申请对此不作限定。

图2示出了本申请一个实施例提供的音频处理方法的示意图。

在对音频进行审核时，通常需要对音频的内容进行识别，判断该音频是否属于音频广告。为了提高音频审核的准确性和高效性，本申请搭建了一个音频广告自动审核系统，采用了多个模块对音频进行审核，提高了音频检测的准确性和效率。

(1)获取音频10。

音频10是一种通过数字方式来记录声音的信号。可选地，音频10可以是人的语音、歌曲、自然环境中的声音等各种类型的声音中的至少一种。可选地，音频10包含了声音的各种特征，如音调、音量、节奏等中的至少一种。音频10可以保存在各种文件格式中，例如MP3(Moving Picture Experts Group Audio Layer III，动态图像专家组音频第三层)、WAV(Waveform Audio File Format，波形音频文件格式)。在一些实施例中，音频10是指包含语音或歌声的音频文件。

(2)将音频10输入神经网络模型20，基于神经网络20对音频10逐片段检测。

在一些实施例中，基于预设时间间隔将音频10分成多个片段，神经网络模型20对音频10中的多个片段进行逐片段检测，每个片段都会被分类为语音片段21或非语音片段22。语音片段21指的是音频10中包含语音的部分，也就是有声音的片段。非语音片段22则是音频10中没有声音的片段，可选地，非语音片段22可能是静默片段。神经网络模型20对音频10逐片段检测，判断每个片段是否包含语音，将音频10中包含语音的语音片段21标记出来。

(3)将语音片段21输入人声分离模型30，调用人声分离模型30提取语音片段21中的人声片段32。

在一些实施例中，语音片段21中包含人声和背景扰动音。其中，背景扰动音是指在语音片段21中除人声以外的其他声音，背景扰动音来自背景噪音、伴奏音乐、交通噪声等中的至少一种。人声分离模型30通过训练可以将语音片段21中的人声与背景扰动音进行分离，并输出纯净的人声片段32。

(4)调用语音识别模型40对人声片段32进行文本识别，得到文本识别内容42。

将人声片段32输入语音识别模型40，利用语音识别模型40对人声片段32进行识别，语音识别模型40可以将人声片段32中的音频内容识别为相应的文字内容，并将相应的文字内容输出为文本识别内容42。

在一些实施例中，文本识别内容42为广告内容，广告内容具有一些专用名词，例如品牌名称、产品名称。为了提高语音识别模型40对广告内容的准确识别能力，可以基于广告内容对语音识别模型40进行微调。其中，微调是指在已有的语音识别模型40基础上，使用广告内容的数据集对语音识别模型40进行微调训练，以达到广告内容的准确识别的需求。在微调的过程中，语音识别模型40会根据广告内容的数据集调整自身的参数，提高对广告内容的识别能力。

(5)调用大型语言模型50对文本识别内容42进行检测，得到检测结果52。

在一些实施例中，可以基于数据样本对大型语言模型50进行微调，数据样本中包括了文本识别内容42和检测结果52。可选地，数据样本的格式如下：

{prompt：文本识别内容42，label：检测结果52}

其中，prompt用于指示文本识别内容42的输入内容，文本识别内容42可以是待识别的广告内容，label表示对文本识别内容的检测结果52。

在一些实施例中，基于数据样本对大型语言模型50进行微调，在训练时，大型语言模型50会根据prompt中的文本识别内容42学习并预测相应的检测结果52，从而不断提升大型语言模型50在广告内容识别任务上的准确性和泛化能力。

可选地，在二分类任务中，检测结果52可能是两个类别之一，例如“违规广告”和“非违规广告”。在多分类任务中，检测结果52可能是多个类别中的一个，比如“美妆广告”、“骚扰广告”、“虚假宣传广告”等。大型语言模型50会根据输入的文本识别内容42输出相应的结果。

针对音频中的人声片段的预测：

图3示出了本申请一个示例性实施例提供的音频处理方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤210：获取音频中待检测的人声片段；

其中，音频是一种通过数字方式来记录声音的信号。

可选地，音频可以是人的语音、歌曲、自然环境中的声音等各种类型的声音中的至少一种。音频包含了声音的各种特征，如音调、音量、节奏等中的至少一种。音频可以保存在各种文件格式中，例如MP3、WAV。

其中，人声片段指的是从音频中提取出的仅包含人的声音部分的片段。

在一些实施例中，人声片段是音频中与人的语音相关的部分。可选地，人声片段可以是单个词语、短语、句子或连续的语音段落等中的至少一种。

在一些实施例中，待预测的人声片段指的是从音频中提取出的用于进行预测的人声部分的片段。待预测的人声片段可以用于进行语音识别任务。

步骤220：对待预测的人声片段进行识别，得到文本识别内容；

其中，文本识别内容是待预测的人声片段对应的文本内容。

可选地，使用语音识别将人声片段转换成文本识别内容。语音识别会对人声片段进行分析，并将其中的语音信息转换成相应的文本内容。

可选地，文本内容可以是语音片段中所包含的话语、句子或短语等中的至少一种。

示例性的，音频中包含人声片段“今天天气很好”，通过语音识别对该人声片段进行处理，将该人声片段转化为文本形式的“今天天气很好”。

步骤230：对文本识别内容进行检测，得到文本识别内容的检测结果。

其中，检测结果包括对该文本识别内容的判断结果和评估结果。

可选地，在二分类任务中，检测结果可能是两个类别之一，例如“违规广告”和“非违规广告”。在多分类任务中，检测结果可能是多个类别中的一个，比如“美妆广告”、“骚扰广告”、“虚假宣传广告”等中的至少一种。

综上所述，本申请提供的方法，通过对音频中待预测的人声片段进行识别，可以得到文本识别内容，文本识别内容是待预测的人声片段对应的文本内容，对文本识别内容进行检测，可以得到文本识别内容的检测结果。通过不同的模块对音频进行审核，提高了音频检测的准确性和效率。

图4示出了本申请一个示例性实施例提供的音频处理方法的流程图。该方法可以由计算机设备执行。即在图3示出的实施例中，步骤210可以实现为步骤211、步骤212：

步骤211：基于神经网络模型检测音频，输出音频中的语音片段；

示例性的，神经网络模型是用于识别音频中的语音片段的人工神经网络。可选地，神经网络模型可以为RNN模型、CNN模型、FCN模型等中的至少一种。

示例性的，以神经网络模型为CNN模型为例。

在一种可能实现的方式中，首先，将音频输入卷积神经网络模型，对输入的音频数据进行预处理，将音频信号转化为数字形式；其次，卷积神经网络模型对输入的音频信号进行特征提取，通过卷积层和池化层来提取音频信号在时间和频率上的相关特征；然后，使用标记的音频数据集对卷积神经网络模型进行训练，标记的音频数据集包含音频以及对应的语音活动标签，即音频中的每个时间点是否为语音片段。

在一些实施例中，将音频输入神经网络模型，神经网络模型检测音频中的语音片段，神经网络模型输出的结果通常是一个二值序列，表示音频中的每个时间点是否为语音片段。可选地，根据二值序列来提取出音频中的语音片段。

示例性的，对于输出的二值序列，可以根据连续的1或0的时间点对语音片段进行划分。当连续的时间点为1时，表示该片段为语音片段；当连续的时间点为0时，表示该片段为非语音片段。根据划分可以从音频中提取相应的语音片段。

在一些实施例中，可将音频分为多个片段，神经网络模型对每个片段进行检测，输出音频中的语音片段。

·将音频分为多个片段；

·基于神经网络模型标记出多个片段中的语音片段，输出语音片段。

在一个可选的示例中，将音频分为多个片段。

在一些实施例中，基于预设时间间隔将音频分成多个片段(例如，预设时间间隔为30毫秒)，神经网络模型对音频中的多个片段进行逐片段检测，多个片段中的每个片段都会被分类为语音片段或非语音片段。语音片段指的是音频中包含语音的部分，也就是有声音的片段。非语音片段则是音频中没有声音的片段，可选地，非语音片段为静默片段。

在一些实施例中，通过滑动窗口将音频分成多个片段。首先，确定窗口的大小，即音频中每个片段的时间长度，示例性的，可以选择几十毫秒到几百毫秒不等的时间长度作为窗口大小。其次，从音频的起始位置开始，选择一个窗口大小的时间长度作为第一个片段，将窗口向后移动固定的时间间隔，以获得下一个片段，重复此过程直到覆盖整个音频。通过这种滑动窗口的方法，可以将音频分成固定时间长度的多个片段。

在一个可选的示例中，基于神经网络模型标记出多个片段中的语音片段，输出语音片段。

在一些实施例中，将样本语音片段和样本非语音片段作为训练数据集，对训练数据集进行标记，将样本语音片段和样本非语音片段进行区分。可选地，可以使用二元分类的方式，其中样本语音片段为正例，样本非语音片段为负例。使用标记好的训练数据集对通用神经网络模型进行训练。将训练数据集输入通用神经网络模型，输出得到预测结果，根据预测结果和训练数据集之间的差异，对通用神经网络模型的模型参数进行更新，得到训练后的神经网络模型。

在一些实施例中，训练后的神经网络模型对音频中的多个片段进行逐片段检测，将多个片段输入到神经网络模型中。可选地，设置一个阈值来判断每个片段是否为语音片段，如果概率值高于或等于阈值，则将该片段标记为语音片段；如果概率值低于阈值，则将该片段标记为非语音片段。通过逐片段判别和标记，最终可以得到输入音频中所有的语音片段。

步骤212：基于人声分离模型对语音片段进行提取，得到待预测的人声片段。

示例性的，人声分离模型可以是用于分离语音片段中的人声片段的深度学习模型。

在一些实施例中，语音片段通常是由多个声源混合而成的，将语音片段中的目标声源(人声片段)从其他噪声声源中分离出来，以便进行后续处理和分析。

在一些实施例中，可将语音片段输入人声分离模型，人声分离模型将语音片段中的人声片段提取出来。

·将语音片段输入人声分离模型；

·基于人声分离模型将人声片段和背景扰动音片段进行分离，输出待预测的人声片段。

在一个可选的示例中，将语音片段输入人声分离模型。

其中，语音片段包括人声片段和背景扰动音片段，背景扰动音片段是语音片段中除人声片段外的其他片段。

背景扰动音片段是指在整个语音片段中除了人声片段之外的部分。可选地，背景扰动音可能来自背景噪音、伴奏音乐、交通噪声等中的至少一种。

在一些实施例中，通过人声分离模型将背景扰动音与人声片段进行分离。

在一些实施例中，将语音片段输入到人声分离模型时，输入包含人声片段和背景扰动音片段的整个语音片段。通过将整个语音片段输入到人声分离模型中，人声分离模型会对输入的语音片段进行分析和处理，将人声片段与背景扰动音片段进行分离，并输出只包含人声的待预测的人声片段。

在一个可选的示例中，基于人声分离模型将人声片段和背景扰动音片段进行分离，输出待预测的人声片段。

在一些实施例中，将样本背景扰动音片段和样本人声片段作为训练数据集对通用人声分离模型进行训练，训练后的人声分离模型更好地分离语音片段中的人声片段和背景扰动音片段。通过在训练过程中提供多样化的数据，通用人声分离模型可以学习到不同场景下的人声和背景扰动音的特征，从而提高对语音片段中的人声片段和背景扰动音片段分离的效果。

可选地，人声分离模型包括BSRNN模型、ResUnet模型、Transfromerde模型等模型类型中的至少一种。

下面对人声分离模型的训练过程进行说明。

在一些实施例中，获取样本语音片段，样本语音片段中包括样本人声片段和样本背景扰动音片段；将样本语音片段输入样本人声分离模型，同时提供样本人声片段作为目标输出；通过比较样本人声分离模型的输出和目标输出之间的差异，对样本人声分离模型进行训练，得到训练后的可对人声片段进行分离的人声分离模型。

在一些实施例中，首先初始化通用人声分离模型的模型结构，其次，获取样本人声片段以及样本背景扰动音片段。其中，样本背景扰动音片段中包括多种类型，例如背景噪音、伴奏音乐、交通噪声等类型中的至少一种，从中随机选中至少一种背景扰动音片段类型加入样本人声片段中，从而得到包含样本人声片段和样本背景扰动音片段的样本语音片段。

在一些实施例中，将样本语音片段输入通用人声分离模型中，输出得到样本语音片段对应的预测结果，根据预测结果和样本人声片段之间的差异，对通用人声分离模型的模型参数进行梯度更新，使其达到收敛，最终将达到收敛预期的通用人声分离模型作为训练后的人声分离模型。

在一些实施例中，通过损失函数计算预测结果和样本人声片段之间的损失值，从而根据损失值更新通用人声分离模型的模型参数。

可选地，损失函数包括平方误差损失函数(L2损失)，回归损失函数(L1损失)、交叉熵损失函数等损失函数类型中至少一种。

示意性的，结合参考图5，其示出了本申请一个示例性实施例提供的人声分离模型的训练过程示意图，如图5所示,当前获取样本人声片段401，对样本人声片段401叠加样本背景扰动音片段402后，得到样本语音片段403，将样本语音片段403输入通用人声分离模型404，输出得到预测结果405，通过L2损失函数计算预测结果405和样本人声片段401之间的平方误差损失，对通用人声分离模型404进行训练，得到训练后的人声分离模型406。

综上所述，本申请提供的方法，基于神经网络模型检测音频，将音频分成多个片段，将多个片段中的语音片段输出，人声分离模型对神经网络模型输出的语音片段进行提取，得到待预测的人声片段。在使用人声分离模型对语音片段提取时，为了更好的分离出语音片段中的人声片段，对人声分离模型进行训练，在训练阶段，将包含人声片段和背景扰动音片段的语音片段作为输入，同时提供人声片段作为目标输出。通过比较人声分离模型的输出和目标输出之间的差异，使用适当的损失函数进行优化，使人声分离模型能够学习到如何准确地分离出语音片段中的人声片段和背景扰动音片段。

图6示出了本申请一个示例性实施例提供的音频处理方法的流程图_。该方法可以由计算机设备执行。即在图3示出的实施例中,步骤220可以实现为步骤221、步骤222：

步骤221：将待预测的人声片段输入语音识别模型；

示例性的，语音识别模型是将人声片段转化为文本识别内容的深度学习模型。

可选地，语音识别模型包括paraformer模型、conformer模型、transducer模型等模型中的至少一种。

在一些实施例中，将待预测的人声片段作为输入，传递给已经训练好的语音识别模型，该语音识别模型会对待预测的人声片段识别。

在一些实施例中，在将待预测的人声片段输入语音识别模型之前，需要检查待预测的人声片段的采样率是否与语音识别模型的要求一致。如果不一致，需要进行采样率转换，将待预测的人声片段的采样率调整为与语音识别模型兼容的采样率。

步骤222：基于语音识别模型对待预测的人声片段进行识别，得到文本识别内容。

其中，文本识别内容是待预测的人声片段对应的文本内容。

在一些实施例中，将人声片段输入语音识别模型，通过语音识别模型对待预测的人声片段进行识别，语音识别模型可以将人声片段中的音频内容识别为相应的文字内容，并将相应的文字内容输出为文本识别内容。可选地，文本内容可以是一段文字、一句话或者一个单词，它是对输入的人声片段的文本表示。

示例性的，有一段音频中包含人声片段，可以使用语音识别模型对待预测的人声片段进行识别，得到文本识别内容。例如，音频中的人声片段为一句话“今天天气真好”，通过语音识别模型，可以得到对应的文本内容“今天天气真好”。使用语音识别模型对输入的人声片段进行识别，得到其对应的文本识别内容。

在一个可选的示例中，对待预测的人声片段中的关键词进行识别，得到关键词对应的人声片段。

其中，关键词是指待预测的人声片段中和识别内容相关的词语或短语。关键词在语音识别模型中起到关键作用，关键词可以引导语音识别模型进行更准确的文本识别。示例性的，在一段关于天气的人声片段中，关键词可以是“天气”、“晴朗”、“温度”等。通过识别这些关键词，语音识别模型可以更准确地理解人声片段的内容，并将其转换为对应的文本识别内容。

在一些实施例中，待预测的人声片段为广告内容的片段，关键词是指待预测的人声片段中和广告内容相关的词语或短语。示例性的，关键词为与广告内容相关的专用名词，例如品牌名称、产品名称等。关键词可以根据具体情况而定，可能会因不同的广告内容而有所变化。示例性的，以待预测的人声片段为一则手机广告为例，关键词可能包括手机品牌、型号、特色功能等中的至少一种。以待预测的人声片段为一则汽车广告为例，关键词可能涵盖汽车品牌、车型、性能特点等中的至少一种。

在一些实施例中，可以先构建一个包含品牌名称、产品名称等专用名词的关键词列表。在语音识别模型输出的文本结果中，检索是否包含这些关键词，从而确定人声片段中是否提到了这些专用名词。

在一个可选的示例中，基于语音识别模型对关键词对应的人声片段进行识别，得到文本识别内容。

在一些实施例中，基于语音识别模型对关键词对应的人声片段进行识别，进行文本转换，将人声片段转换为相应的文本识别内容。

示例性的，某个汽车品牌的音频中的人声片段为：“这是全新款XYZ汽车，带你领略驾驶的极致体验。”通过语音识别模型对输入的人声片段进行处理，若语音识别模型识别到了关键词“XYZ汽车”，得到的文本识别内容将是：“这是全新款XYZ汽车，带你领略驾驶的极致体验。”其中，“XYZ汽车”是关键词对应的专有名词。

综上所述，本申请提供的方法，通过将待预测的人声片段输入语音识别模型，基于语音识别模型对待预测的人声片段进行识别，可以得到文本识别内容，在一种可能实现的方式中，语音识别模型通过对人声片段进行关键词识别，可以将待检测的人声片段识别为文本识别内容。这种通过语音识别模型对人声片段进行关键词检测的方法，提高了音频广告的审核准确率。

需要说明的是，本申请实施例中的语音识别模型为在通用语音识别模型的基础上进行微调后的语音识别模型，微调后的语音识别模型可以提升音频的识别率。

图7示出了本申请一个示例性实施例提供的音频处理方法的流程图。该方法可以由计算机设备执行。即在图3示出的实施例中，步骤230可以实现为步骤231、步骤232：

步骤231：将文本识别内容输入大型语言模型；

示例性的，大型语言模型是对文本识别内容进行检测的模型。

可选地，大型语言模型为使用开源的大规模的语言模型，如Chatglm-6b(ChatbotGPT-6B，聊天对话生成模型-6B)、GPT(Generative Pre-trained Transformer，预训练生成式转换器)、LLaMA(Language Model for Large-scale Analysis大规模分析语言模型)、GLM(Generalized Language Model，通用语言模型)等语言模型中的至少一种。

步骤232：基于大型语言模型对文本识别内容进行检测，得到文本识别内容的检测结果。

在一些实施例中，基于大型语言模型对文本识别内容进行检测后，会得到一个检测结果。这个检测结果包括了对该文本识别内容是否合规等方面的判断和评估。

在一些实施例中，基于文本识别内容确认输入提示，根据输入提示将文本识别内容输入大型语言模型，大型语言模型根据输入提示对文本识别内容进行检测，得到文本识别内容的检测结果。

其中，输入提示是指在生成检测结果时，作为起始输入提供给大型语言模型的文本片段。输入提示可以是基于文本识别内容而确定的，目的是引导大型语言模型生成对文本识别内容的检测结果。

可选地，输入提示可以是与文本识别内容相关的关键词、短语或问题描述中的至少一种，用于引导大型语言模型生成文本识别内容的检测结果。

示例性的，文本识别内容为“全新XYZ汽车，搭载先进的动力系统，提供顶级的驾驶体验。独特的外观设计，引人注目。现在购买可享受免费保养一年的优惠”，基于文本识别内容确定输入提示，输入提示可以是对文本识别内容的任务描述，引导大型语言模型生成对文本识别内容的检测结果。例如，输入提示如下：“文本识别内容：‘全新XYZ汽车，搭载先进的动力系统，提供顶级的驾驶体验，独特的外观设计。现在购买可享受免费保养一年的优惠’请你根据上述的文本识别内容进行检测，输出该文本识别内容的检测结果。”

在一些实施例中，大型语言模型的预测任务是二分类任务或多分类任务。可选地，在二分类任务中，检测结果可能是两个类别之一，例如“违规广告”和“非违规广告”。在多分类任务中，检测结果可能是多个类别中的一个，比如“美妆广告”、“骚扰广告”、“虚假宣传广告”等中的至少一种。大型语言模型会根据输入的文本识别内容输出相应的检测结果。

在一个可选的示例中，基于大型语言模型对文本识别内容进行匹配检测，得到文本识别内容匹配后的检测结果。

其中，匹配检测包括如下中的至少一种：语义检测；形式检测；内容检测。

语义检测是通过分析文本识别内容的语义信息，判断其含义和表达方式是否符合预设的语义要求。例如，检测文本中是否包含负面情绪、积极推荐等语义特征。形式检测是对文本识别内容的形式进行检测，主要包括词汇搭配等方面的匹配检测。例如，检测文本是否符合预设的词汇组合。内容检测是对文本识别内容进行匹配检测，判断其是否包含预设的信息或关键词。例如，检测文本中是否包含敏感词汇、产品名称等内容。

在一些实施例中，大型语言模型将分析后的文本识别内容进行匹配检测，可以通过不同方式实现，如语义检测、形式检测和内容检测中的至少一种。匹配方法根据需求选择，可以单独使用一种方式，也可以结合多种方式进行综合检测。本申请对此不作限定。

示例性的，假设检测一段文本识别内容是否符合汽车广告的内容要求。文本识别内容为：“全新XYZ汽车，搭载先进的动力系统，提供顶级的驾驶体验。独特的外观设计，引人注目。现在购买可享受免费保养一年的优惠”大型语言模型可以对文本识别内容进行匹配检测。大型语言模型根据“先进的动力系统”、“顶级的驾驶体验”进行语义检测，判断该文本识别内容属于汽车领域；大型语言模型根据文本识别内容中提到的“XYZ汽车”进行内容检测，可判断该文本识别内容为汽车广告。

综上所述，本申请提供的方法，通过将将文本识别内容输入大型语言模型，基于大型语言模型对文本识别内容进行检测，得到文本识别内容的检测结果。在一种可能实现的方式中，基于大型语言模型对文本识别内容进行匹配检测，匹配检测包括语义检测、形式检测、内容检测中的至少一种，大型语言模型根据匹配检测得到文本识别内容匹配后的检测结果。这种方式极大的提升了大型语言模型对文本识别内容进行检测的准确率。

需要说明的是，本申请实施例中的大型语言模型为在通用大型语言模型的基础上进行微调后的大型语言模型，微调后的大型语言模型可以提升音频的检测率。

需要说明的是，本申请实施例可以对任意一种语言的音频进行检测，并得到该音频对应的检测结果。

针对音频模型的训练：

图8示出了本申请一个示例性实施例提供的音频处理方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤310：获取第一数据样本和第二数据样本；

其中，第一数据样本包括广告内容的数据集，第一数据样本用于训练语音识别模型。第二数据样本包括预设数据格式，预设数据格式用于指示第二数据样本的输入，第二数据样本用于训练大型语言模型。

步骤320：将第一数据样本输入通用语音识别模型进行训练，得到语音识别模型；

其中，通用语音识别模型是一种经过大规模训练，能够将语音转换为文本的模型。通用语音识别模型通过大规模的语音数据集来学习声学特征和语音模式，从而实现对语音的识别。

在一些实施例中，通用语音识别模型通常是通过大量的语音数据集进行训练得到的，语音数据集包含各种不同的语音样本。示例性的，不同的语音样本涵盖了不同类型的人声、不同的语速、不同的音调和背景噪声等中的至少一种。通用语音识别模型可以将输入的语音转换为相应的文本输出。可选地，通用语音识别模型可以识别和理解多种语音的内容，包括词语、短语、句子等中的至少一种。

在一些实施例中，微调通用语音识别模型意味着使用某个领域或任务的数据集对通用语音识别模型进行再训练，以使通用语音识别模型适应于某个领域或任务的语音识别需求。

在一些实施例中，通过将广告内容作为第一数据样本，将第一数据样本输入到通用语音识别模型中进行微调。在微调过程中，语音识别模型将逐渐学习并提升对广告内容的识别准确率。通过针对广告内容的微调，通用语音识别模型更适合于识别包含广告内容的人声片段。当使用微调后的语音识别模型对待预测的人声片段进行识别时，语音识别模型将更加准确地转录出该人声片段对应的文本识别内容。

步骤330：将第二数据样本输入通用大型语言模型进行训练，得到大型语言模型。

其中，通用大型语言模型是一种经过大规模训练的模型，具有理解和生成自然语言能力的模型。

在一些实施例中，通用大型语言模型通常是通过大量的文本数据集进行训练得到的。可选地，通用大型语言模型能够理解输入文本的语义、上下文以及句子结构，并对输入文本进行分析；或，通用大型语言模型能够根据输入文本中的关键词或问题，从大量的语料库中检索相关信息并生成相应的回答。通用大型语言模型的输入可以是一段文字、一个问题、一个句子等中的至少一种。通用大型语言模型的输出是对输入文本的处理结果。

在一些实施例中，微调通用大型语言模型意味着使用某个领域或任务的数据集对通用大型语言模型进行再训练，以使通用大型语言模型适应于某个领域或任务的语言处理需求。

在一些实施例中，将第二数据样本按照预设的数据格式输入到通用大型语言模型进行再训练，以微调大型语言模型，使大型语言模型更适合于理解文本识别内容及并对该文本识别内容输出相应的检测结果。

在一些实施例中，第二数据样本可以包含有标记的数据集。

可选地，在二分类任务中，检测结果可能是两个类别之一，即“违规广告”和“非违规广告”时，第二数据样本需要包含正面样本数据集和负面样本数据集。正面样本数据集是指包含检测结果为“非违规广告”的数据集，而负面样本数据集则是检测结果为“违规广告”的数据集。可以使用带有标记的数据集来微调大型语言模型。

在一些实施例中，微调的过程是将样本数据集输入到大型语言模型中进行训练，并通过调整大型语言模型的参数使其能够更准确地判断文本识别内容的检测结果。在微调过程中，可以利用大型语言模型的预训练能力和上下文理解能力，提高大型语言模型对文本识别内容的识别准确率。

综上所述，本申请提供的方法，获取第一数据样本和第二数据样本，使用第一数据样本对语音识别模型进行微调，得到微调后的语音识别模型；使用第二数据样本对大型语言模型进行微调，得到微调后的大型语言模型。微调后的语音识别模型提高对人声片段的理解能力和识别能力，更适应广告内容的识别需求；微调后的大型语言模型提高对文本识别内容的检测能力，更适应对广告内容的检测需求。通过优化和微调语音识别模型和大型语言模型这两个关键组件，可以使音频审核系统更准确、更流畅地进行音频审核。

图9示出了本申请一个示例性实施例提供的音频处理模型的模型训练方法的流程图。该方法可以由计算机设备执行。即在图8示出的实施例中，步骤320可以实现为步骤321、步骤322：

步骤321：将第一数据样本输入通用语音识别模型，得到第一预测结果；

其中，第一数据样本包括广告内容的数据集，第一预测结果是对广告内容的预测结果。

可选地，第一数据样本可能包括来自不同行业、各种类型的广告内容，例如产品介绍、促销信息、品牌宣传等。可选地，广告内容可能包含行业术语、品牌名称、产品特征等专用名词。

在一些实施例中，第一数据样本是包含广告内容的人声片段的数据集。

在一些实施例中，获取第一数据样本，将第一数据样本输入通用语音识别模型，输出得到第一预测结果；基于第一数据样本和第一预测结果之间的误差，对通用语音识别模型进行训练，得到微调后的语音识别模型。

步骤322：基于第一数据样本和第一预测结果之间的误差，更新通用语音识别模型的模型参数。

在一些实施例中，将第一数据样本输入通用语音识别模型，输出得到第一数据样本对应的第一预测结果，将第一预测结果和第一数据样本之间进行比较，得到损失值，损失值用于指示第一预测结果和第一数据样本之间的误差。

在一些实施例中，通过损失函数计算第一预测结果和第一数据样本之间的损失值，从而根据损失值更新通用语音识别模型的模型参数。

示意性的，结合参考图10，其示出了本申请一个示例性实施例提供的通用语音识别模型的训练过程示意图，如图10所示，当前获取第一数据样本501，将第一数据样本501输入通用语音识别模型502，输出得到第一预测结果503，通过L2损失函数计算第一预测结果503和第一数据样本501之间的平方误差损失，对通用语音识别模型502进行训练，得到微调后的语音识别模型504。该语音识别模型504用于将待检测的人声片段转化为文本识别内容。

需要说明的是，本实施例提供的通用语音识别模型的训练方法仅为示意性说明，并不构成对通用语音识别模型的训练方式的限定。

综上所述，本申请提供的方法，通过将第一数据样本输入通用语音识别模型，得到第一数据样本的预测结果，第一数据样本包括广告内容的数据集，在训练过程中，根据第一数据样本和第一预测结果之间的误差来更新通用语音识别模型的模型参数，这种方式可以使通用语音识别模型更好地适应广告内容的识别需求，提高通用语音识别模型的性能和泛化能力。

图11示出了本申请一个示例性实施例提供的音频处理模型的模型训练方法的流程图。该方法可以由计算机设备执行。即在图8示出的实施例中，步骤330可以实现为步骤331、步骤332：

步骤331：将第一字段和第二字段基于预设数据格式输入通用大型语言模型，得到第二预测结果；

其中，第一字段用于指示文本识别内容的输入内容，第二字段用于指示文本识别内容的检测结果。

预设数据格式用于指示第二数据样本的输入。

在一些实施例中，可以基于第二数据样本对通用大型语言模型进行微调，第二数据样本中包括了第一字段和第二字段。可选地，预设数据格式如下：

{prompt：文本识别内容，label：检测结果}

其中，prompt用于指示文本识别内容的输入内容，文本识别内容可以是待识别的广告内容，label表示对文本识别内容的检测结果。prompt用于指导通用大型语言模型的输入，label用于获取通用大型语言模型的输出。

在一些实施例中，通过将prompt和label作为第二数据样本训练通用大型语言模型，通用大型语言模型可以学习如何根据输入的文本识别内容输出相应的检测结果。

步骤332：基于第二数据样本和第二预测结果之间的误差，更新通用大型语言模型的模型参数。

在一些实施例中，将第二数据样本输入通用大型语言模型，输出得到第二数据样本对应的第二预测结果，将第二预测结果和第二数据样本中的第二字段进行比较，得到损失值，损失值用于指示第二预测结果和第二数据样本之间的误差。

在一些实施例中，通过损失函数计算第二预测结果和第二数据样本中的第二字段之间的损失值，从而根据损失值更新通用大型语言模型的模型参数。

示意性的，结合参考图12，其示出了本申请一个示例性实施例提供的通用大型语言模型的训练过程示意图，如图12所示，当前获取第二数据样本601，将第二数据样本601输入通用大型语言模型602，输出得到第二预测结果603，通过L2损失函数计算第二预测结果603和第二数据样本601中的第二字段之间的平方误差损失，对通用大型语言模型602进行训练，得到微调后的大型语言模型604。该大型语言模型604用于对文本识别内容进行检测。

需要说明的是，本实施例提供的通用大型语言模型的训练方法仅为示意性说明，并不构成对通用大型语言模型的训练方式的限定。

综上所述，本申请提供的方法，通过将第二数据样本基于预设数据格式输入通用大型语言模型，得到第二数据样本的预测结果，通过使用第二数据样本训练通用大型语言模型并更新模型参数，可以提高大型语言模型对文本识别内容输出检测结果的准确性。微调后的大型语言模型可对文本识别内容进行自动化的分类和判断。

本领域普通技术人员可以理解，上述实施例可以独立实施，也可以将上述实施例进行自由组合，组合出新的实施例实现本申请的音频处理方法。

图13示出了本申请一个示例性实施例提供的音频处理装置的结构框图。该装置具有实现上述音频处理方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的服务器，也可以设置在服务器中。如图13所示，该装置1500可以包括：获取模块1510、识别模块1520和检测模块1530：

获取模块1510，用于获取音频中待预测的人声片段；

识别模块1520，用于对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；

检测模块1530，用于对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

在一些实施例中，识别模块1520包括输入子模块和识别子模块：

输入子模块，用于将所述待预测的人声片段输入语音识别模型；

识别子模块，用于基于所述语音识别模型对所述待预测的人声片段进行识别，得到所述文本识别内容。

在一些实施例中，识别子模块包括识别单元：

识别单元，用于对所述待预测的人声片段中的关键词进行识别，得到所述关键词对应的人声片段；

识别单元，用于基于所述语音识别模型对所述关键词对应的人声片段进行识别，得到所述文本识别内容。

在一些实施例中，检测模块1530包括输入子模块和检测子模块：

输入子模块，用于将所述文本识别内容输入大型语言模型；

检测子模块，用于基于所述大型语言模型对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

在一些实施例中，检测子模块还包括检测子单元：

检测子单元，用于基于所述大型语言模型对所述文本识别内容进行匹配检测，得到所述文本识别内容匹配后的检测结果；

其中，所述匹配检测包括如下中的至少一种：语义检测；形式检测；内容检测。

在一些实施例中，获取模块1510还包括获取子模块。

获取子模块，用于获取第一数据样本和第二数据样本，所述第一数据样本包括广告内容的数据集，所述第二数据样本包括预设数据格式，所述预设数据格式用于指示所述第二数据样本的输入；

在一些实施例中，装置1500还包括训练模块。

训练模块，用于将所述第一数据样本输入通用语音识别模型进行训练，得到微调后的语音识别模型；

训练模块，用于将所述第二数据样本输入通用大型语言模型进行训练，得到微调后的大型语言模型。

在一些实施例中，训练模块包括输入子模块和更新子模块：

输入子模块，用于将所述第一数据样本输入所述通用语音识别模型，得到第一预测结果，所述第一预测结果是对所述广告内容的预测结果；

更新子模块，用于基于所述第一数据样本和所述第一预测结果之间的误差，更新所述通用语音识别模型的模型参数。

输入子模块，用于将所述第一字段和所述第二字段基于所述预设数据格式输入所述通用大型语言模型，得到第二预测结果，所述第二预测结果是对所述第二数据样本的预测结果；

更新子模块，用于基于所述第二数据样本和所述第二预测结果之间的误差，更新所述通用大型语言模型的模型参数；

其中，所述第一字段用于指示所述文本识别内容的输入内容，所述第二字段用于指示所述文本识别内容的检测结果。

在一些实施例中，获取模块1510包括输出子模块和提取子模块：

输出子模块，用于基于神经网络模型检测所述音频，输出所述音频中的语音片段；

提取子模块，用于基于人声分离模型对所述语音片段进行提取，得到待预测的人声片段。

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述；各个模块执行操作取得的技术效果与有关该方法的实施例中的技术效果相同，此处将不做详细阐述说明。

本申请实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有计算机程序；所述处理器，用于执行所述存储器中的所述计算机程序以实现上述各方法实施例提供的音频处理方法或音频处理模型的模型训练方法。可选地，该计算机设备为服务器。

示例地，图14是本申请一个示例性实施例提供的服务器的结构框图。

通常，服务器2300包括有：处理器2301和存储器2302。

处理器2301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2301可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器2301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2301可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2301还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器2301所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，服务器2300还可选包括有：输入接口2303和输出接口2304。处理器2301、存储器2302和输入接口2303、输出接口2304之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与输入接口2303、输出接口2304相连。输入接口2303、输出接口2304可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器2301和存储器2302。在一些实施例中，处理器2301、存储器2302和输入接口2303、输出接口2304被集成在同一芯片或电路板上；在一些其他实施例中，处理器2301、存储器2302和输入接口2303、输出接口2304中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

本领域技术人员可以理解，上述示出的结构并不构成对服务器2300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器从计算机可读存储介质读取并执行该计算机指令，以实现上述各方法实施例提供的音频处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述各方法实施例提供的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取音频中待预测的人声片段；

2.根据权利要求1所述的方法，其特征在于，所述对所述待预测的人声片段进行识别，得到文本识别内容，包括：

将所述待预测的人声片段输入语音识别模型；

基于所述语音识别模型对所述待预测的人声片段进行识别，得到所述文本识别内容。

3.根据权利要求2所述的方法，其特征在于，所述基于所述语音识别模型对所述待预测的人声片段进行识别，得到所述文本识别内容，包括：

对所述待预测的人声片段中的关键词进行识别，得到所述关键词对应的人声片段；

基于所述语音识别模型对所述关键词对应的人声片段进行识别，得到所述文本识别内容。

4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述文本识别内容进行检测，得到所述文本识别内容的检测结果，包括：

将所述文本识别内容输入大型语言模型；

基于所述大型语言模型对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述大型语言模型对所述文本识别内容进行检测，得到所述文本识别内容的检测结果，包括：

基于所述大型语言模型对所述文本识别内容进行匹配检测，得到所述文本识别内容匹配后的检测结果；

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

获取第一数据样本和第二数据样本，所述第一数据样本包括广告内容的数据集，所述第二数据样本包括预设数据格式，所述预设数据格式用于指示所述第二数据样本的输入；

将所述第一数据样本输入通用语音识别模型进行训练，得到所述语音识别模型；

将所述第二数据样本输入通用大型语言模型进行训练，得到所述大型语言模型。

7.根据权利要求6所述的方法，其特征在于，所述将所述第一数据样本输入通用语音识别模型进行训练，得到所述语音识别模型，包括：

将所述第一数据样本输入所述通用语音识别模型，得到第一预测结果，所述第一预测结果是对所述广告内容的预测结果；

基于所述第一数据样本和所述第一预测结果之间的误差，更新所述通用语音识别模型的模型参数。

8.根据权利要求6所述的方法，其特征在于，所述第二数据样本包括第一字段和第二字段；

所述将所述第二数据样本输入通用大型语言模型进行训练，得到所述大型语言模型，包括：

将所述第一字段和所述第二字段基于所述预设数据格式输入所述通用大型语言模型，得到第二预测结果，所述第二预测结果是对所述第二数据样本的预测结果；

基于所述第二数据样本和所述第二预测结果之间的误差，更新所述通用大型语言模型的模型参数；

9.根据权利要求1至8任一所述的方法，其特征在于，所述获取音频中待预测的人声片段，包括：

基于神经网络模型检测所述音频，输出所述音频中的语音片段；

基于人声分离模型对所述语音片段进行提取，得到待预测的人声片段。

10.一种音频处理装置，其特征在于，所述装置包括：

获取模块，用于获取音频中待预测的人声片段；

11.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器，用于执行所述存储器中的所述至少一段程序以实现上述如权利要求1至9任一所述的音频处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可执行指令，所述可执行指令由处理器加载并执行以实现上述如权利要求1至9任一所述的音频处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述如权利要求1至9任一所述的音频处理方法。