CN116959418A

CN116959418A - 一种音频处理方法及装置

Info

Publication number: CN116959418A
Application number: CN202211674936.3A
Authority: CN
Inventors: 杨展恒; 孙思宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-10-27
Also published as: WO2024139805A1

Abstract

本申请提供了一种音频处理方法以及相关装置。本申请实施例可应用于人工智能领域。其方法包括：首先，获取音频信号，音频信号包括N个音频帧；其次，将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，N个音素特征用于表征音频信号的音素信息；接着，获取实体集合，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息；然后，根据N个音素特征从实体集合中提取出L个实体，L个实体对应于N个音素特征；最后，将音频信号、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。本申请实施例提供的音频处理方法，通过建立流式声学网络及非流式声学网络提高文本识别的准确性。

Description

一种音频处理方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音频处理方法及装置。

背景技术

近年来，随着深度学习的蓬勃发展，自动语音识别(ASR)技术以其简化的体系结构及优异的性能广受青睐。而在实际应用中，用于对自动语音识别模型进行训练的训练数据中往往缺乏专有名词或不常见组合(比如人名、地名)，导致自动语音识别系统在这些应用场合中性能会受到影响。

现有常见的解决方案主要是基于外部语言模型的融合方案，通过把使用含有专有名词等实体信息的训练集训练的语言模型与自动语音识别模型的输出进行融合，在训练时，分别单独对语言模型与自动语音识别模型进行训练，将分别训练后的语言模型与自动语音识别模型进行级联，在自动语音识别模型训练过程中无法对级联之后的最终结果进行优化，无法达到实际推理流程中的全局最优，并且由于单独训练的外部语言模型与自动语音识别模型可能存在不匹配现象，在测试时，通过级联的语言模型与自动语音识别模型进行对音频信号进行识别时，对专有名词或不常见组合的识别准确率较低。

发明内容

本申请实施例提供了一种音频处理方法及相关装置，通过建立流式声学网络预测音频信号中N个音频帧对应的N个音素特征及N个流式音频特征，根据得到的N个音素特征从实体集合中提取出与N个音素特征具有对应关系的L个实体，由非流式声学网络根据N个音频帧、N个流式音频特征及L个实体预测音频信号的文本识别结果，提高文本识别的准确性。

本申请的一方面提供一种音频处理方法，包括：

获取音频信号，其中，音频信号包括N个音频帧，N为大于1的整数；

将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，其中，N个音素特征用于表征音频信号的音素信息；

获取实体集合，其中，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息，K为大于1的整数；

根据N个音素特征从实体集合中提取出+，其中，L个实体对应于N个音素特征，L为大于等于N且小于等于K的整数；

将音频信号、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。

本申请的另一方面提供了一种音频处理装置，包括：

音频信号获取模块，用于获取音频信号，其中，音频信号包括N个音频帧，N为大于1的整数；

流式声学网络处理模块，用于将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，其中，N个音素特征用于表征音频信号的音素信息；

实体集合获取模块，用于获取实体集合，其中，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息，K为大于1的整数；

实体提取模块，用于根据N个音素特征从实体集合中提取出L个实体，其中，L个实体对应于N个音素特征，L为大于等于N且小于等于K的整数；

非流式声学网络处理模块，用于将音频信号、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。

在本申请实施例的另一种实现方式中，流式声学网络包括因果编码子网络、音素预测子网络及音素联合子网络；流式声学网络处理模块，还用于：

对N个音频帧进行特征提取，得到N个音频帧特征；

将N个音频帧特征中的每个音频帧特征作为流式声学网络中的因果编码子网络的输入，通过因果编码子网络输出N个音频帧特征中的每个音频帧特征对应的流式音频特征；

将N个音频帧中的每个音频帧作为流式声学网络中的音素预测子网络的输入，通过音素预测子网络输出N个音频帧中的每个音频帧对应的音素识别信息；

将N个音频帧特征中的每个音频帧特征对应的流式音频特征与N个音频帧中的每个音频帧对应的音素识别信息输入至流式声学网络中的音素联合子网络，通过音素联合子网络输出N个音素特征。

在本申请实施例的另一种实现方式中，流式声学网络处理模块，还用于：

获取N个音频帧中的第i帧音频帧及第i-1帧音频帧对应的第i-1个音素识别信息，其中，第i-1个音素识别信息由音素预测子网络根据第i-1帧音频帧生成，i为大于1的整数；

将第i帧音频帧及第i-1个音素识别信息作为音素预测子网络的输入，通过音素预测子网络输出第i帧音频帧对应的音素识别信息。

获取N个音频帧中的第一帧音频帧及预设音素识别信息；

将第一帧音频帧及预设音素识别信息作为音素预测子网络的输入，通过音素预测子网络输出第一帧音频帧对应的音素识别信息。

在本申请实施例的另一种实现方式中，非流式声学网络包括字预测子网络、非因果编码子网络、上下文信息提取子网络及注意力偏置字联合子网络；非流式声学网络处理模块，还用于：

将N个音频帧中的每个音频帧作为非流式声学网络中的字预测子网络的输入，通过字预测子网络输出N个音频帧中的每个音频帧对应的字识别信息；

将N个流式音频特征作为非流式声学网络中的非因果编码子网络的输入，通过非因果编码子网络输出N个音频帧对应的非流式音频特征；

将L个实体作为非流式声学网络中的上下文信息提取子网络的输入，通过上下文信息提取子网络输出L个实体对应的上下文信息特征；

将N个音频帧中的每个音频帧对应的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络的输入，通过注意力偏置字联合子网络输出文本识别结果。

在本申请实施例的另一种实现方式中，注意力偏置字联合子网络包括注意力偏置子网络及字联合子网络；非流式声学网络处理模块，还用于：

将N个音频帧中的每个音频帧对应的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络中的注意力偏置子网络的输入，通过注意力偏置子网络输出字关联特征及非流式音频关联特征，其中，字关联特征用于表征N个音频帧中的每个音频帧对应的字识别信息与上下文信息特征的关联性，非流式音频关联特征用于表征N个音频帧对应的非流式音频特征与上下文信息特征的关联性；

将字关联特征及非流式音频关联特征作为非流式声学网络中的字联合子网络的输入，通过字联合子网络输出文本识别结果。

在本申请实施例的另一种实现方式中，注意力偏置子网络包括第一注意力偏置子网络及第二注意力偏置子网络；非流式声学网络处理模块，还用于：

将N个音频帧中的每个音频帧对应的字识别信息及上下文信息特征作为注意力偏置子网络中的第一注意力偏置子网络的输入，通过第一注意力偏置子网络输出字关联特征；

将N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置子网络中的第二注意力偏置子网络的输入，通过第二注意力偏置子网络输出非流式音频关联特征，其中，第一注意力偏置子网络的参数与第二注意力偏置子网络的参数不同。

在本申请实施例的另一种实现方式中，非流式声学网络处理模块，还用于：

获取N个音频帧中的第i帧音频帧及第i-1帧音频帧对应的第i-1个字识别信息，其中，第i-1个字识别信息由字预测子网络根据第i-1帧音频帧生成，i为大于1的整数；

将第i帧音频帧及第i-1个字识别信息作为字预测子网络的输入，通过字预测子网络输出第i帧音频帧对应的字识别信息。

获取N个音频帧中的第一帧音频帧及预设字识别信息；

将第一帧音频帧及预设字识别信息作为字预测子网络的输入，通过字预测子网络输出第一帧音频帧对应的字识别信息。

在本申请实施例的另一种实现方式中，实体提取模块，还用于：

根据N个音素特征，从实体集合中提取出P个实体，其中，P个实体的音素标签与N个音素特征相同；

根据N个音素特征中每个音素特征在音频信号中出现的先后次序，从P个实体中提取出L个实体，其中，L个实体的音素标签与N个音素特征的顺序相同，P为小于等于K且大于等于L的整数。

获取K个实体中每个实体对应的音素信息；

根据K个实体中每个实体对应的音素信息及N个音素特征，计算每个实体的后验及分数，其中，后验及分数用于表征实体与N个音素特征的相似度；

从K个实体中提取出后验及分数大于后验及分数阈值的P个实体。

获取P个实体中每个实体的音素信息的音素顺序；

根据N个音素特征中每个音素特征在音频信号中出现的先后次序及每个实体的音素信息的音素顺序，从P个实体中提取出L个实体。

本申请的另一方面提供了一种计算机设备，包括：

存储器、收发器、处理器及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面的方法；

总线系统用于连接存储器及处理器，以使存储器及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种音频处理方法及相关装置，其方法包括：首先，获取音频信号，其中，音频信号包括N个音频帧；其次，将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，其中，N个音素特征用于表征音频信号的音素信息；接着，获取实体集合，其中，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息；然后，根据N个音素特征从实体集合中提取出L个实体，其中，L个实体对应于N个音素特征；最后，将N个音频帧、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。本申请实施例提供的音频处理方法，通过建立流式声学网络预测音频信号中N个音频帧对应的N个音素特征及N个流式音频特征，根据得到的N个音素特征从实体集合中提取出与N个音素特征具有对应关系的L个实体，由非流式声学网络根据N个音频帧、N个流式音频特征及L个实体预测音频信号的文本识别结果，提高文本识别的准确性。

附图说明

图1为本申请某一实施例提供的音频处理系统的一个架构示意图；

图2为本申请某一实施例提供的音频处理方法的流程图；

图3为本申请某一实施例提供的音频处理过程的示意图；

图4为本申请另一实施例提供的音频处理方法的流程图；

图5为本申请某一实施例提供的流式声学网络的示意图；

图6为本申请另一实施例提供的音频处理方法的流程图；

图7为本申请另一实施例提供的音频处理方法的流程图；

图8为本申请另一实施例提供的音频处理方法的流程图；

图9为本申请某一实施例提供的上下文信息提取子网络的结构示意图；

图10为本申请某一实施例提供的非流式声学网络的示意图；

图11为本申请另一实施例提供的音频处理方法的流程图；

图12为本申请某一实施例提供的非流式声学网络处理流程的示意图；

图13为本申请另一实施例提供的音频处理方法的流程图；

图14为本申请某一实施例提供的第一注意力偏置子网络的示意图；

图15为本申请某一实施例提供的第二注意力偏置子网络的示意图；

图16为本申请另一实施例提供的音频处理方法的流程图；

图17为本申请另一实施例提供的音频处理方法的流程图；

图18为本申请另一实施例提供的音频处理方法的流程图；

图19为本申请另一实施例提供的音频处理方法的流程图；

图20为本申请又一实施例提供的音频处理方法的流程图；

图21为本申请某一实施例提供的音频处理装置的结构示意图；

图22为本申请某一实施例提供的服务器结构示意图。

具体实施方式

本申请实施例提供了一种音频处理方法，通过建立流式声学网络预测音频信号中N个音频帧对应的N个音素特征及N个流式音频特征，根据得到的N个音素特征从实体集合中提取出与N个音素特征具有对应关系的L个实体，由非流式声学网络根据N个音频帧、N个流式音频特征及L个实体预测音频信号的文本识别结果，提高文本识别的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

近年来，随着深度学习的蓬勃发展，端到端(End-to-End，E2E)自动语音识别(ASR)技术以其简化的体系结构和优异的性能广受青睐。然而端到端的特点导致其识别性能与训练数据分布高度相关。在实际应用中,由于训练数据中缺乏专有名词或不常见组合(比如人名、地名)，ASR系统难以识别这些专有实体，而专有实体往往是一句话中需要提取的重点，因此最终导致系统识别性能的下降。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

自动语音识别技术(Automatic Speech Recognition，ASR)：是一种将人的语音转换为文本的技术。

加权有限状态转换机(Weighted Finite-State Transducer，WFST)由有限状态接收机(FSA)拓展而来，在ASR领域常被称为“解码器”。包括声学模型、上下文相关处理的FST(context-dependency transducer)、发音词典、语言模型四个网络，形成的解码网络。

实时率(real time factor，RTF)：也称系统实时因子，常用于度量自动语音识别系统解码速度的值。

Chunk：语音块，指流式过程中把输入的流语音分成一定长度的块进行处理。

Transducer：转换机。

Encoder：编码器。

Predictor：预测网络，transducer中的组件。

流式声学网络，也称流式声学模型，用于对局部上下文进行识别。在端对端的自动语音识别技术中，可以理解为用户一边说话流式声学网络一边返回识别结果，在句子结束前会产生许多中间结果。

非流式声学网络，也称非流式声学模型，用于对全局上下文进行识别。在端对端的自动语音识别技术中，可以理解为待用户整句话说完后返回识别结果。

现有常见的解决方案主要是基于外部语言模型的融合方案，通过把使用含有专有名词等实体信息的训练集训练的语言模型与端到端ASR模型的输出后验矩阵通过加权有限状态机或者其他方式进行融合。

基于外部语言模型的融合方案是工程化中常用的方案，由于外部语言模型单独训练并与端到端ASR模型级联，因此在训练过程中，ASR模型无法对级联之后的最终结果进行优化，无法达到实际推理流程中的全局最优，而且单独训练的外部语言模型与ASR模型可能存在不匹配现象，融合过程需要人工调节超参数。外部语言模型相当于是下游模块，无法弥补由于上游模块ASR带来的信息损失，而ASR模型训练本身并没有引入实体信息，因此会出现融合之后实体仍然识别不佳的现象。在测试过程中，通过级联的语言模型与自动语音识别模型进行对音频信号进行识别时，对专有名词或不常见组合的识别准确率较低。

本申请实施例提供的音频处理方法，通过建立流式声学网络预测音频信号中N个音频帧对应的N个音素特征及N个流式音频特征，根据得到的N个音素特征从实体集合中提取出与N个音素特征具有对应关系的L个实体，由非流式声学网络根据N个音频帧、N个流式音频特征及L个实体预测音频信号的文本识别结果，提高文本识别的准确性。

为了便于理解，请参阅图1，图1为本申请实施例中音频处理方法的应用环境图，如图1所示，本申请实施例中音频处理方法应用于音频处理系统。音频处理系统包括：服务器和终端设备；其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

服务器首先获取音频信号，其中，音频信号包括N个音频帧；其次，服务器将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，其中，N个音素特征用于表征音频信号的音素信息；接着，服务器获取实体集合，其中，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息；然后，服务器根据N个音素特征从实体集合中提取出L个实体，其中，L个实体对应于N个音素特征；最后，服务器将N个音频帧、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。

下面将从服务器的角度，对本申请中音频处理方法进行介绍。请参阅图2，本申请实施例提供的音频处理方法包括：步骤S110至步骤S150。具体的：

S110、获取音频信号。

其中，音频信号包括N个音频帧，N为大于1的整数。

可以理解的是，获取到音频信号后，对音频信号进行分帧及分块，得到N个音频帧。在端到端自动语音识别场景中，音频信号为实时获取的，可以是用户的语音音频。每个音频帧对应于语音音频中的每个音频单元。例如，语音音频为“给李华和王伟发送信息”，音频单元为语音音频中的字单元“给”、“李”、“华”、“和”、“王”、“伟”、“发”、“送”、“信”、“息”；语音音频为“Send messages to Li Hua and Wang Wei”，音频单元为语音音频中的词单元“Send”、“messages”、“to”、“Li”、“Hua”、“and”、“Wang”、“Wei”。

S120、将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征。

其中，N个音素特征用于表征音频信号的音素信息。

可以理解的是，流式声学网络包括音素预测子网络、因果编码子网络及音素联合子网络，其中，音素预测子网络为神经网络，因果编码子网络用于音频特征编码，音素联合子网络用于将音素预测子网络的输出与因果编码子网络的输出进行特征融合。将N个音频帧输入至流式声学网络，通过因果编码子网络输出N个流式音频特征，通过音素联合子网络输出N个音素特征。N个音频帧与N个音素特征具有对应关系，N个音频帧与N个流式音频特征具有对应关系。

音素是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。例如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。N个音频帧对应于N个音素信息，N个音频帧对应的N个音素信息组合成为音频信号的音素信息。

S130、获取实体集合。

其中，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息，K为大于1的整数。

可以理解的是，预先构建K个实体组成实体集合，每个实体对应于一个音素信息。

S140、根据N个音素特征从实体集合中提取出L个实体。

其中，L个实体对应于N个音素特征，L为大于等于N且小于等于K的整数。

可以理解的是，通过实体提取网络从实体集合中提取出音素信息与N个音素特征相同的L个实体，L个实体对应的L个音素信息与N个音素特征相同。例如，4个音素特征表征的4个音素信息为“wang”、“fang”、“li”、“hua”，实体集合中包括王芳、王方、汪芳、李华、梨花、丽华、方往、芳华、王丽、王华、张三、赵四等实体。根据4个音素信息(“wang”、“fang”、“li”、“hua”)从实体集合中提取出6个实体(王芳、王方、汪芳、李华、梨花、丽华)。

S150、将音频信号、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。

可以理解的是，非流式声学网络包括字预测子网络、上下文信息提取子网络、非因果编码子网络及注意力偏置字联合子网络；其中，字预测子网络为神经网络，非因果编码子网络用于音频特征编码，上下文信息提取子网络用于接收L个实体并生成固定维度的L个上下文向量。将N个音频帧、N个流式音频特征及L个实体输入至非流式声学网络，通过字预测子网络输出字识别信息，通过上下文信息提取子网络输出上下文信息特征，通过非因果编码子网络输出非流式音频特征，通过注意力偏置字联合子网络输出文本识别结果。

为便于理解，请参阅图3，图3是本申请实施例提供的音频处理过程的示意图。首先，获取音频信号，将音频信号的N个音频帧输入至流式声学网络，通过流式声学网络输出N个音素特征及N个流式音频特征。然后，获取实体集合，根据N个音素特征从实体集合中提取出L个实体。最后，将音频信号、N个流式音频特征及L个实体输入至非流式声学网络，通过非流式声学网络输出文本识别结果。

在本申请的图2对应的实施例提供的音频处理方法的一个可选实施例中，流式声学网络包括音素预测子网络、因果编码子网络及音素联合子网络。请参阅图4，步骤S120包括子步骤S121至子步骤S124。需要说明的是，子步骤S122与子步骤S123不存在先后执行的顺序，即子步骤S122与子步骤S123可以是并列执行，也可以是先执行子步骤S122后执行子步骤S123，还可以是先执行子步骤S123后执行子步骤S122。本申请以先执行子步骤S122后执行子步骤S123为例进行说明。具体的：

S121、对N个音频帧进行特征提取，得到N个音频帧特征。

可以理解的是，对N个音频帧中每个音频帧进行特征提取，得的每个音频帧对应的音频特征，N个音频帧对应N个音频帧特征。音频帧特征通过矩阵格式进行表示。

S122、将N个音频帧特征中的每个音频帧特征作为流式声学网络中的因果编码子网络的输入，通过因果编码子网络输出N个音频帧特征中的每个音频帧特征对应的流式音频特征。

可以理解的是，将N个音频帧特征中的每个音频帧特征输入至因果编码子网络，通过因果编码子网络输出N个音频帧特征中的每个音频帧特征对应的流式音频特征，每个音频帧特征对应一个流式音频特征，N个音频帧特征对应N个流式音频特征。输入的音频帧特征通过因果编码子网络产生流式高维特征表示的流式音频特征。流式音频特征通过矩阵格式进行表示。将矩阵格式的音频帧特征通过因果编码器进行编码，得到矩阵格式的流式音频特征。

S123、将N个音频帧中的每个音频帧作为流式声学网络中的音素预测子网络的输入，通过音素预测子网络输出N个音频帧中的每个音频帧对应的音素识别信息。

可以理解的是，将N个音频帧中的每个音频帧输入至音素预测子网络，通过音素预测子网络输出N个音频帧中的每个音频帧对应的音素识别信息，每个音频帧对应一个音素识别信息，N个音频帧对应N个音素识别信息。通过音素预测子网络预测每个音频帧的音素识别信息。音素识别信息通过矩阵格式进行表示。通过N个音频帧中的第i-1帧音频帧对应的第i-1个音素识别信息及第i帧音频帧预测第i帧音频帧对应的音素识别信息。

S124、将N个音频帧特征中的每个音频帧特征对应的流式音频特征与N个音频帧中的每个音频帧对应的音素识别信息输入至流式声学网络中的音素联合子网络，通过音素联合子网络输出N个音素特征。

可以理解的是，将N个音频帧特征中的每个音频帧特征对应的流式音频特征与音素识别信息作为音素联合子网络的输入，通过音素联合子网络输出每个音频帧特征对应的音素特征。每个音频帧对应一个音素特征，N个音频帧对应N个音素特征。通过音素联合子网络将流式音频特征与音素识别信息进行融合，得到音素特征。音素特征通过矩阵格式表示。将矩阵格式的流式音频特征与矩阵格式的音素识别信息通过音素联合子网络进行融合，得到矩阵格式的音素特征。

为便于理解，请参阅图5，图5为本申请实施例提供的流式声学网络的示意图。首先，对第i帧音频帧进行特征提取，得到第i帧音频帧对应的音频特征x_i。接着，将第i帧音频帧对应的音频特征x_i作为流式声学网络中的因果编码子网络的输入，通过因果编码子网络输出第i帧音频帧对应的流式音频特征E_Si。然后，将第i-1帧音频帧对应的第i-1个音素识别信息及第i帧音频帧作为流式声学网络中的音素预测子网络的输入，通过音素预测子网络输出第i帧音频帧对应的音素识别信息。最后，将第i帧音频帧对应的流式音频特征E_Si和第i帧音频帧对应的音素识别信息输入至流式声学网络中的音素联合子网络，通过音素联合子网络输出第i帧音频帧对应的音素特征/>音素特征/>表征第i帧音频帧对应的音素信息。

本申请实施例提供的音频处理方法，建立流式声学网络，通过流式声学网络中的音素预测子网络预测音频信号中每个音频帧对应的音素识别信息，通过流式声学网络中的因果编码子网络对音频帧特征进行编码生成流式音频特征，通过流式声学网络中的音素联合子网络融合流式音频特征与音素识别信息生成音素特征，提高文本识别的准确性。

在本申请的图2对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图6，子步骤S123进一步包括子步骤S1231至子步骤S1232。具体的：

S1231、获取N个音频帧中的第i帧音频帧及第i-1帧音频帧对应的第i-1个音素识别信息。

其中，第i-1个音素识别信息由音素预测子网络根据第i-1帧音频帧生成，i为大于1的整数。

S1232、将第i帧音频帧及第i-1个音素识别信息作为音素预测子网络的输入，通过音素预测子网络输出第i帧音频帧对应的音素识别信息。

可以理解的是，音素预测子网络通过第i-1帧音频帧对应的第i-1个音素识别信息及第i帧音频帧预测得到第i帧音频帧对应的音素识别信息，而第i-1帧音频帧对应的第i-1个音素识别信息则由音素预测子网络通过第i-2帧音频帧对应的第i-2个音素识别信息及第i-1帧音频帧预测得到，以此类推。音素预测子网络为神经网络，通过前一帧的预测得到的音素识别信息预测当前帧的音素识别信息。

本申请实施例提供的音频处理方法，由音素预测子网络根据当前帧及前一帧对应的音素识别信息预测当前帧的音素识别信息，依次对N个音频帧进行预测，得到N个音频帧对应的N个音素识别信息，为提高文本识别的准确性奠定基础。

在本申请的图2对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图7，子步骤S123进一步包括子步骤S1233至子步骤S1234。具体的：

S1233、获取N个音频帧中的第一帧音频帧及预设音素识别信息。

S1234、将第一帧音频帧及预设音素识别信息作为音素预测子网络的输入，通过音素预测子网络输出第一帧音频帧对应的音素识别信息。

可以理解的是，音素预测子网络通过第i-1帧音频帧对应的第i-1个音素识别信息及第i帧音频帧预测得到第i帧音频帧对应的音素识别信息，而第i-1帧音频帧对应的第i-1个音素识别信息则由音素预测子网络通过第i-2帧音频帧对应的第i-2个音素识别信息及第i-1帧音频帧预测得到；对于N个音频帧中的第一帧音频帧的预测，则由音素预测子网络通过预设音素识别信息及第一帧音频帧预测得到。

在本申请的图2对应的实施例提供的音频处理方法的一个可选实施例中，非流式声学网络包括字预测子网络、上下文信息提取子网络、非因果编码子网络及注意力偏置字联合子网络。请参阅图8，步骤S150进一步包括子步骤S151至子步骤S154。需要说明的是，子步骤S151、子步骤S152及子步骤S153不存在先后执行的顺序，即子步骤S151、子步骤S152及子步骤S153可以是并列执行，也可以是先执行子步骤S151再子步骤S152后子步骤S153等执行方式。本申请以先执行子步骤S151再子步骤S152后子步骤S153为例进行说明。具体的：

S151、将音频信号作为非流式声学网络中的字预测子网络的输入，通过字预测子网络输出音频信号的字识别信息。

可以理解的是，将音频信号输入至字预测子网络，通过字预测子网络输出音频信号的字识别信息。

S152、将N个流式音频特征作为非流式声学网络中的非因果编码子网络的输入，通过非因果编码子网络输出N个音频帧对应的非流式音频特征。

可以理解的是，将N个流式音频特征输入至非因果编码子网络，通过非因果编码子网络输出N个音频帧对应的非流式音频特征，N个音频帧对应一个非流式音频特征。输入的流式音频特征通过非因果编码子网络产生非流式高维特征表示的非流式音频特征。非流式音频特征通过矩阵格式进行表示。将矩阵格式的流式音频特征通过非因果编码器进行编码，得到矩阵格式的非流式音频特征。

S153、将L个实体作为非流式声学网络中的上下文信息提取子网络的输入，通过上下文信息提取子网络输出L个实体对应的上下文信息特征。

可以理解的是，上下文信息提取子网络用于接收L个实体并生成固定维度的L个上下文向量。请参阅图9，图9是本申请实施例提供的上下文信息提取子网络的结构示意图。上下文信息提取子网络包括embedding层、intra-transformer层及inter-transformer层。其中，embedding层用于对输入信号进行特征映射，intra-transformer层用于计算类内特征，inter-transformer层用于计算类间特征。

对全部实体的长度进行填充，使得为L个实体的长度均为H。将长度均为H的L个实体组成的实体提取集合c输入至上下文信息提取子网络中。具体的，首先，通过embedding层将实体提取集合c中每个实体进行映射，得到向量E_O，向量E_O的维度为L×H×D。接着，对于每个向量E_O通过自注意力transformer模块的intra-transformer层计算类内特征向量E_I，向量E_I维度为L×H×F。然后，取E_I中的H维第一个符号得到长度固定的向量。最后，通过另一个自注意力transformer模块的inter-transformer层对每个向量E_I的L维上计算类间特征，得到上下文向量E_C。通过字联合解码器预测上下文向量E_C的字序列，通过音素联合解码器预测上下文向量E_C的音素序列，从而在上下文向量提取器中引入了发音信息。这部分的损失函数可以通过下式计算：

L_embedding＝L_phone+L_char；

其中，L_embedding表示embedding层的损失函数，L_phone表示音素联合解码器的损失函数，L_char表示字联合解码器的损失函数。

S154、将字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络的输入，通过注意力偏置字联合子网络输出文本识别结果。

可以理解的是，将音频信号的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征输入至注意力偏置字联合子网络，通过注意力偏置字联合子网络输出文本识别结果。注意力偏置字联合子网络包括注意力偏置子网络和字联合子网络。将音频信号的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征输入至注意力偏置子网络，通过注意力偏置子网络输出字关联特征及非流式音频关联特征；将字关联特征及非流式音频关联特征输入至字联合子网络，通过字联合子网络输出文本识别结果。

为便于理解，请参阅图10，图10是本申请实施例提供的非流式声学网络的示意图。首先，将第i-1个字识别信息作为非流式声学网络中的字预测子网络的输入，通过字预测子网络输出第i个字识别信息/>接着，将L个实体组成的实体提取集合c作为非流式声学网络中的上下文信息提取子网络的输入，通过上下文信息提取子网络输出L个实体中每个实体对应的上下文信息特征E_C。然后，将N个流式音频特征E_Si作为非流式声学网络中的非因果编码子网络的输入，通过非因果编码子网络输出N个音频帧对应的非流式音频特征E_NS。最后，将字识别信息、L个实体中每个实体对应的上下文信息特征E_C、以及N个音频帧对应的非流式音频特征E_NS作为非流式声学网络中的注意力偏置字联合子网络的输入，通过注意力偏置字联合子网络输出文本识别结果。

本申请实施例提供的音频处理方法，建立非流式声学网络，通过非流式声学网络中的字预测子网络预测音频信号中每个音频帧对应的字识别信息，通过流式声学网络中的非因果编码子网络对流式音频特征进行编码生成非流式音频特征，通过非流式声学网络中的上下文信息提取子网络输出L个实体对应的上下文信息特征，通过非流式声学网络中的注意力偏置字联合子网络输出文本识别结果，提高文本识别的准确性。

在本申请的图8对应的实施例提供的音频处理方法的一个可选实施例中，注意力偏置字联合子网络包括注意力偏置子网络及字联合子网络。请参阅图11，子步骤S154进一步包括子步骤S1541至子步骤S1542。具体地：

S1541、将音频信号对应的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络中的注意力偏置子网络的输入，通过注意力偏置子网络输出字关联特征及非流式音频关联特征。

其中，字关联特征用于表征音频信号对应的字识别信息与上下文信息特征的关联性，非流式音频关联特征用于表征N个音频帧对应的非流式音频特征与上下文信息特征的关联性。

可以理解的是，通过字预测子网络对音频信号进行处理，得到音频信号的字识别信息；通过非因果编码子网络对N个音频帧中的每个音频帧对应的流式音频特征进行处理，得到N个音频帧中的每个音频帧对应的非流式音频特征；通过上下文向量提取子网络对L个实体进行处理，得到上下文信息特征。

注意力偏置子网络包括第一注意力偏置子网络和第二注意力偏置子网络，其中，第一注意力偏置子网络用于对字识别信息及上下文信息特征进行处理，得到字关联特征；第二注意力偏置子网络用于非流式音频特征及上下文信息特征进行处理，得到非流式音频关联特征。注意力偏置子网络可以学习上下文向量与音频信号之间的关联性。

将音频信号对应的字识别信息及上下文信息特征作为注意力偏置字联合子网络中的第一注意力偏置子网络的输入，通过第一注意力偏置子网络输出字关联特征；将N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络中的第二注意力偏置子网络的输入，通过第二注意力偏置子网络输出非流式音频关联特征

S1542、将字关联特征及非流式音频关联特征作为非流式声学网络中的字联合子网络的输入，通过字联合子网络输出文本识别结果。

可以理解的是，通过字联合子网络将字关联特征及非流式音频关联特征进行融合，得到文本识别结果。字关联特征通过矩阵格式表示。非流式音频关联特征通过矩阵格式表示。将矩阵格式的字关联特征和矩阵格式的非流式音频关联特征通过字联合子网络进行融合，得到文本识别结果。

为便于理解，请参阅图12，图12是本申请实施例提供的非流式声学网络处理流程的示意图。首先，将第i-1个字识别信息作为非流式声学网络中的字预测子网络的输入，通过字预测子网络输出第i个字识别信息/>接着，将N个流式音频特征E_Si作为非流式声学网络中的非因果编码子网络的输入，通过非因果编码子网络输出N个音频帧对应的非流式音频特征E_NS。然后，将L个实体组成的实体提取集合c作为非流式声学网络中的上下文信息提取子网络的输入，通过上下文信息提取子网络输出L个实体对应的上下文信息特征E_C。最后，将音频信号对应的字识别信息及上下文信息特征作为注意力偏置字联合子网络中的第一注意力偏置子网络的输入，通过第一注意力偏置子网络输出字关联特征；将N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络中的第二注意力偏置子网络的输入，通过第二注意力偏置子网络输出非流式音频关联特征；将字关联特征及非流式音频关联特征作为注意力偏置字联合子网络中的字联合子网络的输入，通过字联合子网络输出文本识别结果。

本申请实施例提供的音频处理方法，建立非流式声学网络，通过非流式声学网络中的字预测子网络预测音频信号中每个音频帧对应的字识别信息，通过流式声学网络中的非因果编码子网络对流式音频特征进行编码生成非流式音频特征，通过非流式声学网络中的上下文信息提取子网络输出L个实体对应的上下文信息特征，通过非流式声学网络中的注意力偏置子网络学习字识别信息与上下文信息特征之间的相似性，得到字关联特征，以及非流式音频特征与与上下文信息特征之间的相似性，得到非流式音频关联特征，通过字联合网络对字关联特征和非流式音频关联特征进行特征融合，输出文本识别结果，提高文本识别的准确性。

在本申请的图11对应的实施例提供的音频处理方法的一个可选实施例中，注意力偏置子网络包括第一注意力偏置子网络和第二注意力偏置子网络。请参阅图13，子步骤S1541进一步包括子步骤S15411至子步骤S15412。具体的：

S15411、将音频信号对应的字识别信息及上下文信息特征作为注意力偏置子网络中的第一注意力偏置子网络的输入，通过第一注意力偏置子网络输出字关联特征。

可以理解的是，第一注意力偏置子网络用于学习字识别信息与上下文信息特征之间的相关性，通过第一注意力偏置子网络对字识别信息与上下文信息特征进行处理，得到字关联特征，通过字关联特征表征字识别信息与上下文信息特征之间的相关性。

请参阅图14，图14为本申请实施例提供的第一注意力偏置子网络的示意图。第一注意力偏置子网络目的在于将上下文信息整合到transducer模型中。将字识别信息与上下文信息特征E_C作为第一注意力偏置子网络的输入，通过第一注意力偏置子网络学习字识别信息/>与上下文信息特征E_C的相关性。具体的，将字识别信息/>作为多头注意力机制(Multi-Head Attention，MHA)的输入查询向量Q，下文信息特征E_C作为多头注意力机制的键向量K和值向量V，通过注意力机制计算得到隐状态H。隐状态H可通过以下公式计算：

其中，H为隐状态，Q表示查询向量，为上下文信息特征E_C的转置矩阵，F表示字识别信息的总数。

S15412、将N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置子网络中的第二注意力偏置子网络的输入，通过第二注意力偏置子网络输出非流式音频关联特征。

其中，第一注意力偏置子网络的参数与第二注意力偏置子网络的参数不同。

可以理解的是，第二注意力偏置子网络用于学习非流式音频特征与上下文信息特征之间的相关性，通过第二注意力偏置子网络对非流式音频特征与上下文信息特征进行处理，得到非流式音频关联特征，通过非流式音频关联特征表征非流式音频特征与上下文信息特征之间的相关性。

请参阅图15，图15为本申请实施例提供的第二注意力偏置子网络的示意图。第二注意力偏置子网络目的在于将上下文信息整合到transducer模型中。将非流式音频特征E_NS与上下文信息特征E_C作为第二注意力偏置子网络的输入，通过第二注意力偏置子网络学习非流式音频特征E_NS与上下文信息特征E_C的相关性。具体的，将非流式音频特征E_NS作为多头注意力机制(Multi-Head Attention，MHA)的输入查询向量Q，下文信息特征E_C作为多头注意力机制的键向量K和值向量V，通过注意力机制计算得到隐状态H。隐状态H可通过以下公式计算：

其中，H为隐状态，Q表示查询向量，Q＝E_NS，为上下文信息特征E_C的转置矩阵，F表示字识别信息的总数。

本申请实施例提供的音频处理方法，建立非流式声学网络，通过非流式声学网络中的字预测子网络预测音频信号中每个音频帧对应的字识别信息，通过流式声学网络中的非因果编码子网络对流式音频特征进行编码生成非流式音频特征，通过非流式声学网络中的上下文信息提取子网络输出L个实体对应的上下文信息特征，通过非流式声学网络中的第一注意力偏置子网络学习字识别信息与上下文信息特征之间的相似性，得到字关联特征，以及通过非流式声学网络中的第二注意力偏置子网络学习非流式音频特征与上下文信息特征之间的相似性，得到非流式音频关联特征，通过字联合网络对字关联特征和非流式音频关联特征进行特征融合，输出文本识别结果，提高文本识别的准确性。

在本申请的图8对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图16，子步骤S151进一步包括子步骤S1511至子步骤S1512。具体的：

S1511、获取音频信号中的第i帧音频帧及第i-1帧音频帧对应的第i-1个字识别信息。

其中，第i-1个字识别信息由字预测子网络根据第i-1帧音频帧生成，i为大于1的整数。

S1512、将第i-1个字识别信息作为字预测子网络的输入，通过字预测子网络输出第i个字识别信息。

可以理解的是，字预测子网络通过第i-1个字识别信息预测得到第i个字识别信息，而第i-1个字识别信息则由字预测子网络通过第i-2个字识别信息预测得到，以此类推。字预测子网络为神经网络，通过前一帧的预测得到的字识别信息预测当前帧的字识别信息。第i-1个字识别信息为与第i帧音频帧最近的非空音频帧对应的字识别信息。

本申请实施例提供的音频处理方法，由字预测子网络根据前一个字识别信息预测当前的字识别信息，依次对音频信号中N个音频帧进行预测，得到音频信号对应的字识别信息，为提高文本识别的准确性奠定基础。

在本申请的图8对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图17，子步骤S151进一步包括子步骤S1513至子步骤S1514。具体的：

S1513、获取音频信号中的第一帧音频帧及预设字识别信息。

S1514、将第一帧音频帧及预设字识别信息作为字预测子网络的输入，通过字预测子网络输出第一帧音频帧对应的字识别信息。

可以理解的是，字预测子网络通过第i-1个字识别信息预测得到第i个字识别信息，而第i-1个字识别信息则由字预测子网络通过第i-2个字识别信息预测得到；对于音频信号中的第一个音频帧的预测，则由字预测子网络通过预设字识别信息及第一个音频帧预测得到。

本申请实施例提供的音频处理方法，由字预测子网络根据当前帧及前一帧对应的字识别信息预测当前帧的字识别信息，依次对音频信号中的N个音频帧进行预测，得到音频信号对应的字识别信息，为提高文本识别的准确性奠定基础。

在本申请的图2对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图18，步骤S140进一步包括子步骤S141至子步骤S142。具体的：

S141、根据N个音素特征，从实体集合中提取出P个实体。

其中，P个实体的音素标签与N个音素特征相同。

可以理解的是，根据N个音素特征，从实体集合中的K个实体中选出与N个音素特征相同的P个实体。例如，4个音素特征表征的4个音素信息为“wang”、“fang”、“li”、“hua”，12个实体包括王芳、王方、汪芳、李华、梨花、丽华、方往、芳华、王丽、王华、张三、赵四，根据4个音素特征，从实体集合中的12个实体中选出与4个音素特征相同的10个实体，10个实体包括王芳、王方、汪芳、李华、梨花、丽华、方往、芳华、王丽、王华。

S142、根据N个音素特征中每个音素特征在音频信号中出现的先后次序，从P个实体中提取出L个实体。

其中，L个实体的音素标签与N个音素特征的顺序相同，P为小于等于K且大于等于L的整数。

可以理解的是，根据N个音素特征中每个音素特征在音频信号中出现的先后次序，以及每个实体对应的音素信息，从P个实体中提取出L个实体。例如，4个音素特征表征的4个音素信息为“wang”、“fang”、“li”、“hua”，并且4个音素信息在音频信号中出现的先后次序为第一个为“wang”，第二个为“fang”、第三个为“li”、第四个为“hua”。根据4个音素特征在音频信号中出现的先后次序，以及每个实体对应的音素信息，从10个实体中选出6个实体，6个实体包括王芳、王方、汪芳、李华、梨花、丽华。

本申请实施例提供的音频处理方法，在提取实体过程中，首先从实体集合中提取出与音素特征相同的实体，而后在提取出的实体中提取出与音素特征在音频信号中出现的先后次序相同的实体，相比于直接从实体集合中提取出音素特征相同且音素特征在音频信号中出现的先后次序相同的实体，降低了计算量，提高了实体提取的速度。

在本申请的图18对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图19，子步骤S141进一步包括子步骤S1411至子步骤S1413。具体的：

S1411、获取K个实体中每个实体对应的音素信息。

S1412、根据K个实体中每个实体对应的音素信息及N个音素特征，计算每个实体的后验及分数。

其中，后验及分数用于表征实体与N个音素特征的相似度。

S1413、从K个实体中提取出后验及分数大于后验及分数阈值的P个实体。

可以理解的是，本申请实施例提供的音频处理方法，在提取实体过程中包括两部分，第一部分为计算各个实体的后验和分数(Posterior Sum Confidence，PSC)。PSC分数仅关注实体中的出现音素序列是否在滑动窗中出现，不关注音素出现的顺序，该阶段计算简便，有利于快速过滤掉不相关的实体。具体而言，对于滑动窗中的后验矩阵(大小为T×F，即有T个时间帧，每帧有F个音素类别)以及候选实体A(包含B个音素)，本申请实施例依次处理这B个音素，在后验矩阵的F维中找到对应的列，并在T维中取最大值，记录其分数(即找到T帧中对应音素最大的分数)。当处理完依次所有的B个音素时，把记录的分数加起来除以B得到平均分数。该分数即为候选实体A的PSC分数，通过设定一个阈值来判断该实体是否被过滤掉。对于实体库中的每一个实体均计算PSC分数并进行过滤。

本申请实施例提供的音频处理方法，在提取实体过程中，通过计算每个实体的后验和分数，进而从实体集合中提取出与音素特征相同的实体，减少了实体提取的时间消耗，提高实体提取的速度。

在本申请的图18对应的实施例提供的音频处理方法的一个可选实施例中，请参阅图20，子步骤S142进一步包括子步骤S1421至子步骤S1422。具体的：

S1421、获取P个实体中每个实体的音素信息的音素顺序。

S1422、根据N个音素特征中每个音素特征在音频信号中出现的先后次序及每个实体的音素信息的音素顺序，从P个实体中提取出L个实体。

可以理解的是，本申请实施例提供的音频处理方法，在提取实体过程中包括两部分，第二部分为计算各个实体的序列顺序分数(Sequence Order Confidence，SOC)。通过动态规划算法实现序列顺序分数的计算。序列顺序分数在于关注候选实体的音素出现顺序，通过实体的音素出现顺序与音素特征在音频信号中出现的先后次序进行对比，进而从P个实体中提取出L个实体。

本申请实施例提供的音频处理方法，在提取实体过程中，通过计算每个实体的序列顺序分数，进而从实体集合中提取出与音素特征相同且音素顺序相同的实体，提高了实体提取的时间消耗，提高实体提取的速度，以及提高了实体提取的准确性。

根据本申请实施例提供的音频处理方法进行了3次实验，实验一为探究本申请实施例提出的方案对于识别性能的影响。实验二进一步分析了实体提取网络的性能。实验三为分析本申请实施例提供的方法的运行耗时性能。

表1为实验一的实验结果，探究本申请实施例提出的方案对于识别性能的影响，实验测试集根据包括联系人场景和音乐检索场景，测试集中每一个句子均包含了至少一个实体，前者原始实体库包含了970个人名实体，后者包含了6253个歌名/歌手名实体。本实验评价指标为CER与CERR，CER表示字错误率，CER越低表示识别性能越好；CERR为CER的相对改进，CERR越高表示识别性能越好。各组实验的基础ASR框架相同，Baseline表示基础ASR框架，基础ASR框架中不包含上下文向量提取子网络和注意力偏置子网络。Baseline+blanklist表示在基础ASR框架中加入上下文向量提取子网络和注意力偏置子网络，并且在推理时输入实体列表为空。Baseline+full list表示在基础ASR框架中加入上下文向量提取子网络和注意力偏置子网络，并且在推理时输入列表为原始实体库。Baseline+PSC表示在基础ASR框架中加入上下文向量提取子网络、注意力偏置子网络和实体提取网络，该实体提取网络仅执行第一阶段的PSC计算过程。Baseline+PSC+SOC表示在基础ASR框架中加入上下文向量提取子网络、注意力偏置子网络和实体提取网络，该实体提取网络执行第一阶段的PSC计算过程和SOC计算过程。topline表示在基础ASR框架中加入上下文向量提取子网络，并且对于每一条测试样例均只使用抄本中含有的实体作为实体列表，该方案为上下文偏置模块的理论上限，实际应用中无法实现。

由实验结果可见，使用整个实体库作为输入在是实体总数较少的情况下(联系人场景)能取得30％的相对提升，但是当实体总数变多时(音乐检索场景)，性能会急剧下降，相比baseline基本上没有收益。而本申请实施例提出的实体过滤方案则在两种场景中均能获得比较明显的提升，且更接近于topline的性能。其中两阶段均使用的方案比仅使用PSC的方案提升更明显。

表1

表2为实验二的实验结果，实验二进一步分析了实体过滤网络的性能，本实验使用ERR与ALS对过滤算法性能进行评估，ERR表示经过过滤之后测试抄本中实体留存的平均概率(召回率)，ALS表示过滤后实体列表的平均大小。ERR越高表示实体过滤网络的性能越好，ALS越小表示实体过滤网络的性能越好。由实验结果可知，相比起原始实体库，通过计算实体的PSC能过滤掉大部分的不相关实体并保持一个比较高的ERR，通过计算实体的PSC和SOC则进一步压缩了实体列表的大小，但会牺牲少许的ERR，综合识别性能来看能进一步取得提升。

表2

表3为实验三的实验结果，实验3进一步分析了本申请实施例提供的方法的运行耗时性能，采用RTF(系统实时因子)作为评估指标，测试环境为单线程2.50GHz Intel(R)Xeon(R)Platinum 8255C CPU。由实验结果可见，当不使用实体过滤方案时，在输入实体库数量上升时(比较联系人场景与音乐检索场景，970→6253)，RTF会大幅度下降至不可用的水平(0.196→4.67)。而使用本申请实施例提出的实体过滤方案，则能有效控制系统RTF：即便实体库大小在6000以上，RTF也能稳定在0.15以内。

表3

下面对本申请中的音频处理装置进行详细描述，请参阅图21。图21为本申请实施例中音频处理装置10的一个实施例示意图，音频处理装置10包括：音频信号获取模块110、流式声学网络处理模块120、实体集合获取模块130、实体提取模块140及非流式声学网络处理模块150。具体的：

音频信号获取模块110，用于获取音频信号。

其中，音频信号包括N个音频帧，N为大于1的整数。

流式声学网络处理模块120，用于将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征。

其中，N个音素特征用于表征音频信号的音素信息。

实体集合获取模块130，用于获取实体集合。

实体提取模块140，用于根据N个音素特征从实体集合中提取出L个实体。

非流式声学网络处理模块150，用于将N个音频帧、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。

本申请实施例提供的音频处理装置，通过建立流式声学网络预测音频信号中N个音频帧对应的N个音素特征及N个流式音频特征，根据得到的N个音素特征从实体集合中提取出与N个音素特征具有对应关系的L个实体，由非流式声学网络根据N个音频帧、N个流式音频特征及L个实体预测音频信号的文本识别结果，提高文本识别的准确性。

在本申请的图21对应的实施例提供的音频处理装置的一个可选实施例中，流式声学网络处理模块120，还用于：

对N个音频帧进行特征提取，得到N个音频帧特征。

将N个音频帧特征中的每个音频帧特征作为流式声学网络中的因果编码子网络的输入，通过因果编码子网络输出N个音频帧特征中的每个音频帧特征对应的流式音频特征。

将N个音频帧中的每个音频帧作为流式声学网络中的音素预测子网络的输入，通过音素预测子网络输出N个音频帧中的每个音频帧对应的音素识别信息。

本申请实施例提供的音频处理装置，建立流式声学网络，通过流式声学网络中的音素预测子网络预测音频信号中每个音频帧对应的音素识别信息，通过流式声学网络中的因果编码子网络对音频帧特征进行编码生成流式音频特征，通过流式声学网络中的音素联合子网络融合流式音频特征与音素识别信息生成音素特征，提高文本识别的准确性。

获取N个音频帧中的第i帧音频帧及第i-1帧音频帧对应的第i-1个音素识别信息。

本申请实施例提供的音频处理装置，由音素预测子网络根据当前帧及前一帧对应的音素识别信息预测当前帧的音素识别信息，依次对N个音频帧进行预测，得到N个音频帧对应的N个音素识别信息，为提高文本识别的准确性奠定基础。

获取N个音频帧中的第一帧音频帧及预设音素识别信息。

在本申请的图21对应的实施例提供的音频处理装置的一个可选实施例中，非流式声学网络处理模块150，还用于：

将N个音频帧中的每个音频帧作为非流式声学网络中的字预测子网络的输入，通过字预测子网络输出N个音频帧中的每个音频帧对应的字识别信息。

将N个流式音频特征作为非流式声学网络中的非因果编码子网络的输入，通过非因果编码子网络输出N个音频帧对应的非流式音频特征。

将L个实体作为非流式声学网络中的上下文信息提取子网络的输入，通过上下文信息提取子网络输出L个实体对应的上下文信息特征。

本申请实施例提供的音频处理装置，建立非流式声学网络，通过非流式声学网络中的字预测子网络预测音频信号中每个音频帧对应的字识别信息，通过流式声学网络中的非因果编码子网络对流式音频特征进行编码生成非流式音频特征，通过非流式声学网络中的上下文信息提取子网络输出L个实体对应的上下文信息特征，通过非流式声学网络中的注意力偏置字联合子网络输出文本识别结果，提高文本识别的准确性。

将N个音频帧中的每个音频帧对应的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络中的注意力偏置子网络的输入，通过注意力偏置子网络输出字关联特征及非流式音频关联特征。

其中，字关联特征用于表征N个音频帧中的每个音频帧对应的字识别信息与上下文信息特征的关联性，非流式音频关联特征用于表征N个音频帧对应的非流式音频特征与上下文信息特征的关联性。

本申请实施例提供的音频处理装置，建立非流式声学网络，通过非流式声学网络中的字预测子网络预测音频信号中每个音频帧对应的字识别信息，通过流式声学网络中的非因果编码子网络对流式音频特征进行编码生成非流式音频特征，通过非流式声学网络中的上下文信息提取子网络输出L个实体对应的上下文信息特征，通过非流式声学网络中的注意力偏置子网络学习字识别信息与上下文信息特征之间的相似性，得到字关联特征，以及非流式音频特征与与上下文信息特征之间的相似性，得到非流式音频关联特征，通过字联合网络对字关联特征和非流式音频关联特征进行特征融合，输出文本识别结果，提高文本识别的准确性。

将N个音频帧中的每个音频帧对应的字识别信息及上下文信息特征作为注意力偏置子网络中的第一注意力偏置子网络的输入，通过第一注意力偏置子网络输出字关联特征。

将N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置子网络中的第二注意力偏置子网络的输入，通过第二注意力偏置子网络输出非流式音频关联特征。

本申请实施例提供的音频处理装置，建立非流式声学网络，通过非流式声学网络中的字预测子网络预测音频信号中每个音频帧对应的字识别信息，通过流式声学网络中的非因果编码子网络对流式音频特征进行编码生成非流式音频特征，通过非流式声学网络中的上下文信息提取子网络输出L个实体对应的上下文信息特征，通过非流式声学网络中的第一注意力偏置子网络学习字识别信息与上下文信息特征之间的相似性，得到字关联特征，以及通过非流式声学网络中的第二注意力偏置子网络学习非流式音频特征与上下文信息特征之间的相似性，得到非流式音频关联特征，通过字联合网络对字关联特征和非流式音频关联特征进行特征融合，输出文本识别结果，提高文本识别的准确性。

获取N个音频帧中的第i帧音频帧及第i-1帧音频帧对应的第i-1个字识别信息。

本申请实施例提供的音频处理装置，由字预测子网络根据当前帧及前一帧对应的字识别信息预测当前帧的字识别信息，依次对N个音频帧进行预测，得到N个音频帧对应的N个字识别信息，为提高文本识别的准确性奠定基础。

获取N个音频帧中的第一帧音频帧及预设字识别信息。

在本申请的图21对应的实施例提供的音频处理装置的一个可选实施例中，实体提取模块140，还用于：

根据N个音素特征，从实体集合中提取出P个实体。

其中，P个实体的音素标签与N个音素特征相同。

本申请实施例提供的音频处理装置，在提取实体过程中，首先从实体集合中提取出与音素特征相同的实体，而后在提取出的实体中提取出与音素特征在音频信号中出现的先后次序相同的实体，相比于直接从实体集合中提取出音素特征相同且音素特征在音频信号中出现的先后次序相同的实体，降低了计算量，提高了实体提取的速度。

获取K个实体中每个实体对应的音素信息。

根据K个实体中每个实体对应的音素信息及N个音素特征，计算每个实体的后验及分数。

其中，后验及分数用于表征实体与N个音素特征的相似度。

本申请实施例提供的音频处理装置，在提取实体过程中，通过计算每个实体的后验和分数，进而从实体集合中提取出与音素特征相同的实体，减少了实体提取的时间消耗，提高实体提取的速度。

获取P个实体中每个实体的音素信息的音素顺序。

本申请实施例提供的音频处理装置，在提取实体过程中，通过计算每个实体的序列顺序分数，进而从实体集合中提取出与音素特征相同且音素顺序相同的实体，提高了实体提取的时间消耗，提高实体提取的速度，以及提高了实体提取的准确性。

图22是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如WindowsServer^TM，MacOSX^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图22所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取音频信号，其中，所述音频信号包括N个音频帧，N为大于1的整数；

将所述N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，其中，所述N个音素特征用于表征所述音频信号的音素信息；

获取实体集合，其中，所述实体集合包括预先构建的K个实体，所述K个实体对应于K个音素信息，K为大于1的整数；

根据所述N个音素特征从所述实体集合中提取出L个实体，其中，所述L个实体对应于所述N个音素特征，L为大于等于N且小于等于K的整数；

将所述音频信号、所述N个流式音频特征及所述L个实体输入至非流式声学网络，得到文本识别结果。

2.如权利要求1所述的音频处理方法，其特征在于，所述流式声学网络包括因果编码子网络、音素预测子网络及音素联合子网络；

所述将所述N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，包括：

对所述N个音频帧进行特征提取，得到N个音频帧特征；

将所述N个音频帧特征中的每个音频帧特征作为所述流式声学网络中的因果编码子网络的输入，通过所述因果编码子网络输出所述N个音频帧特征中的每个音频帧特征对应的流式音频特征；

将所述N个音频帧中的每个音频帧作为所述流式声学网络中的音素预测子网络的输入，通过所述音素预测子网络输出所述N个音频帧中的每个音频帧对应的音素识别信息；

将所述N个音频帧特征中的每个音频帧特征对应的流式音频特征与所述N个音频帧中的每个音频帧对应的音素识别信息输入至所述流式声学网络中的音素联合子网络，通过所述音素联合子网络输出N个音素特征。

3.如权利要求2所述的音频处理方法，其特征在于，所述将所述N个音频帧中的每个音频帧作为所述流式声学网络中的音素预测子网络的输入，通过所述音素预测子网络输出所述N个音频帧中的每个音频帧对应的音素识别信息，包括：

获取所述N个音频帧中的第i帧音频帧及第i-1帧音频帧对应的第i-1个音素识别信息，其中，所述第i-1个音素识别信息由所述音素预测子网络根据所述第i-1帧音频帧生成，i为大于1的整数；

将所述第i帧音频帧及所述第i-1个音素识别信息作为所述音素预测子网络的输入，通过所述音素预测子网络输出所述第i帧音频帧对应的音素识别信息。

4.如权利要求2所述的音频处理方法，其特征在于，所述将所述N个音频帧中的每个音频帧作为所述流式声学网络中的音素预测子网络的输入，通过所述音素预测子网络输出所述N个音频帧中的每个音频帧对应的音素识别信息，包括：

获取N个音频帧中的第一帧音频帧及预设音素识别信息；

将所述第一帧音频帧及所述预设音素识别信息作为所述音素预测子网络的输入，通过所述音素预测子网络输出所述第一帧音频帧对应的音素识别信息。

5.如权利要求1所述的音频处理方法，其特征在于，所述非流式声学网络包括字预测子网络、非因果编码子网络、上下文信息提取子网络及注意力偏置字联合子网络；

所述将所述音频信号、所述N个流式音频特征及所述L个实体输入至非流式声学网络，得到文本识别结果，包括：

将所述音频信号作为所述非流式声学网络中的字预测子网络的输入，通过所述字预测子网络输出所述音频信号对应的字识别信息；

将所述N个流式音频特征作为所述非流式声学网络中的非因果编码子网络的输入，通过所述非因果编码子网络输出所述N个音频帧对应的非流式音频特征；

将所述L个实体作为所述非流式声学网络中的上下文信息提取子网络的输入，通过所述上下文信息提取子网络输出所述L个实体对应的上下文信息特征；

将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述非流式声学网络中的注意力偏置字联合子网络的输入，通过所述注意力偏置字联合子网络输出文本识别结果。

6.如权利要求5所述的音频处理方法，其特征在于，所述注意力偏置字联合子网络包括注意力偏置子网络及字联合子网络；

所述将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述非流式声学网络中的注意力偏置字联合子网络的输入，通过所述注意力偏置字联合子网络输出文本识别结果，包括：

将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述注意力偏置字联合子网络中的注意力偏置子网络的输入，通过所述注意力偏置子网络输出字关联特征及非流式音频关联特征，其中，所述字关联特征用于表征所述音频信号对应的字识别信息与所述上下文信息特征的关联性，所述非流式音频关联特征用于表征所述N个音频帧对应的非流式音频特征与所述上下文信息特征的关联性；

将所述字关联特征及所述非流式音频关联特征作为所述注意力偏置字联合子网络中的字联合子网络的输入，通过所述字联合子网络输出文本识别结果。

7.如权利要求6所述的音频处理方法，其特征在于，所述注意力偏置子网络包括第一注意力偏置子网络及第二注意力偏置子网络；

所述将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述注意力偏置字联合子网络中的注意力偏置子网络的输入，通过所述注意力偏置子网络输出字关联特征及非流式音频关联特征，包括：

将所述音频信号对应的字识别信息及所述上下文信息特征作为所述注意力偏置子网络中的第一注意力偏置子网络的输入，通过所述第一注意力偏置子网络输出字关联特征；

将所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述注意力偏置子网络中的第二注意力偏置子网络的输入，通过所述第二注意力偏置子网络输出非流式音频关联特征，其中，所述第一注意力偏置子网络的参数与所述第二注意力偏置子网络的参数不同。

8.如权利要求5所述的音频处理方法，其特征在于，所述将所述音频信号作为所述非流式声学网络中的字预测子网络的输入，通过所述字预测子网络输出所述N个音频帧中的每个音频帧对应的字识别信息，包括：

获取所述音频信号中的第i帧音频帧及第i-1帧音频帧对应的第i-1个字识别信息，其中，所述第i-1个字识别信息由所述字预测子网络根据所述第i-1帧音频帧生成，i为大于1的整数；

将所述第i帧音频帧及所述第i-1个字识别信息作为所述字预测子网络的输入，通过所述字预测子网络输出所述第i帧音频帧对应的字识别信息。

9.如权利要求5所述的音频处理方法，其特征在于，所述将所述音频信号作为所述非流式声学网络中的字预测子网络的输入，通过所述字预测子网络输出所述N个音频帧中的每个音频帧对应的字识别信息，包括：

获取N个音频帧中的第一帧音频帧及预设字识别信息；

将所述第一帧音频帧及所述预设字识别信息作为所述字预测子网络的输入，通过所述字预测子网络输出所述第一帧音频帧对应的字识别信息。

10.如权利要求1所述的音频处理方法，其特征在于，所述根据所述N个音素特征从所述实体集合中提取出L个实体，包括：

根据所述N个音素特征，从所述实体集合中提取出P个实体，其中，所述P个实体的音素标签与所述N个音素特征相同；

根据所述N个音素特征中每个音素特征在所述音频信号中出现的先后次序，从所述P个实体中提取出L个实体，其中，所述L个实体的音素标签与所述N个音素特征的顺序相同，P为小于等于K且大于等于L的整数。

11.如权利要求10所述的音频处理方法，其特征在于，所述根据所述N个音素特征，从所述实体集合中提取出P个实体，包括：

获取所述K个实体中每个实体对应的音素信息；

根据所述K个实体中每个实体对应的音素信息及所述N个音素特征，计算每个实体的后验及分数，其中，所述后验及分数用于表征实体与所述N个音素特征的相似度；

从所述K个实体中提取出所述后验及分数大于后验及分数阈值的P个实体。

12.如权利要求10所述的音频处理方法，其特征在于，所述根据所述N个音素特征中每个音素特征在所述音频信号中出现的先后次序，从所述P个实体中提取出L个实体，包括：

获取所述P个实体中每个实体的音素信息的音素顺序；

根据所述N个音素特征中每个音素特征在所述音频信号中出现的先后次序及每个实体的音素信息的音素顺序，从所述P个实体中提取出L个实体。

13.一种音频处理装置，其特征在于，包括：

音频信号获取模块，用于获取音频信号，其中，所述音频信号包括N个音频帧，N为大于1的整数；

流式声学网络处理模块，用于将所述N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，其中，所述N个音素特征用于表征所述音频信号的音素信息；

实体集合获取模块，用于获取实体集合，其中，所述实体集合包括预先构建的K个实体，所述K个实体对应于K个音素信息，K为大于1的整数；

实体提取模块，用于根据所述N个音素特征从所述实体集合中提取出L个实体，其中，所述L个实体对应于所述N个音素特征，L为大于等于N且小于等于K的整数；

非流式声学网络处理模块，用于将所述音频信号、所述N个流式音频特征及所述L个实体输入至非流式声学网络，得到文本识别结果。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至12中任一项所述的音频处理方法；

所述总线系统用于连接所述存储器及所述处理器，以使所述存储器及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的音频处理方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至12中任一项所述的音频处理方法。