CN114157254A

CN114157254A - 音频处理方法和音频处理装置

Info

Publication number: CN114157254A
Application number: CN202111465600.1A
Authority: CN
Inventors: 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-08
Also published as: WO2023098103A1; WO2023098103A9

Abstract

本公开提供一种音频处理方法和音频处理装置。所述音频处理方法包括以下步骤：获取待处理的当前音频帧；确定所述当前音频帧的能量和类型，所述类型包括语音帧和非语音帧之一；基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，其中，语音能量分布数据用于统计不同能量区间的语音帧所占的比例；根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益；对所述当前音频帧应用所述第一增益以获得第一音频帧。

Description

音频处理方法和音频处理装置

技术领域

本公开涉及音频技术领域，尤其涉及一种用于自动增益控制的音频处理方法和音频处理装置。

背景技术

自动增益控制(Automatic Gain Control,AGC)是音频处理领域的关键技术，被广泛应用于实时通讯等领域，其基本目的在于根据输入的音频信号音量大小给音频信号施加不同大小的增益，使输出的音频信号音量稳定在一定范围内，避免出现由于不同说话人声音音量差异或者距离设备远近等原因造成的声音过大或过小的问题。AGC技术对于输出音频的音量控制能力和处理后的音频音质均有较高要求。其中，音量控制能力主要体现在增益收敛时间(即对于一段稳定音量音频，计算得到合理音量音频需要的时间)和增益控制范围(即增益变化的范围)，并且音频音质主要体现在客观语音质量评估(Perceptualevaluation of speech quality,PESQ)和听感客观音量分析(Perceptual ObjectiveListening Quality Analysis,POLQA)等客观评估指标的得分。然而，现有的AGC技术难以平衡音频音量控制的能力和处理后的音频音质。

发明内容

本公开提供一种音频处理方法和音频处理装置，以至少解决上述提及的问题。

根据本公开实施例的第一方面，提供一种音频处理方法，可包括：获取待处理的当前音频帧；确定所述当前音频帧的能量和类型，所述类型包括语音帧和非语音帧之一；基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，其中，语音能量分布数据用于统计不同能量区间的语音帧所占的比例；根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益；对所述当前音频帧应用所述第一增益以获得第一音频帧。

可选地，基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，可包括：当所述当前音频帧的能量小于预设噪声门限或者所述当前音频帧是非语音帧时，将所述当前音频帧的前一音频帧的语音能量分布数据作为所述当前音频帧的语音能量分布数据；当所述当前音频帧的能量大于或等于所述预设噪声门限并且所述当前音频帧是语音帧时，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，其中，当所述当前音频帧是首帧时，基于所述当前音频帧的能量更新初始语音能量分布数据，所述初始语音能量分布数据的各个能量区间均匀分布语音帧所占的比例。

可选地，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，可包括：确定所述当前音频帧的能量在语音能量分布数据中所属的能量区间；增大所述前一音频帧的语音能量分布数据中与所确定的能量区间对应的能量区间的语音帧比例；减小所述前一音频帧的语音能量分布数据中不与所确定的能量区间对应的能量区间的语音帧比例。

可选地，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，可包括：计算更新后的语音能量分布数据中的各个能量区间的语音帧比例之和；通过对所述语音帧比例之和与预设值进行比较来确定残差概率；将所述残差概率分配到更新后的语音能量分布数据的的各个能量区间，直到更新后的语音能量分布数据的各个能量区间的语音帧所占的比例之和为所述预设值。

可选地，根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益，可包括：从针对所述当前音频帧的语音能量分布数据的第一个能量区间开始依次累加各个能量区间的语音帧比例，直到所述累加之和等于或大于预设阈值；当所述累加之和等于所述预设阈值时，将累加到满足所述累加之和等于所述预设阈值的能量区间的上限作为第一能量界限；当所述累加之和大于所述预设阈值时，将累加到满足所述累加之和大于所述预设阈值的能量区间的下限作为第一能量界限；根据所述当前音频帧的目标能量和所述第一能量界限来确定所述第一增益。

可选地，根据所述当前音频帧的目标能量和所述第一能量界限来确定所述第一增益，可包括：根据所述当前音频帧的目标能量和所述第一能量界限来确定初始第一增益；根据所述当前音频帧的类型确定所述当前音频帧对应的帧数；通过对所述当前音频帧对应的帧数与预设帧数进行比较来调整所述初始第一增益并且将调整后的初始第一增益作为所述第一增益。

可选地，所述音频处理方法还可包括：基于所述第一增益和所述当前音频帧的能量确定第二能量界限；根据所述当前音频帧的目标能量和所述第二能量界限来确定初始第二增益；基于所述当前音频帧中的音频采样点和所述初始第二增益来得到第二增益矢量；对所述第一音频帧应用所述第二增益以获得第二音频帧。

可选地，基于所述当前音频帧中的音频采样点和所述初始第二增益来得到第二增益矢量，可包括：基于所述当前音频帧的前一音频帧中最后一个音频采样点的增益以及所述初始第二增益分别计算针对所述当前音频帧中的每个音频采样点的增益，以生成所述第二增益矢量。

可选地，对所述第一音频帧应用所述第二增益以获得第二音频帧，可包括：将所述第二增益矢量中的每个增益分别应用于所述第一音频帧的相应音频采样点，以获得第二音频帧；并且对所述第二音频帧的幅度进行限幅处理。

根据本公开实施例的第二方面，提供一种音频处理装置，可包括：获取模块，被配置为获取待处理的当前音频帧；确定模块，被配置为确定所述当前音频帧的能量和类型，所述类型包括语音帧和非语音帧之一；并且基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，其中，语音能量分布数据用于统计不同能量区间的语音帧所占的比例；第一增益模块，被配置为根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益；并且对所述当前音频帧应用所述第一增益以获得第一音频帧。

可选地，确定模块可被配置为：当所述当前音频帧的能量小于预设噪声门限或者所述当前音频帧是非语音帧时，将所述当前音频帧的前一音频帧的语音能量分布数据作为所述当前音频帧的语音能量分布数据；当所述当前音频帧的能量大于或等于所述预设噪声门限并且所述当前音频帧是语音帧时，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，其中，当所述当前音频帧是首帧时，基于所述当前音频帧的能量更新初始语音能量分布数据，所述初始语音能量分布数据的各个能量区间均匀分布语音帧所占的比例。

可选地，确定模块可被配置为：确定所述当前音频帧的能量在语音能量分布数据中所属的能量区间；增大所述前一音频帧的语音能量分布数据中与所确定的能量区间对应的能量区间的语音帧比例；减小所述前一音频帧的语音能量分布数据中不与所确定的能量区间对应的能量区间的语音帧比例。

可选地，确定模块可被配置为：计算更新后的语音能量分布数据中的各个能量区间的语音帧比例之和；通过对所述语音帧比例之和与预设值进行比较来确定残差概率；将所述残差概率分配到更新后的语音能量分布数据的的各个能量区间，直到更新后的语音能量分布数据的各个能量区间的语音帧所占的比例之和为所述预设值。

可选地，第一增益模块可被配置为：从针对所述当前音频帧的语音能量分布数据的第一个能量区间开始依次累加各个能量区间的语音帧比例，直到所述累加之和等于或大于预设阈值；当所述累加之和等于所述预设阈值时，将累加到满足所述累加之和等于所述预设阈值的能量区间的上限作为第一能量界限；当所述累加之和大于所述预设阈值时，将累加到满足所述累加之和大于所述预设阈值的能量区间的下限作为第一能量界限；根据所述当前音频帧的目标能量和所述第一能量界限来确定所述第一增益。

可选地，第一增益模块可被配置为：根据所述当前音频帧的目标能量和所述第一能量界限来确定初始第一增益；根据所述当前音频帧的类型确定所述当前音频帧对应的帧数；通过对所述当前音频帧对应的帧数与预设帧数进行比较来调整所述初始第一增益并且将调整后的初始第一增益作为所述第一增益。

可选地，所述音频处理装置还可包括第二增益模块，被配置为：基于所述第一增益和所述当前音频帧的能量确定第二能量界限；根据所述当前音频帧的目标能量和所述第二能量界限来确定初始第二增益；基于所述当前音频帧中的音频采样点和所述初始第二增益来得到第二增益矢量；对所述第一音频帧应用所述第二增益以获得第二音频帧。

可选地，第二增益模块可被配置为：基于所述当前音频帧的前一音频帧中最后一个音频采样点的增益以及所述初始第二增益分别计算针对所述当前音频帧中的每个音频采样点的增益，以生成所述第二增益矢量。

可选地，第二增益模块可被配置为：将所述第二增益矢量中的每个增益分别应用于所述第一音频帧的相应音频采样点，以获得第二音频帧；并且对所述第二音频帧的幅度进行限幅处理。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

能够更好地控制语音音量，并且实现较短的增益收敛时间和较大的增益控制范围。在保证较好的音量控制的同时能够实现相对稳定的增益，同时保证获得更高音质的音频。此外，通过使用输入语音的能量分布数据分布更加准确地确定动态预设增益，从而获得更高音质的语音。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的实施例的音频处理方法的流程图；

图2是根据本公开的实施例的音频处理方法的流程示意图；

图3是根据本公开的实施例的音频处理装置的框图；

图4是根据本公开的实施例的音频处理设备的结构示意图；

图5是根据本公开的实施例的电子设备的框图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有的AGC算法可对输入音频预先设置一个固定的较高增益并且对该音频进行幅度限制的保护，然而，该方案对于大音量再施加较高增益的情况，会导致幅度限制模块对音频波形产生极大的失真，难以保证较高的音质；或者，可参考一定时间的音频能量大小并且计算当前需要向音频所施加的合理增益，然而，由于输入音频音量在短期和长期都会存在变化，该方案通常会存在增益变化幅度过大的问题或存在音量反应不灵敏而导致一段音频需要较长时间才能得到合理增益的问题，难以平衡音频音量控制的能力和处理后的音频音质。

本公开针对AGC算法的常用方案存在的问题，旨在提出一种动态预设增益和短时能量增益控制相结合的AGC方法，在保证音质的同时能够让算法有较强的音频增益控制能力，避免音频增益收敛速度慢或增益忽大忽小等问题。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置以及系统进行详细描述。

图1是根据本公开的实施例的音频处理方法的流程图。根据本公开的音频处理方法可实现高音质的自动增益控制。

根据本公开的音频处理方法可由任意具有音频处理功能的电子设备执行。电子设备可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。电子设备可安装有目标应用，用于对输入的音频进行自动增益控制。

参照图1，在步骤S101，获取待处理的当前音频帧。对于待处理的输入音频，可对该输入音频执行分帧处理，然后针对每一音频帧执行后面描述的操作。这里，每一音频帧可包括若干个音频采样点。例如，一个音频帧可包含在10-25ms时间内的信号采样点。

在步骤S102，确定当前音频帧的能量和类型，这里，类型可包括语音帧和非语音帧之一。例如，可采用语音活动检测算法来检测当前音频帧是语音帧还是非语音帧(非语音帧包括噪声或无声等情况)。

在步骤S103，基于当前音频帧的能量和类型来获得针对当前音频帧的语音能量分布数据，其中，语音能量分布数据可用于统计不同能量区间的语音帧所占的比例。语音能量分布数据可以以直方图的形式表示，例如，语音能量直方图可表示不同能量区间的语音帧所占的比例。

具体地，在当前音频帧的能量小于预设噪声门限或者当前音频帧是非语音帧时，可将当前音频帧的前一音频帧的语音能量分布数据作为当前音频帧的语音能量分布数据。在当前音频帧的能量大于或等于预设噪声门限并且当前音频帧是语音帧时，可基于当前音频帧的能量更新当前音频帧的前一音频帧的语音能量分布数据。这里，预设噪声门限可根据实际情况被不同地设置。

这里，在当前音频帧是输入音频的首帧时，可基于当前音频帧的能量更新初始语音能量分布数据，初始语音能量分布数据的各个能量区间均匀分布语音帧所占的比例。例如，可将初始语音能量分布数据划分为若干个能量区间，各能量区间的初始概率设置为均匀分布，并且各能量区间的初始概率之和为1。

在针对当前音频帧更新语音能量分布数据时，可首先确定当前音频帧的能量在语音能量分布数据中所属的能量区间，然后增大前一音频帧的语音能量分布数据中与所确定的能量区间对应的能量区间的语音帧比例，减小前一音频帧的语音能量分布数据中不与所确定的能量区间对应的能量区间的语音帧比例。

在按照上述方式增大或减小相应能量区间的语音帧比例后，由于需要保证语音能量分布数据中所有概率和为1，所以需要计算更新后的语音能量分布数据中的各个能量区间的语音帧比例之和，通过对语音帧比例之和与预设值进行比较来确定残差概率，然后将该残差概率分配到更新后的语音能量分布数据的的各个能量区间，直到更新后的语音能量分布数据的各个能量区间的语音帧所占的比例之和为该预设值。例如，预设值可以取值为1，但本公开不限于此。

在步骤S104，根据针对当前音频帧的语音能量分布数据来确定用于当前音频帧的第一增益。在本公开中，第一增益也可被称为一级增益。作为示例，从针对当前音频帧的语音能量分布数据的第一个能量区间开始依次累加各个能量区间的语音帧比例，直到累加之和等于或大于预设阈值，当累加之和等于预设阈值时，将累加到满足累加之和等于预设阈值的能量区间的上限作为第一能量界限；当累加之和大于预设阈值时，将累加到满足累加之和大于预设阈值的能量区间的下限作为第一能量界限。

接下来，根据当前音频帧的目标能量和第一能量界限来确定初始第一增益。根据当前音频帧的类型确定当前音频帧对应的帧数，通过对当前音频帧对应的帧数与预设帧数进行比较来调整初始第一增益并且将调整后的初始第一增益作为第一增益。这里，预设阈值和目标能量可根据实际情况而被不同地设置。

此外，在调整初始第一增益以获得第一增益之前，可首先对初始第一增益进行增益范围控制，使得初始第一增益满足实际需求。

在步骤S105，对当前音频帧应用第一增益以获得第一音频帧。在得到第一增益后，可将第一增益施加到原始当前音频帧上，即可得到第一音频信号。

根据本公开的实施例，在对原始当前音频帧施加第一增益后，可对施加了第一增益的音频帧再次施加第二增益，即采用两级增益融合的方式，来得到最终的音频信号。在本公开中，第二增益也可被称为二级增益。

作为示例，可基于第一增益和当前音频帧的能量来确定用于当前音频帧的第二增益，然后对第一音频帧应用第二增益以获得第二音频帧。

例如，可基于第一增益和当前音频帧的能量确定第二能量界限，根据当前音频帧的目标能量和第二能量界限来确定初始第二增益。此外，可先对第二能量界限进行平滑处理，然后使用平滑处理的第二能量界限和当前音频帧的目标能量来确定初始第二增益。按照当前音频帧中的音频采样点将初始第二增益改变为第二增益矢量。这里，可基于当前音频帧的前一音频帧中最后一个音频采样点的增益以及初始第二增益分别计算针对当前音频帧中的每个音频采样点的增益，以生成第二增益矢量。此外，在生成第二增益矢量之前，可首先对初始第二增益进行增益范围控制，使得初始第二增益满足实际需求。

接下来，可将第二增益矢量中的每个增益分别应用于第一音频帧的相应音频采样以获得第二音频帧，然后可对第二音频帧的幅度进行限幅处理以输出最终的音频信号。下面将参照图2更加详细地描述根据本公开的实施例的音频处理方法。

图2是根据本公开的实施例的音频处理方法的流程示意图。根据本公开的实施例，可对输入音频进行分帧处理，然后对输入音频的每个音频帧应用图2所示的音频处理方法。

在本公开的音频处理流程中，可使用语音能量计算模块、语音活动检测模块、语音能量直方图统计模块、动态预制增益(一级增益)计算模块、二级增益计算模块以及限幅器模块来实现本公开的音频处理方法。

例如，语音能量计算模块用于计算当前输入音频的能量，语音活动检测模块用于判断当前时间的音频是语音阶段还是非语音阶段(诸如噪声或无声等)，语音能量直方图统计模块用于统计过去一段时间的语音能量分布，动态预制增益(一级增益)计算模块根据语音能量分布数据和语音活动检测结果计算得到当前需要给输入音频施加的动态预制增益(即，一级增益)，并将增益施加在当前输入的音频上，二级增益计算模块在施加了一级增益的音频基础上进一步调整音频增益，限幅器模块保护音频在某些极端情况下不会发生截波失真。

参照图2，对输入音频进行分帧处理，当前音频帧(假设是第n帧音频)用x(n)表示，其中n∈N，每个音频帧所包含的数据可选择在10-25ms时间内的信号采样点数，即x(n)为由若干长度的音频采样点组成的向量。

将x(n)输入到语音能量计算模块，可按照等式(1)计算第n帧音频的能量：

其中，M为x(n)中包含的音频采样点个数，该能量单位为dBFS，计算结果的取值范围可以是(-∞，0]。

将x(n)输入到语音活动检测模块，可判断当前第n帧的音频是处于语音阶段还是非语音阶段(噪声和无声等情况)，两种状态可分别如下等式(2)表示：

其中，当vad(n)为1时表示当前帧为语音帧(speech active)，当vad(n)为0时表示当前帧为非语音帧(speech inactive)，这里，不对VAD算法做任何限制。

接下来，将energyraw(n)和vad(n)输入到语音能量直方图统计模块，可统计过去一段时间(可根据实际情况备不同地设置)内的语音能量，语音能量直方图的横坐标为不同的能量区间，每个能量区间的宽度可以为1dB，其纵坐标为一段时间内处于各个能量区间的语音帧所占的比例，当前第n帧音频的语音能量分布数据可由HistogramEnergy(n)表示，统计的具体方法如下：

首先，可将HistogramEnergy(n)分为若干个能量区间，这里，以能量区间个数为100并且能量区间的宽度为1dB为例，然而本公开可根据实际需求调整，不限于此，如此划分能量区间的HistogramEnergy(n)可被表示为等式(3)：

HistogramEnergy(n)＝[e_t(n),e₂(n),......，e₁₀₀(n)] (3)

每个能量区间角标对应的能量依次升高，对应关系如下：

语音能量分布数据的各能量区间的初始概率(即初始比例)可被设置为均匀分布，以100个能量区间为例：

当vad(n)＝0或energyraw(n)＜noisefloor时，即表示当前帧为非语音帧或音频能量小于噪声门限noisefloor(该数值可被设置为-50dBFS，但不限于此)，当前第n帧音频的能量可不参与语音能量分布数据的统计，例如，可将当前音频帧的前一音频帧的语音能量分布数据作为当前音频帧的语音能量分布数据，即HistogramEnergy(n)＝HistogramEnergy(n-1)。

当vad(n)＝1并且energyraw(n)≥noisefloor时，即表示当前帧为语音帧，可进行HistogramEnergy(n)更新。例如，可确定当前音频帧的能量在语音能量分布数据中所属的能量区间，增大当前音频帧的前一音频帧的语音能量分布数据中与所确定的能量区间对应的能量区间的语音帧比例，并且减小前一音频帧的语音能量分布数据中不与所确定的能量区间对应的能量区间的语音帧比例。

例如，首先确认当前音频帧的能量energyraw(n)在等式(3)中的能量区间角标，记作e_x(n)，更新语音能量分布数据的方式可被表示为等式(4)：

其中，histSmooth为用于语音能量分布数据统计的平滑因子，该平滑因子可被设置为0.95，但可根据需求以及具体情况进行调整，也可采用根据energyraw(n)在不同的能量区间来选取不同的参数等方法，上述示例仅是示例性的，本公开不限于此。

此外，由于需要保证HistogramEnergy(n)中所有概率和为1，需要计算以上步骤得到的语音能量分布数据概率之和，并计算该和与1的差值(即残差概率)，将该差值分配到整个语音能量分布数据中。具体地，可根据下面的等式(5)计算残差概率residualPro(n)：

在得到残差概率后，可按下面的等式(6)来分配残差概率：

重复上述分配残差概率的步骤，直到residualPro(n)＝0为止，此时HistogramEnergy(n)更新结束。

根据本公开的实施例，语音能量分布数据从首帧开始会一致更新，输入音频的每个音频帧可按照上面的等式(6)来更新相应的语音能量分布数据。

将更新后的HistogramEnergy(n)、vad(n)和x(n)输入到动态预设增益(一级增益)模块，可综合一段时间内的能量分布信息、静音检测信息来计算当前应施加在当前音频帧上的增益gainPre(n)，从而得到施加了动态预设增益的音频xGainPre(n)，具体计算方法如下：

根据vad(n)信息判断当前音频帧所处的状态，如下面的等式(7)所示：

这里，当前音频帧所处的状态可指当前音频帧当前所对应的帧数。

接下来，从针对当前音频帧的语音能量分布数据的第一个能量区间开始依次累加各个能量区间的语音帧比例，直到累加之和等于或大于预设阈值。当累加之和等于预设阈值时，将累加到满足累加之和等于预设阈值的能量区间的上限作为第一能量界限；当累加之和大于所述预设阈值时，将累加到满足累加之和大于预设阈值的能量区间的下限作为第一能量界限。

作为示例，根据HistogramEnergy(n)统计分布在百分比阈值probThre(即预设阈值)以下的能量所在的界限cnergyLevel(即第一能量界限)，即一段时间内统计的语音能量分布数据的能量中均在energyLevel以下，这里，probThre可被设置为95％，但不限于此。

具体计算过程可参考如下方法：(i)首先设定probSum＝0；(ii)依次累加HistogramEnergy(n)中的能量概率，即probSum＜probSum+e_i(n)，(i＝1，2，......，100)；(iii)每累加一个能量概率，判断probSum与probThre的关系，若probSum＜probThre，则继续累加下一个能量概率，若probSum＝probThre，则energyLevel为e_i(n)所处能量区间的上限，并停止计算，若probSum＞probThre，则energyLevel为e_i(n)所处能量区间的下限，并停止计算。

根据以上计算得到的energyLevel计算初始的动态预设增益(即初始第一增益)gainPreRaw，可被表示为等式(8)：

gainPreRaw＝EnergyTarget-energyLevel (8)

其中，EnergyTarget为期望当前音频帧达到的能量，这里，可被设为-18dB，也可根据需求调整。此时得到的gainPreRaw需要进行一定的增益范围控制，根据实际情况，增益范围一般为[-6dB，12dB]，也可根据需求调整，可根据下面的等式(9)对gainPreRaw进行调整：

根据以上计算的初始动态预设增益gainPreRaw和silenceState(n)计算需要为当前音频施加的动态预设增益gainPre(n)(即第一增益)。

可通过对当前音频帧对应的帧数与预设帧数进行比较来调整初始第一增益并且将调整后的初始第一增益作为第一增益。具体方法如下所示：

若silenceState(n)≥silThre(其中，silThre一段时间对应的音频帧数，该一段时间可以是1秒到2秒)时，则gainPre(n)＝gainPreRaw；

若silenceState(n)＜silThre且gainPreRaw≥gainPre(n-1)，则gainPre(n)＝gainPreRaw×(1-sAtt)+gainPre(n-1)×sAtt，其中，sAtt为跟进平滑因子，一般被设置为0.9999，也可根据实际情况设置；

若silenceState(n)＜silThre且gainPreRaw＜gainPre(n-1)，则gainPre(n)＝gainPreRaw×(1-sRel)+gainPre(n一1)×sRel，其中，sRel为释放平滑因子，一般被设置为0.99，也可根据实际情况设置。

得到第一增益gainPre(n)之后，将其施加在输入的原始音频x(n)上，如下面的等式(10)所示：

即可得到施加了动态预设增益(一级增益)的音频信号。

将gainPre(n)，xGainPre(n)，energyraw(n)和vad(n)输入到二级增益计算模块，可进一步计算此时需要给当前音频帧施加的第二增益gainPost(n)。考虑到当前音频帧中的每个采样点对应的增益均有差别，可将上述增益为增益矢量。

具体地，可根据gainPre(n)和energyraw(n)得到施加了动态预设增益后的音频能量(即第二能量界限)，如下面的等式(11)所示：

energyGainPreRaw＝gainPre(n)+energyraw(n) (11)

对该音频能量进行平滑处理，如下面的等式(12)所示：

energyGainPreSmooth(n)＝energyGainPreSmooth(n-1)×smoothEnergy+energyGainPreRaw×(1-smoothEnergy) (12)

其中，smoothEnergy表示平滑因子，energyGainPreSmooth(n)表示当前音频帧经过平滑处理的音频能量，energyGainPreSmooth(n-1)为前一音频帧经过平滑处理的音频能量。在当前音频帧为首帧的情况下，energyGainPreSmooth(n-1)可被设置为零。

根据energyGainPreSmooth(n)和EnergyTarget可计算当前音频帧的二级增益期望数值(即初始第二增益)，如下面的等式(13)所示：

gainPostRaw＝EnergyTarget-energtGainPreSmooth(n) (13)

与gainPreRaw的计算类似，gainPostRaw同样需要对增益范围进行限制：

根据上述经增益控制处理后的增益可得到当前音频帧的增益矢量gainPost(n)，该矢量与xGainPre(n)维度相同，即若其均含有M个元素，则以上增益矢量和xGainPre(n)可具体表示为如下形式：

gainPost(n)＝[gainPost₁(n)，gainPost₂(n)，......，gainPost_M(n)]^T

xGainPre(n)＝[xGainPre₁(n)，xGainPre₂(n)，......，xGainPre_M(n)]^T

可根据如下等式(14)计算当前二级增益矢量中的每个元素：

其中，i表示当前二级增益矢量中的第i元素，gainPost_M(n-1)表示前一音频帧的第M采样点(即前一音频帧的最后一个采样点)的增益。

以上得到的二级增益矢量gainPost(n)与xGainPre(n)的对应元素相乘(需要注意是，需要将增益单位从dBFS转换为线性增益)，即可得到施加了二级增益的音频信号xGainPre(n)，如下面的等式(15)所示：

将以上得到的输出音频xGainPost(n)输入到限幅器模块，以保证音频不会发生截波失真，如下面的等式(16)所示：

y(n)＝Limiter[xGainPost(n)] (16)

其中，Limiter[*]表示对输入信号的幅度做限幅保护，y(n)为最终输出的经过AGC处理后的一帧音频信号。

图3是根据本公开的实施例的音频处理装置的框图。

参照图3，音频处理装置300可包括获取模块301、确定模块302、第一增益模块303、第二增益模块304。音频处理装置300中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略音频处理装置300中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块301可获取待处理的当前音频帧。

确定模块302可确定当前音频帧的能量和类型，所述类型包括语音帧和非语音帧之一。

确定模块302可基于当前音频帧的能量和类型来获得针对当前音频帧的语音能量分布数据，其中，语音能量分布数据可用于统计不同能量区间的语音帧所占的比例。

第一增益模块303可根据针对当前音频帧的语音能量分布数据来确定用于当前音频帧的第一增益，并且对当前音频帧应用第一增益以获得第一音频帧。

第二增益模块304可基于第一增益和当前音频帧的能量来确定用于当前音频帧的第二增益，对第一音频帧应用第二增益以获得第二音频帧。

在当前音频帧的能量小于预设噪声门限或者当前音频帧是非语音帧时，确定模块302可将当前音频帧的前一音频帧的语音能量分布数据作为当前音频帧的语音能量分布数据。在当前音频帧的能量大于或等于预设噪声门限并且当前音频帧是语音帧时，确定模块302可基于当前音频帧的能量更新前一音频帧的语音能量分布数据，其中，在当前音频帧是首帧时，确定模块302可基于当前音频帧的能量更新初始语音能量分布数据，初始语音能量分布数据的各个能量区间均匀分布语音帧所占的比例。

确定模块302可确定当前音频帧的能量在语音能量分布数据中所属的能量区间，增大前一音频帧的语音能量分布数据中与所确定的能量区间对应的能量区间的语音帧比例，并且减小前一音频帧的语音能量分布数据中不与所确定的能量区间对应的能量区间的语音帧比例。

确定模块302可计算更新后的语音能量分布数据中的各个能量区间的语音帧比例之和，通过对语音帧比例之和与预设值进行比较来确定残差概率，将残差该概率分配到更新后的语音能量分布数据的的各个能量区间，直到更新后的语音能量分布数据的各个能量区间的语音帧所占的比例之和为预设值。例如，预设值可被设置为1。

第一增益模块303可从针对当前音频帧的语音能量分布数据的第一个能量区间开始依次累加各个能量区间的语音帧比例，直到所述累加之和等于或大于预设阈值。当所述累加之和等于预设阈值时，第一增益模块303可将累加到满足所述累加之和等于预设阈值的能量区间的上限作为第一能量界限。当所述累加之和大于预设阈值时，第一增益模块303可将累加到满足所述累加之和大于预设阈值的能量区间的下限作为第一能量界限。然后第一增益模块303可根据当前音频帧的目标能量和第一能量界限来确定第一增益。

第一增益模块303可根据当前音频帧的目标能量和第一能量界限来确定初始第一增益，根据当前音频帧的类型确定当前音频帧对应的帧数，通过对当前音频帧对应的帧数与预设帧数进行比较来调整初始第一增益并且将调整后的初始第一增益作为第一增益。

第二增益模块304可基于第一增益和当前音频帧的能量确定第二能量界限，根据当前音频帧的目标能量和第二能量界限来确定初始第二增益，按照当前音频帧中的音频采样点将初始第二增益改变为第二增益矢量。

第二增益模块304可基于当前音频帧的前一音频帧中最后一个音频采样点的增益以及初始第二增益分别计算针对当前音频帧中的每个音频采样点的增益，以生成第二增益矢量。

第二增益模块304可将第二增益矢量中的每个增益分别应用于第一音频帧的相应音频采样点，以获得第二音频帧，并且对第二音频帧的幅度进行限幅处理。

上面已根据图1和图2详细描述了根据本公开实施例的自动增益控制过程，这里不再进行描述。

图4是本公开实施例的硬件运行环境的音频处理设备的结构示意图。

如图4所示，音频处理设备400可包括：处理组件401、通信总线402、网络接口403、输入输出接口404、存储器405以及电源组件404。其中，通信总线402用于实现这些组件之间的连接通信。输入输出接口404可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口404还可包括标准的有线接口、无线接口。网络接口403可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器405可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器405可选的还可以是独立于前述处理组件401的存储装置。

本领域技术人员可以理解，图4中示出的结构并不构成对音频处理设备400的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种存储介质的存储器405中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、音频处理程序以及数据库。

在图4所示的音频处理设备400中，网络接口403主要用于与外部电子设备/终端进行数据通信；输入输出接口404主要用于与用户进行数据交互；音频处理设备400中的处理组件401、存储器405可被设置在音频处理设备400中，音频处理设备400通过处理组件401调用存储器405中存储的音频处理程序、素材以及由操作系统提供的各种API，执行本公开实施例提供的音频处理方法。

处理组件401可以包括至少一个处理器，存储器405中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的音频处理方法。然而，上述示例仅是示例性的，本公开不限于此。

处理组件401可获取待处理的当前音频帧，确定当前音频帧的能量和类型，基于当前音频帧的能量和类型来获得针对当前音频帧的语音能量分布数据，根据针对当前音频帧的语音能量分布数据来确定用于当前音频帧的第一增益，对当前音频帧应用第一增益以获得第一音频帧，然后可基于第一增益和当前音频帧的能量来确定用于当前音频帧的第二增益，对第一音频帧应用第二增益以获得第二音频帧。

处理组件401可通过执行程序来实现对音频处理设备400所包括的组件的控制。

音频处理设备400可经由输入输出接口404接收或输出视频和/或音频。例如，音频处理设备400可经由输入输出接口404输出施加增益后的音频信号。

作为示例，音频处理设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，音频处理设备400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。音频处理设备400还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在音频处理设备400中，处理组件401可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件401还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件401可运行存储在存储器中的指令或代码，其中，存储器405还可以存储数据。指令和数据还可以经由网络接口403而通过网络被发送和接收，其中，网络接口403可以采用任何已知的传输协议。

存储器405可以与处理组件401集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器405可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件401可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理组件401能够读取存储在存储器405中的数据。

根据本公开的实施例，可提供一种电子设备。图5是根据本公开实施例的电子设备的框图，该电子设备500可包括至少一个存储器502和至少一个处理器501，所述至少一个存储器502存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器501执行时，执行根据本公开实施例的音频处理方法。

处理器501可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器501还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器502可包括操作系统(例如，MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、音频处理程序以及数据库。

存储器502可与处理器501集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器502可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器502和处理器501可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器501能够读取存储在存储器502中的文件。

此外，电子设备500还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备500的所有组件可经由总线和/或网络而彼此连接。

本领域技术人员可理解，图5中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，包括：

获取待处理的当前音频帧；

确定所述当前音频帧的能量和类型，所述类型包括语音帧和非语音帧之一；

基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，其中，语音能量分布数据用于统计不同能量区间的语音帧所占的比例；

根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益；

对所述当前音频帧应用所述第一增益以获得第一音频帧。

2.根据权利要求1所述的音频处理方法，其特征在于，基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，包括：

当所述当前音频帧的能量小于预设噪声门限或者所述当前音频帧是非语音帧时，将所述当前音频帧的前一音频帧的语音能量分布数据作为所述当前音频帧的语音能量分布数据；

当所述当前音频帧的能量大于或等于所述预设噪声门限并且所述当前音频帧是语音帧时，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，

其中，当所述当前音频帧是首帧时，基于所述当前音频帧的能量更新初始语音能量分布数据，所述初始语音能量分布数据的各个能量区间均匀分布语音帧所占的比例。

3.根据权利要求2所述的音频处理方法，其特征在于，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，包括：

确定所述当前音频帧的能量在语音能量分布数据中所属的能量区间；

增大所述前一音频帧的语音能量分布数据中与所确定的能量区间对应的能量区间的语音帧比例；

减小所述前一音频帧的语音能量分布数据中不与所确定的能量区间对应的能量区间的语音帧比例。

4.根据权利要求2或3所述的音频处理方法，其特征在于，基于所述当前音频帧的能量更新所述前一音频帧的语音能量分布数据，包括：

计算更新后的语音能量分布数据中的各个能量区间的语音帧比例之和；

通过对所述语音帧比例之和与预设值进行比较来确定残差概率；

将所述残差概率分配到更新后的语音能量分布数据的的各个能量区间，直到更新后的语音能量分布数据的各个能量区间的语音帧所占的比例之和为所述预设值。

5.根据权利要求1所述的音频处理方法，其特征在于，根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益，包括：

从针对所述当前音频帧的语音能量分布数据的第一个能量区间开始依次累加各个能量区间的语音帧比例，直到所述累加之和等于或大于预设阈值；

当所述累加之和等于所述预设阈值时，将累加到满足所述累加之和等于所述预设阈值的能量区间的上限作为第一能量界限；

当所述累加之和大于所述预设阈值时，将累加到满足所述累加之和大于所述预设阈值的能量区间的下限作为第一能量界限；

根据所述当前音频帧的目标能量和所述第一能量界限来确定所述第一增益。

6.根据权利要求5所述的音频处理方法，其特征在于，根据所述当前音频帧的目标能量和所述第一能量界限来确定所述第一增益，包括：

根据所述当前音频帧的目标能量和所述第一能量界限来确定初始第一增益；

根据所述当前音频帧的类型确定所述当前音频帧对应的帧数；

通过对所述当前音频帧对应的帧数与预设帧数进行比较来调整所述初始第一增益并且将调整后的初始第一增益作为所述第一增益。

7.一种音频处理装置，包括：

获取模块，被配置为获取待处理的当前音频帧；

确定模块，被配置为确定所述当前音频帧的能量和类型，所述类型包括语音帧和非语音帧之一；并且基于所述当前音频帧的能量和类型来获得针对所述当前音频帧的语音能量分布数据，其中，语音能量分布数据用于统计不同能量区间的语音帧所占的比例；

第一增益模块，被配置为根据针对所述当前音频帧的语音能量分布数据来确定用于所述当前音频帧的第一增益；并且对所述当前音频帧应用所述第一增益以获得第一音频帧。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一项权利要求所述的音频处理方法。

9.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一项权利要求所述的音频处理方法。

10.一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如权利要求1到6中的任一项权利要求所述的音频处理方法。