CN103325384A

CN103325384A - 谐度估计、音频分类、音调确定及噪声估计

Info

Publication number: CN103325384A
Application number: CN2012100802554A
Authority: CN
Inventors: 孙学京; 双志伟; 黄申
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2013-09-25
Also published as: WO2013142652A2; WO2013142652A3; EP2828856A2; EP2828856B1; US20150081283A1; US10014005B2

Abstract

公开了用于谐度估计、音频分类、音调确定及噪声估计的实施例。根据测量音频信号的谐度的方法，计算音频信号的对数幅度谱。通过把第一谱的每个分量计算为多个频率上对数幅度谱的分量的和，来导出第一谱。在线性频率尺度上，这些频率是第一谱的分量的频率的奇数倍。通过把第二谱的每个分量计算为多个频率上对数幅度谱的分量的和，来导出第二谱。在线性频率尺度上，这些频率是第二谱的分量的频率的偶数倍。通过从第二谱中减去第一谱来导出差谱。把谐度测量生成为预定频率范围内差谱的最大分量的单调增函数值。

Description

谐度估计、音频分类、音调确定及噪声估计

技术领域

本发明一般涉及音频信号处理。更具体地，本发明的实施例涉及谐度估计、音频分类、音调确定及噪声估计。

背景技术

谐度表示音频信号的声学周期性的程度，其是用于很多话音处理任务的重要度量。例如，已使用谐度来测量语音质量(Xuejing Sun，“Pitchdetermination and voice quality analysis using subharmonic-to-harmonicratio”，ICASSP 2002)。谐度还用于语音活动检测和噪声估计。例如，在“Robust Noise Estimation Using Minimum Correction with HarmonicityControl”(Sun，X.，K.Yen等，Interspeech.Makuhari，日本，2010年)中，提出了如下方案，其中，使用谐度来控制最小搜索，使得噪声跟踪器对于边缘情况，例如合声的延长时间段和本底噪声(noise floor)的突然跳跃更加健壮。

提出了各种方法来测量谐度。例如，方法之一被称为谐噪比(Harmonics-to-Noise Ratio，HNR)。提出了另一方法，分谐波谐波比(Subharmonics-to-Harmonics Ratio，SHR)来描述分谐波与谐波之间的幅度比(Xuejing Sun，“Pitch determination and voice quality analysisusing subharmonic-to-harmonic ratio”，ICASSP 2002)，其中通过移位和加和在对数频率尺度上的线性幅度谱来估计音调和SHR。

在用于估计SHR的先前方法中，在线性幅度域中执行计算，其中大的动态范围会由于数值问题而导致不稳定性。线性幅度还限制来自高频分量的贡献，其中已知高频分量对于很多高频富音频内容的分类是感知上重要和关键的。另外，在原始方法(Sun，2002年)中使用了近似以计算分谐波谐波比(否则不得不在线性域中使用直接除法，从而导致数值问题)，这导致不准确的结果。

发明内容

本发明的实施例包括在对数谱域中计算SHR的替代方法。而且，本发明的实施例还包括用于音频分类、噪声估计和多音调跟踪的SHR计算的扩展。

根据本发明的一个实施例，提供了一种测量音频信号的谐度的方法。根据该方法，计算音频信号的对数幅度谱。通过把第一谱的每个分量计算为多个频率上对数幅度谱的分量的和，来导出第一谱。在线性频率尺度上，这些频率是第一谱的分量的频率的奇数倍。通过把第二谱的每个分量计算为多个频率上对数幅度谱的分量的和，来导出第二谱。在线性频率尺度上，这些频率是第二谱的分量的频率的偶数倍。通过从第二谱中减去第一谱来导出差谱。把谐度测量生成为预定频率范围内差谱的最大分量的单调增函数值。

根据本发明的一个实施例，提供了一种用于测量音频信号的谐度的设备。该设备包括第一谱生成器、第二谱生成器以及谐度估计器。第一谱生成器计算音频信号的对数幅度谱。第二谱生成器通过把第一谱的每个分量计算为多个频率上对数幅度谱的分量的和，来导出第一谱。在线性频率尺度上，这些频率是第一谱的分量的频率的奇数倍。第二谱生成器还通过把第二谱的每个分量计算为多个频率上对数幅度谱的分量的和，来导出第二谱。在线性频率尺度上，这些频率是第二谱的分量的频率的偶数倍。第二谱生成器还通过从第二谱中减去第一谱来导出差谱。谐度估计器把谐度测量生成为预定频率范围内差谱的最大分量的单调增函数值。

根据本发明的实施例，提供了一种对音频信号进行分类的方法。根据该方法，从音频信号中提取一个或更多个特征。根据所提取的特征对音频信号进行分类。对于特征的提取，基于由不同的期望最大频率限定的频率范围来生成音频信号的谐度的至少两个测量。把特征之一计算为谐度测量之间的差或比。可以根据测量谐度的方法来执行每个基于频率范围的谐度测量的生成。

根据本发明的实施例，提供了一种对音频信号进行分类的装置。该装置包括特征提取器和分类单元。特征提取器从音频信号中提取一个或更多个特征。分类单元根据所提取的特征对音频信号进行分类。特征提取器包括谐度估计器和特征计算器。谐度估计器基于由不同的期望最大频率限定的频率范围来生成音频信号的谐度的至少两个测量。特征计算器把特征之一计算为谐度测量之间的差或比。谐度估计器可以被实现为用于测量谐度的装置。

根据本发明的实施例，提供了一种生成音频信号分类器的方法。根据该方法，从样本音频信号中的每个提取包括一个或更多个特征的特征向量。基于特征向量来训练音频信号分类器。对于从样本音频信号的特征的提取，基于由不同的期望最大频率限定的频率范围来生成样本音频信号的谐度的至少两个测量。把特征之一计算为谐度测量之间的差或比。可以根据测量谐度的方法来执行每个基于频率范围的谐度测量的生成。

根据本发明的实施例，提供了一种生成音频信号分类器的装置。该装置包括特征向量提取器和训练单元。特征向量提取器从样本音频信号中的每个提取包括一个或更多个特征的特征向量。训练单元基于特征向量来训练音频信号分类器。特征向量提取器包括谐度估计器和特征计算器。谐度估计器基于由不同的期望最大频率限定的频率范围来生成样本音频信号的谐度的至少两个测量。特征计算器把特征之一计算为谐度测量之间的差或比。谐度估计器可以被实现为用于测量谐度的装置。

根据本发明的实施例，提供了一种对音频信号执行音调确定的方法。根据该方法，计算音频信号的对数幅度谱。通过把第一谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出第一谱。在线性频率尺度上，所述多个频率是第一谱的分量的频率的奇数倍。通过把第二谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出第二谱。在线性频率尺度上，所述多个频率是第二谱的分量的频率的偶数倍。通过从第二谱中减去第一谱来导出差谱。在差谱中识别阈值水平以上的一个或更多个峰。把音频信号中的音调确定为峰的双倍频率。

根据本发明的实施例，提供了一种对音频信号执行音调确定的装置。该装置包括第一谱生成器、第二谱生成器和音调识别单元。第一谱生成器计算音频信号的对数幅度谱。第二谱生成器通过把第一谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出第一谱。在线性频率尺度上，所述多个频率是第一谱的分量的频率的奇数倍。第二谱生成器还通过把第二谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出第二谱。在线性频率尺度上，所述多个频率是第二谱的分量的频率的偶数倍。第二谱生成器还通过从第二谱中减去第一谱来导出差谱。音调识别单元在差谱中识别阈值水平以上的一个或更多个峰，并且把音频信号中的音调确定为峰的双倍频率。

根据本发明的实施例，提供了一种对音频信号进行噪声估计的方法。根据该方法，计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引。根据下述方式计算改进无话音概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)}

其中，h(t)是时间t的谐度测量。通过使用改进无话音概率UV(k，t)来估计噪声功率P_N(k，t)，根据测量谐度的方法来生成谐度测量h(t)。

根据本发明的实施例，提供了一种用于对音频信号进行噪声估计的设备。该设备包括话音估计单元、噪声估计单元和谐度测量单元。话音估计单元计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引。话音估计单元还根据下述方式计算改进无话音概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)}

其中，h(t)是时间t的谐度测量。噪声估计单元通过使用改进无话音概率UV(k，t)来估计噪声功率P_N(k，t)。谐度测量单元包括用于测量谐度h(t)的设备。

下面参考附图详细描述本发明的其它特征和优点、以及本发明的各个实施例的结构和操作。注意，本发明不限于本文中描述的具体实施例。在本文中呈现这样的实施例仅用于说明的目的。根据本文中包含的教导，附加的实施例对本领域技术人员来说将是明显的。

附图说明

通过示例而不是通过限制来描述本发明，在附图中，类似的附图标记表示类似的单元，其中：

图1是图示根据本发明实施例的用于测量音频信号的谐度的示例设备的框图；

图2是图示根据本发明实施例的测量音频信号的谐度的示例方法的流程图；

图3是图示根据本发明实施例的用于对音频信号进行分类的示例设备的框图；

图4是图示根据本发明实施例的对音频信号进行分类的示例方法的流程图；

图5是图示根据本发明实施例的用于生成音频信号分类器的示例设备的框图；

图6是图示根据本发明实施例的生成音频信号分类器的示例方法的流程图；

图7是图示根据本发明实施例的用于对音频信号进行音调确定的示例设备的框图；

图8是图示根据本发明实施例的对音频信号进行音调确定的示例方法的流程图；

图9是示意性图示差谱中的峰的图；

图10是图示根据本发明实施例的用于对音频信号进行音调确定的示例设备的框图；

图11是图示根据本发明实施例的对音频信号进行音调确定的示例方法的流程图；

图12是图示根据本发明实施例的对音频信号进行噪声估计的示例设备的框图；

图13是图示根据本发明实施例的对音频信号进行噪声估计的示例方法的流程图；

图14是图示用于实现本发明实施例的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施例。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式：完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例，本文可以一般地称之为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上体现有计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。

谐度(Harmonicity)估计

图1是示出了根据本发明实施例的用于测量音频信号的谐度的示例设备100的框图。

如图1中所示，设备100包括第一谱生成器101、第二谱生成器102以及谐度估计器103。

第一谱生成器101被配置为计算音频信号的对数幅度谱LX＝log(|X|)，其中X是音频信号的频谱。可以理解，可通过任意可应用的时频变换技术来导出该频谱，这些技术包括：快速傅里叶变换(FFT)、改进的离散余弦变换(MDCT)、正交镜像滤波器(QMF)组等。对于对数变换，谱不限于幅度谱，并且这里也可以使用诸如乘方谱或立方谱的高阶谱。此外，可以理解，对数变换的底数对结果没有显著影响。为方便起见，可以选择底数10，这对应于在人类感知方面以dB尺度来表示谱的最常见的设定。

第二谱生成器102被配置为通过将每个频率(例如子带或频率区间)f处的分量LSS(f)计算为各频率f，3f，...，(2n-1)f上的分量LX(f)，LX(3f)，...，LX((2n-1)f)的和，来导出第一谱(分谐波的对数和)(LSS)。注意，在原始SHR算法(Sun，2002)中，SS被用于表示线性幅度域中的分谐波的和。这里，我们使用LSS来表示对数幅度域中的分谐波的和，其基本上对应于原始线性域中的分谐波的积。在线性频率尺度上，这些频率是频率f的奇数倍。第二谱生成器102还被配置为通过将每个频率f处的分量LSH(f)计算为各频率2f，4f，...，2nf上的分量LX(2f)，LX(4f)，...，LX(2nf)的和，来导出第二谱LSH。在线性频率尺度上，这些频率是频率f的偶数倍。可以根据需要设置n的值，只要2nf不超出对数幅度谱的频率范围的上限即可。

在一个示例中，第二谱生成器102可以导出如下的第一谱LSS(f)和第二谱LSH(f)：

LSS (f) = Σ_{n = 1}^{N} LX ((2 n - 1) f) - - - (1),

LSH (f) = Σ_{n = 1}^{N} LX (2 nf) - - - (2),

其中，N是在测量谐度时要考虑的谐波和分谐波的最大数目。可以根据需要设置N。作为一个示例，通过期望的最大频率f_max和期望的最小音调f_0，min将N确定如下：

以此方式，N可覆盖要考虑的所有谐波和分谐波。如果f超过对数幅度谱的频率范围的上限，则可设置LX(f)＝C，其中C为常数，例如0。因此，LSS和LSH的频率范围不受限制。作为替选，N可以是根据信号内容或/和复杂度要求而自适应的。这可以通过动态调整f_max以覆盖更多或更少的频率范围而实现。作为替选，如果先验地已知最小音调，则可以调整N。作为替选，在等式(1)和(2)中可以使用小于N的值，例如：

LSS (f) = Σ_{n = 1}^{N / 2} LX ((2 n - 1) f) - - - (1^{,})

LSH (f) = Σ_{n = 1}^{N / 2} LX (2 nf) - - - (2^{,})

第二谱生成器102还被配置为通过从第二谱LSH中减去第一谱LSS来导出与线性幅度域中的谐波分谐波比(HSR)相对应的差谱，即，HSR＝LSH-LSS。在等式(1)和(2)的示例中，可以将差谱HSR导出如下：

HSR (f) = Σ_{n = 1}^{N} (\log | X (2 nf) | - \log | X ((2 n - 1) f) |) - - - (3) .

谐度估计器103被配置为把谐度测量H生成为预定频率范围内差谱HSR的最大分量HSR_max的单调增函数F()值。谐度代表音频信号的声学周期性的程度。差谱HSR代表不同频率处谐波幅度与分谐波幅度的比值，或对数谱域中的差。作为替选，差谱HSR可被视为原始线性谱的峰谷比的表示，或对数谱域中的峰谷差。如果频率f处的HSR(f)较高，则更加可能存在具有基频2f的谐波。HSR(f)越高，则该谐波越占主导地位。因此，差谱HSR的最大分量可被用于导出用于表示音频信号的谐度的测量，而这个最大分量的位置可被用于估计音调。在测量H与最大分量HSR_max之间存在单调增函数关系。这意味着，如果存在HSR_max1≤HSR_max2，则H1＝F(HSR_max1)≤H2＝F(HSR_max2)。在一个示例中，测量H可以直接等于HSR_max。

预定频率范围可以取决于谐度测量意图覆盖的周期信号的类别。例如，如果类别为话音或语音，则预定频率范围对应于正常的人类音调范围。一个示例范围是70Hz-450Hz。在等式(3)中所定义的HSR的示例中，假设正常的人类音调范围为[f_0，min，f_0，max]，预定频率范围为[0.5f_0，min，0.5f_0，max]。

根据本发明的实施例，计算对数谱域中的HSR能够解决与现有技术方法相关联的上述问题。因此，能够实现更准确的谐度估计。

图2是示出根据本发明实施例的用于测量音频信号的谐度的示例方法200的流程图。

如图2中所示，方法200始于步骤201。在步骤203，计算音频信号的对数幅度谱LX＝log(|X|)，其中X是音频信号的频谱。

在步骤205，通过将每个频率(例如子带或频率区间)f处的分量LSS(f)计算为各频率f，3f，...，(2n-1)f上的分量LX(f)，LX(3f)，...，LX((2n-1)f)的和，来导出第一谱LSS。在线性频率尺度上，这些频率是频率f的奇数倍。

在步骤207，通过将每个频率f处的分量LSH(f)计算为各频率2f，4f，...，2nf上的分量LX(2f)，LX(4f)，...，LX(2nf)的和，来导出第二谱LSH。在线性频率尺度上，这些频率是频率f的偶数倍。

在步骤209，通过从第二谱LSH中减去第一谱LSS来导出差谱HSR，即，HSR＝LSH-LSS。

在步骤211，把谐度测量H生成为预定频率范围内差谱HSR的最大分量HSR_max的单调增函数F()值。预定频率范围可以取决于谐度测量意图覆盖的周期信号的类别。例如，如果类别为话音或语音，则预定频率范围对应于正常的人类音调范围。一个示例范围是70Hz-450Hz。

方法203在步骤213结束。

在设备100和方法200的进一步实施例中，对数幅度谱的计算可以包括把对数幅度谱从线性频率尺度变换到对数频率尺度。例如，可在s＝log₂(f)的情况下将线性频率尺度变换到对数频率尺度，因此等式(3)变为

HSR (s) = Σ_{n = 1}^{N} (\log | X (s + \log_{2} (2 n)) | - \log | X (s + \log_{2} (2 n - 1)) |) - - - (3^{,}) .

这样，线性频率尺度上的谱压缩变为对数频率尺度上的谱移位。

此外，可以沿频率轴对所变换的对数幅度谱进行插值。这种插值避免了谱压缩中数据样本不足的问题，而低频谱的过采样在感知上也是合理的。

此外，还可以通过如下方式从经插值的对数幅度谱中减去其最小分量，来对经插值的对数幅度谱进行归一化：

log|X’(s’)|＝log|X(s’)|-min(log|X(s’)|) (4)。

以此方式，可减小极小值的影响。

在设备100和方法200的进一步实施例中，在对数幅度谱的计算中，可以计算音频信号的幅度谱，然后用加权向量对该幅度谱进行加权以抑制诸如低频噪声的非期望分量。然后，对经加权的幅度谱进行对数变换，以获得对数幅度谱。以此方式，能够以不均匀的方式对谱进行加权。例如，为了减小低频噪声的影响，可使低频的幅度为零。可以根据期望抑制的分量的分布来预定义或动态估计这种加权向量。例如，我们可以使用基于能量的话音存在概率估计器来针对每个音频帧动态地生成加权向量。例如，为了抑制噪声，设备100可包括这样的噪声估计器：该噪声估计器被配置为针对幅度谱的每个频率来进行基于能量的噪声估计，以生成话音存在概率。方法200可以包括针对幅度谱的每个频率来进行基于能量的噪声估计，以生成话音存在概率。加权向量可以包含所生成的话音存在概率。

语音分类

图3是示出了根据本发明的实施例的用于对音频信号进行分类的示例性设备300的框图。

如图3所示，设备300包括特征提取器301和分类单元302。特征提取器301被配置成从音频信号提取一个或更多个特征。分类单元302被配置成根据所提取的特征对音频信号进行分类。

特征提取器301可以包括谐度估计器311和特征计算器312。谐度估计器311被配置成基于由不同的期望最大频率f_max1至f_maxM限定的频率范围来生成音频信号的谐度的至少两个测量H1至HM。除了可以针对每个谐度测量改变对数幅度谱的频率范围之外，谐度估计器311可以用“谐度估计”部分中描述的设备100来实现。在一个示例中，存在如下三个频率范围：

设置1：f_max＝1250Hz，f_0，min＝75Hz，f_0，max＝450Hz

设置2：f_max＝3300Hz，f_0，min＝75Hz，f_0，max＝450Hz

设置3：f_max＝5000Hz，f_0，min＝75Hz，f_0，max＝450Hz。

基于设置1获得的谐度测量旨在表征诸如仅具有头几个谐波的清晰话音的正常信号。基于设置2获得的谐度测量旨在表征诸如包括许多色噪声(例如，汽车噪声)的话音的噪声信号。在低频区处具有显著能量集中的噪声将会遮蔽话音或其它目标音频信号的谐波结构，这会使得设置1对于音频分类是无效的。基于设置3获得的谐度测量旨在表征音乐信号，这是因为大量的谐波可以存在于高得多的频率处。根据信号类型，变化的f_max会对谐度测量具有显著影响。原因是，不同的信号类型在不同频区会具有不同的谐波结构和谐度分布。通过改变最大谱频率，可以将来自不同频区的各贡献成分表征为总谐度。因此，可以使用谐度差或谐度比作为用于音频分类的附加尺度。

特征计算器312被配置成基于不同频率范围来计算由谐度估计器311获得的谐度测量之间的差、比、或差和比两者以作为从音频信号提取的特征的部分。在一个示例中，令H1、H2和H3分别为基于设置1、设置2和设置3获得的谐度测量，则计算出的特征可以包括H2-H1、H3-H2、H2/H1和H3/H2中一个或更多个。

图4是示出了根据本发明的实施例的用于对音频信号进行分类的示例性方法400的流程图。

如图4所示，方法400从步骤401开始。在步骤403，从音频信号提取一个或更多个特征。在步骤405，根据所提取的特征，对音频信号进行分类。该方法在步骤407处结束。

步骤403可以包括步骤403-1和步骤403-2。在步骤403-1，基于由不同的期望最大频率f_max1至f_maxM限定的频率范围来生成音频信号的谐度的至少两个测量H₁至H_M。除了可以针对每个谐度测量改变对数幅度谱的频率范围之外，可以通过执行“谐度估计”部分中描述的方法200来获得每个谐度测量。在步骤403-2，可以基于不同频率范围来计算在步骤403-1处获得的谐度测量之间的差、比、或差和比两者中的一个或更多个，以作为从音频信号提取的特征的部分。

图5是示出了根据本发明的实施例的用于生成音频信号分类器的示例性设备500的框图。

如图5所示，设备500包括特征提取器501和训练单元502。特征提取器501被配置成从每个样本音频信号提取一个或更多个特征。除了特征提取器501从不同音频信号提取特征之外，特征提取器501可以用特征提取器301来实现。在这种情况下，特征提取器501包括分别与谐度估计器311和特征计算器312相似的谐度估计器511和特征计算器512。训练单元502被配置成基于由特征提取器501提取的特征向量来训练音频信号分类器。

图6是示出了根据本发明的实施例的生成音频信号分类器的示例性方法600的流程图。

如图6所示，方法600从步骤601开始。在步骤603，从样本音频信号提取一个或更多个特征。在步骤605，确定是否存在用于特征提取的另一样本音频信号。如果确定存在用于特征提取的另一样本音频信号，则方法600返回到步骤605以处理另一样本音频信号。否则，在步骤607，基于在步骤603处提取的特征向量来训练音频信号分类器。步骤603具有与步骤403相同的功能，这里未进行详细描述。方法在步骤609处结束。

音调确定

图7是示出了根据本发明的实施例的用于对音频信号执行音调确定的示例性设备700的框图。

如图7所示，设备700包括第一谱生成器701、第二谱生成器702和音调识别单元703。第一谱生成器701和第二谱生成器702分别具有与第一谱生成器101和第二谱生成器102相同的功能，这里未进行详细描述。音调识别单元703被配置成在差谱中识别阈值水平以上的一个或更多个峰并把峰的频率确定为音频信号的音调。可以根据对灵敏度的要求来预定义或调谐阈值水平。

图9是示意性示出了差谱中的峰的图。在图9中，上部曲线描绘了对数频率尺度上的插值的对数幅度谱的一帧。通过将两个合成元音混合来生成时域信号，这两个合成元音是使用具有不同F0(100Hz和140Hz)的Praat的元音编辑器(VowelEditor)而生成的。底部曲线示出了差谱上的用直线标记的两个音调峰。检测到的音调分别是140.5181Hz和101.1096Hz。

可以理解，该多音调追踪的方法仅生成帧级别的瞬时音调值。已知，为了生成可靠的音调追踪，需要帧间处理。因此，总会将提出的方法与设立好的后处理方法(诸如动态编程或音调追踪聚类)结合到一起，以进一步改进多音调追踪执行。

可以理解，虽然已经描述了音调确定算法，但是先前的SHR算法(Sun，2002)并未展现任何多音调追踪方法，这是非常不同的问题。也不能直接明白如何使用原始的方法来识别多个音调。

图8是示出了根据本发明的实施例的对音频信号执行音调确定的示例性方法800的流程图。

在图8中，步骤801、803、805、807、809和813分别具有与步骤201、203、205、207、209和213相同的功能，这里未进行详细描述。在步骤809，方法800进行到步骤811。在步骤811，在差谱中识别阈值水平以上的一个或更多个峰，并且把所识别的峰的频率确定为音频信号中的音调。可以根据对灵敏度的要求来预定义或调谐阈值水平。

图10是示出了根据本发明的实施例的用于对音频信号执行音调确定的示例性设备1000的框图。

如图10所示，设备1000包括第一谱生成器1001、第二谱生成器1002、音调识别单元1003、谐度计算器1004、以及模式识别单元1005。第一谱生成器1001、第二谱生成器1002和音调识别单元1003分别具有与第一谱生成器101、第二谱生成器102和音调识别单元703相同的功能，这里并未进行详细描述。

针对由音调识别单元1003识别的每个峰，谐度计算器1004被配置成把谐度测量生成为差谱中的峰的大小的单调增函数值。除了用峰的大小替代最大分量HSR_max之外，谐度计算器1004具有与谐度估计器103相同的功能。在一个示例中，测量H可以直接等于峰的大小。

模式识别单元1005被配置成在峰包含两个峰并且其谐度测量在预定范围内的情况下将音频信号识别为交叠话音分段。可以基于以下观测来确定预定范围。令h1和h2表示利用“谐度估计”部分中描述的方法分别从两个信号获得的谐度测量。然后，将两个信号混合成一个信号，对该混合的信号执行方法800以识别两个峰。通过由谐度计算器1004使用的方法，分别计算与两个峰对应的谐度测量。令H1和H2分别表示计算出的谐度测量。发现：1)如果h1和h2是低的，则H1和H2是低的；2)如果h1是高的且h2是低的，则H1是高的且H2是低的；3)如果h1是低的且h2是高的，则H1是低的且H2是高的；以及4)如果h1是高的且h2是高的，则H1是中等的且H2是中等的。预定范围被用来识别中等级别，并且可以基于统计学来确定。模式4)对应于常常发生在音频会议中的交叠(谐波)话音分段，使得可以布置不同噪声抑制模式。

图11是示出了根据本发明的实施例的对音频信号执行音调确定的示例性方法1100的流程图。

在图11中，步骤1101、1103、1105、1107、1109、1111和1117分别具有与步骤201、203、205、207、209、811和213相同的功能，这里未进行详细描述。在步骤1111，方法1100进行到步骤1113。在步骤1113，针对在步骤1111处识别的每个峰，把谐度的测量生成为差谱中的峰的大小的单调增函数值。除了用峰的大小替代最大分量HSR_max之外，可以用与步骤211相同的方法生成每个谐度测量。在一个示例中，测量H可以直接等于峰的大小。

在步骤1115，如果峰包含两个峰并且其谐度测量在预定范围内，则将音频信号识别为交叠话音分段。

在设备1000和方法1100的又一实施例中，用于将音频信号识别为交叠话音分段的条件包括：1)峰包含具有在预定范围内的谐度测量的至少两个峰；以及2)峰包含具有大小彼此接近的谐度测量的至少两个峰。

在设备1000和方法1100的又一实施例中，在计算幅度谱并且然后计算幅度谱的对数谱的情况下，可以对音频信号执行修改的离散余弦变换(MDCT)以生成MDCT谱作为幅度度量。然后，为了更准确的谐度和音调估计，在进行正常的对数变换之前，根据以下等式将MDCT谱转换成伪谱：

S_k＝((M_k)²+(M_k+1-M_k-1)²)^0.5，

其中k是频率区间索引，M是MDCT系数。

噪声估计

图12是图示根据本发明实施例的用于对音频信号进行噪声估计的示例设备1200的框图。

如图12所示，设备1200包括噪声估计单元1201、谐度测量单元1202和话音估计单元1203。

话音估计单元1203被配置成计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引，以及根据下述方式计算改进无话音概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)} - - - (5)

其中，h(t)是时间t的谐度测量，以及q(k，t)是无话音概率(SAP)，

q (k, t) = \frac{{| X (k, t) |}^{2}}{P_{N} (k, t - 1)} \exp (1 - \frac{{| X (k, t) |}^{2}}{P_{N} (k, t - 1)}) - - - (6)

谐度测量单元1202测量h(t)。谐度测量单元1202具有与谐度估计器103相同的功能，并且这里不详细描述。

噪声估计单元1201被配置成通过使用改进无话音概率UV(k，t)取代无话音概率q(k，t)来估计噪声功率P_N(k，t)。在一个示例中，根据下述方式估计噪声：

P_N(k，t)＝P_N(k，t-1)+α(k)UV(k，t)(|X(k，t)|²-P_N(k，t-1)

(7)

其中，P_N(k，t)是估计的噪声功率，|X(k，t)|²是瞬时噪声输入功率，α(k)是时间常量。

以这种方式，当q接近0指示相当大的信号能量上升时，其对最终值的影响变小，而谐度变成主要因素。在极端情况下，q＝0，UV变成1-h。另一方面，当q接近1指示稳定状态信号时，最终值是q和h的组合。

图13是图示根据本发明实施例的对音频信号进行噪声估计的示例方法1300的流程图。

如图13所示，方法1300从步骤1301开始。在步骤1303，计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引。在步骤1305，通过使用公式(5)来计算改进无话音概率UV(k，t)。在步骤1307，通过使用改进无话音概率UV(k，t)取代无话音概率q(k，t)来估计噪声功率P_N(k，t)。方法1300在步骤1309结束。在方法1300中，可通过方法200来计算h(t)。

其它实施例

在上面描述的设备的进一步的实施例中，所述设备是移动设备的一部分，并且用于到达和/或来自所述移动设备的语音通信的加强、管理和传送中的至少之一。

此外，所述设备的结果可以被用来确定所述移动设备的实际或估计带宽需求。另外或可选地，所述设备的结果被从所述移动设备通过无线通信发送到后端过程，并且被所述后台用来管理所述移动设备的带宽需求和所述移动设备使用或经由所述移动设备参与的被连接的应用中的至少之一。

此外，所述被连接的应用可以包括语音会议系统和游戏应用中的至少之一。此外，所述设备的结果被用来管理所述游戏应用的功能。此外，所述管理的功能包含下述功能中的至少之一：玩家位置识别，玩家移动，玩家行动，玩家选项，例如重新加载，玩家确认，暂停或其它控制，武器选择和视图选择。

此外，所述设备的结果可以被用来管理所述语音会议系统的特性，包含遥控摄像机角度、视图选择、麦克风静音/取消静音、加亮会议室参加者或白板或其它会议相关或无关通信中的任何特性。

在上面描述的设备的进一步的实施例中，所述设备能够操作以利于到达和/或来自移动设备的语音通信的加强、管理和传送中的至少之一。

在上面描述的设备的进一步的实施例中，所述设备可以是基站、蜂窝运营商设备、蜂窝运营商后端、蜂窝系统中的节点、服务器和基于云的处理器中的至少之一的一部分。

在上面描述的设备的进一步的实施例中，所述移动设备可以包括蜂窝电话、智能电话(包含任何i-phone版本或基于android的装置)、平板计算机(包含i-Pad、galaxy、playbook、基于windows CE或android的装置)中的至少之一。

在上面描述的设备的进一步的实施例中，所述设备可以是利用所述移动设备的游戏系统/应用和语音会议系统中的至少之一。

图14是图示用于实现本发明实施例的示例性系统1400的框图。

在图14中，中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机访问存储器(RAM)1403的程序执行各种处理。在RAM 1403中，也根据需要存储当CPU 1401执行各种处理等等时所需的数据。

CPU 1401、ROM 1402和RAM 1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。

下列部件连接到输入/输出接口1405：包括键盘、鼠标等等的输入部分1406；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分1407；包括硬盘等等的存储部分1408；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分1409。通信部分1409经由例如因特网的网络执行通信处理。

根据需要，驱动器1410也连接到输入/输出接口1405。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质1411根据需要被安装在驱动器1410上，使得从中读出的计算机程序根据需要被安装到存储部分1408。

在通过软件实现上述步骤和处理的情况下，从例如因特网的网络或例如可移除介质1411的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施例的目的，而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，“包括”一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的，而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

这里描述了下面的示例性实施例(均用″EE″表示)。

EE 1.一种测量音频信号的谐度的方法，包括：

计算所述音频信号的对数幅度谱；

通过把第一谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出所述第一谱，其中在线性频率尺度上，所述多个频率是所述第一谱的所述分量的频率的奇数倍；

通过把第二谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出所述第二谱，其中在线性频率尺度上，所述多个频率是所述第二谱的所述分量的频率的偶数倍；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

把谐度测量生成为预定频率范围内所述差谱的最大分量的单调增函数值。

EE 2.如EE 1所述的方法，其中，所述对数幅度谱的所述计算包括把所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 3.如EE 2所述的方法，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 4.如EE 3所述的方法，其中，基于如下步长来进行所述插值：所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率区间与第二最高频率区间的对数频率尺度频率之间的差。

EE 5.如EE 3所述的方法，其中，所述对数幅度谱的所述计算还包括通过从经差值的对数幅度谱中减去其最小分量，来对经差值的对数幅度谱进行归一化。

EE 6.如EE 1所述的方法，其中，所述预定频率范围对应于正常的人类音调范围。

EE 7.如EE 1所述的方法，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

用加权向量对所述幅度谱进行加权以抑制非期望分量；以及

对所述幅度谱进行对数变换。

EE 8.如EE 7所述的方法，还包括：

针对所述幅度谱的每个频率来进行基于能量的噪声估计，以生成话音存在概率，以及

其中所述加权向量包含所生成的话音存在概率。

EE 9.一种用于测量音频信号的谐度的设备，包括：

第一谱生成器，被配置为计算所述音频信号的对数幅度谱；

第二谱生成器，被配置为

通过把第二谱的每个分量计算为多个频率上所述对数幅度谱的分量的和，来导出所述第二谱，其中在线性频率尺度上，所述多个频率是所述第二谱的所述分量的频率的偶数倍；以及

通过从所述第二谱中减去所述第一谱来导出差谱；以及

谐度估计器，被配置为把谐度测量生成为预定频率范围内所述差谱的最大分量的单调增函数值。

EE 10.如EE 9所述的设备，其中，所述对数幅度谱的所述计算包括把所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 11.如EE 10所述的设备，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 12.如EE 11所述的设备，其中，基于如下步长来进行所述插值：所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率区间与第二最高频率区间的对数频率尺度频率之间的差。

EE 13.如EE 11所述的设备，其中，所述对数幅度谱的所述计算还包括通过从经差值的对数幅度谱中减去其最小分量，来对经差值的对数幅度谱进行归一化。

EE 14.如EE 9所述的设备，其中，所述预定频率范围对应于正常的人类音调范围。

EE 15.如EE 9所述的设备，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

用加权向量对所述幅度谱进行加权以抑制非期望分量；以及

对所述幅度谱进行对数变换。

EE 16.如EE 15所述的方法，还包括：

噪声估计器，被配置为针对所述幅度谱的每个频率来进行基于能量的噪声估计，以生成话音存在概率，以及

其中所述加权向量包含由所述噪声估计器所生成的话音存在概率。

EE 17.一种对音频信号进行分类的方法，包括：

从所述音频信号中提取一个或更多个特征；以及

根据所提取的特征对所述音频信号进行分类，

其中，所述特征的所述提取包括：

基于由不同的期望最大频率限定的频率范围来生成所述音频信号的谐度的至少两个测量；以及

把所述特征之一计算为所述谐度测量之间的差或比，

其中，每个基于频率范围的谐度测量的所述生成包括：

基于所述频率范围来计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

EE 18.根据EE 17所述的方法，其中，所述对数幅度谱的所述计算包括将所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 19.根据EE 18所述的方法，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 20.根据EE 19所述的方法，其中，基于步长来执行所述插值，所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率区间与第二最高频率区间的对数频率尺度频率之间的差。

EE 21.根据EE 19所述的方法，其中，所述对数幅度谱的所述计算还包括通过将所述插值的对数幅度谱减去其最小分量来对所述插值的对数幅度谱进行归一化。

EE 22.根据EE 17所述的方法，其中，所述预定频率范围对应于正常的人类音调范围。

EE 23.根据EE 17所述的方法，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

利用加权向量对所述幅度谱进行加权以抑制非期望分量；以及

对所述幅度谱执行对数变换。

EE 24.根据EE 23所述的方法，还包括：

针对所述幅度谱的每个频率执行基于能量的噪声估计，以生成话音存在概率，并且

其中，所述加权向量包含所述生成的话音存在概率。

EE 25.一种对音频信号进行分类的装置，包括：

特征提取器，被配置成从所述音频信号中提取一个或更多个特征；以及

分类单元，被配置成根据所提取的特征对所述音频信号进行分类，

其中，所述特征提取器包括：

谐度估计器，被配置成基于由不同的期望最大频率限定的频率范围来生成所述音频信号的谐度的至少两个测量；以及

特征计算器，被配置成把所述特征之一计算为所述谐度测量之间的差或比，

其中，所述谐度估计器包括：

第一谱生成器，被配置成基于所述频率范围来计算所述音频信号的对数幅度谱；

第二谱生成器，被配置成

通过从所述第二谱中减去所述第一谱来导出差谱；以及

谐度估计器，被配置成把谐度测量生成为预定频率范围内所述差谱的最大分量的单调增函数值。

EE 26.根据EE 25所述的装置，其中，

所述对数幅度谱的所述计算包括将所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 27.根据EE 26所述的装置，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 28.根据EE 27所述的装置，其中，基于步长来执行所述插值，所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率区间与第二最高频率区间的对数频率尺度频率之间的差。

EE 29.根据EE 27所述的装置，其中，所述对数幅度谱的所述计算还包括通过将所述插值的对数幅度谱减去其最小分量来对所述插值的对数幅度谱进行归一化。

EE 30.根据EE 25所述的装置，其中，所述预定频率范围对应于正常的人类音调范围。

EE 31.根据EE 25所述的装置，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

对所述幅度谱执行对数变换。

EE 32.根据EE 31所述的装置，还包括：

噪声估计器，被配置成针对所述幅度谱的每个频率执行基于能量的噪声估计，以生成话音存在概率，并且

其中，所述加权向量包含由所述噪声估计器生成的所述话音存在概率。

EE 33.一种生成音频信号分类器的方法，包括：

从样本音频信号的每个中提取包括一个或更多个特征的特征向量；以及

基于所述特征向量来训练所述音频信号分类器，

其中，从所述样本音频信号中对所述特征的提取包括：

基于由不同的期望最大频率限定的频率范围来生成所述样本音频信号的谐度的至少两个测量；以及

把所述特征之一计算为所述谐度测量之间的差或比，

其中，每个基于频率范围的谐度测量的所述生成包括：

基于所述频率范围计算所述样本音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

EE 34.一种生成音频信号分类器的装置，包括：

特征向量提取器，被配置成从每个样本音频信号中提取包括一个或更多个特征的特征向量；以及

训练单元，被配置成基于所述特征向量来训练所述音频信号分类器，

其中，从所述特征向量提取器包括：

谐度估计器，被配置成基于由不同的期望最大频率限定的频率范围来生成所述采用音频信号的谐度的至少两个测量；以及

其中，所述谐度估计器包括：

第一谱生成器，被配置成基于所述频率范围计算所述样本音频信号的对数幅度谱；

第二谱生成器，被配置成

通过从所述第二谱中减去所述第一谱来导出差谱；以及

EE 35.一种对音频信号执行音调确定的方法，包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；

在所述差谱中识别阈值水平以上的一个或更多个峰；以及

把所述音频信号中的音调确定为所述峰的双倍频率。

EE 36.根据EE 35所述的方法，还包括：

针对每个所述峰，把谐度测量生成为所述差谱中所述峰的大小的单调增函数值；以及

如果所述峰包含两个峰并且其谐度测量在预定范围内，则把所述音频信号识别为交叠话音分段。

EE 37.根据EE 36所述的方法，其中，所述音频信号的所述识别包括：

如果所述峰包含谐度测量在预定范围内的并且大小彼此接近的两个峰，则把所述音频信号识别为交叠话音分段。

EE 38.根据EE 35所述的方法，其中，

EE 39.根据EE 38所述的方法，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 40.根据EE 39所述的方法，其中，基于步长来执行所述插值，所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率区间与第二最高频率区间的对数频率尺度频率之间的差。

EE 41.根据EE 39所述的方法，其中，所述对数幅度谱的所述计算还包括通过将所述插值的对数幅度谱减去其最小分量来对所述插值的对数幅度谱进行归一化。

EE 42.根据EE 35所述的方法，其中，所述预定频率范围对应于正常的人类音调范围。

EE 43.根据EE 35所述的方法，其中，所述对数幅度谱的计算包括：

计算所述音频信号的幅度谱；

对所述幅度谱执行对数变换。

EE 44.根据EE 43所述的方法，还包括：

其中，所述加权向量包含所述生成的话音存在概率。

EE 45.根据EE 43所述的方法，其中，所述幅度谱的计算包括：

对音频信号执行修改的离散余弦变换MDCT，以生成MDCT谱作为幅度度量；以及

根据以下等式将MDCT谱转换成伪谱：

S_k＝((M_k)²+(M_k+1-M_k-1)²)^0.5，

其中，k是频率区间索引，M是MDCT系数。

EE 46.一种用于对音频信号执行音调确定的装置，包括：

第一谱生成器，被配置成计算所述音频信号的对数幅度谱；

第二谱生成器，被配置成

通过从所述第二谱中减去所述第一谱来导出差谱；以及

音调识别单元，被配置成在所述差谱中识别阈值水平以上的一个或更多个峰以及把所述音频信号中的音调确定为所述峰的双倍频率。

EE 47.根据EE 46所述的装置，还包括：

谐度计算器，被配置成针对每个所述峰把谐度测量生成为所述差谱中的所述峰的幅度的单调增函数值；以及

模式识别单元，被配置成在所述峰包含两个峰并且其谐度测量在预定范围内的情况下把所述音频信号识别为交叠话音分段。

EE 48.根据EE 47所述的装置，其中，所述模式识别单元还被配置成在所述峰包含谐度测量在预定范围内并且大小彼此接近的两个峰的情况下把所述音频信号识别为交叠话音分段。

EE 49.根据EE 48所述的装置，其中，所述对数幅度谱的所述计算包括将所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 50.根据EE 49所述的装置，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 51.根据EE 50所述的装置，其中，基于步长来执行所述插值，所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率区间与第二最高频率区间的对数频率尺度频率之间的差。

EE 52.根据EE 50所述的装置，其中，所述对数幅度谱的所述计算还包括通过将所述插值的对数幅度谱减去其最小分量来对所述插值的对数幅度谱进行归一化。

EE 53.根据EE 46所述的装置，其中，所述预定频率范围对应于正常的人类音调范围。

EE 54.根据EE 46所述的装置，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

对所述幅度谱执行对数变换。

EE 55.根据EE 54所述的装置，还包括：

其中，所述加权向量包含所生成的话音存在概率。

EE 56.根据EE 54所述的装置，其中，所述幅度谱的所述计算包括：

根据以下等式将MDCT谱转换成伪谱：

S_k＝((M_k)²+(M_k+1-M_k-1)²)^0.5，

其中，k是频率区间索引，M是MDCT系数。

EE 57.一种对音频信号进行噪声估计的方法，包括：

计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引；

根据下述方式计算改进无话音不存在概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)},

其中，h(t)是时间t的谐度测量；以及

通过使用所述改进话音不存在概率UV(k，t)估计噪声功率P_N(k，t)，

其中，所述改进无话音概率UV(k，t)的所述计算包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；

把谐度测量h(t)生成为预定频率范围内所述差谱的最大分量的单调增函数值。

EE 58.根据EE 57所述的方法，其中，所述对数幅度谱的所述计算包括把所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 59.根据EE 58所述的方法，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 60.根据EE 59所述的方法，其中，根据步长执行所述插值，所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率与第二最高频率的对数频率尺度频率之间的差。

EE 61.根据EE 59所述的方法，其中，所述对数幅度谱的所述计算还包括通过从所插值的对数幅度谱中减去其最小分量将所插值的对数幅度谱标准化。

EE 62.根据EE 57所述的方法，其中，预定的频率范围对应于正常的人类音高范围。

EE 63.根据EE 57所述的方法，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

用加权向量对所述幅度谱进行加权以抑制不期望的分量；以及

对所述幅度谱进行对数变换。

EE 64.根据EE 63所述的方法，其中，所述加权向量包含所述改进话音存在概率。

EE 65.一种用于对音频信号进行噪声估计的设备，包括：

话音估计单元，其被配置成计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引，以及根据下述方式计算改进无话音不存在概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)},

其中，h(t)是时间t的谐度测量；

噪声估计单元，其被配置成通过使用所述改进话音不存在概率UV(k，t)估计噪声功率P_N(k，t)；以及

谐度测量单元，其包括：

第一谱生成器，其被配置成计算所述音频信号的对数幅度谱；

第二谱生成器，其被配置成：

通过从所述第二谱中减去所述第一谱来导出差谱；以及

谐度估计器，其被配置成把谐度测量h(t)生成为预定频率范围内所述差谱的最大分量的单调增函数值。

EE 66.根据EE 65所述的设备，其中，所述对数幅度谱的所述计算包括把所述对数幅度谱从线性频率尺度变换到对数频率尺度。

EE 67.根据EE 66所述的设备，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

EE 68.根据EE 67所述的设备，其中，根据步长执行所述插值，所述步长不小于所述对数幅度谱在线性频率尺度上的第一最高频率与第二最高频率的对数频率尺度频率之间的差。

EE 69.根据EE 67所述的设备，其中，所述对数幅度谱的所述计算还包括通过从所插值的对数幅度谱中减去其最小分量将所插值的对数幅度谱标准化。

EE 70.根据EE 65所述的设备，其中，预定的频率范围对应于正常的人类音高范围。

EE 71.根据EE 65所述的设备，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

对所述幅度谱进行对数变换。

EE 72.根据EE 71所述的设备，其中，所述加权向量包含所述改进话音存在概率。

EE 73.一种在其上记录有计算机程序指令的计算机可读介质，当由处理器执行所述计算机程序指令时，所述指令使处理器执行一种测量音频信号的谐度的方法，包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

EE 74.一种在其上记录有计算机程序指令的计算机可读介质，当由处理器执行所述计算机程序指令时，所述指令使处理器执行一种对音频信号进行分类的方法，包括：

从所述音频信号中提取一个或更多个特征；以及

根据所提取的特征对所述音频信号进行分类，

其中，所述特征的所述提取包括：

把所述特征之一计算为所述谐度测量之间的差或比，

其中，每个基于频率范围的谐度测量的所述生成包括：

基于所述频率范围来计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

EE 75.一种在其上记录有计算机程序指令的计算机可读介质，当由处理器执行所述计算机程序指令时，所述指令使处理器执行一种生成音频信号分类器的方法，包括：

基于所述特征向量来训练所述音频信号分类器，

其中，从所述样本音频信号中对所述特征的提取包括：

把所述特征之一计算为所述谐度测量之间的差或比，

其中，每个基于频率范围的谐度测量的所述生成包括：

基于所述频率范围计算所述样本音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

EE76.如EE9-EE16，EE26-EE32和EE65-EE72之一所述的设备，其中所述设备是移动设备的一部分，并且用于到达和/或来自所述移动设备的语音通信的加强、管理和传送中的至少之一。

EE77.如EE76所述的设备，其中所述设备的结果被用来确定所述移动设备的实际或估计带宽需求。

EE78.如EE76所述的设备，其中所述设备的结果被从所述移动设备通过无线通信发送到后端过程，并且被所述后台用来管理所述移动设备的带宽需求和所述移动设备使用或经由所述移动设备参与的被连接的应用中的至少之一。

EE79.如EE78所述的设备，其中所述被连接的应用包括语音会议系统和游戏应用中的至少之一。

EE80.如EE79所述的设备，其中所述设备的结果被用来管理所述游戏应用的功能。

EE81.如EE80所述的设备，其中所述管理的功能包含下述功能中的至少之一：玩家位置识别，玩家移动，玩家行动，玩家选项，例如重新加载，玩家确认，暂停或其它控制，武器选择和视图选择。

EE82.如EE79所述的设备，其中所述设备的结果被用来管理所述语音会议系统的特性，包含遥控摄像机角度、视图选择、麦克风静音/取消静音、加亮会议室参加者或白板或其它会议相关或无关通信中的任何特性。

EE83.如EE9-EE16，EE26-EE32和EE65-EE72之一所述的设备，其中所述设备能够操作以利于到达和/或来自移动设备的语音通信的加强、管理和传送中的至少之一。

EE84.如EE77所述的设备，其中所述设备是基站、蜂窝运营商设备、蜂窝运营商后端、蜂窝系统中的节点、服务器和基于云的处理器中的至少之一的一部分。

EE85.如EE76-EE84之一所述的设备，其中所述移动设备包括蜂窝电话、智能电话(包含任何i-phone版本或基于android的装置)、平板计算机(包含i-Pad、galaxy、playbook、基于windows CE或android的装置)中的至少之一。

EE86.如EE76-EE85之一所述的设备，其中所述设备是利用所述移动设备的游戏系统/应用和语音会议系统中的至少之一。

EE 87.一种在其上记录有计算机程序指令的计算机可读介质，当由处理器执行所述计算机程序指令时，所述指令使处理器执行一种对音频信号执行音调确定的方法，包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；

在所述差谱中识别阈值水平以上的一个或更多个峰；以及

把所述音频信号中的音调确定为所述峰的双倍频率。

EE 88.一种在其上记录有计算机程序指令的计算机可读介质，当由处理器执行所述计算机程序指令时，所述指令使处理器执行一种对音频信号进行噪声估计的方法，包括：

计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引；

根据下述方式计算改进无话音不存在概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)},

其中，h(t)是时间t的谐度测量；以及

其中，所述改进无话音概率UV(k，t)的所述计算包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；

Claims

1.一种测量音频信号的谐度的方法，包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

2.如权利要求1所述的方法，其中，所述对数幅度谱的所述计算包括把所述对数幅度谱从线性频率尺度变换到对数频率尺度。

3.如权利要求2所述的方法，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

4.如权利要求1所述的方法，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

用加权向量对所述幅度谱进行加权以抑制非期望分量；以及

对所述幅度谱进行对数变换。

5.一种用于测量音频信号的谐度的设备，包括：

第一谱生成器，被配置为计算所述音频信号的对数幅度谱；

第二谱生成器，被配置为

通过从所述第二谱中减去所述第一谱来导出差谱；以及

6.如权利要求5所述的设备，其中，所述对数幅度谱的所述计算包括把所述对数幅度谱从线性频率尺度变换到对数频率尺度。

7.如权利要求6所述的设备，其中，所述对数幅度谱的所述计算还包括沿频率轴对所变换的对数幅度谱进行插值。

8.如权利要求5所述的设备，其中，所述对数幅度谱的所述计算包括：

计算所述音频信号的幅度谱；

用加权向量对所述幅度谱进行加权以抑制非期望分量；以及

对所述幅度谱进行对数变换。

9.一种对音频信号进行分类的方法，包括：

从所述音频信号中提取一个或更多个特征；以及

根据所提取的特征对所述音频信号进行分类，

其中，所述特征的所述提取包括：

把所述特征之一计算为所述谐度测量之间的差或比，

其中，每个基于频率范围的谐度测量的所述生成包括：

基于所述频率范围来计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

把谐度测量生成为预定频率范围内所述差谱的最大分量的单调增函数。

10.根据权利要求9所述的方法，其中，所述对数幅度谱的所述计算包括将所述对数幅度谱从线性频率尺度变换到对数频率尺度。

11.一种对音频信号进行分类的装置，包括：

其中，所述特征提取器包括：

其中，所述谐度估计器包括：

第二谱生成器，被配置成

通过从所述第二谱中减去所述第一谱来导出差谱；以及

谐度估计器，被配置成把谐度测量生成为预定频率范围内所述差谱的最大分量的单调增函数。

12.根据权利要求11所述的装置，其中，

13.一种生成音频信号分类器的方法，包括：

基于所述特征向量来训练所述音频信号分类器，

其中，从所述样本音频信号中对所述特征的提取包括：

把所述特征之一计算为所述谐度测量之间的差或比，

其中，每个基于频率范围的谐度测量的所述生成包括：

基于所述频率范围计算所述样本音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；以及

14.一种生成音频信号分类器的装置，包括：

其中，从所述特征向量提取器包括：

其中，所述谐度估计器包括：

第二谱生成器，被配置成

通过从所述第二谱中减去所述第一谱来导出差谱；以及

15.一种对音频信号执行音调确定的方法，包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；

在所述差谱中识别阈值水平以上的一个或更多个峰；以及

把所述音频信号中的音调确定为所述峰的双倍频率。

16.根据权利要求15所述的方法，还包括：

针对每个所述峰，把谐度测量生成为所述差谱中所述峰的大小的单调增函数；以及

17.根据权利要求16所述的方法，其中，所述音频信号的所述识别包括：

18.一种用于对音频信号执行音调确定的装置，包括：

第一谱生成器，被配置成计算所述音频信号的对数幅度谱；

第二谱生成器，被配置成

通过从所述第二谱中减去所述第一谱来导出差谱；以及

19.根据权利要求18所述的装置，还包括：

20.根据权利要求19所述的装置，其中，所述模式识别单元还被配置成在所述峰包含谐度测量在预定范围内并且大小彼此接近的两个峰的情况下把所述音频信号识别为交叠话音分段。

21.一种对音频信号进行噪声估计的方法，包括：

计算无话音概率q(k，t)，其中k是频率索引，而t是时间索引；

根据下述方式计算改进无话音不存在概率UV(k，t)：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)},

其中，h(t)是时间t的谐度测量；以及

其中，所述改进无话音概率UV(k，t)的所述计算包括：

计算所述音频信号的对数幅度谱；

通过从所述第二谱中减去所述第一谱来导出差谱；

22.一种用于对音频信号进行噪声估计的设备，包括：

UV (k, t) = \frac{1 - h (t)}{q (k, t) (1 - h (t)) + 1 - q (k, t)},

其中，h(t)是时间t的谐度测量；

谐度测量单元，其包括：

第二谱生成器，其被配置成：

通过从所述第二谱中减去所述第一谱来导出差谱；以及