CN103718242A

CN103718242A - 采用谱运动变换的用于处理声音信号的系统和方法

Info

Publication number: CN103718242A
Application number: CN201280025281.5A
Authority: CN
Inventors: 大卫·C·布拉德利; 丹尼尔·S·戈尔丁; 罗伯特·N·希尔顿; 尼古拉斯·K·费希尔; 罗德尼·高登; 德里克·R·鲁斯; 埃里克·维埃维奥拉
Original assignee: Ying Telisiyisi Co
Current assignee: Crossbow Ltd By Share Ltd
Priority date: 2011-03-25
Filing date: 2012-03-23
Publication date: 2014-04-09
Anticipated expiration: 2032-03-23
Also published as: US8767978B2; JP2014512022A; US20120243707A1; US9142220B2; US20140376727A1; CA2831264A1; US20120243705A1; EP2937862A1; WO2012134993A1; EP2689417A1; WO2012134991A3; EP2689417A4; US9177561B2; US20150120285A1; JP6027087B2; US20150112688A1; WO2012134991A2; US9620130B2; KR20140059754A; CN103718242B

Abstract

提供了一种用于处理声音信号的系统和方法。该处理可以包括识别声音信号中所表示的个体谐音、确定谐音的声音参数、根据来源对谐音进行分类，和/或其他处理。该处理可以包括将声音信号（或其部分）变换至将变换系数表达为频率和调频斜率的函数的空间。这可以对单个谐音的个体谐波可以跨其所有谐波具有同样的音高速度（其与调频斜率相关）的事实加以利用以便将谐音从其他声音（谐波和/或非谐波）和/或噪声中辨别出来。

Description

采用谱运动变换的用于处理声音信号的系统和方法

相关申请

本申请要求于2011年8月8日提交的题为“采用谱运动变换的用于处理声音信号的系统和方法”的美国专利申请号13/205,424的优先权，上述申请要求于2011年3月25日提交的题为“谱运动变换”的美国临时专利申请号61/467,493的优先权，上述两份申请通过引用全文结合于此。

技术领域

本发明涉及通过利用与个体谐音相关联的谐波的调频斜率的坐标而对声音信号进行处理以识别、确定谐音的声音参数和/或对其进行分类。

背景技术

对音频信号进行处理以辨别在音频信号中所表示的谐音和噪声，确定音频信号中所表示的谐音的声音参数，通过根据来源对谐音分组而对音频信号中所表示的谐音进行分类，和/或执行其他类型的音频处理的系统是已知的。这样的系统例如可以在通过扬声器检测、识别和/或分类由谐音所组成的人声话音时使用。用于确定谐音的声音参数和/或对谐音进行分类的常规技术可能在存在相对低量的噪声（例如，出现在录制音频信号中的音频噪声、信号噪声和/或其他噪声）的情况下快速衰退。

通常，常规声音处理涉及针对个体时间窗口而将音频信号从时域变换至频域。随后可以在频域中对信号执行各种类型的信号处理技术和算法以尝试在能够执行进一步处理之前将信号中所表示的声音和噪声区分开来。随后可以对该经处理的信号进行分析以确定诸如音高、包络之类的声音参数和/或其他声音参数。信号中所表示的声音可以进行分类。

常规的用于区分谐音和噪声（无论是信号中所表示的声波噪声还是信号噪声）的尝试可以相当于尝试对信号进行“清理”以区分谐音和背景噪声。不幸的是，这些常规技术经常会导致与信号中所表示的谐音相关的信息损失以及噪声。该信息损失会影响到例如用于确定谐音的（多个）声音参数、对谐音进行分类的下游处理和/或其他下游处理的准确性和/或精确度。

发明内容

本公开的一个方面涉及一种用于处理声音信号的系统和方法。该处理可以包括识别声音信号中所表示的个体谐音，确定谐音的声音参数，根据来源对谐音进行分类，和/或其他处理。该处理可以包括将声音信号（或其部分）从时域变换至频率-调频域。这可以对单个谐音的个体谐波可能跨其所有谐波具有相同的音高速度（其与调频斜率相关）的事实加以利用以便将谐音从其他声音（谐波和/或非谐波）和/或噪声中辨别出来。

需意识到的是，这里对“声音信号”和“声音”（或“谐音”）的描述并非意在作为限制。本公开的范围包括对表示被表现为超声波、声波和/或亚声波频谱的任意范围之中的谐波分量的任意现象的信号进行处理。类似地，本公开的范围包括对表示被表现为谐波电磁波分量的任意现象的信号进行处理。这里对“声音信号”和“声音”（或“谐音”）的描述仅是一种或多种示例性实施方式的一部分。

用于处理声音信号的系统可以包括一个或多个处理器。该处理器可以用于执行包括信号模块、时间窗口模块、变换模块、声音模块、声音参数模块、分类模块和/或其他模块中的一个或多个的计算机程序模块。

时间窗口模块可以用于将声音信号划分为多个信号部分。信号部分可以与个体时间窗口相关联。时间窗口可以对应于大于声音信号的采样周期的时间周期。时间窗口的一个或多个参数（例如，时间窗口函数的类型（例如，高斯、汉明）、该函数的宽度参数、时间窗口的总长度、时间窗口的时间周期、时间窗口的排列和/或其他参数）可以基于用户选择、预设设置、所处理的声音信号和/或其他因素而进行设置。

变换模块可以用于将信号部分变换至频率-调频域。变换模块可以配置使得该变换针对信号部分而将变换系数指定为频率和分数调频斜率的函数。分数调频斜率可以是除以频率的调频斜率。用于具体频率和分数调频斜率对的给定变换信号部分的变换系数可以表示用于与该给定变换信号部分相关联的时间窗口内的具体频率和分数调频斜率的复变换系数、复系数的模数或者该模数的平方。

变换模块可以配置使得可以通过对给定信号部分应用滤波器集合而获得给定信号部分的变换。该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。该滤波器可以是复指数函数。这会导致由包括实数和虚数分量的滤波器所直接产生的复系数。如这里所使用的，“变换系数”可以是指一个这样的复系数、该复系数的模数、复系数的模数的平方，和/或实数和/或复数和/或其分量的其他表示形式。

该声音模块可以用于识别信号部分中所表示的个体谐音。这可以包括识别出经变换信号部分中的这些谐音的谐波贡献。由于谐音的音高随时间有所变化，所以个体谐音可以具有音高速度。该音高速度对于每个谐波而言可以是全局的，并且可以被表示为第一谐波和任意谐波的分数调频斜率的乘积。这样，处于任意给定时间点处（例如在经变换信号部分的时间窗口上）的分数调频斜率针对谐音的所有谐波可以是相同的。这在频率-调频域中变得明显，因为个体谐音的谐波贡献可以被表现为以周期方式沿共用分数调频斜率的行进行排列的变换系数中的最大值。

如果经变换信号部分中的噪声是松散的（与时间无关），则该信号部分中出现的大部分（如果实质上不是全部）噪声可以被假设具有与经变换信号部分中所表示的谐音的共用分数调频斜率所不同的分数调频斜率。类似地，如果经变换的信号部分中表示了多个谐音，则不同谐音可能具有不同的音高速度。这会导致这些不同谐音的谐波贡献在频率-调频域中沿不同的分数调频斜率的行进行排列。声音模块可以用于对这一现象加以利用以识别经变换的信号部分中的个体谐音的贡献。例如，该声音模块可以用于识别经变换的信号部分内的个体声音的共用分数调频斜率。

声音参数模块可以用于基于经变换的信号部分来确定声音信号中所表示的个体谐音的一个或多个声音参数。该一个或多个声音参数可以以每个信号部分为基础所确定。声音参数以每个信号部分所进行的确定可以用于随时间追踪该声音参数，和/或确定该声音参数的累加值和/或与之相关联的累加量度。一个或多个声音参数例如可以包括音高、音高速度、包络和/或其他参数。声音参数模块可以用于基于连同对应于个体谐音的分数调频斜率（例如，由声音模块所识别的）一起而相对于频率信息对变换系数所进行的分析来确定一个或多个声音参数。

分类模块可以用于根据共用声音来源对经变换的信号部分中所表示的声音进行分组。该分组可以通过对经变换的信号部分的变换系数的分析来完成。例如，该分类模块可以基于由声音参数模块所确定的声音参数，沿最佳调频行而相对于频率信息对变换系数的分析（例如，包括沿最佳调频行创建变换系数最大值的矢量）和/或其他分析而对声音进行分组。

通过参考附图而考虑以下描述和所附权利要求这里所公开的系统和/或方法的这些和其他目标、特征和特性，以及操作方法和相关结构部件的功能以及各部分和市场经济的组合将变得更为显而易见，所有附图都形成该说明书的一部分，其中同样的附图标记在各图中表示相对应的部分。然而，所要清楚理解的是，附图仅是用于图示和描述的目的而并非意在作为本发明的界限的界定。如说明书和权利要求中所使用的，除非上下文明确另外指出，否则单数形式“一个”（“a”、“an”和“the”）包括多个指示对象。

附图说明

图1示出了用于处理声音信号的系统。

图2示出了声音信号的频谱。

图3示出了频率-调频域中经变换声音信号的图形。

图4示出了频率-调频域中经变换声音信号的图形。

图5示出了处理声音信号的方法。

具体实施方式

图1示出了用于处理声音信号的系统10。系统10所执行的处理可以包括确定声音信号中所表示的一个或多个声音参数，识别已经由共同来源所生成的声音信号中所表示的声音，和/或执行其他处理。系统10相较于常规声音处理系统可以具有有所改进的准确度和/或精确性，系统10可以提供有关无法从常规声音处理系统获得的声音信号中所表示的声音的深入理解（insight），和/或可以提供其他改进。在一些实施方式中，系统10可以包括一个或多个处理器12、电子存储14、用户接口16和/或其他组件。

处理器12可以用于执行一个或多个计算机程序模块。该计算机程序模块可以包括信号模块18、时间窗口模块20、变换模块22、声音模块24、声音参数模块26、分类模块28和/或其他模块中的一个或多个。

信号模块18可以用于获取声音信号以便进行处理。信号模块18可以用于从电子存储14、用户接口16（例如，麦克风、换能器和/或其他用户接口组件）、外部来源和/或其他来源获取声音信号。声音信号可以包括电子模拟和/或数字信号，其表示由来源所生成的声音和/或噪声。如这里所使用的，“来源（source）”可以是指进行操作而产生声音的对象或对象集合。例如，诸如吉它之类的弦乐器可以被认为是个体来源，即使其自身可以包括多个进行协同操作而生成声音的多个对象（例如，多个弦、主体和/或其他对象）。类似地，一组歌手可以在音乐会中生成声音而产生单一的谐音。

信号模块18可以配置使得所获取的声音信号可以将信号强度指定为时间的函数。个体声音信号可以具有以其表示信号强度的采样速率。该采样速率可以对应于采样周期。声音信号的谱密度例如可以以声谱图进行表示。通过图示，图2在时间-频率域中描绘了声谱图30。在声谱图30中，与信号强度相关的系数（例如，振幅、能量和/或其他系数）可以是上域（co-domain）并且可以被表示为颜色（例如，颜色越浅则振幅越大）。

在声音信号中，可归因于单个声音和/或来源的贡献可以以谐波（例如，规律间隙）的间隔进行排列。针对声音信号的这些间隙的贡献可以被称作“谐波”或“泛音”。例如，声谱图30包括与第一声音和/或来源相关联的第一泛音集合（在图2中被标记为泛音32）以及与第二声音和/或来源相关联的第二泛音集合（在图2中被标记为泛音34）。第一声音和第二声音可以由共同来源或单独来源所生成。对应于一个时间点处的声音的给定泛音集合之间的间隙可以被称作该时间点处的声音的“音高”。

返回参考图1，时间窗口模块20可以用于将声音信号划分为信号部分。该信号部分可以与个体时间窗口相关联。该时间窗口可以跨时间是连续的，可以重叠，可以分开，和/或可以以其他方式在时间上进行排列。个体时间窗口可以对应于大于被划分为信号部分的声音信号的采样周期的时间周期。这样，与时间窗口相关联的信号部分可以包括多个信号样本。

时间窗口模块20所执行的处理的参数可以包括峰值窗口函数的类型（例如，高斯）、该函数的宽度（对于高斯而言是标准偏差）、窗口的总宽度（对于高斯而言通常为6个标准偏差的总和）、时间窗口的排列（例如，连续、重叠、分开和/或其他排列）和/或其他参数。这些参数中的一个或多个可以基于用户选择、预设设置、所处理的声音信号和/或其他因素进行设置。作为非限制性的示例，时间窗口可以对应于处于约5毫秒和约500毫秒之间、约5毫秒和约30毫秒之间、约5毫秒和约15毫秒之间，和/或处于其他范围之中的时间周期。由于系统10应用于声音信号的处理考虑到了声音信号在信号部分之中的动态属性，所以时间窗口可以对应于比常规声音处理系统中更大的时间量。例如，时间窗口可以对应于大约15毫秒的时间量。在一些实施方式中，时间窗口可以对应于约10毫秒。

调频斜率变量可以是从调频斜率所得出的量度（例如，或者是频率变化的速率）。例如，在一些实施方式中，调频斜率变量可以是分数调频斜率。该分数调频斜率可以表示为：

(1) χ=X/ω

其中χ表示分数调频斜率，X表示调频斜率，而ω表示频率。

变换模块22所执行的处理可以使得音频具有多维度表示形式。该表示形式或“空间”可以具有频率和（分数）调频斜率所给出的域。该表示形式可以具有由变换系数所给出的上域（输出）。这样，在变换模块22执行变换时，经变换的信号部分可以针对于经变换的信号部分相关联的时间窗口而将变换系数指定为频率和分数调频斜率的函数。针对与经变换的信号部分相关联的时间窗口内的具体频率和分数调频斜率，具体的频率和分数调频斜率对的变换系数可以表示直接由变换所产生的复数、该复数的模数或者该模数的平方。

通过图示，图3示出了经变换的信号部分的频率-调频域中的调频空间36。在图3中，变换系数由颜色表示，量级较大的变换系数被描绘为比较低变换系数更浅。频率可以沿调频空间36的水平轴线表示，而分数调频斜率则可以沿调频空间36的垂直轴线进行表示。

返回参考图1，变换模块22可以用于通过向个体信号部分应用滤波器集合来对信号部分进行变换。该滤波器集合中的个体滤波器可以对应于不同频率和调频斜率变量对。作为非限制性示例，适当滤波器（ψ）的集合可以表示为：

(2) - - - ψ_{f, c} (t) = \frac{1}{\sqrt{2 π σ^{2}}} \exp [- \frac{1}{2} {(\frac{t - t_{0}}{σ})}^{2} + f (t - t_{0}) i + \frac{c}{2} {(t - t_{0})}^{2} i]

其中i是虚数，t表示时间，f表示滤波器的中心频率，c表示滤波器的调频斜率，而σ则表示该滤波器的时间窗口的标准偏差（例如，宽度）。

变换模块22所应用的滤波器可以是复指数。这会导致滤波器所产生的变换系数包括实数和虚数分量。如这里所使用的，“变换系数”可以是指包括实数和虚数分量的复数、复数的模数、复数的模数的平方和/或复数和/或其分量的其他表示形式。例如，可以通过取信号部分的时间数据和复滤波器的内积来实现向信号部分应用滤波器。诸如中心频率和调频斜率之类的滤波器参数可以基于用户选择、预设设置、所处理的声音信号和/或其他因素进行设置。

声音模块24可以用于识别声音部分内的个体声音（例如，谐音）的贡献。声音模块24可以基于信号部分的频率-调频域变换的分析来进行这样的识别。

当给定声音改变音高时，给定声音的谐波的频率（或调频斜率）的变化可以被表征为音高变化的速率和谐波的当前频率的函数。针对第n谐波，这可以被表征为：

(3) Δφ=ω₁(X_n/ω_n)

其中Δφ表示音高（φ）变化的速率或声音的“音高速度”，X_n表示第n谐波的调频斜率，ω_n表示第n谐波的频率，ω₁表示第一谐波的频率（例如，基音）。通过引用等式（1）和（2），可以看出声音的音高变化的速率和声音的第n谐波的（多个）分数调频速率紧密相关，并且等式（2）可以重写为：

(4) Δφ=ω₁·χ_n

由于音高的变化速率是针对声音而连同其所有潜在谐波（假设谐音/来源）保持为整体的声音范围的参数，所以能够从等式（3）推导出分数调频斜率针对声音的所有谐波都是相同的。声音模块24可以用于利用这一现象来识别个体声音在经变换的信号部分中的贡献。例如，声音模块24可以用于识别经变换的信号部分内的个体声音的共用分数调频斜率。

通过图示，返回参考图3，跨个体谐音的谐波的共用分数调频斜率可以意味着该声音的谐波贡献可以沿与该个体声音的共用分数调频斜率相对应的单一水平行进行排列。该行可以被称作“最佳调频行”（例如，参见图3中的最佳调频行38）。如果信号部分中出现的噪声是松散的（与时间无关），则该信号部分中出现的大部分（如果实质上不是全部）噪声可以被假设具有信号部分中所表示的声音的共用分数调频斜率所不同的分数调频斜率。这样，与未被变换至频率-调频域中的信号部分相比，经变换的信号部分（诸如被图示为调频空间36的信号部分）中的共用分数调频斜率的识别受到由于噪声的失真的影响会更小。

类似地，单个信号部分中出现的多个声音可以在频率-调频域中进行区分，这是因为它们可能会具有不同的分数调频斜率。通过非限制性示例，图4示出了频率-调频域中的调频空间40。调频空间40可以包括对应于第一声音的第一最佳调频行42，以及对应于第二声音的第二最佳调频行44。如能够在图4中看到的，第一声音和第二声音中的每一个可以具有相似的音高。因此，常规的声音处理技术可能难以在这两个不同声音之间进行区分。然而，利用沿分数调频斜率的划分，调频空间40将第一和第二声音中的每一个单独进行表示，并且促成了这两个单独声音的识别。

返回参考图1，声音模块24可以用于通过各种技术中的一种或多种来识别个体声音在经变换的声音部分中的贡献。例如，声音模块24可以沿个体分数调频速率对变换系数进行求和并且将这些和中的一个或多个最大值识别为与个体声音相对应的最佳调频行。作为另一个示例，声音模块24可以用于针对谐波贡献的存在（例如，变换系数中规律间隙的最大值）而对个体分数调频斜率进行分析。在一些实施方式中，声音模块24可以用于执行于2011年8月8日提交的题为“用于在音频信号中追踪声音音高的系统及方法（System and Method for Tracking Sound Pitch Across AnAudio Signal）”的美国专利申请号13/205,483和于2011年8月8日提交的题为“采用谐波包络的用于在音频信号中追踪声音音高的系统及方法（System and Method for Tracking Sound Pitch Across An Audio SignalUsing Harmonic Envelope）”的美国专利申请号13/205,521之一或二者中所描述的分析，上述申请因此通过引用全文结合于此。

声音参数模块26可以用于确定经变换的声音部分中所表示的声音的一个或多个参数。这些一个或多个参数例如可以包括音高、包络、音高速度和/或其他参数。通过非限制性示例，声音参数模块26可以通过以与常规声音系统对已变换至频域的声音信号进行分析基本相同的方式（例如，使用快速傅里叶变换（FFT）或短时傅里叶变换（STFT））沿最佳调频行相对于频率信息分析变换系数来确定音高和/或包络。变换系数相对于频率信息的分析至少可以提供有所提升的准确度和/或精确性，原因在于经变换的信号部分中所出现的具有与最佳调频行的共用调频斜率不同的调频斜率的噪声可能并不存在。用于从声音信号确定音高和/或包络的技术可以包括频域中的倒谱分析和调和乘积谱，以及时域中的过零率、自动相关和相位循环分析中的一种或多种，和/或其他技术。

分类模块28可以用于根据共用声音来源而对经变换的信号部分中所表示的声音进行分组。该分组可以通过对经变换的信号部分的变换系数进行分析来实现。例如，分类模块28可以基于声音参数模块26确定的声音参数，沿最佳调频行相对于频率信息分析变换系数（例如，包括沿最佳调频行创建变换系数最大值的矢量）和/或通过其他分析而对声音进行分组。分类模块28所执行的分析可以与常规声音处理系统对已变换至频域的声音信号所执行的分析相似或相同。用于分析频域声音信号的这些技术中的一些例如可以包括高斯混合模型、支撑矢量机、巴氏（Bhattacharyya）距离和/或其他技术。

处理器12可以用于在系统10中提供信息处理能力。这样，处理器12可以包括数字处理器、模拟处理器、设计用于处理信息的数字电路、设计用于处理信息的模拟电路、状态机和/或用于对信息进行电子处理的其他机制中的一个或多个。虽然处理器12在图1中被示为单个实体，但是这仅是出于说明的目的。在一些实施方式中，处理器12可以包括多个处理单元。这些处理单元在物理上位于相同设备之内，或者处理器12可以表示协同进行操作的多个设备的处理功能。

处理器12可以用于通过软件、硬件、固件；软件、硬件和/或固件的一些组合形式；和/或用于配置处理器12上的处理能力的其他机制来执行模块18、20、22、24、26和/或28。应当意识到的是，虽然模块18、20、22、24、26和28在图1中被示为同处于单个处理单元之内，但是在处理器38包括多个处理单元的实施方式中，模块18、20、22、24、26和/或28中的一个或多个可以与其他模块相距较远。以下所描述的不同模块18、20、22、24、26和/或28所提供的功能是出于说明的目的，而并非意在作为限制，因为任意的模块18、20、22、24、26和/或28与所描述的相比可以提供更多或更少的功能。例如，模块18、20、22、24、26和/或28中的一个或多个可以被省略，并且其功能的部分或全部可以由模块18、20、22、24、26和/或28中的其他模块所提供。作为另一个示例，处理器12可以用于执行可以实施以下归属于模块18、20、22、24、26和/或28之一的部分或全部功能的一个或多个附加模块。

在一个实施例中，电子存储14包括非瞬时电子存储媒体。电子存储的电子存储媒体可以包括与系统10整体提供的（即，实质上不可移动的）系统存储和/或例如经由端口（例如，USB端口、火线端口等）或驱动器（例如，磁盘驱动器）可移动地连接至系统10的可移动存储之一或其二者。电子存储14可以包括光学可读存储媒体（例如，光盘等）、磁性可读存储介质（例如，磁带、磁性硬盘、软盘等）、基于电荷的存储媒体（例如，EEPROM、RAM等）、固态存储媒体（例如，闪存等）和/或其他电子可读存储媒体。电子存储14可以包括虚拟存储资源，诸如经由云和/或虚拟私有网络所提供的存储资源。电子存储14可以存储软件算法、计算机程序模块、处理器12所确定的信息、经由用户接口16所接收的信息和/或使得系统10能够正常工作的其他信息。电子存储14可以为系统10内的单独组件，或者电子存储14可以与系统10的一个或多个其他组件（例如，处理器12）整体提供。

用户接口16可以用于在系统10和一个或多个用户之间提供用于向系统10提供信息并且从其接收信息的接口。该信息可以包括数据、结果和/或指令以及任意其他的可通信事项或信息。例如，该信息可以包括变换模块22、声音模块24和/或声音参数模块26所生成的分析、结果和/或其他信息。适于包括在用户接口16中的接口设备的示例包括小键盘、按钮、开关、键盘、旋钮、水平仪、显示屏、触摸屏、扬声器、麦克风、指示灯、可听警报和打印机。

所要理解的是，硬线或无线的其他通信技术也被本发明预期作为用户接口16。例如，本发明预见到，用户接口16可以与电子存储14所提供的可移动存储接口进行整合。在该示例中，信息可以从可移动存储（例如，智能卡、闪存、可移动磁盘等）加载到系统10中而使得（多个）用户能够定制系统10的实施方式。适于随系统10作为用户接口16使用的其他示例性输入设备和技术包括RS-232接口、RF链路、IR链路、调制解调器（电话、线缆或其他），但并不局限于此。简言之，用于与系统10传输信息的任意技术都被本公开预期作为用户接口16。

图5示出了用于处理声音信号的方法50。以下所给出的方法50的操作意在是说明性的。在一些实施例中，方法50可以利用没有描述的一个或多个附加操作和/或在一个或多个没有所讨论的操作的情况下来完成。此外，图5中所示出的以及以下所描述的方法50的操作顺序并非意在作为限制。

在一些实施例中，方法50可以在一个或多个处理设备（例如，数字处理器、模拟处理器、设计用于处理信息的数字电路、设计用于处理信息的模拟电路、状态机和/或用于对信息进行电子处理的其他机制）中实施。一个或多个处理设备可以包括一个或多个响应于电子存储介质中所电子存储的指令而执行方法50的部分或全部操作的设备。一个或多个处理设备可以包括一个或多个通过硬件、固件和/或软件而用于具体设计以便执行方法50的一个或多个操作的设备。

在操作52中，可以获得声音信号。该声音信号可以从电子存储、用户接口和/或其他来源所获得。该声音信号可以包括表示由来源所生成的声音和/或噪声的电子模拟和/或数字信号。该声音信号可以将振幅指定为时间的函数。该声音信号可以具有以其对振幅/频率进行表示的采样速率。该采样速率可以对应于采样周期。在一些实施方式中，操作52可以由与（图1所示并且在这里所描述的）信号模块18相同或相似的信号模块来执行。

在操作54中，可以将该声音信号划分为信号部分的集合。该信号部分可以与个体时间窗口相关联。该时间窗口可以跨时间是连续的，可以重叠，可以分开，和/或可以以其他方式在时间上进行排列。个体时间窗口可以对应于大于被划分为信号部分的声音信号的采样周期的时间周期。这样，与时间窗口相关联的信号部分可以包括多个信号样本。在一些实施方式中，操作54可以由与（图1所示以及在这里所描述的）时间窗口模块20相同或相似的时间窗口模块来执行。

在操作56中，信号部分可以变换到频率-调频域。该频率-调频域可以由频率和（分数）调频斜率所给出。频率-调频域可以具有由变换系数所给出的上域（输出）。调频斜率变量可以是从调频斜率（例如，频率变化的速率）所得出的量度。这样，在操作56执行变换时，经变换的信号部分可以针对于经变换的信号部分相关联的时间窗口而将变换系数指定为频率和分数调频斜率的函数。在一些实施方式中，操作56可以由与（图1所示以及在这里所描述的）变换模块22相同或相似的变换模块来执行。

在操作58中，可以基于经变换的信号部分来识别信号部分内的个体声音。识别信号部分内的个体声音可以包括识别个体声音的谐波，识别个体声音的分数调频斜率（例如，个体声音的最佳调频行），和/或经变换的信号部分中的个体声音的其他表现形式。在一些实施方式中，操作58可以由与（图1所示以及在这里所描述的）声音模块24相同或相似的声音模块来执行。

在操作60中，可以确定操作58所识别的声音的一个或多个声音参数。该声音参数可以包括音高、音高速率、包络和/或其他声音参数中的一个或多个。操作60所进行的确定可以基于经变换的信号部分来进行。在一些实施方式中，操作60可以由与（图1所示以及在这里所描述的）声音参数模块26相同或相似的声音参数模块来执行。

在操作64中，可以对操作58所识别的声音进行分类。这可以包括根据共用声音来源而对经变换的信号部分中所表示的声音进行分组。该分类可以基于在操作60所确定的声音参数、经变换的声音信号和/或其他信息来执行。在一些实施方式中，操作64可以由与（图1所示以及在这里所描述的）分类模块26相同或相似的分类模块来执行。

在操作64中，可以将与操作52、56、58、60和/或64中的一个或多个相关的信息提供给一个或多个用户。这样的信息可以包括与经变换的信号部分相关的信息、针对给定分数调频斜率而相对于频率信息的变换系数、频率-调频域中经变换的信号部分的表示形式、信号部分或声音信号中所表示的声音的一个或多个声音参数、与声音分类相关的信息，和/或其他信息。这样的信息可以经由与（图1所示以及如这里所描述的）用户接口16相同或相似的用户接口提供给一个或多个用户。

虽然已经基于当前认为最为实际且优选的实施方式而出于说明的目的对本公开的（多个）系统和/或（多种）方法进行了详细描述，但是所要理解的是，这样的细节仅是出于该目的并且本公开并不局限于所公开的实施方式，而是与之相反，其意在覆盖处于所附权利要求的精神和范围之内的修改和等同配置形式。例如，所要理解的是，本公开预见到就可能的范围而言，任意实施方式的一个或多个特征可以与任意其他实施方式的一个或多个特征相结合。

Claims

1.一种用于处理声音信号的系统，该系统包括：

一个或多个处理器，其用于执行计算机程序模块，该计算机程序模块包括：

时间窗口模块，其用于将声音信号划分为与个体时间窗口相关联的信号部分，其中该时间窗口对应于比该声音信号的采样周期更大的时间周期；以及

变换模块，其用于将该信号部分变换至频率-调频域中，其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式，其中该分数调频斜率是除以频率的调频斜率。

2.根据权利要求1的系统，其中该计算机程序模块进一步包括声音参数模块，其用于基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。

3.根据权利要求2的系统，其中该声音参数模块用于在每个信号部分的基础上确定该第一参数。

4.根据权利要求2的系统，其中该声音参数模块进一步用于基于经变换的信号部分确定该声音信号中所表示的个体谐音的第二声音参数，该第二声音参数是不同于该第一声音参数的参数。

5.根据权利要求2的系统，其中该第一声音参数包括音高和/或调频斜率之一或其二者。

6.根据权利要求1的系统，其中该变换模块配置使得通过向给定信号部分应用滤波器集合而获得该给定信号部分的变换，其中该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。

7.根据权利要求1的系统，其中该变换模块配置使得变换系数包括实数分量和虚数分量。

8.根据权利要求1的系统，其中该变换模块配置使得该变换系数是实数分量和虚数分量的模数平方。

9.根据权利要求1的系统，进一步包括分类模块，其用于基于变换系数对单独来源所生成的声音进行识别。

10.一种用于处理声音信号的方法，该方法包括：

将声音信号划分为与个体时间窗口相关联的信号部分，其中该时间窗口对应于比该声音信号的采样周期更大的时间周期；以及

将该信号部分变换至频率-调频域中，其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式，其中该分数调频斜率是除以频率的调频斜率。

11.根据权利要求10的方法，进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。

12.根据权利要求11的方法，其中确定该第一参数包括在每个信号部分的基础上确定该第一参数。

13.根据权利要求11的方法，进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第二声音参数，该第二声音参数是不同于该第一声音参数的参数。

14.根据权利要求11的方法，其中该第一声音参数包括音高和/或调频斜率之一或其二者。

15.根据权利要求10的方法，其中对给定信号部分进行变换包括向给定信号部分应用滤波器集合，其中该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。

16.根据权利要求10的方法，其中变换系数包括实数分量和虚数分量。

17.根据权利要求10的方法，其中变换系数是实数分量和虚数分量的模数平方。

18.根据权利要求10的方法，进一步包括基于变换系数对单独来源所生成的声音进行识别。

19.一种非瞬时的机器可读电子存储媒体，其存储处理器可执行指令，该指令用于执行一种处理声音信号的方法，该方法包括：

将信号部分变换至频率-调频域中，其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式，其中该分数调频斜率是除以频率的调频斜率。

20.根据权利要求19的电子存储媒体，其中该方法进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。