[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN103718242A - 采用谱运动变换的用于处理声音信号的系统和方法 - Google Patents

采用谱运动变换的用于处理声音信号的系统和方法 Download PDF

Info

Publication number
CN103718242A
CN103718242A CN201280025281.5A CN201280025281A CN103718242A CN 103718242 A CN103718242 A CN 103718242A CN 201280025281 A CN201280025281 A CN 201280025281A CN 103718242 A CN103718242 A CN 103718242A
Authority
CN
China
Prior art keywords
signal
frequency
conversion
signal section
chirp rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280025281.5A
Other languages
English (en)
Other versions
CN103718242B (zh
Inventor
大卫·C·布拉德利
丹尼尔·S·戈尔丁
罗伯特·N·希尔顿
尼古拉斯·K·费希尔
罗德尼·高登
德里克·R·鲁斯
埃里克·维埃维奥拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crossbow Ltd By Share Ltd
Original Assignee
Ying Telisiyisi Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ying Telisiyisi Co filed Critical Ying Telisiyisi Co
Publication of CN103718242A publication Critical patent/CN103718242A/zh
Application granted granted Critical
Publication of CN103718242B publication Critical patent/CN103718242B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Auxiliary Devices For Music (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

提供了一种用于处理声音信号的系统和方法。该处理可以包括识别声音信号中所表示的个体谐音、确定谐音的声音参数、根据来源对谐音进行分类,和/或其他处理。该处理可以包括将声音信号(或其部分)变换至将变换系数表达为频率和调频斜率的函数的空间。这可以对单个谐音的个体谐波可以跨其所有谐波具有同样的音高速度(其与调频斜率相关)的事实加以利用以便将谐音从其他声音(谐波和/或非谐波)和/或噪声中辨别出来。

Description

采用谱运动变换的用于处理声音信号的系统和方法
相关申请
本申请要求于2011年8月8日提交的题为“采用谱运动变换的用于处理声音信号的系统和方法”的美国专利申请号13/205,424的优先权,上述申请要求于2011年3月25日提交的题为“谱运动变换”的美国临时专利申请号61/467,493的优先权,上述两份申请通过引用全文结合于此。
技术领域
本发明涉及通过利用与个体谐音相关联的谐波的调频斜率的坐标而对声音信号进行处理以识别、确定谐音的声音参数和/或对其进行分类。
背景技术
对音频信号进行处理以辨别在音频信号中所表示的谐音和噪声,确定音频信号中所表示的谐音的声音参数,通过根据来源对谐音分组而对音频信号中所表示的谐音进行分类,和/或执行其他类型的音频处理的系统是已知的。这样的系统例如可以在通过扬声器检测、识别和/或分类由谐音所组成的人声话音时使用。用于确定谐音的声音参数和/或对谐音进行分类的常规技术可能在存在相对低量的噪声(例如,出现在录制音频信号中的音频噪声、信号噪声和/或其他噪声)的情况下快速衰退。
通常,常规声音处理涉及针对个体时间窗口而将音频信号从时域变换至频域。随后可以在频域中对信号执行各种类型的信号处理技术和算法以尝试在能够执行进一步处理之前将信号中所表示的声音和噪声区分开来。随后可以对该经处理的信号进行分析以确定诸如音高、包络之类的声音参数和/或其他声音参数。信号中所表示的声音可以进行分类。
常规的用于区分谐音和噪声(无论是信号中所表示的声波噪声还是信号噪声)的尝试可以相当于尝试对信号进行“清理”以区分谐音和背景噪声。不幸的是,这些常规技术经常会导致与信号中所表示的谐音相关的信息损失以及噪声。该信息损失会影响到例如用于确定谐音的(多个)声音参数、对谐音进行分类的下游处理和/或其他下游处理的准确性和/或精确度。
发明内容
本公开的一个方面涉及一种用于处理声音信号的系统和方法。该处理可以包括识别声音信号中所表示的个体谐音,确定谐音的声音参数,根据来源对谐音进行分类,和/或其他处理。该处理可以包括将声音信号(或其部分)从时域变换至频率-调频域。这可以对单个谐音的个体谐波可能跨其所有谐波具有相同的音高速度(其与调频斜率相关)的事实加以利用以便将谐音从其他声音(谐波和/或非谐波)和/或噪声中辨别出来。
需意识到的是,这里对“声音信号”和“声音”(或“谐音”)的描述并非意在作为限制。本公开的范围包括对表示被表现为超声波、声波和/或亚声波频谱的任意范围之中的谐波分量的任意现象的信号进行处理。类似地,本公开的范围包括对表示被表现为谐波电磁波分量的任意现象的信号进行处理。这里对“声音信号”和“声音”(或“谐音”)的描述仅是一种或多种示例性实施方式的一部分。
用于处理声音信号的系统可以包括一个或多个处理器。该处理器可以用于执行包括信号模块、时间窗口模块、变换模块、声音模块、声音参数模块、分类模块和/或其他模块中的一个或多个的计算机程序模块。
时间窗口模块可以用于将声音信号划分为多个信号部分。信号部分可以与个体时间窗口相关联。时间窗口可以对应于大于声音信号的采样周期的时间周期。时间窗口的一个或多个参数(例如,时间窗口函数的类型(例如,高斯、汉明)、该函数的宽度参数、时间窗口的总长度、时间窗口的时间周期、时间窗口的排列和/或其他参数)可以基于用户选择、预设设置、所处理的声音信号和/或其他因素而进行设置。
变换模块可以用于将信号部分变换至频率-调频域。变换模块可以配置使得该变换针对信号部分而将变换系数指定为频率和分数调频斜率的函数。分数调频斜率可以是除以频率的调频斜率。用于具体频率和分数调频斜率对的给定变换信号部分的变换系数可以表示用于与该给定变换信号部分相关联的时间窗口内的具体频率和分数调频斜率的复变换系数、复系数的模数或者该模数的平方。
变换模块可以配置使得可以通过对给定信号部分应用滤波器集合而获得给定信号部分的变换。该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。该滤波器可以是复指数函数。这会导致由包括实数和虚数分量的滤波器所直接产生的复系数。如这里所使用的,“变换系数”可以是指一个这样的复系数、该复系数的模数、复系数的模数的平方,和/或实数和/或复数和/或其分量的其他表示形式。
该声音模块可以用于识别信号部分中所表示的个体谐音。这可以包括识别出经变换信号部分中的这些谐音的谐波贡献。由于谐音的音高随时间有所变化,所以个体谐音可以具有音高速度。该音高速度对于每个谐波而言可以是全局的,并且可以被表示为第一谐波和任意谐波的分数调频斜率的乘积。这样,处于任意给定时间点处(例如在经变换信号部分的时间窗口上)的分数调频斜率针对谐音的所有谐波可以是相同的。这在频率-调频域中变得明显,因为个体谐音的谐波贡献可以被表现为以周期方式沿共用分数调频斜率的行进行排列的变换系数中的最大值。
如果经变换信号部分中的噪声是松散的(与时间无关),则该信号部分中出现的大部分(如果实质上不是全部)噪声可以被假设具有与经变换信号部分中所表示的谐音的共用分数调频斜率所不同的分数调频斜率。类似地,如果经变换的信号部分中表示了多个谐音,则不同谐音可能具有不同的音高速度。这会导致这些不同谐音的谐波贡献在频率-调频域中沿不同的分数调频斜率的行进行排列。声音模块可以用于对这一现象加以利用以识别经变换的信号部分中的个体谐音的贡献。例如,该声音模块可以用于识别经变换的信号部分内的个体声音的共用分数调频斜率。
声音参数模块可以用于基于经变换的信号部分来确定声音信号中所表示的个体谐音的一个或多个声音参数。该一个或多个声音参数可以以每个信号部分为基础所确定。声音参数以每个信号部分所进行的确定可以用于随时间追踪该声音参数,和/或确定该声音参数的累加值和/或与之相关联的累加量度。一个或多个声音参数例如可以包括音高、音高速度、包络和/或其他参数。声音参数模块可以用于基于连同对应于个体谐音的分数调频斜率(例如,由声音模块所识别的)一起而相对于频率信息对变换系数所进行的分析来确定一个或多个声音参数。
分类模块可以用于根据共用声音来源对经变换的信号部分中所表示的声音进行分组。该分组可以通过对经变换的信号部分的变换系数的分析来完成。例如,该分类模块可以基于由声音参数模块所确定的声音参数,沿最佳调频行而相对于频率信息对变换系数的分析(例如,包括沿最佳调频行创建变换系数最大值的矢量)和/或其他分析而对声音进行分组。
通过参考附图而考虑以下描述和所附权利要求这里所公开的系统和/或方法的这些和其他目标、特征和特性,以及操作方法和相关结构部件的功能以及各部分和市场经济的组合将变得更为显而易见,所有附图都形成该说明书的一部分,其中同样的附图标记在各图中表示相对应的部分。然而,所要清楚理解的是,附图仅是用于图示和描述的目的而并非意在作为本发明的界限的界定。如说明书和权利要求中所使用的,除非上下文明确另外指出,否则单数形式“一个”(“a”、“an”和“the”)包括多个指示对象。
附图说明
图1示出了用于处理声音信号的系统。
图2示出了声音信号的频谱。
图3示出了频率-调频域中经变换声音信号的图形。
图4示出了频率-调频域中经变换声音信号的图形。
图5示出了处理声音信号的方法。
具体实施方式
图1示出了用于处理声音信号的系统10。系统10所执行的处理可以包括确定声音信号中所表示的一个或多个声音参数,识别已经由共同来源所生成的声音信号中所表示的声音,和/或执行其他处理。系统10相较于常规声音处理系统可以具有有所改进的准确度和/或精确性,系统10可以提供有关无法从常规声音处理系统获得的声音信号中所表示的声音的深入理解(insight),和/或可以提供其他改进。在一些实施方式中,系统10可以包括一个或多个处理器12、电子存储14、用户接口16和/或其他组件。
处理器12可以用于执行一个或多个计算机程序模块。该计算机程序模块可以包括信号模块18、时间窗口模块20、变换模块22、声音模块24、声音参数模块26、分类模块28和/或其他模块中的一个或多个。
信号模块18可以用于获取声音信号以便进行处理。信号模块18可以用于从电子存储14、用户接口16(例如,麦克风、换能器和/或其他用户接口组件)、外部来源和/或其他来源获取声音信号。声音信号可以包括电子模拟和/或数字信号,其表示由来源所生成的声音和/或噪声。如这里所使用的,“来源(source)”可以是指进行操作而产生声音的对象或对象集合。例如,诸如吉它之类的弦乐器可以被认为是个体来源,即使其自身可以包括多个进行协同操作而生成声音的多个对象(例如,多个弦、主体和/或其他对象)。类似地,一组歌手可以在音乐会中生成声音而产生单一的谐音。
信号模块18可以配置使得所获取的声音信号可以将信号强度指定为时间的函数。个体声音信号可以具有以其表示信号强度的采样速率。该采样速率可以对应于采样周期。声音信号的谱密度例如可以以声谱图进行表示。通过图示,图2在时间-频率域中描绘了声谱图30。在声谱图30中,与信号强度相关的系数(例如,振幅、能量和/或其他系数)可以是上域(co-domain)并且可以被表示为颜色(例如,颜色越浅则振幅越大)。
在声音信号中,可归因于单个声音和/或来源的贡献可以以谐波(例如,规律间隙)的间隔进行排列。针对声音信号的这些间隙的贡献可以被称作“谐波”或“泛音”。例如,声谱图30包括与第一声音和/或来源相关联的第一泛音集合(在图2中被标记为泛音32)以及与第二声音和/或来源相关联的第二泛音集合(在图2中被标记为泛音34)。第一声音和第二声音可以由共同来源或单独来源所生成。对应于一个时间点处的声音的给定泛音集合之间的间隙可以被称作该时间点处的声音的“音高”。
返回参考图1,时间窗口模块20可以用于将声音信号划分为信号部分。该信号部分可以与个体时间窗口相关联。该时间窗口可以跨时间是连续的,可以重叠,可以分开,和/或可以以其他方式在时间上进行排列。个体时间窗口可以对应于大于被划分为信号部分的声音信号的采样周期的时间周期。这样,与时间窗口相关联的信号部分可以包括多个信号样本。
时间窗口模块20所执行的处理的参数可以包括峰值窗口函数的类型(例如,高斯)、该函数的宽度(对于高斯而言是标准偏差)、窗口的总宽度(对于高斯而言通常为6个标准偏差的总和)、时间窗口的排列(例如,连续、重叠、分开和/或其他排列)和/或其他参数。这些参数中的一个或多个可以基于用户选择、预设设置、所处理的声音信号和/或其他因素进行设置。作为非限制性的示例,时间窗口可以对应于处于约5毫秒和约500毫秒之间、约5毫秒和约30毫秒之间、约5毫秒和约15毫秒之间,和/或处于其他范围之中的时间周期。由于系统10应用于声音信号的处理考虑到了声音信号在信号部分之中的动态属性,所以时间窗口可以对应于比常规声音处理系统中更大的时间量。例如,时间窗口可以对应于大约15毫秒的时间量。在一些实施方式中,时间窗口可以对应于约10毫秒。
调频斜率变量可以是从调频斜率所得出的量度(例如,或者是频率变化的速率)。例如,在一些实施方式中,调频斜率变量可以是分数调频斜率。该分数调频斜率可以表示为:
(1)    χ=X/ω
其中χ表示分数调频斜率,X表示调频斜率,而ω表示频率。
变换模块22所执行的处理可以使得音频具有多维度表示形式。该表示形式或“空间”可以具有频率和(分数)调频斜率所给出的域。该表示形式可以具有由变换系数所给出的上域(输出)。这样,在变换模块22执行变换时,经变换的信号部分可以针对于经变换的信号部分相关联的时间窗口而将变换系数指定为频率和分数调频斜率的函数。针对与经变换的信号部分相关联的时间窗口内的具体频率和分数调频斜率,具体的频率和分数调频斜率对的变换系数可以表示直接由变换所产生的复数、该复数的模数或者该模数的平方。
通过图示,图3示出了经变换的信号部分的频率-调频域中的调频空间36。在图3中,变换系数由颜色表示,量级较大的变换系数被描绘为比较低变换系数更浅。频率可以沿调频空间36的水平轴线表示,而分数调频斜率则可以沿调频空间36的垂直轴线进行表示。
返回参考图1,变换模块22可以用于通过向个体信号部分应用滤波器集合来对信号部分进行变换。该滤波器集合中的个体滤波器可以对应于不同频率和调频斜率变量对。作为非限制性示例,适当滤波器(ψ)的集合可以表示为:
( 2 ) - - - ψ f , c ( t ) = 1 2 π σ 2 exp [ - 1 2 ( t - t 0 σ ) 2 + f ( t - t 0 ) i + c 2 ( t - t 0 ) 2 i ]
其中i是虚数,t表示时间,f表示滤波器的中心频率,c表示滤波器的调频斜率,而σ则表示该滤波器的时间窗口的标准偏差(例如,宽度)。
变换模块22所应用的滤波器可以是复指数。这会导致滤波器所产生的变换系数包括实数和虚数分量。如这里所使用的,“变换系数”可以是指包括实数和虚数分量的复数、复数的模数、复数的模数的平方和/或复数和/或其分量的其他表示形式。例如,可以通过取信号部分的时间数据和复滤波器的内积来实现向信号部分应用滤波器。诸如中心频率和调频斜率之类的滤波器参数可以基于用户选择、预设设置、所处理的声音信号和/或其他因素进行设置。
声音模块24可以用于识别声音部分内的个体声音(例如,谐音)的贡献。声音模块24可以基于信号部分的频率-调频域变换的分析来进行这样的识别。
当给定声音改变音高时,给定声音的谐波的频率(或调频斜率)的变化可以被表征为音高变化的速率和谐波的当前频率的函数。针对第n谐波,这可以被表征为:
(3)    Δφ=ω1(Xnn)
其中Δφ表示音高(φ)变化的速率或声音的“音高速度”,Xn表示第n谐波的调频斜率,ωn表示第n谐波的频率,ω1表示第一谐波的频率(例如,基音)。通过引用等式(1)和(2),可以看出声音的音高变化的速率和声音的第n谐波的(多个)分数调频速率紧密相关,并且等式(2)可以重写为:
(4)    Δφ=ω1·χn
由于音高的变化速率是针对声音而连同其所有潜在谐波(假设谐音/来源)保持为整体的声音范围的参数,所以能够从等式(3)推导出分数调频斜率针对声音的所有谐波都是相同的。声音模块24可以用于利用这一现象来识别个体声音在经变换的信号部分中的贡献。例如,声音模块24可以用于识别经变换的信号部分内的个体声音的共用分数调频斜率。
通过图示,返回参考图3,跨个体谐音的谐波的共用分数调频斜率可以意味着该声音的谐波贡献可以沿与该个体声音的共用分数调频斜率相对应的单一水平行进行排列。该行可以被称作“最佳调频行”(例如,参见图3中的最佳调频行38)。如果信号部分中出现的噪声是松散的(与时间无关),则该信号部分中出现的大部分(如果实质上不是全部)噪声可以被假设具有信号部分中所表示的声音的共用分数调频斜率所不同的分数调频斜率。这样,与未被变换至频率-调频域中的信号部分相比,经变换的信号部分(诸如被图示为调频空间36的信号部分)中的共用分数调频斜率的识别受到由于噪声的失真的影响会更小。
类似地,单个信号部分中出现的多个声音可以在频率-调频域中进行区分,这是因为它们可能会具有不同的分数调频斜率。通过非限制性示例,图4示出了频率-调频域中的调频空间40。调频空间40可以包括对应于第一声音的第一最佳调频行42,以及对应于第二声音的第二最佳调频行44。如能够在图4中看到的,第一声音和第二声音中的每一个可以具有相似的音高。因此,常规的声音处理技术可能难以在这两个不同声音之间进行区分。然而,利用沿分数调频斜率的划分,调频空间40将第一和第二声音中的每一个单独进行表示,并且促成了这两个单独声音的识别。
返回参考图1,声音模块24可以用于通过各种技术中的一种或多种来识别个体声音在经变换的声音部分中的贡献。例如,声音模块24可以沿个体分数调频速率对变换系数进行求和并且将这些和中的一个或多个最大值识别为与个体声音相对应的最佳调频行。作为另一个示例,声音模块24可以用于针对谐波贡献的存在(例如,变换系数中规律间隙的最大值)而对个体分数调频斜率进行分析。在一些实施方式中,声音模块24可以用于执行于2011年8月8日提交的题为“用于在音频信号中追踪声音音高的系统及方法(System and Method for Tracking Sound Pitch Across AnAudio Signal)”的美国专利申请号13/205,483和于2011年8月8日提交的题为“采用谐波包络的用于在音频信号中追踪声音音高的系统及方法(System and Method for Tracking Sound Pitch Across An Audio SignalUsing Harmonic Envelope)”的美国专利申请号13/205,521之一或二者中所描述的分析,上述申请因此通过引用全文结合于此。
声音参数模块26可以用于确定经变换的声音部分中所表示的声音的一个或多个参数。这些一个或多个参数例如可以包括音高、包络、音高速度和/或其他参数。通过非限制性示例,声音参数模块26可以通过以与常规声音系统对已变换至频域的声音信号进行分析基本相同的方式(例如,使用快速傅里叶变换(FFT)或短时傅里叶变换(STFT))沿最佳调频行相对于频率信息分析变换系数来确定音高和/或包络。变换系数相对于频率信息的分析至少可以提供有所提升的准确度和/或精确性,原因在于经变换的信号部分中所出现的具有与最佳调频行的共用调频斜率不同的调频斜率的噪声可能并不存在。用于从声音信号确定音高和/或包络的技术可以包括频域中的倒谱分析和调和乘积谱,以及时域中的过零率、自动相关和相位循环分析中的一种或多种,和/或其他技术。
分类模块28可以用于根据共用声音来源而对经变换的信号部分中所表示的声音进行分组。该分组可以通过对经变换的信号部分的变换系数进行分析来实现。例如,分类模块28可以基于声音参数模块26确定的声音参数,沿最佳调频行相对于频率信息分析变换系数(例如,包括沿最佳调频行创建变换系数最大值的矢量)和/或通过其他分析而对声音进行分组。分类模块28所执行的分析可以与常规声音处理系统对已变换至频域的声音信号所执行的分析相似或相同。用于分析频域声音信号的这些技术中的一些例如可以包括高斯混合模型、支撑矢量机、巴氏(Bhattacharyya)距离和/或其他技术。
处理器12可以用于在系统10中提供信息处理能力。这样,处理器12可以包括数字处理器、模拟处理器、设计用于处理信息的数字电路、设计用于处理信息的模拟电路、状态机和/或用于对信息进行电子处理的其他机制中的一个或多个。虽然处理器12在图1中被示为单个实体,但是这仅是出于说明的目的。在一些实施方式中,处理器12可以包括多个处理单元。这些处理单元在物理上位于相同设备之内,或者处理器12可以表示协同进行操作的多个设备的处理功能。
处理器12可以用于通过软件、硬件、固件;软件、硬件和/或固件的一些组合形式;和/或用于配置处理器12上的处理能力的其他机制来执行模块18、20、22、24、26和/或28。应当意识到的是,虽然模块18、20、22、24、26和28在图1中被示为同处于单个处理单元之内,但是在处理器38包括多个处理单元的实施方式中,模块18、20、22、24、26和/或28中的一个或多个可以与其他模块相距较远。以下所描述的不同模块18、20、22、24、26和/或28所提供的功能是出于说明的目的,而并非意在作为限制,因为任意的模块18、20、22、24、26和/或28与所描述的相比可以提供更多或更少的功能。例如,模块18、20、22、24、26和/或28中的一个或多个可以被省略,并且其功能的部分或全部可以由模块18、20、22、24、26和/或28中的其他模块所提供。作为另一个示例,处理器12可以用于执行可以实施以下归属于模块18、20、22、24、26和/或28之一的部分或全部功能的一个或多个附加模块。
在一个实施例中,电子存储14包括非瞬时电子存储媒体。电子存储的电子存储媒体可以包括与系统10整体提供的(即,实质上不可移动的)系统存储和/或例如经由端口(例如,USB端口、火线端口等)或驱动器(例如,磁盘驱动器)可移动地连接至系统10的可移动存储之一或其二者。电子存储14可以包括光学可读存储媒体(例如,光盘等)、磁性可读存储介质(例如,磁带、磁性硬盘、软盘等)、基于电荷的存储媒体(例如,EEPROM、RAM等)、固态存储媒体(例如,闪存等)和/或其他电子可读存储媒体。电子存储14可以包括虚拟存储资源,诸如经由云和/或虚拟私有网络所提供的存储资源。电子存储14可以存储软件算法、计算机程序模块、处理器12所确定的信息、经由用户接口16所接收的信息和/或使得系统10能够正常工作的其他信息。电子存储14可以为系统10内的单独组件,或者电子存储14可以与系统10的一个或多个其他组件(例如,处理器12)整体提供。
用户接口16可以用于在系统10和一个或多个用户之间提供用于向系统10提供信息并且从其接收信息的接口。该信息可以包括数据、结果和/或指令以及任意其他的可通信事项或信息。例如,该信息可以包括变换模块22、声音模块24和/或声音参数模块26所生成的分析、结果和/或其他信息。适于包括在用户接口16中的接口设备的示例包括小键盘、按钮、开关、键盘、旋钮、水平仪、显示屏、触摸屏、扬声器、麦克风、指示灯、可听警报和打印机。
所要理解的是,硬线或无线的其他通信技术也被本发明预期作为用户接口16。例如,本发明预见到,用户接口16可以与电子存储14所提供的可移动存储接口进行整合。在该示例中,信息可以从可移动存储(例如,智能卡、闪存、可移动磁盘等)加载到系统10中而使得(多个)用户能够定制系统10的实施方式。适于随系统10作为用户接口16使用的其他示例性输入设备和技术包括RS-232接口、RF链路、IR链路、调制解调器(电话、线缆或其他),但并不局限于此。简言之,用于与系统10传输信息的任意技术都被本公开预期作为用户接口16。
图5示出了用于处理声音信号的方法50。以下所给出的方法50的操作意在是说明性的。在一些实施例中,方法50可以利用没有描述的一个或多个附加操作和/或在一个或多个没有所讨论的操作的情况下来完成。此外,图5中所示出的以及以下所描述的方法50的操作顺序并非意在作为限制。
在一些实施例中,方法50可以在一个或多个处理设备(例如,数字处理器、模拟处理器、设计用于处理信息的数字电路、设计用于处理信息的模拟电路、状态机和/或用于对信息进行电子处理的其他机制)中实施。一个或多个处理设备可以包括一个或多个响应于电子存储介质中所电子存储的指令而执行方法50的部分或全部操作的设备。一个或多个处理设备可以包括一个或多个通过硬件、固件和/或软件而用于具体设计以便执行方法50的一个或多个操作的设备。
在操作52中,可以获得声音信号。该声音信号可以从电子存储、用户接口和/或其他来源所获得。该声音信号可以包括表示由来源所生成的声音和/或噪声的电子模拟和/或数字信号。该声音信号可以将振幅指定为时间的函数。该声音信号可以具有以其对振幅/频率进行表示的采样速率。该采样速率可以对应于采样周期。在一些实施方式中,操作52可以由与(图1所示并且在这里所描述的)信号模块18相同或相似的信号模块来执行。
在操作54中,可以将该声音信号划分为信号部分的集合。该信号部分可以与个体时间窗口相关联。该时间窗口可以跨时间是连续的,可以重叠,可以分开,和/或可以以其他方式在时间上进行排列。个体时间窗口可以对应于大于被划分为信号部分的声音信号的采样周期的时间周期。这样,与时间窗口相关联的信号部分可以包括多个信号样本。在一些实施方式中,操作54可以由与(图1所示以及在这里所描述的)时间窗口模块20相同或相似的时间窗口模块来执行。
在操作56中,信号部分可以变换到频率-调频域。该频率-调频域可以由频率和(分数)调频斜率所给出。频率-调频域可以具有由变换系数所给出的上域(输出)。调频斜率变量可以是从调频斜率(例如,频率变化的速率)所得出的量度。这样,在操作56执行变换时,经变换的信号部分可以针对于经变换的信号部分相关联的时间窗口而将变换系数指定为频率和分数调频斜率的函数。在一些实施方式中,操作56可以由与(图1所示以及在这里所描述的)变换模块22相同或相似的变换模块来执行。
在操作58中,可以基于经变换的信号部分来识别信号部分内的个体声音。识别信号部分内的个体声音可以包括识别个体声音的谐波,识别个体声音的分数调频斜率(例如,个体声音的最佳调频行),和/或经变换的信号部分中的个体声音的其他表现形式。在一些实施方式中,操作58可以由与(图1所示以及在这里所描述的)声音模块24相同或相似的声音模块来执行。
在操作60中,可以确定操作58所识别的声音的一个或多个声音参数。该声音参数可以包括音高、音高速率、包络和/或其他声音参数中的一个或多个。操作60所进行的确定可以基于经变换的信号部分来进行。在一些实施方式中,操作60可以由与(图1所示以及在这里所描述的)声音参数模块26相同或相似的声音参数模块来执行。
在操作64中,可以对操作58所识别的声音进行分类。这可以包括根据共用声音来源而对经变换的信号部分中所表示的声音进行分组。该分类可以基于在操作60所确定的声音参数、经变换的声音信号和/或其他信息来执行。在一些实施方式中,操作64可以由与(图1所示以及在这里所描述的)分类模块26相同或相似的分类模块来执行。
在操作64中,可以将与操作52、56、58、60和/或64中的一个或多个相关的信息提供给一个或多个用户。这样的信息可以包括与经变换的信号部分相关的信息、针对给定分数调频斜率而相对于频率信息的变换系数、频率-调频域中经变换的信号部分的表示形式、信号部分或声音信号中所表示的声音的一个或多个声音参数、与声音分类相关的信息,和/或其他信息。这样的信息可以经由与(图1所示以及如这里所描述的)用户接口16相同或相似的用户接口提供给一个或多个用户。
虽然已经基于当前认为最为实际且优选的实施方式而出于说明的目的对本公开的(多个)系统和/或(多种)方法进行了详细描述,但是所要理解的是,这样的细节仅是出于该目的并且本公开并不局限于所公开的实施方式,而是与之相反,其意在覆盖处于所附权利要求的精神和范围之内的修改和等同配置形式。例如,所要理解的是,本公开预见到就可能的范围而言,任意实施方式的一个或多个特征可以与任意其他实施方式的一个或多个特征相结合。

Claims (20)

1.一种用于处理声音信号的系统,该系统包括:
一个或多个处理器,其用于执行计算机程序模块,该计算机程序模块包括:
时间窗口模块,其用于将声音信号划分为与个体时间窗口相关联的信号部分,其中该时间窗口对应于比该声音信号的采样周期更大的时间周期;以及
变换模块,其用于将该信号部分变换至频率-调频域中,其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式,其中该分数调频斜率是除以频率的调频斜率。
2.根据权利要求1的系统,其中该计算机程序模块进一步包括声音参数模块,其用于基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。
3.根据权利要求2的系统,其中该声音参数模块用于在每个信号部分的基础上确定该第一参数。
4.根据权利要求2的系统,其中该声音参数模块进一步用于基于经变换的信号部分确定该声音信号中所表示的个体谐音的第二声音参数,该第二声音参数是不同于该第一声音参数的参数。
5.根据权利要求2的系统,其中该第一声音参数包括音高和/或调频斜率之一或其二者。
6.根据权利要求1的系统,其中该变换模块配置使得通过向给定信号部分应用滤波器集合而获得该给定信号部分的变换,其中该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。
7.根据权利要求1的系统,其中该变换模块配置使得变换系数包括实数分量和虚数分量。
8.根据权利要求1的系统,其中该变换模块配置使得该变换系数是实数分量和虚数分量的模数平方。
9.根据权利要求1的系统,进一步包括分类模块,其用于基于变换系数对单独来源所生成的声音进行识别。
10.一种用于处理声音信号的方法,该方法包括:
将声音信号划分为与个体时间窗口相关联的信号部分,其中该时间窗口对应于比该声音信号的采样周期更大的时间周期;以及
将该信号部分变换至频率-调频域中,其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式,其中该分数调频斜率是除以频率的调频斜率。
11.根据权利要求10的方法,进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。
12.根据权利要求11的方法,其中确定该第一参数包括在每个信号部分的基础上确定该第一参数。
13.根据权利要求11的方法,进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第二声音参数,该第二声音参数是不同于该第一声音参数的参数。
14.根据权利要求11的方法,其中该第一声音参数包括音高和/或调频斜率之一或其二者。
15.根据权利要求10的方法,其中对给定信号部分进行变换包括向给定信号部分应用滤波器集合,其中该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。
16.根据权利要求10的方法,其中变换系数包括实数分量和虚数分量。
17.根据权利要求10的方法,其中变换系数是实数分量和虚数分量的模数平方。
18.根据权利要求10的方法,进一步包括基于变换系数对单独来源所生成的声音进行识别。
19.一种非瞬时的机器可读电子存储媒体,其存储处理器可执行指令,该指令用于执行一种处理声音信号的方法,该方法包括:
将声音信号划分为与个体时间窗口相关联的信号部分,其中该时间窗口对应于比该声音信号的采样周期更大的时间周期;以及
将信号部分变换至频率-调频域中,其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式,其中该分数调频斜率是除以频率的调频斜率。
20.根据权利要求19的电子存储媒体,其中该方法进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。
CN201280025281.5A 2011-03-25 2012-03-23 采用谱运动变换的用于处理声音信号的系统和方法 Expired - Fee Related CN103718242B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161467493P 2011-03-25 2011-03-25
US61/467,493 2011-03-25
US13/205,424 2011-08-08
US13/205,424 US8767978B2 (en) 2011-03-25 2011-08-08 System and method for processing sound signals implementing a spectral motion transform
PCT/US2012/030277 WO2012134993A1 (en) 2011-03-25 2012-03-23 System and method for processing sound signals implementing a spectral motion transform

Publications (2)

Publication Number Publication Date
CN103718242A true CN103718242A (zh) 2014-04-09
CN103718242B CN103718242B (zh) 2016-02-03

Family

ID=46877376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280025281.5A Expired - Fee Related CN103718242B (zh) 2011-03-25 2012-03-23 采用谱运动变换的用于处理声音信号的系统和方法

Country Status (7)

Country Link
US (5) US8767978B2 (zh)
EP (2) EP2689417A4 (zh)
JP (1) JP6027087B2 (zh)
KR (1) KR20140059754A (zh)
CN (1) CN103718242B (zh)
CA (1) CA2831264A1 (zh)
WO (2) WO2012134993A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103999076A (zh) * 2011-08-08 2014-08-20 英特里斯伊斯公司 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
CN105185378A (zh) * 2015-10-20 2015-12-23 珠海格力电器股份有限公司 声控方法、声控系统及能够进行声控的空调
CN107430850A (zh) * 2015-02-06 2017-12-01 弩锋股份有限公司 确定谐波信号的特征

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849663B2 (en) * 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9500677B2 (en) * 2011-08-19 2016-11-22 Tektronik, Inc. Apparatus and method for providing frequency domain display with visual indication of FFT window shape
US8727991B2 (en) * 2011-08-29 2014-05-20 Salutron, Inc. Probabilistic segmental model for doppler ultrasound heart rate monitoring
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
JP5958866B2 (ja) * 2012-08-01 2016-08-02 国立研究開発法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
DE202012010236U1 (de) 2012-10-26 2012-11-23 Igus Gmbh Energieführungskette mit Spann- bzw. Tragvorrichtung
US20140379333A1 (en) * 2013-02-19 2014-12-25 Max Sound Corporation Waveform resynthesis
US9058820B1 (en) 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
EP3399521B1 (en) * 2013-05-31 2020-04-15 Yamaha Corporation Technology for responding to remarks using speech synthesis
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
US9865253B1 (en) * 2013-09-03 2018-01-09 VoiceCipher, Inc. Synthetic speech discrimination systems and methods
CN104778949B (zh) * 2014-01-09 2018-08-31 华硕电脑股份有限公司 音频处理方法及音频处理装置
US9548067B2 (en) * 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
US9870785B2 (en) * 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) * 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) * 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
CN108028048B (zh) * 2015-06-30 2022-06-21 弗劳恩霍夫应用研究促进协会 用于关联噪声和用于分析的方法和设备
US10283143B2 (en) * 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
IT201600085079A1 (it) * 2016-08-12 2018-02-12 Intendime Srls Dispositivo di segnalazione per allarmi sonori e simili
US11862179B2 (en) 2021-04-01 2024-01-02 Capital One Services, Llc Systems and methods for detecting manipulated vocal samples

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114128A1 (en) * 2003-02-21 2005-05-26 Harman Becker Automotive Systems-Wavemakers, Inc. System for suppressing rain noise
US20060100866A1 (en) * 2004-10-28 2006-05-11 International Business Machines Corporation Influencing automatic speech recognition signal-to-noise levels
US7668711B2 (en) * 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
US20110060564A1 (en) * 2008-05-05 2011-03-10 Hoege Harald Method and device for classification of sound-generating processes

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3617636A (en) 1968-09-24 1971-11-02 Nippon Electric Co Pitch detection apparatus
US3649765A (en) 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4797923A (en) 1985-11-29 1989-01-10 Clarke William L Super resolving partial wave analyzer-transceiver
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JPH01257233A (ja) 1988-04-06 1989-10-13 Fujitsu Ltd 信号検出方法
US5321636A (en) 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5216747A (en) 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
GB9026906D0 (en) 1990-12-11 1991-01-30 B & W Loudspeakers Compensating filters
IT1270438B (it) 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5812967A (en) 1996-09-30 1998-09-22 Apple Computer, Inc. Recursive pitch predictor employing an adaptively determined search window
JP3046566B2 (ja) * 1997-07-01 2000-05-29 株式会社エイ・ティ・アール人間情報通信研究所 信号分析方法および信号分析装置
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
TW430778B (en) 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US7003120B1 (en) * 1998-10-29 2006-02-21 Paul Reed Smith Guitars, Inc. Method of modifying harmonic content of a complex waveform
JP3417880B2 (ja) * 1999-07-07 2003-06-16 科学技術振興事業団 音源情報の抽出方法及び装置
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6356868B1 (en) 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US6798777B1 (en) 2000-04-17 2004-09-28 Juniper Networks, Inc. Filtering and route lookup in a switching device
US6366862B1 (en) 2000-04-19 2002-04-02 National Instruments Corporation System and method for analyzing signals generated by rotating machines
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US7337107B2 (en) 2000-10-02 2008-02-26 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US7016352B1 (en) 2001-03-23 2006-03-21 Advanced Micro Devices, Inc. Address modification within a switching device in a packet-switched network
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6493668B1 (en) 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
US7668718B2 (en) 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
GB2387008A (en) 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
US6827686B2 (en) 2002-08-21 2004-12-07 Koninklijke Philips Electronics N.V. System and method for improved harmonic imaging
US7577564B2 (en) 2003-03-03 2009-08-18 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for detecting illicit activity by classifying whispered speech and normally phonated speech according to the relative energy content of formants and fricatives
US7389230B1 (en) 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
SG120121A1 (en) 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
CN1998045A (zh) 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
DE102004046746B4 (de) 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
KR100590561B1 (ko) 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7991167B2 (en) 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
US8073148B2 (en) 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
WO2007056652A2 (en) 2005-11-04 2007-05-18 Tektronix, Inc. Data compression for producing a spectrum trace
JP2007226935A (ja) 2006-01-24 2007-09-06 Sony Corp 音響再生装置、音響再生方法および音響再生プログラム
US7774202B2 (en) 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
TWI297486B (en) 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
US20100332222A1 (en) 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
JP2008185805A (ja) 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
JP5686369B2 (ja) 2007-06-11 2015-03-18 フラウンホッファー−ゲゼルシャフト ツァー フェーデルング デア アンゲバンテン フォルシュング エー ファー インパルス状の部分と定常部分とを有するオーディオ信号を符号化するオーディオ符号器、符号化方法、復号器、および復号化方法
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8706496B2 (en) 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US8155326B2 (en) 2007-10-09 2012-04-10 Schweitzer Engineering Laboratories, Inc. System, method, and apparatus for using the sound signature of a device to determine its operability
EP2058797B1 (en) 2007-11-12 2011-05-04 Harman Becker Automotive Systems GmbH Discrimination between foreground speech and background noise
EP2272062B1 (en) 2008-03-26 2012-10-17 Nokia Corporation An audio signal classifier
JP4547042B2 (ja) 2008-09-30 2010-09-22 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
EP2394443B1 (en) 2009-02-03 2021-11-10 Cochlear Ltd. Enhianced envelope encoded tone, sound procrssor and system
JP2010249939A (ja) 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ判定方法
WO2011026247A1 (en) 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8666092B2 (en) 2010-03-30 2014-03-04 Cambridge Silicon Radio Limited Noise estimation
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8849663B2 (en) 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US20130041489A1 (en) 2011-08-08 2013-02-14 The Intellisis Corporation System And Method For Analyzing Audio Information To Determine Pitch And/Or Fractional Chirp Rate
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114128A1 (en) * 2003-02-21 2005-05-26 Harman Becker Automotive Systems-Wavemakers, Inc. System for suppressing rain noise
US7668711B2 (en) * 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
US20060100866A1 (en) * 2004-10-28 2006-05-11 International Business Machines Corporation Influencing automatic speech recognition signal-to-noise levels
US20110060564A1 (en) * 2008-05-05 2011-03-10 Hoege Harald Method and device for classification of sound-generating processes

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUI YIN ET AL: "Pitch- and Formant-Based Order Adaptation of the Fractional Fourier Transformand Its Application to Speech Recognition", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》, vol. 2009, 31 December 2009 (2009-12-31) *
VARGAS-RUBIO, J.G. ET AL: "AN IMPROVED SPECTROGRAM USING THE MULTIANGLE CENTERED DISCRETE FRACTIONAL FOURIER TRANSFORM", 《ICASSP 2005》, vol. 4, 31 March 2005 (2005-03-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103999076A (zh) * 2011-08-08 2014-08-20 英特里斯伊斯公司 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
CN103999076B (zh) * 2011-08-08 2017-05-24 英特里斯伊斯公司 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
CN107430850A (zh) * 2015-02-06 2017-12-01 弩锋股份有限公司 确定谐波信号的特征
CN105185378A (zh) * 2015-10-20 2015-12-23 珠海格力电器股份有限公司 声控方法、声控系统及能够进行声控的空调

Also Published As

Publication number Publication date
US8767978B2 (en) 2014-07-01
JP2014512022A (ja) 2014-05-19
US20120243707A1 (en) 2012-09-27
US9142220B2 (en) 2015-09-22
US20140376727A1 (en) 2014-12-25
CA2831264A1 (en) 2012-10-04
US20120243705A1 (en) 2012-09-27
EP2937862A1 (en) 2015-10-28
WO2012134993A1 (en) 2012-10-04
EP2689417A1 (en) 2014-01-29
WO2012134991A3 (en) 2014-04-10
EP2689417A4 (en) 2014-11-05
US9177561B2 (en) 2015-11-03
US20150120285A1 (en) 2015-04-30
JP6027087B2 (ja) 2016-11-16
US20150112688A1 (en) 2015-04-23
WO2012134991A2 (en) 2012-10-04
US9620130B2 (en) 2017-04-11
KR20140059754A (ko) 2014-05-16
CN103718242B (zh) 2016-02-03
US9177560B2 (en) 2015-11-03

Similar Documents

Publication Publication Date Title
CN103718242B (zh) 采用谱运动变换的用于处理声音信号的系统和方法
CN103999076A (zh) 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
Ahrabian et al. Synchrosqueezing-based time-frequency analysis of multivariate data
EP3511937A1 (en) Device and method for sound source separation, and program
Millioz et al. Circularity of the STFT and spectral kurtosis for time-frequency segmentation in Gaussian environment
CN103959031A (zh) 用于分析音频信息以确定音高和/或分数线性调频斜率的系统及方法
Urazghildiiev et al. Acoustic detection of North Atlantic right whale contact calls using the generalized likelihood ratio test
Mundodu Krishna et al. Single channel speech separation based on empirical mode decomposition and Hilbert transform
Chaki Pattern analysis based acoustic signal processing: a survey of the state-of-art
EP3121808B1 (en) System for modeling characteristics of an electronic musical instrument
Jeong et al. Singing voice separation using RPCA with weighted-norm
Elowsson et al. Predicting the perception of performed dynamics in music audio with ensemble learning
Narayana Murthy et al. Time delay estimation from mixed multispeaker speech signals using single frequency filtering
Faiß et al. Adaptive representations of sound for automatic insect recognition
Ahmed et al. Empirical mode decomposition-based feature extraction for environmental sound classification
Mesgarani et al. Toward optimizing stream fusion in multistream recognition of speech
Duong et al. Multichannel harmonic and percussive component separation by joint modeling of spatial and spectral continuity
Schwär et al. Multi-Scale Spectral Loss Revisited
Goto A predominant-F0 estimation method for polyphonic musical audio signals
Tanaka et al. Automated classification of dugong calls and tonal noise by combining contour and MFCC features
CN114446316B (zh) 音频分离方法、音频分离模型的训练方法、装置及设备
Bellisario et al. Contributions of MIR to Soundscape Ecology. Part 2: Spectral timbral analysis for discriminating soundscape components
Bauer et al. Tone onset detection using an auditory model
Ntalampiras Hybrid framework for categorising sounds of mysticete whales
Wilkinson et al. A generative model for natural sounds based on latent force modelling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Crossbow Limited by Share Ltd

Address before: American California

Patentee before: Ying Telisiyisi company

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160203

Termination date: 20190323