CN112397087A - 共振峰包络估计、语音处理方法及装置、存储介质、终端 - Google Patents
共振峰包络估计、语音处理方法及装置、存储介质、终端 Download PDFInfo
- Publication number
- CN112397087A CN112397087A CN202011272148.2A CN202011272148A CN112397087A CN 112397087 A CN112397087 A CN 112397087A CN 202011272148 A CN202011272148 A CN 202011272148A CN 112397087 A CN112397087 A CN 112397087A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- frequency
- formant
- frequency domain
- formant envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000008447 perception Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
Abstract
一种共振峰包络估计、语音处理方法及装置、存储介质、终端,共振峰包络估计方法包括:获取频域语音信号;确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。本发明技术方案能够在保证共振峰估计的简单易实现的基础上保证估计的准确性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种共振峰包络估计、语音处理方法及装置、存储介质、终端。
背景技术
人类语音的基本物理特征包括音高、响度、共振峰、音质和声音持续时间。传统上,语音分为两大类:元音和辅音。元音通常与更高的能量和更强的周期性相关。元音和辅音在语音感知中的相对重要性一直是多项研究的主题。在存在背景噪音的情况下使用口语句子的研究中,它表明元音比辅音在单词识别中起着更重要的作用。在存在噪声的情况下,元音会携带更多语音信息,这可能是因为共振峰提示即使在噪声中也很鲁棒。由于声道的共振,共振峰频率对应于浊音的短时能量谱中的峰值。共振峰是元音感知的主要线索之一,还有其他因素,例如频谱形状和共振峰比率。感知元音空间的多维分析已确定,占感知空间差异最大的两个维度对应于前两个共振峰频率。
通常,从语音信号中提取的共振峰频率个体依赖性较小,而上下文依赖性较大。此外,人声的性质在一定范围内是可变的,可以仔细测量并映射到词汇系统。因此,包含共振峰信息的语音特征被广泛用于语音识别任务中。从传统特征处理中提取的共振峰信息,如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC),感知线性预测(Preceptual Linear Prediction,PLP),很容易被噪声信号破坏。针对共振峰频率,数十年来已经提出了许多精确估计或增强技术。共振峰估计任务有三种主要方法:1.基于LPC。2.基于倒谱。3.高斯混合模型。包络的细节(例如,其峰和谷的清晰度)受到倒频谱/LPC近似的阶数的限制。高斯混合模型应用于谐波结构的正弦模型。但是,它仅在对应于基本频率(F0)整数倍的频率处具有能量。因此,难以识别相邻谐波之间的传递特性。
但是,常规的LPC/倒谱方法在描述频率和幅度上的语音共振峰时并不那么精确。通过LPC分析或倒频谱平滑估计的包络的准确性受到其顺序的限制,正弦模型受谐波限制。所有这些方法的结果都可以通过使用边信息(例如相邻帧的频谱)进行迭代估计来改善,但需要花费更多的计算能力和存储资源。
发明内容
本发明解决的技术问题是如何在保证共振峰估计的简单易实现的基础上保证估计的准确性。
为解决上述技术问题,本发明实施例提供一种共振峰包络估计方法,共振峰包络估计方法包括:获取频域语音信号;确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
可选的,所述对所述多个频谱峰进行插值运算包括:对所述多个频谱峰进行线性插值运算,以得到所述频域语音信号的共振峰包络。
可选的,所述对所述多个频谱峰进行插值运算包括:对所述多个频谱峰进行多次元内插插值,以得到所述频域语音信号的共振峰包络。
可选的,所述确定所述频域语音信号在预估频率范围内的多个频谱峰包括:将所述频域语音信号在所述预估频率范围内划分为预设数量个频段;在每一频段内确定频率值最大的位置为该频段内的频谱峰。
可选的,所述获取频域语音信号包括:获取采集到的多帧时域语音信号;将每帧时域语音信号转换为对应的频域语音信号。
为解决上述技术问题,本发明实施例还公开了一种语音处理方法,语音处理方法包括:获取采集到的语音信号;计算所述语音信号的共振峰包络,所述共振峰包络是采用以下方式得到的:获取频域语音信号,确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的,对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络;根据所述语音信号的共振峰包络提取所述语音信号的共振峰;根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。
可选的,所述获取采集到的语音信号之后还包括:判断所述语音信号是否存在所述预设声源类别的语音。
本发明实施例还公开了一种共振峰包络估计装置,共振峰包络估计装置包括:语音信号获取模块,用于获取频域语音信号;频谱峰确定模块,用于确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;共振峰包络计算模块,用于对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
本发明实施例还公开了一种语音处理装置,语音处理装置包括:语音信号采集模块,用于获取采集到的语音信号;共振峰包络确定模块,用于计算所述语音信号的共振峰包络,所述共振峰包络是采用以下方式得到的:获取频域语音信号,确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据声源的声道特性以及声源的感知频率确定的,对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络;共振峰提取模块,用于根据所述语音信号的共振峰包络提取所述语音信号的共振峰;语音处理模块,用于根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。
本发明实施例还公开了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行所述共振峰包络估计方法的步骤,或者所述的语音处理方法的步骤。
本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述共振峰包络估计方法的步骤,或者所述语音处理方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案通过预先设置预估频率范围,并在预估频率范围内确定多个频谱峰,以用于计算共振峰包络;由于预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的,因此能够在该频率范围内保证所确定的共振峰包络包含共振峰,保证后续共振峰估计的准确性;此外,由于仅需在预估频率范围内计算共振峰包络,避免在语音信号所有频段内进行计算以及避免了迭代运算,降低了计算资源,提升计算效率。
附图说明
图1是本发明实施例一种共振峰包络估计方法的流程图;
图2是本发明实施例一种语音处理方法的流程图;
图3是本发明实施例一种具体应用场景的示意图;
图4是本发明实施例一种共振峰包络估计装置的结构示意图;
图5是本发明实施例一种语音处理装置的结构示意图。
具体实施方式
如背景技术中所述,现有技术中通过LPC分析或倒频谱平滑估计的包络的准确性受到其顺序的限制,正弦模型受谐波限制。此外,准确的共振峰估计是费时的并且计算效率较低。估计的精确度和消耗的时间总是在系统设计之初就产生的。特别是在移动系统中,计算和存储资源受到极大限制。
本发明技术方案通过预先设置预估频率范围,并在预估频率范围内确定多个频谱峰,以用于计算共振峰包络;由于预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的,因此能够在该频率范围内保证所确定的共振峰包络包含共振峰,保证后续共振峰估计的准确性;此外,由于仅需在预估频率范围内计算共振峰包络,避免在语音信号所有频段内进行计算以及避免了迭代运算,降低了计算资源,提升计算效率。
本发明实施例所称“共振峰”是指频域信号中声音能量相对集中的区域,决定声音的音质,可以通过信号的共振峰判断该语音信号是由哪一语音用户发出的。
本发明实施例所称“共振峰包络”是指频域信号中将不同频率对应的振幅最高点连接围成的频域范围,能够表示语音用户在当前分段的声音特征。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种共振峰包络估计方法的流程图。
本实施例提供的一种共振峰包络估计方法可以由本发明实施例提供的共振峰包络估计装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,该设备可以是配置有任一种能够对语音信号进行处理的应用程序的智能终端,如智能手机、平板和掌上电脑等。
具体而言,所述共振峰包络估计方法可以包括以下步骤:
步骤S101:获取频域语音信号;
步骤S102:确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;
步骤S103:对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。
在步骤S101的具体实施中,可以获取通过语音采集设备采集的由语音用户初始录入的原始语音信号,原始语音信号通常是时域信号,因此还需对原始语音信号进行转换,以获得所述频域语音信号。具体地,所述频域语音信号可以是通过对时域语音信号进行转换得到的,也可以是在数据库中直接调取得到的,该数据库中包括预先转换完成的所述频域语音信号。
在一个非限制性的实施例中,步骤S101可以包括以下步骤:获取采集到的多帧时域语音信号;将每帧时域语音信号转换为对应的频域语音信号。
具体而言,傅里叶变换是将时域信号转换为频域信号的一种变换方式,对于时域中无法明确得到的一类信息,可以转换到频域中来进行分析。由于时域语音信号是由用户发出的一段时间内包含有不同频率信息的语音信号,此时若直接对整个原始语音信号进行傅里叶变换,对应得到的频域信号是针对整个时域的全部语音信息来确定的单个频率对应的频谱,此时不能反映局部时域内对应的频率特征,无法分析出不同时间段内的频域信息,因此本实施例中可以采用短时傅里叶变换分别对原始语音信号进行处理,从而得到不同时间段(例如不同帧)内原始语音信号对应的频域信息。短时傅里叶变换是指通过指定的时间窗内的一段语音信号对应的频域信号来表示某一时刻的频域特征。
在步骤S102的具体实施中,可以预先设置预估频率范围,预估频率范围可以由预设声源的声道特性以及所述预设声源的感知频率确定。例如,根据人类的感知范围和声道特征设计的。预估频率范围能够提供对共振峰敏感频段的一段带宽。通过定位在预估频率范围计算光谱峰,能够保证所选的频谱峰与共振峰频率高度相关。具体地,频谱峰是频段内指频率值最大的位置。
由于各个光谱峰是离散的数值点,因此在步骤S103的具体实施中,可以通过对光谱峰进行插值运算得到所述频域语音信号的共振峰包络。
具体实施中,可以直接对多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
在另一个具体的例子中,为了得到更加平滑的共振峰包络,可以对所述多个频谱峰进行多次元内插插值,例如利用二次插值法和三次插值法进行插值,以得到所述频域语音信号的共振峰包络。
本发明实施例是对语音特征进行提取前的预处理过程,通过确定出的共振峰包络用于后续语音特征的提取,也即语音信号共振峰的确定。
本发明实施例通过预先设置预估频率范围,并在预估频率范围内确定多个频谱峰,以用于计算共振峰包络;由于预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的,因此能够在该频率范围内保证所确定的共振峰包络包含共振峰,保证后续共振峰估计的准确性;此外,由于仅需在预估频率范围内计算共振峰包络,避免在语音信号所有频段内进行计算以及避免了迭代运算,降低了计算资源,提升计算效率。
请参照图2,本发明实施例还公开了一种语音处理方法。所述语音处理方法可以由本发明实施例提供的语音处理装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,该设备可以是配置有任一种能够对语音信号进行处理的应用程序的智能终端,如智能手机、平板和掌上电脑等。
所述语音处理方法可以包括以下步骤:
步骤S201:获取采集到的语音信号;
步骤S202:计算所述语音信号的共振峰包络;
步骤S203:根据所述语音信号的共振峰包络提取所述语音信号的共振峰;
步骤S204:根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。
本发明实施例能够使用语音分析来增强元音共振峰。
关于步骤S202的具体实施方式可以参照图1所示实施例,此处不再赘述。
在步骤S203的具体实施中,可以利用语音信号的共振峰包络提取所述语音信号的共振峰,具体可以采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)或感知线性预测(Preceptual Linear Prediction,PLP)算法确定语音信号的共振峰,其输入为语音信号的共振峰包络,输出为语音特征,也即语音信号的共振峰。
需要说明的是,关于步骤S203中所采用的具体算法可以是现有技术中任意可实施的算法,本发明实施例对此不作限制。
进而在步骤S204的具体实施中,可以利用计算出的共振峰对语音信号进行语音识别或语音合成,以增强其性能。
在一个非限制性的实施例中,图2所示步骤S201之后还可以包括以下步骤:判断所述语音信号是否存在所述预设声源类别的语音。
本发明实施例可以判断是否显示预设声源类别的语音,例如人类语音。具体可以由语音活动检测程序来实现。在检测到人类语音之后,再继续执行后续的语音处理步骤。
此外,在步骤S201之后还可以对语音信号进行切分,以得到多个短时帧,具体可以利用预设时间窗口切分得到。
本申请发明人经过试验证明,本发明实施例的方法可将小型混合高斯模型(Gaussof mixture models)隐马尔科夫模型(Hidden Markov Model,HMM)语音识别系统的准确度提高8%,最高噪声添加为0dB。
具体请参照图3,在图3所示频谱图中,语音信号的噪声添加-15dB,横坐标表示频率,纵坐标表示能量。曲线a表示本发明实施例所计算出的共振峰包络,曲线b和c表示现有技术中的共振峰包络,分别是采用LPC分析和倒频谱平滑计算出的共振峰包络。其中,在频率f1和f2位置为语音信号的第二共振峰和第三共振峰,从图3中可以看出,相对于曲线b和c,对于第二共振峰和第三共振峰,曲线a所示的共振峰包络能够大大地保留其能量。也就是说,相对于现有技术,本发明实施例在第二共振峰和第三共振峰位置的能量估计更加准确。
进一步而言,随着语音信号中加性噪声的增大,通过本发明实施例估算的共振峰包络更加能够保留第二共振峰和第三共振峰的能量。
请参照图4,本发明实施例还公开了一种共振峰包络估计装置40。共振峰包络估计装置40可以包括:
语音信号获取模块401,用于获取频域语音信号;
频谱峰确定模块402,用于确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;
共振峰包络计算模块403,用于对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
通过共振峰包络估计装置40可以实现对语音信号预处理,所计算出的共振峰包络可以用于对语音信号的处理,例如用于语音识别或语音合成。
关于所述共振峰包络估计装置40的工作原理、工作方式的更多内容,可以参照图1至图3中的相关描述,这里不再赘述。
请参照图5,本发明实施例还公开了一种语音处理装置50,语音处理装置50包括:
语音信号采集模块501,用于获取采集到的语音信号;
共振峰包络确定模块502,用于计算所述语音信号的共振峰包络,所述共振峰包络是采用以下方式得到的:获取频域语音信号,确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据声源的声道特性以及声源的感知频率确定的,对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络;
共振峰提取模块503,用于根据所述语音信号的共振峰包络提取所述语音信号的共振峰;
语音处理模块504,用于根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。
具体地,共振峰包络确定模块502可以是所述共振峰包络估计装置40,或者共振峰包络确定模块502从共振峰包络估计装置40处获得其计算出的共振峰包络。
关于所述语音处理装置50的工作原理、工作方式的更多内容,可以参照图1至图3中的相关描述,这里不再赘述。
本发明实施例还公开了一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时可以执行图1或图2中所示方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序。所述处理器运行所述计算机程序时可以执行图1或图2中所示方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
应理解,上述的处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,还可以是系统芯片(system on chip,SoC),还可以是中央处理器(central processor unit,CPU),还可以是网络处理器(networkprocessor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logicdevice,PLD)或其他集成芯片。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
还应理解,本发明实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (11)
1.一种共振峰包络估计方法,其特征在于,包括:
获取频域语音信号;
确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;
对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
2.根据权利要求1所述的共振峰包络估计方法,其特征在于,所述对所述多个频谱峰进行插值运算包括:
对所述多个频谱峰进行线性插值运算,以得到所述频域语音信号的共振峰包络。
3.根据权利要求1所述的共振峰包络估计方法,其特征在于,所述对所述多个频谱峰进行插值运算包括:
对所述多个频谱峰进行多次元内插插值,以得到所述频域语音信号的共振峰包络。
4.根据权利要求1所述的共振峰包络估计方法,其特征在于,所述确定所述频域语音信号在预估频率范围内的多个频谱峰包括:
将所述频域语音信号在所述预估频率范围内划分为预设数量个频段;
在每一频段内确定频率值最大的位置为该频段内的频谱峰。
5.根据权利要求1所述的共振峰包络估计方法,其特征在于,所述获取频域语音信号包括:
获取采集到的多帧时域语音信号;
将每帧时域语音信号转换为对应的频域语音信号。
6.一种语音处理方法,其特征在于,包括:
获取采集到的语音信号;
计算所述语音信号的共振峰包络,所述共振峰包络是采用以下方式得到的:获取频域语音信号,确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的,对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络;
根据所述语音信号的共振峰包络提取所述语音信号的共振峰;
根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。
7.根据权利要求6所述的语音处理方法,其特征在于,所述获取采集到的语音信号之后还包括:
判断所述语音信号是否存在所述预设声源类别的语音。
8.一种共振峰包络估计装置,其特征在于,包括:
语音信号获取模块,用于获取频域语音信号;
频谱峰确定模块,用于确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的;
共振峰包络计算模块,用于对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络。
9.一种语音处理装置,其特征在于,包括:
语音信号采集模块,用于获取采集到的语音信号;
共振峰包络确定模块,用于计算所述语音信号的共振峰包络,所述共振峰包络是采用以下方式得到的:获取频域语音信号,确定所述频域语音信号在预估频率范围内的多个频谱峰,所述预估频率范围是根据声源的声道特性以及声源的感知频率确定的,对所述多个频谱峰进行插值运算,以得到所述频域语音信号的共振峰包络;
共振峰提取模块,用于根据所述语音信号的共振峰包络提取所述语音信号的共振峰;
语音处理模块,用于根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至5中任一项所述共振峰包络估计方法的步骤,或者权利要求6或7所述的语音处理方法的步骤。
11.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至5中任一项所述共振峰包络估计方法的步骤,或者权利要求6或7所述的语音处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272148.2A CN112397087B (zh) | 2020-11-13 | 2020-11-13 | 共振峰包络估计、语音处理方法及装置、存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272148.2A CN112397087B (zh) | 2020-11-13 | 2020-11-13 | 共振峰包络估计、语音处理方法及装置、存储介质、终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112397087A true CN112397087A (zh) | 2021-02-23 |
CN112397087B CN112397087B (zh) | 2023-10-31 |
Family
ID=74601040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011272148.2A Active CN112397087B (zh) | 2020-11-13 | 2020-11-13 | 共振峰包络估计、语音处理方法及装置、存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112397087B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687277A (zh) * | 2021-03-15 | 2021-04-20 | 北京远鉴信息技术有限公司 | 语音共振峰的确定方法、装置、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160035370A1 (en) * | 2012-09-04 | 2016-02-04 | Nuance Communications, Inc. | Formant Dependent Speech Signal Enhancement |
CN105679321A (zh) * | 2016-01-29 | 2016-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 语音识别方法、装置及终端 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
CN111737515A (zh) * | 2020-07-22 | 2020-10-02 | 深圳市声扬科技有限公司 | 音频指纹提取方法、装置、计算机设备和可读存储介质 |
-
2020
- 2020-11-13 CN CN202011272148.2A patent/CN112397087B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160035370A1 (en) * | 2012-09-04 | 2016-02-04 | Nuance Communications, Inc. | Formant Dependent Speech Signal Enhancement |
CN105679321A (zh) * | 2016-01-29 | 2016-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 语音识别方法、装置及终端 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN111737515A (zh) * | 2020-07-22 | 2020-10-02 | 深圳市声扬科技有限公司 | 音频指纹提取方法、装置、计算机设备和可读存储介质 |
Non-Patent Citations (2)
Title |
---|
陈宁 等: ""语音信号共振峰频率估计的分段线性预测算法"", 《计算机工程与应用》 * |
陈宁 等: ""语音信号共振峰频率估计的分段线性预测算法"", 《计算机工程与应用》, 1 October 2009 (2009-10-01), pages 1 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687277A (zh) * | 2021-03-15 | 2021-04-20 | 北京远鉴信息技术有限公司 | 语音共振峰的确定方法、装置、电子设备及可读存储介质 |
CN112687277B (zh) * | 2021-03-15 | 2021-06-18 | 北京远鉴信息技术有限公司 | 语音共振峰的确定方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112397087B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
WO2021114733A1 (zh) | 一种分频段进行处理的噪声抑制方法及其系统 | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
US9451304B2 (en) | Sound feature priority alignment | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
US8280724B2 (en) | Speech synthesis using complex spectral modeling | |
JP6272433B2 (ja) | ピッチ周期の正確性を検出するための方法および装置 | |
CN108682432B (zh) | 语音情感识别装置 | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
Pannala et al. | Robust Estimation of Fundamental Frequency Using Single Frequency Filtering Approach. | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
Savchenko | Method for reduction of speech signal autoregression model for speech transmission systems on low-speed communication channels | |
CN112397087B (zh) | 共振峰包络估计、语音处理方法及装置、存储介质、终端 | |
CN117935789A (zh) | 语音识别方法及系统、设备、存储介质 | |
CN111489739A (zh) | 音素识别方法、装置及计算机可读存储介质 | |
Chatterjee et al. | Auditory model-based design and optimization of feature vectors for automatic speech recognition | |
Eyben et al. | Acoustic features and modelling | |
Ricotti | Multitapering and a wavelet variant of MFCC in speech recognition | |
CN115359800A (zh) | 发动机型号检测方法和装置、电子设备、存储介质 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |