CN107025911B - 基于粒子群优化的基音频率检测方法 - Google Patents
基于粒子群优化的基音频率检测方法 Download PDFInfo
- Publication number
- CN107025911B CN107025911B CN201610064871.9A CN201610064871A CN107025911B CN 107025911 B CN107025911 B CN 107025911B CN 201610064871 A CN201610064871 A CN 201610064871A CN 107025911 B CN107025911 B CN 107025911B
- Authority
- CN
- China
- Prior art keywords
- peak
- fundamental frequency
- signature waveform
- optimization
- frm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 11
- 239000002245 particle Substances 0.000 title description 13
- 238000005457 optimization Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形,然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形,最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值,其中最佳优化因子依靠PSO算法搜索得到。
Description
技术领域
本发明涉及基音频率检测方法,特别是一种极低信噪比环境下的基音频率检测方法。
背景技术
基音频率检测作为语音的基本参数,在语音分析合成以及语音分离等语音处理领域有着广泛的用途。准确可靠地估计并提取基音频率对语音信号处理至关重要。高信噪比的基音频率检测已经十分成熟,但这些方法在低信噪比环境下难以较好效果,特别是极低信噪比环境下的检测效果很差。鉴于此,本发明提供一种极低信噪比环境下的基音频率检测方法。
发明内容
针对现有技术在极低信噪比环境下的进行基音频率检测有着明显不足,本发明提供了一种极低信噪比环境下的基音频率检测方法。该方法包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数。
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造PSO适应度函数,并进行全局搜索,直至得到最佳优化因子。其中优化因子为未知的M维向量α=[α1,α2,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))}PSO适应度函数即基音频率估计值与真实值误差不超过5%的概率。然后设置PSO算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal。
2.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
本发明的上述技术方案与现有技术方案相比较,具有以下优点:
A、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;
B、采用PSO进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值;
附图说明
图1是根据本发明的一个实施例构成的系统方框图;
具体实施方式
本发明提出的极低信噪比环境下的基音频率检测方法结合附图及实施例进一步说明如下:
本发明的方法流程如图1所示,包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序分帧。
(2)并利用标准算法提取语音帧的基音频率作为基音频率真实值。
(3)对叠加有噪声的语音库信号按时间顺序分帧并利用PEFAC算法将语音帧信号转化为相对应的基音特征波形。
(4)利用优化因子作为未知参数与基音特征波形一起构造PSO适应度函数,并进行全局搜索,直至得到最佳优化因子。
2.测试过程:
(1)对特测试的语音信号分帧
(2)将语音帧信号转化为其相对应的基音特征波形;
(3)利用已训练好的最佳优化因子对基音特征波形进行优化,从而生成优化后的基音特征波形,并计算出优化后的基音特征波形的最大峰值所对应的频率作为基音频率的估计值。
本发明的上述技术方案与现有技术方案相比较,具有以下优点:
C、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;
D、采用PSO进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值;
本发明上述方法各步骤的具体实施例详细说明如下:
上述训练过程步骤(1)中的语音库实施例为TIMIT国际标准数据库,30名男性和30名女性的语音,每人语音时长20分钟,总时长为20小时。按时间分帧的采样率为16KHZ,每帧数据的为160个采样点。上述训练过程步骤(2)提取语音库基音频率的标准方法为praat算法工具。
上述训练过程步骤(3)叠加的噪声信号类型为高斯白噪声,且语音分帧方法与步骤(1)一致,将帧格式语音信号转化为基音特征波形的算法为PEFAC算法,其算法流程如下:
(a)将语音帧信号通过短时傅里叶变换映射到频域,并作标准化处理成为Xt′(q),其中q为对数化频率,即q=log(f)。
(b)对Xt′(q)卷积运算生成基音特征波形其中滤波器定义为:
其中β的选取为满足∫h(q)dq=0,而γ设置为1.8。
上述训练过程步骤(4)中的优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5。基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围。
优化因子α与基音特征波形的维度不一致,因此在作优化运算即点乘运算时,α须扩展为250向量,其扩展方法将250维分为10段且每25维完全相同即可。
其中PSO适应度函数的实施例为
PSO的训练过程步骤的实施例为:
步骤1:根据优化因子α的维度与取值范围确定粒子群的参数,α为10维向量,每一维的取值范围为[0.5,1.5],种群大小为20,粒子初始速度为0.01,最大速度为1,最大迭代次数为60;
步骤2:初始化粒子群,其中粒子i的信息可用两个N维向量表示,第i个粒子的位置(即优化因子)可表示为αi=(αi1,αi2,…αi10),其中粒子位置第d维的初始值αid=(1.5-1)·rand1+1;粒子速度可表示为vi=(vi1,vi2,…viN),其中粒子速度第d维的初始值vid=rand2;其中rand1与rand2均为取值范围在0~1之间的随机数;
步骤3:计算每个粒子的适应度eval(αi);
步骤4:根据适应度更新pbest、gbest,及粒子位置速度。
其中是粒子i在第k次迭代中第d维的速度;是粒子i在第k次迭代中第d维的当前位置;是粒子i在第d维的个体极值点的位置;是整个种群在第d维的全局极值点的位置;
步骤5:是否达到最大迭代次数,否则返回继续计算(3),直到达到满意的结果为止。
上述测试过程步骤(1)中的分帧方法与训练过程步骤(1)中保持一致。
上述测试过程步骤(2)中的基音特征波形转化方法与训练过程步骤(3)保持一致。
上述测试过程步骤(3)中的基音特征波形优化运算与上述训练过程步骤(4)保持一致,且优化因子采用训练产生的最佳优化因子αoptimal。
Claims (1)
1.一种极低信噪比环境下的基音频率检测方法,其特征在于该方法包括以下步骤:
a.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造PSO适应度函数,并进行全局搜索,直至得到最佳优化因子;其中优化因子为未知的M维向量α=[α1,α2,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))}PSO适应度函数即基音频率估计值与真实值误差不超过5%的概率;然后设置PSO算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal;
b.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610064871.9A CN107025911B (zh) | 2016-01-29 | 2016-01-29 | 基于粒子群优化的基音频率检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610064871.9A CN107025911B (zh) | 2016-01-29 | 2016-01-29 | 基于粒子群优化的基音频率检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107025911A CN107025911A (zh) | 2017-08-08 |
CN107025911B true CN107025911B (zh) | 2019-03-12 |
Family
ID=59524742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610064871.9A Expired - Fee Related CN107025911B (zh) | 2016-01-29 | 2016-01-29 | 基于粒子群优化的基音频率检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107025911B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354338B (zh) * | 2020-02-26 | 2022-03-15 | 重庆大学 | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 |
CN113314137B (zh) * | 2020-02-27 | 2022-07-26 | 东北大学秦皇岛分校 | 一种基于动态进化粒子群屏蔽emd的混合信号分离方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779526A (zh) * | 2012-08-07 | 2012-11-14 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
CN103794222A (zh) * | 2012-10-31 | 2014-05-14 | 展讯通信(上海)有限公司 | 语音基音频率检测方法和装置 |
CN103903624A (zh) * | 2014-03-31 | 2014-07-02 | 重庆工商职业学院 | 一种高斯色噪声环境下的基音周期检测方法 |
CN103915099A (zh) * | 2012-12-29 | 2014-07-09 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3288052B2 (ja) * | 1991-01-16 | 2002-06-04 | 沖電気工業株式会社 | 基本周波数抽出方法 |
-
2016
- 2016-01-29 CN CN201610064871.9A patent/CN107025911B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779526A (zh) * | 2012-08-07 | 2012-11-14 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
CN103794222A (zh) * | 2012-10-31 | 2014-05-14 | 展讯通信(上海)有限公司 | 语音基音频率检测方法和装置 |
CN103915099A (zh) * | 2012-12-29 | 2014-07-09 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
CN103903624A (zh) * | 2014-03-31 | 2014-07-02 | 重庆工商职业学院 | 一种高斯色噪声环境下的基音周期检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107025911A (zh) | 2017-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852201B (zh) | 一种基于多脉冲包络谱匹配的脉冲信号检测方法 | |
CN102945670B (zh) | 一种用于语音识别系统的多环境特征补偿方法 | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN103730121B (zh) | 一种伪装声音的识别方法及装置 | |
CN104021789A (zh) | 一种利用短时时频值的自适应端点检测方法 | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN104616663A (zh) | 一种结合hpss的mfcc-多反复模型的音乐分离方法 | |
CN107064629B (zh) | 一种基于频率相对偏差预估的分段综合单频信号频率估计方法 | |
CN112884134B (zh) | 面向地震震相识别的基于时域的卷积神经网络模型及应用 | |
CN109767760A (zh) | 基于振幅和相位信息的多目标学习的远场语音识别方法 | |
CN109767781A (zh) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 | |
CN114550260B (zh) | 一种基于对抗数据增强的三维人脸点云识别方法 | |
CN107025911B (zh) | 基于粒子群优化的基音频率检测方法 | |
Ziabary et al. | A countermeasure based on cqt spectrogram for deepfake speech detection | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN104665875A (zh) | 超声多普勒包络和心率检测方法 | |
Sun et al. | Exposing ai-synthesized human voices using neural vocoder artifacts | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 | |
CN107039051B (zh) | 基于蚁群优化的基音频率检测方法 | |
CN110223706B (zh) | 基于注意力驱动循环卷积网络的环境自适应语音增强算法 | |
CN115293214A (zh) | 一种基于样本扩充网络的水声目标识别模型优化方法 | |
CN106997766A (zh) | 一种基于宽带噪声的同态滤波语音增强方法 | |
CN107045875A (zh) | 基于遗传算法的基音频率检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190312 Termination date: 20200129 |