CN111261197B - 一种复杂噪声场景下的实时语音段落追踪方法 - Google Patents
一种复杂噪声场景下的实时语音段落追踪方法 Download PDFInfo
- Publication number
- CN111261197B CN111261197B CN202010029721.0A CN202010029721A CN111261197B CN 111261197 B CN111261197 B CN 111261197B CN 202010029721 A CN202010029721 A CN 202010029721A CN 111261197 B CN111261197 B CN 111261197B
- Authority
- CN
- China
- Prior art keywords
- noise
- calculating
- frame
- signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000005311 autocorrelation function Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005314 correlation function Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 101150050759 outI gene Proteins 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种复杂噪声场景下的实时语音段落追踪方法,包含以下步骤:A、预处理;B、计算输入音频帧的离散傅里叶变换系数,C、假设前帧为噪声帧,计算初始噪声的功率,即计算傅里叶变换幅度谱的算术平均值;假设帧后的数据为带噪信号,计算带噪信号的功率;D、计算后验信噪比;E、计算先验信噪比;F、语音激活检测;G、噪声谱更新;H、计算增益系数,先利用语段之间的段落噪声估计场景中平稳噪声的频谱属性,然后设计增益函数增强语音、抑制平稳噪声。在此基础上进行浊音检测,追踪语音段落,并屏蔽语段之间的各类噪声。这样可以提高语音检测的准确率,抑制语音段叠加的噪声,以及彻底屏蔽影响听感的语段间的噪声。
Description
技术领域
本发明涉及语音处理技术领域,具体是一种复杂噪声场景下的实时语音段落追踪方法。
背景技术
语音信号处理领域的工程实现要面对复杂的噪声场景,包括各种统计学特性不同的平稳噪声、瞬时噪声、时变噪声和强噪声等。使用近讲拾音设备进行语音采集、语音通信及语音识别时,背景噪声很容易被麦克风拾取,从听感方面对语音通信造成直接的影响,也会进一步影响后端语音识别等处理模块的性能。在复杂的噪声场景下,抑制混杂在语音中的稳态噪声、屏蔽语音段落间夹杂的其它类型噪声,追踪得到纯净的语音段落,能够有效地提高语音通信的听感,提高语音识别等后端处理模块的性能。统计学特性单一噪声场景下的语音追踪相对容易处理,而在复杂噪声场景下的语音段落追踪则是难点问题。
发明内容
本发明的目的在于提供一种复杂噪声场景下的实时语音段落追踪方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
A、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
F、语音激活检测;
G、噪声谱更新;
H、计算增益系数;
I、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
L、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。
作为本发明的进一步方案:所述步骤F具体是:对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比求取激活语音检测的判决参数v,若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱。判决参数v的计算方法为。
作为本发明的进一步方案:所述步骤M中,若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
与现有技术相比,本发明的有益效果是:本发明完整地追踪了语音段落,屏蔽语段外的噪声,对叠加在语音上的噪声也起到了抑制作用,增强了语音本身的听感效果。
附图说明
图1为语音叠加平稳噪声和瞬时噪声且噪声峰值超过60分贝的音频信号时域波形图;
图2为图1信号经过本实施例处理后的时域波形图;
图3为语音叠加平稳噪声和瞬时噪声且噪声峰值超过110分贝的音频信号时域波形图;
图4为图3信号经过本发明处理后的时域波形图;
图5为本实施例所述方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,实施例1:本发明实施例中,一种复杂噪声场景下的实时语音段落追踪方法,包含以下步骤:
A、预处理。对输入的音频信号分帧并加窗。取16ms(256个样点)数据为一帧xi(n),其中i为帧号。对其进行加窗,窗函数为汉明窗:
Yi(ωk)=Ykexp(jθy(k))
|Yi(ωk)|2;
D、计算后验信噪比γk=|Yi(ωk)|2/λd(k);
F、语音激活检测。由于噪声可能是短时平稳的,因此需要实时更新噪声谱,以保证噪声抑制的效果。对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比求取激活语音检测的判决参数v。若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱。判决参数v的计算方法为:
G、噪声谱更新。挑选出噪声帧后,按下式更新噪声谱:
H、计算增益系数。根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
其中exp(·)为以自然常数e为底的指数函数,expint(·)为以自然常数e为底的指数积分函数。
I、重建信号。计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号:
K、计算差分函数:
计算:
L、根据下列条件进行浊音判断:
计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1]。以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
图3和图5为经本发明方法处理过的音频时域波形,对比原始波形可以看到,在复杂噪声背景下,本方法完整地追踪了语音段落,屏蔽语段外的噪声,对叠加在语音上的噪声也起到了抑制作用,增强了语音本身的听感效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
A、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
D、计算后验信噪比γk=|Yi(ωk)|2/λd(k);
F、语音激活检测;所述步骤F具体是:对输入帧做语音激活检测,挑选出噪声帧;根据后验信噪比γk和先验信噪比求取激活语音检测的判决参数v,若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱;判决参数v的计算方法为:
H、计算增益系数;
I、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
L、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率;由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。
5.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,
所述步骤M中,若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029721.0A CN111261197B (zh) | 2020-01-13 | 2020-01-13 | 一种复杂噪声场景下的实时语音段落追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029721.0A CN111261197B (zh) | 2020-01-13 | 2020-01-13 | 一种复杂噪声场景下的实时语音段落追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111261197A CN111261197A (zh) | 2020-06-09 |
CN111261197B true CN111261197B (zh) | 2022-11-25 |
Family
ID=70950451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010029721.0A Active CN111261197B (zh) | 2020-01-13 | 2020-01-13 | 一种复杂噪声场景下的实时语音段落追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261197B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1130952A (zh) * | 1993-09-14 | 1996-09-11 | 英国电讯公司 | 语言活动性检测器 |
CN105845150A (zh) * | 2016-03-21 | 2016-08-10 | 福州瑞芯微电子股份有限公司 | 一种采用倒谱进行修正的语音增强方法及系统 |
CN107452363A (zh) * | 2017-07-03 | 2017-12-08 | 福建天泉教育科技有限公司 | 乐器校音方法及系统 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN108831504A (zh) * | 2018-06-13 | 2018-11-16 | 西安蜂语信息科技有限公司 | 基音周期的确定方法、装置、计算机设备和存储介质 |
CN110322898A (zh) * | 2019-05-28 | 2019-10-11 | 平安科技(深圳)有限公司 | 婴儿哭声检测方法、装置及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
FR3014237B1 (fr) * | 2013-12-02 | 2016-01-08 | Adeunis R F | Procede de detection de la voix |
-
2020
- 2020-01-13 CN CN202010029721.0A patent/CN111261197B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1130952A (zh) * | 1993-09-14 | 1996-09-11 | 英国电讯公司 | 语言活动性检测器 |
CN105845150A (zh) * | 2016-03-21 | 2016-08-10 | 福州瑞芯微电子股份有限公司 | 一种采用倒谱进行修正的语音增强方法及系统 |
CN107452363A (zh) * | 2017-07-03 | 2017-12-08 | 福建天泉教育科技有限公司 | 乐器校音方法及系统 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN108831504A (zh) * | 2018-06-13 | 2018-11-16 | 西安蜂语信息科技有限公司 | 基音周期的确定方法、装置、计算机设备和存储介质 |
CN110322898A (zh) * | 2019-05-28 | 2019-10-11 | 平安科技(深圳)有限公司 | 婴儿哭声检测方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
一种基于Hilbert-Huang变换的基音周期检测新方法;杨志华等;《计算机学报》;20060112(第01期);全文 * |
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别;曾毓敏等;《东南大学学报(自然科学版)》;20081120(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111261197A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2360685B1 (en) | Noise suppression | |
Nakatani et al. | Robust and accurate fundamental frequency estimation based on dominant harmonic components | |
EP1065656B1 (en) | Method for reducing noise in an input speech signal | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
Verteletskaya et al. | Noise reduction based on modified spectral subtraction method | |
Wolfe et al. | Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement | |
CN112750451A (zh) | 一种提升语音听感的降噪方法 | |
CN103295580A (zh) | 一种语音信号噪声抑制方法及装置 | |
Ambikairajah et al. | Wavelet transform-based speech enhancement | |
Cao et al. | Research on noise reduction algorithm based on combination of LMS filter and spectral subtraction | |
CN111261197B (zh) | 一种复杂噪声场景下的实时语音段落追踪方法 | |
Bahadur et al. | Performance measurement of a hybrid speech enhancement technique | |
Graupe et al. | Blind adaptive filtering of speech from noise of unknown spectrum using a virtual feedback configuration | |
Hamid et al. | Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT) | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
Srinivas et al. | A classification-based non-local means adaptive filtering for speech enhancement and its FPGA prototype | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
Islam et al. | Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation | |
Kumar et al. | FPGA Implementation of Dynamic Quantile Tracking based Noise Estimation for Speech Enhancement. | |
Zengyuan et al. | A speech denoising algorithm based on harmonic regeneration | |
Upadhyay et al. | Recursive noise estimation-based Wiener filtering for monaural speech enhancement | |
CN117995215B (zh) | 语音信号的处理方法、装置、计算机设备及存储介质 | |
Verteletskaya et al. | Enhanced spectral subtraction method for noise reduction with minimal speech distortion | |
Yu et al. | A Single-Channel Speech Enhancement Algorithm Combined with Time-Frequency Mask | |
Gbadamosi et al. | Development of non-parametric noise reduction algorithm for GSM voice signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |