[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111261197B - 一种复杂噪声场景下的实时语音段落追踪方法 - Google Patents

一种复杂噪声场景下的实时语音段落追踪方法 Download PDF

Info

Publication number
CN111261197B
CN111261197B CN202010029721.0A CN202010029721A CN111261197B CN 111261197 B CN111261197 B CN 111261197B CN 202010029721 A CN202010029721 A CN 202010029721A CN 111261197 B CN111261197 B CN 111261197B
Authority
CN
China
Prior art keywords
noise
calculating
frame
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010029721.0A
Other languages
English (en)
Other versions
CN111261197A (zh
Inventor
马翼平
张玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avic East China Photoelectric Shanghai Co ltd
Original Assignee
Avic East China Photoelectric Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avic East China Photoelectric Shanghai Co ltd filed Critical Avic East China Photoelectric Shanghai Co ltd
Priority to CN202010029721.0A priority Critical patent/CN111261197B/zh
Publication of CN111261197A publication Critical patent/CN111261197A/zh
Application granted granted Critical
Publication of CN111261197B publication Critical patent/CN111261197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种复杂噪声场景下的实时语音段落追踪方法,包含以下步骤:A、预处理;B、计算输入音频帧的离散傅里叶变换系数,C、假设前帧为噪声帧,计算初始噪声的功率,即计算傅里叶变换幅度谱的算术平均值;假设帧后的数据为带噪信号,计算带噪信号的功率;D、计算后验信噪比;E、计算先验信噪比;F、语音激活检测;G、噪声谱更新;H、计算增益系数,先利用语段之间的段落噪声估计场景中平稳噪声的频谱属性,然后设计增益函数增强语音、抑制平稳噪声。在此基础上进行浊音检测,追踪语音段落,并屏蔽语段之间的各类噪声。这样可以提高语音检测的准确率,抑制语音段叠加的噪声,以及彻底屏蔽影响听感的语段间的噪声。

Description

一种复杂噪声场景下的实时语音段落追踪方法
技术领域
本发明涉及语音处理技术领域,具体是一种复杂噪声场景下的实时语音段落追踪方法。
背景技术
语音信号处理领域的工程实现要面对复杂的噪声场景,包括各种统计学特性不同的平稳噪声、瞬时噪声、时变噪声和强噪声等。使用近讲拾音设备进行语音采集、语音通信及语音识别时,背景噪声很容易被麦克风拾取,从听感方面对语音通信造成直接的影响,也会进一步影响后端语音识别等处理模块的性能。在复杂的噪声场景下,抑制混杂在语音中的稳态噪声、屏蔽语音段落间夹杂的其它类型噪声,追踪得到纯净的语音段落,能够有效地提高语音通信的听感,提高语音识别等后端处理模块的性能。统计学特性单一噪声场景下的语音追踪相对容易处理,而在复杂噪声场景下的语音段落追踪则是难点问题。
发明内容
本发明的目的在于提供一种复杂噪声场景下的实时语音段落追踪方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
A、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
B、计算输入音频帧
Figure BDA0002363854900000011
的离散傅里叶变换系数Yik),其中k为频谱分量的标号;
C、假设前L帧为噪声帧,计算初始噪声的功率,即计算
Figure BDA0002363854900000012
傅里叶变换幅度谱的算术平均值;假设L帧后的数据为带噪信号,计算带噪信号的功率
Figure BDA0002363854900000013
D、计算后验信噪比
Figure BDA0002363854900000014
E、计算先验信噪比
Figure BDA0002363854900000021
Figure BDA0002363854900000022
F、语音激活检测;
G、噪声谱更新;
H、计算增益系数;
I、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
J、计算
Figure BDA0002363854900000023
的自相关函数
Figure BDA0002363854900000024
其中rt(τ)为延时为τ的自相关函数,N为窗长且1≤n≤N;
K、计算差分函数:
Figure BDA0002363854900000025
计算:
Figure BDA0002363854900000026
L、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。
作为本发明的进一步方案:所述步骤A中对输入的音频信号分帧并加窗,窗函数为汉明窗:
Figure BDA0002363854900000027
作为本发明的进一步方案:所述步骤F具体是:对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比
Figure BDA0002363854900000028
求取激活语音检测的判决参数v,若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱。判决参数v的计算方法为。
作为本发明的进一步方案:所述步骤G具体是:挑选出噪声帧后,按下式更新噪声谱:
Figure BDA0002363854900000031
作为本发明的进一步方案:所述步骤H具体是:根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
Figure BDA0002363854900000032
作为本发明的进一步方案:所述步骤I建好的函数为:
Figure BDA0002363854900000033
作为本发明的进一步方案:所述步骤M中,若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
与现有技术相比,本发明的有益效果是:本发明完整地追踪了语音段落,屏蔽语段外的噪声,对叠加在语音上的噪声也起到了抑制作用,增强了语音本身的听感效果。
附图说明
图1为语音叠加平稳噪声和瞬时噪声且噪声峰值超过60分贝的音频信号时域波形图;
图2为图1信号经过本实施例处理后的时域波形图;
图3为语音叠加平稳噪声和瞬时噪声且噪声峰值超过110分贝的音频信号时域波形图;
图4为图3信号经过本发明处理后的时域波形图;
图5为本实施例所述方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,实施例1:本发明实施例中,一种复杂噪声场景下的实时语音段落追踪方法,包含以下步骤:
A、预处理。对输入的音频信号分帧并加窗。取16ms(256个样点)数据为一帧xi(n),其中i为帧号。对其进行加窗,窗函数为汉明窗:
Figure BDA0002363854900000041
B、计算输入音频帧
Figure BDA0002363854900000042
的离散傅里叶变换系数Yik),其中k为频谱分量的标号:
Yik)=Ykexp(jθy(k))
C、假设前L帧为噪声帧,计算初始噪声的功率,即计算
Figure BDA0002363854900000043
傅里叶变换幅度谱的算术平均值:
Figure BDA0002363854900000044
假设L帧后的数据为带噪信号,计算带噪信号的功率
|Yik)|2
D、计算后验信噪比γk=|Yik)|2d(k);
E、计算先验信噪比
Figure BDA0002363854900000045
Figure BDA0002363854900000046
F、语音激活检测。由于噪声可能是短时平稳的,因此需要实时更新噪声谱,以保证噪声抑制的效果。对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比
Figure BDA0002363854900000047
求取激活语音检测的判决参数v。若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱。判决参数v的计算方法为:
Figure BDA0002363854900000048
G、噪声谱更新。挑选出噪声帧后,按下式更新噪声谱:
Figure BDA0002363854900000049
H、计算增益系数。根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
Figure BDA0002363854900000051
其中exp(·)为以自然常数e为底的指数函数,expint(·)为以自然常数e为底的指数积分函数。
I、重建信号。计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号:
Figure BDA0002363854900000052
J、计算
Figure BDA0002363854900000053
的自相关函数
Figure BDA0002363854900000054
其中rt(τ)为延时为τ的自相关函数,N为窗长且1≤n≤N;
K、计算差分函数:
Figure BDA0002363854900000055
计算:
Figure BDA0002363854900000056
L、根据下列条件进行浊音判断:
计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1]。以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
图3和图5为经本发明方法处理过的音频时域波形,对比原始波形可以看到,在复杂噪声背景下,本方法完整地追踪了语音段落,屏蔽语段外的噪声,对叠加在语音上的噪声也起到了抑制作用,增强了语音本身的听感效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
A、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
B、计算输入音频帧
Figure FDA0003885150610000011
的离散傅里叶变换系数Yi(ωk),其中k为频谱分量的标号;
C、假设前L帧为噪声帧,计算初始噪声的功率,即计算
Figure FDA0003885150610000012
傅里叶变换幅度谱的算术平均值;假设L帧后的数据为带噪信号,计算带噪信号的功率|Yi(ωk)|2
D、计算后验信噪比γk=|Yi(ωk)|2d(k);
E、计算先验信噪比
Figure FDA0003885150610000013
Figure FDA0003885150610000014
F、语音激活检测;所述步骤F具体是:对输入帧做语音激活检测,挑选出噪声帧;根据后验信噪比γk和先验信噪比
Figure FDA0003885150610000015
求取激活语音检测的判决参数v,若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱;判决参数v的计算方法为:
Figure FDA0003885150610000016
G、噪声谱更新;所述步骤G具体是:挑选出噪声帧后,按下式更新噪声谱:
Figure FDA0003885150610000017
H、计算增益系数;
I、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
J、计算
Figure FDA0003885150610000018
的自相关函数
Figure FDA0003885150610000019
其中rt(τ)为延时为τ的自相关函数,N为窗长且1≤n≤N;
K、计算差分函数:
Figure FDA0003885150610000021
计算:
Figure FDA0003885150610000022
L、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率;由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。
2.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,
所述步骤A中对输入的音频信号分帧并加窗,窗函数为汉明窗:
Figure FDA0003885150610000023
3.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,
所述步骤H具体是:根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
Figure FDA0003885150610000024
4.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,
所述步骤I建好的函数为:
Figure FDA0003885150610000025
5.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,
所述步骤M中,若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
CN202010029721.0A 2020-01-13 2020-01-13 一种复杂噪声场景下的实时语音段落追踪方法 Active CN111261197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010029721.0A CN111261197B (zh) 2020-01-13 2020-01-13 一种复杂噪声场景下的实时语音段落追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010029721.0A CN111261197B (zh) 2020-01-13 2020-01-13 一种复杂噪声场景下的实时语音段落追踪方法

Publications (2)

Publication Number Publication Date
CN111261197A CN111261197A (zh) 2020-06-09
CN111261197B true CN111261197B (zh) 2022-11-25

Family

ID=70950451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010029721.0A Active CN111261197B (zh) 2020-01-13 2020-01-13 一种复杂噪声场景下的实时语音段落追踪方法

Country Status (1)

Country Link
CN (1) CN111261197B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1130952A (zh) * 1993-09-14 1996-09-11 英国电讯公司 语言活动性检测器
CN105845150A (zh) * 2016-03-21 2016-08-10 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN107452363A (zh) * 2017-07-03 2017-12-08 福建天泉教育科技有限公司 乐器校音方法及系统
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108831504A (zh) * 2018-06-13 2018-11-16 西安蜂语信息科技有限公司 基音周期的确定方法、装置、计算机设备和存储介质
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备
FR3014237B1 (fr) * 2013-12-02 2016-01-08 Adeunis R F Procede de detection de la voix

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1130952A (zh) * 1993-09-14 1996-09-11 英国电讯公司 语言活动性检测器
CN105845150A (zh) * 2016-03-21 2016-08-10 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN107452363A (zh) * 2017-07-03 2017-12-08 福建天泉教育科技有限公司 乐器校音方法及系统
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108831504A (zh) * 2018-06-13 2018-11-16 西安蜂语信息科技有限公司 基音周期的确定方法、装置、计算机设备和存储介质
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于Hilbert-Huang变换的基音周期检测新方法;杨志华等;《计算机学报》;20060112(第01期);全文 *
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别;曾毓敏等;《东南大学学报(自然科学版)》;20081120(第06期);全文 *

Also Published As

Publication number Publication date
CN111261197A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
EP2360685B1 (en) Noise suppression
Nakatani et al. Robust and accurate fundamental frequency estimation based on dominant harmonic components
EP1065656B1 (en) Method for reducing noise in an input speech signal
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
Wolfe et al. Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement
CN112750451A (zh) 一种提升语音听感的降噪方法
CN103295580A (zh) 一种语音信号噪声抑制方法及装置
Ambikairajah et al. Wavelet transform-based speech enhancement
Cao et al. Research on noise reduction algorithm based on combination of LMS filter and spectral subtraction
CN111261197B (zh) 一种复杂噪声场景下的实时语音段落追踪方法
Bahadur et al. Performance measurement of a hybrid speech enhancement technique
Graupe et al. Blind adaptive filtering of speech from noise of unknown spectrum using a virtual feedback configuration
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Srinivas et al. A classification-based non-local means adaptive filtering for speech enhancement and its FPGA prototype
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Islam et al. Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation
Kumar et al. FPGA Implementation of Dynamic Quantile Tracking based Noise Estimation for Speech Enhancement.
Zengyuan et al. A speech denoising algorithm based on harmonic regeneration
Upadhyay et al. Recursive noise estimation-based Wiener filtering for monaural speech enhancement
CN117995215B (zh) 语音信号的处理方法、装置、计算机设备及存储介质
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion
Yu et al. A Single-Channel Speech Enhancement Algorithm Combined with Time-Frequency Mask
Gbadamosi et al. Development of non-parametric noise reduction algorithm for GSM voice signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant