[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN117351986A - 一种噪声抑制方法及装置 - Google Patents

一种噪声抑制方法及装置 Download PDF

Info

Publication number
CN117351986A
CN117351986A CN202311530092.XA CN202311530092A CN117351986A CN 117351986 A CN117351986 A CN 117351986A CN 202311530092 A CN202311530092 A CN 202311530092A CN 117351986 A CN117351986 A CN 117351986A
Authority
CN
China
Prior art keywords
mel
noise
frequency
noise suppression
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311530092.XA
Other languages
English (en)
Inventor
邹灵琦
董鹏宇
居彩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fullhan Microelectronics Co ltd
Original Assignee
Shanghai Fullhan Microelectronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fullhan Microelectronics Co ltd filed Critical Shanghai Fullhan Microelectronics Co ltd
Priority to CN202311530092.XA priority Critical patent/CN117351986A/zh
Publication of CN117351986A publication Critical patent/CN117351986A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种噪声抑制方法及装置,属于音频处理技术领域,该噪声抑制方法,包括以下步骤:信号预处理,对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱;噪声估计,基于最小值跟踪法和NN‑VAD估计噪声,利用预设参数对不同频带进行噪声估计修正;噪声抑制,使用OM‑LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。通过对带噪的麦克风信号进行梅尔频带划分,然后利用基于最小值跟踪法结合NN‑VAD进行频带噪声估计,通过OM‑LSA进行频带增强增益的计算,保证了对噪声抑制的效果。

Description

一种噪声抑制方法及装置
技术领域
本发明涉及音频处理技术领域,特别涉及一种噪声抑制方法及装置。
背景技术
语音增强技术,通常是指对语音信号进行降噪处理,在通讯技术日益发达的今天,有着非常广泛的应用场景。在传统语音增强技术中,可以通过诸如分位数估计的方法估计噪声成分并通过谱减法、维纳滤波器等去除噪声,然而噪声抑制的过程中如果对噪声的抑制不强,会残留较多的噪声,如果对噪声的抑制过强,也会损失语音的质量。
需要说明的是,公开于该发明背景技术部分的信息仅仅旨在加深对本发明一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种噪声抑制方法及装置,以解决现有噪声抑制方法对噪声抑制程度难以控制的问题。
为解决上述技术问题,本发明提供一种噪声抑制方法,包括以下步骤:
信号预处理,对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱;
噪声估计,基于最小值跟踪法和NN-VAD估计噪声,利用预设参数对不同频带进行噪声估计修正;
噪声抑制,使用OM-LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。
优选地,基于最小值跟踪法和NN-VAD估计噪声包括:
对所述梅尔频带功率谱进行帧间平滑,使用改进的最小值跟踪法,即采用如下公式结合相邻频带获得频带的最小值:
Emin(bi,t)=Min(Emin(bi,t-1),Emel‘(bi-1,t),
Emel‘(bi,t),Emel‘(bi+1,t))
其中,Emel‘(bi,t)为当前时刻t的第i个梅尔频带功率谱,Emel‘(bi,t-1)为上一时刻t-1的第i个梅尔频带功率谱;Emel‘(bi+1,t)为当前时刻t的第i+1个梅尔频带功率谱,Emin(bi,t-1)为上一时刻t-1的最小值。
优选地,在获得频带的最小值后,计算语音存在概率的估计值:
其中,thr、beta为预设的常数门限,Emel(bi,t)表示当前时刻t的第i个梅尔频带功率谱;Emin(bi,t)为频带的最小值。
优选地,使用NN-VAD的结果对所述语音存在概率的估计值进行修正:
P′speech(bi,t)=Pspeech(bi,t)*PNN(t)
其中,PNN(t)为NN-VAD输出的当前帧为语音的概率,Pspeech(bi,t)为所述语音存在概率的估计值;
根据所述语音存在概率利用一阶递归计算噪声频带功率谱的估计值;
使用所述预设参数进行所述噪声频带功率谱的估计值的修正:
其中,λ(bi)为各个频带的噪声估计修正因子,λ(bi)取值范围为(0,10]。
优选地,使用OM-LSA计算梅尔频带增强增益的过程包括:计算先验信噪比和后验信噪比:
其中,γ是后验信噪比,是修正后的所述噪声频带功率谱的估计值,Emel(bi,t)表示t时刻的第i个梅尔频带功率谱,η是先验信噪比,aη是预设平滑常数,GH1(bi,t一1)是上一时刻计算得到的语音存在时的增益,GH1的计算公式如下:
其中,
再进行先验信噪比的平滑:
ξ(bi,t)=αξξ(bi,t-1)+(1-αξ)η(bi,t)
其中αξ为预设的平滑因子。
优选地,在计算先验信噪比和后验信噪比后,计算各频带和全频带的语音存在概率:
其中,Plocal(bi,t)为各频带的语音存在概率,Pframe(t)为全频带的语音存在概率,thrll、thrlu、thrfl、thrfu均为预设门限值,Pmin为预设的较小常量;为ξ(bi,t)转化为dB的表示:
为ξ(bi,t)取均值后转化为dB的表示:
优选地,修正所述各频带的语音存在概率:
Plocal‘(bi,t)=Plocal(bi,t)*alphalocal,i=[lstart,lend]
其中,alphalocal为预设常数,alphalocal∈(0,1);
由所述各频带的语音存在概率和所述全频带的语音存在概率得到语音不存在概率:
其中,qmax为预设常量,qmax<1。
优选地,使用所述语音不存在概率计算所述梅尔频带增强增益:
其中,Gmin是预设最小增益,p(bi,t)的计算公式如下:
优选地,将得到的所述梅尔频带增强增益经过三角滤波器组计算得到每个频点的增益:
其中,Gmel(bi,t)为所述梅尔频带增强增益,a(bi,ωk,t)表示第i个梅尔频带对应的频点k的滤波器系数。
一种噪声抑制装置,包括:
信号预处理模块,用于对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱;
噪声估计模块,用于基于最小值跟踪法和NN-VAD估计噪声,利用预设参数对不同频带进行噪声估计修正;
噪声抑制模块,用于使用OM-LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。
在本发明提供的噪声抑制方法中,通过对带噪的麦克风信号进行梅尔频带划分,然后利用基于最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合神经网络语音活动检测(NN-VAD)进行频带噪声估计,通过最优改进对数幅度谱估计(OM-LSA)进行频带增强增益的计算,保证了对噪声抑制的效果。
本发明提供的噪声抑制装置与本发明提供的噪声抑制方法属于同一发明构思,因此,本发明提供的噪声抑制装置至少具有本发明提供的噪声抑制方法的所有优点,在此不再赘述。进一步的,通过引入表征人耳听觉感知特性的梅尔频带功率谱,利用最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合NN-VAD进行频带噪声,还通预设参数进行噪声估计修正,便于调整噪声抑制的强弱。
附图说明
图1是本发明一实施例提供的噪声抑制的总体流程图;
图2是本发明一实施例提供的的信号预处理模块的方法流程图;
图3是本发明一实施例提供的噪声估计模块的方法流程图;
图4是本发明一实施例提供的噪声抑制模块的方法流程图。
具体实施方式
以下结合附图和具体实施例对本发明提出的噪声抑制方法及装置作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。应当了解,说明书附图并不一定按比例地显示本发明的具体结构,并且在说明书附图中用于说明本发明某些原理的图示性特征也会采取略微简化的画法。本文所公开的本发明的具体设计特征包括例如具体尺寸、方向、位置和外形将部分地由具体所要应用和使用的环境来确定。以及,在以下说明的实施方式中,有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分,而省略其重复说明。在本说明书中,使用相似的标号和字母表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
发明人研究发现,现有的噪声抑制方法大致如下:时频变换获取频域信号;基于最小值递归、分位数等的噪声估计;后验信噪比的计算和先验信噪比的估计;基于谱减法、维纳滤波等的语音增强增益的计算;将带噪音频的原始频域信号实部和虚部与噪声抑制增益相乘后逆变换回时域中。上述方法对噪声的抑制强度难以控制,影响输出语音质量。
基于此,本发明实的核心思想在于,通过引入表征人耳听觉感知特性的梅尔频带功率谱,利用最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合NN-VAD进行频带噪声,还通预设参数进行噪声估计修正,便于调整噪声抑制的强弱。
具体的,请参考图1所示,一种噪声抑制方法,包括以下步骤:
S1,信号预处理,对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱。
S2,噪声估计,基于最小值跟踪法和NN-VAD估计噪声,利用预设参数对不同频带进行噪声估计修正。
S3,噪声抑制,使用OM-LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。
对带噪语音信号进行梅尔频带划分,然后基于最小值跟踪法(改进的最小值控制的递归平均算法MMCRA)结合神经网络语音活动检测(NN-VAD)进行频带噪声估计,通过最优改进对数幅度谱估计(OM-LSA)进行频带增强增益的计算,保证了对噪声抑制的效果。
在S1进行信号预处理时,将采集的麦克风信号进行频域变换,即对t时刻且帧长为N的时域信号进行短时傅里叶变换得到频域信号及其功率谱,见公式1:
表示频点序列号。之后将梅尔滤波器组乘以功率谱,得到基于人耳感知的实时梅尔频带功率谱,见公式2:
其中Emel(bi,t)表示t时刻的第i个梅尔频带功率谱,bi_start和bi_end分别表示第i个梅尔频带功率谱对应的起始频点和结束频点;a(bi,ωk,t)表示第i个梅尔频带功率谱对应的频点k的滤波器系数。
在一种示例中,进行分频带噪声估计时,还对获得的梅尔频带功率谱进行帧间平滑,常见的平滑方法有IIR滤波法和FIR滤波法,这里仅以IIR滤波法为例:
Emel‘(bi,t)=αYEmel‘(bi,t-1)+(1-αY)Emel(bi,t) (3)
上述公式中的,α为按照经验预先设定常数,Emel‘(bi,t)为平滑处理后的当前时刻t的梅尔频带功率谱,Emel‘(bi,t-1)为平滑处理后的上一时刻t-1的梅尔频带功率谱。
具体的,在S2中,基于最小值跟踪法和NN-VAD估计噪声包括:
在得到平滑后的梅尔频带功率谱后,对所述梅尔频带功率谱进行帧间平滑,使用改进的最小值跟踪法,即采用如下公式结合相邻频带获得频带的最小值:
Emin(bi,t)=Min(Emin(bi,t-1),Emel(bi-1,t),
Emel‘(bi,t),Emel‘(bi+1,t)) (4)
其中,Emel‘(bi,t)为当前时刻t的第i个梅尔频带功率谱,Emel‘(bi,t-1)为上一时刻t-1的第i个梅尔频带功率谱;Emel‘(bi+1,t)为当前时刻t的第i+1个梅尔频带功率谱,Emin(bi,t-1)为上一时刻t-1的最小值。为减少频谱泄露带来的影响,区别于一般的最小值跟踪法只跟踪单一频点上的最小值,采用上述公式4的方式结合相邻频带进行最小值跟踪。
具体的,在获得频带的最小值后,计算语音存在概率的估计值:
其中,thr、beta为预设的常数门限,Emel(bi,t)表示当前时刻t的第i个梅尔频带功率谱;Emin(bi,t)为频带的最小值。
在一种实施方式中,使用NN-VAD的结果对所述语音存在概率的估计值进行修正:
P‘speech(bi,t)=Pspeech(bi,t)*PNN(t) (6)
其中,PNN(t)为NN-VAD输出的当前帧为语音的概率,Pspeech(bi,t)为所述语音存在概率的估计值。在得到修正后的语音存在概率的估计值后,根据所述语音存在概率利用一阶递归计算噪声频带功率谱的估计值,具体的,采用如下公示表7通过一阶IIR平滑得到频带噪声功率谱:
其中,αd为预设的平滑常数。进一步的,可以根据经验或者实际场景中获得的关于噪声分布的先验知识按照不同频带进行噪声估计的修正,使用所述预设参数进行所述噪声频带功率谱的估计值的修正:
其中,λ(bi)为各个频带的噪声估计修正因子,λ(bi)取值范围为(0,10]。
可以理解的,使用OM-LSA计算梅尔频带增强增益的过程包括:计算先验信噪比和后验信噪比:
其中,γ是后验信噪比,是修正后的所述噪声频带功率谱的估计值,Emel(bi,t)表示t时刻的第i个梅尔频带功率谱,η是先验信噪比,aη是预设平滑常数,GH1(bi,t-1)是上一时刻计算得到的语音存在时的增益,GH1的计算公式如下:
其中,在计算完当前帧的先验信噪比后,再进行先验信噪比的平滑:
ξ(bi,t)=αξξ(bi,t-1)+(1-αξ)η(bi,t) (12)
其中αξ为预设的平滑因子。在计算先验信噪比和后验信噪比后,计算各频带和全频带的语音存在概率:
其中,Plocal(bi,t)为各频带的语音存在概率,Pframe(t)为全频带的语音存在概率,thrll、thrlu、thrfl、thrfu均为预设门限值,Pmin为预设的较小常量;为ξ(bi,t)转化为dB的表示:
为ξ(bi,t)取均值后转化为dB的表示:
在一种实施方式中,还可抽取感兴趣频带的语音存在概率均值和门限相比较的结果,从而进一步地修正频带语音存在概率,语音存在概率均值如下:
此外,修正所述各频带的语音存在概率:
Plocal‘(bi,t)=Plocal(bi,t)*alphalocal,i=[lstart,lend] (18)
其中,alphalocal为预设常数,alphalocal∈(0,1),alphalocal取值范围在0到1之间。
由所述各频带的语音存在概率和所述全频带的语音存在概率得到语音不存在概率:
其中,qmax为预设常量,qmax<1,qmax略小于1。最后,使用所述语音不存在概率计算所述梅尔频带增强增益:
其中,Gmin是预设最小增益,p(bi,t)的计算公式如下:
将得到的所述梅尔频带增强增益经过三角滤波器组计算得到每个频点的增益:
其中,Gmel(bi,t)为所述梅尔频带语音增强增益,a(bi,ωk,t)表示第i个梅尔频带对应的频点k的滤波器系数。
最后,将初始带噪的麦克风信号和计算得到的上述频点增益相乘得到噪声抑制后的频域信号,最后经过逆短时傅里叶变换回时域得到经过噪声抑制的时域信号。
如图2-图4所示,本发明还提供了一种噪声抑制装置,包括:
信号预处理模块,用于对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱。
噪声估计模块,用于基于最小值跟踪法和NN-VAD估计噪声,利用预设参数对不同频带进行噪声估计修正。
噪声抑制模块,用于使用OM-LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。
如图1所示,信号预处理模块将接收到的麦克风信号转换到频域并进行处理;在噪声估计模块中基于最小值跟踪法和NN-VAD估计噪声,利用预设参数进行噪声估计修正;噪声抑制模块中获得计算梅尔频带增强增益,然后获得每个频点的增益和麦克风信号的频点相乘获得噪声抑制后的频域信号,将频域信号进行逆傅里叶变换,得到噪声抑制后的时域信号。
具体的,如图2所示,在信号预处理模块中,将时域信号进行短时傅里叶变换得到频域信号,计算频域信号的功率谱,再将功率谱经过梅尔频带滤波器组得到梅尔频带功率谱。
其中,图3是本发明提供的噪声估计模块的详细流程图。在噪声估计模块中,先使用IIR滤波器对帧间进行平滑,得到平滑后的频带功率谱,获取相邻频带的最小值,结合相邻频带进行最小值跟踪,和预设的门限进行比较,得到语音存在概率的估计值,利用NN-VAD的结果进行语音存在概率的修正,还利用一阶递归平滑估计噪声频带功率谱,使用预设参数进行噪声频带功率谱估计的修正。
如图4所示的噪声抑制模块的详细流程图。具体包括以下步骤:计算后验信噪比和先验信噪比;根据平滑后的先验信噪比估计语音存在概率,根据若干感兴趣的频带语音存在概率的均值,修正语音存在概率;计算语音不存在概率;基于OMLSA方法计算频带增强增益;将频带增益经过梅尔频带滤波器组得到频点增益;将初始带噪信号的频点和计算得到的频点增益相乘得到噪声抑制后的频域信号;将噪声抑制后的频域信号经过逆短时傅里叶变换得到噪声抑制后的时域信号。
综上可见,在本发明实施例提供的噪声抑制方法及装置中,通过对带噪的麦克风信号进行梅尔频带划分,然后利用基于改进的最小值控制的递归平均算法(MMCRA)结合神经网络语音活动检测(NN-VAD)进行频带噪声估计,通过最优改进对数幅度谱估计(OM-LSA)进行频带增强增益的计算,使用了预设参数及多类常数门限对估计值进行修正,保证了对噪声抑制的效果,另外结合相邻频带进行最小值跟踪,有效减少了频谱泄露带来的影响。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

1.一种噪声抑制方法,其特征在于,包括以下步骤:
信号预处理,对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱;
噪声估计,基于最小值跟踪法和NN-VAD估计噪声,利用预设参数对不同频带进行噪声估计修正;
噪声抑制,使用OM-LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。
2.如权利要求1所述的噪声抑制方法,其特征在于,基于最小值跟踪法和NN-VAD估计噪声包括:
对所述梅尔频带功率谱进行帧间平滑,使用改进的最小值跟踪法,即采用如下公式结合相邻频带获得频带的最小值:
Emin(bi,t)=Min(Emin(bi,t-1),Emel(bi-1,t),
Emel′(bi,t),Emel′(bi+1,t))
其中,Emel′(bi,t)为当前时刻t的第i个梅尔频带功率谱,Emel′(bi,t-1)为上一时刻t-1的第i个梅尔频带功率谱;Emel′(bi+1,t)为当前时刻t的第i+1个梅尔频带功率谱,Emin(bi,t-1)为上一时刻t-1的最小值。
3.如权利要求2所述的噪声抑制方法,其特征在于,在获得频带的最小值后,计算语音存在概率的估计值:
其中,thr、beta为预设的常数门限,Emel(bi,t)表示当前时刻t的第i个梅尔频带功率谱;Emin(bi,t)为频带的最小值。
4.如权利要求3所述的噪声抑制方法,其特征在于,使用NN-VAD的结果对所述语音存在概率的估计值进行修正:
P′speech(bi,t)=Pspeech(bi,t)*PNN(t)
其中,PNN(t)为NN-VAD输出的当前帧为语音的概率,Pspeech(bi,t)为所述语音存在概率的估计值;
根据所述语音存在概率利用一阶递归计算噪声频带功率谱的估计值;
使用所述预设参数进行所述噪声频带功率谱的估计值的修正:
其中,λ(bi)为各个频带的噪声估计修正因子,λ(bi)取值范围为(0,10]。
5.如权利要求4所述的噪声抑制方法,其特征在于,使用OM-LSA计算梅尔频带增强增益的过程包括:计算先验信噪比和后验信噪比:
其中,γ是后验信噪比,是修正后的所述噪声频带功率谱的估计值,Emel(bi,t)表示t时刻的第i个梅尔频带功率谱,η是先验信噪比,aη是预设平滑常数,GH1(bi,t-1)是上一时刻计算得到的语音存在时的增益,GH1的计算公式如下:
其中,
再进行先验信噪比的平滑:
ξ(bi,t)=αξξ(bi,t-1)+(1-αξ)η(bi,t)
其中αξ为预设的平滑因子。
6.如权利要求5所述的噪声抑制方法,其特征在于,在计算先验信噪比和后验信噪比后,计算各频带和全频带的语音存在概率:
其中,Plocal(bi,t)为各频带的语音存在概率,Pframe(t)为全频带的语音存在概率,thrll、thrlu、thrfl、thrfu均为预设门限值,Pmin为预设的较小常量;为ξ(bi,t)转化为dB的表示:
为ξ(bi,t)取均值后转化为dB的表示:
7.如权利要求6所述的噪声抑制方法,其特征在于,修正所述各频带的语音存在概率:
Plocalη(bi,t)=Plocal(bi,t)*alphalocal,i=[lstart,lend]
其中,alphalocal为预设常数,alphalocal∈(0,1);
由所述各频带的语音存在概率和所述全频带的语音存在概率得到语音不存在概率:
其中,qmax为预设常量,qmax<1。
8.如权利要求7所述的噪声抑制方法,其特征在于,使用所述语音不存在概率计算所述梅尔频带增强增益:
其中,Gmin是预设最小增益,p(bi,t)的计算公式如下:
9.如权利要求8所述的噪声抑制方法,其特征在于,将得到的所述梅尔频带增强增益经过三角滤波器组计算得到每个频点的增益:
其中,Gmel(bi,t)为所述梅尔频带增强增益,a(bi,ωk,t)表示第i个梅尔频带对应的频点k的滤波器系数。
10.一种噪声抑制装置,其特征在于,包括:
信号预处理模块,用于对获得的麦克风信号进行时频变换,计算其梅尔频带功率谱;
噪声估计模块,用于基于最小值跟踪法和NN-VAD估计噪声,利用预设参数对不同频带进行噪声估计修正;
噪声抑制模块,用于使用OM-LSA计算梅尔频带增强增益,获得每个频点的增益并和所述麦克风信号的频点相乘获得噪声抑制后的频域信号,将所述频域信号经过逆变换得到噪声抑制后的时域信号。
CN202311530092.XA 2023-11-16 2023-11-16 一种噪声抑制方法及装置 Pending CN117351986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311530092.XA CN117351986A (zh) 2023-11-16 2023-11-16 一种噪声抑制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311530092.XA CN117351986A (zh) 2023-11-16 2023-11-16 一种噪声抑制方法及装置

Publications (1)

Publication Number Publication Date
CN117351986A true CN117351986A (zh) 2024-01-05

Family

ID=89371154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311530092.XA Pending CN117351986A (zh) 2023-11-16 2023-11-16 一种噪声抑制方法及装置

Country Status (1)

Country Link
CN (1) CN117351986A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118471246A (zh) * 2024-07-09 2024-08-09 杭州知聊信息技术有限公司 基于人工智能的音频分析降噪方法、系统及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118471246A (zh) * 2024-07-09 2024-08-09 杭州知聊信息技术有限公司 基于人工智能的音频分析降噪方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN108831499B (zh) 利用语音存在概率的语音增强方法
CN108735213B (zh) 一种基于相位补偿的语音增强方法及系统
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
EP1794749B1 (en) Method of cascading noise reduction algorithms to avoid speech distortion
US6687669B1 (en) Method of reducing voice signal interference
DE69531710T2 (de) Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
US8010355B2 (en) Low complexity noise reduction method
CN108735225A (zh) 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
Lin et al. Adaptive noise estimation algorithm for speech enhancement
CN110634500B (zh) 一种先验信噪比的计算方法、电子设备及存储介质
CN110310656A (zh) 一种语音增强方法
CN109961799A (zh) 一种基于迭代维纳滤波的助听器多通道语音增强算法
JP3459363B2 (ja) 雑音低減処理方法、その装置及びプログラム記憶媒体
CN112602150B (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN113539285A (zh) 音频信号降噪方法、电子装置和存储介质
CN117351986A (zh) 一种噪声抑制方法及装置
JP4757775B2 (ja) 雑音抑圧装置
JP3454403B2 (ja) 帯域分割型雑音低減方法及び装置
JP3454402B2 (ja) 帯域分割型雑音低減方法
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
CN105869652B (zh) 心理声学模型计算方法和装置
KR20050053139A (ko) 피크 및 딥 성분을 이용한 음장 보정 방법 및 그 장치
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端
CN107045874A (zh) 一种基于相关性的非线性语音增强方法
Upadhyay et al. Spectral subtractive-type algorithms for enhancement of noisy speech: an integrative review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination