[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108922554B - 基于对数谱估计的lcmv频率不变波束形成语音增强算法 - Google Patents

基于对数谱估计的lcmv频率不变波束形成语音增强算法 Download PDF

Info

Publication number
CN108922554B
CN108922554B CN201810562313.4A CN201810562313A CN108922554B CN 108922554 B CN108922554 B CN 108922554B CN 201810562313 A CN201810562313 A CN 201810562313A CN 108922554 B CN108922554 B CN 108922554B
Authority
CN
China
Prior art keywords
speech
signal
frequency
noise
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810562313.4A
Other languages
English (en)
Other versions
CN108922554A (zh
Inventor
郭业才
王婷
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201810562313.4A priority Critical patent/CN108922554B/zh
Publication of CN108922554A publication Critical patent/CN108922554A/zh
Application granted granted Critical
Publication of CN108922554B publication Critical patent/CN108922554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

本发明公开了一种基于对数谱估计的LCMV频率不变波束形成语音增强算法,其特征在于,包括如下步骤:一、利用线性约束最小方差频率不变波束形成算法无失真接收语音信号并对语音信号进行空域滤波;二、利用优化修正对数谱估计算法抑制与理想信号来自同一方向的残余噪声。本发明利用线性约束最小方差频率不变波束形成算法无失真接收语音信号的特性并对接收信号进行空域滤波;当瞬时干扰和语音来自同一方向时,利用OM‑LSA噪声估计算法,准确跟踪输入中快速变化的信号,能够有效地估计瞬态信号的功率谱,进而抑制瞬时干扰;实验仿真表明该算法具有较好的鲁棒性,能有效地瞬态抑制干扰和背景噪声,达到语音增强的目的。

Description

基于对数谱估计的LCMV频率不变波束形成语音增强算法
技术领域
本发明涉及阵列信号处理方法,尤其涉及一种基于对数谱估计的LCMV频率不变波束形成语音增强算法。
背景技术
语音是人类日常生活中进行信息交换使用最广泛的工具,但在实际环境中,语音总会受到环境噪声的干扰,降低语音质量,所以有必要对被噪声干扰的语音信号进行去噪处理,即语音增强。其应用领域非常普遍,如:数字移动电话、远程电视电话会议、为听力障碍者降低背景干扰、声音识别等都要用到这项技术。
70-80年代,经典的语音增强算法有:维纳滤波法、谱减法、Malah和Ephraim提出的基于最小均方误差估计的短时幅度谱方法(Minimum Mean-Square Error,MMSE)。但这些经典算法用于非平稳噪声场景下时,语音增强效果会受到很大影响,2001年Baruch Berdugo通过利用子带中的语音存在概率函数,对平均功率谱值进行估计,提出最佳修正对数谱幅度语音估计方法(Optimally-Modied Log-Spectral Amplitude,OM-LSA)和最小控制递归平均噪声估计方法(Minima Controlled Recursive Averaging,MCRA),并应用于非平稳噪声情景中。2003年,Israel Cohen对平滑参数进行改进,调整信号存在概率提出了一种改进的最小控制递归平均方法(Improved Minima Controlled Recursive Averaging,IMCRA),并应用在非平稳噪声环境下条件下。2012年Israel Cohen将OM-LSA算法进行扩展,提出一种抑制瞬态干扰和为平稳噪声的语音增强算法。随着麦克风阵列信号处理的发展,波束形成算法越来越多地被应用到语音增强算法中,王东霞,曾庆宁,Weiss等诸多学者将宽带波束形成技术用于语音增强方面,如混响抑制、低信噪比情况下语音增强、声源定位等,Benesty和S.Siva Priyanka在最新研究成果中对波束形成用于语音增强算法的发展历程做了综述,并且对各种算法进行了仿真对比,为以后的研究奠定了基础。
发明内容
发明目的:针对现有技术存在的问题,本发明的目的在于提供一种将波束形成算法与对数谱估计算法相结合的基于对数谱估计的LCMV频率不变波束形成语音增强算法,利用线性约束最小方差频率不变波束形成算法无失真接收语音信号的特性并对接收信号进行空域滤波;当瞬时干扰和语音来自同一方向时,利用OM-LSA噪声估计算法,准确跟踪输入中快速变化的信号,能够有效地估计瞬态信号的功率谱,进而抑制瞬时干扰。
技术方案:一种基于对数谱估计的LCMV频率不变波束形成语音增强算法,其特征在于,包括如下步骤:
步骤一、利用线性约束最小方差频率不变波束形成算法无失真接收语音信号并对语音信号进行空域滤波;
步骤二、利用优化修正对数谱估计算法抑制与理想信号来自同一方向的残余噪声,达到语音增强的目的。
所述步骤一中,麦克风阵列响应最优权向量wopt的获取步骤如下:
(1.1)将线性约束最小方差波束形成问题表示为:
Figure GDA0001738819320000021
其中,min表示取最小值;s.t.表示约束条件,Rxx为麦克风接收数据协方差矩阵;C为约束矩阵,w为权向量,F为阵列响应向量,满足某一元素为1,不满足则为0,()H表示矩阵的共轭转置;
(1.2)定义空间响应偏差函数表示为:
Figure GDA0001738819320000022
其中,a(f,θ)为频率为f,角度为θ的导向矢量,a(fr,θ)为在参考频率点fr处沿θ方向入射时的导向矢量;通过等间隔选取角度和频率信息,将空间响应偏差函数写为离散形式,有:
Figure GDA0001738819320000023
其中,fr表示参考频率;P和K分别表示频率和角度离散点数;wHQ1w与最小方差约束wHRxxw具有相同的形式,通过设置权重因子对两个目标wHQ1w,wHRxxw同时进行优化;
(1.3)将具有频率不变特性的宽带LCMV波束形成算法描述为:
min wH[ρRxx+(1-ρ)Q1]w
s.t.wHa(fr0)=1
其中,频率不变约束参数ρ满足0≤ρ≤1;θ0为期望信号入射方向;a(fr0)为算法在参考频率点fr处沿θ0方向入射时的导向矢量,通过参考频率点在期望方向上的约束增益来实现算法在期望方向的无失真输出,即wHa(fr0)=1。
(1.4)利用拉格朗日乘子法,求解步骤(1.3)中具有频率不变特性的宽带LCMV波束形成算法最优权矢量得:
Figure GDA0001738819320000031
所述步骤二包括增益函数估计和噪声估计。
其中,增益函数估计的具体步骤为:
假设语音信号和瞬时干扰是相互独立的,则波束形成后语音y(n)表示为:
y(n)=x(n)+d(n)
其中,x(n)是纯净语音,d(n)是瞬时干扰信号;为了避免分帧产生的截断效应,在短时傅立叶变换之前加上汉明窗进行加窗分帧处理,帧长为N,帧移为M=N/2,然后再进行短时傅里叶变换,得到:
Y(k,l)=X(k,l)+D(k,l)
Y(k,l),X(k,l),D(k,l)分辨表示第l帧语音进行短时傅立叶变换后的第k个频谱分量,其中k=1,2,…,N;
对数谱估计(LSA)准则表达式为:
Figure GDA0001738819320000032
其中,
Figure GDA0001738819320000033
为A(k,l)语音频谱的估计值;
假设两个函数分别为:
H0(k,l):Y(k,l)=D(k,l)
H1(k,l):Y(k,l)=X(k,l)+D(k,l)
H0(k,l)代表无语音信号,H1(k,l)代表有语音信号;
概率密度函数分别表示为:
Figure GDA0001738819320000041
Figure GDA0001738819320000042
其中,λd(k,l)=E[|D(k,l)|2]和λx(k,l)=E[|X(k,l)|2|H1(k,l)]分别表示语音频谱分量的方差和干扰频谱分量;基于二进制假设模型和概率密度函数,得到:
Figure GDA0001738819320000043
其中,GH(k,l)是有语音时的增益,定义为:
Figure GDA0001738819320000044
Gmin是无语音时的增益,为主观变量;p(k,l)为条件语音存在概率,定义为:
Figure GDA0001738819320000045
其中,q(k,l)是先验无语音概率,v(k,l)定义为:
Figure GDA0001738819320000048
ε(k,l)和γ(k,l)分别代表先验和后验信噪比;ε(k,l)的估计值
Figure GDA0001738819320000046
由下式得到:
Figure GDA0001738819320000047
谱增益可表示为:
Figure GDA0001738819320000051
估计语音信号表示为:
Figure GDA0001738819320000052
其次,所述噪声估计优选采用最小值控制递归平均法,当语音存在时,不更新噪声谱;当检测到语音不存在时,更新噪声功率谱:
Figure GDA0001738819320000053
Figure GDA0001738819320000054
利用语音段条件概率p'(k,l)=p(H1'(k,l)|Y(k,l)),将上式改写为:
Figure GDA0001738819320000055
其中,αd=0.7~0.9;
Figure GDA0001738819320000056
是基于频率的随时间变化的平滑参数,由语音段条件概率调节;
当语音缺失时,将式H1'(k,l):
Figure GDA0001738819320000057
中得到的噪声估计乘以偏差补偿系数β作为最终的噪声估计,
Figure GDA0001738819320000058
所述噪声估计的具体步骤如下:
(2.1)在频域内用下式对每一帧信号进行平滑:
Figure GDA0001738819320000059
式中,b为加权系数,Y(k,l)为第l帧第k个频率点的幅度,2w+1是频域平滑的相邻频点数;
(2.2)用一阶递归进行时域平滑:
S(k,l)=αsS(k,l)+(1-αs)Sf(k,l)
其中,αs为平滑参数,S(k,l-1)为前一帧带噪信号的功率谱;
(2.3)在固定窗长度内搜索S(k,l)的最小值:
Smin(k,l)=min{S(k,l')|l-D+1≤l'≤l}
(2.4)基于第一层的迭代平滑值和跟踪最小值,初步计算语音存在概率I(k,l),计算公式如下:
Figure GDA0001738819320000061
其中,定义γmin(k,l)和ζ(k,l)如下:
Figure GDA0001738819320000062
Figure GDA0001738819320000063
式中,系数Bmin为常数1.66,γ0等于4.6,ζ0等于1.67;
(2.5)进行第二层平滑迭代运算:
Figure GDA0001738819320000064
在时域用一阶递归平均:
Figure GDA0001738819320000065
(2.6)第二次最小值跟踪:
Figure GDA0001738819320000066
(2.7)计算语音缺失概率
Figure GDA0001738819320000067
如下:
Figure GDA0001738819320000068
其中,
Figure GDA0001738819320000069
Figure GDA00017388193200000610
定义为
Figure GDA0001738819320000071
Figure GDA0001738819320000072
Figure GDA0001738819320000073
代入式
Figure GDA0001738819320000074
中,得到条件段语音概率p'(k,l),即可估计出带噪语音中的噪声信号功率。
有益效果:本发明和现有技术相比,显著进步在于:利用线性约束最小方差频率不变波束形成算法无失真接收语音信号的特性并对接收信号进行空域滤波;当瞬时干扰和语音来自同一方向时,利用OM-LSA噪声估计算法,准确跟踪输入中快速变化的信号,能够有效地估计瞬态信号的功率谱,进而抑制瞬时干扰;实验仿真表明该算法具有较好的鲁棒性,能有效地瞬态抑制干扰和背景噪声,达到语音增强的目的。
附图说明
图1为本发明的算法原理图;
图2为本发明实施例的原始信号仿真示意图;
图3为加噪声和干扰后信号仿真示意图;
图4为波束形成后信号仿真示意图;
图5为瞬时干扰信号估计仿真示意图;
图6为语音增强信号。
具体实施方式
以下结合附图和具体实施例对本发明中的关键技术和具体实现方法进行详细说明。
本实施例中,采用11个全向性麦克风组成的均匀线性阵列,每个阵元后接FIR滤波器阶数为31,信号采样频率为16KHz,阵元间距为最高频率的半波长。如图2所示为原始信号,在原始信号中加入噪声和干扰后信号,设左边第一个麦克风接收语音为参考信号如图3所示。
如图1所示为本发明基于对数谱估计的LCMV-FIB语音增强算法的原理图:
第一阶段,利用LCMV-FIB波束形成算法对麦克风接收信号进行空域滤波。其关键在于最优权向量wopt的获取,步骤如下:
步骤(a):将线性约束最小方差波束形成问题表示为:
Figure GDA0001738819320000081
其中,min表示取最小值;s.t.表示约束条件,Rxx为麦克风接收数据协方差矩阵;C为约束矩阵,w为权向量,F为阵列响应向量,满足某一元素为1,不满足则为0,()H表示矩阵的共轭转置。
步骤(b):定义空间响应偏差函数表示为
Figure GDA0001738819320000082
式中,a(f,θ)为频率为f,角度为θ的导向矢量,a(fr,θ)为在参考频率点fr处沿θ方向入射时的导向矢量。通过等间隔选取角度和频率信息,将空间响应偏差函数写为离散形式,有
Figure GDA0001738819320000083
式中,fr表示参考频率;P和K分别表示频率和角度离散点数。wHQ1w与最小方差约束wHRxxw具有相同的形式,通过设置权重因子对两个目标同时进行优化。
步骤(c):具有频率不变特性的宽带LCMV波束形成算法可描述为
min wH[ρRxx+(1-ρ)Q1]w (3)
s.t.wHa(fr0)=1 (4)
式中,频率不变约束参数ρ满足0≤ρ≤1。其中:θ0为期望信号入射方向;a(fr0)为算法在参考频率点fr处沿θ0方向入射时的导向矢量,通过参考频率点在期望方向上的约束增益来实现算法在期望方向的无失真输出,即wHa(fr0)=1。
步骤(d):利用拉格朗日乘子法,求解步骤(c)中具有频率不变特性的宽带LCMV波束形成算法最优权矢量得
Figure GDA0001738819320000091
图4为波束形成后语音信号,可以看出LCMV-FIB波束形成算法可以对图3中含噪声和干扰语音信号的高斯噪声有效抑制,但是波束形成后的语音信号中瞬时干扰依然存在。
第二阶段,采用对数谱估计算法对波束形成后的语音信号做进一步处理,可以有效估计出语音信号中的瞬时干扰,该阶段可分为两步:增益函数估计和噪声估计。
步骤(a):增益函数估计。假设语音信号和瞬时干扰是相互独立的,则波束形成后语音y(n)表示为
y(n)=x(n)+d(n) (6)
其中,x(n)是纯净语音,d(n)是瞬时干扰信号。为了避免分帧产生的截断效应,在短时傅立叶变换之前加上汉明窗进行加窗分帧处理,帧长为N,帧移为M=N/2,然后再进行短时傅里叶变换,得到
Y(k,l)=X(k,l)+D(k,l) (7)
Y(k,l),X(k,l),D(k,l)分辨表示第l帧语音进行短时傅立叶变换后的第k个频谱分量,其中k=1,2,…,N。
对数谱估计(LSA)准则表达式为
Figure GDA0001738819320000092
式中,
Figure GDA0001738819320000093
为A(k,l)语音频谱的估计值。
假设两个函数分别为
H0(k,l):Y(k,l)=D(k,l) (9)
H1(k,l):Y(k,l)=X(k,l)+D(k,l) (10)
H0(k,l)代表无语音信号,H1(k,l)代表有语音信号。概率密度函数可分别表示为
Figure GDA0001738819320000101
Figure GDA0001738819320000102
其中,λd(k,l)=E[|D(k,l)|2]和λx(k,l)=E[|X(k,l)|2|H1(k,l)]分别表示语音频谱分量的方差和干扰频谱分量。基于二进制假设模型和概率密度函数,可以得到
Figure GDA0001738819320000103
Figure GDA0001738819320000104
其中,
Figure GDA0001738819320000105
是有语音时的增益,定义为
Figure GDA0001738819320000106
Gmin是无语音时的增益,其为主观变量,p(k,l)为条件语音存在概率,定义为
Figure GDA0001738819320000107
其中,q(k,l)是先验无语音概率,v(k,l)可定义为
Figure GDA0001738819320000108
ε(k,l)和γ(k,l)分别代表先验和后验信噪比。ε(k,l)的估计值
Figure GDA0001738819320000109
由下式得到:
Figure GDA00017388193200001010
谱增益可表示为
Figure GDA00017388193200001011
估计语音信号可表示为
Figure GDA0001738819320000111
步骤(b):噪声估计。本发明采用最小值控制递归平均法。当语音存在时,噪声谱不更新;检测到语音不存在时,则更新噪声功率谱,如下
Figure GDA0001738819320000112
Figure GDA0001738819320000113
利用语音段条件概率p'(k,l)=p(H1'(k,l)|Y(k,l)),可将上式改写为:
Figure GDA0001738819320000118
其中,αd=0.7~0.9。
Figure GDA0001738819320000114
它是基于频率的随时间变化的平滑参数,由语音段条件概率调节。当语音缺失时,将式H′1(k,l):
Figure GDA0001738819320000115
中得到的噪声估计乘以偏差补偿系数β作为最终的噪声估计,
Figure GDA0001738819320000116
噪声估计的具体步骤如下:
第一步,在频域内用下式对每一帧信号进行平滑
Figure GDA0001738819320000117
式中b为加权系数,Y(k,l)为第l帧第k个频率点的幅度,2w+1是频域平滑的相邻频点数。
第二步,用一阶递归进行时域平滑:
S(k,l)=αsS(k,l)+(1-αs)Sf(k,l) (24)
其中,αs为平滑参数,S(k,l-1)为前一帧带噪信号的功率谱。
第三步,在固定窗长度内搜索S(k,l)的最小值。
Smin(k,l)=min{S(k,l')|l-D+1≤l'≤l} (25)
第四步,基于第一层的迭代平滑值和跟踪最小值,初步计算语音存在概率I(k,l),计算公式如下
Figure GDA0001738819320000121
其中,定义γmin(k,l)和ζ(k,l)如下
Figure GDA0001738819320000122
Figure GDA0001738819320000123
上式中,系数Bmin为常数1.66,γ0等于4.6,ζ0等于1.67。
第五步,进行第二层平滑迭代运算。
Figure GDA0001738819320000124
在时域用一阶递归平均
Figure GDA0001738819320000125
第六步,第二次最小值跟踪。
Figure GDA0001738819320000126
第七步,计算语音缺失概率
Figure GDA0001738819320000127
如下
Figure GDA0001738819320000128
其中
Figure GDA0001738819320000129
Figure GDA00017388193200001210
定义为
Figure GDA00017388193200001211
Figure GDA0001738819320000131
Figure GDA0001738819320000132
代入式
Figure GDA0001738819320000133
中,得到条件段语音概率p'(k,l),即可估计出带噪语音中的噪声信号功率。采用对数谱估计算法对波束形成后的语音信号做进一步处理,可以有效估计出语音信号中的瞬时干扰。图5为瞬时干扰信号估计,图6为语音增强信号。本发明提出基于对数谱估计的LCMV频率不变波束形成语音增强算法可以对噪声和瞬时干扰有效抑制,达到语音增强的目的。

Claims (4)

1.一种基于对数谱估计的LCMV频率不变波束形成语音增强算法,其特征在于,包括如下步骤:
步骤一、利用LCMV-FIB波束形成算法对麦克风接收信号进行空域滤波;所述空域滤波为对麦克风阵列接收信号进行加权求和;
步骤二、利用优化修正对数谱估计算法抑制与理想信号来自同一方向的残余噪声;
所述步骤一中,所述加权求和的最优权向量wopt的获取步骤如下:
(1.1)将线性约束最小方差波束形成问题表示为:
Figure FDA0003705197490000011
其中,min表示取最小值;s.t.表示约束条件,Rxx为麦克风接收数据协方差矩阵;C为约束矩阵,w为权向量,F为阵列响应向量,满足某一元素为1,不满足则为0,()H表示矩阵的共轭转置;
(1.2)定义空间响应偏差函数表示为:
Figure FDA0003705197490000012
其中,a(f,θ)为频率为f,角度为θ的导向矢量,a(fr,θ)为在参考频率点fr处沿θ方向入射时的导向矢量;通过等间隔选取角度和频率信息,将空间响应偏差函数写为离散形式,有:
Figure FDA0003705197490000013
其中,fr表示参考频率;P和K分别表示频率和角度离散点数;wHQ1w与最小方差约束wHRxxw具有相同的形式,通过设置权重因子对两个目标wHQ1w,wHRxxw同时进行优化;
(1.3)将具有频率不变特性的宽带LCMV波束形成算法描述为:
min wH[ρRxx+(1-ρ)Q1]w
s.t. wHa(fr0)=1
其中,频率不变约束参数ρ满足0≤ρ≤1;θ0为期望信号入射方向;a(fr0)为算法在参考频率点fr处沿θ0方向入射时的导向矢量;
(1.4)利用拉格朗日乘子法,求解步骤(1.3)中具有频率不变特性的宽带LCMV波束形成算法最优权矢量得:
Figure FDA0003705197490000021
2.根据权利要求1所述的基于对数谱估计的LCMV频率不变波束形成语音增强算法,其特征在于,所述步骤二包括增益函数估计和噪声估计。
3.根据权利要求2所述的基于对数谱估计的LCMV频率不变波束形成语音增强算法,其特征在于,所述增益函数估计的具体步骤为:
假设语音信号和瞬时干扰是相互独立的,则波束形成后语音y(n)表示为:
y(n)=x(n)+d(n)
其中,x(n)是纯净语音,d(n)是瞬时干扰信号;在短时傅立叶变换之前加上汉明窗进行加窗分帧处理,帧长为N,帧移为M=N/2,然后再进行短时傅里叶变换,得到:
Y(k,l)=X(k,l)+D(k,l)
Y(k,l),X(k,l),D(k,l)分辨表示第l帧语音进行短时傅立叶变换后的第k个频谱分量,其中k=1,2,…,N;
对数谱估计(LSA)准则表达式为:
Figure FDA0003705197490000022
其中,
Figure FDA0003705197490000023
为A(k,l)语音频谱的估计值;
假设两个函数分别为:
H0(k,l):Y(k,l)=D(k,l)
H1(k,l):Y(k,l)=X(k,l)+D(k,l)
H0(k,l)代表无语音信号,H1(k,l)代表有语音信号;
概率密度函数分别表示为:
Figure FDA0003705197490000031
Figure FDA0003705197490000032
其中,λd(k,l)=E[|D(k,l)|2]和λx(k,l)=E[|X(k,l)|2|H1(k,l)]分别表示语音频谱分量的方差和干扰频谱分量;基于二进制假设模型和概率密度函数,得到:
Figure FDA0003705197490000033
其中,
Figure FDA0003705197490000034
是有语音时的增益,定义为:
Figure FDA0003705197490000035
Gmin是无语音时的增益,为主观变量;p(k,l)为条件语音存在概率,定义为:
Figure FDA0003705197490000036
其中,q(k,l)是先验无语音概率,v(k,l)定义为:
Figure FDA0003705197490000037
ε(k,l)和γ(k,l)分别代表先验和后验信噪比;ε(k,l)的估计值
Figure FDA0003705197490000038
由下式得到:
Figure FDA0003705197490000039
谱增益可表示为:
Figure FDA00037051974900000310
估计语音信号表示为:
Figure FDA0003705197490000041
4.根据权利要求2所述的基于对数谱估计的LCMV频率不变波束形成语音增强算法,其特征在于,所述噪声估计采用最小值控制递归平均法,当语音存在时,不更新噪声谱;当检测到语音不存在时,更新噪声功率谱:
Figure FDA0003705197490000042
Figure FDA0003705197490000043
利用语音段条件概率p'(k,l)=p(H1'(k,l)|Y(k,l)),将上式改写为:
Figure FDA0003705197490000044
其中,αd=0.7~0.9;
Figure FDA0003705197490000045
是基于频率的随时间变化的平滑参数,由语音段条件概率调节;
当语音缺失时,将式
Figure FDA0003705197490000046
中得到的噪声估计乘以偏差补偿系数β作为最终的噪声估计,
Figure FDA0003705197490000047
所述噪声估计的具体步骤如下:
(2.1)在频域内用下式对每一帧信号进行平滑:
Figure FDA0003705197490000048
式中,b为加权系数,Y(k,l)为第l帧第k个频率点的幅度,2w+1是频域平滑的相邻频点数;
(2.2)用一阶递归进行时域平滑:
S(k,l)=αsS(k,l)+(1-αs)Sf(k,l)
其中,αs为平滑参数,S(k,l-1)为前一帧带噪信号的功率谱;
(2.3)在固定窗长度内搜索S(k,l)的最小值:
Smin(k,l)=min{S(k,l')|l-D+1≤l'≤l}
(2.4)基于第一层的迭代平滑值和跟踪最小值,初步计算语音存在概率I(k,l),计算公式如下:
Figure FDA0003705197490000051
其中,定义γmin(k,l)和ζ(k,l)如下:
Figure FDA0003705197490000052
Figure FDA0003705197490000053
式中,系数Bmin为常数1.66,γ0等于4.6,ζ0等于1.67;
(2.5)进行第二层平滑迭代运算:
Figure FDA0003705197490000054
在时域用一阶递归平均:
Figure FDA0003705197490000055
(2.6)第二次最小值跟踪:
Figure FDA0003705197490000056
(2.7)计算语音缺失概率
Figure FDA0003705197490000057
如下:
Figure FDA0003705197490000058
其中,
Figure FDA0003705197490000059
Figure FDA00037051974900000510
定义为
Figure FDA00037051974900000511
Figure FDA0003705197490000061
Figure FDA0003705197490000062
代入式
Figure FDA0003705197490000063
中,得到条件段语音概率p'(k,l),估计出带噪语音中的噪声信号功率。
CN201810562313.4A 2018-06-04 2018-06-04 基于对数谱估计的lcmv频率不变波束形成语音增强算法 Active CN108922554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810562313.4A CN108922554B (zh) 2018-06-04 2018-06-04 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810562313.4A CN108922554B (zh) 2018-06-04 2018-06-04 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Publications (2)

Publication Number Publication Date
CN108922554A CN108922554A (zh) 2018-11-30
CN108922554B true CN108922554B (zh) 2022-08-23

Family

ID=64419544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810562313.4A Active CN108922554B (zh) 2018-06-04 2018-06-04 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Country Status (1)

Country Link
CN (1) CN108922554B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473118B (zh) * 2018-12-24 2021-07-20 思必驰科技股份有限公司 双通道语音增强方法及装置
CN110111811B (zh) * 2019-04-18 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 音频信号检测方法、装置和存储介质
CN110600051B (zh) * 2019-11-12 2020-03-31 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法
CN111402913B (zh) * 2020-02-24 2023-09-12 北京声智科技有限公司 降噪方法、装置、设备和存储介质
CN111341340A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于相干性和能量比的鲁棒gsc方法
CN111048106B (zh) * 2020-03-12 2020-06-16 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN111564154B (zh) * 2020-03-23 2023-08-08 北京邮电大学 基于语音增强算法的对抗样本攻击防御方法及装置
CN111899752B (zh) * 2020-07-13 2023-01-10 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN111968659B (zh) * 2020-07-23 2023-10-31 天津大学 一种基于优化imcra的麦克风阵列语音增强方法
CN112530451A (zh) * 2020-10-20 2021-03-19 国网黑龙江省电力有限公司伊春供电公司 基于去噪自编码器的语音增强方法
CN113932912B (zh) * 2021-10-13 2023-09-12 国网湖南省电力有限公司 一种变电站噪声抗干扰估计方法、系统及介质
CN114694675B (zh) * 2022-03-15 2024-06-28 大连理工大学 一种基于麦克风阵列的广义旁瓣对消器及后置滤波算法
CN115954012B (zh) * 2023-03-03 2023-05-09 成都启英泰伦科技有限公司 一种周期性瞬态干扰事件检测方法
CN117388835B (zh) * 2023-12-13 2024-03-08 湖南赛能环测科技有限公司 一种多拼融合的声雷达信号增强方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001085011A2 (en) * 2000-05-11 2001-11-15 Technion Research & Development Foundation Ltd. Wavelet depulsing of ultrasound echo sequences
CN103456310B (zh) * 2013-08-28 2017-02-22 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
EP3186274B1 (en) * 2014-08-27 2021-10-06 Dana-Farber Cancer Institute, Inc. Intracellular osteopontin regulates the lineage commitment of lymphoid subsets
CN105223544B (zh) * 2015-08-26 2018-01-12 南京信息工程大学 近场线性约束最小方差自适应加权频率不变波束形成方法
CN105681972B (zh) * 2016-01-14 2018-05-01 南京信息工程大学 线性约束最小方差对角加载的稳健频率不变波束形成方法

Also Published As

Publication number Publication date
CN108922554A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108922554B (zh) 基于对数谱估计的lcmv频率不变波束形成语音增强算法
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
Doclo et al. GSVD-based optimal filtering for single and multimicrophone speech enhancement
CN108986838B (zh) 一种基于声源定位的自适应语音分离方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
Gannot et al. Adaptive beamforming and postfiltering
CN107993670B (zh) 基于统计模型的麦克风阵列语音增强方法
CN109215677B (zh) 一种适用于语音和音频的风噪检测和抑制方法和装置
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
CN110517701B (zh) 一种麦克风阵列语音增强方法及实现装置
Wang et al. Noise power spectral density estimation using MaxNSR blocking matrix
WO2007123047A1 (ja) 適応アレイ制御装置、方法、プログラム、及びこれを利用した適応アレイ処理装置、方法、プログラム
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
Spriet et al. Stochastic gradient-based implementation of spatially preprocessed speech distortion weighted multichannel Wiener filtering for noise reduction in hearing aids
CN112331226A (zh) 一种针对主动降噪系统的语音增强系统及方法
Thüne et al. Maximum-likelihood approach with Bayesian refinement for multichannel-Wiener postfiltering
Stenzel et al. A multichannel Wiener filter with partial equalization for distributed microphones
Priyanka et al. Adaptive Beamforming Using Zelinski-TSNR Multichannel Postfilter for Speech Enhancement
WO2016045706A1 (en) Method and apparatus for generating a directional sound signal from first and second sound signals
Delcroix et al. Multichannel speech enhancement approaches to DNN-based far-field speech recognition
Pan et al. On estimation of time-varying variances of source and noise for sensor array processing
Huy et al. A New Approach for Enhancing MVDR Beamformer’s Performance
CN114694675B (zh) 一种基于麦克风阵列的广义旁瓣对消器及后置滤波算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant