CN108922554B

CN108922554B - 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Info

Publication number: CN108922554B
Application number: CN201810562313.4A
Authority: CN
Inventors: 郭业才; 王婷; 王超
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2022-08-23
Anticipated expiration: 2038-06-04
Also published as: CN108922554A

Abstract

本发明公开了一种基于对数谱估计的LCMV频率不变波束形成语音增强算法，其特征在于，包括如下步骤：一、利用线性约束最小方差频率不变波束形成算法无失真接收语音信号并对语音信号进行空域滤波；二、利用优化修正对数谱估计算法抑制与理想信号来自同一方向的残余噪声。本发明利用线性约束最小方差频率不变波束形成算法无失真接收语音信号的特性并对接收信号进行空域滤波；当瞬时干扰和语音来自同一方向时，利用OM‑LSA噪声估计算法，准确跟踪输入中快速变化的信号，能够有效地估计瞬态信号的功率谱，进而抑制瞬时干扰；实验仿真表明该算法具有较好的鲁棒性，能有效地瞬态抑制干扰和背景噪声，达到语音增强的目的。

Description

基于对数谱估计的LCMV频率不变波束形成语音增强算法

技术领域

本发明涉及阵列信号处理方法，尤其涉及一种基于对数谱估计的LCMV频率不变波束形成语音增强算法。

背景技术

语音是人类日常生活中进行信息交换使用最广泛的工具，但在实际环境中，语音总会受到环境噪声的干扰，降低语音质量，所以有必要对被噪声干扰的语音信号进行去噪处理，即语音增强。其应用领域非常普遍，如：数字移动电话、远程电视电话会议、为听力障碍者降低背景干扰、声音识别等都要用到这项技术。

70-80年代，经典的语音增强算法有：维纳滤波法、谱减法、Malah和Ephraim提出的基于最小均方误差估计的短时幅度谱方法(Minimum Mean-Square Error，MMSE)。但这些经典算法用于非平稳噪声场景下时，语音增强效果会受到很大影响，2001年Baruch Berdugo通过利用子带中的语音存在概率函数，对平均功率谱值进行估计，提出最佳修正对数谱幅度语音估计方法(Optimally-Modied Log-Spectral Amplitude，OM-LSA)和最小控制递归平均噪声估计方法(Minima Controlled Recursive Averaging，MCRA)，并应用于非平稳噪声情景中。2003年，Israel Cohen对平滑参数进行改进，调整信号存在概率提出了一种改进的最小控制递归平均方法(Improved Minima Controlled Recursive Averaging，IMCRA)，并应用在非平稳噪声环境下条件下。2012年Israel Cohen将OM-LSA算法进行扩展，提出一种抑制瞬态干扰和为平稳噪声的语音增强算法。随着麦克风阵列信号处理的发展，波束形成算法越来越多地被应用到语音增强算法中，王东霞，曾庆宁，Weiss等诸多学者将宽带波束形成技术用于语音增强方面，如混响抑制、低信噪比情况下语音增强、声源定位等，Benesty和S.Siva Priyanka在最新研究成果中对波束形成用于语音增强算法的发展历程做了综述，并且对各种算法进行了仿真对比，为以后的研究奠定了基础。

发明内容

发明目的：针对现有技术存在的问题，本发明的目的在于提供一种将波束形成算法与对数谱估计算法相结合的基于对数谱估计的LCMV频率不变波束形成语音增强算法，利用线性约束最小方差频率不变波束形成算法无失真接收语音信号的特性并对接收信号进行空域滤波；当瞬时干扰和语音来自同一方向时，利用OM-LSA噪声估计算法，准确跟踪输入中快速变化的信号，能够有效地估计瞬态信号的功率谱，进而抑制瞬时干扰。

技术方案：一种基于对数谱估计的LCMV频率不变波束形成语音增强算法，其特征在于，包括如下步骤：

步骤一、利用线性约束最小方差频率不变波束形成算法无失真接收语音信号并对语音信号进行空域滤波；

步骤二、利用优化修正对数谱估计算法抑制与理想信号来自同一方向的残余噪声，达到语音增强的目的。

所述步骤一中，麦克风阵列响应最优权向量w_opt的获取步骤如下：

(1.1)将线性约束最小方差波束形成问题表示为：

其中，min表示取最小值；s.t.表示约束条件，R_xx为麦克风接收数据协方差矩阵；C为约束矩阵，w为权向量，F为阵列响应向量，满足某一元素为1，不满足则为0，()^H表示矩阵的共轭转置；

(1.2)定义空间响应偏差函数表示为：

其中，a(f,θ)为频率为f，角度为θ的导向矢量，a(f_r,θ)为在参考频率点f_r处沿θ方向入射时的导向矢量；通过等间隔选取角度和频率信息，将空间响应偏差函数写为离散形式，有：

其中，f_r表示参考频率；P和K分别表示频率和角度离散点数；w^HQ₁w与最小方差约束w^HR_xxw具有相同的形式，通过设置权重因子对两个目标w^HQ₁w，w^HR_xxw同时进行优化；

(1.3)将具有频率不变特性的宽带LCMV波束形成算法描述为：

min w^H[ρR_xx+(1-ρ)Q₁]w

s.t.w^Ha(f_r,θ₀)＝1

其中，频率不变约束参数ρ满足0≤ρ≤1；θ₀为期望信号入射方向；a(f_r,θ₀)为算法在参考频率点f_r处沿θ₀方向入射时的导向矢量，通过参考频率点在期望方向上的约束增益来实现算法在期望方向的无失真输出，即w^Ha(f_r,θ₀)＝1。

(1.4)利用拉格朗日乘子法，求解步骤(1.3)中具有频率不变特性的宽带LCMV波束形成算法最优权矢量得：

所述步骤二包括增益函数估计和噪声估计。

其中，增益函数估计的具体步骤为：

假设语音信号和瞬时干扰是相互独立的，则波束形成后语音y(n)表示为：

y(n)＝x(n)+d(n)

其中，x(n)是纯净语音，d(n)是瞬时干扰信号；为了避免分帧产生的截断效应，在短时傅立叶变换之前加上汉明窗进行加窗分帧处理，帧长为N，帧移为M＝N/2，然后再进行短时傅里叶变换，得到：

Y(k,l)＝X(k,l)+D(k,l)

Y(k,l)，X(k,l)，D(k,l)分辨表示第l帧语音进行短时傅立叶变换后的第k个频谱分量，其中k＝1,2,…,N；

对数谱估计(LSA)准则表达式为：

其中，

为A(k,l)语音频谱的估计值；

假设两个函数分别为：

H₀(k,l):Y(k,l)＝D(k,l)

H₁(k,l):Y(k,l)＝X(k,l)+D(k,l)

H₀(k,l)代表无语音信号，H₁(k,l)代表有语音信号；

概率密度函数分别表示为：

其中，λ_d(k,l)＝E[|D(k,l)|²]和λ_x(k,l)＝E[|X(k,l)|²|H₁(k,l)]分别表示语音频谱分量的方差和干扰频谱分量；基于二进制假设模型和概率密度函数，得到：

其中，G_H(k,l)是有语音时的增益，定义为：

G_min是无语音时的增益，为主观变量；p(k,l)为条件语音存在概率，定义为：

其中，q(k,l)是先验无语音概率，v(k,l)定义为：

ε(k,l)和γ(k,l)分别代表先验和后验信噪比；ε(k,l)的估计值

由下式得到：

谱增益可表示为：

估计语音信号表示为：

其次，所述噪声估计优选采用最小值控制递归平均法，当语音存在时，不更新噪声谱；当检测到语音不存在时，更新噪声功率谱：

利用语音段条件概率p'(k,l)＝p(H₁'(k,l)|Y(k,l))，将上式改写为：

其中，α_d＝0.7～0.9；

是基于频率的随时间变化的平滑参数，由语音段条件概率调节；

当语音缺失时，将式H₁'(k,l):

中得到的噪声估计乘以偏差补偿系数β作为最终的噪声估计，

所述噪声估计的具体步骤如下：

(2.1)在频域内用下式对每一帧信号进行平滑：

式中，b为加权系数，Y(k,l)为第l帧第k个频率点的幅度，2w+1是频域平滑的相邻频点数；

(2.2)用一阶递归进行时域平滑：

S(k,l)＝α_sS(k,l)+(1-α_s)S_f(k,l)

其中，α_s为平滑参数，S(k,l-1)为前一帧带噪信号的功率谱；

(2.3)在固定窗长度内搜索S(k,l)的最小值：

S_min(k,l)＝min{S(k,l')|l-D+1≤l'≤l}

(2.4)基于第一层的迭代平滑值和跟踪最小值，初步计算语音存在概率I(k,l)，计算公式如下：

其中，定义γ_min(k,l)和ζ(k,l)如下：

式中，系数B_min为常数1.66，γ₀等于4.6，ζ₀等于1.67；

(2.5)进行第二层平滑迭代运算：

在时域用一阶递归平均：

(2.6)第二次最小值跟踪：

(2.7)计算语音缺失概率

如下：

其中，

和

定义为

将

代入式

中，得到条件段语音概率p'(k,l)，即可估计出带噪语音中的噪声信号功率。

有益效果：本发明和现有技术相比，显著进步在于：利用线性约束最小方差频率不变波束形成算法无失真接收语音信号的特性并对接收信号进行空域滤波；当瞬时干扰和语音来自同一方向时，利用OM-LSA噪声估计算法，准确跟踪输入中快速变化的信号，能够有效地估计瞬态信号的功率谱，进而抑制瞬时干扰；实验仿真表明该算法具有较好的鲁棒性，能有效地瞬态抑制干扰和背景噪声，达到语音增强的目的。

附图说明

图1为本发明的算法原理图；

图2为本发明实施例的原始信号仿真示意图；

图3为加噪声和干扰后信号仿真示意图；

图4为波束形成后信号仿真示意图；

图5为瞬时干扰信号估计仿真示意图；

图6为语音增强信号。

具体实施方式

以下结合附图和具体实施例对本发明中的关键技术和具体实现方法进行详细说明。

本实施例中，采用11个全向性麦克风组成的均匀线性阵列，每个阵元后接FIR滤波器阶数为31，信号采样频率为16KHz，阵元间距为最高频率的半波长。如图2所示为原始信号，在原始信号中加入噪声和干扰后信号，设左边第一个麦克风接收语音为参考信号如图3所示。

如图1所示为本发明基于对数谱估计的LCMV-FIB语音增强算法的原理图：

第一阶段，利用LCMV-FIB波束形成算法对麦克风接收信号进行空域滤波。其关键在于最优权向量w_opt的获取，步骤如下：

步骤(a)：将线性约束最小方差波束形成问题表示为：

其中，min表示取最小值；s.t.表示约束条件，R_xx为麦克风接收数据协方差矩阵；C为约束矩阵，w为权向量，F为阵列响应向量，满足某一元素为1，不满足则为0，()^H表示矩阵的共轭转置。

步骤(b)：定义空间响应偏差函数表示为

式中，a(f,θ)为频率为f，角度为θ的导向矢量，a(f_r,θ)为在参考频率点f_r处沿θ方向入射时的导向矢量。通过等间隔选取角度和频率信息，将空间响应偏差函数写为离散形式，有

式中，f_r表示参考频率；P和K分别表示频率和角度离散点数。w^HQ₁w与最小方差约束w^HR_xxw具有相同的形式，通过设置权重因子对两个目标同时进行优化。

步骤(c)：具有频率不变特性的宽带LCMV波束形成算法可描述为

min w^H[ρR_xx+(1-ρ)Q₁]w (3)

s.t.w^Ha(f_r,θ₀)＝1 (4)

式中，频率不变约束参数ρ满足0≤ρ≤1。其中：θ₀为期望信号入射方向；a(f_r,θ₀)为算法在参考频率点f_r处沿θ₀方向入射时的导向矢量，通过参考频率点在期望方向上的约束增益来实现算法在期望方向的无失真输出，即w^Ha(f_r,θ₀)＝1。

步骤(d)：利用拉格朗日乘子法，求解步骤(c)中具有频率不变特性的宽带LCMV波束形成算法最优权矢量得

图4为波束形成后语音信号，可以看出LCMV-FIB波束形成算法可以对图3中含噪声和干扰语音信号的高斯噪声有效抑制，但是波束形成后的语音信号中瞬时干扰依然存在。

第二阶段，采用对数谱估计算法对波束形成后的语音信号做进一步处理，可以有效估计出语音信号中的瞬时干扰，该阶段可分为两步：增益函数估计和噪声估计。

步骤(a)：增益函数估计。假设语音信号和瞬时干扰是相互独立的，则波束形成后语音y(n)表示为

y(n)＝x(n)+d(n) (6)

其中，x(n)是纯净语音，d(n)是瞬时干扰信号。为了避免分帧产生的截断效应，在短时傅立叶变换之前加上汉明窗进行加窗分帧处理，帧长为N，帧移为M＝N/2，然后再进行短时傅里叶变换，得到

Y(k,l)＝X(k,l)+D(k,l) (7)

Y(k,l)，X(k,l)，D(k,l)分辨表示第l帧语音进行短时傅立叶变换后的第k个频谱分量，其中k＝1,2,…,N。

对数谱估计(LSA)准则表达式为

式中，

为A(k,l)语音频谱的估计值。

假设两个函数分别为

H₀(k,l):Y(k,l)＝D(k,l) (9)

H₁(k,l):Y(k,l)＝X(k,l)+D(k,l) (10)

H₀(k,l)代表无语音信号，H₁(k,l)代表有语音信号。概率密度函数可分别表示为

其中，λ_d(k,l)＝E[|D(k,l)|²]和λ_x(k,l)＝E[|X(k,l)|²|H₁(k,l)]分别表示语音频谱分量的方差和干扰频谱分量。基于二进制假设模型和概率密度函数，可以得到

其中，

是有语音时的增益，定义为

G_min是无语音时的增益，其为主观变量，p(k,l)为条件语音存在概率，定义为

其中，q(k,l)是先验无语音概率，v(k,l)可定义为

ε(k,l)和γ(k,l)分别代表先验和后验信噪比。ε(k,l)的估计值

由下式得到：

谱增益可表示为

估计语音信号可表示为

步骤(b)：噪声估计。本发明采用最小值控制递归平均法。当语音存在时，噪声谱不更新；检测到语音不存在时，则更新噪声功率谱，如下

利用语音段条件概率p'(k,l)＝p(H₁'(k,l)|Y(k,l))，可将上式改写为：

其中，α_d＝0.7～0.9。

它是基于频率的随时间变化的平滑参数，由语音段条件概率调节。当语音缺失时，将式H′₁(k,l):

噪声估计的具体步骤如下：

第一步，在频域内用下式对每一帧信号进行平滑

式中b为加权系数，Y(k,l)为第l帧第k个频率点的幅度，2w+1是频域平滑的相邻频点数。

第二步，用一阶递归进行时域平滑：

S(k,l)＝α_sS(k,l)+(1-α_s)S_f(k,l) (24)

其中，α_s为平滑参数，S(k,l-1)为前一帧带噪信号的功率谱。

第三步，在固定窗长度内搜索S(k,l)的最小值。

S_min(k,l)＝min{S(k,l')|l-D+1≤l'≤l} (25)

第四步，基于第一层的迭代平滑值和跟踪最小值，初步计算语音存在概率I(k,l)，计算公式如下

其中，定义γ_min(k,l)和ζ(k,l)如下

上式中，系数B_min为常数1.66，γ₀等于4.6，ζ₀等于1.67。

第五步，进行第二层平滑迭代运算。

在时域用一阶递归平均

第六步，第二次最小值跟踪。

第七步，计算语音缺失概率

如下

其中

和

定义为

将

代入式

中，得到条件段语音概率p'(k,l)，即可估计出带噪语音中的噪声信号功率。采用对数谱估计算法对波束形成后的语音信号做进一步处理，可以有效估计出语音信号中的瞬时干扰。图5为瞬时干扰信号估计，图6为语音增强信号。本发明提出基于对数谱估计的LCMV频率不变波束形成语音增强算法可以对噪声和瞬时干扰有效抑制，达到语音增强的目的。