CN106031196B

CN106031196B - 信号处理装置、方法以及程序

Info

Publication number: CN106031196B
Application number: CN201580009993.1A
Authority: CN
Inventors: 丹羽健太; 小林和则
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-02-28
Filing date: 2015-02-25
Publication date: 2018-12-07
Anticipated expiration: 2035-02-25
Also published as: US20160372131A1; EP3113508B1; US9747921B2; CN106031196A; EP3113508A4; EP3113508A1; JP6225245B2; JPWO2015129760A1; WO2015129760A1

Abstract

以提供比以往提高了噪音抑制性能的信号处理技术作为目的。第一分量提取部(14)根据目标区的功率谱密度通过时间平均处理，提取由从目标区到来的声音派生的非稳定分量以及由不相干的噪音派生的稳定分量第二分量提取部(15)根据噪音区的功率谱密度提取由干扰噪音派生的非稳定分量以及由不相干的噪音派生的稳定分量

Description

信号处理装置、方法以及程序

技术领域

本发明涉及利用多个话筒清楚地接收从目标方向到来的声源信号的技术。

背景技术

首先，说明信号处理的基本框架。

设想利用由M个话筒构成的阵列。M是2以上的整数。例如，将M设为2至4左右。也可以将M设为100左右。在频率ω且帧时间τ的观测信号X_m(ω,τ)(m＝1,2,…,M)中，包含相干且具有不稳定性的一个目标音S₀(ω,τ)、K个干扰噪音S_k(ω,τ)(k＝1,2,…,K)、不相干的稳定性噪音N_m(ω,τ)。将K设为规定的正整数。m是各话筒的编号，观测信号X_m(ω,τ)是将通过话筒m接收的时域的信号变换为频域的信号。

目标音是从规定的目标区到来的声音。目标区是包含想要接收的声源的区域。想要接收的声源的数目以及想要接收的声源在目标区内的位置可以是未知的。例如，如图6所例示，设配置有6个扬声器以及3个话筒的区域被分割为3个区(区1、区2、以及区3)。当想要接收的声源包含于区1的情况下，区1成为目标区。

另外，目标音中也可以包含来自目标区外的声源的反射音。例如，当目标区为区1的情况下，目标音也可以包含，在从区2以及区3中包含的声源产生的声音中通过反射而从区1的方向来到话筒的声音。

目标区可以是离话筒规定的距离以内的区。换言之，也可以是具有有限的面积的区。进而，目标区也可以有多个。图7是表示目标区有2个的情况下的例子的图。

另外，也将包含发出噪音的声源的区称为噪音区。在图6的例子中，当发出噪音的声源分别包含于区2以及区3中的情况下，区2以及区3分别成为噪音区。在本例中，将区2以及区3分别设为噪音区，但也可以将整合了区2以及区3的区设为噪音区。也将包含发出干扰噪音的声源的噪音区特别称为干扰噪音区。进行设定，使得噪音区不同于目标区。

在将第m个话筒至目标音S₀(ω,τ)的传递特性记为A_m,0(ω)，将第m个话筒至第k个干扰噪音的传递特性记为A_m,k(ω)时，观测信号X_m(ω,τ)如以下那样建模。

【数1】

当话筒数目少的情况下，即例如M<K的情况下，结合了基于最小方差无失真响应(MVDR)的波束成形与后置滤波器的框架可有效抑制噪音(例如，参照非专利文献1)。图1表示后置滤波器型阵列的处理流程。被设计为强调目标音的滤波器系数w₀(ω)＝[W_0,1(ω),…,W_0,M(ω)]^T可如以下计算。

【数2】

在此，将x设为任意的向量或矩阵，xT表示x的转置，xH表示x的共轭转置。h₀(ω)＝[H_0,1(ω),…,H_0,M(ω)]^T是目标音方向的阵列流形向量。阵列流形向量是将从声源至话筒的传递特性H_0,m(ω)设为向量h₀(ω)的向量，从声源至话筒的传递特性H_0,m(ω)是根据声源和话筒位置而理论上能够算出的仅假设了直接音的传递特性、或实测的传递特性、通过镜像法和有限元素法等计算机仿真来估计的传递特性。若假设为源信号互相不相干，则能够将空间相关矩阵R(ω)如以下那样建模。

【数3】

在此，h_k(ω)是第k个干扰噪音的阵列流形向量。波束成形的输出信号Y₀(ω,τ)可通过以下的式来获得。

【数4】

在此，x(ω,τ)＝[X₁(ω,τ),…,X_M(ω,τ)]^T。为了抑制在Y₀(ω,τ)中包含的噪音信号，乘以后置滤波器G(ω,τ)。

【数5】

Z(ω,τ)＝G(ω,τ)Y₀(ω,τ)…(5)

最后，通过对Z(ω,τ)进行快速傅里叶反变换(IFFT)，获得输出信号。

接着，说明基于非专利文献2的后置滤波器设计法。

在非专利文献2中，提出了基于利用多个波束成形而估计的各区的功率谱密度(PSD)而设计后置滤波器的方式(例如，参照非专利文献2)。以下，将该方式称为LPSD法(基于本地PSD的后置滤波器设计(Local PSD-based post-filter design))。利用图2，说明LPSD法的处理流程。

当基于Wiener法设计后置滤波器的情况下，如以下那样计算G(ω,τ)。

【数6】

在此，φ_S(ω,τ)表示目标区的功率谱密度，φ_N(ω,τ)表示噪音区的功率谱密度。在此，当称为某区的功率谱密度的情况下，意味着从该区到来的声音的功率谱密度。即，例如，目标区的功率谱密度是指从目标区到来的声音的功率谱密度，噪音区的功率谱密度是指从噪音区到来的声音的功率谱密度。用于根据X_m(ω,τ)而估计φ_S(ω,τ)、φ_N(ω,τ)的方法有多种，但假设在观测信号中包含干扰噪音，因此利用LPSD法。

【数7】

在此，省略了各符号的索引。即，Y_u＝Y_u(ω,τ)，且D_u,k＝D_u,k(ω)，S_u＝S_u(ω,τ)。此外，设Φ_Y(ω,τ)＝[|Y₀(ω,τ)|²，|Y₁(ω,τ)|²,…,|Y_L(ω,τ)|²]^T、Φ_S(ω,τ)＝[|S₀(ω,τ)|²，|S₁(ω,τ)|²,…,|S_K(ω,τ)|²]^T。

例如，通过解式(7)的反问题，算出各区的功率谱密度。

【数8】

在此，将b设为任意的矩阵，b+表示对b的伪逆矩阵运算。局部PSD估计部11将观测信号X_m(ω,τ)(m＝1,2,…,M)作为输入，从而输出例如通过式(8)而定义的局部功率谱密度^Φ_S(ω,τ)。「^」表示是被估计的。

局部是指区。在图6的例中，区1、区2、以及区3分别是局部。局部PSD估计部估计并输出各区的功率谱密度^Φ_S(ω,τ)。

目标区/噪音区PSD估计部12以针对每个频率ω以及帧τ基于式(8)而估计的局部功率谱密度^Φ_S(ω,τ)作为输入，算出通过以下的式定义的^φ_S(ω,τ)以及^φ_N(ω,τ)。

【数9】

最后，维纳增益计算部13以^φ_S(ω,τ)以及^φ_N(ω,τ)作为输入，计算并输出通过式(6)定义的后置滤波器G(ω,τ)。具体来说，维纳增益计算部13分别输入^φ_S(ω,τ)以及^φ_N(ω,τ)作为式(6)的φ_S(ω,τ)以及φ_N(ω,τ)，从而计算并输出G(ω,τ)。

LPSD法的主要的优点有以下两点。(i)在功率谱区域定义波束成形的输出与各声源的关系，能够获得超过麦克风的数量的控制自由度，因此能够有效地抑制噪音；以及(ii)只要事先计算L个波束成形w_u(ω)(u＝0,1,…,L)与式(7)的D(ω)，就能够以较低运算量实现(i)的优点。

现有技术文献

【非专利文献】

【非专利文献1】C.Marro et al.,“Analysis of noise reduction anddereverberation techniques based on microphone arrays with postfiltering,”IEEE Trans.Speech,Audio Proc.,6,240-259,1998.

【非专利文献2】Y.Hioka et al.,“Underdetermined sound source separationusing power spectrum density estimated by combination of directivity gain,”IEEE Trans.Audio,Speech,Language Proc.,21,1240-1250,2013.

发明内容

发明要解决的课题

在LPSD法中，假定目标音与干扰音混合存在的情况而定义了问题，但在实用上的问题中，不仅是具有相干性的干扰噪音，多数情况是不相干性强的稳定噪音(空调的噪音、麦克的内部噪音等)混合存在。此时，φ_S(ω,τ)以及φ_N(ω,τ)的估计误差变大，有时导致噪音抑制性能降低。

本发明的目的在于，提供比以往提高噪音抑制性能的信号处理装置、方法以及程序。

用于解决课题的手段

本发明的一方式的信号处理装置具有：局部PSD估计部，基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的观测信号，估计目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密度；目标区/噪音区PSD估计部，将ω设为频率，将τ设为帧的索引，基于估计到的局部功率谱密度，估计目标区的功率谱密度^φ_S(ω,τ)以及噪音区的功率谱密度^φ_N(ω,τ)；第一分量提取部，根据目标区的功率谱密度^φ_S(ω,τ)，提取由从目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)；第二分量提取部，根据噪音区的功率谱密度^φ_N(ω,τ)，提取由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)；以及各种噪音应对型增益计算部，至少利用由从目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)、由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)、以及由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)，计算用于强调从目标区到来的声音的非稳定分量的后置滤波器～G(ω,τ)。

发明效果

能够比以往提高噪音抑制性能。

附图说明

图1是表示后置滤波器型阵列的处理流程的图。

图2是以往的后置滤波器估计部的模块图。

图3是本发明所涉及的后置滤波器估计装置的例的模块图。

图4是本发明所涉及的后置滤波器估计方法的例的模块图。

图5是用于说明实验结果的图。

图6是用于说明目标区以及噪音区的例的图。

图7是用于说明目标区的例的图。

图8是用于说明增益成形的例的图。

具体实施方式

在以下说明的信号处理装置以及方法中，通过将LPSD法扩展，从而对各种噪音环境稳健地估计后置滤波器。具体来说，按噪音的每个种类进行分割而估计功率谱密度，从而减少目标音的功率与其他噪音的功率之比的估计误差。

图3表示本发明的一实施方式所涉及的信号处理装置即后置滤波器估计部1的例的模块图。

如图3所示，信号处理装置例如具有局部PSD估计部11、目标区/噪音区PSD估计部12、第一分量提取部14、第二分量提取部15、各种噪音应对型增益计算部16、时间频率平均化部17、以及增益成形部18。

例如，图4表示通过该信号处理装置实现的信号处理的各步骤。

以下，说明信号处理装置以及方法的实施方式的细节。另外，关于基本信号处理的框架、语言的定义等，与在背景技术的栏中记载的一样。从而，省略这些重复说明。

<局部PSD估计部11>

局部PSD估计部11与现有的局部PSD估计部11一样。

即，局部PSD估计部11基于根据由构成话筒阵列的M个话筒接收的信号获得的频域的观测信号X_m(ω,τ)(m＝1,2,…,M)，估计目标区以及噪音区各自的局部功率谱密度^Φ_S(ω,τ)(步骤S1)。ω是频率，τ是帧的索引。M是2以上的整数。例如，将M设为2至4左右。也可以将M设为100左右。

所估计的局部功率谱密度^Φ_S(ω,τ)被输出到目标区/噪音区PSD估计部12。

估计局所功率谱密度的具体的处理例与在背景技术栏中记载的一样，因此这里省略说明。

另外，设波束成形滤波器w_u(ω)以及灵敏度|D_u,k(ω)|²在局部PSD估计部11的处理之前预先设定。此外，在目标区的方向在一定程度上变化的情况下，局部PSD估计部11也可以预先准备多个滤波器组，选择采用最大的功率的滤波器。

另外，局部PSD估计部11并非基于通过波束成形获得的Y_u(ω,τ)(u＝0,1,…,L)，而是基于由在各区的方向具有指向性的各一个话筒接收到的Y_u(ω,τ)(u＝0,1,…,L)而估计局部功率谱密度^Φ_S(ω,τ)。

<目标区/噪音区PSD估计部12>

目标区/噪音区PSD估计部12与以往的目标区/噪音区PSD估计部12同样。

即，目标区/噪音区PSD估计部12基于所估计的局部功率谱密度，估计目标区的功率谱密度^φ_S(ω,τ)以及噪音区的功率谱密度^φ_N(ω,τ)(步骤S2)。

所估计的目标区的功率谱密度^φ_S(ω,τ)被输出到第一分量提取部14。所估计的噪音区的功率谱密度^φ_N(ω,τ)被输出到第二分量提取部15。

关于估计目标区的功率谱密度^φ_S(ω,τ)以及噪音区的功率谱密度^φ_N(ω,τ)的具体的处理例，与在背景技术栏中记载的同样，因此这里省略说明。

<第一分量提取部14>

例如在通过式(9)定义的^φ_S(ω,τ)中，包含由从目标区接收到的声音派生的非稳定分量^φ_S ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)。这里，稳定分量是时间上变化少的分量，非稳定分量是时间上变化多的分量。

这里，噪音有干扰噪音和不相干的噪音两种噪音。干扰噪音是从在噪音区配置的噪音声源发出的噪音。不相干的噪音并非从目标区和噪音区发出的，而是从这些区以外的场所发出，是稳定存在的噪音。

因此，第一分量提取部14根据目标区的功率谱密度^φ_S(ω,τ)，通过平滑处理，提取由从目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)(步骤S3)。例如，平滑处理通过式(11)以及式(12)那样的指数移动平均处理、时间平均处理或加权平均处理实现。

由从所提取的目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)被输出到各种噪音应对型增益计算部16。

例如，第一分量提取部14如式(11)以及式(12)那样，通过进行指数移动平均处理，根据^φ_S(ω,τ)计算^φ_S ^(B)(ω,τ)。

【数10】

在此，α_S是平滑系数，是规定的正实数。例如，设0<α_S<1。此外，可以设为α_S＝帧的时间长/时间常数，从而将α_S设定为使时间常数成为150ms左右。Υ_S是特定区间的帧的索引的集合。例如，设定为使特定区间成为3至4秒左右。min是输出最小值的函数。

如此，^φ_S ^(B)(ω,τ)是例如通过式(11)以及式(12)对^φ_S(ω,τ)进行了平滑的分量。更具体来说，^φ_S ^(B)(ω,τ)是例如通过式(11)对^φ_S(ω,τ)进行了平滑的值在规定的时间区间中的最小值。

然后，第一分量提取部14如式(13)那样，从^φ_S(ω,τ)减去^φ_S ^(B)(ω,τ)从而计算^φ_S ^(A)(ω,τ)。

【数11】

在此，β_S(ω)是权重系数，是规定的正实数。β_S(ω)例如被设定为1至3左右的实数。

如此，φ_S ^(A)(ω,τ)是从^φ_S(ω,τ)去除了^φ_S ^(B)(ω,τ)的分量。

另外，^φ_S ^(A)(ω,τ)也可以以满足^φ_S ^(A)(ω,τ)≧0的条件的方式被进行向下取整处理(Flooring processing)。该向下取整处理例如由第一分量提取部14进行。

<第二分量提取部15>

例如通过式(10)定义的^φ_N(ω,τ)中，包含由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_N ^(B)(ω,τ)。

因此，第二分量提取部15根据噪音区的功率谱密度^φ_N(ω,τ)，通过平滑处理，提取由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_N ^(B)(ω,τ)(步骤S4)。例如，平滑处理通过如式(14)以及式(15)那样的指数移动平均处理、时间平均处理或加权平均处理实现。

由提取的干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_N ^(B)(ω,τ)被输出到各种噪音应对型增益计算部16。

例如，第二分量提取部15通过如式(14)以及式(15)那样进行指数移动平均处理，根据^φ_N(ω,τ)计算^φ_N ^(B)(ω,τ)。

【数12】

这里，α_N是平滑系数，是规定的正实数。例如，设0<α_N<1。此外，也可以设为α_N＝帧的时间长/时间常数，从而将α_N设定为时间常数成为150ms左右。Υ_N是特定区间的帧的索引的集合。例如，被设定为特定区间成为3至4秒左右。

如此，^φ_N ^(B)(ω,τ)是例如通过式(14)以及式(15)对^φ_N(ω,τ)进行了平滑的分量。更具体来说，^φ_N ^(B)(ω,τ)是例如通过式(14)对^φ_N(ω,τ)进行了平滑的值在规定的时间区间中的最小值。

然后，第二分量提取部15通过如式(16)那样从^φ_N(ω,τ)减去^φ_N ^(B)(ω,τ)，从而计算^φ_N ^(A)(ω,τ)。

【数13】

在此，β_N(ω)是权重系数，是规定的正实数。β_N(ω)被设定为例如1至3左右的实数。

如此，φ_N ^(A)(ω,τ)是从^φ_N(ω,τ)去除了^φ_N ^(B)(ω,τ)的分量。

另外，^φ_N ^(A)(ω,τ)也可以以满足^φ_N ^(A)(ω,τ)≧0的条件的方式被进行向下取整处理。该向下取整处理例如可以在第二分量提取部15中进行。

α_N可以与α_S相同也可以不同。Υ_N可以与Υ_S相同也可以不同。β_N(ω)可以与β_S(ω)相同也可以不同。

另外，在各种噪音应对型增益计算部16中不利用^φ_N ^(B)(ω,τ)的情况下，第二分量提取部15也可以不求出^φ_N ^(B)(ω,τ)。换言之，此时，第二分量提取部15也可以根据^φ_N(ω,τ)仅求出^φ_N ^(A)(ω,τ)。

<各种噪音应对型增益计算部16>

各种噪音应对型计算部16至少利用由从目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)、由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)、以及由干扰噪声派生的非稳定分量^φ_N ^(A)(ω,τ)，计算用于强调从目标区到来的声音的非稳定分量的后置滤波器～G(ω,τ)(步骤S5)。

所计算的后置滤波器～G(ω,τ)被输出到时间频率平均部17。

由于按照噪音的种类(换言之，不相干的噪音、相干的噪音这样的噪音种类)估计了功率谱密度，因此各种噪音应对型增益计算部16例如计算通过以下的式(17)定义的后置滤波器～G(ω,τ)。

【数14】

当^φ_S ^(B)(ω,τ)的值的特性(behavior)与^φ_N ^(B)(ω,τ)的值的特性之间存在差异，不相干性的假定被破坏的情况下，各种噪音应对型增益计算部16也可以计算通过以下的式(18)定义的后置滤波器～G(ω,τ)。

【数15】

<时间频率平均部17>

时间频率平均部17针对后置滤波器～G(ω,τ)，进行向时间方向与频率方向的至少一个方向的平滑处理(步骤S6)。

被平滑处理后的后置滤波器～G(ω,τ)被输出到增益成形部18。

当在时间方向上进行平滑的情况下，将τ₀以及τ₁设为0以上的整数，从而时间频率平均部17只要针对例如后置滤波器～G(ω,τ)的时间方向附近的后置滤波器即～G(ω,τ-τ₀),…～G(ω,τ+τ₁)进行加法平均即可。时间频率平均部17也可以对～G(ω,τ-τ₀),…～G(ω,τ+τ₁)进行加权求和。

此外，当在频率方向上进行平滑的情况下，只要将ω₀以及ω₁设为0以上的实数，从而时间频率平均部17只要针对例如后置滤波器～G(ω,τ)的频率方向附近的后置滤波器即～G(ω-ω₀,τ),…～G(ω+ω₁,τ)进行平均即可。时间频率平均部17也可以对～G(ω-ω₀,τ),…～G(ω+ω₁,τ)进行加权求和。

<增益成形部18>

增益成形部18通过对进行了平滑处理的后置滤波器～G(ω,τ)进行增益成形，从而生成后置滤波器G(ω,τ)(步骤S7)。增益成形部18例如生成通过以下的式(19)定义的后置滤波器G(ω,τ)。

【数16】

在此，γ是权重系数，是正实数，例如，将γ设定为1至1.3左右即可。

增益成形部18可以对后置滤波器G(ω,τ)进行向下取整处理，以便满足A≦G(ω,τ)≦1。A是0至0.3的实数，通常设定为0.1左右。若G(ω,τ)比1大则存在过强调的可能性，此外，若G(ω,τ)过小则存在发生音乐噪声(Musical noise)的可能性。通过进行适当的向下取整处理，能够防止发生该强调以及音乐噪声。

考虑定义域以及值域是实数的函数f。函数f例如设为非降函数。增益成形意味着求出将增益成形前的～G(ω,τ)输入到函数f时的输出值的操作。换言之，对函数f输入了～G(ω,τ)时的输出值为G(ω,τ)。函数f的例是式(19)。式(19)的函数f是f(x)＝γ(x-0.5)+0.5。

利用图8说明其他函数f的其他例。在图8中，省略了索引。即，图8的G表示G(ω,τ)，～G表示～G(ω,τ)。首先，在该例中，如图8(A)至图8(B)所示，改变了函数f的图表的坡度。此外，如图8(B)至图8(C)所示，进行向下取整处理以便满足0≦G(ω,τ)≦1。通过由该图8(C)的粗线表示的图表确定的函数是函数f的其他例。

函数f的图表并不限定于图8(C)表示的图表。例如，在图8(C)中，函数f的图表由直线构成，但函数f的图表也可以由曲线构成。例如，函数f也可以是对双曲正切函数施加了向下取整处理的函数。

根据该信号处理装置以及方法，能够对具有各种性质的噪音存在的环境稳健地设计用于噪音抑制的后置滤波器。此外，通过具有实时性的处理，能够设计这样的后置滤波器。

[实施例与实验结果]

以LPSD法为现有方式，进行了用于验证所提方式的效果的实验。如图5所示，在混响时间110ms(1.0kHz)的室内配置了声源或阵列。在有目标音(男女发声)、K＝3个干扰噪音(#1：男女发声、#2,3：音乐)、从室内的四个角落的扬声器发出白噪声而再现的背景噪音时，利用M＝4个全向话筒进行了录音。观测时的SN比平均为-1dB。此外，将采样频率设为16.0kHz，将FFT分析长度设为512pt，将FFT偏移长度设为256pt。

在该条件下，根据通过以下的式定义的谱失真(SD)，评价了噪音抑制性能。

【数17】

这里，Ψ和|Ψ分别表示帧的索引集合以及其总数。Ω与|Ω|分别表示频率区间的索引以及其总数。SD的值越小噪音抑制性能越高。对男女发声的650句计算SD，以往方式中是14.0，在所提方式中成为11.5，SD降低。尤其提高了对发声区间外的背景噪音的抑制效果。

[变形例等]

时间频率平均部17以及增益成形部18的处理为了抑制所谓的音乐噪声而进行。时间频率平均部17以及增益成形部18的处理也可以不进行。

基于指数移动平均处理的^φ_S ^(B)(ω,τ)以及^φ_S ^(A)(ω,τ)的计算是第一分量提取部14的处理的一例。第一分量提取部14也可以通过其他的处理而提取^φ_S ^(B)(ω,τ)以及^φ_S ^(A)(ω,τ)。

同样地，基于指数移动平均处理的^φ_N ^(B)(ω,τ)以及^φ_N ^(A)(ω,τ)的计算是第二分量提取部15的处理的一例。第二分量提取部15也可以通过其他的处理而提取^φ_N ^(B)(ω,τ)以及^φ_N ^(A)(ω,τ)。

在上述信号处理装置以及方法中说明的处理不仅按照记载的顺序时序地执行，也可以根据执行处理的装置的处理能力或需要，并列地或者单独执行。

此外，当通过计算机实现在信号处理装置中的各部的情况下，通过程序来记述信号处理装置的各部应具有的功能的处理内容。并且，通过计算机来执行该程序，从而在计算机上实现该各部。

记述了该处理内容的程序能够预先记录在计算机中能够读取的记录介质中。作为计算机中能够读取的记录介质，例如可以是磁记录装置、光盘、光磁记录介质、半导体存储器等的任意的介质。

此外，各处理部件通过在计算机上执行规定的程序而构成，也可以通过硬件实现这些处理内容的至少一部分。

除此之外，在不脱离本发明的宗旨的范围内当然能够适当进行变更。

产业上的可利用性

作为智能手机的命令输入，一般利用了声音识别。认为在车内或工厂内的噪音下，通过免提操作设备或者远程进行通话的需要较高。

本发明能够例如在这样的情况下利用。

Claims

1.一种信号处理装置，包含：

局部PSD估计部，基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的观测信号，估计规定的目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密度；

目标区/噪音区PSD估计部，将ω设为频率，将τ设为帧的索引，基于上述估计到的局部功率谱密度，估计目标区的功率谱密度^φ_S(ω,τ)以及噪音区的功率谱密度^φ_N(ω,τ)；

第一分量提取部，根据上述目标区的功率谱密度^φ_S(ω,τ)，提取由从目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)；

第二分量提取部，根据上述噪音区的功率谱密度^φ_N(ω,τ)，提取由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)；以及

各种噪音应对型增益计算部，至少利用由从上述目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)、由上述不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)、以及由上述干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)，计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器～G(ω,τ)。

2.如权利要求1所述的信号处理装置，其中，

由上述不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)是对上述目标区的功率谱密度^φ_S(ω,τ)进行了平滑的分量，

由从上述目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)是从上述目标区的功率谱密度^φ_S(ω,τ)去除了由上述不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)的分量，

由上述干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)是从上述噪音区的功率谱密度^φ_N(ω,τ)去除了对上述噪音区的功率谱密度^φ_N(ω,τ)进行了平滑的分量的分量。

3.如权利要求1所述的信号处理装置，其中，

上述第二分量提取部从上述噪音区的功率谱密度^φ_N(ω,τ)进一步提取由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)，

上述第一分量提取部将α_S设为规定的实数，将Y_S设为特定区间的帧的索引的集合，将β_S(ω)设为规定的实数，计算通过以下的式定义的^φ_S ^(A)(ω,τ)以及^φ_S ^(B)(ω,τ)，将所计算的^φ_S ^(A)(ω,τ)作为由从上述目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)，并将所计算的^φ_S ^(B)(ω,τ)作为由上述不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)，

上述第二分量提取部将α_N设为规定的实数，将Y_N设为特定区间的帧的索引的集合，将β_N(ω)设为规定的实数，计算通过以下的式定义的^φ_N ^(A)(ω,τ)以及^φ_N ^(B)(ω,τ)，并将所计算的^φ_N ^(A)(ω,τ)作为由上述干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)，将^φ_N ^(B)(ω,τ)设为由上述不相干的噪音派生的稳定分量^φ_N ^(B)(ω,τ)，

上述各种噪音应对型增益计算部进一步利用由上述不相干的噪音派生的稳定分量^φ_N ^(B)(ω,τ)，计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器～G(ω,τ)。

4.如权利要求1所述的信号处理装置，进一步包含：

时间频率平均部，针对上述后置滤波器～G(ω,τ)进行向时间方向和频率方向的至少一个方向的平滑处理；以及

增益成形部，针对进行了上述平滑处理的后置滤波器～G(ω,τ)进行增益成形。

5.一种信号处理方法，包含：

局部PSD估计步骤，基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的观测信号，估计目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密度；

目标区/噪音区PSD估计步骤，将ω设为频率，将τ设为帧的索引，基于上述估计到的局部功率谱密度，估计目标区的功率谱密度^φ_S(ω,τ)以及噪音区的功率谱密度^φ_N(ω,τ)；

第一分量提取步骤，根据上述目标区的功率谱密度^φ_S(ω,τ)，提取由从目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)以及由不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)；

第二分量提取步骤，根据上述噪音区的功率谱密度^φ_N(ω,τ)，提取由干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)；以及

各种噪音应对型增益计算步骤，至少利用由从上述目标区到来的声音派生的非稳定分量^φ_S ^(A)(ω,τ)、由上述不相干的噪音派生的稳定分量^φ_S ^(B)(ω,τ)、以及由上述干扰噪音派生的非稳定分量^φ_N ^(A)(ω,τ)，计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器～G(ω,τ)。

6.一种存储了程序的计算机可读取的记录介质，所述程序使计算机起到权利要求1所述的信号处理装置的各部的作用。