CN106031196B - 信号处理装置、方法以及程序 - Google Patents
信号处理装置、方法以及程序 Download PDFInfo
- Publication number
- CN106031196B CN106031196B CN201580009993.1A CN201580009993A CN106031196B CN 106031196 B CN106031196 B CN 106031196B CN 201580009993 A CN201580009993 A CN 201580009993A CN 106031196 B CN106031196 B CN 106031196B
- Authority
- CN
- China
- Prior art keywords
- noise
- mentioned
- component
- target area
- derived
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title description 33
- 230000003595 spectral effect Effects 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 claims abstract description 22
- 230000006641 stabilisation Effects 0.000 claims abstract description 17
- 238000011105 stabilization Methods 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims 1
- 230000001629 suppression Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 238000009740 moulding (composite fabrication) Methods 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005096 rolling process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
以提供比以往提高了噪音抑制性能的信号处理技术作为目的。第一分量提取部(14)根据目标区的功率谱密度通过时间平均处理,提取由从目标区到来的声音派生的非稳定分量以及由不相干的噪音派生的稳定分量第二分量提取部(15)根据噪音区的功率谱密度提取由干扰噪音派生的非稳定分量以及由不相干的噪音派生的稳定分量
Description
技术领域
本发明涉及利用多个话筒清楚地接收从目标方向到来的声源信号的技术。
背景技术
首先,说明信号处理的基本框架。
设想利用由M个话筒构成的阵列。M是2以上的整数。例如,将M设为2至4左右。也可以将M设为100左右。在频率ω且帧时间τ的观测信号Xm(ω,τ)(m=1,2,…,M)中,包含相干且具有不稳定性的一个目标音S0(ω,τ)、K个干扰噪音Sk(ω,τ)(k=1,2,…,K)、不相干的稳定性噪音Nm(ω,τ)。将K设为规定的正整数。m是各话筒的编号,观测信号Xm(ω,τ)是将通过话筒m接收的时域的信号变换为频域的信号。
目标音是从规定的目标区到来的声音。目标区是包含想要接收的声源的区域。想要接收的声源的数目以及想要接收的声源在目标区内的位置可以是未知的。例如,如图6所例示,设配置有6个扬声器以及3个话筒的区域被分割为3个区(区1、区2、以及区3)。当想要接收的声源包含于区1的情况下,区1成为目标区。
另外,目标音中也可以包含来自目标区外的声源的反射音。例如,当目标区为区1的情况下,目标音也可以包含,在从区2以及区3中包含的声源产生的声音中通过反射而从区1的方向来到话筒的声音。
目标区可以是离话筒规定的距离以内的区。换言之,也可以是具有有限的面积的区。进而,目标区也可以有多个。图7是表示目标区有2个的情况下的例子的图。
另外,也将包含发出噪音的声源的区称为噪音区。在图6的例子中,当发出噪音的声源分别包含于区2以及区3中的情况下,区2以及区3分别成为噪音区。在本例中,将区2以及区3分别设为噪音区,但也可以将整合了区2以及区3的区设为噪音区。也将包含发出干扰噪音的声源的噪音区特别称为干扰噪音区。进行设定,使得噪音区不同于目标区。
在将第m个话筒至目标音S0(ω,τ)的传递特性记为Am,0(ω),将第m个话筒至第k个干扰噪音的传递特性记为Am,k(ω)时,观测信号Xm(ω,τ)如以下那样建模。
【数1】
当话筒数目少的情况下,即例如M<K的情况下,结合了基于最小方差无失真响应(MVDR)的波束成形与后置滤波器的框架可有效抑制噪音(例如,参照非专利文献1)。图1表示后置滤波器型阵列的处理流程。被设计为强调目标音的滤波器系数w0(ω)=[W0,1(ω),…,W0,M(ω)]T可如以下计算。
【数2】
在此,将x设为任意的向量或矩阵,xT表示x的转置,xH表示x的共轭转置。h0(ω)=[H0,1(ω),…,H0,M(ω)]T是目标音方向的阵列流形向量。阵列流形向量是将从声源至话筒的传递特性H0,m(ω)设为向量h0(ω)的向量,从声源至话筒的传递特性H0,m(ω)是根据声源和话筒位置而理论上能够算出的仅假设了直接音的传递特性、或实测的传递特性、通过镜像法和有限元素法等计算机仿真来估计的传递特性。若假设为源信号互相不相干,则能够将空间相关矩阵R(ω)如以下那样建模。
【数3】
在此,hk(ω)是第k个干扰噪音的阵列流形向量。波束成形的输出信号Y0(ω,τ)可通过以下的式来获得。
【数4】
在此,x(ω,τ)=[X1(ω,τ),…,XM(ω,τ)]T。为了抑制在Y0(ω,τ)中包含的噪音信号,乘以后置滤波器G(ω,τ)。
【数5】
Z(ω,τ)=G(ω,τ)Y0(ω,τ)…(5)
最后,通过对Z(ω,τ)进行快速傅里叶反变换(IFFT),获得输出信号。
接着,说明基于非专利文献2的后置滤波器设计法。
在非专利文献2中,提出了基于利用多个波束成形而估计的各区的功率谱密度(PSD)而设计后置滤波器的方式(例如,参照非专利文献2)。以下,将该方式称为LPSD法(基于本地PSD的后置滤波器设计(Local PSD-based post-filter design))。利用图2,说明LPSD法的处理流程。
当基于Wiener法设计后置滤波器的情况下,如以下那样计算G(ω,τ)。
【数6】
在此,φS(ω,τ)表示目标区的功率谱密度,φN(ω,τ)表示噪音区的功率谱密度。在此,当称为某区的功率谱密度的情况下,意味着从该区到来的声音的功率谱密度。即,例如,目标区的功率谱密度是指从目标区到来的声音的功率谱密度,噪音区的功率谱密度是指从噪音区到来的声音的功率谱密度。用于根据Xm(ω,τ)而估计φS(ω,τ)、φN(ω,τ)的方法有多种,但假设在观测信号中包含干扰噪音,因此利用LPSD法。
在LPSD法中,假设在观测信号中包含有目标音与干扰噪音,且这些在时间频率区域中稀疏。为了分析位于各方向的各区的功率谱密度,设计L+1个波束成形滤波器wu(ω)(u=0,1,…,L)。滤波器wu(ω)对第k个区方向的灵敏度|Du,k(ω)|2、第u个输出信号的功率|Yu(ω,τ)|2、各区的功率谱密度|Sk(ω,τ)|2之间的关系能够如以下那样建模。在此,|Du,k(ω)|2例如是|Du,k(ω)|2=|wu H(ω)hk(ω)|2。作为|Du,k(ω)|2,也可以利用实测值。
【数7】
在此,省略了各符号的索引。即,Yu=Yu(ω,τ),且Du,k=Du,k(ω),Su=Su(ω,τ)。此外,设ΦY(ω,τ)=[|Y0(ω,τ)|2,|Y1(ω,τ)|2,…,|YL(ω,τ)|2]T、ΦS(ω,τ)=[|S0(ω,τ)|2,|S1(ω,τ)|2,…,|SK(ω,τ)|2]T。
例如,通过解式(7)的反问题,算出各区的功率谱密度。
【数8】
在此,将b设为任意的矩阵,b+表示对b的伪逆矩阵运算。局部PSD估计部11将观测信号Xm(ω,τ)(m=1,2,…,M)作为输入,从而输出例如通过式(8)而定义的局部功率谱密度^ΦS(ω,τ)。「^」表示是被估计的。
局部是指区。在图6的例中,区1、区2、以及区3分别是局部。局部PSD估计部估计并输出各区的功率谱密度^ΦS(ω,τ)。
目标区/噪音区PSD估计部12以针对每个频率ω以及帧τ基于式(8)而估计的局部功率谱密度^ΦS(ω,τ)作为输入,算出通过以下的式定义的^φS(ω,τ)以及^φN(ω,τ)。
【数9】
最后,维纳增益计算部13以^φS(ω,τ)以及^φN(ω,τ)作为输入,计算并输出通过式(6)定义的后置滤波器G(ω,τ)。具体来说,维纳增益计算部13分别输入^φS(ω,τ)以及^φN(ω,τ)作为式(6)的φS(ω,τ)以及φN(ω,τ),从而计算并输出G(ω,τ)。
LPSD法的主要的优点有以下两点。(i)在功率谱区域定义波束成形的输出与各声源的关系,能够获得超过麦克风的数量的控制自由度,因此能够有效地抑制噪音;以及(ii)只要事先计算L个波束成形wu(ω)(u=0,1,…,L)与式(7)的D(ω),就能够以较低运算量实现(i)的优点。
现有技术文献
【非专利文献】
【非专利文献1】C.Marro et al.,“Analysis of noise reduction anddereverberation techniques based on microphone arrays with postfiltering,”IEEE Trans.Speech,Audio Proc.,6,240-259,1998.
【非专利文献2】Y.Hioka et al.,“Underdetermined sound source separationusing power spectrum density estimated by combination of directivity gain,”IEEE Trans.Audio,Speech,Language Proc.,21,1240-1250,2013.
发明内容
发明要解决的课题
在LPSD法中,假定目标音与干扰音混合存在的情况而定义了问题,但在实用上的问题中,不仅是具有相干性的干扰噪音,多数情况是不相干性强的稳定噪音(空调的噪音、麦克的内部噪音等)混合存在。此时,φS(ω,τ)以及φN(ω,τ)的估计误差变大,有时导致噪音抑制性能降低。
本发明的目的在于,提供比以往提高噪音抑制性能的信号处理装置、方法以及程序。
用于解决课题的手段
本发明的一方式的信号处理装置具有:局部PSD估计部,基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的观测信号,估计目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密度;目标区/噪音区PSD估计部,将ω设为频率,将τ设为帧的索引,基于估计到的局部功率谱密度,估计目标区的功率谱密度^φS(ω,τ)以及噪音区的功率谱密度^φN(ω,τ);第一分量提取部,根据目标区的功率谱密度^φS(ω,τ),提取由从目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φS (B)(ω,τ);第二分量提取部,根据噪音区的功率谱密度^φN(ω,τ),提取由干扰噪音派生的非稳定分量^φN (A)(ω,τ);以及各种噪音应对型增益计算部,至少利用由从目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)、由不相干的噪音派生的稳定分量^φS (B)(ω,τ)、以及由干扰噪音派生的非稳定分量^φN (A)(ω,τ),计算用于强调从目标区到来的声音的非稳定分量的后置滤波器~G(ω,τ)。
发明效果
能够比以往提高噪音抑制性能。
附图说明
图1是表示后置滤波器型阵列的处理流程的图。
图2是以往的后置滤波器估计部的模块图。
图3是本发明所涉及的后置滤波器估计装置的例的模块图。
图4是本发明所涉及的后置滤波器估计方法的例的模块图。
图5是用于说明实验结果的图。
图6是用于说明目标区以及噪音区的例的图。
图7是用于说明目标区的例的图。
图8是用于说明增益成形的例的图。
具体实施方式
在以下说明的信号处理装置以及方法中,通过将LPSD法扩展,从而对各种噪音环境稳健地估计后置滤波器。具体来说,按噪音的每个种类进行分割而估计功率谱密度,从而减少目标音的功率与其他噪音的功率之比的估计误差。
图3表示本发明的一实施方式所涉及的信号处理装置即后置滤波器估计部1的例的模块图。
如图3所示,信号处理装置例如具有局部PSD估计部11、目标区/噪音区PSD估计部12、第一分量提取部14、第二分量提取部15、各种噪音应对型增益计算部16、时间频率平均化部17、以及增益成形部18。
例如,图4表示通过该信号处理装置实现的信号处理的各步骤。
以下,说明信号处理装置以及方法的实施方式的细节。另外,关于基本信号处理的框架、语言的定义等,与在背景技术的栏中记载的一样。从而,省略这些重复说明。
<局部PSD估计部11>
局部PSD估计部11与现有的局部PSD估计部11一样。
即,局部PSD估计部11基于根据由构成话筒阵列的M个话筒接收的信号获得的频域的观测信号Xm(ω,τ)(m=1,2,…,M),估计目标区以及噪音区各自的局部功率谱密度^ΦS(ω,τ)(步骤S1)。ω是频率,τ是帧的索引。M是2以上的整数。例如,将M设为2至4左右。也可以将M设为100左右。
所估计的局部功率谱密度^ΦS(ω,τ)被输出到目标区/噪音区PSD估计部12。
估计局所功率谱密度的具体的处理例与在背景技术栏中记载的一样,因此这里省略说明。
另外,设波束成形滤波器wu(ω)以及灵敏度|Du,k(ω)|2在局部PSD估计部11的处理之前预先设定。此外,在目标区的方向在一定程度上变化的情况下,局部PSD估计部11也可以预先准备多个滤波器组,选择采用最大的功率的滤波器。
另外,局部PSD估计部11并非基于通过波束成形获得的Yu(ω,τ)(u=0,1,…,L),而是基于由在各区的方向具有指向性的各一个话筒接收到的Yu(ω,τ)(u=0,1,…,L)而估计局部功率谱密度^ΦS(ω,τ)。
<目标区/噪音区PSD估计部12>
目标区/噪音区PSD估计部12与以往的目标区/噪音区PSD估计部12同样。
即,目标区/噪音区PSD估计部12基于所估计的局部功率谱密度,估计目标区的功率谱密度^φS(ω,τ)以及噪音区的功率谱密度^φN(ω,τ)(步骤S2)。
所估计的目标区的功率谱密度^φS(ω,τ)被输出到第一分量提取部14。所估计的噪音区的功率谱密度^φN(ω,τ)被输出到第二分量提取部15。
关于估计目标区的功率谱密度^φS(ω,τ)以及噪音区的功率谱密度^φN(ω,τ)的具体的处理例,与在背景技术栏中记载的同样,因此这里省略说明。
<第一分量提取部14>
例如在通过式(9)定义的^φS(ω,τ)中,包含由从目标区接收到的声音派生的非稳定分量^φS (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φS (B)(ω,τ)。这里,稳定分量是时间上变化少的分量,非稳定分量是时间上变化多的分量。
这里,噪音有干扰噪音和不相干的噪音两种噪音。干扰噪音是从在噪音区配置的噪音声源发出的噪音。不相干的噪音并非从目标区和噪音区发出的,而是从这些区以外的场所发出,是稳定存在的噪音。
因此,第一分量提取部14根据目标区的功率谱密度^φS(ω,τ),通过平滑处理,提取由从目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φS (B)(ω,τ)(步骤S3)。例如,平滑处理通过式(11)以及式(12)那样的指数移动平均处理、时间平均处理或加权平均处理实现。
由从所提取的目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φS (B)(ω,τ)被输出到各种噪音应对型增益计算部16。
例如,第一分量提取部14如式(11)以及式(12)那样,通过进行指数移动平均处理,根据^φS(ω,τ)计算^φS (B)(ω,τ)。
【数10】
在此,αS是平滑系数,是规定的正实数。例如,设0<αS<1。此外,可以设为αS=帧的时间长/时间常数,从而将αS设定为使时间常数成为150ms左右。ΥS是特定区间的帧的索引的集合。例如,设定为使特定区间成为3至4秒左右。min是输出最小值的函数。
如此,^φS (B)(ω,τ)是例如通过式(11)以及式(12)对^φS(ω,τ)进行了平滑的分量。更具体来说,^φS (B)(ω,τ)是例如通过式(11)对^φS(ω,τ)进行了平滑的值在规定的时间区间中的最小值。
然后,第一分量提取部14如式(13)那样,从^φS(ω,τ)减去^φS (B)(ω,τ)从而计算^φS (A)(ω,τ)。
【数11】
在此,βS(ω)是权重系数,是规定的正实数。βS(ω)例如被设定为1至3左右的实数。
如此,φS (A)(ω,τ)是从^φS(ω,τ)去除了^φS (B)(ω,τ)的分量。
另外,^φS (A)(ω,τ)也可以以满足^φS (A)(ω,τ)≧0的条件的方式被进行向下取整处理(Flooring processing)。该向下取整处理例如由第一分量提取部14进行。
<第二分量提取部15>
例如通过式(10)定义的^φN(ω,τ)中,包含由干扰噪音派生的非稳定分量^φN (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φN (B)(ω,τ)。
因此,第二分量提取部15根据噪音区的功率谱密度^φN(ω,τ),通过平滑处理,提取由干扰噪音派生的非稳定分量^φN (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φN (B)(ω,τ)(步骤S4)。例如,平滑处理通过如式(14)以及式(15)那样的指数移动平均处理、时间平均处理或加权平均处理实现。
由提取的干扰噪音派生的非稳定分量^φN (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φN (B)(ω,τ)被输出到各种噪音应对型增益计算部16。
例如,第二分量提取部15通过如式(14)以及式(15)那样进行指数移动平均处理,根据^φN(ω,τ)计算^φN (B)(ω,τ)。
【数12】
这里,αN是平滑系数,是规定的正实数。例如,设0<αN<1。此外,也可以设为αN=帧的时间长/时间常数,从而将αN设定为时间常数成为150ms左右。ΥN是特定区间的帧的索引的集合。例如,被设定为特定区间成为3至4秒左右。
如此,^φN (B)(ω,τ)是例如通过式(14)以及式(15)对^φN(ω,τ)进行了平滑的分量。更具体来说,^φN (B)(ω,τ)是例如通过式(14)对^φN(ω,τ)进行了平滑的值在规定的时间区间中的最小值。
然后,第二分量提取部15通过如式(16)那样从^φN(ω,τ)减去^φN (B)(ω,τ),从而计算^φN (A)(ω,τ)。
【数13】
在此,βN(ω)是权重系数,是规定的正实数。βN(ω)被设定为例如1至3左右的实数。
如此,φN (A)(ω,τ)是从^φN(ω,τ)去除了^φN (B)(ω,τ)的分量。
另外,^φN (A)(ω,τ)也可以以满足^φN (A)(ω,τ)≧0的条件的方式被进行向下取整处理。该向下取整处理例如可以在第二分量提取部15中进行。
αN可以与αS相同也可以不同。ΥN可以与ΥS相同也可以不同。βN(ω)可以与βS(ω)相同也可以不同。
另外,在各种噪音应对型增益计算部16中不利用^φN (B)(ω,τ)的情况下,第二分量提取部15也可以不求出^φN (B)(ω,τ)。换言之,此时,第二分量提取部15也可以根据^φN(ω,τ)仅求出^φN (A)(ω,τ)。
<各种噪音应对型增益计算部16>
各种噪音应对型计算部16至少利用由从目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)、由不相干的噪音派生的稳定分量^φS (B)(ω,τ)、以及由干扰噪声派生的非稳定分量^φN (A)(ω,τ),计算用于强调从目标区到来的声音的非稳定分量的后置滤波器~G(ω,τ)(步骤S5)。
所计算的后置滤波器~G(ω,τ)被输出到时间频率平均部17。
由于按照噪音的种类(换言之,不相干的噪音、相干的噪音这样的噪音种类)估计了功率谱密度,因此各种噪音应对型增益计算部16例如计算通过以下的式(17)定义的后置滤波器~G(ω,τ)。
【数14】
当^φS (B)(ω,τ)的值的特性(behavior)与^φN (B)(ω,τ)的值的特性之间存在差异,不相干性的假定被破坏的情况下,各种噪音应对型增益计算部16也可以计算通过以下的式(18)定义的后置滤波器~G(ω,τ)。
【数15】
<时间频率平均部17>
时间频率平均部17针对后置滤波器~G(ω,τ),进行向时间方向与频率方向的至少一个方向的平滑处理(步骤S6)。
被平滑处理后的后置滤波器~G(ω,τ)被输出到增益成形部18。
当在时间方向上进行平滑的情况下,将τ0以及τ1设为0以上的整数,从而时间频率平均部17只要针对例如后置滤波器~G(ω,τ)的时间方向附近的后置滤波器即~G(ω,τ-τ0),…~G(ω,τ+τ1)进行加法平均即可。时间频率平均部17也可以对~G(ω,τ-τ0),…~G(ω,τ+τ1)进行加权求和。
此外,当在频率方向上进行平滑的情况下,只要将ω0以及ω1设为0以上的实数,从而时间频率平均部17只要针对例如后置滤波器~G(ω,τ)的频率方向附近的后置滤波器即~G(ω-ω0,τ),…~G(ω+ω1,τ)进行平均即可。时间频率平均部17也可以对~G(ω-ω0,τ),…~G(ω+ω1,τ)进行加权求和。
<增益成形部18>
增益成形部18通过对进行了平滑处理的后置滤波器~G(ω,τ)进行增益成形,从而生成后置滤波器G(ω,τ)(步骤S7)。增益成形部18例如生成通过以下的式(19)定义的后置滤波器G(ω,τ)。
【数16】
在此,γ是权重系数,是正实数,例如,将γ设定为1至1.3左右即可。
增益成形部18可以对后置滤波器G(ω,τ)进行向下取整处理,以便满足A≦G(ω,τ)≦1。A是0至0.3的实数,通常设定为0.1左右。若G(ω,τ)比1大则存在过强调的可能性,此外,若G(ω,τ)过小则存在发生音乐噪声(Musical noise)的可能性。通过进行适当的向下取整处理,能够防止发生该强调以及音乐噪声。
考虑定义域以及值域是实数的函数f。函数f例如设为非降函数。增益成形意味着求出将增益成形前的~G(ω,τ)输入到函数f时的输出值的操作。换言之,对函数f输入了~G(ω,τ)时的输出值为G(ω,τ)。函数f的例是式(19)。式(19)的函数f是f(x)=γ(x-0.5)+0.5。
利用图8说明其他函数f的其他例。在图8中,省略了索引。即,图8的G表示G(ω,τ),~G表示~G(ω,τ)。首先,在该例中,如图8(A)至图8(B)所示,改变了函数f的图表的坡度。此外,如图8(B)至图8(C)所示,进行向下取整处理以便满足0≦G(ω,τ)≦1。通过由该图8(C)的粗线表示的图表确定的函数是函数f的其他例。
函数f的图表并不限定于图8(C)表示的图表。例如,在图8(C)中,函数f的图表由直线构成,但函数f的图表也可以由曲线构成。例如,函数f也可以是对双曲正切函数施加了向下取整处理的函数。
根据该信号处理装置以及方法,能够对具有各种性质的噪音存在的环境稳健地设计用于噪音抑制的后置滤波器。此外,通过具有实时性的处理,能够设计这样的后置滤波器。
[实施例与实验结果]
以LPSD法为现有方式,进行了用于验证所提方式的效果的实验。如图5所示,在混响时间110ms(1.0kHz)的室内配置了声源或阵列。在有目标音(男女发声)、K=3个干扰噪音(#1:男女发声、#2,3:音乐)、从室内的四个角落的扬声器发出白噪声而再现的背景噪音时,利用M=4个全向话筒进行了录音。观测时的SN比平均为-1dB。此外,将采样频率设为16.0kHz,将FFT分析长度设为512pt,将FFT偏移长度设为256pt。
在该条件下,根据通过以下的式定义的谱失真(SD),评价了噪音抑制性能。
【数17】
这里,Ψ和|Ψ分别表示帧的索引集合以及其总数。Ω与|Ω|分别表示频率区间的索引以及其总数。SD的值越小噪音抑制性能越高。对男女发声的650句计算SD,以往方式中是14.0,在所提方式中成为11.5,SD降低。尤其提高了对发声区间外的背景噪音的抑制效果。
[变形例等]
时间频率平均部17以及增益成形部18的处理为了抑制所谓的音乐噪声而进行。时间频率平均部17以及增益成形部18的处理也可以不进行。
基于指数移动平均处理的^φS (B)(ω,τ)以及^φS (A)(ω,τ)的计算是第一分量提取部14的处理的一例。第一分量提取部14也可以通过其他的处理而提取^φS (B)(ω,τ)以及^φS (A)(ω,τ)。
同样地,基于指数移动平均处理的^φN (B)(ω,τ)以及^φN (A)(ω,τ)的计算是第二分量提取部15的处理的一例。第二分量提取部15也可以通过其他的处理而提取^φN (B)(ω,τ)以及^φN (A)(ω,τ)。
在上述信号处理装置以及方法中说明的处理不仅按照记载的顺序时序地执行,也可以根据执行处理的装置的处理能力或需要,并列地或者单独执行。
此外,当通过计算机实现在信号处理装置中的各部的情况下,通过程序来记述信号处理装置的各部应具有的功能的处理内容。并且,通过计算机来执行该程序,从而在计算机上实现该各部。
记述了该处理内容的程序能够预先记录在计算机中能够读取的记录介质中。作为计算机中能够读取的记录介质,例如可以是磁记录装置、光盘、光磁记录介质、半导体存储器等的任意的介质。
此外,各处理部件通过在计算机上执行规定的程序而构成,也可以通过硬件实现这些处理内容的至少一部分。
除此之外,在不脱离本发明的宗旨的范围内当然能够适当进行变更。
产业上的可利用性
作为智能手机的命令输入,一般利用了声音识别。认为在车内或工厂内的噪音下,通过免提操作设备或者远程进行通话的需要较高。
本发明能够例如在这样的情况下利用。
Claims (6)
1.一种信号处理装置,包含:
局部PSD估计部,基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的观测信号,估计规定的目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密度;
目标区/噪音区PSD估计部,将ω设为频率,将τ设为帧的索引,基于上述估计到的局部功率谱密度,估计目标区的功率谱密度^φS(ω,τ)以及噪音区的功率谱密度^φN(ω,τ);
第一分量提取部,根据上述目标区的功率谱密度^φS(ω,τ),提取由从目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φS (B)(ω,τ);
第二分量提取部,根据上述噪音区的功率谱密度^φN(ω,τ),提取由干扰噪音派生的非稳定分量^φN (A)(ω,τ);以及
各种噪音应对型增益计算部,至少利用由从上述目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)、由上述不相干的噪音派生的稳定分量^φS (B)(ω,τ)、以及由上述干扰噪音派生的非稳定分量^φN (A)(ω,τ),计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器~G(ω,τ)。
2.如权利要求1所述的信号处理装置,其中,
由上述不相干的噪音派生的稳定分量^φS (B)(ω,τ)是对上述目标区的功率谱密度^φS(ω,τ)进行了平滑的分量,
由从上述目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)是从上述目标区的功率谱密度^φS(ω,τ)去除了由上述不相干的噪音派生的稳定分量^φS (B)(ω,τ)的分量,
由上述干扰噪音派生的非稳定分量^φN (A)(ω,τ)是从上述噪音区的功率谱密度^φN(ω,τ)去除了对上述噪音区的功率谱密度^φN(ω,τ)进行了平滑的分量的分量。
3.如权利要求1所述的信号处理装置,其中,
上述第二分量提取部从上述噪音区的功率谱密度^φN(ω,τ)进一步提取由干扰噪音派生的非稳定分量^φN (A)(ω,τ),
上述第一分量提取部将αS设为规定的实数,将YS设为特定区间的帧的索引的集合,将βS(ω)设为规定的实数,计算通过以下的式定义的^φS (A)(ω,τ)以及^φS (B)(ω,τ),将所计算的^φS (A)(ω,τ)作为由从上述目标区到来的声音派生的非稳定分量^φS (A)(ω,τ),并将所计算的^φS (B)(ω,τ)作为由上述不相干的噪音派生的稳定分量^φS (B)(ω,τ),
上述第二分量提取部将αN设为规定的实数,将YN设为特定区间的帧的索引的集合,将βN(ω)设为规定的实数,计算通过以下的式定义的^φN (A)(ω,τ)以及^φN (B)(ω,τ),并将所计算的^φN (A)(ω,τ)作为由上述干扰噪音派生的非稳定分量^φN (A)(ω,τ),将^φN (B)(ω,τ)设为由上述不相干的噪音派生的稳定分量^φN (B)(ω,τ),
上述各种噪音应对型增益计算部进一步利用由上述不相干的噪音派生的稳定分量^φN (B)(ω,τ),计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器~G(ω,τ)。
4.如权利要求1所述的信号处理装置,进一步包含:
时间频率平均部,针对上述后置滤波器~G(ω,τ)进行向时间方向和频率方向的至少一个方向的平滑处理;以及
增益成形部,针对进行了上述平滑处理的后置滤波器~G(ω,τ)进行增益成形。
5.一种信号处理方法,包含:
局部PSD估计步骤,基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的观测信号,估计目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密度;
目标区/噪音区PSD估计步骤,将ω设为频率,将τ设为帧的索引,基于上述估计到的局部功率谱密度,估计目标区的功率谱密度^φS(ω,τ)以及噪音区的功率谱密度^φN(ω,τ);
第一分量提取步骤,根据上述目标区的功率谱密度^φS(ω,τ),提取由从目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)以及由不相干的噪音派生的稳定分量^φS (B)(ω,τ);
第二分量提取步骤,根据上述噪音区的功率谱密度^φN(ω,τ),提取由干扰噪音派生的非稳定分量^φN (A)(ω,τ);以及
各种噪音应对型增益计算步骤,至少利用由从上述目标区到来的声音派生的非稳定分量^φS (A)(ω,τ)、由上述不相干的噪音派生的稳定分量^φS (B)(ω,τ)、以及由上述干扰噪音派生的非稳定分量^φN (A)(ω,τ),计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器~G(ω,τ)。
6.一种存储了程序的计算机可读取的记录介质,所述程序使计算机起到权利要求1所述的信号处理装置的各部的作用。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-037820 | 2014-02-28 | ||
JP2014037820 | 2014-02-28 | ||
PCT/JP2015/055442 WO2015129760A1 (ja) | 2014-02-28 | 2015-02-25 | 信号処理装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106031196A CN106031196A (zh) | 2016-10-12 |
CN106031196B true CN106031196B (zh) | 2018-12-07 |
Family
ID=54009075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580009993.1A Active CN106031196B (zh) | 2014-02-28 | 2015-02-25 | 信号处理装置、方法以及程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9747921B2 (zh) |
EP (1) | EP3113508B1 (zh) |
JP (1) | JP6225245B2 (zh) |
CN (1) | CN106031196B (zh) |
WO (1) | WO2015129760A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181329B2 (en) * | 2014-09-05 | 2019-01-15 | Intel IP Corporation | Audio processing circuit and method for reducing noise in an audio signal |
WO2017094862A1 (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
JP6915579B2 (ja) * | 2018-04-06 | 2021-08-04 | 日本電信電話株式会社 | 信号分析装置、信号分析方法および信号分析プログラム |
JP2019193073A (ja) * | 2018-04-24 | 2019-10-31 | 日本電信電話株式会社 | 音源分離装置、その方法、およびプログラム |
CN109490626B (zh) * | 2018-12-03 | 2021-02-02 | 中车青岛四方机车车辆股份有限公司 | 一种基于非平稳随机振动信号的标准psd获取方法及装置 |
WO2022038673A1 (ja) * | 2020-08-18 | 2022-02-24 | 日本電信電話株式会社 | 収音装置、収音方法、プログラム |
CN113808608B (zh) * | 2021-09-17 | 2023-07-25 | 随锐科技集团股份有限公司 | 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201418142Y (zh) * | 2009-05-22 | 2010-03-03 | 杨辉隆 | 一种麦克风 |
JP2012088390A (ja) * | 2010-10-15 | 2012-05-10 | Honda Motor Co Ltd | 音声認識装置及び音声認識方法 |
JP2012195772A (ja) * | 2011-03-16 | 2012-10-11 | Canon Inc | 音声信号処理装置及びその制御方法、コンピュータプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4950733B2 (ja) * | 2007-03-30 | 2012-06-13 | 株式会社メガチップス | 信号処理装置 |
EP2394270A1 (en) * | 2009-02-03 | 2011-12-14 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
EP2226794B1 (en) * | 2009-03-06 | 2017-11-08 | Harman Becker Automotive Systems GmbH | Background noise estimation |
EP2395506B1 (en) * | 2010-06-09 | 2012-08-22 | Siemens Medical Instruments Pte. Ltd. | Method and acoustic signal processing system for interference and noise suppression in binaural microphone configurations |
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
JP2012177828A (ja) * | 2011-02-28 | 2012-09-13 | Pioneer Electronic Corp | ノイズ検出装置、ノイズ低減装置及びノイズ検出方法 |
US9002027B2 (en) * | 2011-06-27 | 2015-04-07 | Gentex Corporation | Space-time noise reduction system for use in a vehicle and method of forming same |
EP2884491A1 (en) * | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
-
2015
- 2015-02-25 US US15/120,678 patent/US9747921B2/en active Active
- 2015-02-25 CN CN201580009993.1A patent/CN106031196B/zh active Active
- 2015-02-25 JP JP2016505268A patent/JP6225245B2/ja active Active
- 2015-02-25 WO PCT/JP2015/055442 patent/WO2015129760A1/ja active Application Filing
- 2015-02-25 EP EP15754624.3A patent/EP3113508B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201418142Y (zh) * | 2009-05-22 | 2010-03-03 | 杨辉隆 | 一种麦克风 |
JP2012088390A (ja) * | 2010-10-15 | 2012-05-10 | Honda Motor Co Ltd | 音声認識装置及び音声認識方法 |
JP2012195772A (ja) * | 2011-03-16 | 2012-10-11 | Canon Inc | 音声信号処理装置及びその制御方法、コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160372131A1 (en) | 2016-12-22 |
EP3113508B1 (en) | 2020-11-11 |
US9747921B2 (en) | 2017-08-29 |
CN106031196A (zh) | 2016-10-12 |
EP3113508A4 (en) | 2017-11-01 |
EP3113508A1 (en) | 2017-01-04 |
JP6225245B2 (ja) | 2017-11-01 |
JPWO2015129760A1 (ja) | 2017-03-30 |
WO2015129760A1 (ja) | 2015-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106031196B (zh) | 信号处理装置、方法以及程序 | |
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
US10123113B2 (en) | Selective audio source enhancement | |
JP6074263B2 (ja) | 雑音抑圧装置及びその制御方法 | |
CN109074816B (zh) | 远场自动语音识别预处理 | |
CN110085248B (zh) | 个人通信中降噪和回波消除时的噪声估计 | |
US8848933B2 (en) | Signal enhancement device, method thereof, program, and recording medium | |
US8238569B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
CN104781880B (zh) | 用于提供通知的多信道语音存在概率估计的装置和方法 | |
US8229129B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
CN106710601A (zh) | 一种语音信号降噪拾音处理方法和装置及冰箱 | |
Jensen et al. | Noise reduction with optimal variable span linear filters | |
JP2017503388A5 (zh) | ||
JP6987075B2 (ja) | オーディオ源分離 | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
Cecchi et al. | An adaptive multiple position room response equalizer | |
Zheng et al. | Two-channel post-filtering based on adaptive smoothing and noise properties | |
KR20190073852A (ko) | 우도 최대화를 이용한 빔포밍 방법 | |
Chen et al. | Study of the noise-reduction problem in the Karhunen–Loève expansion domain | |
Fontaine et al. | Multichannel audio modeling with elliptically stable tensor decomposition | |
KR20210137906A (ko) | 바람 소음 감소를 위한 시스템 및 방법 | |
Malek et al. | Speaker extraction using LCMV beamformer with DNN-based SPP and RTF identification scheme | |
JP2020148880A (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
Kodrasi et al. | Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization | |
Naghibi et al. | An approach to prevent adaptive beamformers from cancelling the desired signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |