CN103282961B - 语音增强方法以及语音增强装置 - Google Patents
语音增强方法以及语音增强装置 Download PDFInfo
- Publication number
- CN103282961B CN103282961B CN201180061060.9A CN201180061060A CN103282961B CN 103282961 B CN103282961 B CN 103282961B CN 201180061060 A CN201180061060 A CN 201180061060A CN 103282961 B CN103282961 B CN 103282961B
- Authority
- CN
- China
- Prior art keywords
- mrow
- filter
- msub
- speech
- mover
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 301
- 238000012546 transfer Methods 0.000 claims abstract description 116
- 239000011159 matrix material Substances 0.000 claims description 121
- 238000013461 design Methods 0.000 claims description 84
- 239000013598 vector Substances 0.000 claims description 82
- 230000001629 suppression Effects 0.000 claims description 28
- 230000015556 catabolic process Effects 0.000 claims description 17
- 238000006731 degradation reaction Methods 0.000 claims description 17
- 230000002708 enhancing effect Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 54
- 230000014509 gene expression Effects 0.000 description 51
- 230000004044 response Effects 0.000 description 32
- 230000005540 biological transmission Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 21
- 238000007796 conventional method Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 8
- 238000003491 array Methods 0.000 description 8
- 238000012938 design process Methods 0.000 description 8
- 230000001131 transforming effect Effects 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000006866 deterioration Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 5
- 230000017105 transposition Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001075517 Abelmoschus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
提供以足够的SN比进行集音,甚至可跟踪任意方向的语音的同时,对于所希望方向具有比以往更尖锐的指向性,并根据距离话筒阵列的距离来增强语音的语音增强技术。使用来自在作为声源位置所设想的一个或者多个位置方向中包含的各位置(其中,将用于识别各位置的方向设为i,将距离设为g)的语音向各话筒的传递特性ai,g,对成为语音增强的对象的位置,求滤波器。各传递特性ai,g以来自由方向i和距离g确定的位置的语音直接到达的直达音的传递特性、和该语音由反射物反射并到达的一个以上的反射音的各传递特性之和表示。对将由M个话筒集音语音得到的M个集音信号分别变换到频域后的频域信号,应用与成为语音增强的对象的位置对应的滤波器,得到输出信号。
Description
技术领域
本发明涉及能够将所希望的窄范围的语音增强的技术(语音增强技术)。
背景技术
例如若考虑利用具有话筒(microphone)的运动图像撮影装置(摄像机、摄录机(Camcorder))对被摄体进行拉近镜头拍摄的情况,则对运动图像拍摄来说优选与拉近镜头(zoom in)拍摄连动地仅来自被摄体附近的语音被增强。这样的、将包含所希望的方向(目标方向)的窄范围的语音增强的技术(窄指向语音增强技术),以往一直研究和开发。再有,话筒的周围方向和话筒的灵敏度之间的关系被称为指向性,向某方向的指向性越尖锐,越增强包含该方向的窄范围的语音,并能够抑制该范围以外的范围的语音。这里,首先例示与窄指向语音增强技术有关的三个以往技术。另外,在该说明书中,“语音”并不限于人发出的声,指人和动物的声当然不用说,一般也指乐音和环境杂音等“音”。
[1]采用了物理特性的窄指向语音增强技术
作为该类别(category)的代表性的例子,举出音响管话筒(mike)和抛物面(parabola)话筒。首先,参照图1叙述音响管话筒900的原理。音响管话筒900是利用声音的干扰,增强从目标方向到来的语音的话筒。图1A是用于说明通过音响管话筒900,从目标方向到来的语音被增强的图。构成音响管话筒900的音响管901的开口部朝向目标方向。并且,从音响管901的开口部的正面(目标方向)到来的语音原样地在音响管901的内部一直前进,因此,该语音以低能量损耗到达构成音响管话筒900的话筒902。另一方面,如图1B所示,从目标方向以外到来的语音,通过在音响管901的侧面刻出的多个缝隙903进入到音响管901中,但是通过这些缝隙903进入的语音相互干扰。因此,从目标方向以外到来的语音到达话筒902时的声压电平(level)较弱。
接着,参照图2叙述抛物面话筒910的原理。抛物面话筒910是利用声 音的反射,增强从目标方向到来的语音的话筒。图2A是用于说明通过抛物面话筒910,从目标方向到来的语音被增强的图。抛物面板911朝向目标方向,以使将构成抛物面话筒910的抛物面板(抛物面)911的顶点和该抛物面板911的焦点连接的直线与目标方向重合。并且,从目标方向到来的语音通过抛物面板911反射,而汇聚于焦点。因此,设置于焦点的话筒912即使是能量低的语音信号也能够将其增强而进行集音。另一方面,如图2B所示,从目标方向以外到来的语音通过抛物面板911的反射音不汇聚于焦点。因此,从目标方向以外到来的语音到达话筒912时的声压电平较弱。
[2]使用了信号处理的窄指向语音增强技术
作为该类别的代表性的例子,举出相控话筒阵列(phased microphone array)(参照非专利文献1参照)。图3是用于说明使用由多个话筒构成的相控话筒阵列,增强目标方向的语音,抑制目标方向以外方向的语音的图。相控话筒阵列对由各话筒进行集音的信号施加包含有时间差、声压电平差的信息的过滤并进行叠加的信号处理,从而增强目标方向的语音。与类别[1]中说明的音响管话筒和抛物面话筒不同,由于相控话筒阵列通过信号处理进行语音增强,因此能够增强任意方向的语音。
[3]基于对反射音进行选择集音的窄指向语音增强技术
作为该类别的代表性的例子,有多波束成形(Mult-beam forming)法(参照非专利文献2)。多波束成形法通过汇集直达音和反射音这样的各种声音,从而能够以高SN比对目标方向的语音进行集音的窄指向语音增强技术,相比语音领域,常在无线领域被研究。
以下说明频域下的多波束成形法的处理内容。在说明之前定义符号。将频率的索引设为ω,帧号码的索引设为k。由M个话筒接受的模拟信号的频域表现设为X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T,将处于方向θs的来自想要增强的声源的直达音的到来方向设为θs1,将反射音的到来方向设为θs2,…,θsR。T表示转置,R-1是反射音的总数。将增强方向θsr的语音的滤波器(filter)设为W→(ω,θsr)。这里,r是满足1≤r≤R的各整数。
在多波束成形法中,前提是已知直达音以及反射音的到来方向和到来时间。也就是说,能够清楚地预想反射声音的墙壁、地板、反射板这样的物体数等于R-1。另外,反射音数R-1大多被设定为3或者4这样比较小的值。这基于在直达音和低阶的反射音之间认为具有较高的相关性。多波束成形法 由于是单独地增强各个语音而进行同步相加的方式,因此,输出信号Y(ω,k,θs)按式(1)提供。H表示埃尔米特(Hermite)转置。
作为滤波器W→(ω,θsr)的设计法说明延迟合成法。若假定直达音和反射音为平面波到来,则按式(2)提供滤波器W→(ω,θsr)。h→(ω,θsr)=[h1(ω,θsr),…,hM(ω,θsr)]T是从方向θsr到来的语音的传播矢量。
若假定对线性话筒阵列(M个话筒排列成直线状的话筒阵列)到来平面波,则按式(3)提供构成h→(ω,θsr)的元素hm(ω,θsr)。m是满足1≤m≤M的各整数。c表示音速,u表示相邻的话筒间的距离。j是虚数单位。τ(θsr)表示从方向θsr到来的反射音相对于直达音的时间延迟。
最后,通过将输出信号Y(ω,k,θs)变换到时域,能够得到将处于目标方向θs的声源的语音增强后的信号。
图4表示基于多波束成形法的窄指向语音增强技术的功能结构。
步骤1
AD变换单元110将作为M个话筒100-1,…,100-M的输出的模拟信号变换为数字信号X→(t)=[X1(t),…,XM(t)]T。这里,t表示离散时间的索引。
步骤2
频域变换单元120将各通道(channel)的数字信号通过快速离散傅里叶变换等方法变换为频域信号。例如,对于第m(1≤m≤M)的话筒,将N点 的信号xm((k-1)N+1),…,xm(kN)储存在缓冲器中。N在16KHz采样的情况下为512左右。通过对储存在缓冲器中的M通道的模拟信号进行快速离散傅里叶变换处理,得到频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T。
步骤3
各增强滤波单元130-r(1≤r≤R)对于频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T应用方向θsr的滤波器W→H(ω,θsr),输出方向θsr的语音被增强后的信号Zr(ω,k)。也就是说,各增强滤波单元130-r(1≤r≤R)进行按式(4)表示的处理。
步骤4
加法运算单元140将信号Z1(ω,k),…,ZR(ω,k)作为输入,输出加法运算信号Y(ω,k)。加法运算处理按式(5)表示。
步骤5
时域变换单元150将加法运算信号Y(ω,k)变换到时域,输出方向θs的语音被增强后的时域信号y(t)。
在这样的窄指向语音增强技术中,例如在大致相同的方向有距离话筒的距离不同的多个声源的情况下,有时期望区别从各声源发出的语音来增强。引用前面的例子,若考虑通过具有话筒的运动图像撮影装置对某被摄体拉近镜头进行拍摄的情况,则例如若在被聚焦的该被摄体(称为“聚焦声源”)的后方、且在话筒的指向性的范围内存在其他声源(称为“后方声源”),则来自聚焦声源的语音和来自后方声源的语音混合存在而直接被增强,则会对视听者带来不快感。像这样,期望可根据距离话筒的距离增强包含所希望的方向的窄范围的语音的技术(语音定点(spot)增强技术)。这里,例示与语音定点增强技术相关的三个以往技术。
(1)非专利文献3所公开的技术,公开了声波为球面波的靠近声场下的延迟和阵列的最佳设计法,在该阵列的设计时,做成声源位置中的目的信号和无用声音(背景噪声、余音等)之间的SN比最大。
(2)非专利文献4所公开的技术,将小规模的2个话筒阵列作为必须的结构元件,即使不使用大型的话筒阵列,也能够进行与距离对应的定点集音。
(3)非专利文献5所公开的技术,即使是1个话筒阵列,也识别其与声源之间的距离,通过仅增强或抑制来自位于特定的距离范围的声源的声音来除去杂音。该方式利用从声源直接到来的声音的功率和反射到来的声音的功率因距离而变化的性质,能够根据声源的距离来进行语音的增强。
现有技术文献
非专利文献
非专利文献1:O.L.Frost,″An algorithm for linearly constrained adaptive array processing,″Proc.IEEE,vol.60,pp.926-935,1972.
非专利文献2:J.L.Flanagan,A.C.Surendran,E.E.Jan,″Spatially selective sound capture for speech and audio processing,″Speech Communication,Volume13,Issue1-2,pp.207-222,October1993.
非专利文献3:野村博昭、金田豊、小島順治、“近接声場型话筒阵列”、日本音響学会誌、Vol.53,No.2,pp.110-116,1997.
非专利文献4:Yusuke Hioka,Kazunori Kobayashi,Kenichi Furuya and Akitoshi Kataoka,″Enhancement of Sound Sources Located within a Particular Area Using a Pair of Small Microphone Arrays,″IEICE Transactions on Fundamentals,Vol.E91-A,No.2,pp.561-574,August2004.
非专利文献5:日岡祐輔、丹羽健太、阪内澄宇、羽田陽一、“受音信号の直间比に基づく距离別集音の検討”、日本音響学会秋季研究発表会、pp.633-634,2009.
发明内容
发明要解决的课题
根据在类别[1]中说明的窄指向语音增强技术,从例如音响管话筒和抛物面话筒的例子可以理解,如果不将话筒自身朝向目标方向,则无法增强从目标方向到来的语音。也就是说,在目标方向可能发生变化的情况下,只要不 依据人的身体活动,就需要用于变更音响管话筒或抛物面话筒本身的朝向的驱动控制装置。另外,抛物面话筒能够将由抛物面板反射的语音的能量集中于焦点,因此从高SN比集音的观点来看可以说优良,但是音响管话筒和抛物面话筒都难以实现例如视角(Visial Angle)5°~10°左右的窄指向性(相对目标方向±5°~±10°左右的尖锐指向性)。
根据在类别[2]中说明的窄指向语音增强技术,为了实现窄指向性,需要增加话筒数,并增大阵列大小(阵列的总长)。从设置相控话筒阵列的空间的制约、成本、可执行实时处理的话筒数等观点来看,无限制地增大阵列大小不现实。例如,在市场上可得到的话筒能够进行实时处理的信号的最大值为100左右时,使用了100个左右的话筒的相控话筒阵列可实现的指向性相对于目标方向为±30°左右,难以例如以±5°~±10°左右的尖锐指向性来增强目标方向的语音。另外,在类别[2]的以往技术中,难以将目标方向的语音以高SN比进行集音使得目标方向的语音不被目标方向以外的方向的语音淹没。
根据在类别[3]中说明的窄指向语音增强技术,能够将目标方向的语音以高SN比进行集音使得目标方向的语音不被目标方向以外的方向的语音淹没、或不需要上述的驱动控制装置来增强任意方向的语音,但是难以实现窄指向性。特别是,人的声音大多包含100Hz左右至2kHz左右的频率成分,但是根据类别[3]的以往技术,这样的低频带下,难以实现相对目标方向的±5°~±10°左右的尖锐指向性。
在(1)中说明的语音定点增强技术,由于是延迟和阵列方式,因此未实现对干扰源的对策。根据在(2)中说明的语音定点增强技术,由于需要多个话筒阵列,因此由于装置规模的增大和成本的增大,可能成为缺点。话筒阵列的大型化成为其设置和搬运的制约。根据在(3)中说明的语音定点增强技术,由于余音的信息因环境变化而变化,因此难以有力地应对环境变化。
基于这样的现状,第一,本发明其目的在于提供语音增强技术(语音定点增强技术),以足够的SN比进行集音,且可跟踪任意方向的语音而不需要话筒物理上的移动,同时对于所希望的方向,相比以往更具有尖锐指向性,并能够根据距离话筒阵列的距离来增强语音。第二,本发明其目的在于提供语音增强技术(窄指向语音增强技术),以足够的SN比进行集音,且可跟踪任意方向的语音而不需要话筒物理上的移动,同时对于所希望的方向,相比以往更具有尖锐指向性。
用于解决课题的手段
(语音定点增强技术)
使用来自在作为声源位置所设想的一个或者多个位置中包含的各位置(其中,将用于识别各位置的方向设为i,将距离设为g)的语音向各话筒(话筒总数为M;M≥2)的传递特性ai,g,对成为语音增强的对象的位置,求滤波器[滤波器设计处理]。各传递特性ai,g以来自由方向i和距离g确定的位置的语音直接到达M个话筒的直达音的传递特性、和该语音由反射物反射并到达M个上述话筒的一个以上的反射音的各传递特性之和表示。滤波器是对将由M个话筒集音语音得到的M个集音信号分别变换到频域后的频域信号,按每个频率应用的。将在滤波器设计处理中求得的滤波器,按每个频率应用于频域信号,得到输出信号[滤波器应用处理]。该输出信号是成为语音增强的对象的位置的语音被增强后的频域信号。
作为具体例,各传递特性ai,g也可以是直达音的导引矢量、和由反射引起的声音的衰减以及相对于直达音的到来时间差被校正后的一个以上的反射音的各导引矢量之和,或者在实际环境下通过实测得到。
在滤波器设计处理中,也可以按每个频率求滤波器,以使来自成为语音增强的对象的位置以外的语音的功率最小。或者,也可以按每个频率求滤波器,以使来自成为语音增强的对象的位置的语音的SN比最大。或者,也可以按每个频率求滤波器,以在将对于M个话筒中的一个话筒的滤波器系数固定为固定值的状态下使作为声源位置所设想的一个或者多个位置以外的语音的功率最小。
或者,在滤波器设计处理中,也可以按每个频率求滤波器,以在(1)成为语音增强的对象的位置的语音全频带通过、以及(2)一个以上的抑制点的语音全频带抑制的条件下,使成为语音增强的对象的位置和各抑制点以外的语音的功率最小。或者,也可以通过对成为语音增强的对象的位置i=s,g=h的传递特性as,h进行归一化,按每个频率求滤波器。或者,也可以使用通过与成为语音增强的对象的位置以外的各位置对应传递特性ai,g表示的空间相关矩阵,按每个频率求滤波器。或者,也可以按每个频率求滤波器,以在使成为语音增强的对象的位置的语音的劣化量为规定量以下的条件下,使成为语音增强的对象的位置以外的语音的功率最小。或者,也可以使用通过将由话筒阵列观测得到的信号变换为到频域而得到的频域信号表示的空间相关矩 阵,按每个频率求滤波器。或者,也可以使用通过与作为声源位置所设想的一个或者多个位置所包含的各位置对应的传递特性ai,g表示的空间相关矩阵,按每个频率求滤波器。
(窄指向语音增强技术)
使用在作为语音的到来方向所设想的一个或者多个方向中包含的各方向φ的语音向各话筒(话筒总数为M;M≥2)的传递特性aφ,对成为语音增强的对象的方向,求滤波器[滤波器设计处理]。各传递特性aφ以方向φ的语音直接到达M个话筒的直达音的传递特性、和该语音由反射物反射并到达M个话筒的一个以上的反射音的各传递特性之和表示。滤波器是对于将由M个话筒对语音进行集音得到的M个集音信号分别变换到频域后的频域信号,按每个频率应用的。将在滤波器设计处理中求得的滤波器按每个频率应用于频域信号,得到输出信号[滤波器应用处理]。该输出信号是成为语音增强的对象的方向的语音被增强后的频域信号。
作为具体例,各传递特性aφ也可以是直达音的导引矢量、和由反射引起的声音的衰减以及相对于直达音的到来时间差被校正后的一个以上的反射音的各导引矢量之和,或者在实际环境下通过实测得到的。
在滤波器设计处理中,也可以按每个频率求滤波器,以使成为语音增强的对象的方向以外的方向的语音的功率最小。或者,也可以按每个频率求滤波器,以使成为语音增强的对象的方向中的SN比最大。或者,也可以按每个频率求滤波器,以在将对于M个话筒中的一个话筒的滤波器系数固定为固定值的状态下使作为语音的到来方向所设想的一个或者多个方向的语音的功率最小。
或者,在滤波器设计处理中,也可以按每个频率求滤波器,以在(1)成为语音增强的对象的方向的语音全频带通过、以及(2)一个以上的死角的语音全频带抑制的条件下,使除去成为语音增强的对象的方向和各死角的方向的语音的功率最小。或者,也可以通过对成为语音增强的对象的方向φ=s的传递特性as进行归一化,按每个频率求滤波器。或者,也可以使用通过与成为语音增强的对象的方向以外的各方向对应传递特性aφ表示的空间相关矩阵,按每个频率求滤波器。或者,也可以按每个频率求滤波器,以在使成为语音增强的对象的方向的语音的劣化量为规定量以下的条件下,使成为语音增强的对象的方向以外的方向的语音的功率最小。或者,也可以使用通过将 由话筒阵列观测得到的信号变换为到频域而得到的频域信号表示的空间相关矩阵,对每个频率求滤波器。
发明的效果
(语音定点增强技术)
依据本发明的语音定点(spot)增强技术,不仅利用所希望的方向的直达音,也利用反射音,因此,能够对该方向以足够大的SN比进行集音,并且由于通过信号处理进行语音增强,因此,不需要话筒的物理上的移动也能够跟踪任意方向的语音。进而,细节在后述的《语音定点增强技术的原理》的项目中进行说明,通过将各传递特性ai,g以来自由方向i和距离g确定的位置的语音直接到达M个话筒的直达音的传递特性和该语音由反射物反射并到达M个话筒的一个以上的反射音的各传递特性之和来表现,在以一般的滤波器设计为基准设计滤波器时,能够设计如提高了决定所希望的方向的指向性宽窄的相干性的抑制程度的滤波器。也就是说,对于所希望的方向,相比以往具有尖锐指向性。进而,细节在后述的《语音定点增强技术的原理》的项目中进行说明,但是通过利用反射音,对来自从话筒阵列来看方向大致相同而距离不同的位置的语音,在与不同的位置对应的传递特性间产生有意义的差分。通过利用波束成形法提取该传递特性间的差分,能够根据距离话筒阵列的距离,增强包含所希望的方向的窄范围的语音。
(窄指向语音增强技术)
依据本发明的窄指向语音增强技术,不仅利用所希望的方向的直达音,也利用反射音,因此能够对该方向以足够大的SN比进行集音,并且由于通过信号处理进行语音增强,因此,不需要话筒的物理上的移动也能够跟踪任意的方向的语音。进而,细节在后述的《窄指向语音增强技术的原理》的项目中进行说明,通过将各传递特性aφ以方向φ的语音直接到达M个话筒的直达音的传递特性和该语音由反射物反射并到达M个话筒的一个以上的反射音的各传递特性之和来表现,在以一般的滤波器设计为基准设计滤波器时,能够设计如提高了决定所希望的方向的指向性的宽窄的相干性的抑制程度的滤波器。也就是说,对于所希望的方向,相比于以往具有尖锐指向性。
附图说明
图1A是用于说明通过音响管话筒增强从目标方向到来的语音的图。
图1B是用于说明通过音响管话筒抑制从目标方向以外的方向到来的语音的图。
图2A是用于说明通过抛物面话筒增强从目标方向到来的语音的图。
图2B是用于说明通过抛物面话筒抑制从目标方向以外的方向到来的语音的图。
图3是用于说明使用由多个话筒构成的相控话筒阵列,增强目标方向的语音,并抑制目标方向以外的方向的语音的图。
图4是作为以往技术的一例表示基于多波束成形法的窄指向语音增强技术的功能结构的图。
图5A是示意性地表示在仅考虑了直达音的情况下无法充分实现窄指向性的图。
图5B是示意性地表示在考虑了直达音和反射音的情况下可充分实现窄指向性的图。
图6是表示基于以往技术的情况和基于本发明的原理的情况的相干性(coherence)的方向依赖性的图。
图7是表示窄指向语音增强装置(实施方式1)的功能结构的图。
图8是表示窄指向语音增强方法(实施方式1)的处理过程的图。
图9是表示第1实施例的结构的图。
图10是表示窄指向语音增强装置(实施方式2)的功能结构的图。
图11是表示窄指向语音增强方法(实施方式2)的处理过程的图。
图12是表示基于第1实施例的实验结果的图。
图13是表示基于第1实施例的实验结果的图。
图14是表示在第1实施例中滤波器W→(ω,θ)的指向性的图。
图15是表示第2实施例的结构的图。
图16是表示基于实验例的实验结果的图。
图17是表示基于实验例的实验结果的图。
图18A是表示直达音从两个声源A、B到达话筒阵列的情形的图。
图18B是表示直达音从两个声源A、B到达话筒阵列的情形、和通过反射板反射音从两个虚拟声源A(ξ),B(ξ)到达话筒阵列的情形的图。
图19是表示语音定点增强装置(实施方式1)的功能结构的图。
图20是表示语音定点增强方法(实施方式1)的处理过程的图。
图21是表示语音定点增强装置(实施方式2)的功能结构的图。
图22是表示语音定点增强方法(实施方式2)的处理过程的图。
图23A是没有设置反射板时的最小方差波束成形的指向性(2维区域)。
图23B时设置了反射板时的最小方差波束成形的指向性(2维区域)。
图24A是表示本发明的实施结构例的平面图。
图24B是表示本发明的实施结构例的正视图。
图24C是表示本发明的实施结构例的侧视图。
图25A是表示本发明的其他实施结构例的侧视图。
图25B是表示本发明的其他实施结构例的侧视图。
图26是表示图25B所示的实施结构例中的使用形态的图。
图27A是表示本发明的实施结构例的平面图。
图27B是表示本发明的实施结构例的正视图。
图27C是表示本发明的实施结构例的侧视图。
图28是表示本发明的实施结构例的侧视图。
具体实施方式
首先,说明窄指向语音增强技术,接着说明语音定点增强技术。
《窄指向语音增强技术的原理》
说明本发明的窄指向语音增强技术的原理。本发明的窄指向语音增强技术的特征之一在于,以能够基于信号处理来跟踪任意方向的语音这样的话筒阵列技术的本质、和通过积极利用反射音以高SN比进行集音为根本,且组合了可形成尖锐指向性的信号处理技术。
在说明之前,重新定义符号。将离散频率的索引设为ω(在频率f和角频率ω之间存在ω=2πf的关系,因此也可以将离散频率的索引ω同样看待为该角频率ω。关于ω,也可以仅将“离散频率的索引”称为“频率”)、将帧号码的索引设为k。将由M个话筒接收到的模拟信号的第k帧的频域表现设为X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T,将从话筒阵列的中心来看的目标方向θs的语音的频域信号X→(ω,k)在频率ω下增强的滤波器设为W→(ω,θs)。M设为2以上的整数。T表示转置。此时,目标方向θs的语音的频域信号X→(ω,k)在频率ω下被增强后的频域信号(以下称为输出信号)Y(ω,k,θs)按式(6)提供。H表示埃尔米特(Hermite)转置。
“话筒阵列的中心”可以任意地规定,但是通常而言,M个话筒配置的几何学的中心被设为“话筒阵列的中心”,例如如果是线性话筒阵列,则两端的话筒的中间点被作为“话筒阵列的中心”,例如如果是被配置成m×m(m2=M)的正方矩阵状的平面话筒阵列,则四角的话筒的对角线交叉的位置被设为“话筒阵列的中心”。
作为滤波器W→(ω,θs)的设计法有多种,但是,这里说明基于最小方差无失真响应法(MVDR method;最小方差无失真响应法)的情况。在最小方差无失真响应法中,使用空间相关矩阵Q(ω)设计滤波器W→(ω,θs),以在式(8)的约束条件下,目标方向θs以外的方向的语音(以下也将“目标方向θs以外的方向的语音”称为“杂音”)的功率在频率ω下最小(参照式(7))。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T是在假定在方向θs存在声源的情况下的、该声源和M个话筒之间的频率ω下的传递特性。换而言之,a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T是向在话筒阵列中包含的各话筒的方向θs的语音在频率ω下的传递特性。空间相关矩阵Q(ω)是表示频域信号X→(ω,k)的分量X1(ω,k),…,XM(ω,k)在频率ω中的互相关关系的矩阵,对(i,j)分量具有E[Xi(ω,k)Xj *(ω,k)](1≤i≤M,1≤j≤M)。运算符E[·]是表示统计性平均操作的运算符,符号*表示复数共轭。空间相关矩阵Q(ω)也可以使用基于观测得到的X1(ω,k),…,XM(ω,k)的统计量来表现,但是还可以使用传递特性来表现。以下,用稍长篇幅说明使用传递特性表现空间相关矩阵Q(ω)的情况。
已知作为式(7)的最佳解的滤波器W→(ω,θs)按式(9)提供(下述参考文献1)。
从空间相关矩阵Q(ω)的逆矩阵包含在式(9)中来判断,可知空间相关矩阵Q(ω)的构造在实现尖锐指向性方面很重要。另外,根据式(7)还可知,杂音的功率依赖于空间相关矩阵Q(ω)的构造。
将杂音的到来方向的索引p所属的集合设为{1,2,…,P-1}。假设目标方向θs的索引s不属于集合{1,2,…,P-1}。若假定P-1个杂音从任意的方向到来,则空间相关矩阵Q(ω)按式(10a)提供。从制作即使是在存在多种杂音中也充分起作用的滤波器的观点来看,优选P是适当大的值,设为是M左右的整数。另外,这里从容易理解地说明本发明的窄指向语音增强技术的原理的观点出发,目标方向θs说明得就像是特定的方向(因此,将目标方向θs以外的方向作为“杂音”的方向),但是,如在后述的实施方式中所明确的那样,实际上,目标方向θs是可能成为语音增强的对象的任意方向,作为可能成为目标方向θs的方向,通常设想多个方向。从这样的观点出发,如下理解更准确,目标方向θs和杂音的方向的区别大体上是主观性的,不区别目的音还是杂音,作为设想为语音的到来方向的多个方向,预先决定P个不同的方向,在P个方向中选择的一个方向为目标方向,除此以外的方向为杂音的方向。因此,如果将集合{1,2,…,P-1}和集合{s}的和集合设为Φ,则空间相关矩阵Q(ω)是,通过在作为设想为语音的到来方向的多个方向中所包含的各方向θφ的语音对各话筒的传递特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)来表现的空间相关矩阵,以式(10b)表示。另外,|Φ|=P。|Φ|表示集合Φ的元素数。
这里,假定目标方向θs的语音的传递特性a→(ω,θs)、和方向p∈{1,2,…,P-1}的语音的传递特性a→(ω,θp)=[a1(ω,θp),…,aM(ω,θp)]T彼此正交。也就是说,假定存在满足以式(11)表示的条件的P个正交基底 系。符号⊥表示正交性。在A→⊥B→的情况下,矢量A→和矢量B→的内积值为零。这里,假设满足P≤M。另外,在放宽以式(11)表示的条件,可以假定存在近似地视为正交基底系的P个基底系的情况下,优选P为M左右、或者M以上的适当大的值。
此时,空间相关矩阵Q(ω)可以如式(12)这样展开。式(12)意味着,可以通过由满足正交性的P个传递特性构成的矩阵V(ω)=[a→(ω,θs),a→(ω,θ1),…,a→(ω,θP-1)]T和单位矩阵Λ(ω)来分解空间相关矩阵Q(ω)。ρ是满足基于空间相关矩阵Q(ω)的式(11)的传递特性的固有值,是实数。
此时,空间相关矩阵Q(ω)的逆矩阵按式(13)提供。
将式(13)代入式(7)时,可知杂音的功率最小。如果杂音的功率最小,则实现对目标方向θs的指向性。由此,不同方向的传递特性之间正交性成立,在实现对目标方向θs的指向性方面成为重要的条件。
以下,研究以往技术中难以实现对于目标方向θs的尖锐指向性的理由。
在以往技术中,假定传递特性仅由直达音构成来进行滤波器的设计。现实中,存在从相同声源发出的语音由墙壁和顶棚等反射而到达话筒的反射音,但认为反射音是使指向性恶化的主要原因而忽略了反射音的存在。将从方向θ到来的仅直达音的导引矢量(steering vector)设为h→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]T时,以往将传递特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]T设为了a→ conv(ω,θ)=h→ d(ω,θ)。另外,导引矢量是,关于从话筒阵列的中心来看的方向θ的声波,排列了各话筒相对基准点在频率ω下的相 位响应特性的复矢量。
若假定线性话筒阵列上语音作为平面波到来,则构成直达音的导引矢量h→ d(ω,θ)的第m元素hdm(ω,θ)例如按式(14a)提供。m是满足1≤m≤M的各整数。c表示音速,u表示相邻的话筒间的距离。j是虚数单位。基准点是线性话筒阵列的总长的一半的位置(线性话筒阵列的中心)。方向θ作为从线性话筒阵列的中心来看的直达音的到来方向和线性话筒阵列中所包含的话筒的排列方向形成的角度来定义(参照图9)。另外,导引矢量的表示方式有各种,例如如果将基准点设为处于线性话筒阵列的一端的话筒的位置,则构成直达音的导引矢量h→ d(ω,θ)的第m元素hdm(ω,θ)例如按式(14b)提供。以下,作为构成直达音的导引矢量h→ d(ω,θ)的第m元素hdm(ω,θ)按式(14a)提供来进行说明。
方向θ的传递特性和目标方向θs的传递特性的内积值γconv(ω,θ)以式(15)表示。另外,设θ≠θs。
以后,将γconv(ω,θ)称为相干性。相干性γconv(ω,θ)为0的方向θ按式(16)提供。q是除了0以外的任意的整数。另外,由于0<θ<π/2,因此,q的范围在每个频带受限制。
在式(16)中,由于可变更的参数仅是与话筒阵列的大小有关的参数(M和u),因此,在方向差(角度差)|θ-θs|小的情况下,难以不变更与话筒阵列的大小有关的参数而减小相干性γconv(ω,θ)。在该情况下,杂音的功率不足够小,如图5A示意性地所示那样,会成为相对于目标方向θs而具有宽波束宽度的指向性。
另一方面,本发明的窄指向语音增强技术的特征在于,基于这样的研究在为了对于目标方向θs具有尖锐指向性的滤波器设计中,基于在方向差(角度差)|θ-θs|小的情况下也可充分减小相干性是很重要的这样的见解,与以往技术不同,主动地考虑反射音。
在话筒阵列的各话筒中混入了来自声源的直达音、和来自该声源的声音由反射物300反射后的反射音两种平面波。将反射音的数目设为Ξ。Ξ是1以上的预先确定的整数。此时,传递特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]T,能够由可能成为语音增强的对象的方向的语音直接到达话筒阵列的直达音的传递特性和该语音由反射物反射而到达话筒阵列的1个以上的反射音的各传递特性之和来表现,具体而言,在将直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差设为τξ(θ)、将αξ(1<ξ≤Ξ)设为用于考虑由反射引起的声音的衰减的系数时,如式(17a)那样,能够由直达音的导引矢量、和由反射引起的声音的衰减以及相对于直达音的到来时间差被校正后的Ξ个反射音的导引矢量之和来表现。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]T表示与方向θ的直达音对应的反射音的导引矢量。αξ(1≤ξ≤Ξ)通常为αξ≤1(1≤ξ≤Ξ)。关于各反射音,如果从声源到达话筒为止的反射次数为1次,则也可以认为αξ(1≤ξ≤Ξ)表示第ξ反射音反射的物体的声音的反射率。
由于期望对于由M个话筒构成的话筒阵列提供1个以上的反射音,因此优选存在1个以上的反射物。从这样的观点出发,作为在目标方向存在声源,该声源、话筒阵列和1个以上的反射物之间的位置关系优选为各反射物被配置成,来自该声源的声音至少由1个反射物反射而到达话筒阵列。各反射物 的形状为2维形状(例如平板)或3维形状(例如抛物面形状)。另外,各反射物的大小优选具有与话筒阵列同等或其以上(1~2倍左右)的大小。为了有效地活用反射音,各反射物的反射率αξ(1≤ξ≤Ξ)至少大于0,如果进一步来说,优选到达话筒阵列的反射音的振幅为直达音的振幅例如0.2倍以上。例如,各反射物被设为具有刚性的固体。反射物既可以是可移动的物体(例如反射板),也可以是不能移动的物体(地板、墙壁、顶棚)。另外,在将不能移动的物体设定为反射物时,伴随话筒阵列的设置位置的变更等,需要变更反射音的导引矢量(参照后述的函数Ψ(θ)、Ψξ(θ)),进而,不得已地重新(再设定)进行滤波器计算。因此,为了有力地应对环境变化,优选各反射物是话筒阵列的附属物(在该情况下,认为设想的Ξ个反射音是由各反射物引起的反射音)。这里,“话筒阵列的附属物”是指,“能够一直维持相对于话筒阵列的配置关系(几何学的关系)地追随话筒阵列的位置和朝向等的变更的有形物”。作为单纯的例子,举出在话筒阵列上固定有各反射物的结构。
以下,从具体地说明本发明的窄指向语音增强技术的优点的观点来出发,假定Ξ=1,反射音的反射次数为1次,在距离话筒阵列的中心L米的位置存在1个反射物。反射物设为具有厚度的刚体。在该情况下,由于Ξ=1,因此,作为省略表示该Ξ的下标的情况,式(17a)可如式(17b)这样表示。
反射音的导引矢量h→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]T的第m元素,与直达音的导引矢量的表示方式同样(参照式(14a)),以式(18a)表示。函数Ψ(θ)输出反射音的到来方向。另外,在将直达音的导引矢量以式(14b)表示的情况下,反射音的导引矢量h→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]T的第m元素以式(18b)表示。通常而言,第ξ(1≤ξ≤Ξ)的导引矢量h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]T的第m元素,以式(18c)、式(18d)表示。函数Ψξ(θ)输出第ξ(1≤ξ≤Ξ)的反射音的到来方向。
由于反射物的位置可适当设定,因此反射音的到来方向能够作为可变更的参数来对待。
假定平板状的反射物处于话筒阵列的附近(距离L与话筒阵列的大小相比,不极度大)时,相干性γ(ω,θ)以式(19)表示。另外,假设θ≠θs。
根据式(19)可知,相比于式(15)的以往的相干性γconv(ω,θ),式(19)的相干性γ(ω,θ)有可能变小。根据反射物的放置方式可变更的参数(Ψ(θ)、L)存在于式(19)的第2~4项,因此,有可能可除去第1项的h→ d H(ω,θ)h→ d(ω,θ)。
例如,在相对于线性话筒阵列,将平板的反射板配置成话筒的排列方向成为反射板的法线时,关于函数Ψ(θ),Ψ(θ)=π-θ成立,关于直达音和反射音之间的到来时间差τ(θ),式(20)成立,因此,对构成式(19)的元素生成式(21)(22)的各条件。符号*是表示复数共轭的运算符。
由于h→ d H(ω,θ)h→ r(ω,θ)的绝对值充分小于h→ d H(ω,θ)h→ d(ω,θ),因此如果忽略式(19)的第2项、第3项,则相干性γ(ω,θ)可近似为式(23)。
即使h→ d H(ω,θ)h→ d(ω,θ)≠0,近似相干性γ~(ω,θ)也具有式(24)的极小解θ。q是任意的正整数。另外,q的范围在每个频带受限制。
也就是说,不仅是按式(16)提供的方向,按式(24)提供的方向也能抑制相干性。只要能抑制相干性,就能够使杂音的功率更小,因此,如图5B示意性地所示那样,能够实现尖锐指向性。
另外,在图5A和图5B中,示意性地示出了依据本发明的窄指向语音增强技术的原理的情况下和依据以往技术的情况下的指向性的差异,图6中具体表示按式(16)提供的θ和按式(24)提供的θ的差异。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]。在图6中,为了两者的比较,示出了归一化后的相干性的方向依赖性,以符号○表示的方向是按式(16)提供的θ,以符号+表示的方向是按式(24)提供的θ。从图6可以明确,若依据以往技术,则相 对于θs=π/4[rad],相干性为零的θ仅是以符号○示出的方向,但是若依据本发明的窄指向语音增强技术的原理,则相对于θs=π/4[rad],相干性为零的θ存在于以符号+示出的多个方向,特别地,相比于以符号○示出的方向,以符号+示出的方向更存在于相当接近θs=π/4[rad]的方向,因此可以理解,相比于以往技术,会实现尖锐指向性。
从上述说明可以明确,本发明的窄指向语音增强技术的要点在于,将传递特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]T,例如式(17a)这样,以直达音的导引矢量和Ξ个反射音的导引矢量之和来表现。因此,不会对滤波器的设计观念(concept)本身产生影响,因而,能够通过最小方差无失真响应法以外的方法来设计滤波器W→(ω,θs)。
作为上述的最小方差无失真响应法以外的方法,说明<1>基于SN比最大化准则的滤波器设计法、<2>基于功率倒置(Power Inversion)的滤波器设计法、<3>基于在约束条件中具有一个以上的死角(杂音的增益被抑制的方向)的最小方差无失真响应法的滤波器设计法、<4>基于延迟合成(Delay-and-Sum Beam Forming)法的滤波器设计法、<5>基于最大似然法的滤波器设计法、<6>基于AMNOR(Adaptive Microphone-array for noise reduction,用于降低噪声的自适应话筒阵列)法的滤波器设计法。关于<1>基于SN比最大化准则的滤波器设计法和<2>基于功率倒置的滤波器设计法,要参照下述参考文献2。关于<3>基于在约束条件中具有一个以上的死角(杂音的增益被抑制的方向)的最小方差无失真响应法的滤波器设计法,要参照下述参考文献3。关于<6>基于AMNOR(用于降低噪声的自适应话筒阵列)法的滤波器设计法,要参照下述参考文献4。
<1>基于SN比最大化准则的滤波器设计法
在基于SN比最大化准则的滤波器设计法中,以将目标方向θs的SN比(SNR)最大化为准则,决定滤波器W→(ω,θs)。将目标方向θs的语音的空间相关矩阵设为Rss(ω),将目标方向θs以外的方向的语音的空间相关矩阵设为Rnn(ω)。此时,SNR以式(25)表示。另外,Rss(ω)以式(26)表示,Rnn(ω)以式(27)表示。传递特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T以式(17a)表示(准确而言,是将式(17a)的θ设为θs后的式子)。
使式(25)的SNR最大的滤波器W→(ω,θs),可根据将与滤波器W→(ω,θs)有关的斜率设为零、即式(28)来求。
其中,
由此,使式(25)的SNR最大的滤波器W→(ω,θs)按式(29)提供。
在式(29)中包含有目标方向θs以外的方向的语音的空间相关矩阵Rnn(ω)的逆矩阵,但是已知也可以将Rnn(ω)的逆矩阵置换为包含目标方向θs的语音和目标方向θs以外的方向的语音的输入整体的空间相关矩阵Rxx(ω)的逆矩阵。另外,Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)(参照式(10a)、式(26)、式(27))。也就是说,也可以用式(30)求使式(25)的SNR最大的滤波器W→(ω,θs)。
<2>基于功率倒置的滤波器设计法
在基于功率倒置的滤波器设计法中,以在将对一个话筒的滤波器系数固 定为固定值的状态下将波束成形的平均输出功率最小化为基准,决定滤波器W→(ω,θs)。这里,作为一例,作为固定对M个话筒中的第1话筒的滤波器系数来进行说明。在该设计法中,设计滤波器W→(ω,θs),以在式(32)的约束条件下,使用空间相关矩阵Rxx(ω)设计成所有方向(作为语音的到来方向设想的所有方向)的语音的功率最小(参照式(31))。传递特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T以式(17a)表示(准确而言,是将式(17a)的θ设为θs后的式子)。另外,Rxx(ω)=Q(ω)(参照式(10a)、式(26)、式(27))。
其中,
已知,作为式(31)的最佳解的滤波器W→(ω,θs)按式(33)提供(参照下述参考文献2)。
<3>基于在约束条件中具有一个以上的死角的最小方差无失真响应法的滤波器设计法
在上述的最小方差无失真响应法中,如以式(8)表示那样,在将目标方向θs的语音的全频带通过作为约束条件求以式(7)表示的波束成形器的平均输出功率最小(也就是说,作为目标方向以外的方向的语音的杂音的功率最小)的滤波器这样的单一约束条件下的准则下,设计了滤波器W→(ω,θs)。根据该方法,能够整体上抑制杂音的功率,但是,在预先判明特定的一个或多个方向上存在具有强功率的噪声源的情况下,未必可以说是合适的方法。在这样的情况下,要求强烈地抑制存在噪声源的已知的一个或多个特定方向(也就是说,死角)的滤波器。因此,在这里说明的滤波器设计法中,将(1)目标方向θs的语音的全频带通过、以及(2)预先判明的B个(B为1以上的预先规定的整数)的死角θN1,θN2,…,θNB的语音的全频带抑制作为约束 条件,求以式(7)表示的波束成形器的平均输出功率最小(也就是说,除了目标方向和各死角之外的方向的语音的功率最小)的滤波器。如上述那样,若将语音的到来方向的索引φ所属的集合设为{1,2,…,P},则Nj∈{1,2,…,P}(其中,j∈{1,2,…,B}),B≤P-1。
此时,将a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T设为在假定在方向θi存在声源的情况下的、该声源和M个话筒之间的频率ω下的传递特性、换而言之,a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T假设为向话筒阵列中包含的各话筒的方向θi的语音在频率ω下的传递特性时,约束条件以式(34)表示。其中,关于索引i,i∈{s,N1,N2,…,NB},传递特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T以式(17a)表示(准确而言,是将式(17a)的θ设为θi后的式子)。fi(ω)表示与方向θi有关的频率ω下的通过特性。
如果以矩阵形式来表现式(34),则可以例如式(35)那样来表示。其中,A→(ω,θs)=[a→(ω,θs),a→(ω,θN1),…,a→(ω,θNB)]。
其中,
在考虑(1)目标方向θs的语音的全频带通过、以及(2)预先判明的B个死角θN1,θN2,…,θNB的语音的全频带抑制这样的约束条件时,理想而言,应该为fs(ω)=1.0、fi(ω)=0.0(i∈{N1,N2,…,NB})。这表示目标方向θs的语音的全频带完全通过、和预先判明d的B个死角θN1,θN2,…,θNB的语音的全频带完全阻止。但是,现实中也有难以进行全频带完全通过、全频带完全阻止这样的控制的情况。在这样的情况下,将fs(ω)的绝对值设定为接近1.0的值、将fi(ω)(i∈{N1,N2,…,NB})的绝对值设定为接近0.0的值即可。当然,fi(ω)和fj(ω)(i≠j、i,j∈{N1,N2,…,NB})可以相等,也可以不同。
根据这里说明的滤波器设计法,作为在表示约束条件的式(35)下的式 (7)的最佳解的滤波器W→(ω,θs)按式(36)提供(参照下述参考文献3)。
<4>基于延迟合成法的滤波器设计法
从式(2)可以明确,若假定直达音、反射音进行平面波到来,则滤波器W→(ω,θs)按式(37)提供。也就是说,将传递特性a→(ω,θs)进行归一化而得到滤波器W→(ω,θs)。传递特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T以式(17a)表示(准确而言,是将式(17a)的θ设为θs后的式子)。根据该设计法,有时滤波器精度未必可以说良好,但是计算量少。
<5>基于最大似然法的滤波器设计法
在上述的最小方差无失真响应法中,通过在空间相关矩阵Q(ω)内不包含目标方向的语音的空间信息,能够提高抑制杂音的自由度,并能够更进一步抑制杂音的功率。因此,在这里说明的滤波器设计法中,将空间相关矩阵Q(ω)以式(10a)的右边第二项、即以式(10c)表示。滤波器W→(ω,θs)按式(9)、式(36)提供。此时,在式(9)和式(36)中所包含的Q(ω)或者在式(30)和式(33)中所包含的Rxx(ω)=Q(ω),是以式(10c)表示的空间相关矩阵。
<6>基于AMNOR法的滤波器设计法
AMNOR法是如下方式:根据目标方向的语音的劣化量D和滤波器输出信号中残留的杂音的功率之间的折衷关系,某种程度允许目标方向的语音的劣化量D(例如使劣化量D保持在某阈值D^以下),求将[a]使声源和话筒之间的传递特性作用于目标方向的虚拟的信号(以下称为虚拟目的信号的信号和[b]与(例如在没有目标方向的语音的杂音环境中的、通过M个话筒的观测 得到的)杂音的混合信号作为输入时的滤波器输出信号从最小平方误差的观点来最好地再现虚拟目的信号(也就是说,滤波器输出信号中包含的杂音的功率最小)的滤波器。根据AMNOR法,滤波器W→(ω,θs)按式(38)提供(参照下述参考文献4)。另外,Rss(ω)以式(26)表示,Rnn(ω)以式(27)表示。传递特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T以式(17a)表示(准确而言,是将式(17a)的θ设为θs后的式子)。
Ps是对虚拟目的信号的电平进行加权的系数,被称为虚拟目的信号电平。虚拟目的信号电平Ps是不依赖于频率的常数。虚拟目的信号电平Ps可以基于经验规则决定,或者也可以决定为目标方向的语音的劣化量D和阈值D^之差在任意确定的误差范围内。说明后者的例子。在频率ω下,基于AMNOR法的滤波器W→(ω,θs)的目标方向θs的语音的频率响应F(ω)以式(39)表示。将采用按式(38)提供的滤波器W→(ω,θs)时的劣化量D表示为D(Ps),劣化量D(Ps)按式(40)定义。ω0表示作为对象的频率ω的上限(通常是与离散性的频率ω邻接的高频侧频率)。劣化量D(Ps)是Ps的单调减少函数。因此,通过D(Ps)的单调性,反复改变Ps的同时求劣化量D(Ps),从而可以求使劣化量D(Ps)和阈值D^之差在任意确定的误差范围内的虚拟目的信号电平Ps。
<变形例>
在上述的说明中,使用传递特性表现了空间相关矩阵Q(ω)、Rss(ω)、Rnn(ω)。但是,也可以使用上述的频域信号X→(ω,k)来表现空间相关矩阵Q(ω)、Rss(ω)、Rnn(ω)。以下说明空间相关矩阵Q(ω),但是对于Rss(ω)、Rnn(ω)也是同样的(将Q(ω)换称为Rss(ω)或者Rnn(ω)即可)。 另外,空间相关矩阵Rss(ω)通过由在仅存在目标方向的语音的环境下的、由话筒阵列(包含M个话筒)观测得到的模拟信号的频域表现而得到,空间相关矩阵Rnn(ω)通过由在没有目标方向的语音的环境(即杂音环境)下的、由话筒阵列(包含M个话筒)观测得到的模拟信号的频域表现而得到。
使用了频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T的空间相关矩阵Q(ω)以式(41)表示。运算符E[·]是表示统计性平均操作的运算符。在将由话筒阵列(包含M个话筒)进行声音接收得到的模拟信号的离散时间序列看作随机过程时,在该序列为所谓的广义的定常或者二次定常的情况下,运算符E[·]成为算术平均值(期望值)运算。在该情况下,空间相关矩阵Q(ω)例如使用在存储器等中存储的当前以及先前的共计ζ个帧的频域信号X→(ω,k-i)(i=0,1,…,ζ-1),以式(42)表示。在i=0时,即第k帧为当前帧。另外,基于式(41)或者式(42)的空间相关矩阵Q(ω)可以对每帧重新计算,或者也可以以定期或者不定期的间隔重新计算,或者也可以预先在后面说明的实施方式的实施之前计算(特别地,优选在对滤波器设计中使用Rss(ω)或者Rnn(ω)的情况下,使用在实施方式的实施之前取得的频域信号,预先计算空间相关矩阵Q(ω))。在对每帧重新计算空间相关矩阵Q(ω)的情况下,由于空间相关矩阵Q(ω)依赖于当前和先前的帧,因此,如式(41a)和式(42a)那样,显式地将空间相关矩阵表示为Q(ω,k)。
在使用以式(41a)和式(42a)表示的空间相关矩阵Q(ω,k)时,滤波器W→(ω,θs)也依赖于当前和先前的帧,因此,将滤波器显式地表示为W→(ω,θs,k)。此时,以在上述各种滤波器设计法中说明的式(9)、式(29)、 式(30)、式(33)、式(36)、式(38)的任意一个表示的滤波器W→(ω,θs),在记述上,修正为式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)。
《窄指向语音增强技术的实施方式1》
图7和图8表示本发明的窄指向语音增强技术的实施方式1的功能结构以及处理流程。该实施方式1的语音增强装置(以下称为窄指向语音增强装置)1包含:AD变换单元210、帧生成单元220、频域变换单元230、滤波器应用单元240、时域变换单元250、滤波器设计单元260、存储单元290。
[步骤S1]
滤波器设计单元260预先对可能成为语音增强的对象的每个离散性的方向计算每个频率的滤波器W→(ω,θi)。在将可能成为语音增强的对象的离散性的方向的总数设为I(I为1以上的预先确定的整数,满足I≤P)时,事先计算W→(ω,θ1),...,W→(ω,θi),...,W→(ω,θI)(1≤i≤I,ω∈Ω;i为整数,Ω为频率ω的集合)。
为此,除去在上述的<变形例>中说明过的情况,需要求传递特性a→(ω,θi)=[a1(ω,θi),...,aM(ω,θi)]T(1≤i≤I,ω∈Ω),但是这可基于话筒阵列中的话筒的配置、作为反射物的例如反射板、地板、墙壁、顶棚相对于话筒阵列的位置关系、直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差、反射物的声音的反射率等的环境信息,通过式(17a)具体地计算(准确而言,是将式(17a)的θ设为θi后的式子)。另外,在依据上述的<3>基于在约束条 件中具有一个以上的死角的最小方差无失真响应法的滤波器设计法的情况下,求传递特性a→(ω,θi)(1≤i≤I,ω∈Ω)时的方向的索引i优选至少覆盖到B个死角的方向的索引N1,N2,...,NB的全部。换而言之,B个死角的方向的索引N1,N2,...,NB被设定为1以上I以下的其中一个的不同的整数。
反射音的数目Ξ被设定为满足1≤Ξ的整数,但是,作为Ξ的值没有特别限定,根据计算能力等适当地设定即可。在将一个反射板设置在话筒阵列的附近的情况下,传递特性a→(ω,θi)可通过式(17b)具体地计算(准确而言,是将式(17b)的θ设为θi后的式子)。
在导引矢量的计算中可使用例如式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)。另外,作为用于滤波器设计的传递特性,也可以不依据式(17a)和式(17b),而是例如使用在实际环境下通过实测得到的传递特性。
并且,除去在上述的<变形例>中说明了的情况,使用传递特性a→(ω,θi),通过例如式(9)、式(29)、式(30)、式(33)、式(36)、式(37)、式(38)的其中一个求W→(ω,θi)(1≤i≤I)。另外,除去在上述的<5>基于最大似然法的滤波器设计法中说明了的情况,在使用式(9)或式(30)或式(33)或式(36)的情况下,空间相关矩阵Q(ω)(或者Rxx(ω))可按式(10b)计算。在依据上述的<5>基于最大似然法的滤波器设计法,使用式(9)或式(30)或式(33)或式(36)的情况下,空间相关矩阵Q(ω)(或者Rxx(ω))可按式(10c)计算。在使用式(29)的情况下,空间相关矩阵Rnn(ω)可按式(27)计算。I×|Ω|个滤波器W→(ω,θi)(1≤i≤I,ω∈Ω)被存储在存储单元290中。|Ω|表示集合Ω的元素数。
[步骤S2]
使用构成话筒阵列的M个话筒200-1,...,200-M进行集音。M为2以上的整数。
在M个话筒的排列方式方面没有限制。但是,通过2维或3维地配置M个话筒,有消除进行语音增强的方向的不确定性这样的优点。也就是说,能够通过平面地或者立体地排列话筒,来防止在将M个话筒沿水平方向直线状地排列时例如无法区别从正面方向到来的语音和从正上方到来的语音的问题。另外,为了拓宽可设定为集音方向的方向,各话筒的指向性,最好在可 成为作为集音方向的目标方向θs的方向具有能够以某种程度的声压对语音进行集音的指向性。因此,优选无指向性话筒和单一指向性话筒这样的指向性比较宽松的话筒。
[步骤S3]
AD变换单元210将由M个话筒200-1,...,200-M进行集音后的模拟信号(集音信号)变换为数字信号X→(t)=[X1(t),…,XM(t)]T。t表示离散时间的索引。
[步骤S4]
帧生成单元220将AD变换单元210输出的数字信号X→(t)=[X1(t),…,XM(t)]T作为输入,按每个通道将N样本储存在缓冲器中,输出以帧为单位的数字信号X→(k)=[X→ 1(k),…,X→ M(k)]T。k是帧号码的索引。X→ m(k)=[Xm((k-1)N+1),…,Xm(kN)](1≤m≤M)。N也取决于采样频率,在16kHz采样的情况下,512点程度较适当。
[步骤S5]
频域变换单元230将各帧的数字信号X→(k)变换为频域的信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T并输出。ω是离散频率的索引。作为将时域信号变换为频域信号的方法之一有快速离散傅里叶变换,但是不限于此,也可以使用变换为频域信号的其他方法。频域信号X→(ω,k)按各频率ω、按每帧k输出。
[步骤S6]
滤波器应用单元240按每帧k,对于各频率ω∈Ω,对频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T应用与想要增强的目标方向θs对应的滤波器W→(ω,θs),将输出信号Y(ω,k,θs)输出(参照式(43))。目标方向θs的索引s为s∈{1,…,I},滤波器W→(ω,θs)被存储在存储单元290中,因此,例如每当步骤S6的处理时,滤波器应用单元240从存储单元290取得与想要增强的目标方向θs对应的滤波器W→(ω,θs)即可。在目标方向θs的索引s不属于集合{1,…,I}的情况下,也就是说在与目标方向θs对应的滤波器W→(ω,θs)在步骤S1的处理中未计算的情况下,既可以使滤波器设计单元260临时计算与目标方向θs对应的滤波器W→(ω,θs),或者也可以使用与接近目标方向θs的方向θs′对应的滤波器W→(ω,θs′)。
[步骤S7]
时域变换单元250将第k帧的各频率ω∈Ω的输出信号Y(ω,k,θs)变换到时域,得到第k帧的帧单位时域信号y(k),进而,将得到的帧单位时域信号y(k)按照帧号码的索引的顺序连结,并输出目标方向θs的语音被增强后的时域信号y(t)。将频域信号变换为时域信号的方法,是与在步骤S5的处理中使用的变换方法对应的逆变换,例如为快速离散傅里叶逆变换。
这里,说明了步骤S1的处理中预先计算滤波器W→(ω,θi)的实施方式1,但是,根据窄指向语音增强装置1的计算处理能力等,也可以采用确定了目标方向θs之后,滤波器设计单元260计算每个频率的滤波器W→(ω,θs)的实施方式。
《窄指向语音增强技术的实施方式2》
图10和图11表示本发明的窄指向语音增强技术的实施方式2的功能结构以及处理流程。该实施方式2的窄指向语音增强装置2包括:AD变换单元210、帧生成单元220、频域变换单元230、滤波器应用单元240、时域变换单元250、滤波器计算单元261、存储单元290。
[步骤S11]
使用构成话筒阵列的M个话筒200-1,…,200-M进行集音。M是2以上的整数。关于M个话筒的排列方式等,如在实施方式1中说明的那样。[步骤S12]
AD变换单元210将由M个话筒200-1,…,200-M进行集音后的模拟信号(集音信号)变换为数字信号X→(t)=[X1(t),…,XM(t)]T。t表示离散时间的索引。
[步骤S13]
帧生成单元220将AD变换单元210输出的数字信号X→(t)=[X1(t),…,XM(t)]T作为输入,按每个通道,将N样本储存在缓冲器中,输出以帧为单位的数字信号X→(k)=[X→ 1(k),…,X→ M(k)]T。k是帧号码的索引。X→ m(k)=[XM((k-1)N+1),…,XM(kN)](1≤m≤M)。N也取决于采样频率,但是在16kHz采样的情况下,512点程度较适当。
[步骤S14]
频域变换单元230将各帧的数字信号X→(k)变换为频域的信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T并输出。ω是离散频率的索引。作为将时域信号变换为频域信号的方法之一,有快速离散傅里叶变换,但是不限于此,也可以使用变换为频域信号的其他方法。频域信号X→(ω,k)按各频率ω、按每帧k输出。
[步骤S15]
滤波器计算单元261计算在当前的第k帧所使用的、与目标方向θs对应的每个频率的滤波器W→(ω,θs,k)(ω∈Ω;Ω是频率ω的集合)。
为此,需要准备传递特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T(ω∈Ω),但是,这可基于话筒阵列中的话筒的配置、作为反射物的例如反射板、地板、墙壁、顶棚相对于话筒阵列的位置关系、直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差、反射物的声音的反射率等的环境信息,通过式(17a)具体地计算(准确而言,是将式(17a)的θ设为θs后的式子)。另外,在依据上述的<3>基于在约束条件中具有一个以上的死角的最小方差无失真响应法的滤波器设计法的情况下,还需要求传递特性a→(ω,θNj)(1≤j≤B,ω∈Ω),但是,这些可基于话筒阵列中的话筒的配置、作为反射物的例如反射板、地板、墙壁、顶棚相对于话筒阵列的位置关系、直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差、反射物的声音的反射率等的环境信息,通过式(17a)具体地计算(准确而言,是将式(17a)的θ设为θNj后的式子)。
反射音的数Ξ被设定为满足1≤Ξ的整数,但是作为Ξ的值没有特别限定,根据计算能力等适当设定即可。在将一个反射板设置在话筒阵列的附近的情况下,传递特性a→(ω,θs)可通过式(17b)具体地计算(准确而言,是将式(17b)的θ设为θs后的式子)。在该情况下,同样地,传递特性a→(ω,θNj)(1≤j≤B,ω∈Ω)可通过式(17b)具体地计算(准确而言,是将式(17b)的θ设为θNj后的式子)。
在导引矢量的计算中,可使用例如式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)。另外,作为用于滤波器设计的传递特性,也可以不依据式(17a)和式(17b),例如使用由在实际环境下通过实测得到的传递特性。
并且,滤波器计算单元261使用传递特性a→(ω,θs)(ω∈Ω)或根据需要使用传递特性a→(ω,θNj)(1≤j≤B,ω∈Ω),按照式(9m)、式(29m)、 式(30m)、式(33m)、式(36m)、式(38m)的其中一个求滤波器W→(ω,θs,k)(ω∈Ω)。另外,空间相关矩阵Q(ω)(或者Rxx(ω))例如可按式(41a)和式(42a)计算。在空间相关矩阵Q(ω)的计算中,使用在存储单元290中存储的当前以及先前的共计ζ个帧的频域信号X→(ω,k-i)(i=0,1,…,ζ-1)。
[步骤S16]
滤波器应用单元240按每帧k,关于各频率ω∈Ω,对频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T应用与想要增强的目标方向θs对应的滤波器W→(ω,θs,k),将输出信号Y(ω,k,θs)输出(参照式(44))。
[步骤S17]
时域变换单元250将第k帧的各频率ω∈Ω的输出信号Y(ω,k,θs)变换到时域,得到第k帧的帧单位时域信号y(k),进而,将得到的帧单位时域信号y(k)按照帧号码的索引的顺序连结,输出目标方向θs的语音被增强后的时域信号y(t)。将频域信号变换为时域信号的方法是与在步骤S14的处理中使用的变换方法对应的逆变换,例如快速离散傅里叶逆变换。
[窄指向语音增强技术的实验例]
说明基于本发明的窄指向语音增强技术的实施方式1(单一约束条件的最小方差无失真响应法)的实验结果。如图9所示,直线地配置24个话筒,并对反射板300进行配置,使得该线性话筒阵列中的话筒的排列方向成为反射板300的法线。在反射板300的形状上没有限制,但是使用了反射面为平面、具有1.0m×1.0m的大小、适当的厚度和刚性的平板的反射板。将相邻的话筒的间隔设为4cm,将反射板300的反射率α设为0.8。将目标方向θs设定为45度。假定语音对线性话筒阵列作为平面波到来,利用式(17b)(参照式(14a)、式(18a))计算传递特性,并验证所生成的滤波器的指向性。作为比较对象,使用了2个以往方法(无反射板的最小方差无失真响应法和有反射板的延迟合成法)。
图12、图13表示实验结果。与2个以往方法相比较可知,无论在哪个频带,本发明的窄指向语音增强技术的实施方式1的一方都能够对于目标方 向实现尖锐指向性。特别地,越是低频带,越理解本发明的窄指向语音增强技术的有用性。另外,图14示出了基于按照本发明的窄指向语音增强技术的实施方式1生成的滤波器W→(ω,θ)的指向性。从图14可知,不仅是直达音,反射音也增强了。
另外,如图15所示,对于将反射板300配置成线性话筒阵列中所包含的话筒的排列排列方向和反射板300的平面形成的角为45度的情况,也进行了与上述的实验同样的实验。将目标方向θs设定为22.5度,其他的实验条件设为与配置了反射板300使得线性话筒阵列中所包含的话筒的排列方向成为反射板300的法线的情况相同。
图16、图17表示实验结果。与2个以往方法相比较,无论在哪个频带,本发明的窄指向语音增强技术的实施方式1的一方都能够对于目标方向实现尖锐指向性。特别地,越是低频带,越理解本发明的窄指向语音增强技术的有用性。
<应用例>
窄指向语音增强技术,如果比喻为图像来表现,则对应于从不鲜明的模糊的图像生成鲜明的图像,有助于更详细地得到声场的信息。以下叙述本发明的窄指向语音增强技术有用的服务例。
作为第1例,举出与视频组合的内容制作。若利用本发明的窄指向语音增强技术的实施方式,则即使在杂音(目的外语音等)多的杂音环境下,也能够清晰地增强远方的目的语音,因此例如能够附加与从场地外拍摄到的足球选手进行带球的拉近镜头视频对应的语音。
作为第2例,举出对TV会议系统(也可以是语音会议系统)的应用。在狭窄的房间开会的情况下,在以往技术中,能够使用几个话筒相应地来增强发言者的语音,但是在宽敞的会议室(例如距离话筒5m以上的位置存在说话者这样的宽敞的空间),难以清晰地增强远处说话者的语音,因此,需要在各发言者的前面设置话筒。但是,若利用本发明的窄指向语音增强技术的实施方式,则能够清晰地增强远处的声音,因此,能够构筑与宽敞的会议室对应的TV会议系统,而不在各发言者的前面设置话筒。
《语音定点增强技术的原理》
接着,说明本发明的语音定点增强技术的原理。本发明的语音定点增强技术的特征之一在于,以可基于信号处理来跟踪任意方向的语音这样的话筒 阵列技术的本质、和通过主动地利用反射音以高SN比进行集音为根本,且组合了可实现尖锐指向性的信号处理技术。特别地,鉴于从话筒阵列来看的方向大致相同且仅距离不同的声源和话筒阵列之间的传递特性相当类似,通过利用反射物,增大不同的声源和话筒阵列之间的传递特性的差分可以说是本发明的语音定点增强技术的显著的特征之一。通过利用信号处理来提取传递特性的差分,实现可根据距离话筒阵列的距离来增强语音的语音定点增强技术。
在说明之前,重新定义符号。将离散频率的索引设为ω(在频率f和角频率ω之间存在ω=2πf的关系,因此也可以将离散频率的索引ω同样看待为该角频率ω。关于ω,也可以将“离散频率的索引”仅称为“频率”),将帧号码的索引设为k。将由M个话筒接受到的模拟信号的第k帧的频域表现设为X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T,将以频率ω增强来自被设想为从话筒阵列的中心来看位于方向θs且从话筒阵列的中心来看位于离开了距离Dh的位置的声源的语音的频域信号X→(ω,k)的滤波器设为W→(ω,θs,Dh)。M设为2以上的整数。T表示转置。以下,稍长篇幅是将距离Dh固定来考虑。
“话筒阵列的中心”可任意确定,但是通常而言,M个话筒的配置的几何学中心被设为“话筒阵列的中心”,例如只要是线性话筒阵列,则两端的话筒的中间点被设为“话筒阵列的中心”,例如如果是m×m(m2=M)的正方矩阵状地配置的平面话筒阵列,则四角的话筒的对角线交叉的位置被设为“话筒阵列的中心”。
另外,说明为“被设想为位于~的位置的声源”的理由是因为,在本发明的语音定点增强技术中,实际上在该位置存在声源不是必须的。也就是说,细节通过之后的说明中可以明确,但是本发明的语音定点增强技术,以对于频率表现的信号的滤波器应用这样的信号处理为实际情况,按每个离散性的距离Dh预先作成滤波器的实施方式是可能的,因此,实际上即使在进行语音定点增强处理的阶段,也不要求在该位置实际存在声源。例如在实际上进行语音定点增强处理的阶段,在从话筒阵列来看在方向θs、距离Dh的位置实际上实际存在声源的情况下,通过选择与该位置对应的适当的滤波器,能够增强来自该声源的语音,在该位置实际不存在声源的情况下,假如设想连杂音也不存在的完全无音,则通过该滤波器增强的语音理想上是完全无音,但是 对于增强“来自该位置的语音”是没有变化的。
在这样的情况下,来自被设想从话筒阵列的中心来看位于(方向θs,距离Dh)的位置(以下,只要没有特别说明就称为“位置(θs,Dh)”)的声源的语音的频域信号X→(ω,k)以频率ω增强后的频域信号(以下称为输出信号)Y(ω,k,θs,Dh)按式(106)提供。H表示埃尔米特转置。
作为滤波器W→(ω,θs,Dh)的设计法有多种,这里说明依据最小方差无失真响应法(MVDR method;最小方差无失真响应法)的情况。在最小方差无失真响应法中,滤波器W→(ω,θs,Dh)在式(108)的约束条件下,使用空间相关矩阵Q(ω),被设计成方向θs以外的方向的语音(以下也将“方向θs以外的方向的语音”称为“杂音”)的功率在频率ω下最小(参照式(107)。这里将距离Dh固定来考虑,因此,要留意将空间相关矩阵Q(ω)清楚标记为Q(ω,Dh))。a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T是,在假定为在位置(θs,Dh)存在声源的情况下的、该声源和M个话筒之间的在频率ω下的传递特性。换而言之,a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T是,向话筒阵列中包含的各话筒的来自位置(θs,Dh)的语音在频率ω下的传递特性。空间相关矩阵Q(ω)是表示关于频域信号X→(ω,k)的分量X1(ω,k),…,XM(ω,k)在频率ω下的互相关关系的矩阵,在(i,j)分量中具有E[Xi(ω,k)Xj*(ω,k)](1≤i≤M,1≤j≤M)。运算符E[·]是表示统计性平均操作的运算符,符号*表示复数共轭。空间相关矩阵Q(ω)也可使用基于观测得到的X1(ω,k),…,XM(ω,k)的统计量来表现,但是也可以使用传递特性来表现。以下,用稍长篇幅说明空间相关矩阵Q(ω)使用传递特性来表现的情况。
已知作为式(107)的最佳解的滤波器W→(ω,θs,Dh)按式(109)提供(下述参考文献1)。
从空间相关矩阵Q(ω,Dh)的逆矩阵包含在式(109)的情况推测可知,空间相关矩阵Q(ω,Dh)的构造在实现尖锐指向性方面很重要。另外,根据式(107),还会知道杂音的功率依赖于空间相关矩阵Q(ω,Dh)的构造。
将杂音的到来方向的索引p所属的集合设为{1,2,…,P-1}。设方向θs的索引s不属于集合{1,2,…,P-1}。若假定P-1个杂音从任意的方向到来,则空间相关矩阵Q(ω,Dh)按式(110a)提供。从制作即使在存在多种杂音中也具有足够功能的滤波器的观点来讲,优选P为某种程度大的值,设为是M左右的整数。另外,这里,从容易明白地说明本发明的语音定点增强技术的原理的观点来讲,方向θs说明得简直像是特定的方向(因此,方向θs以外的方向作为“杂音”的方向),但是,如在后述的实施方式中所明确的那样,实际上,方向θs是与可能成为语音增强的对象的任意位置对应的方向,作为可能成为方向θs的方向,通常设想多个方向。从这样的观点出发,如下理解更准确,方向θs和杂音的方向的区别大体上是主观性的,不区别目的音还是杂音,作为设想为语音的到来方向的多个方向,预先决定P个不同的方向,在P个方向中选择的一个方向为与语音增强的对象的位置对应的方向,除此以外的方向为杂音的方向。因此,如果将集合{1,2,…,P-1}和集合{s}的和集合设为Φ,则空间相关矩阵Q(ω,Dh)是,通过来自距离话筒阵列的中心的距离为Dh、与作为设想为语音的到来方向的多个方向中包含的各方向θ φ对应的各位置的语音向各话筒的传递特性a→(ω,θφ,Dh)=[a1(ω,θφ,Dh),…,aM(ω,θφ,Dh)]T 表示的空间相关矩阵,以式(110b)表示。另外,|Φ|=P。|Φ|表示集合Φ的元素数。
这里,假定方向θs的语音的传递特性a→(ω,θs,Dh)、和方向p∈{1,2,…,P-1}的语音的传递特性a→(ω,θp,Dh)=[a1(ω,θp,Dh),…,aM(ω,θp,Dh)]T彼此正交。也就是说,假定存在满足以式(111)表示的条件的P个正交基底系。符号⊥表示正交性。在A→⊥B→的情况下,矢量A→和矢量B→的内积值为零。这里,假设满足P≤M。另外,在放宽以式(111)表示的条件,可假定存在近似地视为正交基底系的P个基底系的情况下,优选P为M左右、或者为M以上的某种程度大的值。
此时,空间相关矩阵Q(ω,Dh)可如式(112)那样展开。式(112)意味着,通过由满足正交性的P个传递特性构成的矩阵V(ω,Dh)=[a→(ω,θs,Dh),a→(ω,θ1,Dh),…,a→(ω,θP-1,Dh)]T和单位矩阵Λ(ω,Dh),可对空间相关矩阵Q(ω,Dh)进行分解。ρ是满足基于空间相关矩阵Q(ω,Dh)的式(111)的传递特性的固有值,为实数。
此时,空间相关矩阵Q(ω,Dh)的逆矩阵按式(113)提供。
若将式(113)代入式(107),则可知杂音的功率最小。如果杂音的功率最小,则实现对于方向θs的指向性。由此,正交性在不同方向的传递特性之间成立,在实现对于方向θs的指向性方面成为重要的条件。
以下,研究在以往技术中难以实现对于方向θs尖锐指向性的缘故。
在以往技术中,假定传递特性仅由直达音构成而进行了滤波器的设计。现实中,存在从相同声源发出的语音由墙壁和顶棚等反射而到达话筒的反射音,但认为反射音是使指向性恶化的主要原因而忽略了反射音的存在。在假定语音作为平面波来到线性话筒阵列,并将从方向θ到来的仅直达音的导引矢量设为h→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]T时,以往将传递特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]T设为了a→ conv(ω,θ)=h→ d (ω,θ)(由于将声波考虑为平面波,导引矢量不依赖于距离D)。另外,导引矢量是,对于从话筒阵列的中心来看的方向θ的声波,排列了各话筒相对基准点在频率ω下的相位响应特性的复矢量。
以下,用稍长篇幅,假定语音对线性话筒阵列作为平面波到来。构成直达音的导引矢量h→ d(ω,θ)的第m元素hdm(ω,θ)由例如按式(114c)提供。u表示相邻的话筒间的距离。j是虚数单位。在该情况下,基准点是线性话筒阵列总长的一半的位置(线性话筒阵列的中心)。方向θ从线性话筒阵列的中心来看,作为直达音的到来方向和线性话筒阵列中所包含的话筒的排列方向形成的角度来定义(参照图9)。另外,导引矢量的表示方式有多种,例如如果将基准点设为位于线性话筒阵列的一端的话筒的位置,则构成直达音的导引矢量h→ d(ω,θ)的第m元素hdm(ω,θ)例如按式(114d)提供。以下,说明构成直达音的导引矢量h→ d(ω,θ)的第m元素hdm(ω,θ)按式(114c)提供。
方向θ的传递特性和方向θs的传递特性的内积值γconv(ω,θ)以式(115)表示。另外,设θ≠θs。
以后,将γconv(ω,θ)称为相干性。相干性γconv(ω,θ)成为0的方向θ按式(116)提供。q是除了0以外的任意的整数。另外,由于0<θ<π/2,因此,q的范围在每个频带被限制。
在式(116)中,可变更的参数仅为与话筒阵列的大小有关的参数(M和u),因此在方向的差(角度差)|θ-θs|较小的情况下,难以不变更与话筒阵列的大小有关的参数而减小相干性γconv(ω,θ)。在该情况下,杂音的功率不足够小,而是如图5A示意性地所示那样,相对于方向θs,成为具有宽波束宽度的指向性。
另一方面,本发明的语音定点增强技术的特征在于,基于这样的研究,在为了对于方向θs具有尖锐指向性的滤波器设计中,基于方向的差(角度差)|θ-θs|较小的情况下也能够使相干性足够小是很重要的这样的见解,与以往技术不同,主动地考虑反射音。
在话筒阵列的各话筒中,混入了来自声源的直达音、和来自该声源的声音由反射物300反射后的反射音两种平面波。将反射音的数设为Ξ。Ξ为1以上的预先规定的整数。此时,传递特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]T,能够由可能成为语音增强的对象的方向的语音直接到达话筒阵列的直达音的传递特性、和该语音由反射物反射而到达话筒阵列的1个以上的反射音的各传递特性之和来表现,具体而言,在将直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差设为τξ(θ)、将αξ(1≤ξ≤Ξ)设为用于考虑由反射引起的声音的衰减的系数时,如式(17a)那样,能够由直达音的导引矢量、和由反射引起的声音的衰减以及相对于直达音的到来时间差被校正后的Ξ个反射音的导引矢量之和来表现。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]T表示与方向θ的直达音对应的反射音的导引矢量。αξ(1≤ξ≤Ξ)通常为αξ≤1(1≤ξ≤Ξ)。关于各反射音,如果从声源到达话筒为止的反射次数为1次,则也可以认为αξ(1≤ξ≤Ξ)表示第ξ反射音反射的物体的声音的反射率。
由于期望对于由M个话筒构成的话筒阵列提供1个以上的反射音,因此优选存在1个以上的反射物。从这样的观点出发,作为在语音增强的对象位置存在声源,该声源、话筒阵列和1个以上的反射物之间的位置关系优选为配置各反射物,以使来自该声源的声音至少由1个反射物反射而到达话筒阵列。各反射物的形状为2维形状(例如平板)或3维形状(例如抛物面形状)。另外,优选各反射物的大小具有与话筒阵列同等或其以上(1~2倍左右)的大小。为了有效地活用反射音,各反射物的反射率αξ(1≤ξ≤Ξ)至少大于0,如果进一步来说,优选到达话筒阵列的反射音的振幅为直达音的振幅例如0.2倍以上。例如,各反射物被设为具有刚性的固体。反射物既可以是可移动的物体(例如反射板),也可以是不能移动的物体(地板、墙壁、顶棚)。另外,在将不能移动的物体设定为反射物时,伴随话筒阵列的设置位置的变更等,需要变更反射音的导引矢量(参照后述的函数Ψ(θ)、Ψξ(θ)),进而,不得已地重新(再设定)进行滤波器计算。因此,为了有力地应对环境变化,优选各反射物是话筒阵列的附属物(在该情况下,认为设想的Ξ个反射音是由各反射物引起的反射音)。这里,“话筒阵列的附属物”是指,“能够一直维持相对于话筒阵列的配置关系(几何学的关系)来追随话筒阵列的位置和朝向等的变更的有形物”。作为单纯的例子,举出在话筒阵列上固有定各反射物的结构。
以下,从具体地说明本发明的窄指向语音增强技术的优点的观点来出发,假定Ξ=1,在距离话筒阵列的中心L米的位置存在1个反射物。反射物设为具有厚度的刚体。在该情况下,由于Ξ=1,因此,作为省略表示该Ξ的下标的情况,式(117a)可如式(117b)这样表示。
反射音的导引矢量h→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]T的第m元素,与直达音的导引矢量的表示方式同样(参照式(114c)),以式(118a)表示。函数Ψ(θ)输出反射音的到来方向。另外,在将直达音的导引矢量以式(114d)表示的情况下,反射音的导引矢量h→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]T的第m元素以式(118b)表示。另外,如果Ξ≥2,则第ξ(1≤ξ≤Ξ)的导引矢量h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]T的第m元素,以式(118c)、式(118d)表示。函数Ψξ(θ)输出第ξ(1≤ξ≤Ξ)的 反射音的到来方向。
由于反射物的位置可适当设定,因此反射音的到来方向能够作为可变更的参数来对待。
假定平板状的反射物处于话筒阵列的附近(距离L与话筒阵列的大小相比,不极度大)时,相干性γ(ω,θ)以式(119)表示。另外,假设θ≠θs。
根据式(119)可知,相比于式(115)的以往的相干性γconv(ω,θ),式(119)的相干性γ(ω,θ)有可能变小。根据反射物的放置方式,可变更的参数(Ψ(θ)、L)存在于式(119)的第2~4项,因此,有可能可除去第1项的h→ d H(ω,θ)h→ d(ω,θ)。
例如,在相对于线性话筒阵列,将平板的反射板配置成话筒的排列方向成为反射板的法线时,关于函数Ψ(θ),Ψ(θ)=π-θ成立,关于直达音和反射音之间的到来时间差τ(θ),式(120)成立,因此,对构成式(119)的元素生成式(121)(122)的各条件。符号*是表示复数共轭的运算符。
由于h→ d H(ω,θ)h→ r(ω,θ)的绝对值充分小于h→ d H(ω,θ)h→ d(ω,θ),因此如果忽略式(119)的第2项、第3项,则相干性γ(ω,θ)可近似为式(123)。
假如即使h→ d H(ω,θ)h→ d(ω,θ)≠0,近似相干性γ~(ω,θ)也具有式(124)的极小解θ。q是任意的正整数。另外,q的范围在每个频带受限制。
也就是说,不仅是按式(116)提供的方向,而且按式(124)提供的方向也能抑制相干性。只要能抑制相干性,就能够使杂音的功率更小,因此,如图5B示意性地所示那样,能够实现尖锐指向性。
另外,在图5A和图5B中,示意性地示出了依据本发明的窄指向语音增强技术的原理的情况下和依据以往技术的情况下的指向性的差异,图6中具体表示按式(116)提供的θ和按式(124)提供るθ的差异。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]。在图6中,为了两者的比较,示出了归一化后的相干性的方向依赖性,以符号○表示的方向为按式(116)提供的θ,以符号+表示的方向是按式(124)提供的θ。从图6可以明确,若依据以往技术,则 相对于θs=π/4[rad],相干性为零的θ仅是以符号○示出的方向,但是若依据本发明的窄指向语音增强技术的原理,则相对于θs=π/4[rad],相干性为零的θ存在于由符号+示出的多个方向,特别地,相比于以符号○示出的方向,以符号+示出的方向更存在于相当接近θs=π/4[rad]的方向,因此可以理解,相比于以往技术,会实现尖锐指向性。
至此,从容易明白地说明本发明的语音定点增强技术的原理的观点出发,假定声波平面波到来,但是从上述说明可以明确,本发明的窄指向语音增强技术的要点在于,将传递特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]T例如如式(117a),以直达音的导引矢量和Ξ个反射音的导引矢量之和来表现。因此,可以理解,不限于声波作为平面波到来的情况,作为球面波到来的情况下也比以往更能进行窄指向性的语音增强。
说明声波作为球面波到来的情况下的传递特性a→(ω,θ,D)。在话筒阵列的各话筒中,混入了来自声源的直达音、和来自该声源的声音由反射物300反射后的反射音这两种球面波。将反射音的数目设为Ξ。Ξ为1以上的预先规定的整数。此时,传递特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]T,能够由来自可能成为语音增强的对象的位置(θs,D)的语音直接到达话筒阵列的直达音的传递特性、和该语音由反射物反射而到达话筒阵列的1个以上的反射音的各传递特性之和来表现,具体而言,将直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差设为τξ(θ,D),将αξ(1≤ξ≤Ξ)设为用于考虑由反射产生的声音的衰减的系数时,如式(125)那样,能够由直达音的导引矢量、和由反射引起的声音的衰减以及相对于直达音的到来时间差被校正后的Ξ个反射音的导引矢量之和来表现。h→d(ω,θ,Dh)=[hd1(ω,θ,Dh),…,hdM(ω,θ,Dh)]T表示来自位置(θs,D)的语音的直达音的导引矢量。h→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]T表示与来自位置(θs,D)的语音的直达音对应的反射音的导引矢量。这里,对于“导引矢量”这一称呼要预先加以注意。通常而言,“导引矢量”如也被称为“方向矢量”这样,表示依赖于“方向”的复矢量,从该观点出发,作为依赖于位置(θs,D)的复矢量的称呼,例如称为“扩展后的导引矢量”更准确。但是,在本说明书中,为了简化表现,作为依赖于位置(θs,D)的复矢量的称呼,也仅使用“导引矢量”。αξ(1≤ξ≤Ξ)通常为αξ≤1(1≤ξ≤Ξ)。关于各反射音,如果从声源到达话筒为止的反射次数为1次,则也可以认为 αξ(1≤ξ≤Ξ)表示第ξ反射音反射的物体的声音的反射率。
在式(125)中,构成直达音的导引矢量h→d(ω,θ,Dh)的第m元素hdm(ω,θ,Dh)例如按式(125a)提供。m是满足1≤m≤M的各整数。c表示音速。j是虚数单位。在适当地设定的空间坐标系中,v→ θ,D (d)表示位置(θ,D)的位置矢量,u→ m表示第m的话筒的位置矢量。符号‖·‖表示范数(norm)。f(‖v→ θ,D (d)-u→ m‖)是表示声波的距离衰减的函数。例如,f(‖v→ θ,D (d)-u→ m‖)=1/‖v→ θ,D (d)-u→ m‖,在该情况下,式(125a)以式(125b)表示。
在式(125)中,反射音的导引矢量h→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]T的第m元素hrmξ(ω,θ,D),与直达音的导引矢量的表示方式同样(参照式(125a)),以式(126a)表示。m是满足1≤m≤M的各整数。c表示音速。j是虚数单位。在上述空间坐标系中,v→ θ,D (ξ)表示位置(θ,D)以第ξ反射物为反射面移动到镜像对象的位置的位置矢量,u→ m表示第m话筒的位置矢量。符号‖·‖表示范数。f(‖v→ θ,D (ξ)-u→ m‖)是表示声波的距离衰减的函数。例如,f(‖v→ θ,D (ξ)-u→ m‖)=1/‖v→ θ,D (ξ)-u→ m‖,在该情况下,式(126a)以式(126b)表示。
另外,第ξ的到来时间差τξ(θ,D)和位置矢量v→ θ,D (ξ),如果决定了位置(θ,D)、话筒阵列和第ξ的反射物之间的位置关系,则基于该位置关系,理论上是可计算的。
本发明的语音定点增强技术与以往技术不同,由于主动地考虑反射音,因此还可进行窄指向性的语音定点增强。以下,以两个声源为例说明该情况。如图18A所示,关于从话筒阵列来看距离不同但位于大致相同方向的两个声源A和B分别发出的语音,仅根据两者的直达音,难以将两者的语音定点增强。其理由是因为,在与声源A的位置(θ[A],D[A])对应的直达音的导引矢量h→ d(ω,θ[A],D[A])中呈现的衰减函数的值f(‖v→ θ[A],D[A] (d)-u→ m‖)、和与声源B的位置(θ[B],D[B])对应的直达音的导引矢量h→ d(ω,θ[B],D[B])中呈现的衰减函数的值f(‖v→ θ[B],D[B] (d)-u→ m‖)之间,如果注意到θ[A]≈θ[B]、D[A]≠D[B],则与距离对应的差异被断定,但是,在现实中,根据从话筒阵列进行了集音后的语音的大小(音量),无法区别声源信号的大小(音量)和衰减函数的值。也就是说,如果如以往技术这样,设为a→ conv(ω,θ,D)=h→ d(ω,θ,D),则直达音的传递特性,作为与处于大致相同方向的声源的距离有关的识别力不充分,而参照式(109)、式(110a)、式(110b)可知,是难以进行可定点增强的滤波器的设计的。
另一方面,在本发明的语音定点增强技术中,在主动地考虑反射音时,如图18B所示,第ξ反射音的虚拟声源A(ξ),B(ξ),从话筒阵列的立脚点来看,成为恰好存在于声源A,B的位置以第ξ反射物300为反射面移动到镜像对象的位置。这与从声源A,B发出的语音由第ξ反射物300反射后的反射音分别从虚拟声源A(ξ),B(ξ)到来的情况是等价的。在来自虚拟声源A(ξ)的第ξ反射音和来自虚拟声源B(ξ)的第ξ反射音之间,关于各虚拟声源A(ξ)、B(ξ)的位置矢量v→ θ[A(ξ)],D[A(ξ)] (ξ)、v→ θ[B(ξ)],D[B(ξ)] (ξ)、各到来时间差τξ(θ[A],D[A])和τξ(θ[B],D[B]),存在大的差异。因此,与位置(θ[A],D[A])和位置(θ[B],D[B])对应的传递特性a→(ω,θ[A],D[A])和a→(ω,θ[B],D[B])以式(127a)和式(127b)表示,通过式(127a)和式(127b)各自存在第2项,即使是θ[A]≈θ[B],在与不同的位置对应的传递特性间也会产生有意义的差分。通过以波束成形法提取传递特性间的差分,可进行与所设想的声源的位置对应的语音的定点增强。
至此为止,为了说明窄指向性的实现,将距离Dh固定来考虑。因此,以式(110a)、式(110b)表示空间相关矩阵Q(ω)。但是,通过还考虑每个距离Dδ(δ=1,2,…,G)的M通道的传递特性的互相关,声场的信息量增加,可构成提供精度更好的滤波器的空间相关矩阵。该空间相关矩阵Q(ω)以式(110c)表示。将方向θφ的索引φ所属的集合设为Φ(|Φ|=P),将距离Dδ的索引δ所属的集合设为Δ(|Δ|=G)。
此时,若使用以式(110c)表示的空间相关矩阵Q(ω),则基于最小方 差无失真响应法的滤波器W→(ω,θs,Dh),以式(109a)替换式(109)来表示。
但是,如已述那样,本发明的语音定点增强技术的要点在于,将传递特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]T以直达音的导引矢量和Ξ个反射音的导引矢量之和来表现。因此,对滤波器的设计概念本身不会带来影响,因而能够通过最小方差无失真响应法以外的方法设计滤波器W→(ω,θs,Dh)。
作为上述的最小方差无失真响应法以外的方法,说明<1>基于SN比最大化准则的滤波器设计法、<2>基于功率倒置(Power Inversion)的滤波器设计法、<3>基于在约束条件中具有一个以上的抑制点(杂音的增益被抑制的位置)的最小方差无失真响应法的滤波器设计法、<4>基于延迟合成(Delay-and-Sum Beam Forming)法的滤波器设计法、<5>基于最大似然法的滤波器设计法、<6>基于AMNOR(Adaptive Microphone-array for noise reduction,用于噪声降低的自适应话筒阵列)法的滤波器设计法。关于<1>基于SN比最大化准则的滤波器设计法和<2>基于功率倒置的滤波器设计法,要参照下述参考文献2。关于<3>基于在约束条件中具有一个以上的抑制点(杂音的增益被抑制的方向)的最小方差无失真响应法的滤波器设计法,要参照下述参考文献3。关于<6>基于AMNOR(用于噪声降低的自适应话筒阵列)法的滤波器设计法,要参照下述参考文献4。
<1>基于SN比最大化准则的滤波器设计法
在基于SN比最大化准则的滤波器设计法中,以将位置(θs,Dh)的SN比(SNR)最大化为准则,决定滤波器W→(ω,θs,Dh)。将位置(θs,Dh)的语音的空间相关矩阵设为Rss(ω),将位置(θs,Dh)以外的位置的语音的空间相关矩阵设为Rnn(ω)。此时,SNR以式(128)表示。另外,Rss(ω)以式(129)表示,Rnn(ω)以式(130)表示。传递特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T例如以式(125)表示(准确而言,是将式(125)的θ设为θs、将D设为Dh后的式子)。在式(130)中,将方向θφ的索引φ所属的集合设为Φ(|Φ|=P),将距离Dδ的索引δ所属的集合设 为Δ(|Δ|=G)。
使式(128)的SNR最大的滤波器W→(ω,θs,Dh),可根据将与滤波器W→(ω,θs,Dh)有关的斜率设为零、即式(131)来求。
其中,但
由此,使式(128)的SNR最大的滤波器W→(ω,θs,Dh)按式(132)提供。
在式(132)中包含位置(θs,Dh)以外的位置的语音的空间相关矩阵Rnn(ω)的逆矩阵,但是,已知也可以将Rnn(ω)的逆矩阵置换为包含(1)位置(θs,Dh)的语音和(2)位置(θs,Dh)以外的位置的语音的输入整体的空间相关矩阵Rxx(ω)的逆矩阵。另外,Rxx(ω)=Rss(ω)+Rnn(ω)。也就是说,也可以通过式(133)求使式(128)的SNR最大的滤波器W→(ω,θs,Dh)。
<2>基于功率倒置的滤波器设计法
在基于功率倒置的滤波器设计法中,在将对一个话筒的滤波器系数固定为固定值的状态下,以波束成形器的平均输出功率最小化为基准决定滤波器W→(ω,θs,Dh)。这里,作为一例,将对于M个话筒中的第1话筒的滤波器系数固定来进行说明。在该设计法中,滤波器W→(ω,θs,Dh)在式(135)的约束条件下,使用空间相关矩阵Rxx(ω),被设计成所有位置(作为声源位置所设想的所有位置)的语音的功率最小(参照式(134))。传递特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T例如以式(125)表示(准确而言,是将式(125)的θ设为θs、将D设为Dh后的式子)。
其中,
已知作为式(134)的最佳解的滤波器W→(ω,θs,Dh)按式(136)提供(参照下述参考文献2)。
<3>基于在约束条件中具有一个以上的抑制点的最小方差无失真响应法的滤波器设计法
在上述的最小方差无失真响应法中,如以式(108)表示那样,在将位置(θs,Dh)的语音的全频带通过作为约束条件,求以式(107)表示的波束成形器的平均输出功率最小(也就是说,作为位置(θs,Dh)以外的位置的语音的杂音的功率最小)的滤波器、这样的单一约束条件下的准则下,设计了滤波器W→(ω,θs,Dh)。根据该方法,整体上可抑制杂音的功率,但是,在预先判明在特定的一个或多个位置存在具有强功率的噪声源的情况下,未必可以说是合适的方法。在这样的情况下,需要对存在噪声源的已知的一个 或多个特定位置(也就是说,抑制点)强烈进行抑制的滤波器。因此,在这里说明的滤波器设计法中,以(1)位置(θs,Dh)的语音的全频带通过、以及(2)预先判明的B个(B为1以上的预先确定的整数)的抑制点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)的语音的全频带抑制为约束条件,求以式(107)表示的波束成形器的平均输出功率最小(也就是说,除去了位置(θs,Dh)和各抑制点的位置的语音的功率最小)的滤波器。如已述那样,将语音的到来方向的索引φ所属的集合设为{1,2,…,P},Nj∈{1,2,…,P}(其中,j∈{1,2,…,B}),B≤P-1。另外,若将到声源的距离的索引δ所属的集合设为{1,2,…,G},则Gj∈{1,2,…,G}(其中,j∈{1,2,…,B}),B≤G-1。
此时,将a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T设为假定在位置(θi,Dg)存在声源的情况下的、该声源和M个话筒之间的在频率ω下的传递特性、换而言之,a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T设为向话筒阵列中所包含的的各话筒的位置(θi,Dg)的语音在频率ω下的传递特性时,约束条件以式(137)表示。其中,关于索引i,g,(i,g)∈{(s,h),(N1,G1),{N2,G2),…,(NB,GB)},传递特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T以式(125)表示(准确而言,是将式(125)的θ设为θi、将D设为Dg后的式子)。fi,g(ω)表示与位置(θi,Dg)有关的频率ω下的通过特性。
(i,g)∈{(s,h),(N1,G1),(N2,G2),…,(NB,GB)} (137)
若以矩阵形式表现式(137),则可例如式(138)那样表示。其中,A→(ω,θs,Dh)=[a→(ω,θs,Dh),a→(ω,θN1,DG1),…,a→(ω,θNB,DGB)]。
其中,
若考虑(1)位置(θs,Dh)的语音的全频带通过、以及(2)预先判明 的B个抑制点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)的语音的全频带抑制这样的约束条件,理想的是,应该设为fs,h(ω)=1.0、fi,g(ω)=0.0((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})。这表示位置(θs,Dh)的语音的全频带完全通过、和预先判明的B个抑制点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)的语音的全频带完全阻止。但是,在现实中,有时也难以进行全频带完全通过、全频带完全阻止这样的控制。在这样的情况下,将fs,h(ω)的绝对值设定为接近1.0的值、将fi,g(ω)((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})的绝对值设定为接近0.0的值即可。当然,fi,g_i(ω)和fi,g_j(ω)(i≠j、i,j∈{N1,N2,…,NB})也可以相等,也可以不同。
根据这里说明的滤波器设计法,作为表示约束条件的式(138)下的式(107)的最佳解的滤波器W→(ω,θs,Dh),按式(139)提供(参照下述参考文献3)。但是,作为空间相关矩阵Q(ω),使用了以式(110c)表示的矩阵,但是也可以使用以式(110a)或式(110b)表示的空间相关矩阵。
<4>基于延迟合成法的滤波器设计法
根据延迟合成法,若假定直达音、反射音进行平面波到来,则滤波器W→(ω,θs,Dh)按式(140)提供。也就是说,将传递特性a→(ω,θs,Dh)进行归一化而得到滤波器W→(ω,θs,Dh)。传递特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T按式(125)表示(准确而言,是将式(125)的θ设为θs、将D设为Dh后的式子)。根据该设计法,有时滤波器精度未必可以说良好,但是计算量少。
<5>基于最大似然法的滤波器设计法
在上述的最小方差无失真响应法中,通过在空间相关矩阵Q(ω,Dh)内不包含目标方向的语音的空间信息,抑制杂音的自由度提高,能够更进一步 抑制杂音的功率。在该情况下,在这里说明的滤波器设计法中,将空间相关矩阵Q(ω,Dh)用式(110a)的右边第二项、即用式(110d)表示。滤波器W→(ω,θs,Dh)按式(109)、式(139)提供。此时,在式(109)、式(139)中包含的空间相关矩阵是以式(110d)表示的空间相关矩阵。
或者,也可以在空间相关矩阵Q(ω)内不包含位置(θs,Dh)的语音的空间信息。在该情况下,在这里说明的滤波器设计法中,将空间相关矩阵Q(ω)用式(110e)表示。滤波器W→(ω,θs,Dh)按式(109)、式(139)提供。此时,在式(109)、式(139)中包含的空间相关矩阵是以式(110e)表示的空间相关矩阵。
<6>基于AMNOR法的滤波器设计法
AMNOR法是如下方式:根据目标方向的语音的劣化量D和滤波器输出信号中残留的杂音的功率之间的折衷关系,某种程度允许目标方向的语音的劣化量D(例如使劣化量D保持在某阈值D^以下),求将[a]使声源和话筒之间的传递特性作用于目标方向的虚拟的信号(以下称为虚拟目的信号的信号和[b]与(例如在没有目标方向的语音的杂音环境中的、通过M个话筒的观测得到的)杂音的混合信号作为输入时的滤波器输出信号从最小平方误差的观点来最好地再现虚拟目的信号(也就是说,滤波器输出信号中包含的杂音的功率最小)的滤波器。
这里说明的滤波器设计法,作为在AMNOR法中导入了距离的概念的滤波器设计法,可与AMNOR法同样地考虑。即,基于位置(θs,Dh)的语音的劣化量D和在滤波器输出信号中残留的杂音的功率之间的折衷关系,某种程度允许位置(θs,Dh)的语音的劣化量D(例如使劣化量D保持在某阈值D^以下),求将[a]使声源和话筒之间的传递特性作用于位置(θs,Dh)的虚拟的信号(以下称为虚拟目的信号)的信号和[b](例如在没有位置(θs,Dh) 的语音的杂音环境中的、通过M个话筒的观测得到的)杂音的混合信号作为输入时的滤波器输出信号从最小平方误差的观点来最好再现虚拟目的信号(也就是说,滤波器输出信号中包含的杂音的功率最小)的滤波器。
根据这里说明的滤波器设计法,与AMNOR法同样,滤波器W→(ω,θs,Dh)按式(141)提供(参照下述参考文献4)。另外,Rss(ω)以式(126)表示,Rnn(ω)以式(127)表示。传递特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T以式(125)表示(准确而言,是将式(125)的θ设为θS、将D设为Dh后的式子)。
Ps是对虚拟目的信号的电平进行加权的系数,被称为虚拟目的信号电平。虚拟目的信号电平Ps是不依赖于频率的常数。虚拟目的信号电平Ps可以基于经验规则决定,或者也可以决定为位置(θs,Dh)的语音的劣化量D和阈值D^之差在任意确定的误差范围内。说明后者的例子。在频率ω下,滤波器W→(ω,θs,Dh)的位置(θs,Dh)的语音的频率响应F(ω)以式(142)表示。将采用按式(141)提供的滤波器W→(ω,θs,Dh)时的劣化量D表示为D(Ps),劣化量D(Ps)按式(143)定义。ω0表示作为对象的频率ω的上限(通常是与离散性的频率ω邻接的高频侧频率)。劣化量D(Ps)是Ps的单调减少函数。因此,通过D(Ps)的单调性,反复改变Ps的同时求劣化量D(Ps),从而可以求使劣化量D(Ps)和阈值D^之差在任意确定的误差范围内的虚拟目的信号电平Ps。
<变形例>
在上述的说明中,使用传递特性表现了空间相关矩阵Q(ω)、Rss(ω)、Rnn(ω)。但是,也可以使用上述的频域信号X→(ω,k)来表现空间相关矩阵Q(ω)、Rss(ω)、Rnn(ω)。以下说明空间相关矩阵Q(ω),但是对于Rss (ω)、Rnn(ω)也是同样(将Q(ω)换称为Rss(ω)或者Rnn(ω)即可)。另外,空间相关矩阵Rss(ω)通过由在仅存在位置(θs,Dh)的语音的环境下的、由话筒阵列(包含M个话筒)进行观测而得到的模拟信号的频域表现来得到,空间相关矩阵Rnn(ω)通过由在没有位置(θs,Dh)的语音的环境(即杂音环境)下的、由话筒阵列(包含M个话筒)进行观测而得到的模拟信号的频域表现来得到。
使用了频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T的空间相关矩阵Q(ω)以式(144)表示。运算符E[·]是表示统计性平均操作的运算符。在将由话筒阵列(包含M个话筒)进行声音接收得到的模拟信号的离散时间序列看作随机过程时,在该序列为所谓的广义的定常或者二次定常的情况下,运算符E[·]成为算术平均值(期望值)运算。在该情况下,空间相关矩阵Q(ω)例如使用在存储器等中存储的当前以及先前的共计ζ个帧的频域信号X→(ω,k-i)(i=0,1,…,ζ-1),以式(145)表示。在i=0时,即第k帧为当前帧。另外,基于式(144)或者式(145)的空间相关矩阵Q(ω)可以对每帧重新计算,或者也可以以定期或者不定期的间隔重新计算,或者也可以预先在后面说明的实施方式的实施之前计算(特别地,优选在对滤波器设计中使用Rss(ω)或者Rnn(ω)的情况下,使用在实施方式的实施之前取得的频域信号,预先计算空间相关矩阵Q(ω))。在对每帧重新计算空间相关矩阵Q(ω)的情况下,由于空间相关矩阵Q(ω)依赖于当前和先前的帧,因此,如式(144a)和式(145a)那样,显式地将空间相关矩阵表示为Q(ω,k)。
在使用以式(144a)和式(145a)表示的空间相关矩阵Q(ω,k)时,滤波器W→(ω,θs,Dh)也依赖于当前和过去的帧,因此,将滤波器显式地表示为W→(ω,θs,Dh,k)。此时,由在上述各种滤波器设计法中说明的式(109)、式(132)、式(133)、式(136)、式(139)、式(141)的任意一个表示的滤波器W→(ω,θs,Dh),在记述上,修正为式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)。
《语音定点增强技术的实施方式1》
图19和图20表示本发明的语音定点增强技术的实施方式1的功能结构以及处理流程。该实施方式1的语音定点增强装置3包含:AD变换单元610、帧生成单元620、频域变换单元630、滤波器应用单元640、时域变换单元650、滤波器设计单元660、存储单元690。
[步骤S21]
滤波器设计单元660预先对可能成为语音增强的对象的每个离散的位置(θi,Dg)计算每个频率的滤波器W→(ω,θi,Dg)。在将可能成为语音增强的对象的离散的方向的总数设为I(I为1以上的预先确定的整数,满足I≤P)、将离散的距离的总数设为G(G为1以上的预先规定的整数)时,事先计算W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≤i≤I,1≤g≤G,ω∈Ω;i和g为整数,Ω为频率ω的集合)。
为此,除去在上述的<变形例>中说明过的情况,需要求传递特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≤i≤I,1≤g≤G,ω∈Ω),但是这可基于话筒阵列中的话筒的配置、作为反射物的例如反射板、地板、墙壁、顶棚相对于话筒阵列的位置关系、直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差、反射物的声音的反射率等的环境信息,通过式(125)具体地计算(准确而言,是将式(125)的θ设为θi、将D设为Dg后的式子)。另外,在依据上述的<3>基于在约束条件中具有一个以上的抑制点的最小方差无失真响应法的滤波器设计法的情况下,求传递特性a→(ω,θi,Dg)(1≤i≤I,1≤g≤G,ω∈Ω)时的位置索引(i,g)优选至少覆盖到B个抑制点的方向的索引(N1,G1),(N2,G2),…,(NB,GB)的全部。换而言之,B个索引N1,N2,…,NB被设定为1以上I以下的其中一个的不同的整数,B个索引G1,G2,…,GB被设定为1以上G以下的其中一个的不同的整数。
反射音的数目Ξ被设定为满足1≤Ξ的整数,但是,作为Ξ的值没有特别限定,根据计算能力等适当地设定即可。
在导引矢量的计算中可使用例如式(125a)、式(125b)、式(126a)、式(126b)。另外,作为用于滤波器设计的传递特性,也可以不依据式(125),而是例如使用在实际环境下通过实测得到的传递特性。
并且,除去在上述的<变形例>中说明了的情况,使用传递特性a→(ω,θi,Dg),通过例如式(109)、式(109a)、式(132)、式(133)、式(136)、式(139)、式(140)、式(141)的其中一个求W→(ω,θi,Dg)(1≤i≤I,1≤g≤G)。另外,除去在上述的<5>基于最大似然法的滤波器设计法中说明过的情况,在使用式(109)或式(109a)或式(133)或式(136)或式(139)的情况下,空间相关矩阵Q(ω)(或者Rxx(ω))可按式(110b)计算。在依据上述的<5>基于最大似然法的滤波器设计法,使用式(109)或式(109a)或式(133)或式(136)或式(139)的情况下,空间相关矩阵Q(ω)(或者Rxx(ω))可按式(110c)或者式(110d)计算。在使用式(132)的情况下,空间相关矩阵Rnn(ω)可按式(130)计算。I×G×|Ω|个滤波器W→(ω,θi,Dg)(1≤i≤I,1≤g≤G,ω∈Ω)被存储在存储单元690中。|Ω|表示集合Ω的元素数。
[步骤S22]
使用构成话筒阵列的M个话筒200-1,…,200-M进行集音。M为2以上的整数。
在M个话筒的排列方式方面没有限制。但是,通过2维或3维地配置M个话筒,有消除进行语音增强的方向的不确定性这样的优点。也就是说,能够通过平面地或者立体地排列话筒,来防止在将M个话筒沿水平方向直线状地排列时例如无法区别从正面方向到来的语音和从正上方到来的语音的问题。另外,为了拓宽可设定为集音方向的方向,各话筒的指向性,最好在可成为作为集音方向的目标方向θs的方向具有能够以某种程度的声压对语音进行集音的指向性。因此,优选无指向性话筒和单一指向性话筒这样的指向性比较宽松的话筒。
[步骤S23]
AD变换单元610将由M个话筒200-1,…,200-M进行集音后的模拟信号(集音信号)变换为数字信号X→(t)=[X1(t),…,XM(t)]T。t表示离散时间的索引。
[步骤S24]
帧生成单元620将AD变换单元610输出的数字信号X→(t)=[X1(t),…,XM(t)]T作为输入,按每个通道将N样本储存在缓冲器中,输出以帧为单位的数字信号X→(k)=[X→ 1(k),…,X→ M(k)]T。k是帧号码的索引。X→m(k)=[XM(k-1)N+1),…,XM(kN)](1≤m≤M)。N也取决于采样频率,在16kHz采样的情况下,512点程度较适当。
[步骤S25]
频域变换单元630将各帧的数字信号X→(k)变换为频域的信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T并输出。ω是离散频率的索引。作为将时域信号变换为频域信号的方法之一有快速离散傅里叶变换,但是不限于此,也可以使用变换为频域信号的其他方法。频域信号X→(ω,k)按各频率ω、按每帧k输出。
[步骤S26]
滤波器应用单元640按每帧k,对于各频率ω∈Ω,对频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T应用与想要增强的位置(θs,Dh)对应滤波器W→(ω,θs,Dh),将输出信号Y(ω,k,θs,Dh)输出(参照式(146))。位置(θs,Dh)的索引s,h为s∈{1,…,I},h∈{1,…,G},滤波器W→ (ω,θs,Dh)被存储在存储单元690中,因此例如每当步骤S26的处理时,滤波器应用单元640从存储单元690取得与想要增强的位置(θs,Dh)对应的滤波器W→(ω,θs,Dh)即可。在方向θs的索引s不属于集合{1,…,I}的情况下或者距离Dh的索引h不属于集合{1,…,G}的情况下,也就是说在与位置(θs,Dh)对应的滤波器W→(ω,θs,Dh)在步骤S21的处理中未计算的情况下,既可以使滤波器设计单元660临时计算与位置(θs,Dh)对应的滤波器W→(ω,θs,Dh),或者也可以使用与接近方向θs的方向θs′、接近距离Dh的距离Dh′对应的滤波器W→(ω,θs′,Dh)、W→(ω,θs,Dh′)、W→(ω,θs′,Dh′)。
[步骤S27]
时域变换单元650将第k帧的各频率ω∈Ωの输出信号Y(ω,k,θs,Dh)变换到时域,得到第k帧的帧单位时域信号y(k),进而,将得到的帧单位时域信号y(k)按照帧号码的索引的顺序连结,并输出来自位置(θs,Dh)的语音被增强后的时域信号y(t)。将频域信号变换为时域信号的方法,是与在步骤S25的处理中使用的变换方法对应的逆变换,例如为快速离散傅里叶逆变换。
这里,说明了步骤S21的处理中预先计算滤波器W→(ω,θi,Dg)的实施方式1,但是,根据语音定点增强装置3的计算处理能力等,也可以采用确定了位置(θs,Dh)之后,滤波器设计单元660计算每个频率的滤波器W→(ω,θs,Dh)的实施方式。
《语音定点增强技术的实施方式2》
图21和图22示出了本发明的语音定点增强技术的实施方式2的功能结构以及处理流程。该实施方式2的语音定点增强装置4包含:AD变换单元610、帧生成单元620、频域变换单元630、滤波器应用单元640、时域变换单元650、滤波器计算单元661、存储单元690。
[步骤S31]
使用构成话筒阵列的M个话筒200-1,…,200-M进行集音。M是2以上的整数。关于M个话筒的排列方式等,如在实施方式1中说明的那样。
[步骤S32]
AD变换单元610将由M个话筒200-1,…,200-M进行集音后的模拟信号(集音信号)变换为数字信号X→(t)=[X1(t),…,XM(t)]T。t表示离散时间的索引。
[步骤S33]
帧生成单元620将AD变换单元610输出的数字信号X→(t)=[X1(t),…,XM(t)]T作为输入,按每个通道,将N样本储存在缓冲器中,输出以帧为单位的数字信号X→(k)=[X→ 1(k),…,X→ M(k)]T。k是帧号码的索引。X→ m(k)=[Xm((k-1)N+1),…,Xm(kN)](1≤m≤M)。N也取决于采样频率,但是在16kHz采样的情况下,512点程度较适当。
[步骤S34]
频域变换单元630将各帧的数字信号X→(k)变换为频域的信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T并输出。ω是离散频率的索引。作为将时域信号变换为频域信号的方法之一,有快速离散傅里叶变换,但是不限于此,也可以使用变换为频域信号的其他方法。频域信号X→(ω,k)按各频率ω、按每帧k输出。
[步骤S35]
滤波器计算单元661计算在当前的第k帧所使用的、与位置(θs,Dh)对应的每个频率的滤波器W→(ω,θs,Dh,k)(ω∈Ω;Ω是频率ω的集合)。
为此,需要准备传递特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T(ω∈Ω),但是,这可基于话筒阵列中的话筒的配置、作为反射物的例如反射板、地板、墙壁、顶棚相对于话筒阵列的位置关系、直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差、反射物的声音的反射率等的环境信息,通过式(125)具体地计算(准确而言,是将式(125)的θ设为θs、将D设为Dh后的式子)。另外,在依据上述的<3>基于在约束条件中具有一个以上的抑制点的最小方差无失真响应法的滤波器设计法的情况下,还需要求传递特性a→(ω,θNj,DGj)(1≤j≤B,ω∈Ω),但是,这些可基于话筒阵列中的话筒的配置、作为反射物的例如反射板、地板、墙壁、顶棚相对于话筒阵列的位置关系、直达音和第ξ(1≤ξ≤Ξ)的反射音之间的到来时间差、反射物的声音的反射率等的环境信息,通过式(125)具体地计算(准确而言,是将式(125)的θ设为θNj、将D设为DGj后的式子)。
反射音的数Ξ被设定为满足1≤Ξ的整数,但是作为Ξ的值没有特别限定,根据计算能力等适当设定即可。
在导引矢量的计算中,可使用例如式(125a)、式(125b)、式(126a)、式(126b)。另外,作为用于滤波器设计的传递特性,也可以不依据式(125),例如使用由在实际环境下的通过实测得到的传递特性。
并且,滤波器计算单元661使用传递特性a→(ω,θs,Dh)(ω∈Ω)或根据需要使用传递特性a→(ω,θNj,DGj)(1≤j≤B,ω∈Ω),按照式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)的其中一个求滤波器W→(ω,θs,Dh,k)(ω∈Ω)。另外,空间相关矩阵Q(ω)(或者Rxx(ω))例如可按式(144a)、式(145a)计算。在空间相关矩阵Q(ω)的计算中,使用在存储单元690中存储的当前以及先前的共计ζ个帧的频域信号X→(ω,k-i)(i=0,1,…,ζ-1)。
[步骤S36]
滤波器应用单元640按每帧k,关于各频率ω∈Ω,对频域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]T应用与想要增强的目标方向θs对应的滤波器W→(ω,θs,Dh,k),将输出信号Y(ω,k,θs,Dh)输出(参照式(147))。
[步骤S37]
时域变换单元650将第k帧的各频率ω∈Ω的输出信号Y(ω,k,θs,Dh)变换到时域,得到第k帧的帧单位时域信号y(k),进而,将得到的帧单位时域信号y(k)按照帧号码的索引的顺序连结,输出来自位置(θs,Dh)的语音被增强后的时域信号y(t)。将频域信号变换为时域信号的方法是与在步骤S34的处理中使用的变换方法对应的逆变换,例如快速离散傅里叶逆变换。
另外,即使依据语音定点增强技术,也可通过Σg=1 GβgW→(ω,θi,Dg)求与方向θi对应的滤波器W→(ω,θi)。βg[1≤g≤G]是权重系数,优选满足Σg=1 Gβg=1,进而优选0≤βg[1≤g≤G]。另外,滤波器W→(ω,θi,Dg)也可以是在实际环境下通过实测得到的传递特性来表示的滤波器。
[语音定点增强技术的实验例]
说明基于本发明的语音定点增强技术的实施方式1(单一约束条件的最小方差无失真响应法)的语音的定点增强的实验结果。实验环境设为与图9所示的环境相同。如图9所示,直线地配置24个话筒,并对反射板300进行配置,使得该线性话筒阵列中的话筒的排列方向成为反射板300的法线。在反射板300的形状上没有限制,但是使用了反射面为平面、具有1.0m×1.0m的大小、适当的厚度和刚性的平板的反射板。将相邻的话筒的间隔设为4cm,将反射板300的反射率α设为0.8。将声源位置的方向θs设定为45度、将距离Dh设定为1.13m。作为实验结果,图23A表示未设置反射板300的情况下的最小方差波束成形的指向性(2维区域)、图23B表示设置了反射板300的情况下的最小方差波束成形的指向性(2维区域)。声压[单位:dB]进行浓淡表示,越白的区域,表示越能够以高声压进行集音。因此,理想的是,可以说仅方向45度、距离1.13m的位置变白,其他区域越接近黑色,就越能够实现所希望的语音的定点增强。从图23A和图23B所示的实验结果的比较可知,在未设置反射板300的情况下,不能充分进行所希望的语音的定点增强,而在设置了反射板300的情况下,能够进行所希望的语音的定点增强。
<应用例>
语音定点增强技术,如果比喻为图像来表现,则对应于从不鲜明的模糊的图像生成鲜明的图像,有助于更详细地得到声场的信息。以下叙述本发明的语音定点增强技术有用的服务例。
作为第1例,举出与视频组合的内容制作。若利用本发明的语音定点增强技术的实施方式,则即使在杂音(目的外语音等)多的杂音环境下,也能够清晰地增强远方的目的语音,因此例如能够附加与从场地外拍摄到的足球选手进行带球的拉近镜头视频对应的特定区域的语音。
作为第2例,举出对TV会议系统(也可以是语音会议系统)的应用。在狭窄的房间开会的情况下,在以往技术中,能够使用几个话筒相应地来增强发言者的语音,但是在宽敞的会议室(例如距离话筒5m以上的位置存在说话者这样的宽敞的空间),难以清晰地增强远处说话者的语音,因此,需要在各发言者的前面设置话筒。但是,若利用本发明的语音定点增强技术的实施方式,则能够清晰地增强特定区域的远处的特定区域的声音,因此,能够构筑与宽敞的会议室对应的TV会议系统,而不在各发言者的前面设置话筒。另外,由于可增强特定区域的语音,因此还放宽了有关会议参加者的位置相 对于话筒的设置位置的限制。
<语音增强技术的实施结构>
接着,参照图24~图28说明本发明的语音增强技术的实施结构的例子。在这些例子中,话筒阵列的结构图示为线性话筒阵列,但是不限于线性话筒阵列的结构。
在图24A,图24B,图24C所示的实施结构例中,构成线性话筒阵列的M个话筒200-1,…,200-M被固定在矩形平板状的支承构件400上,在该状态下,各话筒的集音孔被配置在支承构件400的某一平面(以下称为开口面)(在图示的例子中M=13)。另外,连接到各话筒200-1,…,200-M的布线未图示。并且,反射板300被固定在支承构件400的端部,使得固定各话筒200-1,…,200-M的排列方向成为矩形平板状的反射板300的法线。支承构件400的开口面是与反射板300成90度的面。在图24A、图24B、图24C所示的实施结构例中,反射板300作为优选的特性与已述的反射物的特性相同,关于支承构件400的特性,没有特别限定,具有能够牢牢地固定各话筒200-1,…,200-M的刚性就足够。
在图25A所示的实施结构例中,在支承构件400的端部固定轴部410,反射板300转动自如地安装在轴部410。根据该实施结构例,可变更反射板300相对于话筒阵列的几何学的配置。
在图25B所示的实施结构例中,在图24A、图24B、图24C所示的实施结构例中进一步追加了两个反射板310,320。所追加的两个反射板310,320的特性可以与反射板300的特性相同,也可以不同。另外,反射板310的特性可以与反射板320的特性相同,也可以不同。以下,将反射板300称为固定反射板300。轴部510固定在固定反射板300的端部(与被支承构件400固定的固定反射板300的端部相反侧的端部),反射板310转动自如地安装在轴部510。另外,轴部520固定在支承构件400的端部(与固定反射板300被固定的支承构件400的端部相反侧的端部),反射板320转动自如地安装在轴部520。以下,将反射板310,320称为可动反射板310,320。根据图25B所示的实施结构例,例如若设定可动反射板310的位置,使得固定反射板300的反射面和可动反射板310的反射面一致,则能够使固定反射板300和可动反射板310的组合作为具有大于固定反射板300的反射面的反射板功能。另外,根据图25B所示的实施结构例,通过将可动反射板310,320设定在适当 的位置,能够例如图26所示那样,在由支承构件400、固定反射板300、可动反射板310,320包围的空间内使语音多次反射,因此能够控制反射音的数Ξ。另外,在图25B所示的实施结构例的情况下,支承构件400起到作为反射物的作用,因此优选具有与已述的反射物的特性相同的特性。
图27A、图27B、图27C所示的实施结构例,在反射板300上也设置了话筒阵列(在图示的例子中为线性话筒阵列)的情况与图24A、图24B、图24C所示的实施结构例不同。在图27A,图27B,图27C所示的实施结构例中,被固定在支承构件400上的M个话筒的排列方向和被固定在反射板300上的M’个话筒的排列方向处于同一平面上,但是不限于这样的配置结构(在图示的例子中,M’=13)。例如,也可以以具有与被支承构件400固定的M个话筒的排列方向正交的排列方向的方式,在反射板300上固定M’个话筒。根据图27A、图27B、图27C所示的实施结构例,可通过在支承构件400设置的话筒阵列和反射板300(不使用在反射板300设置的话筒阵列,而将反射板300作为反射物使用)的组合来实施本发明的语音增强技术,或者可通过支承构件400(不使用在支承构件400设置的话筒阵列,而将支承构件400作为反射物使用)和在反射板300设置的话筒阵列的组合来实施本发明的语音增强技术。
另外,作为图27A、图27B、图27C所示的实施结构例的扩展实施结构例,与图25B所示的实施结构例同样,也可以成为在图27A、图27B、图27C所示的实施结构例中,进一步追加两个反射板310,320的结构(参照图28)。另外,虽然未图示,但是也可以对可动反射板310,320的至少一个设置话筒阵列。构成在可动反射板310上设置的话筒阵列的各话筒的集音孔,例如配置在可与支承构件400的开口面面对的可动反射板310的平面(开口面)上。构成在可动反射板320上设置的话筒阵列的各话筒的集音孔例如配置在可与支承构件400的开口面形成同一平面的可动反射板320的平面(开口面)上。即使是这样的实施结构例,也可执行与图25B所示的实施结构例同样的使用形式。另外,根据该实施结构例,例如若将可动反射板320的位置设定为,支承构件400的开口面和可动反射板320的开口面一致,则可使支承构件400和可动反射板320的组合作为大于在支承构件400上设置的话筒阵列的话筒阵列起作用。在图28所示的实施结构例中,在可动反射板310,320的至少一个设置了话筒阵列的实施结构例中,都可以执行与图26所示的实施结构例 同样的使用形式。另外,在图28所示的实施结构例,在可动反射板310,320的至少一个设置了话筒阵列的实施结构例中,都可执行例如将可动反射板310,320作为通常的反射物使用、将在支承构件400上设置的话筒阵列和在固定反射板300上设置的话筒阵列作为一体的话筒阵列使用的使用形式。在该情况下,与使用由(M+M’)个话筒构成的话筒阵列和两个反射物的实施结构例等价。
在可动反射板310上设置话筒阵列的情况下,也可以以构成在可动反射板310设置的话筒阵列的各话筒的集音孔配置在与可支承构件400的开口面面对的可动反射板310的平面的相反侧的平面(开口面)的方式,在可动反射板310设置话筒阵列。另外,在可动反射板320上设置话筒阵列的情况下,也可以以构成在可动反射板320设置的话筒阵列的各话筒的集音孔配置在可与支承构件400的开口面形成同一平面的可动反射板320的平面的相反侧的平面(开口面)的方式,在可动反射板320上设置话筒阵列。当然,对于可动反射板310,320的至少一个,也可以以在其两面设为开口面的方式,在该可动反射板上设置话筒阵列。
[A]将话筒阵列设置在可动反射板310、320的至少一个上的情况下,在使可动反射板310的开口面为可与支承构件400的开口面面对的平面的情况下或者使可动反射板320的开口面为可与支承构件400的开口面形成同一平面的平面的情况下,在图24A、图24B、图24C所示的使用形式中,虽然通过相对于视线方向、以看不到可动反射板310以及/或者可动反射板320的开口面的方式配置可动反射板310以及/或者可动反射板320,视线方向的外表上的阵列大小变小,但是通过利用可动反射板310以及/或者在可动反射板320设置的的话筒阵列,能够获得与增大阵列大小的情况相同的效果。
[B]在将话筒阵列设置在可动反射板310、320的至少一个上的情况下,在使可动反射板310的开口面为可与支承构件400的开口面面对的平面的相反侧的平面的情况下或者在使可动反射板320的开口面为可与支承构件400的开口面形成同一平面的平面的相反侧的平面的情况下,在图24A,图24B,图24C所示的使用形式中,相对于视线方向原样保持外表上的阵列大小,能够获得与增大阵列大小的情况相同的效果。
对于可动反射板310,320的至少一个,以在其两面设为开口面的方式,在该可动反射板设置了话筒阵列的情况下,还能够获得[A]和[B]双方的效果。
<参考文献>
(参考文献1)Simon Haykin著、鈴木博他訳、「適応滤波器理論」、初版、株式会社科学技术出版、2001.pp.66-73,248-255
(参考文献2)菊间信良著、「ァダプテイブアンテナ技术」、第1版、株式会社オ一ム社、2003年、pp.35-90
(参考文献3)浅野太著、「日本音学会音テクノシリ一ズ16音のアレイ信号处理-声源の定位·追跡と分離-」、初版、株式会社コロナ社、pp.88-89,259-261(参考文献4)金田豊著、「適応形杂音抑制话筒阵列(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
<语音增强装置的硬件结构例>
与上述实施方式有关的语音增强装置,具有:可连接键盘等的输入部、可连接液晶显示器等的输出部、CPU(Central Processing Unit,中央处理单元)〔也可以具有高速存储器等。〕、作为存储器的RAM(Random Access Memory,随机存取存储器)和ROM(Read Only Memory,只读存储器)、作为硬盘的外部存储装置、以及进行连接使得可进行这些输入部、输出部、CPU、RAM、ROM、外部存储装置间的数据的交换的总线等。另外,根据需要,也可以在语音增强装置中设置可对CD-ROM等的记录介质进行读写的装置(驱动器)等。作为具有这样的硬件资源的物理性实体,有通用计算机等。
在语音增强装置的外部存储装置中,存储用于增强窄范围的语音的程序以及在该程序的处理中所必要的数据等〔不限于外部存储装置,也可以是例如读出程序使其存储在作为专用存储装置的ROM中等。〕。另外,通过这些程序的处理得到的数据等,适当地存储在RAM和外部存储装置等中。以下,将存储数据和其保存区域的地址等的存储装置简称为“存储单元”。
在语音增强装置的存储单元中存储:用于使用空间相关矩阵按每个频率求滤波器的程序、用于对模拟信号进行AD变换的程序、用于进行帧生成处理的程序、用于将每个帧的数字信号变换为频域的频域信号的程序、用于将与作为语音增强的对象的方向或者位置对应的滤波器按每个频率应用到频域信号以得到输出信号的程序、和用于将输出信号变换为时域信号的程序。
在语音增强装置中,在存储单元中存储的各程序和该各程序的处理所需要的数据根据需要读入到RAM中,由CPU解析执行和处理。其结果,通过CPU实现规定的功能(滤波器设计单元、AD变换单元、帧生成单元、频域 变换单元、滤波器应用单元、时域变换单元),实现语音增强。
<补记>
本发明不限于上述的实施方式,在不脱离本发明的宗旨的范围内可适当进行变更。另外,在上述实施方式中说明过的处理,不仅可以按照记载的顺序来时序地执行,也可以根据执行处理的装置的处理能力或者需要,并行地或者单独地执行。
另外,在通过计算机实现在上述实施方式中说明过的硬件实体(entity)(语音增强装置)中的处理功能的情况下,硬件实体应具有的功能的处理内容通过程序记述。并且,通过在计算机上执行该程序,在计算机上实现上述硬件实体中的处理功能。
记述了该处理内容的程序,可预先记录在计算机可读取的记录介质上。作为在计算机上可读取的记录介质,例如也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等哪种装置都可以。具体而言,例如,作为磁记录装置,可使用硬盘装置、软盘、磁带等,作为光盘,可使用DVD(Digital Versatile Disc,数字化通用磁盘)、DVD-RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read Only Memory,光盘只读存储器)、CD-R(Recordable,可记录)/RW(ReWritable,可重写)等,作为光磁记录介质,可使用MO(Magneto-Optical disc,磁介质光盘)等,作为半导体存储器,可使用EEP-ROM(Electronically Erasable and Programmable-Read Only Memory,电可擦除可编程只读存储器)等。
另外,该程序的流通例如通过销售、转让、出借记录了该程序的DVD、CD-ROM等的可移型记录介质来进行。进而,也可以成为如下构成:预先将该程序保存在服务器计算机的存储装置中,经由网络,从服务器计算机向其他计算机转发该程序,从而使该程序流通。
执行这样的程序的计算机,例如,首先将在可移型记录介质中记录的程序或者从服务器计算机转发的程序暂时保存在自己的存储装置中。然后,在执行处理时,该计算机读取在自己的记录介质中保存的程序,执行按照读取的程序的处理。另外,作为该程序的其他执行方式,也可以是计算机从可移型记录介质直接读取程序,执行按照该程序的处理,进而也可以在每次从服务器计算机对该计算机转发程序时,逐次地执行按照接受到的程序的处理。另外,也可以是如下构成:不执行从服务器计算机对该计算机的程序的转发, 而是仅通过该执行指示和结果取得来实现处理功能的、所谓的ASP(Application Service Provider,应用服务提供商)型的服务,来执行上述的处理。另外,假设在本方式的程序中包含用于供给基于电子计算机的处理的信息、即依照程序的信息(不是对于计算机的直接的指令,但是具有规定计算机的处理的性质的数据等)。
另外,在该方式中,通过在计算机上执行规定的程序来构成硬件实体,但是也可以是硬件式地实现这些处理内容的至少一部分。
Claims (27)
1.一种语音增强方法,将M设为2以上的整数,对将由M个话筒集音语音得到的M个集音信号分别变换到频域后的频域信号,按每个频率ω应用增强以方向和距离确定的所希望的位置的语音的滤波器,得到该位置的语音被增强后的频域的输出信号,其特征在于,该方法具有:
滤波器设计步骤,使用来自在作为声源位置所设想的一个或者多个位置中包含的各位置的语音向各话筒的传递特性a(ω,θ,D),对成为语音增强的对象的位置,求上述每个频率ω的上述滤波器,其中,将用于识别各位置的方向设为θ,将距离设为D;以及
滤波器应用步骤,将在上述滤波器设计步骤中求得的上述滤波器,按上述每个频率ω应用到上述频域信号,得到上述输出信号,
各上述传递特性a(ω,θ,D)以来自由上述方向θ和上述距离D确定的位置的语音直接到达M个上述话筒的直达音的传递特性、和该语音由反射物反射并到达M个上述话筒的一个以上的反射音的各传递特性之和表示。
2.如权利要求1所述的语音增强方法,其特征在于,
各上述传递特性a(ω,θ,D),是上述直达音的导引矢量、和由反射产生的声音的衰减以及相对于上述直达音的到来时间差被校正后的一个以上的上述反射音的各导引矢量之和。
3.如权利要求1所述的语音增强方法,其特征在于,
各上述传递特性a(ω,θ,D)是在实际环境下通过实测得到的。
4.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以使成为语音增强的对象的上述位置以外的语音的功率最小。
5.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以使成为语音增强的对象的上述位置中的SN比最大。
6.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以在将对于M个上述话筒中的一个话筒的滤波器系数固定为固定值的状态下,使作为声源位置所设想的上述一个或者多个位置以外的语音的功率最小。
7.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以在(1)成为语音增强的对象的上述位置的语音全频带通过、以及(2)一个以上的抑制点的语音全频带抑制的条件下,使成为语音增强的对象的上述位置和各上述抑制点以外的语音的功率最小。
8.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,通过对成为语音增强的对象的上述位置θ=θs,D=Dh的传递特性a(ω,θs,Dh)进行归一化,按上述每个频率ω求上述滤波器。
9.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,使用通过与成为语音增强的对象的上述位置以外的各位置对应的上述传递特性a(ω,θ,D)表示的空间相关矩阵,按上述每个频率ω求上述滤波器。
10.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以在使成为语音增强的对象的上述位置的语音的劣化量为规定量以下的条件下,使成为语音增强的对象的上述位置以外的语音的功率最小。
11.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,使用通过将由话筒阵列观测得到的信号变换到频域而得到的频域信号表示的空间相关矩阵,按上述每个频率ω求上述滤波器。
12.如权利要求1至权利要求3任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,使用通过与作为声源位置所设想的一个或者多个位置所包含的各位置对应的上述传递特性a(ω,θ,D)表示的空间相关矩阵,按上述每个频率ω求上述滤波器。
13.一种语音增强装置,将M设为2以上的整数,对将由M个话筒集音语音得到的M个集音信号分别变换到频域后的频域信号,按每个频率ω应用增强以方向和距离确定的所希望的位置的语音的滤波器,得到该位置的语音被增强后的频域的输出信号,其特征在于,该装置包含:
滤波器设计单元,使用来自在作为声源位置所设想的一个或者多个位置中包含的各位置的语音向各话筒的传递特性a(ω,θ,D),对成为语音增强的对象的位置,求上述每个频率ω的上述滤波器,其中,将用于识别各位置的方向设为θ,将距离设为D;以及
滤波器应用单元,将在上述滤波器设计单元中求得的上述滤波器,按上述每个频率ω应用到上述频域信号,得到上述输出信号,
各上述传递特性a(ω,θ,D)以来自由上述方向θ和上述距离D确定的位置的语音直接到达M个上述话筒的直达音的传递特性、和该语音由反射物反射并到达M个上述话筒的一个以上的反射音的各传递特性之和表示。
14.如权利要求13所述的语音增强装置,其特征在于,
还包含对于M个上述话筒提供各上述反射音的一个以上的反射物。
15.一种语音增强方法,将M设为2以上的整数,对将由M个话筒集音语音得到的M个集音信号分别变换到频域后的频域信号,按每个频率ω应用增强所希望的方向的语音的滤波器,得到该方向的语音被增强后的频域的输出信号,其特征在于,该方法具有:
滤波器设计步骤,使用在作为语音的到来方向所设想的一个或者多个方向中包含的各方向θ中的语音向各话筒的传递特性a(ω,θ),对成为语音增强的对象的方向,求上述每个频率ω的上述滤波器;以及
滤波器应用步骤,将在上述滤波器设计步骤中求得的上述滤波器,按上述每个频率ω应用到上述频域信号,得到上述输出信号,
各上述传递特性a(ω,θ)以上述方向θ的语音直接到达M个上述话筒的直达音的传递特性、和该语音由反射物反射并到达M个上述话筒的一个以上的反射音的各传递特性之和表示。
16.权利要求15所述的语音增强方法,其特征在于,
各上述传递特性a(ω,θ),是上述直达音的导引矢量、和由反射产生的声音的衰减以及相对于上述直达音的到来时间差被校正后的一个以上的上述反射音的各导引矢量之和。
17.权利要求15所述的语音增强方法,其特征在于,
各上述传递特性a(ω,θ)是在实际环境下通过实测得到的。
18.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以使成为语音增强的对象的上述方向以外的方向的语音的功率最小。
19.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以使成为语音增强的对象的上述方向中的SN比最大。
20.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以在将对于M个上述话筒中的一个话筒的滤波器系数固定为固定值的状态下,使作为语音的到来方向所设想的上述一个或者多个方向的语音的功率最小。
21.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以在(1)成为语音增强的对象的上述方向的语音全频带通过、以及(2)一个以上的死角的语音的全频带抑制的条件下,使除去成为语音增强的对象的上述方向和各上述死角的方向的语音的功率最小。
22.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,通过对成为语音增强的对象的上述方向θ=θs的传递特性a(ω,θs)进行归一化,按上述每个频率ω求上述滤波器。
23.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,使用通过与成为语音增强的对象的上述方向以外的各方向对应的上述传递特性a(ω,θ)表示的空间相关矩阵,按上述每个频率ω求上述滤波器。
24.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,按上述每个频率ω求上述滤波器,以在使成为语音增强的对象的上述方向的语音的劣化量为规定量以下的条件下,使成为语音增强的对象的上述方向以外的方向的语音的功率最小。
25.如权利要求15至权利要求17任意一项所述的语音增强方法,其特征在于,
在上述滤波器设计步骤中,使用通过将由话筒阵列观测得到的信号变换到频域而得到的频域信号表示的空间相关矩阵,按上述每个频率ω求上述滤波器。
26.一种语音增强装置,将M设为2以上的整数,对将由M个话筒集音语音得到的M个集音信号分别变换到频域后的频域信号,按每个频率ω应用增强所希望的方向的语音的滤波器,得到该方向的语音被增强后的频域的输出信号,其特征在于,该装置包括:
滤波器设计单元,使用在作为语音的到来方向所设想的一个或者多个方向中包含的各方向θ的语音向各话筒的传递特性a(ω,θ),对成为语音增强的对象的方向,求上述每个频率ω的上述滤波器;以及
滤波器应用单元,将在上述滤波器设计单元中求得的上述滤波器,按上述每个频率ω应用到上述频域信号,得到上述输出信号,
各上述传递特性a(ω,θ)以上述方向θ的语音直接到达M个上述话筒的直达音的传递特性、和该语音由反射物反射并到达M个上述话筒的一个以上的反射音的各传递特性之和表示。
27.如权利要求26所述的语音增强装置,其特征在于,
还包含对M个上述话筒提供各上述反射音的一个以上的反射物。
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010285175 | 2010-12-21 | ||
JP2010-285175 | 2010-12-21 | ||
JP2010-285181 | 2010-12-21 | ||
JP2010285181 | 2010-12-21 | ||
JP2011-025784 | 2011-02-09 | ||
JP2011025784 | 2011-02-09 | ||
JP2011190807 | 2011-09-01 | ||
JP2011190768 | 2011-09-01 | ||
JP2011-190768 | 2011-09-01 | ||
JP2011-190807 | 2011-09-01 | ||
PCT/JP2011/079978 WO2012086834A1 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103282961A CN103282961A (zh) | 2013-09-04 |
CN103282961B true CN103282961B (zh) | 2015-07-15 |
Family
ID=46314097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180061060.9A Active CN103282961B (zh) | 2010-12-21 | 2011-12-19 | 语音增强方法以及语音增强装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9191738B2 (zh) |
EP (1) | EP2642768B1 (zh) |
JP (1) | JP5486694B2 (zh) |
CN (1) | CN103282961B (zh) |
ES (1) | ES2670870T3 (zh) |
WO (1) | WO2012086834A1 (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US20160210957A1 (en) | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US9554203B1 (en) | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
JP5997007B2 (ja) * | 2012-10-31 | 2016-09-21 | 日本電信電話株式会社 | 音源位置推定装置 |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
JP6125457B2 (ja) * | 2014-04-03 | 2017-05-10 | 日本電信電話株式会社 | 収音システム及び放音システム |
JP6363213B2 (ja) | 2014-04-30 | 2018-07-25 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム |
JP6411780B2 (ja) * | 2014-06-09 | 2018-10-24 | ローム株式会社 | オーディオ信号処理回路、その方法、それを用いた電子機器 |
US10127901B2 (en) * | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
TWI584657B (zh) * | 2014-08-20 | 2017-05-21 | 國立清華大學 | 一種立體聲場錄音以及重建的方法 |
US20170287499A1 (en) * | 2014-09-05 | 2017-10-05 | Thomson Licensing | Method and apparatus for enhancing sound sources |
JP6294805B2 (ja) * | 2014-10-17 | 2018-03-14 | 日本電信電話株式会社 | 収音装置 |
EP3220659B1 (en) * | 2014-11-11 | 2021-06-23 | Sony Corporation | Sound processing device, sound processing method, and program |
WO2016091994A1 (en) * | 2014-12-11 | 2016-06-16 | Ubercord Gmbh | Method and installation for processing a sequence of signals for polyphonic note recognition |
US9525934B2 (en) * | 2014-12-31 | 2016-12-20 | Stmicroelectronics Asia Pacific Pte Ltd. | Steering vector estimation for minimum variance distortionless response (MVDR) beamforming circuits, systems, and methods |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
WO2016178231A1 (en) * | 2015-05-06 | 2016-11-10 | Bakish Idan | Method and system for acoustic source enhancement using acoustic sensor array |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
JP6131989B2 (ja) * | 2015-07-07 | 2017-05-24 | 沖電気工業株式会社 | 収音装置、プログラム及び方法 |
JP2017102085A (ja) * | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
TWI596950B (zh) * | 2016-02-03 | 2017-08-21 | 美律實業股份有限公司 | 指向性錄音模組 |
US9881619B2 (en) * | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
JP6187626B1 (ja) * | 2016-03-29 | 2017-08-30 | 沖電気工業株式会社 | 収音装置及びプログラム |
US10074012B2 (en) | 2016-06-17 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Sound and video object tracking |
US10097920B2 (en) * | 2017-01-13 | 2018-10-09 | Bose Corporation | Capturing wide-band audio using microphone arrays and passive directional acoustic elements |
CN107017003B (zh) * | 2017-06-02 | 2020-07-10 | 厦门大学 | 一种麦克风阵列远场语音增强装置 |
GB2565097B (en) | 2017-08-01 | 2022-02-23 | Xmos Ltd | Processing echoes received at a directional microphone unit |
KR102053109B1 (ko) * | 2018-02-06 | 2019-12-06 | 주식회사 위스타 | 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 |
WO2020031594A1 (ja) * | 2018-08-06 | 2020-02-13 | 国立大学法人山梨大学 | 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム |
US10708702B2 (en) | 2018-08-29 | 2020-07-07 | Panasonic Intellectual Property Corporation Of America | Signal processing method and signal processing device |
WO2020064089A1 (en) * | 2018-09-25 | 2020-04-02 | Huawei Technologies Co., Ltd. | Determining a room response of a desired source in a reverberant environment |
CN110503970B (zh) | 2018-11-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110211601B (zh) * | 2019-05-21 | 2020-05-08 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及系统 |
CN110689900B (zh) * | 2019-09-29 | 2022-05-13 | 北京地平线机器人技术研发有限公司 | 信号增强方法和装置、计算机可读存储介质、电子设备 |
US11082763B2 (en) * | 2019-12-18 | 2021-08-03 | The United States Of America, As Represented By The Secretary Of The Navy | Handheld acoustic hailing and disruption systems and methods |
DE102020120426B3 (de) | 2020-08-03 | 2021-09-30 | Wincor Nixdorf International Gmbh | Selbstbedienung-Terminal und Verfahren |
CN112599126B (zh) * | 2020-12-03 | 2022-05-27 | 海信视像科技股份有限公司 | 一种智能设备的唤醒方法、智能设备及计算设备 |
EP4292086A1 (en) * | 2021-02-11 | 2023-12-20 | Nuance Communications, Inc. | Multi-channel speech compression system and method |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
CN113709653B (zh) * | 2021-08-25 | 2022-10-18 | 歌尔科技有限公司 | 定向定位听音方法、听力装置及介质 |
CN115081241A (zh) * | 2022-07-18 | 2022-09-20 | 安徽理工大学 | 一种基于可靠度下多测点实测值的噪声源声功率反推方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4536887A (en) * | 1982-10-18 | 1985-08-20 | Nippon Telegraph & Telephone Public Corporation | Microphone-array apparatus and method for extracting desired signal |
US5208864A (en) * | 1989-03-10 | 1993-05-04 | Nippon Telegraph & Telephone Corporation | Method of detecting acoustic signal |
JP2004279845A (ja) * | 2003-03-17 | 2004-10-07 | Univ Waseda | 信号分離方法およびその装置 |
CN101192411A (zh) * | 2007-12-27 | 2008-06-04 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
JP2009036810A (ja) * | 2007-07-31 | 2009-02-19 | National Institute Of Information & Communication Technology | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972295A (ja) * | 1982-10-18 | 1984-04-24 | Nippon Telegr & Teleph Corp <Ntt> | 多点受音装置 |
JP2913105B2 (ja) * | 1989-03-10 | 1999-06-28 | 日本電信電話株式会社 | 音響信号検出方法 |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
US6577966B2 (en) * | 2000-06-21 | 2003-06-10 | Siemens Corporate Research, Inc. | Optimal ratio estimator for multisensor systems |
JP4815661B2 (ja) * | 2000-08-24 | 2011-11-16 | ソニー株式会社 | 信号処理装置及び信号処理方法 |
US6738481B2 (en) * | 2001-01-10 | 2004-05-18 | Ericsson Inc. | Noise reduction apparatus and method |
AU4628801A (en) * | 2001-04-18 | 2001-07-24 | Phonak Ag | A method for analyzing an acoustical environment and a system to do so |
US7502479B2 (en) * | 2001-04-18 | 2009-03-10 | Phonak Ag | Method for analyzing an acoustical environment and a system to do so |
CA2354808A1 (en) * | 2001-08-07 | 2003-02-07 | King Tam | Sub-band adaptive signal processing in an oversampled filterbank |
CA2354858A1 (en) * | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
KR100959983B1 (ko) * | 2005-08-11 | 2010-05-27 | 아사히 가세이 가부시키가이샤 | 음원 분리 장치, 음성 인식 장치, 휴대 전화기, 음원 분리방법, 및, 프로그램 |
CN1809105B (zh) * | 2006-01-13 | 2010-05-12 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及系统 |
US8363846B1 (en) * | 2007-03-09 | 2013-01-29 | National Semiconductor Corporation | Frequency domain signal processor for close talking differential microphone array |
JP4455614B2 (ja) * | 2007-06-13 | 2010-04-21 | 株式会社東芝 | 音響信号処理方法及び装置 |
KR101475864B1 (ko) * | 2008-11-13 | 2014-12-23 | 삼성전자 주식회사 | 잡음 제거 장치 및 잡음 제거 방법 |
-
2011
- 2011-12-19 EP EP11852100.4A patent/EP2642768B1/en active Active
- 2011-12-19 CN CN201180061060.9A patent/CN103282961B/zh active Active
- 2011-12-19 ES ES11852100.4T patent/ES2670870T3/es active Active
- 2011-12-19 WO PCT/JP2011/079978 patent/WO2012086834A1/ja active Application Filing
- 2011-12-19 JP JP2012549909A patent/JP5486694B2/ja active Active
- 2011-12-19 US US13/996,302 patent/US9191738B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4536887A (en) * | 1982-10-18 | 1985-08-20 | Nippon Telegraph & Telephone Public Corporation | Microphone-array apparatus and method for extracting desired signal |
US5208864A (en) * | 1989-03-10 | 1993-05-04 | Nippon Telegraph & Telephone Corporation | Method of detecting acoustic signal |
JP2004279845A (ja) * | 2003-03-17 | 2004-10-07 | Univ Waseda | 信号分離方法およびその装置 |
JP2009036810A (ja) * | 2007-07-31 | 2009-02-19 | National Institute Of Information & Communication Technology | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 |
CN101192411A (zh) * | 2007-12-27 | 2008-06-04 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012086834A1 (ja) | 2015-02-23 |
US20130287225A1 (en) | 2013-10-31 |
EP2642768A1 (en) | 2013-09-25 |
ES2670870T3 (es) | 2018-06-01 |
CN103282961A (zh) | 2013-09-04 |
EP2642768B1 (en) | 2018-03-14 |
US9191738B2 (en) | 2015-11-17 |
WO2012086834A1 (ja) | 2012-06-28 |
JP5486694B2 (ja) | 2014-05-07 |
EP2642768A4 (en) | 2014-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103282961B (zh) | 语音增强方法以及语音增强装置 | |
US11381906B2 (en) | Conference system with a microphone array system and a method of speech acquisition in a conference system | |
Sun et al. | Localization of distinct reflections in rooms using spherical microphone array eigenbeam processing | |
KR101555416B1 (ko) | 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 | |
Parthy et al. | Comparison of the measured and theoretical performance of a broadband circular microphone array | |
WO2008121905A2 (en) | Enhanced beamforming for arrays of directional microphones | |
KR20130084298A (ko) | 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체 | |
Sun et al. | Optimal higher order ambisonics encoding with predefined constraints | |
JP6117142B2 (ja) | 変換装置 | |
Ba et al. | Enhanced MVDR beamforming for arrays of directional microphones | |
Bountourakis et al. | Parametric spatial post-filtering utilising high-order circular harmonics with applications to underwater sound-field visualisation | |
JP5337189B2 (ja) | フィルタ設計における反射物の配置決定方法、装置、プログラム | |
JP5486567B2 (ja) | 狭指向音声再生処理方法、装置、プログラム | |
JP2013135373A (ja) | ズームマイク装置 | |
JP6031364B2 (ja) | 収音装置及び再生装置 | |
JP5486568B2 (ja) | 音声スポット再生処理方法、装置、プログラム | |
Yang et al. | Binaural Angular Separation Network | |
De Sena et al. | A generalized design method for directivity patterns of spherical microphone arrays | |
JP2015198411A (ja) | 変換装置 | |
US11477569B2 (en) | Apparatus and method for obtaining directional audio signals | |
Sun et al. | Optimal 3-D hoa encoding with applications in improving close-spaced source localization | |
Avokh et al. | Speech enhancement using linearly constrained adaptive constant directivity beam-formers | |
Zou et al. | Speech enhancement with an acoustic vector sensor: an effective adaptive beamforming and post-filtering approach | |
Hafizovic et al. | Speech enhancement based on a simplified generalized sidelobe canceller structure | |
Oikawa et al. | Direction of arrival estimates using matching pursuit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |