JP2013179388A - Acoustic signal enhancement device, perspective determination device, method and program therefor - Google Patents
Acoustic signal enhancement device, perspective determination device, method and program therefor Download PDFInfo
- Publication number
- JP2013179388A JP2013179388A JP2012041052A JP2012041052A JP2013179388A JP 2013179388 A JP2013179388 A JP 2013179388A JP 2012041052 A JP2012041052 A JP 2012041052A JP 2012041052 A JP2012041052 A JP 2012041052A JP 2013179388 A JP2013179388 A JP 2013179388A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- direct
- power
- estimation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音響信号の直間比を推定する技術に関する。 The present invention relates to a technique for estimating a direct ratio of an acoustic signal.
特許文献1に示す従来技術では、直間比を求めるためにマイクロホンアレーの受音信号を周波数領域に変換し、その信号から求められる空間相関行列を用いて直接音と間接音のそれぞれのパワーを求めている(例えば、実施例1の段落〔0034〕〜〔0061〕参照)。
In the prior art shown in
特許文献1に開示された方法では、直接音とそれと同じ方向から到来する間接音との区別がつかないため、直接音の方向から到来する音はすべて直接音と判断されてしまう。結果として直接音パワーを過大評価(または間接音パワーを過小評価)してしまい、最終的に求められる直間比が真の値よりも大きくなってしまう課題がある。
In the method disclosed in
本発明は、このような課題に鑑みてなされたものであり、直接音の方向から到来する残響音を区別して、直接音パワーと残響音パワーを推定することで、従来手法に比べてより真値に近い直間比推定値(DRR:Direct-to-Reverberation energy Ratio)を得、その正確な直間比推定値に基づいて音源の音響信号を精度よく再生する音響信号強調装置と遠近判定装置と、それらの方法及びプログラムを提供することを目的とする。 The present invention has been made in view of such problems, and distinguishes reverberant sounds coming from the direction of the direct sound, and estimates the direct sound power and the reverberant sound power. A sound signal emphasis device and a perspective determination device that obtain a direct-to-reverberation energy ratio (DRR) close to the value and accurately reproduce the sound signal of the sound source based on the accurate direct-ratio estimation value It is an object to provide such methods and programs.
本発明の音響信号強調装置は、受信音パワー推定部と、直接音方向パワー推定部と、残響音方向パワー推定部と、減算部と、直間比算出部と、対象信号調整部を有する。受信音パワー推定部は、マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、当該周波数領域信号のパワー推定値を得る。直接音方向パワー推定部は、周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る。残響音方向パワー推定部は、主に直接音源方向以外から到来した信号成分を、直接音方向パワー推定部の直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る。減算部は、直接音方向信号のパワー推定値から残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する。直間比算出部は、周波数領域信号のパワー推定値及び残響音方向信号のパワー推定値を用い、残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る。対象信号調整部は、直間比推定値に応じたゲインを、受音信号から得られる処理対象信号に乗じて処理後信号を得る。そして、直間比推定値が表す比率が所定の閾値よりも大きい処理対象信号に乗じられるゲインは、比率が上記所定の閾値よりも小さな処理対象信号に乗じられる上記ゲインよりも大きい。 The acoustic signal enhancement apparatus of the present invention includes a received sound power estimation unit, a direct sound direction power estimation unit, a reverberation sound direction power estimation unit, a subtraction unit, a direct ratio calculation unit, and a target signal adjustment unit. The reception sound power estimation unit obtains a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a reception signal received by a plurality of microphones included in the microphone array into a frequency domain. The direct sound direction power estimator is a power estimation value of a direct sound direction signal obtained by performing a process of mainly passing a signal component arriving from a direct sound source direction to a frequency domain signal, or a received sound signal. Thus, the power estimation value of the direct sound direction signal obtained by converting the signal subjected to the processing of mainly passing the signal component arriving from the direct sound source direction into the frequency domain is obtained. The reverberant sound direction power estimation unit passes signal components that mainly come from other than the direct sound source direction in the same directivity shape as the processing that mainly passes signal components that come from the direct sound source direction of the direct sound direction power estimation unit. The power estimation value of the reverberant sound direction signal obtained by processing, or the signal that has been processed to pass the signal component that mainly arrives from outside the direct sound source direction to the received sound signal is converted to the frequency domain To obtain the estimated power value of the reverberation direction signal. The subtracting unit outputs a direct sound power estimated value obtained by subtracting the power estimated value of the reverberant sound direction signal from the power estimated value of the direct sound direction signal. The direct ratio calculation unit uses the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, and indicates the ratio of the direct sound power estimation value to the power estimation value of the reverberation sound direction signal. Get. The target signal adjustment unit multiplies the processing target signal obtained from the received sound signal by a gain corresponding to the direct ratio estimation value to obtain a processed signal. The gain multiplied by the processing target signal whose ratio represented by the direct ratio estimation value is larger than the predetermined threshold is larger than the gain multiplied by the processing target signal whose ratio is smaller than the predetermined threshold.
また、本発明の遠近判定装置は、上記した音響信号強調装置と同じ、受信音パワー推定部と、直接音方向パワー推定部と、残響音方向パワー推定部と、減算部と、直間比算出部と、を備え、更に遠近判定部を備える。その遠近判定部は、1個以上のフレームからなる判定区間で受音された前記受音信号に基づいて得られた前記直間比推定値に対応する判定値と、前記判定区間よりも多くの個数のフレームからなる基準区間で受音された前記受音信号に基づいて得られた複数の前記直間比推定値に対応する基準値とを用いた比較判定によって、前記判定区間での前記直接音源の遠近判定を行う。 Further, the perspective determination device of the present invention is the same as the above-described acoustic signal enhancement device, the received sound power estimation unit, the direct sound direction power estimation unit, the reverberant sound direction power estimation unit, the subtraction unit, and the direct ratio calculation And a perspective determination unit. The perspective determination unit includes a determination value corresponding to the direct ratio estimation value obtained based on the received sound signal received in a determination section including one or more frames, and more than the determination section. The direct determination in the determination section is performed by comparison determination using a plurality of reference values corresponding to the direct ratio estimation values obtained based on the received sound signal received in the reference section including a number of frames. Determine the perspective of the sound source.
本発明の音響信号強調装置は、この発明が提案する直間比推定方法で求めた直間比推定値を用いて音源の音響信号を強調する。その直間比推定方法は、残響音の拡散性が強いことによる到来方向の等方性に着目した新しい方法であり、マイクロホンアレーにより実現される指向性形状が同一な2つ以上のビームフォーマによって、直接音方向から到来する信号のうち直接音と残響音を区別して、それぞれのパワーを正しく推定する。その結果として直間比の推定精度を向上させることができるので、音源の音響信号を正確に強調することを可能にする。 The acoustic signal emphasizing apparatus of the present invention enhances the sound signal of the sound source using the direct ratio estimation value obtained by the direct ratio estimation method proposed by the present invention. The direct ratio estimation method is a new method that focuses on the isotropic direction of arrival due to the strong diffusivity of reverberant sound. It uses two or more beamformers with the same directivity shape realized by the microphone array. In the signals coming from the direct sound direction, the direct sound and the reverberant sound are distinguished and the respective powers are correctly estimated. As a result, the accuracy of estimating the direct ratio can be improved, so that the sound signal of the sound source can be accurately emphasized.
また、本発明の遠近判定装置は、この発明の直間比推定方法で求めた直間比推定値に基づいて、発音時刻が異なる音の音源の距離の遠近を判定するので、従来のものよりも正確な判定をすることができる。 In addition, the perspective determination device of the present invention determines the distance of the sound source of sounds having different pronunciation times based on the direct ratio estimation value obtained by the direct ratio estimation method of the present invention. Can also make an accurate determination.
以下、本発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。また、以下の説明において、テキスト中で使用する記号「 ̄」や「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. In the following description, the symbols “記号”, “^”, etc. used in the text should be written immediately above the original character, but immediately before the character due to restrictions on the text notation. It describes. In the formula, these symbols are written in their original positions.
実施例の説明の前に、各実施例に対応する原理について説明する。
〔原理〕
実施例1の音響信号強調装置は、単一のマイクロホンアレーを用いて、マイクロホンアレーから特定の距離範囲にある音だけを強調若しくは抑圧して、所定の範囲内の音源の音を収音することを目的とするものである。また、実施例2の遠近判定装置は、受音信号の音源位置の遠近を判定するものである。
Prior to the description of the embodiments, the principle corresponding to each embodiment will be described.
〔principle〕
The acoustic signal emphasizing device according to the first embodiment uses a single microphone array to emphasize or suppress only sound within a specific distance range from the microphone array and collect sound of a sound source within a predetermined range. It is intended. Further, the perspective determination apparatus according to the second embodiment determines the perspective of the sound source position of the received sound signal.
図1に、実施例1の音響信号強調装置400を利用する場面を例示する。小型マイクロホンアレー11を、例えば4人の発話者12〜14が取り囲んで会議をしている場面を想定する。その会議室内には、テレビ16、電話17、館内放送用のスピーカ18が配置されているものとする。このような場面において、館内放送の音声や、電話の音等を収音せずに、小型マイクロホンアレー11を中心として所定の距離範囲内(破線で示す円内)に位置する発話者12〜14の発話だけを収音したい。
FIG. 1 illustrates a scene in which the acoustic
そこで、マイクロホンアレーから音源までの距離を見分けるために、受信音に含まれる直接音と間接音(残響音とも称する)との比(以降、直間比と称する)に着目する。図2に屋内にマイクロホンを置いて音を収録した際の、音源21からマイクロホン22までの音の伝搬経路を示す。直接音とは、音源21からマイクロホンまで直接到達する太い実線で示す音波である。一方の残響音とは、音源21から発した音が壁や床や天井などで反射してからマイクロホン22に到達する破線で示す音波である。
Therefore, in order to distinguish the distance from the microphone array to the sound source, attention is focused on the ratio of direct sound and indirect sound (also referred to as reverberation sound) included in the received sound (hereinafter referred to as direct ratio). FIG. 2 shows a sound propagation path from the
図3に直間比とマイクロホン間距離との関係を示す。図3の横軸はマイクロホンから音源までの距離、縦軸は直間比である。一般的に間接音はマイクロホンからの距離に依存しない一定の大きさを示す。その間接音に対して直接音は、マイクロホンからの距離の増加に伴って単調に減少する特性を示す。その直接音を間接音で除した直間比は、直接音と同様に距離の増加に伴って単調に減少する特性になる。 FIG. 3 shows the relationship between the direct ratio and the distance between the microphones. The horizontal axis in FIG. 3 is the distance from the microphone to the sound source, and the vertical axis is the direct ratio. In general, the indirect sound has a certain magnitude that does not depend on the distance from the microphone. In contrast to the indirect sound, the direct sound exhibits a characteristic that monotonously decreases as the distance from the microphone increases. The direct ratio obtained by dividing the direct sound by the indirect sound has a characteristic that decreases monotonously as the distance increases, as in the case of the direct sound.
この直間比から、マイクロホンアレー11を中心とした所定の距離範囲を推定することが可能である。したがって、この直間比を用いることで所望の音源からの音響信号のみを強調することが可能になる。
From this direct ratio, a predetermined distance range around the
図4に、本発明の直間比推定の原理の考えを概念的に示す。一般に残響が十分ある場合には残響音に拡散性を仮定することができ、マイクロホンから見た場合に残響音はあらゆる方向から同じ大きさで到来する音としてモデル化できることが知られている。小型マイクロホンアレー11の出力信号に任意のビームフォーマBF1を適用すると、所定の指向性形状D1で残響音方向パワー23を受音することができる。残響音方向パワー23の3本の矢印は、指向性形状D1で得られる残響音の大きさを模式的に表現している。
FIG. 4 conceptually shows the idea of the principle of direct ratio estimation according to the present invention. In general, when reverberation is sufficient, diffusivity can be assumed for reverberant sound, and it is known that reverberant sound can be modeled as sound arriving at the same magnitude from all directions when viewed from a microphone. Applying any beamformer BF1 output signal of the
いま音源21の位置が既知であると仮定した場合、音源21から小型マイクロホンアレー11に直接到来する直接音パワー25は、ビームフォーマBF0の指向性形状D0を、D1と同じとし、その指向方向を音源21方向とすることで、残響音方向パワー23と同じ大きさの残響音方向パワーを含む直接音方向パワー26を受音することができる。
Assuming that the position of the
残響音方向パワー23と同じ残響成分を含む直接音方向パワー26から、残響音方向パワー23を差し引くことで直接音パワー25を得ることができる。次に、この原理を理論的に説明する。
The direct
<残響音の等方到来モデル>
提案方式では、残響音の等方性を考慮したモデルを導入する。ここでは、パワー推定値としてパワースペクトル密度又はその推定値を用いた例を説明するが、これは本発明を限定するものではない。
<Model of arrival of isotropic reverberation>
In the proposed method, a model considering the isotropic nature of reverberant sound is introduced. Here, an example in which the power spectral density or its estimated value is used as the power estimated value will be described, but this does not limit the present invention.
M(M≧2)個のマイクロホンからなるマイクロホンアレーのm番目のマイクロホンでの受音信号を短時間フーリエ変換等によって周波数領域に変換すると、以下の周波数領域信号X(m)(ω,t)が得られる。 When the received sound signal of the m-th microphone of the microphone array composed of M (M ≧ 2) microphones is converted into the frequency domain by short-time Fourier transform or the like, the following frequency domain signal X (m) (ω, t) Is obtained.
ただし、ωは周波数であり、HD (m)(ω)は音源からm番目のマイクロホンまでの直接音の伝達関数であり、HR (m)(ω)は音源からm番目のマイクロホンまでの間接音の伝達関数であり、S(ω,t)は音源の音を周波数領域に変換して得られる信号である。tは時間フレームのインデックスである。 Where ω is a frequency, H D (m) (ω) is a direct sound transfer function from the sound source to the m-th microphone, and H R (m) (ω) is a sound source to the m-th microphone. It is a transfer function of indirect sound, and S (ω, t) is a signal obtained by converting the sound of the sound source into the frequency domain. t is a time frame index.
ここで直接音はコヒーレント(coherent)である一方、間接音はその主な成分が残響であることから拡散音(diffuse)であると仮定する。すなわち、それぞれの到来方向に着目した場合、直接音は音源の方向からのみ到来するのに対し、間接音はあらゆる方向から一様なパワーで到来する性質(以下等方性という)を持つ。提案方法ではこれら空間的な到来特性の違いに着目して直接音パワーと間接音パワーを推定して直間比を求める。 Here, it is assumed that the direct sound is coherent while the indirect sound is a diffuse sound because its main component is reverberation. That is, when attention is paid to the respective arrival directions, the direct sound arrives only from the direction of the sound source, whereas the indirect sound has a property of arriving with uniform power from all directions (hereinafter referred to as isotropic). In the proposed method, the direct ratio is obtained by estimating the direct sound power and the indirect sound power by paying attention to the difference in these arrival characteristics.
前提条件として直接音の到来方向(以下「直接音源方向」という)は既知であり、直接音及び任意の方向から到来する間接音は平面波とみなせるとし、拡散音の定義より直接音と間接音は互いに無相関とする。このとき音源からm番目のマイクロホンまでの直接音、間接音の伝達関数HD (m)(ω),HR (m)(ω)は、それぞれ以下のように表現できる。 As a prerequisite, the direct sound arrival direction (hereinafter referred to as “direct sound source direction”) is known, and direct sound and indirect sound coming from any direction can be regarded as plane waves. Uncorrelated with each other. At this time, the transfer functions H D (m) (ω) and H R (m) (ω) of the direct sound and the indirect sound from the sound source to the m-th microphone can be expressed as follows.
ただし、HDref(ω)は音源からマイクロホンアレーの基準点(「基準点」という)までの伝達関数の直接音成分であり、HRref,θ(ω)は基準点からみた方向θの間接音成分である。基準点はマイクロホンアレーの内部に存在してもよいし、マイクロホンアレーのマイクの何れかの位置に存在してもよい。 Here, H Dref (ω) is a direct sound component of the transfer function from the sound source to the reference point (referred to as “reference point”) of the microphone array, and H Rref, θ (ω) is an indirect sound in the direction θ viewed from the reference point. It is an ingredient. The reference point may exist inside the microphone array, or may exist at any position on the microphone of the microphone array.
直接音と間接音の伝達関数HD (m)(ω),HR (m)(ω)のそれぞれは、音源から基準点までの伝達関数成分と、基準点からm番目のマイクロホンまでの伝搬遅延による位相差成分とに分解して表すことができる。従って、周波数領域信号X(m)(ω,t)(m∈{1,…,M})を要素とするマイクロホンアレー入力ベクトル→x(ω,t)=[X(1)(ω,t),…,X(M)(ω,t)]Tは次式で表される。Tは転置を表す。 The transfer functions H D (m) (ω) and H R (m) (ω) of the direct sound and the indirect sound are the transfer function component from the sound source to the reference point and the propagation from the reference point to the mth microphone. It can be expressed as a phase difference component due to delay. Therefore, a microphone array input vector whose elements are frequency domain signals X (m) (ω, t) (mε {1,..., M}) → x (ω, t) = [X (1) (ω, t ,..., X (M) (ω, t)] T is expressed by the following equation. T represents transposition.
ただし、SD(ω,t)=HDref(ω)S(ω,t),SR,θ(ω,t)=HRref,θ(ω)S(ω,t)である。→aθ(ω)は式(5)で表されるθ方向のアレイ・マニフォールド・ベクトルである。アレイ・マニフォールド・ベクトルの各要素は伝搬遅延τθ (m)に依存する。直接音及び間接音が平面波とみなせる場合、伝搬遅延τθ (m)はマイクロホンアレーの基準点に対する各マイクロホンの相対位置及び方向θに依存する。なお、アレイ・マニフォールド・ベクトルの詳細については、例えば、参考文献1「浅野太著,“音のアレイ信号処理−音源の定位・追跡と分離(日本音響学会編 音響テクノロジーシリーズ)”,株式会社コロナ社,2011年2月25日,ISBN978-4-339-01116-6」の第1章(P1〜26)を参照されたい。
However, S D (ω, t) = H Dref (ω) S (ω, t), S R, θ (ω, t) = H Rref, θ (ω) S (ω, t). → a θ (ω) is an array manifold vector in the θ direction represented by the equation (5). Each element of the array manifold vector depends on the propagation delay τ θ (m) . When direct sound and indirect sound can be regarded as plane waves, the propagation delay τ θ (m) depends on the relative position and direction θ of each microphone relative to the reference point of the microphone array. For details of the array manifold vector, refer to
このマイクロホンアレー入力に任意のビームフォーマ(BF)を適用すると、その出力パワースペクトル密度(PSD)は、式(6)に示す直接音と間接音のそれぞれの出力パワースペクトル密度(PSD)にビームフォーマ(BF)のパワーゲイン|Dθ(ω)|2を乗じた和となる。 When an arbitrary beamformer (BF) is applied to the microphone array input, the output power spectral density (PSD) is changed to the output power spectral density (PSD) of each of the direct sound and the indirect sound shown in Equation (6). The sum of (BF) multiplied by the power gain | Dθ (ω) | 2 .
ただし、PD(ω)=E[|SD(ω,t)|2]t,PR,θ(ω)=E[|SR(ω,t)|2]t,→w(ω)はビームフォーマ(BF)のフィルタ係数、R(ω)はij成分にRij(ω)=E[Xi(ω,t)Xj *(ω,t)]tを持つマイクロホンアレーの入力信号空間相関行列である。E[・]は期待値演算を表している。 However, P D (ω) = E [| S D (ω, t) | 2] t, P R, θ (ω) = E [| S R (ω, t) | 2] t, → w (ω ) Is a filter coefficient of the beamformer (BF), and R (ω) is an input of a microphone array having R ij (ω) = E [X i (ω, t) X j * (ω, t)] t in the ij component. It is a signal space correlation matrix. E [•] represents an expected value calculation.
<複数のビームフォーマを用いた直間比推定>
式(6)において間接音が等方的に到来すると仮定できる音場では、残響音パワーPR,θ(ω)は方向θに依らない定数 ̄PR(ω)で置き換えることができ、出力パワースペクトル密度は式(7)で表せる。
<Direct ratio estimation using multiple beamformers>
In the sound field that can be assumed that the indirect sound isotropically arrives in Equation (6), the reverberant power P R , θ (ω) can be replaced with a constant  ̄P R (ω) that does not depend on the direction θ. The power spectral density can be expressed by equation (7).
ここで、図5に示すように同じ指向性形状を持ち、メインビームが異なる方向に向けられた2つのビームフォーマBF0とBF1があるとすると、式(7)の右辺第二項∫θ|Dθ(ω)|2dθは等しくなり、各ビームフォーマの出力は、右辺第一項すなわち直接音に対するビームフォーマのパワーゲインによってのみ変化する。 Here, if there are two beam formers BF0 and BF1 having the same directivity shape as shown in FIG. 5 and having the main beam directed in different directions, the second term ∫ θ | D on the right side of Equation (7) θ (ω) | 2 dθ are equal, and the output of each beamformer changes only with the first term on the right side, that is, the beamformer's power gain for direct sound.
そこで、音源方向にビームを向けたビームフォーマBF0の出力パワースペクトル密度P0(ω)から音源方向にヌル(指向性感度の低い点)を向けたビームフォーマBF1の出力パワースペクトル密度P1(ω)を減算することで、直接音パワー25を求めることができる。
Therefore, the output power spectral density P 1 beamformer BF1 with its null (low point directivity sensitivity) from the output power spectral density P 0 beamformer BF0 with its beam to the sound source direction (omega) in the sound source direction (omega ) Is subtracted, the direct
以上の原理により、直接音源方向から到来する残響音を区別することができ、結果として直間比の推定精度を向上させることが可能になる。 Based on the above principle, reverberant sound coming directly from the sound source direction can be distinguished, and as a result, the accuracy of the direct ratio can be improved.
図6に、実施例1の音響信号強調装置400の機能構成例を示す。その動作フローを図7に示す。音響信号強調装置400は、マイクロホンアレー41と、複数の周波数領域変換部421〜42Mと、処理対象信号生成部43と、直間比計算部44と、対象信号調整部45と、逆周波数領域変換部46と、を具備する。マイクロホンアレー41を除く各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 6 illustrates a functional configuration example of the acoustic
マイクロホンアレー41は複数のマイクロホンm1,…mMから成る。複数の周波数領域変換部421,…,42Mは、複数のマイクロホンm1,…mMで受音された受音信号xm(n)がそれぞれ入力され、各受音信号を周波数領域の信号に変換する(ステップS42)。周波数領域変換部421,…,42Mは、受音信号xm(n)を、例えばサンプリング周波数16kHzでサンプリングしてディジタル信号に変換し、例えば256個のサンプルを1フレームとして、それぞれのフレームにおいて離散フーリエ変換を行い周波数成分Xm(ω,t)を出力する(ステップS42)。ωは周波数、tはフレーム番号である。なお、受音信号xm(n)をディジタル信号に変換するA/D変換器は省略している。
処理対象信号生成部43は、複数の周波数領域変換部421,…,42Mが出力する周波数領域の信号Xm(ω,t)を合成して処理対象信号Y(ω,t)を生成する(ステップS43)。
Processing
直間比計算部44は、複数の周波数領域変換部421,…,42mが出力する周波数領域の信号Xm(ω,t)を入力として受音信号の直間比推定値DRR(ω,t)を計算する(ステップS44)。直間比計算部44の詳しい動作説明は後述する。
Chokkan
対象信号調整部45は、処理対象信号Y(ω,t)と、直間比推定値DRR(ω,t)を入力としてその値に応じて処理対象信号Y(ω,t)の振幅を調整した処理後信号Z(ω,t)を生成する(ステップS45)。 The target signal adjustment unit 45 receives the processing target signal Y (ω, t) and the direct ratio estimated value DRR (ω, t) as input and adjusts the amplitude of the processing target signal Y (ω, t) according to the values. The processed post-process signal Z (ω, t) is generated (step S45).
逆周波数領域変換部46は、処理後信号Z(ω,t)を時間領域の信号z(n)に変換する(ステップS46)。ステップS41〜ステップS46までの動作は、全ての受音信号xm(n)が終了するまで継続される。
The inverse
ここで、直間比推定値DRR(ω,t)の値に応じて調整とは、DRR(ω,t)の閾値処理や、その値が大きいほど処理後信号Z(ω,t)の振幅を大きくする処理や、その値が大きいほど処理後信号Z(ω,t)の振幅を小さくする等の処理を含む。詳しくは後述する。 Here, adjustment according to the value of the direct ratio estimated value DRR (ω, t) means threshold processing of DRR (ω, t) and the amplitude of the post-processing signal Z (ω, t) as the value increases. And processing such as decreasing the amplitude of the post-processing signal Z (ω, t) as the value increases. Details will be described later.
以上の動作により、マイクロホンアレーによって、例えば、特定の距離範囲にある音だけを強調し、その範囲外の音は抑圧して収音する雑音除去が行われる。以降、各部のより具体的な機能構成例を示して更に詳しく本発明を説明する。 With the above operation, noise removal is performed by the microphone array, for example, by emphasizing only sounds within a specific distance range and suppressing and collecting sounds outside the range. Hereinafter, the present invention will be described in more detail by showing more specific functional configuration examples of the respective units.
〔処理対象信号生成部〕
図8に処理対象信号生成部43のより具体的な機能構成例を示す。処理対象信号生成部43は、複数の重み乗算手段4311〜431Mと、加算手段432を備える。複数の重み乗算手段4311〜431Mは、M個のマイクロホンで受音した複数の受音信号xm(n)の、それぞれの周波数成分X1(ω,t),…,XM(ω,t)に重み係数wm(ω)を乗ずる。
[Processing signal generator]
FIG. 8 shows a more specific functional configuration example of the processing target
重み乗算手段4311〜431Mで使用する重みには、例えばM個のマイクロホンが無指向性の場合にはwm=1/Mとすることで全ての周波数成分X1(ω,t),…,XM(ω,t)の平均を取ることで、処理対象信号Y(ω,t)を安定化させる。また、M個のマイクロホンが指向性を持つ場合には、w1=1,wm=0(m={2,…,M})とすることで、特定のマイクロホンの信号だけを使用することができる。例えば、参考文献2「大賀、山崎、金田著、“音響システムとディジタル信号処理”電子情報通信学会発行」に記載されているような方法を利用して、重みビームフォーミングのフィルタ係数を使用すれば、マイクロホンアレーで任意の指向性を形成することもできる。 For the weights used in the weight multiplication means 431 1 to 431 M , for example, when M microphones are omnidirectional, by setting w m = 1 / M, all frequency components X 1 (ω, t), .., X M (ω, t) is averaged to stabilize the processing target signal Y (ω, t). Also, when M microphones have directivity, use only a specific microphone signal by setting w 1 = 1, w m = 0 (m = {2,..., M}). Can do. For example, if the filter coefficient of the weight beamforming is used by using a method described in Reference Document 2 “Oga, Yamazaki, Kanada,“ Sound System and Digital Signal Processing ”published by the Institute of Electronics, Information and Communication Engineers” An arbitrary directivity can be formed by the microphone array.
加算手段432は、重みが乗ぜられた全ての周波数成分X1(ω,t),…,XM(ω,t)を加算して処理対象信号Y(ω,t)を出力する。 The adding means 432 adds all the frequency components X 1 (ω, t),..., X M (ω, t) multiplied by the weights, and outputs a processing target signal Y (ω, t).
加算手段を用いず、音源に近い位置にマイクロホンアレーとは別にマイクロホンを設置して、設置したマイクロホンの収音信号を処理対象信号Y(ω,t)としてもよい。 A microphone may be installed separately from the microphone array at a position close to the sound source without using the adding means, and the collected sound signal of the installed microphone may be used as the processing target signal Y (ω, t).
〔直間比計算部〕
図9に直間比計算部44の機能構成例を示す。直間比計算部44は、受信音パワー推定部441と、直接音方向パワー推定部442と、残響音方向パワー推定部443と、減算部444と、直間比算出部445と、を備える。
(Direct ratio calculation section)
FIG. 9 shows a functional configuration example of the direct
受信音パワー推定部441は、マイクロホンアレー41に含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号X1(ω,t),…,XM(ω,t)を用い、受音信号に対応する周波数領域信号のパワー推定値を生成して出力する。このパワー推定値は、式(9)のように何れか1個のマイクロホンm(m∈{1,…,M})に対応する周波数領域信号Xm(ω,t)のパワー推定値であってもよいし、式(10)のように周波数領域信号X1(ω,t),…,XM(ω,t)それぞれのパワー推定値を重み付け平均したものであってもよい。実施例1では、受音信号に対応する周波数領域信号のパワー推定値としてパワースペクトル密度PX,L(ω)を求める。
The reception sound
ただし、Lはフレーム数、αmは式(11)と成るように設定されるマイクロホンmへの非負の重みである。E[・]は期待値演算を表している。 However, L is the number of frames, and α m is a non-negative weight to the microphone m set so as to satisfy the equation (11). E [•] represents an expected value calculation.
直接音方向パワー推定部442は、周波数領域信号X1(ω,t),…,XM(ω,t)に対して直接音源方向から到来した信号成分のみを通過する処理を行って得られた直接音方向信号のパワー推定値PDD(ω)、又は、受音信号に対して直接音源方向から到来した信号成分のみを通過する処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値PDD(ω)を得る。直接音方向信号のパワーPDD(ω)は、前記した式(8)のP0(ω)と同じものである。
The direct sound direction
直接音方向パワー推定部442は、指向性形成部4421とパワー推定部4422を備える。指向性形成部4421は、あらかじめ与えられた方向に指向性のビームが向くように指向性を形成し、その指向性を通過した信号を出力する。指向性形成部4421の指向性は、直接音方向に指向性のメインビームが向くように設定される。指向性形成の方法としては、例えば参考文献1(浅野太著,「音のアレイ信号処理−音源の定位・追跡と分離」コロナ社,pp.70-79))に記載されている遅延和ビームフォーミングなどの方法を用いることができる。
The direct sound direction
指向性形成部4421の出力をYBF(ω,t)と表記した場合、パワー推定部4422の出力する直接音方向信号のパワー推定値PDD(ω)は、式(12)によって得られる。
When the output of the
また、直接音方向信号のパワー推定値PDD(ω)の出力パワースペクトル密度は式(13)で表される。 Further, the output power spectral density of the power estimation value P DD (ω) of the direct sound direction signal is expressed by Expression (13).
ここで|D0θ(ω)|2は、図4で説明したビームフォーマBF0のパワーゲインに当たる。 Here, | D 0θ (ω) | 2 corresponds to the power gain of the beam former BF 0 described in FIG.
残響音方向パワー推定部443は、主に直接音源方向以外から到来した信号成分を、直接音方向パワー推定部442の直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、主に受音信号に対して直接音源方向以外から到来した信号成分を通過する処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値を得る。
The reverberant sound direction
理想的には、残響音方向パワー推定部443は、残響指向性形成部4431と残響パワー推定部4432を備える。残響指向性形成部4431の指向性は、指向性のメインビームが直接音方向を避けるように設定される。その指向性形状は指向性形成部4421と同じに設定される。残響指向性形成部4431と指向性形成部4421の指向性形状は、極力同じ形状になるように設定するのが望ましい。その指向性形状の設定は従来技術で容易に実現することができる。音源の方向の推定については、例えば、参考文献2「大賀,山崎,金田著,“音響システムとディジタル信号処理”電子情報通信学会発行」の7.2章に記載されている。
Ideally, the reverberant sound direction
残響パワー推定部4432は、直接音方向を避けるようにして受音された残響音を入力として残響音方向信号のパワー推定値PRD(ω)を出力する(式14)。残響音方向信号のパワー推定値PRD(ω)には、直接音方向を避けるようにして受音しているので、|D1,θD|2≪1と設定することで、直接音成分|D0,θ(ω)|2PD(ω)は、十分小さくなる。
The reverberation
ここで|D1(ω)|2は、図4で説明したビームフォーマBF1のパワーゲインに当たる。 Here, | D 1 (ω) | 2 corresponds to the power gain of the beam former BF1 described in FIG.
減算部444は、直接音方向パワー推定部442が出力する直接音方向信号のパワー推定値PDD(ω)から、残響パワー推定部4432が出力する残響音方向信号のパワー推定値PRD(ω)を減算した直接音パワー推定値^PD(ω)を出力する(式(15))。
The subtracting
式(15)の分母は、指向性形成部4421と残響指向性形成部4431のそれぞれのビームフォーマ(BF)のパワーゲインの差によって直接音パワー推定値^PD(ω)を正規化するための項である。
The denominator of the equation (15) normalizes the direct sound power estimated value ^ P D (ω) by the difference in power gain between the beamformers (BF) of the
直間比算出部445は、受信音パワー推定部441が出力するパワースペクトル密度PX,L(ω)及び直接音パワー推定値^PD(ω)を用い、直接音パワー推定値^PD(ω)と、残響音方向信号のパワー推定値のパワーの比である直間比推定値DRR(ω)を得る(式(16))。
The direct
また、受信音パワー推定部441の出力する受信音パワーが、何れか1個のマイクロホンm(m∈{1,…,M})に対応する式(9)で表記される場合、直間比は式(17)で推定することもできる。
Further, when the received sound power output from the received sound
さらに、直間比は周波数によらない直間比として式(18),(19)で推定することもできる。なお、フレーム数Lごとに求めた値であるのでDRR(ω)と表記しているが、1フレームごと周波数ごとに求めた値はDRR(ω,t)と表記される。 Further, the direct ratio can be estimated by the equations (18) and (19) as the direct ratio independent of the frequency. In addition, since it is the value calculated | required for every frame number L, it describes with DRR ((omega)), However, The value calculated | required for every frequency for every frame is described with DRR ((omega), t).
以上説明した直間比推定法は、残響音は拡散性が強い信号であることからマイクロホンアレーに対して等方的に到来することに着目した新しい方法である。マイクロホンアレーにより実現される指向性形状が同一な2つのビームフォーマによって、直接音と残響音を含む信号と、残響音のみを含む信号と、を得ることで直接音成分と間接音成分を正しく分離することができ、その結果として直間比の推定精度を向上させることができる。 The direct ratio estimation method described above is a new method that pays attention to the fact that reverberant sound is isotropically arrives at the microphone array since it is a highly diffuse signal. By using two beamformers with the same directional shape realized by a microphone array, a direct sound component and an indirect sound component are correctly separated by obtaining a signal including direct sound and reverberation sound and a signal including only reverberation sound. As a result, the estimation accuracy of the direct ratio can be improved.
なお、式(16),(17),(18),(19)は、以下のようにデシベル表記しない直間比推定値DRRであってもよい。 The expressions (16), (17), (18), and (19) may be direct ratio estimated values DRR that are not expressed in decibels as follows.
〔変形例1〕
図10に、直間比計算部44の残響音方向パワー推定部443の機能構成を変形した直間比計算部44′の機能構成例を示す。直間比計算部44′は、残響音方向パワーPRD(ω)を、複数(2個以上)の指向方向の残響音方向パワーPRD1(ω)〜PRDN(ω)を平均して求めるようにしたものである。
[Modification 1]
FIG. 10 shows a functional configuration example of a direct
直間比計算部44′の残響音方向パワー推定部443′は、2個以上の残響指向性形成部44311〜4431Nと、2個以上の残響パワー推定部44321〜4432Nと、残響方向パワー算出部4433を備える点で、直間比計算部44と異なる。残響指向性形成部44311のビームフォーマのメインビームの方向は例えば基準点から方向θ1である。残響指向性形成部44312のビームフォーマのメインビームの方向は方向θ1であり、残響指向性形成部4431Nのビームフォーマのメインビームの方向は方向θNである。
The reverberation sound direction
図11に各残響指向性形成部44311〜4431Nの指向性形状を模式的に示す。各残響指向性形成部44311〜4431Nの指向性形状は、そのメインビームの方向θのみが異なりその形状は同じものである。各々の残響指向性形成部44311〜4431Nの指向性を通過した信号から、それぞれに接続された残響パワー推定部44321〜4432Nによって各指向方向の残響音パワー推定値PRD1(ω)〜PRDN(ω)が求められる。
FIG. 11 schematically shows the directivity shapes of the reverberation
残響方向パワー算出部4433は、複数のパワー推定値PRD1(ω)〜PRDN(ω)を、重み付け平均(式20)して残響音方向パワーPRD(ω)を算出する。
The reverberation direction
ただし、βnは非負の重み係数であり、式(21)を満たすようにあらかじめ設定される。このようにして求めた残響音方向パワーPRD(ω)は、複数の方向の残響音方向パワーを平均して求めた値なので、その精度を向上させることができる。その結果、直間比推定値DRR(ω)の精度を向上させることができる。 However, β n is a non-negative weighting factor and is set in advance so as to satisfy the equation (21). Since the reverberant sound direction power P RD (ω) obtained in this way is a value obtained by averaging the reverberant sound direction powers in a plurality of directions, the accuracy can be improved. As a result, the accuracy of the direct ratio estimation value DRR (ω) can be improved.
〔変形例2〕
図12に、直間比計算部44の残響音方向パワー推定部443の機能構成を変更した直間比計算部44″の機能構成例を示す。直間比計算部44″は、指向性形成部4421と残響指向性形成部4431のビームフォーマのメインビームの方向を自動的に設定できるようにしたものである。
[Modification 2]
FIG. 12 shows a functional configuration example of the direct
直間比計算部44″は、音源方向推定部446と、ビームフォーマ生成部447と、を備える点で、直間比計算部44と異なる。音源方向推定部446は、マイクロホンアレー41に含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号X1(ω,t),…,XM(ω,t)を入力として、音源の方向を推定して音源方向信号を出力する。音源の方向は、例えば、周波数領域信号X1(ω,t),…,XM(ω,t)の位相差等から従来技術で求めることが可能である。
The direct
ビームフォーマ生成部447は、音源方向信号を入力として、その音源方向にメインビームを持つビームフォーマBF0と、その音源方向を避けるようにメインビームが設定されたビームフォーマBF1とを生成して、ビームフォーマBF0を直接音方向パワー推定部442へ、ビームフォーマBF1を残響音方向パワー推定部443に出力する。直接音方向パワー推定部442の指向性形成部4421は、ビームフォーマBF0を適用して上記した出力信号YBF(ω,t)を出力する。残響音方向パワー推定部443は、ビームフォーマBF1を適用して残響音方向パワーPRD(ω)を出力する。
The
このように直間比計算部44″は、自動的に直接音方向パワー推定部442と残響音方向パワー推定部443の指向性形状を設定することができる。以上、直間比計算部44,44′,44″の動作を周波数領域で動作する例で説明を行ったが、変形例を含めて本発明の技術思想は、そのまま時間領域の動作に適用することが可能である。また、直間比計算部44″の考えを、直間比計算部44′に適用することも可能である。
As described above, the direct
〔対象信号調整部〕
対象信号調整部45は、処理対象信号Y(ω,t)と直間比推定値DRR(ω,t)を入力とし、直間比推定値DRR(ω,t)に応じて処理対象信号Y(ω,t)の振幅を調整した処理後信号Z(ω,t)を生成して出力する。言い換えると、対象信号調整部45は、直間比推定値DRR(ω,t)に応じたゲイン(フィルタ係数)を処理対象信号Y(ω,t)に乗じ、それによって処理後信号Z(ω,t)を生成して出力する(ステップS45)。
[Target signal adjustment section]
The target signal adjustment unit 45 receives the processing target signal Y (ω, t) and the direct ratio estimated value DRR (ω, t) as input, and processes the target signal Y according to the direct ratio estimated value DRR (ω, t). A post-processing signal Z (ω, t) in which the amplitude of (ω, t) is adjusted is generated and output. In other words, the target signal adjustment unit 45 multiplies the processing target signal Y (ω, t) by a gain (filter coefficient) corresponding to the direct ratio estimated value DRR (ω, t), thereby processing the processed signal Z (ω , T) is generated and output (step S45).
直間比推定値DRRに応じてどのような大きさのゲインを定めるかは、マイクロホンアレー41からどのような距離範囲にある直接音源から発せられた音を強調するのかに依存する。例えば、マイクロホンアレー41に近い直接音源から発せられた音をより強調する場合には、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率が第1値である場合に処理対象信号に乗じられるゲインを、当該比率が第1値よりも小さな第2値である場合に処理対象信号に乗じられるゲインよりも大きくする。例えば、マイクロホンアレー41に遠い直接音源から発せられた音をより強調する場合には、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率が第1値である場合に処理対象信号に乗じられるゲインG(ω,t)を、当該比率が第1値よりも小さな第2値である場合に処理対象信号に乗じられるゲインよりも小さくする。
The magnitude of the gain determined according to the direct ratio estimated value DRR depends on the distance range from the
対象信号調整部45は、例えば、フィルタ係数算出手段451と、乗算手段452とで構成できる(図6)。フィルタ係数算出部45は、直間比推定値DRR(ω,t)を入力としてフィルタ係数G(ω,t)を算出して出力する。フィルタ係数G(ω,t)の算出には、例えば式(22),(23)に示すように閾値を用いた2値のフィルタなどが用いられる。
The target signal adjustment unit 45 can be configured by, for example, a filter
なお、閾値Th1は、直間比推定値DRR(ω,t)の最小値と最大値の間の任意の値が設定できる。閾値Th1を最小値(0)に近づけると音質は向上する。逆に閾値Th1を最大値に近づけると雑音抑圧効果は高めるが受音信号の歪みが大きくなり音質が劣化する。 The threshold Th 1 can arbitrary value set between the minimum and maximum values of Chokkan ratio estimate DRR (ω, t). The sound quality is improved when the threshold Th 1 is brought close to the minimum value (0). Noise suppression effect is brought close to the threshold Th 1 to the maximum value in the opposite order to increase but deteriorates the sound quality becomes large distortion of the received sound signal.
このように閾値Th1は、音質と雑音抑圧との関係でトレードオフの関係を持つ。よって、閾値Th1は、このトレードオフの関係を考慮した上で、利用目的に応じて経験的に決定される。 Thus, the threshold Th 1 has a trade-off relationship between the sound quality and the noise suppression. Therefore, the threshold Th 1 is determined empirically according to the purpose of use in consideration of this trade-off relationship.
また、フィルタ係数G(ω,t)の算出に際して式(24),(25)に示すように、直間比推定値が閾値Th2を下回る時間周波数帯域を強調するようにすれば、特定の距離範囲より遠くの音源を強調することができる。 Further, when calculating the filter coefficient G (ω, t), as shown in the equations (24) and (25), if the time frequency band in which the direct ratio estimated value falls below the threshold Th 2 is emphasized, a specific frequency Sound sources farther than the distance range can be emphasized.
なお、フィルタ係数G(ω,t)の例として0か1の2値のフィルタを挙げたが、フィルタ係数G(ω,t)は必ずしも0と1である必要はなく、例えば、0.1と0.9のように十分異なる値であれば良い。 In addition, although the binary filter of 0 or 1 was mentioned as an example of the filter coefficient G (ω, t), the filter coefficient G (ω, t) does not necessarily have to be 0 and 1, for example, 0.1 And a sufficiently different value such as 0.9.
また、フィルタ係数G(ω,t)には、1以上の実数を設定するようにしても良い。つまり、処理対象信号Y(ω,t)を増幅するゲインG(ω,t)が定められてもよい。また、処理対象信号Y(ω,t)を大きく抑圧するゲインG(ω,t)(例えば0.1以下の値)が定められてもよい。また、閾値判定によってゲインG(ω,t)を定めるのではなく、直間比推定値やその関数値がゲインG(ω,t)とされてもよい。例えば、以下の式(26)〜(29)のようにゲインG(ω,t)が定められてもよい。 Further, a real number of 1 or more may be set for the filter coefficient G (ω, t). That is, the gain G (ω, t) for amplifying the processing target signal Y (ω, t) may be determined. Further, a gain G (ω, t) (for example, a value of 0.1 or less) that largely suppresses the processing target signal Y (ω, t) may be determined. Further, instead of determining the gain G (ω, t) by threshold determination, the direct ratio estimated value or its function value may be used as the gain G (ω, t). For example, the gain G (ω, t) may be determined as in the following formulas (26) to (29).
ただし、Fは単調増加関数又は単調減少関数などの関数である。 However, F is a function such as a monotonically increasing function or a monotonically decreasing function.
このようにして求めたフィルタ係数G(ω,t)が、乗算手段452において、処理対象信号Y(ω,t)に乗じて処理後信号Z(ω,t)=G(ω,t)・Y(ω,t)が生成される。よって、処理後信号Z(ω,t)を、直間比推定値DRR(ω,t)の大きな処理対象信号Y(ω,t)のみで構成することができる。つまり、直接音のみを抽出することができる。
The
実施例2として、実施例1で述べた直間比推定値DRR(ω,t)を用いて音源の遠近を判定する遠近判定装置120を説明する。図13に遠近判定装置120の機能構成例を示す。遠近判定装置120は、マイクロホンアレー41と、複数の周波数領域変換部411〜41mと、直間比計算部44と、遠近判定部121と、を備える。マイクロホンアレー41と、複数の周波数領域変換部411〜41mと、直間比計算部44とは、雑音除去装置400のものと同じである。遠近判定装置120も、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
As a second embodiment, a perspective determination device 120 that determines the perspective of a sound source using the direct ratio estimated value DRR (ω, t) described in the first embodiment will be described. FIG. 13 shows a functional configuration example of the perspective determination device 120. The perspective determination device 120 includes a
遠近判定装置120は、複数の異なる距離にある音源が異なる時刻に発音するときに、ある時刻に受音された音の音源が遠くにあるのか近くにあるのかを判定するものである。遠近判定装置120を構成する遠近判定部121は、周波数平均手段1210と、蓄積手段1211と、判定手段1212と、を備える。
The perspective determination device 120 determines whether a sound source of a sound received at a certain time is far or near when sound sources at a plurality of different distances sound at different times. The perspective determination unit 121 included in the perspective determination device 120 includes a
遠近判定部121は、1個以上のフレームからなる判定区間で受音された受音信号に基づいて得られた直間比推定値に対応する判定値と、判定区間よりも多くの個数のフレームからなる基準区間で受音された受音信号に基づいて得られた複数の直間比推定値に対応する基準値とを用いた比較判定によって、判定区間での直接音源の遠近判定を行う。 The perspective determination unit 121 includes a determination value corresponding to the direct ratio estimation value obtained based on the received sound signal received in the determination section including one or more frames, and a larger number of frames than the determination section. The perspective determination of the direct sound source in the determination section is performed by comparison determination using reference values corresponding to a plurality of direct ratio estimation values obtained based on the received sound signal received in the reference section.
周波数平均手段1210は、直間比推定値DRR(ω,t)を入力として、当該値を周波数方向に平均して周波数平均直間比推定値 ̄Etを出力する(式(30))。 The frequency averaging means 1210 receives the direct ratio estimated value DRR (ω, t) as an input, averages the value in the frequency direction, and outputs a frequency average direct ratio estimated value  ̄E t (formula (30)).
ここで、Kは周波数領域変換部421〜42Mで行ったフーリエ変換の周波数ビンの総数である。
Here, K is the total number of frequency bins of the Fourier transform performed by the frequency domain transform
蓄積手段1211は、周波数平均直間比推定値 ̄Etを過去L時間フレーム分蓄積して、比較対象直間比推定値^Eを出力する。比較対象直間比推定値^Eには、例えば蓄積された周波数平均直間比推定値 ̄Etの平均値^E=1/LΣt L ̄Etや、最小値と最大値の平均値E^=1/2(max ̄Et+min ̄Et)等が用いられる。
The accumulating
判定手段1212は、周波数平均直間比相当値 ̄Etと、比較対象直間比相当値^Eを比較して、 ̄Et>^Eの時には遠近判定結果Ylに距離が近いことを表す例えば1を、 ̄El<^Eの時には遠近判定結果Ytに距離が遠いことを表す例えば0を出力する。この遠近判定結果Ytは、直近の過去L時間分の受音信号が、比較的近い音源からの音であるか、又は、比較的遠い音源からの音であるかを表すものである。 Determination means 1212, a frequency averaging Chokkan ratio equivalent value ¯e t, compares the comparison Chokkan ratio equivalent value ^ E, that is close distance distance determination result Y l when the ¯E t> ^ E the representative example 1, and outputs the ¯E l <^ 0 example indicates that the distance is far in distance determination result Y t is the time of E. The distance determination result Y t is the last received sound signals of the past L time period is either a sound from relatively close sound source or those indicating which sounds from a relatively distant sound source.
この遠近判定結果Ytを用いることで、逐次入力される受音信号を、マイクロホンとその音源間との距離によって切り分けることが可能である。つまり、複数の音源の音を、マイクロホンからの距離に応じて選択することができる。 By using this distance determination result Y t , it is possible to distinguish the sequentially received sound signal based on the distance between the microphone and the sound source. That is, sounds from a plurality of sound sources can be selected according to the distance from the microphone.
〔実験結果〕
本発明の効果を確認する目的で、鏡像法を用いたシミュレーション実験を行った。
〔Experimental result〕
In order to confirm the effect of the present invention, a simulation experiment using a mirror image method was performed.
図14にシミュレーション条件を示す。図14は平面図であり、幅4m、奥行き6mで、高さが2.7mの部屋を想定した。壁の吸音率はα=0.05(残響時間T60=1.8秒)に設定した。8個のマイクロホンを円状に配置したマイクロホンアレーを用い、その基準点の高さは1.5mとした。音源の高さも1.5mとした。 FIG. 14 shows the simulation conditions. FIG. 14 is a plan view, assuming a room having a width of 4 m, a depth of 6 m, and a height of 2.7 m. The wall sound absorption coefficient was set to α = 0.05 (reverberation time T 60 = 1.8 seconds). A microphone array in which eight microphones were arranged in a circle was used, and the height of the reference point was 1.5 m. The height of the sound source was also 1.5 m.
この条件において、インパルス応答から推定したDRRの実測値DRRactual(□)と、本発明(▽)と、従来法(○)と、を比較した結果を図15に示す。この発明の方法により推定したDRR(▽)は、従来法と比べて実測値DRRactual(□)に近づいており、特に音源が遠方にある場合では3dB程度改善している。 FIG. 15 shows a result of comparison between the actual DRR actual value (□) estimated from the impulse response, the present invention (▽), and the conventional method (◯) under these conditions. The DRR (▽) estimated by the method of the present invention is closer to the actually measured value DRR actual (□) than the conventional method, and is improved by about 3 dB particularly when the sound source is far away.
一般に間接成分のパワーは音源の距離によらず一定であるのに対して、直接成分のパワーは距離の2乗に反比例する。このため遠方の音源の場合、直接成分のパワーは間接成分のそれと比べて微小になり、推定された直接成分に含まれる誤差が小さくてもDRRの推定結果には大きな影響を与える。この発明の方法では、マイクロホンアレーの指向性制御により、音源方向から到来する信号の影響を極力抑えて間接音のパワーを求めることから、より精度の高い推定が可能となり、より遠方の音源までDRRを正しく推定できるようになる。 In general, the power of the indirect component is constant regardless of the distance of the sound source, whereas the power of the direct component is inversely proportional to the square of the distance. For this reason, in the case of a distant sound source, the power of the direct component is smaller than that of the indirect component, and even if the error included in the estimated direct component is small, the DRR estimation result is greatly affected. According to the method of the present invention, the power of the indirect sound is obtained by suppressing the influence of the signal arriving from the sound source direction as much as possible by the directivity control of the microphone array, so that it is possible to perform the estimation with higher accuracy and the DRR to the sound source farther away. Can be estimated correctly.
以上説明したように、この発明の新しい直間比推定方法は、残響音は拡散性が強い信号であることからマイクロホンアレーに対して等方的に到来すると仮定する新しい方法である。マイクロホンアレーにより実現される指向性形状が同一でメインビームの方向が直接音源方向に設定されたビームフォーマと、メインビームの方向が直接音源方向を避けるように設定されたビームフォーマと、によって音源方向から到来する直接成分と間接成分とを正しく分離することができ、その結果として直間比の推定値精度を上げることができる。 As described above, the new direct ratio estimation method of the present invention is a new method that assumes that the reverberant sound is isotropically arrives at the microphone array since it is a highly diffuse signal. The sound source direction by the beamformer with the same directional shape realized by the microphone array and the main beam direction set directly to the sound source direction, and the beamformer set the main beam direction to avoid the direct sound source direction The direct component and the indirect component coming from can be correctly separated, and as a result, the accuracy of the estimate of the direct ratio can be improved.
上記した説明では、本発明の直間比推定方法を、音響信号強調装置400または遠近判定装置130に組み込んだ例で説明を行ったが、図16に示すようにこの発明の直間比推定方法のみを実現する直間比推定装置160として構成するようにしてもよい。その場合、直間比推定装置160は、マイクロホンアレー41と、複数の周波数領域変換部421〜42Mと、直間比計算部44と、で構成することが可能である。
In the above description, the direct ratio estimation method of the present invention has been described as an example incorporated in the acoustic
なお、直間比推定値DRRとしてデジベル表記した例を式(16)〜(19)に示したが、直間比推定値はパワースペクトル密度の比で求めてよいことは言うまでもないことであり、上記した式で表されるDRRの値に、何れかの定数が乗じられたものを直間比推定値としてもよいし、上記した式で表されたDRRの値の逆数に定数が乗じられたものを直間比推定値としてもよい。また、その定数は単調増加関数値であってもよい。つまり、この発明の直間比推定値DRRは、上記した式(16)〜(19)で表されたものに限定されない。 In addition, although the example expressed in decibel as the direct ratio estimated value DRR is shown in the equations (16) to (19), it goes without saying that the direct ratio estimated value may be obtained by the ratio of the power spectral density. The direct ratio estimation value may be obtained by multiplying the DRR value represented by the above formula by any constant, or the constant may be multiplied by the reciprocal of the DRR value represented by the above formula. It is good also as a direct ratio estimated value. The constant may be a monotonically increasing function value. That is, the direct ratio estimated value DRR of the present invention is not limited to that expressed by the above formulas (16) to (19).
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Note that the processes described in the above method and apparatus are not only executed in time series according to the order of description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (9)
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定部と、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定部と、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算部と、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出部と、
前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
前記直間比推定値が表す前記比率が所定の閾値よりも大きい前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さな前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調装置。 A received sound power estimation unit that obtains a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal A direct sound direction power estimation unit that obtains a power estimation value of a direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. It is possible to convert the power estimation value of the reverberant sound direction signal obtained or the signal obtained by performing the process of passing the signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimation unit for obtaining a power estimate of a reverberant sound direction signal;
A subtracting unit that outputs a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculator;
A target signal adjusting unit for obtaining a post-processing signal by multiplying a processing target signal obtained from the received sound signal by a gain according to the direct ratio estimation value;
The gain multiplied by the processing target signal for which the ratio represented by the direct ratio estimation value is larger than a predetermined threshold is larger than the gain multiplied by the processing target signal for which the ratio is smaller than the predetermined threshold. , Sound signal enhancement device.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定部と、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定部と、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算部と、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出部と、
前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
前記直間比推定値が表す前記比率が所定の閾値よりも大きい前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さな前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調装置。 A received sound power estimation unit that obtains a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal A direct sound direction power estimation unit that obtains a power estimation value of a direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. It is possible to convert the power estimation value of the reverberant sound direction signal obtained or the signal obtained by performing the process of passing the signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimation unit for obtaining a power estimate of a reverberant sound direction signal;
A subtracting unit that outputs a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculator;
A target signal adjusting unit for obtaining a post-processing signal by multiplying a processing target signal obtained from the received sound signal by a gain according to the direct ratio estimation value;
The gain multiplied by the processing target signal for which the ratio represented by the direct ratio estimation value is larger than a predetermined threshold is smaller than the gain multiplied by the processing target signal for which the ratio is smaller than the predetermined threshold. , Sound signal enhancement device.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定部と、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して得られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定部と、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算部と、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出部と、
前記直間比推定値を用い、前記直接音源の遠近判定を行って遠近判定結果を得る遠近判定部を有し、
前記直間比推定値は、所定の時間区間であるフレームで受音された前記受音信号に基づいて得られ、
前記遠近判定部は、1個以上のフレームからなる判定区間で受音された前記受音信号に基づいて得られた前記直間比推定値に対応する判定値と、前記判定区間よりも多くの個数のフレームからなる基準区間で受音された前記受音信号に基づいて得られた複数の前記直間比推定値に対応する基準値とを用いた比較判定によって、前記判定区間での前記直接音源の遠近判定を行う、遠近判定装置。 A received sound power estimation unit that obtains a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal A direct sound direction power estimation unit that obtains a power estimation value of a direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. Obtained by converting the received reverberation direction signal power estimate value, or a signal obtained by performing a process of passing a signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimation unit for obtaining a power estimate of a reverberant sound direction signal;
A subtracting unit that outputs a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculator;
Using the direct ratio estimate, having a perspective determination unit that performs perspective determination of the direct sound source and obtains a perspective determination result,
The direct ratio estimation value is obtained based on the received sound signal received in a frame that is a predetermined time interval,
The perspective determination unit includes a determination value corresponding to the direct ratio estimation value obtained based on the received sound signal received in a determination section including one or more frames, and more than the determination section. The direct determination in the determination section is performed by comparison determination using a plurality of reference values corresponding to the direct ratio estimation values obtained based on the received sound signal received in the reference section including a number of frames. A perspective determination device that performs perspective determination of a sound source.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定部と、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定部と、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算部と、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出部と、
前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
前記直間比推定値が表す前記比率が第1値である場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記第1値よりも小さな第2値である場合に前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調装置。 A received sound power estimation unit that obtains a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal A direct sound direction power estimation unit that obtains a power estimation value of a direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. It is possible to convert the power estimation value of the reverberant sound direction signal obtained or the signal obtained by performing the process of passing the signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimation unit for obtaining a power estimate of a reverberant sound direction signal;
A subtracting unit that outputs a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculator;
A target signal adjusting unit for obtaining a post-processing signal by multiplying a processing target signal obtained from the received sound signal by a gain according to the direct ratio estimation value;
The gain multiplied by the processing target signal when the ratio represented by the direct ratio estimation value is a first value is the processing target signal when the ratio is a second value smaller than the first value. An acoustic signal emphasizing device that is larger than the gain multiplied by.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定部と、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定部と、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算部と、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出部と、
前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
前記直間比推定値が表す前記比率が第1値である場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記第1値よりも小さな第2値である場合に前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調装置。 A received sound power estimation unit that obtains a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal A direct sound direction power estimation unit that obtains a power estimation value of a direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. It is possible to convert the power estimation value of the reverberant sound direction signal obtained or the signal obtained by performing the process of passing the signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimation unit for obtaining a power estimate of a reverberant sound direction signal;
A subtracting unit that outputs a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculator;
A target signal adjusting unit for obtaining a post-processing signal by multiplying a processing target signal obtained from the received sound signal by a gain according to the direct ratio estimation value;
The gain multiplied by the processing target signal when the ratio represented by the direct ratio estimation value is a first value is the processing target signal when the ratio is a second value smaller than the first value. An acoustic signal emphasizing device that is smaller than the gain multiplied by.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定ステップと、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定ステップと、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算ステップと、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出ステップと、
前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整ステップを有し、
前記直間比推定値が表す前記比率が所定の閾値よりも大きい前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さな前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調方法。 A received sound power estimation step for obtaining a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal Direct sound direction power estimation step for obtaining a power estimation value of the direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. It is possible to convert the power estimation value of the reverberant sound direction signal obtained or the signal obtained by performing the process of passing the signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimating step for obtaining a power estimate of the reverberant sound direction signal;
A subtracting step for outputting a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculating step;
A target signal adjustment step of obtaining a post-processing signal by multiplying a processing target signal obtained from the sound reception signal by a gain according to the direct ratio estimation value;
The gain multiplied by the processing target signal for which the ratio represented by the direct ratio estimation value is larger than a predetermined threshold is larger than the gain multiplied by the processing target signal for which the ratio is smaller than the predetermined threshold. Sound signal enhancement method.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定ステップと、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して有られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定ステップと、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算ステップと、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出ステップと、
前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整ステップを有し、
前記直間比推定値が表す前記比率が所定の閾値よりも大きい前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さな前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調方法。 A received sound power estimation step for obtaining a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal Direct sound direction power estimation step for obtaining a power estimation value of the direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. It is possible to convert the power estimation value of the reverberant sound direction signal obtained or the signal obtained by performing the process of passing the signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimating step for obtaining a power estimate of the reverberant sound direction signal;
A subtracting step for outputting a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculating step;
A target signal adjustment step of obtaining a post-processing signal by multiplying a processing target signal obtained from the sound reception signal by a gain according to the direct ratio estimation value;
The gain multiplied by the processing target signal for which the ratio represented by the direct ratio estimation value is larger than a predetermined threshold is smaller than the gain multiplied by the processing target signal for which the ratio is smaller than the predetermined threshold. Sound signal enhancement method.
前記周波数領域信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行って得られた直接音方向信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を主に通過させる処理を行った信号を周波数領域に変換して得られた直接音方向信号のパワー推定値を得る直接音方向パワー推定ステップと、
主に前記直接音源方向以外から到来した信号成分を、前記直接音方向パワー推定部の前記直接音源方向から到来した信号成分を主に通過させる処理と同じ指向性形状で通過させる処理を行って得られた残響音方向信号のパワー推定値、又は、前記受音信号に対して主に前記直接音源方向以外から到来した信号成分を通過させる処理を行った信号を周波数領域に変換して得られた残響音方向信号のパワー推定値、を得る残響音方向パワー推定ステップと、
前記直接音方向信号のパワー推定値から前記残響音方向信号のパワー推定値を減算した直接音パワー推定値を出力する減算ステップと、
前記周波数領域信号のパワー推定値及び前記残響音方向信号のパワー推定値を用い、前記残響音方向信号のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比算出ステップと、
前記直間比推定値を用い、前記直接音源の遠近判定を行って遠近判定結果を得る遠近判定ステップを有し、
前記直間比推定値は、所定の時間区間であるフレームで受音された前記受音信号に基づいて得られ、
前記遠近判定ステップは、1個以上のフレームからなる判定区間で受音された前記受音信号に基づいて得られた前記直間比推定値に対応する判定値と、前記判定区間よりも多くの個数のフレームからなる基準区間で受音された前記受音信号に基づいて得られた複数の前記直間比推定値に対応する基準値とを用いた比較判定によって、前記判定区間での前記直接音源の遠近判定を行う、遠近判定方法。 A received sound power estimation step for obtaining a power estimation value of the frequency domain signal using a frequency domain signal obtained by converting a received sound signal received by a plurality of microphones included in the microphone array into a frequency domain;
The power estimation value of the direct sound direction signal obtained by performing the process of mainly passing the signal component arriving from the direct sound source direction with respect to the frequency domain signal, or the direct sound source direction with respect to the received signal Direct sound direction power estimation step for obtaining a power estimation value of the direct sound direction signal obtained by converting the signal that has been processed to pass through the signal component mainly into the frequency domain;
It is obtained by performing a process of passing signal components mainly coming from other than the direct sound source direction with the same directivity shape as the process of mainly passing the signal components coming from the direct sound source direction of the direct sound direction power estimation unit. Obtained by converting the received reverberation direction signal power estimate value, or a signal obtained by performing a process of passing a signal component mainly coming from outside the direct sound source direction to the received sound signal into the frequency domain. A reverberant sound direction power estimating step for obtaining a power estimate of the reverberant sound direction signal;
A subtracting step for outputting a direct sound power estimated value obtained by subtracting a power estimated value of the reverberant sound direction signal from a power estimated value of the direct sound direction signal;
Using the power estimation value of the frequency domain signal and the power estimation value of the reverberation sound direction signal, the direct ratio to obtain the direct ratio estimation value representing the ratio of the power estimation value of the direct sound to the power estimation value of the reverberation sound direction signal A ratio calculating step;
Using the direct ratio estimation value, having a perspective determination step of performing perspective determination of the direct sound source to obtain a perspective determination result,
The direct ratio estimation value is obtained based on the received sound signal received in a frame that is a predetermined time interval,
The perspective determination step includes a determination value corresponding to the direct ratio estimation value obtained based on the received sound signal received in a determination section including one or more frames, and more than the determination section. The direct determination in the determination section is performed by comparison determination using a plurality of reference values corresponding to the direct ratio estimation values obtained based on the received sound signal received in the reference section including a number of frames. A perspective determination method for determining the perspective of a sound source.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041052A JP5738218B2 (en) | 2012-02-28 | 2012-02-28 | Acoustic signal emphasizing device, perspective determination device, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041052A JP5738218B2 (en) | 2012-02-28 | 2012-02-28 | Acoustic signal emphasizing device, perspective determination device, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013179388A true JP2013179388A (en) | 2013-09-09 |
JP5738218B2 JP5738218B2 (en) | 2015-06-17 |
Family
ID=49270675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012041052A Expired - Fee Related JP5738218B2 (en) | 2012-02-28 | 2012-02-28 | Acoustic signal emphasizing device, perspective determination device, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5738218B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699445A (en) * | 2013-12-06 | 2015-06-10 | 华为技术有限公司 | Audio information processing method and device |
JP2016144134A (en) * | 2015-02-04 | 2016-08-08 | 富士ゼロックス株式会社 | Voice analysis device, voice analysis system and program |
JP2017503388A (en) * | 2013-12-11 | 2017-01-26 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Extraction of reverberation using a microphone array |
JP2017107141A (en) * | 2015-12-09 | 2017-06-15 | 日本電信電話株式会社 | Sound source information estimation device, sound source information estimation method and program |
WO2017147325A1 (en) * | 2016-02-25 | 2017-08-31 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
WO2020026726A1 (en) | 2018-08-02 | 2020-02-06 | 日本電信電話株式会社 | Sound collecting/amplifying device, method therefor, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006197552A (en) * | 2004-12-17 | 2006-07-27 | Univ Waseda | Sound source separation system and method, and acoustic signal acquisition device |
JP2011055211A (en) * | 2009-09-01 | 2011-03-17 | Nippon Telegr & Teleph Corp <Ntt> | Noise reducing device, distance determining device, method of each device, and device program |
-
2012
- 2012-02-28 JP JP2012041052A patent/JP5738218B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006197552A (en) * | 2004-12-17 | 2006-07-27 | Univ Waseda | Sound source separation system and method, and acoustic signal acquisition device |
JP2011055211A (en) * | 2009-09-01 | 2011-03-17 | Nippon Telegr & Teleph Corp <Ntt> | Noise reducing device, distance determining device, method of each device, and device program |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699445A (en) * | 2013-12-06 | 2015-06-10 | 华为技术有限公司 | Audio information processing method and device |
JP2015115952A (en) * | 2013-12-06 | 2015-06-22 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Method and device for audio information processing |
JP2017503388A (en) * | 2013-12-11 | 2017-01-26 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Extraction of reverberation using a microphone array |
US9984702B2 (en) | 2013-12-11 | 2018-05-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Extraction of reverberant sound using microphone arrays |
JP2016144134A (en) * | 2015-02-04 | 2016-08-08 | 富士ゼロックス株式会社 | Voice analysis device, voice analysis system and program |
JP2017107141A (en) * | 2015-12-09 | 2017-06-15 | 日本電信電話株式会社 | Sound source information estimation device, sound source information estimation method and program |
WO2017147325A1 (en) * | 2016-02-25 | 2017-08-31 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
US10412490B2 (en) | 2016-02-25 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
WO2020026726A1 (en) | 2018-08-02 | 2020-02-06 | 日本電信電話株式会社 | Sound collecting/amplifying device, method therefor, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5738218B2 (en) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8238569B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
KR101442446B1 (en) | Sound acquisition via the extraction of geometrical information from direction of arrival estimates | |
JP6196320B2 (en) | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates | |
JP5738218B2 (en) | Acoustic signal emphasizing device, perspective determination device, method and program thereof | |
JP6389259B2 (en) | Extraction of reverberation using a microphone array | |
JP6042858B2 (en) | Multi-sensor sound source localization | |
US8229129B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
US8891785B2 (en) | Processing signals | |
JP5079761B2 (en) | Direct ratio estimation device, sound source distance measurement device, noise removal device, method of each device, and device program | |
RU2591026C2 (en) | Audio system system and operation method thereof | |
US20090034756A1 (en) | System and method for extracting acoustic signals from signals emitted by a plurality of sources | |
CN107018470B (en) | A kind of voice recording method and system based on annular microphone array | |
JP3582712B2 (en) | Sound pickup method and sound pickup device | |
TW200904226A (en) | Enhanced beamforming for arrays of directional microphones | |
JP2017503388A5 (en) | ||
JP5143802B2 (en) | Noise removal device, perspective determination device, method of each device, and device program | |
JP5635024B2 (en) | Acoustic signal emphasizing device, perspective determination device, method and program thereof | |
JP5698166B2 (en) | Sound source distance estimation apparatus, direct ratio estimation apparatus, noise removal apparatus, method thereof, and program | |
JPH09261792A (en) | Sound receiving method and its device | |
JP4116600B2 (en) | Sound collection method, sound collection device, sound collection program, and recording medium recording the same | |
JP3588576B2 (en) | Sound pickup device and sound pickup method | |
JP5683140B2 (en) | Noise-to-noise direct ratio estimation device, interference noise elimination device, perspective determination device, sound source distance measurement device, method of each device, and device program | |
JP5826465B2 (en) | Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program | |
JP5815489B2 (en) | Sound enhancement device, method, and program for each sound source | |
JP2005077205A (en) | System for estimating sound source direction, apparatus for estimating time delay of signal, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5738218 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |