JP5931661B2 - 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム - Google Patents
音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム Download PDFInfo
- Publication number
- JP5931661B2 JP5931661B2 JP2012203393A JP2012203393A JP5931661B2 JP 5931661 B2 JP5931661 B2 JP 5931661B2 JP 2012203393 A JP2012203393 A JP 2012203393A JP 2012203393 A JP2012203393 A JP 2012203393A JP 5931661 B2 JP5931661 B2 JP 5931661B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- search
- transfer function
- unit
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 119
- 230000006870 function Effects 0.000 claims description 167
- 238000004364 calculation method Methods 0.000 claims description 145
- 238000012546 transfer Methods 0.000 claims description 145
- 230000004807 localization Effects 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 description 75
- 238000012545 processing Methods 0.000 description 63
- 238000001228 spectrum Methods 0.000 description 44
- 238000000926 separation method Methods 0.000 description 37
- 230000014509 gene expression Effects 0.000 description 27
- 238000011156 evaluation Methods 0.000 description 25
- 239000013598 vector Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000005259 measurement Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004817 gas chromatography Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本発明の態様(3)及び(4)によれば、算出部が、少ない演算量で探索を行う階層数と階層ごとの探索間隔を算出できるため、音源の方向にかかる処理時間を短縮することができる。
本発明の態様(5)によれば、音源定位部が、探索する方位に対応する伝達関数が伝達関数記憶部に記憶されていない場合、伝達関数を補完した補間伝達関数を用い、探索する方位に対応する伝達関数が伝達関数記憶部に記憶されている場合、読み出した伝達関数を用いて音源の方向を推定するようにしたので、音源の方向を精度良く推定することができる。
本発明の態様(6)によれば、音源定位部が、探索数にかかる探索コストと、補間にかかる補間コストとの合計値である計算コストが最小になるように階層数と探索間隔とを算出するようにしたので、音源の方向にかかる処理時間を短縮することができる。
まず、本実施形態の概要を説明する。
図1は、音源の方向推定(以下、音源方向推定という)における環境を説明する図である。図1において、紙面の左右方向をY方向とし、Y方向に対し垂直な方向をX方向とする。符号2a及び2bは音源を示す。本実施形態の音源方向推定装置(音源方向推定部)11は、このような複数の音源を認識するために、音源定位と音源分離を行う。図1に示した例では、音源2aは、X軸に対して左回りに角度a1の方向にあり、音源2bは、X軸に対して右回りに角度a2の方向にある。
音源分離部13は、音源定位部12から入力された音源定位させた結果を示す情報に対して、目的音と雑音との音源分離を行う。音源分離部13は、音源分離した各音源に対応する信号を音響特徴量抽出部14に出力する。なお、目的音とは、例えば、複数の発話者から発せられた音声である。雑音(ノイズ)とは、目的音以外の、例えば、風切り音、集音された部屋に置かれている他の装置が発する音などである。
発話認識部15は、音源に人間が発話した音声が含まれている場合、音響特徴量抽出部14から入力された音響特徴量に基づいて音声認識し、認識した認識結果を認識結果出力部16に出力する。
認識結果出力部16は、例えば表示装置、音響信号出力装置等である。認識結果出力部16は、発話認識部15から入力された認識結果に基づく情報を、例えば表示部に表示する。
このような音響処理装置1、または音源方向推定部11は、例えば、ロボット、車、航空機(含むヘリコプター)、携帯端末等に組み込まれているようにしてもよい。携帯端末とは、例えば、携帯電話端末、携帯情報端末、携帯ゲーム端末等である。
図3のように、音源定位部12は、音声入力部101、短時間フーリエ変換部102、第1相関行列算出部103、ノイズデータベース104、第2相関行列算出部105、行列算出部106、階層数算出部107、第1空間スペクトル算出部108、第2空間スペクトル算出部109、ピークサーチ部110、STF(Spatial Transfer Function;空間伝達関数)処理部111、伝達関数記憶部112、及び出力部113を含んで構成されている。
短時間フーリエ変換部102は、フレーム毎に短時間フーリエ変換した入力信号を用いて、周波数ω、フレーム時刻f毎に行列X(ω、f)を生成し、生成したM列の入力ベクトルX(ω、f)を第1相関行列算出部103に出力する。
行列算出部106は、空間相関行列R(ω、f)に雑音相関行列K(ω、f)の逆行列K−1(ω、f)を左側から乗算したK−1(ω、f)R(ω、f)に対して、次式(3)で表されるGSVD(generalized singular−value decomposition:一般化特異値展開)−MUSIC法により演算を行う。行列算出部106は、GSVD−MUSIC法により、式(3)の関係を満たすベクトルEl(ω、f)と固有値行列Λ(ω、f)を算出する。行列算出部106は、この処理により、目的音の部分空間と雑音の部分空間とに分解する。本実施形態では、(3)式により、雑音を白色化できる。
また、固有値行列Λ(ω、f)は、次式(4)である。なお、式(4)において、diagは対角行列を表している。
第1空間スペクトル算出部108は、算出した空間スペクトルP(ω、ψ、f)、及び階層数算出部107から入力された階層数を第2空間スペクトル算出部109に出力する。
ピークサーチ部110は、第2空間スペクトル算出部109から入力された階層数分、第1空間スペクトル算出部108〜STF処理111の推定処理が終了したか否かを判別する。ピークサーチ部110は、階層数分、推定処理が終了したと判別した場合、検出したピーク値ψ[l]を、推定方位ψとして出力部113に出力する。ピークサーチ部110は、階層数分、推定処理が終了していないと判別した場合、検出したピーク値ψ[l]、階層数、及び探索間隔を、STF選択部111に出力する。
STF処理部111は、予め定められている探索範囲(1つの階層ともいう)に対して探索が終了した場合、ピーク値が検出された方位に基づいて、新たな探索範囲と、探索間隔を後述するように算出する。STF処理部111は、算出した新たな探索範囲と、探索間隔を第1空間スペクトル算出部108に出力する。
このような構成により、本実施形態によれば、階層数算出部107が探索を行う階層数と探索間隔とを算出する。次に、音源定位部12(図3)が、予め定められた探索範囲全体を粗い探索間隔に分け、その粗い探索間隔で探索して音源方向を推定する。次に、音源定位部12は、推定された方向に対応する探索間隔を1つ選択し、選択された探索間隔を新たな探索範囲として探索範囲を更新する。そして、音源定位部12は、この新たな探索範囲内をより細かい探索間隔に分けて探索範囲を更新し、その細かい探索間隔において探索を行うことで音源方向を推定する。この結果、本実施形態では、音源方向の推定にかかる処理時間を短縮することができる。
第1コスト演算部121は、拘束条件に基づく音源分離(GSS(幾何制約付き音源分離))の手法を用いて、コスト関数JGC(W)を算出し、算出したコスト関数JGC(W)を音源分離処理部123に出力する。
第1コスト演算部121は、次式(8)に表されるコスト関数JGC(W)のDに伝達関数を指定することで、幾何拘束を実現する。は、コスト関数JGCは、幾何制約度であり、分離行列Wを算出するために用いられる。
また、式(11)において、EHDSSは、式(12)である。
なお、φ(yi)は、多様な定義ができるが、φ(yi)の一例として、次式(14)のように双曲線正接(hyperbolic−tangent−based)関数を用いてもよい。
ステップサイズμGCは、EGCと幾何誤差行列J’GC(Wt)を用いた次式(16)である。ステップサイズμHDSSは、EHDSSと幾何誤差行列J’GHDSSを用いた次式(17)である。
なお、本実施形態では、音源分離部13が、GDHSS法を用いて音源分離する例を説明したが、公知のBSS(ブラインド信号源分離)法等を用いて音源分離してもよい。
図6に示すように、探索範囲は、0からd0である。具体的な探索範囲は、例えば、0度から180度である。第1階層目の探索間隔はd1であり、第2階層目の探索間隔はd2である。音源方向推定装置11の使用者による所望の空間解像度は、第S階層目の探索間隔dSである。なお、図6では、説明を簡略化するために、各階層の探索間隔が4の場合を示したが、探索間隔の個数はこれに限られない。また、符号p1〜p5は、予め伝達関数が計測されている計測点を表している。具体的な例として、計測点p1は0度、計測点p2は30度であり、計測点p3は90度であり、計測点p4は130度、計測点p5は180度である。また、符号q11〜q15は、第1階層目の探索点を表している。具体的な例として、探索点q11は0度、探索点q12は45度であり、探索点q13は90度であり、探索点q14は135度、探索点q15は180度である。
なお、各方位p1、p2、p3、p4に対応した伝達関数A(ω,ψp1)〜A(ω,ψp4)が、伝達関数記憶部112に予め記憶されているとする。
一例として、図6において、ピーク値が検出された探索点がq13であった場合、STF処理部111は、隣接する2つの探索点として探索点q12と探索点q14とを選択する。この場合、第2階層目の探索範囲は、探索点q12からq14までであり、探索範囲の幅が2d1である。ステップS10終了後、ステップS11に進む。
第1空間スペクトル算出部108〜STF処理部111は、第2階層において、ステップS2〜S9を繰り返し、各間隔の伝達関数(または補間伝達関数)を用いて、平均化空間スペクトルP(ψ、f)を算出し、ピーク値を有する方位ψを推定する。第2階層の探索が終了後、STF処理部111は、ピーク値を有する探索点に隣接する2つの探索点を選択し、次の階層で使用する探索間隔dを算出する。以後、ステップS1で算出された全ての階層について、ステップS2〜S12を繰り返して、第1空間スペクトル算出部108〜STF処理部111は、音源方位推定を行う。
なお、計測された2つの計測点における各伝達関数Aは、次式(20)、次式(21)のように表される。これらの伝達関数Aは、伝達関数記憶部112に予め記憶されている。伝達関数A(ω、ψ1)は、方向ψ1における伝達関数であり、伝達関数A(ω、ψ2)は、方向ψ2における伝達関数である。
FDLI(周波数領域での線形補間)法では、STF処理部111が、次式(22)を用いて、2つの計測点間において、線形補間をおこなって補間伝達関数A^を算出する。
TDLI(時間領域での線形補間)法では、次式(23)のように表される。
式(23)を振幅補間とみなし、式(24)を位相補間とみなすと、周波数領域におけるTDLI法は、次式(25)のように表される。
FTDLI法は、上述したFDLI法とTDLI法とを統合した線形補間法である。FTDLI法は、周波数領域での線形補間から位相を求め、時間領域の線形補間から振幅を求める。FTDLI法では、STF処理部111が、次式(26)を用いて、2つの計測点間において、線形補間をおこなって補間伝達関数A^を算出する。
(I)まず、式(22)と式(25)を用いて、補間伝達関数を算出する。以下の説明では、求めた各補間伝達関数を、次式(27)と次式(28)のように表記する。
図7は、本実施形態に係る階層値の算出手順について説明する図である。なお、以下の説明では、各層において探索範囲の左を便宜的に0とする。また、各階層において、便宜的に、探索点と探索点との間、例えば第1階層において、いずれかの探索間隔d1にピーク値があるとして説明する。
まず、2つの伝達関数の方向ψ1と方向ψ1の間隔をd0とする。すなわち、2つの伝達関数の方向ψ1と方向ψ1との間隔0から間隔d0の範囲を、間隔dSで探索する場合、探索数はd0/dSである。探索数を最小化して計算コストを削減するため、本実施形態では、以下のように探索を階層的に行う。
図7に示すように、階層数をSとし、第s階層目の間隔をdsとする。ただし、sは1以上S以下である。すなわち、第1階層目の間隔がd1であり、第2階層目の間隔がd2(ただしd2は、d1より小さい)である。階層化とは、まず、第s階層目の探索を行い、探索によりピーク値を含む1つの間隔dsを選択する。次に、選択した間隔dsを第s+1階層目とする。この第s+1階層目において、間隔をds+1として探索を行う。第s+1階層目の探索により、ピーク値を含む1つの間隔ds+1を選択し、選択した間隔ds+1を、第s+2階層目として扱う。このような処理を階層化という。また、階層化では、上の階層の間隔が粗く、下の階層の間隔が細かくなっていく。そして、第S階層目では、間隔がdSであり、間隔数がdS−1であるので、探索数は(dS−1)/dSである。なお、間隔dsを、以下では粒度ともいう。
図7に示すように、第2階層目(S=2)まで探索した場合の総探索数F(d1)は、次式(31)のように表される。
この間隔d1の値の場合、第1階層の探索数は次式(33)であり、第2階層の探索数は次式(34)である。
次に、階層数がsの場合、総探索数を最小にする条件を説明する。階層数sの場合であっても、各階層の探索数を等しくすれば、総探索数を最小にできる。
以下に、背理法を用いて、この理由を説明する。
階層数sのとき、総探索数は、d0/d1+d1/d2+・・・+d(s−1)/dsである。この総探索数が最小となり、かつd(i−1)/di≠di/d(i+1)となる階層があると仮定する。ただし、iは、1以上S以下の整数である。
i−1からi+1までの2つの階層において、各階層の探索数d(i−1)/di=di/d(i+1)のときに、2階層の例で説明したように(d(i−1)/di)+(di/d(i+1))が最小になるため、この仮定は矛盾する。すなわち、d(i−1)/di≠di/d(i+1)となる階層は存在しないことになる。
この結果、階層数にかかわらず、各階層の探索数を等しい場合、総探索数を最小にできる。従って、階層数がsの場合、総探索数を最小にする条件は、d0/d1=d1/d2=・・・=d(s−1)/dsである。
この条件式を変形すると、次式(35)のように表される。
次に、階層数をSとした場合、総探索数G(S)は、d0/d1=d1/d2=・・・=d(S−1)/dSより、次式(37)になる。
第1実施形態では、階層数算出部107は、総探索数が最小となる階層数Sと、粒度dsを算出する例を説明した。
本実施形態では、伝達関数の方向ψ1と方向ψ2との間に補間が行われ、補間された方向も考慮して探索する例を説明する。
図8に示すように、第1階層目の探索コストは、(d0/d1)ctであり、第2階層目の探索コストは、(d1/d2)ctであり、第S階層目の探索コストは、(dS−1/dS)ctである。
本実施形態では、階層数算出部107は、階層化による計算コストを最小にする階層数Sと、粒度dsを算出する。
まず、第s階層目の探索数はds−1/dsであり、探索コストは(ds−1/ds)ctである。この探索コスト(ds−1/ds)ctは、固定値である。
次に、全ての探索点が補間の必要がない場合、補間コストは、0である。
次に、全ての探索点が補間の必要がある場合、補間コストは、(ds−1/ds)cIである。
従って、第s階層目の補間コストの範囲IscIの範囲は、0以上、(ds−1/ds)cI以下である。ここで、csは0以上、cI以下とし、補間コストを(ds−1/ds)csの固定値であるとする。
さらに、第1実施形態で説明した式(37)の総探索数G(S)と、ci=0の場合のG〜(S)が等しくなるように、ctを1にして、コストを正規化する。ctの正規化により、式(41)右辺のうちct+ciは、1+ciと表される。この(1+ci)を新たに変数Ciとする。ただし、変数Ciは、1以上である。ct+ciを変数Ciに置き換えることで、式(41)は、次式(42)になる。
まず、階層数が、2階層の場合について説明する。
この場合の総探索数F(d1)は、(d0/d1)C1+(d1/dS)CSである。総探索数F(d1)において、d1のみが変数である。総探索数F(d1)の最小値を算出するため、総探索数F(d1)をd1で偏微分すると、次式(43)になる。
このときの第1階層目の探索数は次式(44)であり、第2階層目の探索数は次式(45)である。
同様に、階層数がsの場合に、計算コストが最小になる条件は、Ciによって重み付けされた各階層の計算コスト(di−1/di)Ciが等しいことである。ただし、iは、1以上、s以下である。
次に、階層数をSとした場合、式(42)の計算コストG〜(S)を、(d0/d1)C1=(d1/d2)C2=・・・=(d(S−1)/dS)CSの条件で求める。この条件式を変形すると、次式(46)のように表される。
次に、第1実施形態または第2実施形態の音源方向推定装置11を、オープンソースであるロボット聴覚ソフトウェアHARK(HRI−JP Audition for Robots with Kyoto University)上に実装して評価した結果を説明する。また、以下の評価では、第1実施形態の音源方向推定装置11を、人型ロボットに取り付けて評価を行った。
図10は、評価条件を説明する図である。図10に示すように、評価条件は、標本化周波数が16[kHz]であり、FFT点数が512点であり、シフト長が160であり、マイクロホン数が8個であり、マイクロホンを円形アレイ状態に設置である。また、評価条件は、話者数が4人であり、話者までの距離が1.5[m]であり、評価を行った部屋の大きさが7×4[m]であり、評価を行った部屋の残響時間が0.2[sec]である。
また、以下の評価において、f(ω[k],ψ^[i])の誤差指標として、位相推定誤差(PEE)、スペクトル歪み(SD)、信号対歪み比(SDR)を用いた。
PEEは、次式(53)で表され、位相誤差指標である。
また、補間係数DAの線形性について、次式(56)を用いて評価した。
以下、d1 −、d2 −、及びd3 −をそれぞれ、PEE、SD、及びSDRを用いたときのd− [ψ1,ψ2]とする。
図12(a)〜図12(f)において、横軸は相対的な角度であり、縦軸はエラーの平均値である。図12(a)は、e1 −の評価値の一例であり、図12(b)は、e2 −の評価値の一例であり、図12(c)は、e3 −の評価値の一例である。図12(d)は、d1 −の評価値の一例であり、図12(e)は、d2 −の評価値の一例であり、図12(f)は、d3 −の評価値の一例である。
また、図12(d)〜図12(f)に示すように、DAの線形性においても、FTDLI法を用いた場合では、d1 −、d2 −及びd3 −の全てにおいて、FDLI法及びTDLI法を用いた場合と比較して、誤差が少ない。このことは、DAの線形性においても、FTDLI法を用いた場合が、最も線形に近いことを表している。
なお、評価は、白色雑音を1度毎(ただし、方位ψは、−90度以上、90度以下の範囲)に再生し、再生された音源の再生方向と推定方向との誤差を算出して評価した。評価では、伝達関数の計測間隔を方位ψが1度、5度、10度、30度、60度、90度、及び120度になるように変化させ、さらに補間により1度間隔の伝達関数を生成した。
評価は、音源の個数を変化させ、1000フレーム分の処理を行ったとき、音源定位の計算(式(3)〜式(7))にかかる平均処理時間を算出した。なお、音源探索の階層は2階層とし、第1階層において10度間隔の探索を行った後、第2階層において1度間隔の探索を行った。また、音源は、1個、2個、3個、及び4個の場合について評価した。
図14は、計算コストの評価を行った結果の一例を示す図である。図14において、2段目は階層化せずに探索を行った場合(階層化なし)の演算時間であり、3段目は、本発明による階層化して探索を行った場合(階層化あり)の演算時間である。
このように、音源が4個同時に存在し発話されている状態であっても、フレーム周期10[msec]以下で処理が終了する。また、図14に示すように、本実施形態のように階層化して探索した場合は、音源数によらずに平均処理時間を、階層化しないで探索した場合と比較して50%以下に軽減できている。このように、本発明によれば、音源方向の推定にかかる処理効率を向上することができる。
評価に用いた音声は、ATR音声データベースの10人×216単語の発話データを用い、4話者が同時に発話した音声の認識を行った。また、評価に用いた伝達関数は、図12と同じ間隔である。この伝達関数に補間を行い、1度間隔の伝達関数を推定した。評価は、この推定した伝達関数の間隔を変えたときのWCRの評価を行った。評価は、図13と同様に、補間無し(NONE)、FDLI法、TDLI法、FTDLI法について評価した。
S・・・階層数、dS・・・探索間隔(粒度)、A・・・伝達関数
Claims (8)
- 音源からの伝達関数を前記音源の方向毎に記憶する伝達関数記憶部と、
前記音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と階層ごとの探索間隔を算出する算出部と、
前記探索範囲を探索間隔毎に前記伝達関数を用いて探索し、探索した結果に基づいて前記音源の方向を推定し、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出部が算出した階層数になるまで更新し、前記音源の方向を推定する音源定位部と、
を備えることを特徴とする音源方向推定装置。 - 前記音源定位部は、
第n(nは1以上の整数)の階層を予め定められた前記探索範囲において、前記算出された探索間隔で探索し、探索した結果に基づき、前記探索範囲の中から少なくとも1つの前記探索間隔を第(n+1)の階層の探索範囲として更新し、
前記更新した第(n+1)の階層の探索範囲と、前記所望の空間解像度に基づいて、探索を行う前記第(n+1)の階層の探索間隔を更新し、
前記更新した第(n+1)の階層の探索範囲と、前記更新した前記第(n+1)の階層の探索間隔と、前記方向に対応した伝達関数とを用いて、前記音源の方向を階層数(n+1)が前記算出部により算出された階層数になるまで更新して推定する
ことを特徴とする請求項1に記載の音源方向推定装置。 - 前記算出部は、
全ての前記階層における階層毎の探索数が等しくなるように、前記階層数と前記探索間隔とを算出する
ことを特徴とする請求項1または請求項2に記載の音源方向推定装置。 - 前記算出部は、
全ての階層における総探索数が最小になるように、前記階層数と前記探索間隔とを算出する
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音源方向推定装置。 - 前記音源定位部は、
前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されているか否かを判別し、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されていると判別した場合、前記探索間隔の方位に対応する前記伝達関数を前記伝達関数記憶部から読み出し、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されていないと判別した場合、前記探索間隔の方位に対応する前記伝達関数を補間により補間伝達関数を算出し、前記読み出した伝達関数、または算出した補間伝達関数を用いて、前記音源の方向を推定する
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音源方向推定装置。 - 前記算出部は、
前記探索範囲における探索数にかかる探索コストと、前記補間にかかる補間コストとの合計値である計算コストが最小になるように前記階層数と前記探索間隔とを算出する
ことを特徴とする請求項5に記載の音源方向推定装置。 - 音源方向推定装置における音源方向推定方法であって、
算出部が、音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と前記階層ごとの探索間隔を算出する算出手順と、
音源定位部が、前記音源の方向毎に伝達関数記憶部に記憶されている前記音源からの伝達関数を用いて、前記探索範囲を探索間隔毎に探索し、探索した結果に基づいて前記音源の方向を推定する手順と、
前記音源定位部が、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出手順により算出された階層数になるまで更新し、前記音源の方向を推定する手順と、
と含むことを特徴とする音源方向推定方法。 - 音源方向推定装置のコンピュータに、
音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と前記階層ごとの探索間隔を算出する算出手順と、
前記音源の方向毎に伝達関数記憶部に記憶されている前記音源からの伝達関数を用いて、前記探索範囲を探索間隔毎に探索し、探索した結果に基づいて前記音源の方向を推定する手順と、
推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出手順により算出された階層数になるまで更新し、前記音源の方向を推定する手順と、
を実行させるための音源方向推定プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012203393A JP5931661B2 (ja) | 2012-09-14 | 2012-09-14 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
US14/023,622 US9971012B2 (en) | 2012-09-14 | 2013-09-11 | Sound direction estimation device, sound direction estimation method, and sound direction estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012203393A JP5931661B2 (ja) | 2012-09-14 | 2012-09-14 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014059180A JP2014059180A (ja) | 2014-04-03 |
JP5931661B2 true JP5931661B2 (ja) | 2016-06-08 |
Family
ID=50274345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012203393A Active JP5931661B2 (ja) | 2012-09-14 | 2012-09-14 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9971012B2 (ja) |
JP (1) | JP5931661B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6817068B2 (ja) * | 2014-03-25 | 2021-01-20 | リキグライド,インコーポレイテッド | 液体含浸表面形成のためのスプレープロセスおよび方法 |
US9945946B2 (en) * | 2014-09-11 | 2018-04-17 | Microsoft Technology Licensing, Llc | Ultrasonic depth imaging |
EP3226436B1 (en) | 2014-12-17 | 2020-02-05 | Huawei Technologies Co., Ltd. | Pre-coding information collection method and transmission device |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
US10097819B2 (en) * | 2015-11-23 | 2018-10-09 | Rohde & Schwarz Gmbh & Co. Kg | Testing system, testing method, computer program product, and non-transitory computer readable data carrier |
US10599631B2 (en) | 2015-11-23 | 2020-03-24 | Rohde & Schwarz Gmbh & Co. Kg | Logging system and method for logging |
CN105842656B (zh) * | 2016-05-31 | 2018-01-12 | 黑龙江工程学院 | 基于雅克比旋转联合对角化的空时频方位估计方法 |
WO2019073804A1 (ja) * | 2017-10-11 | 2019-04-18 | ソニー株式会社 | 音源方向推定装置および方法、並びにプログラム |
CN109884591B (zh) * | 2019-02-25 | 2023-04-28 | 南京理工大学 | 一种基于麦克风阵列的多旋翼无人机声信号增强方法 |
JP7450911B2 (ja) * | 2019-12-05 | 2024-03-18 | 国立大学法人 東京大学 | 音響解析装置、音響解析方法及び音響解析プログラム |
EP4115404A1 (en) * | 2020-03-06 | 2023-01-11 | Cerence Operating Company | System and method for integrated emergency vehicle detection and localization |
EP4292079A4 (en) * | 2021-02-11 | 2025-01-01 | Microsoft Technology Licensing Llc | MULTI-CHANNEL SPEECH COMPRESSION SYSTEM AND METHOD |
CN113050037B (zh) * | 2021-03-23 | 2022-10-04 | 上海交通大学 | 一种变电站设备异常声源定位方法及系统 |
CN113138363A (zh) * | 2021-04-22 | 2021-07-20 | 苏州臻迪智能科技有限公司 | 一种声源定位方法、装置、存储介质和电子设备 |
CN116244477B (zh) * | 2023-05-11 | 2023-07-04 | 深圳依时货拉拉科技有限公司 | 区间分级检索方法、装置、计算机设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2934426B1 (ja) * | 1998-02-09 | 1999-08-16 | 株式会社ワイ・アール・ピー移動通信基盤技術研究所 | 到来波推定方法 |
JP2001091617A (ja) * | 1999-09-24 | 2001-04-06 | Toyota Central Res & Dev Lab Inc | ターゲット方位検出装置 |
US7720229B2 (en) * | 2002-11-08 | 2010-05-18 | University Of Maryland | Method for measurement of head related transfer functions |
JP2005201798A (ja) * | 2004-01-16 | 2005-07-28 | Toshiba Corp | 到来方位測定システム及び到来方位測定方法 |
JP2006292660A (ja) * | 2005-04-14 | 2006-10-26 | Matsushita Electric Ind Co Ltd | 電波到来方向推定装置 |
TWI286903B (en) * | 2005-10-21 | 2007-09-11 | Himax Tech Ltd | Method of channel estimation |
FR2917180B1 (fr) * | 2007-06-08 | 2010-05-14 | Thales Sa | Procede d'estimation des angles d'arrivees de sources coherentes par une technique de lissage spatial sur un reseau de capteurs quelconque |
JP5305743B2 (ja) * | 2008-06-02 | 2013-10-02 | 株式会社東芝 | 音響処理装置及びその方法 |
JP5702685B2 (ja) * | 2010-08-17 | 2015-04-15 | 本田技研工業株式会社 | 音源方向推定装置及び音源方向推定方法 |
-
2012
- 2012-09-14 JP JP2012203393A patent/JP5931661B2/ja active Active
-
2013
- 2013-09-11 US US14/023,622 patent/US9971012B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140078867A1 (en) | 2014-03-20 |
JP2014059180A (ja) | 2014-04-03 |
US9971012B2 (en) | 2018-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5931661B2 (ja) | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム | |
US7895038B2 (en) | Signal enhancement via noise reduction for speech recognition | |
US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
US8280739B2 (en) | Method and apparatus for speech analysis and synthesis | |
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
JP6278294B2 (ja) | 音声信号処理装置及び方法 | |
JP6169910B2 (ja) | 音声処理装置 | |
JP2014219467A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
JP2017044916A (ja) | 音源同定装置および音源同定方法 | |
JP4403436B2 (ja) | 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム | |
US9478230B2 (en) | Speech processing apparatus, method, and program of reducing reverberation of speech signals | |
JP2017009700A (ja) | 音源分離装置、および音源分離方法 | |
US10674261B2 (en) | Transfer function generation apparatus, transfer function generation method, and program | |
US9576583B1 (en) | Restoring audio signals with mask and latent variables | |
JP2018156052A (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
JP6606784B2 (ja) | 音声処理装置および音声処理方法 | |
Duong et al. | Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model | |
JP4653674B2 (ja) | 信号分離装置、信号分離方法、そのプログラムおよび記録媒体 | |
JP7266433B2 (ja) | 音源定位装置、音源定位方法、およびプログラム | |
JP3862685B2 (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム | |
Mallis et al. | Convolutive audio source separation using robust ICA and an intelligent evolving permutation ambiguity solution | |
Paul et al. | Effective Pitch Estimation using Canonical Correlation Analysis | |
JP7000281B2 (ja) | 音響信号処理装置、音響信号処理方法及びプログラム | |
CN110675890A (zh) | 声音信号处理装置以及声音信号处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5931661 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |