[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5931661B2 - 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム - Google Patents

音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム Download PDF

Info

Publication number
JP5931661B2
JP5931661B2 JP2012203393A JP2012203393A JP5931661B2 JP 5931661 B2 JP5931661 B2 JP 5931661B2 JP 2012203393 A JP2012203393 A JP 2012203393A JP 2012203393 A JP2012203393 A JP 2012203393A JP 5931661 B2 JP5931661 B2 JP 5931661B2
Authority
JP
Japan
Prior art keywords
sound source
search
transfer function
unit
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012203393A
Other languages
English (en)
Other versions
JP2014059180A (ja
Inventor
圭佑 中村
圭佑 中村
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2012203393A priority Critical patent/JP5931661B2/ja
Priority to US14/023,622 priority patent/US9971012B2/en
Publication of JP2014059180A publication Critical patent/JP2014059180A/ja
Application granted granted Critical
Publication of JP5931661B2 publication Critical patent/JP5931661B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源方向推定装置、音源方向推定方法、及び音源方向推定プログラムに関する。
音源から発せられた音響信号に対して、発せられた音声に対して音声認識することが提案されている。このような音声認識では、音響信号から雑音信号を分離し、または雑音信号を抑圧して、認識させたい目的の音響信号を抽出する。そして、抽出された音響信号に対して、例えば音声認識を行う。このようなシステムでは、認識する音声を抽出するため、音響信号が発せられた方向が既知であるか、音響信号が発せられた方向を推定する。
例えば、特許文献1では、入力された音響信号の音響特徴量に基づいて音響信号の音源の種類を同定し、同定した種類の音源の音響信号について音源方向を推定する。また、特許文献1では、このような音源方向の情報を推定(以下、音源定位という)に、GEVD(一般化固有値分解)−MUSIC法、またはGSVD(一般化特異値分解)−MUSIC法を用いている。このように、GEVD−MUSIC法、またはGSVD−MUSIC法を用いた場合、音源推定装置では、音源定位の演算効率が上がる。
特開2012−42465号公報
しかしながら、このような音源推定装置では、音源方向を探索する範囲において、予め各音源方向に対応付けられた伝達関数を計測または計算により求めて、装置内に記憶させておく。そして、このような音源推定装置では、記憶部に記憶されている伝達関数を用いて、空間スペクトルを算出し、算出した空間スペクトルに基づいて音源方向を求める。このため、音源方向の推定精度を上げるためには、多数の各音源方向に対応付けられた伝達関数が必要である。従って、従来の音源推定装置では、音源方向の推定精度を上げるためには、演算量が多く、演算効率が悪いという課題があった。
本発明は上記の点に鑑みてなされたものであり、音源方向の推定にかかる処理効率を向上することができる音源方向推定装置、音源方向推定方法、及び音源方向推定プログラムを提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音源方向推定装置は、音源からの伝達関数を前記音源の方向毎に記憶する伝達関数記憶部と、前記音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と階層ごとの探索間隔を算出する算出部と、前記探索範囲を探索間隔毎に前記伝達関数を用いて探索し、探索した結果に基づいて前記音源の方向を推定し、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出部が算出した階層数になるまで更新し、前記音源の方向を推定する音源定位部と、を備えることを特徴としている。
(2)また、本発明の一態様に係る音源方向推定装置であって、前記音源定位部は、第n(nは1以上の整数)の階層を予め定められた前記探索範囲において、前記算出された探索間隔で探索し、探索した結果に基づき、前記探索範囲の中から少なくとも1つの前記探索間隔を第(n+1)の階層の探索範囲として更新し、前記更新した第(n+1)の階層の探索範囲と、前記所望の空間解像度に基づいて、探索を行う前記第(n+1)の階層の探索間隔を更新し、前記更新した第(n+1)の階層の探索範囲と、前記更新した前記第(n+1)の階層の探索間隔と、前記方に対応した伝達関数とを用いて、前記音源の方向を階層数(n+1)が前記算出部により算出された階層数になるまで更新して推定するようにしてもよい。
(3)また、本発明の一態様に係る音源方向推定装置であって、前記算出部は、全ての前記階層における階層毎の探索数が等しくなるように、前記階層数と前記探索間隔とを算出するようにしてもよい。
(4)また、本発明の一態様に係る音源方向推定装置であって、前記算出部は、全ての階層における総探索数が最小になるように、前記階層数と前記探索間隔とを算出するようにしてもよい。
(5)また、本発明の一態様に係る音源方向推定装置であって、前記音源定位部は、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されているか否かを判別し、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されていると判別した場合、前記探索間隔の方位に対応する前記伝達関数を前記伝達関数記憶部から読み出し、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されていないと判別した場合、前記探索間隔の方位に対応する前記伝達関数を補間により補間伝達関数を算出し、前記読み出した伝達関数、または算出した補間伝達関数を用いて、前記音源の方向を推定するようにしてもよい。
(6)また、本発明の一態様に係る音源方向推定装置であって、前記算出部は、前記探索範囲における探索数にかかる探索コストと、前記補間にかかる補間コストとの合計値である計算コストが最小になるように前記階層数と前記探索間隔とを算出するようにしてもよい。
(7)上記目的を達成するため、本発明の一態様に係る音源方向推定方法は、音源方向推定装置における音源方向推定方法であって、算出部が、音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と前記階層ごとの探索間隔を算出する算出手順と、音源定位部が、前記音源の方向毎に伝達関数記憶部に記憶されている前記音源からの伝達関数を用いて、前記探索範囲を探索間隔毎に探索し、探索した結果に基づいて前記音源の方向を推定する手順と、前記音源定位部が、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出手順により算出された階層数になるまで更新し、前記音源の方向を推定する手順と、と含むことを特徴としている。
(8)上記目的を達成するため、本発明の一態様に係る音源方向推定プログラムは、音源方向推定装置のコンピュータに、音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と前記階層ごとの探索間隔を算出する算出手順と、前記音源の方向毎に伝達関数記憶部に記憶されている前記音源からの伝達関数を用いて、前記探索範囲を探索間隔毎に探索し、探索した結果に基づいて前記音源の方向を推定する手順と、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出手順により算出された階層数になるまで更新し、前記音源の方向を推定する手順と、を実行させることを特徴としている。
本発明の態様(1)、(2)、(7)及び(8)によれば、算出部が、音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と階層ごとの探索間隔を算出するので、音源の方向にかかる処理時間を短縮することができる。
本発明の態様(3)及び(4)によれば、算出部が、少ない演算量で探索を行う階層数と階層ごとの探索間隔を算出できるため、音源の方向にかかる処理時間を短縮することができる。
本発明の態様(5)によれば、音源定位部が、探索する方位に対応する伝達関数が伝達関数記憶部に記憶されていない場合、伝達関数を補完した補間伝達関数を用い、探索する方位に対応する伝達関数が伝達関数記憶部に記憶されている場合、読み出した伝達関数を用いて音源の方向を推定するようにしたので、音源の方向を精度良く推定することができる。
本発明の態様(6)によれば、音源定位部が、探索数にかかる探索コストと、補間にかかる補間コストとの合計値である計算コストが最小になるように階層数と探索間隔とを算出するようにしたので、音源の方向にかかる処理時間を短縮することができる。
音源の方向推定における環境を説明する図である。 第1実施形態に係る音響処理装置の処理の概略を示す図である。 第1実施形態に係る音源定位部のブロック図である。 第1実施形態に係る音源分離部のブロック図である。 第1実施形態に係る階層化探索処理の手順を示すフローチャートである。 第1実施形態に係る階層化探索処理の手順を説明する図である。 第1実施形態に係る階層値の算出手順について説明する図である。 第2実施形態に係る階層数及び間隔の算出手順について説明する図である。 第2実施形態に係る第s階層目の探索コストと補間コストを説明する図である。 評価条件を説明する図である。 評価における探索点を説明する図である。 方位ψを変化させたときのPEE、SD、SDRを用いたときの伝達関数の誤差と補間係数の線形性を評価した結果の一例を示す図である。 補間の有無による音源の到来方向推定の平均誤差の一例を示す図である。 計算コストの評価を行った結果の一例を示す図である。 音源毎に分離した音響信号に対して音声認識した結果の一例を示す図である。
以下、本発明の実施形態について詳細に説明する。なお、本発明は係る実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。
[第1実施形態]
まず、本実施形態の概要を説明する。
図1は、音源の方向推定(以下、音源方向推定という)における環境を説明する図である。図1において、紙面の左右方向をY方向とし、Y方向に対し垂直な方向をX方向とする。符号2a及び2bは音源を示す。本実施形態の音源方向推定装置(音源方向推定部)11は、このような複数の音源を認識するために、音源定位と音源分離を行う。図1に示した例では、音源2aは、X軸に対して左回りに角度aの方向にあり、音源2bは、X軸に対して右回りに角度aの方向にある。
図2は、本実施形態に係る音響処理装置1の処理の概略を示す図である。図2に示すように、音響処理装置1は、音源方向推定部11、音響特徴量抽出部(Acoustic Feature Extraction)14、発話認識部(Automatic Speech Recognition)15、及び認識結果出力部16を含んで構成される。音源方向推定部11は、音源定位部(Sound Source Localization)12、音源分離部(Sound Source Separation)13を備えている。
音源定位部12は、音響信号入力部を有し、例えば、複数のマイクロホンで集音された音響信号を、フーリエ変換する。音源定位部12は、フーリエ変換した複数の音響信号に対して、音源方向を推定する(以下、音源定位という)。音源定位部12は、音源定位させた結果を示す情報を音源分離部13に出力する。
音源分離部13は、音源定位部12から入力された音源定位させた結果を示す情報に対して、目的音と雑音との音源分離を行う。音源分離部13は、音源分離した各音源に対応する信号を音響特徴量抽出部14に出力する。なお、目的音とは、例えば、複数の発話者から発せられた音声である。雑音(ノイズ)とは、目的音以外の、例えば、風切り音、集音された部屋に置かれている他の装置が発する音などである。
音響特徴量抽出部14は、音源分離部13から入力された各音源に対応する信号の音響特徴量を抽出し、抽出した各音響特徴量を示す情報を発話認識部15に出力する。
発話認識部15は、音源に人間が発話した音声が含まれている場合、音響特徴量抽出部14から入力された音響特徴量に基づいて音声認識し、認識した認識結果を認識結果出力部16に出力する。
認識結果出力部16は、例えば表示装置、音響信号出力装置等である。認識結果出力部16は、発話認識部15から入力された認識結果に基づく情報を、例えば表示部に表示する。
このような音響処理装置1、または音源方向推定部11は、例えば、ロボット、車、航空機(含むヘリコプター)、携帯端末等に組み込まれているようにしてもよい。携帯端末とは、例えば、携帯電話端末、携帯情報端末、携帯ゲーム端末等である。
本実施形態では、音源方向の推定精度の向上のために、音源の空間分解能を向上しつつ、計算コストを軽減するために、階層的に音源方向を推定していく。なお、階層的に音源方向を推定するとは、音源方向推定部11(図2)が、まず、予め定められた探索範囲全体を粗い探索間隔に分け、その粗い探索間隔で探索して音源方向を推定する。次に、音源方向推定部11は、推定された方向に対応する探索間隔を1つ選択し、選択された探索間隔を新たな探索範囲とする。そして、音源方向推定部11は、この新たな探索範囲内をより細かい探索間隔に分け、その細かい探索間隔において探索を行うことで音源方向を推定する。このように、本実施形態では、例えば、現在の探索間隔より次の探索間隔を狭めて探索を行う。この結果、本実施形態では、音源方向の推定にかかる処理時間を短縮することができる。
図3は、本実施形態に係る音源定位部12のブロック図である。
図3のように、音源定位部12は、音声入力部101、短時間フーリエ変換部102、第1相関行列算出部103、ノイズデータベース104、第2相関行列算出部105、行列算出部106、階層数算出部107、第1空間スペクトル算出部108、第2空間スペクトル算出部109、ピークサーチ部110、STF(Spatial Transfer Function;空間伝達関数)処理部111、伝達関数記憶部112、及び出力部113を含んで構成されている。
音声入力部101は、収音手段(例えば、マイクロホン)をM個備え(Mは2以上の整数)、各収音手段は異なる位置に配置されている。音声入力部101は、例えば、M個のマイクロホンを備えるマイクロホンアレーである。音声入力部101は、各収音手段が受信した音波を各1チャネルの音響信号として短時間フーリエ変換部102に出力する。なお、音声入力部101は、音響信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音響信号を短時間フーリエ変換部102に出力するようにしてもよい。
短時間フーリエ変換部102は、音声入力部101から入力された各チャネルの音響信号に対して時間領域において、フレーム毎に短時間フーリエ変換(short−time Fourier transform;STFT)を行って周波数領域の入力信号を生成する。短時間フーリエ変換とは、窓関数をシフトしながら関数に乗じてフーリエ変換を行う変換である。フレームとは、予め定められた長さ(フレーム長)の時間間隔、またはその時間間隔に含まれる信号である。フレーム長は、例えば、10[msec]である。
短時間フーリエ変換部102は、フレーム毎に短時間フーリエ変換した入力信号を用いて、周波数ω、フレーム時刻f毎に行列X(ω、f)を生成し、生成したM列の入力ベクトルX(ω、f)を第1相関行列算出部103に出力する。
第1相関行列算出部103は、短時間フーリエ変換部102から入力された入力ベクトルX(ω、f)を用いて、周波数ω、フレーム時刻f毎に次式(1)により空間相関行列R(ω、f)を算出する。第1相関行列算出部103は、算出した空間相関行列R(ω、f)を、行列算出部106に出力する。なお、空間相関行列R(ω、f)は、M行M列の正方行列である。
Figure 0005931661
(1)式において、fは現在のフレーム時刻を表し、Tは、空間相関行列R(ω、f)を算出する際に用いる区間の長さ(フレーム数)である。この区間の長さを窓長と呼ぶ。τは、フレーム時刻(現在のフレーム時刻には限らない)を示す変数であり、0からT−1の範囲の値である。また*は、ベクトルまたは行列の複素共役転置演算子を表す。(1)式において、空間相関行列R(ω、f)は、雑音に対するロバスト性の向上のため、Tフレームで平滑化している。すなわち、式(1)は、チャネルn(nは1以上の整数)と、チャネルm(mはnとは異なる1以上の整数)との間のチャネル間の相関として、チャネルnとチャネルkの入力信号ベクトルの複素共役との積を、現在のフレーム時刻0から窓長T−1の区間にわたって平均した値である。
ノイズデータベース104には、周波数ω、及びフレーム時刻f毎のノイズ音源の行列(以下、雑音行列という)N(ω、f)が、予め格納されている。なお、ノイズ(雑音)とは、目的音以外の、例えば、風切り音、集音された部屋に置かれている他の装置が発する音などである。
第2相関行列算出部105は、ノイズデータベース104に記憶されている雑音行列N(ω、f)を読み出し、読み出したN(ω、f)を用いて、周波数ω、フレーム時刻f毎に次式(2)により雑音の相関行列(以下、雑音相関行列という)K(ω、f)を算出する。雑音相関行列K(ω、f)は定位時の抑圧(白色化)対象の信号から算出される雑音相関行列であるが、本実施形態では、簡略化のため単位行列とする。第2相関行列算出部105は、算出した雑音相関行列K(ω、f)を行列算出部106に出力する。
Figure 0005931661
式(2)において、Tは、雑音相関行列K(ω、f)を算出する際に用いる区間の長さ(フレーム数)である。τはフレーム時刻(現在のフレーム時刻には限らない)を示す変数であり、0からT−1の範囲の値である。Nは、行列Nの複素共役転置演算子を表す。式(2)のように、雑音相関行列K(ω、f)は、チャネルnの雑音信号と、チャネルmの雑音信号との間のチャネル間の相関を、チャネルnとチャネルkの雑音行列Nの複素共役との積を、現在のフレーム時刻0からの窓長T−1の区間にわたって平均した値である。
行列算出部106は、第2相関行列算出部105から入力された雑音相関行列K(ω、f)を用いて、第1相関行列算出部103から入力された空間相関行列R(ω、f)が張る空間を、周波数ω、フレーム時刻f毎に固有ベクトルを算出する。行列算出部106は、算出した固有ベクトルを階層数算出部107に出力する。
行列算出部106は、空間相関行列R(ω、f)に雑音相関行列K(ω、f)の逆行列K−1(ω、f)を左側から乗算したK−1(ω、f)R(ω、f)に対して、次式(3)で表されるGSVD(generalized singular−value decomposition:一般化特異値展開)−MUSIC法により演算を行う。行列算出部106は、GSVD−MUSIC法により、式(3)の関係を満たすベクトルE(ω、f)と固有値行列Λ(ω、f)を算出する。行列算出部106は、この処理により、目的音の部分空間と雑音の部分空間とに分解する。本実施形態では、(3)式により、雑音を白色化できる。
Figure 0005931661
式(3)において、ベクトルE(ω、f)は、左特異ベクトル(left−singular vectors)であり、ベクトルE (ω、f)は、右特異ベクトル(right−singular vectors)の複素共役である。またベクトルE(ω、f)は、固有ベクトルe(ω、f),・・・,e(ω、f)を要素値に有するベクトルである。また、固有ベクトルe(ω、f),・・・,e(ω、f)は、固有値λ(ω、f),・・・,λ(ω、f)に各々対応する固有ベクトルである。なお、Mはマイクロホンの本数である。
また、固有値行列Λ(ω、f)は、次式(4)である。なお、式(4)において、diagは対角行列を表している。
Figure 0005931661
階層数算出部107は、後述するように、第1空間スペクトル算出部108〜STF処理部111が推定を行う階層数と探索する探索間隔を算出し、算出した階層数と探索間隔、及び行列算出部106から入力された固有ベクトルを第1空間スペクトル算出部108に出力する。この探索間隔は、空間分解能に相当する。
第1空間スペクトル算出部108は、階層数算出部107から入力された階層数と探索間隔、及び固有ベクトル、STF処理部111から入力された伝達関数Aまたは補間伝達関数A^を用いて、各フレームfについて、周波数ω、音源方向ψ毎に、次式(5)により、周波数ωが統合される前の空間スペクトルP(ω、ψ、f)を算出する。なお、第1空間スペクトル算出部108は、STF処理部111から補間伝達関数A^が入力された場合は、式(5)の伝達関数Aの代わりに補間伝達関数A^を用いて演算を行う。
第1空間スペクトル算出部108は、算出した空間スペクトルP(ω、ψ、f)、及び階層数算出部107から入力された階層数を第2空間スペクトル算出部109に出力する。
Figure 0005931661
式(5)において、|…|は、絶対値を示す。式(5)は、空間スペクトルが、伝達関数全体のうち、雑音による成分との比を表している。式(5)において、e(ω、f)は、式(3)の左特異ベクトルE(ω、f)(=e(ω、f),…,e(ω、f))である。また、Aは、伝達関数Aの複素共役である。Lは、音源の個数であり、0以上の整数である。また、A(ω、ψ)は、伝達関数記憶部112に予め記憶されている計測された既知の伝達関数であり、次式(6)である。
Figure 0005931661
なお、ψは予め計測されている音源方位、すなわち伝達関数Aの方向である。iは1以上の整数である。Mは、マイクロホンの本数である。Tは、転置行列を示している。
第2空間スペクトル算出部109は、第1空間スペクトル算出部108から入力された空間スペクトルP(ω、ψ、f)をω方向に次式(7)を用いて平均化した平均化空間スペクトルP(ψ、f)を算出する。第2空間スペクトル算出部109は、算出した平均化空間スペクトルP(ψ、f)、及び第1空間スペクトル算出部108から入力された階層数及び探索間隔をピークサーチ部110に出力する。
Figure 0005931661
式(7)において、ω[k]は、k番目の周波数ビンに対応した周波数を表す。なお、周波数ビンとは、離散化された周波数である。また、k、およびkは、周波数領域における最大周波数(上限周波数)及び最小周波数(下限周波数)に対応する周波数ビンのインデックスである。式(7)において、k−k+1は、加算(Σ)の対称となる空間スペクトルP(ω、ψ、f)の個数である。このように1が加算される理由は、各周波数ωが離散化されているので、その周波数帯域の両端である上限周波数に係る空間スペクトルP(ω[k]、ψ、f)と、下限周波数の係る空間スペクトルP(ω[k]、ψ、f)が共に加算対象であるためである。
ピークサーチ部110には、第2空間スペクトル算出部109から平均化空間スペクトルP(ψ、f)、階層数、及び探索間隔が入力される。ピークサーチ部110は、入力された平均化空間スペクトルP(ψ、f)のピーク値である方位ψ[l](lは、1以上、L以下の範囲の値)を検出する。
ピークサーチ部110は、第2空間スペクトル算出部109から入力された階層数分、第1空間スペクトル算出部108〜STF処理111の推定処理が終了したか否かを判別する。ピークサーチ部110は、階層数分、推定処理が終了したと判別した場合、検出したピーク値ψ[l]を、推定方位ψとして出力部113に出力する。ピークサーチ部110は、階層数分、推定処理が終了していないと判別した場合、検出したピーク値ψ[l]、階層数、及び探索間隔を、STF選択部111に出力する。
STF処理部111は、ピークサーチ部110から入力されたピーク値ψ[l]、階層数、及び探索間隔を用いて、伝達関数Aを伝達関数記憶部112から読み出し、または補間伝達関数A^を算出する。具体的には、探索すべき方位に対応する伝達関数Aが、伝達関数記憶部112に記憶されているか否かを判別する。STF処理部111は、探索すべき方位に対応する伝達関数Aが、伝達関数記憶部112に記憶されていると判別した場合、対応する伝達関数Aを伝達関数記憶部112から読み出す。STF処理部111は、探索すべき方位に対応する伝達関数Aが、伝達関数記憶部112に記憶されていないと判別した場合、対応する補間伝達関数A^を算出する。STF処理部111は、読み出した伝達関数A、または算出した補間伝達関数A^を第1空間スペクトル算出部108に出力する。
STF処理部111は、予め定められている探索範囲(1つの階層ともいう)に対して探索が終了した場合、ピーク値が検出された方位に基づいて、新たな探索範囲と、探索間隔を後述するように算出する。STF処理部111は、算出した新たな探索範囲と、探索間隔を第1空間スペクトル算出部108に出力する。
出力部113は、ピークサーチ部110から入力された推定方位ψを、例えば音源分離部13(図2参照)に出力する。また、例えば、音源方向推定部11のみが、ロボットに取り付けられている場合、出力部113は、不図示の表示装置であってもよい。この場合、出力部113は、推定方位ψを文字情報、または図示して表示部に表示するようにしてもよい。
以上のように、本実施形態の音源方向推定装置は、音源からの伝達関数を前記音源の方向毎に記憶する伝達関数記憶部(112)と、音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と階層ごとの探索間隔を算出する算出部(階層数算出部107)と、探索範囲を探索間隔毎に伝達関数を用いて探索し、探索した結果に基づいて音源の方向を推定し、推定した音源の方向に基づいて探索範囲と探索間隔とを算出部が算出した階層数になるまで更新し、音源の方向を推定する音源定位部(ピークサーチ部110、STF処理部111)と、を備える。
このような構成により、本実施形態によれば、階層数算出部107が探索を行う階層数と探索間隔とを算出する。次に、音源定位部12(図3)が、予め定められた探索範囲全体を粗い探索間隔に分け、その粗い探索間隔で探索して音源方向を推定する。次に、音源定位部12は、推定された方向に対応する探索間隔を1つ選択し、選択された探索間隔を新たな探索範囲として探索範囲を更新する。そして、音源定位部12は、この新たな探索範囲内をより細かい探索間隔に分けて探索範囲を更新し、その細かい探索間隔において探索を行うことで音源方向を推定する。この結果、本実施形態では、音源方向の推定にかかる処理時間を短縮することができる。
図4は、本実施形態に係る音源分離部13のブロック図である。図4に示すように、音源分離部13は、第1コスト演算部121、第2コスト演算部122、及び音源分離処理部123を含んで構成される。
第1コスト演算部121は、拘束条件に基づく音源分離(GSS(幾何制約付き音源分離))の手法を用いて、コスト関数JGC(W)を算出し、算出したコスト関数JGC(W)を音源分離処理部123に出力する。
第1コスト演算部121は、次式(8)に表されるコスト関数JGC(W)のDに伝達関数を指定することで、幾何拘束を実現する。は、コスト関数JGCは、幾何制約度であり、分離行列Wを算出するために用いられる。
Figure 0005931661
ただし、式(8)において、EGCは、次式(9)である。
Figure 0005931661
式(9)において、Wは、分離行列であり、Dは伝達関数行列である。本実施形態では、伝達関数行列DにSTF処理部111が補間した補間伝達関数A^または読み出した伝達関数Aを用いることで、正しい音源方向に幾何拘束をかけることができる。
第2コスト演算部122は、独立成分分析の拡張である高次元無相関化に基づく音源分離(HDSS)の手法を用いて、コスト関数JHDSS(W)を算出し、算出したコスト関数JHDSS(W)を音源分離処理部123に出力する。
音源分離処理部123は、第1コスト演算部121から入力されたコスト関数JGC(W)と、第2コスト演算部122から入力されたコスト関数JHDSS(W)を用いて、次式(10)のようにコスト関数JGHDSS(W)を算出する。すなわち、本実施形態では、GCの手法とHDSSの手法を統合した手法を用いている。このように統合した手法を、本発明ではGHDSS(Geometric High−order Dicorrelation−based Source Separation)手法と呼ぶ。
Figure 0005931661
式(10)において、αは、スカラーであり、0以上、1以下の整数である。また、式(10)において、コスト関数JHDSS(W)は、次式(11)のように表される。
Figure 0005931661
式(11)において、E[・]は、期待値を示し、太文字EはベクトルEを示している。また、Eφは、DSS(Dicorrelation−based Source Separation)における相関行列Eの代わりとして用いるコスト関数である。
また、式(11)において、EHDSSは、式(12)である。
Figure 0005931661
式(12)において、太字yはベクトルを表している。なお、ベクトルE=yy−Iと定義する。ベクトルIは、単位行列である。また、符号Hは、複素共役を示している。またφ(y)は、非線形関数であり、次式(13)である。
Figure 0005931661
式(13)において、p(y)は、yの同時確率密度関数(Joint Probability Density Function;pdf)である。
なお、φ(y)は、多様な定義ができるが、φ(y)の一例として、次式(14)のように双曲線正接(hyperbolic−tangent−based)関数を用いてもよい。
Figure 0005931661
なお、式(14)において、ηは、スケーリング・パラメータである。
音源分離処理部123は、次式(15)により、分離行列Wをコスト関数JGC及びJHDSSが最小になるように適応的に算出する。音源分離処理部123は、このようにして推定した分離行列Wに基づいて、音声入力部101(図3参照)に入力された多チャネルの音響信号から音源毎の成分に分離する。音源分離処理部123は、分離した各音源の成分を、例えば、音響特徴量抽出部14に出力する。
Figure 0005931661
式(15)において、tは、であり、μHDSSは、誤差行列を更新するときに用いるステップサイズであり、μGCは、幾何誤差行列を更新するときに用いるステップサイズである。また、J’HDSS(W)は、HDSS誤差行列であり、行列JHDSSを入力の要素毎に微分した数列である。J’GC(W)は、幾何誤差行列であり、行列JGCを入力の要素毎に微分した数列である。
ステップサイズμGCは、EGCと幾何誤差行列J’GC(W)を用いた次式(16)である。ステップサイズμHDSSは、EHDSSと幾何誤差行列J’GHDSSを用いた次式(17)である。
Figure 0005931661
Figure 0005931661
以上のように、本実施形態の音源分離部13は、GDHSS法を用いて分離行列Wを逐次に算出することで、音源分離を行う。
なお、本実施形態では、音源分離部13が、GDHSS法を用いて音源分離する例を説明したが、公知のBSS(ブラインド信号源分離)法等を用いて音源分離してもよい。
次に、階層数算出部107〜STF処理部111が行う階層化探索処理について説明する。図5は、本実施形態に係る階層化探索処理の手順を示すフローチャートである。図6は、本実施形態に係る階層化探索処理の手順を説明する図である。
図6に示すように、探索範囲は、0からdである。具体的な探索範囲は、例えば、0度から180度である。第1階層目の探索間隔はdであり、第2階層目の探索間隔はdである。音源方向推定装置11の使用者による所望の空間解像度は、第S階層目の探索間隔dである。なお、図6では、説明を簡略化するために、各階層の探索間隔が4の場合を示したが、探索間隔の個数はこれに限られない。また、符号p1〜p5は、予め伝達関数が計測されている計測点を表している。具体的な例として、計測点p1は0度、計測点p2は30度であり、計測点p3は90度であり、計測点p4は130度、計測点p5は180度である。また、符号q11〜q15は、第1階層目の探索点を表している。具体的な例として、探索点q11は0度、探索点q12は45度であり、探索点q13は90度であり、探索点q14は135度、探索点q15は180度である。
なお、各方位p1、p2、p3、p4に対応した伝達関数A(ω,ψp1)〜A(ω,ψp4)が、伝達関数記憶部112に予め記憶されているとする。
(ステップS1)音源方向推定装置11の使用者は、所望の空間解像度を選択する。階層数算出部107は、装置の使用者により選択された所望の空間解像度と探索範囲とに基づいて、階層数Sと探索する探索間隔δを次式(18)と次式(19)を用いて算出し、算出した階層数Sと探索間隔δ、及び行列算出部106から入力された固有ベクトルを第1空間スペクトル算出部108に出力する。階層数Sと探索間隔δを算出については、後述する。ステップS1終了後、ステップS2に進む。
Figure 0005931661
Figure 0005931661
式(19)において、dは、第s階層目の探索間隔である。ただし、sは、1以上、S以下の整数である。
(ステップS2)STF処理部111は、第1探索点(図6のq11)に対応する伝達関数A(ω,ψ)が、伝達関数記憶部112に記憶されているか否か判別する。STF処理部111は、第1探索点に対応する伝達関数A(ω,ψ)が伝達関数記憶部112に記憶されていると判別した場合(ステップS2;Yes)、ステップS3に進み、第1探索点に対応する伝達関数A(ω,ψ)が伝達関数記憶部112に記憶されていないと判別した場合(ステップS2;No)、ステップS4に進む。
(ステップS3)第1探索点に対応する伝達関数A(ω,ψ)が伝達関数記憶部112に記憶されていると判別した場合、STF処理部111は、伝達関数記憶部112に記憶されている第1探索点(図6のq11)に対応する伝達関数A(ω,ψ)を読み出し、読み出した伝達関数A(ω,ψ)を第1空間スペクトル算出部108に出力する。ステップS3終了後、ステップS5に進む。
(ステップS4)第1探索点に対応する伝達関数A(ω,ψ)が伝達関数記憶部112に記憶されていないと判別した場合、STF処理部111は、第1探索点に隣接する2つの計測点に対応する伝達関数を用いて、第1探索点の補間伝達関数A^を補間により求める。一例として、探索点q12の場合、この点に隣接する2つの計測点p2とp3の伝達関数Aを用いて、探索点q12の補間伝達関数A^を算出する。なお、STF処理部111は、補間に、例えばFDLI法、TDLI法、FTDLI法等を用いてもよい。各補間法については、後述する。
(ステップS5)第1空間スペクトル算出部108は、STF処理部111から入力された伝達関数A、または補間伝達関数A^を用いて、上述した式(5)により空間スペクトルP(ω、ψ、f)を算出する。次に、第2空間スペクトル算出部109は、第1空間スペクトル算出部108が算出した空間スペクトルP(ω、ψ、f)を用いて、上述した式(7)により平均化空間スペクトルP(ψ、f)を算出し、算出した平均化空間スペクトルP(ψ、f)と探索点の番号を示す情報をピークサーチ部110に出力する。なお、探索点の番号とは、探索点q11〜q15に対応して割り振られた番号である。ステップS5終了後、ステップS6に進む。
(ステップS6)ピークサーチ部110は、探索範囲における全ての探索点の探索が終了したか否かを判別する。ピークサーチ部110は、探索範囲における全ての探索点の探索が終了したと判別した場合(ステップS6;Yes)、ステップS8に進み、探索範囲における全ての探索点の探索が終了していないと判別した場合(ステップS6;No)、ステップS7に進む。
(ステップS7)探索範囲における全ての探索点の探索が終了していないと判別した場合、ピークサーチ部110は、次の探索点の探索を行う指示を示す情報をSTF処理部111に出力する。次の探索点とは、例えば、ステップS5で探索点q11の処理が終了している場合、探索点q12が次の探索点である。なお、探索は、0からdに向けて行ってもよく、dから0に向けて行ってもよい。
(ステップS8)探索範囲における全ての探索点の探索が終了していると判別した場合、ピークサーチ部110は、探索範囲で算出された全ての平均化空間スペクトルP(ψ、f)の中から最大値となる方位ψ[i]を抽出する。ステップS8終了後、ステップS9に進む。
(ステップS9)ピークサーチ部110は、ステップS1で算出された全ての階層において探索が終了したか否かを判別する。ピークサーチ部110は、全ての階層において探索が終了したと判別した場合(ステップS9;Yes)、ステップS10に進み、全ての階層において探索が終了していないと判別した場合(ステップS9;No)、ステップS11に進む。
(ステップS10)ピークサーチ部110は、抽出した方位ψ[i]を推定方位ψ^として、出力部113に出力する。次に、出力部113は、ピークサーチ部110から入力された推定方位ψ^を、例えば、音響特徴量抽出部14(図2参照)に出力して、音源方向推定の処理を終了する。
(ステップS11)STF処理部111は、ステップS1で算出された全ての階層において探索が終了していないと判別した場合、ピーク値を有する方位ψ[i]に隣接する2つの探索点(ψ[i]−δ)と探索点(ψ[i]+δ)とを、次に探索を行う区間として選択する。なお、以下、ψ[i]−δをψ[i−]と表記し、ψ[i]+δをψ[i+]と表記する。
一例として、図6において、ピーク値が検出された探索点がq13であった場合、STF処理部111は、隣接する2つの探索点として探索点q12と探索点q14とを選択する。この場合、第2階層目の探索範囲は、探索点q12からq14までであり、探索範囲の幅が2dである。ステップS10終了後、ステップS11に進む。
(ステップS12)STF処理部111は、第2階層の探索で使用する探索間隔dを算出する。なお、各階層における探索間隔dの算出については、後述する。ステップS12終了後、ステップS2に戻る。
第1空間スペクトル算出部108〜STF処理部111は、第2階層において、ステップS2〜S9を繰り返し、各間隔の伝達関数(または補間伝達関数)を用いて、平均化空間スペクトルP(ψ、f)を算出し、ピーク値を有する方位ψを推定する。第2階層の探索が終了後、STF処理部111は、ピーク値を有する探索点に隣接する2つの探索点を選択し、次の階層で使用する探索間隔dを算出する。以後、ステップS1で算出された全ての階層について、ステップS2〜S12を繰り返して、第1空間スペクトル算出部108〜STF処理部111は、音源方位推定を行う。
次に、STF処理部111が行う補間について説明する。STF処理部111は、例えば、以下で説明する(1)FDLI法、(2)TDLI法、(3)FTDLI法のいずれか1つを用いて、伝達関数Aを補間して補間伝達関数A^を生成する。
なお、計測された2つの計測点における各伝達関数Aは、次式(20)、次式(21)のように表される。これらの伝達関数Aは、伝達関数記憶部112に予め記憶されている。伝達関数A(ω、ψ)は、方向ψにおける伝達関数であり、伝達関数A(ω、ψ)は、方向ψにおける伝達関数である。
Figure 0005931661
Figure 0005931661
(1)FDLI(Frequency Domain Linear or bi−linear Interpolation)法
FDLI(周波数領域での線形補間)法では、STF処理部111が、次式(22)を用いて、2つの計測点間において、線形補間をおこなって補間伝達関数A^を算出する。
Figure 0005931661
式(22)において、Dは、補間係数であり、0以上、1以下の値である。FDLI法は、位相を線形補間できる特徴がある。
(2)TDLI(Time Domain Linear Interpolation)法
TDLI(時間領域での線形補間)法では、次式(23)のように表される。
Figure 0005931661
ただし、式(23)において、dψ^は、次式(24)である。
Figure 0005931661
式(23)及び式(24)において、kψ1とkψ2は、幾何学的に求まる係数であり、dψ1とdψ2は、幾何学的に求まる時間遅れであり、a(t,ψ)は、A(ω,ψ)の時間領域における表現である。
式(23)を振幅補間とみなし、式(24)を位相補間とみなすと、周波数領域におけるTDLI法は、次式(25)のように表される。
Figure 0005931661
以上のように、TDLI法では、STF処理部111は、次式(25)を用いて、2つの計測点間において、線形補間をおこなって補間伝達関数A^を算出する。TDLI法は、振幅を線形補間できる特徴がある。
(3)FTDLI(Frequency Time Domain Linear or bi−linear Interpolation)法
FTDLI法は、上述したFDLI法とTDLI法とを統合した線形補間法である。FTDLI法は、周波数領域での線形補間から位相を求め、時間領域の線形補間から振幅を求める。FTDLI法では、STF処理部111が、次式(26)を用いて、2つの計測点間において、線形補間をおこなって補間伝達関数A^を算出する。
Figure 0005931661
次に、FTDLI法における補間伝達関数A^の算出手順を説明する。
(I)まず、式(22)と式(25)を用いて、補間伝達関数を算出する。以下の説明では、求めた各補間伝達関数を、次式(27)と次式(28)のように表記する。
Figure 0005931661
Figure 0005931661
(II)次に、式(27)及び式(28)を、各々、次式(29)、次式(30)のように、位相と振幅とに分解する。
Figure 0005931661
Figure 0005931661
この式(29)と式(30)により、補間伝達関数A^(ω,ψ^)は、上述した式(26)のように表される。FTDLI法は、位相及び振幅を線形補間できる特徴がある。
次に、上述したステップS1において、階層数算出部107が行う最適な階層値と探索間隔の算出手順について説明する。
図7は、本実施形態に係る階層値の算出手順について説明する図である。なお、以下の説明では、各層において探索範囲の左を便宜的に0とする。また、各階層において、便宜的に、探索点と探索点との間、例えば第1階層において、いずれかの探索間隔dにピーク値があるとして説明する。
以下の説明において、既知の値は、第1階層目の探索範囲であるdと、第S階層目の探索間隔dである。また、求める値は、探索数が最小になる階層数Sと、各階層における探索間隔dである。
まず、2つの伝達関数の方向ψと方向ψの間隔をdとする。すなわち、2つの伝達関数の方向ψと方向ψとの間隔0から間隔dの範囲を、間隔dで探索する場合、探索数はd/dである。探索数を最小化して計算コストを削減するため、本実施形態では、以下のように探索を階層的に行う。
図7に示すように、階層数をSとし、第s階層目の間隔をdとする。ただし、sは1以上S以下である。すなわち、第1階層目の間隔がdであり、第2階層目の間隔がd(ただしdは、dより小さい)である。階層化とは、まず、第s階層目の探索を行い、探索によりピーク値を含む1つの間隔dを選択する。次に、選択した間隔dを第s+1階層目とする。この第s+1階層目において、間隔をds+1として探索を行う。第s+1階層目の探索により、ピーク値を含む1つの間隔ds+1を選択し、選択した間隔ds+1を、第s+2階層目として扱う。このような処理を階層化という。また、階層化では、上の階層の間隔が粗く、下の階層の間隔が細かくなっていく。そして、第S階層目では、間隔がdであり、間隔数がdS−1であるので、探索数は(dS−1)/dである。なお、間隔dを、以下では粒度ともいう。
(階層数が2の場合)
図7に示すように、第2階層目(S=2)まで探索した場合の総探索数F(d)は、次式(31)のように表される。
Figure 0005931661
式(31)において、変数はdのみである。このため、式(31)の最小値を求めるために、式(31)を変数dで偏微分すると、次式(32)のようになる。
Figure 0005931661
従って、式(32)が0になる間隔dは、√(d)である。
この間隔dの値の場合、第1階層の探索数は次式(33)であり、第2階層の探索数は次式(34)である。
Figure 0005931661
Figure 0005931661
式(33)と式(34)により、各階層の探索数を等しくすることで、総探索数を最小にできる。
(階層数がsの場合)
次に、階層数がsの場合、総探索数を最小にする条件を説明する。階層数sの場合であっても、各階層の探索数を等しくすれば、総探索数を最小にできる。
以下に、背理法を用いて、この理由を説明する。
階層数sのとき、総探索数は、d/d+d/d+・・・+d(s−1)/dである。この総探索数が最小となり、かつd(i−1)/d≠d/d(i+1)となる階層があると仮定する。ただし、iは、1以上S以下の整数である。
i−1からi+1までの2つの階層において、各階層の探索数d(i−1)/d=d/d(i+1)のときに、2階層の例で説明したように(d(i−1)/d)+(d/d(i+1))が最小になるため、この仮定は矛盾する。すなわち、d(i−1)/d≠d/d(i+1)となる階層は存在しないことになる。
この結果、階層数にかかわらず、各階層の探索数を等しい場合、総探索数を最小にできる。従って、階層数がsの場合、総探索数を最小にする条件は、d/d=d/d=・・・=d(s−1)/dである。
この条件式を変形すると、次式(35)のように表される。
Figure 0005931661
式(35)より、総探索数が最小になる粒度dS−1は、次式(36)である。
Figure 0005931661
(階層数がSの場合)
次に、階層数をSとした場合、総探索数G(S)は、d/d=d/d=・・・=d(S−1)/dより、次式(37)になる。
Figure 0005931661
次に、式(37)を最小にするSを求めるため、式(37)をSで偏微分すると次式(38)のようになる。
Figure 0005931661
総探索数が最小となるのは、式(38)が0の場合である。このため、総探索数が最小となるのは、S=log(d/d)である。式(35)、式(36)と同様に条件式を変形し、変形した条形式にS=log(d/d)を代入すると、各階層の粒度dは、次式(39)に算出できる。
Figure 0005931661
階層数算出部107(図3参照)は、上述したように、S=log(d/d)を用いて、総探索数が最小になる階層数Sを算出し、式(39)を用いて総探索数が最小になる間隔(粒度)dを算出する。
以上のように、本実施形態では、音源探索をまず粗い分解能で広範囲の探索を行い、探索結果に基づいて、さらに細かい間隔で狭範囲の探索を行う。このような探索を階層的に行うことで、本実施形態によれば、探索の回数を削減できので、音源定位の推定性能を維持しつつ、計算コストの削減ができる。
[第2実施形態]
第1実施形態では、階層数算出部107は、総探索数が最小となる階層数Sと、粒度dを算出する例を説明した。
本実施形態では、伝達関数の方向ψと方向ψとの間に補間が行われ、補間された方向も考慮して探索する例を説明する。
図8は、本実施形態に係る本実施形態に係る階層数及び間隔の算出手順について説明する図である。図7との違いは、探索コストを用いる点である。なお、探索コストとは、探索にかかるコストである。また、1つの探索点の探索にかかる計算コストをcとする。また、探索点の中には補間が必要な探索点があり、その一点の補間にかかる計算コストをCとする。なお、探索点とは、図8において、第1階層における間隔d毎の点である。階層化による計算コストは、探索コストに加え、補間に係るコスト(以下、補間コストという)の合計である。探索コストは、探索数に1つの探索点の探索にかかる計算コストcを乗じた値とする。
以下の説明において、既知の値は、第1階層目の探索範囲であるdと、第S階層目の探索間隔dである。また、求める値は、計算コストが最小になる階層数Sと、各階層における探索間隔dである。
図8に示すように、第1階層目の探索コストは、(d/d)cであり、第2階層目の探索コストは、(d/d)cであり、第S階層目の探索コストは、(dS−1/d)cである。
本実施形態では、階層数算出部107は、階層化による計算コストを最小にする階層数Sと、粒度dを算出する。
図9は、本実施形態に係る第s階層目の探索コストと補間コストを説明する図である。
まず、第s階層目の探索数はds−1/dであり、探索コストは(ds−1/d)cである。この探索コスト(ds−1/d)cは、固定値である。
次に、第s階層目の補間コストを説明する。第s階層目では、間隔(粒度)がdであり、探索点はds−1である。この探索点の中でI個の点で補間が必要であるとする。図8において、黒丸で示した探索点は補間が必要ない点を示し、白丸で示した探索点は補間の必要がある点を示している。この場合の補間コストは、Iである。
次に、全ての探索点が補間の必要がない場合、補間コストは、0である。
次に、全ての探索点が補間の必要がある場合、補間コストは、(ds−1/d)cである。
従って、第s階層目の補間コストの範囲Iの範囲は、0以上、(ds−1/d)c以下である。ここで、cは0以上、c以下とし、補間コストを(ds−1/d)cの固定値であるとする。
従って、第s階層目の計算コストは、探索コストと補間コストとの合計であるため、次式(40)のようになる。
Figure 0005931661
このため、全ての階層における計算コストG(S)は、次式(41)のようになる。
Figure 0005931661
式(41)において、iは、1以上、S以下である。また、式(41)において、探索コストのみの場合は、c=0に相当する。
さらに、第1実施形態で説明した式(37)の総探索数G(S)と、c=0の場合のG(S)が等しくなるように、cを1にして、コストを正規化する。cの正規化により、式(41)右辺のうちc+cは、1+cと表される。この(1+c)を新たに変数Cとする。ただし、変数Cは、1以上である。c+cを変数Cに置き換えることで、式(41)は、次式(42)になる。
Figure 0005931661
(階層数が2の場合)
まず、階層数が、2階層の場合について説明する。
この場合の総探索数F(d)は、(d/d)C+(d/d)Cである。総探索数F(d)において、dのみが変数である。総探索数F(d)の最小値を算出するため、総探索数F(d)をdで偏微分すると、次式(43)になる。
Figure 0005931661
式(43)が0となるdは、√(C/C)である。
このときの第1階層目の探索数は次式(44)であり、第2階層目の探索数は次式(45)である。
Figure 0005931661
Figure 0005931661
式(44)と式(45)より、CとCとによって重み付けされた間隔(粒度)を等しくすれば、dからdまでの計算コストを最小にすることができる。
同様に、階層数がsの場合に、計算コストが最小になる条件は、Cによって重み付けされた各階層の計算コスト(di−1/d)Cが等しいことである。ただし、iは、1以上、s以下である。
(階層数がSの場合)
次に、階層数をSとした場合、式(42)の計算コストG(S)を、(d/d)C=(d/d)C=・・・=(d(S−1)/d)Cの条件で求める。この条件式を変形すると、次式(46)のように表される。
Figure 0005931661
式(46)より、計算コストが最小になる粒度dS−1は、次式(47)である。
Figure 0005931661
式(47)より、計算コストG(S)は、次式(48)になる。
Figure 0005931661
次に、式(48)を最小にするSを求めるため、式(48)をSで偏微分すると、次式(49)になる。
Figure 0005931661
式(49)が0になるSは、次式(50)である。
Figure 0005931661
従って、階層数がSの場合、計算コストが最小となる間隔(粒度)dは、次式(51)である。
Figure 0005931661
階層数算出部107(図3参照)は、上述したように、式(50)を用いて計算コストが最小となる階層数Sを算出し、式(51)を用いて計算コストが最小となる間隔(粒度)dを算出する。
[実験結果]
次に、第1実施形態または第2実施形態の音源方向推定装置11を、オープンソースであるロボット聴覚ソフトウェアHARK(HRI−JP Audition for Robots with Kyoto University)上に実装して評価した結果を説明する。また、以下の評価では、第1実施形態の音源方向推定装置11を、人型ロボットに取り付けて評価を行った。
図10は、評価条件を説明する図である。図10に示すように、評価条件は、標本化周波数が16[kHz]であり、FFT点数が512点であり、シフト長が160であり、マイクロホン数が8個であり、マイクロホンを円形アレイ状態に設置である。また、評価条件は、話者数が4人であり、話者までの距離が1.5[m]であり、評価を行った部屋の大きさが7×4[m]であり、評価を行った部屋の残響時間が0.2[sec]である。
図11は、評価における探索点を説明する図である。図11において、紙面の左右方向がY方向であり、Y方向に対して垂直な方向がX方向である。符号301は、音源方向推定装置11が取り付けられているロボットであり、符号311〜314は、話者、すなわち音源である。音源311は、X軸に対して右回りの−60[deg]の位置にあり、音源312は、X軸に対して右回りの−20[deg]の位置にあり、音源313は、X軸に対して左回りの30[deg]の位置にあり、音源314は、X軸に対して左回りの60[deg]の位置にある。
なお、探索点は、方位ψを0度に固定し、方位ψを30度、60度、90度、及び120度を用いて評価した。また、方位間の補間点は1度毎とし、計測して得られた1度毎の伝達関数との誤差e [ψ1,ψ2]を、加算平均により次式(52)を用いて算出した。
Figure 0005931661
式(52)において、f(ω[k],ψ^[i])は、補間点ψ^[i]における周波数ω[k]に相当する周波数ビンの補間誤差である。なお、評価において、式(52)のk、kを、音源定位で使用される周波数低域である周波数ωが500[Hz]以上、2800[Hz]以下の範囲になるように選択した。なお、式(52)において、iψは、ψがψより大きく、ψより小さい範囲となる1度毎の補間点個数である。
また、以下の評価において、f(ω[k],ψ^[i])の誤差指標として、位相推定誤差(PEE)、スペクトル歪み(SD)、信号対歪み比(SDR)を用いた。
PEEは、次式(53)で表され、位相誤差指標である。
Figure 0005931661
SDは、次式(54)で表され、誤差振幅を示している。
Figure 0005931661
SDRは、次式(55)で表され、伝達関数自体の誤差を示している。
Figure 0005931661
以下、e 、e 、及びe をそれぞれ、PEE、SD、及びSDRを用いたときのe [ψ1,ψ2]とする。
また、補間係数Dの線形性について、次式(56)を用いて評価した。
Figure 0005931661
式(56)において、補間係数DA[i]は、Dの中で補間誤差が最小となった値である。式(56)において、補間係数Dが補間点に対して線形に近いことは、(ψ^−ψ)/(ψ−ψ)によって、補間係数Dを決定できるため実用的なことを意味している。
以下、d 、d 、及びd をそれぞれ、PEE、SD、及びSDRを用いたときのd [ψ1,ψ2]とする。
図12は、方位ψを変化させたときのPEE、SD、SDRを用いたときの伝達関数の誤差と補間係数の線形性を評価した結果の一例を示す図である。図12は、FDLI法、TDLI法、FTDLI法の3つについて各指標を用いて評価した結果の一例である。
図12(a)〜図12(f)において、横軸は相対的な角度であり、縦軸はエラーの平均値である。図12(a)は、e の評価値の一例であり、図12(b)は、e の評価値の一例であり、図12(c)は、e の評価値の一例である。図12(d)は、d の評価値の一例であり、図12(e)は、d の評価値の一例であり、図12(f)は、d の評価値の一例である。
図12(a)〜図12(c)に示すように、本発明のFTDLI法を用いた場合では、e −、 及びe の全てにおいて、FDLI法及びTDLI法を用いた場合と比較して、誤差が少ない。
また、図12(d)〜図12(f)に示すように、Dの線形性においても、FTDLI法を用いた場合では、d −、 及びd の全てにおいて、FDLI法及びTDLI法を用いた場合と比較して、誤差が少ない。このことは、Dの線形性においても、FTDLI法を用いた場合が、最も線形に近いことを表している。
図13は、補間の有無による音源の到来方向推定の平均誤差の一例を示す図である。図13は、補間無し(NONE)、FDLI法、TDLI法、FTDLI法を用いて、到来方向推定の平均誤差を評価した結果の一例である。図13において、横軸は伝達関数の計測間隔(相対的な角度)であり、縦軸は到来方向推定の平均誤差である。
なお、評価は、白色雑音を1度毎(ただし、方位ψは、−90度以上、90度以下の範囲)に再生し、再生された音源の再生方向と推定方向との誤差を算出して評価した。評価では、伝達関数の計測間隔を方位ψが1度、5度、10度、30度、60度、90度、及び120度になるように変化させ、さらに補間により1度間隔の伝達関数を生成した。
図13に示すように、どの相対的な角度においても、いずれかの補間を行った場合の法が補間を行わなかった場合より平均誤差が少ない。さらに、FTDLI法を用いた場合が、補間無し、FDLI法またはTDLI法を用いてかつ補間有りの場合より平均誤差が少ない。このように、本発明によれば、30度間隔で予め生成して記憶されている伝達関数を用いて、その間隔の間の伝達関数を補間により生成することで、1度間隔の伝達関数を用いて音源方向推定を行うのと同程度の精度が得られた。
次に、階層的に探索したことによる計算コストの評価を行った結果の一例を説明する。
評価は、音源の個数を変化させ、1000フレーム分の処理を行ったとき、音源定位の計算(式(3)〜式(7))にかかる平均処理時間を算出した。なお、音源探索の階層は2階層とし、第1階層において10度間隔の探索を行った後、第2階層において1度間隔の探索を行った。また、音源は、1個、2個、3個、及び4個の場合について評価した。
図14は、計算コストの評価を行った結果の一例を示す図である。図14において、2段目は階層化せずに探索を行った場合(階層化なし)の演算時間であり、3段目は、本発明による階層化して探索を行った場合(階層化あり)の演算時間である。
図14に示すように、音源が1個の場合、階層化なしの場合の演算時間は24.1[msec]であり、階層化ありの場合の演算時間は6.8[msec]である。音源が2個の場合、階層化なしの場合の演算時間は22[msec]であり、階層化ありの場合の演算時間は7.7[msec]である。音源が3個の場合、階層化なしの場合の演算時間は19.6[msec]であり、階層化ありの場合の演算時間は8.3[msec]である。音源が4個の場合、階層化なしの場合の演算時間は17.5[msec]であり、階層化ありの場合の演算時間は8.7[msec]である。
このように、音源が4個同時に存在し発話されている状態であっても、フレーム周期10[msec]以下で処理が終了する。また、図14に示すように、本実施形態のように階層化して探索した場合は、音源数によらずに平均処理時間を、階層化しないで探索した場合と比較して50%以下に軽減できている。このように、本発明によれば、音源方向の推定にかかる処理効率を向上することができる。
図15は、音源毎に分離した音響信号に対して音声認識した結果の一例を示す図である。図15において、横軸は相対的角度であり、縦軸は単語正解率(WCR)である。
評価に用いた音声は、ATR音声データベースの10人×216単語の発話データを用い、4話者が同時に発話した音声の認識を行った。また、評価に用いた伝達関数は、図12と同じ間隔である。この伝達関数に補間を行い、1度間隔の伝達関数を推定した。評価は、この推定した伝達関数の間隔を変えたときのWCRの評価を行った。評価は、図13と同様に、補間無し(NONE)、FDLI法、TDLI法、FTDLI法について評価した。
図15に示すように、補間を用いない場合、伝達関数が30度間隔を超えると認識性能が劣化する。また、補間法としてFTDLI法を用いた場合、他の補間法と比較して認識性能を維持できている。例えば、伝達関数が、90度間隔の場合、FDLI法と比べて認識率が約7%向上している。
以上のように、第1実施形態または第2実施形態の音源方向推定装置11を音響処理装置1に適用した場合、単語正解率を1度毎の細かい空間分解能にした場合の伝達関数を用いた場合と同等の性能を維持しつつ、探索に係る計算量を削減することができる。この結果、フレーム毎の実時間内に、精度良く音源方向推定を行うことができる。
なお、第1実施形態、及び第2実施形態では、行列算出部106が、GSVD行列を算出して、算出したGSVD行列に基づいて音源の方位を推定する例を説明したが、これに限れない。行列算出部106は、GEVD(一般化固有値展開)行列を算出して、算出したGSVD行列に基づいて音源方位を推定するようにしてもよい。この場合においても、音源方向推定装置11では、第1実施形態、または第2実施形態で説明したように、総探索数が最小になる階層数と探索間隔(粒度)を算出し、または計算コストが最小になる階層数と粒度を算出する。そして、音源方向推定装置11は、算出された階層数と探索間隔(粒度)に基づいて、まずは粗い探索間隔で探索を行い、探索範囲の中から次の探索範囲を選択する。音源方向推定装置11は、選択された探索範囲において探索間隔を狭めていく。音源方向推定装置11では、音源方位を精度良く推定しつつ、計算コストを下げることができる。
なお、第1実施形態、及び第2実施形態では、階層数算出部107が探索に用いる階層数と探索間隔の両方を算出する例を説明したが、これに限られない。階層数を予め装置の使用者が選択しておき、探索間隔のみ算出するようにしてもよい。
なお、第1実施形態、及び第2実施形態では、伝達関数を補間する技術として、FDLI法、TDLI法、FTDLI法を用いる例を説明したが、これに限られない。他の技術を用いて、伝達関数を補間するようにしてもよい。
なお、本発明における音源方向推定装置11の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1・・・音響処理装置、11・・・音源方向推定部、12・・・音源定位部、13・・・音源分離部、14・・・音響特徴量抽出部、15・・・発話認識部、16・・・認識結果出力部、101・・・音声入力部、102・・・短時間フーリエ変換部、103・・・第1相関行列算出部、104・・・ノイズデータベース、105・・・第2相関行列算出部、106・・・行列算出部、107・・・階層数算出部、108・・・第1空間スペクトル算出部、109・・・第2空間スペクトル算出部、110・・・ピークサーチ部、111・・・STF処理部、112・・・伝達関数記憶部、113・・・出力部
S・・・階層数、d・・・探索間隔(粒度)、A・・・伝達関数

Claims (8)

  1. 音源からの伝達関数を前記音源の方向毎に記憶する伝達関数記憶部と、
    前記音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と階層ごとの探索間隔を算出する算出部と、
    前記探索範囲を探索間隔毎に前記伝達関数を用いて探索し、探索した結果に基づいて前記音源の方向を推定し、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出部が算出した階層数になるまで更新し、前記音源の方向を推定する音源定位部と、
    を備えることを特徴とする音源方向推定装置。
  2. 前記音源定位部は、
    第n(nは1以上の整数)の階層を予め定められた前記探索範囲において、前記算出された探索間隔で探索し、探索した結果に基づき、前記探索範囲の中から少なくとも1つの前記探索間隔を第(n+1)の階層の探索範囲として更新し、
    前記更新した第(n+1)の階層の探索範囲と、前記所望の空間解像度に基づいて、探索を行う前記第(n+1)の階層の探索間隔を更新し、
    前記更新した第(n+1)の階層の探索範囲と、前記更新した前記第(n+1)の階層の探索間隔と、前記方に対応した伝達関数とを用いて、前記音源の方向を階層数(n+1)が前記算出部により算出された階層数になるまで更新して推定する
    ことを特徴とする請求項1に記載の音源方向推定装置。
  3. 前記算出部は、
    全ての前記階層における階層毎の探索数が等しくなるように、前記階層数と前記探索間隔とを算出する
    ことを特徴とする請求項1または請求項2に記載の音源方向推定装置。
  4. 前記算出部は、
    全ての階層における総探索数が最小になるように、前記階層数と前記探索間隔とを算出する
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音源方向推定装置。
  5. 前記音源定位部は、
    前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されているか否かを判別し、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されていると判別した場合、前記探索間隔の方位に対応する前記伝達関数を前記伝達関数記憶部から読み出し、前記探索間隔の方位に対応する前記伝達関数が前記伝達関数記憶部に記憶されていないと判別した場合、前記探索間隔の方位に対応する前記伝達関数を補間により補間伝達関数を算出し、前記読み出した伝達関数、または算出した補間伝達関数を用いて、前記音源の方向を推定する
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の音源方向推定装置。
  6. 前記算出部は、
    前記探索範囲における探索数にかかる探索コストと、前記補間にかかる補間コストとの合計値である計算コストが最小になるように前記階層数と前記探索間隔とを算出する
    ことを特徴とする請求項5に記載の音源方向推定装置。
  7. 音源方向推定装置における音源方向推定方法であって、
    算出部が、音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と前記階層ごとの探索間隔を算出する算出手順と、
    音源定位部が、前記音源の方向毎に伝達関数記憶部に記憶されている前記音源からの伝達関数を用いて、前記探索範囲を探索間隔毎に探索し、探索した結果に基づいて前記音源の方向を推定する手順と、
    前記音源定位部が、推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出手順により算出された階層数になるまで更新し、前記音源の方向を推定する手順と、
    と含むことを特徴とする音源方向推定方法。
  8. 音源方向推定装置のコンピュータに、
    音源の方向を探索するための所望の探索範囲と所望の空間解像度に基づいて、探索を行う階層数と前記階層ごとの探索間隔を算出する算出手順と、
    前記音源の方向毎に伝達関数記憶部に記憶されている前記音源からの伝達関数を用いて、前記探索範囲を探索間隔毎に探索し、探索した結果に基づいて前記音源の方向を推定する手順と、
    推定した前記音源の方向に基づいて前記探索範囲と前記探索間隔とを前記算出手順により算出された階層数になるまで更新し、前記音源の方向を推定する手順と、
    を実行させるための音源方向推定プログラム。
JP2012203393A 2012-09-14 2012-09-14 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム Active JP5931661B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012203393A JP5931661B2 (ja) 2012-09-14 2012-09-14 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
US14/023,622 US9971012B2 (en) 2012-09-14 2013-09-11 Sound direction estimation device, sound direction estimation method, and sound direction estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012203393A JP5931661B2 (ja) 2012-09-14 2012-09-14 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Publications (2)

Publication Number Publication Date
JP2014059180A JP2014059180A (ja) 2014-04-03
JP5931661B2 true JP5931661B2 (ja) 2016-06-08

Family

ID=50274345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012203393A Active JP5931661B2 (ja) 2012-09-14 2012-09-14 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Country Status (2)

Country Link
US (1) US9971012B2 (ja)
JP (1) JP5931661B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6817068B2 (ja) * 2014-03-25 2021-01-20 リキグライド,インコーポレイテッド 液体含浸表面形成のためのスプレープロセスおよび方法
US9945946B2 (en) * 2014-09-11 2018-04-17 Microsoft Technology Licensing, Llc Ultrasonic depth imaging
EP3226436B1 (en) 2014-12-17 2020-02-05 Huawei Technologies Co., Ltd. Pre-coding information collection method and transmission device
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
US10097819B2 (en) * 2015-11-23 2018-10-09 Rohde & Schwarz Gmbh & Co. Kg Testing system, testing method, computer program product, and non-transitory computer readable data carrier
US10599631B2 (en) 2015-11-23 2020-03-24 Rohde & Schwarz Gmbh & Co. Kg Logging system and method for logging
CN105842656B (zh) * 2016-05-31 2018-01-12 黑龙江工程学院 基于雅克比旋转联合对角化的空时频方位估计方法
WO2019073804A1 (ja) * 2017-10-11 2019-04-18 ソニー株式会社 音源方向推定装置および方法、並びにプログラム
CN109884591B (zh) * 2019-02-25 2023-04-28 南京理工大学 一种基于麦克风阵列的多旋翼无人机声信号增强方法
JP7450911B2 (ja) * 2019-12-05 2024-03-18 国立大学法人 東京大学 音響解析装置、音響解析方法及び音響解析プログラム
EP4115404A1 (en) * 2020-03-06 2023-01-11 Cerence Operating Company System and method for integrated emergency vehicle detection and localization
EP4292079A4 (en) * 2021-02-11 2025-01-01 Microsoft Technology Licensing Llc MULTI-CHANNEL SPEECH COMPRESSION SYSTEM AND METHOD
CN113050037B (zh) * 2021-03-23 2022-10-04 上海交通大学 一种变电站设备异常声源定位方法及系统
CN113138363A (zh) * 2021-04-22 2021-07-20 苏州臻迪智能科技有限公司 一种声源定位方法、装置、存储介质和电子设备
CN116244477B (zh) * 2023-05-11 2023-07-04 深圳依时货拉拉科技有限公司 区间分级检索方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2934426B1 (ja) * 1998-02-09 1999-08-16 株式会社ワイ・アール・ピー移動通信基盤技術研究所 到来波推定方法
JP2001091617A (ja) * 1999-09-24 2001-04-06 Toyota Central Res & Dev Lab Inc ターゲット方位検出装置
US7720229B2 (en) * 2002-11-08 2010-05-18 University Of Maryland Method for measurement of head related transfer functions
JP2005201798A (ja) * 2004-01-16 2005-07-28 Toshiba Corp 到来方位測定システム及び到来方位測定方法
JP2006292660A (ja) * 2005-04-14 2006-10-26 Matsushita Electric Ind Co Ltd 電波到来方向推定装置
TWI286903B (en) * 2005-10-21 2007-09-11 Himax Tech Ltd Method of channel estimation
FR2917180B1 (fr) * 2007-06-08 2010-05-14 Thales Sa Procede d'estimation des angles d'arrivees de sources coherentes par une technique de lissage spatial sur un reseau de capteurs quelconque
JP5305743B2 (ja) * 2008-06-02 2013-10-02 株式会社東芝 音響処理装置及びその方法
JP5702685B2 (ja) * 2010-08-17 2015-04-15 本田技研工業株式会社 音源方向推定装置及び音源方向推定方法

Also Published As

Publication number Publication date
US20140078867A1 (en) 2014-03-20
JP2014059180A (ja) 2014-04-03
US9971012B2 (en) 2018-05-15

Similar Documents

Publication Publication Date Title
JP5931661B2 (ja) 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US8280739B2 (en) Method and apparatus for speech analysis and synthesis
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
JP6278294B2 (ja) 音声信号処理装置及び方法
JP6169910B2 (ja) 音声処理装置
JP2014219467A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
JP2017044916A (ja) 音源同定装置および音源同定方法
JP4403436B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US9478230B2 (en) Speech processing apparatus, method, and program of reducing reverberation of speech signals
JP2017009700A (ja) 音源分離装置、および音源分離方法
US10674261B2 (en) Transfer function generation apparatus, transfer function generation method, and program
US9576583B1 (en) Restoring audio signals with mask and latent variables
JP2018156052A (ja) 信号処理システム、信号処理方法及び信号処理プログラム
JP6606784B2 (ja) 音声処理装置および音声処理方法
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
JP4653674B2 (ja) 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
JP7266433B2 (ja) 音源定位装置、音源定位方法、およびプログラム
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
Mallis et al. Convolutive audio source separation using robust ICA and an intelligent evolving permutation ambiguity solution
Paul et al. Effective Pitch Estimation using Canonical Correlation Analysis
JP7000281B2 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
CN110675890A (zh) 声音信号处理装置以及声音信号处理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160427

R150 Certificate of patent or registration of utility model

Ref document number: 5931661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150