JP2008236077A

JP2008236077A - 目的音抽出装置，目的音抽出プログラム

Info

Publication number: JP2008236077A
Application number: JP2007069545A
Authority: JP
Inventors: Toshiaki Shimoda; 敏章下田; Koji Morita; 孝司森田; Toshiro Yamashita; 俊郎山下; Takayuki Hiekata; 孝之稗方; Yohei Ikeda; 陽平池田
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2007-03-16
Filing date: 2007-03-16
Publication date: 2008-10-02

Abstract

【課題】マイクロホンを通じて得られる音響信号から，２入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に，複数の方向から異なる雑音がマイクロホンに到来する状況，及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても，高い雑音除去性能を維持できること。
【解決手段】複数の副マイクロホンそれぞれに対する目的音源の位置（距離）を検出する音源位置検出手段５１，５２，その検出結果に基づいて複数の副音響信号Ｓｇ２₁，Ｓｇ２₂について重み付け合成処理を行うことによって雑音信号Ｓｇｎを生成する雑音信号生成部６，主音響信号Ｓｇ１及び前記雑音信号Ｓｇｎそれぞれの時系列特徴ベクトルの減算処理によって目的音に相当する音響信号を抽出して抽出信号を出力する２入力サブトラクション処理を行う目的音抽出部７を備える目的音抽出装置。
【選択図】図１

Description

本発明は，マイクロホンを通じて得られる音響信号に基づいて，所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置及びそのプログラムに関するものである。

電話会議システム，テレビ会議システム，券売機，カーナビゲーションシステム等，話者等の音源が発する音響を入力する機能を備えた装置においては，マイクロホンによってある特定の音源（以下，目的音源という）から発せられる音（以下，目的音という）が収音されるが，音源の存在する環境に応じて，そのマイクロホンを通じて得られる音響信号に，前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして，マイクロホンを通じて得られる音響信号において，雑音成分の割合が大きいと，目的音の明瞭性が損なわれ，通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来，例えば非特許文献１に示されるように，話者の発する音声（目的音の一例）を主として入力する主マイクロホン（音声マイクロホン）と，その話者の周囲の雑音を主として入力する（話者の音声がほとんど混入しない）副マイクロホン（雑音マイクロホン）とを用い，前記主マイクロホンを通じて得られる音響信号から，前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する２入力スペクトルサブストラクション処理が知られている。ここで，２入力スペクトルサブストラクション処理は，前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により，話者が発する音声（前記目的音）に相当する音響信号を抽出（即ち，雑音成分を除去する）する処理である。
ところで，前記副マイクロホンは，これに前記目的音が極力混入しないよう，前記主マイクロホンとは異なる位置に配置されたマイクロホン，或いは前記主マイクロホンとは異なる方向に指向性を有するマイクロホンが採用される。このため，複数の方向から異なる雑音が各マイクロホンに到来する場合，前記副マイクロホンにより主に収音される雑音と前記主マイクロホンに主に混入する雑音とが異なる状況が生じ得る。そのような状況が発生した場合，前記２入力スペクトルサブストラクション処理による雑音除去性能が悪化する。
これに対し，特許文献１には，複数の前記副マイクロホン（雑音マイクロホン）を用い，そのそれぞれを通じて入力される音響信号について，状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と，前記主マイクロホンを通じて入力される音響信号とに基づいて，前記２入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより，時間的，空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能となるとされている。

一方，所定の音響空間に複数の音源と複数のマイクロホン（音響入力手段）とが存在する場合，その複数のマイクロホンごとに，複数の音源各々からの個別の音響信号（以下，音源信号という）が重畳された音響信号（以下，混合音響信号という）が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクロホンを通じて入力される複数の前記混合音響信号において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。
ここで，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理によれば，分離信号各々は，混合音響信号の入力数（＝マイクロホンの数）と同じ数の出力端（出力チャンネルといってもよい）各々を通じて出力される。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献２や非特許文献３等に詳説されている。
一方，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理においては，学習計算によって分離行列が得られるが，その分離行列に基づいて，音源の存在する方向（ＤＯＡ：Direction of Arrivals）を推定（検出）する各種の技術が従来より知られている。例えば，非特許文献４や非特許文献５には，前記分離行列にステアリングベクトルを乗じることによってＤＯＡを推定する技術が示されている。
特開平６−６７６９１号公報菅村他，「２入力による雑音除去手法を用いた自動車内の音声認識」，電子情報通信学会技術研究報告，ＳＰ−８１，pp.41-48，1989 猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. 西川剛樹他，「ＩＣＡとビームフォーミングを統合した高速収束アルゴリズムに基づく３音源以上のブラインド音源分離」，日本音響学会講演論文集，1-6-13，March 2005. Saruwatari Hiroshi他，"Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming"，EUROSPEECH 2001，pp2603-2606.

ところで，前記目的音の音源（例えば話者，以下，目的音源という）が移動する場合，即ち，前記目的音源と各マイクロホンとの位置関係が変化する場合がある。その場合，前記目的音源の位置に応じて前記目的音が前記副マイクロホンに対して比較的大きな音量で混入する状況が発生する。また，特許文献１に示されるように前記副マイクロホンが複数存在する場合，そのそれぞれに対する前記目的音の混入の程度が変化する。
しかしながら，非特許文献１に示される技術では，前記目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合，その目的音に対応する音響信号の成分が雑音成分として誤って除去されて雑音除去性能が悪化するという問題点があった。
また，特許文献１に示されるように，複数の前記副マイクロホン（雑音マイクロホン）を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記２入力スペクトルサブストラクション処理の入力信号として採用した場合，前記目的音源の移動によって加重平均の重みと，複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また，特許文献１に示されるように，複数の前記副マイクロホン（雑音マイクロホン）を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記２入力スペクトルサブストラクション処理の入力信号として採用した場合，複数の方向から異なる雑音が各マイクロホンに到来する状況下においては，選択に漏れた音響信号に基づく雑音成分が除去されず，やはり雑音除去性能が悪化するという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，マイクロホンを通じて得られる音響信号から，２入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に，複数の方向から異なる雑音がマイクロホンに到来する状況，及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても，高い雑音除去性能を維持できる目的音抽出装置及び目的音抽出プログラムを提供することにある。

上記目的を達成するために本発明に係る目的音抽出装置は，所定の目的音源（特定の音源）から出力される音（以下，目的音という）を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と，それ以外の複数の副マイクロホン（前記主マイクロホンとは異なる複数の位置それぞれに配置されたもの，又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有するもの）それぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力するものであり，次の（１−１）〜（１−３）に示す各構成要素を備えるものである。
（１−１）前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出手段。
（１−２）前記音源位置検出手段の検出結果に基づいて，前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成手段。
（１−３）前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する２入力サブトラクション処理手段。
例えば，前記音源位置検出手段が，前記複数の副マイクロホンそれぞれに対する前記目的音源の距離を検出し，前記雑音信号生成手段が，前記音源位置検出手段により検出された距離に基づいて前記複数の副音響信号について重み付け合成処理を実行することが考えられる。
一般に，前記副マイクロホンそれぞれに対する前記目的音源の位置（距離や方向）がわかれば，その目的音源が発する音響が前記副マイクロホンそれぞれにおいて収音される程度（混入度合い）を特定できる。例えば，音響の強さは距離の二乗に反比例するので，ある前記副マイクロホンに対し，ある方向に存在する前記目的音源の距離が半分になれば，その副マイクロホンで収音される前記目的音の強さは４倍になる。
本発明によれば，前記雑音信号生成手段が，前記目的音源の位置に基づいて，前記目的音の混入度合いの高い前記副音響信号についての重みを小さくし，一方，前記目的音の混入度合いの低い前記副音響信号についての重みを大きくした前記重み付け合成処理（例えば，加重平均処理など）によって前記雑音信号を生成できる。その結果，前記目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入した場合，さらに，前記目的音源の移動によってその混入の度合いが変化した場合でも，前記雑音信号における前記目的音の信号成分が常に低レベルに抑えられ，前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
また，前記雑音信号は，位置や指向方向がそれぞれ異なる複数の前記副マイクロホンを通じて得られた音響信号の合成信号であるので，複数の方向から異なる雑音が各マイクロホンに到来する状況下においても，その雑音成分それぞれを漏れなく除去できる。
なお，前記複数の副マイクロホンそれぞれに対する前記目的音源の位置としては，例えば，距離のみ又は方向のみ，或いは距離及び方向の両方を特定する位置（二次元座標もしくは三次元座標における位置）等のいずれかが考えられる。

また，本発明に係る目的音抽出装置が，前記副マイクロホンそれぞれについて，その副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号（目的音の信号と雑音の信号とが混合した音響信号）に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離手段を備えればなお好適である。
これにより，前記目的音の信号成分の大部分が除去された前記副音響信号が得られるので，その副音響信号に基づき生成される前記雑音信号にも前記目的音の信号成分がほとんど含まれず，前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。なお，この場合，前記重み付け合成処理は，前記副音響信号にわずかに混入する前記目的音の成分の影響をより低減するために行われる。
また，前記音源位置検出手段が，前記雑音分離手段による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記副マイクロホンそれぞれに対する前記目的音源の存在する方向（ＤＯＡ）を検出（推定）する目的音源方向検出手段備えることが考えられる。この場合，前記音源位置検出手段は，前記目的音源方向検出手段により検出（推定）された前記目的音源方向と前記副マイクロホンそれぞれの既知の位置関係とに基づいて，前記副マイクロホンそれぞれに対する前記目的音源の位置（方向及び距離）を検出することができる。
これにより，前記雑音分離手段の処理結果（分離行列の情報）を有効活用してその処理結果に基づく情報処理を行う演算手段により前記音源位置検出手段を簡易に実現できる。もちろん，前記音源位置検出手段として，超音波や電波或いは光等の無線信号を利用した位置検出手段や，前記目的音源を撮像手段により撮像して得られる画像データに基づいて，画像処理を行うことによって前記目的音源の位置を検出する画像処理手段などの他の手段を採用してもよい。

また，本発明は，以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち，本発明に係る目的音抽出プログラムは，所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり，さらに，次の（２−１）及び（２−２）に示す処理をコンピュータに実行させるプログラムである。
（２−１）前記複数の副マイクロホンそれぞれに対する前記目的音源の位置の検出結果に基づいて，前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成処理。
（２−２）前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する２入力サブトラクション処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても，前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。

また，本発明に係る目的音抽出プログラムが，前記副マイクロホンそれぞれについて，その副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離処理をさらにコンピュータに実行させるものであればなお好適である。
また，本発明に係る目的音抽出プログラムが，前記雑音分離処理による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記副マイクロホンそれぞれに対する前記目的音源の存在する方向である目的音源方向（ＤＯＡ）を検出（推定）することにより，前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出処理をさらにコンピュータに実行させるものであることが考えられる。

本発明によれば，目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入した場合，さらに，前記目的音源の移動によってその混入の度合いが変化した場合でも，前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
また，本発明において，前記雑音信号は，位置や指向方向がそれぞれ異なる複数の前記副マイクロホンを通じて得られた音響信号の合成信号である。そのため，本発明によれば，複数の方向から異なる雑音が各マイクロホンに到来する状況下においても，その雑音成分それぞれを漏れなく除去できる。
以上より，本発明によれば，マイクロホンを通じて得られる音響信号から，２入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に，複数の方向から異なる雑音がマイクロホンに到来する状況，及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても，高い雑音除去性能を維持できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の第１実施形態に係る目的音抽出装置Ｘ１の概略構成を表すブロック図，図２は本発明の第２実施形態に係る目的音抽出装置Ｘ２の概略構成を表すブロック図，図３はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図，図４はＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図である。

［第１実施形態］
まず，図１に示すブロック図を参照しつつ，本発明の第１実施形態に係る目的音抽出装置Ｘ１について説明する。
図１に示すように，目的音抽出装置Ｘ１は，１つの主マイクロホン２０，複数（図１では２つ）の副マイクロホン３１及び３２，Ａ／Ｄコンバータ４，測距センサ５１，５２（距離計），雑音信号生成部６及び目的音抽出部７を備えている。
前記雑音信号生成部６及び前記目的音抽出部７は，例えばコンピュータの一例であるＤＳＰ(Digital Signal Processor)及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ等により具現化される。この場合，そのＲＯＭには，前記雑音信号生成部６及び前記目的音抽出部７が行う処理（後述）を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。
前記主マイクロホン２０は，所定範囲内で移動し得る話者１（目的音源の一例）が発する音声（以下，目的音という）を主に入力する音声入力手段である。
また，複数の前記副マイクロホン３１，３２は，前記主マイクロホン２０とは異なる複数の位置それぞれに配置され，主として目的音以外の雑音を入力する音声入力手段である。以下，複数の副マイクロホン３１，３２を総称する場合，副マイクロホン３０という。
なお，図１に示す主マイクロホン２０及び副マイクロホン３１，３２は，それぞれ指向性を有するマイクロホンであり，副マイクロホン３１，３２は，それぞれ前記主マイクロホンとは異なる複数の方向それぞれに指向性を有するよう配置されている。
そして，目的音抽出装置Ｘ１は，前記主マイクロホン２０を通じて得られる主音響信号Ｓｇ１と，それ以外の複数の前記副マイクロホンを通じて得られる副音響信号Ｓｇ２₁，Ｓｇ２₂とに基づいて，前記目的音に相当する音響信号（以下，目的音響信号Ｓｇｏという）を抽出してその抽出信号Ｓｇｏを出力するものである。

前記Ａ／Ｄコンバータ４は，各マイクロホン２０，３０により入力されたアナログ音響信号をデジタル音響信号に変換するものである。本実施形態では，前記主マイクロホン２０により入力されたアナログ音響信号をこのＡ／Ｄコンバータ４でデジタル化された信号が，前記主音響信号Ｓｇ１である。同様に，前記副マイクロホン３１，３２により入力されたアナログ音響信号をこのＡ／Ｄコンバータ４でデジタル化された信号が，前記副音響信号Ｓｇ２₁，Ｓｇ２₂である。
例えば，目的音が人の声である場合，８ｋＨｚ程度のサンプリング周期でデジタル化すればよい。
前記測距センサ５１，５２（前記音源位置検出手段の一例）は，それぞれ前記副マイクロホン３１，３２とほぼ同じ位置に配置され，前記副マイクロホン３１，３２それぞれから話者１までの距離（目的音源の位置の一例）を測定するセンサ（距離計）である。例えば，前記測距センサ５１は，超音波送信器及びその送信波の話者１に対する反射波を受波する超音波受信器と，検波回路とを備え（いずれも不図示），前記検波回路により，前記超音波送信器による超音波の送信時点から，前記超音受信器による反射波の受信時点までの時間を測定し，さらにその時間を話者１までの距離（以下，音源距離Ｌ_o1，Ｌ_o2という）に換算し，換算後の距離を表す信号を前記雑音信号生成部６に対して出力するものである。なお，前記検波回路は，予め定められた上限時間内に反射波の受信を検知できない場合は，計測不能信号を出力する。
なお，前記測距センサ５１，５２として，超音波の他，電波やレーザ光等の無線信号を利用した周知の距離計や，話者１をその上方に配置されたカメラにより撮像して得られる画像データに基づいて人物の位置を認識する画像処理を行うことによって話者１の位置を検出する画像処理装置などの他の手段を採用してもよい。

前記雑音信号生成部６は，前記測距センサ５１，５２それぞれにより検出された前記音源距離Ｌ_o1，Ｌ_o2（前記副マイクロホン３１，３２それぞれから話者１までの距離）に基づいて，複数の前記副音響信号Ｓｇ２_i（添え字ｉは副マイクロホンの識別番号（図１ではｉ＝１，２））について，例えば次の（１）式に従った重み付け加算（重み付け合成処理の一例）を行うことによって雑音信号Ｓｇｎを生成するものである（前記雑音信号生成手段の一例）。なお，ｎxは前記副マイクロホン３０の数である。

この（１）式は，話者１が発する音声（目的音）が前記副マイクロホン３１，３２それぞれにおいて収音される程度（音響の強さ）が前記音源距離Ｌ_oiの二乗に反比例することを反映し，話者１の位置（距離）に基づいて，前記目的音の混入度合いの高い前記副音響信号についての重みを小さくし，一方，前記目的音の混入度合いの低い前記副音響信号についての重みを大きくする加重平均処理を表す式である。
このような加重平均処理を行うことにより，前記目的音が前記副マイクロホン３０のいずれかに対して比較的大きな音量で混入するような位置に話者１が存在する場合，さらに，話者１の移動によってその混入の度合いが変化した場合でも，前記雑音信号Ｓｇｎにおける前記目的音の信号成分が常に低レベルに抑えられる。
また，前記雑音信号Ｓｇｎは，位置や指向方向がそれぞれ異なる複数の前記副マイクロホン３０を通じて得られた音響信号Ｓｇ２_iの合成信号であるので，複数の方向から異なる雑音が各マイクロホン２０，３０に到来する状況下においても，その雑音成分それぞれが漏れなく反映された信号となる。

前記目的音抽出部７は，前記主音響信号Ｓｇ１及び前記雑音信号Ｓｇｎそれぞれの時系列特徴ベクトルを算出し，前記主音響信号Ｓｇ１の時系列特徴ベクトルから前記雑音信号Ｓｇｎの時系列特徴ベクトルを減算することにより，前記目的音響信号Ｓｇｏ（目的音に相当する音響信号）を抽出し，その目的音響信号Ｓｇ０（抽出信号）を所定の出力端を通じて出力する２入力サブストラクション処理を実行するものである（前記２入力サブトラクション処理手段の一例）。
ここで，前記主音響信号Ｓｇ１及び前記雑音信号Ｓｇｎそれぞれの時系列特徴ベクトルの算出，及びその算出結果の減算処理による目的音の抽出に関する具体的処理の内容は，非特許文献１或いは特許文献１の段落０００４等にも示されるように周知であるのでここでは説明を省略する。
以上に示したように，目的音抽出装置Ｘ１においては，前記目的音を発する話者１の位置やその移動にかかわらず，前記雑音信号生成部６によって前記雑音信号Ｓｇｎにおける前記目的音の信号成分が常に低レベルに抑えられ，また，その雑音信号Ｓｇｎは，複数の方向から異なる雑音が各マイクロホン２０，３０に到来する状況下においても，その雑音成分それぞれが漏れなく反映された信号となる。従って，前記目的音抽出部７により，前記主音響信号Ｓｇ１から前記目的音の信号成分が雑音成分として誤って除去されることが回避され，また，各方向からの雑音成分が漏れなく前記主音響信号Ｓｇ１から除去される。その結果，目的音抽出装置Ｘ１によれば，複数の方向から異なる雑音が各マイクロホン２０，３０に到来する状況，及び目的音の音源と前記副マイクロホン３０との位置関係が変化する状況が生じても，高い雑音除去性能を維持できる。

［第２実施形態］
次に，図２に示すブロック図を参照しつつ，本発明の第２実施形態に係る目的音抽出装置Ｘ２について説明する。目的音抽出装置Ｘ２は，前記目的音抽出装置Ｘ１の応用例であり，図２に示す目的音抽出装置Ｘ２の構成要素のうち，前記目的音抽出装置Ｘ１の構成要素と同じものについては同じ符号を付している。
図２に示すように，目的音抽出装置Ｘ２は，１つの主マイクロホン２０，複数組（図２では２組）の副マイクロホン３１及び３２，Ａ／Ｄコンバータ４，音源位置検出部５’，雑音信号生成部６，目的音抽出部７及び雑音信号分離生成部１０を備えている。
前記雑音信号生成部６，前記目的音抽出部７及び前記雑音信号分離生成部１０は，例えばコンピュータの一例であるＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ等により具現化される。この場合，そのＲＯＭには，前記雑音信号生成部６，前記目的音抽出部７及び前記雑音信号分離生成部１０が行う処理を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。
ここで，目的音抽出装置Ｘ２における前記主マイクロホン２０，前記Ａ／Ｄコンバータ４，前記雑音信号生成部６及び前記目的音抽出部７は，前記目的音抽出装置Ｘ１における同名称（同符号）の構成要素と同じものである。
但し，目的音抽出装置Ｘ２においては，前記雑音信号生成部６は，複数のマイクロホンからなる一組の前記副マイクロホン３１，３２ごとに設けられた前記雑音信号分離生成部１０から出力される前記副音響信号Ｓｇ２₁，Ｓｇ２₂を，前記音源位置検出部５’により検出される前記音源距離Ｌ_o1，Ｌ_o2に基づく重み付け合成処理によって合成した前記雑音信号Ｓｇｎを出力する。

前記雑音信号分離生成部１０は，前記副マイクロホン３１，３２それぞれについて，その副マイクロホン３１，３２を構成する複数のマイクロホン（３１ａ，３１ｂ）と（３２ａ，３２ｂ）を通じて入力される複数の音響信号ｘ１，ｘ２（目的音の信号と雑音の信号とが混合した音響信号）に対し，独立成分分析法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ方式という）による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号Ｓｇ２₁，Ｓｇ２₂を分離生成するものである（前記雑音分離手段の一例）。
以下，図３及び図４に示すブロック図を参照しつつ，前記雑音信号分離生成部１０として適用可能な各種のＩＣＡ−ＢＳＳ方式の音源分離処理を行う音源分離装置の例について説明する。
なお，以下に示す音源分離装置Ｚ１，Ｚ２は，いずれも所定の音響空間に複数の音源と複数のマイクロホン１１１，１１２（前記副マイクロホン３１，３２それぞれを構成するマイクロホン（３１ａ，３１ｂ）又は（３２ａ，３２ｂ）に相当）とが存在する状態で，そのマイクロホン１１１，１１２各々を通じて，前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された信号である複数の混合音声信号が逐次入力される場合に，その混合音声信号に対してＩＣＡ−ＢＳＳ方式の音源分離処理を施すことにより，前記音源信号に対応する複数の分離信号（音源信号を同定した信号）を逐次生成する処理を行うものである。

図３は，ＩＣＡ−ＢＳＳ方式の一種である時間領域独立成分分析方式（time-domain independent component analysis方式，以下，ＴＤＩＣＡ方式という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分装置Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献２や非特許文献３等に示されている。
音源分離装置Ｚ１は，分離演算処理部１１ｔにより，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。なお，混合音声信号ｘ１(ｔ)，ｘ２(ｔ)は，所定のサンプリング周期でデジタル化された信号であるが，図３，図４においては，Ａ／Ｄコンバータの記載を省略している。
図３には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)を２つのマイクロホン１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ−ＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（２）式のように表される。

ここで，Ａ(ｚ)は，音源からの音響（音声）がマイクロホンへ入力される際の空間行列である。
ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（３）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算（学習計算）により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。また，分離行列Ｗ(ｚ)の逐次計算を行う際の分離行列の初期値（初期行列）は，予め定められたものが設定される。
このようなＩＣＡ−ＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（３）式は，次の（４）式のように書き換えて表現できる。

そして，（４）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（５）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（５）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図４に示すブロック図を用いて，ＩＣＡ−ＢＳＳ方式の一種であるＦＤＩＣＡ方式（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ２について説明する。
ＦＤＩＣＡ方式では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離演算処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離演算処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（６）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（７）式のように表すことができる。

このＦＤＩＣＡ方式によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。

図２に示すように，前記雑音信号分離生成部１０は，分離演算処理部１１及び学習演算部１２を備えている。図２には，入力される混合音声信号ｘ1，ｘ2のチャンネル数（即ち，マイクロホンの数）が２つである例について示しているが，前述したように（チャンネル数ｎ）≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。
前記分離演算処理部１１は，前記副マイクロホン３１，３２それぞれを構成する複数のマイクロホン（３１ａ，３１ｂ）又は（３２ａ，３２ｂ）各々を通じて逐次入力される各混合音声信号ｘiに対し，分離行列Ｗを用いた行列演算を施すことにより音源信号（ここでは，目的音の信号とその他の雑音の信号）各々に対応する２つの分離信号ｙ1，ｙ2を逐次生成しつつ，分離信号ｙ1，ｙ2を出力する音源分離処理を実行するものである。前記マイクロホン（３１ａ，３１ｂ）又は（３２ａ，３２ｂ）は，その一方（マイクロホン３１ａ，３２ａ）が話者１以外の方向に向けられ，他方（マイクロホン３１ｂ，３２ｂ）が話者１側に向けられている。
前記学習演算部１２は，予め定められた時間長分の２つの混合音声信号ｘ1，ｘ2を用いて，ＩＣＡ−ＢＳＳ音源分離処理における分離行列Ｗの学習計算を行うことにより，前記分離演算処理部１１で用いられる分離行列Ｗを順次算出するものである。
ここで，前記学習演算部１２による分離行列算出（学習計算），及びその分離行列に基づいて前記分離演算処理部１１により実行される音源分離の処理（行列演算処理）は，例えば，図３に示したＴＤＩＣＡ方式に基づく音源分離装置Ｚ１や，図４に示したＦＤＩＣＡ方式に基づく分離行列の更新処理及び分離演算処理等が採用される。なお，図３，図４に示した分離演算処理部１１ｔ，１１ｆが，図２における前記分離演算処理部１１に相当する。
ここで，図３及び図４に示す１番目のマイクロホン１１１が，話者１以外の方向（雑音音源の方向）に向けられたマイクロホン３１ａ又は３２ａであるとすれば，前記分離演算処理部１１は，１番目のマイクロホン１１１に対応する（即ち，混合音声信号ｘ1に対応する）分離信号ｙ1を前記副音響信号Ｓｇ２₁，Ｓｇ２₂として出力する。
前記雑音信号分離生成部１０により，前記目的音の信号成分の大部分が除去された前記副音響信号Ｓｇ２_iが得られるので，その副音響信号Ｓｇ２_iに基づき生成される前記雑音信号Ｓｇｎにも前記目的音の信号成分がほとんど含まれない。その結果，前記目的音抽出部７によって前記主音響信号Ｓｇ１から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。

次に，前記音源位置検出部５’について説明する。
前記音源位置検出部５’（前記音源位置検出手段の一例）は，前記雑音信号分離生成部１０によるＩＣＡ−ＢＳＳ方式の音源分離処理において前記学習演算部１２が実行する学習計算によって算出される分離行列Ｗに基づいて，前記副マイクロホン３１，３２それぞれに対する話者１（目的音源）の存在する方向θ_o1，θ_o2（以下，話者方向という）を検出（推定）するするＤＯＡ推定処理を実行する（前記目的音源方向検出手段の一例）。さらに，前記音源位置検出部５’は，その検出結果である話者方向θ_o1，θ_o2と前記副マイクロホン３１，３２それぞれの既知の位置関係とに基づいて，前記副マイクロホン３１，３２それぞれに対する話者１の位置（方向及び距離）を算出（検出）する処理を実行する。
例えば，図２に示すように，前記副マイクロホン３０を構成する全てのマイクロホンが直線上に配置され，前記音源位置検出部５’が，前記副マイクロホン３１，３２それぞれについて，２つのマイクロホン（３１ａ，３１ｂ）又は（３２ａ，３２ｂ）の中間点においてそれらマイクロホンの配列方向に直交する方向（以下，正面方向という）に対する話者１が存在する方向の角度を前記話者方向θ_o1，θ_o2として検出する。
さらに，前記音源位置検出部５’は，前記話者方向θ_o1，θ_o2と２組の前記副マイクロホン３１，３２相互間の距離（既知の距離）とに基づく三角関数計算を行うことによって前記音源距離Ｌ_o1，Ｌ_o2を算出（検出）する。
これにより，前記雑音信号分離生成部１０の処理結果（分離行列Ｗ）を有効活用してその処理結果に基づく情報処理を行うことにより，前記音源位置の検出手段を簡易に実現できる。

以下，前記音源位置検出部５’が実行する処理の内容について説明する。
前記音源位置検出部５’は，前記雑音信号分離生成部１０において前記学習演算部１２の学習計算によって算出される分離行列Ｗを取得し，その分離行列Ｗに基づいて，音響空間に存在する複数の音源である話者１及びその他の雑音音源の存在する方向（音源方向θ1，θ2という）それぞれを推定するＤＯＡ推定計算を実行するものである。
ここで，音源方向θ1，θ2は，直線上に配列された複数のマイクロホンの中間位置から，マイクロホンの配列方向に直交する方向に対する相対角度である。なお，マイクロホンの数をＫ個，各マイクロホンの座標（配列方向の座標）をｄ₁〜ｄ_Kとする。
前記音源位置検出部５’は，例えば，前記非特許文献４や非特許文献５に示されるＤＯＡ推定処理を実行することにより，前記音源方向θ1，θ2を推定（算出）する。より具体的には，前記分離行列Ｗにステアリングベクトルを乗じることによって音源方向θ1，θ2（ＤＯＡ）を推定する。

以下，前記非特許文献４や非特許文献５に示されるＤＯＡ推定処理（以下，死角特性に基づくＤＯＡ推定処理という）について説明する。
ＩＣＡ法による音源分離処理は，空間的死角フィルタを表す行列（分離行列）を学習演算によって算出し，その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくＤＯＡ推定処理は，前記分離行列が表す空間的死角角度を周波数ビンごとに計算し，その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向（角度）を推定する。
例えば，２つの音源の音を２つのマイクロホンで集音する音源分離装置において，前記死角特性に基づくＤＯＡ推定処理は，以下に示す計算を実行する。なお，以下の説明において，添字のｋはマイクロホンの識別番号（ｋ＝１，２），添字のｌは音源の識別番号（ｌ＝１，２），ｆは周波数ビン，ｆの添字ｍは周波数ビンの識別番号（ｍ＝１，２），Ｗlk(ｆ)は前記ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理（前記音源分離装置Ｚ２の処理）における学習計算により得られた分離行列，ｃは音速，ｄ_k（ｄ₁又はｄ₂）は２つのマイクロホンの中間位置から各マイクロホンまでの距離（マイクロホン相互間の距離の二分の一，即ち，ｄ₁＝ｄ₂），θ1及びθ2は２つの音源それぞれの音源方向（ＤＯＡ）である。
まず，次の（８）式により，ｌ＝１の場合及びｌ＝２の場合の音源角度情報Ｆl(ｆ，θ)を，分離フィルタの各周波数ビンごとに算出する。

さらに，次の（９）式及び（１０）式により周波数ビンごとのＤＯＡ（角度）θ1(ｆm)及びθ2(ｆm)を求める。

そして，周波数ビンごとに計算されたθ1(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を一方の音源の方向θ1とする。同様に，周波数ビンごとに計算されたθ2(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を他方の音源の方向θ2とする。
ここで，２番目のマイクロホン（座標ｄ₂）が，話者１側に向けられたマイクロホン３１ｂ又は３２ｂであるとすれば，前記音源位置検出部５’は，音源方向θ2を前記話者方向θ_o1，θ_o2として検出する。
以上に示した目的音抽出装置Ｘ２も，前記目的音抽出装置Ｘ１と同様の作用効果を奏する。

ところで，前記ＤＯＡ推定処理を実行するには，周波数領域の分離行列Ｗ(ｆ)が必要である。この点，前記雑音信号分離生成部１０として前記音源分離装置Ｚ２を採用した場合，得られる分離行列は周波数領域の分離行列Ｗ(ｆ)であり問題はない。
一方，前記雑音信号分離生成部１０として前記音源分離装置Ｚ１を採用した場合，得られる分離行列は時間領域の分離行列Ｗ(ｔ)である。そこで，前記雑音信号分離生成部１０として前記音源分離装置Ｚ１を採用した場合，前記目的音抽出装置Ｘ２には，前記雑音信号分離生成部１０における学習計算により得られる時間領域の分離行列Ｗ(ｔ)を周波数領域の分離行列Ｗ(ｆ)に変換する短時間離散フーリエ変換処理部（不図示）が設けられる。この短時間離散フーリエ変換処理部から出力される分離行列Ｗ(ｆ)が，前記音源位置検出部５’に入力される。
また，前記雑音信号生成部６は，時間領域の前記副音響信号Ｓｇ２₁，Ｓｇ₂２について前記重み付け合成処理を行う。この点，前記雑音信号分離生成部１０として前記音源分離装置Ｚ１を採用した場合，得られる前記副音響信号Ｓｇ２₁，Ｓｇ２₂は時間領域の信号であるので問題はない。
一方，前記雑音信号分離生成部１０として前記音源分離装置Ｚ２を採用した場合に得られる分離信号ｙ1，ｙ2は周波数領域の信号である。そこで，前記雑音信号分離生成部１０として前記音源分離装置Ｚ２を採用した場合，前記目的音抽出装置Ｘ２には，前記雑音信号分離生成部１０における分離演算処理（フィルタ処理）によって得られる分離信号ｙ1を時間領域の信号（前記副音響信号Ｓｇ２₁，Ｓｇ２₂）に変換する逆フーリエ変換処理部（不図示）が設けられる。この逆フーリエ変換処理部により出力される前記副音響信号Ｓｇ２₁，Ｓｇ２₂が，前記雑音信号生成部６に入力される。

ところで，複数の前記副マイクロホン３０それぞれに対する話者１（目的音源）の位置としては，例えば，前記音源距離Ｌ_o1，Ｌ_o2のみ又は前記話者方向θ_o1，θ_o2のみ，或いは前記音源距離Ｌ_o1，Ｌ_o2及び前記話者方向θ_o1，θ_o2の両方を特定する位置（二次元座標もしくは三次元座標における位置）等のいずれかが考えられる。
例えば，前記副マイクロホン３０が指向性を有する場合，目的音の混入度合いは，前記音源距離Ｌ_o1，Ｌ_o2だけではなく，前記話者方向θ_o1，θ_o2も大きく影響する。その影響を前記重み付け合成処理に反映するため，例えば，前記雑音信号生成部６が，例えば以下のような処理を実行することが考えられる。
即ち，前記副マイクロホン３１，３２それぞれについて，２次元又は３次元のゲイン分布の情報を予めＲＯＭ等の記憶手段に記憶させておく。そして，前記雑音信号生成部６が，前記音源位置検出部５’によって検出（算出）された話者１の位置と前記ゲイン分布の情報とに基づいて前記副マイクロホン３１，３２それぞれにおける目的音の収音ゲインを特定し，特定した収音ゲインに基づいて前記副音響信号Ｓｇ２₁，Ｓｇ２₂それぞれの重み係数を算出し，その重み係数に基づいて前記重み付け合成処理を実行することが考えられる。

本発明は，目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。

本発明の第１実施形態に係る目的音抽出装置Ｘ１の概略構成を表すブロック図。本発明の第２実施形態に係る目的音抽出装置Ｘ２の概略構成を表すブロック図。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図。ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図。

符号の説明

Ｘ１，Ｘ２：本発明の実施形態に係る目的音抽出装置
１：話者（音源）
２：音源
４：Ａ／Ｄコンバータ
５’：音源位置検出部
６：雑音信号生成部
７：目的音抽出部
１０：雑音信号分離生成部
２０：主マイクロホン
３０（３１，３２）：副マイクロホン
５１，５２：測距センサ

Claims

所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であって，
前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出手段と，
前記音源位置検出手段の検出結果に基づいて，前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成手段と，
前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する２入力サブトラクション処理手段と，
を具備してなることを特徴とする目的音抽出装置。
前記音源位置検出手段が，前記複数の副マイクロホンそれぞれに対する前記目的音源の距離を検出し，
前記雑音信号生成手段が，前記音源位置検出手段により検出された距離に基づいて前記複数の副音響信号について重み付け合成処理を実行してなる請求項１に記載の目的音抽出装置。
前記副マイクロホンそれぞれについて，該副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離手段を具備してなる請求項１又は２のいずれかに記載の目的音抽出装置。
前記音源位置検出手段が，前記雑音分離手段による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記副マイクロホンそれぞれに対する前記目的音源の存在する方向を検出する目的音源方向検出手段を具備してなる請求項３に記載の目的音抽出装置。
所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって，
コンピュータに，
前記複数の副マイクロホンそれぞれに対する前記目的音源の位置の検出結果に基づいて，前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成処理と，
前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する２入力サブトラクション処理と，
を実行させてなることを特徴とする目的音抽出プログラム。
コンピュータに，
前記副マイクロホンそれぞれについて，該副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離処理をさらに実行させてなる請求項５に記載の目的音抽出プログラム。
コンピュータに，
前記雑音分離処理による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記副マイクロホンそれぞれに対する前記目的音源の存在する方向である目的音源方向を検出することにより，前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出処理をさらに実行させてなる請求項６に記載の目的音抽出プログラム。