JP4519900B2

JP4519900B2 - 目的音抽出装置，目的音抽出プログラム，目的音抽出方法

Info

Publication number: JP4519900B2
Application number: JP2007325036A
Authority: JP
Inventors: 孝之稗方; 孝司森田; 陽平池田; 敏章下田
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2007-04-26
Filing date: 2007-12-17
Publication date: 2010-08-04
Anticipated expiration: 2027-12-17
Also published as: JP2008295010A

Description

本発明は，マイクロホンを通じて得られる音響信号に基づいて，所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置，そのプログラム及びその方法に関するものである。

電話会議システム，テレビ会議システム，券売機，カーナビゲーションシステム等，話者等の音源が発する音響を入力する機能を備えた装置においては，マイクロホンによってある特定の音源（以下，目的音源という）から発せられる音（以下，目的音という）が収音されるが，音源の存在する環境に応じて，そのマイクロホンを通じて得られる音響信号に，前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして，マイクロホンを通じて得られる音響信号において，雑音成分の割合が大きいと，目的音の明瞭性が損なわれ，通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来，例えば非特許文献１に示されるように，話者の発する音声（目的音の一例）を主として入力する主マイクロホン（音声マイクロホン）と，その話者の周囲の雑音を主として入力する（話者の音声がほとんど混入しない）副マイクロホン（雑音マイクロホン）とを用い，前記主マイクロホンを通じて得られる音響信号から，前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する２入力スペクトルサブストラクション処理が知られている。ここで，２入力スペクトルサブストラクション処理は，前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により，話者が発する音声（前記目的音）に相当する音響信号を抽出（即ち，雑音成分を除去する）する処理である。

ところで，前記副マイクロホンは，これに前記目的音が極力混入しないよう，前記主マイクロホンとは異なる位置に配置されたマイクロホン，或いは前記主マイクロホンとは異なる方向に指向性を有するマイクロホンが採用される。このため，複数の方向から異なる雑音が各マイクロホンに到来する場合，前記副マイクロホンにより主に収音される雑音と前記主マイクロホンに主に混入する雑音とが異なる状況が生じ得る。そのような状況が発生した場合，前記２入力スペクトルサブストラクション処理による雑音除去性能が悪化する。
これに対し，特許文献１には，複数の前記副マイクロホン（雑音マイクロホン）を用い，そのそれぞれを通じて入力される音響信号について，状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と，前記主マイクロホンを通じて入力される音響信号とに基づいて，前記２入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより，時間的，空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能になるとされている。
また，特許文献２には，カメラ一体型ＶＴＲ装置において，撮影範囲における複数方向からの音声を収音した複数の音声信号の相関係数を求め，その相関係数に基づいて，撮影範囲中央の方向に存在する人物からの音声信号を強調する技術が示されている。
また，特許文献３〜５には，目的音を主として入力するマイクロホン（前記主マイクロホンに相当）を通じて得られる音響信号（以下，主音響信号という）から，目的音以外の参照音（非目的音）を主として入力するマイクロホン（前記副マイクロホンに相当）を通じて得られる音響信号を適応フィルタにより処理した信号を除去することによって目的音の抽出信号を得るとともに，その抽出信号のパワーが最小化するように適応フィルタを調整する技術が示されている。

一方，所定の音響空間に複数の音源と複数のマイクロホン（音響入力手段）とが存在する場合，その複数のマイクロホンごとに，複数の音源各々からの個別の音響信号（以下，音源信号という）が重畳された音響信号（以下，混合音響信号という）が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクロホンを通じて入力される複数の前記混合音響信号において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。
ここで，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理によれば，分離信号各々は，混合音響信号の入力数（＝マイクロホンの数）と同じ数の出力端（出力チャンネルといってもよい）各々を通じて出力される。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献２や非特許文献３等に詳説されている。
また，音源分離処理としては，バイナリーマスキング処理（バイノーラル信号処理の一例）による音源分離処理も知られている。バイナリーマスキング処理は，複数の指向性マイクロホンを通じて入力される混合音声信号相互間で，複数に区分された周波数成分（周波数ビン）ごとのレベル（パワー）を比較することにより，混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献４や非特許文献５等に詳説されている。
特開平６−６７６９１号公報特開２００１−８２８５号公報特開平６−８３３７２号公報特開平６−９０４９３号公報特開平６−１６５２８６号公報菅村他，「２入力による雑音除去手法を用いた自動車内の音声認識」，電子情報通信学会技術研究報告，ＳＰ−８１，pp.41-48，1989 猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」，電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. R.F.Lyon, "A computational model of binaural localization and separation" ,In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect", Acta Acoustica, vol.1, pp.43--55, 1993.

しかしながら，非特許文献１に示される技術や特許文献３〜５に示される技術では，目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合，その目的音に対応する音響信号の成分が雑音成分として誤って除去されること等により，高い雑音除去性能が得られないという問題点があった。
また，特許文献１に示されるように，複数の前記副マイクロホン（雑音マイクロホン）を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記２入力スペクトルサブストラクション処理の入力信号として採用した場合，音響環境の変化によって加重平均の重みと，複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また，特許文献１に示されるように，複数の前記副マイクロホン（雑音マイクロホン）を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記２入力スペクトルサブストラクション処理の入力信号として採用した場合，複数の方向から異なる雑音が各マイクロホンに到来する状況下においては，選択に漏れた音響信号に基づく雑音成分が除去されず，やはり雑音除去性能が悪化するという問題点があった。
また，特許文献２に示される技術は，撮影範囲中央の人物からの音声信号が強調されるものの，それ以外の音声信号も残存し，目的音の信号が抽出されるわけではない。

また，前記主音響信号及び前記副音響信号に基づいて，前記ＩＣＡ法に基づくＢＳＳ方式の音源分離処理や前記バイナリーマスキング処理を実行すれば，目的音に対応する分離信号を得ることができるが，音響環境によっては，その分離信号に目的音以外の雑音の信号成分が比較的高い割合で含まれてしまう場合が生じるという問題点があった。例えば，前記ＩＣＡ法に基づくＢＳＳ方式の音源分離処理において，目的音及びそれ以外の雑音の音源がマイクロホンの数以上に存在したり，雑音が反射・反響するような環境では，音源分離性能が悪化する。
また，鋭い指向特性を実現する音響入力装置としては，例えば，マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られているが，それは指向性を鋭くするほど装置が大型化するという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，複数のマイクロホンを通じて得られる音響信号に目的音及びそれ以外の雑音（非目的音）が混入し，またその混入状態が変化し得る音響環境下において，小型の装置によって高い目的音抽出性能（雑音除去性能）を確保できる目的音抽出装置，目的音抽出プログラム及び目的音抽出方法を提供することにある。

上記目的を達成するために本発明（後述する第１発明に相当）に係る目的音抽出装置は，所定の目的音源から出力される目的音を主に入力する１つの主マイクロホンを通じて得られる１つの主音響信号と，前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であり，次の（１−１）〜（１−３）に示す各構成要素を備えるものである。
（１−１）前記主音響信号と前記複数の副音響信号それぞれとからなる２つの音響信号の組合せそれぞれについて個別に設けられ，当該２つの音響信号に基づいて，前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段。
（１−２）前記音源分離手段により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成手段。
（１−３）前記目的音分離信号合成手段により得られた合成信号と前記音源分離手段により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記目的音分離信号合成手段により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル減算処理手段。
本発明において，前記音源分離手段により分離生成される複数の前記目的音分離信号は，目的音の信号成分を主として含む信号である。同様に，前記音源分離手段により分離生成される複数の前記参照音分離信号は，位置や指向性の方向がそれぞれ異なる前記副マイクロホンそれぞれの収音範囲におけるノイズ音源の音（目的音以外の音（参照音））の信号成分を主として含む信号である。
しかしながら，複数のマイクロホン（前記主マイクロホン及び前記副マイクロホン）に対する目的音源の位置や雑音の発生状況によっては，前記目的音分離信号に，目的音以外の雑音の信号成分が比較的多く残存する場合もある。従って，それらを合成した前記合成信号も，基本的には目的音の信号成分を主として含む信号ではあるが，状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方，前記合成信号に目的音以外のノイズ音（参照音）の成分が含まれている場合であっても，スペクトル減算処理によって前記合成信号から前記目的音の信号成分を抽出した信号は，前記参照音分離信号の信号成分が除去された信号である。しかも，前記スペクトル減算処理手段による抽出信号は，複数の方向から異なる雑音（参照音）が前記主マイクロホンに到来する状況においても，それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って，複数の前記目的音分離信号の合成信号に対し，前記参照音分離信号それぞれの信号成分を除去する前記スペクトル減算処理を施すことにより，比較的強い特定の雑音が前記主マイクロホンに到来する状況や，複数の方向から異なる雑音が前記主マイクロホンに到来する状況においても，高い雑音除去性能を確保できる。

ところで，一般に，ＩＣＡ法に基づくＢＳＳ方式による音源分離処理において，高い音源分離性能を得るためには，分離処理（フィルタ処理）に用いる分離行列を求めるための逐次計算（学習計算）の回数を増やす，或いはその逐次計算に用いる音響信号（ディジタル信号）のサンプル数を増やすことが必要となり，そうすると，演算負荷が大きくなる。例えば，その逐次計算を実用的なプロセッサで行った場合，入力される音響信号の時間長に対して数倍の時間を要することもあり，リアルタイム処理に適さない。
一方，スペクトル減算処理は，その演算負荷が比較的小さく，実用的なプロセッサによってもリアルタイム処理が可能である。
そこで，本発明に係る目的音抽出装置において，前記音源分離手段が実行する音源分離処理が，次の（１−１−１）又は（１−１−２）のいずれかに示す処理であることが考えられる。
（１−１−１）前記音源分離手段が実行する前記音源分離処理において，マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに，前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い，該逐次計算の回数を予め定められた回数に制限する。
（１−１−２）前記音源分離手段が実行する前記音源分離処理において，マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに，前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに，その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行する。
上記（１−１−１）又は（１−１−２）に示した音源分離処理において，前記フィルタ処理は，演算負荷の小さな処理であり，実用的なプロセッサによって前記スペクトル減算処理と併せて実行されても，比較的余裕をもってリアルタイムでの処理を実現できる。
また，上記（１−１−１）又は（１−１−２）に示した音源分離処理における前記逐次計算（学習計算）も，逐次計算回数やその逐次計算に用いる音響信号（ディジタル信号）のサンプル数（時間帯）が制限された演算負荷の小さな処理である。そのため，前記逐次計算（学習計算）は，実用的なプロセッサによって前記フィルタ処理及び前記スペクトル減算処理（リアルタイム処理）と併せて実行されても，比較的短時間でその処理（以降に用いる前記分離行列の算出）が完了する。その結果，前記フィルタ処理に用いられる前記分離行列が，音響環境の変化に適応した状態に速やかに更新され，音響環境の変化に対する目的音抽出の適応力が高まる。また，このような前記逐次計算（学習計算）の簡素化より，前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても，前記音源分離処理とスペクトル減算処理との組合せにより，全体として目的音の抽出性能を十分に確保できる。

また，本発明に係る目的音抽出装置が，さらに次の（１−４）及び（１−５）に示す構成要素を備えればなお好適である。
（１−４）それぞれ指向性の方向が異なる３つ以上のマイクロホンを通じて得られる３つ以上の入力音響信号に基づいて，該３つ以上の入力音響信号の中から１つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段。
（１−５）前記主・副音響信号特定手段による特定結果に従って，前記３つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段。
例えば，前記主・副音響信号特定手段が，例えば，前記３つ以上の入力音響信号それぞれの信号強度の比較に基づいて，又は前記３つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて，１つの前記主音響信号と複数の前記副音響信号とを特定すること等が考えられる。
これらの構成要素を備えることにより，本発明に係る目的音抽出装置は，目的音源の位置が変わり得るために，複数のマイクロホンのうちの予め定められた１つを前記主マイクロホンとして固定できない対象に対しても適用できる。

また，本発明は，以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち，本発明に係る目的音抽出プログラムは，所定の目的音源から出力される目的音を主に入力する１つの主マイクロホンを通じて得られる１つの主音響信号と，前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり，さらに，次の（２−１）〜（２−３）に示す処理をコンピュータに実行させるプログラムである。
（２−１）前記主音響信号と前記複数の副音響信号それぞれとからなる２つの音響信号の組合せそれぞれについて個別に，当該２つの音響信号に基づいて，前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理。
（２−２）前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理。
（２−３）前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても，前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また，本発明は，以上に示した本発明に係る目的音抽出プログラムにおける各処理をコンピュータによって実行する目的音抽出方法として捉えることもできる。

本発明（後述する第１発明に相当）によれば，複数の方向から異なる雑音が各マイクロホンに到来する音響環境下や，目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入するような音響環境下，さらににはそのような音響環境が変化するような場合でも高い雑音除去性能を確保できる。
また，本発明によれば，後述するように，前記主マイクロホン自体の指向性が緩やかなものであっても，本発明に係る目的音抽出装置は非常に急峻な指向性を有する音響入力装置として機能する。しかも，前記主マイクロホンの位置若しくは指向性の方向に対する前記副マイクロホンの位置若しくは指向性の方向を調節する（近づけたり遠ざけたりする）ことにより，雑音として取り扱われる（除去される）音の音源の位置や方向を調節できるため，本発明に係る目的音抽出装置の指向性能を調節することができ，利便性が高い。また，後述するように，そのように急峻な，或いはフレキシブルな指向性を有する音響入力装置として機能する装置を，非常に小型の装置として実現できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は第１発明の実施形態に係る目的音抽出装置Ｘ１の概略構成を表すブロック図，図２は目的音抽出装置Ｘ１における目的音抽出処理の過程を表す概念図，図３は第２発明の実施形態に係る目的音抽出装置Ｘ２の概略構成を表すブロック図，図４は目的音抽出装置Ｘ２における目的音抽出処理の過程を表す概念図，図５は第３発明の実施形態に係る目的音抽出装置Ｘ３の概略構成を表すブロック図，図６は目的音抽出装置Ｘ３における目的音抽出処理の過程を表す概念図，図７は目的音抽出装置Ｘ１〜Ｘ３の目的音抽出性能を評価する第１の実験条件を表す図，図８は目的音抽出装置Ｘ１〜Ｘ３の目的音抽出性能を評価する第２の実験条件を表す図，図９は第１の実験条件の下での目的音抽出装置Ｘ１〜Ｘ３及び従来の目的音抽出処理の目的音抽出性能を表す図，図１０は第２の実験条件の下での目的音抽出装置Ｘ１〜Ｘ３及び従来の目的音抽出処理の目的音抽出性能を表す図，図１１は目的音抽出装置Ｘ１の指向性を評価する第３の実験条件を表す図，図１２は第３の実験条件の下での目的音抽出装置Ｘ１の指向性を表す図，図１３は目的音抽出装置Ｘ１〜Ｘ３に採用され得る音響入力装置Ｖ２の概略構成を表すブロック図，図１４はＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚの概略構成を表すブロック図，図１５は目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における学習計算を除く処理のシーケンスの第１例を表すタイムチャート，図１６は目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における学習計算を除く処理のシーケンスの第２例を表すタイムチャート，図１７は目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における第１実施例に係る学習計算のシーケンスを表すタイムチャート，図１８は目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における第２実施例に係る学習計算のシーケンスを表すタイムチャートである。

［第１発明］
まず，図１に示すブロック図を参照しつつ，第１発明の実施形態に係る目的音抽出装置Ｘ１について説明する。
図１に示すように，目的音抽出装置Ｘ１は，複数のマイクロホンを含む音響入力装置Ｖ１，複数（図１では３つ）の音源分離処理部１０（１０−１〜１０−３），目的音分離信号合成処理部２０及びスペクトル減算処理部３１を備えている。ここで，前記音響入力装置Ｖ１は，１つの主マイクロホン１０１及び複数（図１では３つ）の副マイクロホン１０２（１０２−１〜１０２−３）を含む。また，前記主マイクロホン１０１及び複数の前記副マイクロホン１０２は，それぞれ複数の異なる位置に配置されたもの，又はそれぞれ異なる複数の方向に指向性を有するものである。
前記主マイクロホン１０１は，所定の目的音源（例えば，所定範囲内で移動し得る話者等）が発する音響（以下，目的音という）を主に入力する音響入力手段である。
また，複数の前記副マイクロホン１０２−１〜１０２−３は，前記主マイクロホン１０１とは異なる複数の位置それぞれに配置されたもの，或いはそれぞれ異なる複数の方向に指向性を有するものであり，主として目的音以外の参照音（雑音）を入力する音響入力手段である。なお，副マイクロホン１０２との記載は，複数の副マイクロホン１０２−１〜１０２−３を総称した記載である。
なお，図１に示す主マイクロホン１０１及び副マイクロホン１０２は，それぞれ指向性を有するマイクロホンであり，副マイクロホン１０２は，それぞれ前記主マイクロホン１０２とは異なる複数の方向それぞれに指向性を有するよう配置されている。

前記主マイクロホン１０１及び前記副マイクロホン１０２それぞれが指向性を有するマイクロホンである場合，前記主マイクロホン１０１の指向中心方向（正面方向）を中心（０°）として一方の側の＋１８０°未満の方向（例えば，＋９０°の方向），及び他方の側の−１８０°未満の方向（例えば，−９０°の方向）のそれぞれに，前記副マイクロホン１０２の指向中心方向（正面方向）が設定されることが望ましい。
また，各マイクロホン１０１，１０２の指向方向が，同一平面内においてそれぞれ異なる方向に設定される他，三次元的に異なる方向に設定されることも考えられる。

そして，目的音抽出装置Ｘ１は，前記主マイクロホン１０１を通じて得られる主音響信号と，それ以外の複数の前記副マイクロホン１０２を通じて得られる副音響信号とに基づいて，前記目的音に相当する音響信号を抽出してその抽出信号（以下，目的音抽出信号という）を出力するものである。
目的音抽出装置Ｘ１において，前記音源分離処理部１０，前記目的音分離信号合成処理部２０及び前記スペクトル減算処理部３１は，例えばコンピュータの一例であるＤＳＰ(Digital Signal Processor)及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記音源分離処理部１０，前記目的音分離信号合成処理部２０及び前記スペクトル減算処理部３１が行う処理（後述）を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

前記音源分離処理部１０（１０−１〜１０−３）は，前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ，その組合せである主音響信号及び副音響信号とに基づいて，前記目的音に対応する分離信号（目的音の同定信号）である目的音分離信号と，前記目的音以外の音である参照音（雑音といってもよい）に対応する参照音分離信号（参照音の同定信号）とを分離生成する音源分離処理を実行するものである（前記音源分離手段の一例）。
なお，各マイクロホン１０１，１０２と前記音源分離処理部１０との間には，不図示のＡ／Ｄコンバータが設けられており，そのＡ／Ｄコンバータによってデジタル信号に変換された音響信号が，前記音源分離処理部１０に伝送される。例えば，目的音が人の声である場合，８ｋＨｚ程度のサンプリング周期でデジタル化すればよい。
ここで，前記音源分離処理部１０（１０−１〜１０−３）は，例えば，非特許文献２や非特許文献３に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理，或いは非特許文献４や非特許文献５に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。

以下，図１４に示すブロック図を参照しつつ，前記音源分離処理部１０として採用可能な装置の一例である音源分離装置Ｚについて説明する。
以下に示す音源分離装置Ｚは，所定の音響空間に複数の音源と複数のマイクロホン１０１，１０２が存在する状態で，そのマイクロホン１０１，１０２各々を通じて，音源各々からの個別の音声信号（以下，音源信号という）が重畳された信号である複数の混合音声信号が逐次入力される場合に，その混合音声信号に対してＩＣＡ法に基づくＢＳＳ方式の音源分離処理を施すことにより，前記音源信号に対応する複数の分離信号（音源信号を同定した信号）を逐次生成する処理を行うものである。
また，図１４に示す前記音源分離装置Ｚは，ＩＣＡ−ＢＳＳ方式の一種であるＦＤＩＣＡ方式（Frequency-Domain ICA）に基づく音源分離処理を行うものである。

ＦＤＩＣＡ方式では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離演算処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離演算処理（フィルタ処理）を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（１）式のように表すことができる。

この（１）式からわかるように，分離演算処理（フィルタ処理）は，周波数ビンごとに行われる。
ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（２）式のように表すことができる。

このＦＤＩＣＡ方式によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。
図１４において，主マイクロホン１０１に対応する分離信号ｙ1(ｆ)が前記目的音分離信号である。また，副マイクロホン１０２に対応する分離信号ｙ2(ｆ)が前記参照音分離信号である。
なお，図１４においては，入力される混合音声信号ｘ1，ｘ2のチャンネル数（即ち，マイクロホンの数）が２つである例について示しているが，（チャンネル数ｎ）≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。

また，目的音抽出装置Ｘ１において，前記目的音分離信号合成処理部２０は，前記音源分離処理部１０それぞれにより分離生成された複数の前記目的音分離信号の合成処理を実行し，それにより得られる合成信号を出力するものである（前記目的音分離信号合成手段の一例）。
例えば，前記目的音分離信号合成処理部２０は，複数の前記目的音分離信号について，複数に区分された周波数成分（周波数ビン）ごとに平均処理や加重平均処理を実行すること等により，それら目的音分離信号を合成する。
また，目的音抽出装置Ｘ１において，前記スペクトル減算処理部３１は，前記目的音分離信号合成処理部２０により得られた合成信号と，前記音源分離処理部１０それぞれにより分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記合成信号から前記目的音に相当する音響信号を抽出し，その抽出信号（前記目的音抽出信号）を出力するものである（前記スペクトル減算処理手段の一例）。
前記スペクトル減算処理部３１は，周知のスペクトル減算処理（スペクトラム差分法に基づく目的音抽出処理）により，前記合成信号から前記参照音分離信号それぞれの信号成分を除去することによって前記目的音抽出信号を抽出する処理を実行するものである。
前記スペクトル減算処理において，前記スペクトル減算処理部３１は，前記合成信号及び前記参照音分離信号それぞれについて，所定時間長分のフレームごとに離散フーリエ変換処理（ＤＦＴ）を実行し，観測信号（ここでは，前記合成信号）の短時間分析を行う。ここで，周波数ビンをｆ，分析フレーム番号をｍ，観測信号である前記合成信号のスペクトル値（ＤＦＴ後の信号値）をＹ(ｆ，ｍ)とし，目的音信号のスペクトル値がＳ(ｆ，ｍ)，雑音信号（目的音以外の音の信号）のスペクトル値がＮ(ｆ，ｍ)であるとすると，前記合成信号のスペクトル値Ｙ(ｆ，ｍ)は，次の（３）式により表される。

ここで，目的音信号と雑音信号との間に相関がないものと仮定し，さらに，雑音信号のスペクトル値Ｎ(ｆ，ｍ)を前記参照音信号のスペクトル値で近似できるとすると，前記スペクトル減算処理部３１は，目的音信号のスペクトル推定値（即ち，前記目的音抽出信号のスペクトル値）を，次の（４）式に基づき算出できる。

次に，図２を参照しつつ，目的音抽出装置Ｘ１における目的音抽出処理の過程について説明する。なお，説明の簡単化のため，図２には，前記副音響信号が２つである場合（即ち，前記副マイクロホン１０２が２つである場合）の例を示している。
前記音源分離処理部１０により分離生成される複数の前記目的音分離信号は，目的音の信号成分を主として含む信号である。同様に，前記音源分離処理部１０により分離生成される複数の前記参照音分離信号（図２におけるＹ_B1，Ｙ_B2）は，位置や指向性の方向がそれぞれ異なる前記副マイクロホン１０２それぞれの収音範囲におけるノイズ音源の音（参照音）の信号成分（図２において斜線のバーグラフ以外のバーグラフで示される成分）を主として含む信号である。
しかしながら，目的音源の位置や雑音の発生状況によっては，前記目的音分離信号に，目的音以外の参照音の信号成分が比較的多く残存する場合もある。従って，それらを合成した前記合成信号（図２におけるＹ_C）も，基本的には目的音の信号成分（図２において斜線のバーグラフで示される成分）を主として含む信号ではあるが，状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方，前記目的音分離信号に目的音以外のノイズ音（参照音）の成分が含まれている場合であっても，前記スペクトル減算処理部３１により，前記合成信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号（図２におけるＹ_O）は，前記参照音分離信号の信号成分が除去された信号である。しかも，前記目的音抽出信号は，複数の方向から異なる雑音（参照音）が前記主マイクロホン１０１に到来する状況においても，それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って，目的音抽出装置Ｙ１によれば，比較的強い特定の雑音が前記主マイクロホン１０１に到来する状況や，複数の方向から異なる雑音が前記主マイクロホン１０１に到来する状況においても，高い雑音除去性能を確保できる。
また，非線形処理である前記スペクトル減算処理のみでは，その出力信号（目的音の抽出信号）に非線形処理に特有のミュージカル雑音が生じやすいが，目的音抽出装置Ｘ１においては，前記音源分離処理部１０による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので，前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に，目的音及び雑音を含む音源の数が少数（３つ以下程度）の点音源である場合，音源分離処理が特に有効に目的音抽出に寄与し，ミュージカル雑音の抑制効果が高まる。

［第２発明］
次に，図３に示すブロック図を参照しつつ，第２発明の実施形態に係る目的音抽出装置Ｘ２について説明する。なお，図３において，目的音抽出装置Ｘ２が備える構成要素のうち，前記目的音抽出装置Ｘ１が備えるものと同じ処理を実行する構成要素については図１における符号と同じ符号を付している。
図３に示すように，目的音抽出装置Ｘ２は，複数のマイクロホンを含む音響入力装置Ｖ１，複数（図３では３つ）の音源分離処理部１０（１０−１〜１０−３）及びスペクトル近似信号抽出処理部３２を備えている。ここで，前記音響入力装置Ｖ１は，前記目的音抽出装置Ｘ１における前記音響入力装置Ｖ１と同じものである。
そして，目的音抽出装置Ｘ２も，前記主マイクロホン１０１を通じて得られる主音響信号と，それ以外の複数の前記副マイクロホン１０２を通じて得られる副音響信号とに基づいて，前記目的音に相当する音響信号を抽出してその抽出信号（前記目的音抽出信号）を出力するものである。
目的音抽出装置Ｘ２において，前記音源分離処理部１０及び前記スペクトル近似信号抽出処理部３２は，例えばコンピュータの一例であるＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記音源分離処理部１０及び前記スペクトル近似信号抽出処理部３２が行う処理（後述）を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

前記音源分離処理部１０（１０−１〜１０−３）は，前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ，前記主音響信号と前記副音響信号とに基づいて，前記目的音に対応する分離信号（同定信号）である目的音分離信号を分離生成する音源分離処理を実行するものである。
なお，各マイクロホン１０１，１０２と前記音源分離処理部１０との間には，前記目的音抽出装置Ｘ１と同様に，不図示のＡ／Ｄコンバータが設けられている。
ここで，前記音源分離処理部１０（１０−１〜１０−３）は，前記目的音抽出装置Ｘ１の場合と同様に，例えば，非特許文献２や非特許文献３に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理，或いは非特許文献４や非特許文献５に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。

また，前記スペクトル近似信号抽出処理部３２は，前記音源分離処理部１０によって分離生成された複数の前記目的音分離信号について，複数に区分された周波数帯域（周波数ビン）ごとの信号成分のうち，その信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより，複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出し，その抽出信号（前記目的音抽出信号）を出力するものである。
例えば，前記スペクトル近似信号抽出処理部３２は，複数の前記目的音分離信号について，周波数ビンごとにそれらの信号成分のレベル（パワー）を比較し，そのレベルの比や差が予め定められた範囲内にあるという前記近似条件を満たす場合に，それらの信号成分のいずれか１つを選択する，又はそれらの信号成分を合成する（例えば平均値や最小値を算出する）ことによって前記目的音抽出信号を抽出する。

次に，図４を参照しつつ，目的音抽出装置Ｘ２における目的音抽出処理の過程について説明する。なお，説明の簡単化のため，図４には，前記副音響信号が２つである場合（即ち，前記副マイクロホン１０２が２つである場合）の例を示している。
前記音源分離処理部１０により分離生成される複数の前記目的音分離信号（図４におけるＹ_A1，Ｙ_A2）は，それぞれ目的音の信号成分（図４において斜線のバーグラフで示される成分）を主として含む信号である。
しかしながら，目的音源の位置や雑音の発生状況によっては，前記目的音分離信号に，目的音以外の参照音の信号成分（図４において斜線のバーグラフ以外のバーグラフで示される成分）が比較的多く残存する場合もある。
一方，前記目的音分離信号に目的音以外のノイズ音（参照音）の成分が含まれている場合であっても，複数のマイクロホン１０１，１０２それぞれの位置又は指向性の方向が異なるので，雑音成分を多く含む前記目的音分離信号は，その全てのうちの一部であるか，或いは前記目的音分離信号それぞれに含まれる雑音成分の種類が異なることが通常である。
従って，前記スペクトル近似信号抽出処理部３２により，複数の前記目的音分離信号（図４におけるＹ_A1，Ｙ_A2）において近似する信号成分を抽出した結果である前記目的音抽出信号（図４におけるＹ_O）は，各種の雑音の信号成分が除去された信号である。
従って，目的音抽出装置Ｙ２によれば，比較的強い特定の雑音が前記主マイクロホン１０１に到来する状況や，複数の方向から異なる雑音が前記主マイクロホン１０１に到来する状況においても，高い雑音除去性能を確保できる。

［第３発明］
次に，図５に示すブロック図を参照しつつ，第３発明の実施形態に係る目的音抽出装置Ｘ３について説明する。なお，図５において，目的音抽出装置Ｘ３が備える構成要素のうち，前記目的音抽出装置Ｘ１が備えるものと同じ処理を実行する構成要素については図１における符号と同じ符号を付している。
図５に示すように，目的音抽出装置Ｘ３は，複数のマイクロホンを含む音響入力装置Ｖ１，複数（図３では３つ）の音源分離処理部１０（１０−１〜１０−３）及びスペクトル減算処理部３１’を備えている。ここで，前記音響入力装置Ｖ１は，前記目的音抽出装置Ｘ１における前記音響入力装置Ｖ１と同じものである。
そして，目的音抽出装置Ｘ３も，前記主マイクロホン１０１を通じて得られる主音響信号と，それ以外の複数の前記副マイクロホン１０２を通じて得られる副音響信号とに基づいて，前記目的音に相当する音響信号を抽出してその抽出信号（前記目的音抽出信号）を出力するものである。
目的音抽出装置Ｘ３において，前記音源分離処理部１０及び前記スペクトル減算処理部３１’は，例えばコンピュータの一例であるＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記音源分離処理部１０及び前記スペクトル減算処理部３１’が行う処理（後述）を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

前記音源分離処理部１０（１０−１〜１０−３）は，前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ，前記主音響信号と前記副音響信号とに基づいて，前記目的音以外の雑音（参照音）に対応する分離信号（同定信号）である参照音分離信号を分離生成する音源分離処理を実行するものである。
なお，各マイクロホン１０１，１０２と前記音源分離処理部１０との間には，前記目的音抽出装置Ｘ１と同様に，不図示のＡ／Ｄコンバータが設けられている。
ここで，前記音源分離処理部１０（１０−１〜１０−３）は，前記目的音抽出装置Ｘ１の場合と同様に，例えば，非特許文献２や非特許文献３に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理，或いは非特許文献４や非特許文献５に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。

また，前記スペクトル減算処理部３１’は，前記主マイクロホン１０１を通じて得られる前記主音響信号と，前記音源分離処理部１０により分離生成された複数の前記参照音分離信号との間で前述したスペクトル減算処理を行うことにより，前記主音響信号から前記目的音に相当する音響信号を抽出し，その抽出信号（前記目的音抽出信号）を出力するものである。このスペクトル減算処理部３１’は，処理対象（観測信号）が前記合成信号から前記主音響信号に入れ替わったこと以外は前記目的音抽出装置Ｘ１における前記スペクトル減算処理部３１と同じ処理を実行するものである。

次に，図６を参照しつつ，目的音抽出装置Ｘ１における目的音抽出処理の過程について説明する。なお，説明の簡単化のため，図６には，前記副音響信号が２つである場合（即ち，前記副マイクロホン１０２が２つである場合）の例を示している。
前記音源分離処理部１０により分離生成され複数の前記参照音分離信号（図６におけるＹ_B1，Ｙ_B2）は，位置や指向性の方向がそれぞれ異なる前記副マイクロホン１０２それぞれの収音範囲におけるノイズ音源の音（参照音）の信号成分（図６において斜線のバーグラフ以外のバーグラフで示される成分）を主として含む信号である。
一方，前記主音響信号には，目的音以外の参照音の信号成分が比較的多く残存する場合もある。このように，前記主音響信号に目的音以外のノイズ音（参照音）の成分が含まれていても，前記スペクトル減算処理部３１’により，前記主音響信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号（図６におけるＹ_O）は，前記参照音分離信号の信号成分が除去された信号である。しかも，前記目的音抽出信号は，複数の方向から異なる雑音（参照音）が前記主マイクロホン１０１に到来する状況においても，それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って，目的音抽出装置Ｙ３によれば，比較的強い特定の雑音が前記主マイクロホン１０１に到来する状況や，複数の方向から異なる雑音が前記主マイクロホン１０１に到来する状況においても，高い雑音除去性能を確保できる。
また，非線形処理である前記スペクトル減算処理のみでは，その出力信号（目的音の抽出信号）に非線形処理に特有のミュージカル雑音が生じやすいが，目的音抽出装置Ｘ３においては，前記音源分離処理部１０による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので，前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に，目的音及び雑音を含む音源の数が少数（３つ以下程度）の点音源である場合，音源分離処理が特に有効に雑音抽出に寄与し，ミュージカル雑音の抑制効果が高まる。
なお，ＦＤＩＣＡ方式の音源分離処理を実行する前記音源分離処理部１０の処理結果である前記参照音分離信号，前記目的音分離信号及びそれらの合成信号，並びに，前記スペクトル減算処理や前記スペクトル近似信号抽出処理により得られる前記目的抽出信号は，いずれも周波数領域の音響信号である。このため，図１，３，５には図示されていないが，目的音抽出装置Ｙ１，Ｙ２，Ｙ３は，さらに，ＩＤＦＴ処理部と音響出力処理部とを備えている。
前記ＩＤＦＴ処理部は，周波数領域の前記目的音抽出信号を時間領域の信号に変換する処理，即ち，逆離散フーリエ変換（ＩＤＦＴ）処理を施して所定のバッファメモリに出力する処理を実行する。
また，前記音響出力処理部は，前記ＩＤＦＴ処理部により得られた時間領域の目的音抽出信号を順次外部出力する（例えば，実時間で出力する）。

［目的音抽出性能の評価］
以下，図７〜図１０を参照しつつ，以上に示した目的音抽出装置Ｘ１〜Ｘ３それぞれの目的音抽出性能の評価結果について説明する。
図７及び図８に，目的音抽出装置Ｘ１〜Ｘ３の目的音抽出性能を評価する第１の実験条件及び第２の実験条件を示す。
前記第１の実験条件は，指向性を有する前記主マイクロホン１０１の正面方向に目的音源が，指向性を有する前記副マイクロホン１０２それぞれの正面方向にその他のノイズ音源（参照音源）が存在するという理想状態に比較的近い条件である。
また，前記第２の実験条件は，指向性を有する前記主マイクロホン１０１の正面方向に目的音源が存在する一方，その他のノイズ音源（参照音源）が前記副マイクロホン１０２それぞれに必ずしも対応していないという実際の使用環境に比較的近い条件である。
前記第１の実験条件及び前記第２の実験条件それぞれの下での前記目的音抽出装置Ｘ１〜Ｘ３及び従来の目的音抽出装置の目的音抽出性能を，前記目的音抽出信号におけるＮＲＲ（Noise Reduction Rate）により表したものが図９及び図１０である。図９及び図１０において，前記目的音抽出装置Ｘ１〜Ｘ３それぞれを装置Ｘ１〜装置Ｘ３，従来の目的音抽出装置を従来装置と記している。なお，ここでいう従来の目的音抽出装置は，前記主音響信号から，前記副音響信号に基づく前記スペクトル減算処理によって目的音に対応する信号成分を抽出するものである。
図９及び図１０からわかるように，実験条件にかかわらず，前記目的音抽出装置Ｘ１〜Ｘ３のいずれによっても，従来装置に比べて極めて高い目的音抽出性能が得られることがわかる。
また，前記目的音抽出装置Ｘ１〜Ｘ３の中では，特に，前記目的音抽出装置Ｘ１による目的音抽出性能が高く，それに続いて前記目的音抽出装置Ｘ３，前記目的音抽出装置Ｘ２の順で，高い目的音抽出性能が得られることがわかる。
このように，前記目的音抽出装置Ｘ１〜Ｘ３によれば，様々な音響環境の下において，従来よりも高い目的音抽出性能（雑音除去性能）を確保できる。

［指向性の評価］
以下，図１１及び図１２を参照しつつ，前記目的音抽出装置Ｘ１の指向性の評価結果について説明する。
図１１に，目的音抽出装置Ｘ１の指向性を評価する第３の実験条件を示す。この第３の実験条件は，目的音源を移動させることにより，前記主マイクロホン１０１の正面方向を基準としてどの程度の範囲まで目的音を抽出できるかを評価する実験条件である。
前記第３の実験条件の下での前記目的音抽出装置Ｘ１及び指向性を有する前記主マイクロホン１０１自体の指向特性，即ち，全３６０度方向からの音源に対するマイク感度（単位ｄＢ）を表したものが図１２である。

図１２からわかるように，前記主マイクロホン１０１自体の指向性が非常に緩やかなものであるにもかかわらず，前記目的音抽出装置Ｘ１においては，前記主マイクロホン１０１の正面方向を中心としたごく狭い範囲で高いＮＲＲが得られる一方で，目的音源がその範囲から外れると急激にＮＲＲが低下する。
このように，前記主マイクロホン１０１自体の指向性が非常に緩やかなものであっても，前記目的音抽出装置Ｘ１としては非常に急峻な指向性を有する音響入力装置として機能する。

また，図１２に示す結果において，前記主マイクロホン１０１の正面方向（指向範囲の中心方向）を中心（０°方向）として概ね＋４５°及び−４５°の方向が，指向性の範囲の境界を形成する方向となっている。
一方，前記第３の実験条件において，それぞれ左右対称でほぼ同じ指向特性を有する前記主マイクロホン１０１及び前記副マイクロホン１０２が，前記主マイクロホン１０１の指向中心方向（０°）に対して２つの前記副マイクロホン１０２それぞれの指向中心方向が＋９０°及び−９０°に設定されている。このことから，前記目的音抽出装置Ｘ１〜Ｘ３において，前記主マイクロホン１０１及び前記副マイクロホン１０２がそれぞれ左右対称でほぼ同じ指向特性を有する場合，指向性の範囲の境界を形成する方向が，前記主マイクロホン１０１の指向中心方向と，前記副マイクロホン１０２それぞれの指向中心方向との中間方向となることがわかる。
また，図１２に示す例は，各マイクロホン１０１，１０２の指向方向が，同一平面内においてそれぞれ異なる方向に設定された場合の例であるが，それらが三次元的に異なる方向に設定した場合，指向性の範囲の境界を三次元的に所望の方向に設定できる。
例えば，ある一の平面内において前記主マイクロホン１０１の正面方向と２つの前記副マイクロホン１０２−１，１０２−２の正面方向とを０°方向及び±９０°の方向に向け，もう１つの前記副マイクロホン１０２−３の正面方向を前記一の平面に直交する方向に向けること等も考えられる。これにより，前記目的音抽出装置Ｘ１の指向特性を三次元的に所望の特性に設定できる。
従って，前記目的音抽出装置Ｘ１に，前記主マイクロホン１０１の位置若しくは指向性の方向に対する前記副マイクロホン１０２の位置若しくは指向性の方向を調節する（近づけたり遠ざけたりする）ためのスイッチやダイヤル等の操作部を設けることにより，前記目的音抽出装置Ｘ１の指向性能を容易に調節することができ，利便性が高い。
また，以上に示した前記目的音抽出装置Ｘ１の指向性能は，前記目的音抽出装置Ｘ２及びＸ３も同様に有する。

ところで，鋭い指向特性を実現する音響入力装置としては，例えば，マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られている。しかしながら，そのような従来の音響入力装置において，図１２に示すような鋭い指向性を実現するためには，マイクロホンアレイを構成するマイクロホンの数を増やし，かつそれらマイクロホンを数メートルに渡って配列しなければならず，人が簡単に運搬できないほどに装置が大型化してしまう。
一方，前記目的音抽出装置Ｘ１〜Ｘ３は，数センチメートルの間隔で配置された３〜５個程度のマイクロホンと，信号処理を行うＤＳＰやＡＳＩＣ等のごく小型のプロセッサとを備えた小型の装置（一般的なハンディマイク程度の大きさの装置）により，図１２に示すような鋭い指向性を実現できる。

次に，図１３に示すブロック図を参照しつつ，前記目的音抽出装置Ｘ１〜Ｘ３において，前記音響入力装置Ｖ１の代わりに採用可能な装置の一例である音響入力装置Ｖ２について説明する。
前記音響入力装置Ｖ１においては，前記主音響信号を得るための前記主マイクロホン１０１及び前記副音響信号を得るための複数の前記副マイクロホン１０２が予め定められていたが，前記音響入力装置Ｖ２は，複数のマイクロホンを備え，そのいずれを前記主マイクロホン１０１及び前記副マイクロホン１０２として機能させるかを状況に応じて切り替えるものである。
図１３に示すように，前記音響入力装置Ｖ２は，３つ以上（図１３では４つ）のマイクロホン１００−１〜１００−４と，主・副音響信号特定部４１と，信号切替器４２とを備えている。
３つ以上の前記マイクロホン１００−１〜１００−４は，それぞれ配置位置が異なる又はそれぞれ指向性の方向が異なるマイクロホンである。これらのマイクロホン１００−１〜１００−４は，状況に応じて，前記主マイクロホン１０１として機能したり，或いは前記副マイクロホン１０２として機能する。
例えば，前記マイクロホン１００−１〜１００−４は，それぞれ同じ指向性を有するマイクロホンであり，図１３に示すように，所定の円周（中心ＰＯ）上にその円における放射線方向外側に向けて等間隔に（マイクロホン位置と円の中心ＰＯとを結んだときの中心角が等しくなるように）配置される。

また，前記主・副音響信号特定部４１は，３つ以上の前記マイクロホン１００−１〜１００−４それぞれを通じて得られる３つ以上の入力音響信号に基づいて，それら入力音響信号の中から１つの前記主音響信号と，複数の前記副音響信号とを特定する処理を実行するものである（前記主・副音響信号特定手段の一例）。さらに，前記主・副音響信号特定部４１は，前記主音響信号及び前記副音響信号の特定結果に応じた制御信号を前記信号切替器４２に対して出力する。
前記主・副音響信号特定部４１は，例えば，３つ以上の前記入力音響信号それぞれの信号強度（音圧）を比較し，その信号強度が最大である入力音響信号を前記主音響信号として特定し，その他の入力音響信号の全て又はその一部（２つ以上）を前記副音響信号として特定する。前記その他の入力音響信号のうちの一部を前記副音響信号として特定する方法としては，例えば，前記主音響信号を得るマイクロホンに対し，配置位置又は指向方向が両側それぞれに隣接する２つのマイクロホンを通じて得られる音響信号を前記副音響信号として特定すること等が考えられる。
また，前記主・副音響信号特定部４１が，３つ以上の前記入力音響信号それぞれにおける予め定められた周波数成分の占める割合を比較し，その割合が最大であるものを前記主音響信号として特定し，その他の入力音響信号の全て又はその一部（２つ以上）を前記副音響信号として特定すること等も考えられる。これは，前記目的音源が発する音響の周波数特性がある程度既知である場合等に有効である。
前記主・副音響信号特定部４１は，例えばコンピュータの一例であるＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記主・副音響信号特定部４１が行う処理（後述）を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

また，前記信号切替器４２は，前記主・副音響信号特定部４１から出力される制御信号（信号の特定結果に応じた信号）に従って，３つ以上の前記マイクロホン１００−１〜１００−４から前記音源分離処理部１０への音響信号の伝送経路を切り替える装置である（前記信号経路切替手段の一例）。
前記信号切替器４２は，前記マイクロホン１００−１〜１００−４それぞれに接続される信号入力端Ｉｎ１〜Ｉｎ４と，前記主音響信号の出力用の１つの信号出力端Ｏｔ１と，前記副音響信号の出力用の複数（図１３では３つ）の信号出力端Ｏｔ２〜Ｏｔ４とを備えている。さらに，前記信号切替器４２は，前記主・副音響信号特定部４１から出力される制御信号に応じて，各信号入力端Ｉｎ１〜Ｉｎ４と各信号出力端Ｏｔ１〜Ｏｔ４とを接続する信号経路を，予め定められた複数の切替パターンの中から選択的に切り替える。これにより，前記主・副音響信号特定部４１によって前記主音響信号として特定された音響信号が前記出力端Ｏｔ１から出力され，前記主・副音響信号特定部４１によって前記副音響信号として特定された音響信号が前記出力端Ｏｔ２〜Ｏｔ４から出力される。
前記目的音抽出装置Ｘ１〜Ｘ３は，図１３に示すような音響入力装置Ｖ２を備えることにより，目的音源の位置が変わり得るために，複数のマイクロホンのうちの予め定められた１つを前記主マイクロホン１０１として固定できない対象に対しても適用可能となる。

次に，図１５〜図１８に示すタイムチャートを参照しつつ，前記音源分離処理部１０が前記ＦＤＩＣＡ方式に基づく音源分離処理を行う場合について，その音源分離処理のシーケンスについて説明する。なお，前述したように，前記ＦＤＩＣＡ方式に基づく音源分離処理は，独立成分分析法に基づくブラインド音源分離方式による音源分離処理の一例である。なお，以下の説明において，前記目的音抽出装置Ｘ１における前記目的音分離信号合成処理部２０及び前記スペクトル減算処理部３１の処理と，前記目的音抽出装置Ｘ２における前記スペクトル近似信号抽出処理部３２の処理と，前記目的音抽出装置Ｘ３における前記スペクトル減算処理部３１’の処理とを総称してポスト処理という。
前記ＦＤＩＣＡ方式に基づく音源分離処理では，複数のマイクロホン（目的音抽出装置Ｘ１〜Ｘ３における前記主マイクロホン１０１及び前記副マイクロホン１０２）を通じて時系列に入力される音響信号（以下，入力音響信号という）に対し，これを周波数領域の信号に変換した上で，分離行列Ｗ(ｆ)に基づくフィルタ処理（行列演算）を順次実行して分離信号（前記参照音分離信号や前記目的音分離信号）を生成する処理が実行される。ここで，前記入力音響信号は，図１４における前記混合音声信号ｘ1(ｔ)，ｘ2(ｔ)に相当し，図１，図３及び図５における前記主音響信号及び前記副音響信号に相当する。
また，前述したように，前記フィルタ処理は，所定時間長分のフレーム信号（例えば，前記混合音声信号が数十ms〜数百ms程度の周期で区分された信号）ごとに行われる。このフィルタ処理は，演算負荷の小さな処理であり，実用的なプロセッサによって前記ポスト処理と併せて実行されても，比較的余裕をもってリアルタイムでの処理を実現できる。
さらに，前述したように，前記ＦＤＩＣＡ方式に基づく音源分離処理では，時系列に入力される前記入力音響信号を用いて，前記フィルタ処理に用いる前記分離行列Ｗ(ｆ)を求める学習計算（逐次計算）も行われる。この学習計算は，演算負荷が大きく，一般に，リアルタイム処理に適さない。

図１５は，目的音抽出装置Ｘ１〜Ｘ３における前記学習計算を除く処理のシーケンスの第１例を表すタイムチャートである。なお，以下に示すＳｔ１，Ｓｔ２，…は，処理手順（ステップ）の識別符号を表す。
図１５に示すように，目的音抽出装置Ｘ１〜Ｘ３においては，前記音源分離処理部１０が，前記入力音響信号について，所定時間長分のフレーム信号｛Frame(ｉ−１)，Frame(ｉ)，Frame(ｉ＋１)…｝ごとに，離散フーリエ変換（ＤＦＴ）処理（Ｓｔ１）を施し，その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。この第１例では，前記音源分離処理部１０は，離散フーリエ変換処理（Ｓｔ１）を，前記フレーム信号の時間長と同じ周期で実行する。これにより，連続する２つのフレーム信号は，時間帯の重複のない信号となる。
さらに，前記音源分離処理部１０は，ＤＦＴ処理により得られる周波数領域のフレーム信号ごとに，分離行列Ｗ(ｆ)に基づくフィルタ処理（Ｓｔ２：行列演算）を順次実行して分離信号を生成する。
次に，他の処理部（前記目的音分離信号合成処理部２０及び前記スペクトル減算処理部３１，又は前記スペクトル近似信号抽出処理部３２，又は前記スペクトル減算処理部３１’）が，前記フィルタ処理（Ｓｔ２）により得られた分離信号に基づいて前記ポスト処理（Ｓｔ３）を実行する。これにより，前記入力音響信号における前記フレーム信号それぞれに対応する周波数領域の前記目的音抽出信号が得られる。
さらに，前記ＩＤＦＴ処理部（不図示）が，逆離散フーリエ変換（ＩＤＦＴ）処理（Ｓｔ４）を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し，前記音響出力処理部が，時間領域の目的音抽出信号（出力音響信号）を順次外部出力する（Ｓｔ５）。
以上に示したステップＳｔ１〜Ｓｔ４の処理は，演算負荷の小さな処理であり，実用的なプロセッサによって実行されても，比較的余裕をもって前記フレーム信号の時間長の範囲内で処理を完了できる。従って，前記出力音響信号は，前記入力音響信号に対して若干の遅延時間ｔｄ（数十ms〜数百ms未満）が生じるものの，前記入力音響信号の入力に応じて実時間で出力される音響信号となる。

また，図１６は，目的音抽出装置Ｘ１〜Ｘ３における前記学習計算を除く処理のシーケンスの第２例を表すタイムチャートである。
図１６に示す例においても，前記音源分離処理部１０が，前記入力音響信号について，前記フレーム信号｛Frame(ｉ−１)，Frame(ｉ)，Frame(ｉ＋１)…｝ごとに，離散フーリエ変換（ＤＦＴ）処理（Ｓｔ１）を施し，その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。但し，この第２例では，前記音源分離処理部１０は，離散フーリエ変換処理（Ｓｔ１）を，前記フレーム信号の時間長よりも短い周期で実行する。これにより，連続する２つのフレーム信号は，一部の時間帯が重複する信号となる。
さらに，前記音源分離処理部１０は，ＤＦＴ処理により得られる周波数領域のフレーム信号ごとに，分離行列Ｗ(ｆ)に基づくフィルタ処理（Ｓｔ２：行列演算）を順次実行して分離信号を生成する。その際，前記音源分離処理部１０が生成する連続する２フレーム分の分離信号も，一部の時間帯（図１６において波線の円内の時間帯）が重複する信号となる。そのため，前記音源分離処理部１０は，連続する２フレーム分の分離信号における重複する時間帯の部分について合成処理（加重平均処理等）を施すことにより，出力する分離信号を生成する。
次に，前記第１例（図１５）と同様に，他の処理部が，前記フィルタ処理（Ｓｔ２）により得られた分離信号に基づいて前記ポスト処理（Ｓｔ３）を実行する。
さらに，前記第１例（図１５）と同様に，前記ＩＤＦＴ処理部（不図示）が，逆離散フーリエ変換（ＩＤＦＴ）処理（Ｓｔ４）を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し，前記音響出力処理部が，時間領域の目的音抽出信号（出力音響信号）を順次外部出力する（Ｓｔ５）。
以上に示した第２例の処理においても，前記出力音響信号は，前記入力音響信号に対して若干の遅延時間ｔｄ（数十ms〜数百ms未満）が生じるものの，前記入力音響信号の入力に応じて実時間で出力される音響信号となる。

一方，前記ＦＤＩＣＡ方式に基づく音源分離処理における前記学習計算は，連続する複数の前記フレーム信号が入力されるごとに，その複数のフレーム信号を用いた逐次計算によって新たな前記分離行列Ｗ(ｆ)（以降の前記フィルタ処理に用いられる分離行列）を算出する処理であり，図５に示した各処理（Ｓｔ１〜Ｓｔ５）と並行して実行される。このようにして新たに算出された分離行列Ｗ(ｆ)は，以降に実行される前記フィルタ処理に用いられる。
以下，前記学習計算において新たな分離行列Ｗ(ｆ)を算出するごとに用いられる予め定められた数（複数）の連続する前記フレーム信号の集合のことを，以下，メタフレーム信号という。このメタフレーム信号は，時系列に入力される前記入力音響信号における予め定められた周期で区分された信号（前記区間信号に相当）であり，直接的には，周波数領域の信号に変換された（逆離散フーリエ変換処理が施された）メタフレーム信号が前記学習計算に用いられる。前記フレーム信号の時間長（信号区分の周期）が数十ミリ秒〜数百ミリ秒であるのに対し，前記メタフレーム信号の時間長（信号区分の周期）は，処理を実行するプロセッサの能力にもよるが，音響環境の変化への適応時間として許容される時間（例えば，数秒程度）である。

図１７は，前記ＦＤＩＣＡ方式に基づく音源分離処理を行う前記音源分離処理部１０が実行する前記学習計算の第１実施例のタイムチャートである。
図１７に示す前記学習計算（逐次計算）の例（第１実施例）は，前記メタフレーム信号｛Mframe(１)，Mframe(２)，Mframe(３)，…｝ごとに，そのメタフレーム信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列Ｗ(ｆ)を求める場合の例である。但し，この場合，学習計算における逐次計算の回数が，予め定められた上限回数以下となるように（その上限回数に至れば逐次計算を完了させるように）制限されている。
図１７に示す第１実施例の学習計算では，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の全てを用いて分離行列Ｗ(ｆ)の計算（学習）を行う。そして，以降の前記フィルタ処理により用いられる分離行列Ｗ(ｆ)が，前記学習計算により求められた新たな分離行列Ｗ(ｆ)に更新される。このとき，ある前記メタフレーム信号Mframe(i)を用いて計算（学習）された分離行列Ｗ(ｆ)を，次の前記メタフレーム信号Mframe(i+1)を用いて分離行列Ｗ(ｆ)を計算（逐次計算）する際の初期値（初期分離行列）として用いれば（初期行列の引き継ぎ），逐次計算（学習）の収束が早まり好適である。
ここで，演算負荷の高い前記学習計算を特に制限無しで実行した場合，前記メタフレーム信号ごとの学習計算の時間ｔｓが，前記メタフレーム信号の時間長（Ｔi+1−Ｔi）より大きくなり，音響環境の変化への速やかな適応が困難になる事態が生じる。
そこで，前記メタフレーム信号ごとの学習計算の時間ｔｓが，前記メタフレーム信号の時間長（Ｔi+1−Ｔi）よりも常に短くなるように，前記学習計算における逐次計算回数を前記上限回数で制限すれば，音響環境の変化への速やかな適応が可能となる。
また，このような逐次計算回数の制限（学習計算の簡素化）より，前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても，前記音源分離処理と前記ポスト処理（スペクトル減算処理やスペクトル近似信号抽出処理）との組合せにより，全体として目的音の抽出性能を十分に確保できる。
なお，前記目的音抽出装置Ｘ１〜Ｘ３の処理の開始時（装置の電源ＯＮ時）の最初の前記フィルタ処理においては，例えば，予め用意された初期行列や，前回の処理終了時（装置の電源ＯＦＦ時）にメモリに記憶させておいた分離行列等を前記分離行列として用いることが考えられる。
また，前記上限回数は，本処理を実行するプロセッサ（ＤＳＰやＡＳＩＣ等）の能力に応じて，予め実験や計算により定められる。

図１８は，前記ＦＤＩＣＡ方式に基づく音源分離処理を行う前記音源分離処理部１０が実行する前記学習計算の第２実施例のタイムチャートである。
図１８に示す前記学習計算（逐次計算）の例（第２実施例）は，前記メタフレーム信号｛Mframe(１)，Mframe(２)，Mframe(３)，…｝の先頭側の一部の時間帯の信号ごとに，その一部の時間帯の信号を用いて以降の前記フィルタ処理に用いる前記分離行列Ｗ(ｆ)を求める場合の例である。
図１７に示す第２実施例の学習計算では，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の先頭側の一部を用いて分離行列Ｗ(ｆ)の計算（学習）を行う。そして，以降の前記フィルタ処理により用いられる分離行列Ｗ(ｆ)が，前記学習計算により求められた新たな分離行列Ｗ(ｆ)に更新される。このときも，ある前記メタフレーム信号Mframe(i)の一部を用いて計算（学習）された分離行列Ｗ(ｆ)を，次の前記メタフレーム信号Mframe(i+1)の一部を用いて分離行列Ｗ(ｆ)を計算（逐次計算）する際の初期値（初期分離行列）として用いれば（初期行列の引き継ぎ），逐次計算（学習）の収束が早まり好適である。
この第２実施例では，前記メタフレーム信号ごとの学習計算の時間ｔｓが，前記メタフレーム信号の時間長（Ｔi+1−Ｔi）よりも常に短くなるように，前記メタフレーム信号の一部を間引いて前記学習計算に用いることにより，音響環境の変化への速やかな適応が可能となる。
また，このような学習計算に用いる信号の間引き（学習計算の簡素化）により，前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても，前記音源分離処理と前記ポスト処理（スペクトル減算処理やスペクトル近似信号抽出処理）との組合せにより，全体として目的音の抽出性能を十分に確保できる。
なお，前記メタフレーム信号における前記学習計算に用いる部分の時間長（ディジタル信号のサンプル数）は，本処理を実行するプロセッサ（ＤＳＰやＡＳＩＣ等）の能力に応じて，予め実験や計算により定められる。

本発明は，目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。

第１発明の実施形態に係る目的音抽出装置Ｘ１の概略構成を表すブロック図。目的音抽出装置Ｘ１における目的音抽出処理の過程を表す概念図。第２発明の実施形態に係る目的音抽出装置Ｘ２の概略構成を表すブロック図。目的音抽出装置Ｘ２における目的音抽出処理の過程を表す概念図。第３発明の実施形態に係る目的音抽出装置Ｘ３の概略構成を表すブロック図。目的音抽出装置Ｘ３における目的音抽出処理の過程を表す概念図。目的音抽出装置Ｘ１〜Ｘ３の目的音抽出性能を評価する第１の実験条件を表す図。目的音抽出装置Ｘ１〜Ｘ３の目的音抽出性能を評価する第２の実験条件を表す図。第１の実験条件の下での目的音抽出装置Ｘ１〜Ｘ３及び従来の目的音抽出処理の目的音抽出性能を表す図。第２の実験条件の下での目的音抽出装置Ｘ１〜Ｘ３及び従来の目的音抽出処理の目的音抽出性能を表す図。目的音抽出装置Ｘ１の指向性を評価する第３の実験条件を表す図。第３の実験条件の下での目的音抽出装置Ｘ１の指向性を表す図。目的音抽出装置Ｘ１〜Ｘ３に採用され得る音響入力装置Ｖ２の概略構成を表すブロック図。ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚの概略構成を表すブロック図。目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における学習計算を除く処理のシーケンスの第１例を表すタイムチャート。目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における学習計算を除く処理のシーケンスの第２例を表すタイムチャート。目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における第１実施例に係る学習計算のシーケンスを表すタイムチャート。目的音抽出装置Ｘ１〜Ｘ３の音源分離処理における第２実施例に係る学習計算のシーケンスを表すタイムチャート。

符号の説明

Ｘ１：第１発明の実施形態に係る目的音抽出装置
Ｘ２：第２発明の実施形態に係る目的音抽出装置
Ｘ３：第３発明の実施形態に係る目的音抽出装置
Ｖ１，Ｖ２：音響入力装置
１０（１０−１〜１０−３）：音源分離処理部
２０：目的音分離信号合成処理部
３１，３１’：スペクトル減算処理部
３２：スペクトル近似信号抽出処理部
４１：主・副音響信号特定部
４２：信号切替器
１０１：主マイクロホン
１０２：副マイクロホン

Claims

所定の目的音源から出力される目的音を主に入力する１つの主マイクロホンを通じて得られる１つの主音響信号と，前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であって，
前記主音響信号と前記複数の副音響信号それぞれとからなる２つの音響信号の組合せそれぞれについて個別に設けられ，当該２つの音響信号に基づいて，前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段と，
前記音源分離手段により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成手段と，
前記目的音分離信号合成手段により得られた合成信号と前記音源分離手段により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記目的音分離信号合成手段により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル減算処理手段と，
を具備してなることを特徴とする目的音抽出装置。
前記音源分離手段が実行する前記音源分離処理において，マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに，前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い，該逐次計算の回数を予め定められた回数に制限してなる請求項１に記載の目的音抽出装置。
前記音源分離手段が実行する前記音源分離処理において，マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに，前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに，その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行してなる請求項１に記載の目的音抽出装置。
それぞれ指向性の方向が異なる３つ以上のマイクロホンを通じて得られる３つ以上の入力音響信号に基づいて，該３つ以上の入力音響信号の中から１つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段と，
前記主・副音響信号特定手段による特定結果に従って，前記３つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段と，
を具備してなる請求項１〜３のいずれかに記載の目的音抽出装置。
前記主・副音響信号特定手段が，前記３つ以上の入力音響信号それぞれの信号強度の比較に基づいて，又は前記３つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて，１つの前記主音響信号と複数の前記副音響信号とを特定してなる請求項４に記載の目的音抽出装置。
所定の目的音源から出力される目的音を主に入力する１つの主マイクロホンを通じて得られる１つの主音響信号と，前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって，
コンピュータに，
前記主音響信号と前記複数の副音響信号それぞれとからなる２つの音響信号の組合せそれぞれについて個別に，当該２つの音響信号に基づいて，前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と，
前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理と，
前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理と，
を実行させてなることを特徴とする目的音抽出プログラム。
所定の目的音源から出力される目的音を主に入力する１つの主マイクロホンを通じて得られる１つの主音響信号と，前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータにより実行する目的音抽出方法であって，
コンピュータにより，
前記主音響信号と前記複数の副音響信号それぞれとからなる２つの音響信号の組合せそれぞれについて個別に，当該２つの音響信号に基づいて，前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と，
前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理と，
前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理と，
を実行してなることを特徴とする目的音抽出方法。