JP4493690B2

JP4493690B2 - 目的音抽出装置，目的音抽出プログラム，目的音抽出方法

Info

Publication number: JP4493690B2
Application number: JP2007310452A
Authority: JP
Inventors: 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2007-11-30
Filing date: 2007-11-30
Publication date: 2010-06-30
Anticipated expiration: 2027-11-30
Also published as: JP2009134102A; US20090141912A1

Description

本発明は，マイクロホンを通じて得られる音響信号に基づいて，所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置，そのプログラム及びその方法に関するものである。

電話会議システム，テレビ会議システム，券売機，カーナビゲーションシステム等，話者等の音源が発する音響を入力する機能を備えた装置においては，マイクロホンによってある特定の音源（以下，目的音源という）から発せられる音（以下，目的音という）が収音されるが，音源の存在する環境に応じて，そのマイクロホンを通じて得られる音響信号に，前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして，マイクロホンを通じて得られる音響信号において，雑音成分の割合が大きいと，目的音の明瞭性が損なわれ，通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来，例えば非特許文献１に示されるように，話者の発する音声（目的音の一例）を主として入力する主マイクロホン（音声マイクロホン）と，その話者の周囲の雑音を主として入力する（話者の音声がほとんど混入しない）副マイクロホン（雑音マイクロホン）とを用い，前記主マイクロホンを通じて得られる音響信号から，前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する２入力スペクトルサブストラクション処理が知られている。ここで，２入力スペクトルサブストラクション処理は，前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により，話者が発する音声（前記目的音）に相当する音響信号を抽出（即ち，雑音成分を除去する）する処理である。

また，特許文献１には，複数の前記副マイクロホン（雑音マイクロホン）を用い，そのそれぞれを通じて入力される音響信号について，状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した統合信号と，前記主マイクロホンを通じて入力される音響信号とに基づいて，前記２入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより，時間的，空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能になるとされている。
また，特許文献２には，カメラ一体型ＶＴＲ装置において，撮影範囲における複数方向からの音声を収音した複数の音声信号の相関係数を求め，その相関係数に基づいて，撮影範囲中央の方向に存在する人物からの音声信号を強調する技術が示されている。
また，特許文献３〜５には，目的音を主として入力するマイクロホン（前記主マイクロホンに相当）を通じて得られる音響信号（以下，主音響信号という）から，目的音以外の参照音（非目的音）を主として入力するマイクロホン（前記副マイクロホンに相当）を通じて得られる音響信号を適応フィルタにより処理した信号を除去することによって目的音の抽出信号を得るとともに，その抽出信号のパワーが最小化するように適応フィルタを調整する技術が示されている。

一方，所定の音響空間に複数の音源と複数のマイクロホン（音響入力手段）とが存在する場合，その複数のマイクロホンごとに，複数の音源各々からの個別の音響信号（以下，音源信号という）が重畳された音響信号（以下，混合音響信号という）が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクロホンを通じて入力される複数の前記混合音響信号において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。
ここで，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理によれば，分離信号各々は，混合音響信号の入力数（＝マイクロホンの数）と同じ数の出力端（出力チャンネルといってもよい）各々を通じて出力される。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献２や非特許文献３等に詳説されている。
また，音源分離処理としては，バイナリーマスキング処理（バイノーラル信号処理の一例）による音源分離処理も知られている。バイナリーマスキング処理は，複数の指向性マイクロホンを通じて入力される混合音声信号相互間で，複数に区分された周波数成分（周波数ビン）ごとのレベル（パワー）を比較することにより，混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献４や非特許文献５等に詳説されている。

また，音響信号に対し，その周波数スペクトルについてノイズ除去等のために各種の信号処理（信号の加工）を行うと，処理後の音響信号に耳障りなミュージカルノイズ（人工的なノイズ）が発生する。そのようなミュージカルノイズを含む音響は，その音響レベル（音量）が人間の可聴レベルに達していれば，たとえその音響レベルが小さくても聴者に非常に大きな不快感を与える。従って，補聴器や助聴器，携帯電話等，人間に聴かれる音響を出力するために音響信号に対する信号処理を行う機器においては，信号処理後の音響信号（出力信号）にミュージカルノイズを極力発生させないことが非常に重要である。
例えば，非特許文献６や特許文献６，特許文献７等には，音響信号におけるノイズ区間を推定し，そのノイズ区間の信号から推定したノイズ信号の周波数スペクトルを元の音響信号の周波数スペクトルから減算したり，そのノイズ区間ごとにゲインを変えて信号レベルを減衰させたりする処理により，ミュージカルノイズを抑制する技術について示されている。
特開平６−６７６９１号公報特開２００１−８２８５号公報特開平６−８３３７２号公報特開平６−９０４９３号公報特開平６−１６５２８６号公報特開２００５−１９５９５５号公報特開２００７−２７８９７号公報菅村他，「２入力による雑音除去手法を用いた自動車内の音声認識」，電子情報通信学会技術研究報告，ＳＰ−８１，pp.41-48，1989 猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」，電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. R.F.Lyon, "A computational model of binaural localization and separation" ,In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect", Acta Acoustica, vol.1, pp.43--55, 1993. Yukihiro NOMURA, et al. "Musical Noise Reduction by Spectral Using Morphologic al Filter" , In Proceedings of NCSP'05, pp.415-418, 2005

しかしながら，非特許文献１に示される技術や特許文献３〜５に示される技術では，目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合，その目的音に対応する音響信号の成分が雑音成分として誤って除去されること等により，高い雑音除去性能が得られないという問題点があった。
また，特許文献１に示されるように，複数の前記副マイクロホン（雑音マイクロホン）を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる統合信号を前記２入力スペクトルサブストラクション処理の入力信号として採用した場合，音響環境の変化によって加重平均の重みと，複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また，特許文献１に示されるように，複数の前記副マイクロホン（雑音マイクロホン）を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記２入力スペクトルサブストラクション処理の入力信号として採用した場合，複数の方向から異なる雑音が各マイクロホンに到来する状況下においては，選択に漏れた音響信号に基づく雑音成分が除去されず，やはり雑音除去性能が悪化するという問題点があった。
また，特許文献２に示される技術は，撮影範囲中央の人物からの音声信号が強調されるものの，それ以外の音声信号も残存し，目的音の信号が抽出されるわけではない。

また，前記主音響信号及び前記副音響信号に基づいて，前記ＩＣＡ法に基づくＢＳＳ方式の音源分離処理や前記バイナリーマスキング処理を実行すれば，目的音に対応する分離信号を得ることができるが，音響環境によっては，その分離信号に目的音以外の雑音の信号成分が比較的高い割合で含まれてしまう場合が生じるという問題点があった。例えば，前記ＩＣＡ法に基づくＢＳＳ方式の音源分離処理において，目的音及びそれ以外の雑音の音源がマイクロホンの数以上に存在したり，雑音が反射・反響するような環境では，音源分離性能が悪化する。
また，音源分離処理により得られた目的音に対応する分離信号（音響信号）に対し，目的音以外の雑音の信号成分を除去する信号処理を施した場合，信号処理後の音響信号にミュージカルノイズが発生し，それが聴者に大きな不快感を生じさせるという問題点があった。
また，非特許文献６や特許文献６，特許文献７等に示されるミュージカルノイズ抑制技術においては，音響信号におけるノイズ区間を正確に推定する必要があるが，処理対象となる音響信号における背景雑音のレベルが大きい或いは種類が多い場合，ノイズ区間の正確な推定が困難となって十分なノイズ除去性能が得られないという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，複数のマイクロホンを通じて得られる音響信号に目的音及びそれ以外の雑音（非目的音）が混入し，またその混入状態が変化し得る場合に，目的音に相当する音響信号を極力忠実に抽出（再現）でき（非目的音の除去性能が高い），さらに，その抽出信号において，聴者に不快感を与えるミュージカルノイズを抑制できる目的音抽出装置，目的音抽出プログラム及び目的音抽出方法を提供することにある。

上記目的を達成するために本発明に係る目的音抽出装置は，所定の目的音源（特定の音源）から出力される音（以下，目的音という）を主に入力する主マイクロホンを通じて得られる主音響信号と，それ以外の１又は複数の副マイクロホン（前記主マイクロホンとは異なる位置に配置されたもの，又は前記主マイクロホンとは異なる方向に指向性を有するもの）を通じて得られる１又は複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力するものであり，次の（１−１）〜（１−３）に示す各構成要素を備えるものである。
（１−１）前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて，その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号とを分離生成する音源分離処理を実行する音源分離手段。
（１−２）複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出手段。
（１−３）前記信号レベル検出手段による検出信号レベルが予め定められた範囲のレベルである場合に，複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し，複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理手段。
なお，前記圧縮比は，圧縮後の信号値に対する圧縮補正前の信号値の比のことである。
そして，例えば，本発明に係る目的音抽出装置が，さらに次の（１−４）に示す構成要素を備えることも考えられる。
（１−４）前記信号レベル検出手段による検出信号レベルが予め定められた下限レベルに満たない場合に前記目的音対応信号を前記目的音に相当する音響信号として出力する目的音対応信号出力手段。
なお，この場合，前記スペクトル減算処理手段が，前記信号レベル検出手段による検出信号レベルが前記下限レベル以上である場合に，周波数スペクトルの減算処理によって得られる信号を前記目的音に相当する音響信号として出力する。
また，前記音源分離手段が実行する音源分離処理の具体例としては，周波数領域の音響信号に対して行われる独立成分分析法（後述するＦＤＩＣＡ法）に基づくブラインド音源分離方式による音源分離処理が考えられる。

本発明において，前記目的音対応信号は，目的音の信号成分を主として含む信号ではあるが，複数のマイクロホン（前記主マイクロホン及び前記副マイクロホン）に対する目的音源の位置や雑音の発生状況によっては，前記目的音対応信号に，目的音以外の雑音の信号成分が比較的多く残存する場合もある。
一方，前記音源分離手段の処理に基づき得られる前記参照音対応信号は，位置や指向性の方向がそれぞれ異なる前記副マイクロホンそれぞれの収音範囲におけるノイズ音源の音（目的音以外の音（参照音））の信号成分を主として含む信号である。
そして，前記目的音対応信号に目的音以外のノイズ音（参照音）の成分が含まれている場合であっても，前記スペクトル減算処理手段による周波数スペクトルの減算処理により，前記目的音対応信号から，前記目的音以外の雑音（参照音）の信号成分が概ね除去される。しかも，前記スペクトル減算処理手段による抽出信号は，複数の方向から異なる雑音（参照音）が前記主マイクロホンに到来する状況においても，それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
また，前記スペクトル減算処理手段の処理において，前記目的音対応信号の周波数スペクトルから減算する周波数スペクトルは，前記参照音対応信号の周波数スペクトルに対し，その参照音対応信号のレベル（音量）が小さいほど大きな圧縮比で圧縮補正を施したものである。そのため，本発明においては，前記参照音対応信号のレベルが大きい（即ち，ノイズ音の音量が大きい）ときには，聴者の耳障りとなるその信号成分が前記目的音対応信号から積極的に除去され，目的音に相当する音響信号が極力忠実に抽出される。その際，抽出信号（目的音に相当する音響信号）は，多少のミュージカルノイズを含み得るものの，ノイズ音の信号成分が残存する状況よりは遙かに聴者にとって聴きやすい音響信号となる。さらに，本発明においては，前記参照音対応信号のレベルが小さい（即ち，ノイズ音の音量が小さい）ときには，その信号成分を前記目的音対応信号から除去する処理は積極的に行われず，そのことによって聴者の耳障りとなるミュージカルノイズが抑制される。その際，目的音に相当する音響信号は，ノイズ音の信号成分を含むものの，その信号レベル（音量）が小さいために聴者はノイズ音がほとんど気にならない状況となる。即ち，本発明においては，ノイズ音の音量が大きいときにはそのノイズ音の信号成分の除去が優先され，ノイズ音の音量が小さいときにはそのノイズ音の信号成分の除去よりもミュージカルノイズの抑制が優先される。
従って，本発明によれば，特定のノイズ音（非目的音）や存在方向が異なる複数のノイズ音が比較的高いレベルで前記主マイクロホンに到来する状況において，目的音に相当する音響信号を極力忠実に抽出（再現）できるとともに，聴者に不快感を与えるミュージカルノイズを抑制できる。

また，本発明において，前記信号レベル検出手段による信号レベルの検出及び前記スペクトル減算処理手段による前記圧縮補正が，予め定められた複数の周波数帯域の区分ごとに行われることも考えられる。
これにより，複数の周波数帯域の区分ごとに異なる圧縮比で前記圧縮補正を行うことができ，よりきめ細かな信号処理によって目的音の抽出性能及びミュージカル雑音の抑制性能を高めることができる。

また，本発明は，以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち，本発明に係る目的音抽出プログラムは，所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する１又は複数の副マイクロホンを通じて得られる１又は複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり，さらに，次の（２−１）〜（２−３）に示す処理をコンピュータに実行させるプログラムである。
（２−１）前記主音響信号と前記副音響信号とに基づいて前記目的音以外の参照音に対応する１又は複数の参照音分離信号を分離生成する音源分離処理。
（２−２）複数の前記参照音分離信号もしくは複数の前記参照音分離信号を統合した信号である参照音対応信号の信号レベルを検出する信号レベル検出処理。
（２−３）前記信号レベル検出処理による検出信号レベルが予め定められた範囲のレベルである場合に，前記参照音対応信号の周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し，前記主音響信号もしくはその主音響信号に所定の信号処理を施して得られる信号である目的音対応信号の周波数スペクトルから前記圧縮補正により得られる周波数スペクトルを減算することにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出してその音響信号を出力するスペクトル減算処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても，前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また，本発明は，以上に示した本発明に係る目的音抽出プログラムにおける各処理をコンピュータによって実行する目的音抽出方法として捉えることもできる。

本発明によれば，複数の方向から異なる雑音が各マイクロホンに到来する音響環境下や，目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入するような音響環境下，さらににはそのような音響環境が変化するような場合でも高い雑音除去性能を確保できる。
さらに，本発明によれば，ノイズ音の音量が大きいときにはそのノイズ音の信号成分の除去が優先され，ノイズ音の音量が小さいときにはそのノイズ音の信号成分の除去よりもミュージカルノイズの抑制が優先されるため，聴者に不快感を与えるミュージカルノイズを抑制できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の第１実施形態に係る目的音抽出装置Ｘ１の概略構成を表すブロック図，図２は本発明の第２実施形態に係る目的音抽出装置Ｘ２の概略構成を表すブロック図，図３は本発明の第３実施形態に係る目的音抽出装置Ｘ３の概略構成を表すブロック図，図４は目的音抽出装置Ｘ１〜Ｘ３における参照音対応信号のレベルとスペクトル減算処理の圧縮係数との関係の一例を表す図，図５は目的音抽出装置Ｘ１〜Ｘ３における参照音対応信号のレベルとスペクトル減算処理の減算量との関係の一例を表す図，図６は目的音抽出装置Ｘ１〜Ｘ３における参照音対応信号のレベルと参照音対応信号スペクトルの圧縮比との関係の一例を表す図，図７はＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚの概略構成を表すブロック図である。

［第１実施形態］
まず，図１に示すブロック図を参照しつつ，本発明の第１実施形態に係る目的音抽出装置Ｘ１について説明する。
図１に示すように，目的音抽出装置Ｘ１は，複数のマイクロホンを含む音響入力装置Ｖ１，複数（図１では３つ）の音源分離処理部１０（１０−１〜１０−３），目的音分離信号統合処理部２０，スペクトル減算処理部３１及びレベル検出・係数設定部３２を備えている。ここで，前記音響入力装置Ｖ１は，１つの主マイクロホン１０１及び複数（図１では３つ）の副マイクロホン１０２（１０２−１〜１０２−３）を含む。また，前記主マイクロホン１０１及び複数の前記副マイクロホン１０２は，それぞれ複数の異なる位置に配置されたもの，又はそれぞれ異なる複数の方向に指向性を有するものである。
前記主マイクロホン１０１は，所定の目的音源（例えば，所定範囲内で移動し得る話者等）が発する音響（以下，目的音という）を主に入力する音響入力手段である。
また，複数の前記副マイクロホン１０２−１〜１０２−３は，前記主マイクロホン１０１とは異なる複数の位置それぞれに配置されたもの，或いはそれぞれ異なる複数の方向に指向性を有するものであり，主として目的音以外の参照音（雑音）を入力する音響入力手段である。なお，副マイクロホン１０２との記載は，複数の副マイクロホン１０２−１〜１０２−３を総称した記載である。
なお，図１に示す主マイクロホン１０１及び副マイクロホン１０２は，それぞれ指向性を有するマイクロホンであり，副マイクロホン１０２は，それぞれ前記主マイクロホン１０２とは異なる複数の方向それぞれに指向性を有するよう配置されている。

前記主マイクロホン１０１及び前記副マイクロホン１０２それぞれが指向性を有するマイクロホンである場合，前記主マイクロホン１０１の指向中心方向（正面方向）を中心（０°）として一方の側の＋１８０°未満の方向（例えば，＋９０°の方向），及び他方の側の−１８０°未満の方向（例えば，−９０°の方向）のそれぞれに，前記副マイクロホン１０２の指向中心方向（正面方向）が設定されることが望ましい。
また，各マイクロホン１０１，１０２の指向方向が，同一平面内においてそれぞれ異なる方向に設定される他，三次元的に異なる方向に設定されることも考えられる。

そして，目的音抽出装置Ｘ１は，前記主マイクロホン１０１を通じて得られる主音響信号と，それ以外の複数の前記副マイクロホン１０２を通じて得られる副音響信号とに基づいて，前記目的音に相当する音響信号を抽出してその抽出信号（以下，目的音抽出信号という）を出力するものである。
目的音抽出装置Ｘ１において，前記音源分離処理部１０，前記目的音分離信号統合処理部２０，前記スペクトル減算処理部３１及び前記レベル検出・係数設定部３２は，例えばコンピュータの一例であるＤＳＰ(Digital Signal Processor)及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記音源分離処理部１０，前記目的音分離信号統合処理部２０，前記スペクトル減算処理部３１及び前記レベル検出・係数設定部３２が行う処理（後述）を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

前記音源分離処理部１０（１０−１〜１０−３）は，前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ，その組合せである主音響信号及び副音響信号とに基づいて，前記目的音に対応する分離信号（目的音の同定信号）である目的音分離信号と，前記目的音以外の音である参照音（雑音といってもよい）に対応する参照音分離信号（参照音の同定信号）とを分離生成する音源分離処理を実行するものである（前記音源分離手段の一例）。以下，本発明の第１実施形態において，前記参照音分離信号のことを参照音対応信号と称する場合もあるが，本発明の第１実施形態においては，前記参照音分離信号と前記参照音対応信号とは同じ信号を表す。
なお，各マイクロホン１０１，１０２と前記音源分離処理部１０との間には，不図示のＡ／Ｄコンバータが設けられており，そのＡ／Ｄコンバータによってデジタル信号に変換された音響信号が，前記音源分離処理部１０に伝送される。例えば，目的音が人の声である場合，８ｋＨｚ程度のサンプリング周期でデジタル化すればよい。
ここで，前記音源分離処理部１０（１０−１〜１０−３）は，例えば，非特許文献２や非特許文献３に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理等の音源分離処理を実行するものである。

以下，図７に示すブロック図を参照しつつ，前記音源分離処理部１０として採用可能な装置の一例である音源分離装置Ｚについて説明する。
以下に示す音源分離装置Ｚは，所定の音響空間に複数の音源と複数のマイクロホン１０１，１０２が存在する状態で，そのマイクロホン１０１，１０２各々を通じて，音源各々からの個別の音声信号（以下，音源信号という）が重畳された信号である複数の混合音声信号が逐次入力される場合に，周波数領域の前記混合音声信号に対してＩＣＡ法に基づくＢＳＳ方式の音源分離処理，即ち，ＦＤＩＣＡ方式（Frequency-Domain ICA）に基づく音源分離処理を施すことにより，前記音源信号に対応する複数の分離信号（音源信号を同定した信号）を逐次生成する処理を行うものである。

ＦＤＩＣＡ方式では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離演算処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離演算処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（１）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（２）式のように表すことができる。

このＦＤＩＣＡ方式によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。
図１４において，主マイクロホン１０１に対応する分離信号ｙ1(ｆ)が前記目的音分離信号である。また，副マイクロホン１０２に対応する分離信号ｙ2(ｆ)が前記参照音分離信号である。この参照音分離信号（分離信号ｙ2(ｆ)）は，周波数領域の音響信号である。
なお，図１４においては，入力される混合音声信号ｘ1，ｘ2のチャンネル数（即ち，マイクロホンの数）が２つである例について示しているが，（チャンネル数ｎ）≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。

また，前記レベル検出・係数設定部３２は，複数の前記参照音分離信号（参照音対応信号）それぞれの信号レベル（信号値の大きさ，音量）を検出する処理と，その検出レベルに応じて前記スペクトル減算処理部３１の処理に用いられる圧縮係数を設定する処理とを実行するものである（前記信号レベル検出手段の一例）。
例えば，前記レベル検出・係数設定部３２は，複数の前記参照音分離信号それぞれの周波数スペクトルの信号値（周波数領域における前記参照音分離信号における周波数ビンごとの信号値）の平均値や合計値，或いはそれらを所定の基準値に基づき正規化した値を信号レベルとして検出する。また，前記レベル検出・係数設定部３２が，複数の前記参照音分離信号それぞれの周波数スペクトルについて，予め定められた複数の周波数帯域の区分ごとに，その区分に属する周波数ビンの信号値の平均値や合計値，或いはそれらを所定の基準値に基づき正規化した値を信号レベルとして検出することも考えられる。なお，前記周波数帯域の区分としては，例えば，前記参照音分離信号の周波数スペクトルにおける周波数ビンごとの区分，或いは複数の周波数ビンの組合せにより定まる周波数帯域の区分等が考えられる。

また，前記レベル検出・係数設定部３２は，複数の前記参照音分離信号それぞれについて，検出したレベルＬが（検出信号レベル）が予め定められた範囲のレベルである場合に，その検出信号レベルＬが小さいほど値が小さくなる前記圧縮係数αを設定する。なお，前記圧縮係数α（０≦α≦１）は，後述するスペクトル減算処理に用いられる係数であるが，その詳細については後述する。また，図１における前記圧縮係数αの添字ｉは，複数の前記参照音分離信号それぞれに対応する識別番号を表す。
図４は，前記参照音対応信号（第１実施形態においては前記参照音分離信号）についての前記検出レベルＬ（縦軸）と前記圧縮係数α（横軸）との関係の一例を表す図である。
図４におけるグラフ線ｇ１は，前記検出信号レベルＬが０以上Ｌs２以下の範囲のレベルである場合に，前記検出レベルＬに対して正の比例関係となる前記圧縮係数αが設定される状況を表す例である。
また，図４におけるグラフ線ｇ２は，前記検出信号レベルＬが所定の下限レベルＬs1（＞０）以上かつ上限レベルＬs２以下の範囲のレベルである場合に，前記検出レベルＬに対して正の比例関係となる前記圧縮係数αが設定される状況を表す例である。このグラフ線ｇ２の前記圧縮係数αが設定される場合，前記検出信号レベルＬが下限レベルＬs1に満たないときには，前記圧縮係数αは０（ゼロ）に設定される。
前記レベル検出・係数設定部３２は，前記検出信号レベルＬに応じて，図４におけるグラフ線ｇ１又はｇ２で示されるような前記圧縮係数αを設定する。
なお，前記レベル検出・係数設定部３２により設定される前記圧縮係数αとの比較のため，図４には，前記検出信号レベルＬにかかわらず前記圧縮係数αが一定である状況を表すグラフ線ｇ０（波線）を示している。

また，目的音抽出装置Ｘ１において，前記目的音分離信号統合処理部２０は，前記音源分離処理部１０それぞれにより分離生成された複数の前記目的音分離信号を統合する処理を実行し，それにより得られる統合信号を出力するものである。以下，この第１実施形態においては，複数の前記目的音分離信号を統合した統合信号のことを，目的音対応信号と称する。
例えば，前記目的音分離信号統合処理部２０は，複数の前記目的音分離信号について，複数に区分された周波数成分（周波数ビン）ごとに平均処理や加重平均処理を実行すること等により，それら目的音分離信号を合成する。
また，目的音抽出装置Ｘ１において，前記スペクトル減算処理部３１は，前記目的音分離信号統合処理部２０により得られた前記目的音対応信号（統合信号）と，前記音源分離処理部１０それぞれにより分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出し，その抽出信号（前記目的音抽出信号）を出力するものである。

以下，前記スペクトル減算処理部３１による処理の具体例について説明する。
周波数領域の音響信号である観測信号のスペクトル値，即ち，前記目的音対応信号（この第１実施形態では前記目的音分離信号を統合した信号）のスペクトル値（周波数スペクトルにおける周波数ビンごとの信号値）をＹ(ｆ，ｍ)とし，目的音信号のスペクトル値がＳ(ｆ，ｍ)，雑音信号（目的音以外の音の信号）のスペクトル値がＮ(ｆ，ｍ)であるとすると，観測信号のスペクトル値Ｙ(ｆ，ｍ)は，次の（３）式により表される。

そして，目的音抽出装置Ｘ１においては，目的音信号と雑音信号との間に相関がないものと仮定し，さらに，雑音信号のスペクトル値Ｎ(ｆ，ｍ)を前記参照音対応信号のスペクトル値で近似できるとして，目的音信号のスペクトル推定値（即ち，前記目的音抽出信号のスペクトル値）を，次の（４）式に基づき算出（抽出）する。

この（４）式における圧縮係数αは，前記レベル検出・係数設定部３２によって前記検出信号レベルＬに応じて設定される係数である。また，この（４）式における圧縮係数αと前記参照音対応信号のスペクトル値との乗算を行う項は，前記参照音対応信号のスペクトル値を，前記圧縮係数αに基づいて圧縮補正する演算を行う項であるといえる。
なお，（４）式における抑圧係数βは，通常，０（ゼロ）又は０に近いごく小さな値に設定される。

図５は，前記参照音に対応する信号である前記参照音分離信号（図中，参照音対応信号と表記）についての前記検出レベルＬ（縦軸）と（４）式に基づくスペクトル減算処理の減算量との関係の一例を表す図である。なお，その減算量は，前記参照音対応信号のスペクトル値が前記検出信号レベルＬと比例すると仮定したときの前記圧縮補正後のスペクトル値である。
また，図５におけるグラフ線ｇ１’は，図４におけるグラフ線ｇ１で示される前記圧縮係数αが設定されたときの前記減算量を表す例である。
また，図５におけるグラフ線ｇ２’は，図４におけるグラフ線ｇ２で示される前記圧縮係数αが設定されたときの前記減算量を表す例である。
なお，図５におけるグラフ線ｇ０’は，前記圧縮係数αが一定（図４におけるグラフ線ｇ０）であるときの前記減算量を表す例である。
また，図６は，前記参照音に対応する信号である前記参照音分離信号（図中，参照音対応信号と表記）についての前記検出レベルＬ（縦軸）とスペクトル減算処理の際に行われる参照音対応信号（前記参照音分離信号）のスペクトルの圧縮補正における圧縮比Ｒとの関係の一例を表す図である。なお，前記圧縮比は，圧縮後の信号値（図４における圧縮量）に対する圧縮補正前の信号値の比（即ち，Ｒ＝１／α）のことである。
図６に示すように，目的音抽出装置Ｘ１においては，前記検出信号レベルが所定範囲（例えば，０〜Ｌs2又はＬs1〜Ｌs2）である場合に，前記検出信号レベルＬが小さいほど値が小さくなる前記圧縮係数αが設定される（図４参照）ので，前記スペクトル減算処理部３１は，上記所定範囲において，前記参照音対応信号の周波数スペクトルを，前記検出信号レベルＬが小さいほど大きな圧縮比Ｒで圧縮補正することになる。なお，前記所定範囲は，前記検出信号レベルがとり得る全ての範囲であることも考えられる。

以上に示したような前記圧縮係数αに基づく前記スペクトル減算処理部３１の処理を総括すると，以下のような処理であるといえる。
即ち，前記スペクトル減算処理部３１（前記スペクトル減算処理手段の一例）の処理は，前記検出信号レベルＬが予め定められた範囲のレベル（例えば，０〜Ｌs2又はＬs1〜Ｌs2）である場合に，複数の前記参照音対応信号それぞれの周波数スペクトルを，前記目的音検出信号レベルＬが小さいほど大きな圧縮比Ｒで圧縮補正し，前記主音響信号に音源分離処理と統合処理とを施して得られる前記目的音対応信号の周波数スペクトルから，前記圧縮補正により得られる複数の周波数スペクトルを減算することにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出してその音響信号（前記目的音抽出信号）を出力する処理であるといえる。
また，図４におけるグラフ線ｇ２で示される前記圧縮係数αが設定された場合，前記スペクトル減算処理部３１は，前記検出信号レベルＬが前記下限レベルＬs1以上である場合に，周波数スペクトルの減算処理によって得られる信号を前記目的音抽出信号として出力するが，前記検出信号レベルが前記下限レベルＬs1に満たない場合には，前記圧縮係数αが０に設定されるため，前記目的音対応信号をそのまま前記目的音抽出信号（目的音に相当する音響信号）として出力する（前記目的音対応信号出力手段の一例）。

以上に示したスペクトル減算処理部３１の処理により，前記参照音対応信号のレベルＬが大きい（即ち，ノイズ音の音量が大きい）ときには，聴者の耳障りとなるその信号成分が前記目的音対応信号から積極的に除去され，目的音に相当する音響信号が極力忠実に抽出される。その際，抽出信号（前記目的音抽出信号）は，多少のミュージカルノイズを含み得るものの，ノイズ音の信号成分が残存する状況よりは遙かに聴者にとって聴きやすい音響信号となる。
ここで，前記圧縮係数αを一定値（図４に示すグラフ線ｇ０）とした前記スペクトル減算処理では，その出力信号（目的音の抽出信号）にミュージカル雑音が生じやすい。これに対し，前記スペクトル減算処理部３１の処理では，前記参照音対応信号のレベルＬが小さい（即ち，ノイズ音の音量が小さい）ときには，前記圧縮係数αが小さく設定され，前記参照音対応信号の信号成分を前記目的音対応信号から除去する処理は積極的に行われず，そのことによって聴者の耳障りとなるミュージカルノイズが抑制される。その際，前記目的音抽出信号は，ノイズ音の信号成分を含むものの，その信号レベル（音量）が小さいために聴者はノイズ音がほとんど気にならない状況となる。即ち，本発明においては，ノイズ音の音量が大きいときにはそのノイズ音の信号成分の除去が優先され，ノイズ音の音量が小さいときにはそのノイズ音の信号成分の除去よりもミュージカルノイズの抑制が優先される。
従って，目的音抽出装置Ｘ１によれば，特定のノイズ音（非目的音）や存在方向が異なる複数のノイズ音が比較的高いレベルで前記主マイクロホンに到来する状況において，目的音に相当する音響信号を極力忠実に抽出（再現）できるとともに，聴者に不快感を与えるミュージカルノイズを抑制できる。

［第２発明］
次に，図２に示すブロック図を参照しつつ，本発明の第２実施形態に係る目的音抽出装置Ｘ２について説明する。なお，図２において，目的音抽出装置Ｘ２が備える構成要素のうち，前記目的音抽出装置Ｘ１が備えるものと同じ処理を実行する構成要素については図１における符号と同じ符号を付している。
図２に示すように，目的音抽出装置Ｘ２は，前記目的音抽出装置Ｘ１と同様に，複数のマイクロホンを含む前記音響入力装置Ｖ１，複数（図２では３つ）の前記音源分離処理部１０（１０−１〜１０−３），前記目的音分離信号統合処理部２０を備え，これらは，前記目的音抽出装置Ｘ１が備えるものと同じものである。
さらに，目的音抽出装置Ｘ２は，スペクトル減算処理部３１’，レベル検出・係数設定部３２’及び参照音分離信号統合処理部３３を備えている。
目的音抽出装置Ｘ２において，前記音源分離処理部１０，前記目的音分離信号統合処理部２０，前記スペクトル減算処理部３１’及び前記レベル検出・係数設定部３２’は，例えばコンピュータの一例であるＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記音源分離処理部１０，前記目的音分離信号統合処理部２０，前記スペクトル減算処理部３１’及び前記レベル検出・係数設定部３２’が行う処理を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

そして，目的音抽出装置Ｘ２も，前記主マイクロホン１０１を通じて得られる主音響信号と，それ以外の複数の前記副マイクロホン１０２を通じて得られる副音響信号とに基づいて，前記目的音に相当する音響信号を抽出してその抽出信号（前記目的音抽出信号）を出力するものである。
目的音抽出装置Ｘ２において，前記参照音分離信号統合処理部３３は，前記音源分離処理部１０それぞれにより分離生成された複数の前記参照音分離信号を統合する処理を実行し，それにより得られる統合信号を出力するものである。以下，この第２実施形態においては，複数の前記参照音分離信号を統合した統合信号のことを，参照音対応信号と称する。
例えば，前記参照音分離信号統合処理部３３は，複数の前記参照音分離信号について，複数に区分された周波数成分（周波数ビン）ごとに平均処理や加重平均処理を実行すること等により，それら参照音分離信号を合成する。
また，目的音抽出装置Ｘ２における前記レベル検出・係数設定部３２’は，前記参照音分離信号統合処理部３３により得られた前記参照音対応信号（統合信号）の信号レベル（信号値の大きさ，音量）を検出する処理と，その検出レベルに応じて前記スペクトル減算処理部３１’の処理に用いられる前記圧縮係数αを設定する処理とを実行するものである（前記信号レベル検出手段の一例）。その処理内容は，前記レベル検出・係数設定部３２と同様である。
また，目的音抽出装置Ｘ２における前記スペクトル減算処理部３１’は，前記目的音分離信号統合処理部２０により得られた前記目的音対応信号（統合信号）と，前記参照音分離信号統合処理部３３により得られた前記参照音対応信号（統合信号）との間でスペクトル減算処理を行うことにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出し，その抽出信号（前記目的音抽出信号）を出力するものである。その処理内容は前記スペクトル減算処理部３１と同様である。
以上に示した目的音抽出装置Ｘ２も，前記目的音抽出装置Ｘ１と同様の作用効果を相する。このような目的音抽出装置Ｘ２も，本発明の実施形態の一例である。

［第３発明］
次に，図３に示すブロック図を参照しつつ，本発明の第３実施形態に係る目的音抽出装置Ｘ３について説明する。なお，図３において，目的音抽出装置Ｘ３が備える構成要素のうち，前記目的音抽出装置Ｘ１が備えるものと同じ処理を実行する構成要素については図１における符号と同じ符号を付している。
図３に示すように，目的音抽出装置Ｘ３は，複数のマイクロホンを含む前記音響入力装置Ｖ１，複数（図３では３つ）の前記音源分離処理部１０（１０−１〜１０−３），スペクトル減算処理部３１’及び前記レベル検出・係数設定部３２を備えている。ここで，前記音響入力装置Ｖ１，前記音源分離装置１０及び前記レベル検出・係数設定部３２は，前記目的音抽出装置Ｘ１が備えるものと同じものである。但し，目的音抽出装置Ｘ３における前記音源分離装置１０は，前記目的音分離信号を出力する必要がない。
そして，目的音抽出装置Ｘ３も，前記主マイクロホン１０１を通じて得られる主音響信号と，それ以外の複数の前記副マイクロホン１０２を通じて得られる副音響信号とに基づいて，前記目的音に相当する音響信号を抽出してその抽出信号（前記目的音抽出信号）を出力するものである。
目的音抽出装置Ｘ３において，前記音響入力装置Ｖ１，前記音源分離処理部１０，前記スペクトル減算処理部３１’及び前記レベル検出・係数設定部３２は，例えばコンピュータの一例であるＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記音源分離処理部１０及び前記スペクトル減算処理部３１’が行う処理を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

目的音抽出装置Ｘ３において，前記スペクトル減算処理部３１’は，前記主マイクロホン１０１を通じて得られる前記主音響信号（前記目的音対応信号に相当）と，前記音源分離処理部１０それぞれにより分離生成された複数の前記参照音分離信号（前記参照音対応信号に相当）との間でスペクトル減算処理を行うことにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出し，その抽出信号（前記目的音抽出信号）を出力するものである。
即ち，目的音抽出装置Ｘ３における前記スペクトル減算処理部３１’は，前記目的音抽出装置Ｘ１における前記スペクトル減算処理部３１と同様の周波数スペクトルの減算処理を行うものであるが，前記スペクトル減算処理部３１と異なる点は，前記主音響信号（前記目的音対応信号の一例）の周波数スペクトルから，前記参照音分離信号それぞれについての前記圧縮補正により得られる周波数スペクトルを減算する点である。
目的音抽出装置Ｘ３においては，スペクトル減算の対象となる前記目的音対応信号が，音源分離処理が施されていない，即ち，比較的大きなノイズ音の信号成分を含む前記主音響信号である。このため，目的音抽出装置Ｘ３における前記圧縮係数αは，通常，前記目的音抽出装置Ｘ３における前記圧縮係数αよりも大きな値（１に近い値）が設定される。
以上に示した目的音抽出装置Ｘ３も，前記目的音抽出装置Ｘ１と同様の作用効果を相する。このような目的音抽出装置Ｘ３も，本発明の実施形態の一例である。

図６においてグラフ線ｇ１”，ｇ２”により示した前記圧縮係数αは，前記検出信号レベルＬが所定範囲（０〜Ｌs2又はＬs1〜Ｌs2）であるときに，前記検出信号レベルＬと正の比例関係（１次式で表される関係）となるものであるが，その他，前記検出信号レベルＬと前記圧縮係数αとの関係は，２次式や３次式で表される関係等の非線形な関係であってもよい。
また，前記音源分離処理部１０（例えば，ＦＤＩＣＡ方式に基づく音源分離処理）は，３つ以上の音響信号についての音源分離処理，例えば，１つの前記主音響信号と３つの前記副音響信号を入力し，１つの前記目的音分離信号と３つの前記参照音分離信号とを分離生成する処理も可能である。そこで，前記目的音抽出装置Ｘ１〜Ｘ３において，１つの前記音源分離処理部１０により，１つの前記目的音分離信号と複数の前記参照音分離信号とを分離生成することも考えられる。
また，以上に示した実施形態では，前記目的音抽出装置Ｘ１〜Ｘ３が，複数の前記副マイクロホン１０２を備えているが，前記目的音抽出装置Ｘ１〜Ｘ３が，１つの前記主マイクロホン１０１と，それとは位置又は指向性の方向が異なる１つの副マイクロホン１０２と備えた実施例（以下，目的音抽出装置Ｘ１’，Ｘ２’，Ｘ３’と記載する）も考えられる。
例えば，第１実施例である前記目的音抽出装置Ｘ１’は，図１に示される前記目的音抽出装置Ｘ１の構成から，２つの前記副マイクロホン１０２−２，１０２−３と，２つの前記音源分離処理部１０−２，１０−３と，前記目的音分離信号統合処理部２０とが除かれた構成を有する。この場合，前記音源分離処理部１０−１により得られる前記目的音分離信号が，前記スペクトル減算処理部３１による処理対象である前記目的音対応信号となる。
また，第２実施例である前記目的音抽出装置Ｘ２’は，図２に示される前記目的音抽出装置Ｘ２の構成から，２つの前記副マイクロホン１０２−２，１０２−３と，２つの前記音源分離処理部１０−２，１０−３と，前記目的音分離信号統合処理部２０と，前記参照音分離信号統合処理部３３とが除かれた構成を有する。この場合，前記音源分離処理部１０−１により得られる前記目的音分離信号及び前記参照音分離信号が，前記スペクトル減算処理部３１による処理対象である前記目的音対応信号及び前記参照音対応信号となる。
また，第３実施例である前記目的音抽出装置Ｘ３’は，図３に示される前記目的音抽出装置Ｘ３の構成から，２つの前記副マイクロホン１０２−２，１０２−３と，２つの前記音源分離処理部１０−２，１０−３とが除かれた構成を有する。
以上に示した目的音抽出装置Ｘ１’〜Ｘ３’も，本発明の実施例として考えられる。

また，前述した実施形態では，前記目的音抽出装置Ｘ１及びＸ２（図１及び図２）において，前記主音響信号と複数の前記副音響信号とに基づく音源分離処理と，その音源分離処理により得られる複数の前記目的音分離信号を統合する処理とを行うことによって得られる信号を，スペクトル減算処理の対象となる前記目的音対応信号とする例を示したが，その他，例えば，前記主音響信号と複数の前記副音響信号とを重み付け合成処理等によって統合した音響信号を前記目的音対応信号（スペクトル減算処理の対象）とすることも考えられる。なお，前記重み付け合成処理においては，前記主音響信号に対する重みを，複数の前記副音響信号に対する重みより大きくすることが考えられる。
また，前述した実施形態では，前記目的音抽出装置Ｘ２（図２）において，前記レベル検出・係数設定部３２’が，複数の前記参照音分離信号を統合した信号のレベルを検出する例を示した。しかしながら，前記目的音抽出装置Ｘ２において，記レベル検出・係数設定部３２’が，複数の前記参照音分離信号それぞれについて信号レベルを検出し，検出した複数の信号レベルに基づいて（例えば，それらの平均レベルや合計レベル等に基づいて）前記圧縮係数αを設定することも考えられる。

本発明は，目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。

本発明の第１実施形態に係る目的音抽出装置Ｘ１の概略構成を表すブロック図。本発明の第２実施形態に係る目的音抽出装置Ｘ２の概略構成を表すブロック図。本発明の第３実施形態に係る目的音抽出装置Ｘ３の概略構成を表すブロック図。目的音抽出装置Ｘ１〜Ｘ３における参照音対応信号のレベルとスペクトル減算処理の圧縮係数との関係の一例を表す図。目的音抽出装置Ｘ１〜Ｘ３における参照音対応信号のレベルとスペクトル減算処理の減算量との関係の一例を表す図。目的音抽出装置Ｘ１〜Ｘ３における参照音対応信号のレベルと参照音対応信号スペクトルの圧縮比との関係の一例を表す図。ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚの概略構成を表すブロック図。

符号の説明

Ｘ１：第１実施形態に係る目的音抽出装置
Ｘ２：第２実施形態に係る目的音抽出装置
Ｘ３：第３実施形態に係る目的音抽出装置
Ｖ１：音響入力装置
１０（１０−１〜１０−３）：音源分離処理部
２０：目的音分離信号統合処理部
３１，３１’：スペクトル減算処理部
３２，３２’：レベル検出・係数設定部
３３：参照音分離信号統合処理部
１０１：主マイクロホン
１０２：副マイクロホン

Claims

所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する１又は複数の副マイクロホンを通じて得られる１又は複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して該音響信号を出力する目的音抽出装置であって，
前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて，その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号とを分離生成する音源分離処理を実行する音源分離手段と，
複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出手段と，
前記信号レベル検出手段による検出信号レベルが予め定められた範囲のレベルである場合に，複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し，複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理手段と，
を具備してなることを特徴とする目的音抽出装置。
前記信号レベル検出手段による検出信号レベルが予め定められた下限レベルに満たない場合に前記目的音対応信号を前記目的音に相当する音響信号として出力する目的音対応信号出力手段を具備し，
前記スペクトル減算処理手段が，前記信号レベル検出手段による検出信号レベルが前記下限レベル以上である場合に，周波数スペクトルの減算処理によって得られる信号を前記目的音に相当する音響信号として出力してなる請求項１に記載の目的音抽出装置。
前記信号レベル検出手段による信号レベルの検出及び前記スペクトル減算処理手段による前記圧縮補正が，予め定められた複数の周波数帯域の区分ごとに行われてなる請求項１又は２のいずれかに記載の目的音抽出装置。
前記音源分離手段が実行する音源分離処理が，周波数領域の音響信号に対して行われる独立成分分析法に基づくブラインド音源分離方式による音源分離処理である請求項１〜３のいずれかに記載の目的音抽出装置。
所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する１又は複数の副マイクロホンを通じて得られる１又は複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して該音響信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって，
コンピュータに，
前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて，その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号とを分離生成する音源分離処理と，
複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出処理と，
前記信号レベル検出処理による検出信号レベルが予め定められた範囲のレベルである場合に，複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し，複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理と，
を実行させてなることを特徴とする目的音抽出プログラム。
所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と，前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する１又は複数の副マイクロホンを通じて得られる１又は複数の副音響信号と，に基づいて，前記目的音に相当する音響信号を抽出して該音響信号を出力する処理をコンピュータにより実行する目的音抽出方法であって，
コンピュータにより，
前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて，その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号とを分離生成する音源分離処理と，
複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出処理と，
前記信号レベル検出処理による検出信号レベルが予め定められた範囲のレベルである場合に，複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し，複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより，前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理と，
を実行してなることを特徴とする目的音抽出方法。