JP4519900B2 - 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 - Google Patents
目的音抽出装置,目的音抽出プログラム,目的音抽出方法 Download PDFInfo
- Publication number
- JP4519900B2 JP4519900B2 JP2007325036A JP2007325036A JP4519900B2 JP 4519900 B2 JP4519900 B2 JP 4519900B2 JP 2007325036 A JP2007325036 A JP 2007325036A JP 2007325036 A JP2007325036 A JP 2007325036A JP 4519900 B2 JP4519900 B2 JP 4519900B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- target sound
- separation
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
従来,例えば非特許文献1に示されるように,話者の発する音声(目的音の一例)を主として入力する主マイクロホン(音声マイクロホン)と,その話者の周囲の雑音を主として入力する(話者の音声がほとんど混入しない)副マイクロホン(雑音マイクロホン)とを用い,前記主マイクロホンを通じて得られる音響信号から,前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する2入力スペクトルサブストラクション処理が知られている。ここで,2入力スペクトルサブストラクション処理は,前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により,話者が発する音声(前記目的音)に相当する音響信号を抽出(即ち,雑音成分を除去する)する処理である。
これに対し,特許文献1には,複数の前記副マイクロホン(雑音マイクロホン)を用い,そのそれぞれを通じて入力される音響信号について,状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と,前記主マイクロホンを通じて入力される音響信号とに基づいて,前記2入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより,時間的,空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能になるとされている。
また,特許文献2には,カメラ一体型VTR装置において,撮影範囲における複数方向からの音声を収音した複数の音声信号の相関係数を求め,その相関係数に基づいて,撮影範囲中央の方向に存在する人物からの音声信号を強調する技術が示されている。
また,特許文献3〜5には,目的音を主として入力するマイクロホン(前記主マイクロホンに相当)を通じて得られる音響信号(以下,主音響信号という)から,目的音以外の参照音(非目的音)を主として入力するマイクロホン(前記副マイクロホンに相当)を通じて得られる音響信号を適応フィルタにより処理した信号を除去することによって目的音の抽出信号を得るとともに,その抽出信号のパワーが最小化するように適応フィルタを調整する技術が示されている。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音響信号において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音響信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献2や非特許文献3等に詳説されている。
また,音源分離処理としては,バイナリーマスキング処理(バイノーラル信号処理の一例)による音源分離処理も知られている。バイナリーマスキング処理は,複数の指向性マイクロホンを通じて入力される混合音声信号相互間で,複数に区分された周波数成分(周波数ビン)ごとのレベル(パワー)を比較することにより,混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献4や非特許文献5等に詳説されている。
また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,音響環境の変化によって加重平均の重みと,複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,複数の方向から異なる雑音が各マイクロホンに到来する状況下においては,選択に漏れた音響信号に基づく雑音成分が除去されず,やはり雑音除去性能が悪化するという問題点があった。
また,特許文献2に示される技術は,撮影範囲中央の人物からの音声信号が強調されるものの,それ以外の音声信号も残存し,目的音の信号が抽出されるわけではない。
また,鋭い指向特性を実現する音響入力装置としては,例えば,マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られているが,それは指向性を鋭くするほど装置が大型化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数のマイクロホンを通じて得られる音響信号に目的音及びそれ以外の雑音(非目的音)が混入し,またその混入状態が変化し得る音響環境下において,小型の装置によって高い目的音抽出性能(雑音除去性能)を確保できる目的音抽出装置,目的音抽出プログラム及び目的音抽出方法を提供することにある。
(1−1)前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に設けられ,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段。
(1−2)前記音源分離手段により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成手段。
(1−3)前記目的音分離信号合成手段により得られた合成信号と前記音源分離手段により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成手段により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル減算処理手段。
本発明において,前記音源分離手段により分離生成される複数の前記目的音分離信号は,目的音の信号成分を主として含む信号である。同様に,前記音源分離手段により分離生成される複数の前記参照音分離信号は,位置や指向性の方向がそれぞれ異なる前記副マイクロホンそれぞれの収音範囲におけるノイズ音源の音(目的音以外の音(参照音))の信号成分を主として含む信号である。
しかしながら,複数のマイクロホン(前記主マイクロホン及び前記副マイクロホン)に対する目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の雑音の信号成分が比較的多く残存する場合もある。従って,それらを合成した前記合成信号も,基本的には目的音の信号成分を主として含む信号ではあるが,状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方,前記合成信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,スペクトル減算処理によって前記合成信号から前記目的音の信号成分を抽出した信号は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記スペクトル減算処理手段による抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホンに到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,複数の前記目的音分離信号の合成信号に対し,前記参照音分離信号それぞれの信号成分を除去する前記スペクトル減算処理を施すことにより,比較的強い特定の雑音が前記主マイクロホンに到来する状況や,複数の方向から異なる雑音が前記主マイクロホンに到来する状況においても,高い雑音除去性能を確保できる。
一方,スペクトル減算処理は,その演算負荷が比較的小さく,実用的なプロセッサによってもリアルタイム処理が可能である。
そこで,本発明に係る目的音抽出装置において,前記音源分離手段が実行する音源分離処理が,次の(1−1−1)又は(1−1−2)のいずれかに示す処理であることが考えられる。
(1−1−1)前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い,該逐次計算の回数を予め定められた回数に制限する。
(1−1−2)前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに,その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行する。
上記(1−1−1)又は(1−1−2)に示した音源分離処理において,前記フィルタ処理は,演算負荷の小さな処理であり,実用的なプロセッサによって前記スペクトル減算処理と併せて実行されても,比較的余裕をもってリアルタイムでの処理を実現できる。
また,上記(1−1−1)又は(1−1−2)に示した音源分離処理における前記逐次計算(学習計算)も,逐次計算回数やその逐次計算に用いる音響信号(ディジタル信号)のサンプル数(時間帯)が制限された演算負荷の小さな処理である。そのため,前記逐次計算(学習計算)は,実用的なプロセッサによって前記フィルタ処理及び前記スペクトル減算処理(リアルタイム処理)と併せて実行されても,比較的短時間でその処理(以降に用いる前記分離行列の算出)が完了する。その結果,前記フィルタ処理に用いられる前記分離行列が,音響環境の変化に適応した状態に速やかに更新され,音響環境の変化に対する目的音抽出の適応力が高まる。また,このような前記逐次計算(学習計算)の簡素化より,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理とスペクトル減算処理との組合せにより,全体として目的音の抽出性能を十分に確保できる。
(1−4)それぞれ指向性の方向が異なる3つ以上のマイクロホンを通じて得られる3つ以上の入力音響信号に基づいて,該3つ以上の入力音響信号の中から1つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段。
(1−5)前記主・副音響信号特定手段による特定結果に従って,前記3つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段。
例えば,前記主・副音響信号特定手段が,例えば,前記3つ以上の入力音響信号それぞれの信号強度の比較に基づいて,又は前記3つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて,1つの前記主音響信号と複数の前記副音響信号とを特定すること等が考えられる。
これらの構成要素を備えることにより,本発明に係る目的音抽出装置は,目的音源の位置が変わり得るために,複数のマイクロホンのうちの予め定められた1つを前記主マイクロホンとして固定できない対象に対しても適用できる。
即ち,本発明に係る目的音抽出プログラムは,所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり,さらに,次の(2−1)〜(2−3)に示す処理をコンピュータに実行させるプログラムである。
(2−1)前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理。
(2−2)前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理。
(2−3)前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても,前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また,本発明は,以上に示した本発明に係る目的音抽出プログラムにおける各処理をコンピュータによって実行する目的音抽出方法として捉えることもできる。
また,本発明によれば,後述するように,前記主マイクロホン自体の指向性が緩やかなものであっても,本発明に係る目的音抽出装置は非常に急峻な指向性を有する音響入力装置として機能する。しかも,前記主マイクロホンの位置若しくは指向性の方向に対する前記副マイクロホンの位置若しくは指向性の方向を調節する(近づけたり遠ざけたりする)ことにより,雑音として取り扱われる(除去される)音の音源の位置や方向を調節できるため,本発明に係る目的音抽出装置の指向性能を調節することができ,利便性が高い。また,後述するように,そのように急峻な,或いはフレキシブルな指向性を有する音響入力装置として機能する装置を,非常に小型の装置として実現できる。
ここに,図1は第1発明の実施形態に係る目的音抽出装置X1の概略構成を表すブロック図,図2は目的音抽出装置X1における目的音抽出処理の過程を表す概念図,図3は第2発明の実施形態に係る目的音抽出装置X2の概略構成を表すブロック図,図4は目的音抽出装置X2における目的音抽出処理の過程を表す概念図,図5は第3発明の実施形態に係る目的音抽出装置X3の概略構成を表すブロック図,図6は目的音抽出装置X3における目的音抽出処理の過程を表す概念図,図7は目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件を表す図,図8は目的音抽出装置X1〜X3の目的音抽出性能を評価する第2の実験条件を表す図,図9は第1の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図,図10は第2の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図,図11は目的音抽出装置X1の指向性を評価する第3の実験条件を表す図,図12は第3の実験条件の下での目的音抽出装置X1の指向性を表す図,図13は目的音抽出装置X1〜X3に採用され得る音響入力装置V2の概略構成を表すブロック図,図14はFDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Zの概略構成を表すブロック図,図15は目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第1例を表すタイムチャート,図16は目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第2例を表すタイムチャート,図17は目的音抽出装置X1〜X3の音源分離処理における第1実施例に係る学習計算のシーケンスを表すタイムチャート,図18は目的音抽出装置X1〜X3の音源分離処理における第2実施例に係る学習計算のシーケンスを表すタイムチャートである。
まず,図1に示すブロック図を参照しつつ,第1発明の実施形態に係る目的音抽出装置X1について説明する。
図1に示すように,目的音抽出装置X1は,複数のマイクロホンを含む音響入力装置V1,複数(図1では3つ)の音源分離処理部10(10−1〜10−3),目的音分離信号合成処理部20及びスペクトル減算処理部31を備えている。ここで,前記音響入力装置V1は,1つの主マイクロホン101及び複数(図1では3つ)の副マイクロホン102(102−1〜102−3)を含む。また,前記主マイクロホン101及び複数の前記副マイクロホン102は,それぞれ複数の異なる位置に配置されたもの,又はそれぞれ異なる複数の方向に指向性を有するものである。
前記主マイクロホン101は,所定の目的音源(例えば,所定範囲内で移動し得る話者等)が発する音響(以下,目的音という)を主に入力する音響入力手段である。
また,複数の前記副マイクロホン102−1〜102−3は,前記主マイクロホン101とは異なる複数の位置それぞれに配置されたもの,或いはそれぞれ異なる複数の方向に指向性を有するものであり,主として目的音以外の参照音(雑音)を入力する音響入力手段である。なお,副マイクロホン102との記載は,複数の副マイクロホン102−1〜102−3を総称した記載である。
なお,図1に示す主マイクロホン101及び副マイクロホン102は,それぞれ指向性を有するマイクロホンであり,副マイクロホン102は,それぞれ前記主マイクロホン102とは異なる複数の方向それぞれに指向性を有するよう配置されている。
また,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定される他,三次元的に異なる方向に設定されることも考えられる。
目的音抽出装置X1において,前記音源分離処理部10,前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31は,例えばコンピュータの一例であるDSP(Digital Signal Processor)及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10,前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,不図示のA/Dコンバータが設けられており,そのA/Dコンバータによってデジタル信号に変換された音響信号が,前記音源分離処理部10に伝送される。例えば,目的音が人の声である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
ここで,前記音源分離処理部10(10−1〜10−3)は,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
以下に示す音源分離装置Zは,所定の音響空間に複数の音源と複数のマイクロホン101,102が存在する状態で,そのマイクロホン101,102各々を通じて,音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,その混合音声信号に対してICA法に基づくBSS方式の音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理を行うものである。
また,図14に示す前記音源分離装置Zは,ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行うものである。
ここで,分離フィルタW(f)の更新式は,例えば次の(2)式のように表すことができる。
図14において,主マイクロホン101に対応する分離信号y1(f)が前記目的音分離信号である。また,副マイクロホン102に対応する分離信号y2(f)が前記参照音分離信号である。
なお,図14においては,入力される混合音声信号x1,x2のチャンネル数(即ち,マイクロホンの数)が2つである例について示しているが,(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
例えば,前記目的音分離信号合成処理部20は,複数の前記目的音分離信号について,複数に区分された周波数成分(周波数ビン)ごとに平均処理や加重平均処理を実行すること等により,それら目的音分離信号を合成する。
また,目的音抽出装置X1において,前記スペクトル減算処理部31は,前記目的音分離信号合成処理部20により得られた合成信号と,前記音源分離処理部10それぞれにより分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記合成信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである(前記スペクトル減算処理手段の一例)。
前記スペクトル減算処理部31は,周知のスペクトル減算処理(スペクトラム差分法に基づく目的音抽出処理)により,前記合成信号から前記参照音分離信号それぞれの信号成分を除去することによって前記目的音抽出信号を抽出する処理を実行するものである。
前記スペクトル減算処理において,前記スペクトル減算処理部31は,前記合成信号及び前記参照音分離信号それぞれについて,所定時間長分のフレームごとに離散フーリエ変換処理(DFT)を実行し,観測信号(ここでは,前記合成信号)の短時間分析を行う。ここで,周波数ビンをf,分析フレーム番号をm,観測信号である前記合成信号のスペクトル値(DFT後の信号値)をY(f,m)とし,目的音信号のスペクトル値がS(f,m),雑音信号(目的音以外の音の信号)のスペクトル値がN(f,m)であるとすると,前記合成信号のスペクトル値Y(f,m)は,次の(3)式により表される。
前記音源分離処理部10により分離生成される複数の前記目的音分離信号は,目的音の信号成分を主として含む信号である。同様に,前記音源分離処理部10により分離生成される複数の前記参照音分離信号(図2におけるYB1,YB2)は,位置や指向性の方向がそれぞれ異なる前記副マイクロホン102それぞれの収音範囲におけるノイズ音源の音(参照音)の信号成分(図2において斜線のバーグラフ以外のバーグラフで示される成分)を主として含む信号である。
しかしながら,目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の参照音の信号成分が比較的多く残存する場合もある。従って,それらを合成した前記合成信号(図2におけるYC)も,基本的には目的音の信号成分(図2において斜線のバーグラフで示される成分)を主として含む信号ではあるが,状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方,前記目的音分離信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,前記スペクトル減算処理部31により,前記合成信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号(図2におけるYO)は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記目的音抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホン101に到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,目的音抽出装置Y1によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
また,非線形処理である前記スペクトル減算処理のみでは,その出力信号(目的音の抽出信号)に非線形処理に特有のミュージカル雑音が生じやすいが,目的音抽出装置X1においては,前記音源分離処理部10による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので,前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に,目的音及び雑音を含む音源の数が少数(3つ以下程度)の点音源である場合,音源分離処理が特に有効に目的音抽出に寄与し,ミュージカル雑音の抑制効果が高まる。
次に,図3に示すブロック図を参照しつつ,第2発明の実施形態に係る目的音抽出装置X2について説明する。なお,図3において,目的音抽出装置X2が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図3に示すように,目的音抽出装置X2は,複数のマイクロホンを含む音響入力装置V1,複数(図3では3つ)の音源分離処理部10(10−1〜10−3)及びスペクトル近似信号抽出処理部32を備えている。ここで,前記音響入力装置V1は,前記目的音抽出装置X1における前記音響入力装置V1と同じものである。
そして,目的音抽出装置X2も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X2において,前記音源分離処理部10及び前記スペクトル近似信号抽出処理部32は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル近似信号抽出処理部32が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,前記目的音抽出装置X1と同様に,不図示のA/Dコンバータが設けられている。
ここで,前記音源分離処理部10(10−1〜10−3)は,前記目的音抽出装置X1の場合と同様に,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
例えば,前記スペクトル近似信号抽出処理部32は,複数の前記目的音分離信号について,周波数ビンごとにそれらの信号成分のレベル(パワー)を比較し,そのレベルの比や差が予め定められた範囲内にあるという前記近似条件を満たす場合に,それらの信号成分のいずれか1つを選択する,又はそれらの信号成分を合成する(例えば平均値や最小値を算出する)ことによって前記目的音抽出信号を抽出する。
前記音源分離処理部10により分離生成される複数の前記目的音分離信号(図4におけるYA1,YA2)は,それぞれ目的音の信号成分(図4において斜線のバーグラフで示される成分)を主として含む信号である。
しかしながら,目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の参照音の信号成分(図4において斜線のバーグラフ以外のバーグラフで示される成分)が比較的多く残存する場合もある。
一方,前記目的音分離信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,複数のマイクロホン101,102それぞれの位置又は指向性の方向が異なるので,雑音成分を多く含む前記目的音分離信号は,その全てのうちの一部であるか,或いは前記目的音分離信号それぞれに含まれる雑音成分の種類が異なることが通常である。
従って,前記スペクトル近似信号抽出処理部32により,複数の前記目的音分離信号(図4におけるYA1,YA2)において近似する信号成分を抽出した結果である前記目的音抽出信号(図4におけるYO)は,各種の雑音の信号成分が除去された信号である。
従って,目的音抽出装置Y2によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
次に,図5に示すブロック図を参照しつつ,第3発明の実施形態に係る目的音抽出装置X3について説明する。なお,図5において,目的音抽出装置X3が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図5に示すように,目的音抽出装置X3は,複数のマイクロホンを含む音響入力装置V1,複数(図3では3つ)の音源分離処理部10(10−1〜10−3)及びスペクトル減算処理部31’を備えている。ここで,前記音響入力装置V1は,前記目的音抽出装置X1における前記音響入力装置V1と同じものである。
そして,目的音抽出装置X3も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X3において,前記音源分離処理部10及び前記スペクトル減算処理部31’は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル減算処理部31’が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,前記目的音抽出装置X1と同様に,不図示のA/Dコンバータが設けられている。
ここで,前記音源分離処理部10(10−1〜10−3)は,前記目的音抽出装置X1の場合と同様に,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
前記音源分離処理部10により分離生成され複数の前記参照音分離信号(図6におけるYB1,YB2)は,位置や指向性の方向がそれぞれ異なる前記副マイクロホン102それぞれの収音範囲におけるノイズ音源の音(参照音)の信号成分(図6において斜線のバーグラフ以外のバーグラフで示される成分)を主として含む信号である。
一方,前記主音響信号には,目的音以外の参照音の信号成分が比較的多く残存する場合もある。このように,前記主音響信号に目的音以外のノイズ音(参照音)の成分が含まれていても,前記スペクトル減算処理部31’により,前記主音響信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号(図6におけるYO)は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記目的音抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホン101に到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,目的音抽出装置Y3によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
また,非線形処理である前記スペクトル減算処理のみでは,その出力信号(目的音の抽出信号)に非線形処理に特有のミュージカル雑音が生じやすいが,目的音抽出装置X3においては,前記音源分離処理部10による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので,前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に,目的音及び雑音を含む音源の数が少数(3つ以下程度)の点音源である場合,音源分離処理が特に有効に雑音抽出に寄与し,ミュージカル雑音の抑制効果が高まる。
なお,FDICA方式の音源分離処理を実行する前記音源分離処理部10の処理結果である前記参照音分離信号,前記目的音分離信号及びそれらの合成信号,並びに,前記スペクトル減算処理や前記スペクトル近似信号抽出処理により得られる前記目的抽出信号は,いずれも周波数領域の音響信号である。このため,図1,3,5には図示されていないが,目的音抽出装置Y1,Y2,Y3は,さらに,IDFT処理部と音響出力処理部とを備えている。
前記IDFT処理部は,周波数領域の前記目的音抽出信号を時間領域の信号に変換する処理,即ち,逆離散フーリエ変換(IDFT)処理を施して所定のバッファメモリに出力する処理を実行する。
また,前記音響出力処理部は,前記IDFT処理部により得られた時間領域の目的音抽出信号を順次外部出力する(例えば,実時間で出力する)。
以下,図7〜図10を参照しつつ,以上に示した目的音抽出装置X1〜X3それぞれの目的音抽出性能の評価結果について説明する。
図7及び図8に,目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件及び第2の実験条件を示す。
前記第1の実験条件は,指向性を有する前記主マイクロホン101の正面方向に目的音源が,指向性を有する前記副マイクロホン102それぞれの正面方向にその他のノイズ音源(参照音源)が存在するという理想状態に比較的近い条件である。
また,前記第2の実験条件は,指向性を有する前記主マイクロホン101の正面方向に目的音源が存在する一方,その他のノイズ音源(参照音源)が前記副マイクロホン102それぞれに必ずしも対応していないという実際の使用環境に比較的近い条件である。
前記第1の実験条件及び前記第2の実験条件それぞれの下での前記目的音抽出装置X1〜X3及び従来の目的音抽出装置の目的音抽出性能を,前記目的音抽出信号におけるNRR(Noise Reduction Rate)により表したものが図9及び図10である。図9及び図10において,前記目的音抽出装置X1〜X3それぞれを装置X1〜装置X3,従来の目的音抽出装置を従来装置と記している。なお,ここでいう従来の目的音抽出装置は,前記主音響信号から,前記副音響信号に基づく前記スペクトル減算処理によって目的音に対応する信号成分を抽出するものである。
図9及び図10からわかるように,実験条件にかかわらず,前記目的音抽出装置X1〜X3のいずれによっても,従来装置に比べて極めて高い目的音抽出性能が得られることがわかる。
また,前記目的音抽出装置X1〜X3の中では,特に,前記目的音抽出装置X1による目的音抽出性能が高く,それに続いて前記目的音抽出装置X3,前記目的音抽出装置X2の順で,高い目的音抽出性能が得られることがわかる。
このように,前記目的音抽出装置X1〜X3によれば,様々な音響環境の下において,従来よりも高い目的音抽出性能(雑音除去性能)を確保できる。
以下,図11及び図12を参照しつつ,前記目的音抽出装置X1の指向性の評価結果について説明する。
図11に,目的音抽出装置X1の指向性を評価する第3の実験条件を示す。この第3の実験条件は,目的音源を移動させることにより,前記主マイクロホン101の正面方向を基準としてどの程度の範囲まで目的音を抽出できるかを評価する実験条件である。
前記第3の実験条件の下での前記目的音抽出装置X1及び指向性を有する前記主マイクロホン101自体の指向特性,即ち,全360度方向からの音源に対するマイク感度(単位dB)を表したものが図12である。
このように,前記主マイクロホン101自体の指向性が非常に緩やかなものであっても,前記目的音抽出装置X1としては非常に急峻な指向性を有する音響入力装置として機能する。
一方,前記第3の実験条件において,それぞれ左右対称でほぼ同じ指向特性を有する前記主マイクロホン101及び前記副マイクロホン102が,前記主マイクロホン101の指向中心方向(0°)に対して2つの前記副マイクロホン102それぞれの指向中心方向が+90°及び−90°に設定されている。このことから,前記目的音抽出装置X1〜X3において,前記主マイクロホン101及び前記副マイクロホン102がそれぞれ左右対称でほぼ同じ指向特性を有する場合,指向性の範囲の境界を形成する方向が,前記主マイクロホン101の指向中心方向と,前記副マイクロホン102それぞれの指向中心方向との中間方向となることがわかる。
また,図12に示す例は,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定された場合の例であるが,それらが三次元的に異なる方向に設定した場合,指向性の範囲の境界を三次元的に所望の方向に設定できる。
例えば,ある一の平面内において前記主マイクロホン101の正面方向と2つの前記副マイクロホン102−1,102−2の正面方向とを0°方向及び±90°の方向に向け,もう1つの前記副マイクロホン102−3の正面方向を前記一の平面に直交する方向に向けること等も考えられる。これにより,前記目的音抽出装置X1の指向特性を三次元的に所望の特性に設定できる。
従って,前記目的音抽出装置X1に,前記主マイクロホン101の位置若しくは指向性の方向に対する前記副マイクロホン102の位置若しくは指向性の方向を調節する(近づけたり遠ざけたりする)ためのスイッチやダイヤル等の操作部を設けることにより,前記目的音抽出装置X1の指向性能を容易に調節することができ,利便性が高い。
また,以上に示した前記目的音抽出装置X1の指向性能は,前記目的音抽出装置X2及びX3も同様に有する。
一方,前記目的音抽出装置X1〜X3は,数センチメートルの間隔で配置された3〜5個程度のマイクロホンと,信号処理を行うDSPやASIC等のごく小型のプロセッサとを備えた小型の装置(一般的なハンディマイク程度の大きさの装置)により,図12に示すような鋭い指向性を実現できる。
前記音響入力装置V1においては,前記主音響信号を得るための前記主マイクロホン101及び前記副音響信号を得るための複数の前記副マイクロホン102が予め定められていたが,前記音響入力装置V2は,複数のマイクロホンを備え,そのいずれを前記主マイクロホン101及び前記副マイクロホン102として機能させるかを状況に応じて切り替えるものである。
図13に示すように,前記音響入力装置V2は,3つ以上(図13では4つ)のマイクロホン100−1〜100−4と,主・副音響信号特定部41と,信号切替器42とを備えている。
3つ以上の前記マイクロホン100−1〜100−4は,それぞれ配置位置が異なる又はそれぞれ指向性の方向が異なるマイクロホンである。これらのマイクロホン100−1〜100−4は,状況に応じて,前記主マイクロホン101として機能したり,或いは前記副マイクロホン102として機能する。
例えば,前記マイクロホン100−1〜100−4は,それぞれ同じ指向性を有するマイクロホンであり,図13に示すように,所定の円周(中心PO)上にその円における放射線方向外側に向けて等間隔に(マイクロホン位置と円の中心POとを結んだときの中心角が等しくなるように)配置される。
前記主・副音響信号特定部41は,例えば,3つ以上の前記入力音響信号それぞれの信号強度(音圧)を比較し,その信号強度が最大である入力音響信号を前記主音響信号として特定し,その他の入力音響信号の全て又はその一部(2つ以上)を前記副音響信号として特定する。前記その他の入力音響信号のうちの一部を前記副音響信号として特定する方法としては,例えば,前記主音響信号を得るマイクロホンに対し,配置位置又は指向方向が両側それぞれに隣接する2つのマイクロホンを通じて得られる音響信号を前記副音響信号として特定すること等が考えられる。
また,前記主・副音響信号特定部41が,3つ以上の前記入力音響信号それぞれにおける予め定められた周波数成分の占める割合を比較し,その割合が最大であるものを前記主音響信号として特定し,その他の入力音響信号の全て又はその一部(2つ以上)を前記副音響信号として特定すること等も考えられる。これは,前記目的音源が発する音響の周波数特性がある程度既知である場合等に有効である。
前記主・副音響信号特定部41は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記主・副音響信号特定部41が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記信号切替器42は,前記マイクロホン100−1〜100−4それぞれに接続される信号入力端In1〜In4と,前記主音響信号の出力用の1つの信号出力端Ot1と,前記副音響信号の出力用の複数(図13では3つ)の信号出力端Ot2〜Ot4とを備えている。さらに,前記信号切替器42は,前記主・副音響信号特定部41から出力される制御信号に応じて,各信号入力端In1〜In4と各信号出力端Ot1〜Ot4とを接続する信号経路を,予め定められた複数の切替パターンの中から選択的に切り替える。これにより,前記主・副音響信号特定部41によって前記主音響信号として特定された音響信号が前記出力端Ot1から出力され,前記主・副音響信号特定部41によって前記副音響信号として特定された音響信号が前記出力端Ot2〜Ot4から出力される。
前記目的音抽出装置X1〜X3は,図13に示すような音響入力装置V2を備えることにより,目的音源の位置が変わり得るために,複数のマイクロホンのうちの予め定められた1つを前記主マイクロホン101として固定できない対象に対しても適用可能となる。
前記FDICA方式に基づく音源分離処理では,複数のマイクロホン(目的音抽出装置X1〜X3における前記主マイクロホン101及び前記副マイクロホン102)を通じて時系列に入力される音響信号(以下,入力音響信号という)に対し,これを周波数領域の信号に変換した上で,分離行列W(f)に基づくフィルタ処理(行列演算)を順次実行して分離信号(前記参照音分離信号や前記目的音分離信号)を生成する処理が実行される。ここで,前記入力音響信号は,図14における前記混合音声信号x1(t),x2(t)に相当し,図1,図3及び図5における前記主音響信号及び前記副音響信号に相当する。
また,前述したように,前記フィルタ処理は,所定時間長分のフレーム信号(例えば,前記混合音声信号が数十ms〜数百ms程度の周期で区分された信号)ごとに行われる。このフィルタ処理は,演算負荷の小さな処理であり,実用的なプロセッサによって前記ポスト処理と併せて実行されても,比較的余裕をもってリアルタイムでの処理を実現できる。
さらに,前述したように,前記FDICA方式に基づく音源分離処理では,時系列に入力される前記入力音響信号を用いて,前記フィルタ処理に用いる前記分離行列W(f)を求める学習計算(逐次計算)も行われる。この学習計算は,演算負荷が大きく,一般に,リアルタイム処理に適さない。
図15に示すように,目的音抽出装置X1〜X3においては,前記音源分離処理部10が,前記入力音響信号について,所定時間長分のフレーム信号{Frame(i−1),Frame(i),Frame(i+1)…}ごとに,離散フーリエ変換(DFT)処理(St1)を施し,その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。この第1例では,前記音源分離処理部10は,離散フーリエ変換処理(St1)を,前記フレーム信号の時間長と同じ周期で実行する。これにより,連続する2つのフレーム信号は,時間帯の重複のない信号となる。
さらに,前記音源分離処理部10は,DFT処理により得られる周波数領域のフレーム信号ごとに,分離行列W(f)に基づくフィルタ処理(St2:行列演算)を順次実行して分離信号を生成する。
次に,他の処理部(前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31,又は前記スペクトル近似信号抽出処理部32,又は前記スペクトル減算処理部31’)が,前記フィルタ処理(St2)により得られた分離信号に基づいて前記ポスト処理(St3)を実行する。これにより,前記入力音響信号における前記フレーム信号それぞれに対応する周波数領域の前記目的音抽出信号が得られる。
さらに,前記IDFT処理部(不図示)が,逆離散フーリエ変換(IDFT)処理(St4)を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し,前記音響出力処理部が,時間領域の目的音抽出信号(出力音響信号)を順次外部出力する(St5)。
以上に示したステップSt1〜St4の処理は,演算負荷の小さな処理であり,実用的なプロセッサによって実行されても,比較的余裕をもって前記フレーム信号の時間長の範囲内で処理を完了できる。従って,前記出力音響信号は,前記入力音響信号に対して若干の遅延時間td(数十ms〜数百ms未満)が生じるものの,前記入力音響信号の入力に応じて実時間で出力される音響信号となる。
図16に示す例においても,前記音源分離処理部10が,前記入力音響信号について,前記フレーム信号{Frame(i−1),Frame(i),Frame(i+1)…}ごとに,離散フーリエ変換(DFT)処理(St1)を施し,その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。但し,この第2例では,前記音源分離処理部10は,離散フーリエ変換処理(St1)を,前記フレーム信号の時間長よりも短い周期で実行する。これにより,連続する2つのフレーム信号は,一部の時間帯が重複する信号となる。
さらに,前記音源分離処理部10は,DFT処理により得られる周波数領域のフレーム信号ごとに,分離行列W(f)に基づくフィルタ処理(St2:行列演算)を順次実行して分離信号を生成する。その際,前記音源分離処理部10が生成する連続する2フレーム分の分離信号も,一部の時間帯(図16において波線の円内の時間帯)が重複する信号となる。そのため,前記音源分離処理部10は,連続する2フレーム分の分離信号における重複する時間帯の部分について合成処理(加重平均処理等)を施すことにより,出力する分離信号を生成する。
次に,前記第1例(図15)と同様に,他の処理部が,前記フィルタ処理(St2)により得られた分離信号に基づいて前記ポスト処理(St3)を実行する。
さらに,前記第1例(図15)と同様に,前記IDFT処理部(不図示)が,逆離散フーリエ変換(IDFT)処理(St4)を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し,前記音響出力処理部が,時間領域の目的音抽出信号(出力音響信号)を順次外部出力する(St5)。
以上に示した第2例の処理においても,前記出力音響信号は,前記入力音響信号に対して若干の遅延時間td(数十ms〜数百ms未満)が生じるものの,前記入力音響信号の入力に応じて実時間で出力される音響信号となる。
以下,前記学習計算において新たな分離行列W(f)を算出するごとに用いられる予め定められた数(複数)の連続する前記フレーム信号の集合のことを,以下,メタフレーム信号という。このメタフレーム信号は,時系列に入力される前記入力音響信号における予め定められた周期で区分された信号(前記区間信号に相当)であり,直接的には,周波数領域の信号に変換された(逆離散フーリエ変換処理が施された)メタフレーム信号が前記学習計算に用いられる。前記フレーム信号の時間長(信号区分の周期)が数十ミリ秒〜数百ミリ秒であるのに対し,前記メタフレーム信号の時間長(信号区分の周期)は,処理を実行するプロセッサの能力にもよるが,音響環境の変化への適応時間として許容される時間(例えば,数秒程度)である。
図17に示す前記学習計算(逐次計算)の例(第1実施例)は,前記メタフレーム信号{Mframe(1),Mframe(2),Mframe(3),…}ごとに,そのメタフレーム信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列W(f)を求める場合の例である。但し,この場合,学習計算における逐次計算の回数が,予め定められた上限回数以下となるように(その上限回数に至れば逐次計算を完了させるように)制限されている。
図17に示す第1実施例の学習計算では,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の全てを用いて分離行列W(f)の計算(学習)を行う。そして,以降の前記フィルタ処理により用いられる分離行列W(f)が,前記学習計算により求められた新たな分離行列W(f)に更新される。このとき,ある前記メタフレーム信号Mframe(i)を用いて計算(学習)された分離行列W(f)を,次の前記メタフレーム信号Mframe(i+1)を用いて分離行列W(f)を計算(逐次計算)する際の初期値(初期分離行列)として用いれば(初期行列の引き継ぎ),逐次計算(学習)の収束が早まり好適である。
ここで,演算負荷の高い前記学習計算を特に制限無しで実行した場合,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)より大きくなり,音響環境の変化への速やかな適応が困難になる事態が生じる。
そこで,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)よりも常に短くなるように,前記学習計算における逐次計算回数を前記上限回数で制限すれば,音響環境の変化への速やかな適応が可能となる。
また,このような逐次計算回数の制限(学習計算の簡素化)より,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理と前記ポスト処理(スペクトル減算処理やスペクトル近似信号抽出処理)との組合せにより,全体として目的音の抽出性能を十分に確保できる。
なお,前記目的音抽出装置X1〜X3の処理の開始時(装置の電源ON時)の最初の前記フィルタ処理においては,例えば,予め用意された初期行列や,前回の処理終了時(装置の電源OFF時)にメモリに記憶させておいた分離行列等を前記分離行列として用いることが考えられる。
また,前記上限回数は,本処理を実行するプロセッサ(DSPやASIC等)の能力に応じて,予め実験や計算により定められる。
図18に示す前記学習計算(逐次計算)の例(第2実施例)は,前記メタフレーム信号{Mframe(1),Mframe(2),Mframe(3),…}の先頭側の一部の時間帯の信号ごとに,その一部の時間帯の信号を用いて以降の前記フィルタ処理に用いる前記分離行列W(f)を求める場合の例である。
図17に示す第2実施例の学習計算では,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の先頭側の一部を用いて分離行列W(f)の計算(学習)を行う。そして,以降の前記フィルタ処理により用いられる分離行列W(f)が,前記学習計算により求められた新たな分離行列W(f)に更新される。このときも,ある前記メタフレーム信号Mframe(i)の一部を用いて計算(学習)された分離行列W(f)を,次の前記メタフレーム信号Mframe(i+1)の一部を用いて分離行列W(f)を計算(逐次計算)する際の初期値(初期分離行列)として用いれば(初期行列の引き継ぎ),逐次計算(学習)の収束が早まり好適である。
この第2実施例では,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)よりも常に短くなるように,前記メタフレーム信号の一部を間引いて前記学習計算に用いることにより,音響環境の変化への速やかな適応が可能となる。
また,このような学習計算に用いる信号の間引き(学習計算の簡素化)により,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理と前記ポスト処理(スペクトル減算処理やスペクトル近似信号抽出処理)との組合せにより,全体として目的音の抽出性能を十分に確保できる。
なお,前記メタフレーム信号における前記学習計算に用いる部分の時間長(ディジタル信号のサンプル数)は,本処理を実行するプロセッサ(DSPやASIC等)の能力に応じて,予め実験や計算により定められる。
X2:第2発明の実施形態に係る目的音抽出装置
X3:第3発明の実施形態に係る目的音抽出装置
V1,V2:音響入力装置
10(10−1〜10−3):音源分離処理部
20:目的音分離信号合成処理部
31,31’:スペクトル減算処理部
32:スペクトル近似信号抽出処理部
41:主・副音響信号特定部
42:信号切替器
101:主マイクロホン
102:副マイクロホン
Claims (7)
- 所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であって,
前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に設けられ,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段と,
前記音源分離手段により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成手段と,
前記目的音分離信号合成手段により得られた合成信号と前記音源分離手段により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成手段により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル減算処理手段と,
を具備してなることを特徴とする目的音抽出装置。 - 前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い,該逐次計算の回数を予め定められた回数に制限してなる請求項1に記載の目的音抽出装置。
- 前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに,その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行してなる請求項1に記載の目的音抽出装置。
- それぞれ指向性の方向が異なる3つ以上のマイクロホンを通じて得られる3つ以上の入力音響信号に基づいて,該3つ以上の入力音響信号の中から1つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段と,
前記主・副音響信号特定手段による特定結果に従って,前記3つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段と,
を具備してなる請求項1〜3のいずれかに記載の目的音抽出装置。 - 前記主・副音響信号特定手段が,前記3つ以上の入力音響信号それぞれの信号強度の比較に基づいて,又は前記3つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて,1つの前記主音響信号と複数の前記副音響信号とを特定してなる請求項4に記載の目的音抽出装置。
- 所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって,
コンピュータに,
前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と,
前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理と,
前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理と,
を実行させてなることを特徴とする目的音抽出プログラム。 - 所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータにより実行する目的音抽出方法であって,
コンピュータにより,
前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と,
前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理と,
前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理と,
を実行してなることを特徴とする目的音抽出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007325036A JP4519900B2 (ja) | 2007-04-26 | 2007-12-17 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
US12/078,839 US20080267423A1 (en) | 2007-04-26 | 2008-04-07 | Object sound extraction apparatus and object sound extraction method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007116519 | 2007-04-26 | ||
JP2007325036A JP4519900B2 (ja) | 2007-04-26 | 2007-12-17 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008295010A JP2008295010A (ja) | 2008-12-04 |
JP4519900B2 true JP4519900B2 (ja) | 2010-08-04 |
Family
ID=40169250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007325036A Expired - Fee Related JP4519900B2 (ja) | 2007-04-26 | 2007-12-17 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4519900B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017138254A (ja) | 2016-02-05 | 2017-08-10 | 国立研究開発法人海洋研究開発機構 | 資源推定システム及び資源推定方法 |
JP6675693B2 (ja) * | 2019-03-22 | 2020-04-01 | 国立研究開発法人海洋研究開発機構 | 資源推定システム及び資源推定方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167698A (ja) * | 1990-10-29 | 1992-06-15 | Purimo:Kk | 目的音源に追随する指向性マイクロホン |
JP2000047699A (ja) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2005077731A (ja) * | 2003-08-29 | 2005-03-24 | Univ Waseda | 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム |
JP2005234246A (ja) * | 2004-02-19 | 2005-09-02 | Univ Waseda | 音源分離方法およびそのシステム |
JP2007033825A (ja) * | 2005-07-26 | 2007-02-08 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2007034238A (ja) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | 現場作業支援システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1923866B1 (en) * | 2005-08-11 | 2014-01-01 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program |
-
2007
- 2007-12-17 JP JP2007325036A patent/JP4519900B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167698A (ja) * | 1990-10-29 | 1992-06-15 | Purimo:Kk | 目的音源に追随する指向性マイクロホン |
JP2000047699A (ja) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2005077731A (ja) * | 2003-08-29 | 2005-03-24 | Univ Waseda | 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム |
JP2005234246A (ja) * | 2004-02-19 | 2005-09-02 | Univ Waseda | 音源分離方法およびそのシステム |
JP2007033825A (ja) * | 2005-07-26 | 2007-02-08 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2007034238A (ja) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | 現場作業支援システム |
Also Published As
Publication number | Publication date |
---|---|
JP2008295010A (ja) | 2008-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4897519B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
EP3655949B1 (en) | Acoustic source separation systems | |
KR101670313B1 (ko) | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 | |
EP2306457B1 (en) | Automatic sound recognition based on binary time frequency units | |
CN101964192B (zh) | 声音处理设备和声音处理方法 | |
JP4519901B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
KR20130116299A (ko) | 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 | |
KR20090037692A (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
CN101828335A (zh) | 稳健双麦克风噪声抑制系统 | |
US11978471B2 (en) | Signal processing apparatus, learning apparatus, signal processing method, learning method and program | |
JP4336378B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
US20080267423A1 (en) | Object sound extraction apparatus and object sound extraction method | |
JP4493690B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP4519900B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
AU2020316738B2 (en) | Speech-tracking listening device | |
KR102313958B1 (ko) | 혼합된 신호의 잡음을 감소시키기 위한 방법 및 시스템 | |
JP2010152107A (ja) | 目的音抽出装置及び目的音抽出プログラム | |
JP6524463B2 (ja) | 自動ミキシング装置およびプログラム | |
JP2005091560A (ja) | 信号分離方法および信号分離装置 | |
JP5251473B2 (ja) | 音声処理装置、及び、音声処理方法 | |
JP2006003697A (ja) | 音声入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100519 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |