JP2008236077A - 目的音抽出装置,目的音抽出プログラム - Google Patents
目的音抽出装置,目的音抽出プログラム Download PDFInfo
- Publication number
- JP2008236077A JP2008236077A JP2007069545A JP2007069545A JP2008236077A JP 2008236077 A JP2008236077 A JP 2008236077A JP 2007069545 A JP2007069545 A JP 2007069545A JP 2007069545 A JP2007069545 A JP 2007069545A JP 2008236077 A JP2008236077 A JP 2008236077A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- target sound
- sub
- signal
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】マイクロホンを通じて得られる音響信号から,2入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に,複数の方向から異なる雑音がマイクロホンに到来する状況,及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても,高い雑音除去性能を維持できること。
【解決手段】複数の副マイクロホンそれぞれに対する目的音源の位置(距離)を検出する音源位置検出手段51,52,その検出結果に基づいて複数の副音響信号Sg21,Sg22について重み付け合成処理を行うことによって雑音信号Sgnを生成する雑音信号生成部6,主音響信号Sg1及び前記雑音信号Sgnそれぞれの時系列特徴ベクトルの減算処理によって目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理を行う目的音抽出部7を備える目的音抽出装置。
【選択図】図1
【解決手段】複数の副マイクロホンそれぞれに対する目的音源の位置(距離)を検出する音源位置検出手段51,52,その検出結果に基づいて複数の副音響信号Sg21,Sg22について重み付け合成処理を行うことによって雑音信号Sgnを生成する雑音信号生成部6,主音響信号Sg1及び前記雑音信号Sgnそれぞれの時系列特徴ベクトルの減算処理によって目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理を行う目的音抽出部7を備える目的音抽出装置。
【選択図】図1
Description
本発明は,マイクロホンを通じて得られる音響信号に基づいて,所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置及びそのプログラムに関するものである。
電話会議システム,テレビ会議システム,券売機,カーナビゲーションシステム等,話者等の音源が発する音響を入力する機能を備えた装置においては,マイクロホンによってある特定の音源(以下,目的音源という)から発せられる音(以下,目的音という)が収音されるが,音源の存在する環境に応じて,そのマイクロホンを通じて得られる音響信号に,前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして,マイクロホンを通じて得られる音響信号において,雑音成分の割合が大きいと,目的音の明瞭性が損なわれ,通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来,例えば非特許文献1に示されるように,話者の発する音声(目的音の一例)を主として入力する主マイクロホン(音声マイクロホン)と,その話者の周囲の雑音を主として入力する(話者の音声がほとんど混入しない)副マイクロホン(雑音マイクロホン)とを用い,前記主マイクロホンを通じて得られる音響信号から,前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する2入力スペクトルサブストラクション処理が知られている。ここで,2入力スペクトルサブストラクション処理は,前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により,話者が発する音声(前記目的音)に相当する音響信号を抽出(即ち,雑音成分を除去する)する処理である。
ところで,前記副マイクロホンは,これに前記目的音が極力混入しないよう,前記主マイクロホンとは異なる位置に配置されたマイクロホン,或いは前記主マイクロホンとは異なる方向に指向性を有するマイクロホンが採用される。このため,複数の方向から異なる雑音が各マイクロホンに到来する場合,前記副マイクロホンにより主に収音される雑音と前記主マイクロホンに主に混入する雑音とが異なる状況が生じ得る。そのような状況が発生した場合,前記2入力スペクトルサブストラクション処理による雑音除去性能が悪化する。
これに対し,特許文献1には,複数の前記副マイクロホン(雑音マイクロホン)を用い,そのそれぞれを通じて入力される音響信号について,状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と,前記主マイクロホンを通じて入力される音響信号とに基づいて,前記2入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより,時間的,空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能となるとされている。
従来,例えば非特許文献1に示されるように,話者の発する音声(目的音の一例)を主として入力する主マイクロホン(音声マイクロホン)と,その話者の周囲の雑音を主として入力する(話者の音声がほとんど混入しない)副マイクロホン(雑音マイクロホン)とを用い,前記主マイクロホンを通じて得られる音響信号から,前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する2入力スペクトルサブストラクション処理が知られている。ここで,2入力スペクトルサブストラクション処理は,前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により,話者が発する音声(前記目的音)に相当する音響信号を抽出(即ち,雑音成分を除去する)する処理である。
ところで,前記副マイクロホンは,これに前記目的音が極力混入しないよう,前記主マイクロホンとは異なる位置に配置されたマイクロホン,或いは前記主マイクロホンとは異なる方向に指向性を有するマイクロホンが採用される。このため,複数の方向から異なる雑音が各マイクロホンに到来する場合,前記副マイクロホンにより主に収音される雑音と前記主マイクロホンに主に混入する雑音とが異なる状況が生じ得る。そのような状況が発生した場合,前記2入力スペクトルサブストラクション処理による雑音除去性能が悪化する。
これに対し,特許文献1には,複数の前記副マイクロホン(雑音マイクロホン)を用い,そのそれぞれを通じて入力される音響信号について,状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と,前記主マイクロホンを通じて入力される音響信号とに基づいて,前記2入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより,時間的,空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能となるとされている。
一方,所定の音響空間に複数の音源と複数のマイクロホン(音響入力手段)とが存在する場合,その複数のマイクロホンごとに,複数の音源各々からの個別の音響信号(以下,音源信号という)が重畳された音響信号(以下,混合音響信号という)が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音響信号において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音響信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献2や非特許文献3等に詳説されている。
一方,ICA法に基づくBSS方式の音源分離処理においては,学習計算によって分離行列が得られるが,その分離行列に基づいて,音源の存在する方向(DOA:Direction of Arrivals)を推定(検出)する各種の技術が従来より知られている。例えば,非特許文献4や非特許文献5には,前記分離行列にステアリングベクトルを乗じることによってDOAを推定する技術が示されている。
特開平6−67691号公報
菅村他,「2入力による雑音除去手法を用いた自動車内の音声認識」,電子情報通信学会技術研究報告,SP−81,pp.41-48,1989
猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001.
高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」,電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003.
西川剛樹他,「ICAとビームフォーミングを統合した高速収束アルゴリズムに基づく3音源以上のブラインド音源分離」,日本音響学会講演論文集,1-6-13,March 2005.
Saruwatari Hiroshi他,"Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming",EUROSPEECH 2001,pp2603-2606.
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音響信号において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音響信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献2や非特許文献3等に詳説されている。
一方,ICA法に基づくBSS方式の音源分離処理においては,学習計算によって分離行列が得られるが,その分離行列に基づいて,音源の存在する方向(DOA:Direction of Arrivals)を推定(検出)する各種の技術が従来より知られている。例えば,非特許文献4や非特許文献5には,前記分離行列にステアリングベクトルを乗じることによってDOAを推定する技術が示されている。
ところで,前記目的音の音源(例えば話者,以下,目的音源という)が移動する場合,即ち,前記目的音源と各マイクロホンとの位置関係が変化する場合がある。その場合,前記目的音源の位置に応じて前記目的音が前記副マイクロホンに対して比較的大きな音量で混入する状況が発生する。また,特許文献1に示されるように前記副マイクロホンが複数存在する場合,そのそれぞれに対する前記目的音の混入の程度が変化する。
しかしながら,非特許文献1に示される技術では,前記目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合,その目的音に対応する音響信号の成分が雑音成分として誤って除去されて雑音除去性能が悪化するという問題点があった。
また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,前記目的音源の移動によって加重平均の重みと,複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,複数の方向から異なる雑音が各マイクロホンに到来する状況下においては,選択に漏れた音響信号に基づく雑音成分が除去されず,やはり雑音除去性能が悪化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,マイクロホンを通じて得られる音響信号から,2入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に,複数の方向から異なる雑音がマイクロホンに到来する状況,及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても,高い雑音除去性能を維持できる目的音抽出装置及び目的音抽出プログラムを提供することにある。
しかしながら,非特許文献1に示される技術では,前記目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合,その目的音に対応する音響信号の成分が雑音成分として誤って除去されて雑音除去性能が悪化するという問題点があった。
また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,前記目的音源の移動によって加重平均の重みと,複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,複数の方向から異なる雑音が各マイクロホンに到来する状況下においては,選択に漏れた音響信号に基づく雑音成分が除去されず,やはり雑音除去性能が悪化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,マイクロホンを通じて得られる音響信号から,2入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に,複数の方向から異なる雑音がマイクロホンに到来する状況,及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても,高い雑音除去性能を維持できる目的音抽出装置及び目的音抽出プログラムを提供することにある。
上記目的を達成するために本発明に係る目的音抽出装置は,所定の目的音源(特定の音源)から出力される音(以下,目的音という)を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と,それ以外の複数の副マイクロホン(前記主マイクロホンとは異なる複数の位置それぞれに配置されたもの,又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有するもの)それぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力するものであり,次の(1−1)〜(1−3)に示す各構成要素を備えるものである。
(1−1)前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出手段。
(1−2)前記音源位置検出手段の検出結果に基づいて,前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成手段。
(1−3)前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理手段。
例えば,前記音源位置検出手段が,前記複数の副マイクロホンそれぞれに対する前記目的音源の距離を検出し,前記雑音信号生成手段が,前記音源位置検出手段により検出された距離に基づいて前記複数の副音響信号について重み付け合成処理を実行することが考えられる。
一般に,前記副マイクロホンそれぞれに対する前記目的音源の位置(距離や方向)がわかれば,その目的音源が発する音響が前記副マイクロホンそれぞれにおいて収音される程度(混入度合い)を特定できる。例えば,音響の強さは距離の二乗に反比例するので,ある前記副マイクロホンに対し,ある方向に存在する前記目的音源の距離が半分になれば,その副マイクロホンで収音される前記目的音の強さは4倍になる。
本発明によれば,前記雑音信号生成手段が,前記目的音源の位置に基づいて,前記目的音の混入度合いの高い前記副音響信号についての重みを小さくし,一方,前記目的音の混入度合いの低い前記副音響信号についての重みを大きくした前記重み付け合成処理(例えば,加重平均処理など)によって前記雑音信号を生成できる。その結果,前記目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入した場合,さらに,前記目的音源の移動によってその混入の度合いが変化した場合でも,前記雑音信号における前記目的音の信号成分が常に低レベルに抑えられ,前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
また,前記雑音信号は,位置や指向方向がそれぞれ異なる複数の前記副マイクロホンを通じて得られた音響信号の合成信号であるので,複数の方向から異なる雑音が各マイクロホンに到来する状況下においても,その雑音成分それぞれを漏れなく除去できる。
なお,前記複数の副マイクロホンそれぞれに対する前記目的音源の位置としては,例えば,距離のみ又は方向のみ,或いは距離及び方向の両方を特定する位置(二次元座標もしくは三次元座標における位置)等のいずれかが考えられる。
(1−1)前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出手段。
(1−2)前記音源位置検出手段の検出結果に基づいて,前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成手段。
(1−3)前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理手段。
例えば,前記音源位置検出手段が,前記複数の副マイクロホンそれぞれに対する前記目的音源の距離を検出し,前記雑音信号生成手段が,前記音源位置検出手段により検出された距離に基づいて前記複数の副音響信号について重み付け合成処理を実行することが考えられる。
一般に,前記副マイクロホンそれぞれに対する前記目的音源の位置(距離や方向)がわかれば,その目的音源が発する音響が前記副マイクロホンそれぞれにおいて収音される程度(混入度合い)を特定できる。例えば,音響の強さは距離の二乗に反比例するので,ある前記副マイクロホンに対し,ある方向に存在する前記目的音源の距離が半分になれば,その副マイクロホンで収音される前記目的音の強さは4倍になる。
本発明によれば,前記雑音信号生成手段が,前記目的音源の位置に基づいて,前記目的音の混入度合いの高い前記副音響信号についての重みを小さくし,一方,前記目的音の混入度合いの低い前記副音響信号についての重みを大きくした前記重み付け合成処理(例えば,加重平均処理など)によって前記雑音信号を生成できる。その結果,前記目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入した場合,さらに,前記目的音源の移動によってその混入の度合いが変化した場合でも,前記雑音信号における前記目的音の信号成分が常に低レベルに抑えられ,前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
また,前記雑音信号は,位置や指向方向がそれぞれ異なる複数の前記副マイクロホンを通じて得られた音響信号の合成信号であるので,複数の方向から異なる雑音が各マイクロホンに到来する状況下においても,その雑音成分それぞれを漏れなく除去できる。
なお,前記複数の副マイクロホンそれぞれに対する前記目的音源の位置としては,例えば,距離のみ又は方向のみ,或いは距離及び方向の両方を特定する位置(二次元座標もしくは三次元座標における位置)等のいずれかが考えられる。
また,本発明に係る目的音抽出装置が,前記副マイクロホンそれぞれについて,その副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号(目的音の信号と雑音の信号とが混合した音響信号)に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離手段を備えればなお好適である。
これにより,前記目的音の信号成分の大部分が除去された前記副音響信号が得られるので,その副音響信号に基づき生成される前記雑音信号にも前記目的音の信号成分がほとんど含まれず,前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。なお,この場合,前記重み付け合成処理は,前記副音響信号にわずかに混入する前記目的音の成分の影響をより低減するために行われる。
また,前記音源位置検出手段が,前記雑音分離手段による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記副マイクロホンそれぞれに対する前記目的音源の存在する方向(DOA)を検出(推定)する目的音源方向検出手段備えることが考えられる。この場合,前記音源位置検出手段は,前記目的音源方向検出手段により検出(推定)された前記目的音源方向と前記副マイクロホンそれぞれの既知の位置関係とに基づいて,前記副マイクロホンそれぞれに対する前記目的音源の位置(方向及び距離)を検出することができる。
これにより,前記雑音分離手段の処理結果(分離行列の情報)を有効活用してその処理結果に基づく情報処理を行う演算手段により前記音源位置検出手段を簡易に実現できる。もちろん,前記音源位置検出手段として,超音波や電波或いは光等の無線信号を利用した位置検出手段や,前記目的音源を撮像手段により撮像して得られる画像データに基づいて,画像処理を行うことによって前記目的音源の位置を検出する画像処理手段などの他の手段を採用してもよい。
これにより,前記目的音の信号成分の大部分が除去された前記副音響信号が得られるので,その副音響信号に基づき生成される前記雑音信号にも前記目的音の信号成分がほとんど含まれず,前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。なお,この場合,前記重み付け合成処理は,前記副音響信号にわずかに混入する前記目的音の成分の影響をより低減するために行われる。
また,前記音源位置検出手段が,前記雑音分離手段による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記副マイクロホンそれぞれに対する前記目的音源の存在する方向(DOA)を検出(推定)する目的音源方向検出手段備えることが考えられる。この場合,前記音源位置検出手段は,前記目的音源方向検出手段により検出(推定)された前記目的音源方向と前記副マイクロホンそれぞれの既知の位置関係とに基づいて,前記副マイクロホンそれぞれに対する前記目的音源の位置(方向及び距離)を検出することができる。
これにより,前記雑音分離手段の処理結果(分離行列の情報)を有効活用してその処理結果に基づく情報処理を行う演算手段により前記音源位置検出手段を簡易に実現できる。もちろん,前記音源位置検出手段として,超音波や電波或いは光等の無線信号を利用した位置検出手段や,前記目的音源を撮像手段により撮像して得られる画像データに基づいて,画像処理を行うことによって前記目的音源の位置を検出する画像処理手段などの他の手段を採用してもよい。
また,本発明は,以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち,本発明に係る目的音抽出プログラムは,所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり,さらに,次の(2−1)及び(2−2)に示す処理をコンピュータに実行させるプログラムである。
(2−1)前記複数の副マイクロホンそれぞれに対する前記目的音源の位置の検出結果に基づいて,前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成処理。
(2−2)前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても,前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
即ち,本発明に係る目的音抽出プログラムは,所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり,さらに,次の(2−1)及び(2−2)に示す処理をコンピュータに実行させるプログラムである。
(2−1)前記複数の副マイクロホンそれぞれに対する前記目的音源の位置の検出結果に基づいて,前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成処理。
(2−2)前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても,前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また,本発明に係る目的音抽出プログラムが,前記副マイクロホンそれぞれについて,その副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離処理をさらにコンピュータに実行させるものであればなお好適である。
また,本発明に係る目的音抽出プログラムが,前記雑音分離処理による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記副マイクロホンそれぞれに対する前記目的音源の存在する方向である目的音源方向(DOA)を検出(推定)することにより,前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出処理をさらにコンピュータに実行させるものであることが考えられる。
また,本発明に係る目的音抽出プログラムが,前記雑音分離処理による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記副マイクロホンそれぞれに対する前記目的音源の存在する方向である目的音源方向(DOA)を検出(推定)することにより,前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出処理をさらにコンピュータに実行させるものであることが考えられる。
本発明によれば,目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入した場合,さらに,前記目的音源の移動によってその混入の度合いが変化した場合でも,前記主音響信号から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
また,本発明において,前記雑音信号は,位置や指向方向がそれぞれ異なる複数の前記副マイクロホンを通じて得られた音響信号の合成信号である。そのため,本発明によれば,複数の方向から異なる雑音が各マイクロホンに到来する状況下においても,その雑音成分それぞれを漏れなく除去できる。
以上より,本発明によれば,マイクロホンを通じて得られる音響信号から,2入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に,複数の方向から異なる雑音がマイクロホンに到来する状況,及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても,高い雑音除去性能を維持できる。
また,本発明において,前記雑音信号は,位置や指向方向がそれぞれ異なる複数の前記副マイクロホンを通じて得られた音響信号の合成信号である。そのため,本発明によれば,複数の方向から異なる雑音が各マイクロホンに到来する状況下においても,その雑音成分それぞれを漏れなく除去できる。
以上より,本発明によれば,マイクロホンを通じて得られる音響信号から,2入力スペクトルサブストラクション処理に基づく雑音成分の除去によって目的音に対応する音響成分を抽出する際に,複数の方向から異なる雑音がマイクロホンに到来する状況,及び目的音の音源とマイクロホンとの位置関係が変化する状況が生じても,高い雑音除去性能を維持できる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の第1実施形態に係る目的音抽出装置X1の概略構成を表すブロック図,図2は本発明の第2実施形態に係る目的音抽出装置X2の概略構成を表すブロック図,図3はTDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図,図4はFDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図である。
ここに,図1は本発明の第1実施形態に係る目的音抽出装置X1の概略構成を表すブロック図,図2は本発明の第2実施形態に係る目的音抽出装置X2の概略構成を表すブロック図,図3はTDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図,図4はFDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図である。
[第1実施形態]
まず,図1に示すブロック図を参照しつつ,本発明の第1実施形態に係る目的音抽出装置X1について説明する。
図1に示すように,目的音抽出装置X1は,1つの主マイクロホン20,複数(図1では2つ)の副マイクロホン31及び32,A/Dコンバータ4,測距センサ51,52(距離計),雑音信号生成部6及び目的音抽出部7を備えている。
前記雑音信号生成部6及び前記目的音抽出部7は,例えばコンピュータの一例であるDSP(Digital Signal Processor)及びそのDSPにより実行されるプログラムが記憶されたROM等により具現化される。この場合,そのROMには,前記雑音信号生成部6及び前記目的音抽出部7が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記主マイクロホン20は,所定範囲内で移動し得る話者1(目的音源の一例)が発する音声(以下,目的音という)を主に入力する音声入力手段である。
また,複数の前記副マイクロホン31,32は,前記主マイクロホン20とは異なる複数の位置それぞれに配置され,主として目的音以外の雑音を入力する音声入力手段である。以下,複数の副マイクロホン31,32を総称する場合,副マイクロホン30という。
なお,図1に示す主マイクロホン20及び副マイクロホン31,32は,それぞれ指向性を有するマイクロホンであり,副マイクロホン31,32は,それぞれ前記主マイクロホンとは異なる複数の方向それぞれに指向性を有するよう配置されている。
そして,目的音抽出装置X1は,前記主マイクロホン20を通じて得られる主音響信号Sg1と,それ以外の複数の前記副マイクロホンを通じて得られる副音響信号Sg21,Sg22とに基づいて,前記目的音に相当する音響信号(以下,目的音響信号Sgoという)を抽出してその抽出信号Sgoを出力するものである。
まず,図1に示すブロック図を参照しつつ,本発明の第1実施形態に係る目的音抽出装置X1について説明する。
図1に示すように,目的音抽出装置X1は,1つの主マイクロホン20,複数(図1では2つ)の副マイクロホン31及び32,A/Dコンバータ4,測距センサ51,52(距離計),雑音信号生成部6及び目的音抽出部7を備えている。
前記雑音信号生成部6及び前記目的音抽出部7は,例えばコンピュータの一例であるDSP(Digital Signal Processor)及びそのDSPにより実行されるプログラムが記憶されたROM等により具現化される。この場合,そのROMには,前記雑音信号生成部6及び前記目的音抽出部7が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記主マイクロホン20は,所定範囲内で移動し得る話者1(目的音源の一例)が発する音声(以下,目的音という)を主に入力する音声入力手段である。
また,複数の前記副マイクロホン31,32は,前記主マイクロホン20とは異なる複数の位置それぞれに配置され,主として目的音以外の雑音を入力する音声入力手段である。以下,複数の副マイクロホン31,32を総称する場合,副マイクロホン30という。
なお,図1に示す主マイクロホン20及び副マイクロホン31,32は,それぞれ指向性を有するマイクロホンであり,副マイクロホン31,32は,それぞれ前記主マイクロホンとは異なる複数の方向それぞれに指向性を有するよう配置されている。
そして,目的音抽出装置X1は,前記主マイクロホン20を通じて得られる主音響信号Sg1と,それ以外の複数の前記副マイクロホンを通じて得られる副音響信号Sg21,Sg22とに基づいて,前記目的音に相当する音響信号(以下,目的音響信号Sgoという)を抽出してその抽出信号Sgoを出力するものである。
前記A/Dコンバータ4は,各マイクロホン20,30により入力されたアナログ音響信号をデジタル音響信号に変換するものである。本実施形態では,前記主マイクロホン20により入力されたアナログ音響信号をこのA/Dコンバータ4でデジタル化された信号が,前記主音響信号Sg1である。同様に,前記副マイクロホン31,32により入力されたアナログ音響信号をこのA/Dコンバータ4でデジタル化された信号が,前記副音響信号Sg21,Sg22である。
例えば,目的音が人の声である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
前記測距センサ51,52(前記音源位置検出手段の一例)は,それぞれ前記副マイクロホン31,32とほぼ同じ位置に配置され,前記副マイクロホン31,32それぞれから話者1までの距離(目的音源の位置の一例)を測定するセンサ(距離計)である。例えば,前記測距センサ51は,超音波送信器及びその送信波の話者1に対する反射波を受波する超音波受信器と,検波回路とを備え(いずれも不図示),前記検波回路により,前記超音波送信器による超音波の送信時点から,前記超音受信器による反射波の受信時点までの時間を測定し,さらにその時間を話者1までの距離(以下,音源距離Lo1,Lo2という)に換算し,換算後の距離を表す信号を前記雑音信号生成部6に対して出力するものである。なお,前記検波回路は,予め定められた上限時間内に反射波の受信を検知できない場合は,計測不能信号を出力する。
なお,前記測距センサ51,52として,超音波の他,電波やレーザ光等の無線信号を利用した周知の距離計や,話者1をその上方に配置されたカメラにより撮像して得られる画像データに基づいて人物の位置を認識する画像処理を行うことによって話者1の位置を検出する画像処理装置などの他の手段を採用してもよい。
例えば,目的音が人の声である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
前記測距センサ51,52(前記音源位置検出手段の一例)は,それぞれ前記副マイクロホン31,32とほぼ同じ位置に配置され,前記副マイクロホン31,32それぞれから話者1までの距離(目的音源の位置の一例)を測定するセンサ(距離計)である。例えば,前記測距センサ51は,超音波送信器及びその送信波の話者1に対する反射波を受波する超音波受信器と,検波回路とを備え(いずれも不図示),前記検波回路により,前記超音波送信器による超音波の送信時点から,前記超音受信器による反射波の受信時点までの時間を測定し,さらにその時間を話者1までの距離(以下,音源距離Lo1,Lo2という)に換算し,換算後の距離を表す信号を前記雑音信号生成部6に対して出力するものである。なお,前記検波回路は,予め定められた上限時間内に反射波の受信を検知できない場合は,計測不能信号を出力する。
なお,前記測距センサ51,52として,超音波の他,電波やレーザ光等の無線信号を利用した周知の距離計や,話者1をその上方に配置されたカメラにより撮像して得られる画像データに基づいて人物の位置を認識する画像処理を行うことによって話者1の位置を検出する画像処理装置などの他の手段を採用してもよい。
前記雑音信号生成部6は,前記測距センサ51,52それぞれにより検出された前記音源距離Lo1,Lo2(前記副マイクロホン31,32それぞれから話者1までの距離)に基づいて,複数の前記副音響信号Sg2i(添え字iは副マイクロホンの識別番号(図1ではi=1,2))について,例えば次の(1)式に従った重み付け加算(重み付け合成処理の一例)を行うことによって雑音信号Sgnを生成するものである(前記雑音信号生成手段の一例)。なお,nxは前記副マイクロホン30の数である。
この(1)式は,話者1が発する音声(目的音)が前記副マイクロホン31,32それぞれにおいて収音される程度(音響の強さ)が前記音源距離Loiの二乗に反比例することを反映し,話者1の位置(距離)に基づいて,前記目的音の混入度合いの高い前記副音響信号についての重みを小さくし,一方,前記目的音の混入度合いの低い前記副音響信号についての重みを大きくする加重平均処理を表す式である。
このような加重平均処理を行うことにより,前記目的音が前記副マイクロホン30のいずれかに対して比較的大きな音量で混入するような位置に話者1が存在する場合,さらに,話者1の移動によってその混入の度合いが変化した場合でも,前記雑音信号Sgnにおける前記目的音の信号成分が常に低レベルに抑えられる。
また,前記雑音信号Sgnは,位置や指向方向がそれぞれ異なる複数の前記副マイクロホン30を通じて得られた音響信号Sg2iの合成信号であるので,複数の方向から異なる雑音が各マイクロホン20,30に到来する状況下においても,その雑音成分それぞれが漏れなく反映された信号となる。
このような加重平均処理を行うことにより,前記目的音が前記副マイクロホン30のいずれかに対して比較的大きな音量で混入するような位置に話者1が存在する場合,さらに,話者1の移動によってその混入の度合いが変化した場合でも,前記雑音信号Sgnにおける前記目的音の信号成分が常に低レベルに抑えられる。
また,前記雑音信号Sgnは,位置や指向方向がそれぞれ異なる複数の前記副マイクロホン30を通じて得られた音響信号Sg2iの合成信号であるので,複数の方向から異なる雑音が各マイクロホン20,30に到来する状況下においても,その雑音成分それぞれが漏れなく反映された信号となる。
前記目的音抽出部7は,前記主音響信号Sg1及び前記雑音信号Sgnそれぞれの時系列特徴ベクトルを算出し,前記主音響信号Sg1の時系列特徴ベクトルから前記雑音信号Sgnの時系列特徴ベクトルを減算することにより,前記目的音響信号Sgo(目的音に相当する音響信号)を抽出し,その目的音響信号Sg0(抽出信号)を所定の出力端を通じて出力する2入力サブストラクション処理を実行するものである(前記2入力サブトラクション処理手段の一例)。
ここで,前記主音響信号Sg1及び前記雑音信号Sgnそれぞれの時系列特徴ベクトルの算出,及びその算出結果の減算処理による目的音の抽出に関する具体的処理の内容は,非特許文献1或いは特許文献1の段落0004等にも示されるように周知であるのでここでは説明を省略する。
以上に示したように,目的音抽出装置X1においては,前記目的音を発する話者1の位置やその移動にかかわらず,前記雑音信号生成部6によって前記雑音信号Sgnにおける前記目的音の信号成分が常に低レベルに抑えられ,また,その雑音信号Sgnは,複数の方向から異なる雑音が各マイクロホン20,30に到来する状況下においても,その雑音成分それぞれが漏れなく反映された信号となる。従って,前記目的音抽出部7により,前記主音響信号Sg1から前記目的音の信号成分が雑音成分として誤って除去されることが回避され,また,各方向からの雑音成分が漏れなく前記主音響信号Sg1から除去される。その結果,目的音抽出装置X1によれば,複数の方向から異なる雑音が各マイクロホン20,30に到来する状況,及び目的音の音源と前記副マイクロホン30との位置関係が変化する状況が生じても,高い雑音除去性能を維持できる。
ここで,前記主音響信号Sg1及び前記雑音信号Sgnそれぞれの時系列特徴ベクトルの算出,及びその算出結果の減算処理による目的音の抽出に関する具体的処理の内容は,非特許文献1或いは特許文献1の段落0004等にも示されるように周知であるのでここでは説明を省略する。
以上に示したように,目的音抽出装置X1においては,前記目的音を発する話者1の位置やその移動にかかわらず,前記雑音信号生成部6によって前記雑音信号Sgnにおける前記目的音の信号成分が常に低レベルに抑えられ,また,その雑音信号Sgnは,複数の方向から異なる雑音が各マイクロホン20,30に到来する状況下においても,その雑音成分それぞれが漏れなく反映された信号となる。従って,前記目的音抽出部7により,前記主音響信号Sg1から前記目的音の信号成分が雑音成分として誤って除去されることが回避され,また,各方向からの雑音成分が漏れなく前記主音響信号Sg1から除去される。その結果,目的音抽出装置X1によれば,複数の方向から異なる雑音が各マイクロホン20,30に到来する状況,及び目的音の音源と前記副マイクロホン30との位置関係が変化する状況が生じても,高い雑音除去性能を維持できる。
[第2実施形態]
次に,図2に示すブロック図を参照しつつ,本発明の第2実施形態に係る目的音抽出装置X2について説明する。目的音抽出装置X2は,前記目的音抽出装置X1の応用例であり,図2に示す目的音抽出装置X2の構成要素のうち,前記目的音抽出装置X1の構成要素と同じものについては同じ符号を付している。
図2に示すように,目的音抽出装置X2は,1つの主マイクロホン20,複数組(図2では2組)の副マイクロホン31及び32,A/Dコンバータ4,音源位置検出部5’,雑音信号生成部6,目的音抽出部7及び雑音信号分離生成部10を備えている。
前記雑音信号生成部6,前記目的音抽出部7及び前記雑音信号分離生成部10は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM等により具現化される。この場合,そのROMには,前記雑音信号生成部6,前記目的音抽出部7及び前記雑音信号分離生成部10が行う処理を前記DSPに実行させるためのプログラムが予め記憶されている。
ここで,目的音抽出装置X2における前記主マイクロホン20,前記A/Dコンバータ4,前記雑音信号生成部6及び前記目的音抽出部7は,前記目的音抽出装置X1における同名称(同符号)の構成要素と同じものである。
但し,目的音抽出装置X2においては,前記雑音信号生成部6は,複数のマイクロホンからなる一組の前記副マイクロホン31,32ごとに設けられた前記雑音信号分離生成部10から出力される前記副音響信号Sg21,Sg22を,前記音源位置検出部5’により検出される前記音源距離Lo1,Lo2に基づく重み付け合成処理によって合成した前記雑音信号Sgnを出力する。
次に,図2に示すブロック図を参照しつつ,本発明の第2実施形態に係る目的音抽出装置X2について説明する。目的音抽出装置X2は,前記目的音抽出装置X1の応用例であり,図2に示す目的音抽出装置X2の構成要素のうち,前記目的音抽出装置X1の構成要素と同じものについては同じ符号を付している。
図2に示すように,目的音抽出装置X2は,1つの主マイクロホン20,複数組(図2では2組)の副マイクロホン31及び32,A/Dコンバータ4,音源位置検出部5’,雑音信号生成部6,目的音抽出部7及び雑音信号分離生成部10を備えている。
前記雑音信号生成部6,前記目的音抽出部7及び前記雑音信号分離生成部10は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM等により具現化される。この場合,そのROMには,前記雑音信号生成部6,前記目的音抽出部7及び前記雑音信号分離生成部10が行う処理を前記DSPに実行させるためのプログラムが予め記憶されている。
ここで,目的音抽出装置X2における前記主マイクロホン20,前記A/Dコンバータ4,前記雑音信号生成部6及び前記目的音抽出部7は,前記目的音抽出装置X1における同名称(同符号)の構成要素と同じものである。
但し,目的音抽出装置X2においては,前記雑音信号生成部6は,複数のマイクロホンからなる一組の前記副マイクロホン31,32ごとに設けられた前記雑音信号分離生成部10から出力される前記副音響信号Sg21,Sg22を,前記音源位置検出部5’により検出される前記音源距離Lo1,Lo2に基づく重み付け合成処理によって合成した前記雑音信号Sgnを出力する。
前記雑音信号分離生成部10は,前記副マイクロホン31,32それぞれについて,その副マイクロホン31,32を構成する複数のマイクロホン(31a,31b)と(32a,32b)を通じて入力される複数の音響信号x1,x2(目的音の信号と雑音の信号とが混合した音響信号)に対し,独立成分分析法に基づくブラインド音源分離方式(以下,ICA−BSS方式という)による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号Sg21,Sg22を分離生成するものである(前記雑音分離手段の一例)。
以下,図3及び図4に示すブロック図を参照しつつ,前記雑音信号分離生成部10として適用可能な各種のICA−BSS方式の音源分離処理を行う音源分離装置の例について説明する。
なお,以下に示す音源分離装置Z1,Z2は,いずれも所定の音響空間に複数の音源と複数のマイクロホン111,112(前記副マイクロホン31,32それぞれを構成するマイクロホン(31a,31b)又は(32a,32b)に相当)とが存在する状態で,そのマイクロホン111,112各々を通じて,前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,その混合音声信号に対してICA−BSS方式の音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理を行うものである。
以下,図3及び図4に示すブロック図を参照しつつ,前記雑音信号分離生成部10として適用可能な各種のICA−BSS方式の音源分離処理を行う音源分離装置の例について説明する。
なお,以下に示す音源分離装置Z1,Z2は,いずれも所定の音響空間に複数の音源と複数のマイクロホン111,112(前記副マイクロホン31,32それぞれを構成するマイクロホン(31a,31b)又は(32a,32b)に相当)とが存在する状態で,そのマイクロホン111,112各々を通じて,前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,その混合音声信号に対してICA−BSS方式の音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理を行うものである。
図3は,ICA−BSS方式の一種である時間領域独立成分分析方式(time-domain independent component analysis方式,以下,TDICA方式という)に基づくBSS方式の音源分離処理を行う従来の音源分装置Z1の概略構成を表すブロック図である。なお,本処理の詳細は,非特許文献2や非特許文献3等に示されている。
音源分離装置Z1は,分離演算処理部11tにより,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。なお,混合音声信号x1(t),x2(t)は,所定のサンプリング周期でデジタル化された信号であるが,図3,図4においては,A/Dコンバータの記載を省略している。
図3には,2つの音源1,2からの音源信号S1(t),S2(t)を2つのマイクロホン111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA−BSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(2)式のように表される。
ここで,A(z)は,音源からの音響(音声)がマイクロホンへ入力される際の空間行列である。
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(3)式で表される。
ここで,W(z)は,出力y(t)から逐次計算(学習計算)により求められる。また,分離信号は,チャンネルの数だけ得られる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA−BSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(3)式は,次の(4)式のように書き換えて表現できる。
そして,(4)式における分離フィルタ(分離行列)W(n)は,次の(5)式により逐次計算される。即ち,前回(j)の出力y(t)を(5)式に逐次適用することより,今回(j+1)のW(n)を求める。
音源分離装置Z1は,分離演算処理部11tにより,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。なお,混合音声信号x1(t),x2(t)は,所定のサンプリング周期でデジタル化された信号であるが,図3,図4においては,A/Dコンバータの記載を省略している。
図3には,2つの音源1,2からの音源信号S1(t),S2(t)を2つのマイクロホン111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA−BSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(2)式のように表される。
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(3)式で表される。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA−BSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(3)式は,次の(4)式のように書き換えて表現できる。
次に,図4に示すブロック図を用いて,ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離装置Z2について説明する。
FDICA方式では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離演算処理部11fにより分離行列W(f)に基づく分離演算処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(6)式のように表すことができる。
ここで,分離フィルタW(f)の更新式は,例えば次の(7)式のように表すことができる。
このFDICA方式によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
FDICA方式では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離演算処理部11fにより分離行列W(f)に基づく分離演算処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(6)式のように表すことができる。
図2に示すように,前記雑音信号分離生成部10は,分離演算処理部11及び学習演算部12を備えている。図2には,入力される混合音声信号x1,x2のチャンネル数(即ち,マイクロホンの数)が2つである例について示しているが,前述したように(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
前記分離演算処理部11は,前記副マイクロホン31,32それぞれを構成する複数のマイクロホン(31a,31b)又は(32a,32b)各々を通じて逐次入力される各混合音声信号xiに対し,分離行列Wを用いた行列演算を施すことにより音源信号(ここでは,目的音の信号とその他の雑音の信号)各々に対応する2つの分離信号y1,y2を逐次生成しつつ,分離信号y1,y2を出力する音源分離処理を実行するものである。前記マイクロホン(31a,31b)又は(32a,32b)は,その一方(マイクロホン31a,32a)が話者1以外の方向に向けられ,他方(マイクロホン31b,32b)が話者1側に向けられている。
前記学習演算部12は,予め定められた時間長分の2つの混合音声信号x1,x2を用いて,ICA−BSS音源分離処理における分離行列Wの学習計算を行うことにより,前記分離演算処理部11で用いられる分離行列Wを順次算出するものである。
ここで,前記学習演算部12による分離行列算出(学習計算),及びその分離行列に基づいて前記分離演算処理部11により実行される音源分離の処理(行列演算処理)は,例えば,図3に示したTDICA方式に基づく音源分離装置Z1や,図4に示したFDICA方式に基づく分離行列の更新処理及び分離演算処理等が採用される。なお,図3,図4に示した分離演算処理部11t,11fが,図2における前記分離演算処理部11に相当する。
ここで,図3及び図4に示す1番目のマイクロホン111が,話者1以外の方向(雑音音源の方向)に向けられたマイクロホン31a又は32aであるとすれば,前記分離演算処理部11は,1番目のマイクロホン111に対応する(即ち,混合音声信号x1に対応する)分離信号y1を前記副音響信号Sg21,Sg22として出力する。
前記雑音信号分離生成部10により,前記目的音の信号成分の大部分が除去された前記副音響信号Sg2iが得られるので,その副音響信号Sg2iに基づき生成される前記雑音信号Sgnにも前記目的音の信号成分がほとんど含まれない。その結果,前記目的音抽出部7によって前記主音響信号Sg1から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
前記分離演算処理部11は,前記副マイクロホン31,32それぞれを構成する複数のマイクロホン(31a,31b)又は(32a,32b)各々を通じて逐次入力される各混合音声信号xiに対し,分離行列Wを用いた行列演算を施すことにより音源信号(ここでは,目的音の信号とその他の雑音の信号)各々に対応する2つの分離信号y1,y2を逐次生成しつつ,分離信号y1,y2を出力する音源分離処理を実行するものである。前記マイクロホン(31a,31b)又は(32a,32b)は,その一方(マイクロホン31a,32a)が話者1以外の方向に向けられ,他方(マイクロホン31b,32b)が話者1側に向けられている。
前記学習演算部12は,予め定められた時間長分の2つの混合音声信号x1,x2を用いて,ICA−BSS音源分離処理における分離行列Wの学習計算を行うことにより,前記分離演算処理部11で用いられる分離行列Wを順次算出するものである。
ここで,前記学習演算部12による分離行列算出(学習計算),及びその分離行列に基づいて前記分離演算処理部11により実行される音源分離の処理(行列演算処理)は,例えば,図3に示したTDICA方式に基づく音源分離装置Z1や,図4に示したFDICA方式に基づく分離行列の更新処理及び分離演算処理等が採用される。なお,図3,図4に示した分離演算処理部11t,11fが,図2における前記分離演算処理部11に相当する。
ここで,図3及び図4に示す1番目のマイクロホン111が,話者1以外の方向(雑音音源の方向)に向けられたマイクロホン31a又は32aであるとすれば,前記分離演算処理部11は,1番目のマイクロホン111に対応する(即ち,混合音声信号x1に対応する)分離信号y1を前記副音響信号Sg21,Sg22として出力する。
前記雑音信号分離生成部10により,前記目的音の信号成分の大部分が除去された前記副音響信号Sg2iが得られるので,その副音響信号Sg2iに基づき生成される前記雑音信号Sgnにも前記目的音の信号成分がほとんど含まれない。その結果,前記目的音抽出部7によって前記主音響信号Sg1から前記目的音の信号成分が雑音成分として誤って除去されることを防止できる。
次に,前記音源位置検出部5’について説明する。
前記音源位置検出部5’(前記音源位置検出手段の一例)は,前記雑音信号分離生成部10によるICA−BSS方式の音源分離処理において前記学習演算部12が実行する学習計算によって算出される分離行列Wに基づいて,前記副マイクロホン31,32それぞれに対する話者1(目的音源)の存在する方向θo1,θo2(以下,話者方向という)を検出(推定)するするDOA推定処理を実行する(前記目的音源方向検出手段の一例)。さらに,前記音源位置検出部5’は,その検出結果である話者方向θo1,θo2と前記副マイクロホン31,32それぞれの既知の位置関係とに基づいて,前記副マイクロホン31,32それぞれに対する話者1の位置(方向及び距離)を算出(検出)する処理を実行する。
例えば,図2に示すように,前記副マイクロホン30を構成する全てのマイクロホンが直線上に配置され,前記音源位置検出部5’が,前記副マイクロホン31,32それぞれについて,2つのマイクロホン(31a,31b)又は(32a,32b)の中間点においてそれらマイクロホンの配列方向に直交する方向(以下,正面方向という)に対する話者1が存在する方向の角度を前記話者方向θo1,θo2として検出する。
さらに,前記音源位置検出部5’は,前記話者方向θo1,θo2と2組の前記副マイクロホン31,32相互間の距離(既知の距離)とに基づく三角関数計算を行うことによって前記音源距離Lo1,Lo2を算出(検出)する。
これにより,前記雑音信号分離生成部10の処理結果(分離行列W)を有効活用してその処理結果に基づく情報処理を行うことにより,前記音源位置の検出手段を簡易に実現できる。
前記音源位置検出部5’(前記音源位置検出手段の一例)は,前記雑音信号分離生成部10によるICA−BSS方式の音源分離処理において前記学習演算部12が実行する学習計算によって算出される分離行列Wに基づいて,前記副マイクロホン31,32それぞれに対する話者1(目的音源)の存在する方向θo1,θo2(以下,話者方向という)を検出(推定)するするDOA推定処理を実行する(前記目的音源方向検出手段の一例)。さらに,前記音源位置検出部5’は,その検出結果である話者方向θo1,θo2と前記副マイクロホン31,32それぞれの既知の位置関係とに基づいて,前記副マイクロホン31,32それぞれに対する話者1の位置(方向及び距離)を算出(検出)する処理を実行する。
例えば,図2に示すように,前記副マイクロホン30を構成する全てのマイクロホンが直線上に配置され,前記音源位置検出部5’が,前記副マイクロホン31,32それぞれについて,2つのマイクロホン(31a,31b)又は(32a,32b)の中間点においてそれらマイクロホンの配列方向に直交する方向(以下,正面方向という)に対する話者1が存在する方向の角度を前記話者方向θo1,θo2として検出する。
さらに,前記音源位置検出部5’は,前記話者方向θo1,θo2と2組の前記副マイクロホン31,32相互間の距離(既知の距離)とに基づく三角関数計算を行うことによって前記音源距離Lo1,Lo2を算出(検出)する。
これにより,前記雑音信号分離生成部10の処理結果(分離行列W)を有効活用してその処理結果に基づく情報処理を行うことにより,前記音源位置の検出手段を簡易に実現できる。
以下,前記音源位置検出部5’が実行する処理の内容について説明する。
前記音源位置検出部5’は,前記雑音信号分離生成部10において前記学習演算部12の学習計算によって算出される分離行列Wを取得し,その分離行列Wに基づいて,音響空間に存在する複数の音源である話者1及びその他の雑音音源の存在する方向(音源方向θ1,θ2という)それぞれを推定するDOA推定計算を実行するものである。
ここで,音源方向θ1,θ2は,直線上に配列された複数のマイクロホンの中間位置から,マイクロホンの配列方向に直交する方向に対する相対角度である。なお,マイクロホンの数をK個,各マイクロホンの座標(配列方向の座標)をd1〜dKとする。
前記音源位置検出部5’は,例えば,前記非特許文献4や非特許文献5に示されるDOA推定処理を実行することにより,前記音源方向θ1,θ2を推定(算出)する。より具体的には,前記分離行列Wにステアリングベクトルを乗じることによって音源方向θ1,θ2(DOA)を推定する。
前記音源位置検出部5’は,前記雑音信号分離生成部10において前記学習演算部12の学習計算によって算出される分離行列Wを取得し,その分離行列Wに基づいて,音響空間に存在する複数の音源である話者1及びその他の雑音音源の存在する方向(音源方向θ1,θ2という)それぞれを推定するDOA推定計算を実行するものである。
ここで,音源方向θ1,θ2は,直線上に配列された複数のマイクロホンの中間位置から,マイクロホンの配列方向に直交する方向に対する相対角度である。なお,マイクロホンの数をK個,各マイクロホンの座標(配列方向の座標)をd1〜dKとする。
前記音源位置検出部5’は,例えば,前記非特許文献4や非特許文献5に示されるDOA推定処理を実行することにより,前記音源方向θ1,θ2を推定(算出)する。より具体的には,前記分離行列Wにステアリングベクトルを乗じることによって音源方向θ1,θ2(DOA)を推定する。
以下,前記非特許文献4や非特許文献5に示されるDOA推定処理(以下,死角特性に基づくDOA推定処理という)について説明する。
ICA法による音源分離処理は,空間的死角フィルタを表す行列(分離行列)を学習演算によって算出し,その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくDOA推定処理は,前記分離行列が表す空間的死角角度を周波数ビンごとに計算し,その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向(角度)を推定する。
例えば,2つの音源の音を2つのマイクロホンで集音する音源分離装置において,前記死角特性に基づくDOA推定処理は,以下に示す計算を実行する。なお,以下の説明において,添字のkはマイクロホンの識別番号(k=1,2),添字のlは音源の識別番号(l=1,2),fは周波数ビン,fの添字mは周波数ビンの識別番号(m=1,2),Wlk(f)は前記FDICA法に基づくBSS方式の音源分離処理(前記音源分離装置Z2の処理)における学習計算により得られた分離行列,cは音速,dk(d1又はd2)は2つのマイクロホンの中間位置から各マイクロホンまでの距離(マイクロホン相互間の距離の二分の一,即ち,d1=d2),θ1及びθ2は2つの音源それぞれの音源方向(DOA)である。
まず,次の(8)式により,l=1の場合及びl=2の場合の音源角度情報Fl(f,θ)を,分離フィルタの各周波数ビンごとに算出する。
さらに,次の(9)式及び(10)式により周波数ビンごとのDOA(角度)θ1(fm)及びθ2(fm)を求める。
そして,周波数ビンごとに計算されたθ1(fm)について,全周波数ビンの範囲で平均値を計算し,その平均値を一方の音源の方向θ1とする。同様に,周波数ビンごとに計算されたθ2(fm)について,全周波数ビンの範囲で平均値を計算し,その平均値を他方の音源の方向θ2とする。
ここで,2番目のマイクロホン(座標d2)が,話者1側に向けられたマイクロホン31b又は32bであるとすれば,前記音源位置検出部5’は,音源方向θ2を前記話者方向θo1,θo2として検出する。
以上に示した目的音抽出装置X2も,前記目的音抽出装置X1と同様の作用効果を奏する。
ICA法による音源分離処理は,空間的死角フィルタを表す行列(分離行列)を学習演算によって算出し,その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくDOA推定処理は,前記分離行列が表す空間的死角角度を周波数ビンごとに計算し,その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向(角度)を推定する。
例えば,2つの音源の音を2つのマイクロホンで集音する音源分離装置において,前記死角特性に基づくDOA推定処理は,以下に示す計算を実行する。なお,以下の説明において,添字のkはマイクロホンの識別番号(k=1,2),添字のlは音源の識別番号(l=1,2),fは周波数ビン,fの添字mは周波数ビンの識別番号(m=1,2),Wlk(f)は前記FDICA法に基づくBSS方式の音源分離処理(前記音源分離装置Z2の処理)における学習計算により得られた分離行列,cは音速,dk(d1又はd2)は2つのマイクロホンの中間位置から各マイクロホンまでの距離(マイクロホン相互間の距離の二分の一,即ち,d1=d2),θ1及びθ2は2つの音源それぞれの音源方向(DOA)である。
まず,次の(8)式により,l=1の場合及びl=2の場合の音源角度情報Fl(f,θ)を,分離フィルタの各周波数ビンごとに算出する。
ここで,2番目のマイクロホン(座標d2)が,話者1側に向けられたマイクロホン31b又は32bであるとすれば,前記音源位置検出部5’は,音源方向θ2を前記話者方向θo1,θo2として検出する。
以上に示した目的音抽出装置X2も,前記目的音抽出装置X1と同様の作用効果を奏する。
ところで,前記DOA推定処理を実行するには,周波数領域の分離行列W(f)が必要である。この点,前記雑音信号分離生成部10として前記音源分離装置Z2を採用した場合,得られる分離行列は周波数領域の分離行列W(f)であり問題はない。
一方,前記雑音信号分離生成部10として前記音源分離装置Z1を採用した場合,得られる分離行列は時間領域の分離行列W(t)である。そこで,前記雑音信号分離生成部10として前記音源分離装置Z1を採用した場合,前記目的音抽出装置X2には,前記雑音信号分離生成部10における学習計算により得られる時間領域の分離行列W(t)を周波数領域の分離行列W(f)に変換する短時間離散フーリエ変換処理部(不図示)が設けられる。この短時間離散フーリエ変換処理部から出力される分離行列W(f)が,前記音源位置検出部5’に入力される。
また,前記雑音信号生成部6は,時間領域の前記副音響信号Sg21,Sg22について前記重み付け合成処理を行う。この点,前記雑音信号分離生成部10として前記音源分離装置Z1を採用した場合,得られる前記副音響信号Sg21,Sg22は時間領域の信号であるので問題はない。
一方,前記雑音信号分離生成部10として前記音源分離装置Z2を採用した場合に得られる分離信号y1,y2は周波数領域の信号である。そこで,前記雑音信号分離生成部10として前記音源分離装置Z2を採用した場合,前記目的音抽出装置X2には,前記雑音信号分離生成部10における分離演算処理(フィルタ処理)によって得られる分離信号y1を時間領域の信号(前記副音響信号Sg21,Sg22)に変換する逆フーリエ変換処理部(不図示)が設けられる。この逆フーリエ変換処理部により出力される前記副音響信号Sg21,Sg22が,前記雑音信号生成部6に入力される。
一方,前記雑音信号分離生成部10として前記音源分離装置Z1を採用した場合,得られる分離行列は時間領域の分離行列W(t)である。そこで,前記雑音信号分離生成部10として前記音源分離装置Z1を採用した場合,前記目的音抽出装置X2には,前記雑音信号分離生成部10における学習計算により得られる時間領域の分離行列W(t)を周波数領域の分離行列W(f)に変換する短時間離散フーリエ変換処理部(不図示)が設けられる。この短時間離散フーリエ変換処理部から出力される分離行列W(f)が,前記音源位置検出部5’に入力される。
また,前記雑音信号生成部6は,時間領域の前記副音響信号Sg21,Sg22について前記重み付け合成処理を行う。この点,前記雑音信号分離生成部10として前記音源分離装置Z1を採用した場合,得られる前記副音響信号Sg21,Sg22は時間領域の信号であるので問題はない。
一方,前記雑音信号分離生成部10として前記音源分離装置Z2を採用した場合に得られる分離信号y1,y2は周波数領域の信号である。そこで,前記雑音信号分離生成部10として前記音源分離装置Z2を採用した場合,前記目的音抽出装置X2には,前記雑音信号分離生成部10における分離演算処理(フィルタ処理)によって得られる分離信号y1を時間領域の信号(前記副音響信号Sg21,Sg22)に変換する逆フーリエ変換処理部(不図示)が設けられる。この逆フーリエ変換処理部により出力される前記副音響信号Sg21,Sg22が,前記雑音信号生成部6に入力される。
ところで,複数の前記副マイクロホン30それぞれに対する話者1(目的音源)の位置としては,例えば,前記音源距離Lo1,Lo2のみ又は前記話者方向θo1,θo2のみ,或いは前記音源距離Lo1,Lo2及び前記話者方向θo1,θo2の両方を特定する位置(二次元座標もしくは三次元座標における位置)等のいずれかが考えられる。
例えば,前記副マイクロホン30が指向性を有する場合,目的音の混入度合いは,前記音源距離Lo1,Lo2だけではなく,前記話者方向θo1,θo2も大きく影響する。その影響を前記重み付け合成処理に反映するため,例えば,前記雑音信号生成部6が,例えば以下のような処理を実行することが考えられる。
即ち,前記副マイクロホン31,32それぞれについて,2次元又は3次元のゲイン分布の情報を予めROM等の記憶手段に記憶させておく。そして,前記雑音信号生成部6が,前記音源位置検出部5’によって検出(算出)された話者1の位置と前記ゲイン分布の情報とに基づいて前記副マイクロホン31,32それぞれにおける目的音の収音ゲインを特定し,特定した収音ゲインに基づいて前記副音響信号Sg21,Sg22それぞれの重み係数を算出し,その重み係数に基づいて前記重み付け合成処理を実行することが考えられる。
例えば,前記副マイクロホン30が指向性を有する場合,目的音の混入度合いは,前記音源距離Lo1,Lo2だけではなく,前記話者方向θo1,θo2も大きく影響する。その影響を前記重み付け合成処理に反映するため,例えば,前記雑音信号生成部6が,例えば以下のような処理を実行することが考えられる。
即ち,前記副マイクロホン31,32それぞれについて,2次元又は3次元のゲイン分布の情報を予めROM等の記憶手段に記憶させておく。そして,前記雑音信号生成部6が,前記音源位置検出部5’によって検出(算出)された話者1の位置と前記ゲイン分布の情報とに基づいて前記副マイクロホン31,32それぞれにおける目的音の収音ゲインを特定し,特定した収音ゲインに基づいて前記副音響信号Sg21,Sg22それぞれの重み係数を算出し,その重み係数に基づいて前記重み付け合成処理を実行することが考えられる。
本発明は,目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。
X1,X2:本発明の実施形態に係る目的音抽出装置
1 :話者(音源)
2 :音源
4 :A/Dコンバータ
5’:音源位置検出部
6 :雑音信号生成部
7 :目的音抽出部
10:雑音信号分離生成部
20:主マイクロホン
30(31,32):副マイクロホン
51,52:測距センサ
1 :話者(音源)
2 :音源
4 :A/Dコンバータ
5’:音源位置検出部
6 :雑音信号生成部
7 :目的音抽出部
10:雑音信号分離生成部
20:主マイクロホン
30(31,32):副マイクロホン
51,52:測距センサ
Claims (7)
- 所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であって,
前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出手段と,
前記音源位置検出手段の検出結果に基づいて,前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成手段と,
前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理手段と,
を具備してなることを特徴とする目的音抽出装置。 - 前記音源位置検出手段が,前記複数の副マイクロホンそれぞれに対する前記目的音源の距離を検出し,
前記雑音信号生成手段が,前記音源位置検出手段により検出された距離に基づいて前記複数の副音響信号について重み付け合成処理を実行してなる請求項1に記載の目的音抽出装置。 - 前記副マイクロホンそれぞれについて,該副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離手段を具備してなる請求項1又は2のいずれかに記載の目的音抽出装置。
- 前記音源位置検出手段が,前記雑音分離手段による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記副マイクロホンそれぞれに対する前記目的音源の存在する方向を検出する目的音源方向検出手段を具備してなる請求項3に記載の目的音抽出装置。
- 所定の目的音源から出力される目的音を主に入力する予め定められた主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる複数の位置それぞれに配置された又は前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって,
コンピュータに,
前記複数の副マイクロホンそれぞれに対する前記目的音源の位置の検出結果に基づいて,前記複数の副音響信号について重み付け合成処理を行うことによって雑音信号を生成する雑音信号生成処理と,
前記主音響信号及び前記雑音信号それぞれの時系列特徴ベクトルの減算処理によって前記目的音に相当する音響信号を抽出して抽出信号を出力する2入力サブトラクション処理と,
を実行させてなることを特徴とする目的音抽出プログラム。 - コンピュータに,
前記副マイクロホンそれぞれについて,該副マイクロホンを構成する複数のマイクロホンを通じて入力される複数の音響信号に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記目的音以外の雑音に対応する前記副音響信号を分離生成する雑音分離処理をさらに実行させてなる請求項5に記載の目的音抽出プログラム。 - コンピュータに,
前記雑音分離処理による前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記副マイクロホンそれぞれに対する前記目的音源の存在する方向である目的音源方向を検出することにより,前記複数の副マイクロホンそれぞれに対する前記目的音源の位置を検出する音源位置検出処理をさらに実行させてなる請求項6に記載の目的音抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007069545A JP2008236077A (ja) | 2007-03-16 | 2007-03-16 | 目的音抽出装置,目的音抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007069545A JP2008236077A (ja) | 2007-03-16 | 2007-03-16 | 目的音抽出装置,目的音抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008236077A true JP2008236077A (ja) | 2008-10-02 |
Family
ID=39908378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007069545A Pending JP2008236077A (ja) | 2007-03-16 | 2007-03-16 | 目的音抽出装置,目的音抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008236077A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100040664A (ko) * | 2008-10-10 | 2010-04-20 | 삼성전자주식회사 | 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치 |
JP2010112995A (ja) * | 2008-11-04 | 2010-05-20 | Sony Corp | 通話音声処理装置、通話音声処理方法およびプログラム |
JP2013229899A (ja) * | 2013-06-10 | 2013-11-07 | Nec Casio Mobile Communications Ltd | 音データ処理装置 |
US8885847B2 (en) | 2011-10-07 | 2014-11-11 | Denso Corporation | Vehicular apparatus |
CN104157294A (zh) * | 2014-08-27 | 2014-11-19 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
KR101942506B1 (ko) * | 2018-07-16 | 2019-01-28 | 주식회사 프린트플랜 | 음원 보조 인식 장치 |
JP2019211685A (ja) * | 2018-06-07 | 2019-12-12 | 日本電信電話株式会社 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
JP2019537071A (ja) * | 2017-09-25 | 2019-12-19 | ボーズ・コーポレーションBosecorporation | 分散したマイクロホンからの音声の処理 |
CN111435598A (zh) * | 2019-01-15 | 2020-07-21 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
JP2021513264A (ja) * | 2018-02-06 | 2021-05-20 | 株式会社ソニー・インタラクティブエンタテインメント | スピーカシステムにおける音の定位 |
CN112859001A (zh) * | 2021-01-25 | 2021-05-28 | 恒大新能源汽车投资控股集团有限公司 | 车辆位置检测方法、装置、设备及存储介质 |
CN113326899A (zh) * | 2021-06-29 | 2021-08-31 | 西藏新好科技有限公司 | 一种基于深度学习模型的仔猪被压检测方法 |
CN118522285A (zh) * | 2024-07-25 | 2024-08-20 | 辽宁汉华信息工程有限公司 | 一种用于ai智能体的交互用户语音识别方法 |
-
2007
- 2007-03-16 JP JP2007069545A patent/JP2008236077A/ja active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159335B2 (en) | 2008-10-10 | 2015-10-13 | Samsung Electronics Co., Ltd. | Apparatus and method for noise estimation, and noise reduction apparatus employing the same |
KR101597752B1 (ko) * | 2008-10-10 | 2016-02-24 | 삼성전자주식회사 | 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치 |
KR20100040664A (ko) * | 2008-10-10 | 2010-04-20 | 삼성전자주식회사 | 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치 |
JP2010112995A (ja) * | 2008-11-04 | 2010-05-20 | Sony Corp | 通話音声処理装置、通話音声処理方法およびプログラム |
US8885847B2 (en) | 2011-10-07 | 2014-11-11 | Denso Corporation | Vehicular apparatus |
JP2013229899A (ja) * | 2013-06-10 | 2013-11-07 | Nec Casio Mobile Communications Ltd | 音データ処理装置 |
CN104157294A (zh) * | 2014-08-27 | 2014-11-19 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
JP2019537071A (ja) * | 2017-09-25 | 2019-12-19 | ボーズ・コーポレーションBosecorporation | 分散したマイクロホンからの音声の処理 |
JP2021513264A (ja) * | 2018-02-06 | 2021-05-20 | 株式会社ソニー・インタラクティブエンタテインメント | スピーカシステムにおける音の定位 |
WO2019235194A1 (ja) * | 2018-06-07 | 2019-12-12 | 日本電信電話株式会社 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
JP2019211685A (ja) * | 2018-06-07 | 2019-12-12 | 日本電信電話株式会社 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
JP7024615B2 (ja) | 2018-06-07 | 2022-02-24 | 日本電信電話株式会社 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
KR101942506B1 (ko) * | 2018-07-16 | 2019-01-28 | 주식회사 프린트플랜 | 음원 보조 인식 장치 |
CN111435598A (zh) * | 2019-01-15 | 2020-07-21 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
CN111435598B (zh) * | 2019-01-15 | 2023-08-18 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
US11817112B2 (en) | 2019-01-15 | 2023-11-14 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method, device, computer readable storage medium and electronic apparatus for speech signal processing |
CN112859001A (zh) * | 2021-01-25 | 2021-05-28 | 恒大新能源汽车投资控股集团有限公司 | 车辆位置检测方法、装置、设备及存储介质 |
CN113326899A (zh) * | 2021-06-29 | 2021-08-31 | 西藏新好科技有限公司 | 一种基于深度学习模型的仔猪被压检测方法 |
CN118522285A (zh) * | 2024-07-25 | 2024-08-20 | 辽宁汉华信息工程有限公司 | 一种用于ai智能体的交互用户语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
EP2845191B1 (en) | Systems and methods for source signal separation | |
TWI530201B (zh) | 經由自抵達方向估值提取幾何資訊之聲音擷取技術 | |
KR101415026B1 (ko) | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 | |
US9042573B2 (en) | Processing signals | |
JP5229053B2 (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
KR101456866B1 (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
US8654990B2 (en) | Multiple microphone based directional sound filter | |
JP5305743B2 (ja) | 音響処理装置及びその方法 | |
KR20130116299A (ko) | 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 | |
JP6065028B2 (ja) | 収音装置、プログラム及び方法 | |
JP6591477B2 (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
US9549274B2 (en) | Sound processing apparatus, sound processing method, and sound processing program | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
CN112216295A (zh) | 一种声源定位方法、装置及设备 | |
JP4519901B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP5294603B2 (ja) | 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体 | |
JP4336378B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
Padois et al. | On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps | |
JP2009134102A (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
WO2020250797A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2007006253A (ja) | 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム | |
JP4652191B2 (ja) | 複数音源の分離方法 | |
JP5251473B2 (ja) | 音声処理装置、及び、音声処理方法 | |
JP6065029B2 (ja) | 収音装置、プログラム及び方法 |