[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5277887B2 - 信号処理装置およびプログラム - Google Patents

信号処理装置およびプログラム Download PDF

Info

Publication number
JP5277887B2
JP5277887B2 JP2008292169A JP2008292169A JP5277887B2 JP 5277887 B2 JP5277887 B2 JP 5277887B2 JP 2008292169 A JP2008292169 A JP 2008292169A JP 2008292169 A JP2008292169 A JP 2008292169A JP 5277887 B2 JP5277887 B2 JP 5277887B2
Authority
JP
Japan
Prior art keywords
frequency
frequencies
unit
selection
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008292169A
Other languages
English (en)
Other versions
JP2010117653A (ja
Inventor
誠 山田
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008292169A priority Critical patent/JP5277887B2/ja
Priority to US12/617,605 priority patent/US9123348B2/en
Priority to EP09014232.4A priority patent/EP2187389B1/en
Publication of JP2010117653A publication Critical patent/JP2010117653A/ja
Application granted granted Critical
Publication of JP5277887B2 publication Critical patent/JP5277887B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、複数音の混合音のうち特定の音を強調(典型的には分離ないし抽出)または抑制する技術に関する。
別個の音源から放射された複数音(音声や雑音)の混合音を複数の収音機器で収音した複数の観測信号に音源分離を実行することで、各音源からの音が個別に強調または抑制される。観測信号の音源分離に使用される分離行列の算定には独立成分分析(ICA(independent component analysis))による学習が利用される。
例えば特許文献1には、周波数領域の独立成分分析(FDICA(frequency-domain independent component analysis))を利用して複数の周波数(帯域)の各々の分離行列を学習する技術が開示されている。すなわち、各観測信号から抽出された周波数毎の観測ベクトルの時系列に当該周波数の暫定的な分離行列を乗算することで音源分離を実行し、音源分離後の各信号の統計的な独立性が最大化されるように分離行列が反復的に更新される。特許文献1には、学習の過程で分離精度の変化が少ない周波数を以後の学習の対象から除外する(すなわち学習を終了する)ことで演算量を削減する技術が開示されている。
特開2006−84898号公報
しかし、周波数領域の独立成分分析においては、複数の周波数の各々について観測ベクトルの時系列を記憶する大容量の記憶装置が必要である。特許文献1の技術においては、分離精度の変化が少ない周波数の学習行列について学習を終了することで演算量は削減されるが、学習の開始の当初には総ての周波数について分離行列の学習が実行されるから、観測ベクトルの時系列を総ての周波数について記憶する大容量の記憶装置が必要である。以上の事情を考慮して、本発明は、分離行列の生成(学習)に必要な記憶容量を削減することを目的とする。
以上の課題を解決するために、本発明に係る信号処理装置は、複数音(音声や雑音(非音声)などの音響)の混合音を複数の収音機器で収音した複数の観測信号の各々における各周波数での強度(振幅またはパワー)の時系列を示す観測データを複数の周波数の各々について記憶する記憶手段と、各周波数の観測データを使用した分離行列の学習の有意性の指標値を当該観測データから複数の周波数の各々について算定する指標算定手段と、指標算定手段が算定した各周波数の指標値に応じて複数の周波数のうち少なくともひとつの周波数を選択する周波数選択手段と、記憶手段に記憶された複数の観測データのうち周波数選択手段が選択した周波数の観測データを使用した初期分離行列の学習で当該周波数の分離行列を決定する学習処理手段とを具備する。以上の構成においては、観測データを利用した学習の有意性が高い周波数のみについて選択的に分離行列の学習が実行されるから、非選択の周波数の観測データは学習処理部による学習に不要である。したがって、各周波数の分離行列の生成に必要な記憶手段の容量や学習処理部による処理量が低減されるという利点がある。
分離行列の学習は、独立な基底を音源の個数だけ特定する処理と等価であるから、複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの分布における基底の総数は、観測データを利用した学習の有意性の指標として好適に利用される。そこで、本発明の好適な態様における指標算定手段は、複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの分布における基底の総数の指標値を算定し、周波数選択手段は、指標値が示す基底の総数が多い周波数を選択する。基底の総数の指標値としては、例えば、観測ベクトルの共分散行列の行列式や条件数が好適に採用される。共分散行列の行列式を利用する構成において、指標算定手段は、例えば、観測ベクトルの共分散行列の特異値分解で特定される特異値行列の複数の対角成分のうち第1個数(例えばn個)の対角成分を乗算した第1行列式と、複数の対角成分のうち第1個数よりも少ない第2個数(例えば(n−1)個)の対角成分を乗算した第2行列式とを算定し、周波数選択手段は、第1行列式を利用した周波数の選択と、第2行列式を利用した周波数の選択とを順次に実行する。
また、複数の観測信号の相互間の独立性が高い(相関が低い)ほど、観測データを利用した学習の有意性は高いという傾向がある。そこで、本発明の好適な態様に係る指標算定手段は、複数の観測信号の相互間の独立性の指標値を算定し、周波数選択手段は、指標値が示す独立性が高い周波数を選択する。複数の観測信号の相互間の独立性の指標値としては、例えば、相互相関や相互情報量が好適に採用される。
観測ベクトルの共分散行列のトレース(パワー)が大きいほど観測ベクトルの分布領域(基底)が音源毎に明確に特定されるという傾向を考慮すると、複数の観測信号の共分散行列のトレースが大きい周波数を選択する構成が好適である。また、観測信号の強度の度数分布における尖度が低いほど観測信号が多くの音源からの音を含むという傾向を考慮すると、観測信号の強度の度数分布における尖度が低い周波数を選択する構成が好適である。
複数の周波数の各々について初期分離行列を生成する初期値生成手段を具備する態様の具体例において、学習処理手段は、周波数選択手段が選択した周波数の初期分離行列を初期値とした学習で当該周波数の分離行列を生成し、周波数選択手段が選択しなかった周波数の初期分離行列を当該周波数の分離行列とする。以上の構成によれば、非選択の周波数の分離行列を簡便に用意することが可能である。
もっとも、初期分離行列が適切でない場合、分離行列を適用した音源分離の精度が低下する可能性がある。そこで、本発明の好適な態様に係る信号処理装置は、学習処理手段が生成した分離行列から複数音の各々の音源の方向を推定する方向推定手段と、周波数選択手段が選択しなかった周波数の分離行列を、方向推定手段が推定した方向から生成する行列補充手段とを具備する。以上の態様においては、学習処理部による学習後の分離行列から非選択周波数の分離行列が生成(補充)されるから、非選択周波数についても高精度な音源分離が実現されるという利点がある。ただし、低域側の周波数や高域側の周波数の分離行列から各音源の方向を高精度に推定することは困難である。したがって、複数の周波数のうち低域側の周波数および高域側の周波数の少なくとも一方を除外した周波数の分離行列から方向推定手段が複数音の各々の音源の方向を推定する構成が好適である。
本発明の好適な態様において、前記指標算定手段は、前記複数の周波数の各々の指標値を単位区間毎に順次に算定し、前記周波数選択手段は、前記複数の周波数の各々の選択/非選択を各単位区間の指標値に応じて単位区間毎に順次に判別する第1選択手段と、複数の単位区間にわたる前記第1選択手段の判別の結果から前記少なくともひとつの周波数を選択する第2選択手段とを含む。以上の態様においては、複数の単位区間にわたる第1選択手段の判別の結果から周波数が選択されるから、1個の単位区間の指標値のみから周波数を選択する構成と比較すると、観測データが変化し易い場合(例えば雑音が多い場合)であっても周波数の選択/非選択が安定的に判別される。したがって、分離行列が高精度に学習されるという利点がある。
さらに好適な態様において、前記第1選択手段は、前記複数の周波数の各々について選択/非選択を示す数値列を単位区間毎に順次に生成し、前記第2選択手段は、前記複数の単位区間の各々の数値列の加重和から前記少なくともひとつの周波数を選択する。以上の態様においては、複数の単位区間の各々の数値列の加重和から周波数が選択されるから、複数の単位区間のうち特定の単位区間の指標値(周波数の選択/非選択の判別の結果)を優先的に考慮して周波数の選択/非選択を判別できるという利点がある。
以上の各態様に係る信号処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数音の混合音を複数の収音機器で収音した複数の観測信号の各々における各周波数での強度の時系列を示す観測データを複数の周波数の各々について記憶する記憶手段を具備するコンピュータに、各周波数の観測データを使用した分離行列の学習の有意性の指標値を当該観測データから複数の周波数の各々について算定する指標算定処理と、指標算定処理で算定した各周波数の指標値に応じて複数の周波数のうち少なくともひとつの周波数を選択する周波数選択処理と、記憶手段に記憶された複数の観測データのうち周波数選択処理で選択した周波数の観測データを使用した初期分離行列の学習で当該周波数の分離行列を決定する学習処理処理とを実行させる。以上のプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る信号処理装置のブロック図である。相互に間隔をあけて平面PL内に配置されたn個の収音機器Mが信号処理装置100に接続される(nは2以上の自然数)。第1実施形態においては、収音機器M1および収音機器M2の2個が信号処理装置100に接続された場合(n=2)を想定する。収音機器M1および収音機器M2の周囲の相異なる位置にはn個の音源S(S1,S2)が存在する。音源S1は、平面PLの法線Lnに対して角度θ1の方向に位置し、音源S2は、法線Lnに対して角度θ2(θ2≠θ1)の方向に位置する。
音源S1から放射された音SV1と音源S2から放射された音SV2との混合音が収音機器M1および収音機器M2に到達する。収音機器M1および収音機器M2の各々は、音源S1からの音SV1と音源S2からの音SV2との混合音の波形を表す観測信号V(V1,V2)を生成するマイクロホンである。収音機器M1は観測信号V1を生成し、収音機器M2は観測信号V2を生成する。
信号処理装置100は、観測信号V1および観測信号V2にフィルタ処理(音源分離)を実行することで分離信号U1および分離信号U2を生成する。分離信号U1は、音源S1からの音SV1を強調した音響信号(音源S2からの音SV2を抑制した音響信号)であり、分離信号U2は、音SV2を強調した音響信号(音SV1を抑制した音響信号)である。すなわち、音源S1からの音SV1と音源S2からの音SV2とが分離(音源分離)される。
分離信号U1や分離信号U2は、放音機器(例えばスピーカやヘッドホン)に供給されることで音響として再生される。分離信号U1および分離信号U2の一方のみを再生する構成(例えば分離信号U2を雑音として破棄する構成)も採用される。なお、観測信号V1および観測信号V2をデジタル信号に変換するA/D変換器や、分離信号U1および分離信号U2をアナログ信号に変換するD/A変換器の図示は便宜的に省略されている。
図1に示すように、信号処理装置100は、演算処理装置12と記憶装置14とを含むコンピュータシステムで実現される。記憶装置14は、観測信号V1および観測信号V2から分離信号U1および分離信号U2を生成するためのプログラムや各種のデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置14として任意に採用される。
演算処理装置12は、記憶装置14に格納されたプログラムを実行することで複数の要素(周波数分析部22,信号処理部24,信号合成部26,分離行列生成部40)として機能する。なお、観測信号Vの処理に専用される電子回路(DSP)が演算処理装置12の各要素を実現する構成や、演算処理装置12の各要素を複数の集積回路に分散的に搭載した構成も採用される。
周波数分析部22は、観測信号V(V1,V2)を時間軸上で区分した複数のフレームの各々について周波数スペクトルQ(観測信号V1の周波数スペクトルQ1および観測信号V2の周波数スペクトルQ2)を算定する。周波数スペクトルQの算定には例えば短時間フーリエ変換が利用される。図2に示すように、番号(時刻)tで識別される1個のフレームの周波数スペクトルQ1は、周波数軸上に設定されたK個の周波数f1〜fKの各々における強度x1(t,f1)〜x1(t,fK)として算定される。同様に、周波数スペクトルQ2は、K個の周波数f1〜fKの各々における強度x2(t,f1)〜x2(t,fK)として算定される。
周波数分析部22は、K個の周波数f1〜fKについてフレーム毎に観測ベクトルX(t,f1)〜X(t,fK))を生成する。第k番目(k=1〜K)の周波数fkの観測ベクトルX(t,fk)は、図2に示すように、周波数スペクトルQ1のうち周波数fkでの強度x1(t,fk)と、共通のフレームの周波数スペクトルQ2のうち周波数fkでの強度x2(t,fk)とを要素とするベクトル(X(t,fk)=[x1(t,fk) x2(t,fk)である。記号*は複素共役を意味し、記号Hは行列の転置(エルミート転置)を意味する。周波数分析部22がフレーム毎に生成した観測ベクトルX(t,f1)〜X(t,fK)は記憶装置14に格納される。
記憶装置14に格納された観測ベクトルX(t,f1)〜X(t,fK)は、図2に示すように、所定個(例えば50個)のフレームで構成される単位区間TU毎に観測データD(f1)〜D(fK)に区分される。周波数fkの観測データD(fk)は、単位区間TU内の各フレームについて算定された周波数fkの観測ベクトルX(t,fk)の時系列である。
図1の信号処理部24は、周波数分析部22が算定した強度x1(t,fk)と強度x2(t,fk)とにフィルタ処理(音源分離)を実行することでフレーム毎に順次に強度u1(t,fk)および強度u2(t,fk)を生成する。信号合成部26は、信号処理部24が生成した強度u1(t,f1)〜u1(t,fK)を時間領域の信号に変換するとともに前後のフレームで連結して分離信号U1を生成する。同様に、信号合成部26は、強度u2(t,f1)〜u2(t,fK)を時間領域の信号に変換するとともに前後のフレームで連結して分離信号U2を生成する。
図3は、信号処理部24のブロック図である。図3に示すように、信号処理部24は、K個の周波数f1〜fKの各々に対応するK個の処理部P1〜PKで構成される。周波数fkに対応する処理部Pkは、強度x1(t,fk)および強度x2(t,fk)から強度u1(t,fk)を生成するフィルタ32と、強度x1(t,fk)および強度x2(t,fk)から強度u2(t,fk)を生成するフィルタ34とを含んで構成される。
フィルタ32およびフィルタ34には遅延加算型(DS(delay-sum)型)のビームフォーマが利用される。すなわち、処理部Pkのフィルタ32は、数式(1a)で定義されるように、係数w11(fk)に応じた遅延を強度x1(t,fk)に付加する遅延素子321と、係数w21(fk)に応じた遅延を強度x2(t,fk)に付加する遅延素子323と、遅延素子321の出力と遅延素子323の出力との加算で分離信号U1の強度u1(t,fk)を生成する加算部325とを含んで構成される。同様に、フィルタ34は、数式(1b)で定義されるように、係数w12(fk)に応じた遅延を強度x1(t,fk)に付加する遅延素子341と、係数w22(fk)に応じた遅延を強度x2(t,fk)に付加する遅延素子343と、遅延素子341の出力と遅延素子343の出力との加算で分離信号U2の強度u2(t,fk)を生成する加算部345とを含む
u1(t,fk)=w11(fk)・x1(t,fk)+w21(fk)・x2(t,fk) ……(1a)
u2(t,fk)=w12(fk)・x1(t,fk)+w22(fk)・x2(t,fk) ……(1b)
図1および図3の分離行列生成部40は、信号処理部24が使用する分離行列W(f1)〜W(fK)を生成する。周波数fkの分離行列W(fk)は、処理部Pkのフィルタ32に適用される係数w11(fk)および係数w21(fk)とフィルタ34に適用される係数w12(fk)および係数w22(fk)とを要素とする2行2列(n行n列)の行列である。分離行列生成部40は、記憶装置14に格納された観測データD(fk)から分離行列W(fk)を生成する。すなわち、分離行列W(fk)は、K個の周波数f1〜fKの各々について単位区間TU毎に生成される。
図4は、分離行列生成部40のブロック図である。図4に示すように、分離行列生成部40は、初期値生成部42と学習処理部44と指標算定部52と周波数選択部54とを含んで構成される。初期値生成部42は、K個の周波数f1〜fKの各々について初期的な分離行列(以下「初期分離行列」という)W0(f1)〜W0(fK)を生成する。周波数fkに対応する初期分離行列W0(fk)は、記憶装置14に格納された観測データD(fk)を利用して単位区間TU毎に生成される。初期分離行列W0(f1)〜W0(fK)の生成には公知の技術が任意に採用される。
例えば、K. Tachibana, et. al., "Efficient Blind Source Separation Combining Closed-Form Second Order ICA and Nonclosed-Form Higher-Order ICA," International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vol. 1, pp. 45-48, Apr. 2007に開示された主成分分析や2次統計量ICAなどの部分空間法、または、特許第3949074号公報に開示された適応型ビームフォーマが、初期分離行列W0(f1)〜W0(fK)の特定に好適に採用される。また、MUSIC(multiple signal classification)法や最小分散法で推定した各音源Sの方向から各種のビームフォーマ(例えば適応型ビームフォーマ)を利用して初期分離行列W0(f1)〜W0(fK)を特定する方法や、因子分析で特定した因子ベクトルや正準相関分析で特定した正準ベクトルから初期分離行列W0(f1)〜W0(fK)を特定する方法も採用される。
図4の学習処理部44は、K個の周波数f1〜fKの各々について、初期分離行列W0(fk)を初期値とした逐次的な学習で分離行列W(fk)(W(f1)〜W(fK))を生成する。分離行列W(fk)の学習には、記憶装置14に格納された周波数fkの観測データD(fk)が使用される。例えば、観測データD(fk)を分離行列W(fk)で分離した分離信号U1(数式(1a)の強度u1(t,fk)の時系列)と分離信号U2(数式(1b)の強度u2(t,fk)の時系列)とが統計的に相互に独立となるように分離行列W(fk)の更新を反復する独立成分分析(例えば高次ICA)が、分離行列W(fk)の生成に好適に採用される。
ところで、K種類の周波数f1〜fKについて学習処理部44が分離行列W(f1)〜W(fK)の学習を実行する構成では、最終的な分離行列W(f1)〜W(fK)の算定に必要な演算量や、学習の過程のデータの記憶に必要な記憶装置14の容量が過大となる可能性がある。そこで、第1実施形態においては、K個の周波数f1〜fKのうち、観測データD(fk)を使用した分離行列W(fk)の学習の有意性(すなわち、分離行列W(fk)の学習で音源分離の精度が初期分離行列W0(fk)から向上する度合)が高い1以上の周波数fkのみについて、観測データD(fk)を使用した分離行列W(fk)の学習を実行する。
図4の指標算定部52は、周波数fkの選択の基準となる指標値を算定する。第1実施形態の指標算定部52は、K個の周波数f1〜fKの各々について観測データD(fk)(観測信号V1および観測信号V2)の共分散行列Rxx(fk)の行列式z1(fk)(z1(f1)〜z1(fK))を算定する。図5に示すように、指標算定部52は、共分散行列算定部522と行列式算定部524とを含んで構成される。
共分散行列算定部522は、K個の周波数f1〜fKの各々について観測データD(fk)の共分散行列Rxx(fk)(Rxx(f1)〜Rxx(fK))を算定する。周波数fkの共分散行列Rxx(fk)は、観測データD(fk)内(単位区間TU内)の観測ベクトルX(t,fk)の共分散を要素とする行列である。したがって、共分散行列Rxx(fk)は例えば以下の数式(2)で定義される。ただし、以下の数式(3)のように、単位区間TU内の総てのフレームにわたる観測ベクトルX(t,fk)の加算を零行列と仮定した(ゼロ平均)。
Rxx(fk)=E[X(t,fk)X(t,fk)
=Σ_{t}X(t,fk)X(t,fk) ……(2)
E[X(t,fk)]=[E[x1(t,fk)] E[x2(t,fk)]]=[0 0] ……(3)
数式(2)や数式(3)における記号Eは期待値(加算値)を意味し、記号Σ_{t}は、単位区間TU内の複数(例えば50個)のフレームにわたる加算(平均)を意味する。すなわち、共分散行列Rxx(fk)は、観測ベクトルX(t,fk)と観測ベクトルX(t,fk)の転置との乗算を単位区間TU内(観測データD(fk)内)の複数の観測ベクトルX(t,fk)について加算したn行n列の行列である。
行列式算定部524は、共分散行列算定部522が算定したK個の共分散行列Rxx(f1)〜Rxx(fK)の各々について行列式z1(fk)(z1(f1)〜z1(fK))を算定する。行列式z1(fk)の算定には公知の方法が任意に採用されるが、例えば共分散行列Rxx(fk)の特異値分解を利用した以下の方法が好適に採用される。
共分散行列Rxx(fk)は以下の数式(4)のように特異値分解される。数式(4)における行列Fは、n行n列(本形態では2行2列)の直交行列であり、行列Dは、対角成分(d1,……,dn)以外がゼロとなるn行n列の特異値行列である。
Rxx(fk)=FDF ……(4)
したがって、共分散行列Rxx(fk)の行列式z1(fk)は、以下の数式(5)で表現される。数式(5)の導出には、行列Fの転置Fと行列Fとの乗算がn次の単位行列であるという関係(FF=I)や、行列ABの行列式det(AB)が行列BAの行列式det(BA)に等しいという関係を利用した。
z1(fk)=det(Rxx(fk))
=det(FDF)
=det(D)
=d1・d2・……・dn ……(5)
数式(5)から理解されるように、共分散行列Rxx(fk)の行列式z1(fk)は、共分散行列Rxx(fk)の特異値分解で特定される特異値行列Dのn個の対角成分(d1,……,dn)の乗算値に相当する。行列式算定部524は、K個の周波数f1〜fKの各々について数式(5)の演算を実行することで行列式z1(f1)〜z1(fK)を算定する。
図6は、単位区間TU内の各観測ベクトルX(t,fk)の散布図である。横軸は強度x1(t,fk)を意味し、縦軸は強度x2(t,fk)を意味する。図6の部分(A)は、行列式z1(fk)が大きい場合の散布図であり、図6の部分(B)は、行列式z1(fk)が小さい場合の散布図である。
図6の部分(A)のように共分散行列Rxx(fk)の行列式z1(fk)が大きい場合には、観測ベクトルX(t,fk)の分布する領域の軸線(基底)が音源S毎に明確に区別される。具体的には、音源S1からの音SV1が優勢な観測ベクトルX(t,fk)が軸線α1に沿って分布する領域A1と、音源S2からの音SV2が優勢な観測ベクトルX(t,fk)が軸線α2に沿って分布する領域A2とが明確に区別される。一方、共分散行列Rxx(fk)の行列式z1(fk)が小さい場合、散布図で明確に区別できる観測ベクトルX(t,fk)の分布の領域の個数(軸線の本数)が実際の音源Sの総数を下回る。例えば、図6の部分(B)のように、音源S2からの音SV2に対応する明確な領域A2(軸線α2)が存在しない。
以上の傾向から理解されるように、共分散行列Rxx(fk)の行列式z1(fk)は、観測データD(fk)を構成する各観測ベクトルX(t,fk)の分布における基底(観測ベクトルX(t,fk)が分布する領域の軸線)の総数の指標として機能する。すなわち、行列式z1(fk)が大きい周波数fkほど基底が多いという傾向がある。行列式z1(fk)がゼロとなる周波数fkには独立な基底が1個しか含まれない。
学習処理部44による分離行列W(fk)の学習に適用される独立成分分析は、独立な基底を音源Sの個数だけ特定する処理と等価であるから、K個の周波数f1〜fKのうち共分散行列Rxx(fk)の行列式z1(fk)が小さい周波数fkの観測データD(fk)については学習の有意性(分離行列W(fk)の学習で音源分離の精度が向上する度合)が低いと言える。すなわち、K個の周波数f1〜fKのうち行列式z1(fk)が大きい周波数fkのみについて学習処理部44による学習で分離行列W(fk)を生成した場合(行列式z1(fk)が小さい周波数fkについては例えば初期分離行列W0(fk)を分離行列W(fk)として使用した場合)でも、K個の周波数f1〜fKの総ての観測データD(f1)〜D(fK)について学習で分離行列W(f1)〜W(fK)を特定した場合と略同等の精度で音源分離を実行できる。つまり、周波数fkの観測データD(fk)を使用した分離行列W(fk)の学習の有意性の指標値として行列式z1(fk)を利用することが可能である。
以上の傾向を考慮して、図4の周波数選択部54は、指標算定部52の算定した行列式z1(fk)が大きい1個以上の周波数fkをK個の周波数f1〜fKのなかから選択する。例えば、周波数選択部54は、K個の周波数f1〜fKのうち行列式z1(f1)〜z1(fK)の降順(大きい方から小さい方に向かう順番)で上位に位置する所定個の周波数fkや、K個の周波数f1〜fKのうち行列式z1(fk)が所定の閾値を上回る1個以上の周波数fkを選択する。
図7は、周波数選択部54による選択と学習処理部44による学習との関係を説明するための概念図である。図7に示すように、学習処理部44は、周波数選択部54が選択した各周波数fk(図7における周波数f1,f2,……,fK-1)について、当該周波数fkの観測データD(fk)を利用した初期分離行列W0(fk)の逐次的な更新で分離行列W(fk)を生成する。一方、周波数選択部54が選択しなかった各周波数fk(図7における周波数f3,……fK)については、初期値生成部42が特定した初期分離行列W0(fk)が分離行列W(fk)として信号処理部24に設定される。
以上の形態においては、観測データD(fk)を使用した学習の有意性が高い周波数fkのみについて選択的に分離行列W(fk)の学習が実行されるから、周波数選択部54が選択しなかった周波数fkの観測データD(fk)は分離行列W(f1)〜W(fK)の生成(学習処理部44による学習)に不要である。したがって、分離行列W(f1)〜W(fK)の生成に必要な記憶装置14の容量が削減されるとともに学習処理部44による処理の負荷が軽減されるという利点がある。
図8は、学習処理部44による学習の対象とした周波数fkの個数(総数Kを512個とした場合)と、雑音抑圧率(NRR:noise reduction rate)および記憶装置14の容量との関係を示す図表である。記憶装置14の容量は、全周波数(f1〜f512)の観測データD(fk)を使用した学習に必要な容量を100%として表記されている。また、雑音抑圧率は、分離信号U1における音SV2の強度に対する音SV1の強度の比率(すなわち、音SV1を目的音として音SV2を雑音としたときのSN比)SNR_OUTと、観測信号V1における音SV2の強度に対する音SV1の強度の比率SNR_INとの差分である(NRR=SNR_OUT−SNR_IN)。したがって、雑音抑圧率が高いほど音源分離の精度が高い。
図8から理解されるように、学習の対象となる周波数fkの個数の変化に対する記憶装置14の容量の変化率は、周波数fkの個数の変化に対する雑音抑圧率の変化率と比較して充分に高い。例えば、学習の対象となる周波数fkの個数を512個から50個に変更した場合、記憶装置14の容量は90%も削減されるのに対して雑音抑圧率の低下は20%程度(14.37→11.5)である。つまり、K個の周波数f1〜fKのうち周波数選択部54が選択した周波数fkのみについて学習を実行する第1実施形態によれば、所期の雑音抑圧率を維持しながら(雑音抑圧率の大幅な低下を抑制しながら)、記憶装置14に必要となる容量(さらには演算処理装置12による処理量)を効果的に低減できる。以上の効果は、記憶装置14の容量や演算処理装置12の性能が制約される可搬型の電子機器(例えば携帯電話機)に信号処理装置100を搭載した場合に格別に有効である。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。第1実施形態においては2個の収音機器M(M1,M2)を利用したが、第2実施形態においては、3個以上の収音機器Mを利用して3個以上の音源からの音を分離する場合(n≧3)を想定する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
図9は、指標算定部52および周波数選択部54の動作のフローチャートである。図9の処理は単位区間TU毎に実行される。まず、指標算定部52は、変数Nを収音機器Mの総数(音源分離の対象となる音源Sの総数)nに初期化したうえで(ステップS1)、行列式z1(f1)〜z1(fK)を算定する(ステップS2)。行列式z1(fk)は、数式(5)で説明したように、共分散行列Rxx(fk)の特異値行列DのN個の対角成分(現段階ではn個の対角成分d1,d2,……,dn)の乗算値として算定される。
周波数選択部54は、指標算定部52がステップS2で算定した行列式z1(fk)が大きい1個以上の周波数fkを選択する(ステップS3)。例えば、第1実施形態と同様に、K個の周波数f1〜fKのうち行列式z1(f1)〜z1(fK)の降順で上位に位置する所定個の周波数fkを選択する構成や、K個の周波数f1〜fKのうち行列式z1(fk)が所定の閾値を上回る1個以上の周波数fkを選択する構成が好適である。周波数選択部54は、周波数fの選択数が所定値に到達したか否かを判定する(ステップS4)。周波数fkの選択数が所定値を上回る場合(ステップS4:YES)、図9の処理は終了する。
周波数fkの選択数が所定値を下回る場合(ステップS4:NO)、指標算定部52は、変数Nから1を減算し(ステップS5)、更新後の変数Nに対応した行列式z1(f1)〜z1(fK)を算定する(ステップS2)。すなわち、指標算定部52は、共分散行列Rxx(fk)の特異値行列Dのn個の対角成分のうち1個の対角成分を除去したうえで行列式z1(fk)を算定する。周波数選択部54は、過去に選択した周波数fkと重複しないように、ステップS1で新規に算定された行列式z1(f1)〜z1(fK)を利用して周波数fkを選択する(ステップS3)。
以上のように、各回のステップS3における周波数fkの選択数の合計が所定値に到達するまで(ステップS4:YES)、共分散行列Rxx(fk)の特異値行列Dにおけるn個の対角成分のうち行列式z1(fk)の算定に使用される対角成分の個数(変数N)を順次に減少させながら、行列式z1(fk)の算定(ステップS2)と周波数fkの選択(ステップS3)とが反復される。特異値行列Dの1個の対角成分を減少させる処理(ステップS5)は、観測ベクトルX(t,fk)の分布における1個の基底を除去する処理に相当する。
以上の形態においては、観測ベクトルX(t,fk)の分布における基底を順次に除去しながら、周波数fkの選択の指標となる行列式z1(f1)〜z1(fK)が算定される。したがって、特異値行列Dのn個の対角成分の乗算値として算定された行列式z1(f1)〜z1(fK)で周波数fkを選択する場合と比較すると、観測データD(fk)を使用した学習の有意性が高い周波数fkを高精度に選択することが可能である。
<学習の有意性の指標値の具体例>
第1実施形態や第2実施形態における共分散行列Rxx(fk)の行列式z1(fk)に代えて、以下の第3実施形態から第6実施形態に例示する数値(統計量)も、観測データD(fk)を使用した学習の有意性の指標値として利用される。
<C:第3実施形態>
観測データD(fk)を構成する各観測ベクトルX(t,fk)の共分散行列Rxx(fk)の条件数z2(fk)は以下の数式(6)で定義される。数式(6)の演算子‖A‖は、行列Aのノルム(行列の距離)を意味する。共分散行列Rxx(fk)に逆行列が存在する場合(正則である場合)に条件数z2(fk)は小さく、共分散行列Rxx(fk)に逆行列が存在しない場合に条件数z2(fk)は大きい数値となる。
z2(fk)=‖Rxx(fk)‖・‖Rxx(fk)−1‖ ……(6)
共分散行列Rxx(fk)は以下の数式(7a)のように固有値分解される。数式(7a)の行列Uは固有行列(固有ベクトルを要素とする行列)であり、行列Σは、対角成分に固有値を配置した行列である。また、共分散行列Rxx(fk)の逆行列は、数式(7a)を変形した以下の数式(7b)で表現される。
Rxx(fk)=UΣU ……(7a)
Rxx(fk)−1=UΣ−1 ……(7b)
行列Σの要素にゼロが含まれる場合には数式(7b)の行列Σ−1が無限大に発散するため、共分散行列Rxx(fk)の逆行列は存在しない(すなわち、数式(6)の条件数z2(fk)は大きい数値となる)。一方、行列Σの要素(共分散行列Rxx(fk)の固有値)がゼロに近い数値を含むということは、観測ベクトルX(t,fk)の分布における基底の総数が少ないことを意味する。したがって、観測ベクトルX(t,fk)の基底の総数が少ないほど共分散行列Rxx(fk)の条件数z2(fk)が大きい(基底の総数が多いほど条件数z2(fk)は小さい)という傾向が把握される。つまり、共分散行列Rxx(fk)の条件数z2(fk)は、行列式z1(fk)と同様に、観測ベクトルX(t,fk)の基底の総数の指標として機能する。
以上の傾向を考慮して、第3実施形態においては、共分散行列Rxx(fk)の条件数z2(fk)を周波数fの選択に使用する。すなわち、指標算定部52は、K個の周波数f1〜fKの各々の共分散行列Rxx(fk)について数式(6)の演算を実行することで条件数z2(fk)(z2(f1)〜z2(fK))を算定する。周波数選択部54は、指標算定部52の算定した条件数z2(fk)が小さい1個以上の周波数fkを選択する。例えば、周波数選択部54は、K個の周波数f1〜fKのうち条件数z2(f1)〜z2(fK)の昇順(小さい方から大きい方に向かう順番)で上位に位置する所定個の周波数fkや、K個の周波数f1〜fKのうち条件数z2(fk)が所定の閾値を下回る1個以上の周波数fkを選択する。初期値生成部42や学習処理部44の動作は第1実施形態と同様である。
<D:第4実施形態>
学習処理部44は、観測データD(fk)を音源分離した分離信号U1と分離信号U2とが統計的に相互に独立となるように分離行列W(fk)を学習するから、観測信号V1の強度x1(t,fk)の時系列と観測信号V2の強度x2(t,fk)の時系列とで統計的な相関が低い周波数fkほど、観測データD(fk)を使用した分離行列W(fk)の学習の有意性が高いと言える。そこで、第4実施形態においては、観測信号V1および観測信号V2の相互間の独立性に応じた指標値(相互相関または相互情報量)を周波数fkの選択に利用する。
観測信号V1の周波数fkの成分と観測信号V2の周波数fkの成分との相互相関z3(fk)は以下の数式(8)で表現される。数式(8)の記号Eは、数式(2)と同様に、単位区間TU内の複数のフレームにわたる加算(平均)を意味する。また、記号σ1は、単位区間TU内の強度x1(t,fk)の標準偏差を意味し、記号σ2は、単位区間TU内の強度x2(t,fk)の標準偏差を意味する。
z3(fk)=E[{x1(t,fk)−E(x1(t,fk))}{x2(t,fk)−E(x2(t,fk))}]/σ1σ2 ……(8)
数式(8)から理解されるように、観測信号V1と観測信号V2との独立性が高い(相関が低い)周波数fkほど相互相関z3(fk)は小さい数値となる。以上の傾向を考慮して、第4実施形態においては、K個の周波数f1〜fKの各々について数式(8)の演算を実行することで指標算定部52が相互相関z3(fk)(z3(f1)〜z3(fK))を算定し、周波数選択部54は、K個の周波数f1〜fKのうち相互相関z3(fk)が低い1個以上の周波数fkを選択する。例えば、周波数選択部54は、K個の周波数f1〜fKのうち相互相関z3(f1)〜z3(fK)の昇順で上位に位置する所定個の周波数fkや、K個の周波数f1〜fKのうち相互相関z3(fk)が所定の閾値を下回る1個以上の周波数fkを選択する。初期値生成部42や学習処理部44の動作は第1実施形態と同様である。
なお、以下の数式(9)で定義される相互情報量z4(fk)を相互相関z3(fk)の代わりに利用して周波数fkを選択する構成も好適である。相互相関z3と同様に、観測信号V1と観測信号V2との独立性が高い(相関が低い)周波数fkほど相互情報量z4(fk)は小さい数値となる。したがって、周波数選択部54は、K個の周波数f1〜fKのうち相互情報量z4(fk)が低い1個以上の周波数fkを選択する。
z4(fk)=(−1/2)log(1−z3(fk)) ……(9)
<E:第5実施形態>
共分散行列Rxx(fk)のトレース(パワー)z5(fk)は共分散行列Rxx(fk)の対角成分の総和として定義される。共分散行列Rxx(fk)の対角成分は、単位区間TUにおける観測信号V1の強度x1(t,fk)の分散σ1と単位区間TUにおける観測信号V2の強度x2(t,fk)の分散σ2とに相当するから、共分散行列Rxx(fk)のトレースz5(fk)は、強度x1(t,fk)の分散σ1と強度x2(t,fk)の分散σ2との加算値(z5(fk)=σ1+σ2)としても定義される。
図10は、単位区間TU内の各観測ベクトルX(t,fk)の散布図である。図10の部分(A)は、トレースz5(fk)が大きい場合の散布図であり、図10の部分(B)は、トレースz5(fk)が小さい場合の散布図である。図10の部分(A)および部分(B)には、図6の部分(A)と同様に、音源S1からの音SV1が優勢な観測ベクトルX(t,fk)が分布する領域A1と、音源S2からの音SV2が優勢な観測ベクトルX(t,fk)が分布する領域A2とが模式的に図示されている。
強度x1(t,fk)の分散σ1と強度x2(t,fk)の分散σ2との加算値という定義からも理解されるように、共分散行列Rxx(fk)のトレースz5(fk)が大きいほど観測ベクトルX(t,fk)は広範に分布する。したがって、トレースz5(fk)が大きい場合には、図10の部分(A)のように、観測ベクトルX(t,fk)の分布する領域(領域A1および領域A2)が音源S毎に明確に区別され、トレースz5(fk)が小さい場合には、図10の部分(B)のように領域A1と領域A2との区別は曖昧になるという傾向がある。つまり、トレースz5(fk)は、観測ベクトルX(t,fk)が分布する領域の形状(広がり)の指標値として機能する。
学習処理部44による分離行列W(fk)の学習(独立成分分析)は、独立な基底を音源Sの個数だけ特定する処理と等価であるから、観測ベクトルX(t,fk)の分布する領域(基底)が音源S毎に明確に区別される周波数fk(すなわちトレースz5(fk)が大きい周波数fk)ほど、観測データD(fk)を使用した分離行列W(fk)の学習の有意性が高いと言える。
以上の傾向を考慮して、第5実施形態においては、共分散行列Rxx(f1)〜Rxx(fK)のトレースz5(f1)〜z5(fK)を周波数fkの選択に使用する。すなわち、指標算定部52は、K個の周波数f1〜fKの各々の共分散行列Rxx(fk)の対角成分を加算することでトレースz5(fk)(z5(f1)〜z5(fK))を算定する。周波数選択部54は、指標算定部52の算定したトレースz5(fk)が大きい1個以上の周波数fkを選択する。例えば、周波数選択部54は、K個の周波数f1〜fKのうちトレースz5(f1)〜z5(fK)の降順で上位に位置する所定個の周波数fkや、K個の周波数f1〜fKのうちトレースz5(fk)が所定の閾値を上回る1個以上の周波数fkを選択する。初期値生成部42や学習処理部44の動作は第1実施形態と同様である。
<F:第6実施形態>
観測信号V1の強度x1(t,fk)の度数分布(強度x1(t,fk)を確率変数とする分布関数)における尖度(カートシス)z6(fk)は、以下の数式(10)で定義される。
z6(fk)=μ4(fk)/{μ2(fk)} ……(10)
数式(10)の記号μ4(fk)は、数式(11a)で定義される4次の中心モーメントを意味し、数式(10)の記号μ2(fk)は、数式(11b)で定義される2次の中心モーメントを意味する。数式(11a)や数式(11b)の記号m(fk)は、単位区間TU内の複数のフレームにわたる強度x1(t,fk)の平均値を意味する。
μ4(fk)=E{x1(t,fk)−m(fk)} ……(11a)
μ2(fk)=E{x1(t,fk)−m(fk)} ……(11b)
音源S1の音SV1および音源S2の音SV2のうちの一方のみが観測信号V1の周波数fkの成分に含まれる(あるいは支配的である)場合には尖度z6(fk)が大きい数値となり、音源S1の音SV1および音源S2の音SV2の双方が略同等の強度で観測信号V1の周波数fkの成分に含まれる場合には尖度z6(fk)が小さい数値となる(中心極限定理)。学習処理部44による分離行列W(fk)の学習(独立成分分析)は、独立な基底を音源Sの個数だけ特定する処理と等価であるから、有意な音量で観測信号V1に含まれる音SVの音源Sの個数が多い周波数fk(すなわち、尖度z6(fk)が小さい周波数fk)ほど、観測データD(fk)を使用した分離行列W(fk)の学習の有意性が高いと言える。
以上の傾向を考慮して、第6実施形態においては、観測信号V1の強度x(t,fk)の度数分布における尖度z6(fk)(z6(f1)〜z6(fK))を周波数fkの選択に使用する。すなわち、指標算定部52は、K個の周波数f1〜fKの各々について数式(10)の演算を実行することで尖度z6(f1)〜z6(fK)を算定する。周波数選択部54は、K個の周波数f1〜fKのうち尖度z6(fk)が小さい1個以上の周波数fkを選択する。例えば、周波数選択部54は、K個の周波数f1〜fKのうち尖度z6(f1)〜z3(fK)の昇順で上位に位置する所定個の周波数fkや、K個の周波数f1〜fKのうち尖度z6(fk)が所定の閾値を下回る1個以上の周波数fkを選択する。初期値生成部42や学習処理部44の動作は第1実施形態と同様である。
ところで、人間の音声の尖度は概ね40から70までの範囲内の数値となる。また、雑音が存在する環境で尖度が低下すること(中心極限定理)や尖度の測定の誤差などを考慮すると、人間の音声の尖度は概ね20から80までの範囲(以下「音声範囲」という)内に収まる。一方、空調設備の動作音や人込みでの雑踏音などの定常的な雑音のみが存在する周波数fkについては、観測信号V1の尖度は充分に低い数値(例えば20を下回る数値)となるから、周波数選択部54にて選択される可能性が高い。しかし、音源分離の対象音(SV1,SV2)が人間の音声であるならば、定常的な雑音の周波数fkの観測データD(fk)を使用した分離行列Wの学習の有意性は低いと言える。
そこで、定常的な雑音の周波数fkが周波数選択部54による選択の対象から除外されるように数式(10)の尖度を補正する構成が好適に採用される。例えば、指標算定部52は、数式(10)で定義される数値(以下「補正前尖度」という)と加重値qとの乗算値を補正後の尖度z6(fk)として算定する。加重値qは、例えば図11の例示のように補正前尖度に対して非線形に選定される。すなわち、補正前尖度が音声範囲の下限値(例えば20)を下回る範囲については、加重値qの乗算による補正後の尖度z6(fk)が音声範囲内の上限値(例えば80)を上回るように、補正前尖度に応じて加重値qが可変に選定され、音声範囲内の尖度については加重値qは所定値(例えば1)に設定される。なお、音声範囲の上限値を上回る範囲については、補正前尖度が充分に高い(すなわち周波数fkが選択される可能性は低い)ため、加重値qは音声範囲内と同等の数値に設定される。以上の構成によれば、所期の音声を高精度に分離できる分離行列W(fk)を生成することが可能である。
<G:第7実施形態>
以上の各形態においては、周波数選択部54が選択しなかった各周波数(以下「非選択周波数」という)fkについて、初期値生成部42が特定した初期分離行列W0(fk)を分離行列W(fk)として信号処理部24に適用した。以下に説明する第7実施形態においては、学習処理部44による学習後の分離行列W(fk)を利用して非選択周波数fkの分離行列W(fk)を生成(補充)する。
図12は、第7実施形態の信号処理装置100における分離行列生成部40のブロック図であり、図13は、分離行列生成部40による処理を説明するための概念図である。図12に示すように、第7実施形態の分離行列生成部40は、方向推定部72と行列補充部74とを第1実施形態に追加した構成である。
方向推定部72には、周波数選択部54が選択した各周波数fkについて、学習処理部44による学習後の分離行列W(fk)が供給される。方向推定部72は、学習後の各分離行列W(fk)から音源S1の方向θ1と音源S2の方向θ2とを推定する。方向θ1および方向θ2の推定には例えば以下の方法が好適に採用される。
第1に、方向推定部72は、図13に示すように、周波数選択部54が選択した周波数fk毎に音源S1の方向θ1(fk)と音源S2の方向θ2(fk)とを推定する。さらに詳述すると、方向推定部72は、学習処理部44による学習後の分離行列W(fk)を構成する係数w11(fk)と係数w21(fk)とから音源S1の方向θ1(fk)を特定し、係数w12(fk)と係数w22(fk)とから音源S2の方向θ2(fk)を特定する。例えば、係数w11(fk)および係数w21(fk)を設定したときに処理部Pkのフィルタ32が形成するビームの方向が音源S1の方向θ1(fk)として推定され、係数w12(fk)および係数w22(fk)を設定したときに処理部Pkのフィルタ34が形成するビームの方向が音源S2の方向θ2(fk)として推定される。また、分離行列W(fk)を利用した方向θ1(fk)および方向θ2(fk)の特定には、H. Saruwatari, et. al., "Blind Source Separation Combining Independent Component Analysis and Beamforming", EURASIP Journal on Applied Signal Processing Vol.2003, No.11, pp.1135-1146, 2003に開示された方法も好適に利用される。
第2に、方向推定部72は、図13に示すように、周波数選択部54が選択した周波数fk毎の方向θ1(fk)および方向θ2(fk)から音源S1の方向θ1と音源S2の方向θ2とを推定する。例えば、周波数fk毎に推定した方向θ1(fk)の平均値や中央値が音源S1の方向θ1として特定され、周波数fk毎に推定した方向θ2(fk)の平均値や中央値が音源S2の方向θ2として特定される。
図12の行列補充部74は、図13に示すように、方向推定部72が推定した方向θ1および方向θ2から各非選択周波数fkの分離行列W(fk)を特定する。具体的には、行列補充部74は、処理部Pkのフィルタ32が方向θ1にビームを形成するように算定された係数w11(fk)および係数w21(fk)と、処理部Pkのフィルタ34が方向θ2にビームを形成するように算定された係数w12(fk)および係数w21(fk)とを要素とする2行2列の分離行列W(fk)を非選択周波数fk毎に生成する。図12および図13に示すように、周波数選択部54が選択した周波数fkについては学習処理部44による学習後の分離行列W(fk)が信号処理部24にて使用され、非選択周波数fkについては行列補充部74の生成した行列W(fk)が信号処理部24にて使用される。
第7実施形態においては、周波数選択部54が選択した周波数fkについての学習後の分離行列W(fk)を利用して非選択周波数fkの分離行列W(fk)が生成される(すなわち、非選択周波数fkの初期分離行列W0(fk)を使用しない)から、非選択周波数fkの初期分離行列W0(fk)の音源分離の性能に拘わらず、周波数選択部54が選択した周波数fkに加えて非選択周波数fkについても高精度な音源分離が実現されるという利点がある。
なお、以上の例示においては、周波数選択部54が選択した複数の周波数fkの各々に対応する方向θ1(fk)および方向θ2(fk)から方向θ1および方向θ2を推定したが、例えば、周波数選択部54が選択した複数の周波数fkのうち何れかの周波数fkに対応する方向θ1(fk)および方向θ2(fk)を、行列補充部74による分離行列W(fk)の生成に適用される方向θ1および方向θ2として利用する構成も好適である。
<H:第8実施形態>
第7実施形態においては、周波数選択部54が選択した総ての周波数fkの分離行列W(fk)を利用して方向推定部72が方向θ1(fk)および方向θ2(fk)を推定した。しかし、低域側の周波数fkや高域側の周波数fkの分離行列W(fk)からは方向θ1(fk)や方向θ2(fk)を高精度に推定できない場合がある。そこで、本発明の第8実施形態においては、周波数選択部54が選択した複数の周波数fkのうち低域側の周波数fkと高域側の周波数fkとを除外した各周波数fkの学習後の分離行列W(fk)のみを方向θ1(fk)および方向θ2(fk)の推定(ひいては方向θ1および方向θ2の推定)に利用する。
例えば0Hzから4000Hzまでの周波数の範囲を分割した512個の周波数f1〜f512(K=512)を想定する。方向推定部72は、低域側の周波数f1〜f199と高域側の周波数f400〜f512とを除外した周波数f200〜f399のうち周波数選択部54が選択した周波数fkについて、学習処理部44による学習後の分離行列W(fk)から方向θ1(fk)および方向θ2(fk)を推定する。低域側の周波数f1〜f199や高域側の周波数f400〜f512については、周波数選択部54が選択した場合(さらには学習処理部44による学習で分離行列W(fk)が生成された場合)であっても、方向θ1(fk)および方向θ2(fk)の推定には利用されない。方向推定部72が推定した方向θ1(fk)および方向θ2(fk)から非選択周波数fkの分離行列W(fk)が生成される構成は第7実施形態と同様である。
第8実施形態においては、低域側の周波数fkや高域側の周波数fkを除外した周波数fkの学習後の分離行列W(fk)が方向θ1および方向θ2の推定に使用されるから、周波数選択部54が選択した総ての周波数fkの分離行列W(fk)を使用する場合と比較して、方向θ1および方向θ2が高精度に推定される。したがって、非選択周波数fkについて高精度な音源分離が可能な分離行列W(fk)を生成することが可能である。なお、以上においては低域側の周波数fkおよび高域側の周波数fkの双方を除外したが、低域側の周波数fkおよび高域側の周波数fkの一方のみを除外して方向θ1(fk)および方向θ2(fk)を推定する構成も採用される。
<I:第9実施形態>
以上の各形態においては、1個の単位区間TUについて算定された指標値z(f1)〜z(fK)(例えば、行列式z1(fk),条件数z2(fk),相互相関z3(fk),相互情報量z4(fk),トレースz5(fk),尖度z6(fk))から所定個の周波数fkを選択した。以下に説明する第9実施形態においては、複数の単位区間TUにわたる指標値z(f1)〜z(fK)を1個の単位区間TUにおける周波数fkの選択に利用する。
図14は、第9実施形態の分離行列生成部40における周波数選択部54のブロック図である。図14に示すように、第9実施形態の周波数選択部54は、選択部541と選択部542とを含んで構成される。指標算定部52が観測データD(f1)〜D(fK)から算定した指標値z(f1)〜z(fK)が単位区間TU毎に選択部541に供給される。指標値z(fk)は、観測データD(fk)を利用した分離行列W(fk)の学習の有意性の尺度となる数値(例えば、行列式z1(fk),条件数z2(fk),相互相関z3(fk),相互情報量z4(fk),トレースz5(fk),尖度z6(fk)の何れか)である。
選択部541は、以上の各形態における周波数選択部54と同様に、K個の周波数f1〜fKの各々の選択/非選択を各単位区間TUの指標値z(f1)〜z(fK)に応じて単位区間TU毎に順次に判別する。具体的には、選択部541は、K個の周波数f1〜fKの各々の選択/非選択を示すK個の数値sA_1〜sA_Kの系列(以下「数値列」という)y(T)を単位区間TU毎に順次に生成する。変数Tは、単位区間TUの番号である。数値列y(T)の数値sA_kは、指標値z(fk)に応じて周波数fkが選択と判定される場合と非選択と判定される場合とで別個の数値に設定される。例えば、数値sA_kは、周波数fkの選択時に「1」に設定されるとともに周波数fkの非選択時に「0」に設定される。
選択部542は、複数((J+1)個)の単位区間TUにわたる選択部541の判別の結果から所定個の周波数fkを選択する。具体的には、選択部542は、演算部56と決定部57とを含んで構成される。演算部56は、番号Tの単位区間TUから計数して過去のJ個目までの(J+1)個の単位区間TUの係数列y(T)〜y(T-J)に応じた係数列Y(T)を算定する。係数列Y(T)は、例えば以下の数式(12)で定義されるように係数列y(T)〜y(T-J)の加重和に相当する。
Figure 0005277887
数式(12)の係数αj(j=0〜J)は、係数列y(T-j)に対する加重値を意味する。例えば、時間的に後方(新しい)の単位区間TUの加重値αjほど大きい数値に設定される(α0>α1>……>αJ)。係数列Y(T)は、K個の数値sB_1〜sB_Kの系列となる。数値sB_kは、係数列y(T)〜y(T-J)の各々の数値sA_kの加重和である。したがって、係数列Y(T)の数値sB_kは、(J+1)個の単位区間TUにおいて選択部541が周波数fkを選択した回数の指標に相当する。すなわち、(J+1)個の単位区間TUにおける周波数fkの選択の回数が多いほど係数列Y(T)の数値sB_kは大きい数値となる。
決定部57は、演算部56が算定した係数列Y(T)を利用して所定個の周波数fkを選択する。具体的には、決定部57は、係数列Y(T)のK個の数値sB_1〜sB_Kのうち降順で上位の数値sB_kに対応する所定個の周波数fkを選択する。すなわち、(J+1)個の単位区間TUにおいて選択部541による選択の回数が多い周波数fkが選択される。決定部57による周波数fkの選択は単位区間TU毎に順次に実行される。
学習処理部44は、K個の周波数f1〜fKのうち決定部57が選択した各周波数fkの観測データD(fk)を利用した初期分離行列W0(fk)の学習で分離行列W(fk)を生成する。非選択周波数(決定部57が選択しなかった周波数)fkについては、初期分離行列W0(fk)を分離行列W(fk)として使用する構成(第1実施形態)や、学習後の分離行列W(fk)から行列補充部74が生成した分離行列W(fk)を使用する構成(第7実施形態または第8実施形態)が採用される。
指標値z(fk)は観測データD(fk)に依存するから、1個の単位区間TUの指標値z(fk)のみを周波数fkの選択に使用する構成(例えば第1実施形態)では、周波数fkの選択/非選択が単位区間TU毎に頻繁に変化し、分離行列W(fk)の高精度な学習が阻害される可能性がある。雑音が多い環境(すなわち観測データD(fk)が変化し易い環境)では周波数fkの選択/非選択の変化の頻度が増加するから、分離行列W(fk)の学習の精度の低下は特に問題となる。第9実施形態においては、複数((J+1)個)の単位区間TUにわたる周波数fkの選択/非選択を総合的に加味して各単位区間TUでの周波数fkの選択/非選択が決定されるから、例えば雑音に起因して観測データD(fk)が突発的に変化した場合でも周波数fkの選択/非選択の判別の結果は安定する(すなわち、判別の結果が変化する頻度が低減される)。したがって、所期の音声を高精度に分離できる分離行列W(fk)が生成されるという利点がある。
図15は、雑音抑圧率(NRR)の測定の結果を示す図表である。図15においては、学習の対象となる周波数fkを1個の単位区間TUの指標値z(fk)のみから選択する構成(例えば第1実施形態)を第9実施形態との対比例として雑音抑圧率(NRR)が記載されている。なお、音源S1の角度θ1を0°に固定したうえで音源S2の角度θ2を−90°から45°ずつ変化させた各場合(−90°,−45°,45°,90°)について雑音抑圧率を測定した。複数(図15においては50個)の単位区間TUにわたる周波数fkの選択/非選択を考慮して各単位区間TUでの周波数fkの選択/非選択を決定する構成(第9実施形態)によって雑音抑圧率が上昇する(すなわち、音源分離の精度が上昇する)ことが図15から把握される。
なお、以上の例示においては係数列y(T)〜y(T-J)の加重和(係数列Y(T))を周波数fkの選択に適用したが、学習の対象となる周波数fkを選択する方法は適宜に変更される。例えば、K個の周波数f1〜fKの各々について、(J+1)個の単位区間TU内で選択された回数を計数し、選択の回数が多い所定個の周波数fkを学習の対象として選択する構成(係数列y(T)〜y(T-J)の加重和を算定しない構成)も採用される。
また、例えば、係数列y(T)〜y(T-J)の単純な加算で係数列Y(T)を算定する構成も好適である。もっとも、係数列y(T)〜y(T-J)の加重和を算定する構成によれば、(J+1)個の単位区間TUのうち特定の単位区間TUにおける周波数fkの選択/非選択の判別の結果を優先的に考慮して周波数fkの選択/非選択を判別することが可能である。なお、係数列y(T)〜y(T-J)の加重和を算定する構成において、加重値α0〜αJの選定の方法は任意である。例えば、(T-j)番目の単位区間TUのSN比が低いほど加重値αjを小さい数値に設定する構成が好適に採用される。
<J:変形例>
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
(1)変形例1
以上の各形態においては、所定の方向からの到来音を強調する遅延加算型ビームフォーマを処理部Pk(フィルタ32,フィルタ34)に適用したが、所定の方向からの到来音を抑圧する(すなわち収音上の死角を形成する)死角制御型(null)のビームフォーマも処理部Pkに適用される。例えば、処理部Pkのフィルタ32の加算部325およびフィルタ34の加算部345を減算部に変更することで死角制御型ビームフォーマが実現される。死角制御型ビームフォーマを採用した場合、分離行列生成部40は、方向θ1に死角が形成されるようにフィルタ32の各係数(w11(fk),w21(fk))を決定し、方向θ2に死角が形成されるようにフィルタ34の各係数(w12(fk),w22(fk))を決定する。したがって、分離信号U1においては音源S1の音SV1が抑制され(音SV2が強調され)、分離信号U2においては音源S2の音SV2が抑制される(音SV1が強調される)。
(2)変形例2
以上の各形態において、周波数分析部22と信号処理部24と信号合成部26とは信号処理装置100から省略され得る。例えば、観測データD(fk)を記憶する記憶装置14と観測データD(fk)から分離行列W(fk)を生成する分離行列生成部40とを具備する信号処理装置100としても本発明は実現される。分離行列生成部40が生成した分離行列W(fk)(W(f1)〜W(fK))を信号処理装置100とは別体の装置の信号処理部24に提供することで分離信号U1や分離信号U2が生成される。
(3)変形例3
以上の各形態においては初期値生成部42がK個の周波数f1〜fKの各々について初期分離行列W0(fk)(W0(f1)〜W0(fK))を生成したが、学習処理部44による分離行列W(f1)〜W(fK)の学習の初期値として所定の初期分離行列W0を共通に適用する構成も採用される。また、初期分離行列W0(fk)が観測データD(fk)から生成される構成は本発明において必須ではない。例えば、事前に用意されて記憶装置14に格納された初期分離行列W0(f1)〜W0(fK)を学習処理部44による分離行列W(f1)〜W(fK)の学習の初期値として使用する構成も採用される。また、非選択周波数fkの初期分離行列W0(fk)を使用しない構成(例えば第7実施形態や第8実施形態)においては、K個の周波数f1〜fKのうち周波数選択部54が選択した周波数fkのみについて初期値生成部42が初期分離行列W0(fk)を生成してもよい。
(4)変形例4
以上の各形態において周波数fkの選択の基準として利用した指標値(行列式z1(fk),条件数z2(fk),相互相関z3(fk),相互情報量z4(fk),トレースz5(fk),尖度z6(fk))は、周波数fkの観測データD(fk)を使用した分離行列W(fk)の学習の有意性の尺度(指標値)の例示に過ぎず、以上の例示以外の指標値を周波数fkの選択の基準として適用した構成も当然に本発明の範囲に包含される。また、以上の例示のなかから任意に選択された2以上の指標値の組合わせも周波数fkの選択の基準として好適である。例えば、行列式z1(fk)とトレースz5(f)との加重和が大きい周波数fkを選択する構成や、行列式z1(fk)の逆数と尖度z6(fk)との加重和が小さい周波数fkを選択する構成(何れの構成でも学習の有意性が高い周波数fkが選択される)が採用される。
また、各指標値の算定の方法も以上の例示に限定されない。例えば、共分散行列Rxx(fk)の行列式z1(fk)の算定には、共分散行列Rxx(fk)の特異値分解を利用した第1実施形態の方法(数式(5))のほかに、観測信号V1の強度x1(r,fk)の分散σ1と観測信号V2の強度x2(r,fk)の分散σ2と数式(8)の相互相関z3(fk)とを以下の数式(13)に代入する方法も採用される。
z1(fk)=σ1σ2(1−z3(fk)) ……(13)
(5)変形例5
第2実施形態を除く各形態においては音源S(S1,S2)が2個である場合(n=2)を例示したが、3個以上の音源Sからの音を分離する場合にも本発明は当然に適用される。音源分離の対象となる音源Sがn個である場合にはn個以上の収音機器Mが必要である。
本発明の第1実施形態に係る信号処理装置のブロック図である。 観測データの内容を説明するための概念図である。 信号処理部のブロック図である。 分離行列生成部のブロック図である。 指標算定部のブロック図である。 共分散行列の行列式と観測ベクトルの分布における基底の総数との関係を説明するための概念図である。 分離行列生成部の動作を説明するための概念図である。 第1実施形態の効果を説明するための図表である。 第2実施形態の指標算定部および周波数選択部の動作のフローチャートである。 共分散行列のトレースと観測ベクトルの分布の形状との関係を説明するための概念図である。 補正前尖度と加重値との関係を示すグラフである。 第7実施形態における分離行列生成部のブロック図である。 分離行列生成部の動作を説明するための概念図である。 第9実施形態における周波数選択部のブロック図である。 第9実施形態の効果を説明するための図表である。
符号の説明
100……信号処理装置、12……演算処理装置、14……記憶装置、22……周波数分析部、24……信号処理部、26……信号合成部、Pk……処理部、40……分離行列生成部、42……初期値生成部、44……学習処理部、52……指標算定部、54……周波数選択部、72……方向推定部、74……行列補充部。

Claims (10)

  1. 複数音の混合音を複数の収音機器で収音した複数の観測信号の各々における各周波数での強度の時系列を示す観測データを複数の周波数の各々について記憶する記憶手段と、
    前記各周波数の観測データを使用した分離行列の学習の有意性の指標値を当該観測データから前記複数の周波数の各々について算定する指標算定手段と、
    前記指標算定手段が算定した各周波数の指標値に応じて前記複数の周波数のうち少なくともひとつの周波数を選択する周波数選択手段と、
    前記記憶手段に記憶された複数の観測データのうち前記周波数選択手段が選択した周波数の観測データを使用した初期分離行列の学習で当該周波数の分離行列を決定する学習処理手段とを具備し、
    前記指標算定手段は、前記複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの分布における基底の総数の指標値を算定し、
    前記周波数選択手段は、前記指標値が示す基底の総数が多い周波数を選択する
    信号処理装置。
  2. 前記指標算定手段は、前記観測ベクトルの共分散行列の行列式を前記指標値として算定し、
    前記周波数選択手段は、前記行列式が大きい周波数を選択する
    請求項の信号処理装置。
  3. 前記指標算定手段は、前記観測ベクトルの共分散行列の特異値分解で特定される特異値行列の複数の対角成分のうち第1個数の対角成分を乗算した第1行列式と、前記複数の対角成分のうち前記第1個数よりも少ない第2個数の対角成分を乗算した第2行列式とを算定し、
    前記周波数選択手段は、前記第1行列式を利用した周波数の選択と、前記第2行列式を利用した周波数の選択とを順次に実行する
    請求項の信号処理装置。
  4. 前記指標算定手段は、前記観測ベクトルの共分散行列の条件数を前記指標値として算定し、
    前記周波数選択手段は、前記条件数が小さい周波数を選択する
    請求項の信号処理装置。
  5. 前記複数の周波数の各々について前記初期分離行列を生成する初期値生成手段を具備し、
    前記学習処理手段は、前記周波数選択手段が選択した周波数の前記初期分離行列を初期値とした学習で当該周波数の分離行列を生成し、前記周波数選択手段が選択しなかった周波数の前記初期分離行列を当該周波数の分離行列とする
    請求項1から請求項の何れかの信号処理装置。
  6. 前記学習処理手段が生成した分離行列から前記複数音の各々の音源の方向を推定する方向推定手段と、
    前記周波数選択手段が選択しなかった周波数の分離行列を、前記方向推定手段が推定した方向から生成する行列補充手段と
    を具備する請求項1から請求項の何れかの信号処理装置。
  7. 前記方向推定手段は、前記複数の周波数のうち低域側の周波数および高域側の周波数の少なくとも一方を除外した周波数について前記学習処理手段が生成した分離行列から前記複数音の各々の音源の方向を推定する
    請求項の信号処理装置。
  8. 前記指標算定手段は、前記複数の周波数の各々の指標値を単位区間毎に順次に算定し、
    前記周波数選択手段は、
    前記複数の周波数の各々の選択/非選択を各単位区間の指標値に応じて単位区間毎に順次に判別する第1選択手段と、
    複数の単位区間にわたる前記第1選択手段の判別の結果から前記少なくともひとつの周波数を選択する第2選択手段とを含む
    請求項1から請求項の何れかの信号処理装置。
  9. 前記第1選択手段は、前記複数の周波数の各々について選択/非選択を示す数値列を単位区間毎に順次に生成し、
    前記第2選択手段は、前記複数の単位区間の各々の数値列の加重和から前記少なくともひとつの周波数を選択する
    請求項の信号処理装置。
  10. 複数音の混合音を複数の収音機器で収音した複数の観測信号の各々における各周波数での強度の時系列を示す観測データを複数の周波数の各々について記憶する記憶手段を具備するコンピュータに、
    前記各周波数の観測データを使用した分離行列の学習の有意性の指標値を当該観測データから前記複数の周波数の各々について算定する指標算定処理と、
    前記指標算定処理で算定した各周波数の指標値に応じて前記複数の周波数のうち少なくともひとつの周波数を選択する周波数選択処理と、
    前記記憶手段に記憶された複数の観測データのうち前記周波数選択処理で選択した周波数の観測データを使用した初期分離行列の学習で当該周波数の分離行列を決定する学習処理処理とを実行させ
    前記指標算定処理では、前記複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの分布における基底の総数の指標値を算定し、
    前記周波数選択処理では、前記指標値が示す基底の総数が多い周波数を選択する
    プログラム。
JP2008292169A 2008-11-14 2008-11-14 信号処理装置およびプログラム Expired - Fee Related JP5277887B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008292169A JP5277887B2 (ja) 2008-11-14 2008-11-14 信号処理装置およびプログラム
US12/617,605 US9123348B2 (en) 2008-11-14 2009-11-12 Sound processing device
EP09014232.4A EP2187389B1 (en) 2008-11-14 2009-11-13 Sound processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008292169A JP5277887B2 (ja) 2008-11-14 2008-11-14 信号処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010117653A JP2010117653A (ja) 2010-05-27
JP5277887B2 true JP5277887B2 (ja) 2013-08-28

Family

ID=41622008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008292169A Expired - Fee Related JP5277887B2 (ja) 2008-11-14 2008-11-14 信号処理装置およびプログラム

Country Status (3)

Country Link
US (1) US9123348B2 (ja)
EP (1) EP2187389B1 (ja)
JP (1) JP5277887B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6303385B2 (ja) * 2013-10-16 2018-04-04 ヤマハ株式会社 収音解析装置および収音解析方法
EP3005362B1 (en) * 2013-11-15 2021-09-22 Huawei Technologies Co., Ltd. Apparatus and method for improving a perception of a sound signal
CN105898667A (zh) 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3742185B1 (en) * 2019-05-20 2023-08-09 Nokia Technologies Oy An apparatus and associated methods for capture of spatial audio
CN115280413A (zh) * 2020-02-28 2022-11-01 东京都公立大学法人 音源分离程序、音源分离方法以及音源分离装置
US20240163627A1 (en) * 2021-06-30 2024-05-16 Northwestern Polytechnical University System and method to use deep neural network to generate high-intelligibility binaural speech signals from single input

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2901999A (en) * 1998-03-10 1999-09-27 Management Dynamics, Inc. Statistical comparator interface
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP3887192B2 (ja) * 2001-09-14 2007-02-28 日本電信電話株式会社 独立成分分析方法及び装置並びに独立成分分析プログラム及びそのプログラムを記録した記録媒体
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
DE602004027774D1 (de) * 2003-09-02 2010-07-29 Nippon Telegraph & Telephone Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm
JP2006084898A (ja) 2004-09-17 2006-03-30 Nissan Motor Co Ltd 音声入力装置
US20060031067A1 (en) * 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
JP4529611B2 (ja) * 2004-09-17 2010-08-25 日産自動車株式会社 音声入力装置
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
JP2007034184A (ja) 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP2007156300A (ja) * 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
JP4920270B2 (ja) * 2006-03-06 2012-04-18 Kddi株式会社 信号到来方向推定装置及び方法、並びに信号分離装置及び方法、コンピュータプログラム
JP2007282177A (ja) * 2006-03-17 2007-10-25 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4672611B2 (ja) * 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
US20080212666A1 (en) * 2007-03-01 2008-09-04 Nokia Corporation Interference rejection in radio receiver
US8660841B2 (en) * 2007-04-06 2014-02-25 Technion Research & Development Foundation Limited Method and apparatus for the use of cross modal association to isolate individual media sources
US8126829B2 (en) * 2007-06-28 2012-02-28 Microsoft Corporation Source segmentation using Q-clustering
WO2009068084A1 (en) * 2007-11-27 2009-06-04 Nokia Corporation An encoder
US8144896B2 (en) * 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム

Also Published As

Publication number Publication date
EP2187389A3 (en) 2014-03-26
EP2187389A2 (en) 2010-05-19
US9123348B2 (en) 2015-09-01
JP2010117653A (ja) 2010-05-27
US20100125352A1 (en) 2010-05-20
EP2187389B1 (en) 2016-10-19

Similar Documents

Publication Publication Date Title
JP5277887B2 (ja) 信号処理装置およびプログラム
JP5207479B2 (ja) 雑音抑圧装置およびプログラム
JP4469882B2 (ja) 音響信号処理方法及び装置
JP5641186B2 (ja) 雑音抑圧装置およびプログラム
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
JP2017503388A5 (ja)
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
JP5034735B2 (ja) 音処理装置およびプログラム
JP5387442B2 (ja) 信号処理装置
JP5263020B2 (ja) 信号処理装置
JP5454330B2 (ja) 音響処理装置
JP5942388B2 (ja) 雑音抑圧用係数設定装置、雑音抑圧装置および雑音抑圧用係数設定方法
JP5233772B2 (ja) 信号処理装置およびプログラム
JP4422662B2 (ja) 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
JP5884473B2 (ja) 音響処理装置および音響処理方法
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP5826502B2 (ja) 音響処理装置
JP5376635B2 (ja) 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
EP3291228B1 (en) Audio processing method, audio processing device, and audio processing program
JP5163435B2 (ja) 信号処理装置およびプログラム
JP2015169901A (ja) 音響処理装置
JP2020010196A (ja) 方向別収音装置及びプログラム
JP2005091560A (ja) 信号分離方法および信号分離装置
JP5338395B2 (ja) 信号処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees