[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4449871B2 - 音声信号分離装置及び方法 - Google Patents

音声信号分離装置及び方法 Download PDF

Info

Publication number
JP4449871B2
JP4449871B2 JP2005269128A JP2005269128A JP4449871B2 JP 4449871 B2 JP4449871 B2 JP 4449871B2 JP 2005269128 A JP2005269128 A JP 2005269128A JP 2005269128 A JP2005269128 A JP 2005269128A JP 4449871 B2 JP4449871 B2 JP 4449871B2
Authority
JP
Japan
Prior art keywords
signal
separation
time
frequency domain
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005269128A
Other languages
English (en)
Other versions
JP2006238409A (ja
Inventor
厚夫 廣江
敬一 山田
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005269128A priority Critical patent/JP4449871B2/ja
Priority to US11/338,267 priority patent/US8139788B2/en
Priority to EP06250401A priority patent/EP1686831A3/en
Priority to KR1020060007616A priority patent/KR101197407B1/ko
Priority to CN2006100711988A priority patent/CN1855227B/zh
Publication of JP2006238409A publication Critical patent/JP2006238409A/ja
Application granted granted Critical
Publication of JP4449871B2 publication Critical patent/JP4449871B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04GSCAFFOLDING; FORMS; SHUTTERING; BUILDING IMPLEMENTS OR AIDS, OR THEIR USE; HANDLING BUILDING MATERIALS ON THE SITE; REPAIRING, BREAKING-UP OR OTHER WORK ON EXISTING BUILDINGS
    • E04G17/00Connecting or other auxiliary members for forms, falsework structures, or shutterings
    • E04G17/14Bracing or strutting arrangements for formwalls; Devices for aligning forms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Architecture (AREA)
  • Mechanical Engineering (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、複数の信号が混合された音声信号を独立成分分析(Independent Component Analysis;ICA)を用いて信号毎に分離する音声信号分離装置及びその方法に関する。
複数の原信号が未知の係数によって線形に混合されているときに、統計的独立性のみを用いて原信号を分離・復元するという独立成分分析(Independent Component Analysis;ICA)の手法が信号処理の分野で注目されている。この独立成分分析を応用することで、例えば話者とマイクロホンとが離れた場所にあり、マイクロホンで話者の音声以外の音を拾ってしまうような状況でも、音声信号を分離・復元することが可能となる。
ここで、時間周波数領域の独立成分分析を用いて、複数の信号が混合された音声信号を信号毎に分離する場合について考える。
図15に示すようにN個の音源からそれぞれ異なる音が鳴っており、それらをn個のマイクロホンで観測するという状況を想定する。音源が発した音(原信号)がマイクロホンに届くまでには時間遅れや反射などがあるため、k番目(1≦k≦n)のマイクロホンkで観測される信号(観測信号)x(t)は、下記式(1)のように、原信号と伝達関数との畳み込み演算を全音源について総和した式で表される。また、全てのマイクロホンについての観測信号を1つの式で表すと、下記式(2)のようになる。この式(1)、(2)において、x(t)、s(t)はそれぞれ x(t)、s(t)を要素とする列ベクトルを表し、Aはaij(t)を要素とするn行N列の行列を表す。なお、以下ではN=nとする。
Figure 0004449871
時間周波数領域の独立成分分析では、上記式(2)のx(t)からA及びs(t)を直接推定するのではなく、x(t)を時間周波数領域の信号に変換し、A及びs(t)に対応する信号を時間周波数領域で推定する。以下、その方法について説明する。
信号ベクトルx(t)、s(t)を長さLの窓で短時間フーリエ変換したものをそれぞれX(ω,t),S(ω,t)とし、行列A(t)を同様に短時間フーリエ変換したものをA(ω)とすると、時間領域の上記式(2)は時間周波数領域の下記式(3)で表すことができる。但し、ωは周波数binの番号を示し(1≦ω≦M)、tはフレーム番号を示す(1≦t≦T)。時間周波数領域の独立成分分析では、式(3)のS(ω,t)、A(ω)を時間周波数領域で推定することになる。
Figure 0004449871
なお、周波数binの個数は、本来は窓の長さLと同一であり、各周波数binは、−R/2からR/2まで(Rはサンプリング周波数)をL等分したそれぞれの周波数成分を表す。但し、負の周波数成分は正の周波数成分の共役複素数であり、X(−ω)=conj(X(ω))(conj(・)は共役複素数)として求めることができるため、本明細書では0からR/2までの非負の周波数成分(周波数binの個数はL/2+1)のみを考え、その周波数成分に1からM(M=L/2+1)までの番号を振っている。
時間周波数領域でS(ω,t)、A(ω)を推定するには、先ず、下記式(4)のような式を考える。この式(4)において、Y(ω,t)はy(t)を長さLの窓で短時間フーリエ変換したY(ω,t)を要素とする列ベクトルを表し、W(ω)はwij(ω)を要素とするn行n列の行列(分離行列)を表す。
Figure 0004449871
次に、ωを固定してtを変化させたときにY(ω,t)〜Y(ω,t)が統計的に独立となる(実際には、独立性が最大となる)ようなW(ω)を求める。後述のように、時間周波数領域の独立成分分析ではパーミュテーション(permutation)及びスケーリングの不定性があるため、W(ω)=A(ω)−1以外にも解が存在する。統計的に独立となるY(ω,t)〜Y(ω,t)が全てのωについて得られたら、それらを逆フーリエ変換することで、時間領域の分離信号y(t)を得ることができる。
時間周波数領域における従来の独立成分分析の概略を図16を用いて説明する。n個の音源が発するお互いに独立な原信号をs〜sとし、それらを要素とするベクトルをsとする。マイクロホンで観測される観測信号xは、原信号sに上記式(2)の畳み込み・混合演算を施したものである。マイクロホンの数nが2であるとき、すなわちチャンネル数が2であるときの観測信号xの例を図17(A)に示す。次に、観測信号xに対して短時間フーリエ変換を施し、時間周波数領域の信号Xを得る。Xの要素をX(ω,t)とすると、X(ω,t)は複素数値をとる。X(ω,t)の絶対値である|X(ω,t)|を色の濃淡で表現した図をスペクトログラムという。スペクトログラムの例を図17(B)に示す。この図において、横軸は t(フレーム番号)を示し、縦軸はω(周波数bin番号)を示す。なお、以下では時間周波数領域の信号そのもの(絶対値をつける前の信号)も「スペクトログラム」と表現する。続いて、信号Xの各周波数binにW(ω)を乗算することで、図17(C)に示すような分離信号Yを得る。そして、分離信号Yを逆フーリエ変換することで、図17(D)に示すような時間領域の分離信号yを得る。
ここで、独立成分分析において、独立性をどのような尺度で表現するか、また、どのようなアルゴリズムで独立性を最大化するかについては、種々のバリエーションが存在する。本明細書では、一例として、独立性をKullback-Leibler情報量(以下、「KL情報量」という。)で表現し、独立性を最大化するアルゴリズムとして自然勾配法を用いる場合について説明する。
図18のように、ある周波数binに着目する。Y(ω,t)のフレーム番号tを1〜Tの間で変化させたものをY(ω)としたとき、分離信号Y(ω)〜Y(ω)の独立性を表す尺度であるKL情報量I(Y(ω))を下記式(5)のように定義する。すなわち、各チャンネルについての周波数bin(=ω)毎のエントロピーH(Y(ω))の総和から全チャンネルについての周波数bin(=ω)毎の同時エントロピーH(Y(ω))を減算した値をKL情報量I(Y(ω))と定義する。n=2のときのH(Y(ω))とH(Y(ω))との関係を図19に示す。式(5)のうち、H(Y(ω))はエントロピーの定義により下記式(6)の第1項のように書き換えられ、H(Y(ω))は上記式(4)により式(6)の第2項及び第3項のように展開される。この式(6)において、PYk(ω)(・)はY(ω,t)の確率密度関数を表し、H(X(ω))は観測信号X(ω)の同時エントロピーを表す。
Figure 0004449871
KL情報量I(Y(ω))は、Y(ω)〜Y(ω)が独立である場合に最小(理想的には0)となる。ここでは、KL情報量I(Y(ω))を最小にする分離行列W(ω)を求めるアルゴリズムとして自然勾配法を用いる。自然勾配法は、I(Y(ω))を最小化させる方向を下記式(7)で求め、W(ω)が収束するまで下記式(9)のようにW(ω)をその方向に少しずつ変化させるものである。この式(7)において、W(ω)はW(ω)の転置行列を表す。また、式(9)において、ηは学習係数(正の微小値)を表す。
Figure 0004449871
上記式(7)は上記式(8)のように変形される。この式(8)において、E[・]は時間方向の平均を表す。また、φ(・) は確率密度関数の対数を微分したものであり、スコア関数(又は、「活性化関数」)と称される。スコア関数にはY(ω)の確率密度関数が含まれているが、KL情報量の最小値を求めるためには本当の確率密度関数を用いる必要はなく、Y(ω)の分布がスーパーガウシアン(super-gaussian)であるかサブガウシアン(sub-gaussian)であるかに応じて、例えば表1に示すような2種類の確率密度関数を切り換えればよいことが知られている。
Figure 0004449871
また、extended infomax法として、表2に示すような2種類の確率密度関数を切り換えるようにしてもよい。
Figure 0004449871
なお、表1、2において、hは確率密度関数を−∞〜+∞の区間で積分した値を1にするための定数である。Y(ω)の分布がスーパーガウシアンであるかサブガウシアンであるかは4次のキュムラントκ(=E[Y(ω,t)]−3E[Y(ω,t))の値の正負で決まり、κが正ならスーパーガウシアン、負ならサブガウシアンである。
上記式(8)、(9)を用いた分離処理は、図20のフローチャートで表される。先ずステップS101において、周波数bin毎に分離行列W(ω)を用意し、初期値(例えば単位行列)を代入しておく。次にステップS102において、全ての周波数binについてのW(ω)が収束したか否かを判別し、収束している場合には処理を終了し、収束していない場合にはステップS103に進む。ステップS103では、上記式(4)のようなY(ω,t)を定義し、ステップS104では、KL情報量I(Y(ω))を最小化させる方向を上記式(8)に従って求める。そしてステップS105では、上記式(9)に従ってKL情報量I(Y(ω))を最小化させる方向にW(ω)を更新し、ステップS102に戻る。なお、ステップS102〜S105の処理は、各周波数binについてY(ω)の独立性が十分に高まり、W(ω)が略々収束するまで繰り返される。
村田昇著,「入門独立成分分析」,東京電気大学出版局 特開2004−145172号公報 Mike Davies,"Audio Source Separation", Oxford University press, 2002(http://www.elec.qmul.ac.uk/staffinfo/miked/publications/IMA.ps) Nikolaos Mitianoudis and Mike Davies,"A fixed point solution for convolved audio source separation", IEEE WASPAA01, 2001(http://egnatia.ee.auth.gr/~mitia/pdf/waspaa01.pdf)
ところで、上述した時間周波数領域の独立成分分析では、信号の分離処理を周波数bin毎に行っており、周波数binの間の関係は考慮していない。そのため、分離自体は成功しても、周波数binの間でスケーリング及び分離先の不統一が発生する可能性がある。このうち、スケーリングの不統一については、音源毎に観測信号を推定する方法により解決できる。一方、分離先の不統一とは、例えばω=1ではYにS由来の信号が現れるのに対してω=2ではYにS由来の信号が現れる、というような現象のことであり、パーミュテーション(置換)の問題と呼ばれている。
パーミュテーションが発生している例を図21に示す。これは、WEBページ(http://www.ism.ac.jp/~shiro/research/blindsep.html)にある「X_rsm2.wav」というファイルの最初の32000サンプルに対してextended infomax法を用いて時間周波数領域で分離を試みた結果である。なお、原信号の一方は“ワン、ツー、スリー”という音声であり、他方は音楽である。上段のスペクトログラムを時間領域の信号へと逆フーリエ変換すると、下段のように、両チャンネルとも両方の信号が混ざった波形となってしまう。このように、周波数bin毎に分離を行うと、観測信号の種類や分離行列W(ω)の初期値によっては、図21のような結果になってしまうことが避けられない。
従来、このパーミュテーションの問題を解消するために、後処理により入れ替えを行う方法が知られている。この後処理では、先ず周波数bin毎の分離によって図21のようなスペクトログラムを得て、その後、何らかの基準に従ってチャンネル間で分離信号の入れ替えを行うことでパーミュテーションの発生していないスペクトログラムを得る。入れ替えの基準としては、(a)エンベロープの類似性(非特許文献1を参照)、(b)推定された音源方向(特許文献1の[従来の技術]を参照)、(c)aとbとの組合せ(特許文献1を参照)が挙げられる。
しかしながら、上記(a)は、周波数binによってはエンベロープの違いが不明瞭なことがあり、そのような場合には入れ替え間違いが発生してしまう。また、入れ替えを1度間違えると、それ以降の周波数binでは全て分離先を間違えてしまうことになる。また、上記(b)は、方向推定の精度に問題があり、さらにマイクロホンの位置情報が必要である。また、両者を組み合わせた上記(c)は、入れ替えの精度は向上しているものの、上記(b)と同様にマイクロホンの位置情報が必要である。また、何れの方法においても、分離と入れ替えという2つのステップを経るため、処理時間が長いという問題がある。処理時間の観点では、分離が完了した時点でパーミュテーションの問題も解消していることが望ましいが、後処理による方法ではそれは難しい。
そこで、非特許文献2,3では、周波数binの間の関係を分離行列Wの更新式に反映させる周波数カップリング(frequency coupling)と呼ばれる方法が提案されている。この方法では、下記式(10)のような確率密度関数と下記式(11)のような分離行列Wの更新式とを用いている(但し、変数の表記法は本明細書と一致させている)。この式(10)、(11)において、β(t)はY(ω,t)の各成分の絶対値の間で平均をとった値を表し、β(t)はβ(t),・・・,β(t)を対角要素とする対角行列を表す。このβ(t)の導入により、周波数binの間の関係がΔW(ω)に反映される。
Figure 0004449871
しかしながら、上記式(11)を反復適用して収束させた分離行列Wでは、必ずしもパーミュテーションの問題を解消できない。すなわち、パーミュテーション非発生時のKL情報量がパーミュテーション発生時のKL情報量よりも小さくなるという保証がない。実際に上述した「X_rsm2.wav」というファイルの最初の32000サンプルに対して上記式(11)を用いて分離を試みた結果を図22に示す。図21と同様に周波数bin毎の分離は成功しており、パーミュテーションも図21と比較して改善されているものの、依然としてパーミュテーションが発生している。
本発明は、このような従来の実情に鑑みて提案されたものであり、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する際に、分離後の後処理を行うことなくパーミュテーションの問題を解消することが可能な音声信号分離装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る音声信号分離装置は、音声信号を含む複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離装置において、上記時間領域の観測信号を時間周波数領域の観測信号に変換する第1の変換手段と、上記時間周波数領域の観測信号から時間周波数領域の分離信号を生成する分離手段と、上記時間周波数領域の分離信号を時間領域の分離信号に変換する第2の変換手段とを有し、上記分離手段は、上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算し、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて上記時間周波数領域の分離信号を生成することを特徴とする。
また、上述した目的を達成するために、本発明に係る音声信号分離方法は、音声信号を含む複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離方法において、上記時間領域の観測信号を時間周波数領域の観測信号に変換する工程と、上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成する工程と、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算する工程と、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正する工程と、略々収束した分離行列を用いて生成された時間周波数領域の分離信号を時間領域の分離信号に変換する工程とを有することを特徴とする。
本発明に係る音声信号分離装置及びその方法によれば、音声信号を含む複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する際に、初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算し、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて生成された時間周波数領域の分離信号を時間領域の分離信号に変換することにより、分離後の後処理を行うことなくパーミュテーションの問題を解消することができる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する音声信号分離装置に適用したものである。特に、本実施の形態における音声信号分離装置は、従来のような1次元確率密度関数を用いて周波数bin毎のエントロピーを計算する代わりに、多次元確率密度関数を用いてスペクトログラム1枚分のエントロピーを計算することにより、分離後の後処理を行うことなくパーミュテーションの問題を解消することができる。以下では先ず、多次元確率密度関数を用いることでパーミュテーションの問題が解消することの理論的根拠及び具体的な計算式について説明し、次いで、本実施の形態における音声信号分離装置の具体的構成について説明する。
先ず、多次元確率密度関数を用いることでパーミュテーションの問題が解消することの理論的根拠について図1を用いて説明する。なお、図1では簡単のため、チャンネル数を2(n=2)とし、周波数binの総数を3(M=3)としているが、任意のn,Mについて同様の説明が適用可能である。
図1において、周波数bin毎の分離が成功し、しかもパーミュテーションが発生していない場合をケース1とし、周波数bin毎の分離は成功したがω=2でパーミュテーションが発生している場合をケース2とする。
従来のように、周波数bin毎に計算したKL情報量I(Y(ω))を最小化する場合、ケース2のω=2でパーミュテーションが発生しているにも関わらずケース1とケース2とでI(Y(2))が同一の値となってしまう。すなわち、KL情報量I(Y(ω))と分離行列W(ω)との関係を模式的に示すと図2(A)のようになり(但し、実際にはW(ω)を1本の軸で表すことはできない)、ケース1,2の何れもKL情報量の最小値をとるため、両者を区別することができない。これが、従来手法によりパーミュテーションが発生する本質的な原因である。
これに対して、本実施の形態における音声信号分離装置では、多次元確率密度関数を用いてチャンネル毎にエントロピーを計算し、全チャンネルで1つのKL情報量を計算する(式の詳細な説明は後述する)。このように、本実施の形態では全チャンネルで1つのKL情報量が計算されるため、ケース1とケース2とでKL情報量は異なる値をとる。さらに、適切な多次元確率密度関数を用意すれば、ケース1のKL情報量をケース2のKL情報量よりも小さくすることができる。すなわち、KL情報量I(Y)と分離行列W(ω)との関係を模式的に示すと図2(B)のようになり、ケース1とケース2とを区別することができる。したがって、従来のような後処理による入れ替えを行わなくても、KL情報量を最小化するだけで信号を分離すると共にパーミュテーションの発生も防ぐことができる。
なお、本実施の形態においても、全ての周波数binでY=S、Y=Sのように分離される場合(ケース3とする)とケース1とではKL情報量が同一の値となるため、区別することができない。しかしながら、ケース3にはパーミュテーションが発生していないため、分離結果がケース3であっても問題はない。
ここで、時間周波数領域の独立成分分析に多次元確率密度関数を導入するには、(a)分離行列をどのような式で更新するか、(b)複素数への対応、(c)どのような多次元確率密度関数を用いるか、の3点を解決する必要がある。以下では、上記3点について順に説明すると共に、(d)変形例、についても併せて説明する。
(a)分離行列Wの更新式
上記式(5)〜(9)は1次元確率密度関数を用いた式であるため、そのままでは多次元確率密度関数に適用することはできない。そこで、以下の手順で、多次元確率密度関数を用いた分離行列Wの更新式を導出する。
観測信号Xと分離信号Yとの関係を表した上記式(4)を、全てのω(1≦ω≦M)について書き下し、それらを1つの式で表現すると、下記式(12)又は下記式(15)のようになる(但し、以下では式(12)を用いる。)。式(12)のベクトル及び行列をそれぞれ1つの変数で表記すると下記式(13)のようになる。また、下記式(12)の同一のチャンネルに由来するベクトルや行列をそれぞれ1つの変数で表記すると下記式(14)のようになる。この式(14)において、Y(t)はスペクトログラムから1フレーム分を切り出して作った列ベクトルを表し、Wijはwij(1),・・・,wij(M)を対角要素とする対角行列を表す。
Figure 0004449871
Figure 0004449871
本実施の形態では、上記式(12)〜(14)のY(t),Y(t)を用いて、KL情報量I(Y)を下記式(16)のように定義する。この式(16)において、H(Y)は各チャンネルについてのスペクトログラム1枚分のエントロピーを表し、H(Y)は全チャンネルについてのスペクトログラム1枚分の同時エントロピーを表す。n=2のときのH(Y)とH(Y)との関係を図3に示す。式(16)のうち、H(Y)はエントロピーの定義により下記式(17)の第1項のように書き換えられ、H(Y)は上記式(13)により下記式(17)の第2項及び第3項のように展開される。この式(17)において、PYk(・)はY(1,t),・・・,Y(M,t)のM次元確率密度関数を表し、H(X)は観測信号Xの同時エントロピーを表す。
Figure 0004449871
観測信号Xを分離するには、KL情報量I(Y)を最小にするような分離行列Wを求めればよく、そのような分離行列Wは、下記式(18)、(19)に従ってWを少しずつ更新することで求めることができる。
Figure 0004449871
ここで、Wの更新は上記式(12)で非0の要素に対してのみ行えばよい。そこで、ΔWとWとから周波数bin=ωの成分のみを取り出した行列ΔW(ω),W(ω)を下記式(20)、(21)のように定義し、下記式(22)に従ってΔW(ω)を計算する。式(22)を全てのωについて計算すれば、ΔWの非0の要素は全て計算できたことになる。この式(22)において、φω(・)は多次元確率密度関数に対応したスコア関数を表し、下記式(23)を経て下記式(24)のように計算される。すなわち、多次元確率密度関数の対数をω番目の引数で偏微分することで得られる。
Figure 0004449871
上記式(8)と上記式(22)との違いは、スコア関数の引数にある。上記式(8)のφ(・)の引数は周波数bin=ωの成分のみであるため、他の周波数binとの相関を反映させることができない。これに対して上記式(22)のφω(・)の引数は全ての周波数binの成分であるため、他の周波数binとの相関を反映させることが可能となる。
なお、詳しくは後述するが、Yは複素数の信号であるため、実際には上記式(22)の代わりに複素数に対応させた式を用いる。
ここで、分離行列Wの更新を繰り返すと、用いる多次元確率密度関数の種類によっては、要素の値がオーバーフローしてしまうことがある。
そこで、上記式(22)におけるΔWの式を以下のように変更し、分離行列Wの要素のオーバーフローを防止するようにしても構わない。
上記式(20)、(21)における行列ΔW(ω),W(ω)のk行目を取り出した行ベクトルΔW(ω),W(ω)を下記式(25)、(26)のように定義する。
Figure 0004449871
(ω)は、観測信号Xのω番目の周波数binからチャンネルk、周波数bin=ωの分離信号Yを生成するためのベクトルであるが、信号が分離されたか否かはW(ω)の要素間の比率(観測信号間の混合比)で決まり、W(ω)の大きさとは関係がない。例えば、観測信号を−1:2で混合するのも−2:4で混合するのも、信号の分離という点では同じことである。図4に示すように、ΔW(ω)をW(ω)に直交する成分ΔW(ω)[C]と、W(ω)と平行な成分ΔW(ω)[P]とに分解した場合、ΔW(ω)[C]は信号の分離に寄与するが、ΔW(ω)[P]はW(ω)を大きくするだけであり、信号の分離には寄与しない。また、W(ω)が大きくなり過ぎると、上述のようにオーバーフローを起こす可能性が高くなる。
したがって、ΔW(ω)を用いてW(ω)を更新する代わりに、ΔW(ω)[C]のみを用いてW(ω)を更新することにより、オーバーフローを防止しつつ、信号を分離することができるようになる。
具体的には、下記式(27)によってΔW(ω)[C]を計算し、下記式(28)のようにΔW(ω)[C]からなる行列ΔW(ω)[C]を用いてW(ω)を更新する。
Figure 0004449871
勿論、下記式(29)のように、Wに直交する成分ΔW[C]を用いてWを更新するようにしても構わない。また、Wと平行な成分ΔW[P]を全く無視するのではなく、下記式(30)のように、ΔW[C],ΔW[P]に対してそれぞれ異なる係数η,η(η>η>0)を乗じて、Wを更新するようにしても構わない。
Figure 0004449871
(b)複素数への対応
時間周波数領域の独立成分分析では複素数の信号を扱うため、Wの更新式を複素数に対応させる必要がある。ここで、従来の1次元確率密度関数を用いた方法では、前述した式(8)を複素数に対応させた下記式(31)が提案されている(特開2003−84793号公報を参照)。この式(31)において、上付き文字の“H”は共役転置(ベクトルを転置すると共に要素を共役複素数に置き換える)を表す。
Figure 0004449871
しかしながら、多次元確率密度関数を用いた方法には上記式(31)を適用することができない。そこで、本実施の形態では、下記式(32)を新たに考案し、この式(32)に基づいて分離行列Wを更新する。なお、下記式(33)のφ(・)はM個の引数をとる関数として表されているが、これは上記式(24)のφ(Y(t))(M次元のベクトルを引数とする関数)と等価である。式(33)のように、関数自体には各引数の絶対値を代入し、関数の返値にω番目の引数の位相成分Y(ω,t)/|Y(ω,t)|を乗じることで、スコア関数を複素数に対応させることができる。
Figure 0004449871
上記式(32)においても、上記式(27)と同様にW(ω)に直交する成分ΔW(ω)[C]を計算ようにしてもよいことは勿論である。
なお、後述の通り、多次元確率密度関数やスコア関数の種類によっては、始めから複素数の入力(引数)に対応しているものもある。そのような関数に対しては上記式(33)の変形は不要であり、その場合、φハット(^)はφと同一と見なす。
(c)用いる多次元確率密度関数
多次元確率密度関数として有名なものに下記式(34)で表される多次元(多変量)正規分布がある。この式(34)において、xはx,・・・,xの列ベクトルを表し、μはxの平均値ベクトルを表し、Σはxの分散共分散行列を表す。
Figure 0004449871
しかしながら、独立成分分析では正規分布を確率密度関数として用いると信号が分離できないことが知られているため、正規分布以外の多次元確率密度関数を用いる必要がある。そこで、本実施の形態では、以下に説明するように、(i)球状分布、(ii)Lノルム、(iii)楕円分布、(iv)Copulaモデル、に基づいて多次元確率密度関数を構築する。
(i)球状分布
球状分布とは、任意の非負関数f(x)(xはスカラー)にベクトルのL2ノルムを代入して多次元化した確率密度関数のことである。L2ノルムとは、要素の絶対値の2乗を総和し、その結果の2乗根をとったものである。本実施の形態では、f(x)として主に1次元確率密度関数(指数分布や1/cosh(x)など)を用いる。したがって、球状分布に基づく確率密度関数は下記式(35)のように表される。この式(35)において、hは全引数について−∞〜+∞の区間で定積分した結果を1に調整するための定数であるが、スコア関数を求める際に約分されて消えるため、具体的な値を求める必要はない。なお、以下ではf(x)の導関数をf’(x)と表記する。
Figure 0004449871
上記式(35)の確率密度関数に対応したスコア関数は、以下の手順で求めることができる。確率密度関数の対数をベクトルxで偏微分すると、下記式(36)のような関数g(x)が得られる(但し、xはベクトル)。g(x)にY(t)を代入したg(Y(t))は、全ての周波数binのスコア関数を含んでいる。すなわち、g(Y(t))=[φk1(Y(t)),・・・,φkM(Y(t))]の関係がある。したがって、下記式(37)のようにg(Y(t))からω行目の要素を抽出することで、スコア関数φkω(Y(t))が得られる。なお、球状分布は要素の絶対値を用いている関係上、始めから複素数の入力にも対応しているため、上記式(33)の変形は不要である。
Figure 0004449871
f(x)に具体的な数式を代入した例を示す。
f(x)が下記式(38)のような1次元の指数分布で表されるとする。この式(38)において、Kはスカラー変数xの分布の広がりに対応した定数であるが、K=1としても構わない。或いは、Y(t)のL2ノルム||Y(t)||の分布の広がりに応じてKの値を変更しても構わない。この式(38)を球状分布で多次元化すると、下記式(39)のような確率密度関数が得られ、対応するg(Y(t))は下記式(40)で表される。
Figure 0004449871
また、f(x)が下記式(41)で表されるとする。この式(41)において、dは正の値である。この式(41)を球状分布で多次元化すると、下記式(42)のような確率密度関数が得られ、対応するg(Y(t))は下記式(43)で表される。
Figure 0004449871
(ii)Lノルム
上述した任意の非負関数f(x)(xはスカラー)にベクトルのLノルムを代入して多次元化することで、Lノルムに基づく多次元確率密度関数を構築することができる。Lノルムとは、要素の絶対値のN乗を総和し、その結果のN乗根をとったものである。Y(t)のLノルム||Y(t)||を非負関数f(x)に代入して多次元化すると、下記式(44)のような多次元確率密度関数が得られる。この式(44)において、hは全引数について−∞〜+∞の区間で定積分した結果を1に調整するための定数であるが、スコア関数を求める際に約分されて消えるため、具体的な値を求める必要はない。上述した球状分布は、このLノルムに基づく多次元確率密度関数においてN=2とした場合に相当する。
Figure 0004449871
また、上記式(44)から複素数に対応したスコア関数を導出すると、下記式(45)が得られる。
Figure 0004449871
上記式(45)において、f(x)が下記式(46)のような1次元の指数分布で表されるとすると、下記式(47)のようなスコア関数が導出される。また、f(x)が下記式(48)で表されるとすると、下記式(49)のようなスコア関数が導出される。この式(46)、(48)において、Kは正の実数であり、d,mは自然数である。
Figure 0004449871
上記式(47)、(49)においてN=2,m=1とすると、上述した球状分布の場合と同じスコア関数が得られ、後述のように、パーミュテーションが発生することなく観測信号を分離することができる。しかしながら、上記式(47)、(49)においてN=1,m=1とすると、分離結果にパーミュテーションが発生してしまう。これは、上記式(47)、(49)の ||Y(t)|| (m−N)という項がN=mの場合は消えてしまい、周波数bin間の相関がΔW(ω)にあまり反映されなくなるためと考えられる。また、N≠mであっても、||Y(t)||=0の場合、すなわちt番目のフレームに信号が存在しない場合には、演算中に0除算が発生してしまう。
そこで、本実施の形態では、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たすように、スコア関数φkω(Y(t))の式を変更する。
ここで、スコア関数φkω(Y(t))の返値が無次元量とは、Y(ω,t)の単位を[x]としたとき、スコア関数の分子と分母とで[x]が相殺され、返値には[x]の次元(nを非ゼロの値としたときに[x]と記述される単位)が含まれないことを表す。
また、スコア関数φkω(Y(t))の返値の位相がω番目の位相と逆位相であるとは、arg{φkω(Y(t))}=−arg{Y(ω,t)}が任意のY(ω,t)について成立することを表す。但し、arg{z}は複素数zの位相成分を表す。例えば、大きさrと位相角 θとを用いてz=r・exp(iθ)と表した場合、arg{z}=θである。
なお、本実施の形態では、上記式(22)、(32)のように、ΔW(ω)={I+E[...]}W(ω)としているため、スコア関数の条件は、返値の位相がω番目の位相と「逆位相」となるが、ΔW(ω)={I−E[...]}W(ω)とした場合には、スコア関数の符号が反転するため、スコア関数の条件は、返値の位相がω番目の位相と「同位相」となる。何れの場合であっても、スコア関数は、返値の位相がω番目の位相にのみ依存するものであればよい。
上述したスコア関数の返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件は、上記式(33)を一般化したものであるため、スコア関数がこの2つの条件を満たしている場合には、上記式(33)の複素数対策は不要である。
以下、具体例を挙げて説明する。
上述の通り、上記式(47)、(49)は、Lノルムに基づく多次元確率密度関数から導出されたスコア関数である。これらのスコア関数は、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たしているため、N≠mではパーミュテーションが発生することなく観測信号を分離することができる。しかしながら、上述の通り、N=mでは||Y(t)|| (m−N)という項が消えてしまうため、分離結果にパーミュテーションが発生してしまう。また、N≠mであっても、||Y(t)||=0の場合、すなわちt番目のフレームに信号が存在しない場合には、演算中に0除算が発生してしまう。
そこで、N=mの場合であっても返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たし、さらに演算中に0除算が発生しないように、上記式(47)、(49)をそれぞれ下記式(50)、(51)のように変更する。この式(50)、(51)において、Lは正の定数であり、例えばL=1とする。また、aは0除算を防止するための定数であり、値は非負である。
Figure 0004449871
上記式(50)、(51)では、||Y(t)||の項がN=mの場合にも残る。また、||Y(t)||=0の場合にも0除算は発生しない。
上記式(50)、(51)において、Y(ω,t)の単位を[x]とすると、[x]を持つ量は分子と分母とで同数(何れもL+1回)出現するため、相殺されてスコア関数全体では無次元量となる(tanhは無次元量と見なす)。さらに、これらの式の返値の位相は、−Y(ω,t)の位相と等しいため、返値の位相はY(ω,t)の位相と逆位相となる。したがって、上記式(50)、(51)で表されるスコア関数は、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たす。
なお、Y(t)のLノルム||Y(t)||を計算する際には、複素数の絶対値を求める必要があるが、下記式(52)、(53)に示すように、複素数の絶対値を実部又は虚部の絶対値で近似してもよく、下記式(54)に示すように、両者の和で近似してもよい。
Figure 0004449871
ここで、複素数を実部と虚部とに分解して保持しているシステムにおいて、z=x+iy(x,yは実数、iは虚数単位)で表される複素数zの絶対値は下記式(55)のように計算される。これに対して実部や虚部の絶対値は、下記式(56)、(57)のように計算されるため、計算量が削減される。特に、L1ノルムの場合には、2乗やルートを用いずに、実数の絶対値と和のみで計算できるため、計算を非常に簡略化することができる。
Figure 0004449871
また、Lノルムの値は、Y(t)のうちで絶対値の大きな成分によってほぼ決まるため、Lノルムの計算の際、Y(t)の全ての成分を用いるのではなく、絶対値の大きな成分の上位x%のみを用いるようにしてもよい。この上位x%は、観測信号のスペクトログラムから事前に求めることができる。
(iii)楕円分布
楕円分布とは、下記式(58)に示すように、列ベクトルxのマハラノビス距離sqrt(xΣ−1x)を任意の非負関数f(x)(xはスカラー)に代入することで生成される多次元確率密度関数のことである。Y(t)を非負関数f(x)に代入して多次元化すると、下記式(59)のような多次元確率密度関数が得られる。この式(59)において、ΣはY(t)の分散共分散行列である。
Figure 0004449871
また、上記式(59)からスコア関数を導出すると、下記式(60)が得られる。この式(60)において、(・)ωは括弧内のベクトルや行列のω行目を抽出することを表す。なお、楕円分布の場合、Y(t)の要素が複素数であってもマハラノビス距離は非負の実数しかとらないため、上記式(33)の複素数対策は不要である。
Figure 0004449871
上記式(60)において、f(x)が下記式(61)で表されるとすると、下記式(62)のようなスコア関数が導出される。この式(61)において、Kは正の実数であり、d,mは自然数である。
Figure 0004449871
しかしながら、上記式(62)を用いて信号を分離しようとすると、分離行列Wの更新を繰り返すうちに要素の値がオーバーフローしてしまう。これは、W←αW(α>1)という更新(新しいWは前回のWのスカラー倍)が一度でも発生すると、以降のWは相似的な拡大しか起こらなくなり、やがて計算機で扱える値の範囲を超えてしまうからである。
そこで、本実施の形態では、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たすように、スコア関数φkω(Y(t))の式を変更する。
ここで、上記式(62)で表されるスコア関数は、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たしていない。すなわち、Y(ω,t)の単位を[x]とすると分散共分散行列Σの単位は[x]であるため、スコア関数全体では[1/x]の次元を持つ。また、分子に現れる(Σ −1(t))ω の演算では、Y(t)のうちでY(ω,t)以外の成分も加算されるため、返値の位相は−Y(ω,t)とは異なったものとなる。
そこで、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たし、さらに演算中に0除算が発生しないように、上記式(62)を下記式(63)のように変更する。この式(63)において、Lは正の定数であり、例えばL=1とする。また、aは0除算を防止するための定数であり、値は非負である。
Figure 0004449871
特に、f(x)が上記式(61)で表され、L=1である場合に導出されるスコア関数を下記式(64)に示す。
Figure 0004449871
なお、Y(t)の分布によっては、分散共分散行列Σの逆行列が存在しない場合がある。そこで、Σの代わりにdiag(Σ)(Σの対角要素からなる行列)を用いたり、逆行列 Σ −1の代わりに一般逆行列(例えば、Moore-Penrose 型一般逆行列)を用いても構わない。
(iv)Copulaモデル
Sklarの定理によると、任意の多次元累積分布関数F(x,・・・,x)は、ある性質を持ったd引数関数C(x,・・・,x)と、各引数の周辺分布関数F(x)とを用いて、下記式(65)の右辺のように変形することができる。このC(x,・・・,x)をCopulaという。言い換えると、Copula C(x,・・・,x)と任意の周辺分布関数F(x)とを組み合わせることで、様々な多次元累積分布関数を構築することができる。なお、Copulaについては、例えば「“COPULAS”(http://gompertz.math.ualberta.ca/copula.pdf)」、「“The Shape of Neural Dependence”(http://wavelet.psych.wisc.edu/Jenison_Reale_Copula.pdf)」、「“Estimation and Model Selection of Semiparametric Copula-Based Multivariate Dynamic Models Under Copula Misspecification”(http://www.nd.edu/~meg/MEG2004/Chen-Xiaohong.pdf)」等のドキュメントに記載されている。
Figure 0004449871
以下、Copulaを用いた多次元確率密度関数の構築法と、分離行列Wの更新式とについて説明する。
累積分布関数(Cumulative Distribution Function;CDF)の上記式(65)を全ての引数で偏微分すると、下記式(66)のような確率密度関数が得られる。この式(66)において、P(x)は引数xの確率密度関数であり、c'(・)はCopulaを全引数で偏微分したものである。
Figure 0004449871
この確率密度関数の対数をω番目の引数で偏微分すると、下記式(67)のようなスコア関数が得られる。これが、Copulaを用いた多次元スコア関数の一般式である。この式(67)において、FYk(ω)(・)はY(ω,t)の累積分布関数であり、PYk(ω)(・)はY(ω,t)の確率密度関数である。この式(67)のc'(・)、FYk(ω)(・)、PYk(ω)(・)に具体的な式を代入することで、様々な多次元スコア関数を構築することができる。
Figure 0004449871
例えば、Copulaの一種に下記式(68)で表されるClayton's copulaがある。この式(68)において、αは引数同士の依存度を表すパラメータである。式(68)を全引数で偏微分すると下記式(69)が得られ、それを上記式(67)に代入すると、スコア関数である下記式(70)が得られる。実際には、さらに上記式(33)を適用することで、複素数に対応したスコア関数を得る。
Figure 0004449871
Yk(ω)(・)、PYk(ω)(・)に具体的な式を代入した例を示す。
各周波数binの分布を指数分布と仮定すると、確率密度関数は下記式(71)のように表すことができる。この式(71)において、Kは分布の広がりに対応した変数であるが、K=1としても構わない。また、指数分布の累積分布関数は下記式(72)のように表すことができる。なお、上記式(33)の複素数対策により、式(72)の引数は非負であるとして構わない。これらを上記式(70)に代入することにより、スコア関数である下記式(73)が得られる。
Figure 0004449871
なお、Copulaを用いたスコア関数では、球状分布、Lノルム、楕円分布を用いたスコア関数と異なり、周波数bin毎に異なる分布を適用することも可能である。例えば、周波数bin内の信号の分布がスーパーガウシアンであるかサブガウシアンであるかに応じて確率密度関数及び累積分布関数を切り換えることもできる。これは、例えば前述したextended infomax法でスコア関数を−[Y(ω,t)+tanh{Y(ω,t)}]と−[Y(ω,t)−tanh{Y(ω,t)}]との間で切り換えることに相当する。
具体的には、スーパーガウシアン用の確率密度関数として下記式(74)に示す指数分布を、累積分布関数として下記式(75)を用意する。また、サブガウシアン用の確率密度関数として下記式(76)を、累積分布関数としてWilliams近似と呼ばれる下記式(77)を用意する。そして、ある周波数binの分布がスーパーガウシアンである場合には式(74)と式(76)とを用い、サブガウシアンである場合には式(75)と式(77)とを用いる。
Figure 0004449871
(d)変形例
上述した(c)(ii)、(iii)では、Lノルム又は楕円分布に基づいてスコア関数を導出した後、返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たすように、スコア関数の式を変更したが、この2つの条件を満たすスコア関数を直接構築しても構わない。
そのようにして構築したスコア関数を下記式(78)に示す。この式(78)において、g(x)は以下のi)〜iv)の条件を満たす関数である。
i) x≧0においてg(x)≧0
ii) x≧0において、g(x)は定数、単調増加関数、又は単調減少関数
iii)g(x)が単調増加又は単調減少である場合、x→∞においてg(x)は正の値に収束する
iv) g(x)はxに対して無次元量
Figure 0004449871
分離に成功するg(x)の例を下記式(79)〜(83)に示す。この式(79)〜(83)において、定数項は上述のi)〜iii)の条件を満たすように定める。
Figure 0004449871
さらに一般化したスコア関数を下記式(84)に示す。このスコア関数は、ベクトルY(t)を引数とする関数f(Y(t))と、スカラーY(ω,t)を引数とする関数g(Y(ω,t))と、返値の位相を決定するための項−Y(ω,t)との積で表される関数である。但し、f(Y(t))及びg(Y(ω,t))は、両者の積が任意のY(t)、Y(ω,t)について以下のv)、vi)の条件を満たすように、それぞれ定める。
v) f(Y(t))及びg(Y(ω,t))は非負の実数
vi) f(Y(t))及びg(Y(ω,t))の次元は[1/x]
(Y(ω,t)の単位を[x]とする)
Figure 0004449871
上述のv)の条件により、スコア関数の位相は−Y(ω,t)と同一となり、スコア関数の返値の位相がω番目の位相と逆位相であるという条件が満たされる。また、上述のvi)の条件により、次元がY(ω,t)と相殺され、スコア関数が無次元量という条件が満たされる。
以上、多次元確率密度関数及びスコア関数の具体的な計算式について説明したが、以下では本実施の形態における音声信号分離装置の具体的な構成について説明する。
本実施の形態における音声信号分離装置の概略構成を図5に示す。この音声信号分離装置1において、n個のマイクロホン10〜10は、n個の音源が発する独立な音を観測し、A/D(Analogue/Digital)変換部11は、この信号をA/D変換して観測信号を得る。短時間フーリエ変換部12は、観測信号を短時間フーリエ変換して観測信号のスペクトログラムを生成する。信号分離部13は、信号モデル保持部14に保持された信号モデルを利用して、観測信号のスペクトログラムを独立な信号に基づくスペクトログラムに分離する。信号モデルとは、具体的には上述の多次元確率密度関数のことであり、分離処理において分離信号のエントロピーを計算するために用いられる。但し、実際には、多次元確率密度関数そのものでなく、確率密度関数の対数を各引数で偏微分したスコア関数が信号モデル保持部14に保持されていればよい。
リスケーリング部15は、分離信号のスペクトログラムの各周波数binに対してスケールを揃える処理を行う。また、分離処理前に観測信号に対して標準化処理(平均や分散の調整)を施していた場合には元に戻す処理を行う。逆フーリエ変換部16は、逆フーリエ変換によって分離信号のスペクトログラムを時間領域の分離信号に変換する。D/A変換部17は、時間領域の分離信号をD/A変換し、n個のスピーカ18〜18は、それぞれ独立の音を再生する。
なお、この音声信号分離装置1では、n個のスピーカ18〜18を介して音を再生するものとしたが、分離信号を出力し、音声認識等に用いるようにすることも可能である。この場合には、逆フーリエ変換処理を適宜省略しても構わない。
この音声信号分離装置の処理の概略を図6のフローチャートを用いて説明する。先ずステップS1において、マイクロホンを介して音声信号を観測し、ステップS2において、観測信号を短時間フーリエ変換してスペクトログラムを得る。次にステップS3において、観測信号のスペクトログラムに対して各チャンネルの周波数bin毎に標準化を行う。この標準化とは、各周波数binの平均を0に、標準偏差を1に揃える操作である。周波数bin毎に平均値を減算することで平均を0にし、さらに標準偏差で除算することで標準偏差を1にすることができる。なお、多次元確率密度関数として球状分布を用いる場合には、他の方法による標準化も可能である。すなわち、周波数bin毎に平均を0にした後、ベクトルのノルム||Y(t)||の1≦t≦Tにおける標準偏差を求め、Yをその値で割ることで、標準化を行うことができる。標準化後の観測信号をX’とすると、何れの標準化もX’=P(X−μ)と表すことができる。ここで、Pは標準偏差の逆数からなる対角行列を表し、μは周波数bin毎の平均値からなるベクトルを表す。
続いてステップS4において、標準化された観測信号に対して分離処理を行う。具体的には、分離行列Wと分離信号Yとを求める。なお、このステップS4における処理の詳細は後述する。ステップS4で得られた分離信号Yは、パーミュテーションは発生していないものの、周波数bin毎にスケールが異なっている。そこでステップS5では、リスケーリング処理を行い、周波数binの間のスケールを揃える。ここでは、標準化処理で変更した平均と標準偏差とを元に戻す処理も行う。なお、ステップS5における処理の詳細は後述する。続いてステップS6において、リスケーリング後の分離信号を逆フーリエ変換によって時間領域の分離信号に変換し、ステップS7においてスピーカから再生する。
上述したステップS4(図6)における分離処理の詳細を図7及び図8を用いて説明する。図7はバッチ処理、図8はオンライン処理を行う場合におけるフローチャートを示したものである。ここで、バッチ処理とは信号全体を纏めて処理する方法であり、オンライン処理とは1サンプル(時間周波数領域の独立成分分析では1フレーム)入力される毎に逐次的に処理する方法である。なお、図7、図8におけるX(t)は標準化された観測信号であり、図6のX’(t)に相当する。
始めに、図7のバッチ処理を行う場合における分離処理について説明する。先ずステップS11において分離行列Wに初期値を代入しておく。初期値としては、例えば単位行列を代入するようにしてもよく、上記式(21)の全てのW(ω)に共通の行列を代入するようにしてもよい。次にステップS12においてWが収束したか否かを判別し、収束している場合には処理を終了し、収束していない場合にはステップS13に進む。
続いてステップS13においてその時点での分離信号Yを計算し、ステップS14において上記式(32)に従ってΔWを計算する。このΔWは周波数bin毎に計算されるため、ωのループを回し、それぞれのωについて上記式(32)を適用する。ΔWを求めたら、ステップS15においてWを更新し、ステップS12に戻る。
なお、図7ではステップS13,S15が周波数binループの外側にある場合について説明したが、これらの処理を周波数binループの内側に移し、前述した図20のステップS103,S105のように計算しても構わない。また、図7ではWが収束するまでWの更新処理を行うものとして説明したが、十分に大きな所定回数だけ繰り返すようにしても構わない。
次に、図8のオンライン処理を行う場合における分離処理について説明する。バッチ処理との違いは、1サンプル与えられる毎にΔWを計算すること、及びΔWの更新式から平均操作Et[・]が消えていることである。すなわち、先ずステップS21において、分離行列Wに初期値を代入しておく。次にステップS22においてWが収束したか否かを判別し、収束している場合には処理を終了し、収束していない場合にはステップS23に進む。
続いてステップS23においてその時点での分離信号Yを計算し、ステップS24においてΔWを計算する。このΔWは周波数bin毎に計算されるため、ωのループを回し、それぞれのωについてΔWを計算する。上述したように、このΔWの更新式からは平均操作Et[・]が消えている。ΔWを求めたら、ステップS25においてWを更新する。ステップS22〜S25の処理は、各フレームについてωのループを回しながら全てのフレームについて繰り返される。
なお、ステップS24におけるηは、固定値(例えば0.1)であってもよく、フレーム番号tが大きくなるにつれて小さくなるように調整してもよい。後者の場合、初めの方のフレームではηを大きく(例えば1)してWの収束を速め、終わりの方のフレームではηを小さくして分離信号の急な変動を防ぐようにすることが好ましい。
次に、上述したステップS5(図6)におけるリスケーリング処理の詳細を図9を用いて説明する。従来、このリスケーリング処理も周波数bin毎に行っていたが、本実施の形態では、上記式(13)のW,X,Y等を用いて全ての周波数binに対して同時にリスケーリング処理を行っている。
上述したステップS4(図6)の分離処理が終了した時点で分離行列Wが求まっている。そこでステップS31では、このWに観測信号X'(t)を乗じることで分離信号Y'(t)を得る。ステップS31におけるPは分散標準化行列である。なお、X'(t)にPμを加えているのは、ステップS3(図6)で平均を0にした観測信号を元に戻すためである。この段階では、まだスケーリングの問題は解消していない。
次にステップS32において、分離信号から音源毎の観測信号を推定することでスケーリング問題を解決する。以下、その原理を説明する。
前述した図15のような状況において、仮に音源kのみが音(原信号k)を出力しているとする。各マイクロホンで観測される信号(音源毎の観測信号)は、音源kの信号に対して各マイクロホンまでの伝達関数を畳み込むことで得られる。ここで、原信号の推定とは異なり、音源毎の観測信号にはスケーリングの不定性がない。これは、原信号の推定では元々小さい原信号が減衰せずにマイクロホンに到達した場合と大きな原信号がマイクロホンに到達するまでに減衰した場合とが区別できないのに対して、音源毎の観測信号では両者を区別する必要がないからである。
推定された原信号でもある分離信号Y’から音源毎の観測信号を推定する手順は以下の通りである。先ず、上記式(14)の左辺のようにY’をチャンネル毎のベクトルY(t)〜Y(t)を使って表現する。次に、Y’の中のY(t)以外を0ベクトルに置き換えたベクトルを作り、YYk(t)とする。YYk(t)は図15で音源kのみが鳴っている状況に相当する。音源毎の観測信号は、XYk(t)=(WP)−1Yk(t)を計算することで得られる。この計算は全チャンネルについて繰り返し行われる。なお、XYk(t)は、上記式(14)の右辺第2項と同様に、全てのマイクロホンについての観測信号を含んでいる。
後段の処理では、XYk(t)をそのまま使用してもよく、特定のマイクロホン(例えば1番目のマイクロホン)の観測信号のみを抽出してもよい。また、マイクロホン毎に信号のパワーを計算し、パワーが最大の信号を抽出しても構わない。これは、音源に最も近いマイクロホンで観測された信号を採用することにほぼ相当する。
以上詳細に説明したように、本実施の形態における音声信号分離装置1によれば、従来のような1次元確率密度関数を用いて周波数bin毎のエントロピーを計算する代わりに、多次元確率密度関数を用いてスペクトログラム1枚分のエントロピーを計算することにより、分離後の後処理を行うことなくパーミュテーションの問題を解消することができる。
以下、具体的な分離結果を示す。
球状分布に基づく多次元確率密度関数である上記式(42)においてK=π/2、d=1、h=1として分離した結果を図10に示す。観測信号は前述した「X_rsm2.wav」というファイルの最初の32000サンプルであり、サンプリング周波数は16kHzである。また、短時間フーリエ変換では、長さ1024のハニング窓をシフト幅128で使用している。したがって、周波数binの個数Mは1024/2+1=513であり、フレームの総数Tは(32000−1024)/128+1=243である。従来のextended infomax法を用いて分離した結果である図21ではパーミュテーションが発生しているため後処理が必要であるのに対して、図10では後処理をしていないにも関わらずパーミュテーションが殆ど発生していない。
また、Lノルムに基づくスコア関数である上記式(49)においてN=K=d=m=1として分離した結果を図11(A)に示し、上記式(51)においてN=K=d=m=1として分離した結果を図11(B)に示す。観測信号は前述した「X_rsm2.wav」というファイルの最初の40000サンプルであり、サンプリング周波数は16kHzである。また、短時間フーリエ変換では、長さ512のハニング窓をシフト幅128で使用している。返値が無次元量であり、且つ、返値の位相がω番目の位相と逆位相であるという条件を満たしていない上記式(49)を用いた場合には、図11(A)中矢印で示すように分離結果にパーミュテーションが発生しているが、この2つの条件を満たした上記式(51)を用いた場合には、図11(B)に示すように、後処理をしていないにも関わらずパーミュテーションは殆ど発生していない。
また、Copulaモデルに基づく多次元確率密度関数である上記式(73)においてK=1、α=1として分離した結果を図12に示す。観測信号及びサンプリング周波数等の条件は図10と同様である。この場合も、後処理をしていないにも関わらずパーミュテーションは殆ど発生していない。
次に、上述の多次元確率密度関数と観測信号の分離結果とを用いて、図1,2のような状態が実現されているか否かを検証した結果を示す。すわなち、パーミュテーションが発生している状態と発生していない状態とを比較したときに、後者の方がKL情報量が小さくなっているか否かを検証した結果を示す。
手順は以下の通りである。すなわち、先ず図10に示すスペクトログラムを用意し、この状態のKL情報量を上記式(17)に従って計算する。なお、この実験においては上記式(17)の第2,3項は定数と見なすことができ、パーミュテーションの有無には影響されないため、この実験では0としても構わない。次に、周波数binを任意に1本選択し、チャンネル間でその周波数binのデータを交換する。すなわち、人工的にパーミュテーションを発生させる。交換したら、再び上記式(17)に従ってKL情報量を計算する。周波数binの重複なしでこの操作を周波数binの総数と同じ回数だけ繰り返すと、最終的にはチャンネル間で全ての信号が入れ替わる。その過程を5段階で示したのが図13(A)〜(E)である。なお、図13(A)〜(E)はそれぞれ周波数binを0%、25%、50%、75%、100%置換したものである。
この操作の後、縦軸をKL情報量、横軸を操作の回数、すなわち交換した周波数binの本数(パーミュテーションの程度でもある)としてプロットすると、図14のようなグラフが得られる。但し、周波数binを選択する順番には任意性があるため、図14では、(a)信号成分の大きい順に選択、(b)ω=1から順に選択、(c)(d)ランダムに選択、という4通りにより実験している。なお、(a)の「信号成分の大きい順」とは、下記式(85)により周波数bin毎(ω毎)に計算される値D(ω)の大きい順のことであり、図13もこの尺度に従ったものである。
Figure 0004449871
図14のグラフでは、4本のプロットは何れも両端が最小値となっている。すなわち、本実施の形態のように多次元確率密度関数を用いて信号を分離することにより、パーミュテーションが発生していない場合(両端)のKL情報量がパーミュテーションが発生しているいかなる場合のKL情報量よりも小さな値をとることが実際のデータからも裏付けられた。
言い換えれば、パーミュテーションの程度と、ある多次元確率密度関数を用いて計算されるKL情報量との関係をプロットしたときに、両端(すなわち、パーミュテーションが発生していない状態)がKL情報量の最小値となるならば、その確率密度関数(或いはその確率密度関数に対応したスコア関数)を用いることで、パーミュテーションを発生させることなく観測信号を分離することができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
例えば、全チャンネルに亘って信号が殆ど存在しない(0に近い成分しか存在しない)周波数binは、分離が成功してもしなくても時間領域の分離信号には殆ど影響しないため、そのような周波数binを省いてスペクトログラムを縮退させることで、計算量を削減し、分離処理を高速化することができる。
スペクトログラムを縮退させる一例としては、観測信号のスペクトログラムを生成した後、周波数bin毎に信号の絶対値が所定の閾値を上回っているか否かの判定を行い、全フレーム且つ全チャンネルにおいて閾値を下回っている周波数binを信号が存在しないと判定してスペクトログラムから除去する方法が挙げられる。但し、後で復元するため、何番目の周波数binを除去したかを記録しておく。信号が存在しない周波数binがm本あるとすると、除去後のスペクトログラムはM−m本の周波数binを持つ。
また、スペクトログラムを縮退させる他の例としては、周波数bin毎に例えば上記式(59)に従って信号の強さを計算し、強さの上位M−m本を採用する(下位m本を除去する)方法が挙げられる。
スペクトログラムを縮退させると、この縮退後のスペクトログラムに対して、標準化、分離処理、リスケーリング処理を行う。さらに、先ほど除去した周波数binを挿入する。なお、除去した信号の代わりに全ての成分が0というベクトルを挿入してもよい。この信号を逆フーリエ変換することで、時間領域の分離信号を得ることができる。
また、上述した実施の形態では、マイクロホンの数と音源数とが一致するものとして説明したが、マイクロホンの数が音源数よりも多い場合にも適用可能である。この場合には、例えば主成分分析(Principal Component Analysis;PCA)を用いることで、マイクロホンの数を音源数まで減らすことができる。
また、上述した実施の形態では、分離行列の修正値ΔW(ω)を求めるアルゴリズムとして自然勾配法を用いたが、非ホロノームアルゴリズムに基づいてΔW(ω)を求めるようにしても構わない。ΔW(ω)を計算する式は、Bを適切な正方行列として、ΔW(ω)=B・W(ω)と書き表すことができる。Bの対角成分が常に0となる式を用いている場合、その式を用いた更新式を非ホロノームアルゴリズムを呼ぶ。なお、非ホロノーム自体については、「岩波書店『統計科学のフロンティア5 多変量解析の展開』」等に記載されている。
非ホロノームアルゴリズムに基づくΔW(ω)の更新式を下記式(86)に示す。この非ホロノームアルゴリズムを用いることで、Wは直交方向にのみ変化するようになるため、Wの演算中のオーバーフローを防止することができる。
Figure 0004449871
多次元確率密度関数を用いることでパーミュテーションの問題が解消することの理論的根拠を説明する図である。 パーミュテーションの発生の有無によるKL情報量の違いを従来と本実施の形態とで比較する図である。 本実施の形態におけるエントロピーと同時エントロピーとを説明する図である。 分離行列W(ω)の修正値ΔW(ω)の行ベクトルΔW(ω)を、分離行列の行ベクトルW(ω)に直交する成分ΔW(ω)[C]と平行な成分ΔW(ω)[P]とに分解した様子を示す図である。 本実施の形態における音声信号分離装置の概略構成を示す図である。 同音声信号分離装置の処理の概略を説明するフローチャートである。 バッチ処理を行う場合における分離処理の詳細を説明するフローチャートである。 オンライン処理を行う場合における分離処理の詳細を説明するフローチャートである。 リスケーリング処理の詳細を説明するフローチャートである。 球状分布に基づく多次元確率密度関数を用いて信号を分離した結果を示す図である。 ノルムに基づくスコア関数を用いて信号を分離した結果を示す図である。 Copulaモデルに基づく多次元確率密度関数を用いて信号を分離した結果を示す図である。 得られた分離信号に対して人工的にパーミュテーションを発生させた場合のスペクトログラムの変化を示す図である。 得られた分離信号に対して人工的にパーミュテーションを発生させた場合のKL情報量の変化を示す図である。 N個の音源から出力された原信号をn個のマイクロホンで観測する状況を示す図である。 時間周波数領域における従来の独立成分分析の概略を示す図である。 観測信号及びそのスペクトログラムと分離信号及びそのスペクトログラムとを示す図である。 ある周波数binに着目した場合における観測信号と分離信号とを示す図である。 従来のエントロピーと同時エントロピーとを説明する図である。 従来の分離処理の詳細を説明するフローチャートである。 1次元確率密度関数を用いて信号を分離した結果を示す図である。 周波数カップリングを行い、1次元確率密度関数を用いて信号を分離した結果を示す図である。
符号の説明
1 音声信号分離装置、10〜10 マイクロホン、11 A/D変換部、12 短時間フーリエ変換部、13 信号分離部、14 信号モデル保持部、15 リスケーリング部、16 逆フーリエ変換部、17 D/A変換部、18〜18 スピーカ

Claims (6)

  1. 音声信号を含む複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離装置において、
    上記時間領域の観測信号を時間周波数領域の観測信号に変換する第1の変換手段と、
    上記時間周波数領域の観測信号から時間周波数領域の分離信号を生成する分離手段と、
    上記時間周波数領域の分離信号を時間領域の分離信号に変換する第2の変換手段とを有し、
    上記分離手段は、上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算し、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて上記時間周波数領域の分離信号を生成する
    ことを特徴とする音声信号分離装置。
  2. 上記時間周波数領域の分離信号は複素信号であり、
    上記スコア関数として、返値の位相成分を1つの引数から計算し、返値の絶対値を1以上の引数から計算するスコア関数を用いることを特徴とする請求項1記載の音声信号分離装置。
  3. 上記スコア関数は、返値が無次元量であり、且つ、返値の位相が1つの引数にのみ依存することを特徴とする請求項1記載の音声信号分離装置。
  4. 音声信号を含む複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離方法において、
    上記時間領域の観測信号を時間周波数領域の観測信号に変換する工程と、
    上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成する工程と、
    この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算する工程と、
    上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正する工程と、
    略々収束した分離行列を用いて生成された時間周波数領域の分離信号を時間領域の分離信号に変換する工程と
    を有することを特徴とする音声信号分離方法。
  5. 上記時間周波数領域の分離信号は複素信号であり、
    上記スコア関数として、返値の位相成分を1つの引数から計算し、返値の絶対値を1以上の引数から計算するスコア関数を用いることを特徴とする請求項4記載の音声信号分離方法。
  6. 上記スコア関数は、返値が無次元量であり、且つ、返値の位相が1つの引数にのみ依存することを特徴とする請求項4記載の音声信号分離方法。
JP2005269128A 2005-01-26 2005-09-15 音声信号分離装置及び方法 Expired - Fee Related JP4449871B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005269128A JP4449871B2 (ja) 2005-01-26 2005-09-15 音声信号分離装置及び方法
US11/338,267 US8139788B2 (en) 2005-01-26 2006-01-24 Apparatus and method for separating audio signals
EP06250401A EP1686831A3 (en) 2005-01-26 2006-01-25 Apparatus and method for separating audio signals
KR1020060007616A KR101197407B1 (ko) 2005-01-26 2006-01-25 음성 신호 분리 장치 및 방법
CN2006100711988A CN1855227B (zh) 2005-01-26 2006-01-26 用于分离音频信号的装置和方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005018822 2005-01-26
JP2005269128A JP4449871B2 (ja) 2005-01-26 2005-09-15 音声信号分離装置及び方法

Publications (2)

Publication Number Publication Date
JP2006238409A JP2006238409A (ja) 2006-09-07
JP4449871B2 true JP4449871B2 (ja) 2010-04-14

Family

ID=36218181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005269128A Expired - Fee Related JP4449871B2 (ja) 2005-01-26 2005-09-15 音声信号分離装置及び方法

Country Status (5)

Country Link
US (1) US8139788B2 (ja)
EP (1) EP1686831A3 (ja)
JP (1) JP4449871B2 (ja)
KR (1) KR101197407B1 (ja)
CN (1) CN1855227B (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558765B2 (en) 2005-01-14 2009-07-07 Ultra-Scan Corporation Multimodal fusion decision logic system using copula model
US8190540B2 (en) * 2005-01-14 2012-05-29 Ultra-Scan Corporation Multimodal fusion decision logic system for determining whether to accept a specimen
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
WO2007100330A1 (en) * 2006-03-01 2007-09-07 The Regents Of The University Of California Systems and methods for blind source signal separation
WO2007108492A1 (ja) * 2006-03-21 2007-09-27 Advantest Corporation 確率密度関数分離装置、確率密度関数分離方法、ノイズ分離装置、ノイズ分離方法、試験装置、試験方法、算出装置、算出方法、プログラム、及び記録媒体
JP4946330B2 (ja) * 2006-10-03 2012-06-06 ソニー株式会社 信号分離装置及び方法
JP5070860B2 (ja) 2007-01-31 2012-11-14 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
GB2465716A (en) * 2007-09-07 2010-06-02 Ultra Scan Corp Multimodal fusion decision logic system using copula model
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
JP5229053B2 (ja) 2009-03-30 2013-07-03 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP5129794B2 (ja) * 2009-08-11 2013-01-30 日本電信電話株式会社 目的信号強調装置とその方法と、プログラム
JP5299233B2 (ja) 2009-11-20 2013-09-25 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
PT105880B (pt) * 2011-09-06 2014-04-17 Univ Do Algarve Cancelamento controlado de ruído predominantemente multiplicativo em sinais no espaço tempo-frequência
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
KR101474321B1 (ko) * 2012-06-29 2014-12-30 한국과학기술원 암묵신호 분리에서의 순열/비례 문제 해결장치 및 그 방법
JP6005443B2 (ja) 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN106297820A (zh) 2015-05-14 2017-01-04 杜比实验室特许公司 具有基于迭代加权的源方向确定的音频源分离
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
CN107894965A (zh) * 2017-11-30 2018-04-10 陕西师范大学 一种用于两组不同类型信号的耦合处理方法
KR101940548B1 (ko) 2018-04-03 2019-01-21 (주)성림산업 컨테이너 백
CN110059757B (zh) 2019-04-23 2021-04-09 北京邮电大学 混合信号的分类方法、装置及电子设备
CN111009256B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
CN112697270B (zh) * 2020-12-07 2023-07-18 广州极飞科技股份有限公司 故障检测方法、装置、无人设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706402A (en) * 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US5959966A (en) * 1997-06-02 1999-09-28 Motorola, Inc. Methods and apparatus for blind separation of radio signals
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
US6691073B1 (en) * 1998-06-18 2004-02-10 Clarity Technologies Inc. Adaptive state space signal separation, discrimination and recovery
JP3887192B2 (ja) 2001-09-14 2007-02-28 日本電信電話株式会社 独立成分分析方法及び装置並びに独立成分分析プログラム及びそのプログラムを記録した記録媒体
JP3950930B2 (ja) * 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
JP3949074B2 (ja) 2003-03-31 2007-07-25 日本電信電話株式会社 目的信号抽出方法及びその装置、目的信号抽出プログラム及びその記録媒体
JP4496379B2 (ja) 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法

Also Published As

Publication number Publication date
US20060206315A1 (en) 2006-09-14
JP2006238409A (ja) 2006-09-07
EP1686831A2 (en) 2006-08-02
US8139788B2 (en) 2012-03-20
KR20060086303A (ko) 2006-07-31
KR101197407B1 (ko) 2012-11-05
EP1686831A3 (en) 2012-10-31
CN1855227A (zh) 2006-11-01
CN1855227B (zh) 2010-08-11

Similar Documents

Publication Publication Date Title
JP4449871B2 (ja) 音声信号分離装置及び方法
JP4556875B2 (ja) 音声信号分離装置及び方法
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
US9668066B1 (en) Blind source separation systems
JP4403436B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
WO2021193093A1 (ja) 信号処理装置、信号処理方法およびプログラム
US11304000B2 (en) Neural network based signal processing device, neural network based signal processing method, and signal processing program
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
WO2022190615A1 (ja) 信号処理装置および方法、並びにプログラム
JP7046636B2 (ja) 信号解析装置、方法、及びプログラム
CN101322183B (zh) 信号失真消除装置、方法
US10839823B2 (en) Sound source separating device, sound source separating method, and program
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP4946330B2 (ja) 信号分離装置及び方法
JP2017032905A (ja) 音源分離システム、方法及びプログラム
JP7518429B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2015141103A1 (ja) 信号処理装置、信号処理方法、および信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100118

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees