JP6253226B2 - 音源分離装置 - Google Patents
音源分離装置 Download PDFInfo
- Publication number
- JP6253226B2 JP6253226B2 JP2012237835A JP2012237835A JP6253226B2 JP 6253226 B2 JP6253226 B2 JP 6253226B2 JP 2012237835 A JP2012237835 A JP 2012237835A JP 2012237835 A JP2012237835 A JP 2012237835A JP 6253226 B2 JP6253226 B2 JP 6253226B2
- Authority
- JP
- Japan
- Prior art keywords
- mask
- unit
- sound
- signal spectrum
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000926 separation method Methods 0.000 title claims description 64
- 238000001228 spectrum Methods 0.000 claims description 74
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000000873 masking effect Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims 3
- 238000000034 method Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
2つのマイクで観測された音声信号の短時間フーリエ変換後の時間周波数平面(t,f)におけるスペクトルをp1, p2とすると、各スペクトルの位相差αは以下の式(1)で表される。
τ= 1/2πfα
θsin-1(τc/lm) ・・・(2)
cは音速、lmはマイク間隔である。音波の到来方向を別手法で推定する、もしくはθをクラスタリングすることにより、音源の方向別に(t,f)領域でのマスクを作成する。
θtは許容誤差、εは十分小さい数である。
推定されたマスクを用いてマスクされた以下の式(4)で示すスペクトルを、逆フーリエ変換してマスク後の信号を得る。
p'1(f,t) = M1(t,f) p1(f,t) ・・・(4)
特許文献3には、ブラインド音声分離にEMアルゴリズムを適用し、最大尤度を与える音源方向と、各時間周波数成分への各音源の寄与率をEMアルゴリズムによって推定する手法が開示されている。特許文献4には、信号分離において、事後確率の類似度を指標として観測信号のクラスタリングを行う手法が開示されている。特許文献5には、音源分離装置において、確率モデルのモデルパラメタと各音源の存在確率を用いて有効音源を抽出する手法が開示されている。
混合前の音声を用いて、それぞれの音源に対応する分離信号を得るためのマスク(理想マスク)を作成して観察すると、M1(t,f)=1となる(t,f)は、ある程度まとまっている傾向にある。すなわち時間・周波数方向にはスペクトルは局所的にはある程度の連続性がある。ところがTDOAにより作成したマスクは孤立点が多い。これはTDOAの推定誤差の影響で、1つの音源からの音が異なるマスクに分類されてしまうためである。そこで、この実施の形態1では、M1(t,f)=1となる(t,f)を近い範囲にまとめることで、より分離性能の高いマスクを作成する。
Δt,Δfはそれぞれ時間・周波数領域での近接範囲を示す。σ1(t,f)<σ2(t,f)であった場合にはM1(t,f)=0,M2(t,f)=1とする。この操作を時間周波数平面に対して行う。さらにそれを繰り返すことで、2つのマスクのうち正しいマスクに集約させることができる。言い換えると、マスクの密集度を高め凝縮させることができる。
図1は、この発明の実施の形態1による音源分離装置のマスク再推定処理を示す説明図である。図1(a)はマスクの初期状態を示し、図1(b)はマスク再推定処理を1回行った状態を示し、図1(c)はマスク再推定処理を2回行った状態を示している。
図1で示す表の列方向は時間を変化させた領域であり、行方向は周波数を変化させた領域である。
図1(a)の初期状態において、マスクM1の領域AはM1(t,f)=1であり、領域BはM1(t+1,f)=1である。一方、マスクM2の領域A´はM2(t,f)=0であり、領域B´はM2(t+1,f)=0である。領域A,A´では密集度がσ1<σ2であることから、M1(t,f)=0,M2(t,f)=1と再推定される。一方、領域B,B´では密集度がσ1>σ2であることから、M1(t,f)=1,M2(t,f)=0と再推定される。
また、図1の例では領域A,A´,B,B´に対して再推定処理を行う構成を示したが、図1で示したその他全ての領域を構成する全ての要素に対して近接要素の影響を勘案して再推定処理を行う。
音源分離装置10は、到来方向算出部1、マスク作成部2、マスク再推定部3およびマスク部4で構成されている。
到来方向算出部1は、第1のマイク20および第2のマイク30でそれぞれ観測された2つの混合音声信号の時間周波数領域(t,f)におけるスペクトルから、第1のマイク20および第2のマイク30からの音波の到来角θ1、θ2を算出する。到来方向θの算出は、上述した式(1)および式(2)を用いて行われる。
この実施の形態2では、複数の音源に寄与するマスクが、1つの分離音声スペクトルに寄与する1つのマスクにまとめられている場合に、適切なマスクに分離する構成を示す。
図3は、この発明の実施の形態2による音源分離装置の構成を示すブロック図である。
なお、以下では、実施の形態1による音源分離装置10の構成要素と同一または相当する部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
この実施の形態3では、実施の形態2で再推定されたマスクが、再推定前のマスクよりも妥当であるか否か音声モデルを用いて検証する構成を示す。
図4は、この発明の実施の形態3による音源分離装置の構成を示すブロック図である。なお、以下では、実施の形態2による音源分離装置10の構成要素と同一または相当する部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
上述した実施の形態2の処理を行うことにより、マスク作成部2が作成した元のマスクM1,M2と、マスク再推定部3のマスク分離処理部3bにより再推定されたマスクM1´,M2´の2通りのマスクが得られる。
マスク部4は、マスク再推定部3から入力されたマスクM1´,M2´を用いて上述した式(4)に基づいて、第1のマイク20および第2のマイク30で観測された音声スペクトルp1,p2をマスキングし、分離音声スペクトルp1´,p2´を得る。さらにマスク部4は、マスク作成部2が作成した元のマスクM1,M2を用いて、第1のマイク20および第2のマイク30で観測された音声スペクトルp1,p2をマスキングし、音声スペクトルp1´´,p2´´を得る。
式(6)において、Nは平均μk、共分散Σk、混合率πkの正規分布である。
尤度算出部5およびマスク選択部7を備えたことにより、元のマスクM1,M2と再推定されたマスクM1´,M2´のうち音声らしさの高いマスクを選択することができる。
上述したように、TDOAによって作られたマスクは低周波数域と高周波数域において性能が低い。低周波数域では位相の変化が小さいため、誤差が生じるためである。また高周波数域でもマイクの間隔よりも短い波長の音波が到来した場合には、位相が2π回転したものと区別がつかない空間的エイリアシングの影響で推定精度が低くなる。この実施の形態4では、信頼性の低い周波数域の分離結果を、音声モデルを用いて補正する構成を示す。
この実施の形態4では、マスク再推定部3をマスク交叉部3cで構成している。マスク交叉部3cは、マスクの性能が低い領域(以下、低信頼領域と称する)においてパーミュテーションが起こっているものとして、マスク作成部2が作成したマスクをそれぞれ交叉させて得られるマスクの組み合わせを生成する。マスク部4は、マスク交叉部3cが生成したマスクの組み合わせを用いて、上述した式(4)に基づいて、第1のマイク20および第2のマイク30で観測された音声スペクトルp1,p2をマスキングし、分離音声スペクトルを得る。
マイクアレイを用いたTDOAの精度は、音波の半波長がマイク間隔以下になると低下する。例えば6cmの間隔のアレイを用いた場合、3kHz以上で空間的エイリアシングが起こることになる。図6は、16kHzサンプリングでの波形とスペクトログラムを示す図である。図6において0Hz〜4kHzを高信頼領域、4kHz〜8kHzを低信頼領域とする。まず低信頼領域をいくつかの帯域に分割する。例えば、低信頼領域である4kHz〜8kHzを、4kHz〜6kHzと6kHz〜8kHzの2つの領域に分割した場合を想定する。
(a) (M1−M1−M1, M2−M2−M2)
(b) (M1−M1−M2, M2−M2−M1)
(c) (M1−M2−M1, M2−M1−M2)
(d) (M1−M2−M2, M2−M1−M1)
そこで、この4通りのマスクのかけ方を用いて8つの分離音声スペクトルを作成する。例えば(a)のマスクのかけ方により2つの分離音声スペクトルが生成されるので、それぞれpa−1,pa−2と呼ぶ。上述した実施の形態3と比較して分離音声スペクトルの生成数が増加する。これは、低信頼領域を2つの領域に分割しているためである。
音声モデルとしては、例えばモノフォンやトライフォンといった単位での音声のGMMが考えられる。上述した式(6)で示したGMMによりモデル化された音声のモデル中の最大尤度を求めることで、音声らしさを判断することができる。
マスクの再推定処理には、様々な方法が適用可能であり、パラメータの調整の余地もある。また、音素や話者によって分離性能の高いマスク推定方法が異なる場合も存在する。そこで、この実施の形態5では、マスク再推定部3がマスクの再推定を行う複数の構成を備える例を示す。
Claims (5)
- 複数の音源からの音声が混合した観測音を時間周波数領域に変換した観測信号スペクトルから、前記各音源から出力された音声の到来方向を算出する到来方向算出部と、
前記到来方向算出部が算出した各到来方向の時間周波数平面において、前記観測信号スペクトルから前記複数の音源のうち対応する音源から出力された目的音声以外の観測音の観測信号スペクトルをマスキングするマスクを作成するマスク作成部と、
前記複数の音源からの音声の特徴に基づいて、前記マスク作成部が作成した各マスクについて、前記目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいて前記マスクを集約する、前記マスクを分離する、または前記マスクを組み合わせる、のうちの少なくともいずれか1つの処理を行い、前記マスクを再推定するマスク再推定部と、
前記マスク再推定部が再推定した各マスクを用いて、前記観測信号スペクトルから前記目的音声以外の観測音の観測信号スペクトルをマスキングし、前記目的音声の観測信号スペクトルを取得するマスク部とを備えた音源分離装置。 - 前記マスク部は、前記マスク作成部が作成した各マスクを用いて、前記観測信号スペクトルから前記目的音声以外の観測音の観測信号スペクトルをマスキングし、前記目的音声の観測信号スペクトルを取得し、
前記マスク部において前記マスク再推定部が再推定したマスクを用いて取得した前記目的音声の観測信号スペクトル、および前記マスク部において前記マスク作成部が作成したマスクを用いて取得した前記目的音声の観測信号スペクトルについて、音声モデルに対するそれぞれの尤度を算出する尤度算出部と、
前記尤度算出部が算出した尤度に基づいて、前記マスク再推定部が再推定したマスク、または前記マスク作成部が作成したマスクのいずれか一方を選択し、選択したマスクを用いてマスキングした前記目的音声の観測信号スペクトルを取得するマスク選択部とを備えたことを特徴とする請求項1記載の音源分離装置。 - 前記マスク再推定部は、前記音声の時間的連続性に基づいて、前記マスク作成部が作成した各マスクについて、前記目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいて同一の音源から出力された前記目的音声の観測信号スペクトルは同一のマスクのマスキングによって取得されるよう前記マスク作成部が作成した各マスクを集約して再推定するマスク集約処理部を備えることを特徴とする請求項2記載の音源分離装置。
- 前記マスク再推定部は、前記音声の倍音構造に基づいて、前記マスク作成部が作成した各マスクについて、前記目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいて異なる音源から出力された前記目的音声の観測信号スペクトルはそれぞれ異なるマスクのマスキングによって取得されるように、前記マスク作成部が作成したマスクを分離して再推定するマスク分離処理部を備えることを特徴とする請求項2または請求項3記載の音源分離装置。
- 前記マスク再推定部は、前記マスク作成部が作成した各マスクの信頼度が低い音声帯域において、前記マスク作成部が作成した複数のマスクを組み合わせてなるマスクの組み合わせを生成するマスク交叉部を備え、
前記マスク部は、前記マスク交叉部が生成したマスクの組み合わせで指定されたマスクを用いて前記観測信号スペクトルから前記目的音声以外の観測音の観測信号スペクトルをマスキングし、前記目的音声の観測信号スペクトルを取得し、
前記尤度算出部は、前記マスク部が取得した各マスクの組み合わせによって取得された前記目的音声の観測信号スペクトルについて、前記音声モデルに対するそれぞれの尤度を算出し、
前記マスク選択部は、前記尤度算出部が算出した尤度に基づいて、前記マスク交叉部が生成したマスクの組み合わせのうち最も尤度の高いマスクの組み合わせを選択し、選択した組み合わせのマスクを用いてマスキングした前記目的音声の観測信号スペクトルを取得することを特徴とする請求項2記載の音源分離装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012237835A JP6253226B2 (ja) | 2012-10-29 | 2012-10-29 | 音源分離装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012237835A JP6253226B2 (ja) | 2012-10-29 | 2012-10-29 | 音源分離装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014089249A JP2014089249A (ja) | 2014-05-15 |
JP6253226B2 true JP6253226B2 (ja) | 2017-12-27 |
Family
ID=50791208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012237835A Expired - Fee Related JP6253226B2 (ja) | 2012-10-29 | 2012-10-29 | 音源分離装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6253226B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10475440B2 (en) * | 2013-02-14 | 2019-11-12 | Sony Corporation | Voice segment detection for extraction of sound source |
CN104464750B (zh) * | 2014-10-24 | 2017-07-07 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
US10629222B2 (en) * | 2015-10-09 | 2020-04-21 | Hitachi, Ltd. | Sound signal procession method and device |
US10878832B2 (en) * | 2016-02-16 | 2020-12-29 | Nippon Telegraph And Telephone Corporation | Mask estimation apparatus, mask estimation method, and mask estimation program |
CN106373589B (zh) * | 2016-09-14 | 2019-07-26 | 东南大学 | 一种基于迭代结构的双耳混合语音分离方法 |
JP6835694B2 (ja) * | 2017-10-12 | 2021-02-24 | 株式会社デンソーアイティーラボラトリ | 騒音抑圧装置、騒音抑圧方法、プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004027774D1 (de) * | 2003-09-02 | 2010-07-29 | Nippon Telegraph & Telephone | Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm |
JP2006243664A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 |
-
2012
- 2012-10-29 JP JP2012237835A patent/JP6253226B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014089249A (ja) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | DeepMMSE: A deep learning approach to MMSE-based noise power spectral density estimation | |
Yan et al. | The catcher in the field: A fieldprint based spoofing detection for text-independent speaker verification | |
Ko et al. | Audio augmentation for speech recognition. | |
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
Xu et al. | Optimization of speaker extraction neural network with magnitude and temporal spectrum approximation loss | |
Du et al. | A regression approach to single-channel speech separation via high-resolution deep neural networks | |
JP6253226B2 (ja) | 音源分離装置 | |
Shi et al. | On the importance of phase in human speech recognition | |
CN109584903B (zh) | 一种基于深度学习的多人语音分离方法 | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
Yu et al. | Time-domain multi-modal bone/air conducted speech enhancement | |
He et al. | Target-speaker voice activity detection with improved i-vector estimation for unknown number of speaker | |
Eskimez et al. | Adversarial training for speech super-resolution | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
WO2015125567A1 (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
JP2008546012A (ja) | オーディオ信号の分解および修正のためのシステムおよび方法 | |
Saito et al. | Voice conversion using input-to-output highway networks | |
JP4457221B2 (ja) | 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム | |
Xu et al. | Deep noise suppression with non-intrusive pesqnet supervision enabling the use of real training data | |
Li et al. | A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech | |
Lee et al. | Sequential deep neural networks ensemble for speech bandwidth extension | |
Nustede et al. | Single-channel speech enhancement with deep complex u-networks and probabilistic latent space models | |
Lee et al. | DeFTAN-II: Efficient multichannel speech enhancement with subgroup processing | |
Tajiri et al. | Non-audible murmur enhancement based on statistical conversion using air-and body-conductive microphones in noisy environments. | |
Wang et al. | Disentangling the impacts of language and channel variability on speech separation networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150918 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6253226 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |