[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2012234150A - 音信号処理装置、および音信号処理方法、並びにプログラム - Google Patents

音信号処理装置、および音信号処理方法、並びにプログラム Download PDF

Info

Publication number
JP2012234150A
JP2012234150A JP2012052548A JP2012052548A JP2012234150A JP 2012234150 A JP2012234150 A JP 2012234150A JP 2012052548 A JP2012052548 A JP 2012052548A JP 2012052548 A JP2012052548 A JP 2012052548A JP 2012234150 A JP2012234150 A JP 2012234150A
Authority
JP
Japan
Prior art keywords
sound
signal
extraction
reference signal
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012052548A
Other languages
English (en)
Inventor
Atsuo Hiroe
厚夫 廣江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012052548A priority Critical patent/JP2012234150A/ja
Priority to US13/446,491 priority patent/US9318124B2/en
Priority to CN2012101105853A priority patent/CN102750952A/zh
Publication of JP2012234150A publication Critical patent/JP2012234150A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】複数の音が混在した音信号から目的音を抽出する装置、方法を提供する。
【解決手段】観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定し、音源抽出部が、観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する。具体的には、入力する複数チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成し、観測信号に基づいて目的音の音方向と音区間を検出する。さらに、目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する。
【選択図】図9

Description

本開示は、音信号処理装置、および音信号処理方法、並びにプログラムに関する。さらに、詳細には音源抽出処理を実行する音信号処理装置、および音信号処理方法、並びにプログラムに関する。
音源抽出処理とは、マイクロホンで観測される複数の原信号が混合された信号(以降「観測信号」または「混合信号」)から、目的の原信号を1つ取り出す処理である。以下では、目的の原信号(すなわち、抽出したい信号)を「目的音」、それ以外の原信号を「妨害音」と呼ぶ。
本開示の音信号処理装置が解決しようとする課題の1つは、複数の音源が存在している環境下において、目的音の音源方向と、目的音の区間とがある程度既知のときにその音を高精度に抽出することである。
言い換えると、目的音と妨害音とが混合している観測信号から、音源方向や区間の情報を用いて、妨害音を消して目的音のみを残すことである。
なお、ここでいう音源方向とは、マイクロホンから見た音源到来方向(direction of arrival:DOA)であり、区間とは音の開始時刻(鳴り始め)と終了時刻(鳴り終わり)との組およびその時間に含まれる信号を意味する。
なお、複数音源に対する方向推定および区間検出処理について開示した従来技術として例えば以下の従来技術がある。
(従来方式1)画像、特に顔の位置や唇の動きを用いる方式
この方式は、例えば特許文献1(特開平10−51889号公報)などに開示がある。具体的には、顔のある方向を音源方向と判断し、唇の動いている区間を発話区間と見なす方式である。
(従来方式2)複数音源対応の音源方向推定に基づく音声区間検出
この方式は、例えば特許文献2(特開2010−121975号公報)などに開示されている。具体的には、観測信号を所定の長さのブロックに分割し、ブロックごとに複数音源対応の方向推定を行なう。次に、音源方向に対するトラッキングを行ない、近い方向同士をブロック間で接続していく方式である。
以下、上述した課題、すなわち、
「複数の音源が存在している環境下において、目的音の方向と区間とがある程度既知のときにその音を高精度に抽出する」
上記の課題について、
A.課題の詳細
B.従来技術を適用した課題解決処理の具体例
C.従来技術における問題点
以上の項目順に説明する。
[A.課題の詳細]
本開示の技術が対象としている課題の詳細について、図1を用いて説明する。
ある環境において、音源(信号の発生源)が複数存在しているとする。音源の1つは目的音を発する「目的音の音源11」であり、残りは妨害音を発する「妨害音の音源14」である。
なお、目的音の音源11は1個だが、妨害音の音源は1個以上とする。図1には1つの「妨害音の音源14」を示しているが、この他の妨害音の音源が存在していてもよい。
目的音の到来方向は既知とし、それを変数θで表わす。図1に示す音源方向θ,12である。なお、方向の基準(方向=0を表わす線)は任意に設定してよい。図1に示す例では、基準方向13として設定している。
目的音の音源化11の音源方向が、例えば、前述の方式、すなわち、
(従来方式1)画像、特に顔の位置や唇の動きを用いる方式
(従来方式2)複数音源対応の音源方向推定に基づく音声区間検出
これらの方式のいずれかを利用して推定された値である場合、θは誤差を含む可能性がある。例えば、θ=π/6ラジアン(=30°)であっても、真の音源方向はそれとは異なる値(例えば35°)である可能性もある。
一方、妨害音については、方向は未知であるか、既知であっても誤差を含んでいるとする。区間も同様とする。例えば、妨害音が鳴り続けている環境でも、その一部の区間しか検出されなかったり、全く検出されなかったりする可能性もある。
図1に示すように、マイクロホンはn個用意する。図1に示すマイクロホン1,15〜n,17である。また、マイクロホン同士の相対的な位置は既知とする。
次に、音源抽出処理に使われる変数について、以下に示す式(1.1〜1.3)を参照して説明する。
なお、明細書中において、
A_bは、Aに下付きの添え字bが設定された表記、
A^bは、Aに上付きの添え字bが設定された表記、
これらを意味する。
k番目のマイクロホンで観測された信号をx_k(τ)とする(τは時刻)。
この信号に対して短時間フーリエ変換(Short time Fourier transform: STFT)を適用すると(詳細は後述)、時間周波数領域の観測信号X_k(ω,t)が得られる。
ただし、
ωは周波数ビン番号、
tはフレーム番号、
をそれぞれ表わす。
各マイクロホンの観測信号X_1(ω,t)〜X_n(ω,t)からなる列ベクトルをX(ω,t)とする(式[1.1])。
本開示構成で対象としている音源抽出は、基本的に、観測信号X(ω,t)に抽出フィルタW(ω)を乗じて抽出結果Y(ω,t)を得ることである(式[1.2])。ただし、抽出フィルタW(ω)はn個の要素からなる行ベクトルであり、式[1.3]として表わされる。
音源抽出の各種方式は、基本的に抽出フィルタW(ω)の算出方法の違いとして分類することができる。
[B.従来技術を適用した課題解決処理の具体例]
複数の音源からの混在信号から目的音を抽出する処理を実現する方式は、
B1.音源抽出方式
B2.音源分離方式
上記2つの方式に大別される。
以下、これらの各方式を適用した従来技術について説明する。
(B1.音源抽出方式)
既知の音源方向と区間とを用いて抽出を行なう音源抽出方式としては、例えば、以下のものが知られている。
B1−1.遅延和アレイ
B1−2.分散最小ビームフォーマー
B1−3.SNR最大化ビームフォーマー
B1−4.目的音の除去と減算に基づく方式
B1−5.位相差に基づく時間周波数マスキング
これらは、いずれも、マイクロホンアレイ(複数のマイクロホンをそれぞれ位置を変えて設置したもの)を用いる方式である。それぞれの方式の詳細については、特許文献3(特開2006−72163号公報)などを参照されたい。
以下、各方式の概要について説明する。
(B1−1.遅延和アレイ)
各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和すると、目的音は位相が揃っているために強調され、それ以外の方向からの音は少しずつ位相が異なるため減衰する。
具体的には、S(ω,θ)を方向θに対応したステアリングベクトル(ある方向から到来する音について、マイク間の位相差を表わしたベクトル。詳細は後述)として、以下に示す式[2.1]によって抽出結果を得る。
ただし、上付きのHはエルミート転置(ベクトルまたは行列を転置すると共に各要素を共役複素数に変換)を表わす。
(B1−2.分散最小ビームフォーマー)
目的音の方向のゲインを1(強調も減衰もしない)かつ妨害音の方向には死角(感度の低い方向。null beamとも呼ばれる)を持つフィルタを形成することで、目的音のみを抽出する。
(B1−3.SNR最大化ビームフォーマー)
以下のa)とb)との比V_s(ω)/V_n(ω)を最大にするフィルタW(ω)を求める方式。
a)目的音のみが鳴っている区間に抽出フィルタW(ω)を適用した結果の分散V_s(ω)
b)妨害音のみが鳴っている区間に抽出フィルタW(ω)を適用した結果の分散V_n(ω)
この方式では、それぞれの区間が検出できれば目的音の方向は不要である。
(B1−4.目的音の除去と減算に基づく方式)
観測信号から目的音を除去した信号(目的音除去信号)をいったん生成し、観測信号(または遅延和アレイ等によって目的音が強調された信号)から目的音除去信号を減算すると、目的音のみが残る。
この方式の1つである Griffith−Jim ビームフォーマーは、減算として通常の引き算を用いている。他に、スペクトルサブトラクション等の、非線形な減算を用いる方式も存在する。
(B1−5.位相差に基づく時間周波数マスキング)
周波数マスキングとは、周波数ごとに異なる係数を乗じることで、妨害音の支配的な周波数の成分はマスクする(抑圧する)一方で、目的音が支配的な周波数の成分は残すことによって、目的音の抽出を行なう方式である。
時間周波数マスキングとは、マスクの係数を固定ではなく時間ごとに変更する方式であり、マスクの係数をM(ω,t)とすると、抽出は、式[2.2]で表わすことができる。なお、右辺の第2項は、X_k(ω,t)の他に、他の方式による抽出結果を用いてもよい。例えば、遅延和アレイによる抽出結果(式[2.1])にマスクM(ω,t)を乗じてもよい。
一般的に、音信号は周波数方向にも時間方向にもスパース(疎)であるため、たとえ目的音と妨害音とが同時に鳴っていても、目的音が支配的な時間および周波数が存在する場合が多い。そのような時間・周波数を見つけ出す方法として、マイクロホン間の位相差を用いるものがある。
位相差を用いた時間周波数マスキングとしては、例えば特許文献4(特開2010−20294号公報)に記載の「変形例1.周波数マスキング」を参照されたい。この例では、独立成分分析(Independent Component Analysis: ICA)によって求めた音源方向および位相差からマスクの係数を計算しているが、他の方法で求めた位相差に対しても、適用可能である。以下では、音源抽出の観点から説明する。
簡単のため、マイクロホンは2つとする。すなわち、図1において、マイクロホン数:n=2とする。
仮に妨害音がなかったら、マイクロホン間の位相差と周波数とのプロットはほぼ直線上に並ぶ。例えば図1において音源が唯一の目的音の音源11しか存在しない場合、音源からの音はマイクロホン1,15に先に到着し、その一定時間後にマイクロホン2,16に到着する。
両マイクロホンの観測信号、すなわち、
マイクロホン1,15の観測信号:X_1(ω,t),
マイクロホン2,16の観測信号:X_2(ω,t)、
これらを比較すると、
X_2(ω,t)の方が位相が遅れている。
従って、両者の位相差を前記の式[2.4]で計算し、位相差と周波数ビン番号ωとの関係をプロットすると図2に示す対応関係が得られる。
位相差の点22は直線21の上に並ぶ。到達時間差は音源方向θに依存するため、直線21の傾きも音源方向θに依存する。angle(x)は複素数xの偏角を求める関数であり、
angle(A exp(jα))=α
である。
一方、妨害音が存在すると、観測信号の位相は妨害音の影響を受けるため、位相差のプロットは直線からずれる。ずれの大きさは妨害音の影響の大きさに依存する。言い換えると、ある周波数および時間において位相差の点が直線の近くにある場合、その周波数および時間では妨害音の成分が小さいことを表わしている。従って、そのような周波数および時間の成分を残し、それ以外は抑圧するようなマスクを生成・適用すれば、目的音の成分のみを残すことができる。
図3は、妨害音が存在する環境で図2と同様のプロットを行なった例である。直線31は図2に示す直線21と同様だが、妨害音の影響のため、位相差がこの直線上から外れた点が存在する。例えば点33である。直線31上から大きく外れた点のある周波数ビンは、妨害音の成分が大きいことを意味しているので、そのような周波数ビンの成分を減衰させる。例えば、位相差の点と直線とでずれ、すなわち図3に示すずれ32を計算し、このずれの値が大きいほど、前述の式[2.2]のM(ω,t)を0に近い値、逆に位相差の点が直線に近いほどM(ω,t)を1に近い値に設定する。
時間周波数マスキングは、分散最小ビームフォーマーやICAと比べて計算量が小さく、また、無指向性の妨害音(環境ノイズ等、音源方向が不明確な音)も除去できるという利点がある。その反面、スペクトル上において不連続な箇所が発生することで、波形に戻した際にミュージカルノイズが発生しやすいとう課題もある。
(B2.音源分離方式)
以上、音源抽出の従来方式について説明したが、場合によっては、音源分離の各種方式も適用可能である。すなわち、同時に鳴っている複数の音源を音源分離によって生成した後、音源方向などの情報を用いて目的の信号を1つ選択するという方法である。
音源分離の方式としては、以下のものが挙げられる。
B2−1.独立成分分析(Independent Component Analysis:ICA)
B2−2.死角ビームフォーマー
B2−3.Geometric constrained Source Separation(GSS)
以下、これらの方式の概要について説明する。
(B2−1.独立成分分析(Independent Component Analysis:ICA)
分離行列W(ω)の適用結果であるY(ω)の各成分が統計的に独立になるようにW(ω)を求める。詳細は特開2006−238409号公報等を参照されたい。また、ICAによる分離結果から音源方向を求める方法については、前述の特許文献4(特開2010−20294号公報)を参照されたい。
通常のICAは、マイクロホンと同じ数の分離結果を生成するが、それとは別に、デフレーション法と呼ばれる、原信号を1つずつ抽出していく方式も存在しており、例えば脳磁図(Magnetoencephalography:MEG)等の信号の解析に使用されている。しかし、時間周波数領域の信号に対してデフレーション法を単純に適用すると、どの原信号が最初に抽出されるかが周波数ビンによって異なるという現象が発生してしまう。そのため、時間周波数信号の抽出においてデフレーション法は用いられていない。
(B2−2.死角ビームフォーマー)
各音源方向に対応したステアリングベクトル(生成方法は後述)を横に並べた行列を生成し、その(擬似)逆行列を求めると、観測信号をそれぞれの音源に分離する行列が得られる。
具体的には、目的音の音源方向をθ_1、妨害音の音源方向をθ_2〜θ_mとし、各音源方向に対応したステアリングベクトルを横に並べて行列N(ω)を作る(式[2.4])。N(ω)の擬似逆行列と観測信号ベクトルX(ω,t)とを乗じると、分離結果を要素に持つベクトルZ(ω,t)が得られる(式[2.5])。(上付きの#は、擬似逆行列を表わす。)
目的音の方向はθ_1であるため、目的音はZ(ω,t)の一番上の要素である。
また、N(ω)^#の1行目は、目的音以外の全ての音源の方向に死角(null beam)を形成したフィルタとなっている。
(B2−3.Geometric constrained Source Separation(GSS))
以下の2つの条件を満たす行列W(ω)を求めると、死角ビームフォーマーよりも高精度の分離フィルタが得られる。
a)W(ω)はN(ω)の(擬似)逆行列
b)W(ω)の適用結果Z(ω,t)は統計的に無相関
[C.従来技術の問題点]
次に、上述した従来技術における問題点について説明する。
前述の課題設定では目的音の方向と区間とを既知としていたが、これらが常に高い精度で得られるとは限らない。すなわち、以下のような課題がある。
1)目的音の方向が不正確な(誤差を含んでいる)場合がある。
2)妨害音については、区間が検出できるとは限らない。
例えば、画像を用いる方法では、カメラとマイクロホンアレイとの位置のずれにより、顔の位置から計算される音源方向とマイクロホンアレイに対しての音源方向とは、ずれが生じる可能性がある。また、顔位置とは無関係の音源や、カメラ画角外の音源については、区間が検出できない。
一方で、音源方向推定に基づく方式では、方向の精度と計算量との間にトレードオフがある。例えば、音源方向推定として、MUSIC法を用いると、死角をスキャンする際の角度の刻み幅を小さくすると精度が上がる反面、計算量が増える。
なお、MUSIC法は、MUltiple SIgnal Classificationの略である。MUSIC法は、空間フィルタリング(特定方向の音を透過したり抑圧したりする処理)の観点からは、以下の2つのステップ(S1),(S2)の処理として説明できる。なお、MUSIC法の詳細については、特許文献5(特開2008−175733号)などを参照されたい。
(S1)ある区間(ブロック)内で鳴っている全ての音源の方向に死角を向けた空間フィルタを生成する。
(S2)そのフィルタについて指向特性(方向とゲインとの関係)を調べ、死角が表れている方向を求める。
また、抽出に最適な音源方向は、周波数ビンごとに異なる。そのため、全周波数から音源方向を1つだけ求めた場合、周波数ビンによっては最適な値とのずれが生じる。
このように、目的音の方向が不正確だったり、妨害音の検出に失敗したりした場合に、従来の方法の中には、抽出(または分離)の精度が低下するものが存在する。
また、音源抽出を他の処理(音声認識や録音など)の前段処理として用いる場合、以下の要件を満たすのが望ましい。
低遅延:
区間の終了から抽出結果(または分離結果)が生成されるまでの時間が短い。
高追従性:
区間の開始の時点から高い精度で抽出されている。
しかし、従来法ではこれら全ての要件を満たすものは存在していなかった。以下では、上述した各方式の問題点について述べる。
(C1.遅延和アレイの問題点(B1−1))
方向が不正確でも、ある程度までなら影響は少ない。
しかし、マイクロホンの個数が少ない場合(例えば3〜5個程度)、妨害音はあまり減衰しない。すなわち、目的音が少々強調される程度の効果しかない。
(C2.分散最小ビームフォーマーの問題点(B1−2))
目的音の方向に誤差がある場合に、抽出の精度が急激に低下する。なぜなら、ゲインを1に固定する方向と目的音の真の方向とがずれている場合、目的音の方向にも死角を形成し、目的音も減衰させてしまうからである。すなわち、目的音と妨害音との比率(SNR)が大きくならない。
この問題に対処するため、目的音が鳴っていない区間の観測信号を用いて抽出用フィルタを学習する方式もある。しかしその場合、その区間に目的音以外の音源が全て鳴っている必要がある。言い換えると、目的音が鳴っている区間でのみ存在している妨害音があっても、それは除去できない。
(C3.SNR最大化ビームフォーマーの問題点(B1−3))
音源方向は使用しないので、目的音の方向が不正確でも影響は受けない。
しかし、
a)目的音のみが鳴っている区間と、
b)目的音以外の全ての音源が鳴っている区間、
これらの両方が必要であるため、どちらかが取得できない場合は適用できない。例えば、妨害音の1つがほぼ鳴りっぱなしである場合、a)は取得できない。また、目的音が鳴っている区間でのみ鳴っている妨害音が存在する場合、b)は取得できない。
(C4.目的音の除去と減算に基づく方式の問題点(B1−4))
目的音の方向に誤差がある場合に、抽出の精度が急激に低下する。なぜなら、目的音の方向が不正確である場合、目的音が完全には除去されず、その信号を観測信号から減算すると、目的音もある程度は除去されてしまうからである。
すなわち、目的音と妨害音との比率が大きくならない。
(C5.位相差に基づく時間周波数マスキングの問題点(B1−5))
方向が不正確でも、ある程度までなら影響は少ない。
しかし、低い周波数ではもともとマイクロホン間の位相差があまりないため、高精度な抽出ができない。
また、スペクトル上に非連続な箇所が発生しやすいため、波形に戻したときにミュージカルノイズが発生する場合がある。
また、別の問題として、時間周波数マスキングの処理結果のスペクトルは、自然の音声のスペクトルとは異なるため、後段に音声認識等を組み合わせた場合に、抽出はできている(妨害音は除去できている)にも関わらず音声認識の精度が向上しない場合もあり得る。
さらに、目的音と妨害音とが重複する度合いが高くなると、マスクされる箇所が増えるため、抽出結果の音量が小さくなったり、ミュージカルノイズの度合いが大きくなったりする可能性がある。
(C6.独立成分分析(Independent Component Analysis:ICA)の問題点(B2−1))
音源方向を用いないため、方向が不正確でも分離への影響はない。
しかし、他の方式と比べて計算量が大きいため、バッチ処理(区間全体の観測信号を用いる方式)では遅延が大きくなる。しかも目的音が1つの場合、n個(nはマイクロホンの個数)の分離信号のうちの1個しか採用しないにもかかわらず、分離に要する計算量および使用メモリ量はn個の場合と同じである。それどころか、信号を選択する処理が必要となるため、その分の計算量が増えると共に、目的音とは異なる信号が選択される可能性も発生する(「選択誤り」と呼ぶ)。
なお、特許文献6(特開2008−147920号公報)に記載のあるずらし適用やオンラインアルゴリズムなどによってリアルタイム化すると、遅延を少なくすることはできる反面、追従遅れが発生する。すなわち、初めて鳴る音源については、区間の開始近くでは抽出精度が低く、区間の終端に近づくにつれて抽出精度が高くなるという現象が発生する。
(C7.死角ビームフォーマーの問題点(B2−2))
妨害音の方向が不正確である場合に、分離の精度が急激に低下する。なぜなら、妨害音の真の方向とは異なる方向に死角を形成するため、妨害音が除去されないからである。
また、妨害音を含めて区間内の全ての音源方向が既知である必要がある。検出されなかった音源は、除去されない。
(C8.Geometric constrained Source Separation (GSS)の問題点(B2−3))
方向が不正確でも、ある程度までなら影響は少ない。
しかしこの方式も、妨害音を含めて区間内の全ての音源方向が既知である必要がある。
以上をまとめると、以下の要件を全て満たす方式は、従来は存在していなかった。
・目的音の方向が不正確でも、影響が少ない。
・妨害音の区間と方向が未知でも、目的音が抽出できる。
・低遅延かつ高追従性。
特開平10−51889号公報 特開2010−121975号公報 特開2006−72163号公報 特開2010−20294号公報 特開2008−175733号 特開2008−147920号公報
本件は、このような状況に鑑みてなされたものであり、例えば、目的音の方向が不正確でも、影響が少なく、妨害音の区間と方向が未知でも、目的音の抽出を可能とした低遅延かつ高追従性の音源抽出を行う音信号処理装置、および音信号処理方法、並びにプログラムを提供することを目的とする。
例えば本開示の一実施例においては、目的音の時間エンベロープを参照信号(リファレンス)として用いた音源抽出を行う。
また、本開示の一実施例においては、目的音の方向から、時間周波数マスキングを用いて目的音の時間エンベロープを生成する。
本開示の第1の側面は、
異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析部と、
前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出部を有し、
前記観測信号解析部は、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換部と、
前記短時間フーリエ変換部の生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定部を有し、
前記音源抽出部は、
前記方向・区間推定部から入力する目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理装置にある。
さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記目的音以外の信号である妨害音を含む観測信号から計算される位相差情報と、前記ステアリングベクトルの類似度を反映した時間周波数マスクを生成する時間周波数マスク生成部と、前記時間周波数マスクに基づいて前記参照信号を生成する参照信号生成部を有する。
さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果を生成し、該マスク適用結果から得られる各周波数ビンの時間エンベロープを平均して全周波数ビン共通の参照信号を算出する。
さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記時間周波数マスクを周波数ビン間で直接平均して全周波数ビン共通の参照信号を算出する。
さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果、または前記時間周波数マスクから周波数ビン単位の参照信号を生成する。
さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記音信号入力部に構成される各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和した遅延和アレイの結果に対して、前記時間周波数マスクを適用したマスク適用結果を生成し、該マスク適用結果から前記参照信号を取得する。
さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記観測信号に対して前記ステアリングベクトルを適用した演算処理結果として得られる遅延和アレイの処理結果から参照信号を生成する参照信号生成部を有する。
さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、音源抽出処理の処理結果として得られる目的音を参照信号として利用する。
さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、音源抽出処理によって抽出結果を生成し、その抽出結果から参照信号を生成し、その参照信号を利用して音源抽出処理を再度行うというループ処理を任意の回数だけ実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、前記参照信号に基づいて、前記観測信号から前記目的音を抽出する抽出フィルタを生成する抽出フィルタ生成部を有する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから重みつき共分散行列を計算し、つき共分散行列に対して固有値分解(eigenvalue decomposition)を適用して得られる複数の固有ベクトル(eigenvector(s))から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のN乗(Nは正の実数)の逆数を用い、前記固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のN乗(Nは正の実数)を用い、前記固有ベクトル選択処理として、最大の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、抽出結果Yに対して、前記参照信号のN乗(Nは正の実数)の逆数を重みとして乗じた信号の分散である抽出結果の重みつき分散を最小とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、抽出結果Yに対して、前記参照信号のN乗(Nは正の実数)を重みとして乗じた信号の分散である抽出結果の重みつき分散を最大とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記固有ベクトル選択処理として、前記ステアリングベクトルと最も強く対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する。
さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから、前記参照信号のN乗(Nは正の実数)の逆数を重みとする重みつき観測信号行列を計算し、重みつき観測信号行列に対して特異値分解(singular value decomposition)を適用して得られる複数の固有ベクトル(eigenvector(s))から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する。
さらに、本開示の第2の側面は、
異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音信号を抽出する音源抽出部を有し、
前記音源抽出部は、
予め設定された前記目的音の音方向と既定の長さの音区間とに基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を前記既定の音区間単位で抽出する音信号処理装置にある。
さらに、本開示の第3の側面は、
音信号処理装置において実行する音信号処理方法であり、
観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析ステップと、
音源抽出部が、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出ステップを実行し、
前記観測信号解析ステップにおいて、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行し、
前記音源抽出ステップにおいて、
前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理方法にある。
さらに、本開示の第4の側面は、
音信号処理装置において音信号処理を実行させるプログラムであり、
観測信号解析部に、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定させる観測信号解析ステップと、
音源抽出部に、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出させる音源抽出ステップを実行させ、
前記観測信号解析ステップにおいて、
入力する前記複数チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行させ、
前記音源抽出ステップにおいて、
前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出させるプログラムにある。
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本開示の一実施例の構成によれば、複数の音が混在した音信号から目的音を抽出する装置、方法が実現される。
具体的には、観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が入力した多チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定し、音源抽出部が、観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する。
例えば、入力する多チャンネルの音信号に対する短時間フーリエ変換により時間周波数領域の観測信号を取得し、観測信号に基づいて目的音の音方向と音区間を検出する。さらに、目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する。
音源抽出処理を行う場合の具体的環境の一例について説明する図である。 複数のマイクロホンに入力する音の位相差と周波数ビン番号ωとの関係グラフを示す図である。 妨害音が存在する環境で、図2と同様の複数のマイクロホンに入力する音の位相差と周波数ビン番号ωとの関係グラフを示す図である。 音信号処理装置の一構成例を示す図である。 音信号処理装置の実行する処理について説明する図である。 音源抽出部の実行する音源抽出処理の具体的処理シーケンスの一例につい説明する図である。 ステアリングベクトルの生成方法を説明する図である。 マスクの値から参照信号である時間エンベロープを生成する方法について説明する図である。 音信号処理装置の一構成例を示す図である。 短時間フーリエ変換(STFT)処理の詳細について説明する図である。 音源抽出部の詳細について説明する図である。 抽出フィルタ生成部の詳細について説明する図である。 音信号処理装置の実行する処理について説明するフローチャートを示す図である。 図13のフローにおけるステップS104で実行する音源抽出処理の詳細について説明するフローチャートを示す図である。 図14のフローにおけるステップS201で実行する区間の調整の詳細と、そのような処理を行なう理由について説明する図である。 図14のフローにおけるステップS204において実行する抽出フィルタ生成処理の詳細について説明するフローチャートを示す図である。 全周波数ビンで共通の参照信号を生成する例と、周波数ビンごとに参照信号を生成する例について説明する図である。 多チャンネルで録音し、再生時に本発明を適用する実施例について説明する図である。 特異値分解を用いて抽出フィルタを生成する処理について説明するフローチャートを示す図である。 観測信号の区間を固定長とすることで発話終了を待つことなく低遅延で抽出結果を生成・出力するリアルタイム音源抽出処理シーケンスについて説明するフローチャートを示す図である。 図20のフローにおけるステップS606で実行する音源抽出処理の詳細について説明するフローチャートを示す図である。 観測信号からの固定長区間の切り出し処理について説明する図である。 本開示に従った音源抽出処理の効果を確認するための評価実験を行なった収録環境を説明する図である。 本開示に従った音源抽出処理と従来方式の各方式のSIR改善データについて説明する図である。 本開示に従った音源抽出処理と従来方式の音源抽出処理の計算量を比較データであり、各方式の平均CPU処理時間を示す図である。
以下、図面を参照しながら音信号処理装置、および音信号処理方法、並びにプログラムの詳細について説明する。
以下、以下に示す項目に従って処理の詳細について説明する。
1.本開示の音信号処理装置の構成と処理の概要について
1−1.音信号処理装置の構成と全体処理について、
1−2.目的音の時間エンベロープを参照信号(リファレンス)として用いた音源抽出処理について
1−3.目的音の方向から、時間周波数マスキングを用いて目的音の時間エンベロープを生成する処理について
2.本開示の音信号処理装置の詳細構成と具体的な処理について
3.変形例について
4.本開示の処理による効果についてのまとめ
5.本開示の構成のまとめ
以下、上記項目に従って説明する。
なお、明細書中における表記は、前述したように、
A_bは、Aに下付きの添え字bが設定された表記、
A^bは、Aに上付きの添え字bが設定された表記、
これらを意味する。
また、
conj(X)は、複素数Xの共役複素数を表わす。式の上では、Xの共役複素数はXに上線をつけて表わす。
hat(x)は、xの上に"^"をつけることを表わす。
値の代入は、"="または"←"で表わす。特に、両辺で等号が成立しないような操作(例えば"x←x+1")については、"←"で表わす。
[1.本開示の音信号処理装置の構成と処理の概要について]
本開示の音信号処理装置の構成と処理の概要について説明する。
(1−1.音信号処理装置の構成と全体処理について)
図4は、本開示の音信号処理装置の構成例を示す図である。
図4に示すように、音信号処理装置100は、複数のマイクから構成される音信号入力部101、音信号入力部101の入力信号(観測信号)を入力して、入力信号の解析処理、具体的には、例えば抽出対象とする目的音源の音区間や方向を検出する観測信号解析部102、観測信号解析部102の検出した目的音の音区間単位の観測信号(複数音の混在信号)から目的音源の音を抽出する音源抽出部103を有する。音源抽出部103が生成した目的音の抽出結果110は、例えば音声認識等の処理を行う後段処理部に出力される。
図4に示す各処理部の具体的処理例について図5を参照して説明する。
図5には、以下の各処理を個別に示している。
ステップS01:音信号入力
ステップS02:区間検出
ステップS03:音源抽出
これらの3つの処理は、それぞれ図4に示す音信号入力部101、音区間検出部102、音源抽出部103の処理に対応する。
ステップS01の音信号入力処理は、図4に示す音信号入力部101の処理であり、複数のマイクを介して複数音源からの音信号を入力する。
図に示す例では、3つの音源から、それぞれ、
「さようなら」
「こんにちは」
音楽
が観測されている状態を示している。
ステップS02の区間検出処理は、図4に示す観測信号解析部102の処理である。観測信号解析部102は、音信号入力部101の入力信号(観測信号)を入力して、抽出対象とする目的音源の音区間を検出する。
図に示す例では、
「さようなら」の音声区間=(3)
「こんにちは」の音声区間=(2)
音楽の音声区間(1)と(4)
これらの区間(音区間)を検出した例を示している。
ステップS03の音源抽出処理は、図4に示す音源抽出部103の処理である。音源抽出部103は、観測信号解析部102の検出した目的音の音区間単位の観測信号(複数音の混在信号)から目的音源の音を抽出する。
図に示す例では、
「さようなら」の音声区間=(3)
「こんにちは」の音声区間=(2)
音楽の音声区間(1)と(4)
これらの音区間の音源抽出を行う例をそれぞれ示している。
ステップS03に示す音源抽出部103の実行する音源抽出処理の具体的処理シーケンスの一例について図6を参照して説明する。
図6は、音源抽出部103の実行する音源抽出処理のシーケンスをステップS11〜S14の4つの処理として示している。
ステップS11は、抽出対象とする目的音の音区間単位の観測信号の切り出し処理の結果である。
ステップS12は、抽出対象とする目的音の方向の解析処理の結果である。
ステップS13は、ステップS11において取得した目的音の音区間単位の観測信号と、ステップS12において取得した目的音の方向情報に基づいて、参照信号(リファレンス)を生成する処理である。
ステップS14は、ステップS11において取得した目的音の音区間単位の観測信号と、ステップS12において取得した目的音の方向情報と、ステップS13において生成した参照信号(リファレンス)を利用して、目的音の抽出結果を得る処理である。
音源抽出部103は、例えば図6に示すステップS11〜S14の処理を実行して、目的とする音源の抽出、すなわち目的以外の妨害音を極力排除した目的音から構成される音信号を生成する。
次に、本開示の音信号処理装置において実行する処理中、以下の2つの処理の詳細について、順次、説明する。
(1)目的音の時間エンベロープを参照信号(リファレンス)として用いた音源抽出処理。
(2)目的音の方向から時間周波数マスキングを用いて行う目的音の時間エンベロープの生成処理。
(1−2.目的音の時間エンベロープを参照信号(リファレンス)として用いた音源抽出処理について)
まず、目的音の時間エンベロープを参照信号(リファレンス)として用いた音源抽出処理について説明する。
目的音の時間エンベロープが既知とし、フレームtでの時間エンベロープの値をr(t)とする。なお、時間エンベロープとは、時間方向の音量の変化の概形のことである。エンベロープの性質より、r(t)は実数であり、しかも常に0以上の値をとる。一般に、同一の音源に由来する信号であれば、異なる周波数ビンでも似た時間エンベロープを持つ。すなわち、音源が大きな音で鳴っている瞬間はどの周波数も大きな成分を持ち、小さな音で鳴っている瞬間はどの周波数も小さな成分を持つ傾向がある。
また、抽出結果Y(ω,t)は、以下に示す式[3.1](式[1.2]と同一)で計算するが、抽出結果の分散が1に固定されているとする(式[3.2])。
ただし、式[3.2]において、<・>_tは、所定の範囲のフレーム(例えば目的音が鳴っている区間)においてカッコ内の平均を計算することを表わす。
一方、時間エンベロープr(t)については、スケールは任意でよい。
式[3.2]の制約は目的音のスケールとは異なるため、いったん抽出フィルタを求めた後で、抽出結果のスケールを適切な値に調整する処理を行なう。その処理を「リスケーリング」と呼ぶ。リスケーリングの詳細は後述する。
式[3.2]の制約の下で、抽出結果の絶対値である|Y(ω,t)|について、時間方向の概形をできる限りr(t)に近づけたい。また、r(t)と異なりY(ω,t)は複素数の信号であるため、その位相も適切に求めたい。そのような抽出結果を生成する抽出フィルタを得るために、式[3.3]の右辺を最小化するW(ω)を求める。(式[3.1]より、式[3.3]は式[3.4]と等価である。)
ただし、Nは正の実数である(例えばN=2)。
こうして求めたW(ω)は、目的音を抽出するフィルタになっている。その理由を以下で説明する。
式[3.3]は、Y(ω,t)に1/r(t)^(N/2)という重みを乗じた信号(式[3.5])の分散と解釈できる。これは重みつき分散の最小化(または重みつき最小2乗法)と呼ばれ、もしY(ω,t)に式[3.2]以外の制約がないならば(式[3.1]の関係がないならば)、Y(ω,t)が全てのtにおいて式[3.6]を満たすときに式[3.3]は最小値1/R^2をとる。ただし、R^2はr(t)^Nの平均である(式[3.7])。
以降では、
式[3.3]の<・>_tの項を「抽出結果の重みつき分散」、
式[3.4]の<・>_tの項を「観測信号の重みつき共分散行列」、
と呼ぶ。
すなわち、スケールの違いを無視すれば、抽出結果|Y(ω,t)|の概略が参照信号r(t)と一致したときに式[3.3]の右辺は最小となる。
なお、
観測信号:X(ω,t)
目的音抽出フィルタ:W(ω)
抽出結果:Y(ω,t)
これらの関係は、式[3.1]の関係であるため、抽出結果は式[3.6]とは完全には一致せず、式[3.1]および式[3.2]を満たす範囲で式[3.3]が最小化される。その結果、抽出結果:Y(ω,t)の位相も適切に求まる。
なお、参照信号と目的の信号とを近づけるための手法として、一般的には最小二乗誤差法が適用可能である。すなわち、参照信号と目的の信号との2乗誤差を最小化するという方法である。しかし本発明の問題設定では、フレームtの時間エンベロープ:r(t)は実数なのに対して、抽出結果:Y(ω,t)は複素数であるため、両者の2乗誤差の最小化問題(式[3.8]、または式[3.9]も等価)として、目的音抽出フィルタ:W(ω)を導いても、W(ω)はY(ω,t)の実部を最大化するだけであり、目的音は得られない。つまり、従来技術において参照信号を用いた音源抽出が存在していても、式[3.8]や式[3.9]を用いている限り、本発明とは別物である。
次に、目的音抽出フィルタ:W(ω)を求める手順について、以下に示す[4,1]以下の式を参照して説明する。
目的音抽出フィルタ:W(ω)は、以下の手順により、closed form(反復のない式)で算出することができる。
最初に、上記の式[4.1]に示すように、観測信号X(ω,t)に対して無相関化(decorrelation)を行なう。
無相関化行列をP(ω)、無相関化を適用した観測信号をX'(ω,t)とすると(式[4.1])、X'(ω,t)は式[4.2]を満たす。
無相関化行列P(ω)を求めるためには、いったん観測信号の共分散行列R(ω)を計算し(式[4.3])、次にR(ω)に固有値分解を適用する(式[4.4])。
ただし、式[4.4]において、
V(ω)は固有ベクトルV_1(ω)〜V_n(ω)からなる行列(式[4.5])、
D(ω)は固有値d_1(ω)〜d_n(ω)を要素とする対角行列、
である(式[4.6])。
このV(ω)とD(ω)とを用いて無相関化行列P(ω)は式[4.7]のように計算される。なお、V(ω)は正規直交行列(orthonormal matrix)であり、V(ω)^HV(ω)=Iを満たす。(V(ω)は各要素が複素数なので、厳密にはユニタリ行列である。)
式[4.1]に示す無相関化を行なった後で、式[4.8]を満たす行列W'(ω)を求める。ただし、式[4.8]の左辺は式[3.1]の左辺と同一の抽出結果である。つまり、観測信号から目的音を抽出するフィルタであるW(ω)を直接求める代わりに、無相関化された観測信号X'(ω,t)から目的音を抽出するフィルタW'(ω)を求める。
そのためには、式[4.9]の制約下で式[4.10]の右辺を最小化するベクトルW'(ω)を求めればよい。式[4.9]の制約は、式[3.2]と[4.2]と[4.8]から導ける。また、式[4.10]は、式[3.4]と[4.8]から得られる。
式[4.10]の右辺を最小化するW'(ω)は、この式の重みつき共分散行列の項(<・>_tの部分)を再び固有値分解することで求まる。すなわち、重みつき共分散行列を式[4.11]のような積に分解し、固有ベクトルA_1(ω)〜A_n(ω)からなる行列をA(ω)(式[4.12])、固有値b_1(ω)〜b_n(ω)からなる対角行列をB(ω)(式[4.14])とすると、求めるW'(ω)は、固有ベクトルの一つをエルミート転置したものである(式[4.14])。固有ベクトルA_1(ω)〜A_n(ω)の中から適切な1つを選択する方法については、後述する。
固有ベクトルA_1(ω)〜A_n(ω)は互いに直交しており、式[4.13]を満たす。そのため、式[4.14]で求まるW'(ω)は式[4.9]の制約を満たす。
W'(ω)が求まったら、無相関化行列P(ω)と組み合わせることで抽出フィルタも求まる。(具体的な式は後述する。)
次に、式[4.12]に示される固有ベクトルA_1(ω)〜A_n(ω)の中から抽出フィルタとして適切な1つを選択する方法について、以下に示す式[5.1]以下を参照して説明する。
固有ベクトルA_1(ω)〜A_n(ω)の中から抽出フィルタとして適切な1つを選択する方法として、以下の2つが可能である。
選択方法1:最小の固有値に対応した固有ベクトルを選択する。
選択方法2:音源方向θに対応した固有ベクトルを選択する。
以下、それぞれの選択方法について説明する。
(選択方法1:最小の固有値に対応した固有ベクトルを選択する)
式[4.14]に従ってA_i(ω)^HをW'(ω)として採用し、それを式[4.10]の右辺に代入すると、右辺のarg min以下は、A_l(ω)に対応した固有値であるb_l(ω)のみが残る("l"は小文字のエル)。
言い換えると、n個の固有値の内で最小のものをb_l(ω)とすると(式[5.1])、式[4.10]の右辺を最小化するW'(ω)はA_l(ω)^Hであり、その最小値はb_l(ω)である。
(選択方法2:音源方向θに対応した固有ベクトルを選択する)
死角ビームフォーマーの説明において、音源方向に対応したステアリングベクトルから分離行列が計算できることを述べたが、その逆に、分離行列や抽出フィルタからステアリングベクトル相当のベクトルを計算することも可能である。
従って、各固有ベクトルをステアリングベクトル相当のベクトルに変換し、それらと、目的音の方向に対応したステアリングベクトルとの間で類似度を比較することで、目的音の抽出フィルタとして最適な固有ベクトルを選択することができる。
固有ベクトルA_k(ω)に、式[4.7]に示す無相関化行列P(ω)の逆行列を左から乗じたものをF_k(ω)とする(式[5.2])。そして、F_k(ω)の各要素を式[5.3]で表わす。この式は、死角ビームフォーマーについて説明した式[2.5]におけるN(ω)^#の逆の操作に対応しており、F_k(ω)はステアリングベクトルに相当するベクトルである。
そこで、固有ベクトルA_1(ω)〜A_n(ω)に対応したステアリングベクトル相当ベクトルF_1(ω)〜F_n(ω)それぞれについて、目的音に対応したステアリングベクトルS(ω,θ)との類似度を求め、その類似度に基づいて選択を行なえばよい。例えばFl(ω)が最も類似しているなら、A_l(ω)^HをW'(ω)として採用する。("l"は小文字のエル)
そのために、F_k(ω)の各要素について自身の絶対値で割ることで計算されるベクトルF'_k(ω)を用意し(式[5.4])、F'_k(ω)とS(ω,θ)との内積によって類似度を計算する(式[5.5])。そして、内積の絶対値が最大となるF'_k(ω)から抽出フィルタを選択すればよい。F_k(ω)の代わりにF'_k(ω)を用いる理由は、マイクロホン感度のばらつきの影響を排除するためである。
なお、式[5.2]の代わりに式[5.6]を用いてF_k(ω)を計算しても、同じ値が得られる。(R(ω)は観測信号の共分散行列であり、式[4.3]で計算される。)
この方法の利点は、方法1と比べて音源抽出の副作用が小さいことである。例えば、参照信号の生成にエラーがあって参照信号が目的音の時間エンベロープと大きく食い違っているような場合、選択方法1で選択される固有ベクトルは所望外のもの(例えば妨害音をかえって強調するフィルタ)である可能性もある。
一方、選択方法2では目的音の方向が選択に反映されるため、最悪の場合でも、目的音を強調する程度の働きのある抽出フィルタが選択される可能性が高い。
(1−3.目的音の方向から、時間周波数マスキングを用いて目的音の時間エンベロープを生成する方法)
次に、目的音の方向から参照信号を生成する方法の1つとして、時間周波数マスキングおよび時間エンベロープ生成について説明する。時間周波数マスキングで音源抽出を行なうと、ミュージカルノイズが発生したり、低い周波数での分離精度が不十分(位相差からマスクを生成した場合)であったりするという課題があるが、利用目的を時間エンベロープの生成に限定すれば、それらの課題を回避することができる。
従来法の説明ではマイクロホンが2個の場合に限定したが、以下の実施例では多チャンネルを前提にしたステアリングベクトルと観測信号ベクトルとの類似度に基づく方式を用いた例について説明する。
以下、
(1)ステアリングベクトルの生成方法、
(2)マスクの生成方法と参照信号の生成方法、
これらについて、順次、説明する。
(1)ステアリングベクトルの生成方法
ステアリングベクトルの生成方法を、図7および、以下に示す式[6.1]〜[6.3]を用いて説明する。
図7に示す基準点152を、方向を測るための基準点とする。基準点152はマイクロホンの近くの任意の地点でよく、例えばマイクロホン間の重心と一致させたり、あるいはマイクロホンのどれかと一致させても良い。基準点の位置ベクトル(すなわち座標)をmとする。
音の到来方向を表わすために、基準点152を始点とする、長さ1のベクトルを用意し、それをベクトルq(θ)151とする。音源位置がマイクロホンとほぼ同じ高さであるなら、ベクトルq(θ)151はX−Y平面上(垂直方向をZ軸とする)のベクトルとして考えればよく、その成分は上記の式[6.1]で表わせる。ただし方向θは、X軸となす角である。
なお、マイクの位置と音源位置とが同一平面にない場合は、音源方向ベクトルに仰角(elevetion)ψも反映させたq(θ,ψ)を式[6.14]で計算し、式[6.2]においてq(θ)の代わりにq(θ,ψ)を用いればよい。
図7において、ベクトルq(θ)の方向から到来する音は、先にマイクロホンk153に到着し、次に基準点152、それからマイクロホンi154に到着する。基準点152に対するマイクロホンk153の位相差は、式[6.2]で表わせる。
ただし、この式において、
j:虚数単位
M:周波数ビン数
F:サンプリング周波数
C:音速
m_k:マイクロホンkの位置ベクトル
これらを表わし、
上付きのTは通常の転置を表わす。
すなわち、平面波を仮定すると、マイクロホンk153は基準点152よりも図7に示す距離155の分だけ音源に近く、逆にマイクロホンi154は、距離156の分だけ遠い。これらの距離差は、ベクトルの内積を用いて、
q(θ)^T(m_k−m)、および、
q(θ)^T(m_i−m)、
と表わせ、距離差を位相差に変換すると、式[6.2]が得られる。
各マイクロホンの位相差からなるベクトルは式[6.3]で表わされ、これをステアリングベクトルと呼ぶ。なお、マイクロホン数nの平方根で割っている理由は、ベクトルのノルムを1に正規化するためである。
なお、以降の説明では、基準点mをマイクロホンiの位置m_iと同一とする。
次に、マスクの生成方法について説明する。
式[6.3]で表わされるステアリングベクトルS(ω,t)は、目的音のみが鳴っている場合の理想的な位相差を表わしていると考えることができる。つまり、図3に示す直線31に相当する。そこで、観測信号からも位相差のベクトルを計算し(位相差の点33,34に相当)、それとステアリングベクトルとの間で類似度を計算する。なお、類似度は図3に示す距離32に相当する。この類似度により、妨害音の混入度合いを計算することができ、その類似度の値から時間周波数マスクを生成することができる。すなわち、類似度が高いほど妨害音の混入度合いが小さいため、マスクの値を大きくする。
マスク値を計算する具体的な式は、式[6.4]〜[6.7]である。式[6.4]のU(ω,t)は、基準点であるマイクロホンiと他のマイクロホンとの間での観測信号の位相差であり、U(ω,t)の各要素はU_1(ω,t)〜U_n(ω,t)とする(式[6.5])。マイクロホン感度のばらつきによる影響を排除するため、U(ω,t)の各要素を自身の絶対値で割り、それをU'(ω,t)とする。なお、式[[6.6]。マイクロホン数nの平方根で割っている理由は、ベクトルのノルムを1に正規化するためである。
ステアリングベクトルS(ω,t)と観測信号の位相差のベクトルU'(ω,t)との類似度として、内積S(ω,t)^H U'(ω,t)を計算する。両ベクトルの大きさは1であり、それらの内積の絶対値は0〜1に正規化されるため、その値をそのままマスクの値として用いることができる(式[6.7])。
次に、マスクの値から参照信号である時間エンベロープを生成する方法について、図8を参照して説明する。
基本的な処理は、以下の処理シーケンスである。
図8に示す観測信号171、すなわち目的音の音区間単位の観測信号171に基づいて、ステップS21におけるマスク生成処理を実行して、時間周波数マスク172を生成する。
次にステップS22において、生成した時間周波数マスク172を観測信号171に適用して時間周波数マスクの適用結果としてのマスキング結果173を生成する。
さらに、ステップS23において、周波数ビンごとに時間エンベロープを計算し、抽出が比較的良好に行なわれている複数の周波数ビンの間で時間エンベロープを平均して、目的音の時間エンベロープに近い時間エンベロープを参照信号(リファレンス)(ケース1)181として得るというものである。
時間周波数マスクの適用結果Q(ω,t)は、式[6.8]または式[6.9]で得られる。式[6.8]はマイクロホンkの観測信号に対してマスクを適用するのに対し、式[6.9]は遅延和アレイの結果に対してマスクを適用する。
なお、遅延和アレイとは、各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和したデータである。この遅延和アレイの結果では、目的音は位相が揃っているために強調され、それ以外の方向からの音は少しずつ位相が異なるため減衰する。
式[6.8]、式[6.9]に示すJはマスクの効果を制御するための正の実数であり、Jが大きいほどマスクの効果が大きい。言い換えると、このマスクは方向θから離れた音源ほど減衰させる効果があり、Jが大きいほど減衰の程度を大きくすることができる。
Q(ω,t)を周波数ビン間で平均する前に、時間方向で振幅の正規化を行ない、その結果をQ'(ω,t)とする(式[6.10])。正規化を行なうことで、低い周波数ビンの時間エンベロープの過度の影響を抑えることができる。
一般に、音は低い周波数成分ほど大きなパワーを持つため、時間エンベロープを周波数ビン間で単純に平均すると、低い周波数の時間エンベロープが支配的になる。しかし、位相差に基づく時間周波数マスキングでは、低い周波数ほど分離精度が低くなるので、単純な平均で得られた時間エンベロープは、目的音のものとは異なっている可能性が高くなる。
参照信号r(t)は、各周波数ビンの時間エンベロープを平均することで求める(式[6.11])。式[6.11]は、集合Ωに属する周波数ビンについて、時間エンベロープのL乗平均、すなわち、要素のL乗を行って平均し、最後にL乗根を計算した値であるL乗平均を計算することを表わしており、Lは正の実数である。集合Ωは、全周波数ビンの部分集合であり、例えば式[6.12]で表わされる。この式のω_minとω_maxは、時間周波数マスキングによる抽出が成功しやすい周波数ビンの下限と上限とをそれぞれ表わす。(例えば、経験的に求めた固定値を用いる。)
こうして計算されたr(t)を参照信号として用いる。
参照信号r(t)については、もっと簡易な生成方法も存在する。
この処理は、図8に示す参照信号(リファレンス)(ケース2)182の生成処理である。
これは、ステップS21において観測信号に基づいて生成した時間周波数マスク172=時間周波数マスクM(ω,t)を周波数ビン間で直接平均する処理を、ステップS24における参照信号生成処理として実行して、図8に示す参照信号(リファレンス)(ケース2)182を生成するものである。
この処理は、式[6.13]で表わされる。この式において、LとΩは式[6.11]と同一である。式[6.13]を用いると、時間周波数マスク適用結果であるQ(ω,t)やQ'(ω,t)を生成する必要がなくなるため、式[6.11]と比べて計算量(computational cost)も使用メモリも低減できる。
以下では、生成された参照信号(リファレンス)として、式[6.13]が式[6.11]とほぼ同じ性質を持つことを説明する。
式[3.4]や式[4.10]における重みつき共分散行列の計算(<・>_tの項)においては、一見する限りでは、フレーム番号tでの参照信号r(t)が小さいか観測信号X(ω,t)が大きいほど、そのフレームの値が重みつき共分散行列に強く影響するように見える。
しかし、X(ω,t)はr(t)の計算でも使用されるため(式[6.8]または式[6.9])、X(ω,t)が大きい場合はr(t)も大きくなり、共分散行列への影響は小さい。したがって、影響の大きなフレームはr(t)の値が小さな箇所であり、式[6.8]または式[6.9]の関係により、それはマスク値M(ω,t)に依存する。
また、式[6.7]により、マスク値M(ω,t)は値が0〜1に制限されているため、正規化された信号(例えばQ'(ω,t))と同様の傾向を持つ。すなわち、周波数ビン間でM(ω,t)を単純に平均しても、低い周波数ビンの成分が支配的になることはない。
結局、参照信号をr(t)をQ'(ω,t)とM(ω,t)のどちらから計算しても、ほぼ同じ概形を持ったものが得られる。両者で参照信号のスケールは異なるが、式[3.4]または式[4.10]から計算される抽出フィルタは参照信号のスケールの影響を受けないため、Q'(ω,t)とM(ω,t)のどちらを用いても、同じ抽出フィルタと抽出結果が得られる。
なお、参照信号の生成については、他にもさまざまな方式が利用可能である。それについては後段で変形例として詳細に説明する。
[2.本開示の音信号処理装置の詳細構成と具体的な処理について]
上記の[項目1]では、本開示の音信号処理装置の全体構成と処理の概要、および、以下の2つの処理の詳細について説明した。
(1)目的音の時間エンベロープを参照信号(リファレンス)として用いた音源抽出処理。
(2)目的音の方向から時間周波数マスキングを用いて行う目的音の時間エンベロープの生成処理。
次に、本開示の音信号処理装置の詳細構成と具体的な処理の実施例について説明する。
(2−1.音信号処理装置の構成)
音信号処理装置の構成例を図9に示す。
この図9は、先に図4を参照して説明した構成を、さらに詳細に示す構成図である。
先に図4を参照して説明したように、音信号処理装置100は、複数のマイクから構成される音信号入力部101、音信号入力部101の入力信号(観測信号)を入力して、入力信号の解析処理、具体的には、例えば抽出対象とする目的音源の音区間や方向を検出する観測信号解析部102、観測信号解析部102の検出した目的音の音区間単位の観測信号(複数音の混在信号)から目的音源の音を抽出する音源抽出部103を有する。音源抽出部103が生成した目的音の抽出結果110は、例えば音声認識等の処理を行う後段処理部に出力される。
図9に示すように、観測信号解析部102は、音信号入力部101であるマイクロホンアレイで収音された多チャンネルの音データをAD変換するAD変換部211を有する。ここで生成されたデジタル信号データを(時間領域の)観測信号と呼ぶ。
AD変換部211の生成したデジタルデータである観測信号は、STFT(短時間フーリエ変換)部212において短時間フーリエ変換(short−time Fourier transform: STFT)が施され、観測信号は時間周波数領域の信号へ変換される。この信号を時間周波数領域の観測信号と呼ぶ。
STFT(短時間フーリエ変換)部212において実行する短時間フーリエ変換(STFT)処理の詳細について、図10を参照して説明する。
図10に示す(a)観測信号の波形x_k(*)は、
例えば、図9に示す装置中に音声入力部として構成されるn本のマイクからなるマイクロホンアレイ中のk番目のマイクによって観測される観測信号の波形x_k(*)である。
この観測信号から、一定長を切り出した切り出しデータであるフレーム301〜303にハニング窓やハミング窓等の窓関数を作用させる。なお切り出し単位をフレームと呼ぶ。1フレーム分のデータに短時間フーリエ変換をかけることにより、周波数領域のデータであるスペクトルX_k(t)を得る(tはフレーム番号)。
切り出すフレームの間には、図に示すフレーム301〜303のように重複があってもよく、そうすることで連続するフレームのスペクトルX_k(t−1)〜X_k(t+1)を滑らかに変化させることができる。また、スペクトルをフレーム番号に従って並べたものをスペクトログラムと呼ぶ。図10(b)に示すデータがスペクトログラムの例であり、時間周波数領域の観測信号となる。
スペクトルX_k(t)は要素数Mのベクトルであり、ω番目の要素をX_k(ω,t)として示される。
STFT(短時間フーリエ変換)部212において短時間フーリエ変換(short−time Fourier transform: STFT)により生成された時間周波数領域の観測信号は、観測信号バッファ221と、方向・区間推定部213とに送られる。
観測信号バッファ221は、所定の時間(フレーム数)の観測信号を蓄積する。ここで蓄積された信号は、音源抽出部103において、所定の方向から到来した音声を抽出した結果を得るため等に使用する。そのため、観測信号は時刻(またはフレーム番号など)と対応付けられて格納されており、後で所定の時刻(またはフレーム番号)に対応した観測信号を取り出すことができるものとする。
方向・区間推定部213は、音源の開始時刻(鳴り始めた時刻)および終了時刻(鳴り終わった時刻)、さらに音源の到来方向などを検出する。「従来技術の説明」において紹介した通り、開始・終了時刻および方向を推定する方法としては、マイクロホンアレイを用いる方式と画像を用いる方式とがあるが、本発明ではどちらも使用可能である。
マイクロホンアレイを用いる方式を採用した構成においては、STFT部212の出力を受け取り、方向・区間推定部213の内部でMUSIC法などの音源方向推定と音源方向のトラッキングとを行なうことで、開始・終了時刻と音源方向とを得る。詳細な方式は、例えば特開2010−121975を参照されたい。マイクロホンアレイによって区間と方向とを取得する場合は、撮像素子222は不要である。
一方、画像を用いる方式では、撮像素子222によって、発話を行っているユーザーの顔画像を捉え、画像上の唇の位置と、唇が動き始めた時刻および動きが止まった時刻とを検出する。そして、唇の位置をマイクロホンから見た方向に変換した値を音源方向として使用し、唇が動き始めた時刻と動きが止まった時刻とをそれぞれ開始時刻・終了時刻として使用する。詳細な方法は、特開平10−51889号などを参照されたい。
複数の話者が同時に発話していても、全ての話者の顔が撮像素子で捉えられていれば、画像上の唇ごとに位置と開始・終了時刻を検出することで、それぞれの発話の区間と方向とが取得できる。
音源抽出部103は、発話区間に対応した観測信号や音源方向などを用いて、所定の音源を抽出する。詳細は後述する。
音源抽出の結果は、抽出結果110としても必要に応じて例えば音声認識機などを実行する後段処理部に送られる。なお、音声認識機には音声区間検出機能を持つものもあるが、その機能は省略可能である。また、音声認識機は音声特徴量(speech features)を抽出するためにSTFTを備えることが多いが、本発明と組み合わせる場合は、音声認識側のSTFTは省略可能である。
なお、これらのモジュールは制御部230によって制御されるとする。
次に、音源抽出部103の詳細について、図11を参照して説明する。
区間情報401は、図9に示す区間・方向推定部213の出力であり、鳴っている音源の区間(開始時刻および終了時刻)と方向などから構成される。
観測信号バッファ402は、図9に示す観測信号バッファ221と同一である。
ステアリングベクトル生成部403は、区間情報401に含まれる音源方向から、式[6.1]〜[6.3]を用いてステアリングベクトル404を生成する。
時間周波数マスク生成部405は、区間情報401の開始・終了時刻を用いて、観測信号バッファ402から該当区間の観測信号を取得し、それとステアリングベクトル404とから、式[6.4]〜[6.7]を用いて時間周波数マスク406を生成する。
マスキング部407は、時間周波数マスク406を当該区間の観測信号405または後述のフィルタリング結果414に適用することで、マスキング結果を生成する。このマスキング結果は、先に図8を参照して説明したマスキング結果173に相当する。
参照信号生成部409は、マスキング結果408から時間エンベロープの平均を計算し、それを参照信号410とする。この参照信号は、図8を参照して説明した参照信号181に対応する。
または、参照信号生成部409は、時間周波数マスク406から参照信号を生成する。この参照信号は、図8を参照して説明した参照信号182に対応する。
抽出フィルタ生成部411は、参照信号410と、当該区間の観測信号と、ステアリングベクトル404とから、前述した式[3.1]〜[3.9]、および式[4.1]〜[4.15]を用いて抽出フィルタ412を生成する。なお、ステアリングベクトルは、固有ベクトルの中から最適のものを選択するために用いる(式[5.2]〜[5.5]を参照)。
フィルタリング部413は、抽出フィルタ412を当該区間の観測信号405に適用することで、フィルタリング結果414を生成する。
音源抽出部103の出力である抽出結果415は、フィルタリング結果414をそのまま用いてもよいし、フィルタリング結果に時間周波数マスクを適用してもよい。後者の場合、フィルタリング結果414をマスキング部407に送り、そこで時間周波数マスク407を適用する。そのマスキング結果408を抽出結果415として用いる。
次に、抽出フィルタ生成部411の詳細について、図12を参照して説明する。
区間情報501、観測信号バッファ502、参照信号503、ステアリングベクトル504はそれぞれ、図11に示す区間情報401、観測信号バッファ402、参照信号410、ステアリングベクトル404と同一である。
無相関化部505は、区間情報501に含まれる開始・終了時刻と観測信号バッファ502とから当該区間の観測信号を取得し、式[4.1]〜[4.7]を用いて観測信号の共分散行列511、無相関化行列512、無相関化された観測信号506を生成する。
参照信号適用部507は、参照信号503と無相関化された観測信号506とから、式[4.11]の左辺に相当するデータを生成する。このデータを重みつき共分散行列508と呼ぶ。
固有ベクトル計算部509は、重みつき共分散行列508に固有値分解を適用する(式[4.11]の右辺)ことで固有値と固有ベクトルを求め、さらにステアリングベクトル504との類似度などに基づいて固有ベクトルの選択を行なう。
選択後の固有ベクトルは固有ベクトル格納部510に格納される。
リスケーリング部513は、固有ベクトル510に格納された選択後の固有ベクトルのスケールを調整して、抽出結果のスケールが所望のものになるようにする。その際に、観測信号の共分散行列511と無相関化行列512とを利用する。処理の詳細は後述する。
リスケーリングの結果は、抽出フィルタとして抽出フィルタ格納部514に格納される。
このように、抽出フィルタ生成部411は、参照信号と、無相関化された観測信号とから、参照信号のN乗(Nは正の実数)の逆数を重みとする重みつき共分散行列を計算し、重みつき共分散行列に対して固有値分解を適用して得られる複数の固有ベクトルから前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する。
なお、固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して抽出フィルタとする。あるいは、目的音対応のステアリングベクトルと最も類似する固有ベクトルを選択して抽出フィルタとする処理のいずれかを実行する。
以上で、装置の構成についての説明を終わる。
(2−2.音信号処理装置の実行する処理の説明)
次に、音信号処理装置の実行する処理について、図13以下を参照して説明する。
図13は、音信号処理装置の実行する処理の全体処理のシーケンスを示すフローチャートである。
ステップS101のAD変換およびSTFTは、音信号入力部としてのマイクロホンに入力されたアナログの音信号をデジタル信号へ変換し、さらに短時間フーリエ変換(STFT)によって時間周波数領域の信号(スペクトル)へ変換する処理である。入力はマイクロホンからの他に、必要に応じてファイルやネットワークなどから行なってもよい。STFTについては先に図10を参照して説明したとおりである。
なお、本実施例では入力チャンネルが複数(マイクロホンの個数分)あるため、AD変換やSTFTもチャンネル数だけ行なう。以降では、チャンネルk・周波数ビンω・フレームtにおける観測信号をX_k(ω,t)と表わす(式[1.1]など)。また、STFTのポイント数をcとすると、1チャンネルあたりの周波数ビンの個数Mは、M=c/2+1で計算できる。
ステップS102の蓄積は、STFTによって時間周波数領域に変換された観測信号を、所定の時間分(例えば10秒)だけ蓄積する処理である。言い換えると、その時間に対応したフレーム数をTとして、連続するTフレーム分の観測信号を、図9に示す観測信号バッファ221に蓄積する。
ステップS103の区間・方向推定は、音源の開始時刻(鳴り始めた時刻)および終了時刻(鳴り終わった時刻)、さらに音源の到来方向などを検出する。
この処理は、先に図9において説明したように、マイクロホンアレイを用いる方式と画像を用いる方式とがあるが、本発明ではどちらも使用可能である。
ステップS104の音源抽出は、ステップS103で検出した区間と方向とに対応した目的音を生成(抽出)する。詳細は後述する。
ステップS105の後段処理は、抽出結果を利用する処理であり、例えば音声認識などである。
最後に、処理を継続するか否かの分岐を行ない、継続の場合はステップS101に戻る。そうでなければ、処理を終了する。
次に、ステップS104で実行する音源抽出処理の詳細について、図14に示すフローチャートを参照して説明する。
ステップS201における区間の調整は、図13に示すフローのステップS103において実行された区間・方向推定で検出された開始・終了時刻から、抽出フィルタの推定に適切な区間を計算する処理である。詳細は後述する。
一方、ステップS202において、目的音の音源方向からステアリングベクトルを生成する。生成方法については先に図7を参照して説明したとおり、式[6.1]〜[6.3]である。なお、ステップS201とステップS202の処理は順不同であり、どちらを先に行なっても良く、並列に行なっても良い。
ステップS203では、ステップS202において生成したステアリングベクトルを用いて、時間周波数マスクを生成する。時間周波数マスクの生成の式は、式[6.4]〜[6.7]である。
次に、ステップS204において、参照信号を用いた抽出フィルタ生成を行なう。詳細は後述する。この段階では、フィルタの生成を行なうだけであり、抽出結果の生成は行なわない。
ステップS205のパワー比計算とステップS206の条件分岐については後で説明することにし、先にステップS207について説明する。
ステップS207において、目的音の区間に対応した観測信号に対して抽出フィルタを適用する。すなわち、以下に示す式[9.1]を、区間内の全フレーム(全てのt)・全周波数ビン(全てのω)に対して適用する。
こうして抽出結果が得られるが、必要に応じてさらに時間周波数マスクを適用してもよい。図14に示すステップS208の処理である。カッコはこの処理が省略可能であることを表わす。
すなわち、式[9.1]で得られたY(ω,t)に対して、ステップS203で得られた時間周波数マスクM(ω,t)を適用する(式[9.2])。ただし、式[9.2]のKは0以上の実数であり、式[6.8]・[6.9]のJや式[6.13]のLとは別個に設定された値である。K=0とするとマスク非適用と等価となり、Kを大きくするほどマスクの効き具合が大きくなる。すなわち、妨害音除去の効果が大きくなる半面、ミュージカルノイズ等の副作用も大きくなる。
ステップS208におけるマスク適用の目的は、ステップS207のフィルタ適用で除去しきれなかった妨害音を除去することにあるため、マスクの効き具合をそれほど強くする必要はなく、例えばK=1程度でよい。結果として、時間周波数マスキング単独で音源抽出を行なう場合(従来法参照)と比べて、ミュージカルノイズ等の副作用を小さくすることができる。
次に、ステップS201で実行する区間の調整の詳細と、そのような処理を行なう理由について、図15を用いて説明する。この図15は区間のイメージを表わしており、縦軸が音源方向、横軸が時間である。抽出対象とする目的音の区間(音区間)を区間(音区間)601とする。目的音の鳴り始める前より妨害音が鳴っており、それを区間602として表わす。この妨害音の区間602の終了付近が時間上で目的音の区間601の鳴り初めと重複しているとし、それを重複領域611として表わす。
ステップS201で実行する区間の調整とは基本的に、図13に示すフローのステップS103の区間・方向推定で得られた区間に対して、前後両方向に延長を行なう処理のことである。ただし、リアルタイムで処理している場合、区間の終了時刻よりも後の観測信号はまだ存在していないため、主に開始時刻よりも前の方向に延長を行なう。以下では、そのような処理を行なう理由について説明する。
図15に示す目的音の区間601に含まれる重複領域611から妨害音を除去するためには、抽出フィルタ生成に用いる区間(以降「フィルタ生成用区間」)に妨害音ができる限り長く含まれているほうが効果的である。そこで、開始時刻605を逆時間方向に移動させた時刻604を用意し、時刻604から終了時刻606までをフィルタ生成用区間として採用する。なお、時刻604は妨害音の鳴り始めと一致させる必要はなく、単に時刻605から所定の時間(例えば1秒)だけ移動させるだけでもよい。
また、目的音の区間が所定の長さに達していない場合にも、区間の調整を行なう。例えば、フィルタ生成用区間の最低の長さを1秒とし、検出された目的音の区間が0.6秒だった場合は、区間の開始よりも前の0.4秒分をフィルタ生成用区間に含める。
一方、観測信号をファイルから読み込んでいる場合は、目的音の区間の終了より後の観測信号も取得可能であるため、終了時刻を時間方向に延長することも可能である。例えば図15において、目的音の終了時刻606を所定の時間だけ移動させた時刻607を設定し、時刻604から時刻607までをフィルタ生成用区間として採用する。
以降では、発話区間601に対応したフレーム番号の集合をT_IN、すなわち図15に示すT_IN609、区間の延長によって含まれるようになったフレーム番号の集合をT_OUT、すなわち図15に示すT_OUT608,610として表わす。
次に、図14のフローにおけるステップS204において実行する抽出フィルタ生成処理の詳細について、図16に示すフローチャートを参照して説明する。
なお、この図16に示すフローチャートには、参照信号の生成に関する処理が、ステップS301と、ステップS303とに存在するが、全周波数ビンで共通の参照信号を使用する場合は、ステップS301で生成し、周波数ビンごとに異なる参照信号を使用する場合は、ステップS303で生成する。
以降では、共通の参照信号を用いる場合について先に説明し、周波数ビンごとに異なる参照信号を使用する場合については、後段の変形例の項目において説明する。
ステップS301では、先に説明した式[6.11]、[6.13]を用いて全周波数ビンで共通の参照信号を生成する。
ステップS302〜ステップS309は周波数ビンについてのループであり、各周波数ビンについて、ステップS303〜ステップS308の処理を行なう。
ステップS303の処理については、後述する。
ステップS304において、観測信号の無相関化を行なう。具体的には、先に説明した式[4.1]〜[4.7]を用いて、無相関化された観測信号X'(ω,t)を生成する。
なお、観測信号の共分散行列R(ω)の計算において、式[4.3]の代わりに、以下に示す式[7.1]〜[7.3]を用いると、図14に示すフローにおけるステップS205のパワー計算において共分散行列を再利用でき、計算量が削減される。
なお、式[7.1],[7.2]のR_{IN}(ω)R_{OUT}(ω)はそれぞれ、図15のT_IN,T_OUTの区間から計算される観測信号の共分散行列である。また、式[7.3]の|T_IN|,|T_OUT|はそれぞれ、区間T_IN,T_OUTのフレーム数を表わす。
ステップS305において、重みつき共分散行列を計算する。具体的には、参照信号r(t)と、無相関化された観測信号X'(ω,t)とから、前記した式[4.11]の左辺の行列を計算する。
ステップS306において、重みつき共分散行列に対して固有値分解を行なう。具体的には、重みつき共分散行列を、式[4.11]の右辺の形式に分解する。
ステップS307において、ステップS306で求まった固有ベクトルの中から抽出フィルタとして適切なものを1つ選択する。具体的には、前記の式[5.1]によって、最小の固有値に対応した固有ベクトルを採用するか、式[5.2]〜[5.5]によって、目的音の音源方向に最も近い固有ベクトルを採用するかのどちらかを行なう。
次に、ステップS308において、ステップS307で選択された固有ベクトルに対してスケールの調整などを行なう。ここで行なわれる処理とその理由については、以下の通りである。
ステップS306で求まった各固有ベクトルは、式[4.8]のW'(ω)に相当するものである。
すなわち、無相関化された観測信号に対して抽出を行なうフィルタである。
そのため、無相関化前の観測信号に対してフィルタを適用するためには、何らかの変換操作が必要になる。
また、抽出フィルタを求める際に、適用結果Y(ω,t)に対して分散=1という制約をかけているが(式[3.2])、目的音の分散は1とは異なる。そのため、目的音の分散を何らかの方法で推定し、抽出結果の分散をそれに合わせる必要がある。
両方の調整をまとめて行なう式は、以下に示す式[8.4]で表わされる。
この式のP(ω)は、無相関化行列であり、W'(ω)を無相関化前の観測信号に対応させる働きがある。
g(ω)は式[8.1]または式[8.3]で計算され、抽出結果の分散を目的音の分散に合わせる働きがある。ただし、式[8.1]のe_iは、i番目の要素のみが1、それ以外の要素が0である行ベクトルである(式[8.2])。また、添字iは、スケール調整用として、i番目のマイクロホンの観測信号を用いることを表わす。
以下で、式[8.1]および式[8.3]の意味について説明する。
スケール調整前の抽出結果Y(ω,t)にスケールg(ω)を乗じて、観測信号に含まれる目的音由来の成分を近似することを考える。観測信号としてi番目のマイクロホンで観測されるものを使用すると、スケールg(ω)は二乗誤差を最小にする項として、式[8.5]で表わせる。この式を満たすg(ω)は式[8.1]で求められる。なお、X_i(ω,t)=e_iX(ω,t)である。
同様に、観測信号の代わりに遅延和アレイの結果を用い、その中に含まれる目的音由来の成分を近似することを考えると、スケールg(ω)は式[8.6]で表わせる。この式を満たすg(ω)は式[8.3]で求められる。
ステップS303〜S308を全周波数ビンについて行なうことで、抽出フィルタが生成される。
次に、図14のフローにおけるステップS205のパワー比計算と、ステップS206の分岐処理について説明する。これらの処理の目的は、誤検出等で発生した余計な区間に対して、音源抽出をスキップする、言い換えると、誤検出された区間を棄却するためである。
例えば、唇の動きに基づいて区間検出を行なった場合、ユーザーが声を発していなくても口を動かしただけで発話区間として検出される可能性がある。また、音源方向に基づいて区間検出を行なった場合、方向性を持った音源なら何でも(背景雑音以外なら何でも)発話区間として検出される可能性がある。このように誤って検出された区間に対して、音源抽出の前にチェックが行なえれば、計算量を削減したり、誤検出による誤反応を防いだりといったことが可能となる。
一方、ステップS204において抽出フィルタが計算されており、また、区間の内外それぞれについて観測信号の共分散行列が既に計算されているため、両方を用いれば、区間内外それぞれに対して抽出フィルタを適用した場合の分散(パワー)を計算することができる。両者のパワーの比を用いれば、誤検出の判別がある程度は可能である。なぜなら、誤検出された区間は音声発話を伴っていないため、区間内外のパワーの比は小さい(区間内外で同程度のパワー)だと考えられるからである。
そこで、ステップS205において、前記の式[7.4]を用いて区間内のパワーP_INを、式[7.5]を用いて区間外のパワーをそれぞれ計算する。ただし、これらの式のシグマは、全周波数ビンについての和を表わしており、また、R_IN(ω),R_OUT(ω)は観測信号の共分散行列であり、図15のT_IN,T_OUTに対応した区間からそれぞれ計算される。(式[7.1],[7.2])
そして、ステップS206において、両者の比であるP_IN/P_OUTが所定の閾値を上回っているかを判定する。条件を満たさない場合は、誤検出と見なしてステップS207およびステップS208をスキップし、その区間は棄却される。
条件を満たす場合は、区間内のパワーが区間外のパワーよりも十分大きいことを表わしているため、ステップS207に進んで抽出結果の生成等を行なう。
以上で、処理の説明を終える。
[3.変形例について]
以下、以下に示す3通りの変形例について、順次、説明する。
(1)周波数ビンごとに異なる参照信号を用いる実施例
(2)一部の周波数ビンでICAを行なって参照信号を生成する実施例
(3)多チャンネルで録音し、再生時に本発明を適用する実施例
(4)他の目的関数
(5)参照信号を生成するための他の方法
(6)分離フィルタの推定において特異値分解を使用する処理
(7)リアルタイム音源抽出への応用
これらについて、説明する。
(3−1.周波数ビンごとに異なる参照信号を用いる実施例)
前記した式[6.11]または式[6.13]で計算される参照信号は、全周波数ビンで共通である。一方で、目的音の時間エンベロープは全周波数ビンで共通とは限らない。そこで、目的音の周波数ビンごとのエンベロープが推定可能ならば、それを参照信号として用いた方が音源抽出の精度を向上できる可能性がある。
周波数ビンごとに参照信号を計算する方法について、図17および、以下に示す式[10.1]〜[10.5]を用いて説明する。
図17(a)は、全周波数ビンで共通の参照信号を生成する例である。式[6.11]または式[6.13]を使用した場合に対応した図であり、マスキング結果(式[6.13]使用時)または時間周波数マスク(式[6.13]使用時)の内で、ω_minからω_maxまでの周波数ビンを使用して共通の参照信号を計算する。
一方、図17(b)は、周波数ビンごとに参照信号を生成する例である。この場合に適用する計算式は、式[10.1]または式[10.2]であり、それぞれマスキング結果または時間周波数マスクから参照信号を計算する。式[10.1]は平均をとる範囲が周波数ビンωに依存しており、そこが式[6.11]と異なる点である。式[10.2]と式[6.13]との違いも同様である。
平均をとる周波数ビンの下限α(ω)および上限β(ω)は、ωの値に応じて式[10.3]〜[10.5]で与えられる。ただし、hは平均する範囲の幅の半分を表わす。
式[10.4]は、ωが所定の範囲内である場合にω−h〜ω+hの範囲で平均をとることを表わしており、それによって周波数ビンごとに異なる参照信号を得る。
一方、式[10.3]および式[10.5]は、ωが所定の範囲を外れている場合には固定された範囲で平均をとることを表わしており、これは、低い周波数ビンや高い周波数ビンの成分が参照信号に影響するのを防ぐためである。
図17において、参照信号708,709は式[10.3]の範囲から計算された参照信号を表わしており、どちらも同一の信号である。同様に、参照信号710は式[10.4]の範囲から、参照信号711,712は式[10.5]の範囲から計算された参照信号を表わしている。
(3−2.一部の周波数ビンでICAを行なって参照信号を生成する実施例)
次に、一部の周波数ビンでICAを行なって参照信号を生成する実施例について説明する。
参照信号を生成するために、先に説明した式[6.1]〜[6.14]では時間周波数マスキングを用いていたが、ICAによって求めてもよい。すなわち、ICAによる分離と、本発明による抽出との組み合わせである。
基本的な処理は以下の通りである。限定された周波数ビンに対してICAを適用する。その分離結果を平均することで、参照信号を生成する。
なお、ICAを適用した分離結果に基づく参照信号の生成については、本出願人の先の特許出願(特願2010−82436号)にも記載があり、この特願2010−082436では、この後、参照信号を用いるICAを残りの周波数ビン(または全ての周波数ビン)に適用することで補間を行なっていたが、本発明の変形例では参照信号を用いた音源抽出を適用する。すなわち、ICAの出力であるn個の分離結果のうち、目的音に対応する1つを音源方向などを用いて選別し、その選別された分離結果から参照信号を生成する。参照信号が求まったら、残りの周波数ビン(または全ての周波数ビン)に対して、先に説明した式[4.1]〜[4.14]を適用して抽出フィルタおよび抽出結果を得る。
(3−3.多チャンネルで録音し、再生時に本発明を適用する実施例)
次に、多チャンネルで録音し、再生時に本発明を適用する実施例について図18を参照して説明する。
先に説明した図9の構成では、マイクロホンアレイからなる音信号入力部101に入った音はすぐに音源抽出処理に使用されることを想定しているが、間に録音(ファイルへの保存)・再生(ファイルからの読み込み)というステップを挟んでもよい。すなわち、例えば図18に示す構成である。
図18において、多チャンネル録音器811は、マイクロホンアレイからなる音信号入力部801に入力された音を、録音部802でAD変換等を行い、多チャンネル信号のまま録音データ803として記録用メディアに保存される。なお、ここでの「多チャンネル」とは、複数のチャンネル、特に3チャンネル以上を意味する。
この録音データ803から特定音源の音抽出処理を行なう際は、データ読込部805で録音データ803を読み込む。その後の処理は、STFT部806と、方向・区間推定部808を有する観測信号解析部820、観測信号バッファ807、音源抽出部809において図9を参照して説明したSTFT部212以下の処理と同様の処理が実行され、抽出結果810を生成する。
図18に示す構成のように、録音時に多チャンネルデータとして保存しておけば、後で音源抽出を適用することが可能とする。すなわち、録音した音データに対して後で音声認識を適用するといった使い方をする場合、モノラルデータとして録音するよりも多チャンネルデータとして録音した方が、音声認識の精度を向上させることがで
きる。
さらに、多チャンネル録音器811にカメラ等を備え、ユーザーの唇画像と多チャンネルの音データとを同期させて記録させてもよい。そのようなデータを読み込む場合は、方向・区間推定部808において、唇画像を用いた発話区間方向検出を使用しても良い。
(3−4.その他の目的関数を用いた実施例)
目的関数(objective function)とは、最小化や最大化の対象となっている関数のことである。本開示の音源抽出では、式[3.3]を目的関数として用い、その最小化を行なっているが、それ以外の目的関数も使用可能である。
以下に示す式[11.1]および式[11.2]は、式[3.3]および式[3.4]の代わりに用いる目的関数の例であり、これを最大にするW(ω)を求めることでも信号の抽出を行なうことができる。その理由を以下で説明する。
上記式のarg max以降の部分については、式[11.3]の不等式が常に成り立ち、等号が成立するのは式[3.6]の関係が成立する場合である。一方、この式の右辺が最大となるのは〈|Y(ω,t)|^4〉_t が最大のときである。〈|Y(ω,t)|^4〉_tは信号の尖度(kurtosis)と呼ばれる量に対応しており、Yが妨害音を含まない(目的音のみが現れている)場合に最大となる。従って、参照信号r(t)^Nが目的音の時間エンベロープと一致しているのであれば、式[11.1]および式[11.2]の左辺を最大にするW(ω)は右辺を最大にするW(ω)と一致し、そのW(ω)は目的音を抽出するフィルタとなっている。
式[11.1]および式[11.2]の最大化は、式[3.3]および式[3.4]の最小化とほぼ同じであり、前記した式[4.1]〜[4.14]を用いて行う。
最初に、式[4.1]〜[4.7]を用いて、無相関化された観測信号であるX'(ω,t)を生成する。このX'(ω,t)から目的音を抽出するフィルタは、式[4.10]の代わりに式[11.4]の最大化によって求める。そのために、式[11.4]の〈・〉_tの部分に対して固有値分解を適用する(式[11.5])。この式のA(ω)は固有ベクトルからなる行列(式[4.12])、B(ω)は固有値からなる対角行列である(式[4.14])。固有ベクトルの内の一つが、目的音を抽出するフィルタになっている。
今回は最大化問題なので、式[5.1]の代わりに式[11.6]を用いることで、最大の固有値に対応した固有ベクトルを選択する。または、式[5.2]〜[5.5]を用いて固有ベクトルを選択してもよい。式[5.2]〜[5.5] は目的音の方向に対応した固有ベクトルを選択するため、最小化問題であっても最大化問題であっても共通に使用することができる。
(3−5.参照信号を生成するための他の方法)
これまでの説明において、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号r(t)の算出処理例について複数の処理例を説明した。例えば以下の参照信号算出処理である。
(1)各周波数ビンの時間エンベロープを平均することで求める全周波数ビン共通の参照信号を算出する処理(式[6.11])、
(2)例えば図6の時間周波数マスク172のように、観測信号に基づいて生成した時間周波数マスクM(ω,t)を周波数ビン間で直接平均して求める全周波数ビン共通の参照信号を算出する処理(式[6.13])、
(3)上記の変形例(3−1)として説明した周波数ビンごとの異なる参照信号算出処理であり、マスキング結果から周波数ビンωごとの参照信号を算出する処理(式[10.1])、
(4)上記の変形例(3−1)として説明した周波数ビンごとの異なる参照信号算出処理であり、時間周期数マスクから周波数ビンωごとの参照信号を算出する処理(式[10.2])、
(5)上記の変形例(3−2)として説明した一部の周波数ビンでICAを行なって参照信号を生成する処理であり、限定された周波数ビンに対してICAを適用し、その分離結果を平均して参照信号を生成する処理、
例えばこのような様々な参照信号算出処理例について説明してきた。
以下では、これらの方法以外の参照信号生成処理例について説明する。
先に[背景技術]の項目「B.従来技術を適用した課題解決処理の具体例」において、既知の音源方向と区間とを用いて抽出を行なう音源抽出方式として、
B1−1.遅延和アレイ
B1−2.分散最小ビームフォーマー
B1−3.SNR最大化ビームフォーマー
B1−4.目的音の除去と減算に基づく方式
B1−5.位相差に基づく時間周波数マスキング
これらの各音源抽出方式についての概略を説明した。
これらの従来の音源抽出方式の多くは、参照信号である時間エンベロープを生成する手段として適用可能である。
言い換えると、例えば上記の従来の音源抽出方式を本開示における参照信号の生成処理のみに限定して利用することが可能であり、このように既存の音源抽出方式を参照信号の生成にのみ適用し、その後の音源抽出処理を、生成した参照信号を用いて本開示の処理に従って実行することで、先に説明した従来方式の音源抽出処理の持つ問題点を回避した音源抽出が可能となる。
例えば、[背景技術]の項目において説明した(B1−1.遅延和アレイ)を用いた音源抽出処理は、以下の処理として行われる。
各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和すると、目的音は位相が揃っているために強調され、それ以外の方向からの音は少しずつ位相が異なるため減衰する。具体的には、S(ω,θ)を方向θに対応したステアリングベクトル(ある方向から到来する音についてマイク間の位相差を表わしたベクトル)として、前述した式[2.1]によって抽出結果を得る処理である。
この遅延和アレイの処理結果から参照信号を生成することが可能である。
この遅延和アレイの処理結果から参照信号を生成するには、式[6.8]の代わりに以下に示す式[12.1]を用いれば良い。
後述の実験結果で示すように、遅延和アレイの処理結果からいったん参照信号を生成し、それを用いて本開示の方法で音源抽出を行なうことにより、遅延和アレイ単独で音源抽出を行なった場合よりも高精度の抽出結果が得られる。
同様に、[背景技術]の項目において説明した(B1−2.分散最小ビームフォーマー)を用いた音源抽出処理は、以下の処理として行われる。
目的音の方向のゲインを1(強調も減衰もしない)かつ妨害音の方向には死角(感度の低い方向。null beamとも呼ばれる)を持つフィルタを形成することで、目的音のみを抽出する処理である。
この分散最小ビームフォーマーを用いた音源抽出処理を適用して参照信号を生成するには、上記の式[12.2]を用いる。式[12.2]においてR(ω)は、前述の式[4.3]で計算される観測信号共分散行列である。
また、[背景技術]の項目において説明した(B1−4.目的音の除去と減算に基づく方式)を用いた音源抽出処理は、以下の処理として行われる。
観測信号から目的音を除去した信号(目的音除去信号)をいったん生成し、観測信号(または遅延和アレイ等によって目的音が強調された信号)から目的音除去信号を減算して目的音を抽出する処理である。
この方式は、処理が「目的音の除去」と「減算」との2ステップからなるため、それぞれについて説明する。
目的音を除去するための式として、上記の式[12.3]を用いる。この式は、方向θから到来する音を除去する働きがある。
減算の方法として、スペクトル減算(Spectral Subtraction:SS)を用いる。スペクトル減算とは、複素数領域の信号をそのまま減算する代わりに、複素数の振幅(magnitude)のみを減算することであり、上記の式[12.4]で表わされる。
ただしこの式[12.4]において、
(ω,t)はベクトルH(ω,t)のk番目の要素である。
max(x,y)は引数x,yの内で大きい方を採用することを表わし、複素数の振幅が負になるのを防ぐ働きをする。
上記式[12.4]で算出されるスペクトル減算結果Q(ω,t)は目的音が強調された信号であるが、スペクトル減算(SS)によって生成された信号であるため、これを音源抽出結果そのものとして使用する(例えば、逆フーリエ変換によって波形を生成する)と、音が歪んだりミュージカルノイズが発生したりするという課題がある。しかし、本開示の参照信号として使用する限りでは、スペクトル減算(SS)の結果を波形に変換する必要がないため、それらの課題を回避することができる。
参照信号の生成には、上記の式[12.5]を用いる。または、特定のkについて単純にQ(ω,t)=Q(ω,t)としてもよい。kは、ベクトルH(ω,t)の何番目の要素であるかを示す要素番号に相当する。
さらに別の参照信号生成方式として、本開示の音源抽出結果から参照信号を生成することも可能である。すなわち、以下の処理身を行う。
まず、前述の式[3.1]によって音源抽出結果Y(ω,t)を生成する。
次に、この音源抽出結果Y(ω,t)を前述の式[6.10]におけるQ(ω,t)とみなし、式[6.11]を用いて参照信号をもう一度生成する。
なお、前述の式[6.10]は、
例えば式[6.8]において算出するQ(ω,t)、すなわち観測信号に対する時間周波数マスクの適用結果Q(ω,t)に対して、時間方向で振幅の正規化結果Q'(ω,t)を算出する式である。
式[6.11]は、式[6.10]によって算出されるQ'(ω,t)を用いて、集合Ωに属する周波数ビンについて、時間エンベロープのL乗平均、すなわち、要素のL乗を行って平均し、最後にL乗根を計算した値であるL乗平均を計算する処理、すなわち、各周波数ビンの時間エンベロープを平均することで参照信号r(t)を算出する式である。
このようにして算出した参照信号を用いて再び音源抽出フィルタを生成する。
この音源抽出フィルタ生成処理は、例えば、式[3.3]を適用して行う。
最初に生成した参照信号よりも2回目に生成した参照信号の方が精度が高ければ(=目的音の時間エンベロープに近ければ)、一層高精度な抽出結果を得ることができる。
さらに、
(ステップ1)抽出結果から参照信号を生成
(ステップ2)再び抽出結果を生成、
これらのステップ1,2からなるループを任意の回数だけ繰り返してもよい。
繰り返すと計算量(computational cost)は増えるが、その分だけ高精度の音源抽出結果を得ることができる。
(3−6.分離フィルタの推定において特異値分解を使用する処理)
本開示構成の音源抽出は、基本的に、観測信号X(ω,t)に抽出フィルタW(ω)を乗じて抽出結果Y(ω,t)を得る処理(式[1.2])を主体とした処理である。抽出フィルタW(ω)はn個の要素からなる行ベクトルであり、式[1.3]として表わされる。
この音源抽出処理において適用する抽出フィルタの推定は、先に式[4.1]以下を参照して説明したように、観測信号の無相関化を行ない(式[4.1])、それと参照信号とを用いて重み付き共分散行列を計算し(式[4.11]の左辺)、その重み付き共分散行列に対して固有値分解を適用する(式[4.11]の右辺)ことで行なっていた。
この処理は、上記の固有値分解(eigenvalue decomposition)の代わりに特異値分解(singular value decomposition: SVD)を用いることで、計算量を削減することができる。
以下では、特異値分解を用いた抽出フィルタの推定方法について説明する。
先に説明した式[4.1]によって観測信号の無相関化を行なった後、以下に示す式[13.1]で表わされる行列C(ω)を生成する。
上記の式[13.1]で表わされる行列C(ω)を重み付き観測信号行列と呼ぶ。
すなわち、参照信号と、無相関化された観測信号とから、参照信号のN乗(Nは正の実数)の逆数を重みとする重み付き観測信号行列C(ω)を生成する。
この行列に対して特異値分解を行なうと、C(ω)は式[13.2]の右辺の3つの行列の積へと分解(decompose)される。ただしこの式[13.2]において、A(ω)およびK(ω)はそれぞれ式[13.3]および式[13.4]を満たす行列であり、G(ω)は特異値からなる対角行列である。
前述の式[4.11]と上記の式[13.2]とを比較すると、行列A(ω)については同一であり、D(ω)とG(ω)との間には式[13.5]の関係がある。すなわち、固有値分解の代わりに特異値分解を用いても、同一の固有値と固有ベクトルを求めることができる。なお、行列K(ω)については以降の処理で使用しないため、特異値分解においてK(ω)の計算自体を省略してもよい。
重み付き共分散行列の固有値分解を用いる方法では、共分散行列を求めるのに計算量がかかる上に、そうして求めた共分散行列はエルミート対称であるために要素の半分近くは使用されないという無駄が生じる。それに対して重み付き観測信号行列の特異値分解を用いる方法では、共分散行列の計算をスキップできる上に、不使用の要素は生成されないという利点がある。
特異値分解を用いて抽出フィルタを生成する処理について、図19のフローチャートを用いて説明する。
図19に示すフローチャートのステップS501〜S504は、図16に示すフローチャートのステップS301〜S304と同一である。
ステップS505において、重み付き観測信号行列C(ω)を生成する。これは上記の式[13.1]で表わされる行列C(ω)である。
次のステップS506において、ステップS505で算出した重み付き観測信号行列C(ω)に対して特異値分解を行なう。すなわち、C(ω)を、上記の式[13.2]に右辺で表わされる3つの行列の積に分解する。さらに、式[13.5]によって、行列D(ω)も計算する。
この段階で、固有値分解を用いた場合と同一の固有値・および固有ベクトルが得られるため、以降のステップS507〜S509については、先に説明した図16のフローチャートにおけるステップS307〜S309の処理と同一の処理を行なう。このようにして、抽出フィルタが生成される。
(3−7.リアルタイム音源抽出への応用)
上述した実施例では、発話ごとに抽出処理を行なうことを前提にしていた。すわなち、発話が終了した後で、音源抽出によって目的音の波形が生成される。このような使い方は、音声認識等と組み合わせる場合は問題ないが、音声通話におけるノイズ除去(または音声強調)として用いる場合は、遅延が問題となる。
しかし、本開示の参照信号を用いた音源抽出方法であっても、抽出フィルタの生成の際に用いる観測信号の区間を固定長とすることで、発話終了を待つことなく低遅延で抽出結果を生成・出力することが可能である。すなわち、ビームフォーマー技術と同様に、特定方向からの音をリアルタイムに抽出する(強調する)ことが可能である。以下では、その方法について説明する。
なお、この変形例においては、音源方向θは発話ごとに推定するのではなく、固定されているとする。または、方向を指定するためのデバイスをユーザーが操作することで、音源方向θを設定してもよい。あるいは、撮像素子(図9の222)で取得された画像に対してユーザーの顔画像の検出を行ない、その検出された顔画像の座標から音源方向θを計算してもよい。さらには、撮像素子(図9の222)で取得された画像をディスプレイに表示し、ユーザーはその画像内で音源抽出を行ないたい方向を各種ポインティングデバイス(マウス・タッチパネルなど)を用いて指定するようにしてもよい。
この変形例における処理、すなわち、観測信号の区間を固定長とすることで発話終了を待つことなく低遅延で抽出結果を生成・出力するリアルタイム音源抽出処理シーケンスについて、図20のフローチャートを用いて説明する。
ステップS601は初期設定処理である。
tはフレーム番号であり、初期値として0を代入しておく。
ステップS602〜S607の処理はループ処理であり、1フレーム分の音データが入力されるたびに、この一連の処理が行なわれることを表わしている。
ステップS602において、フレーム番号tを1だけ増加させる。
ステップS603において、1フレーム分の音データについてAD変換と短時間フーリエ変換(STFT)とを行なう。
短時間フーリエ変換(STFT)は、先に図10を参照して説明した処理である。
1フレーム分の音データとは、例えば図10に示すフレーム301〜303の1つであり、これに対して窓かけおよび短時間フーリエ変換を適用することで、1フレーム分のスペクトルであるX(t)を得る。
次に、ステップS604において、この1フレーム分のスペクトルX(t)を観測信号バッファ(例えば図9の観測信号バッファ221)に蓄積する。
次に、ステップS605において、予め既定したフレーム数の処理が完了したか否かを判定する。
T'は1以上の整数であり、
t mod T'
はフレーム番号を示す整数tをT'で割った余りを表わす。
ここの条件分岐は、ステップS606の音源抽出処理を予め規定したT'フレームに一回の頻度で実行することを表わしている。
フレーム番号tがT'の倍数であるときのみ、ステップS606に進み、それ以外の場合は、ステップS607に進む。
ステップS606の音源抽出処理は、蓄積された観測信号と音源方向とを用いて、目的音を抽出する。詳細は後述する。
ステップS606における音源抽出処理が終了したら、ステップS607においてループを続けるか否かを判定し、続けるならステップS602に戻る。
なお、抽出フィルタの更新頻度であるフレーム数T'の値は、ステップS606の音源抽出処理の処理時間より長くなるように設定する。言い換えると、音源抽出の処理時間をフレーム数に換算した値が、更新頻度T'より短ければ、遅延が増大することなくリアルタイムで音源抽出が行なえる。
次に、ステップS606の音源抽出処理の詳細について、図21に示すフローチャートを用いて説明する。
図21に示すフローチャートは、ほとんどの処理が基本的には先に図13のフローのステップS104の音源抽出処理の詳細シーケンスとして説明した図14に示すフローチャートと同じ処理となる。しかし、図14のフローに示すパワー比についての処理(S205,S206)が省略されている。
また、図21に示すフローチャートのステップS704の抽出フィルタ生成処理、およびステップS705のフィルタ適用処理においてどの区間の観測信号を使用するかも異なる。
ステップS701の「区間の切り出し」とは、バッファ(例えば図9の221)に蓄積された観測信号から、抽出フィルタの生成に使用される区間を切り出すことである。この区間は固定長である。観測信号からの固定長区間の切り出し処理について、図22を参照して説明する。
図22には、バッファ(例えば図9の221)に蓄積された観測信号スペクトログラムを示している。
横軸はフレーム番号を、縦軸は周波数ビン番号を表わす。
一つのマイクロホンから一枚のスペクトログラムが生成されるため、バッファには、実際にはn枚(nはマイクロホン数)のスペクトログラムが蓄積されている。
例えば、ステップS701の区間切り出し処理の開始時点で、バッファ(例えば図9の221)に蓄積された観測信号スペクトログラムの最新のフレーム番号tが、図22のフレーム番号t850であるとする。
厳密に言うと、フレーム番号t850より右側のスペクトログラムはこの時点では存在していない。
抽出フィルタ生成に使用する観測信号のフレーム数をTとする。Tは、先に図20のフローチャートにおいて適用したT'、すなわち1回の音源抽出処理を行う単位としての規定フレーム数T'とは異なる値に設定してもよい。
以降では、抽出フィルタ生成に使用する観測信号フレーム数:Tは、
T>T'
とする。例えばT=3秒、T'=0.25秒などの設定である。
図22に示すフレーム番号t850を終端とする長さTの区間は、図22に示すスペクトログラム区間853で表わされる。
ステップS701の区間の切り出し処理は、この区間に相当する観測信号スペクトログラムを切り出す処理である。
ステップS701の区間切り出し処理後、ステップS702において、ステアリングベクトル生成処理を行なう。
これは、先に説明した図14のフローチャートのステップS202の処理と同一である。ただし、この実施例では音源方向θは基本的に固定としているため、θが前回と同じである限りはこの処理をスキップし、前回と同じステアリングベクトルを使い続けてもよい。
次のステップS703の時間周波数マスク生成処理も、基本的には図14のフローチャートのステップS203の処理と同一である。ただし、ここで使用される観測信号の区間は、図22に示すスペクトログラム区間853である。
ステップS704の抽出フィルタ生成処理も、基本的には図14のフローチャートのステップS204の処理と同一であるが、ここで使用される観測信号の区間は、図22に示すスペクトログラム区間853である。すなわち、
先に説明した図16に示すフローの、
ステップS301またはステップS303の参照信号生成処理、
ステップS304の無相関化処理、
ステップS305の共分散行列の計算、
ステップS308のリスケーリング、
これらの処理は、いずれも、図22に示すスペクトログラム区間853の区間の観測信号を用いて行なわれる。
ステップS705では、ステップS704で生成された抽出フィルタを所定の区間の観測信号へ適用することで音源抽出結果を生成する。
フィルタが適用される観測信号の区間は、図22に示すスペクトログラム区間853全体である必要はなく、前回のスペクトログラム区間852との差分であるスペクトログラム区間差分854で良い。
なぜなら、図22に示すスペクトログラム区間853の内、スペクトログラム区間差分854以外の部分については、前回のスペクトログラム区間852を対象としたフィルタ適用において抽出フィルタが適用され、その部分に対応する抽出結果が既に得られているからである。
ステップS706のマスク適用処理も、スペクトログラム区間差分854の区間に対して行なう。なお、このステップS706のマスク適用処理は、図14のフローにおけるステップS208の処理と同様、省略可能である。
以上で、リアルタイム音源抽出の変形例についての説明を終える。
[4.本開示の処理による効果についてのまとめ]
本開示の音信号処理により、目的音の音源方向の推定値に誤差が含まれる場合でも、目的音を高い精度で抽出することが可能となる。すなわち、位相差に基づく時間周波数マスキングを用いることで、目的音の方向に誤差があっても目的音の時間エンベロープが高い精度で生成されると共に、その時間エンベロープを参照信号として用いる音源抽出を行なうことで、目的音が高精度で抽出される。
各種の抽出方法や分離方法に対する利点は、以下の通りである。
(a)分散最小ビームフォーマーや、Griffith−Jimビームフォーマー等と比較して、
目的音の方向の誤差の影響を受けにくい。すなわち、時間周波数マスクを用いた参照信号生成は、目的音の方向に誤差があってもほぼ同一の参照信号(時間エンベロープ)を生成するため、その参照信号から生成された抽出フィルタも方向の誤差の影響を受けにくい。
(b)バッチ処理の独立成分分析と比較して、
固有値分解等を用いて反復なしで抽出フィルタを求めることができるため、計算量が少ない=遅延が少ない
出力は1チャンネルのため、出力チャンネルの選択を間違えることはない。
(c)リアルタイムの独立成分分析やオンラインアルゴリズムの独立成分分析と比較して、
発話区間全体を使用して抽出フィルタを求めるため、高い精度で抽出されている結果を区間の開始から終了に渡って得られる。
さらに、出力は1チャンネルのため、出力チャンネルの選択を間違えることはない。
(d)時間周波数マスキングと比較して、
本発明で得られる抽出フィルタは線形フィルタであるため、ミュージカルノイズが発生しにくい。
(e)死角ビームフォーマーや、GSSと比較して、
目的音の方向のみ検出できれば、妨害音の方向が不明でも抽出が可能である。すなわち、ある妨害音について区間が検出できなかったり方向が不明であったりしても、目的音を高い精度で抽出することができる。
さらに、本発明を、複数音源対応かつ音源方向推定機能つきの音声区間検出器と、音声認識器と組み合わせることで、雑音下や複数音源下での認識精度が向上する。すなわち、音声と雑音とが時間上で重複していたり、複数人が同時に発話したような状況でも、それらの音源が異なる方向で発生したものであれば、それぞれを高精度で抽出できるため、音声認識の精度も向上する。
さらに、上述した本開示に従った音源抽出処理の効果を確認するために、評価実験を行なった。以下、評価実験の手順と結果について説明する。
最初に、評価用音データの収録を行なった。収録環境を図23に示す。3か所あるスピーカ901〜903から目的音および妨害音を再生し、5cm間隔で並べた4個のマイクロホン920で音を収録した。目的音は音声であり、男性話者1名による25発話と女性話者1名による25発話からなる。一発話あたりの平均の長さは、約1.8秒(225フレーム)である。妨害音は音楽・音声(目的音とは別の話者)・雑踏(人と車の往来がある道路の音)の3種類である。
評価用音データの収録を行なった部屋の残響時間は約0.3秒である。また、収録および短時間フーリエ変換(STFT)の設定は、以下の通りである。
サンプリングレート: 16kHz
STFTの窓タイプ: ハニング窓
窓の長さ:32ミリ秒(512ポイント)
シフト幅:8ミリ秒(128ポイント)
周波数ビン数:257
目的音・妨害音は別個に収録し、後に計算機上で混合することで、評価用の観測信号を複数種類生成した。以降、これらを「混合観測信号」と呼ぶ。
混合観測信号は、妨害音の個数により、以下の2種類に大別される:
(1)妨害音1個:3つあるスピーカA901〜C903のうち、1つから目的音を、残りの2つの内の1つから妨害音を再生して混合したもの。
3(目的音の位置)×50(発話数)×2(妨害音の位置)×3(妨害音の種類)=900通りが存在する。
(2)妨害音2個:3つあるスピーカA901〜C903のうち、スピーカA901から目的音を、スピーカB902から妨害音の1つを、スピーカC903から残りの妨害音の内の1つを再生して混合したもの。
1(目的音の位置)×50(発話数)×2(妨害音の位置)×3(妨害音の種類)×2(もう1つの妨害音の種類)=600通りが存在する。
この実験では混合観測信号を発話ごとに切り出しているため、「発話」と「区間」とは同じ意味である。
比較のために以下の4つの方式を用意し、それぞれについて音源抽出を行なった。
(1)(本開示の方式1)遅延和アレイを用いて参照信号を生成(式[12.1]および以下に示す式[14.1]を使用)
(2)(本開示の方式2)目的音そのものを用いて参照信号を生成(以下に示す式[14.2]を使用。ただし、h(ω,t)は時間周波数領域での目的音)
(3)(従来方式)遅延和アレイ:式[2.1]を用いて抽出
(4)(従来方式)独立成分分析:特開2006−238409『音声信号分離装置・雑音除去装置および方法』で開示された方式。
なお、(2)(本開示の方式2)は、理想的な参照信号が得られた場合にどの程度の音源抽出性能が出るかを評価するためのものである。
また、(4)従来方式の「独立成分分析」は、特開2006−238409で開示された、パーミュテーション問題を起こしにくい方式の時間周波数領域独立成分分析である。
この実験においては、以下に示す式[15.1]〜式[15.3]を200回反復することで、目的音を分離するための行列W(ω)を求めた。
ただし、上記式[15.2]のY(t)は式[15.4]で定義されるベクトルであり、φω(・)は式[15.5]および式[15.6]で定義される関数である。また、ηは学習率と呼ばれ、ここでは0.3を用いた。独立成分分析では分離結果としてn個の信号が生成されるため、目的音の方向に最も近い分離結果を目的音の抽出結果として採用した。
各方式による抽出結果は、振幅と位相とを合わせるため、先に説明した式[8.4]によってリスケーリング係数g(ω)を計算し、それを抽出結果に乗じた。ただし、式[8.4]において、i=1とした。これは、音源抽出結果を、図23におけるマイクロホン#1に対して射影したことを意味する。リスケーリングの後で、各方式による抽出結果を逆フーリエ変換によって波形へと変換した。
抽出の程度を評価するために、抽出結果ごとに目的音(signal)と妨害音(interference)とのパワー比を用いた。具体的には、SIR(Signal−To−Interference Ratio)を計算した。これは、抽出結果における目的音(signal)と妨害音(interference)とのパワー比を対数で表わした値で、単位はデシベル(dB)である。区間ごと(=発話ごと)にSIRを計算した後で、平均を計算した。平均は、妨害音の種類ごとに行なった。
各方式における平均SIRの改善度合いを図24に示す表を参照して説明する。
妨害音としては、妨害音1個の例では、音声、音楽、雑踏のいずれかを用いた。
妨害音2個の例では、音声、音楽、雑踏のいずれか2つの組み合わせを用いた。
図24に示す表は、これらの様々な妨害音を使用し、各方式(1)〜(4)の音源抽出処理を実行した場合の、目的音(signal)と妨害音(interference)とのパワー比を対数で表現した値(dB)であるSIR(Signal−To−Interference Ratio)を示している。
図24に示す表において、最上段の「観測信号SIR」は、混合観測信号における平均SIRである。この行の下の(1)〜(4)の各行に示す数値は、SIRの改善度合い、すなわち、抽出結果の平均SIRと混合観測信号のSIRとの差を表わしている。
例えば、(1)(本開示の方式1)の[音声]の欄に示す[4.10]という値は、SIRが3.65[dB]から3.65+4.10=7.75[dB]に改善されたことを表わしている。
この図24に示す表において、従来方式である「(3)遅延和アレイ」の行に注目すると、SIRの改善度合いは最大でも4[dB]程度あり、これは目的音を若干強調する程度の効果しかないことが分かる。
一方、「(1)本開示の方式1」は、そのような遅延和アレイによって参照信号を生成し、それを用いて音源抽出を行なっているが、SIRの改善度合いは遅延和アレイよりもずっと高いことが分かる。
また、「(1)本開示の方式1」と、従来方式である「(4)独立成分分析」を比較すると、妨害音1個(音楽)の場合を除き、「(1)本開示の方式1」は「(4)独立成分分析」とほぼ同等か、「(4)独立成分分析」を上回るSIR改善度を示している。
なお、「(4)独立成分分析」は妨害音1個の場合と比べて妨害音2個の場合のSIR改善度が低いが、それは評価データの中に極端に短いものが存在し(最短は0.75秒)、そのSIR改善度が低いからだと考えられる。
独立成分分析において十分な分離を行なうためには、ある程度の長さの区間の観測信号を確保する必要があり、その長さは音源数が増えるほど長くなる。それが、「妨害音2個」(=音源数3)においてSIR改善度が極端に低下している原因だと考えられる。一方で、発明方式は、「妨害音2個」においてもそのような極端な低下はない。これも、独立成分分析を比較したときの本開示の処理の利点である。
また、「(2)本開示の方式2」は、理想的な参照信号が得られた場合のSIR改善度合いであり、これは本開示の方式の抽出性能の上限を表わしていると考えられる。妨害音1個のすべての場合、妨害音2個のすべての場合において、他の方式と比べて非常に高いSIR改善度を示している。すなわち、式[3.3]で表わされる本開示の処理に従った音源抽出方式は、参照信号の精度が高い(目的音の時間エンベロープに似ている)ほど高精度の抽出が可能であることが分かる。
次に、計算量の違いを見積もるため、それぞれ方式において一発話(約1.8秒)の抽出処理に要した平均CPU時間を計測した。その結果を図25に示す。
図25には、
本開示の方式、
従来方式である遅延和アレイを用いた方式
従来方式である独立成分分析を用いた方式、
これらの3方式に従って、一発話(約1.8秒)の抽出処理に要した平均CPU時間を示している。
いずれの方式も、実装に用いた言語は「matlab」であり、AMD Opteron 2.6GHzの計算機で実行した。また、全方式で共通である短時間フーリエ変換・リスケーリング・フーリエ逆変換は、計測時間から除外した。また、提案方式においては固有値分解を用いている。すなわち、変形例で言及した、特異値分解に基づく方式は用いていない。
図25から理解されるように、本開示の方式は、従来方式である遅延和アレイよりは時間を要するものの、独立成分分析と比べて1/50以下の時間で抽出が行なわれている。これは、独立成分分析では反復処理が必要であり、反復回数に比例した計算量がかかるのに対し、本発明の方式は閉形式(closed−form)で解くことができ、反復処理が不要だからである。
抽出精度と処理時間とを合わせて考察すると、本開示の方式(提案方式1)は、計算量は独立成分分析の1/50以下である一方で、同等かそれ以上の分離性能を持っていることが示された。
[5.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1)異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析部と、
前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出部を有し、
前記観測信号解析部は、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換部と、
前記短時間フーリエ変換部の生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定部を有し、
前記音源抽出部は、
前記方向・区間推定部から入力する目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理装置。
(2)前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記目的音以外の信号である妨害音を含む観測信号から計算される位相差情報と、前記ステアリングベクトルの類似度を反映した時間周波数マスクを生成する時間周波数マスク生成部と、
前記時間周波数マスクに基づいて前記参照信号を生成する参照信号生成部を有する前記(1)に記載の音信号処理装置。
(3)前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果を生成し、該マスク適用結果から得られる各周波数ビンの時間エンベロープを平均して全周波数ビン共通の参照信号を算出する前記(2)に記載の音信号処理装置。
(4)前記参照信号生成部は、前記時間周波数マスクを周波数ビン間で直接平均して全周波数ビン共通の参照信号を算出する前記(2)に記載の音信号処理装置。
(5)前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果、または前記時間周波数マスクから周波数ビン単位の参照信号を生成する前記(2)に記載の音信号処理装置。
(6)前記参照信号生成部は、前記音信号入力部に構成される各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和した遅延和アレイの結果に対して、前記時間周波数マスクを適用したマスク適用結果を生成し、該マスク適用結果から前記参照信号を取得する前記(2)〜(5)いずれかに記載の音信号処理装置。
(7)前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記観測信号に対して前記ステアリングベクトルを適用した演算処理結果として得られる遅延和アレイの処理結果から参照信号を生成する参照信号生成部を有する前記(1)〜(6)いずれかに記載の音信号処理装置。
(8)前記音源抽出部は、音源抽出処理の処理結果として得られる目的音を参照信号として利用する前記(1)〜(7)いずれかに記載の音信号処理装置。
(9)前記音源抽出部は、音源抽出処理によって抽出結果を生成し、その抽出結果から参照信号を生成し、その参照信号を利用して音源抽出処理を再度行うというループ処理を任意の回数だけ実行する、前記(1)〜(8)いずれかに記載の音信号処理装置。
(10)前記音源抽出部は、前記参照信号に基づいて、前記観測信号から前記目的音を抽出する抽出フィルタを生成する抽出フィルタ生成部を有する前記(1)〜(9)いずれかに記載の音信号処理装置。
(11)前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから重みつき共分散行列を計算し、重みつき共分散行列に対して固有値分解(eigenvalue decomposition)を適用して得られる複数の固有ベクトル(eigenvector(s))から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する前記(10)に記載の音信号処理装置。
(12)前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のN乗(Nは正の実数)の逆数を用い、前記固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記(11)に記載の音信号処理装置。
(13)前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のN乗(Nは正の実数)を用い、前記固有ベクトル選択処理として、最大の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記(11)に記載の音信号処理装置。
(14)前記抽出フィルタ生成部は、抽出結果Yに対して、前記参照信号のN乗(Nは正の実数)の逆数を重みとして乗じた信号の分散である抽出結果の重みつき分散を最小とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記(11)に記載の音信号処理装置。
(15)前記抽出フィルタ生成部は、抽出結果Yに対して、前記参照信号のN乗(Nは正の実数)を重みとして乗じた信号の分散である抽出結果の重みつき分散を最大とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記(11)に記載の音信号処理装置。
(16)前記抽出フィルタ生成部は、前記固有ベクトル選択処理として、前記ステアリングベクトルと最も強く対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記(11)に記載の音信号処理装置。
(17)前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから、前記参照信号のN乗(Nは正の実数)の逆数を重みとする重みつき観測信号行列を計算し、重みつき観測信号行列に対して特異値分解(singular value decomposition)を適用して得られる複数の固有ベクトル(eigenvector(s))から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する前記(10)に記載の音信号処理装置。
(18)異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音信号を抽出する音源抽出部を有し、
前記音源抽出部は、
予め設定された前記目的音の音方向と既定の長さの音区間とに基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を前記既定の音区間単位で抽出する音信号処理装置。
さらに、上記した装置およびシステムにおいて実行する処理の方法や、処理を実行させるプログラムも本開示の構成に含まれる。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本開示の一実施例の構成によれば、複数の音が混在した音信号から目的音を抽出する装置、方法が実現される。
具体的には、観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が入力した多チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定し、音源抽出部が、観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する。
例えば、入力する多チャンネルの音信号に対する短時間フーリエ変換により時間周波数領域の観測信号を取得し、観測信号に基づいて目的音の音方向と音区間を検出する。さらに、目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する。
11 目的音の音源
12 音源方向
13 基準方向
14 妨害音の音源
15〜17 マイクマロホン
21 直線
22 位相差の点
31 直線
32 ずれ
33,34 点
100 音信号処理装置
101 音信号入力部
102 観測信号解析部
103 音源抽出部
110 抽出結果
211 AD変換部
212 STFT部
213 方向・区間推定部
221 観測信号バッファ
222 撮像素子
230 制御部
301〜303 フレーム
401 区間情報
402 観測信号バッファ
403 ステアリングベクトル生成部
404 ステアリングベクトル
405 時間周波数マスク生成部
406 時間周波数マスク
407 マスキング部
408 マスキング結果
409 参照信号生成部
410 参照信号
411 抽出フィルタ生成部
412 抽出フィルタ
413 フィルタリング部
414 フィルタリング結果
415 抽出結果
501 区間情報
502 観測信号バッファ
503 参照信号
504 ステアリングベクトル
505 無相関化部
506 無相関化された観測信号
507 参照信号反映部
508 重み付き共分散行列
509 固有ベクトル計算部
510 固有ベクトル
511 観測信号の共分散行列
512 無相関化行列
513 スケーリング部
514 抽出フィルタ
601〜603 区間
708〜712 参照信号
801 音信号入力部
802 録音部
803 録音データ
805 データ読み込み部
806 STFT部
807 観測信号バッファ
808 方向・区間推定部
809 音源抽出部
810 抽出結果
811 多チャンネル録音器
901〜903 スピーカ
920 マイクアレイ

Claims (20)

  1. 異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析部と、
    前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出部を有し、
    前記観測信号解析部は、
    入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換部と、
    前記短時間フーリエ変換部の生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定部を有し、
    前記音源抽出部は、
    前記方向・区間推定部から入力する目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理装置。
  2. 前記音源抽出部は、
    前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、
    前記目的音以外の信号である妨害音を含む観測信号から計算される位相差情報と、前記ステアリングベクトルの類似度を反映した時間周波数マスクを生成する時間周波数マスク生成部と、
    前記時間周波数マスクに基づいて前記参照信号を生成する参照信号生成部を有する請求項1に記載の音信号処理装置。
  3. 前記参照信号生成部は、
    前記時間周波数マスクを前記観測信号に適用したマスク適用結果を生成し、該マスク適用結果から得られる各周波数ビンの時間エンベロープを平均して全周波数ビン共通の参照信号を算出する請求項2に記載の音信号処理装置。
  4. 前記参照信号生成部は、
    前記時間周波数マスクを周波数ビン間で直接平均して全周波数ビン共通の参照信号を算出する請求項2に記載の音信号処理装置。
  5. 前記参照信号生成部は、
    前記時間周波数マスクを前記観測信号に適用したマスク適用結果、または前記時間周波数マスクから周波数ビン単位の参照信号を生成する請求項2に記載の音信号処理装置。
  6. 前記参照信号生成部は、
    前記音信号入力部に構成される各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和した遅延和アレイの結果に対して、前記時間周波数マスクを適用したマスク適用結果を生成し、該マスク適用結果から前記参照信号を取得する請求項2に記載の音信号処理装置。
  7. 前記音源抽出部は、
    前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、
    前記観測信号に対して前記ステアリングベクトルを適用した演算処理結果として得られる遅延和アレイの処理結果から参照信号を生成する参照信号生成部を有する請求項1に記載の音信号処理装置。
  8. 前記音源抽出部は、
    音源抽出処理の処理結果として得られる目的音を参照信号として利用する請求項1に記載の音信号処理装置。
  9. 前記音源抽出部は、
    音源抽出処理によって抽出結果を生成し、その抽出結果から参照信号を生成し、その参照信号を利用して音源抽出処理を再度行うというループ処理を任意の回数だけ実行する請求項1に記載の音信号処理装置。
  10. 前記音源抽出部は、
    前記参照信号に基づいて、前記観測信号から前記目的音を抽出する抽出フィルタを生成する抽出フィルタ生成部を有する請求項1に記載の音信号処理装置。
  11. 前記抽出フィルタ生成部は、
    前記参照信号と、無相関化された観測信号とから重みつき共分散行列を計算し、重みつき共分散行列に対して固有値分解(eigenvalue decomposition)を適用して得られる複数の固有ベクトル(eigenvector(s))から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する請求項10に記載の音信号処理装置。
  12. 前記抽出フィルタ生成部は、
    前記重みつき共分散行列のための重みとして前記参照信号のN乗(Nは正の実数)の逆数を用い、
    前記固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項11に記載の音信号処理装置。
  13. 前記抽出フィルタ生成部は、
    前記重みつき共分散行列のための重みとして前記参照信号のN乗(Nは正の実数)を用い、
    前記固有ベクトル選択処理として、最大の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項11に記載の音信号処理装置。
  14. 前記抽出フィルタ生成部は、
    抽出結果Yに対して、前記参照信号のN乗(Nは正の実数)の逆数を重みとして乗じた信号の分散である抽出結果の重みつき分散を最小とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項11に記載の音信号処理装置。
  15. 前記抽出フィルタ生成部は、
    抽出結果Yに対して、前記参照信号のN乗(Nは正の実数)を重みとして乗じた信号の分散である抽出結果の重みつき分散を最大とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項11に記載の音信号処理装置。
  16. 前記抽出フィルタ生成部は、
    前記固有ベクトル選択処理として、前記ステアリングベクトルと最も強く対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項11に記載の音信号処理装置。
  17. 前記抽出フィルタ生成部は、
    前記参照信号と、無相関化された観測信号とから、前記参照信号のN乗(Nは正の実数)の逆数を重みとする重みつき観測信号行列を計算し、重みつき観測信号行列に対して特異値分解(singular value decomposition)を適用して得られる複数の固有ベクトル(eigenvector(s))から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する請求項10に記載の音信号処理装置。
  18. 異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音信号を抽出する音源抽出部を有し、
    前記音源抽出部は、
    予め設定された前記目的音の音方向と既定の長さの音区間とに基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を前記既定の音区間単位で抽出する音信号処理装置。
  19. 音信号処理装置において実行する音信号処理方法であり、
    観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析ステップと、
    音源抽出部が、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出ステップを実行し、
    前記観測信号解析ステップにおいて、
    入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
    前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行し、
    前記音源抽出ステップにおいて、
    前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理方法。
  20. 音信号処理装置において音信号処理を実行させるプログラムであり、
    観測信号解析部に、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定させる観測信号解析ステップと、
    音源抽出部に、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出させる音源抽出ステップを実行させ、
    前記観測信号解析ステップにおいて、
    入力する前記複数チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
    前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行させ、
    前記音源抽出ステップにおいて、
    前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出させるプログラム。
JP2012052548A 2011-04-18 2012-03-09 音信号処理装置、および音信号処理方法、並びにプログラム Pending JP2012234150A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012052548A JP2012234150A (ja) 2011-04-18 2012-03-09 音信号処理装置、および音信号処理方法、並びにプログラム
US13/446,491 US9318124B2 (en) 2011-04-18 2012-04-13 Sound signal processing device, method, and program
CN2012101105853A CN102750952A (zh) 2011-04-18 2012-04-16 声音信号处理装置、方法和程序

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011092028 2011-04-18
JP2011092028 2011-04-18
JP2012052548A JP2012234150A (ja) 2011-04-18 2012-03-09 音信号処理装置、および音信号処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2012234150A true JP2012234150A (ja) 2012-11-29

Family

ID=47006392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012052548A Pending JP2012234150A (ja) 2011-04-18 2012-03-09 音信号処理装置、および音信号処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US9318124B2 (ja)
JP (1) JP2012234150A (ja)
CN (1) CN102750952A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014125736A1 (ja) * 2013-02-14 2014-08-21 ソニー株式会社 音声認識装置、および音声認識方法、並びにプログラム
US9357298B2 (en) 2013-05-02 2016-05-31 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
US9384760B2 (en) 2013-01-28 2016-07-05 Honda Motor Co., Ltd. Sound processing device and sound processing method
JP2016126136A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 自動ミキシング装置およびプログラム
WO2016167141A1 (ja) * 2015-04-16 2016-10-20 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2016189570A (ja) * 2015-03-30 2016-11-04 アイホン株式会社 インターホン装置
JP2017058406A (ja) * 2015-09-14 2017-03-23 Shannon Lab株式会社 コンピュータシステムおよびプログラム
JPWO2019049276A1 (ja) * 2017-09-07 2019-12-26 三菱電機株式会社 雑音除去装置および雑音除去方法
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
WO2021193093A1 (ja) * 2020-03-25 2021-09-30 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
JP2021189246A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
WO2022075035A1 (ja) * 2020-10-05 2022-04-14 株式会社オーディオテクニカ 音源定位装置、音源定位方法及びプログラム
WO2022190615A1 (ja) * 2021-03-10 2022-09-15 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9291697B2 (en) * 2012-04-13 2016-03-22 Qualcomm Incorporated Systems, methods, and apparatus for spatially directive filtering
CA2832848A1 (en) 2012-11-12 2014-05-12 Yamaha Corporation Microphone signal processing and method
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
FR3011377B1 (fr) * 2013-10-01 2015-11-06 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
JP2015155975A (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
CN103839553A (zh) * 2014-03-15 2014-06-04 王岩泽 定点录音系统
CN105590631B (zh) * 2014-11-14 2020-04-07 中兴通讯股份有限公司 信号处理的方法及装置
US10898160B2 (en) 2014-12-12 2021-01-26 Koninklijke Philips N.V. Acoustic monitoring system, monitoring method, and monitoring computer program
US9781508B2 (en) * 2015-01-05 2017-10-03 Oki Electric Industry Co., Ltd. Sound pickup device, program recorded medium, and method
US11694707B2 (en) * 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
GB2540175A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
JP2017102085A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US9830931B2 (en) * 2015-12-31 2017-11-28 Harman International Industries, Incorporated Crowdsourced database for sound identification
RU2743732C2 (ru) 2016-05-30 2021-02-25 Сони Корпорейшн Способ и устройство для обработки видео- и аудиосигналов и программа
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN106679799B (zh) * 2016-12-28 2019-07-12 陕西师范大学 一种雷声信号发生系统及雷声信号模拟方法
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
CN109413543B (zh) * 2017-08-15 2021-01-19 音科有限公司 一种源信号提取方法、系统和存储介质
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
CN111465982B (zh) * 2017-12-12 2024-10-15 索尼公司 信号处理设备和方法、训练设备和方法以及程序
JP6961545B2 (ja) * 2018-07-02 2021-11-05 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム
CN108806711A (zh) * 2018-08-07 2018-11-13 吴思 一种提取方法及装置
CN109839612B (zh) * 2018-08-31 2022-03-01 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN109282479B (zh) * 2018-09-17 2021-02-23 青岛海信日立空调系统有限公司 空调降噪装置及降噪方法
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
CN110931036B (zh) * 2019-12-07 2022-03-22 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法
CN113129902B (zh) * 2019-12-30 2023-10-24 北京猎户星空科技有限公司 一种语音处理方法、装置、电子设备及存储介质
US11348253B2 (en) * 2020-01-09 2022-05-31 Alibaba Group Holding Limited Single-channel and multi-channel source separation enhanced by lip motion
KR20240001714A (ko) * 2021-05-26 2024-01-03 라모트 앳 텔-아비브 유니버시티 리미티드 고주파 민감성 신경망
JP2023024039A (ja) * 2021-08-06 2023-02-16 株式会社Jvcケンウッド 処理装置、及び処理方法
CN114758560B (zh) * 2022-03-30 2023-06-06 厦门大学 一种基于动态时间规整的哼唱音准评价方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3537962B2 (ja) 1996-08-05 2004-06-14 株式会社東芝 音声収集装置及び音声収集方法
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
DE60203379T2 (de) * 2001-01-30 2006-01-26 Thomson Licensing S.A., Boulogne Signalverarbeitungstechnik zur geometrischen quellentrennung
JP2006072163A (ja) 2004-09-06 2006-03-16 Hitachi Ltd 妨害音抑圧装置
JP4449871B2 (ja) * 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法
EP1752969A4 (en) * 2005-02-08 2007-07-11 Nippon Telegraph & Telephone SIGNAL SEPARATION DEVICE, SIGNAL SEPARATION METHOD, SIGNAL SEPARATION PROGRAM, AND RECORDING MEDIUM
JP5034469B2 (ja) 2006-12-08 2012-09-26 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
JP2008175733A (ja) 2007-01-19 2008-07-31 Fujitsu Ltd 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP4950733B2 (ja) * 2007-03-30 2012-06-13 株式会社メガチップス 信号処理装置
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP2010121975A (ja) 2008-11-17 2010-06-03 Advanced Telecommunication Research Institute International 音源定位装置
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
TWI412023B (zh) * 2010-12-14 2013-10-11 Univ Nat Chiao Tung 可消除噪音且增進語音品質之麥克風陣列架構及其方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384760B2 (en) 2013-01-28 2016-07-05 Honda Motor Co., Ltd. Sound processing device and sound processing method
WO2014125736A1 (ja) * 2013-02-14 2014-08-21 ソニー株式会社 音声認識装置、および音声認識方法、並びにプログラム
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
US9357298B2 (en) 2013-05-02 2016-05-31 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
JP2016126136A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 自動ミキシング装置およびプログラム
JP2016189570A (ja) * 2015-03-30 2016-11-04 アイホン株式会社 インターホン装置
WO2016167141A1 (ja) * 2015-04-16 2016-10-20 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JPWO2016167141A1 (ja) * 2015-04-16 2018-02-08 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2017058406A (ja) * 2015-09-14 2017-03-23 Shannon Lab株式会社 コンピュータシステムおよびプログラム
CN111052766A (zh) * 2017-09-07 2020-04-21 三菱电机株式会社 噪音去除装置及噪音去除方法
CN111052766B (zh) * 2017-09-07 2021-07-27 三菱电机株式会社 噪音去除装置及噪音去除方法
DE112017007800T5 (de) 2017-09-07 2020-06-25 Mitsubishi Electric Corporation Störgeräuscheliminierungseinrichtung und Störgeräuscheliminierungsverfahren
JPWO2019049276A1 (ja) * 2017-09-07 2019-12-26 三菱電機株式会社 雑音除去装置および雑音除去方法
JP6999734B2 (ja) 2019-05-10 2022-01-19 ネイバー コーポレーション オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
WO2021193093A1 (ja) * 2020-03-25 2021-09-30 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
JP2021189246A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
JP7376895B2 (ja) 2020-05-27 2023-11-09 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
WO2022075035A1 (ja) * 2020-10-05 2022-04-14 株式会社オーディオテクニカ 音源定位装置、音源定位方法及びプログラム
JPWO2022075035A1 (ja) * 2020-10-05 2022-04-14
JP7171095B2 (ja) 2020-10-05 2022-11-15 株式会社オーディオテクニカ 音源定位装置、音源定位方法及びプログラム
US12047754B2 (en) 2020-10-05 2024-07-23 Audio-Technica Corporation Sound source localization apparatus, sound source localization method and storage medium
WO2022190615A1 (ja) * 2021-03-10 2022-09-15 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
CN102750952A (zh) 2012-10-24
US9318124B2 (en) 2016-04-19
US20120263315A1 (en) 2012-10-18

Similar Documents

Publication Publication Date Title
JP2012234150A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP2014219467A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
US8654990B2 (en) Multiple microphone based directional sound filter
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
JP2013518477A (ja) レベルキューによる適応ノイズ抑制
Wang et al. Noise power spectral density estimation using MaxNSR blocking matrix
JPWO2009110574A1 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP6065028B2 (ja) 収音装置、プログラム及び方法
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
Roman et al. Pitch-based monaural segregation of reverberant speech
WO2021193093A1 (ja) 信号処理装置、信号処理方法およびプログラム
Yousefian et al. Using power level difference for near field dual-microphone speech enhancement
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
WO2022190615A1 (ja) 信号処理装置および方法、並びにプログラム
EP3847645B1 (en) Determining a room response of a desired source in a reverberant environment
Sadjadi et al. Blind reverberation mitigation for robust speaker identification
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
Lee et al. Deep neural network-based speech separation combining with MVDR beamformer for automatic speech recognition system
Kumar et al. Speech denoising in multi-noise source environments using multiple microphone devices via Relative Transfer Matrix
Bagchi et al. Extending instantaneous de-mixing algorithms to anechoic mixtures
Yousefian et al. Power level difference as a criterion for speech enhancement
Takada et al. Sound source separation using null-beamforming and spectral subtraction for mobile devices
Salvati et al. Improvement of acoustic localization using a short time spectral attenuation with a novel suppression rule
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment