JP2012234150A

JP2012234150A - 音信号処理装置、および音信号処理方法、並びにプログラム

Info

Publication number: JP2012234150A
Application number: JP2012052548A
Authority: JP
Inventors: Atsuo Hiroe; 厚夫廣江
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-18
Filing date: 2012-03-09
Publication date: 2012-11-29
Also published as: CN102750952A; US9318124B2; US20120263315A1

Abstract

【課題】複数の音が混在した音信号から目的音を抽出する装置、方法を提供する。
【解決手段】観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定し、音源抽出部が、観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する。具体的には、入力する複数チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成し、観測信号に基づいて目的音の音方向と音区間を検出する。さらに、目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する。
【選択図】図９

Description

本開示は、音信号処理装置、および音信号処理方法、並びにプログラムに関する。さらに、詳細には音源抽出処理を実行する音信号処理装置、および音信号処理方法、並びにプログラムに関する。

音源抽出処理とは、マイクロホンで観測される複数の原信号が混合された信号（以降「観測信号」または「混合信号」）から、目的の原信号を１つ取り出す処理である。以下では、目的の原信号（すなわち、抽出したい信号）を「目的音」、それ以外の原信号を「妨害音」と呼ぶ。

本開示の音信号処理装置が解決しようとする課題の１つは、複数の音源が存在している環境下において、目的音の音源方向と、目的音の区間とがある程度既知のときにその音を高精度に抽出することである。
言い換えると、目的音と妨害音とが混合している観測信号から、音源方向や区間の情報を用いて、妨害音を消して目的音のみを残すことである。

なお、ここでいう音源方向とは、マイクロホンから見た音源到来方向（ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ：ＤＯＡ）であり、区間とは音の開始時刻（鳴り始め）と終了時刻（鳴り終わり）との組およびその時間に含まれる信号を意味する。
なお、複数音源に対する方向推定および区間検出処理について開示した従来技術として例えば以下の従来技術がある。

（従来方式１）画像、特に顔の位置や唇の動きを用いる方式
この方式は、例えば特許文献１（特開平１０−５１８８９号公報）などに開示がある。具体的には、顔のある方向を音源方向と判断し、唇の動いている区間を発話区間と見なす方式である。

（従来方式２）複数音源対応の音源方向推定に基づく音声区間検出
この方式は、例えば特許文献２（特開２０１０−１２１９７５号公報）などに開示されている。具体的には、観測信号を所定の長さのブロックに分割し、ブロックごとに複数音源対応の方向推定を行なう。次に、音源方向に対するトラッキングを行ない、近い方向同士をブロック間で接続していく方式である。

以下、上述した課題、すなわち、
「複数の音源が存在している環境下において、目的音の方向と区間とがある程度既知のときにその音を高精度に抽出する」
上記の課題について、
Ａ．課題の詳細
Ｂ．従来技術を適用した課題解決処理の具体例
Ｃ．従来技術における問題点
以上の項目順に説明する。

［Ａ．課題の詳細］
本開示の技術が対象としている課題の詳細について、図１を用いて説明する。
ある環境において、音源（信号の発生源）が複数存在しているとする。音源の１つは目的音を発する「目的音の音源１１」であり、残りは妨害音を発する「妨害音の音源１４」である。

なお、目的音の音源１１は１個だが、妨害音の音源は１個以上とする。図１には１つの「妨害音の音源１４」を示しているが、この他の妨害音の音源が存在していてもよい。
目的音の到来方向は既知とし、それを変数θで表わす。図１に示す音源方向θ，１２である。なお、方向の基準（方向＝０を表わす線）は任意に設定してよい。図１に示す例では、基準方向１３として設定している。

目的音の音源化１１の音源方向が、例えば、前述の方式、すなわち、
（従来方式１）画像、特に顔の位置や唇の動きを用いる方式
（従来方式２）複数音源対応の音源方向推定に基づく音声区間検出
これらの方式のいずれかを利用して推定された値である場合、θは誤差を含む可能性がある。例えば、θ＝π／６ラジアン（＝３０°）であっても、真の音源方向はそれとは異なる値（例えば３５°）である可能性もある。

一方、妨害音については、方向は未知であるか、既知であっても誤差を含んでいるとする。区間も同様とする。例えば、妨害音が鳴り続けている環境でも、その一部の区間しか検出されなかったり、全く検出されなかったりする可能性もある。

図１に示すように、マイクロホンはｎ個用意する。図１に示すマイクロホン１，１５〜ｎ，１７である。また、マイクロホン同士の相対的な位置は既知とする。

次に、音源抽出処理に使われる変数について、以下に示す式（１．１〜１．３）を参照して説明する。
なお、明細書中において、
Ａ＿ｂは、Ａに下付きの添え字ｂが設定された表記、
Ａ＾ｂは、Ａに上付きの添え字ｂが設定された表記、
これらを意味する。

ｋ番目のマイクロホンで観測された信号をｘ＿ｋ（τ）とする（τは時刻）。
この信号に対して短時間フーリエ変換（ＳｈｏｒｔｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）を適用すると（詳細は後述）、時間周波数領域の観測信号Ｘ＿ｋ（ω，ｔ）が得られる。
ただし、
ωは周波数ビン番号、
ｔはフレーム番号、
をそれぞれ表わす。

各マイクロホンの観測信号Ｘ＿１（ω，ｔ）〜Ｘ＿ｎ（ω，ｔ）からなる列ベクトルをＸ（ω，ｔ）とする（式［１．１］）。

本開示構成で対象としている音源抽出は、基本的に、観測信号Ｘ（ω，ｔ）に抽出フィルタＷ（ω）を乗じて抽出結果Ｙ（ω，ｔ）を得ることである（式［１．２］）。ただし、抽出フィルタＷ（ω）はｎ個の要素からなる行ベクトルであり、式［１．３］として表わされる。

音源抽出の各種方式は、基本的に抽出フィルタＷ（ω）の算出方法の違いとして分類することができる。

［Ｂ．従来技術を適用した課題解決処理の具体例］
複数の音源からの混在信号から目的音を抽出する処理を実現する方式は、
Ｂ１．音源抽出方式
Ｂ２．音源分離方式
上記２つの方式に大別される。
以下、これらの各方式を適用した従来技術について説明する。

（Ｂ１．音源抽出方式）
既知の音源方向と区間とを用いて抽出を行なう音源抽出方式としては、例えば、以下のものが知られている。
Ｂ１−１．遅延和アレイ
Ｂ１−２．分散最小ビームフォーマー
Ｂ１−３．ＳＮＲ最大化ビームフォーマー
Ｂ１−４．目的音の除去と減算に基づく方式
Ｂ１−５．位相差に基づく時間周波数マスキング
これらは、いずれも、マイクロホンアレイ（複数のマイクロホンをそれぞれ位置を変えて設置したもの）を用いる方式である。それぞれの方式の詳細については、特許文献３（特開２００６−７２１６３号公報）などを参照されたい。
以下、各方式の概要について説明する。

（Ｂ１−１．遅延和アレイ）
各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和すると、目的音は位相が揃っているために強調され、それ以外の方向からの音は少しずつ位相が異なるため減衰する。

具体的には、Ｓ（ω，θ）を方向θに対応したステアリングベクトル（ある方向から到来する音について、マイク間の位相差を表わしたベクトル。詳細は後述）として、以下に示す式［２．１］によって抽出結果を得る。

ただし、上付きのＨはエルミート転置（ベクトルまたは行列を転置すると共に各要素を共役複素数に変換）を表わす。

（Ｂ１−２．分散最小ビームフォーマー）
目的音の方向のゲインを１（強調も減衰もしない）かつ妨害音の方向には死角（感度の低い方向。ｎｕｌｌｂｅａｍとも呼ばれる）を持つフィルタを形成することで、目的音のみを抽出する。

（Ｂ１−３．ＳＮＲ最大化ビームフォーマー）
以下のａ）とｂ）との比Ｖ＿ｓ（ω）／Ｖ＿ｎ（ω）を最大にするフィルタＷ（ω）を求める方式。
ａ）目的音のみが鳴っている区間に抽出フィルタＷ（ω）を適用した結果の分散Ｖ＿ｓ（ω）
ｂ）妨害音のみが鳴っている区間に抽出フィルタＷ（ω）を適用した結果の分散Ｖ＿ｎ（ω）
この方式では、それぞれの区間が検出できれば目的音の方向は不要である。

（Ｂ１−４．目的音の除去と減算に基づく方式）
観測信号から目的音を除去した信号（目的音除去信号）をいったん生成し、観測信号（または遅延和アレイ等によって目的音が強調された信号）から目的音除去信号を減算すると、目的音のみが残る。

この方式の１つであるＧｒｉｆｆｉｔｈ−Ｊｉｍビームフォーマーは、減算として通常の引き算を用いている。他に、スペクトルサブトラクション等の、非線形な減算を用いる方式も存在する。

（Ｂ１−５．位相差に基づく時間周波数マスキング）
周波数マスキングとは、周波数ごとに異なる係数を乗じることで、妨害音の支配的な周波数の成分はマスクする（抑圧する）一方で、目的音が支配的な周波数の成分は残すことによって、目的音の抽出を行なう方式である。

時間周波数マスキングとは、マスクの係数を固定ではなく時間ごとに変更する方式であり、マスクの係数をＭ（ω，ｔ）とすると、抽出は、式［２．２］で表わすことができる。なお、右辺の第２項は、Ｘ＿ｋ（ω，ｔ）の他に、他の方式による抽出結果を用いてもよい。例えば、遅延和アレイによる抽出結果（式［２．１］）にマスクＭ（ω，ｔ）を乗じてもよい。

一般的に、音信号は周波数方向にも時間方向にもスパース（疎）であるため、たとえ目的音と妨害音とが同時に鳴っていても、目的音が支配的な時間および周波数が存在する場合が多い。そのような時間・周波数を見つけ出す方法として、マイクロホン間の位相差を用いるものがある。

位相差を用いた時間周波数マスキングとしては、例えば特許文献４（特開２０１０−２０２９４号公報）に記載の「変形例１．周波数マスキング」を参照されたい。この例では、独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）によって求めた音源方向および位相差からマスクの係数を計算しているが、他の方法で求めた位相差に対しても、適用可能である。以下では、音源抽出の観点から説明する。

簡単のため、マイクロホンは２つとする。すなわち、図１において、マイクロホン数：ｎ＝２とする。
仮に妨害音がなかったら、マイクロホン間の位相差と周波数とのプロットはほぼ直線上に並ぶ。例えば図１において音源が唯一の目的音の音源１１しか存在しない場合、音源からの音はマイクロホン１，１５に先に到着し、その一定時間後にマイクロホン２，１６に到着する。

両マイクロホンの観測信号、すなわち、
マイクロホン１，１５の観測信号：Ｘ＿１（ω，ｔ），
マイクロホン２，１６の観測信号：Ｘ＿２（ω，ｔ）、
これらを比較すると、
Ｘ＿２（ω，ｔ）の方が位相が遅れている。

従って、両者の位相差を前記の式［２．４］で計算し、位相差と周波数ビン番号ωとの関係をプロットすると図２に示す対応関係が得られる。
位相差の点２２は直線２１の上に並ぶ。到達時間差は音源方向θに依存するため、直線２１の傾きも音源方向θに依存する。ａｎｇｌｅ（ｘ）は複素数ｘの偏角を求める関数であり、
ａｎｇｌｅ（Ａｅｘｐ（ｊα））＝α
である。

一方、妨害音が存在すると、観測信号の位相は妨害音の影響を受けるため、位相差のプロットは直線からずれる。ずれの大きさは妨害音の影響の大きさに依存する。言い換えると、ある周波数および時間において位相差の点が直線の近くにある場合、その周波数および時間では妨害音の成分が小さいことを表わしている。従って、そのような周波数および時間の成分を残し、それ以外は抑圧するようなマスクを生成・適用すれば、目的音の成分のみを残すことができる。

図３は、妨害音が存在する環境で図２と同様のプロットを行なった例である。直線３１は図２に示す直線２１と同様だが、妨害音の影響のため、位相差がこの直線上から外れた点が存在する。例えば点３３である。直線３１上から大きく外れた点のある周波数ビンは、妨害音の成分が大きいことを意味しているので、そのような周波数ビンの成分を減衰させる。例えば、位相差の点と直線とでずれ、すなわち図３に示すずれ３２を計算し、このずれの値が大きいほど、前述の式［２．２］のＭ（ω，ｔ）を０に近い値、逆に位相差の点が直線に近いほどＭ（ω，ｔ）を１に近い値に設定する。

時間周波数マスキングは、分散最小ビームフォーマーやＩＣＡと比べて計算量が小さく、また、無指向性の妨害音（環境ノイズ等、音源方向が不明確な音）も除去できるという利点がある。その反面、スペクトル上において不連続な箇所が発生することで、波形に戻した際にミュージカルノイズが発生しやすいとう課題もある。

（Ｂ２．音源分離方式）
以上、音源抽出の従来方式について説明したが、場合によっては、音源分離の各種方式も適用可能である。すなわち、同時に鳴っている複数の音源を音源分離によって生成した後、音源方向などの情報を用いて目的の信号を１つ選択するという方法である。

音源分離の方式としては、以下のものが挙げられる。
Ｂ２−１．独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）
Ｂ２−２．死角ビームフォーマー
Ｂ２−３．ＧｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ（ＧＳＳ）
以下、これらの方式の概要について説明する。

（Ｂ２−１．独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）
分離行列Ｗ（ω）の適用結果であるＹ（ω）の各成分が統計的に独立になるようにＷ（ω）を求める。詳細は特開２００６−２３８４０９号公報等を参照されたい。また、ＩＣＡによる分離結果から音源方向を求める方法については、前述の特許文献４（特開２０１０−２０２９４号公報）を参照されたい。

通常のＩＣＡは、マイクロホンと同じ数の分離結果を生成するが、それとは別に、デフレーション法と呼ばれる、原信号を１つずつ抽出していく方式も存在しており、例えば脳磁図（Ｍａｇｎｅｔｏｅｎｃｅｐｈａｌｏｇｒａｐｈｙ：ＭＥＧ）等の信号の解析に使用されている。しかし、時間周波数領域の信号に対してデフレーション法を単純に適用すると、どの原信号が最初に抽出されるかが周波数ビンによって異なるという現象が発生してしまう。そのため、時間周波数信号の抽出においてデフレーション法は用いられていない。

（Ｂ２−２．死角ビームフォーマー）
各音源方向に対応したステアリングベクトル（生成方法は後述）を横に並べた行列を生成し、その（擬似）逆行列を求めると、観測信号をそれぞれの音源に分離する行列が得られる。

具体的には、目的音の音源方向をθ＿１、妨害音の音源方向をθ＿２〜θ＿ｍとし、各音源方向に対応したステアリングベクトルを横に並べて行列Ｎ（ω）を作る（式［２．４］）。Ｎ（ω）の擬似逆行列と観測信号ベクトルＸ（ω，ｔ）とを乗じると、分離結果を要素に持つベクトルＺ（ω，ｔ）が得られる（式［２．５］）。（上付きの＃は、擬似逆行列を表わす。）

目的音の方向はθ＿１であるため、目的音はＺ（ω，ｔ）の一番上の要素である。
また、Ｎ（ω）＾＃の１行目は、目的音以外の全ての音源の方向に死角（ｎｕｌｌｂｅａｍ）を形成したフィルタとなっている。

（Ｂ２−３．ＧｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ（ＧＳＳ））
以下の２つの条件を満たす行列Ｗ（ω）を求めると、死角ビームフォーマーよりも高精度の分離フィルタが得られる。
ａ）Ｗ（ω）はＮ（ω）の（擬似）逆行列
ｂ）Ｗ（ω）の適用結果Ｚ（ω，ｔ）は統計的に無相関

［Ｃ．従来技術の問題点］
次に、上述した従来技術における問題点について説明する。
前述の課題設定では目的音の方向と区間とを既知としていたが、これらが常に高い精度で得られるとは限らない。すなわち、以下のような課題がある。
１）目的音の方向が不正確な（誤差を含んでいる）場合がある。
２）妨害音については、区間が検出できるとは限らない。

例えば、画像を用いる方法では、カメラとマイクロホンアレイとの位置のずれにより、顔の位置から計算される音源方向とマイクロホンアレイに対しての音源方向とは、ずれが生じる可能性がある。また、顔位置とは無関係の音源や、カメラ画角外の音源については、区間が検出できない。

一方で、音源方向推定に基づく方式では、方向の精度と計算量との間にトレードオフがある。例えば、音源方向推定として、ＭＵＳＩＣ法を用いると、死角をスキャンする際の角度の刻み幅を小さくすると精度が上がる反面、計算量が増える。
なお、ＭＵＳＩＣ法は、ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎの略である。ＭＵＳＩＣ法は、空間フィルタリング（特定方向の音を透過したり抑圧したりする処理）の観点からは、以下の２つのステップ（Ｓ１），（Ｓ２）の処理として説明できる。なお、ＭＵＳＩＣ法の詳細については、特許文献５（特開２００８−１７５７３３号）などを参照されたい。

（Ｓ１）ある区間（ブロック）内で鳴っている全ての音源の方向に死角を向けた空間フィルタを生成する。
（Ｓ２）そのフィルタについて指向特性（方向とゲインとの関係）を調べ、死角が表れている方向を求める。

また、抽出に最適な音源方向は、周波数ビンごとに異なる。そのため、全周波数から音源方向を１つだけ求めた場合、周波数ビンによっては最適な値とのずれが生じる。
このように、目的音の方向が不正確だったり、妨害音の検出に失敗したりした場合に、従来の方法の中には、抽出（または分離）の精度が低下するものが存在する。

また、音源抽出を他の処理（音声認識や録音など）の前段処理として用いる場合、以下の要件を満たすのが望ましい。
低遅延：
区間の終了から抽出結果（または分離結果）が生成されるまでの時間が短い。
高追従性：
区間の開始の時点から高い精度で抽出されている。

しかし、従来法ではこれら全ての要件を満たすものは存在していなかった。以下では、上述した各方式の問題点について述べる。

（Ｃ１．遅延和アレイの問題点（Ｂ１−１））
方向が不正確でも、ある程度までなら影響は少ない。
しかし、マイクロホンの個数が少ない場合（例えば３〜５個程度）、妨害音はあまり減衰しない。すなわち、目的音が少々強調される程度の効果しかない。

（Ｃ２．分散最小ビームフォーマーの問題点（Ｂ１−２））
目的音の方向に誤差がある場合に、抽出の精度が急激に低下する。なぜなら、ゲインを１に固定する方向と目的音の真の方向とがずれている場合、目的音の方向にも死角を形成し、目的音も減衰させてしまうからである。すなわち、目的音と妨害音との比率（ＳＮＲ）が大きくならない。

この問題に対処するため、目的音が鳴っていない区間の観測信号を用いて抽出用フィルタを学習する方式もある。しかしその場合、その区間に目的音以外の音源が全て鳴っている必要がある。言い換えると、目的音が鳴っている区間でのみ存在している妨害音があっても、それは除去できない。

（Ｃ３．ＳＮＲ最大化ビームフォーマーの問題点（Ｂ１−３））
音源方向は使用しないので、目的音の方向が不正確でも影響は受けない。
しかし、
ａ）目的音のみが鳴っている区間と、
ｂ）目的音以外の全ての音源が鳴っている区間、
これらの両方が必要であるため、どちらかが取得できない場合は適用できない。例えば、妨害音の１つがほぼ鳴りっぱなしである場合、ａ）は取得できない。また、目的音が鳴っている区間でのみ鳴っている妨害音が存在する場合、ｂ）は取得できない。

（Ｃ４．目的音の除去と減算に基づく方式の問題点（Ｂ１−４））
目的音の方向に誤差がある場合に、抽出の精度が急激に低下する。なぜなら、目的音の方向が不正確である場合、目的音が完全には除去されず、その信号を観測信号から減算すると、目的音もある程度は除去されてしまうからである。
すなわち、目的音と妨害音との比率が大きくならない。

（Ｃ５．位相差に基づく時間周波数マスキングの問題点（Ｂ１−５））
方向が不正確でも、ある程度までなら影響は少ない。
しかし、低い周波数ではもともとマイクロホン間の位相差があまりないため、高精度な抽出ができない。
また、スペクトル上に非連続な箇所が発生しやすいため、波形に戻したときにミュージカルノイズが発生する場合がある。

また、別の問題として、時間周波数マスキングの処理結果のスペクトルは、自然の音声のスペクトルとは異なるため、後段に音声認識等を組み合わせた場合に、抽出はできている（妨害音は除去できている）にも関わらず音声認識の精度が向上しない場合もあり得る。

さらに、目的音と妨害音とが重複する度合いが高くなると、マスクされる箇所が増えるため、抽出結果の音量が小さくなったり、ミュージカルノイズの度合いが大きくなったりする可能性がある。

（Ｃ６．独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）の問題点（Ｂ２−１））
音源方向を用いないため、方向が不正確でも分離への影響はない。
しかし、他の方式と比べて計算量が大きいため、バッチ処理（区間全体の観測信号を用いる方式）では遅延が大きくなる。しかも目的音が１つの場合、ｎ個（ｎはマイクロホンの個数）の分離信号のうちの１個しか採用しないにもかかわらず、分離に要する計算量および使用メモリ量はｎ個の場合と同じである。それどころか、信号を選択する処理が必要となるため、その分の計算量が増えると共に、目的音とは異なる信号が選択される可能性も発生する（「選択誤り」と呼ぶ）。

なお、特許文献６（特開２００８−１４７９２０号公報）に記載のあるずらし適用やオンラインアルゴリズムなどによってリアルタイム化すると、遅延を少なくすることはできる反面、追従遅れが発生する。すなわち、初めて鳴る音源については、区間の開始近くでは抽出精度が低く、区間の終端に近づくにつれて抽出精度が高くなるという現象が発生する。

（Ｃ７．死角ビームフォーマーの問題点（Ｂ２−２））
妨害音の方向が不正確である場合に、分離の精度が急激に低下する。なぜなら、妨害音の真の方向とは異なる方向に死角を形成するため、妨害音が除去されないからである。
また、妨害音を含めて区間内の全ての音源方向が既知である必要がある。検出されなかった音源は、除去されない。

（Ｃ８．ＧｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ（ＧＳＳ）の問題点（Ｂ２−３））
方向が不正確でも、ある程度までなら影響は少ない。
しかしこの方式も、妨害音を含めて区間内の全ての音源方向が既知である必要がある。

以上をまとめると、以下の要件を全て満たす方式は、従来は存在していなかった。
・目的音の方向が不正確でも、影響が少ない。
・妨害音の区間と方向が未知でも、目的音が抽出できる。
・低遅延かつ高追従性。

特開平１０−５１８８９号公報特開２０１０−１２１９７５号公報特開２００６−７２１６３号公報特開２０１０−２０２９４号公報特開２００８−１７５７３３号特開２００８−１４７９２０号公報

本件は、このような状況に鑑みてなされたものであり、例えば、目的音の方向が不正確でも、影響が少なく、妨害音の区間と方向が未知でも、目的音の抽出を可能とした低遅延かつ高追従性の音源抽出を行う音信号処理装置、および音信号処理方法、並びにプログラムを提供することを目的とする。

例えば本開示の一実施例においては、目的音の時間エンベロープを参照信号（リファレンス）として用いた音源抽出を行う。
また、本開示の一実施例においては、目的音の方向から、時間周波数マスキングを用いて目的音の時間エンベロープを生成する。

本開示の第１の側面は、
異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析部と、
前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出部を有し、
前記観測信号解析部は、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換部と、
前記短時間フーリエ変換部の生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定部を有し、
前記音源抽出部は、
前記方向・区間推定部から入力する目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理装置にある。

さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記目的音以外の信号である妨害音を含む観測信号から計算される位相差情報と、前記ステアリングベクトルの類似度を反映した時間周波数マスクを生成する時間周波数マスク生成部と、前記時間周波数マスクに基づいて前記参照信号を生成する参照信号生成部を有する。

さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果を生成し、該マスク適用結果から得られる各周波数ビンの時間エンベロープを平均して全周波数ビン共通の参照信号を算出する。

さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記時間周波数マスクを周波数ビン間で直接平均して全周波数ビン共通の参照信号を算出する。

さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果、または前記時間周波数マスクから周波数ビン単位の参照信号を生成する。

さらに、本開示の音信号処理装置の一実施態様において、前記参照信号生成部は、前記音信号入力部に構成される各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和した遅延和アレイの結果に対して、前記時間周波数マスクを適用したマスク適用結果を生成し、該マスク適用結果から前記参照信号を取得する。

さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記観測信号に対して前記ステアリングベクトルを適用した演算処理結果として得られる遅延和アレイの処理結果から参照信号を生成する参照信号生成部を有する。

さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、音源抽出処理の処理結果として得られる目的音を参照信号として利用する。

さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、音源抽出処理によって抽出結果を生成し、その抽出結果から参照信号を生成し、その参照信号を利用して音源抽出処理を再度行うというループ処理を任意の回数だけ実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記音源抽出部は、前記参照信号に基づいて、前記観測信号から前記目的音を抽出する抽出フィルタを生成する抽出フィルタ生成部を有する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから重みつき共分散行列を計算し、つき共分散行列に対して固有値分解（ｅｉｇｅｎｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して得られる複数の固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ（ｓ））から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のＮ乗（Ｎは正の実数）の逆数を用い、前記固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のＮ乗（Ｎは正の実数）を用い、前記固有ベクトル選択処理として、最大の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、抽出結果Ｙに対して、前記参照信号のＮ乗（Ｎは正の実数）の逆数を重みとして乗じた信号の分散である抽出結果の重みつき分散を最小とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、抽出結果Ｙに対して、前記参照信号のＮ乗（Ｎは正の実数）を重みとして乗じた信号の分散である抽出結果の重みつき分散を最大とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記固有ベクトル選択処理として、前記ステアリングベクトルと最も強く対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する。

さらに、本開示の音信号処理装置の一実施態様において、前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから、前記参照信号のＮ乗（Ｎは正の実数）の逆数を重みとする重みつき観測信号行列を計算し、重みつき観測信号行列に対して特異値分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して得られる複数の固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ（ｓ））から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する。

さらに、本開示の第２の側面は、
異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音信号を抽出する音源抽出部を有し、
前記音源抽出部は、
予め設定された前記目的音の音方向と既定の長さの音区間とに基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を前記既定の音区間単位で抽出する音信号処理装置にある。

さらに、本開示の第３の側面は、
音信号処理装置において実行する音信号処理方法であり、
観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析ステップと、
音源抽出部が、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出ステップを実行し、
前記観測信号解析ステップにおいて、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行し、
前記音源抽出ステップにおいて、
前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理方法にある。

さらに、本開示の第４の側面は、
音信号処理装置において音信号処理を実行させるプログラムであり、
観測信号解析部に、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定させる観測信号解析ステップと、
音源抽出部に、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出させる音源抽出ステップを実行させ、
前記観測信号解析ステップにおいて、
入力する前記複数チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行させ、
前記音源抽出ステップにおいて、
前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出させるプログラムにある。

なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本開示の一実施例の構成によれば、複数の音が混在した音信号から目的音を抽出する装置、方法が実現される。
具体的には、観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が入力した多チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定し、音源抽出部が、観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する。
例えば、入力する多チャンネルの音信号に対する短時間フーリエ変換により時間周波数領域の観測信号を取得し、観測信号に基づいて目的音の音方向と音区間を検出する。さらに、目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する。

音源抽出処理を行う場合の具体的環境の一例について説明する図である。複数のマイクロホンに入力する音の位相差と周波数ビン番号ωとの関係グラフを示す図である。妨害音が存在する環境で、図２と同様の複数のマイクロホンに入力する音の位相差と周波数ビン番号ωとの関係グラフを示す図である。音信号処理装置の一構成例を示す図である。音信号処理装置の実行する処理について説明する図である。音源抽出部の実行する音源抽出処理の具体的処理シーケンスの一例につい説明する図である。ステアリングベクトルの生成方法を説明する図である。マスクの値から参照信号である時間エンベロープを生成する方法について説明する図である。音信号処理装置の一構成例を示す図である。短時間フーリエ変換（ＳＴＦＴ）処理の詳細について説明する図である。音源抽出部の詳細について説明する図である。抽出フィルタ生成部の詳細について説明する図である。音信号処理装置の実行する処理について説明するフローチャートを示す図である。図１３のフローにおけるステップＳ１０４で実行する音源抽出処理の詳細について説明するフローチャートを示す図である。図１４のフローにおけるステップＳ２０１で実行する区間の調整の詳細と、そのような処理を行なう理由について説明する図である。図１４のフローにおけるステップＳ２０４において実行する抽出フィルタ生成処理の詳細について説明するフローチャートを示す図である。全周波数ビンで共通の参照信号を生成する例と、周波数ビンごとに参照信号を生成する例について説明する図である。多チャンネルで録音し、再生時に本発明を適用する実施例について説明する図である。特異値分解を用いて抽出フィルタを生成する処理について説明するフローチャートを示す図である。観測信号の区間を固定長とすることで発話終了を待つことなく低遅延で抽出結果を生成・出力するリアルタイム音源抽出処理シーケンスについて説明するフローチャートを示す図である。図２０のフローにおけるステップＳ６０６で実行する音源抽出処理の詳細について説明するフローチャートを示す図である。観測信号からの固定長区間の切り出し処理について説明する図である。本開示に従った音源抽出処理の効果を確認するための評価実験を行なった収録環境を説明する図である。本開示に従った音源抽出処理と従来方式の各方式のＳＩＲ改善データについて説明する図である。本開示に従った音源抽出処理と従来方式の音源抽出処理の計算量を比較データであり、各方式の平均ＣＰＵ処理時間を示す図である。

以下、図面を参照しながら音信号処理装置、および音信号処理方法、並びにプログラムの詳細について説明する。
以下、以下に示す項目に従って処理の詳細について説明する。
１．本開示の音信号処理装置の構成と処理の概要について
１−１．音信号処理装置の構成と全体処理について、
１−２．目的音の時間エンベロープを参照信号（リファレンス）として用いた音源抽出処理について
１−３．目的音の方向から、時間周波数マスキングを用いて目的音の時間エンベロープを生成する処理について
２．本開示の音信号処理装置の詳細構成と具体的な処理について
３．変形例について
４．本開示の処理による効果についてのまとめ
５．本開示の構成のまとめ
以下、上記項目に従って説明する。

なお、明細書中における表記は、前述したように、
Ａ＿ｂは、Ａに下付きの添え字ｂが設定された表記、
Ａ＾ｂは、Ａに上付きの添え字ｂが設定された表記、
これらを意味する。
また、
ｃｏｎｊ（Ｘ）は、複素数Ｘの共役複素数を表わす。式の上では、Ｘの共役複素数はＸに上線をつけて表わす。
ｈａｔ（ｘ）は、ｘの上に"＾"をつけることを表わす。
値の代入は、"＝"または"←"で表わす。特に、両辺で等号が成立しないような操作（例えば"ｘ←ｘ＋１"）については、"←"で表わす。

［１．本開示の音信号処理装置の構成と処理の概要について］
本開示の音信号処理装置の構成と処理の概要について説明する。
（１−１．音信号処理装置の構成と全体処理について）
図４は、本開示の音信号処理装置の構成例を示す図である。
図４に示すように、音信号処理装置１００は、複数のマイクから構成される音信号入力部１０１、音信号入力部１０１の入力信号（観測信号）を入力して、入力信号の解析処理、具体的には、例えば抽出対象とする目的音源の音区間や方向を検出する観測信号解析部１０２、観測信号解析部１０２の検出した目的音の音区間単位の観測信号（複数音の混在信号）から目的音源の音を抽出する音源抽出部１０３を有する。音源抽出部１０３が生成した目的音の抽出結果１１０は、例えば音声認識等の処理を行う後段処理部に出力される。

図４に示す各処理部の具体的処理例について図５を参照して説明する。
図５には、以下の各処理を個別に示している。
ステップＳ０１：音信号入力
ステップＳ０２：区間検出
ステップＳ０３：音源抽出
これらの３つの処理は、それぞれ図４に示す音信号入力部１０１、音区間検出部１０２、音源抽出部１０３の処理に対応する。

ステップＳ０１の音信号入力処理は、図４に示す音信号入力部１０１の処理であり、複数のマイクを介して複数音源からの音信号を入力する。
図に示す例では、３つの音源から、それぞれ、
「さようなら」
「こんにちは」
音楽
が観測されている状態を示している。

ステップＳ０２の区間検出処理は、図４に示す観測信号解析部１０２の処理である。観測信号解析部１０２は、音信号入力部１０１の入力信号（観測信号）を入力して、抽出対象とする目的音源の音区間を検出する。
図に示す例では、
「さようなら」の音声区間＝（３）
「こんにちは」の音声区間＝（２）
音楽の音声区間（１）と（４）
これらの区間（音区間）を検出した例を示している。

ステップＳ０３の音源抽出処理は、図４に示す音源抽出部１０３の処理である。音源抽出部１０３は、観測信号解析部１０２の検出した目的音の音区間単位の観測信号（複数音の混在信号）から目的音源の音を抽出する。
図に示す例では、
「さようなら」の音声区間＝（３）
「こんにちは」の音声区間＝（２）
音楽の音声区間（１）と（４）
これらの音区間の音源抽出を行う例をそれぞれ示している。

ステップＳ０３に示す音源抽出部１０３の実行する音源抽出処理の具体的処理シーケンスの一例について図６を参照して説明する。
図６は、音源抽出部１０３の実行する音源抽出処理のシーケンスをステップＳ１１〜Ｓ１４の４つの処理として示している。

ステップＳ１１は、抽出対象とする目的音の音区間単位の観測信号の切り出し処理の結果である。
ステップＳ１２は、抽出対象とする目的音の方向の解析処理の結果である。
ステップＳ１３は、ステップＳ１１において取得した目的音の音区間単位の観測信号と、ステップＳ１２において取得した目的音の方向情報に基づいて、参照信号（リファレンス）を生成する処理である。
ステップＳ１４は、ステップＳ１１において取得した目的音の音区間単位の観測信号と、ステップＳ１２において取得した目的音の方向情報と、ステップＳ１３において生成した参照信号（リファレンス）を利用して、目的音の抽出結果を得る処理である。

音源抽出部１０３は、例えば図６に示すステップＳ１１〜Ｓ１４の処理を実行して、目的とする音源の抽出、すなわち目的以外の妨害音を極力排除した目的音から構成される音信号を生成する。

次に、本開示の音信号処理装置において実行する処理中、以下の２つの処理の詳細について、順次、説明する。
（１）目的音の時間エンベロープを参照信号（リファレンス）として用いた音源抽出処理。
（２）目的音の方向から時間周波数マスキングを用いて行う目的音の時間エンベロープの生成処理。

（１−２．目的音の時間エンベロープを参照信号（リファレンス）として用いた音源抽出処理について）
まず、目的音の時間エンベロープを参照信号（リファレンス）として用いた音源抽出処理について説明する。

目的音の時間エンベロープが既知とし、フレームｔでの時間エンベロープの値をｒ（ｔ）とする。なお、時間エンベロープとは、時間方向の音量の変化の概形のことである。エンベロープの性質より、ｒ（ｔ）は実数であり、しかも常に０以上の値をとる。一般に、同一の音源に由来する信号であれば、異なる周波数ビンでも似た時間エンベロープを持つ。すなわち、音源が大きな音で鳴っている瞬間はどの周波数も大きな成分を持ち、小さな音で鳴っている瞬間はどの周波数も小さな成分を持つ傾向がある。

また、抽出結果Ｙ（ω，ｔ）は、以下に示す式［３．１］（式［１．２］と同一）で計算するが、抽出結果の分散が１に固定されているとする（式［３．２］）。

ただし、式［３．２］において、＜・＞＿ｔは、所定の範囲のフレーム（例えば目的音が鳴っている区間）においてカッコ内の平均を計算することを表わす。
一方、時間エンベロープｒ（ｔ）については、スケールは任意でよい。

式［３．２］の制約は目的音のスケールとは異なるため、いったん抽出フィルタを求めた後で、抽出結果のスケールを適切な値に調整する処理を行なう。その処理を「リスケーリング」と呼ぶ。リスケーリングの詳細は後述する。

式［３．２］の制約の下で、抽出結果の絶対値である｜Ｙ（ω，ｔ）｜について、時間方向の概形をできる限りｒ（ｔ）に近づけたい。また、ｒ（ｔ）と異なりＹ（ω，ｔ）は複素数の信号であるため、その位相も適切に求めたい。そのような抽出結果を生成する抽出フィルタを得るために、式［３．３］の右辺を最小化するＷ（ω）を求める。（式［３．１］より、式［３．３］は式［３．４］と等価である。）
ただし、Ｎは正の実数である（例えばＮ＝２）。

こうして求めたＷ（ω）は、目的音を抽出するフィルタになっている。その理由を以下で説明する。
式［３．３］は、Ｙ（ω，ｔ）に１／ｒ（ｔ）＾（Ｎ／２）という重みを乗じた信号（式［３．５］）の分散と解釈できる。これは重みつき分散の最小化（または重みつき最小２乗法）と呼ばれ、もしＹ（ω，ｔ）に式［３．２］以外の制約がないならば（式［３．１］の関係がないならば）、Ｙ（ω，ｔ）が全てのｔにおいて式［３．６］を満たすときに式［３．３］は最小値１／Ｒ＾２をとる。ただし、Ｒ＾２はｒ（ｔ）＾Ｎの平均である（式［３．７］）。

以降では、
式［３．３］の＜・＞＿ｔの項を「抽出結果の重みつき分散」、
式［３．４］の＜・＞＿ｔの項を「観測信号の重みつき共分散行列」、
と呼ぶ。

すなわち、スケールの違いを無視すれば、抽出結果｜Ｙ（ω，ｔ）｜の概略が参照信号ｒ（ｔ）と一致したときに式［３．３］の右辺は最小となる。

なお、
観測信号：Ｘ（ω，ｔ）
目的音抽出フィルタ：Ｗ（ω）
抽出結果：Ｙ（ω，ｔ）
これらの関係は、式［３．１］の関係であるため、抽出結果は式［３．６］とは完全には一致せず、式［３．１］および式［３．２］を満たす範囲で式［３．３］が最小化される。その結果、抽出結果：Ｙ（ω，ｔ）の位相も適切に求まる。

なお、参照信号と目的の信号とを近づけるための手法として、一般的には最小二乗誤差法が適用可能である。すなわち、参照信号と目的の信号との２乗誤差を最小化するという方法である。しかし本発明の問題設定では、フレームｔの時間エンベロープ：ｒ（ｔ）は実数なのに対して、抽出結果：Ｙ（ω，ｔ）は複素数であるため、両者の２乗誤差の最小化問題（式［３．８］、または式［３．９］も等価）として、目的音抽出フィルタ：Ｗ（ω）を導いても、Ｗ（ω）はＹ（ω，ｔ）の実部を最大化するだけであり、目的音は得られない。つまり、従来技術において参照信号を用いた音源抽出が存在していても、式［３．８］や式［３．９］を用いている限り、本発明とは別物である。

次に、目的音抽出フィルタ：Ｗ（ω）を求める手順について、以下に示す［４，１］以下の式を参照して説明する。

目的音抽出フィルタ：Ｗ（ω）は、以下の手順により、ｃｌｏｓｅｄｆｏｒｍ（反復のない式）で算出することができる。
最初に、上記の式［４．１］に示すように、観測信号Ｘ（ω，ｔ）に対して無相関化（ｄｅｃｏｒｒｅｌａｔｉｏｎ）を行なう。
無相関化行列をＰ（ω）、無相関化を適用した観測信号をＸ'（ω，ｔ）とすると（式［４．１］）、Ｘ'（ω，ｔ）は式［４．２］を満たす。

無相関化行列Ｐ（ω）を求めるためには、いったん観測信号の共分散行列Ｒ（ω）を計算し（式［４．３］）、次にＲ（ω）に固有値分解を適用する（式［４．４］）。
ただし、式［４．４］において、
Ｖ（ω）は固有ベクトルＶ＿１（ω）〜Ｖ＿ｎ（ω）からなる行列（式［４．５］）、
Ｄ（ω）は固有値ｄ＿１（ω）〜ｄ＿ｎ（ω）を要素とする対角行列、
である（式［４．６］）。

このＶ（ω）とＤ（ω）とを用いて無相関化行列Ｐ（ω）は式［４．７］のように計算される。なお、Ｖ（ω）は正規直交行列（ｏｒｔｈｏｎｏｒｍａｌｍａｔｒｉｘ）であり、Ｖ（ω）＾ＨＶ（ω）＝Ｉを満たす。（Ｖ（ω）は各要素が複素数なので、厳密にはユニタリ行列である。）

式［４．１］に示す無相関化を行なった後で、式［４．８］を満たす行列Ｗ'（ω）を求める。ただし、式［４．８］の左辺は式［３．１］の左辺と同一の抽出結果である。つまり、観測信号から目的音を抽出するフィルタであるＷ（ω）を直接求める代わりに、無相関化された観測信号Ｘ'（ω，ｔ）から目的音を抽出するフィルタＷ'（ω）を求める。

そのためには、式［４．９］の制約下で式［４．１０］の右辺を最小化するベクトルＷ'（ω）を求めればよい。式［４．９］の制約は、式［３．２］と［４．２］と［４．８］から導ける。また、式［４．１０］は、式［３．４］と［４．８］から得られる。

式［４．１０］の右辺を最小化するＷ'（ω）は、この式の重みつき共分散行列の項（＜・＞＿ｔの部分）を再び固有値分解することで求まる。すなわち、重みつき共分散行列を式［４．１１］のような積に分解し、固有ベクトルＡ＿１（ω）〜Ａ＿ｎ（ω）からなる行列をＡ（ω）（式［４．１２］）、固有値ｂ＿１（ω）〜ｂ＿ｎ（ω）からなる対角行列をＢ（ω）（式［４．１４］）とすると、求めるＷ'（ω）は、固有ベクトルの一つをエルミート転置したものである（式［４．１４］）。固有ベクトルＡ＿１（ω）〜Ａ＿ｎ（ω）の中から適切な１つを選択する方法については、後述する。

固有ベクトルＡ＿１（ω）〜Ａ＿ｎ（ω）は互いに直交しており、式［４．１３］を満たす。そのため、式［４．１４］で求まるＷ'（ω）は式［４．９］の制約を満たす。
Ｗ'（ω）が求まったら、無相関化行列Ｐ（ω）と組み合わせることで抽出フィルタも求まる。（具体的な式は後述する。）

次に、式［４．１２］に示される固有ベクトルＡ＿１（ω）〜Ａ＿ｎ（ω）の中から抽出フィルタとして適切な１つを選択する方法について、以下に示す式［５．１］以下を参照して説明する。

固有ベクトルＡ＿１（ω）〜Ａ＿ｎ（ω）の中から抽出フィルタとして適切な１つを選択する方法として、以下の２つが可能である。
選択方法１：最小の固有値に対応した固有ベクトルを選択する。
選択方法２：音源方向θに対応した固有ベクトルを選択する。
以下、それぞれの選択方法について説明する。

（選択方法１：最小の固有値に対応した固有ベクトルを選択する）
式［４．１４］に従ってＡ＿ｉ（ω）＾ＨをＷ'（ω）として採用し、それを式［４．１０］の右辺に代入すると、右辺のａｒｇｍｉｎ以下は、Ａ＿ｌ（ω）に対応した固有値であるｂ＿ｌ（ω）のみが残る（"ｌ"は小文字のエル）。
言い換えると、ｎ個の固有値の内で最小のものをｂ＿ｌ（ω）とすると（式［５．１］）、式［４．１０］の右辺を最小化するＷ'（ω）はＡ＿ｌ（ω）＾Ｈであり、その最小値はｂ＿ｌ（ω）である。

（選択方法２：音源方向θに対応した固有ベクトルを選択する）
死角ビームフォーマーの説明において、音源方向に対応したステアリングベクトルから分離行列が計算できることを述べたが、その逆に、分離行列や抽出フィルタからステアリングベクトル相当のベクトルを計算することも可能である。

従って、各固有ベクトルをステアリングベクトル相当のベクトルに変換し、それらと、目的音の方向に対応したステアリングベクトルとの間で類似度を比較することで、目的音の抽出フィルタとして最適な固有ベクトルを選択することができる。

固有ベクトルＡ＿ｋ（ω）に、式［４．７］に示す無相関化行列Ｐ（ω）の逆行列を左から乗じたものをＦ＿ｋ（ω）とする（式［５．２］）。そして、Ｆ＿ｋ（ω）の各要素を式［５．３］で表わす。この式は、死角ビームフォーマーについて説明した式［２．５］におけるＮ（ω）＾＃の逆の操作に対応しており、Ｆ＿ｋ（ω）はステアリングベクトルに相当するベクトルである。

そこで、固有ベクトルＡ＿１（ω）〜Ａ＿ｎ（ω）に対応したステアリングベクトル相当ベクトルＦ＿１（ω）〜Ｆ＿ｎ（ω）それぞれについて、目的音に対応したステアリングベクトルＳ（ω，θ）との類似度を求め、その類似度に基づいて選択を行なえばよい。例えばＦｌ（ω）が最も類似しているなら、Ａ＿ｌ（ω）＾ＨをＷ'（ω）として採用する。（"ｌ"は小文字のエル）

そのために、Ｆ＿ｋ（ω）の各要素について自身の絶対値で割ることで計算されるベクトルＦ'＿ｋ（ω）を用意し（式［５．４］）、Ｆ'＿ｋ（ω）とＳ（ω，θ）との内積によって類似度を計算する（式［５．５］）。そして、内積の絶対値が最大となるＦ'＿ｋ（ω）から抽出フィルタを選択すればよい。Ｆ＿ｋ（ω）の代わりにＦ'＿ｋ（ω）を用いる理由は、マイクロホン感度のばらつきの影響を排除するためである。
なお、式［５．２］の代わりに式［５．６］を用いてＦ＿ｋ（ω）を計算しても、同じ値が得られる。（Ｒ（ω）は観測信号の共分散行列であり、式［４．３］で計算される。）

この方法の利点は、方法１と比べて音源抽出の副作用が小さいことである。例えば、参照信号の生成にエラーがあって参照信号が目的音の時間エンベロープと大きく食い違っているような場合、選択方法１で選択される固有ベクトルは所望外のもの（例えば妨害音をかえって強調するフィルタ）である可能性もある。
一方、選択方法２では目的音の方向が選択に反映されるため、最悪の場合でも、目的音を強調する程度の働きのある抽出フィルタが選択される可能性が高い。

（１−３．目的音の方向から、時間周波数マスキングを用いて目的音の時間エンベロープを生成する方法）
次に、目的音の方向から参照信号を生成する方法の１つとして、時間周波数マスキングおよび時間エンベロープ生成について説明する。時間周波数マスキングで音源抽出を行なうと、ミュージカルノイズが発生したり、低い周波数での分離精度が不十分（位相差からマスクを生成した場合）であったりするという課題があるが、利用目的を時間エンベロープの生成に限定すれば、それらの課題を回避することができる。

従来法の説明ではマイクロホンが２個の場合に限定したが、以下の実施例では多チャンネルを前提にしたステアリングベクトルと観測信号ベクトルとの類似度に基づく方式を用いた例について説明する。
以下、
（１）ステアリングベクトルの生成方法、
（２）マスクの生成方法と参照信号の生成方法、
これらについて、順次、説明する。

（１）ステアリングベクトルの生成方法
ステアリングベクトルの生成方法を、図７および、以下に示す式［６．１］〜［６．３］を用いて説明する。

図７に示す基準点１５２を、方向を測るための基準点とする。基準点１５２はマイクロホンの近くの任意の地点でよく、例えばマイクロホン間の重心と一致させたり、あるいはマイクロホンのどれかと一致させても良い。基準点の位置ベクトル（すなわち座標）をｍとする。

音の到来方向を表わすために、基準点１５２を始点とする、長さ１のベクトルを用意し、それをベクトルｑ（θ）１５１とする。音源位置がマイクロホンとほぼ同じ高さであるなら、ベクトルｑ（θ）１５１はＸ−Ｙ平面上（垂直方向をＺ軸とする）のベクトルとして考えればよく、その成分は上記の式［６．１］で表わせる。ただし方向θは、Ｘ軸となす角である。

なお、マイクの位置と音源位置とが同一平面にない場合は、音源方向ベクトルに仰角（ｅｌｅｖｅｔｉｏｎ）ψも反映させたｑ（θ，ψ）を式［６．１４］で計算し、式［６．２］においてｑ（θ）の代わりにｑ（θ，ψ）を用いればよい。

図７において、ベクトルｑ（θ）の方向から到来する音は、先にマイクロホンｋ１５３に到着し、次に基準点１５２、それからマイクロホンｉ１５４に到着する。基準点１５２に対するマイクロホンｋ１５３の位相差は、式［６．２］で表わせる。
ただし、この式において、
ｊ：虚数単位
Ｍ：周波数ビン数
Ｆ：サンプリング周波数
Ｃ：音速
ｍ＿ｋ：マイクロホンｋの位置ベクトル
これらを表わし、
上付きのＴは通常の転置を表わす。

すなわち、平面波を仮定すると、マイクロホンｋ１５３は基準点１５２よりも図７に示す距離１５５の分だけ音源に近く、逆にマイクロホンｉ１５４は、距離１５６の分だけ遠い。これらの距離差は、ベクトルの内積を用いて、
ｑ（θ）＾Ｔ（ｍ＿ｋ−ｍ）、および、
ｑ（θ）＾Ｔ（ｍ＿ｉ−ｍ）、
と表わせ、距離差を位相差に変換すると、式［６．２］が得られる。

各マイクロホンの位相差からなるベクトルは式［６．３］で表わされ、これをステアリングベクトルと呼ぶ。なお、マイクロホン数ｎの平方根で割っている理由は、ベクトルのノルムを１に正規化するためである。
なお、以降の説明では、基準点ｍをマイクロホンｉの位置ｍ＿ｉと同一とする。

次に、マスクの生成方法について説明する。
式［６．３］で表わされるステアリングベクトルＳ（ω，ｔ）は、目的音のみが鳴っている場合の理想的な位相差を表わしていると考えることができる。つまり、図３に示す直線３１に相当する。そこで、観測信号からも位相差のベクトルを計算し（位相差の点３３，３４に相当）、それとステアリングベクトルとの間で類似度を計算する。なお、類似度は図３に示す距離３２に相当する。この類似度により、妨害音の混入度合いを計算することができ、その類似度の値から時間周波数マスクを生成することができる。すなわち、類似度が高いほど妨害音の混入度合いが小さいため、マスクの値を大きくする。

マスク値を計算する具体的な式は、式［６．４］〜［６．７］である。式［６．４］のＵ（ω，ｔ）は、基準点であるマイクロホンｉと他のマイクロホンとの間での観測信号の位相差であり、Ｕ（ω，ｔ）の各要素はＵ＿１（ω，ｔ）〜Ｕ＿ｎ（ω，ｔ）とする（式［６．５］）。マイクロホン感度のばらつきによる影響を排除するため、Ｕ（ω，ｔ）の各要素を自身の絶対値で割り、それをＵ'（ω，ｔ）とする。なお、式［［６．６］。マイクロホン数ｎの平方根で割っている理由は、ベクトルのノルムを１に正規化するためである。

ステアリングベクトルＳ（ω，ｔ）と観測信号の位相差のベクトルＵ'（ω，ｔ）との類似度として、内積Ｓ（ω，ｔ）＾ＨＵ'（ω，ｔ）を計算する。両ベクトルの大きさは１であり、それらの内積の絶対値は０〜１に正規化されるため、その値をそのままマスクの値として用いることができる（式［６．７］）。

次に、マスクの値から参照信号である時間エンベロープを生成する方法について、図８を参照して説明する。
基本的な処理は、以下の処理シーケンスである。
図８に示す観測信号１７１、すなわち目的音の音区間単位の観測信号１７１に基づいて、ステップＳ２１におけるマスク生成処理を実行して、時間周波数マスク１７２を生成する。
次にステップＳ２２において、生成した時間周波数マスク１７２を観測信号１７１に適用して時間周波数マスクの適用結果としてのマスキング結果１７３を生成する。
さらに、ステップＳ２３において、周波数ビンごとに時間エンベロープを計算し、抽出が比較的良好に行なわれている複数の周波数ビンの間で時間エンベロープを平均して、目的音の時間エンベロープに近い時間エンベロープを参照信号（リファレンス）（ケース１）１８１として得るというものである。

時間周波数マスクの適用結果Ｑ（ω，ｔ）は、式［６．８］または式［６．９］で得られる。式［６．８］はマイクロホンｋの観測信号に対してマスクを適用するのに対し、式［６．９］は遅延和アレイの結果に対してマスクを適用する。

なお、遅延和アレイとは、各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和したデータである。この遅延和アレイの結果では、目的音は位相が揃っているために強調され、それ以外の方向からの音は少しずつ位相が異なるため減衰する。

式［６．８］、式［６．９］に示すＪはマスクの効果を制御するための正の実数であり、Ｊが大きいほどマスクの効果が大きい。言い換えると、このマスクは方向θから離れた音源ほど減衰させる効果があり、Ｊが大きいほど減衰の程度を大きくすることができる。

Ｑ（ω，ｔ）を周波数ビン間で平均する前に、時間方向で振幅の正規化を行ない、その結果をＱ'（ω，ｔ）とする（式［６．１０］）。正規化を行なうことで、低い周波数ビンの時間エンベロープの過度の影響を抑えることができる。

一般に、音は低い周波数成分ほど大きなパワーを持つため、時間エンベロープを周波数ビン間で単純に平均すると、低い周波数の時間エンベロープが支配的になる。しかし、位相差に基づく時間周波数マスキングでは、低い周波数ほど分離精度が低くなるので、単純な平均で得られた時間エンベロープは、目的音のものとは異なっている可能性が高くなる。

参照信号ｒ（ｔ）は、各周波数ビンの時間エンベロープを平均することで求める（式［６．１１］）。式［６．１１］は、集合Ωに属する周波数ビンについて、時間エンベロープのＬ乗平均、すなわち、要素のＬ乗を行って平均し、最後にＬ乗根を計算した値であるＬ乗平均を計算することを表わしており、Ｌは正の実数である。集合Ωは、全周波数ビンの部分集合であり、例えば式［６．１２］で表わされる。この式のω＿ｍｉｎとω＿ｍａｘは、時間周波数マスキングによる抽出が成功しやすい周波数ビンの下限と上限とをそれぞれ表わす。（例えば、経験的に求めた固定値を用いる。）
こうして計算されたｒ（ｔ）を参照信号として用いる。

参照信号ｒ（ｔ）については、もっと簡易な生成方法も存在する。
この処理は、図８に示す参照信号（リファレンス）（ケース２）１８２の生成処理である。
これは、ステップＳ２１において観測信号に基づいて生成した時間周波数マスク１７２＝時間周波数マスクＭ（ω，ｔ）を周波数ビン間で直接平均する処理を、ステップＳ２４における参照信号生成処理として実行して、図８に示す参照信号（リファレンス）（ケース２）１８２を生成するものである。
この処理は、式［６．１３］で表わされる。この式において、ＬとΩは式［６．１１］と同一である。式［６．１３］を用いると、時間周波数マスク適用結果であるＱ（ω，ｔ）やＱ'（ω，ｔ）を生成する必要がなくなるため、式［６．１１］と比べて計算量（ｃｏｍｐｕｔａｔｉｏｎａｌｃｏｓｔ）も使用メモリも低減できる。

以下では、生成された参照信号（リファレンス）として、式［６．１３］が式［６．１１］とほぼ同じ性質を持つことを説明する。

式［３．４］や式［４．１０］における重みつき共分散行列の計算（＜・＞＿ｔの項）においては、一見する限りでは、フレーム番号ｔでの参照信号ｒ（ｔ）が小さいか観測信号Ｘ（ω，ｔ）が大きいほど、そのフレームの値が重みつき共分散行列に強く影響するように見える。

しかし、Ｘ（ω，ｔ）はｒ（ｔ）の計算でも使用されるため（式［６．８］または式［６．９］）、Ｘ（ω，ｔ）が大きい場合はｒ（ｔ）も大きくなり、共分散行列への影響は小さい。したがって、影響の大きなフレームはｒ（ｔ）の値が小さな箇所であり、式［６．８］または式［６．９］の関係により、それはマスク値Ｍ（ω，ｔ）に依存する。

また、式［６．７］により、マスク値Ｍ（ω，ｔ）は値が０〜１に制限されているため、正規化された信号（例えばＱ'（ω，ｔ））と同様の傾向を持つ。すなわち、周波数ビン間でＭ（ω，ｔ）を単純に平均しても、低い周波数ビンの成分が支配的になることはない。

結局、参照信号をｒ（ｔ）をＱ'（ω，ｔ）とＭ（ω，ｔ）のどちらから計算しても、ほぼ同じ概形を持ったものが得られる。両者で参照信号のスケールは異なるが、式［３．４］または式［４．１０］から計算される抽出フィルタは参照信号のスケールの影響を受けないため、Ｑ'（ω，ｔ）とＭ（ω，ｔ）のどちらを用いても、同じ抽出フィルタと抽出結果が得られる。

なお、参照信号の生成については、他にもさまざまな方式が利用可能である。それについては後段で変形例として詳細に説明する。

［２．本開示の音信号処理装置の詳細構成と具体的な処理について］
上記の［項目１］では、本開示の音信号処理装置の全体構成と処理の概要、および、以下の２つの処理の詳細について説明した。
（１）目的音の時間エンベロープを参照信号（リファレンス）として用いた音源抽出処理。
（２）目的音の方向から時間周波数マスキングを用いて行う目的音の時間エンベロープの生成処理。
次に、本開示の音信号処理装置の詳細構成と具体的な処理の実施例について説明する。

（２−１．音信号処理装置の構成）
音信号処理装置の構成例を図９に示す。
この図９は、先に図４を参照して説明した構成を、さらに詳細に示す構成図である。
先に図４を参照して説明したように、音信号処理装置１００は、複数のマイクから構成される音信号入力部１０１、音信号入力部１０１の入力信号（観測信号）を入力して、入力信号の解析処理、具体的には、例えば抽出対象とする目的音源の音区間や方向を検出する観測信号解析部１０２、観測信号解析部１０２の検出した目的音の音区間単位の観測信号（複数音の混在信号）から目的音源の音を抽出する音源抽出部１０３を有する。音源抽出部１０３が生成した目的音の抽出結果１１０は、例えば音声認識等の処理を行う後段処理部に出力される。

図９に示すように、観測信号解析部１０２は、音信号入力部１０１であるマイクロホンアレイで収音された多チャンネルの音データをＡＤ変換するＡＤ変換部２１１を有する。ここで生成されたデジタル信号データを（時間領域の）観測信号と呼ぶ。

ＡＤ変換部２１１の生成したデジタルデータである観測信号は、ＳＴＦＴ（短時間フーリエ変換）部２１２において短時間フーリエ変換（ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）が施され、観測信号は時間周波数領域の信号へ変換される。この信号を時間周波数領域の観測信号と呼ぶ。

ＳＴＦＴ（短時間フーリエ変換）部２１２において実行する短時間フーリエ変換（ＳＴＦＴ）処理の詳細について、図１０を参照して説明する。

図１０に示す（ａ）観測信号の波形ｘ＿ｋ（＊）は、
例えば、図９に示す装置中に音声入力部として構成されるｎ本のマイクからなるマイクロホンアレイ中のｋ番目のマイクによって観測される観測信号の波形ｘ＿ｋ（＊）である。

この観測信号から、一定長を切り出した切り出しデータであるフレーム３０１〜３０３にハニング窓やハミング窓等の窓関数を作用させる。なお切り出し単位をフレームと呼ぶ。１フレーム分のデータに短時間フーリエ変換をかけることにより、周波数領域のデータであるスペクトルＸ＿ｋ（ｔ）を得る（ｔはフレーム番号）。

切り出すフレームの間には、図に示すフレーム３０１〜３０３のように重複があってもよく、そうすることで連続するフレームのスペクトルＸ＿ｋ（ｔ−１）〜Ｘ＿ｋ（ｔ＋１）を滑らかに変化させることができる。また、スペクトルをフレーム番号に従って並べたものをスペクトログラムと呼ぶ。図１０（ｂ）に示すデータがスペクトログラムの例であり、時間周波数領域の観測信号となる。
スペクトルＸ＿ｋ（ｔ）は要素数Ｍのベクトルであり、ω番目の要素をＸ＿ｋ（ω，ｔ）として示される。

ＳＴＦＴ（短時間フーリエ変換）部２１２において短時間フーリエ変換（ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）により生成された時間周波数領域の観測信号は、観測信号バッファ２２１と、方向・区間推定部２１３とに送られる。

観測信号バッファ２２１は、所定の時間（フレーム数）の観測信号を蓄積する。ここで蓄積された信号は、音源抽出部１０３において、所定の方向から到来した音声を抽出した結果を得るため等に使用する。そのため、観測信号は時刻（またはフレーム番号など）と対応付けられて格納されており、後で所定の時刻（またはフレーム番号）に対応した観測信号を取り出すことができるものとする。

方向・区間推定部２１３は、音源の開始時刻（鳴り始めた時刻）および終了時刻（鳴り終わった時刻）、さらに音源の到来方向などを検出する。「従来技術の説明」において紹介した通り、開始・終了時刻および方向を推定する方法としては、マイクロホンアレイを用いる方式と画像を用いる方式とがあるが、本発明ではどちらも使用可能である。

マイクロホンアレイを用いる方式を採用した構成においては、ＳＴＦＴ部２１２の出力を受け取り、方向・区間推定部２１３の内部でＭＵＳＩＣ法などの音源方向推定と音源方向のトラッキングとを行なうことで、開始・終了時刻と音源方向とを得る。詳細な方式は、例えば特開２０１０−１２１９７５を参照されたい。マイクロホンアレイによって区間と方向とを取得する場合は、撮像素子２２２は不要である。

一方、画像を用いる方式では、撮像素子２２２によって、発話を行っているユーザーの顔画像を捉え、画像上の唇の位置と、唇が動き始めた時刻および動きが止まった時刻とを検出する。そして、唇の位置をマイクロホンから見た方向に変換した値を音源方向として使用し、唇が動き始めた時刻と動きが止まった時刻とをそれぞれ開始時刻・終了時刻として使用する。詳細な方法は、特開平１０−５１８８９号などを参照されたい。

複数の話者が同時に発話していても、全ての話者の顔が撮像素子で捉えられていれば、画像上の唇ごとに位置と開始・終了時刻を検出することで、それぞれの発話の区間と方向とが取得できる。

音源抽出部１０３は、発話区間に対応した観測信号や音源方向などを用いて、所定の音源を抽出する。詳細は後述する。
音源抽出の結果は、抽出結果１１０としても必要に応じて例えば音声認識機などを実行する後段処理部に送られる。なお、音声認識機には音声区間検出機能を持つものもあるが、その機能は省略可能である。また、音声認識機は音声特徴量（ｓｐｅｅｃｈｆｅａｔｕｒｅｓ）を抽出するためにＳＴＦＴを備えることが多いが、本発明と組み合わせる場合は、音声認識側のＳＴＦＴは省略可能である。
なお、これらのモジュールは制御部２３０によって制御されるとする。

次に、音源抽出部１０３の詳細について、図１１を参照して説明する。
区間情報４０１は、図９に示す区間・方向推定部２１３の出力であり、鳴っている音源の区間（開始時刻および終了時刻）と方向などから構成される。
観測信号バッファ４０２は、図９に示す観測信号バッファ２２１と同一である。

ステアリングベクトル生成部４０３は、区間情報４０１に含まれる音源方向から、式［６．１］〜［６．３］を用いてステアリングベクトル４０４を生成する。
時間周波数マスク生成部４０５は、区間情報４０１の開始・終了時刻を用いて、観測信号バッファ４０２から該当区間の観測信号を取得し、それとステアリングベクトル４０４とから、式［６．４］〜［６．７］を用いて時間周波数マスク４０６を生成する。

マスキング部４０７は、時間周波数マスク４０６を当該区間の観測信号４０５または後述のフィルタリング結果４１４に適用することで、マスキング結果を生成する。このマスキング結果は、先に図８を参照して説明したマスキング結果１７３に相当する。

参照信号生成部４０９は、マスキング結果４０８から時間エンベロープの平均を計算し、それを参照信号４１０とする。この参照信号は、図８を参照して説明した参照信号１８１に対応する。
または、参照信号生成部４０９は、時間周波数マスク４０６から参照信号を生成する。この参照信号は、図８を参照して説明した参照信号１８２に対応する。

抽出フィルタ生成部４１１は、参照信号４１０と、当該区間の観測信号と、ステアリングベクトル４０４とから、前述した式［３．１］〜［３．９］、および式［４．１］〜［４．１５］を用いて抽出フィルタ４１２を生成する。なお、ステアリングベクトルは、固有ベクトルの中から最適のものを選択するために用いる（式［５．２］〜［５．５］を参照）。

フィルタリング部４１３は、抽出フィルタ４１２を当該区間の観測信号４０５に適用することで、フィルタリング結果４１４を生成する。

音源抽出部１０３の出力である抽出結果４１５は、フィルタリング結果４１４をそのまま用いてもよいし、フィルタリング結果に時間周波数マスクを適用してもよい。後者の場合、フィルタリング結果４１４をマスキング部４０７に送り、そこで時間周波数マスク４０７を適用する。そのマスキング結果４０８を抽出結果４１５として用いる。

次に、抽出フィルタ生成部４１１の詳細について、図１２を参照して説明する。
区間情報５０１、観測信号バッファ５０２、参照信号５０３、ステアリングベクトル５０４はそれぞれ、図１１に示す区間情報４０１、観測信号バッファ４０２、参照信号４１０、ステアリングベクトル４０４と同一である。

無相関化部５０５は、区間情報５０１に含まれる開始・終了時刻と観測信号バッファ５０２とから当該区間の観測信号を取得し、式［４．１］〜［４．７］を用いて観測信号の共分散行列５１１、無相関化行列５１２、無相関化された観測信号５０６を生成する。

参照信号適用部５０７は、参照信号５０３と無相関化された観測信号５０６とから、式［４．１１］の左辺に相当するデータを生成する。このデータを重みつき共分散行列５０８と呼ぶ。

固有ベクトル計算部５０９は、重みつき共分散行列５０８に固有値分解を適用する（式［４．１１］の右辺）ことで固有値と固有ベクトルを求め、さらにステアリングベクトル５０４との類似度などに基づいて固有ベクトルの選択を行なう。
選択後の固有ベクトルは固有ベクトル格納部５１０に格納される。

リスケーリング部５１３は、固有ベクトル５１０に格納された選択後の固有ベクトルのスケールを調整して、抽出結果のスケールが所望のものになるようにする。その際に、観測信号の共分散行列５１１と無相関化行列５１２とを利用する。処理の詳細は後述する。
リスケーリングの結果は、抽出フィルタとして抽出フィルタ格納部５１４に格納される。

このように、抽出フィルタ生成部４１１は、参照信号と、無相関化された観測信号とから、参照信号のＮ乗（Ｎは正の実数）の逆数を重みとする重みつき共分散行列を計算し、重みつき共分散行列に対して固有値分解を適用して得られる複数の固有ベクトルから前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する。
なお、固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して抽出フィルタとする。あるいは、目的音対応のステアリングベクトルと最も類似する固有ベクトルを選択して抽出フィルタとする処理のいずれかを実行する。
以上で、装置の構成についての説明を終わる。

（２−２．音信号処理装置の実行する処理の説明）
次に、音信号処理装置の実行する処理について、図１３以下を参照して説明する。
図１３は、音信号処理装置の実行する処理の全体処理のシーケンスを示すフローチャートである。

ステップＳ１０１のＡＤ変換およびＳＴＦＴは、音信号入力部としてのマイクロホンに入力されたアナログの音信号をデジタル信号へ変換し、さらに短時間フーリエ変換（ＳＴＦＴ）によって時間周波数領域の信号（スペクトル）へ変換する処理である。入力はマイクロホンからの他に、必要に応じてファイルやネットワークなどから行なってもよい。ＳＴＦＴについては先に図１０を参照して説明したとおりである。

なお、本実施例では入力チャンネルが複数（マイクロホンの個数分）あるため、ＡＤ変換やＳＴＦＴもチャンネル数だけ行なう。以降では、チャンネルｋ・周波数ビンω・フレームｔにおける観測信号をＸ＿ｋ（ω，ｔ）と表わす（式［１．１］など）。また、ＳＴＦＴのポイント数をｃとすると、１チャンネルあたりの周波数ビンの個数Ｍは、Ｍ＝ｃ／２＋１で計算できる。

ステップＳ１０２の蓄積は、ＳＴＦＴによって時間周波数領域に変換された観測信号を、所定の時間分（例えば１０秒）だけ蓄積する処理である。言い換えると、その時間に対応したフレーム数をＴとして、連続するＴフレーム分の観測信号を、図９に示す観測信号バッファ２２１に蓄積する。

ステップＳ１０３の区間・方向推定は、音源の開始時刻（鳴り始めた時刻）および終了時刻（鳴り終わった時刻）、さらに音源の到来方向などを検出する。
この処理は、先に図９において説明したように、マイクロホンアレイを用いる方式と画像を用いる方式とがあるが、本発明ではどちらも使用可能である。

ステップＳ１０４の音源抽出は、ステップＳ１０３で検出した区間と方向とに対応した目的音を生成（抽出）する。詳細は後述する。
ステップＳ１０５の後段処理は、抽出結果を利用する処理であり、例えば音声認識などである。
最後に、処理を継続するか否かの分岐を行ない、継続の場合はステップＳ１０１に戻る。そうでなければ、処理を終了する。

次に、ステップＳ１０４で実行する音源抽出処理の詳細について、図１４に示すフローチャートを参照して説明する。
ステップＳ２０１における区間の調整は、図１３に示すフローのステップＳ１０３において実行された区間・方向推定で検出された開始・終了時刻から、抽出フィルタの推定に適切な区間を計算する処理である。詳細は後述する。

一方、ステップＳ２０２において、目的音の音源方向からステアリングベクトルを生成する。生成方法については先に図７を参照して説明したとおり、式［６．１］〜［６．３］である。なお、ステップＳ２０１とステップＳ２０２の処理は順不同であり、どちらを先に行なっても良く、並列に行なっても良い。

ステップＳ２０３では、ステップＳ２０２において生成したステアリングベクトルを用いて、時間周波数マスクを生成する。時間周波数マスクの生成の式は、式［６．４］〜［６．７］である。

次に、ステップＳ２０４において、参照信号を用いた抽出フィルタ生成を行なう。詳細は後述する。この段階では、フィルタの生成を行なうだけであり、抽出結果の生成は行なわない。

ステップＳ２０５のパワー比計算とステップＳ２０６の条件分岐については後で説明することにし、先にステップＳ２０７について説明する。
ステップＳ２０７において、目的音の区間に対応した観測信号に対して抽出フィルタを適用する。すなわち、以下に示す式［９．１］を、区間内の全フレーム（全てのｔ）・全周波数ビン（全てのω）に対して適用する。

こうして抽出結果が得られるが、必要に応じてさらに時間周波数マスクを適用してもよい。図１４に示すステップＳ２０８の処理である。カッコはこの処理が省略可能であることを表わす。
すなわち、式［９．１］で得られたＹ（ω，ｔ）に対して、ステップＳ２０３で得られた時間周波数マスクＭ（ω，ｔ）を適用する（式［９．２］）。ただし、式［９．２］のＫは０以上の実数であり、式［６．８］・［６．９］のＪや式［６．１３］のＬとは別個に設定された値である。Ｋ＝０とするとマスク非適用と等価となり、Ｋを大きくするほどマスクの効き具合が大きくなる。すなわち、妨害音除去の効果が大きくなる半面、ミュージカルノイズ等の副作用も大きくなる。

ステップＳ２０８におけるマスク適用の目的は、ステップＳ２０７のフィルタ適用で除去しきれなかった妨害音を除去することにあるため、マスクの効き具合をそれほど強くする必要はなく、例えばＫ＝１程度でよい。結果として、時間周波数マスキング単独で音源抽出を行なう場合（従来法参照）と比べて、ミュージカルノイズ等の副作用を小さくすることができる。

次に、ステップＳ２０１で実行する区間の調整の詳細と、そのような処理を行なう理由について、図１５を用いて説明する。この図１５は区間のイメージを表わしており、縦軸が音源方向、横軸が時間である。抽出対象とする目的音の区間（音区間）を区間（音区間）６０１とする。目的音の鳴り始める前より妨害音が鳴っており、それを区間６０２として表わす。この妨害音の区間６０２の終了付近が時間上で目的音の区間６０１の鳴り初めと重複しているとし、それを重複領域６１１として表わす。

ステップＳ２０１で実行する区間の調整とは基本的に、図１３に示すフローのステップＳ１０３の区間・方向推定で得られた区間に対して、前後両方向に延長を行なう処理のことである。ただし、リアルタイムで処理している場合、区間の終了時刻よりも後の観測信号はまだ存在していないため、主に開始時刻よりも前の方向に延長を行なう。以下では、そのような処理を行なう理由について説明する。

図１５に示す目的音の区間６０１に含まれる重複領域６１１から妨害音を除去するためには、抽出フィルタ生成に用いる区間（以降「フィルタ生成用区間」）に妨害音ができる限り長く含まれているほうが効果的である。そこで、開始時刻６０５を逆時間方向に移動させた時刻６０４を用意し、時刻６０４から終了時刻６０６までをフィルタ生成用区間として採用する。なお、時刻６０４は妨害音の鳴り始めと一致させる必要はなく、単に時刻６０５から所定の時間（例えば１秒）だけ移動させるだけでもよい。

また、目的音の区間が所定の長さに達していない場合にも、区間の調整を行なう。例えば、フィルタ生成用区間の最低の長さを１秒とし、検出された目的音の区間が０．６秒だった場合は、区間の開始よりも前の０．４秒分をフィルタ生成用区間に含める。

一方、観測信号をファイルから読み込んでいる場合は、目的音の区間の終了より後の観測信号も取得可能であるため、終了時刻を時間方向に延長することも可能である。例えば図１５において、目的音の終了時刻６０６を所定の時間だけ移動させた時刻６０７を設定し、時刻６０４から時刻６０７までをフィルタ生成用区間として採用する。

以降では、発話区間６０１に対応したフレーム番号の集合をＴ＿ＩＮ、すなわち図１５に示すＴ＿ＩＮ６０９、区間の延長によって含まれるようになったフレーム番号の集合をＴ＿ＯＵＴ、すなわち図１５に示すＴ＿ＯＵＴ６０８，６１０として表わす。

次に、図１４のフローにおけるステップＳ２０４において実行する抽出フィルタ生成処理の詳細について、図１６に示すフローチャートを参照して説明する。
なお、この図１６に示すフローチャートには、参照信号の生成に関する処理が、ステップＳ３０１と、ステップＳ３０３とに存在するが、全周波数ビンで共通の参照信号を使用する場合は、ステップＳ３０１で生成し、周波数ビンごとに異なる参照信号を使用する場合は、ステップＳ３０３で生成する。
以降では、共通の参照信号を用いる場合について先に説明し、周波数ビンごとに異なる参照信号を使用する場合については、後段の変形例の項目において説明する。

ステップＳ３０１では、先に説明した式［６．１１］、［６．１３］を用いて全周波数ビンで共通の参照信号を生成する。
ステップＳ３０２〜ステップＳ３０９は周波数ビンについてのループであり、各周波数ビンについて、ステップＳ３０３〜ステップＳ３０８の処理を行なう。
ステップＳ３０３の処理については、後述する。

ステップＳ３０４において、観測信号の無相関化を行なう。具体的には、先に説明した式［４．１］〜［４．７］を用いて、無相関化された観測信号Ｘ'（ω，ｔ）を生成する。

なお、観測信号の共分散行列Ｒ（ω）の計算において、式［４．３］の代わりに、以下に示す式［７．１］〜［７．３］を用いると、図１４に示すフローにおけるステップＳ２０５のパワー計算において共分散行列を再利用でき、計算量が削減される。

なお、式［７．１］，［７．２］のＲ＿｛ＩＮ｝（ω）Ｒ＿｛ＯＵＴ｝（ω）はそれぞれ、図１５のＴ＿ＩＮ，Ｔ＿ＯＵＴの区間から計算される観測信号の共分散行列である。また、式［７．３］の｜Ｔ＿ＩＮ｜，｜Ｔ＿ＯＵＴ｜はそれぞれ、区間Ｔ＿ＩＮ，Ｔ＿ＯＵＴのフレーム数を表わす。

ステップＳ３０５において、重みつき共分散行列を計算する。具体的には、参照信号ｒ（ｔ）と、無相関化された観測信号Ｘ'（ω，ｔ）とから、前記した式［４．１１］の左辺の行列を計算する。

ステップＳ３０６において、重みつき共分散行列に対して固有値分解を行なう。具体的には、重みつき共分散行列を、式［４．１１］の右辺の形式に分解する。
ステップＳ３０７において、ステップＳ３０６で求まった固有ベクトルの中から抽出フィルタとして適切なものを１つ選択する。具体的には、前記の式［５．１］によって、最小の固有値に対応した固有ベクトルを採用するか、式［５．２］〜［５．５］によって、目的音の音源方向に最も近い固有ベクトルを採用するかのどちらかを行なう。

次に、ステップＳ３０８において、ステップＳ３０７で選択された固有ベクトルに対してスケールの調整などを行なう。ここで行なわれる処理とその理由については、以下の通りである。

ステップＳ３０６で求まった各固有ベクトルは、式［４．８］のＷ'（ω）に相当するものである。
すなわち、無相関化された観測信号に対して抽出を行なうフィルタである。
そのため、無相関化前の観測信号に対してフィルタを適用するためには、何らかの変換操作が必要になる。

また、抽出フィルタを求める際に、適用結果Ｙ（ω，ｔ）に対して分散＝１という制約をかけているが（式［３．２］）、目的音の分散は１とは異なる。そのため、目的音の分散を何らかの方法で推定し、抽出結果の分散をそれに合わせる必要がある。
両方の調整をまとめて行なう式は、以下に示す式［８．４］で表わされる。

この式のＰ（ω）は、無相関化行列であり、Ｗ'（ω）を無相関化前の観測信号に対応させる働きがある。
ｇ（ω）は式［８．１］または式［８．３］で計算され、抽出結果の分散を目的音の分散に合わせる働きがある。ただし、式［８．１］のｅ＿ｉは、ｉ番目の要素のみが１、それ以外の要素が０である行ベクトルである（式［８．２］）。また、添字ｉは、スケール調整用として、ｉ番目のマイクロホンの観測信号を用いることを表わす。
以下で、式［８．１］および式［８．３］の意味について説明する。

スケール調整前の抽出結果Ｙ（ω，ｔ）にスケールｇ（ω）を乗じて、観測信号に含まれる目的音由来の成分を近似することを考える。観測信号としてｉ番目のマイクロホンで観測されるものを使用すると、スケールｇ（ω）は二乗誤差を最小にする項として、式［８．５］で表わせる。この式を満たすｇ（ω）は式［８．１］で求められる。なお、Ｘ＿ｉ（ω，ｔ）＝ｅ＿ｉＸ（ω，ｔ）である。

同様に、観測信号の代わりに遅延和アレイの結果を用い、その中に含まれる目的音由来の成分を近似することを考えると、スケールｇ（ω）は式［８．６］で表わせる。この式を満たすｇ（ω）は式［８．３］で求められる。

ステップＳ３０３〜Ｓ３０８を全周波数ビンについて行なうことで、抽出フィルタが生成される。

次に、図１４のフローにおけるステップＳ２０５のパワー比計算と、ステップＳ２０６の分岐処理について説明する。これらの処理の目的は、誤検出等で発生した余計な区間に対して、音源抽出をスキップする、言い換えると、誤検出された区間を棄却するためである。

例えば、唇の動きに基づいて区間検出を行なった場合、ユーザーが声を発していなくても口を動かしただけで発話区間として検出される可能性がある。また、音源方向に基づいて区間検出を行なった場合、方向性を持った音源なら何でも（背景雑音以外なら何でも）発話区間として検出される可能性がある。このように誤って検出された区間に対して、音源抽出の前にチェックが行なえれば、計算量を削減したり、誤検出による誤反応を防いだりといったことが可能となる。

一方、ステップＳ２０４において抽出フィルタが計算されており、また、区間の内外それぞれについて観測信号の共分散行列が既に計算されているため、両方を用いれば、区間内外それぞれに対して抽出フィルタを適用した場合の分散（パワー）を計算することができる。両者のパワーの比を用いれば、誤検出の判別がある程度は可能である。なぜなら、誤検出された区間は音声発話を伴っていないため、区間内外のパワーの比は小さい（区間内外で同程度のパワー）だと考えられるからである。

そこで、ステップＳ２０５において、前記の式［７．４］を用いて区間内のパワーＰ＿ＩＮを、式［７．５］を用いて区間外のパワーをそれぞれ計算する。ただし、これらの式のシグマは、全周波数ビンについての和を表わしており、また、Ｒ＿ＩＮ（ω），Ｒ＿ＯＵＴ（ω）は観測信号の共分散行列であり、図１５のＴ＿ＩＮ，Ｔ＿ＯＵＴに対応した区間からそれぞれ計算される。（式［７．１］，［７．２］）

そして、ステップＳ２０６において、両者の比であるＰ＿ＩＮ／Ｐ＿ＯＵＴが所定の閾値を上回っているかを判定する。条件を満たさない場合は、誤検出と見なしてステップＳ２０７およびステップＳ２０８をスキップし、その区間は棄却される。
条件を満たす場合は、区間内のパワーが区間外のパワーよりも十分大きいことを表わしているため、ステップＳ２０７に進んで抽出結果の生成等を行なう。
以上で、処理の説明を終える。

［３．変形例について］
以下、以下に示す３通りの変形例について、順次、説明する。
（１）周波数ビンごとに異なる参照信号を用いる実施例
（２）一部の周波数ビンでＩＣＡを行なって参照信号を生成する実施例
（３）多チャンネルで録音し、再生時に本発明を適用する実施例
（４）他の目的関数
（５）参照信号を生成するための他の方法
（６）分離フィルタの推定において特異値分解を使用する処理
（７）リアルタイム音源抽出への応用
これらについて、説明する。

（３−１．周波数ビンごとに異なる参照信号を用いる実施例）
前記した式［６．１１］または式［６．１３］で計算される参照信号は、全周波数ビンで共通である。一方で、目的音の時間エンベロープは全周波数ビンで共通とは限らない。そこで、目的音の周波数ビンごとのエンベロープが推定可能ならば、それを参照信号として用いた方が音源抽出の精度を向上できる可能性がある。

周波数ビンごとに参照信号を計算する方法について、図１７および、以下に示す式［１０．１］〜［１０．５］を用いて説明する。

図１７（ａ）は、全周波数ビンで共通の参照信号を生成する例である。式［６．１１］または式［６．１３］を使用した場合に対応した図であり、マスキング結果（式［６．１３］使用時）または時間周波数マスク（式［６．１３］使用時）の内で、ω＿ｍｉｎからω＿ｍａｘまでの周波数ビンを使用して共通の参照信号を計算する。

一方、図１７（ｂ）は、周波数ビンごとに参照信号を生成する例である。この場合に適用する計算式は、式［１０．１］または式［１０．２］であり、それぞれマスキング結果または時間周波数マスクから参照信号を計算する。式［１０．１］は平均をとる範囲が周波数ビンωに依存しており、そこが式［６．１１］と異なる点である。式［１０．２］と式［６．１３］との違いも同様である。

平均をとる周波数ビンの下限α（ω）および上限β（ω）は、ωの値に応じて式［１０．３］〜［１０．５］で与えられる。ただし、ｈは平均する範囲の幅の半分を表わす。

式［１０．４］は、ωが所定の範囲内である場合にω−ｈ〜ω＋ｈの範囲で平均をとることを表わしており、それによって周波数ビンごとに異なる参照信号を得る。
一方、式［１０．３］および式［１０．５］は、ωが所定の範囲を外れている場合には固定された範囲で平均をとることを表わしており、これは、低い周波数ビンや高い周波数ビンの成分が参照信号に影響するのを防ぐためである。

図１７において、参照信号７０８，７０９は式［１０．３］の範囲から計算された参照信号を表わしており、どちらも同一の信号である。同様に、参照信号７１０は式［１０．４］の範囲から、参照信号７１１，７１２は式［１０．５］の範囲から計算された参照信号を表わしている。

（３−２．一部の周波数ビンでＩＣＡを行なって参照信号を生成する実施例）
次に、一部の周波数ビンでＩＣＡを行なって参照信号を生成する実施例について説明する。
参照信号を生成するために、先に説明した式［６．１］〜［６．１４］では時間周波数マスキングを用いていたが、ＩＣＡによって求めてもよい。すなわち、ＩＣＡによる分離と、本発明による抽出との組み合わせである。

基本的な処理は以下の通りである。限定された周波数ビンに対してＩＣＡを適用する。その分離結果を平均することで、参照信号を生成する。
なお、ＩＣＡを適用した分離結果に基づく参照信号の生成については、本出願人の先の特許出願（特願２０１０−８２４３６号）にも記載があり、この特願２０１０−０８２４３６では、この後、参照信号を用いるＩＣＡを残りの周波数ビン（または全ての周波数ビン）に適用することで補間を行なっていたが、本発明の変形例では参照信号を用いた音源抽出を適用する。すなわち、ＩＣＡの出力であるｎ個の分離結果のうち、目的音に対応する１つを音源方向などを用いて選別し、その選別された分離結果から参照信号を生成する。参照信号が求まったら、残りの周波数ビン（または全ての周波数ビン）に対して、先に説明した式［４．１］〜［４．１４］を適用して抽出フィルタおよび抽出結果を得る。

（３−３．多チャンネルで録音し、再生時に本発明を適用する実施例）
次に、多チャンネルで録音し、再生時に本発明を適用する実施例について図１８を参照して説明する。
先に説明した図９の構成では、マイクロホンアレイからなる音信号入力部１０１に入った音はすぐに音源抽出処理に使用されることを想定しているが、間に録音（ファイルへの保存）・再生（ファイルからの読み込み）というステップを挟んでもよい。すなわち、例えば図１８に示す構成である。

図１８において、多チャンネル録音器８１１は、マイクロホンアレイからなる音信号入力部８０１に入力された音を、録音部８０２でＡＤ変換等を行い、多チャンネル信号のまま録音データ８０３として記録用メディアに保存される。なお、ここでの「多チャンネル」とは、複数のチャンネル、特に３チャンネル以上を意味する。

この録音データ８０３から特定音源の音抽出処理を行なう際は、データ読込部８０５で録音データ８０３を読み込む。その後の処理は、ＳＴＦＴ部８０６と、方向・区間推定部８０８を有する観測信号解析部８２０、観測信号バッファ８０７、音源抽出部８０９において図９を参照して説明したＳＴＦＴ部２１２以下の処理と同様の処理が実行され、抽出結果８１０を生成する。

図１８に示す構成のように、録音時に多チャンネルデータとして保存しておけば、後で音源抽出を適用することが可能とする。すなわち、録音した音データに対して後で音声認識を適用するといった使い方をする場合、モノラルデータとして録音するよりも多チャンネルデータとして録音した方が、音声認識の精度を向上させることがで
きる。

さらに、多チャンネル録音器８１１にカメラ等を備え、ユーザーの唇画像と多チャンネルの音データとを同期させて記録させてもよい。そのようなデータを読み込む場合は、方向・区間推定部８０８において、唇画像を用いた発話区間方向検出を使用しても良い。

（３−４．その他の目的関数を用いた実施例）
目的関数（ｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎ）とは、最小化や最大化の対象となっている関数のことである。本開示の音源抽出では、式［３．３］を目的関数として用い、その最小化を行なっているが、それ以外の目的関数も使用可能である。

以下に示す式［１１．１］および式［１１．２］は、式［３．３］および式［３．４］の代わりに用いる目的関数の例であり、これを最大にするＷ（ω）を求めることでも信号の抽出を行なうことができる。その理由を以下で説明する。

上記式のａｒｇｍａｘ以降の部分については、式［１１．３］の不等式が常に成り立ち、等号が成立するのは式［３．６］の関係が成立する場合である。一方、この式の右辺が最大となるのは〈｜Ｙ（ω，ｔ）｜＾４〉＿ｔが最大のときである。〈｜Ｙ（ω，ｔ）｜＾４〉＿ｔは信号の尖度（ｋｕｒｔｏｓｉｓ）と呼ばれる量に対応しており、Ｙが妨害音を含まない（目的音のみが現れている）場合に最大となる。従って、参照信号ｒ（ｔ）＾Ｎが目的音の時間エンベロープと一致しているのであれば、式［１１．１］および式［１１．２］の左辺を最大にするＷ（ω）は右辺を最大にするＷ（ω）と一致し、そのＷ（ω）は目的音を抽出するフィルタとなっている。

式［１１．１］および式［１１．２］の最大化は、式［３．３］および式［３．４］の最小化とほぼ同じであり、前記した式［４．１］〜［４．１４］を用いて行う。
最初に、式［４．１］〜［４．７］を用いて、無相関化された観測信号であるＸ'（ω，ｔ）を生成する。このＸ'（ω，ｔ）から目的音を抽出するフィルタは、式［４．１０］の代わりに式［１１．４］の最大化によって求める。そのために、式［１１．４］の〈・〉＿ｔの部分に対して固有値分解を適用する（式［１１．５］）。この式のＡ（ω）は固有ベクトルからなる行列（式［４．１２］）、Ｂ（ω）は固有値からなる対角行列である（式［４．１４］）。固有ベクトルの内の一つが、目的音を抽出するフィルタになっている。

今回は最大化問題なので、式［５．１］の代わりに式［１１．６］を用いることで、最大の固有値に対応した固有ベクトルを選択する。または、式［５．２］〜［５．５］を用いて固有ベクトルを選択してもよい。式［５．２］〜［５．５］は目的音の方向に対応した固有ベクトルを選択するため、最小化問題であっても最大化問題であっても共通に使用することができる。

（３−５．参照信号を生成するための他の方法）
これまでの説明において、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号ｒ（ｔ）の算出処理例について複数の処理例を説明した。例えば以下の参照信号算出処理である。
（１）各周波数ビンの時間エンベロープを平均することで求める全周波数ビン共通の参照信号を算出する処理（式［６．１１］）、
（２）例えば図６の時間周波数マスク１７２のように、観測信号に基づいて生成した時間周波数マスクＭ（ω，ｔ）を周波数ビン間で直接平均して求める全周波数ビン共通の参照信号を算出する処理（式［６．１３］）、
（３）上記の変形例（３−１）として説明した周波数ビンごとの異なる参照信号算出処理であり、マスキング結果から周波数ビンωごとの参照信号を算出する処理（式［１０．１］）、
（４）上記の変形例（３−１）として説明した周波数ビンごとの異なる参照信号算出処理であり、時間周期数マスクから周波数ビンωごとの参照信号を算出する処理（式［１０．２］）、
（５）上記の変形例（３−２）として説明した一部の周波数ビンでＩＣＡを行なって参照信号を生成する処理であり、限定された周波数ビンに対してＩＣＡを適用し、その分離結果を平均して参照信号を生成する処理、
例えばこのような様々な参照信号算出処理例について説明してきた。
以下では、これらの方法以外の参照信号生成処理例について説明する。

先に［背景技術］の項目「Ｂ．従来技術を適用した課題解決処理の具体例」において、既知の音源方向と区間とを用いて抽出を行なう音源抽出方式として、
Ｂ１−１．遅延和アレイ
Ｂ１−２．分散最小ビームフォーマー
Ｂ１−３．ＳＮＲ最大化ビームフォーマー
Ｂ１−４．目的音の除去と減算に基づく方式
Ｂ１−５．位相差に基づく時間周波数マスキング
これらの各音源抽出方式についての概略を説明した。

これらの従来の音源抽出方式の多くは、参照信号である時間エンベロープを生成する手段として適用可能である。
言い換えると、例えば上記の従来の音源抽出方式を本開示における参照信号の生成処理のみに限定して利用することが可能であり、このように既存の音源抽出方式を参照信号の生成にのみ適用し、その後の音源抽出処理を、生成した参照信号を用いて本開示の処理に従って実行することで、先に説明した従来方式の音源抽出処理の持つ問題点を回避した音源抽出が可能となる。

例えば、［背景技術］の項目において説明した（Ｂ１−１．遅延和アレイ）を用いた音源抽出処理は、以下の処理として行われる。
各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和すると、目的音は位相が揃っているために強調され、それ以外の方向からの音は少しずつ位相が異なるため減衰する。具体的には、Ｓ（ω，θ）を方向θに対応したステアリングベクトル（ある方向から到来する音についてマイク間の位相差を表わしたベクトル）として、前述した式［２．１］によって抽出結果を得る処理である。
この遅延和アレイの処理結果から参照信号を生成することが可能である。
この遅延和アレイの処理結果から参照信号を生成するには、式［６．８］の代わりに以下に示す式［１２．１］を用いれば良い。

後述の実験結果で示すように、遅延和アレイの処理結果からいったん参照信号を生成し、それを用いて本開示の方法で音源抽出を行なうことにより、遅延和アレイ単独で音源抽出を行なった場合よりも高精度の抽出結果が得られる。

同様に、［背景技術］の項目において説明した（Ｂ１−２．分散最小ビームフォーマー）を用いた音源抽出処理は、以下の処理として行われる。
目的音の方向のゲインを１（強調も減衰もしない）かつ妨害音の方向には死角（感度の低い方向。ｎｕｌｌｂｅａｍとも呼ばれる）を持つフィルタを形成することで、目的音のみを抽出する処理である。

この分散最小ビームフォーマーを用いた音源抽出処理を適用して参照信号を生成するには、上記の式［１２．２］を用いる。式［１２．２］においてＲ（ω）は、前述の式［４．３］で計算される観測信号共分散行列である。

また、［背景技術］の項目において説明した（Ｂ１−４．目的音の除去と減算に基づく方式）を用いた音源抽出処理は、以下の処理として行われる。
観測信号から目的音を除去した信号（目的音除去信号）をいったん生成し、観測信号（または遅延和アレイ等によって目的音が強調された信号）から目的音除去信号を減算して目的音を抽出する処理である。

この方式は、処理が「目的音の除去」と「減算」との２ステップからなるため、それぞれについて説明する。
目的音を除去するための式として、上記の式［１２．３］を用いる。この式は、方向θから到来する音を除去する働きがある。

減算の方法として、スペクトル減算（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＳＳ）を用いる。スペクトル減算とは、複素数領域の信号をそのまま減算する代わりに、複素数の振幅（ｍａｇｎｉｔｕｄｅ）のみを減算することであり、上記の式［１２．４］で表わされる。
ただしこの式［１２．４］において、
Ｈ_ｋ（ω，ｔ）はベクトルＨ（ω，ｔ）のｋ番目の要素である。
ｍａｘ（ｘ，ｙ）は引数ｘ，ｙの内で大きい方を採用することを表わし、複素数の振幅が負になるのを防ぐ働きをする。

上記式［１２．４］で算出されるスペクトル減算結果Ｑ_ｋ（ω，ｔ）は目的音が強調された信号であるが、スペクトル減算（ＳＳ）によって生成された信号であるため、これを音源抽出結果そのものとして使用する（例えば、逆フーリエ変換によって波形を生成する）と、音が歪んだりミュージカルノイズが発生したりするという課題がある。しかし、本開示の参照信号として使用する限りでは、スペクトル減算（ＳＳ）の結果を波形に変換する必要がないため、それらの課題を回避することができる。

参照信号の生成には、上記の式［１２．５］を用いる。または、特定のｋについて単純にＱ（ω，ｔ）＝Ｑ_ｋ（ω，ｔ）としてもよい。ｋは、ベクトルＨ（ω，ｔ）の何番目の要素であるかを示す要素番号に相当する。

さらに別の参照信号生成方式として、本開示の音源抽出結果から参照信号を生成することも可能である。すなわち、以下の処理身を行う。
まず、前述の式［３．１］によって音源抽出結果Ｙ（ω，ｔ）を生成する。
次に、この音源抽出結果Ｙ（ω，ｔ）を前述の式［６．１０］におけるＱ（ω，ｔ）とみなし、式［６．１１］を用いて参照信号をもう一度生成する。

なお、前述の式［６．１０］は、
例えば式［６．８］において算出するＱ（ω，ｔ）、すなわち観測信号に対する時間周波数マスクの適用結果Ｑ（ω，ｔ）に対して、時間方向で振幅の正規化結果Ｑ'（ω，ｔ）を算出する式である。
式［６．１１］は、式［６．１０］によって算出されるＱ'（ω，ｔ）を用いて、集合Ωに属する周波数ビンについて、時間エンベロープのＬ乗平均、すなわち、要素のＬ乗を行って平均し、最後にＬ乗根を計算した値であるＬ乗平均を計算する処理、すなわち、各周波数ビンの時間エンベロープを平均することで参照信号ｒ（ｔ）を算出する式である。

このようにして算出した参照信号を用いて再び音源抽出フィルタを生成する。
この音源抽出フィルタ生成処理は、例えば、式［３．３］を適用して行う。
最初に生成した参照信号よりも２回目に生成した参照信号の方が精度が高ければ（＝目的音の時間エンベロープに近ければ）、一層高精度な抽出結果を得ることができる。

さらに、
（ステップ１）抽出結果から参照信号を生成
（ステップ２）再び抽出結果を生成、
これらのステップ１，２からなるループを任意の回数だけ繰り返してもよい。
繰り返すと計算量（ｃｏｍｐｕｔａｔｉｏｎａｌｃｏｓｔ）は増えるが、その分だけ高精度の音源抽出結果を得ることができる。

（３−６．分離フィルタの推定において特異値分解を使用する処理）
本開示構成の音源抽出は、基本的に、観測信号Ｘ（ω，ｔ）に抽出フィルタＷ（ω）を乗じて抽出結果Ｙ（ω，ｔ）を得る処理（式［１．２］）を主体とした処理である。抽出フィルタＷ（ω）はｎ個の要素からなる行ベクトルであり、式［１．３］として表わされる。

この音源抽出処理において適用する抽出フィルタの推定は、先に式［４．１］以下を参照して説明したように、観測信号の無相関化を行ない（式［４．１］）、それと参照信号とを用いて重み付き共分散行列を計算し（式［４．１１］の左辺）、その重み付き共分散行列に対して固有値分解を適用する（式［４．１１］の右辺）ことで行なっていた。

この処理は、上記の固有値分解（ｅｉｇｅｎｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）の代わりに特異値分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ：ＳＶＤ）を用いることで、計算量を削減することができる。
以下では、特異値分解を用いた抽出フィルタの推定方法について説明する。

先に説明した式［４．１］によって観測信号の無相関化を行なった後、以下に示す式［１３．１］で表わされる行列Ｃ（ω）を生成する。

上記の式［１３．１］で表わされる行列Ｃ（ω）を重み付き観測信号行列と呼ぶ。
すなわち、参照信号と、無相関化された観測信号とから、参照信号のＮ乗（Ｎは正の実数）の逆数を重みとする重み付き観測信号行列Ｃ（ω）を生成する。
この行列に対して特異値分解を行なうと、Ｃ（ω）は式［１３．２］の右辺の３つの行列の積へと分解（ｄｅｃｏｍｐｏｓｅ）される。ただしこの式［１３．２］において、Ａ（ω）およびＫ（ω）はそれぞれ式［１３．３］および式［１３．４］を満たす行列であり、Ｇ（ω）は特異値からなる対角行列である。

前述の式［４．１１］と上記の式［１３．２］とを比較すると、行列Ａ（ω）については同一であり、Ｄ（ω）とＧ（ω）との間には式［１３．５］の関係がある。すなわち、固有値分解の代わりに特異値分解を用いても、同一の固有値と固有ベクトルを求めることができる。なお、行列Ｋ（ω）については以降の処理で使用しないため、特異値分解においてＫ（ω）の計算自体を省略してもよい。

重み付き共分散行列の固有値分解を用いる方法では、共分散行列を求めるのに計算量がかかる上に、そうして求めた共分散行列はエルミート対称であるために要素の半分近くは使用されないという無駄が生じる。それに対して重み付き観測信号行列の特異値分解を用いる方法では、共分散行列の計算をスキップできる上に、不使用の要素は生成されないという利点がある。

特異値分解を用いて抽出フィルタを生成する処理について、図１９のフローチャートを用いて説明する。
図１９に示すフローチャートのステップＳ５０１〜Ｓ５０４は、図１６に示すフローチャートのステップＳ３０１〜Ｓ３０４と同一である。

ステップＳ５０５において、重み付き観測信号行列Ｃ（ω）を生成する。これは上記の式［１３．１］で表わされる行列Ｃ（ω）である。
次のステップＳ５０６において、ステップＳ５０５で算出した重み付き観測信号行列Ｃ（ω）に対して特異値分解を行なう。すなわち、Ｃ（ω）を、上記の式［１３．２］に右辺で表わされる３つの行列の積に分解する。さらに、式［１３．５］によって、行列Ｄ（ω）も計算する。

この段階で、固有値分解を用いた場合と同一の固有値・および固有ベクトルが得られるため、以降のステップＳ５０７〜Ｓ５０９については、先に説明した図１６のフローチャートにおけるステップＳ３０７〜Ｓ３０９の処理と同一の処理を行なう。このようにして、抽出フィルタが生成される。

（３−７．リアルタイム音源抽出への応用）
上述した実施例では、発話ごとに抽出処理を行なうことを前提にしていた。すわなち、発話が終了した後で、音源抽出によって目的音の波形が生成される。このような使い方は、音声認識等と組み合わせる場合は問題ないが、音声通話におけるノイズ除去（または音声強調）として用いる場合は、遅延が問題となる。

しかし、本開示の参照信号を用いた音源抽出方法であっても、抽出フィルタの生成の際に用いる観測信号の区間を固定長とすることで、発話終了を待つことなく低遅延で抽出結果を生成・出力することが可能である。すなわち、ビームフォーマー技術と同様に、特定方向からの音をリアルタイムに抽出する（強調する）ことが可能である。以下では、その方法について説明する。

なお、この変形例においては、音源方向θは発話ごとに推定するのではなく、固定されているとする。または、方向を指定するためのデバイスをユーザーが操作することで、音源方向θを設定してもよい。あるいは、撮像素子（図９の２２２）で取得された画像に対してユーザーの顔画像の検出を行ない、その検出された顔画像の座標から音源方向θを計算してもよい。さらには、撮像素子（図９の２２２）で取得された画像をディスプレイに表示し、ユーザーはその画像内で音源抽出を行ないたい方向を各種ポインティングデバイス（マウス・タッチパネルなど）を用いて指定するようにしてもよい。

この変形例における処理、すなわち、観測信号の区間を固定長とすることで発話終了を待つことなく低遅延で抽出結果を生成・出力するリアルタイム音源抽出処理シーケンスについて、図２０のフローチャートを用いて説明する。

ステップＳ６０１は初期設定処理である。
ｔはフレーム番号であり、初期値として０を代入しておく。
ステップＳ６０２〜Ｓ６０７の処理はループ処理であり、１フレーム分の音データが入力されるたびに、この一連の処理が行なわれることを表わしている。

ステップＳ６０２において、フレーム番号ｔを１だけ増加させる。
ステップＳ６０３において、１フレーム分の音データについてＡＤ変換と短時間フーリエ変換（ＳＴＦＴ）とを行なう。
短時間フーリエ変換（ＳＴＦＴ）は、先に図１０を参照して説明した処理である。
１フレーム分の音データとは、例えば図１０に示すフレーム３０１〜３０３の１つであり、これに対して窓かけおよび短時間フーリエ変換を適用することで、１フレーム分のスペクトルであるＸ_ｋ（ｔ）を得る。

次に、ステップＳ６０４において、この１フレーム分のスペクトルＸ_ｋ（ｔ）を観測信号バッファ（例えば図９の観測信号バッファ２２１）に蓄積する。

次に、ステップＳ６０５において、予め既定したフレーム数の処理が完了したか否かを判定する。
Ｔ'は１以上の整数であり、
ｔｍｏｄＴ'
はフレーム番号を示す整数ｔをＴ'で割った余りを表わす。
ここの条件分岐は、ステップＳ６０６の音源抽出処理を予め規定したＴ'フレームに一回の頻度で実行することを表わしている。
フレーム番号ｔがＴ'の倍数であるときのみ、ステップＳ６０６に進み、それ以外の場合は、ステップＳ６０７に進む。

ステップＳ６０６の音源抽出処理は、蓄積された観測信号と音源方向とを用いて、目的音を抽出する。詳細は後述する。
ステップＳ６０６における音源抽出処理が終了したら、ステップＳ６０７においてループを続けるか否かを判定し、続けるならステップＳ６０２に戻る。

なお、抽出フィルタの更新頻度であるフレーム数Ｔ'の値は、ステップＳ６０６の音源抽出処理の処理時間より長くなるように設定する。言い換えると、音源抽出の処理時間をフレーム数に換算した値が、更新頻度Ｔ'より短ければ、遅延が増大することなくリアルタイムで音源抽出が行なえる。

次に、ステップＳ６０６の音源抽出処理の詳細について、図２１に示すフローチャートを用いて説明する。
図２１に示すフローチャートは、ほとんどの処理が基本的には先に図１３のフローのステップＳ１０４の音源抽出処理の詳細シーケンスとして説明した図１４に示すフローチャートと同じ処理となる。しかし、図１４のフローに示すパワー比についての処理（Ｓ２０５，Ｓ２０６）が省略されている。
また、図２１に示すフローチャートのステップＳ７０４の抽出フィルタ生成処理、およびステップＳ７０５のフィルタ適用処理においてどの区間の観測信号を使用するかも異なる。

ステップＳ７０１の「区間の切り出し」とは、バッファ（例えば図９の２２１）に蓄積された観測信号から、抽出フィルタの生成に使用される区間を切り出すことである。この区間は固定長である。観測信号からの固定長区間の切り出し処理について、図２２を参照して説明する。

図２２には、バッファ（例えば図９の２２１）に蓄積された観測信号スペクトログラムを示している。
横軸はフレーム番号を、縦軸は周波数ビン番号を表わす。
一つのマイクロホンから一枚のスペクトログラムが生成されるため、バッファには、実際にはｎ枚（ｎはマイクロホン数）のスペクトログラムが蓄積されている。

例えば、ステップＳ７０１の区間切り出し処理の開始時点で、バッファ（例えば図９の２２１）に蓄積された観測信号スペクトログラムの最新のフレーム番号ｔが、図２２のフレーム番号ｔ８５０であるとする。
厳密に言うと、フレーム番号ｔ８５０より右側のスペクトログラムはこの時点では存在していない。

抽出フィルタ生成に使用する観測信号のフレーム数をＴとする。Ｔは、先に図２０のフローチャートにおいて適用したＴ'、すなわち１回の音源抽出処理を行う単位としての規定フレーム数Ｔ'とは異なる値に設定してもよい。
以降では、抽出フィルタ生成に使用する観測信号フレーム数：Ｔは、
Ｔ＞Ｔ'
とする。例えばＴ＝３秒、Ｔ'＝０．２５秒などの設定である。

図２２に示すフレーム番号ｔ８５０を終端とする長さＴの区間は、図２２に示すスペクトログラム区間８５３で表わされる。
ステップＳ７０１の区間の切り出し処理は、この区間に相当する観測信号スペクトログラムを切り出す処理である。

ステップＳ７０１の区間切り出し処理後、ステップＳ７０２において、ステアリングベクトル生成処理を行なう。
これは、先に説明した図１４のフローチャートのステップＳ２０２の処理と同一である。ただし、この実施例では音源方向θは基本的に固定としているため、θが前回と同じである限りはこの処理をスキップし、前回と同じステアリングベクトルを使い続けてもよい。

次のステップＳ７０３の時間周波数マスク生成処理も、基本的には図１４のフローチャートのステップＳ２０３の処理と同一である。ただし、ここで使用される観測信号の区間は、図２２に示すスペクトログラム区間８５３である。

ステップＳ７０４の抽出フィルタ生成処理も、基本的には図１４のフローチャートのステップＳ２０４の処理と同一であるが、ここで使用される観測信号の区間は、図２２に示すスペクトログラム区間８５３である。すなわち、
先に説明した図１６に示すフローの、
ステップＳ３０１またはステップＳ３０３の参照信号生成処理、
ステップＳ３０４の無相関化処理、
ステップＳ３０５の共分散行列の計算、
ステップＳ３０８のリスケーリング、
これらの処理は、いずれも、図２２に示すスペクトログラム区間８５３の区間の観測信号を用いて行なわれる。

ステップＳ７０５では、ステップＳ７０４で生成された抽出フィルタを所定の区間の観測信号へ適用することで音源抽出結果を生成する。
フィルタが適用される観測信号の区間は、図２２に示すスペクトログラム区間８５３全体である必要はなく、前回のスペクトログラム区間８５２との差分であるスペクトログラム区間差分８５４で良い。

なぜなら、図２２に示すスペクトログラム区間８５３の内、スペクトログラム区間差分８５４以外の部分については、前回のスペクトログラム区間８５２を対象としたフィルタ適用において抽出フィルタが適用され、その部分に対応する抽出結果が既に得られているからである。

ステップＳ７０６のマスク適用処理も、スペクトログラム区間差分８５４の区間に対して行なう。なお、このステップＳ７０６のマスク適用処理は、図１４のフローにおけるステップＳ２０８の処理と同様、省略可能である。
以上で、リアルタイム音源抽出の変形例についての説明を終える。

［４．本開示の処理による効果についてのまとめ］
本開示の音信号処理により、目的音の音源方向の推定値に誤差が含まれる場合でも、目的音を高い精度で抽出することが可能となる。すなわち、位相差に基づく時間周波数マスキングを用いることで、目的音の方向に誤差があっても目的音の時間エンベロープが高い精度で生成されると共に、その時間エンベロープを参照信号として用いる音源抽出を行なうことで、目的音が高精度で抽出される。

各種の抽出方法や分離方法に対する利点は、以下の通りである。
（ａ）分散最小ビームフォーマーや、Ｇｒｉｆｆｉｔｈ−Ｊｉｍビームフォーマー等と比較して、
目的音の方向の誤差の影響を受けにくい。すなわち、時間周波数マスクを用いた参照信号生成は、目的音の方向に誤差があってもほぼ同一の参照信号（時間エンベロープ）を生成するため、その参照信号から生成された抽出フィルタも方向の誤差の影響を受けにくい。
（ｂ）バッチ処理の独立成分分析と比較して、
固有値分解等を用いて反復なしで抽出フィルタを求めることができるため、計算量が少ない＝遅延が少ない
出力は１チャンネルのため、出力チャンネルの選択を間違えることはない。
（ｃ）リアルタイムの独立成分分析やオンラインアルゴリズムの独立成分分析と比較して、
発話区間全体を使用して抽出フィルタを求めるため、高い精度で抽出されている結果を区間の開始から終了に渡って得られる。
さらに、出力は１チャンネルのため、出力チャンネルの選択を間違えることはない。

（ｄ）時間周波数マスキングと比較して、
本発明で得られる抽出フィルタは線形フィルタであるため、ミュージカルノイズが発生しにくい。
（ｅ）死角ビームフォーマーや、ＧＳＳと比較して、
目的音の方向のみ検出できれば、妨害音の方向が不明でも抽出が可能である。すなわち、ある妨害音について区間が検出できなかったり方向が不明であったりしても、目的音を高い精度で抽出することができる。

さらに、本発明を、複数音源対応かつ音源方向推定機能つきの音声区間検出器と、音声認識器と組み合わせることで、雑音下や複数音源下での認識精度が向上する。すなわち、音声と雑音とが時間上で重複していたり、複数人が同時に発話したような状況でも、それらの音源が異なる方向で発生したものであれば、それぞれを高精度で抽出できるため、音声認識の精度も向上する。

さらに、上述した本開示に従った音源抽出処理の効果を確認するために、評価実験を行なった。以下、評価実験の手順と結果について説明する。
最初に、評価用音データの収録を行なった。収録環境を図２３に示す。３か所あるスピーカ９０１〜９０３から目的音および妨害音を再生し、５ｃｍ間隔で並べた４個のマイクロホン９２０で音を収録した。目的音は音声であり、男性話者１名による２５発話と女性話者１名による２５発話からなる。一発話あたりの平均の長さは、約１．８秒（２２５フレーム）である。妨害音は音楽・音声（目的音とは別の話者）・雑踏（人と車の往来がある道路の音）の３種類である。

評価用音データの収録を行なった部屋の残響時間は約０．３秒である。また、収録および短時間フーリエ変換（ＳＴＦＴ）の設定は、以下の通りである。
サンプリングレート：１６ｋＨｚ
ＳＴＦＴの窓タイプ：ハニング窓
窓の長さ：３２ミリ秒（５１２ポイント）
シフト幅：８ミリ秒（１２８ポイント）
周波数ビン数：２５７

目的音・妨害音は別個に収録し、後に計算機上で混合することで、評価用の観測信号を複数種類生成した。以降、これらを「混合観測信号」と呼ぶ。

混合観測信号は、妨害音の個数により、以下の２種類に大別される：
（１）妨害音１個：３つあるスピーカＡ９０１〜Ｃ９０３のうち、１つから目的音を、残りの２つの内の１つから妨害音を再生して混合したもの。
３（目的音の位置）×５０（発話数）×２（妨害音の位置）×３（妨害音の種類）＝９００通りが存在する。
（２）妨害音２個：３つあるスピーカＡ９０１〜Ｃ９０３のうち、スピーカＡ９０１から目的音を、スピーカＢ９０２から妨害音の１つを、スピーカＣ９０３から残りの妨害音の内の１つを再生して混合したもの。
１（目的音の位置）×５０（発話数）×２（妨害音の位置）×３（妨害音の種類）×２（もう１つの妨害音の種類）＝６００通りが存在する。

この実験では混合観測信号を発話ごとに切り出しているため、「発話」と「区間」とは同じ意味である。
比較のために以下の４つの方式を用意し、それぞれについて音源抽出を行なった。

（１）（本開示の方式１）遅延和アレイを用いて参照信号を生成（式［１２．１］および以下に示す式［１４．１］を使用）
（２）（本開示の方式２）目的音そのものを用いて参照信号を生成（以下に示す式［１４．２］を使用。ただし、ｈ（ω，ｔ）は時間周波数領域での目的音）
（３）（従来方式）遅延和アレイ：式［２．１］を用いて抽出
（４）（従来方式）独立成分分析：特開２００６−２３８４０９『音声信号分離装置・雑音除去装置および方法』で開示された方式。

なお、（２）（本開示の方式２）は、理想的な参照信号が得られた場合にどの程度の音源抽出性能が出るかを評価するためのものである。
また、（４）従来方式の「独立成分分析」は、特開２００６−２３８４０９で開示された、パーミュテーション問題を起こしにくい方式の時間周波数領域独立成分分析である。
この実験においては、以下に示す式［１５．１］〜式［１５．３］を２００回反復することで、目的音を分離するための行列Ｗ（ω）を求めた。

ただし、上記式［１５．２］のＹ（ｔ）は式［１５．４］で定義されるベクトルであり、φ_ω（・）は式［１５．５］および式［１５．６］で定義される関数である。また、ηは学習率と呼ばれ、ここでは０．３を用いた。独立成分分析では分離結果としてｎ個の信号が生成されるため、目的音の方向に最も近い分離結果を目的音の抽出結果として採用した。

各方式による抽出結果は、振幅と位相とを合わせるため、先に説明した式［８．４］によってリスケーリング係数ｇ（ω）を計算し、それを抽出結果に乗じた。ただし、式［８．４］において、ｉ＝１とした。これは、音源抽出結果を、図２３におけるマイクロホン＃１に対して射影したことを意味する。リスケーリングの後で、各方式による抽出結果を逆フーリエ変換によって波形へと変換した。

抽出の程度を評価するために、抽出結果ごとに目的音（ｓｉｇｎａｌ）と妨害音（ｉｎｔｅｒｆｅｒｅｎｃｅ）とのパワー比を用いた。具体的には、ＳＩＲ（Ｓｉｇｎａｌ−Ｔｏ−ＩｎｔｅｒｆｅｒｅｎｃｅＲａｔｉｏ）を計算した。これは、抽出結果における目的音（ｓｉｇｎａｌ）と妨害音（ｉｎｔｅｒｆｅｒｅｎｃｅ）とのパワー比を対数で表わした値で、単位はデシベル（ｄＢ）である。区間ごと（＝発話ごと）にＳＩＲを計算した後で、平均を計算した。平均は、妨害音の種類ごとに行なった。

各方式における平均ＳＩＲの改善度合いを図２４に示す表を参照して説明する。
妨害音としては、妨害音１個の例では、音声、音楽、雑踏のいずれかを用いた。
妨害音２個の例では、音声、音楽、雑踏のいずれか２つの組み合わせを用いた。
図２４に示す表は、これらの様々な妨害音を使用し、各方式（１）〜（４）の音源抽出処理を実行した場合の、目的音（ｓｉｇｎａｌ）と妨害音（ｉｎｔｅｒｆｅｒｅｎｃｅ）とのパワー比を対数で表現した値（ｄＢ）であるＳＩＲ（Ｓｉｇｎａｌ−Ｔｏ−ＩｎｔｅｒｆｅｒｅｎｃｅＲａｔｉｏ）を示している。

図２４に示す表において、最上段の「観測信号ＳＩＲ」は、混合観測信号における平均ＳＩＲである。この行の下の（１）〜（４）の各行に示す数値は、ＳＩＲの改善度合い、すなわち、抽出結果の平均ＳＩＲと混合観測信号のＳＩＲとの差を表わしている。
例えば、（１）（本開示の方式１）の［音声］の欄に示す［４．１０］という値は、ＳＩＲが３．６５［ｄＢ］から３．６５＋４．１０＝７．７５［ｄＢ］に改善されたことを表わしている。

この図２４に示す表において、従来方式である「（３）遅延和アレイ」の行に注目すると、ＳＩＲの改善度合いは最大でも４［ｄＢ］程度あり、これは目的音を若干強調する程度の効果しかないことが分かる。
一方、「（１）本開示の方式１」は、そのような遅延和アレイによって参照信号を生成し、それを用いて音源抽出を行なっているが、ＳＩＲの改善度合いは遅延和アレイよりもずっと高いことが分かる。

また、「（１）本開示の方式１」と、従来方式である「（４）独立成分分析」を比較すると、妨害音１個（音楽）の場合を除き、「（１）本開示の方式１」は「（４）独立成分分析」とほぼ同等か、「（４）独立成分分析」を上回るＳＩＲ改善度を示している。
なお、「（４）独立成分分析」は妨害音１個の場合と比べて妨害音２個の場合のＳＩＲ改善度が低いが、それは評価データの中に極端に短いものが存在し（最短は０．７５秒）、そのＳＩＲ改善度が低いからだと考えられる。

独立成分分析において十分な分離を行なうためには、ある程度の長さの区間の観測信号を確保する必要があり、その長さは音源数が増えるほど長くなる。それが、「妨害音２個」（＝音源数３）においてＳＩＲ改善度が極端に低下している原因だと考えられる。一方で、発明方式は、「妨害音２個」においてもそのような極端な低下はない。これも、独立成分分析を比較したときの本開示の処理の利点である。

また、「（２）本開示の方式２」は、理想的な参照信号が得られた場合のＳＩＲ改善度合いであり、これは本開示の方式の抽出性能の上限を表わしていると考えられる。妨害音１個のすべての場合、妨害音２個のすべての場合において、他の方式と比べて非常に高いＳＩＲ改善度を示している。すなわち、式［３．３］で表わされる本開示の処理に従った音源抽出方式は、参照信号の精度が高い（目的音の時間エンベロープに似ている）ほど高精度の抽出が可能であることが分かる。

次に、計算量の違いを見積もるため、それぞれ方式において一発話（約１．８秒）の抽出処理に要した平均ＣＰＵ時間を計測した。その結果を図２５に示す。
図２５には、
本開示の方式、
従来方式である遅延和アレイを用いた方式
従来方式である独立成分分析を用いた方式、
これらの３方式に従って、一発話（約１．８秒）の抽出処理に要した平均ＣＰＵ時間を示している。

いずれの方式も、実装に用いた言語は「ｍａｔｌａｂ」であり、ＡＭＤＯｐｔｅｒｏｎ２．６ＧＨｚの計算機で実行した。また、全方式で共通である短時間フーリエ変換・リスケーリング・フーリエ逆変換は、計測時間から除外した。また、提案方式においては固有値分解を用いている。すなわち、変形例で言及した、特異値分解に基づく方式は用いていない。

図２５から理解されるように、本開示の方式は、従来方式である遅延和アレイよりは時間を要するものの、独立成分分析と比べて１／５０以下の時間で抽出が行なわれている。これは、独立成分分析では反復処理が必要であり、反復回数に比例した計算量がかかるのに対し、本発明の方式は閉形式（ｃｌｏｓｅｄ−ｆｏｒｍ）で解くことができ、反復処理が不要だからである。
抽出精度と処理時間とを合わせて考察すると、本開示の方式（提案方式１）は、計算量は独立成分分析の１／５０以下である一方で、同等かそれ以上の分離性能を持っていることが示された。

［５．本開示の構成のまとめ］
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、本明細書において開示した技術は、以下のような構成をとることができる。
（１）異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析部と、
前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出部を有し、
前記観測信号解析部は、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換部と、
前記短時間フーリエ変換部の生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定部を有し、
前記音源抽出部は、
前記方向・区間推定部から入力する目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理装置。

（２）前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記目的音以外の信号である妨害音を含む観測信号から計算される位相差情報と、前記ステアリングベクトルの類似度を反映した時間周波数マスクを生成する時間周波数マスク生成部と、
前記時間周波数マスクに基づいて前記参照信号を生成する参照信号生成部を有する前記（１）に記載の音信号処理装置。

（３）前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果を生成し、該マスク適用結果から得られる各周波数ビンの時間エンベロープを平均して全周波数ビン共通の参照信号を算出する前記（２）に記載の音信号処理装置。
（４）前記参照信号生成部は、前記時間周波数マスクを周波数ビン間で直接平均して全周波数ビン共通の参照信号を算出する前記（２）に記載の音信号処理装置。
（５）前記参照信号生成部は、前記時間周波数マスクを前記観測信号に適用したマスク適用結果、または前記時間周波数マスクから周波数ビン単位の参照信号を生成する前記（２）に記載の音信号処理装置。

（６）前記参照信号生成部は、前記音信号入力部に構成される各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和した遅延和アレイの結果に対して、前記時間周波数マスクを適用したマスク適用結果を生成し、該マスク適用結果から前記参照信号を取得する前記（２）〜（５）いずれかに記載の音信号処理装置。
（７）前記音源抽出部は、前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、前記観測信号に対して前記ステアリングベクトルを適用した演算処理結果として得られる遅延和アレイの処理結果から参照信号を生成する参照信号生成部を有する前記（１）〜（６）いずれかに記載の音信号処理装置。

（８）前記音源抽出部は、音源抽出処理の処理結果として得られる目的音を参照信号として利用する前記（１）〜（７）いずれかに記載の音信号処理装置。
（９）前記音源抽出部は、音源抽出処理によって抽出結果を生成し、その抽出結果から参照信号を生成し、その参照信号を利用して音源抽出処理を再度行うというループ処理を任意の回数だけ実行する、前記（１）〜（８）いずれかに記載の音信号処理装置。

（１０）前記音源抽出部は、前記参照信号に基づいて、前記観測信号から前記目的音を抽出する抽出フィルタを生成する抽出フィルタ生成部を有する前記（１）〜（９）いずれかに記載の音信号処理装置。
（１１）前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから重みつき共分散行列を計算し、重みつき共分散行列に対して固有値分解（ｅｉｇｅｎｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して得られる複数の固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ（ｓ））から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する前記（１０）に記載の音信号処理装置。

（１２）前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のＮ乗（Ｎは正の実数）の逆数を用い、前記固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記（１１）に記載の音信号処理装置。
（１３）前記抽出フィルタ生成部は、前記重みつき共分散行列のための重みとして前記参照信号のＮ乗（Ｎは正の実数）を用い、前記固有ベクトル選択処理として、最大の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記（１１）に記載の音信号処理装置。

（１４）前記抽出フィルタ生成部は、抽出結果Ｙに対して、前記参照信号のＮ乗（Ｎは正の実数）の逆数を重みとして乗じた信号の分散である抽出結果の重みつき分散を最小とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記（１１）に記載の音信号処理装置。
（１５）前記抽出フィルタ生成部は、抽出結果Ｙに対して、前記参照信号のＮ乗（Ｎは正の実数）を重みとして乗じた信号の分散である抽出結果の重みつき分散を最大とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記（１１）に記載の音信号処理装置。

（１６）前記抽出フィルタ生成部は、前記固有ベクトル選択処理として、前記ステアリングベクトルと最も強く対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する前記（１１）に記載の音信号処理装置。
（１７）前記抽出フィルタ生成部は、前記参照信号と、無相関化された観測信号とから、前記参照信号のＮ乗（Ｎは正の実数）の逆数を重みとする重みつき観測信号行列を計算し、重みつき観測信号行列に対して特異値分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して得られる複数の固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ（ｓ））から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する前記（１０）に記載の音信号処理装置。

（１８）異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音信号を抽出する音源抽出部を有し、
前記音源抽出部は、
予め設定された前記目的音の音方向と既定の長さの音区間とに基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を前記既定の音区間単位で抽出する音信号処理装置。

さらに、上記した装置およびシステムにおいて実行する処理の方法や、処理を実行させるプログラムも本開示の構成に含まれる。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本開示の一実施例の構成によれば、複数の音が混在した音信号から目的音を抽出する装置、方法が実現される。
具体的には、観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が入力した多チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定し、音源抽出部が、観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する。
例えば、入力する多チャンネルの音信号に対する短時間フーリエ変換により時間周波数領域の観測信号を取得し、観測信号に基づいて目的音の音方向と音区間を検出する。さらに、目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する。

１１目的音の音源
１２音源方向
１３基準方向
１４妨害音の音源
１５〜１７マイクマロホン
２１直線
２２位相差の点
３１直線
３２ずれ
３３，３４点
１００音信号処理装置
１０１音信号入力部
１０２観測信号解析部
１０３音源抽出部
１１０抽出結果
２１１ＡＤ変換部
２１２ＳＴＦＴ部
２１３方向・区間推定部
２２１観測信号バッファ
２２２撮像素子
２３０制御部
３０１〜３０３フレーム
４０１区間情報
４０２観測信号バッファ
４０３ステアリングベクトル生成部
４０４ステアリングベクトル
４０５時間周波数マスク生成部
４０６時間周波数マスク
４０７マスキング部
４０８マスキング結果
４０９参照信号生成部
４１０参照信号
４１１抽出フィルタ生成部
４１２抽出フィルタ
４１３フィルタリング部
４１４フィルタリング結果
４１５抽出結果
５０１区間情報
５０２観測信号バッファ
５０３参照信号
５０４ステアリングベクトル
５０５無相関化部
５０６無相関化された観測信号
５０７参照信号反映部
５０８重み付き共分散行列
５０９固有ベクトル計算部
５１０固有ベクトル
５１１観測信号の共分散行列
５１２無相関化行列
５１３スケーリング部
５１４抽出フィルタ
６０１〜６０３区間
７０８〜７１２参照信号
８０１音信号入力部
８０２録音部
８０３録音データ
８０５データ読み込み部
８０６ＳＴＦＴ部
８０７観測信号バッファ
８０８方向・区間推定部
８０９音源抽出部
８１０抽出結果
８１１多チャンネル録音器
９０１〜９０３スピーカ
９２０マイクアレイ

Claims

異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析部と、
前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出部を有し、
前記観測信号解析部は、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換部と、
前記短時間フーリエ変換部の生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定部を有し、
前記音源抽出部は、
前記方向・区間推定部から入力する目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理装置。
前記音源抽出部は、
前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、
前記目的音以外の信号である妨害音を含む観測信号から計算される位相差情報と、前記ステアリングベクトルの類似度を反映した時間周波数マスクを生成する時間周波数マスク生成部と、
前記時間周波数マスクに基づいて前記参照信号を生成する参照信号生成部を有する請求項１に記載の音信号処理装置。
前記参照信号生成部は、
前記時間周波数マスクを前記観測信号に適用したマスク適用結果を生成し、該マスク適用結果から得られる各周波数ビンの時間エンベロープを平均して全周波数ビン共通の参照信号を算出する請求項２に記載の音信号処理装置。
前記参照信号生成部は、
前記時間周波数マスクを周波数ビン間で直接平均して全周波数ビン共通の参照信号を算出する請求項２に記載の音信号処理装置。
前記参照信号生成部は、
前記時間周波数マスクを前記観測信号に適用したマスク適用結果、または前記時間周波数マスクから周波数ビン単位の参照信号を生成する請求項２に記載の音信号処理装置。
前記参照信号生成部は、
前記音信号入力部に構成される各マイクロホンの観測信号に対してそれぞれ異なる時間の遅延を与え、目的音の方向からの信号の位相が揃うようにしてから各観測信号を総和した遅延和アレイの結果に対して、前記時間周波数マスクを適用したマスク適用結果を生成し、該マスク適用結果から前記参照信号を取得する請求項２に記載の音信号処理装置。
前記音源抽出部は、
前記目的音の音源方向情報に基づいて、目的音を取得する複数マイク間の位相差情報を含むステアリングベクトルを生成し、
前記観測信号に対して前記ステアリングベクトルを適用した演算処理結果として得られる遅延和アレイの処理結果から参照信号を生成する参照信号生成部を有する請求項１に記載の音信号処理装置。
前記音源抽出部は、
音源抽出処理の処理結果として得られる目的音を参照信号として利用する請求項１に記載の音信号処理装置。
前記音源抽出部は、
音源抽出処理によって抽出結果を生成し、その抽出結果から参照信号を生成し、その参照信号を利用して音源抽出処理を再度行うというループ処理を任意の回数だけ実行する請求項１に記載の音信号処理装置。
前記音源抽出部は、
前記参照信号に基づいて、前記観測信号から前記目的音を抽出する抽出フィルタを生成する抽出フィルタ生成部を有する請求項１に記載の音信号処理装置。
前記抽出フィルタ生成部は、
前記参照信号と、無相関化された観測信号とから重みつき共分散行列を計算し、重みつき共分散行列に対して固有値分解（ｅｉｇｅｎｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して得られる複数の固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ（ｓ））から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する請求項１０に記載の音信号処理装置。
前記抽出フィルタ生成部は、
前記重みつき共分散行列のための重みとして前記参照信号のＮ乗（Ｎは正の実数）の逆数を用い、
前記固有ベクトル選択処理として、最小の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項１１に記載の音信号処理装置。
前記抽出フィルタ生成部は、
前記重みつき共分散行列のための重みとして前記参照信号のＮ乗（Ｎは正の実数）を用い、
前記固有ベクトル選択処理として、最大の固有値に対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項１１に記載の音信号処理装置。
前記抽出フィルタ生成部は、
抽出結果Ｙに対して、前記参照信号のＮ乗（Ｎは正の実数）の逆数を重みとして乗じた信号の分散である抽出結果の重みつき分散を最小とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項１１に記載の音信号処理装置。
前記抽出フィルタ生成部は、
抽出結果Ｙに対して、前記参照信号のＮ乗（Ｎは正の実数）を重みとして乗じた信号の分散である抽出結果の重みつき分散を最大とする固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項１１に記載の音信号処理装置。
前記抽出フィルタ生成部は、
前記固有ベクトル選択処理として、前記ステアリングベクトルと最も強く対応する固有ベクトルを選択して前記抽出フィルタとする処理を実行する請求項１１に記載の音信号処理装置。
前記抽出フィルタ生成部は、
前記参照信号と、無相関化された観測信号とから、前記参照信号のＮ乗（Ｎは正の実数）の逆数を重みとする重みつき観測信号行列を計算し、重みつき観測信号行列に対して特異値分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して得られる複数の固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ（ｓ））から、前記抽出フィルタとする固有ベクトルを選択する固有ベクトル選択処理を実行する請求項１０に記載の音信号処理装置。
異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音信号を抽出する音源抽出部を有し、
前記音源抽出部は、
予め設定された前記目的音の音方向と既定の長さの音区間とに基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を前記既定の音区間単位で抽出する音信号処理装置。
音信号処理装置において実行する音信号処理方法であり、
観測信号解析部が、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定する観測信号解析ステップと、
音源抽出部が、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出する音源抽出ステップを実行し、
前記観測信号解析ステップにおいて、
入力する前記多チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行し、
前記音源抽出ステップにおいて、
前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出する音信号処理方法。
音信号処理装置において音信号処理を実行させるプログラムであり、
観測信号解析部に、異なる位置に設定された複数のマイクから構成される音信号入力部が取得した複数チャンネルの音信号を入力して抽出対象音である目的音の音方向と音区間を推定させる観測信号解析ステップと、
音源抽出部に、前記観測信号解析部の解析した目的音の音方向と音区間を入力して目的音の音信号を抽出させる音源抽出ステップを実行させ、
前記観測信号解析ステップにおいて、
入力する前記複数チャンネルの音信号に対して短時間フーリエ変換を適用することにより時間周波数領域の観測信号を生成する短時間フーリエ変換処理と、
前記短時間フーリエ変換処理によって生成した観測信号を入力して、前記目的音の音方向と音区間を検出する方向・区間推定処理を実行させ、
前記音源抽出ステップにおいて、
前記方向・区間推定処理によって取得された目的音の音方向と音区間に基づいて、目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号を利用して目的音の音信号を抽出させるプログラム。