[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6723120B2 - 音響処理装置および音響処理方法 - Google Patents

音響処理装置および音響処理方法 Download PDF

Info

Publication number
JP6723120B2
JP6723120B2 JP2016172985A JP2016172985A JP6723120B2 JP 6723120 B2 JP6723120 B2 JP 6723120B2 JP 2016172985 A JP2016172985 A JP 2016172985A JP 2016172985 A JP2016172985 A JP 2016172985A JP 6723120 B2 JP6723120 B2 JP 6723120B2
Authority
JP
Japan
Prior art keywords
sound source
sound
acoustic
unit
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016172985A
Other languages
English (en)
Other versions
JP2018040848A (ja
Inventor
一博 中臺
一博 中臺
諒介 小島
諒介 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2016172985A priority Critical patent/JP6723120B2/ja
Priority to US15/619,865 priority patent/US10390130B2/en
Publication of JP2018040848A publication Critical patent/JP2018040848A/ja
Application granted granted Critical
Publication of JP6723120B2 publication Critical patent/JP6723120B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音響処理装置および音響処理方法に関する。
環境理解において音環境の情報を取得することは重要な要素であり、ロボット、車両、家電機器などへの応用が期待されている。音環境の情報を取得するために、音源定位、音源分離、音源同定、発話区間検出、音声認識などの要素技術が用いられる。一般に、音環境において種々の音源がそれぞれ異なる位置に所在している。音環境の情報を取得するために収音点においてマイクロフォンアレイなどの収音部が用いられる。収音部では、各音源からの音響信号が重畳した混合音の音響信号が取得される。
従来、混合音に対する音源同定を行うために、収音された音響信号について音源定位を行い、その処理結果として各音源の方向に基づいて当該音響信号について音源分離を行うことにより、音源毎の音響信号を取得していた。
例えば、特許文献1に記載の技術では、マイクが音響信号を収音し、音源定位部が音源の方向を推定する。そして、特許文献1に記載の技術では、音源定位部が推定した音源の方向の情報を用いて、音源分離部が音響信号から音源信号を分離する。
音響信号が野鳥の鳴き声の場合は、森林がある野外等で収音が行われる。このような環境で収音した音響信号を用いた音源分離処理では、木々などの障害物や地形等の影響を受けるため、充分に音源を分離できない場合があった。図10は、従来技術に係る同時刻に近くで鳴くメジロとヒヨドリの鳴き声を音源分離した結果の一例を示す図である。図10において、横軸は時刻、縦軸は周波数を示す。破線g901で囲んだ領域の画像は、メジロの分離音のスペクトログラフである。破線g911で囲んだ領域の画像は、ヒヨドリの分離音のスペクトログラフである。図10の符号g902で囲んだ領域と符号g912で囲んだ領域のように、メジロの鳴き声が、ヒヨドリの分離音に漏れている。また、分離処理では、風によって発生する音などが分離音に混合してしまう場合もある。このように、音源同士が近い場合は、分離した音響信号に他の音響信号が混合することがあった。
特許第4157581号公報
しかしながら、特許文献1に記載の技術では、音源同士が近い場合、それらが同じ音源である可能性が高いにもかかわらず、従来の手法では、その情報を音源同定に有効に活用することができなかった。
本発明は、上記の問題点に鑑みてなされたものであって、音源同士の近さ情報を有効に利用することによって、精度良く音源同定を行うことができる音響処理装置および音響処理方法を提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音響処理装置は、マイクロフォンアレイで収音された音響信号を取得する取得部と、前記取得部が取得した音響信号に基づいて音源方向を定める音源定位部と、音源同士の依存関係を示す音響モデルに基づいて音源の種類を同定する音源同定部とを備え、前記音響モデルは、前記音源方向を要素として含んだ確率的なモデル表現で表される。
(2)また、本発明の一態様に係る音響処理装置において、前記音響モデルは、確率的なモデル表現において、前記音源の特徴量に基づくクラス毎にモデル化したものであるようにしてもよい。
(3)また、本発明の一態様に係る音響処理装置において、前記音源同定部は、前記音源の特徴量に基づくクラスが同じ複数の前記音源の場合に前記音源同士が近接する方向にあると判別し、前記クラスが異なる複数の前記音源の場合に前記音源同士が離れた方向にあると判別するようにしてもよい。
(4)また、本発明の一態様に係る音響処理装置において、前記音源定位部が定めた音源方向の結果に基づいて音源分離する音源分離部、を備え、前記音響モデルは、前記音源分離部での分離結果に基づくようにしてもよい。
(5)上記目的を達成するため、本発明の一態様に係る音響処理方法は、取得部が、マイクロフォンアレイで収音された音響信号を取得する取得手順と、音源定位部が、前記取得手順が取得した音響信号に基づいて音源方向を定める音源定位手順と、音源同士の依存関係を示す音響モデルに基づいて音源の種類を同定する音源同定手順と、を含み、前記音響モデルは、前記音源方向を要素として含んだ確率的なモデル表現で表される。
上述した(1)または(5)では、音源定位の結果を直接音源同定に用いることができ、さらに音源同士の依存関係を示す確率的なモデル表現の音響モデルに基づいて音源同定を行う。これにより、上述した(1)または(5)によれば、確率的なモデル表現の音響モデルを使用することによって、音源同士の依存関係を有効に利用することができる。そして、上述した(1)または(5)によれば、この確率的なモデル表現の音響モデルを用いて音源同定するため、音源同士の近さ情報を有効に利用することができるので、精度良く音源同定を行うことができる。なお、音源同士の近さ情報とは、音源同士が近く、音源が同じことを表す情報である。また、確率的なモデル表現とは、グラフィカルモデルであり、例えばベイジアンネットワーク表現である。
また、上述した(2)によれば、音響モデルにおいて特徴量を用いることで、音源同定の精度を向上させることができる。
また、上述した(3)によれば、音源の近接度合いと音源の種類とに応じて、確率的なモデル表現の音響モデルにおける確率を設定する。音源同士が近接する場合は、相互に依存関係が生ずるので、音源同定の精度を向上させることができる。
また、上述した(4)によれば、音響モデルに、音源分離部が分離した分離結果を用いているので、より音源同定の精度を向上させることができる。
第1実施形態に係る音響信号処理システムの構成を示すブロック図である。 1秒間のウグイスの鳴き声「ホーホケキョ」のスペクトログラムを示す図である。 第1実施形態に係る音響モデルのベイジアンネットワーク表現の一例を説明するための図である。 第1実施形態に係る音響モデル生成処理のフローチャートである。 第1実施形態に係る音源同定部の構成を示すブロック図である。 第1実施形態に係る音源同定処理のフローチャートである。 第1実施形態に係る音声処理のフローチャートである。 評価に用いたデータの例を示す図である。 アノテーションの割合に対する正答率を示す図である。 従来技術に係る同時刻に近くで鳴くメジロとヒヨドリの鳴き声を音源分離した結果の一例を示す図である。
以下、本発明の実施の形態について図面を参照しながら説明する。
<第1実施形態>
第1実施形態では、音響信号が、野鳥の鳴き声を集音した音響信号の例を説明する。
図1は、本実施形態に係る音響信号処理システム1の構成を示すブロック図である。図1に示すように、音響信号処理システム1は、収音部11、録音再生装置12、再生装置13、および音響処理装置20を含む。また、音響処理装置20は、取得部21、音源定位部22、音源分離部23、音響モデル生成部24、音響モデル記憶部25、音源同定部26、および出力部27を備える。
収音部11は、自部に到来した音を収音し、収音した音からPチャネル(Pは、2以上の整数)の音響信号を生成する。収音部11は、マイクロフォンアレイであり、それぞれ異なる位置に配置されたP個のマイクロフォンを有する。収音部11は、生成したPチャネルの音響信号を音響処理装置20に出力する。収音部11は、Pチャネルの音響信号を無線または有線で送信するためのデータ入出力インタフェースを備えてもよい。
録音再生装置12は、Pチャネルの音響信号を録音し、録音したPチャネルの音響信号を音響処理装置20に出力する。
再生装置13は、Pチャネルの音響信号を音響処理装置20に出力する。
なお、音響信号処理システム1は、収音部11、録音再生装置12、再生装置13のうち、少なくとも1つを備えていればよい。
音響処理装置20は、収音部11、録音再生装置12、または再生装置13のうちの1つが出力するPチャネルの音響信号から音源の方向を推定し、当該音響信号から音源毎の成分を表す音源別音響信号に分離する。また、音響処理装置20は、音源別音響信号について、音源の方向と音源の種類との関係を示す音響モデルを用いて、推定した音源の方向に基づいて音源の種類を定める。音響処理装置20は、定めた音源の種類を示す音源種類情報を出力する。
取得部21は、収音部11、録音再生装置12、または再生装置13のうちの1つが出力するPチャネルの音響信号を取得し、取得したPチャネルの音響信号を音源定位部22に出力する。なお、取得部21は、取得した音響信号がアナログ信号の場合、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音響信号を音源定位部22に出力する。
音源定位部22は、取得部21が出力するPチャネルの音響信号に基づいて各音源の方向を予め定めた長さのフレーム(例えば、20ms)毎に定める(音源定位)。音源定位部22は、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部22は、空間スペクトルに基づいて音源毎の音源方向を定める。この時点において定められる音源の数は、1個である場合もあるし、複数である場合もある。以下の説明では、時刻tのフレームにおけるk番目の音源方向をdkt、検出される音源の数をKと表す。音源定位部22は、音源同定を行う際に、定めた音源毎の音源方向を示す音源方向情報を音源分離部23と音源同定部26に出力する。音源方向情報は、各音源の方向[d](=[d,d,…,dkt,…,dKt];0≦dkt<2π,1≦k≦K)を表す情報である。音源定位部22は、音源同定を行う際に、Pチャネルの音響信号を音源分離部23に出力する。また、音源定位部22は、音響モデルの生成時に、求めた音源の数を示す情報、定位した音源方向を示す情報を音響モデル生成部24に出力する。音源定位の具体例については、後述する。
音源分離部23は、音源定位部22が出力する音源方向情報とPチャネルの音響信号を取得する。音源分離部23は、Pチャネルの音響信号を音源方向情報が示す音源方向に基づいて、音源毎の成分を示す音響信号である音源別音響信号に分離する。音源分離部23は、音源別音響信号に分離する際、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。以下、時刻tのフレームにおける音源kの音源別音響信号Sktと表す。音源分離部23は、音源同定を行う際に、分離した音源毎の音源別音響信号を音源同定部26に出力する。なお、音源分離部23が出力する音源別音響信号は、音源数がK個であれば、音源別音響信号の数もK個である。
音響モデル生成部24は、音源毎の音源別音響信号、音源クラスと音源クラスが有するサブクラス、音源の方向に基づいてモデルデータを生成(学習)する。なお、音源クラスとサブクラスについては、後述する。音響モデル生成部24は、音源分離部23が分離した音源別音響信号を用いてもよいし、予め取得した音源別音響信号を用いてもよい。音響モデル生成部24は、生成した音響モデルのデータを音響モデル記憶部25に記憶する。音響モデルのデータ生成処理については、後述する。
音響モデル記憶部25は、音響モデル生成部24が生成した音源モデルを記憶する。
音源同定部26は、音源分離部23が出力する音源別音響信号の音響特徴量を、例えば、GHDSS法によって算出する。音源同定部26は、音源分離部23が出力する音源別音響信号に対して、音源クラスとサブクラスを推定する。音源同定部26は、算出した音響特徴量と、音源定位部22が出力する音源方向を示す情報と、推定した音源クラスとサブクラスと、音響モデル記憶部25が記憶する音源モデルとサブクラスと音響モデルと、を用いて、音源分離部23が出力する音源別音響信号の音源クラスを推定する。音源同定部26は、推定した音源クラスを示す情報を音源種類情報として出力部27に出力する。なお、音響特徴量の算出方法、音源の同定処理については後述する。
出力部27は、音源同定部26が出力する音源種類情報を外部装置に出力する。外部装置とは、例えば画像表示装置、コンピュータ、音声再生装置等である。なお、出力部27は、音源毎に音源種類情報に音源別音源信号と音源方向情報を対応付けて出力してもよい。
また、出力部27は、他の機器に各種の情報を出力する入出力インタフェースを含んでいてもよく、これらの情報を記憶する記憶媒体を含んでいてもよい。また、出力部27は、これらの情報を表示する画像表示部(ディスプレイ等)を含んでいてもよい。
ここで、鳥の鳴き声について説明する。鳥の鳴き声には、歌と地声の二種類がある。歌は、さえずりとも呼ばれ、縄張りの主張や繁殖期における異性に対するアピールなど特別な意味を持ったコミュニケーションのためのメディアであることが知られている。地声は、地鳴きとも呼ばれ、一般的に「チッ」とか「ジャッ」など単純な鳴き声である。例えば、ウグイスの場合、歌が「ホーホケショ」であり、地声が「チッチッチッ」である。
図2は、1秒間のウグイスの鳴き声「ホーホケキョ」のスペクトログラムを示す図である。図2において、横軸は時刻を示し、縦軸は周波数を示す。濃淡は、周波数毎のパワーの大きさを表す。濃い部分ほどパワーが大きく、薄い部分ほどパワーが小さい。区間U1は、「ホーホ」に相当するサブクラスの部分である。区間U2は、「ケキョ」に相当するサブクラスの部分である。区間U1では、周波数スペクトルが緩やかなピークを有し、ピーク周波数の時間変化は緩やかである。これに対し、区間U2では、周波数スペクトルが鋭いピークを有し、ピーク周波数の時間変化がより著しい。
次に、本実施形態における音源クラスとサブクラスについて説明する。
音源クラスとは、1つの音の区間を音の特徴によって分類したものであり、例えば鳥の種類、鳥の個体などによって区分されるクラスである。なお、音の区間とは、音響信号のうち、例えば所定のしきい値以上の大きさの音が連続している時間である。音響モデル生成部24は、例えば音響特徴量に基づいてクラスタリングして音源クラスを分類する。また、サブクラスとは、音源クラスより短い音の区間であり、音源クラスの構成単位である。サブクラスは、例えば人間が発声した音声の音韻に相当する。
例えば、ウグイス場合は、ウグイスが音源クラスであり、区間U1と区間U2(図2)がサブクラスである。このように、鳥の鳴き声である歌において、音源クラスは、1つまたは複数のサブクラスを備えている。
本実施形態では、以下の説明において次の符号を用いる。K(={1,…,k,…,K}は、検出可能な音源の最大個数(以下、音源の数ともいう)であり、1以上の自然数である。C(={c,…,c})は、音源の種類であり、音源クラスの集合である。c(={sc1,…,scj}は、音源クラスである。sc1は、音源クラスcの1番目のサブクラスである。scjは、音源クラスcのj番目のサブクラスである。
次に、音源定位の一手法であるMUSIC法について説明する。
MUSIC法は、以下に説明する空間スペクトルのパワーPext(ψ)が極大であって、所定のレベルよりも高い方向ψを音源方向として定める手法である。音源定位部22が備える記憶部は、予め所定の間隔(例えば5°)で分布した音源方向ψ毎の伝達関数を記憶する。音源定位部22は、音源から各チャネルp(pは、1以上P以下の整数)に対応するマイクロフォンまでの伝達関数D[p](ω)を要素とする伝達関数ベクトル[D(ψ)]を音源方向ψ毎に生成する。
音源定位部22は、各チャネルpの音響信号xを所定のサンプル数からなるフレーム毎に周波数領域に変換することによって変換係数x(ω)を算出する。音源定位部22は、算出した変換係数を要素として含む入力ベクトル[x(ω)]から次式(1)に示す入力相関行列[Rxx]を算出する。
式(1)において、E[…]は、…の期待値を示す。[…]は、…が行列またはベクトルであることを示す。[…]は、行列またはベクトルの共役転置(conjugate transpose)を示す。
音源定位部22は、入力相関行列[Rxx]の固有値δおよび固有ベクトル[e]を算出する。入力相関行列[Rxx]、固有値δ、および固有ベクトル[e]は、次式(2)に示す関係を有する。
式(2)において、iは、1以上P以下の整数である。インデックスiの順序は、固有値δの降順である。
音源定位部22は、伝達関数ベクトル[D(ψ)]と算出した固有ベクトル[e]に基づいて、次式(3)に示す周波数別空間スペクトルのパワーPsp(ψ)を算出する。
式(3)において、Kは、Pよりも小さい予め定めた自然数である。
音源定位部22は、SN比(信号対ノイズ比)が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(ψ)の総和を全帯域の空間スペクトルのパワーPext(ψ)として算出する。
なお、音源定位部22は、MUSIC法に代えて、その他の手法を用いて音源位置を算出してもよい。音源定位部22は、例えば、重み付き遅延和ビームフォーミング(WDS−BF:Weighted Delay and Sum Beam Forming)法を用いて音源位置を算出してもよい。
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。分離行列[V(ω)]は、音源定位部22が出力するPチャネルの音声信号[x(ω)]に乗じることによって、検出される最大K個の音源それぞれの音源別音声信号(推定値ベクトル)[u’(ω)]を算出するために用いられる行列である。ここで、[…]は、行列またはベクトルの転置を示す。
分離尖鋭度JSS([V(ω)])、幾何制約度JGC([V(ω)])は、それぞれ、式(4)、(5)のように表される。
式(4)、(5)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ([u’(ω)])は、音声信号[u’(ω)]の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS([V(ω)])は、音声信号(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの音源が他の音源として誤って分離される度合いを表す指標値である。また、式(5)において、[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
次に、音源同定に用いる音響モデルについて説明する。
音源の種類が鳥の鳴き声であり、その音源クラスが複数のサブクラスを有する場合、各時刻の音源からの音は、複数の音源クラスおよび複数のサブクラスの中から確率的に選択されると仮定する。前述したウグイスの歌「ホーホケキョ」の場合は、第1のサブクラス「ホーホ」と、第2のサブクラス「ケキョ」それぞれの異なる周波数スペクトルを確率的に選択しているとみなす。これにより、本実施形態では、音源同定に用いる音響モデルを、異なるスペクトルを混合したモデルとして生成する。さらに、本実施形態における音響モデルは、分離音に関する確率分布と、到来方向に関する確率分布の2つの分布によって構成する。分離音に関する分布としては、GMM(Gaussian Mixture Model;混合ガウスモデル)を用いる。そして、到来方向に関する分布には、フォン・ミーゼス(von Mises)分布を用いる。すなわち、本実施形態では、音源位置を考慮するようにGMMを拡張して用いる。
まず、GMMについて説明する。
GMMを用いた音響モデルでは、1つの音源クラスが複数のサブクラスを有しているとする。また、GMMを用いた音響モデルにおいて、各時刻における音源からの音響信号は、複数のサブクラスから確率的に選択すると仮定する。また、GMMを用いた音響モデルでは、周波数スペクトルから計算した音響特徴量が多変量ガウス分布に従うと仮定する。これにより、GMMを用いた音響モデルでは、1つの音源クラスであってもサブクラスの数の周波数スペクトルのパターンを表現することができる。この結果、GMMを用いた音響モデルでは、異なるスペクトルを持つ信号が混合した音響信号であっても、モデル化を行うことができる。
サブクラスは、所定の統計分布として、例えば、多変量ガウス分布を用いてその統計的な性質を表すことができる。音響特徴量xが与えられるとき、そのサブクラスが音源クラスCのj番目のサブクラスscjである確率p(x,scj,c)は、次式(6)で表すことができる。なお、音響特徴量xは、ベクトルである。
式(6)において、Ncj(x)は、サブクラスscjに係る音響特徴量xの確率分布p(x|scj)が多変量ガウス分布であることを示す。p(scj|C=c)は、音源の種類Cが音源クラスcであるとき、サブクラスscjをとる条件付き確率を示す。従って、音源の種類Cが音源クラスcであることを条件とする、サブクラスscjをとる条件付き確率の総和Σp(scj|C=c)は1である。p(C=c)は、音源の種類Cがcである確率を示す。なお、p(・|・)は、条件付き確率である。上述した例において、サブクラスは、音源の種類毎の確率p(C=c)、音源の種類Cが音源クラスcであるときのサブクラスscj毎の条件付き確率p(scj|C=c)、サブクラスscjに係る多変量ガウス分布の平均値(mean)、共分散行列(covariance matrix)を含む。音源同定部26は、音響特徴量xが与えられるとき、サブクラスscj、またはサブクラスscjを含む音源クラスcを判定する際にサブクラスを用いる。
GMMを用いた音響モデルでは、音源の種類Cを確率変数とし、アノテーションを行ったデータの場合に固定値とすることで、例えばEM(Expectation Maximization)アルゴリズムを用いて半教師あり学習を行うことで音響モデルであるGMMを構築する。なお、アノテーションとは、対応付けである。本実施形態では、予め取得した音源別音響信号について、その区間毎に音源の種類と音ユニットとを対応付けることをアノテーションという。
GMMを用いた音響モデルでは、音響モデルの構築後、次式(7)を用いてMAP(Maximum A Postriori)推定を行うことで、音源の同定を行う。なお、式(7)において、Cは、音源kの音源クラスを示す。
次に、本実施形態で用いる音響モデルについて説明する。
上述したGMMによる音響モデルでは、分離音毎に独立してモデル化を行う。このため、時刻t、時刻tにおける分離音k毎に独立している。GMMを用いた音響モデルでは、分離音毎に独立して学習を行うため、音源位置を音響モデルに反映することができない。従って、GMMを用いた音響モデルでは、音源の位置関係に依存した分離音間の漏れを考慮できなかった。このため、本実施形態の音響モデルでは、各分離音間の依存性を考慮して、GMMを拡張する。
ここで、本実施形態の音響モデルに用いるベイジアンネットワーク(Bayesian network)表現を説明する。なお、ベイジアンネットワークは、因果関係(依存関係)を確率により記述し、グラフ構造を持つ確率モデルの一つである。すなわち、本実施形態では、このように音響モデルにベイジアンネットワークを用いることで、音源同士の依存関係を音響モデルに含めることができる。
図3は、本実施形態に係る音響モデルのベイジアンネットワーク表現の一例を説明するための図である。図3において、符号g1が示す図は、ベイジアンネットワーク表現の一例を示す図である。画像so1は、第1の分離音のスペクトログラムである。画像so2は、第2の分離音のスペクトログラムである。画像so1と画像so2において、横軸が時間、縦軸は周波数を示す。図3に示す例は、2つの音源の到来方向が近い、すなわち、音源方向がともにdである例である。なお、時刻tの音源kの方向d(=dt,1,dt,2,…,dt,kt,…,dt,Kt、ただし0≦dt,kt<2π,1≦k≦K)は、音源定位部22がMUSIC法によって推定する。そして、音源定位部22は、MUSIC法によって得たパワーに所定の閾値を用いて、音源数Kを推定する。また、各分離音の音響特徴量xktは、後述するように音源同定部26がGHDSSなどの手法を用いて算出する。
図3において、第1の分離音と第2の分離音は、同時刻の方向が近い別の分離音である。具体的には、時刻tにおいて、第1の分離音が、第2の分離音に漏れている。このため、第2の分離音には、第1の分離音が混合している。
観測変数xは、第1の分離音の音響特徴量である。観測変数x’は、第2の分離音の音響特徴量である。観測変数sは、第1の分離音の時刻tにおけるサブクラスである。観測変数s’は、第2の分離音の時刻tにおけるサブクラスである。観測変数cは、第1の分離音の時刻tにおける音源クラスである。観測変数c’は、第2の分離音の時刻tにおける音源クラスである。観測変数dは、分離音の到来方向のベクトルである。
図3に示したベイジアンネットワークは、次式(8)のように記述することができる。
式(8)は、分離音がK個における、鳥の声が存在する方向dである確率を表している。式(8)において、sckは、音源クラスcのk番目のサブクラスである。また、式(8)において、P(d|c)は、二つの音源が、同じ音源クラスの場合(c=c)と、異なる音源クラスの場合(c≠c)とに分けられ、次式(9)、式(10)のように表すことができる。なお、cとcそれぞれは、音源クラスである。
式(9)と式(10)において、d、dそれぞれは、音源の方向である。ここで、分離音の個数Kが2の場合、式(9)において、p(d,d|c=c)は、次式(11)である。式(10)において、p(d,d|c≠c)は、次式(12)である。
式(12)において、右辺のπは、分離音Kが2のため、音源同士の方向が反対側(+180°)であることを表している。また、式(11)と式(12)において、f(d;κ)は、フォン・ミーゼス(von Mises)分布であり、次式(13)である。なお、κは、分布の集中度を表すパラメータであり、0以上の値である。
なお、式(13)において、I(κ)は、0次の変形ベッセル関数である。
ここで、本実施形態においてフォン・ミーゼス分布を用いる理由を説明する。フォン・ミーゼス分布は、円周上に定義された連続型の確率分布である。音源の方向は、円周上に存在していると想定される。このため、本実施形態では、方向の分布として、円周上に定義されたフォン・ミーゼス分布を用いる。
式(11)において、p(d,d|c=c)に注目すると、この確率値は、二つの音源の位置が近く、かつ二つの音源が同じ音源クラスに属している時に高い値をとることを表している。一方、式(12)において、p(d,d|c=c)に注目すると、この確率値は、二つの音源の位置が遠く、かつ二つの音源が異なるクラスに属している時に高い値をとることを表している。なお、近いとは、音源が2つの場合に2つの音源それぞれの方向dと方向dが、ほぼ同じであることを表す。また、遠いとは、音源が2つの場合に2つの音源それぞれの方向dと方向dが、角度π離れていることを表す。
本実施形態では、同時刻に二つ以上の音源がある場合(K>2)を考慮するために、式(9)と式(10)のようにすべての音源間の組み合わせによって確率値p(d|c)を定義している。なお、上述した式(8)〜式(13)が音響モデルである。そして、図3と式(8)〜式(13)に示したように、音響モデルは、音源クラス毎にモデル化したものである。
この音響モデルを用いて音源のクラスを推定するときには、音源クラスcとcとが独立でないということに注意しなければならない。つまり、GMMで説明したように、各音響特徴量が独立ではないため、ある音源の音源クラスを決定する際に、同時刻の他の音源の音源クラスを考慮する必要がある。このため、本実施形態では、音源クラスを推定するために、GMMを用いた音響モデルの式(7)を、次式(14)のように拡張する。音源同定部26は、式(7)を用いて、音源クラスを推定する。
次に、本実施形態における音響モデルのパラメータの学習方法について説明する。
本実施形態では、分離音間の相互依存性を考慮し、EMアルゴリズムにおける半教師あり学習を行う。
音響モデル生成部24は、予め取得した音響信号に対して分離した音のいくつかに対して予めアノテーションを行った半教師あり学習を行うことで音響モデルを生成し、生成した音響モデルを音響モデル記憶部25に記憶する。
音響特徴量xに対応する音源クラスcが与えられた場合、つまり教師あり学習の場合は、図3に示したようにベイジアンネットワークの性質から、音源クラスcを他の音源クラスc’と独立に計算することができる。これにより、教師あり学習の場合は、従来のGMMによる音響モデルのパラメータ学習と同様に学習を行うことができる。
しかし、部分的なアノテーションの場合、つまり半教師あり学習を行う場合は、音源クラスcと音源クラスc’とが独立ではないため、音響特徴量x毎に独立に学習することができない。
以下、音源クラスcと音源クラスc’が、アノテーションされていない場合について説明する。
EMアルゴリズムにおいては、データセット中のサブクラスs の出現確率の期待値を計算する必要がある。期待値Nは、次式(15)のように表現できる。
式(15)において、st,ktは、時刻tの音源ktに関するサブクラスを表す確率変数である。また、Xは、時刻tの音響特徴量x全ての集合である。なお、式(15)のp(st,kt=s,X,d)は、音響モデル記憶部25が記憶する音響モデル上で計算することができる。
ただし、ベイジアンネットワークの性質からp(st,kt= s,X,d)は、音源kだけでなく,時刻tにおけるそのほかの音源と独立に決定することはできない。
ここで、p(st,kt=s,X,d)の具体な計算方法を説明する。まず、簡単のため時刻tに2つの音源のみがあるとして、それぞれ音源kとk’、音響特徴量xとx’(X={x,x’})、音源方向dとd’が与えられた場合を考える。
この場合、音源kのサブクラスsに関する確率p(s,X,d) は、次式(16)のように表現できる。
ただし、式(16)におけるp(x’|c’)は、次式(17)のように定義する。
なお、二つ以上の音源がある場合、確率p(x|c)を何度も計算する必要があるため、音響モデル生成部24は、予め依存しているフレーム全てに対して確率p(x|c)を計算し、テーブルを作っておくようにしてもよい。これにより、高速に計算することができる。なお、音響モデル生成部24は、テーブルを用いずに逐次計算するようにしてもよい。
また、確率p(s|x)は、サブクラスsに関する多変量ガウス分布となる。そして、p(s|x)以外の確率は、定義より与えられる。また、フォン・ミーゼス分布のパラメータκ,κについても、EMアルゴリズムを用いて決定することが可能である。
次に、本実施形態に係る音響モデル生成処理について説明する。
図4は、本実施形態に係る音響モデル生成処理のフローチャートである。
(ステップS1)音響モデル生成部24は、予め取得した音源別音響信号に対して、その区間毎に音源クラスとサブクラスとを対応付ける(アノテーション)。音響モデル生成部24は、例えば、音源別音響信号のスペクトログラムを画像表示部に表示させる。音響モデル生成部24は、収音部11等が出力する音響信号に対して、音源の区間検出、音源定位処理、音源分離処理を行った分離音に音源クラスとサブクラスを対応付ける。
(ステップS2)音響モデル生成部24は、音源クラスとサブクラスを区間毎に対応付けた音源別音響信号に基づいて音データを生成する。より具体的には、音響モデル生成部24は、音源クラス毎の区間の割合を、音源クラスc毎の確率p(c)として算出する。また、音響モデル生成部24は、各音源クラスについて方向d毎の条件付き確率p(d|c)として算出する。また、音響モデル生成部24は、ベイジアンネットワークにおける各音源クラスについて、音響特徴量x毎の条件付き確率p(x|c)として算出する。
(ステップS3)音響モデル生成部24は、図2に示したようなベイジアンネットワーク表現と式(8)とステップS2で算出した各確率を用いてp確率p(x,d,s,c)を算出することで、音響モデルを生成する。続けて、音響モデル生成部24は、生成した音響モデルを音響モデル記憶部25に記憶する。
(ステップS4)音響モデル生成部24は、音響モデル記憶部25が記憶する音響モデルにEMアルゴリズムを導入して、音響モデルのパラメータを学習する。EMアルゴリズムにおいては、対応付けしてないデータを欠損値とみなすことができる。このため、音響モデル生成部24は、予め取得した音響信号の一部に対して対応付けを行うことで半教師あり学習を行う。また、音響モデル生成部24は、音響モデルを用いて学習することで、分離音間の相互依存性を考慮して学習を行う。なお、パラメータとは、式(15)における確率p(s,k=s,X、d)、期待値Ns、式(16)の確率p(s,X、d)等である。
次に、音源同定部26について説明する。
図5は、本実施形態に係る音源同定部26の構成を示すブロック図である。図5に示すように、音源同定部26は、音響特徴量算出部261、音源推定部262を備える。
音響特徴量算出部261は、音源分離部23が出力する音源毎の音響信号についてフレーム毎に、その物理的な特徴を示す音響特徴量を算出する。音響特徴量は、例えば、周波数スペクトルである。音響特徴量算出部261は、周波数スペクトルについて主成分分析(PCA:Principal Component Analysis)を行って得られた主成分を音響特徴量として算出してもよい。主成分分析において、音源の種類の差異に寄与する成分が主成分として算出される。そのため、周波数スペクトルよりも次元が低くなる。なお、音響特徴量として、メルスケール対数スペクトル(MSLS:Mel Scale Log Sprctrum)、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficients)なども利用可能である。音響特徴量算出部261は、算出した音響特徴量を音源推定部262に出力する。
音源推定部262は、取得した音響信号の同定時に、音源定位部22が出力する方向dを示す情報、音響特徴量算出部261が出力する音響特徴量xと、音響モデル記憶部25が記憶する音データ(クラスcとサブクラスs)を参照して、確率p(c)、確率p(d|c)、確率p(x|c)を算出する。続けて、音源推定部262は、算出した確率p(c)、確率p(d|c)、確率p(x|c)と式(14)を用いて音源クラスを推定する。すなわち、音源推定部262は、式(14)の値が最も大きい音源クラスを、音源の音源クラスであると推定する。音源推定部262は、音源毎に音源クラスを示す音源種類情報を生成し、生成した音源種類情報を出力部27に出力する。
次に、本実施形態に係る音源同定処理について説明する。
図6は、本実施形態に係る音源同定処理のフローチャートである。音源推定部262は、ステップS101〜S102に示す処理を音源方向毎に繰り返す。
(ステップS101)音源推定部262は、音源定位部22が出力する方向dを示す情報、音響特徴量算出部261が出力する音響特徴量xと、音響モデル記憶部25が記憶する音データ(クラスcとサブクラスs)を参照して、確率p(c)、確率p(d|c)、確率p(x|c)を算出する。
(ステップS102)音源推定部262は、算出した確率p(c)、確率p(d|c)、確率p(x|c)と式(14)を用いて音源クラスを推定する。音源推定部262は、その後、未処理の音源方向がなくなったとき、ステップS101〜S102の処理を終了する。
次に、本実施形態に係る音声処理について説明する。
図7は、本実施形態に係る音声処理のフローチャートである。
(ステップS201)取得部21は、例えば収音部11が出力するPチャネルの音響信号を取得し、取得したPチャネルの音響信号を音源定位部22に出力する。
(ステップS202)音源定位部22は、取得部21が出力するPチャネルの音響信号について空間スペクトルを算出し、算出した空間スペクトルに基づいて音源毎の音源方向を定める(音源定位)。続けて、音源定位部22は、音源毎の音源方向を示す音源方向情報とPチャネルの音響信号を音源分離部23と音源同定部26に出力する。
(ステップS203)音源分離部23は、音源定位部22が出力するPチャネルの音響信号を、音源方向情報が示す音源方向に基づいて音源毎の音源別音響信号に分離する。音源分離部23は、分離した音源別音響信号を音源同定部26に出力する。
(ステップS204)音源同定部26は、音源定位部22が出力する音源方向情報と音源分離部23が出力する音源別音響信号について、図6に示す音源同定処理を行う。音源同定部26は、音源同定処理により定めた音源毎クラスを示す音源種類情報を出力部27に出力する。
(ステップS205)出力部27は、音源同定部26が出力する音源種類情報を、外部装置、例えば画像表示装置に出力する。
以上で、音響処理装置20は、音声処理を終了する。
次に、本実施形態に係る音響処理装置20を用いて行った評価実験について説明する。評価実験において、都市部の公園で収録した8チャネルの音響信号を用いた。収録した音には、音源として鳥の鳴き声が含まれる。なお、評価に用いた鳥の鳴き声は、歌である。音響処理装置20を動作させることで、音源別音声信号の区間毎に音源の種類を定めた。
図8は、評価に用いたデータの例を示す図である。図8において、縦軸は音源の方向(−180°〜+180°)を示し、横軸は時刻である。
図8では、線種により音源クラスを表している。太い実線、太い破線、細い実線、細い破線、一点破線は、それぞれキビタキの鳴き声、ヒヨドリ(A)の鳴き声、メジロの鳴き声、ヒロドリ(B)の鳴き声、その他の音源を示す。なお、ヒヨドリ(A)とヒヨドリ(B)は、異なる個体であり、歌い方の特徴が異なっていたため別の音源クラスとした。
次に、本実施形態と比較例の音源クラスの推定結果の正答率の例を説明する。
比較のため、従来法として音源分離により得られた音源別音声信号について、MUSIC法による音源定位とは独立に、GHDSSによる音源分離により得られた音源別音響信号について音データを用いて区間毎に音源の種類を定めた。また、パラメータκ、κを、それぞれ0.2とした。また、音響特徴量算出部261は、音響特徴量として、16kHzサンプリングのデジタル信号の分離音から窓幅80の40ステップ幅(2.5ms毎)で周波数スペクトルの1フレームを算出した。そして、音響特徴量算出部261は、10フレームのステップ幅で100フレームのブロックを抽出し、このブロックを4100次元のベクトルとみなして主成分分析によって32次元に圧縮して、評価用のデータセットとして用いた。また、音源同定部26は、この1ブロック毎に音源クラスを推定し、最終的にイベント内の全てのブロックの多数決によってそのイベントの音源クラスを決定した。
図9は、アノテーションの割合に対する正答率を示す図である。図9において、横軸はアノテーションの割合(0.9〜0.1)、縦軸は正答率を示す。また、折れ線g101は、本実施形態の評価結果である。折れ線g102は、比較例の評価結果である。
図9に示すように、すべてのアノテーション割合において,本実施形態による手法の方が比較例より正答率が高い。
以上のように、本実施形態では、音源の定位情報(方向情報)を用いて音響モデルを生成し、この音響モデルを用いて音源クラスを推定するようにした。また、本実施形態では、音響モデルに確率的なモデル表現であるベイジアンネットワークを用いた。この結果、本実施形態によれば、音源定位の結果を用いた確率的なモデル表現によって音源同士の依存関係を含む音響モデルを使って音源同定を行うことで、音源同士の近さ情報を有効に利用することができ、音源分同定の精度を向上さえることができる。
また、本実施形態では、音響モデルにベイジアンネットワークを用いたので、音源同士の依存関係を明確にすることができるため、音源同定の精度を向上させることができる。
また、本実施形態では、フォン・ミーゼス分布を用いて音響モデルを生成するようにした。これにより、本実施形態によれば、音源の方向を適切にモデル化することができる。この結果、本実施形態によれば、この音響モデルを用いて音源クラスを推定するので、精度よく音源クラスを推定することができる。
また、本実施形態では、音響モデルに、音源分離部が分離した分離結果を用いているので、より音源同定の精度を向上させることができる。
また、本実施形態では、生成した音響モデルを用いてEMアルゴリズムによって音響モデルのパラメータを学習するようにした。この結果、本実施形態によれば、EMアルゴリズムを用いているので、半教師あり学習を行うことができ、アノテーションを行う作業量を削減することができる。また、本実施形態によれば、音響モデルを用いて学習することで、分離音間の相互依存性を考慮することができる。
なお、本実施例では、2つの音源の情報を用いて、音響モデルを生成する例を説明したが、これに限られない。
例えば、音源が3つで観測変数が音源クラスc〜cの場合、これらの音源クラスそれぞれが有するサブクラス、音響特徴量を用いてベイジアンネットワークによって表現する。
この場合、上述した式(8)において、異なる音源クラスの場合(c≠c)、確率p(d,d|c≠c)の式(12)は、次式(18)のように表すことができる。
すなわち、式(18)に示したように、音源が3つで音源のクラスが異なっている場合、音源の方位が(2π/3)ずつ離れている関係が遠い関係になる。
さらに、音源の数が4つの場合は、音源の方位が(2π/4)ずつ離れている関係が遠い関係になる。以下、音源の数がK個の場合、音源の方位が(2π/K)ずつ離れている関係が遠い関係になる。
<第2実施形態>
第1実施形態では、取得部21が取得する音響信号が、鳥の鳴き声、特に歌の例を説明したが、音響処理装置20が推定する音源クラスは、これに限られない。音源クラスを推定する音響信号は、人間の発話であってもよい。この場合は、1つの発話が音源クラスであり、音節がサブクラスである。
人間の発話に対して音源クラスを推定する場合の音響処理装置20の構成は、第1実施形態の音響処理装置20と同じである。
例えば、第1の話者の近くで、第2の話者が同時に発話している場合もある。このような場合は、2人の話者の発話を分離しても、分離音に他の話者の発話が混合する場合があり得る。このような場合であっても、音源定位した結果も用いて音響処理装置20を用いて音響モデルを生成することで、従来より音源クラスの正答率を向上させることができる。
なお、本実施形態においても、近くにいる話者の数は2人に限られず、3人以上であっても同様の効果を得ることができる。
<第3実施形態>
音響処理装置20が取得する音響信号は、人間の発話が含まれる音響信号であってもよい。例えば、取得する音響信号に人間の発話と犬の鳴き声が含まれている場合、音響処理装置20は、第1の音源クラスを人間、第2の音源クラスを犬としてもよい。この場合の音響処理装置20の構成は、第1実施形態の音響処理装置20と同じである。
このように、音響処理装置20が取得する音響信号は、野鳥の鳴き声、人間の発話、動物の鳴き声等の少なくとも1つ、あるいは混合した物であってもよい。
なお、上述した第1実施形態〜第3実施形態において、音響モデル記憶部25が音響モデルを予め記憶していれば、音響処理装置20は、音響モデル生成部24を備えていなくてもよい。また、音響モデル生成部24が行う音響モデルの生成処理は、音響処理装置20の外部の装置、例えば、コンピュータで行われてもよい。また、音響モデル記憶部25は、例えばクラウド上にあってもよく、またはネットワークを介して接続されていてもよい。
また、音響処理装置20は、さらに収音部11を含んで構成されてもよい。音響処理装置20は、音源同定部26が生成した音源種類情報を記憶する記憶部を備えてもよい。その場合には、出力部27を備えていなくてもよい。
なお、上述した第1実施形態〜第3実施形態では、音響モデルに確率的なモデル表現の一種としてベイジアンネットワーク表現の例を説明したが、これに限られない。音響モデルは、音源定位した情報を用いて音源同士の依存関係を表し、確率的な表現を用いるグラフィカルモデル(Graphical model)を用いるようにしてもよい。グラフィカルモデルとしては、ベイジアンネットワークの他に、例えばマルコフ確率場、因子グラフ、連鎖グラフ、条件付き確率場、制限ボルツマンマシン、クリークツリー、Ancestralグラフ等を用いるようにしてもよい。
なお、上述した第1実施形態〜第3実施形態で説明した音響処理装置20を、例えばロボット、車両、タブレット端末、スマートフォン、携帯ゲーム機器、家電機器等が備えていてもよい。
なお、本発明における音響処理装置20の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…音響信号処理システム、11…収音部、12…録音再生装置、13…再生装置、20…音響処理装置、21…取得部、22…音源定位部、23…音源分離部、24…音響モデル生成部、25…音響モデル記憶部、26…音源同定部、27…出力部、261…音響特徴量算出部、262…音源推定部

Claims (5)

  1. マイクロフォンアレイで収音された音響信号を取得する取得部と、
    前記取得部が取得した音響信号に基づいて音源方向を定める音源定位部と、
    音源同士の依存関係を示す音響モデルに基づいて音源の種類を同定する音源同定部とを備え、
    前記音響モデルは、前記音源方向を要素として含んだ確率的なモデル表現で表される音響処理装置。
  2. 前記音響モデルは、確率的なモデル表現において、前記音源の特徴量に基づくクラス毎にモデル化したものである、請求項1に記載の音響処理装置。
  3. 前記音源同定部は、前記音源の特徴量に基づくクラスが同じ複数の前記音源の場合に前記音源同士が近接する方向にあると判別し、前記クラスが異なる複数の前記音源の場合に前記音源同士が離れた方向にあると判別する、請求項1または請求項2に記載の音響処理装置。
  4. 前記音源定位部が定めた音源方向の結果に基づいて音源分離する音源分離部、を備え、
    前記音響モデルは、前記音源分離部での分離結果に基づく、請求項1から請求項3のいずれか1項に記載の音響処理装置。
  5. 取得部が、マイクロフォンアレイで収音された音響信号を取得する取得手順と、
    音源定位部が、前記取得手順が取得した音響信号に基づいて音源方向を定める音源定位手順と、
    音源同士の依存関係を示す音響モデルに基づいて音源の種類を同定する音源同定手順と、
    を含み、
    前記音響モデルは、前記音源方向を要素として含んだ確率的なモデル表現で表される、音響処理方法。
JP2016172985A 2016-09-05 2016-09-05 音響処理装置および音響処理方法 Active JP6723120B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016172985A JP6723120B2 (ja) 2016-09-05 2016-09-05 音響処理装置および音響処理方法
US15/619,865 US10390130B2 (en) 2016-09-05 2017-06-12 Sound processing apparatus and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016172985A JP6723120B2 (ja) 2016-09-05 2016-09-05 音響処理装置および音響処理方法

Publications (2)

Publication Number Publication Date
JP2018040848A JP2018040848A (ja) 2018-03-15
JP6723120B2 true JP6723120B2 (ja) 2020-07-15

Family

ID=61281452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016172985A Active JP6723120B2 (ja) 2016-09-05 2016-09-05 音響処理装置および音響処理方法

Country Status (2)

Country Link
US (1) US10390130B2 (ja)
JP (1) JP6723120B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3829161B1 (en) * 2018-07-24 2023-08-30 Sony Group Corporation Information processing device and method, and program
US10976748B2 (en) * 2018-08-22 2021-04-13 Waymo Llc Detecting and responding to sounds for autonomous vehicles
JP7177631B2 (ja) 2018-08-24 2022-11-24 本田技研工業株式会社 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
JP7001566B2 (ja) * 2018-09-04 2022-02-04 本田技研工業株式会社 音響処理装置、音響処理方法、およびプログラム
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
JP6759479B1 (ja) * 2020-03-24 2020-09-23 株式会社 日立産業制御ソリューションズ 音響分析支援システム、及び音響分析支援方法
WO2021228059A1 (zh) * 2020-05-14 2021-11-18 华为技术有限公司 一种固定声源识别方法及装置
JP7551457B2 (ja) * 2020-11-09 2024-09-17 株式会社東芝 計測方法及び計測装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1818909B1 (en) 2004-12-03 2011-11-02 Honda Motor Co., Ltd. Voice recognition system
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
JP5724125B2 (ja) * 2011-03-30 2015-05-27 株式会社国際電気通信基礎技術研究所 音源定位装置
EP2738962A1 (en) * 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2765791A1 (en) * 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US10194650B2 (en) * 2014-04-25 2019-02-05 Steven Foster Byerly Turkey sensor

Also Published As

Publication number Publication date
US10390130B2 (en) 2019-08-20
JP2018040848A (ja) 2018-03-15
US20180070170A1 (en) 2018-03-08

Similar Documents

Publication Publication Date Title
JP6723120B2 (ja) 音響処理装置および音響処理方法
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
JP6501260B2 (ja) 音響処理装置及び音響処理方法
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
Chaki Pattern analysis based acoustic signal processing: a survey of the state-of-art
Boulmaiz et al. Robust acoustic bird recognition for habitat monitoring with wireless sensor networks
US10548534B2 (en) System and method for anhedonia measurement using acoustic and contextual cues
KR20190032868A (ko) 음성인식 방법 및 그 장치
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
Eklund Data augmentation techniques for robust audio analysis
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
Hakim et al. Automated birdsong clustering and interactive visualization tool.
Jamil et al. SiulMalaya: an annotated bird audio dataset of Malaysia lowland forest birds for passive acoustic monitoring
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200623

R150 Certificate of patent or registration of utility model

Ref document number: 6723120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150