[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4493690B2 - 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 - Google Patents

目的音抽出装置,目的音抽出プログラム,目的音抽出方法 Download PDF

Info

Publication number
JP4493690B2
JP4493690B2 JP2007310452A JP2007310452A JP4493690B2 JP 4493690 B2 JP4493690 B2 JP 4493690B2 JP 2007310452 A JP2007310452 A JP 2007310452A JP 2007310452 A JP2007310452 A JP 2007310452A JP 4493690 B2 JP4493690 B2 JP 4493690B2
Authority
JP
Japan
Prior art keywords
signal
sound
target sound
separation
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007310452A
Other languages
English (en)
Other versions
JP2009134102A (ja
Inventor
孝之 稗方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2007310452A priority Critical patent/JP4493690B2/ja
Priority to US12/292,272 priority patent/US20090141912A1/en
Publication of JP2009134102A publication Critical patent/JP2009134102A/ja
Application granted granted Critical
Publication of JP4493690B2 publication Critical patent/JP4493690B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/007Protection circuits for transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は,マイクロホンを通じて得られる音響信号に基づいて,所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置,そのプログラム及びその方法に関するものである。
電話会議システム,テレビ会議システム,券売機,カーナビゲーションシステム等,話者等の音源が発する音響を入力する機能を備えた装置においては,マイクロホンによってある特定の音源(以下,目的音源という)から発せられる音(以下,目的音という)が収音されるが,音源の存在する環境に応じて,そのマイクロホンを通じて得られる音響信号に,前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして,マイクロホンを通じて得られる音響信号において,雑音成分の割合が大きいと,目的音の明瞭性が損なわれ,通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来,例えば非特許文献1に示されるように,話者の発する音声(目的音の一例)を主として入力する主マイクロホン(音声マイクロホン)と,その話者の周囲の雑音を主として入力する(話者の音声がほとんど混入しない)副マイクロホン(雑音マイクロホン)とを用い,前記主マイクロホンを通じて得られる音響信号から,前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する2入力スペクトルサブストラクション処理が知られている。ここで,2入力スペクトルサブストラクション処理は,前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により,話者が発する音声(前記目的音)に相当する音響信号を抽出(即ち,雑音成分を除去する)する処理である。
また,特許文献1には,複数の前記副マイクロホン(雑音マイクロホン)を用い,そのそれぞれを通じて入力される音響信号について,状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した統合信号と,前記主マイクロホンを通じて入力される音響信号とに基づいて,前記2入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより,時間的,空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能になるとされている。
また,特許文献2には,カメラ一体型VTR装置において,撮影範囲における複数方向からの音声を収音した複数の音声信号の相関係数を求め,その相関係数に基づいて,撮影範囲中央の方向に存在する人物からの音声信号を強調する技術が示されている。
また,特許文献3〜5には,目的音を主として入力するマイクロホン(前記主マイクロホンに相当)を通じて得られる音響信号(以下,主音響信号という)から,目的音以外の参照音(非目的音)を主として入力するマイクロホン(前記副マイクロホンに相当)を通じて得られる音響信号を適応フィルタにより処理した信号を除去することによって目的音の抽出信号を得るとともに,その抽出信号のパワーが最小化するように適応フィルタを調整する技術が示されている。
一方,所定の音響空間に複数の音源と複数のマイクロホン(音響入力手段)とが存在する場合,その複数のマイクロホンごとに,複数の音源各々からの個別の音響信号(以下,音源信号という)が重畳された音響信号(以下,混合音響信号という)が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音響信号において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音響信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献2や非特許文献3等に詳説されている。
また,音源分離処理としては,バイナリーマスキング処理(バイノーラル信号処理の一例)による音源分離処理も知られている。バイナリーマスキング処理は,複数の指向性マイクロホンを通じて入力される混合音声信号相互間で,複数に区分された周波数成分(周波数ビン)ごとのレベル(パワー)を比較することにより,混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献4や非特許文献5等に詳説されている。
また,音響信号に対し,その周波数スペクトルについてノイズ除去等のために各種の信号処理(信号の加工)を行うと,処理後の音響信号に耳障りなミュージカルノイズ(人工的なノイズ)が発生する。そのようなミュージカルノイズを含む音響は,その音響レベル(音量)が人間の可聴レベルに達していれば,たとえその音響レベルが小さくても聴者に非常に大きな不快感を与える。従って,補聴器や助聴器,携帯電話等,人間に聴かれる音響を出力するために音響信号に対する信号処理を行う機器においては,信号処理後の音響信号(出力信号)にミュージカルノイズを極力発生させないことが非常に重要である。
例えば,非特許文献6や特許文献6,特許文献7等には,音響信号におけるノイズ区間を推定し,そのノイズ区間の信号から推定したノイズ信号の周波数スペクトルを元の音響信号の周波数スペクトルから減算したり,そのノイズ区間ごとにゲインを変えて信号レベルを減衰させたりする処理により,ミュージカルノイズを抑制する技術について示されている。
特開平6−67691号公報 特開2001−8285号公報 特開平6−83372号公報 特開平6−90493号公報 特開平6−165286号公報 特開2005−195955号公報 特開2007−27897号公報 菅村他,「2入力による雑音除去手法を用いた自動車内の音声認識」,電子情報通信学会技術研究報告,SP−81,pp.41-48,1989 猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」,電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」,電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation" ,In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect", Acta Acoustica, vol.1, pp.43--55, 1993. Yukihiro NOMURA, et al. "Musical Noise Reduction by Spectral Using Morphologic al Filter" , In Proceedings of NCSP'05, pp.415-418, 2005
しかしながら,非特許文献1に示される技術や特許文献3〜5に示される技術では,目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合,その目的音に対応する音響信号の成分が雑音成分として誤って除去されること等により,高い雑音除去性能が得られないという問題点があった。
また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる統合信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,音響環境の変化によって加重平均の重みと,複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,複数の方向から異なる雑音が各マイクロホンに到来する状況下においては,選択に漏れた音響信号に基づく雑音成分が除去されず,やはり雑音除去性能が悪化するという問題点があった。
また,特許文献2に示される技術は,撮影範囲中央の人物からの音声信号が強調されるものの,それ以外の音声信号も残存し,目的音の信号が抽出されるわけではない。
また,前記主音響信号及び前記副音響信号に基づいて,前記ICA法に基づくBSS方式の音源分離処理や前記バイナリーマスキング処理を実行すれば,目的音に対応する分離信号を得ることができるが,音響環境によっては,その分離信号に目的音以外の雑音の信号成分が比較的高い割合で含まれてしまう場合が生じるという問題点があった。例えば,前記ICA法に基づくBSS方式の音源分離処理において,目的音及びそれ以外の雑音の音源がマイクロホンの数以上に存在したり,雑音が反射・反響するような環境では,音源分離性能が悪化する。
また,音源分離処理により得られた目的音に対応する分離信号(音響信号)に対し,目的音以外の雑音の信号成分を除去する信号処理を施した場合,信号処理後の音響信号にミュージカルノイズが発生し,それが聴者に大きな不快感を生じさせるという問題点があった。
また,非特許文献6や特許文献6,特許文献7等に示されるミュージカルノイズ抑制技術においては,音響信号におけるノイズ区間を正確に推定する必要があるが,処理対象となる音響信号における背景雑音のレベルが大きい或いは種類が多い場合,ノイズ区間の正確な推定が困難となって十分なノイズ除去性能が得られないという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数のマイクロホンを通じて得られる音響信号に目的音及びそれ以外の雑音(非目的音)が混入し,またその混入状態が変化し得る場合に,目的音に相当する音響信号を極力忠実に抽出(再現)でき(非目的音の除去性能が高い),さらに,その抽出信号において,聴者に不快感を与えるミュージカルノイズを抑制できる目的音抽出装置,目的音抽出プログラム及び目的音抽出方法を提供することにある。
上記目的を達成するために本発明に係る目的音抽出装置は,所定の目的音源(特定の音源)から出力される音(以下,目的音という)を主に入力する主マイクロホンを通じて得られる主音響信号と,それ以外の1又は複数の副マイクロホン(前記主マイクロホンとは異なる位置に配置されたもの,又は前記主マイクロホンとは異なる方向に指向性を有するもの)を通じて得られる1又は複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力するものであり,次の(1−1)〜(1−3)に示す各構成要素を備えるものである。
(1−1)前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて,その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号を分離生成する音源分離処理を実行する音源分離手段。
(1−2)複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出手段。
(1−3)前記信号レベル検出手段による検出信号レベルが予め定められた範囲のレベルである場合に,複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し,複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理手段。
なお,前記圧縮比は,圧縮後の信号値に対する圧縮補正前の信号値の比のことである。
そして,例えば,本発明に係る目的音抽出装置が,さらに次の(1−4)に示す構成要素を備えることも考えられる。
(1−4)前記信号レベル検出手段による検出信号レベルが予め定められた下限レベルに満たない場合に前記目的音対応信号を前記目的音に相当する音響信号として出力する目的音対応信号出力手段。
なお,この場合,前記スペクトル減算処理手段が,前記信号レベル検出手段による検出信号レベルが前記下限レベル以上である場合に,周波数スペクトルの減算処理によって得られる信号を前記目的音に相当する音響信号として出力する。
また,前記音源分離手段が実行する音源分離処理の具体例としては,周波数領域の音響信号に対して行われる独立成分分析法(後述するFDICA法)に基づくブラインド音源分離方式による音源分離処理が考えられる。
本発明において,前記目的音対応信号は,目的音の信号成分を主として含む信号ではあるが,複数のマイクロホン(前記主マイクロホン及び前記副マイクロホン)に対する目的音源の位置や雑音の発生状況によっては,前記目的音対応信号に,目的音以外の雑音の信号成分が比較的多く残存する場合もある。
一方,前記音源分離手段の処理に基づき得られる前記参照音対応信号は,位置や指向性の方向がそれぞれ異なる前記副マイクロホンそれぞれの収音範囲におけるノイズ音源の音(目的音以外の音(参照音))の信号成分を主として含む信号である。
そして,前記目的音対応信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,前記スペクトル減算処理手段による周波数スペクトルの減算処理により,前記目的音対応信号から,前記目的音以外の雑音(参照音)の信号成分が概ね除去される。しかも,前記スペクトル減算処理手段による抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホンに到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
また,前記スペクトル減算処理手段の処理において,前記目的音対応信号の周波数スペクトルから減算する周波数スペクトルは,前記参照音対応信号の周波数スペクトルに対し,その参照音対応信号のレベル(音量)が小さいほど大きな圧縮比で圧縮補正を施したものである。そのため,本発明においては,前記参照音対応信号のレベルが大きい(即ち,ノイズ音の音量が大きい)ときには,聴者の耳障りとなるその信号成分が前記目的音対応信号から積極的に除去され,目的音に相当する音響信号が極力忠実に抽出される。その際,抽出信号(目的音に相当する音響信号)は,多少のミュージカルノイズを含み得るものの,ノイズ音の信号成分が残存する状況よりは遙かに聴者にとって聴きやすい音響信号となる。さらに,本発明においては,前記参照音対応信号のレベルが小さい(即ち,ノイズ音の音量が小さい)ときには,その信号成分を前記目的音対応信号から除去する処理は積極的に行われず,そのことによって聴者の耳障りとなるミュージカルノイズが抑制される。その際,目的音に相当する音響信号は,ノイズ音の信号成分を含むものの,その信号レベル(音量)が小さいために聴者はノイズ音がほとんど気にならない状況となる。即ち,本発明においては,ノイズ音の音量が大きいときにはそのノイズ音の信号成分の除去が優先され,ノイズ音の音量が小さいときにはそのノイズ音の信号成分の除去よりもミュージカルノイズの抑制が優先される。
従って,本発明によれば,特定のノイズ音(非目的音)や存在方向が異なる複数のノイズ音が比較的高いレベルで前記主マイクロホンに到来する状況において,目的音に相当する音響信号を極力忠実に抽出(再現)できるとともに,聴者に不快感を与えるミュージカルノイズを抑制できる。
た,本発明において,前記信号レベル検出手段による信号レベルの検出及び前記スペクトル減算処理手段による前記圧縮補正が,予め定められた複数の周波数帯域の区分ごとに行われることも考えられる。
これにより,複数の周波数帯域の区分ごとに異なる圧縮比で前記圧縮補正を行うことができ,よりきめ細かな信号処理によって目的音の抽出性能及びミュージカル雑音の抑制性能を高めることができる。
また,本発明は,以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち,本発明に係る目的音抽出プログラムは,所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する1又は複数の副マイクロホンを通じて得られる1又は複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり,さらに,次の(2−1)〜(2−3)に示す処理をコンピュータに実行させるプログラムである。
(2−1)前記主音響信号と前記副音響信号とに基づいて前記目的音以外の参照音に対応する1又は複数の参照音分離信号を分離生成する音源分離処理。
(2−2)複数の前記参照音分離信号もしくは複数の前記参照音分離信号を統合した信号である参照音対応信号の信号レベルを検出する信号レベル検出処理。
(2−3)前記信号レベル検出処理による検出信号レベルが予め定められた範囲のレベルである場合に,前記参照音対応信号の周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し,前記主音響信号もしくはその主音響信号に所定の信号処理を施して得られる信号である目的音対応信号の周波数スペクトルから前記圧縮補正により得られる周波数スペクトルを減算することにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出してその音響信号を出力するスペクトル減算処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても,前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また,本発明は,以上に示した本発明に係る目的音抽出プログラムにおける各処理をコンピュータによって実行する目的音抽出方法として捉えることもできる。
本発明によれば,複数の方向から異なる雑音が各マイクロホンに到来する音響環境下や,目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入するような音響環境下,さらににはそのような音響環境が変化するような場合でも高い雑音除去性能を確保できる。
さらに,本発明によれば,ノイズ音の音量が大きいときにはそのノイズ音の信号成分の除去が優先され,ノイズ音の音量が小さいときにはそのノイズ音の信号成分の除去よりもミュージカルノイズの抑制が優先されるため,聴者に不快感を与えるミュージカルノイズを抑制できる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の第1実施形態に係る目的音抽出装置X1の概略構成を表すブロック図,図2は本発明の第2実施形態に係る目的音抽出装置X2の概略構成を表すブロック図,図3は本発明の第3実施形態に係る目的音抽出装置X3の概略構成を表すブロック図,図4は目的音抽出装置X1〜X3における参照音対応信号のレベルとスペクトル減算処理の圧縮係数との関係の一例を表す図,図5は目的音抽出装置X1〜X3における参照音対応信号のレベルとスペクトル減算処理の減算量との関係の一例を表す図,図6は目的音抽出装置X1〜X3における参照音対応信号のレベルと参照音対応信号スペクトルの圧縮比との関係の一例を表す図,図7はFDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Zの概略構成を表すブロック図である。
[第1実施形態]
まず,図1に示すブロック図を参照しつつ,本発明の第1実施形態に係る目的音抽出装置X1について説明する。
図1に示すように,目的音抽出装置X1は,複数のマイクロホンを含む音響入力装置V1,複数(図1では3つ)の音源分離処理部10(10−1〜10−3),目的音分離信号統合処理部20,スペクトル減算処理部31及びレベル検出・係数設定部32を備えている。ここで,前記音響入力装置V1は,1つの主マイクロホン101及び複数(図1では3つ)の副マイクロホン102(102−1〜102−3)を含む。また,前記主マイクロホン101及び複数の前記副マイクロホン102は,それぞれ複数の異なる位置に配置されたもの,又はそれぞれ異なる複数の方向に指向性を有するものである。
前記主マイクロホン101は,所定の目的音源(例えば,所定範囲内で移動し得る話者等)が発する音響(以下,目的音という)を主に入力する音響入力手段である。
また,複数の前記副マイクロホン102−1〜102−3は,前記主マイクロホン101とは異なる複数の位置それぞれに配置されたもの,或いはそれぞれ異なる複数の方向に指向性を有するものであり,主として目的音以外の参照音(雑音)を入力する音響入力手段である。なお,副マイクロホン102との記載は,複数の副マイクロホン102−1〜102−3を総称した記載である。
なお,図1に示す主マイクロホン101及び副マイクロホン102は,それぞれ指向性を有するマイクロホンであり,副マイクロホン102は,それぞれ前記主マイクロホン102とは異なる複数の方向それぞれに指向性を有するよう配置されている。
前記主マイクロホン101及び前記副マイクロホン102それぞれが指向性を有するマイクロホンである場合,前記主マイクロホン101の指向中心方向(正面方向)を中心(0°)として一方の側の+180°未満の方向(例えば,+90°の方向),及び他方の側の−180°未満の方向(例えば,−90°の方向)のそれぞれに,前記副マイクロホン102の指向中心方向(正面方向)が設定されることが望ましい。
また,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定される他,三次元的に異なる方向に設定されることも考えられる。
そして,目的音抽出装置X1は,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(以下,目的音抽出信号という)を出力するものである。
目的音抽出装置X1において,前記音源分離処理部10,前記目的音分離信号統合処理部20,前記スペクトル減算処理部31及び前記レベル検出・係数設定部32は,例えばコンピュータの一例であるDSP(Digital Signal Processor)及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10,前記目的音分離信号統合処理部20,前記スペクトル減算処理部31及び前記レベル検出・係数設定部32が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,その組合せである主音響信号及び副音響信号とに基づいて,前記目的音に対応する分離信号(目的音の同定信号)である目的音分離信号と,前記目的音以外の音である参照音(雑音といってもよい)に対応する参照音分離信号(参照音の同定信号)とを分離生成する音源分離処理を実行するものである(前記音源分離手段の一例)。以下,本発明の第1実施形態において,前記参照音分離信号のことを参照音対応信号と称する場合もあるが,本発明の第1実施形態においては,前記参照音分離信号と前記参照音対応信号とは同じ信号を表す。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,不図示のA/Dコンバータが設けられており,そのA/Dコンバータによってデジタル信号に変換された音響信号が,前記音源分離処理部10に伝送される。例えば,目的音が人の声である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
ここで,前記音源分離処理部10(10−1〜10−3)は,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理等の音源分離処理を実行するものである。
以下,図7に示すブロック図を参照しつつ,前記音源分離処理部10として採用可能な装置の一例である音源分離装置Zについて説明する。
以下に示す音源分離装置Zは,所定の音響空間に複数の音源と複数のマイクロホン101,102が存在する状態で,そのマイクロホン101,102各々を通じて,音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,周波数領域の前記混合音声信号に対してICA法に基づくBSS方式の音源分離処理,即ち,FDICA方式(Frequency-Domain ICA)に基づく音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理を行うものである。
FDICA方式では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離演算処理部11fにより分離行列W(f)に基づく分離演算処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(1)式のように表すことができる。
Figure 0004493690
ここで,分離フィルタW(f)の更新式は,例えば次の(2)式のように表すことができる。
Figure 0004493690
このFDICA方式によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
図14において,主マイクロホン101に対応する分離信号y1(f)が前記目的音分離信号である。また,副マイクロホン102に対応する分離信号y2(f)が前記参照音分離信号である。この参照音分離信号(分離信号y2(f))は,周波数領域の音響信号である。
なお,図14においては,入力される混合音声信号x1,x2のチャンネル数(即ち,マイクロホンの数)が2つである例について示しているが,(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
また,前記レベル検出・係数設定部32は,複数の前記参照音分離信号(参照音対応信号)それぞれの信号レベル(信号値の大きさ,音量)を検出する処理と,その検出レベルに応じて前記スペクトル減算処理部31の処理に用いられる圧縮係数を設定する処理とを実行するものである(前記信号レベル検出手段の一例)。
例えば,前記レベル検出・係数設定部32は,複数の前記参照音分離信号それぞれの周波数スペクトルの信号値(周波数領域における前記参照音分離信号における周波数ビンごとの信号値)の平均値や合計値,或いはそれらを所定の基準値に基づき正規化した値を信号レベルとして検出する。また,前記レベル検出・係数設定部32が,複数の前記参照音分離信号それぞれの周波数スペクトルについて,予め定められた複数の周波数帯域の区分ごとに,その区分に属する周波数ビンの信号値の平均値や合計値,或いはそれらを所定の基準値に基づき正規化した値を信号レベルとして検出することも考えられる。なお,前記周波数帯域の区分としては,例えば,前記参照音分離信号の周波数スペクトルにおける周波数ビンごとの区分,或いは複数の周波数ビンの組合せにより定まる周波数帯域の区分等が考えられる。
また,前記レベル検出・係数設定部32は,複数の前記参照音分離信号それぞれについて,検出したレベルLが(検出信号レベル)が予め定められた範囲のレベルである場合に,その検出信号レベルLが小さいほど値が小さくなる前記圧縮係数αを設定する。なお,前記圧縮係数α(0≦α≦1)は,後述するスペクトル減算処理に用いられる係数であるが,その詳細については後述する。また,図1における前記圧縮係数αの添字iは,複数の前記参照音分離信号それぞれに対応する識別番号を表す。
図4は,前記参照音対応信号(第1実施形態においては前記参照音分離信号)についての前記検出レベルL(縦軸)と前記圧縮係数α(横軸)との関係の一例を表す図である。
図4におけるグラフ線g1は,前記検出信号レベルLが0以上Ls2以下の範囲のレベルである場合に,前記検出レベルLに対して正の比例関係となる前記圧縮係数αが設定される状況を表す例である。
また,図4におけるグラフ線g2は,前記検出信号レベルLが所定の下限レベルLs1(>0)以上かつ上限レベルLs2以下の範囲のレベルである場合に,前記検出レベルLに対して正の比例関係となる前記圧縮係数αが設定される状況を表す例である。このグラフ線g2の前記圧縮係数αが設定される場合,前記検出信号レベルLが下限レベルLs1に満たないときには,前記圧縮係数αは0(ゼロ)に設定される。
前記レベル検出・係数設定部32は,前記検出信号レベルLに応じて,図4におけるグラフ線g1又はg2で示されるような前記圧縮係数αを設定する。
なお,前記レベル検出・係数設定部32により設定される前記圧縮係数αとの比較のため,図4には,前記検出信号レベルLにかかわらず前記圧縮係数αが一定である状況を表すグラフ線g0(波線)を示している。
また,目的音抽出装置X1において,前記目的音分離信号統合処理部20は,前記音源分離処理部10それぞれにより分離生成された複数の前記目的音分離信号を統合する処理を実行し,それにより得られる統合信号を出力するものである。以下,この第1実施形態においては,複数の前記目的音分離信号を統合した統合信号のことを,目的音対応信号と称する。
例えば,前記目的音分離信号統合処理部20は,複数の前記目的音分離信号について,複数に区分された周波数成分(周波数ビン)ごとに平均処理や加重平均処理を実行すること等により,それら目的音分離信号を合成する。
また,目的音抽出装置X1において,前記スペクトル減算処理部31は,前記目的音分離信号統合処理部20により得られた前記目的音対応信号(統合信号)と,前記音源分離処理部10それぞれにより分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。
以下,前記スペクトル減算処理部31による処理の具体例について説明する。
周波数領域の音響信号である観測信号のスペクトル値,即ち,前記目的音対応信号(この第1実施形態では前記目的音分離信号を統合した信号)のスペクトル値(周波数スペクトルにおける周波数ビンごとの信号値)をY(f,m)とし,目的音信号のスペクトル値がS(f,m),雑音信号(目的音以外の音の信号)のスペクトル値がN(f,m)であるとすると,観測信号のスペクトル値Y(f,m)は,次の(3)式により表される。
Figure 0004493690
そして,目的音抽出装置X1においては,目的音信号と雑音信号との間に相関がないものと仮定し,さらに,雑音信号のスペクトル値N(f,m)を前記参照音対応信号のスペクトル値で近似できるとして,目的音信号のスペクトル推定値(即ち,前記目的音抽出信号のスペクトル値)を,次の(4)式に基づき算出(抽出)する。
Figure 0004493690
この(4)式における圧縮係数αは,前記レベル検出・係数設定部32によって前記検出信号レベルLに応じて設定される係数である。また,この(4)式における圧縮係数αと前記参照音対応信号のスペクトル値との乗算を行う項は,前記参照音対応信号のスペクトル値を,前記圧縮係数αに基づいて圧縮補正する演算を行う項であるといえる。
なお,(4)式における抑圧係数βは,通常,0(ゼロ)又は0に近いごく小さな値に設定される。
図5は,前記参照音に対応する信号である前記参照音分離信号(図中,参照音対応信号と表記)についての前記検出レベルL(縦軸)と(4)式に基づくスペクトル減算処理の減算量との関係の一例を表す図である。なお,その減算量は,前記参照音対応信号のスペクトル値が前記検出信号レベルLと比例すると仮定したときの前記圧縮補正後のスペクトル値である。
また,図5におけるグラフ線g1’は,図4におけるグラフ線g1で示される前記圧縮係数αが設定されたときの前記減算量を表す例である。
また,図5におけるグラフ線g2’は,図4におけるグラフ線g2で示される前記圧縮係数αが設定されたときの前記減算量を表す例である。
なお,図5におけるグラフ線g0’は,前記圧縮係数αが一定(図4におけるグラフ線g0)であるときの前記減算量を表す例である。
また,図6は,前記参照音に対応する信号である前記参照音分離信号(図中,参照音対応信号と表記)についての前記検出レベルL(縦軸)とスペクトル減算処理の際に行われる参照音対応信号(前記参照音分離信号)のスペクトルの圧縮補正における圧縮比Rとの関係の一例を表す図である。なお,前記圧縮比は,圧縮後の信号値(図4における圧縮量)に対する圧縮補正前の信号値の比(即ち,R=1/α)のことである。
図6に示すように,目的音抽出装置X1においては,前記検出信号レベルが所定範囲(例えば,0〜Ls2又はLs1〜Ls2)である場合に,前記検出信号レベルLが小さいほど値が小さくなる前記圧縮係数αが設定される(図4参照)ので,前記スペクトル減算処理部31は,上記所定範囲において,前記参照音対応信号の周波数スペクトルを,前記検出信号レベルLが小さいほど大きな圧縮比Rで圧縮補正することになる。なお,前記所定範囲は,前記検出信号レベルがとり得る全ての範囲であることも考えられる。
以上に示したような前記圧縮係数αに基づく前記スペクトル減算処理部31の処理を総括すると,以下のような処理であるといえる。
即ち,前記スペクトル減算処理部31(前記スペクトル減算処理手段の一例)の処理は,前記検出信号レベルLが予め定められた範囲のレベル(例えば,0〜Ls2又はLs1〜Ls2)である場合に,複数の前記参照音対応信号それぞれの周波数スペクトルを,前記目的音検出信号レベルLが小さいほど大きな圧縮比Rで圧縮補正し,前記主音響信号に音源分離処理と統合処理とを施して得られる前記目的音対応信号の周波数スペクトルから,前記圧縮補正により得られる複数の周波数スペクトルを減算することにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出してその音響信号(前記目的音抽出信号)を出力する処理であるといえる。
また,図4におけるグラフ線g2で示される前記圧縮係数αが設定された場合,前記スペクトル減算処理部31は,前記検出信号レベルLが前記下限レベルLs1以上である場合に,周波数スペクトルの減算処理によって得られる信号を前記目的音抽出信号として出力するが,前記検出信号レベルが前記下限レベルLs1に満たない場合には,前記圧縮係数αが0に設定されるため,前記目的音対応信号をそのまま前記目的音抽出信号(目的音に相当する音響信号)として出力する(前記目的音対応信号出力手段の一例)。
以上に示したスペクトル減算処理部31の処理により,前記参照音対応信号のレベルLが大きい(即ち,ノイズ音の音量が大きい)ときには,聴者の耳障りとなるその信号成分が前記目的音対応信号から積極的に除去され,目的音に相当する音響信号が極力忠実に抽出される。その際,抽出信号(前記目的音抽出信号)は,多少のミュージカルノイズを含み得るものの,ノイズ音の信号成分が残存する状況よりは遙かに聴者にとって聴きやすい音響信号となる。
ここで,前記圧縮係数αを一定値(図4に示すグラフ線g0)とした前記スペクトル減算処理では,その出力信号(目的音の抽出信号)にミュージカル雑音が生じやすい。これに対し,前記スペクトル減算処理部31の処理では,前記参照音対応信号のレベルLが小さい(即ち,ノイズ音の音量が小さい)ときには,前記圧縮係数αが小さく設定され,前記参照音対応信号の信号成分を前記目的音対応信号から除去する処理は積極的に行われず,そのことによって聴者の耳障りとなるミュージカルノイズが抑制される。その際,前記目的音抽出信号は,ノイズ音の信号成分を含むものの,その信号レベル(音量)が小さいために聴者はノイズ音がほとんど気にならない状況となる。即ち,本発明においては,ノイズ音の音量が大きいときにはそのノイズ音の信号成分の除去が優先され,ノイズ音の音量が小さいときにはそのノイズ音の信号成分の除去よりもミュージカルノイズの抑制が優先される。
従って,目的音抽出装置X1によれば,特定のノイズ音(非目的音)や存在方向が異なる複数のノイズ音が比較的高いレベルで前記主マイクロホンに到来する状況において,目的音に相当する音響信号を極力忠実に抽出(再現)できるとともに,聴者に不快感を与えるミュージカルノイズを抑制できる。
[第2発明]
次に,図2に示すブロック図を参照しつつ,本発明の第2実施形態に係る目的音抽出装置X2について説明する。なお,図2において,目的音抽出装置X2が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図2に示すように,目的音抽出装置X2は,前記目的音抽出装置X1と同様に,複数のマイクロホンを含む前記音響入力装置V1,複数(図2では3つ)の前記音源分離処理部10(10−1〜10−3),前記目的音分離信号統合処理部20を備え,これらは,前記目的音抽出装置X1が備えるものと同じものである。
さらに,目的音抽出装置X2は,スペクトル減算処理部31’,レベル検出・係数設定部32’及び参照音分離信号統合処理部33を備えている。
目的音抽出装置X2において,前記音源分離処理部10,前記目的音分離信号統合処理部20,前記スペクトル減算処理部31’及び前記レベル検出・係数設定部32’は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10,前記目的音分離信号統合処理部20,前記スペクトル減算処理部31’及び前記レベル検出・係数設定部32’が行う処理を前記DSPに実行させるためのプログラムが予め記憶されている。
そして,目的音抽出装置X2も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X2において,前記参照音分離信号統合処理部33は,前記音源分離処理部10それぞれにより分離生成された複数の前記参照音分離信号を統合する処理を実行し,それにより得られる統合信号を出力するものである。以下,この第2実施形態においては,複数の前記参照音分離信号を統合した統合信号のことを,参照音対応信号と称する。
例えば,前記参照音分離信号統合処理部33は,複数の前記参照音分離信号について,複数に区分された周波数成分(周波数ビン)ごとに平均処理や加重平均処理を実行すること等により,それら参照音分離信号を合成する。
また,目的音抽出装置X2における前記レベル検出・係数設定部32’は,前記参照音分離信号統合処理部33により得られた前記参照音対応信号(統合信号)の信号レベル(信号値の大きさ,音量)を検出する処理と,その検出レベルに応じて前記スペクトル減算処理部31’の処理に用いられる前記圧縮係数αを設定する処理とを実行するものである(前記信号レベル検出手段の一例)。その処理内容は,前記レベル検出・係数設定部32と同様である。
また,目的音抽出装置X2における前記スペクトル減算処理部31’は,前記目的音分離信号統合処理部20により得られた前記目的音対応信号(統合信号)と,前記参照音分離信号統合処理部33により得られた前記参照音対応信号(統合信号)との間でスペクトル減算処理を行うことにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。その処理内容は前記スペクトル減算処理部31と同様である。
以上に示した目的音抽出装置X2も,前記目的音抽出装置X1と同様の作用効果を相する。このような目的音抽出装置X2も,本発明の実施形態の一例である。
[第3発明]
次に,図3に示すブロック図を参照しつつ,本発明の第3実施形態に係る目的音抽出装置X3について説明する。なお,図3において,目的音抽出装置X3が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図3に示すように,目的音抽出装置X3は,複数のマイクロホンを含む前記音響入力装置V1,複数(図3では3つ)の前記音源分離処理部10(10−1〜10−3),スペクトル減算処理部31’及び前記レベル検出・係数設定部32を備えている。ここで,前記音響入力装置V1,前記音源分離装置10及び前記レベル検出・係数設定部32は,前記目的音抽出装置X1が備えるものと同じものである。但し,目的音抽出装置X3における前記音源分離装置10は,前記目的音分離信号を出力する必要がない。
そして,目的音抽出装置X3も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X3において,前記音響入力装置V1,前記音源分離処理部10,前記スペクトル減算処理部31’及び前記レベル検出・係数設定部32は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル減算処理部31’が行う処理を前記DSPに実行させるためのプログラムが予め記憶されている。
目的音抽出装置X3において,前記スペクトル減算処理部31’は,前記主マイクロホン101を通じて得られる前記主音響信号(前記目的音対応信号に相当)と,前記音源分離処理部10それぞれにより分離生成された複数の前記参照音分離信号(前記参照音対応信号に相当)との間でスペクトル減算処理を行うことにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。
即ち,目的音抽出装置X3における前記スペクトル減算処理部31’は,前記目的音抽出装置X1における前記スペクトル減算処理部31と同様の周波数スペクトルの減算処理を行うものであるが,前記スペクトル減算処理部31と異なる点は,前記主音響信号(前記目的音対応信号の一例)の周波数スペクトルから,前記参照音分離信号それぞれについての前記圧縮補正により得られる周波数スペクトルを減算する点である。
目的音抽出装置X3においては,スペクトル減算の対象となる前記目的音対応信号が,音源分離処理が施されていない,即ち,比較的大きなノイズ音の信号成分を含む前記主音響信号である。このため,目的音抽出装置X3における前記圧縮係数αは,通常,前記目的音抽出装置X3における前記圧縮係数αよりも大きな値(1に近い値)が設定される。
以上に示した目的音抽出装置X3も,前記目的音抽出装置X1と同様の作用効果を相する。このような目的音抽出装置X3も,本発明の実施形態の一例である。
図6においてグラフ線g1”,g2”により示した前記圧縮係数αは,前記検出信号レベルLが所定範囲(0〜Ls2又はLs1〜Ls2)であるときに,前記検出信号レベルLと正の比例関係(1次式で表される関係)となるものであるが,その他,前記検出信号レベルLと前記圧縮係数αとの関係は,2次式や3次式で表される関係等の非線形な関係であってもよい。
また,前記音源分離処理部10(例えば,FDICA方式に基づく音源分離処理)は,3つ以上の音響信号についての音源分離処理,例えば,1つの前記主音響信号と3つの前記副音響信号を入力し,1つの前記目的音分離信号と3つの前記参照音分離信号とを分離生成する処理も可能である。そこで,前記目的音抽出装置X1〜X3において,1つの前記音源分離処理部10により,1つの前記目的音分離信号と複数の前記参照音分離信号とを分離生成することも考えられる。
また,以上に示した実施形態では,前記目的音抽出装置X1〜X3が,複数の前記副マイクロホン102を備えているが,前記目的音抽出装置X1〜X3が,1つの前記主マイクロホン101と,それとは位置又は指向性の方向が異なる1つの副マイクロホン102と備えた実施例(以下,目的音抽出装置X1’,X2’,X3’と記載する)も考えられる。
例えば,第1実施例である前記目的音抽出装置X1’は,図1に示される前記目的音抽出装置X1の構成から,2つの前記副マイクロホン102−2,102−3と,2つの前記音源分離処理部10−2,10−3と,前記目的音分離信号統合処理部20とが除かれた構成を有する。この場合,前記音源分離処理部10−1により得られる前記目的音分離信号が,前記スペクトル減算処理部31による処理対象である前記目的音対応信号となる。
また,第2実施例である前記目的音抽出装置X2’は,図2に示される前記目的音抽出装置X2の構成から,2つの前記副マイクロホン102−2,102−3と,2つの前記音源分離処理部10−2,10−3と,前記目的音分離信号統合処理部20と,前記参照音分離信号統合処理部33とが除かれた構成を有する。この場合,前記音源分離処理部10−1により得られる前記目的音分離信号及び前記参照音分離信号が,前記スペクトル減算処理部31による処理対象である前記目的音対応信号及び前記参照音対応信号となる。
また,第3実施例である前記目的音抽出装置X3’は,図3に示される前記目的音抽出装置X3の構成から,2つの前記副マイクロホン102−2,102−3と,2つの前記音源分離処理部10−2,10−3とが除かれた構成を有する。
以上に示した目的音抽出装置X1’〜X3’も,本発明の実施例として考えられる。
また,前述した実施形態では,前記目的音抽出装置X1及びX2(図1及び図2)において,前記主音響信号と複数の前記副音響信号とに基づく音源分離処理と,その音源分離処理により得られる複数の前記目的音分離信号を統合する処理とを行うことによって得られる信号を,スペクトル減算処理の対象となる前記目的音対応信号とする例を示したが,その他,例えば,前記主音響信号と複数の前記副音響信号とを重み付け合成処理等によって統合した音響信号を前記目的音対応信号(スペクトル減算処理の対象)とすることも考えられる。なお,前記重み付け合成処理においては,前記主音響信号に対する重みを,複数の前記副音響信号に対する重みより大きくすることが考えられる。
また,前述した実施形態では,前記目的音抽出装置X2(図2)において,前記レベル検出・係数設定部32’が,複数の前記参照音分離信号を統合した信号のレベルを検出する例を示した。しかしながら,前記目的音抽出装置X2において,記レベル検出・係数設定部32’が,複数の前記参照音分離信号それぞれについて信号レベルを検出し,検出した複数の信号レベルに基づいて(例えば,それらの平均レベルや合計レベル等に基づいて)前記圧縮係数αを設定することも考えられる。
本発明は,目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。
本発明の第1実施形態に係る目的音抽出装置X1の概略構成を表すブロック図。 本発明の第2実施形態に係る目的音抽出装置X2の概略構成を表すブロック図。 本発明の第3実施形態に係る目的音抽出装置X3の概略構成を表すブロック図。 目的音抽出装置X1〜X3における参照音対応信号のレベルとスペクトル減算処理の圧縮係数との関係の一例を表す図。 目的音抽出装置X1〜X3における参照音対応信号のレベルとスペクトル減算処理の減算量との関係の一例を表す図。 目的音抽出装置X1〜X3における参照音対応信号のレベルと参照音対応信号スペクトルの圧縮比との関係の一例を表す図。 FDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Zの概略構成を表すブロック図。
符号の説明
X1:第1実施形態に係る目的音抽出装置
X2:第2実施形態に係る目的音抽出装置
X3:第3実施形態に係る目的音抽出装置
V1:音響入力装置
10(10−1〜10−3):音源分離処理部
20:目的音分離信号統合処理部
31,31’:スペクトル減算処理部
32,32’:レベル検出・係数設定部
33:参照音分離信号統合処理部
101:主マイクロホン
102:副マイクロホン

Claims (6)

  1. 所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する1又は複数の副マイクロホンを通じて得られる1又は複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して該音響信号を出力する目的音抽出装置であって,
    前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて,その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号を分離生成する音源分離処理を実行する音源分離手段と,
    複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出手段と,
    前記信号レベル検出手段による検出信号レベルが予め定められた範囲のレベルである場合に,複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し,複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理手段と,
    を具備してなることを特徴とする目的音抽出装置。
  2. 前記信号レベル検出手段による検出信号レベルが予め定められた下限レベルに満たない場合に前記目的音対応信号を前記目的音に相当する音響信号として出力する目的音対応信号出力手段を具備し,
    前記スペクトル減算処理手段が,前記信号レベル検出手段による検出信号レベルが前記下限レベル以上である場合に,周波数スペクトルの減算処理によって得られる信号を前記目的音に相当する音響信号として出力してなる請求項1に記載の目的音抽出装置。
  3. 前記信号レベル検出手段による信号レベルの検出及び前記スペクトル減算処理手段による前記圧縮補正が,予め定められた複数の周波数帯域の区分ごとに行われてなる請求項1又は2のいずれかに記載の目的音抽出装置。
  4. 前記音源分離手段が実行する音源分離処理が,周波数領域の音響信号に対して行われる独立成分分析法に基づくブラインド音源分離方式による音源分離処理である請求項1〜のいずれかに記載の目的音抽出装置。
  5. 所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する1又は複数の副マイクロホンを通じて得られる1又は複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して該音響信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであって,
    コンピュータに,
    前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて,その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号を分離生成する音源分離処理と,
    複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出処理と,
    前記信号レベル検出処理による検出信号レベルが予め定められた範囲のレベルである場合に,複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し,複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理と,
    を実行させてなることを特徴とする目的音抽出プログラム。
  6. 所定の目的音源から出力される目的音を主に入力する主マイクロホンを通じて得られる主音響信号と,前記主マイクロホンとは異なる位置に配置された又は前記主マイクロホンとは異なる方向に指向性を有する1又は複数の副マイクロホンを通じて得られる1又は複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して該音響信号を出力する処理をコンピュータにより実行する目的音抽出方法であって,
    コンピュータにより,
    前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて,その両音響信号に基づいて前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する複数の参照音分離信号を分離生成する音源分離処理と,
    複数の前記参照音分離信号それぞれについて信号レベルを検出する信号レベル検出処理と,
    前記信号レベル検出処理による検出信号レベルが予め定められた範囲のレベルである場合に,複数の前記参照音分離信号それぞれについて周波数スペクトルを前記検出信号レベルが小さいほど大きな圧縮比で圧縮補正し,複数の前記目的音分離信号を統合して得られる目的音対応信号の周波数スペクトルから複数の前記参照音分離信号それぞれについて前記圧縮補正を行って得られる複数の周波数スペクトルを減算することにより,前記目的音対応信号から前記目的音に相当する音響信号を抽出して該音響信号を出力するスペクトル減算処理と,
    を実行してなることを特徴とする目的音抽出方法。
JP2007310452A 2007-11-30 2007-11-30 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 Expired - Fee Related JP4493690B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007310452A JP4493690B2 (ja) 2007-11-30 2007-11-30 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US12/292,272 US20090141912A1 (en) 2007-11-30 2008-11-14 Object sound extraction apparatus and object sound extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007310452A JP4493690B2 (ja) 2007-11-30 2007-11-30 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Publications (2)

Publication Number Publication Date
JP2009134102A JP2009134102A (ja) 2009-06-18
JP4493690B2 true JP4493690B2 (ja) 2010-06-30

Family

ID=40675741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007310452A Expired - Fee Related JP4493690B2 (ja) 2007-11-30 2007-11-30 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Country Status (2)

Country Link
US (1) US20090141912A1 (ja)
JP (1) JP4493690B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218778B2 (en) * 2009-01-21 2012-07-10 Fortemedia, Inc. Method for showing array microphone effect
JP5316205B2 (ja) * 2009-04-27 2013-10-16 ソニー株式会社 電子機器、コンテンツ再生方法及びプログラム
EP2312579A1 (en) * 2009-10-15 2011-04-20 Honda Research Institute Europe GmbH Speech from noise separation with reference information
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
WO2012014451A1 (ja) * 2010-07-26 2012-02-02 パナソニック株式会社 多入力雑音抑圧装置、多入力雑音抑圧方法、プログラムおよび集積回路
US9792952B1 (en) * 2014-10-31 2017-10-17 Kill the Cann, LLC Automated television program editing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259090A (ja) * 1998-03-12 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> 収音装置
JP2001100800A (ja) * 1999-09-27 2001-04-13 Toshiba Corp 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2007033825A (ja) * 2005-07-26 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008292974A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US6459914B1 (en) * 1998-05-27 2002-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
EP1923866B1 (en) * 2005-08-11 2014-01-01 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259090A (ja) * 1998-03-12 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> 収音装置
JP2001100800A (ja) * 1999-09-27 2001-04-13 Toshiba Corp 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2007033825A (ja) * 2005-07-26 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008292974A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Also Published As

Publication number Publication date
JP2009134102A (ja) 2009-06-18
US20090141912A1 (en) 2009-06-04

Similar Documents

Publication Publication Date Title
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
US9269343B2 (en) Method of controlling an update algorithm of an adaptive feedback estimation system and a decorrelation unit
US9432766B2 (en) Audio processing device comprising artifact reduction
US5757937A (en) Acoustic noise suppressor
JP4649546B2 (ja) 補聴器
EP2183853B1 (en) Robust two microphone noise suppression system
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP4493690B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
EP2292020A1 (en) Hearing assistance apparatus
US11671755B2 (en) Microphone mixing for wind noise reduction
US11647344B2 (en) Hearing device with end-to-end neural network
KR20120114327A (ko) 레벨 큐를 사용한 적응형 잡음 감소
US20120148056A1 (en) Method to reduce artifacts in algorithms with fast-varying gain
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
CN117321681A (zh) 嘈杂环境中的语音优化
JP4519901B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4336378B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
Maj et al. SVD-based optimal filtering for noise reduction in dual microphone hearing aids: a real time implementation and perceptual evaluation
JP4519900B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
Defraene et al. A psychoacoustically motivated speech distortion weighted multi-channel Wiener filter for noise reduction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees