[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5272920B2 - 信号処理装置、信号処理方法、および信号処理プログラム - Google Patents

信号処理装置、信号処理方法、および信号処理プログラム Download PDF

Info

Publication number
JP5272920B2
JP5272920B2 JP2009148777A JP2009148777A JP5272920B2 JP 5272920 B2 JP5272920 B2 JP 5272920B2 JP 2009148777 A JP2009148777 A JP 2009148777A JP 2009148777 A JP2009148777 A JP 2009148777A JP 5272920 B2 JP5272920 B2 JP 5272920B2
Authority
JP
Japan
Prior art keywords
signal
sound
phase difference
spectrum
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009148777A
Other languages
English (en)
Other versions
JP2011007861A (ja
Inventor
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009148777A priority Critical patent/JP5272920B2/ja
Priority to DE102010023615.2A priority patent/DE102010023615B4/de
Priority to US12/817,406 priority patent/US8638952B2/en
Publication of JP2011007861A publication Critical patent/JP2011007861A/ja
Application granted granted Critical
Publication of JP5272920B2 publication Critical patent/JP5272920B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、音信号の雑音抑圧処理に関し、特に、周波数領域における音信号の雑音抑圧処理に関する。
マイクロホン・アレイは、少なくとも2個のマイクロホンを含むアレイを用い、受音して変換された音信号を処理することによって、受音したい目的音の音源方向に受音範囲を限定しまたは指向性を制御し、雑音抑圧または目的音強調を行うことができる。
既知のマイクロホン・アレイ装置においてS/N(信号対ノイズ)比を向上させるために、複数のマイクロホンからの受音信号の間の時間差に基づいて、指向性を制御し、減算処理または加算処理を行うことによって、目的音の受音方向と異なる方向または抑圧方向から到来する音波中の不要な雑音を抑圧し、目的音の受音方向と同じ方向または強調方向から到来うる音波中の目的音を強調することができる。
既知の或る音声識別装置では、音声電気信号変換部における音声を電気信号に変換する少なくとも第1と第2の音声入力部が発音者の近傍に間隔を置いて配置されている。第1のフィルタが、第1の音声入力部から出力される音声入力信号から予め定めた周波数帯域成分の音声信号を抽出する。第2のフィルタが、第2の音声入力部から出力される音声入力信号から同じ予め定めた周波数帯域成分の音声信号を抽出する。相関関係演算部が、第1と第2のフィルタから抽出された音声信号の相関関係を演算する。音声判別部が、その相関関係演算部からの演算結果に基づいて、その音声電気信号変換部から出力される音声信号がその発音者の発音した音声に基づくものであるかまたは騒音に基づくものであるかを判別する。
既知の自動車に使用される音声認識装置に設けられたマイクロホンの指向特性を制御する或る装置では、平面音波を入力する複数のマイクロホンが直線的に等間隔に配置される。マイクロホン回路が、複数のマイクロホンの出力信号を処理して各マイクロホンに入力する平面音波の位相の相違に基づいて話者の方向に感度がピークとなり且つ騒音の到来する方向に感度がディップとなるようにマイクロホンの指向特性を制御する。
既知の或るズームマイクロホン装置では、収音部が、音波を音声信号に変換し、ズーム制御部が、ズーム位置に対応したズーム位置信号を出力する。指向性制御部が、そのズーム位置信号に基づいてズームマイクロホン装置自体の指向特性を変化させる。推定部が、その収音部によって変換された音声信号に含まれる背景雑音の周波数成分を推定する。雑音抑圧部が、その推定部によるその背景雑音の周波数成分の推定結果に基づいて、そのズーム位置信号に応じて抑圧量を調整しつつ、その背景雑音を抑圧する。望遠時に、その指向性制御部がその目的音を強調するように指向特性を変化させるとともに、その音声信号に含まれる背景雑音が最終的に広角時よりも大きな度合で抑圧される。
特開昭58−181099号公報 特開平11−298988号公報 特許第4138290号
"小特集−マイクロホンアレー−"日本音響学会誌51巻5号、1995、pp.384−414
複数の音入力部を有する音信号処理装置では、目的音の受音方向とは逆の方向に抑圧方向が形成できるように、各音信号を時間領域で処理して、各音信号のサンプル遅延および減算を行う。この処理では、その抑圧方向からの雑音は充分に抑圧することができる。しかし、例えば車内の走行雑音および雑踏の雑音などの背景雑音の到来方向が複数ある場合には抑圧方向からの背景雑音の到来方向が複数あり、その方向も時間的に変化し、音入力部の間の特性の差によっても音源方向が変化する。従って、その雑音を充分に抑圧することができない。
本発明の実施形態の目的は、複数方向からの雑音をより低減した信号を生成することである。
本発明の実施形態の一観点によれば、少なくとも2つのマイクロホンで受音した各音信号を周波数領域に変換した2つのスペクトル信号を用いて雑音を抑制する信号処理装置は、周波数毎にその2つのスペクトル信号の周波数成分間の位相差を求める第1の計算部と、周波数毎に、そのスペクトル信号の周波数成分の値に依存する目的信号らしさを表す値を求めて、その目的信号らしさを表す値に基づいて、そのスペクトル信号の各周波数成分が雑音を表すかどうかを決定し、雑音を抑圧する音信号抑圧位相差範囲を決定する第2の計算部と、その第2の計算部によって雑音を表すと決定された周波数成分について、その第1の計算部によって求めた前記位相差が前記音信号抑圧位相差範囲にある場合に、求めたその位相差に基づいて、その2つのスペクトル信号のうちの一方のスペクトル信号の各成分を移相して同期化して、その同期化されたスペクトル信号を生成し、その同期化されたスペクトル信号とその2つのスペクトル信号のうちの他方のスペクトル信号とを、減算または加算により合成して、濾波済みのスペクトル信号を生成するフィルタ部と、を具えている。
本発明の実施形態によれば、複数の方向からの雑音を周波数領域で低減された信号を生成することができる。
図1は、本発明の実施形態において用いられる、それぞれ音入力部としての少なくとも2つのマイクロホンのアレイの配置を示している。 図2は、本発明の実施形態による、図1の実際のマイクロホンを含むマイクロホン・アレイ装置の概略的装置構成の一例を示している。 図3Aおよび3Bは、図1のマイクロホンのアレイの配置を用いた雑音の抑圧によって雑音を相対的に低減することができるマイクロホン・アレイ装置の概略的装置構成の例を示している。 図4Aおよび4Bは、目的音らしさがそれぞれ最大および最小の場合における、受音範囲、抑圧範囲および移行範囲の設定状態の例を示している。 図5は、ディジタル入力信号のレベルに対する目的音らしさの値の決定の例を表している。 図6A〜6Cは、図1のマイクロホン・アレイの配置による、異なる値の目的音らしさにおける、位相差計算部によって計算された各周波数に対する位相スペクトル成分の位相差と、受音範囲、抑圧範囲および移行範囲との関係を示している。 図7は、メモリに格納されたプログラムに従って図3Aおよび3Bのディジタル信号プロセッサ(DSP)によって実行される複素スペクトルの生成のためのフローチャートを示している。 図8Aおよび8Bは、センサ・データまたはキー入力データに基づいて設定された受音範囲、抑圧範囲および移行範囲の設定状態を示している。 図7は、メモリに格納されたプログラムに従って図3Aおよび3Bのディジタル信号プロセッサ(DSP)によって実行される複素スペクトルの生成のための別のフローチャートを示している。 図10は、ディジタル入力信号のレベルに対する目的音らしさの値の決定の別の例を示している。
発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。
本発明の実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。
図1は、本発明の実施形態において用いられる、それぞれ音入力部としての少なくとも2つのマイクロホンMIC1、MIC2、...のアレイの配置を示している。
一般的には、複数のマイクロホンMIC1、MIC2、...のアレイが、直線上に互いに既知の距離dだけ離して配置される。ここでは、典型例として、隣接する少なくとも2つのマイクロホンMIC1およびMIC2が直線上に互いに距離dだけ離して配置されているものとする。複数のマイクロホンの隣接間の距離は、等しい必要はなく、以下で説明するようにサンプリング定理を満たせば、既知の異なる距離であってもよい。
実施形態では、複数のマイクロホンの内のマイクロホンMIC1およびMIC2の2つのマイクロホンを用いた例について説明する。
図1において、目的音源SSは、マイクロホンMIC1とMIC2を結ぶ直線上にあり、目的音源はマイクロホンMIC1の左側にあり、目的音源SSの方向をマイクロホン・アレイMIC1、MIC2の受音方向または目的方向とする。典型的には、受音目的の音源SSは話者の口であり、受音方向は話者の口の方向である。受音角度方向付近の所定の角度範囲を受音角度範囲Rsとしてもよい。また、受音方向とは逆の方向(+π)を雑音の主要抑圧方向とし、主要抑圧角度方向付近の所定の角度範囲を雑音の抑圧角度範囲Rnとしてもよい。雑音の抑圧角度範囲Rnは周波数f毎に決定してもよい。
マイクロホンMIC1とMIC2の間の距離dは、サンプリング定理またはナイキスト定理を満たすように、距離d<音速c/サンプリング周波数fsの条件を満たすように設定されることが好ましい。図1において、マイクロホン・アレイMIC1、MIC2の指向特性または指向性パターン(例えば、カーディオイド形である単一指向性)が閉じた破線の曲線で示されている。マイクロホン・アレイMIC1、MIC2によって受音され処理される入力音信号は、マイクロホン・アレイMIC1、MIC2が配置された直線に対する音波の入射角度θ(=−π/2〜+π/2)に依存し、その直線に垂直な平面上の半径方向の入射方向(0〜2π)には依存しない。
目的音源SSの音または音声は、右側のマイクロホンMIC2において、その左側のマイクロホンMIC1よりも遅延時間τ=d/cだけ遅延して検出される。一方、主要抑圧方向の雑音N1は、左側のマイクロホンMIC1において、その右側のマイクロホンMIC2よりも遅延時間τ=d/cだけ遅延して検出される。その主要抑圧方向の抑圧角度範囲Rn内のずれた抑圧方向の雑音N2は、左側のマイクロホンMIC1において、その右側のマイクロホンMIC2よりも遅延時間τ=d・sinθ/cだけ遅延して検出される。角度θは、想定される抑圧方向の雑音N2の到来方向である。図1において、一点鎖線は雑音N2の波面を示している。θ=+π/2の場合の雑音N1の到来方向が入力信号の主要な抑圧方向である。
或るマイクロホン・アレイでは、主要抑圧方向の雑音N1(θ=+π/2)は、左側のマイクロホンMIC1の入力信号IN1(t)から、τ=d/cだけ遅延した右側の隣接のマイクロホンMIC2の入力信号IN2(t)を減算することによって、抑圧することができる。しかし、そのようなマイクロホン・アレイでは、主要抑圧方向からずれた角度方向(0<θ<+π/2)から到来する雑音N2を充分に抑圧することはできない。
発明者は、マイクロホンMIC1、MIC2の入力音信号のスペクトルの一方を周波数毎にその2つの入力音信号の位相差に応じてその他方のスペクトルに位相を同期化し、一方と他方のスペクトルの差をとることによって、音信号における抑圧角度範囲Rnの方向の雑音N2を充分に抑圧することができる、と認識した。また、発明者は、周波数毎にその入力音信号の目的音信号らしさまたは目的音信号の尤度または目的音信号である確からしさを判定し、その判定結果に基づいて抑圧角度範囲Rnを変化させることによって雑音抑圧された音信号における歪みを低減できる、と認識した。
図2は、本発明の実施形態による、図1の実際のマイクロホンMIC1、MIC2を含むマイクロホン・アレイ装置100の概略的装置構成(configuration)の例を示している。マイクロホン・アレイ装置100は、マイクロホンMIC1、MIC2、増幅器122、124、低域通過フィルタ(LPF)142、144、ディジタル信号プロセッサ(DSP)200、および、例えばRAM等を含むメモリ202を具えている。マイクロホン・アレイ装置100は、例えば音声認識機能を有する車載装置またはカー・ナビゲーション装置、ハンズフリー電話機、または携帯電話機のような情報機器であってもよい。
さらに、マイクロホン・アレイ装置100は、話者方向検出用センサ192および方向決定部194に結合されていても、またはそれらの要素を含んでいてもよい。プロセッサ10およびメモリ12は、利用アプリケーション400を含む1つの装置に含まれていても、または別の情報処理装置に含まれていてもよい。
話者方向検出用センサ192は、例えば、ディジタル・カメラ、超音波センサまたは赤外線センサであってもよい。代替形態として、方向決定部194は、メモリ12に格納された方向決定用のプログラムに従って動作するプロセッサ10上で実装されてもよい。
マイクロホンMIC1、MIC2によって音波から変換されたアナログ入力信号INa1、INa2は、増幅器(Amplifier)122、124にそれぞれ供給されて、増幅器122、124によって増幅される。増幅器122、124の出力の増幅されたアナログ音信号INa1、INa2は、例えば遮断周波数fc(例えば、3.9kHz)の低域通過フィルタ(Low Pass Filter)142、144の入力にそれぞれ結合されて、後段のサンプリングのために低域通過濾波される。ここでは、低域通過フィルタのみを用いているが、帯域通過フィルタを用いても、または高域通過フィルタを併用してもよい。
低域通過フィルタ142、144の出力の濾波済みのアナログ信号INp1、INp2は、サンプリング周波数fs(例えば、8kHz)(fs>2fc)のアナログ−ディジタル変換器162、164の入力にそれぞれ結合されて、ディジタル入力信号に変換される。アナログ−ディジタル変換器162、164からの時間領域のディジタル入力信号IN1(t)、IN2(t)は、ディジタル信号プロセッサ(DSP)200の入力にそれぞれ結合される。
ディジタル信号プロセッサ200は、メモリ202を用いて、時間領域のディジタル入力信号IN1(t)、IN2(t)を、例えばフーリエ変換などによって周波数領域のディジタル入力信号または複素スペクトルIN1(f)、IN2(f)に変換する。ディジタル信号プロセッサ200は、さらに、雑音の抑圧角度範囲(以下、単に抑圧範囲という)Rnの方向の雑音N1、N2を抑圧するようディジタル入力信号IN1(f)、IN2(f)を処理する。ディジタル信号プロセッサ200は、さらに、処理済みの周波数領域のディジタル入力信号INd(f)を、例えば逆フーリエ変換などによって時間領域のディジタル音信号INd(t)に逆変換して、雑音抑圧済みのディジタル音信号INd(t)を生成する。
本実施形態において、マイクロホン・アレイ装置100は、例えば音声認識機能を有するカー・ナビゲーション装置のような情報機器への適用をも意識しており、従ってマイクロホン・アレイ装置100に対する、目的音源SSとなるトライバの音声の到来方向の範囲または最小受音範囲を予め決めてもよい。その音声の到来方向の範囲に近いほど、目的音信号らしさが高いと判定してもよい。
ディジタル信号プロセッサ200は、ディジタル入力信号IN1(f)またはIN2(f)の目的音信号らしさD(f)が高いと判定された場合は、受音角度範囲または非抑圧角度範囲(以下、単に受音範囲または非抑圧範囲という)Rsを広く設定し、抑圧範囲Rnを狭く設定する。目的音信号らしさは、例えば、目的音声信号らしさまたは目的音声信号の尤度であってもよい。雑音らしさまたは雑音の尤度は、目的音らしさまたは目的音の尤度とは逆の表現である。以下、目的音信号らしさを、単に目的音らしさという。ディジタル信号プロセッサ200は、さらに、その設定された受音範囲Rsおよび抑圧範囲Rnに基づいて、ディジタル入力信号IN1(f)またはIN2(f)を処理し、それによって狭い範囲で適度に雑音抑圧されたディジタル音信号INd(t)が生成され得る。
一方、ディジタル信号プロセッサ200は、ディジタル入力信号IN1(f)またはIN2(f)の目的音らしさD(f)が低くまたは雑音らしさが高いと判定された場合には、受音範囲Rsを狭く設定し、抑圧範囲Rnを広く設定する。ディジタル信号プロセッサ200は、さらに、その設定された受音範囲Rsおよび抑圧範囲Rnに基づいて、ディジタル入力信号IN1(f)またはIN2(f)を処理し、それによって広い範囲で充分に雑音抑圧されたディジタル音信号INd(t)が生成され得る。
一般的に、例えば人の音声のような目的音源SSの音を表すディジタル入力信号IN1(f)は、ディジタル入力信号IN1(f)の絶対値または振幅の平均値AV{|IN1(f)|}よりも大きい絶対値または振幅を有する。また、一般的に、雑音N1、N2のディジタル入力信号IN1(f)は、ディジタル入力信号IN1(f)の絶対値または振幅の平均値AV{|IN1(f)|}よりも小さい絶対値または振幅を有する。
ディジタル入力信号IN1(f)の絶対値または振幅の平均値AV{|IN1(f)|}は、雑音抑圧開始直後は、音信号の受信時間期間が短いので平均値の適用は適当でないことがあるが、この場合、平均値の代わりに或る初期値を用いてもよい。そのような初期値が設定されていない場合は、適切な平均値が求まるまで雑音の抑圧が不安定になることがあり、雑音抑圧が安定するまでに多少の時間を要することがある。
従って、ディジタル入力信号IN1(f)がディジタル入力信号IN1(f)の絶対値または振幅の平均値AV{|IN1(f)|}よりも大きい絶対値または振幅を有するときは、ディジタル入力信号IN1(f)の目的音らしさD(f)が高いと推定してもよい。一方、ディジタル入力信号IN1(f)がディジタル入力信号IN1(f)の絶対値または振幅の平均値AV{|IN1(f)|}よりも小さい絶対値または振幅を有するときは、ディジタル入力信号IN1(f)の目的音らしさD(f)が低く、雑音らしさが高い、と推定してもよい。ここで、目的音らしさD(f)は例えば0≦D(f)≦1の範囲の値であってもよい。この場合、D(f)≧0.5の場合は、ディジタル入力信号IN1(f)は目的音らしさが高く、D(f)<0.5の場合は、ディジタル入力信号IN1(f)は目的音らしさが低く、雑音らしさが高い。但し、目的音らしさD(f)の決定は、ディジタル入力信号の絶対値または振幅を用いることに限定されるものではなく、絶対値または振幅の大きさを表す値であればよく、例えば、ディジタル入力信号の絶対値、その絶対値または振幅の2乗の値、またはディジタル入力信号の電力を用いてもよい。
前述のように、ディジタル信号プロセッサ200は、方向決定部194またはプロセッサ10に結合されていてもよい。この場合、ディジタル信号プロセッサ200は、方向決定部194またはプロセッサ10からの最小受音範囲Rsminを表す情報に基づいて、可変な受音範囲Rs、抑圧範囲Rnおよび移行範囲Rtを設定し、その抑圧範囲Rnおよび移行範囲Rt内の抑圧方向の雑音N1、N2を抑圧する。最小受音範囲Rsminは、目的音源SSの音として処理する最小の受音範囲Rsを表す。最小受音範囲Rsminを表すその情報は、例えば、受音範囲Rsと移行範囲Rの間の角度境界θtbの最小値θtbminであってもよい。
方向決定部194またはプロセッサ10は、ユーザによるキー入力によって入力された設定信号を処理して最小受音範囲Rsminを表す情報を生成してもよい。また、方向決定部194またはプロセッサ10は、センサ192によって捕捉された検出データまたは画像データに基づいて、話者の存在を検出しまたは認識して、話者の存在する方向を決定し、最小受音範囲Rsminを表す情報を生成してもよい。
ディジタル音信号INd(t)の出力は、例えば、音声認識または携帯電話機の通話に用いられる。ディジタル音信号INd(t)は、後続の利用アプリケーション400に供給され、そこで、例えば、ディジタル−アナログ変換器404でディジタル−アナログ変換され低域通過フィルタ406で低域通過濾波されてアナログ信号が生成され、またはメモリ414に格納されて音声認識部416で音声認識に使用される。音声認識部416は、ハードウェアとして実装されたプロセッサであっても、またはソフトウェアとして実装された例えばROMおよびRAMを含むメモリ414に格納されたプログラムに従って動作するプロセッサであってもよい。
ディジタル信号プロセッサ200は、ハードウェアとして実装された信号処理回路であっても、またはソフトウェアとして実装された例えばROMおよびRAMを含むメモリ202に格納されたプログラムに従って動作する信号処理回路であってもよい。
図1において、マイクロホン・アレイ装置100は、目的音源SSの方向θ(=−π/2)付近の角度範囲、例えば−π/2≦θ<−π/12を受音範囲または非抑圧範囲Rsとする。また、マイクロホン・アレイ装置100は、主要抑圧方向θ=+π/2付近の角度範囲、例えば+π/12<θ≦+π/2を抑圧範囲Rnとしてもよい。また、マイクロホン・アレイ装置100は、受音範囲Rsと抑圧範囲Rnの間の角度範囲Rt、例えば−π/12≦θ≦+π/12を移行(切換)角度範囲Rt(以下、単に移行範囲Rtという)としてもよい。
図3Aおよび3Bは、図1のマイクロホンMIC1、MIC2のアレイの配置を用いた雑音の抑圧によって雑音を相対的に低減することができるマイクロホン・アレイ装置100の概略的装置構成(configuration)の例を示している。
ディジタル信号プロセッサ200は、アナログ−ディジタル変換器162、164の出力に入力が結合された高速フーリエ変換器212、214、目的音らしさ判定部218、同期化係数生成部220、およびフィルタ部300を含んでいる。この実施形態では、周波数変換または直交変換に、高速フーリエ変換を用いたが、他の周波数変換可能な関数(例えば、離散コサイン変換またはウェーブレット変換、等)を用いてもよい。
同期化係数生成部220は、例えば可聴周波数帯域のような或る周波数帯域の各周波数f(0<f<fs/2)の複素スペクトル間の位相差を計算する位相差計算部222、および同期化係数計算部224を含んでいる。フィルタ部300は、同期化部332および減算部334を含んでいる。減算器334の代わりに、等価回路として、入力値を反転する符号反転器とその符号反転器に結合された加算器とを用いてもよい。代替形態として、目的音らしさ判定部218は、同期化係数生成部220に含まれていてよい。
目的音らしさ判定部218は、1つの高速フーリエ変換器212の出力に入力が結合されており、高速フーリエ変換器212からの複素スペクトルIN1(f)の絶対値または振幅に応じて、目的音らしさまたは目的音の尤度D(f)を生成して同期化係数生成部220に供給する。目的音らしさD(f)は、例えば、0≦D(f)≦1の範囲の値であり、複素スペクトルIN1(f)の目的音らしさが最大の場合にD(f)=1の値を有する。この場合、目的音らしさまたは目的音の尤度D(f)は、複素スペクトルIN1(f)の目的音らしさが最小の場合またはその雑音らしさが最大の場合にD(f)=0の値を有する。
図4Aおよび4Bは、目的音らしさD(f)がそれぞれ最大および最小の場合における、受音範囲または非抑圧範囲Rs、抑圧範囲Rnおよび移行範囲Rtの設定状態の例を示している。
目的音らしさD(f)が最大(=1)の場合は、同期化係数計算部224は、後で説明する同期化係数を求めるために、図4Aに示されているように、受音範囲Rsを最大受音範囲Rsmaxに設定し、抑圧範囲Rnを最小抑圧範囲Rnminに設定し、移行範囲Rtをその間に設定する。最大受音範囲Rsmaxは、例えば−π/2≦θ<0の角度θの範囲に設定される。最小抑圧範囲Rnminは、例えば+π/6<θ≦+π/2の角度θの範囲に設定される。移行範囲Rtは、例えば0≦θ≦+π/6の角度θの範囲に設定される。
目的音らしさD(f)が最小(=0)の場合は、同期化係数計計算部224は、図4Bに示されているように、受音範囲Rsを最小受音範囲Rsminに設定し、抑圧範囲Rnを最大抑圧範囲Rnmaxに設定し、移行範囲Rtをその間に設定する。最小受音範囲Rsminは、例えば−π/2≦θ<−π/6の角度θの範囲に設定される。最大抑圧範囲Rnmaxθは、例えば0<θ≦+π/2の角度の範囲に設定される。移行範囲Rtは、例えば−π/6≦θ≦0の角度θの範囲に設定される。
目的音らしさD(f)が最大値と最小値の間の値(0<D(f)<1)の場合は、同期化係数計計算部224は、図1に示されているように、目的音らしさD(f)の値に応じて、受音範囲Rsおよび抑圧範囲Rnを設定し、移行範囲Rtをその間に設定する。この場合、目的音らしさD(f)が大きくなるに従って目的音らしさD(f)に比例して、受音範囲Rsがより大きくなり、抑圧範囲Rnがより小さくなる。例えば、目的音らしさD(f)=0.5に対して、受音範囲Rsは、例えば−π/2≦θ<−π/12の角度θの範囲に設定され、抑圧範囲Rnは、例えば+π/12<θ≦+π/2の角度θの範囲に設定される。この場合、移行範囲Rtは、例えば−π/12≦θ≦+π/12の角度θの範囲に設定される。
目的音らしさ判定部218は、例えば、高速フーリエ変換における時間的分析フレーム(窓)i毎の複素スペクトルIN1(f)の絶対値|IN1(f,i)|の時間的平均値AV{|IN1(f)|}を順次計算してもよい。ここで、iは分析フレームの時間的順序番号(0、1、2、...)を表す。
初期順序番号i=0に対して、
AV{|IN1(f,i)|}=|IN1(f,i)|
順序番号i>0に対して、
AV{|IN1(f,i)|}
=βAV{|IN1(f,i−1)|}+(1−β)|IN1(f,i)|
ここで、係数βは、平均値AV{|IN1(f)|}を求めるための、前の分析フレームの平均値AV{|IN1(f,i−1)|}と現在の分析フレームの平均値AV{|IN1(f,i)|}の重み付けの割合を表し、0≦β<1の範囲の予め設定された値である。
最初の数個の順序番号i=0〜m(m<1以上の或る整数)に対して、次の固定値INcを使用してもよい。
AV{|IN1(f,i)|}=INc
固定値INcは経験的に決定してもよい。
目的音らしさ判定部218は、複素スペクトルIN1(f)の絶対値をその絶対値の時間的平均値で除した、次の式で表される平均値に対する相対的レベルγを求める。
γ=|IN1(f,i)|/AV{|IN1(f,i)|}
目的音らしさ判定部218は、複素スペクトルIN1(f)の目的音らしさD(f)をレベルγに応じて決定する。代替形態として、複素スペクトルIN1(f)の絶対値|IN1(f,i)|の代わりに、その絶対値の2乗の値|IN1(f,i)|を用いてもよい。
図5は、ディジタル入力信号のレベルγに対する目的音らしさD(f)の値の決定の例を示している。例えば、複素スペクトルIN1(f)の絶対値の相対的レベルγが或る閾値γ1(例えば、γ1=0.7)以下の場合には、音声らしさ判定部218は目的音らしさD(f)=0と設定する。例えば、複素スペクトルIN1(f)の絶対値の相対的レベルγが別の閾値γ2(>γ1)(例えば、γ2=1.4)以上の場合には、音声らしさ判定部218は目的音らしさD(f)=1と設定する。例えば、複素スペクトルIN1(f)の絶対値の相対的レベルγが2つの閾値γ1とγ2の間の値(γ1<γ<γ2)である場合には、音声らしさ判定部218、比例配分により、目的音らしさD(f)=(γ−γ1)/(γ2−γ1)と決定する。相対的レベルγに対する目的音らしさD(f)の関係は、図5に限定されることなく、例えばシグモイド関数のような、相対的レベルγが増大するに従って目的音らしさD(f)が単調に増大する関係であってもよい。
図10は、ディジタル入力信号のレベルγに対する目的音らしさD(f)の値の決定の別の例を示している。図10において、音源方向を示す位相スペクトル差DIFF(f)に基づいて、目的音らしさD(f)の値を決定する例を示している。ここでは,音源方向を示す位相スペクトル差DIFF(f)が、例えばカー・ナビゲーションなどのアプリケーションに合せて予想される話者方向に近いほど、目的音らしさD(f)が高くなるようにしている。なお、各閾値σ1〜σ4は、予想される話者方向に合せて設定する値であり、図1に示すようにマイクの並び方向に目的音源がある場合、例えば、σ1=−0.2fπ/(fs/2)、σ2=−0.4fπ/(fs/2)、σ3=0.2fπ(fs/2)、σ4=0.4fπ(fs/2)、とすればよい。
図1、図4Aおよび4Bを参照すると、音声らしさ判定部218からの目的音らしさD(f)>0かつD(f)<1に対して、同期化係数計算部224は、図1の受音範囲Rs、抑圧範囲Rnおよび移行範囲Rtを設定する。音声らしさ判定部218からの目的音らしさD(f)=1に対して、同期化係数計算部224は、図4Aの受音範囲Rs=Rsmax、抑圧範囲Rn=Rnminおよび移行範囲Rtを設定する。音声らしさ判定部218からの目的音らしさD(f)=0に対して、同期化係数計算部224は、図4Bの受音範囲Rs=Rsmin、抑圧範囲Rn=Rnmaxおよび移行範囲Rtを設定する。
移行範囲Rtと抑圧範囲Rnの間の角度境界θtaは、θtamin≦θta≦θtamaxの範囲の値である。ここで、θtaminはθtaの最小値を表し、例えばθtamin=0ラジアンであり、θtamaxはθtaの最大値を表し、例えばθtamax=+π/6である。角度境界θtaは、目的音らしさD(f)に対して、比例配分により、θta=θtamin+(θtamax−θtamin)D(f)で表される。
移行範囲Rtと受音範囲Rsの間の角度境界θtbは、θta>θtbを満たし、θtbmin≦θtb≦θtbmaxの範囲の値である。ここで、θtbminはθtbの最小値を表し、例えばθtbmin=−π/6であり、θtbmaxはθtbの最大値を表し、例えばθtbmax=0ラジアンである。角度境界θtbは、目的音らしさD(f)に対して、比例配分により、θtb=θtbmin+(θtbmax−θtbmin)D(f)で表される。
アナログ−ディジタル変換器162、164からの時間領域のディジタル入力信号IN1(t)、IN2(t)は、高速フーリエ変換器(FFT)212、214の入力にそれぞれ供給される。高速フーリエ変換器212、214は、既知の形態で、ディジタル入力信号IN1(t)、IN2(t)の各信号区間に、オーバラップ窓関数を乗算してその積をフーリエ変換または直交変換して、周波数領域の複素スペクトルIN1(f)、IN2(f)を生成する。ここで、IN1(f)=Aj(2πft+φ1(f))、IN2(f)=Aj(2πft+φ2(f))、fは周波数、AおよびAは振幅、jは単位虚数、φ1(f)およびφ2(f)は周波数fの関数である遅延位相である。オーバラップ窓関数として、例えば、ハミング窓関数、ハニング窓関数、ブラックマン窓関数、3シグマガウス窓関数、または三角窓関数を用いることができる。
位相差計算部222は、距離dだけ離れた隣接の2つのマイクロホンMIC1とMIC2の間での周波数f(0<f<fs/2)毎の音源方向を示す位相スペクトル成分の位相差DIFF(f)(ラジアン、rad)を次の式で求める。
DIFF(f)
=tan−1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)})
ここで、特定の周波数fに対応する音源は1つの音源しかないものと近似する。J{x}は複素数xの虚数成分を表し、R{x}は複素数xの実数成分を表す。
この位相差DIFF(f)をディジタル入力信号IN1(t)、IN2(t)の遅延位相(φ1(f)、φ2(f))で表現すると、次のようになる。
DIFF(f)=tan−1(J{(Aj(2πft+φ2(f))/Aj(2πft+φ1(f))}/R{(Aj(2πft+φ2(f))/Aj(2πft+φ1(f))})
=tan−1(J{(A/A)ej(φ2(f)−φ1(f))}/R{(A/A)ej(φ2(f)−φ1(f))})
=tan−1(J{ej(φ2(f)−φ1(f))}/R{ej(φ2(f)−φ1(f))})
=tan−1(sin(φ2(f)−φ1(f))/cos(φ2(f)−φ1(f)))
=tan−1(tan(φ2(f)−φ1(f))
=φ2(f)−φ1(f)
位相差計算部222は、隣接する2つの入力信号IN1(f)、IN2(f)の間の周波数f毎の位相スペクトル成分の位相差DIFF(f)の値を同期化係数計算部224に供給する。
図6A〜6Cは、図1のマイクロホン・アレイMIC1およびMIC2の配置による、異なる目的音らしさD(f)における、位相差計算部222によって計算された各周波数fに対する位相スペクトル成分の位相差DIFF(f)と、受音範囲Rs、抑圧範囲Rnおよび移行範囲Rtとの関係を示している。
図6A〜6Cにおいて、一次関数afは、抑圧範囲Rと移行範囲Rtの間の角度境界線θtaに対応する位相差DIFF(f)の境界線を表す。ここで、周波数fは0<f<fs/2の範囲の値であり、aは周波数fの係数であり、係数aは最小値aminと最大値amaxの間の値(−2π/fs<amin≦a≦amax<+2π/fs)の範囲の値である。一次関数bfは、受音範囲Rと移行範囲Rtの間の角度境界線θtbに対応する位相差DIFF(f)の境界線を表す。ここで、bは周波数fの係数であり、係数bは最小値bminと最大値bmaxの間の値(−2π/fs<bmin≦b≦bmax<+2π/fs)の範囲の値である。係数aおよびbはa>bの関係を満たす。
図6Aの関数amaxfは、図4Aの角度境界θtamaxに対応する。図6Aの関数aminfは、図4Aの角度境界θtaminに対応する。図6Cの関数bmaxfは、図4Bの角度境界θtbmaxに対応する。図6Cの関数bminfは、図4Bの角度境界θtbminに対応する。
図6Aを参照すると、目的音らしさD(f)が最大(1)の場合、受音範囲Rs=Rsmaxは、最大の位相差範囲−2πf/fs≦DIFF(f)<bmaxfに対応する。この場合、抑圧範囲Rn=Rnminは、最小の位相差範囲amaxf<DIFF(f)≦+2πf/fsに対応する。さらに、移行範囲Rtは、その間の位相差範囲bmaxf≦DIFF(f)≦amaxfに対応する。例えば、係数aの最大値はamax=+2π/3fsであり、係数bの最大値はbmax=0である。
図6Cを参照すると、目的音らしさD(f)が最小(0)の場合、受音範囲Rs=Rsminは、最小の位相差範囲−2πf/fs≦DIFF(f)<bminfに対応する。この場合、抑圧範囲Rn=Rnmaxは、最大の位相差範囲aminf<DIFF(f)≦+2πf/fsに対応する。さらに、移行範囲Rtは、その間の位相差範囲bminf≦DIFF(f)≦aminfに対応する。例えば、係数aの最小値はamin=0であり、係数bの最小値はbmin=−2π/3fsである。
図6Bを参照すると、目的音らしさD(f)が最大値と最小値の間の値(0<D(f)<1)の場合、受音範囲Rsは、中間の位相差範囲−2πf/fs≦DIFF(f)<bfに対応する。この場合、抑圧範囲Rnは、中間の位相差範囲af<DIFF(f)≦+2πf/fsに対応する。さらに、移行範囲Rtは、その間の位相差範囲bf≦DIFF(f)≦afに対応する。
周波数fの係数aは、目的音らしさD(f)に対して、比例配分により、a=amin+(amax−amin)D(f)で表される。周波数fの係数bは、目的音らしさD(f)に対して、比例配分により、b=bmin+(bmax−bmin)D(f)で表される。
図6A〜6Cにおいて、位相差DIFF(f)が抑圧範囲Rnに対応する範囲に位置する場合には、同期化係数計算部224は、ディジタル入力信号IN1(f)、IN2(f)に対して雑音抑圧のための処理を行う。位相差DIFF(f)が移行範囲Rtに対応する範囲に位置する場合には、同期化係数計算部224は、ディジタル入力信号IN1(f)、IN2(f)に対して周波数fおよび位相差DIFF(f)に応じて低減された雑音抑圧のための処理を行う。位相差DIFF(f)が受音範囲Rsに対応する範囲に位置する場合には、同期化係数計算部224は、ディジタル入力信号IN1(f)、IN2(f)に対して雑音抑圧のための処理を行わない。
同期化係数計算部224は、特定の周波数fについて、マイクロホンMIC1の位置における入力信号中の抑圧範囲Rn内の角度θ(例えば、+π/12<θ≦+π/2)の雑音は、マイクロホンMIC2の入力信号中の同じ雑音が位相差DIFF(f)だけ遅れて到達したものである、と推定する。また、同期化係数計算部224は、マイクロホンMIC1の位置における移行範囲Rt内の角度θ(例えば、−π/12≦θ≦+π/12)では、受音範囲Rsにおける処理抑圧範囲Rnにおける雑音抑圧処理レベルを徐々に変化させまたは切り換える。
同期化係数計算部224は、周波数f毎の位相スペクトル成分の位相差DIFF(f)に基づいて、次の式に従って同期化係数C(f)を計算する。
(a) 同期化係数計算部224は、高速フーリエ変換における時間的分析フレーム(窓)i毎の同期化係数C(f)を順次計算する。iは分析フレームの時間的順序番号(0、1、2、...)を表す。位相差DIFF(f)が抑圧範囲Rn内の角度θ(例えば、+π/12<θ≦+π/2)に対応する位相差の値である場合の同期化係数C(f,i)=Cn(f,i):
初期順序番号i=0に対して、
C(f,0)=Cn(f,0)
=IN1(f,0)/IN2(f,0)
順序番号i>0に対して、
C(f,i)=Cn(f,i)
=αC(f,i−1)+(1−α)IN1(f,i)/IN2(f,i)
ここで、IN1(f,i)/IN2(f,i)は、マイクロホンMIC2の入力信号の複素スペクトルに対するマイクロホンMIC1の入力信号の複素スペクトルの比、即ち振幅比と位相差を表している。また、IN1(f,i)/IN2(f,i)は、マイクロホンMIC1の入力信号の複素スペクトルに対するマイクロホンMIC2の入力信号の複素スペクトルの比の逆数を表しているともいえる。αは、同期化のための前の分析フレームの遅延移相量の加算割合または合成割合を示し、0≦α<1の範囲の定数である。1−αは、同期化のための加算される現在の分析フレームの遅延移相量の合成割合を示す。現在の同期化係数C(f,i)は、前の分析フレームの同期化係数と現在の分析フレームのマイクロホンMIC2に対するマイクロホンMIC1の入力信号の複素スペクトルの比を、比率α:(1−α)で加算したものである。
(b) 位相差DIFF(f)が受音範囲Rs内の角度θ(例えば、−π/2≦θ<−π/12)に対応する位相差の値である場合の同期化係数C(f)=Cs(f):
C(f)=Cs(f)=exp(−j2πf/fs)または
C(f)=Cs(f)=0 (同期化減算しない場合)
(c) 位相差DIFF(f)が移行範囲Rt内の角度θ(例えば、−π/12≦θ≦+π/12)に対応する位相差の値である場合の同期化係数C(f)=Ct(f)は、角度θに応じて上記(a)のCs(f)とCn(f)の加重平均:
C(f)=Ct(f)
=Cs(f)×(θ−θtb)/(θta−θtb)
+Cn(f)×(θta−θ)/(θta−θtb)
ここで、θtaは移行範囲Rtと抑圧範囲Rnの間の境界の角度を表し、θtbは移行範囲Rtと受音範囲Rsの間の境界の角度を表す。
このようにして、位相差計算部222は、複素スペクトルIN1(f)およびIN2(f)に応じて同期化係数C(f)を生成して、複素スペクトルIN1(f)およびIN2(f)、および同期化係数C(f)をフィルタ部300に供給する。
図3Bを参照すると、フィルタ部300において、同期化部332は、次の式の乗算の計算を行って複素スペクトルIN2(f)を複素スペクトルIN1(f)に同期化して、同期化されたスペクトルINs2(f)を生成する。
INs2(f)=C(f)×IN2(f)
減算部334は、次の式に従って複素スペクトルIN1(f)から、係数δ(f)を乗じた複素スペクトルINs2(f)を減算して、雑音が抑圧された複素スペクトルINd(f)を生成する。
INd(f)=IN1(f)−δ(f)×INs2(f)
ここで、係数δ(f)は0≦δ(f)≦1の範囲の予め設定される値である。係数δ(f)は、周波数fの関数であり、同期化係数に依存するスペクトルINs2(f)の減算の度合いを調整するための係数である。例えば、受音範囲Rsから到来した音を表す音信号の歪みの発生を抑えつつ、抑圧範囲Rnから到来した音を表す雑音を大きく抑圧するために、位相差DIFF(f)によって表される音の到来方向が抑圧範囲Rnにある場合の方が受音範囲Rsにある場合よりも大きくなるように係数δ(f)を設定してもよい。
ディジタル信号プロセッサ200は、さらに逆高速フーリエ変換器(IFFT)382を含んでいる。逆高速フーリエ変換器382は、同期化係数計算部224からスペクトルINd(f)を受け取って逆フーリエ変換して、オーバラップ加算し、マイクロホンMIC1の位置における時間領域のディジタル音信号INd(t)を生成する。
逆高速フーリエ変換器382の出力は、後段に位置する利用アプリケーション400の入力に結合される。
ディジタル音信号INd(t)の出力は、例えば、音声認識または携帯電話機の通話に用いられる。ディジタル音信号INd(t)は、後続の利用アプリケーション400に供給され、そこで、例えば、ディジタル−アナログ変換器404でディジタル−アナログ変換され低域通過フィルタ406で低域通過濾波されてアナログ信号が生成され、またはメモリ414に格納されて音声認識部416で音声認識に使用される。
図3Aおよび3Bの要素212、214、218、220〜224、300〜334および382は、集積回路として実装されたまたはプログラムで実装されたディジタル信号プロセッサ(DSP)200によって実行されるフロー図と見ることもできる。
図7は、メモリ202に格納されたプログラムに従って図3Aおよび3Bのディジタル信号プロセッサ(DSP)200によって実行される複素スペクトルの生成のためのフローチャートを示している。従って、このフローチャートは、図3Aおよび3Bの要素212、214、218、220、300および382によって実現される機能に対応する。
図3A、3Bおよび7を参照すると、ステップ502において、ディジタル信号プロセッサ200(高速フーリエ変換部212、214)は、アナログ−ディジタル変換器162、164から供給された時間領域の2つのディジタル入力信号IN1(t)およびIN2(t)をそれぞれ入力し捕捉する。
ステップ504において、ディジタル信号プロセッサ200(高速フーリエ変換部212、214)は、2つのディジタル入力信号IN1(t)およびIN2(t)の各々にオーバラップ窓関数を乗算する。
ステップ506において、ディジタル信号プロセッサ200(高速フーリエ変換部212、214)は、ディジタル入力信号IN1(t)およびIN2(t)をフーリエ変換して周波数領域の複素スペクトルIN1(f)およびIN2(f)を生成する。
ステップ508において、ディジタル信号プロセッサ200(同期化係数生成部220の位相差計算部222)は、スペクトルIN1(f)とIN2(f)の間の位相差:
DIFF(f)
=tan−1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)})
を計算する。
ステップ509において、ディジタル信号プロセッサ200(目的音らしさ判定部218)は、高速フーリエ変換器212からの複素スペクトルIN1(f)の絶対値または振幅に応じて、目的音らしさD(f)(0≦D(f)≦1)を生成して同期化係数生成部220に供給する。ディジタル信号プロセッサ200(同期化係数生成部220の同期化係数計算部224)は、目的音らしさD(f)の値および最小受音範囲Rsminを表す情報に従って、周波数f毎に、受音範囲Rs(−2πf/fs≦DIFF(f)<bf)、抑圧範囲Rn(af<DIFF(f)≦+2πf/fs)、および移行範囲Rt(bf≦DIFF(f)≦af)を設定する。
ステップ510において、ディジタル信号プロセッサ200(同期化係数生成部220の同期化係数計算部224)は、位相差DIFF(f)に基づいて、マイクロホンMIC2の入力信号に対するマイクロホンMIC1の入力信号の複素スペクトルの比C(f)を前述のように次の式に従って計算する。
(a) 位相差DIFF(f)が抑圧角度範囲Rn内の角度θに対応する値である場合、同期化係数C(f,i)=Cn(f,i)=αC(f,i−1)+(1−α)IN1(f,i)/IN2(f,i)。
(b) 位相差DIFF(f)が受音角度範囲Rs内の角度θに対応する値である場合、同期化係数C(f)=Cs(f)=exp(−j2πf/fs)またはC(f)=Cs(f)=0。
(c) 位相差DIFF(f)が移行角度範囲Rt内の角度θに対応する値である場合、同期化係数C(f)=Ct(f)、Cs(f)とCn(f)の加重平均。
ステップ514において、ディジタル信号プロセッサ200(フィルタ部300の同期化部332)は、式:INs2(f)=C(f)IN2(f)を計算して複素スペクトルIN2(f)を複素スペクトルIN1(f)に同期化して、同期化されたスペクトルINs2(f)を生成する。
ステップ516において、ディジタル信号プロセッサ200(フィルタ部300の減算部334)は、複素スペクトルIN1(f)から、係数δ(f)を乗じた複素スペクトルINs2(f)を減算し(INd(f)=IN1(f)−δ(f)×INs2(f))、雑音が抑圧された複素スペクトルINd(f)を生成する。
ステップ518において、ディジタル信号プロセッサ200(逆高速フーリエ変換部382)は、同期化係数計算部224からスペクトルINd(f)を受け取って逆フーリエ変換して、オーバラップ加算し、マイクロホンMIC1の位置における時間領域の音信号INd(t)を生成する。
その後、手順はステップ502に戻る。ステップ502〜518は、所要の期間の入力を処理するために所要の時間期間だけ繰り返される。
このようにして、上述の実施形態によれば、マイクロホンMIC1、MIC2の入力信号を周波数領域で処理して入力信号中の雑音を相対的に低減することができる。上述のように入力信号を周波数領域で処理するほうが、入力信号を時間領域で処理するよりも、より高い精度で位相差を検出することができ、従って雑音が低減されたより高い品質の音信号を生成することができる。また、少ない数のマイクロホンからの入力信号を用いて、雑音が充分に抑圧された音信号を生成することができる。上述の2つのマイクロホンからの入力信号の処理は、複数のマイクロホン(図1)の中の任意の2つマイクロホンの組み合わせに適用できる。
上述の実施形態によれば、背景雑音を含む或る録音した音データを処理した場合、通常の抑圧ゲイン約3dBと比較して、約10dB以上の抑圧ゲインが得られるであろう。
図8Aおよび8Bは、センサ192のデータまたはキー入力データに基づいて設定された最小受音範囲Rsminの設定状態を示している。センサ192は話者の身体の位置を検出する。方向決定部194はその検出位置に応じて話者の身体をカバーするように最小受音範囲Rsminを設定する。その設定情報は、同期化係数生成部220の同期化係数計算部224に供給される。同期化係数計算部224は、最小受音範囲Rsminおよび目的音らしさD(f)に基づいて、前述のように、受音範囲Rs、抑圧範囲Rnおよび移行範囲Rtを設定し同期化係数を計算する。
図8Aにおいて、話者の顔はセンサ192の左側に位置し、センサ192は、例えば最小受音範囲Rsminにおける角度位置として角度θ=θ1=−π/4に話者の顔領域Aの中心位置θを検出する。この場合、方向決定部194は、その検出データθ=θ1に基づいて、顔領域A全体を含むように最小受音範囲Rsminの角度範囲を角度πより狭く設定する。
図8Bにおいて、話者の顔はセンサ192の下側または正面側に位置し、センサ192は、例えば最小受音範囲Rsminにおける角度位置として角度θ=θ2=0に話者の顔領域Aの中心位置θを検出する。この場合、方向決定部194は、その検出データθ=θ2に基づいて、顔領域A全体を含むように最小受音範囲Rsminの角度範囲を角度πより狭く設定する。顔の位置の代わりに、話者の身体の位置が検出されてもよい。
センサ192がディジタル・カメラの場合、方向決定部194は、そのディジタル・カメラから取り込んだ画像データを画像認識して、顔領域Aとその中心位置θを判定する。方向決定部194は、顔領域Aとその中心位置θに基づいて最小受音範囲Rsminを設定する。
このようにして、方向決定部194は、センサ192によって検出された話者の顔または身体の検出位置に従って最小受音範囲Rsminを可変設定することができる。代替形態として、方向決定部194は、キー入力に従って最小受音範囲Rsminを可変設定してもよい。そのように最小受音範囲Rsminを可変設定することによって、最小受音範囲Rsminをできるだけ狭くして、できるだけ広い抑圧範囲Rnにおける各周波数の不要な雑音を抑圧することができる。
図1、図4Aおよび4Bを再び参照すると、音声らしさ判定部218からの目的音らしさD(f)≧0.5に対して、同期化係数計算部224は、図4Aの受音範囲Rs=Rsmaxの角度境界θtb=+π/2と設定し、即ち全ての角度範囲を受音範囲と設定してもよい。換言すれば、目的音らしさD(f)≧0.5に対して、受音範囲および抑圧範囲を設定せずに、目的音信号として処理してもよい。音声らしさ判定部218からの目的音らしさD(f)<0.5に対して、同期化係数計算部224は、図4Aの抑圧範囲Rn=Rnmaxの角度境界θta=−π/2と設定し、即ち全ての角度範囲を抑圧範囲と設定してもよい。換言すれば、目的音らしさD(f)<0.5に対して、受音範囲および抑圧範囲を設定せずに、雑音に由来する音信号として処理してもよい。
図9は、メモリ202に格納されたプログラムに従って図3Aおよび3Bのディジタル信号プロセッサ(DSP)200によって実行される複素スペクトルの生成のための別のフローチャートを示している。
ステップ502〜508は、図7のものと同様である。
ステップ529において、ディジタル信号プロセッサ200(目的音らしさ判定部218)は、高速フーリエ変換器212からの複素スペクトルIN1(f)の絶対値または振幅に応じて、目的音らしさD(f)(0≦D(f)≦1)を生成して同期化係数生成部220に供給する。ディジタル信号プロセッサ200(同期化係数生成部220の同期化係数計算部224)は、目的音らしさD(f)の値に従って、周波数f毎に、目的音信号として処理するか、雑音信号として処理するかを判定する。
ステップ530において、ディジタル信号プロセッサ200(同期化係数生成部220の同期化係数計算部224)は、位相差DIFF(f)に基づいて、マイクロホンMIC2の入力信号に対するマイクロホンMIC1の入力信号の複素スペクトルの比C(f)を前述のように次の式に従って計算する。
(a) 目的音らしさD(f)<0.5の場合、同期化係数C(f,i)=Cn(f,i)=αC(f,i−1)+(1−α)IN1(f,i)/IN2(f,i)。
(b) 目的音らしさD(f)≧0.5の場合、同期化係数C(f)=Cs(f)=exp(−j2πf/fs)またはC(f)=Cs(f)=0。
ステップ514〜518は、図7のものと同様である。
このように、受音範囲および抑圧範囲を調整せずまたは設定せずに、目的音らしさD(f)だけに応じて、同期化係数を決定することによって、同期化係数の生成を簡単化することができる。
目的音らしさD(f)の代替的な決定方法として、目的音らしさ判定部218は、位相差計算部222から位相差DIFF(f)を受け取り、方向決定部194またはプロセッサ10から最小受音範囲Rsminを表す情報を受け取ってもよい(図3、破線矢印参照)。位相差計算部222によって求めた位相差DIFF(f)が、図6Cにおける方向決定部194から受け取った最小受音範囲Rsmin内に位置する場合には、目的音らしさ判定部218は目的音らしさD(f)が高くD(f)=1と判定してもよい。一方、位相差DIFF(f)が、図6Cにおける抑圧範囲Rnmaxまたは移行範囲Rtに位置する場合には、目的音らしさ判定部218は目的音らしさD(f)が高くD(f)=0と判定してもよい。図7のステップ509または図9のステップ529において、このようにして目的音らしさD(f)を求めてもよい。この場合にも、図7のステップ510〜518、または図9のステップ530、514〜518がディジタル信号プロセッサ200によって実行される。
代替実施形態において、雑音抑圧を行う同期減算の代わりに、音信号強調を行う同期加算を用いてもよい。その同期加算の処理において、受音方向が受音範囲の場合には同期加算を行い、受音方向が抑圧範囲の場合には同期加算を行わずまたは加算信号の加算比率を小さくすればよい。
ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈できる。また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができる。
100 マイクロホン・アレイ装置
MIC1、MIC2 マイクロホン
122、124 増幅器
142、144 低域通過フィルタ
162、164 アナログ−ディジタル変換器
212、214 高速フーリエ変換器
218 目的音らしさ判定部
200 ディジタル信号プロセッサ
220 同期化係数生成部
222 位相差計算部
224 同期化係数計算部
300 フィルタ部
332 同期化部
334 減算部
382 逆高速フーリエ変換器

Claims (12)

  1. 少なくとも2つのマイクロホンで受音した各音信号を周波数領域に変換した2つのスペクトル信号を用いて雑音を抑制する信号処理装置であって、
    周波数毎に前記2つのスペクトル信号の周波数成分間の位相差を求める第1の計算部と、
    周波数毎に、前記スペクトル信号の周波数成分の値に依存する目的信号らしさを表す値を求めて、前記目的信号らしさを表す値に基づいて、前記スペクトル信号の各周波数成分が雑音を表すかどうかを決定し、雑音を抑圧する音信号抑圧位相差範囲を決定する第2の計算部と、
    前記第2の計算部によって雑音を表すと決定された周波数成分について、求めた位相差が前記音信号抑圧位相差範囲にある場合に、前記2つのスペクトル信号のうちの一方のスペクトル信号の各成分を移相して同期化して、前記同期化されたスペクトル信号を生成し、前記同期化されたスペクトル信号と前記2つのスペクトル信号のうちの他方のスペクトル信号とを、減算または加算により合成して、濾波済みのスペクトル信号を生成するフィルタ部と、
    を具える信号処理装置。
  2. 少なくとも2つのマイクロホンで受音した各音信号を周波数領域に変換した2つのスペクトル信号を用いて雑音を抑制する信号処理装置であって、
    前記2つのスペクトル信号間の位相差を求めて、音源方向を推定する第1の計算部と、
    目的信号らしさを表す値を求めて、周波数毎に、雑音を抑圧する音信号抑圧位相差範囲を決定する第2の計算部と、
    前記求めた位相差が前記音信号抑圧位相差範囲にある場合に、周波数毎に、前記2つのスペクトル信号のうちの一方のスペクトル信号の各成分を移相して同期化して、前記同期化されたスペクトル信号を生成し、前記同期化されたスペクトル信号と前記2つのスペクトル信号のうちの他方のスペクトル信号とを、減算または加算により合成して、濾波済みのスペクトル信号を生成するフィルタ部と、
    を具える信号処理装置。
  3. 前記第2の計算部は、前記目的信号らしさを表す値が大きくなるに従って、前記音信号抑圧位相差範囲をより狭く設定し、雑音を抑圧しない受音位相差範囲を広く設定するものであることを特徴とする、請求項2に記載の信号処理装置。
  4. さらに、前記2つのスペクトル信号のうちの1つのスペクトル信号の振幅の絶対値または該絶対値の2乗値に基づいて、前記目的信号らしさを表す値を判定する判定部を具える、請求項2または3に記載の信号処理装置。
  5. さらに、前記2つのスペクトル信号のうちの1つのスペクトル信号の振幅の絶対値または該絶対値の2乗値の時間的平均値に対する前記1つのスペクトル信号の現在の振幅の絶対値または該絶対値の2乗値の比に基づいて、前記目的信号らしさを表す値を判定する判定部を具える、請求項2または3に記載の信号処理装置。
  6. 前記第2の計算部は、設定されたまたは検出された話者の方向を表す話者方向情報を受け取って、前記話者方向情報に基づいて、前記音信号抑圧位相差範囲を設定するものであることを特徴とする、請求項2乃至5のいずれかに記載の信号処理装置。
  7. 前記フィルタ部は、周波数に応じて減算の度合いを調整する係数が乗じられた前記移相されたスペクトル信号を、前記2つのスペクトル信号のうちの前記他方のスペクトル信号から減じて、前記濾波済みのスペクトル信号を生成し、前記位相差が前記音信号抑圧位相差範囲または受音位相差範囲のいずれにあるかに応じて、前記係数を計算するものであることを特徴とする、請求項2乃至6に記載の信号処理装置。
  8. 前記信号処理装置は、さらに、少なくとも2つの音入力部から入力された時間軸上の音信号のうちの2つの音信号をそれぞれ前記周波数軸上の2つのスペクトル信号に変換する直交変換部を具え、
    前記2つのスペクトル信号間の前記求めた位相差は前記2つの音入力部における音の到来方向を表し、
    前記目的信号らしさは目的音信号らしさであり、
    前記第2の計算部は、さらに、前記2つのスペクトル信号間の前記求めた位相差に応じて、周波数毎に前記一方のスペクトル信号の各成分の移相量を表す同期化係数を計算するものであることを特徴とする、請求項2乃至7のいずれかに記載の信号処理装置。
  9. 前記第2の計算部は、前記位相差が前記抑圧位相差範囲にある場合、周波数毎に時間フレーム毎の前記2つのスペクトル信号の比に基づいて前記同期化係数を計算するものであることを特徴とする、請求項7に記載の信号処理装置。
  10. 複数のマイクロホンで受音して雑音を抑圧する雑音抑圧装置であって、
    少なくとも2つのマイクロホンで受音する各音信号を時間軸上の音信号に変換する受音部と、
    前記受音部によって生成された時間軸上の少なくとも2つの音信号を周波数軸上の少なくとも2つのスペクトル信号に変換する変換部と、
    前記2つのスペクトル信号間の位相差を求る第1の計算部と、
    前記スペクトル信号の各成分の目的信号らしさを表す値を求めて、周波数毎に、雑音を抑圧する音信号抑圧位相差範囲を決定する第2の計算部と、
    前記求めた位相差が前記音信号抑圧位相差範囲にある場合に、周波数毎に、前記2つのスペクトル信号のうちの一方のスペクトル信号の各成分を移相して同期化して、前記同期化されたスペクトル信号を生成し、前記同期化されたスペクトル信号と前記2つのスペクトル信号のうちの他方のスペクトル信号とを、減算または加算により合成して、濾波済みのスペクトル信号を生成するフィルタ部と、
    前記濾波済みのスペクトル信号を時間軸上の音信号に変換して出力する出力部と、
    を具える雑音抑圧装置。
  11. 少なくとも2つのマイクロホンで受音した各音信号を周波数領域に変換した2つのスペクトル信号を用いて雑音を抑制する信号処理装置における信号処理方法であって、
    周波数毎に前記2つのスペクトル信号の周波数成分間の位相差を求める工程と、
    周波数毎に、前記スペクトル信号の周波数成分の値に依存する目的信号らしさを表す値を求めて、前記目的信号らしさを表す値に基づいて、雑音を抑圧する音信号抑圧位相差範囲を決定する工程と、
    前記求めた位相差が前記音信号抑圧位相差範囲にある場合に、周波数毎に、前記2つのスペクトル信号のうちの一方のスペクトル信号の各成分を移相して同期化して、前記同期化されたスペクトル信号を生成し、前記同期化されたスペクトル信号と前記2つのスペクトル信号のうちの他方のスペクトル信号とを、減算または加算により合成して、濾波済みのスペクトル信号を生成する工程と、
    を含む、信号処理方法。
  12. 少なくとも2つのマイクロホンで受音した各音信号を周波数領域に変換した2つのスペクトル信号を用いて雑音を抑制する信号処理装置に用いられるプログラムであって、
    周波数毎に前記2つのスペクトル信号の周波数成分間の位相差を求めるステップと、
    周波数毎に、前記スペクトル信号の周波数成分の値に依存する目的信号らしさを表す値を求めて、前記目的信号らしさを表す値に基づいて、雑音を抑圧する音信号抑圧位相差範囲を決定するステップと、
    前記求めた位相差が前記音信号抑圧位相差範囲にある場合に、周波数毎に、前記2つのスペクトル信号のうちの一方のスペクトル信号の各成分を移相して同期化して、前記同期化されたスペクトル信号を生成し、前記同期化されたスペクトル信号と前記2つのスペクトル信号のうちの他方のスペクトル信号とを、減算または加算により合成して、濾波済みのスペクトル信号を生成するステップ、
    を前記信号処理装置に実行させるための信号処理プログラム。
JP2009148777A 2009-06-23 2009-06-23 信号処理装置、信号処理方法、および信号処理プログラム Active JP5272920B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009148777A JP5272920B2 (ja) 2009-06-23 2009-06-23 信号処理装置、信号処理方法、および信号処理プログラム
DE102010023615.2A DE102010023615B4 (de) 2009-06-23 2010-06-14 Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
US12/817,406 US8638952B2 (en) 2009-06-23 2010-06-17 Signal processing apparatus and signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009148777A JP5272920B2 (ja) 2009-06-23 2009-06-23 信号処理装置、信号処理方法、および信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2011007861A JP2011007861A (ja) 2011-01-13
JP5272920B2 true JP5272920B2 (ja) 2013-08-28

Family

ID=43299265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009148777A Active JP5272920B2 (ja) 2009-06-23 2009-06-23 信号処理装置、信号処理方法、および信号処理プログラム

Country Status (3)

Country Link
US (1) US8638952B2 (ja)
JP (1) JP5272920B2 (ja)
DE (1) DE102010023615B4 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5493850B2 (ja) * 2009-12-28 2014-05-14 富士通株式会社 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP5772648B2 (ja) * 2012-02-16 2015-09-02 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
JP6109927B2 (ja) * 2012-05-04 2017-04-05 カオニックス ラブス リミテッド ライアビリティ カンパニー 源信号分離のためのシステム及び方法
WO2014145960A2 (en) 2013-03-15 2014-09-18 Short Kevin M Method and system for generating advanced feature discrimination vectors for use in speech recognition
EP3950433A1 (en) * 2013-05-23 2022-02-09 NEC Corporation Speech processing system, speech processing method, speech processing program and vehicle including speech processing system on board
JP6156012B2 (ja) * 2013-09-20 2017-07-05 富士通株式会社 音声処理装置及び音声処理用コンピュータプログラム
JP6361271B2 (ja) * 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN107785025B (zh) * 2016-08-25 2021-06-22 上海英波声学工程技术股份有限公司 基于房间脉冲响应重复测量的噪声去除方法及装置
US10555062B2 (en) * 2016-08-31 2020-02-04 Panasonic Intellectual Property Management Co., Ltd. Sound pick up device with sound blocking shields and imaging device including the same
DE102016225204B4 (de) 2016-12-15 2021-10-21 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörgerätes
CN108269582B (zh) * 2018-01-24 2021-06-01 厦门美图之家科技有限公司 一种基于双麦克风阵列的定向拾音方法及计算设备
CN111062978B (zh) * 2019-11-27 2022-02-01 武汉大学 基于频域滤波技术的时空图像测流的纹理识别方法
WO2022219594A1 (en) * 2021-04-14 2022-10-20 Clearone, Inc. Wideband beamforming with main lobe steering and interference cancellation at multiple independent frequencies and spatial locations

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58181099A (ja) 1982-04-16 1983-10-22 三菱電機株式会社 音声識別装置
JPH0790672B2 (ja) 1990-09-28 1995-10-04 三田工業株式会社 用紙処理装置
JPH04225430A (ja) 1990-12-27 1992-08-14 Fujitsu Ltd ストリーム型言語におけるバッファリング方式
EP0802699A3 (en) * 1997-07-16 1998-02-25 Phonak Ag Method for electronically enlarging the distance between two acoustical/electrical transducers and hearing aid apparatus
JP3630553B2 (ja) * 1998-04-14 2005-03-16 富士通テン株式会社 マイクロフォンの指向特性を制御する装置
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
EP1202602B1 (en) * 2000-10-25 2013-05-15 Panasonic Corporation Zoom microphone device
JP4138290B2 (ja) * 2000-10-25 2008-08-27 松下電器産業株式会社 ズームマイクロホン装置
JP4074612B2 (ja) * 2004-09-14 2008-04-09 本田技研工業株式会社 能動型振動騒音制御装置
US8155343B2 (en) * 2005-03-11 2012-04-10 Yamaha Corporation Engine sound processing system
EP1923866B1 (en) 2005-08-11 2014-01-01 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
JP2008216720A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
JP5018193B2 (ja) * 2007-04-06 2012-09-05 ヤマハ株式会社 雑音抑圧装置およびプログラム
JP5034735B2 (ja) * 2007-07-13 2012-09-26 ヤマハ株式会社 音処理装置およびプログラム
US8300801B2 (en) * 2008-06-26 2012-10-30 Centurylink Intellectual Property Llc System and method for telephone based noise cancellation

Also Published As

Publication number Publication date
US8638952B2 (en) 2014-01-28
US20100322437A1 (en) 2010-12-23
DE102010023615B4 (de) 2014-01-02
JP2011007861A (ja) 2011-01-13
DE102010023615A1 (de) 2011-01-05

Similar Documents

Publication Publication Date Title
JP5272920B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP5493850B2 (ja) 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP5338259B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
US8891780B2 (en) Microphone array device
EP3185243B1 (en) Voice processing device, voice processing method, and program
JP5528538B2 (ja) 雑音抑圧装置
JP5446745B2 (ja) 音信号処理方法および音信号処理装置
JP5646077B2 (ja) 雑音抑圧装置
CN110249637B (zh) 使用波束形成的音频捕获装置和方法
WO2010144577A1 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP2010124370A (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP2014137414A (ja) 雑音抑圧装置、方法、及びプログラム
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
WO2018173526A1 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
Tachioka et al. Direction of arrival estimation by cross-power spectrum phase analysis using prior distributions and voice activity detection information
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP3540988B2 (ja) 発音体指向性補正方法およびその装置
JP6263890B2 (ja) 音声信号処理装置及びプログラム
JP6221463B2 (ja) 音声信号処理装置及びプログラム
Lai et al. A novel coherence-function-based noise suppression algorithm by applying sound-source localization and awareness-computation strategy for dual microphones
JP2015025914A (ja) 音声信号処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130429

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5272920

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150