以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態にかかるノイズ低減装置を示すブロック図である。図1に示すように、本実施の形態にかかるノイズ低減装置1は、音声区間判定部11、ノイズ低減処理部12、音圧レベル変化量算出部13、および音圧レベル補償部14を有する。
本実施の形態にかかるノイズ低減装置1は、主として音声成分を含む第1の収音信号(音声信号)21および主としてノイズ成分を含む第2の収音信号(参照信号)22を入力し、収音信号21および収音信号22を用いてノイズ低減処理を実施し、ノイズ低減処理後の信号を出力信号27として出力する。例えば、収音信号21および収音信号22は、図8に示すノイズ低減装置1'のように、音声用マイクロフォン16および参照音用マイクロフォン17を用いてそれぞれ収音することができる。
図8に示す音声用マイクロフォン16は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ18に出力する。参照音用マイクロフォン17は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ19に出力する。参照音用マイクロフォン17で収音された音に含まれるノイズ成分は、音声用マイクロフォン16で収音された音に含まれるノイズ成分を低減するために用いられる。
なお、図8に示すノイズ低減装置1'では、2つのマイクロフォンを備える構成を示しているが、例えば参照音用マイクロフォンを更に追加してマイクロフォンを3つ以上設けてもよい。つまり、図1に示すノイズ低減装置1に3つ以上の収音信号を入力するように構成してもよい。
ADコンバータ18は、音声用マイクロフォン16から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号21を生成する。ADコンバータ19は、参照音用マイクロフォン17から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号22を生成する。
例えば、音声用マイクロフォン16および参照音用マイクロフォン17に入力される音声の周波数帯域は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ18、19におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。
図1に示すように、収音信号21は、音声区間判定部11、ノイズ低減処理部12、および音圧レベル変化量算出部13に供給される。また、収音信号22はノイズ低減処理部12に供給される。なお、本明細書では、主に音声成分を含む収音信号21を音声信号とも記載し、主にノイズ成分を含む収音信号22を参照信号(ノイズ信号)とも記載する。
音声区間判定部11は、供給された収音信号21に基づき音声区間を判定する。そして、音声区間判定部11は、音声区間を示す音声区間情報23、24を、ノイズ低減処理部12および音圧レベル変化量算出部13にそれぞれ出力する。
音声区間判定部11における音声区間判定処理には任意の技術を用いることができる。なお、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間とノイズ区間を判定することが好ましく、例えば、後述する音声ノイズ区間検出技術Aや音声ノイズ区間検出技術Bを用いることで、音声区間およびノイズ区間を高い精度で検出することができる。音声には人の声以外の音も含まれるが、これらの例では、主に人の声を検出する。なお、音声ノイズ区間検出技術Aは、一例として、特願2010−260798に基づく優先権を主張する出願である特願2011−254578にも記載されている。また、音声ノイズ区間検出技術Bは、一例として、特願2011−020459にも記載されている。
最初に、音声区間判定技術Aについて説明する。音声区間判定技術Aでは、音声の主要部分である母音成分の持つ周波数スペクトルに着目し、音声区間を判定している。音声区間判定技術Aでは、適切なノイズレベルを帯域毎に設定し、母音周波数成分のピークとの信号対ノイズレベル比を求め、信号対ノイズレベル比が所定のレベル比かつ所定のピーク数であるか否かを観察することで、音声区間を判定している。
図2は、音声区間判定技術Aを用いた音声区間判定部11'の一例を示すブロック図である。図2に示す音声区間判定部11'は、フレーム化部31、スペクトル生成部32、帯域分割部33、周波数平均部34、保持部35、時間平均部36、ピーク検出部37、および音声判定部38を備える。
フレーム化部31は、収音信号21を予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、フレーム化入力信号と称す)を生成する。
スペクトル生成部32は、フレーム化部31から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。本実施の形態において、スペクトル生成部32は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。
後述する音声判定部38が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。
帯域分割部33は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンの各スペクトルを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。本実施の形態において、予め定められた帯域幅は、100Hzから150Hz程度の帯域幅とする。
周波数平均部34は、分割周波数帯域毎の平均エネルギーを求める。本実施の形態では、周波数平均部34は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。
保持部35は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施の形態においてはNとする)のフレーム分保持する。
時間平均部36は、分割周波数帯域毎に、周波数平均部34で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。また、時間平均部36は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。
ピーク検出部37は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise ratio)を導出する。そして、ピーク検出部37は、スペクトル毎のSNRと、予め定められた第1閾値とを比較し、第1閾値を超えるか否かを判定する。SNRが第1閾値を超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部38に出力する。
音声判定部38は、フォルマントが検出されたという情報をピーク検出部37から受け付けると、ピーク検出部37の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。音声判定部38は、フレーム化入力信号が音声であると判定した場合、ノイズ低減処理部12および音圧レベル変化量算出部13に音声区間情報23、24をそれぞれ出力する。
図2に示す音声区間判定部11'は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部38は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。
上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。よって、音声判定部38は、SNRが第1閾値を超えるスペクトルが所定数以上である場合、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。
以上で説明したように、音声区間判定技術Aを用いた音声区間判定部11'は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部31と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部32と、スペクトルパターンの各スペクトルと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部37と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部38と、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出する周波数平均部34と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部36と、を備える。
例えば、音声判定部38は、エネルギー比が第1閾値を超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定することができる。
次に、音声区間判定技術Bについて説明する。音声区間判定技術Bでは、子音の特徴であるスペクトルパターンが右上がりになる傾向があるという性質に着目して、音声区間を判定している。音声区間判定技術Bでは、子音のスペクトルパターンを中高域の周波数帯において測定し、更に部分的にノイズ成分によって埋没してしまった子音の周波数分布の特徴を、ノイズの影響があまり無かった帯域に特化して抽出することで、音声区間を高精度で判定することを可能にしている。
図3は、音声区間判定技術Bを用いた音声区間判定部11''の一例を示すブロック図である。音声区間判定部11''は、フレーム化部41、スペクトル生成部42、帯域分割部43、平均導出部44、ノイズレベル導出部45、判定選択部46、および子音判定部47を備える。
フレーム化部41は、収音信号21を予め定められた時間幅を有するフレーム単位で順次切り出し、フレーム単位の入力信号であるフレーム化入力信号を生成する。
スペクトル生成部42は、フレーム化部41から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFTやDCT等の直交変換法を用いるとよい。
帯域分割部43は、スペクトル生成部42が生成したスペクトルパターンの各スペクトルを、予め定められた帯域幅毎に分割し、複数の分割周波数帯域を生成する。本実施の形態において、帯域分割部43は、例えば、800Hz〜3.5kHzの周波数範囲について、例えば、100Hz〜300Hz程度の帯域幅毎に分割する。
平均導出部44は、スペクトルパターンにおける、連接する、帯域分割部43が分割した分割周波数帯域(バンド)毎の平均エネルギーである帯域別平均エネルギーを導出する。
子音判定部47は、平均導出部44が導出した帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、そのフレーム化入力信号に子音が含まれると判定する。
一般的に、子音はスペクトルパターンが右上がりになる傾向がある。そこで、音声区間判定技術Bを用いた音声区間判定部11''は、スペクトルパターンにおける帯域別平均エネルギーを導出し、その帯域別エネルギー同士を比較することで子音に特徴的な、スペクトルパターンにおける右上がりの傾向を検出する。そのため、音声区間判定部11''は、入力信号に子音が含まれる子音区間を精度よく検出することができる。
子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた第1閾値以上であると、子音が含まれると判定する第1判定手段を備える。また、子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計測し、更にこの組み合わせが帯域を跨いで連続する場合に重み付けをして計数し、計数した計数値が、予め定められた第2閾値以上であると、子音が含まれると判定する第2判定手段を備える。子音判定部47は、第1判定手段と第2判定手段をそれぞれノイズレベルに応じて使い分ける。
ここで、第1判定手段と第2判定手段とを適宜選択すべく、ノイズレベル導出部45は、フレーム化入力信号のノイズレベルを導出する。例えば、ノイズレベルは、フレーム化入力信号のすべての周波数帯域の帯域別平均エネルギーの平均値とすることができる。また、ノイズレベル導出部45は、フレーム化入力信号毎にノイズレベルを導出してもよいし、所定時間分のフレーム化入力信号のノイズレベルの平均値を用いてもよい。判定選択部46は、導出されたノイズレベルが所定の閾値未満の場合、第1判定手段を選択し、所定の閾値以上の場合、第2判定手段を選択する。
以上で説明したように、音声区間判定技術Bを用いた音声区間判定部11''は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部41と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部42と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部44と、導出された帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、フレーム化入力信号に子音が含まれると判定する子音判定部47と、を備える。
例えば、子音判定部47は、スペクトルパターンの隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値以上であると、子音が含まれると判定することができる。
なお、本実施の形態にかかるノイズ低減装置に上記の音声区間判定技術A、Bを適用する場合、製品毎にパラメータを設定することができる。すなわち、より確実な音声区間の判定が要求される製品に音声区間判定技術A、Bを適用する場合、音声区間判定のパラメータとしてより厳しい閾値を設定することができる。
図1に示すノイズ低減装置1が備えるノイズ低減処理部12は、少なくとも2つの収音信号21、22を用いてノイズ低減処理を実施する。つまり、ノイズ低減処理部12は、主としてノイズ成分を含む収音信号22を用いて、主として音声成分を含む収音信号21に含まれるノイズ成分を低減する。このように、収音信号21に含まれるノイズ成分を低減することで、音声の聞き取りやすさを改善することができる。
図4は、本実施の形態にかかるノイズ低減装置1が備えるノイズ低減処理部12の一例を示すブロック図である。図4に示すノイズ低減処理部12は、適応フィルタ51、適応係数調整部52、および加算器53を有する。
適応フィルタ51は、主としてノイズ成分を含む収音信号22を入力し、この収音信号22を用いて、収音信号21に含まれている可能性があるノイズ成分を擬似的に生成し、疑似ノイズ信号55として出力する。ここで、疑似ノイズ信号55は、収音信号21に対して位相反転された信号である。
加算器53は、収音信号21と位相反転された疑似ノイズ信号55とを加算することで、ノイズ低減処理後の信号25を生成する。また、加算器53は、収音信号21と位相反転された疑似ノイズ信号55とを加算することでフィードバック信号56を生成し、適応係数調整部52に出力する。
適応係数調整部52は、音声区間情報23に応じて、適応フィルタ51の係数を調整する。つまり、適応係数調整部52は、音声区間情報23が音声区間を示さない場合(ノイズ区間の場合)、適応誤差が少なくなるように係数を調整する。一方、音声区間情報23が音声区間を示している場合、適応フィルタ51の係数を維持するか、または係数を微調整するのみとする。
図5は、図4に示したノイズ低減処理部12を詳細に説明するための図である。図5では、適応フィルタ51をFIR(Finite Impulse Response)フィルタで構成した例を示している。図5に示す適応フィルタ51は、遅延素子61_1〜61_n、乗算器62_1〜62_n+1、および加算器63_1〜63_nを備える。遅延素子61_1〜61_n、乗算器62_1〜62_n+1、および加算器63_1〜63_nを用いて収音信号22を処理することで、擬似ノイズ信号55が生成される。
適応係数調整部52は、乗算器62_1〜62_n+1の係数を調整する。つまり、適応係数調整部52は、音声区間情報23が音声区間を示さない場合(ノイズ区間の場合)、疑似ノイズ信号55と収音信号21との差分(フィードバック信号56)が最小化されるように適応フィルタ51の係数を調整する。これにより、適応フィルタ51から出力される疑似ノイズ信号55を、音声用マイクロフォンで収音された収音信号21に含まれるノイズ成分に近づけることができる。
一方、音声区間情報23が音声区間を示している場合は、収音信号21に音声成分が含まれている。この場合は、音声成分の影響により適応フィルタ51の係数がノイズ成分に適応せず収束しないおそれもある。よって、安定的に適応フィルタ51の係数を更新するためには、音声区間情報23が音声区間を示している場合は、適応フィルタ51の係数を維持するか、または係数を微調整するのみとすることが望ましい。
図1に示すノイズ低減装置1が備える音圧レベル変化量算出部13は、音声区間判定部11から出力された音声区間情報24が音声区間を示している場合、収音信号21とノイズ低減処理部12から出力されたノイズ低減処理後の信号25とを用いて、収音信号21に対するノイズ低減処理後の信号25の音圧レベルの変化量を算出する。音圧レベル変化量算出部13で算出された音圧レベル変化量26は、音圧レベル補償部14に出力される。
すなわち、音圧レベル変化量算出部13は、ノイズ低減処理部12から出力されたノイズ低減処理後の信号25の品質が適正であるかを判定するために、収音信号21の音圧レベルとノイズ低減処理後の信号25の音圧レベルとを比較する。そして、音圧レベル変化量算出部13は、収音信号21の音圧レベルとノイズ低減処理後の信号25の音圧レベルとの差である音圧レベル差を算出し、この音圧レベル差を音圧レベル変化量26として出力することができる。
ノイズ低減処理部12で用いられる適応フィルタは、参照音用マイクロフォンからみた、音声用マイクロフォンに混入するノイズ成分の音響的な空間特性フィルタを導出する。適応フィルタは、主なノイズ源が存在する方向から到来する信号成分を減衰する働きを持つ。ノイズの到来方向は、音声用マイクロフォンの位置を中心とする3次元的な方向全てに渡っており、適応フィルタの作用も全ての方向において同様となる。よって、音声用マイクロフォンに向かって話者が話している際に、話者の後方からノイズ成分が到来した場合は、ノイズの到来方向の信号成分(音声成分とノイズ成分とを含む)がキャンセルされるために、音声成分もキャンセルされることになる。また、ノイズの到来方向が異なる場合であっても、話者の音声の音声用マイクロフォンに対する進入角度とノイズ成分の音声用マイクロフォンに対する進入角度とが近似する場合は、ノイズ低減処理部12がノイズ成分をキャンセルする際に音声成分もキャンセルしてしまうため、ノイズ低減処理後の信号25の音圧レベルが低下してしまう。
図4や図5に示したノイズ低減処理部12では、収音信号21に対して位相反転された疑似ノイズ信号55を収音信号21と加算することでノイズ低減処理を実施している。ここで、疑似ノイズ信号55は適応フィルタ51の係数の精度等に依存するため、ノイズ低減処理後の信号25の音圧レベルは、本来の音声信号である収音信号21の音圧レベルとは一致しない。しかし、音声成分に対するキャンセル作用が僅かな場合は、ノイズ低減処理後の信号25において大きな音圧レベルの低下は発生しない。つまり、収音信号21とノイズ低減処理後の信号25との音圧レベル差は発生しないか、発生したとしても極わずかとなる。本実施の形態にかかるノイズ低減装置では、音声レベル変化量算出部13においてノイズ低減処理前の収音信号21とノイズ低減処理後の信号25との音圧レベル差を算出し、この音圧レベル差を所定の閾値と比較することで、ノイズ低減処理部12において音声成分がキャンセルされている状況をモニタすることができる。
このとき、音声レベル変化量算出部13において正確に音圧レベル変化量(音圧レベル差)を算出するには、音声が発せられている区間においてのみ、音圧レベル差を算出する必要がある。よって、音声区間判定部11において非常に高い確率で音声と判定されている区間を音声区間とし、音声区間判定部11から音声区間であることを示す音声区間情報24が出力された場合に、音声レベル変化量算出部13において音圧レベル差を算出する。ここで、音声レベル変化量算出部13において算出される音圧レベル差は、音圧レベル補償部14においてノイズ低減処理後の信号25の音圧レベルを補償(調整)する際の基準値(音圧補償レベル基準値)となる。
通常、話者が音声を発話する場合は、単語の切れ目や息継ぎをするタイミングなどがあるため断続的になる。このような場合、音声区間判定部11において音声区間であると判定されるタイミングも断続的となり、音声区間を示す音声区間情報23、24も離散的になる。音声の場合、局所的(単音単位)に見れば音圧レベルの強弱は大きくなる。しかし、大局的(文節単位以上)に見ると、一定の音圧レベルが保たれていると考える方が自然である。この状況は、環境ノイズについても同様である。よって、ノイズ低減処理部(適応フィルタ)12の特性も緩やかな変化であるとみなすことができるため、離散的に取得した音圧補償レベル基準値(音圧レベル差に対応する)は、次に音声区間判定部11において音声区間であると判定されるまで保持しておく(更新しない)ことが好ましい。
また、音声区間判定部11における音声区間判定はある時間幅を有する信号を用いて音声であるか否かを検出するものである。よって、音圧レベル差に関する情報も、音声区間判定の場合と同様の時間幅を単位として算出することができる。例えば、収音信号21とノイズ低減処理後の信号25との音圧レベル差は、単位時間幅におけるパワー量を用いて算出することができる。
図6は、本実施の形態にかかるノイズ低減装置が備える音圧レベル変化量算出部13の一例を示すブロック図である。図6に示す音圧レベル変化量算出部13は、信号バッファ71、信号パワー算出部72、信号バッファ73、信号パワー算出部74、および音圧レベル差算出部75を備える。図6に示す音圧レベル変化量算出部13は、ある一定の単位時間における収音信号21およびノイズ低減処理後の信号25の音圧レベル差を算出することができる。また、音圧レベル変化量算出部13は、音声区間判定部11から出力された音声区間情報24が音声区間を示しているタイミングで音圧レベル差を算出する。
信号バッファ71は、単位時間分の収音信号21を蓄積するために、供給された収音信号21を一時的に蓄積する。信号バッファ73は、単位時間分の信号25を蓄積するために、供給された信号25を一時的に蓄積する。
信号パワー算出部72は、信号バッファ71に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。また、信号パワー算出部74は、信号バッファ73に蓄積された単位時間分の信号を用いて、単位時間当たりのパワー値を算出する。
ここで、単位時間当たりのパワー値とは、単位時間における収音信号21および信号25の大きさであり、例えば、単位時間における収音信号21および信号25の振幅(絶対値)の最大値や平均値、単位時間における収音信号21および信号25の振幅(絶対値)の積分値等を用いることができる。なお、本実施の形態では、収音信号21および信号25の大きさを示す値であれば、パワー値として上記の最大値や積分値以外の値を用いてもよい。
音圧レベル差算出部75は、信号パワー算出部72で求めた収音信号21のパワー値と、信号パワー算出部74で求めた信号25のパワー値との差である音圧レベル差を算出し、算出された音圧レベル差を音圧レベル変化量26として音圧レベル補償部14に出力する。
音圧レベル補償部14は、音圧レベル変化量算出部13で算出された音圧レベル変化量26に応じて、ノイズ低減処理後の信号25の音圧レベルを補償(調整)する。例えば、音圧レベル補償部14は、収音信号21の音圧レベルとノイズ低減処理後の信号25の音圧レベルとの差である音圧レベル差の絶対値が所定の閾値以上となった場合に、ノイズ低減処理後の信号25の音圧レベルを補償する。このとき、例えば、音圧レベル補償部14は、音圧レベル差に対応した増幅率でノイズ低減処理後の信号25を増幅してもよい。また、音圧レベル補償部14は、急なゲイン調整を抑制するために、音圧レベル差が所定の上限値を超えた場合は、当該上限値に対応した増幅率でノイズ低減処理後の信号25を増幅するようにしてもよい。
また、音圧レベル変化量算出部13から音圧レベル変化量26として出力される音圧レベル差は、時間方向において階段状に変化する。よって、音圧レベル補償部14においてノイズ低減処理後の信号25の音圧レベルを補償(調整)する際に、音圧レベル差を基準値(音圧補償レベル基準値)としてそのまま用いると、調整後の出力信号27の変動が大きくなる。また、ノイズ成分の急激な変動は聞く側に聴感的に耳障りな印象を与えてしまうため、音圧レベルの変動を滑らかにする緩和処理を実施することが好ましい。つまり、音圧レベル補償部14は、音圧レベル差に対応した増幅率でノイズ低減処理後の信号を増幅した後、この増幅率を徐々に低減させる緩和処理(スムージング処理)を実施してもよい。この緩和処理は、図7に示すような音圧補償レベル基準値92による階段状の波形に対して、例えばローパスフィルタ処理を施すことや、後述する音圧レベル調整値93を徐々に低減させる処理を行うことで実現できる。
次に、本実施の形態にかかるノイズ低減装置1の動作について説明する。図7は、本実施の形態にかかるノイズ低減装置1の動作の一例を説明するための図である。図7では、ノイズ低減処理部12の適応フィルタにおいて好ましくない疑似ノイズ信号55が生成されたために、ノイズ低減処理後の信号25の音圧レベルが低下した際の、音声区間と判定されたタイミング(各々、矢印91で示す)、音圧補償レベル基準値(各々、黒丸92で示す)、および実際に用いる音圧レベル調整値93を時間軸方向に示している。
ここで、音声区間と判定されたタイミング(各々、矢印91で示す)は、音声区間判定部11において音声区間と判定されたタイミングであり、より好ましくは、高確率で音声と判定されたタイミングである。例えば、音声区間であるか否かを判定するための閾値を調整し、収音信号21に音声成分が含まれると判定されにくくすれば、より音声らしい区間(音声である確率が高い区間)を検出できる。また、音圧補償レベル基準値(各々、黒丸92で示す)は、音圧レベル変化量算出部13から音圧レベル変化量26として出力された音圧レベル差である。つまり、音圧補償レベル基準値は、音圧レベル補償部14において音圧レベルの補償を実施する際の増幅率を決定する際の基準値となる。また、音圧レベル調整値93は、音圧レベル補償部14において音圧レベルを補償する際の増幅率、つまり、ノイズ低減処理後の信号25を増幅する際の増幅率に対応している。
また、図7では、音圧レベル補償部14において音圧レベルの変動を滑らかにする緩和処理を実施している場合を示している。つまり、音圧レベル調整値93の変動を滑らかにするために、音圧レベル調整値93を音圧レベル差(音圧補償レベル基準値)に対応した値に設定した後、この設定された音圧レベル調整値93が徐々に低減するようにしている。なお、本実施形態においては、音圧レベル調整値93を音圧レベル差に対応した値に設定する際も、緩やかに変動させている。
更に、図7では、音圧レベルを補償する際の音圧レベル差の閾値を+6dBとしている。つまり、音圧レベル差が+6dBよりも小さい場合(0dBも含む)は、音圧レベルの補償を実施しない。ただし、音圧レベル差の絶対値が+6dBよりも小さい場合であっても、図7に示すタイミングG、Hなどのように、音圧レベル調整値93を徐々に低減させている途中の場合は、低減中の音圧レベル調整値93を用いて音圧レベルを補償する。
また、図7では、音圧レベル調整値93の上限値を+12dBとしている。つまり、+12dBを超える音圧レベル差を検出しても、実際に用いる音圧レベル調整値は+12dBに抑えている。このように、音圧レベル調整値に上限値を設けたのは、音圧レベル補償部14において、ノイズ低減処理後の信号25が過度な増幅率で増幅されることを抑制するためである。なお、上記で説明した音圧レベル差の閾値および音圧レベル調整値93の上限値は一例であり、これらの値は任意に設定することができる。
次に、図7に示す動作について具体的に説明する。音声区間と判定されたタイミングAでは、音圧補償レベル基準値(音圧レベル差)が閾値である+6dBよりも小さいため、音圧レベルの補償は実施されない。
音声区間と判定されたタイミングBでは、音圧補償レベル基準値が閾値である+6dB以上であるため、音圧レベル補償部14において音圧レベルが補償される。このとき、音圧レベル調整値93が0dBから音圧補償レベル基準値と同一の値となるように調整される。タイミングBは音声区間であるため、ノイズ低減処理後の信号25は多くの音声成分を含む信号である。よって、音圧レベル調整値93を比較的急峻に立ち上げても、音質的な違和感を与えることは少ない。また、ノイズ低減処理後の信号25に含まれるノイズ成分は少ないため、音圧レベル調整値93を急峻に立ち上げても、ノイズ成分に起因する不連続感等の違和感を与える可能性は低い。
また、タイミングBでは、音圧レベル調整値93を音圧補償レベル基準値と同一の値へと調整した後、一定期間、調整後の音圧レベル調整値93を保持し、その後、徐々に音圧レベル調整値93を低減させている。このように、徐々に音圧レベル調整値93を低減させることで、出力信号27の音圧レベルの変動を滑らかにすることができる。よって、ノイズ成分の変動による違和感の軽減とノイズ低減処理の効果の両立を図ることができる。
音声区間と判定されたタイミングC、D、Eでは、音圧補償レベル基準値(音圧レベル差)が閾値である+6dB以上であるため、音圧レベル補償部14において音圧レベルが補償される。この場合も、音圧レベル調整値93が各々の音圧補償レベル基準値と同一の値となるように調整される。また、タイミングC、D、Eでは、音圧レベル調整値93を各々の音圧補償レベル基準値と同一の値へと調整した後、一定期間、調整後の音圧レベル調整値93を保持し、その後、徐々に音圧レベル調整値93を低減させている。
音声区間と判定されたタイミングFでは、音圧補償レベル基準値(音圧レベル差)が閾値である+6dB以上であり、更に音圧レベル調整値93の上限値である+12dBを超えている。この場合は、音圧レベル調整値93が上限値である+12dBに抑えられる。ノイズ低減処理部12を用いても所望のノイズ低減効果が得られない状況下では、適応フィルタ51で生成される疑似ノイズ信号55の影響により、ノイズ低減処理後の信号25に含まれる音声信号の音圧レベルが不安定となる可能性が高い。よって、音圧レベル調整値93に上限値を設けることで、ノイズ低減処理後の信号25が音圧レベル補償部14において過度な増幅率で増幅されることを抑制することができる。
また、タイミングFでは、音圧レベル調整値93を+12dBへと調整した後、一定期間、調整後の音圧レベル調整値93を保持し、その後、徐々に音圧レベル調整値93を低減させている。
音声区間と判定されたタイミングGでは、音圧補償レベル基準値(音圧レベル差)は閾値である+6dBよりも小さい。タイミングGは、音圧レベル調整値93を徐々に低減させている途中であるので、音圧レベル調整値93が音圧補償レベル基準値を超えている。このとき、音圧レベル調整値93を音圧補償レベル基準値と同一とすると、必要以上に音圧レベル調整値93を下げることになり、音圧レベルの変動が急激となる。よって、この場合、音圧レベル補償部14は、低減途中の音圧レベル調整値93を用いて音圧レベルを補償する。
音声区間と判定されたタイミングHでは、音圧補償レベル基準値(音圧レベル差)は閾値である+6dBよりも小さい。しかし、タイミングHは、音圧レベル調整値93を徐々に低減させている途中であるので、低減中の音圧レベル調整値93を用いて音圧レベルを補償する。
音声区間と判定されたタイミングI、J、Kでは、音圧補償レベル基準値(音圧レベル差)は閾値である+6dBよりも小さい。また、音圧レベル調整値93も0dBとなっているので、音圧レベル補償部14は、音圧レベルの補償を実施しない。
高確率で音声と判定される音声区間は、文節において強い母音などの音声を検出できる区間であることが望ましい。このような音声区間では、他の部分よりもノイズの影響を受けにくく、音圧レベル差を取得するにはよい時間帯であるといえる。また、図7に示した音圧レベル補償処理は、文節全体にわたる数秒から数十秒間の変化の軌跡である。このとき、音声区間(強い音声部分)では本来の音圧レベルに引き上げられ、他の部分では増幅率を徐々に低減させる緩和処理により音圧レベルの急激な変動を抑えることができる。よって、音圧レベル補償部14において音圧レベル補償処理が施された後の出力信号27は、良好な音声信号となる。
背景技術で説明したように、ノイズ低減処理技術では、例えば、音声を主に収音するマイクロフォンによって収音された音声信号から、ノイズを主に収音するマイクロフォンによって収音されたノイズ信号(参照信号)を差し引くことで、音声信号に含まれるノイズ成分を除去している。
しかしながら、主として音声成分を含む音声信号と主としてノイズ成分を含む参照信号とを用いてノイズ低減処理を実施する場合、ノイズ低減装置の使用状況によっては、参照信号に音声成分も混入する場合があった。このように、参照信号に音声成分が混入すると、ノイズ低減処理を実施した際に音声信号に含まれる音声成分もキャンセルされてしまい、ノイズ低減処理後の信号の音圧レベルが低下するという問題があった。
すなわち、例えば、作業用機械の動作音などのかなり大きな騒音が発生している工場内や雑踏や交差点などで用いられることが多い、トランシーバーのような携帯型の無線通信装置(図10参照)では、マイクロフォンに混入するノイズ成分の低減が必要となる。携帯電話と違い、本体側のスピーカーから送信される音声を耳元から離した状態で聞くといった使われ方をする無線通信装置は、一般的に身体から離れた状態で所持する。また、無線通信装置の持ち方にも様々なスタイルがある。
更に、無線通信装置本体から収音部と再生部を分離し携帯性を高めたスピーカーマイクロフォン装置(図9に示す音声入力装置を参照)は、利便性のある使用形態を提供可能である。例えば、音声入力装置を首からぶら下げたり肩に置いたりなど、話者がマイクロフォンに向かうこと意識することなく会話を行うような使用形態や、音声入力装置の表側よりむしろ音声入力装置の背面に近い方向からしゃべるような使用形態もある。このような場合は、音声の到来方向は理想的な到来方向(例えば、音声用マイクロフォンの正面方向)とはならない。
したがって、トランシーバー(音声入力装置や無線通信装置)のような装置に対して適応フィルタを用いたノイズ低減処理を実施する場合は、参照信号にも音声成分が含まれることを前提としなければならず、音声信号の音圧レベルの低下を抑制する技術が必要となる。
前述の特許文献1には、適応フィルタにおけるフィルタ係数を観察し、音声成分が打ち消される状態を検出することで、音声の明瞭性を維持する方法が開示されている。この方法によれば、主として音声を収音する音声用マイクロフォンと、音声の到来方向に対し感度が低い主としてノイズを収音する参照音用マイクロフォンを配置している。そして、適応フィルタにて処理をする際に、音声の到来方向に近い成分をノイズキャンセル信号として生成する状況になった場合、適応フィルタ係数全体にかかる利得因子を調整して適応フィルタ処理に制限をかけることで、音声成分の音圧レベルの低下を防止している。
しかしながら、特許文献1にかかる技術では、音声用マイクロフォン側に音源が存在することを前提としている。また、参照音用マイクロフォンに指向性を持たせているため、参照音用マイクロフォンに音声成分が混入する可能性があるトランシーバーで使用することは困難である。
また、前述の特許文献2にかかる技術では、誤差信号の音圧レベルまたは入力信号の音圧レベルを調整することで音声信号の音圧レベルの低下を防止している。しかしながら、音声の音圧レベルを維持するために雑音信号である誤差信号の音圧レベルを制御するか、又は雑音信号が混入した入力信号(遅延信号を含む)の音圧レベルを制御するかの何れかを実施するため、音声信号の音圧レベルを維持する一方、ノイズ低減効果が得られないという問題がある。
更に、特許文献2に開示されている適応フィルタを用いたノイズ低減処理では、自らの信号を用いてフィルタリング処理によるノイズキャンセル処理を実施している。このため、混入する音声信号の影響を強く受け、音声信号区間中のノイズ成分を減ずることができない。また、システムの構成上、適応フィルタ出力信号に誤差信号を加算してシステム出力信号としている。しかし、音声信号区間中の適応フィルタ出力信号若しくは入力信号と誤差信号をそのまま加算してもノイズ低減効果は得られず、音圧レベル制御を付加したからといって音声の明瞭度は向上しない。
このように、特許文献1や特許文献2に開示されている技術を用いたとしても、音声の音圧レベルを十分に維持することができないという問題があった。
そこで本実施の形態にかかるノイズ低減装置では、高い確率で音声と判定されている音声区間において、収音信号21に対するノイズ低減処理後の信号25の音圧レベルの変化量(音圧レベル差)を音圧レベル変化量算出部13で算出し、音圧レベル補償部14において、音圧レベル変化量算出部13で算出された変化量(音圧レベル差)に応じてノイズ低減処理後の信号25の音圧レベルを補償している。
よって、本実施の形態にかかるノイズ低減装置では、ノイズ低減処理後の信号25の音圧レベルが低下した場合に、音圧レベル変化量算出部13で算出された変化量(音圧レベル差)に対応した増幅率でノイズ低減処理後の信号25を増幅することができるので、出力信号27の音圧レベルの低下を抑制することができる。
また、本実施の形態にかかるノイズ低減装置では、音圧レベルの変動を滑らかにする緩和処理を実施してもよい。つまり、音圧レベル補償部14は、音圧レベル差に対応した増幅率でノイズ低減処理後の信号25を増幅した後、この増幅率を徐々に低減させる緩和処理を実施してもよい。このような処理を実施することで、音圧レベル変化量算出部13から出力された音圧レベル差が時間方向において階段状に変化した場合であっても、出力信号27が大きく変動することを抑制することができる。これにより、ノイズ成分の急激な変動を抑制することができ、聴感上の違和感を抑制することができる。よって、様々な環境下においても十分なノイズ低減効果を発揮しつつ、音声の明瞭度を向上させることができるノイズ低減装置を提供することができる。
次に、本実施の形態にかかるノイズ低減装置を用いた音声入力装置について説明する。図9は、本実施の形態にかかるノイズ低減装置を用いた音声入力装置500の一例を示す図である。図9(a)は、音声入力装置500の前面図であり、図9(b)は、音声入力装置500の背面図である。図9に示すように、音声入力装置500はコネクタ503を介して無線通信装置510に接続可能に構成されている。無線通信装置510は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置510には音声入力装置500を介して話者の音声が入力される。
音声入力装置500は、本体501、コード502、及びコネクタ503を有する。本体501は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図9(a)に示すように、本体501の前面にはスピーカー506および音声用マイクロフォン505が設けられている。図9(b)に示すように、本体501の背面には参照音用マイクロフォン508およびベルトクリップ507が設けられている。本体501の頂面には、LED509が設けられている。本体501の側面にはPTT(Push To Talk)504が設けられている。LED509は、音声入力装置500による話者の音声の検出状態を話者に対して報知する。PTT504は、無線通信装置510を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。
本実施の形態にかかるノイズ低減装置1'(図8参照)は音声入力装置500に内蔵されており、ノイズ低減装置1'が備える音声用マイクロフォン16が音声入力装置500の音声用マイクロフォン505に対応し、ノイズ低減装置1'が備える参照音用マイクロフォン17が音声入力装置500の参照音用マイクロフォン508に対応している。また、ノイズ低減装置1'から出力される出力信号27は、音声入力装置500のコード502を経由して無線通信装置510に供給される。すなわち、音声入力装置500は、ノイズ低減装置1'でノイズ低減処理された後の出力信号27を、無線通信装置510に供給する。よって、無線通信装置510から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、図8のような実施形態において、無線通信装置510にノイズ低減装置1を内蔵するような構成にしてもよい。
次に、本実施の形態にかかるノイズ低減装置を用いた無線通信装置(トランシーバー)600について説明する。図10は、本実施の形態にかかるノイズ低減装置を用いた無線通信装置600の一例を示す図である。図10(a)は、無線通信装置600の前面図であり、図10(b)は、無線通信装置600の背面図である。図10に示すように、無線通信装置600は、入力ボタン601、表示部602、スピーカー603、音声用マイクロフォン604、PTT(Push To Talk)605、スイッチ606、アンテナ607、参照音用マイクロフォン608、および蓋609を備える。
本実施の形態にかかるノイズ低減装置1'(図8参照)は無線通信装置600に内蔵されており、ノイズ低減装置1'が備える音声用マイクロフォン16が無線通信装置600の音声用マイクロフォン604に対応し、ノイズ低減装置1'が備える参照音用マイクロフォン17が無線通信装置600の参照音用マイクロフォン608に対応している。また、ノイズ低減装置1'から出力される出力信号27は、無線通信装置600の内部回路において高周波処理されて、アンテナ607から他の無線通信装置に無線送信される。ここで、ノイズ低減装置1'から出力される出力信号27はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。ユーザによるPTT605の押下により音の送信が開始されたときに、ノイズ低減処理を開始し、ユーザがPTT608の押下を中止して、音の送信が終了したときに、ノイズ低減処理を終了しても良い。
以上、本発明を上記実施形態に即して説明したが、上記実施形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。例えば、音声用マイクロフォン11と参照音用マイクロフォン12とを機器上部(又は下部)のほぼ同じ位置に設けて、指向性が異なるようにこれらのマイクロフォンを配置してもよい。例えば、音声用マイクロフォン11と参照音用マイクロフォン12の指向性が180°異なるように配置することが好ましい。