本発明の骨子は、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて音声情報のみを強調するコムフィルタを周波数領域で生成して雑音を抑圧することである。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声処理装置の構成を示すブロック図である。図1において、音声処理装置は、時間分割部101と、窓掛け部102と、FFT部103と、周波数分割部104と、ノイズベース推定部105と、音声非音声識別部106と、コムフィルタ生成部107と、減衰係数計算部108と、乗算部109と、周波数合成部110と、IFFT部111と、から主に構成される。
時間分割部101は、入力された音声信号から所定時間単位で区切られたフレームを構成し、窓掛け部102に出力する。窓掛け部102は、時間分割部101から出力されたフレームにハニングウインドウを利用したウインドウ処理を行ってFFT部103に出力する。FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトル信号を周波数分割部104に出力する。
周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数領域単位の周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109とに出力する。なお、周波数成分は、所定の周波数単位で分割された音声スペクトルを示すものである。
ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを音声非音声識別部106に出力する。また、ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
具体的には、式(1)を用いて各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
ここで、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号、τは遅延時間を示す。また、S2 f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、α(k)は移動平均係数を示す。
音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを減衰係数計算部108に出力する。具体的には、コムフィルタ生成部107は、コムフィルタの有音部分の周波数成分をオン、無音部分の周波数成分をオフにする。
減衰係数計算部108は、コムフィルタ生成部107において生成されたコムフィルタの値に基づき、またコムフィルタの値が無音部分を示す場合には周波数に応じて、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
例えば、以下の式(2)から減衰係数gain(k)を算出して入力信号に乗算することもできる。
ここでgcは定数、kはビンを特定する変数、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数である。
乗算部109は、周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
周波数合成部110は、乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、周波数合成部110から出力された音声スペクトルにIFFT(Inverse Fast Fourier Transform)を行って音声信号に変換した信号を出力する。
次に、上記構成を有する音声処理装置の動作について図2に示すフロー図を用いて説明する。図2において、ステップ(以下「ST」という)201では、入力信号に前処理を行う。この場合、前処理とは、入力信号から所定の時間単位のフレームを構成して窓かけ処理を行い、音声スペクトルに高速フーリエ変換を行うことである。
ST202では、周波数分割部104が音声スペクトルを周波数成分に分割する。ST203では、ノイズベース推定部105が、α(k)=0であるか否か、つまりノイズベース更新を停止するか否かを判断して、α(k)=0の場合、ST205に進み、α(k)=0でない場合、ST204に進む。
ST204では、ノイズベース推定部105が音声成分の含まれていない音声スペクトルからノイズベースを更新し、その後ST205に進む。ST205では、音声非音声識別部106が、Sf 2(n,k)>Qup・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より大きいか否かを判断し、Sf 2(n,k)>Qup・Pbase(n,k)である場合、ST206に進み、Sf 2(n,k)>Qup・Pbase(n,k)でない場合、ST208に進む。
ST206では、音声非音声識別部106が、ノイズベース更新停止を示すα(k)=0を設定する。ST207では、コムフィルタ生成部107が、音声スペクトルを減衰せずに出力することを示すSP_SWITCH(k)=ONを設定して、ST211に進む。ST208では、音声非音声識別部106が、Sf 2(n,k)<Qdown・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より小さいか否かを判断し、Sf 2(n,k)<Qdown・Pbase(n,k)である場合、ST209に進み、Sf 2(n,k)<Qdown・Pbase(n,k)でない場合、ST211に進む。
ST209では、音声非音声識別部106が、ノイズベース更新を示すα(k)=SLOWを設定する。ここで、SLOWは所定の定数である。ST210では、コムフィルタ生成部107が音声スペクトルを減衰して出力することを示すSP_SWITCH(k)=OFFを設定して、ST211に進む。
ST211では、減衰係数計算部108が、音声スペクトルを減衰しないか減衰か、つまりSP_SWITCH(k)=ONであるか否かを判断する。ST211においてSP_SWITCH(k)=ONである場合、ST212では、減衰係数計算部108が減衰係数を1に設定し、ST214に進む。ST211においてSP_SWITCH(k)=ONでない場合、ST213では、減衰係数計算部108が周波数に応じた減衰係数を計算して設定し、ST214に進む。
ST214では、乗算部109が周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。ST215では、周波数合成部110が乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成する。ST216では、IFFT部111が、周波数合成部110から出力された音声スペクトルにIFFTを行って雑音を抑圧した信号を出力する。
次に、本実施の形態の音声処理装置で用いるコムフィルタについて説明する。図3は、本実施の形態にかかる音声処理装置で作成されるコムフィルタの例を示す図である。図3において、縦軸はスペクトルのパワ及び、フィルタの減衰度を示し、横軸は周波数を示す。
コムフィルタは、S1に示す減衰特性を持ち、減衰特性は、周波数成分毎に設定される。コムフィルタ生成部107は、音声成分を含まない周波数領域の信号を減衰し、音声信号を含む周波数領域の信号を減衰しない減衰特性のコムフィルタを作成する。
雑音成分を含む音声スペクトルS2は、S1の減衰特性を持つコムフィルタをかけることにより、雑音成分を含む周波数領域の信号が減衰されてパワが小さくなり、音声信号を含む部分は減衰されずパワが変化しない。得られた音声スペクトルは、雑音成分の周波数領域がより低くなりピークが失われずに強調されたスペクトル形状となり、ピッチ調波情報が失われない雑音を抑圧した音声スペクトルS3が出力される。
このように、本発明の実施の形態1に係る音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。
また、音声識別において2つの閾値を設けることにより、精度の高い音声非音声を判別することができる。
なお、減衰係数計算部108において、雑音の周波数特性に応じた減衰係数の計算を行うことにより、高い周波数にある子音を損なわずに音声強調を行うこともできる。
また、各周波数成分において入力信号の減衰を二値で行い、音声と判別する場合、減衰を行わず、雑音と判別する場合、減衰を行うこともできる。この場合、強い雑音抑圧を行っても音声のある周波数成分は減衰されないので音声の歪の少ない音声強調を行うことができる。
(実施の形態2)
図4は、実施の形態2にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図4の音声処理装置は、ノイズ区間判別部401とノイズベース追跡部402と、を具備してフレーム単位で信号の音声非音声判別を行い、ノイズレベルの急激な変化を検出して、速やかにノイズベースを推定して更新する点が図1と異なる。
図4において、FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトルを周波数分割部104とノイズ区間判別部401に出力する。
ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別する。
具体的には、ノイズ区間判別部401は、以下の式(3)及び式(4)を用いて入力信号のパワーの変化率を算出する。
ここで、P(n)は、1フレームの信号パワー、S2 f(n,k)は、入力信号パワースペクトル、Ratioは、過去に処理を行ったフレームと処理を行うフレームの信号パワー比、τは遅延時間である。
ノイズ区間判別部401は、Ratioがあらかじめ設定した閾値を一定時間連続して超えた場合、入力信号を音声信号と判断し、連続して超えない場合をノイズ区間と判断する。
ノイズベース追跡部402は、音声区間からノイズ区間に移ったと判断した場合、所定のフレーム数の処理を行う間、ノイズベースの更新における処理フレームからノイズベースの推定する影響の度合いを大きくする。
具体的には式(1)においてα(k)=FAST、(0<SLOW<FAST<1)に設定する。α(k)の値が大きいほど、移動平均値が入力された音声信号の影響を受けやすくなり、ノイズベースの急激な変化に対応することができる。
ノイズベース推定部105は、音声非音声識別部106又はノイズベース追跡部402からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、これらの値から各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
このように、本発明の実施の形態2に係る音声処理装置によれば、入力された信号から推定した雑音スペクトルの値を大きく反映させてノイズベースの更新を行うことにより、ノイズレベルの急激な変化に対応したノイズベースの更新を行うことができ、音声歪の少ない音声強調を行うことができる。
(実施の形態3)
図5は、実施の形態3にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図5の音声処理装置は、ミュジカルノイズ抑制部501とコムフィルタ修正部502を具備してフレームに突発性ノイズが含まれる場合に、生成されたコムフィルタを修正して突発性ノイズに起因するミュジカルノイズの発生を抑圧する点が、図1と異なる。
図5において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成してミュジカルノイズ抑制部501、及びコムフィルタ修正部502に出力する。
ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果をコムフィルタ修正部502に出力する。
例えば、以下の式(5)を用いてコムフィルタ
COMB_ON(n,k)でオンになっている周波数成分
kの数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
コムフィルタ修正部502は、ミュジカルノイズ抑制部501からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。
具体的には、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを減衰係数計算部108に出力する。
減衰係数計算部108は、コムフィルタ修正部502から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
このように、本発明の実施の形態3に係る音声処理装置によれば、コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。
なお、実施の形態3は、実施の形態2と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。
(実施の形態4)
図6は、実施の形態4にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図6の音声処理装置は、平均値計算部601を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1と異なる。
図6において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
平均値計算部601は、周波数分割部104から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値をノイズベース推定部105と音声非音声識別部106に出力する。
具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、平均値計算部601から出力された音声スペクトルの平均値の周波数成分毎に短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
このように、本発明の実施の形態4に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、より正確なコムフィルタを構成することができる。
なお、実施の形態4は、実施の形態2あるいは実施の形態3と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図6の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
(実施の形態5)
図7は、実施の形態5にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図7の音声処理装置は、区間判別部701とコムフィルタリセット部702を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1と異なる。
図7において、FFT部103は、窓掛け部102から出力された音声信号にFFTを行い、音声スペクトル信号を周波数分割部104と区間判別部701に出力する。
区間判別部701は、FFT部103から出力された音声スペクトルが音声を含むか否か判断して判断結果をコムフィルタリセット部702に出力する。
コムフィルタリセット部702は、区間判別部701から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ生成部107にすべての周波数成分のコムフィルタをオフにする指示を出力する。
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して減衰係数計算部108に出力する。また、コムフィルタ生成部107は、コムフィルタリセット部702の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにしたコムフィルタを生成して減衰係数計算部108に出力する。
このように、本発明の実施の形態5に係る音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。
なお、実施の形態5は、実施の形態2あるいは実施の形態3と組み合わせることができる。
すなわち、図7の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図7の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
また、実施の形態5は、実施の形態4と組み合わせることができる。すなわち、図7の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
(実施の形態6)
図8は、実施の形態6にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図8の音声処理装置は、音声ピッチ周期推定部801と音声ピッチ修復部802を具備し、音声とノイズの判定が難しい周波数領域でノイズと判断されて失われるピッチ調波情報を補う点が、図1と異なる。
図8において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109と、音声ピッチ周期推定部801と、音声ピッチ修復部802に出力する。
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して音声ピッチ周期推定部801、及び音声ピッチ修復部802に出力する。
音声ピッチ周期推定部801は、コムフィルタ生成部107から出力されたコムフィルタと周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部802に出力する。
例えば、生成されたコムフィルタの中でオンの状態が連続せずに一つの周波数成分をオフにする。次に、コムフィルタの中でパワーの大きい周波数成分を二本抽出したピッチ周期推定用コムフィルタを生成して、以下に示す自己相関関数の式(7)からピッチ周期を求める。
ここで、PITCH(k)は、ピッチ周期推定用コムフィルタの状態を表し、k1は周波数の上限、τはピッチの周期を表し、τは、0からピッチの最大周期であるτ1までの値をとる。
式(7)のγ(τ)が最大値をとるτをピッチ周期として求める。実際には、高周波数領域において周波数ピッチの形状は、不明確になりやすいのでk1に中間の周波数の値を用いる。例えば、k1=2kHzと設定する。また、PITCH(k)の取りうる値を0と1にすることにより式(7)の計算を簡単に行うこともできる。
音声ピッチ修復部802は、音声ピッチ周期推定部801から出力された推定結果に基づいてコムフィルタの修正を行い、減衰係数計算部108に出力する。具体的には、推定されたピッチ周期情報に基づいて一定の周波数成分毎にピッチを補う、又はピッチ周期毎に存在するコムフィルタがオンになった周波数成分の連続である櫛状の帯域の幅を広げるなどの処理を行い、ピッチ調波構造の修復を行う。
減衰係数計算部108は、音声ピッチ修復部802から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
図9に、本実施の形態にかかる音声処理装置におけるコムフィルタの修復の例を示す。図9において、縦軸は減衰度を示し、横軸は、周波数成分を示す。具体的には、横軸には、256の周波数成分があり、0kHzから4kHzの領域を示す。
C1は生成されたコムフィルタを、C2はコムフィルタC1にピッチの修復を行ったコムフィルタを、C3は、コムフィルタC2にピッチの幅を修正したコムフィルタを示す。
コムフィルタC1は、100から140までの周波数成分でピッチ情報が失われている。音声ピッチ修復部802は、音声ピッチ周期推定部801において推定されたピッチ周期情報に基づいてコムフィルタC1の100から140までの周波数成分にあるピッチ情報を補う。これによりコムフィルタC2が得られる。
次に、音声ピッチ修復部802は、周波数分割部104から出力された音声スペクトルに基づいてコムフィルタC2のピッチ調波の幅を修正する。これによりコムフィルタC3が得られる。
このように、本発明の実施の形態6に係る音声処理装置によれば、ピッチ周期情報を推定して、ノイズと判別されて失われたピッチ調波情報を補うことにより、原音声に近い音声の状態で、かつ音声歪の少ない音声強調を行うことができる。
なお、実施の形態6は、実施の形態2あるいは実施の形態5と組み合わせることができる。
すなわち、図8の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図8の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができる。
また、実施の形態6は、実施の形態3と組み合わせることができる。すなわち、図8の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
この場合、ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果を音声ピッチ周期推定部801に出力する。
コムフィルタ修正部502は、音声ピッチ修復部802からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。
また、実施の形態6は、実施の形態4と組み合わせることができる。すなわち、図8の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
(実施の形態7)
図10は、実施の形態7にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図4と共通する構成については図1及び図4と同一番号を付し、詳しい説明を省略する。図10の音声処理装置は、閾値自動調整部1001を具備し、ノイズの種類に応じて音声識別の閾値を調整する点が、図1又は図4と異なる。
図10において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して閾値自動調整部1001に出力する。
ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別し、判別結果を閾値自動調整部1001に出力する。
閾値自動調整部1001は、ノイズ区間判別部401から出力された判別結果からフレームに音声信号が含まれていない場合、コムフィルタ生成部107から出力されたコムフィルタに基づいて音声非音声識別部106の閾値を変更する。
具体的には、以下の式(8)を用いて生成されたコムフィルタ
COMB_ON(n,k)のオンの状態である周波数成分
kの数の総和COMB_SUMを算出する。
この総和が所定の上限値より大きくなった場合、音声非音声識別部106の閾値を大きくする指示を、この総和が所定の下限値より小さくなった場合、音声非音声識別部106の閾値を小さくする指示を音声非音声識別部106に出力する。
ここで、n1は、過去に処理を行ったフレームを特定する番号であり、n2は処理を行うフレームを特定する番号である。
例えば、フレームに振幅のばらつきの小さいノイズが含まれる場合、音声非音声識別の閾値を低く設定し、フレームに振幅のばらつきの大きいノイズが含まれる場合、音声非音声識別の閾値を高く設定する。
このように、本発明の実施の形態に係る音声処理装置によれば、音声を含まないフレームの中で音声が含まれると誤って判断される周波数成分の数に基づいて、音声スペクトルの音声非音声識別に用いる閾値の変更を行うことにより、ノイズの種類に対応した音声の判別を行い、音声歪の少ない音声強調を行うことができる。
なお、実施の形態7は、実施の形態2あるいは実施の形態3と組み合わせることができる。
すなわち、図10の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図10の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
また、実施の形態7は、実施の形態4と組み合わせることができる。すなわち、図10の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
また、実施の形態7は、実施の形態5あるいは実施の形態6と組み合わせることができる。すなわち、図10の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができ、図10の音声処理装置に音声ピッチ周期推定部801及び音声ピッチ修復部802を追加することにより実施の形態6の効果も得ることができる。
(実施の形態8)
図11は、実施の形態8にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図11の音声処理装置は、ノイズベース推定部1101と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、音声ピッチ推定部1104と、第一コムフィルタ生成部1105と、第二コムフィルタ生成部1106と、音声ピッチ修復部1107と、コムフィルタ修正部1108と、音声分離係数計算部1109とを具備し、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造の修復に用いるノイズベースをそれぞれ異なる条件で生成する点が、図1の音声処理装置と異なる。
図11において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、及び音声ピッチ推定部1104に出力する。
ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。
また、ノイズベース推定部1101は、第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
具体的には、ノイズベース推定部1101は、式(9)または式(10)を用いて各周波数成分におけるノイズベースを推定して第一音声非音声識別部1102または第二音声非音声識別部1103に出力する。
ここで、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号、τは遅延時間を示す。また、S2 f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、αは移動平均係数を示す。
第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれていない判定結果が出力された場合、ノイズベース推定部1101は、式(9)より得られたノイズベースを出力する。また、第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、ノイズベース推定部1101は、式(10)より得られたノイズベースを出力する。
第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
第一音声非音声識別部1102では、第一コムフィルタ生成部1105がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。
具体的には、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値
θ low と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のフィルタの値を「1」とする。
また、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値
θ low と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のコムフィルタの値を「0」とする。
ここで、kは、周波数成分を特定する番号であり、以下に示す式(13)の値を満たす。HBは、音声信号に高速フーリエ変換を行う場合のデータ点数を示す。
第二コムフィルタ生成部1106は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して音声ピッチ修復部1107に出力する。
具体的には、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値
θ high と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、
式(11−2)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「1」とする。
また、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値
θ high と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、
式(12−2)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「0」とする。
音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。
例えば、音声ピッチ推定部1104は、生成されたコムフィルタの通過域における音声スペクトルパワに以下に示す自己相関関数の式(14)を用いてピッチ周期を求める。
ここで、COMB_low(k)は、第一コムフィルタ生成部1105において生成された第一コムフィルタを示す。k1は、周波数の上限値を示す。また、τは、ピッチの周期を示し、「0」からピッチの最大周期までの値をとる。
そして、音声ピッチ推定部1104は、γ(τ)が、最大値をとるτを音声ピッチ周期として求める。実際の処理では、高周波数領域においてピッチ調波の形状は不明確になることが多いので、k1に中間の周波数の値を用い、音声信号の周波数領域のうち、低周波数側半分についてピッチ周期の推定を行う。例えば、音声ピッチ推定部1104は、k1=2kHzに設定して音声ピッチ周期の推定を行う。
音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
以下、図を用いて音声ピッチ修復部1107の具体的な動作について説明する。図12、図13、図14、及び図15は、コムフィルタの一例を示す図である。
音声ピッチ修復部1107は、第二コムフィルタの通過領域のピークを抽出し、ピッチ基準コムフィルタを生成する。図12のコムフィルタは、第二コムフィルタ生成部1106において生成された第二コムフィルタの一例である。また、図13のコムフィルタは、ピッチ基準コムフィルタの一例である。図13のコムフィルタでは、図12のコムフィルタからピークの情報のみを抽出し、通過領域の幅の情報がなくなっている。
そして、音声ピッチ修復部1107は、ピッチ基準コムフィルタのピークとピークの間隔を算出し、ピークとピークの間隔が、所定の閾値を超えた場合、音声ピッチ推定部1104のピッチの推定結果から欠落したピッチの挿入を行い、ピッチ挿入コムフィルタを生成する。図14のコムフィルタは、ピッチ挿入コムフィルタの一例である。図14のコムフィルタでは、周波数成分番号50から100付近及び200から250にピークが挿入されている。
そして、音声ピッチ修復部1107は、ピッチの値に応じてピッチ挿入コムフィルタの通過領域のピークの幅を広げてピッチ修復コムフィルタを生成し、コムフィルタ修正部1108に出力する。図15のコムフィルタは、ピッチ修復コムフィルタの一例である。図15のコムフィルタでは、図14のピッチ挿入コムフィルタに通過領域の幅の情報が付加されている。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
具体的には、コムフィルタ修正部1108は、ピッチ修復コムフィルタと第一コムフィルタの通過領域を比較して両方のコムフィルタにおいて通過領域となっている部分を通過領域とし、この通過領域以外を、信号を減衰する阻止領域としてコムフィルタを生成する。
以下、コムフィルタ修正の一例を示す。図16、図17、及び図18は、コムフィルタの一例を示す図である。図16のコムフィルタは、第一コムフィルタ生成部1105において生成された第一コムフィルタである。また、図17のコムフィルタは、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタである。図18は、コムフィルタ修正部1108において修正されたコムフィルタの一例である。
音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタの値に基づき、またその値が阻止領域を示す場合は周波数に応じて、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。
例えば、音声分離係数計算部1109は、ある周波数成分を特定する番号kにおいて、コムフィルタ修正部1108において修正されたコムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、
分離係数seps(k)を1とする。また、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(15)から
分離係数seps(k)を算出する。
ここで、gcは定数、kは周波数成分を特定する番号、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数を示す。
乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
このように、本実施の形態の音声処理装置によれば、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造修復に用いるノイズベースをそれぞれ異なる条件で生成することにより、音声情報を多く抽出し、かつ雑音情報の影響を受け難いコムフィルタを生成して正確なピッチ調波構造の修復を行うことができる。
具体的には、本実施の音声処理装置によれば、音声と判断する条件を厳しくした第二コムフィルタを基準にしたピッチ周期の推定結果を反映させて欠落したと推測されるピッチを挿入してコムフィルタのピッチ調波構造を修復することにより、ピッチ調波の欠落による音声歪を減少することができる。
また、本実施の形態の音声処理装置によれば、コムフィルタのピッチ幅をピッチ周期の推定結果から調整することにより正確にピッチ調波構造を修復することができる。音声と厳しく判断して作成したコムフィルタのピッチ調波構造を修復したコムフィルタの通過領域と音声と緩く判断して作成したコムフィルタの通過領域の重複部分を通過領域とし、この重複する通過領域以外を阻止領域とするコムフィルタを作成することにより、ピッチ周期の推定の誤差による影響を低減することができ、正確なピッチ調波構造の修復ができる。
なお、本実施の形態の音声処理装置は、コムフィルタの阻止領域の音声分離係数を、音声スペクトルに分離係数を乗算して算出し、コムフィルタの通過領域の音声分離係数を、音声スペクトルからノイズベースを減算して算出することもできる。
例えば、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(16)から分散係数seps(k)を算出する。
ここで、Pmax(n)は、所定の範囲の周波数成分kでのPbase(n、k)の最大値を示す。式(16)では、フレーム毎にノイズベース推定値の正規化を行い、その逆数を用いて分離係数とする。
そして、コムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、以下の式(17)から
分離係数seps(k)を算出する。
ここで、γは、ノイズベースを差し引く量を示す係数である。
このように、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの阻止領域にノイズベースの情報から算出した分離係数を乗算することにより、異なるノイズ特性に対しても最適な分離係数を算出することができ、ノイズ特性に対応した音声強調を行うことができる。また、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの通過領域に音声スペクトルからノイズベースを減算して算出した分離係数を乗算することにより、音声歪みの少ない音声強調を行うことができる。
また、本実施の形態は、実施の形態2と組み合わせることもできる。すなわち、図11の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。
(実施の形態9)
図19は、実施の形態9にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。
図19の音声処理装置は、SNR計算部1901と、音声雑音フレーム検出部1902とを具備し、音声信号のSNR(Signal Noise Ratio)を計算し、SNRからフレーム単位で音声信号から音声フレームまたは雑音フレームを区別して検出し、音声フレームのみピッチ周期の推定を行う点が、図1又は図11と異なる。
図19において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、乗算部109と、SNR計算部1901に出力する。
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108とSNR計算部1901に出力する。
SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第一コムフィルタ生成部1105から出力された第一コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。例えば、SNR計算部1901は、以下の式(18)を用いてSNRを計算する。
ここで、COMB_low(k)は、第一コムフィルタを示す。また、kは周波数成分を示し、0以上かつ音声信号に高速フーリエ変換を行う場合のデータ点数の半数より小さい値をとる。
音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1903に出力する。具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
図20に、上記音声雑音フレーム検出部1902の音声/雑音判断の動作をプログラムで表現した例を示す。図20は、本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図である。図20のプログラムでは、SNRが所定の閾値以下であるフレームが10以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
音声ピッチ推定部1903は、音声雑音フレーム検出部1902が音声フレームと判断する場合、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。ピッチ周期推定の動作は、実施の形態8の音声ピッチ推定部1104と同様の動作を行う。
音声ピッチ修復部1107は、音声ピッチ推定部1903から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
このように、本実施の形態の音声処理装置によれば、コムフィルタの通過領域に対応する音声スペクトルのパワの和と、コムフィルタの阻止領域に対応する音声スペクトルのパワの和との比を求めてSNRとし、このSNRが所定の閾値以上であるフレームのみを用いてピッチ周期を推定することにより、雑音によるピッチ周期推定の誤りを低減することができ、音声歪の少ない音声強調を行うことができる。
なお、本実施の形態の音声処理装置は、第一コムフィルタからSNRを計算しているが、第二コムフィルタを用いてSNRを計算してもよい。この場合、第二コムフィルタ生成部1106は、作成した第二コムフィルタをSNR計算部1901に出力する。そして、SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第二コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。
(実施の形態10)
図21は、実施の形態10にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図21の音声処理装置は、第一コムフィルタ生成部2101と、第一ミュジカルノイズ抑圧部2102と、第二コムフィルタ生成部2103と、第二ミュジカルノイズ抑圧部2104とを具備し、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断する点が、図1又は図11と異なる。
図21において、第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
第一音声非音声識別部1102では、第一コムフィルタ生成部2101がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部2101に出力する。
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部2103に出力する。
第一コムフィルタ生成部2101は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成して第一ミュジカルノイズ抑圧部2102に出力する。第一コムフィルタ生成の具体的な動作は、実施の形態8の第一コムフィルタ生成部1105と同様の動作を行う。そして、第一コムフィルタ生成部2101は、第一ミュジカルノイズ抑圧部2102において修正された第一コムフィルタをコムフィルタ修正部1108に出力する。
第一ミュジカルノイズ抑圧部2102は、第一コムフィルタ
COMB_SUM_low(k)の各周波数成分
kの状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。例えば、以下の
式(5−2)を用いてコムフィルタでオンになっている周波数成分の数を計算し、
COMB_SUM_lowがある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
そして、第一ミュジカルノイズ抑圧部2102は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第一コムフィルタ生成部2101に出力する。
第二コムフィルタ生成部2103は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して第二ミュジカルノイズ抑圧部2104に出力する。第二コムフィルタ生成の具体的な動作は、実施の形態8の第二コムフィルタ生成部1106と同様の動作を行う。そして、第二コムフィルタ生成部2103は、第二ミュジカルノイズ抑圧部2104において修正された第二コムフィルタを音声ピッチ修復部1107に出力する。
第二ミュジカルノイズ抑圧部2104は、第二コムフィルタCOMB_SUM_high(k)の各周波数成分kの状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。
例えば、以下の
式(5−3)を用いてコムフィルタでオンになっている周波数成分の数を計算し、
COMB_SUM_highがある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
そして、第二ミュジカルノイズ抑圧部2104は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第二コムフィルタ生成部2103に出力する。
音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタ生成部2103から出力された第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部2101において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
このように、本実施の形態の音声処理装置によれば、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。
(実施の形態11)
図22は、実施の形態11にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図22の音声処理装置は、平均値計算部2201を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1又は図11と異なる。
図22において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101と、第一音声非音声識別部1102と、乗算部109と、平均値計算部2201に出力する。
平均値計算部2201は、周波数分割部104から出力された音声スペクトルのパワーについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を第二音声非音声識別部1103に出力する。
具体的には、以下に示す式(19)を用いて音声スペクトルの平均値を算出する。
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
第二音声非音声識別部1103は、平均値計算部2201から出力された音声スペクトル信号の平均値とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
このように、本発明の実施の形態11に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、音声情報のみをとりだす第二コムフィルタをより正確に生成することができる。
(実施の形態12)
図23は、実施の形態12にかかる音声処理装置の構成の例を示すブロック図である。但し、図1、図11及び図19と共通する構成については図1、図11及び図19と同一番号を付し、詳しい説明を省略する。図23の音声処理装置は、コムフィルタリセット部2301を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1、図11又は図19と異なる。
図23において、音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1104に出力する。
具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。そして、音声雑音フレーム検出部1902は、判断結果を、音声ピッチ推定部1104とコムフィルタリセット部2301に出力する。
コムフィルタリセット部2301は、音声雑音フレーム検出部1902から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ修正部1108にすべての周波数成分のコムフィルタをオフにする指示を出力する。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
また、コムフィルタ修正部1108は、コムフィルタリセット部2301の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにした第一コムフィルタを生成して音声分離係数計算部1109に出力する。
このように、本実施の形態の音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。
(実施の形態13)
図24は、実施の形態13にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図24の音声処理装置は、雑音分離コムフィルタ生成部2401と、雑音分離係数計算部2402と、乗算部2403と、雑音周波数合成部2404とを具備し、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行い、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成して雑音の特性を抽出する点が、図1の音声処理装置と異なる。
音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105と雑音分離コムフィルタ生成部2401に出力する。
雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。
具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のフィルタの値を「1」とする。
また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θ
nosは、雑音分離に用いる閾値である。
雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。具体的には、雑音分離係数計算部2402は、コムフィルタCOMB_nos(k)の値が0、すなわち阻止領域である場合、雑音分離係数sepn(k)=1とする。
そして、コムフィルタCOMB_nos(k)の値が1、すなわち通過領域である場合、以下の式(22)から雑音分離係数sepn(k)を算出する。
ここで、rd(i)は、ランダム関数で均一分布の乱数で構成される。また、kはビンを特定する変数であり、kのとりうる範囲は0以上、FFT変換長つまり高速フーリエ変換を行うデータ数の半数未満である。
乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。
雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。
このように、本実施の形態の音声処理装置は、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成でき、雑音の特性を抽出することができる。また、コムフィルタの阻止域において雑音成分を減衰せず、コムフィルタの通過域において雑音成分をノイズベースの推定値と乱数を乗算して再構成することにより良好な雑音分離特性を得ることができる。
(実施の形態14)
図25は、実施の形態14にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。
図25の音声処理装置は、SNR計算部2501と、音声雑音フレーム検出部2502と、雑音コムフィルタリセット部2503と、雑音分離コムフィルタ生成部2504とを具備し、入力音声信号において音声成分を含まないフレームに対する雑音分離コムフィルタの周波数通過域を全て阻止域とする点が、図1及び図24の音声処理装置と異なる。
SNR計算部2501は、周波数分割部104から出力された音声スペクトルから出力された第一コムフィルタから音声信号のSNRを計算し、計算結果を音声雑音フレーム検出部2502に出力する。
音声雑音フレーム検出部2502は、SNR計算部2501から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を雑音コムフィルタリセット部2503に出力する。具体的には、音声雑音フレーム検出部2502は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
雑音コムフィルタリセット部2503は、音声雑音フレーム検出部2502における判定結果が、入力音声信号のフレームに音声成分が含まれず雑音成分のみである判定結果である場合、雑音分離コムフィルタ生成部2504にコムフィルタの全ての周波数通過域を阻止域に変換する指示を出力する。
雑音分離コムフィルタ生成部2504は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。
具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のフィルタの値を「1」とする。
また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θ
nosは、雑音分離に用いる閾値である。
また、雑音分離コムフィルタ生成部2504は、雑音コムフィルタリセット部2503からコムフィルタの全ての周波数通過域を阻止域に変換する指示を受け取った場合、指示に従いコムフィルタの全ての周波数通過域を阻止域に変換する。
このように、本実施の形態の音声処理装置によれば、入力音声信号のフレームが音声を含まず、雑音成分のみと判断した場合、コムフィルタの全ての周波数通過域を阻止域に変換することにより、音声を含まない信号区間でノイズを全帯域でカットすることができ、良好な雑音分離特性が得られる。
(実施の形態15)
図26は、実施の形態15にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。図26の音声処理装置は、平均値計算部2601を具備し、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求める点が、図1及び図24の音声処理装置と異なる。
平均値計算部2601は、乗算部2403から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を雑音周波数合成部2404に出力する。具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
このように、本発明の実施の形態15に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなる。
(実施の形態16)
図27は、実施の形態16にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図27の音声処理装置は、図11の音声処理装置と図24の音声処理装置を組み合わせて、音声強調と雑音抽出とを行う例である。
図27において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、音声ピッチ推定部1104、乗算部2403、及び第三音声非音声識別部2701に出力する。
ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。同様に、ノイズベース推定部1101は、第三音声非音声識別部2701からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第三音声非音声識別部2701に出力する。
また、ノイズベース推定部1101は、第一音声非音声識別部1102、第二音声非音声識別部1103、または第三音声非音声識別部2701からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。第一音声非音声識別部1102では、第一コムフィルタ生成部1105が音声ピッチ情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。
そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。
音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルから音声ピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタに周波数特性に基づいた分離係数を乗算し、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
第三音声非音声識別部2701は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第三音声非音声識別部2701は、判定結果をノイズベース推定部1101と雑音分離コムフィルタ生成部2401に出力する。
雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。
乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部2702に出力する。
IFFT部2702は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。
このように、本実施の形態の音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。また、同時に雑音抽出を行うこともできる。
なお、本発明の音声処理装置は、実施の形態16の音声処理装置の例に限らず、上記各実施の形態は、それぞれ組み合わせて適用することができる。
また、上記いずれかの実施の形態に係る音声強調及び雑音抽出は、音声処理装置として説明しているが、この音声強調及び雑音抽出をソフトウェアにより実現することもできる。例えば、上記音声強調及び雑音抽出を行うプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作するようにしてもよい。
また、上記音声強調及び雑音抽出を行うプログラムをコンピュータ読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access Memory)に記録して、コンピュータをそのプログラムに従って実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
また、上記音声強調を行うプログラムをサーバに格納し、サーバに格納されたプログラムをクライアントに転送して、クライアント上でそのプログラムを実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
また、上記いずれかの実施の形態に係る音声処理装置は、無線通信装置、通信端末、基地局装置等に搭載することもできる。この結果、通信時の音声を音声強調または雑音抽出できる。