WO2005124739A1

WO2005124739A1 - 雑音抑圧装置および雑音抑圧方法

Info

Publication number: WO2005124739A1
Application number: PCT/JP2005/009859
Authority: WO
Inventors: Youhua Wang; Takuya Kawashima; Koji Yoshida
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-06-18
Filing date: 2005-05-30
Publication date: 2005-12-29
Also published as: CN1969320A; JPWO2005124739A1; EP1768108A1; EP1768108A4; US20080281589A1

Abstract

　音声歪みを低減しつつ雑音抑圧精度を向上することができる雑音抑圧装置を開示する。この装置において、抑圧部は、雑音成分を含む音声パワスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、音声パワスペクトルから雑音成分を抑圧する。ピッチ調波構造抽出部（１０５）は、音声パワスペクトルからピッチ調波パワスペクトルを抽出する。有声性判定部（１０６）は、抽出されたピッチ調波パワスペクトルに基づいて、音声パワスペクトルの有声性を判定する。ピッチ調波構造修復部（１０８）は、抽出されたピッチ調波パワスペクトルを修復する。帯域別有音／雑音修正部（１０９）は、修復されたピッチ調波パワスペクトルおよび抽出されたピッチ調波パワスペクトルのうち、有声性判定部（１０６）による判定の結果に従って選択されるピッチ調波パワスペクトルに基づいて、検出結果を修正する。

Description

明細書

雑音抑圧装置および雑音抑圧方法

技術分野

[0001] 本発明は、雑音抑圧装置および雑音抑圧方法に関し、特に、音声通信装置や音声認識装置に用いられ背景雑音を抑圧する雑音抑圧装置および雑音抑圧方法に関する。

背景技術

[0002] 一般に、低ビットレート音声符号化装置は、背景雑音のない音声に対しては高品質な音声での通話を提供することができるが、背景雑音が含まれた音声に対しては低ビットレート符号ィ匕特有の耳障りな歪みが生じて音質劣化をもたらすことがある。

[0003] このような音質劣化に対処するために行われる雑音抑圧 Z音声強調技術としては

、例えばスペクトルサブトラクシヨン法 (以下「ss法」と言う）などが挙げられる。

[0004] SS法では、無音区間で雑音成分の性質を推定する。そして、雑音成分を含む音声信号の短時間パヮスペクトル（以下「音声パヮスペクトル」と言う）から雑音成分の短時間パヮスペクトルを減算することにより、または、その音声パヮスペクトルに減衰係数を乗算することにより、雑音成分が抑圧された音声パヮスペクトルを生成する（例えば、非特許文献 1参照)。

[0005] また、 SS法では、推定した雑音成分のスペクトル特性を定常的なものとみなし、ノィズベースとして一律に音声パヮスペクトル力差し引く。ところが、実際には雑音成分のスペクトル特性は定常的なものでないため、ノイズベース差し引き後の残留雑音、特に音声ピッチ間の残留雑音により、いわゆるミュジカルノイズと呼ばれる不自然な歪みを生じることがある。

[0006] そのミュジカルノイズを抑えるための従来の雑音抑圧方法としては、音声パヮ対雑音パヮの比（SNR)に基づく減衰係数を用いて乗算を行う手法 (例えば、特許文献 1 および特許文献 2参照)などが提案されている。この方法によれば、相対的に音声の大き、帯域 (SNRが高、帯域)と相対的に雑音の大き!/、帯域 (SNRが低、帯域)とを互いに区別して、異なる減衰係数を用いる。特許文献 1：特許第 2714656号公報

特許文献 2 :特表平 10— 513030号公報

非特許文献 1： "Suppression of acoustic noise in speech using spectral subtraction", Boll, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP— 27, pp.113— 120, 1979

発明の開示

発明が解決しょうとする課題

[0007] し力しながら、上記従来の雑音抑圧方法においては、 SNRを利用して音声帯域および雑音帯域の区別を行っているものの、特に雑音成分のスペクトル特性が非定常である場合はその区別を高精度で行うことが容易ではない、すなわち、音声歪み低減および雑音抑圧の精度には一定の限界があった。

[0008] 本発明は、力かる点に鑑みてなされたもので、音声歪みを低減しつつ雑音抑圧精度を向上することができる雑音抑圧装置および雑音抑圧方法を提供することを目的とする。

課題を解決するための手段

[0009] 本発明の雑音抑圧装置は、雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する抑圧手段と、前記音声パヮスペクトル力ピッチ調波パヮスペクトルを抽出する抽出手段と、抽出されたピッチ調波パヮスペクトルに基づいて、前記音声パヮスベクトルの有声性を判定する有声性判定手段と、抽出されたピッチ調波パヮスぺクトルを修復する修復手段と、修復されたピッチ調波パヮスペクトルおよび抽出されたピツチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスペクトルに基づ、て、前記検出結果を修正する修正手段と、を有する構成を採る。

[0010] 本発明の雑音抑圧方法は、雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する雑音抑圧方法であって、前記音声パヮスペクトル力ピッチ調波パヮスぺクトルを抽出する抽出ステップと、抽出したピッチ調波パヮスペクトルに基づいて、前記音声パヮスペクトルの有声性を判定する有声性判定ステップと、抽出したピッチ調波パヮスペクトルを修復する修復ステップと、修復したピッチ調波パヮスペクトルおよび抽出されたピッチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスペクトルに基づ、て、前記検出結果を修正する修正ステップと、を有するようにした。

[0011] 本発明の雑音抑圧プログラムは、雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する雑音抑圧プログラムであって、前記音声パヮスペクトル力ピッチ調波パヮスペクトルを抽出する抽出ステップと、抽出したピッチ調波パヮスペクトルに基づいて、前記音声パヮスペクトルの有声性を判定する有声性判定ステップと、抽出したピッチ調波パヮスペクトルを修復する修復ステップと、修復したピッチ調波パヮスぺクトルおよび抽出されたピッチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスペクトルに基づいて、前記検出結果を修正する修正ステップと、をコンピュータに実現させるようにした。

発明の効果

[0012] 本発明によれば、音声歪みを低減しつつ雑音抑圧精度を向上することができる。

図面の簡単な説明

[0013] [図 1]本発明の実施の形態 1に係る雑音抑圧装置の構成を示すブロック図

[図 2A]有音帯域および雑音帯域の検出結果を示す図

[図 2B]ピッチ調波パヮスペクトルの抽出結果を示す図

[図 2C]ピッチ調波のピークの抽出結果を示す図

[図 2D]ピッチ調波パヮスペクトルの修復結果を示す図

[図 2E]図 2Aに示す検出結果の修正結果を示す図

[図 3]本発明の実施の形態 2に係る雑音抑圧装置の構成を示すブロック図

[図 4]本発明の実施の形態 3に係る雑音抑圧装置の構成を示すブロック図

[図 5]本発明の実施の形態 4に係る雑音抑圧装置の構成を示すブロック図

[図 6]本発明の実施の形態 4の雑音抑圧装置における動作を説明するフロー図発明を実施するための最良の形態 [0014] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。

[0015] (実施の形態 1)

図 1は、本発明の実施の形態 1に係る雑音抑圧装置の構成を示すブロック図である。本実施の形態の雑音抑圧装置 100は、窓掛け部 101、 FFT(Fast Fourier Transfo rm)部 102、ノイズベース推定部 103、帯域別有音 Z雑音検出部 104、ピッチ調波構造抽出部 105、有声性判定部 106、ピッチ周波数推定部 107、ピッチ調波構造修復部 108、帯域別有音 Z雑音修正部 109、減算 Z減衰係数計算部 110、乗算部 111 および IFFT (Inverse Fast Fourier Transform)部 112 する。

[0016] 窓掛け部 101は、雑音成分を含む入力音声信号が所定時間単位のフレーム単位に分割し、このフレームに対してハユングウィンドウなどを利用した窓掛け処理を施して FFT部 102に出力する。

[0017] FFT部 102は、窓掛け部 101から入力されたフレーム、つまりフレーム単位に分割された音声信号に対して FFTを行って音声信号を周波数領域に変換する。これにより、音声パヮスペクトルを取得する。よって、フレーム単位の音声信号は、所定の周波数帯域を有する音声パヮスペクトルとなる。このようにしてフレーム力も生成された音声パヮスペクトルは、ノイズベース推定部 103、帯域別有音 Z雑音検出部 104、ピッチ調波構造抽出部 105、ピッチ周波数推定部 107、減算 Z減衰係数計算部 110および乗算部 111に出力される。

[0018] ノイズベース推定部 103は、入力された音声パヮスペクトルに基づいて、雑音成分のみを含む信号の周波数振幅スペクトル、すなわちノイズベースを推定する。推定されたノイズベースは、帯域別有音 Z雑音検出部 104、ピッチ調波構造抽出部 105、有声性判定部 106、ピッチ周波数推定部 107および減算 Z減衰係数計算部 110に出力される。

[0019] また、ノイズベース推定部 103は、音声パヮスペクトルの周波数帯域の各周波数成分において、 FFT部 102からの最新のフレームから生成された音声パヮスペクトルと、その前のフレームから生成された音声パヮスペクトルにつ!/、て推定したノイズべ一スと、を比較する。そして、比較の結果、両者のパヮの差が予め設定された閾値を超過する場合は、最新フレームには音声成分が含まれていると判定し、ノイズベースの推定を行わない。一方、その差が上記閾値を超過しない場合は、最新フレームには音声信号が含まれて!/ヽな、と判定し、ノイズベースの更新を行う。

[0020] 帯域別有音 Z雑音検出部 104は、 FFT部 102からの音声パヮスペクトルとノイズべース推定部 103からのノイズベースに基づいて、音声パヮスペクトルにおける有音帯域および雑音帯域を検出する。検出結果は、帯域別有音 Z雑音修正部 109に出力される。

[0021] ピッチ調波構造抽出部 105は、 FFT部 102からの音声パヮスペクトルおよびノイズベース推定部 103からのノイズベースに基づいて、音声パヮスペクトル力ピッチ調波構造つまりピッチ調波パヮスペクトルを抽出する。抽出されたピッチ調波パヮスぺクトルは、有声性判定部 106およびピッチ調波構造修復部 108に出力される。

[0022] 有声性判定部 106は、ノイズベース推定部 103からのノイズベースおよびピッチ調波構造抽出部 105からのピッチ調波パヮスペクトルに基づいて、音声パヮスペクトルの有声性を判定する。判定結果は、ピッチ周波数推定部 107およびピッチ調波構造修復部 108に出力される。

[0023] ピッチ周波数推定部 107は、 FFT部 102からの音声パヮスペクトルおよびノイズべース推定部 103からのノイズベースに基づいて、音声パヮスペクトルのピッチ周波数を推定する。また、有声性判定部 106による判定の結果、音声パヮスペクトルの有声性が所定レベル以下の場合はピッチ周波数推定を回避する。推定結果は、ピッチ調波構造修復部 108に出力される。

[0024] ピッチ調波構造修復部 108は、ピッチ調波構造抽出部 105からのピッチ調波パヮスベクトルおよびピッチ周波数推定部 107からの推定結果に基づ、て、ピッチ調波構造つまりピッチ調波パヮスペクトルを修復する。また、有声性判定部 106による判定の結果、音声パヮスペクトルの有声性が所定レベル以下の場合はピッチ調波パヮスベクトル修復を回避する。修復されたピッチ調波パヮスペクトルは、帯域別有音 Z雑音修正部 109に出力される。

[0025] 帯域別有音 Z雑音修正部 109は、ピッチ調波構造修復部 108によって修復されたピッチ調波パヮスペクトルおよびピッチ調波構造抽出部 105によって抽出されたピッチ調波パヮスペクトルのうち、有声性判定部 106による判定の結果に従って選択されるピッチ調波パヮスペクトルに基づいて、検出結果を修正する。例えば、有声性判定の結果、音声パヮスペクトルの有声性が所定レベル以下であると判定された場合は、抽出されたピッチ調波パヮスペクトルが選択される。この場合、ピッチ調波構造抽出部 105からのピッチ調波パヮスペクトルと帯域別有音 Z雑音検出部 104からの検出結果とを組み合わせることにより、検出結果の修正を行う。一方、音声パヮスペクトルの有声性が所定レベルより高、と判定された場合は、修復されたピッチ調波パヮスぺタトルが選択される。この場合、帯域別有音 Z雑音修正部 109は、ピッチ調波構造修復部 108からのピッチ調波パヮスペクトルと帯域別有音 Z雑音検出部 104からの検出結果とを組み合わせることにより、検出結果の修正を行う。修正された検出結果は、減算 Z減衰係数計算部 110に出力される。

[0026] 減算 Z減衰係数計算部 110は、 FFT部 102からの音声パヮスペクトル、ノイズべ一ス推定部 103からのノイズベースおよび帯域別有音 Z雑音修正部 109からの検出結果に基づいて、減算 Z減衰係数を計算する。計算された減算 Z減衰係数は乗算部

111に出力される。

[0027] 乗算部 111は、 FFT部 102からの音声パヮスペクトルにおける有音帯域および雑音帯域に対して、減算 Z減衰係数計算部 110からの減算 Z減衰係数を乗算する。これによって、雑音成分が抑圧された音声パヮスペクトルが得られる。この乗算結果は、1 丁部112に出カされる。

[0028] すなわち、減算 Z減衰係数計算部 110および乗算部 111の組み合わせは、雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用 V、て、音声パヮスペクトル力も雑音成分を抑圧する抑圧部を構成する。

[0029] ？丁部112は、乗算部 111からの乗算結果である音声パヮスペクトルに対して、 I FFTを行う。これによつて、雑音成分が抑圧された音声パヮスペクトル力音声信号が生成される。

[0030] 以下、上記構成を有する雑音抑圧装置 100の動作について説明する。図 2A〜図 2Eは、有音帯域および雑音帯域の検出結果の修正動作を説明するための図である

[0031] まず、 FFT部 102では、音声パヮスペクトル S (k)を取得する。音声パヮスペクトル S (k)は、次の式（1)を用いて表される _c

F

[数 1]

S_F (k) = ^Re{D_F {k)f + Im{D_F {k)f \≤k≤HB/ 2 · · · ( !_ )

[0032] ここで、 kは、音声パヮスペクトルの周波数帯域の周波数成分を特定する番号を示す。 HBは、 FFT変換長つまり高速フーリエ変換を行う対象のデータ数であり、例えば HB = 512である。 Re{D (k) }および Im{D (k) }は、それぞれ FFT変換後の音

F F

声パヮスペクトル D (k)の実数部および虚数部を示す。なお、式（1)では平方根を用

F

いているが、平方根を用いなくとも S (k)を算出することは可能である。

F

[0033] そして、ノイズベース推定部 103では、音声パヮスペクトル S (k)に基づくノイズべ

F

ース N (n,k)の推定が、式（2)を用いて行われる。

B

[数 2]

N n,k) ( 2 )

^Β

[0034] ここで、 ηはフレーム番号を示す。また、 N (n- l,k)は、前フレームにおけるノイズ

B

ベースの推定値である。 αはノイズベースの移動平均係数であり、 Θ は、音声成分

Β

および雑音成分を判別する閾値である。

[0035] そして、帯域別有音 Ζ雑音検出部 104では、図 2Αに示すように、音声パヮスぺクトル S (k)およびノイズベース N (n,k)に基づいて、音声パヮスペクトル S (k)におけ

F B F

る有音帯域および雑音帯域を検出する。有音帯域および雑音帯域の検出結果 S (k

N

)は、次の式 (3)を用いた計算を行うことによって得られる。計算によって得られた差がゼロより大きければ、音声成分を含む音声帯域と判定する。差がゼロ以下であれば、音声成分を含まない雑音帯域と判定する。ここで、 y は定数である。

[数 3]

[0036] そして、ピッチ調波構造抽出部 105では、図 2Bに示すように、音声パヮスペクトル S

(k)およびノイズベース N (n,k)に基づ!/、て、ピッチ調波パヮスペクトル H (k)を抽

F B M

出する。ピッチ調波パヮスペクトル H (k)は、次の式 (4)を用いた計算を行うことによ

M つて抽出される。ここで、 y は γ > y を満たす定数である。

[数 4]

i^Vk)^J - _Yl - N_B (", k) S_F (k) > _Yl - N_B (", k)

H_M {k) = r^F "ハ'ヮ ₂ ヮ _{1 ≤ k ≤ HB / 2} . . . _{( 4 )}

[0037] そして、有声性判定部 106では、ノイズベース N (n,k)およびピッチ調波パヮスぺ

B

タトル H (k)に基づいて、音声パヮスペクトル S (k)の有声性を判定する。本実施の

M F

形態では、音声パヮスペクトル S (k)の周波数帯域（1〜： HBZ2)のうち、特定の周

F

波数帯域（1〜： HP)を有声性判定の対象帯域とする。すなわち、 HPは、判定対象帯域内の上限の周波数成分である。

[0038] より好ましくは、周波数帯域（1〜： HBZ2)を低域、中域、高域に 3分割し、各帯域を特定の周波数帯域として有声性判定を行う。あるいは、周波数帯域（1〜： HBZ2)を低域、高域に 2分割し、各帯域を特定の周波数帯域として有声性判定を行うような構成であっても良い。このように、周波数帯域を分割することによって得られた帯域ごとに有声性判定を行うことにより、ピッチ調波パヮスペクトル H (k)が高品質に抽出さ

M

れる帯域とそうでな、帯域とでピッチ調波スペクトル H (k)の修復を行うか否力を分

M

けることができる。

[0039] なお、有声性判定部 106が、周波数帯域を分割することによって得られた帯域ごとの有声性判定結果に基づ!、て、元の音声が子音か母音かを識別する構成を有する場合、子音と母音とでピッチ調波スペクトル H (k)の修復を行うか否力を分けること

M

ができる。

[0040] 特定の周波数帯域の有声性判定は、次の式（5)を用いて、ピッチ調波パヮスぺクトル H (k)の中の、特定の周波数に対応する部分のパヮの総和値と、ノイズベース N

M B

(n,k)の中の、特定の周波数に対応する部分のパヮの総和値と、の比を計算することによって行われる。この判定の結果、特定の周波数帯域の有声性が所定レベルよりも高、場合は、後述のピッチ周波数推定およびピッチ調波構造修復が行われる。

[数 5]

( 5 )

[0041] 一方、特定の周波数帯域の有声性が所定レベル以下の場合は、ピッチ周波数推定およびピッチ調波構造修復は行われない。この場合、帯域別有音 Z雑音修正部 1 09では、抽出されたピッチ調波パヮスペクトル H (k)に基づいて、音声パヮスぺクト

M

ル S (k)における有音帯域および雑音帯域の検出結果 S (k)のうち特定の周波数

F N

帯域に対応する部分を修正する。換言すれば、検出結果 S (k)のうち特定の周波数

N

帯域に対応する部分に対する、修復されたピッチ調波パヮスペクトル H (k)に基づく

M

修正を回避する。このため、より高精度なピッチ調波パヮスペクトル H (k)を選択的

M

に用いることができ、有音帯域および雑音帯域の検出精度を著しく向上することができる。

[0042] なお、以下の説明では、特定の周波数帯域の有声性が所定レベルよりも高いと判定された場合を想定する。

[0043] ピッチ周波数推定部 107では、式（6)を用いて、ノイズベース N (n,k)の中の、特

B

定の周波数帯域に対応する部分を j8倍したものを、音声パヮスペクトル S (k)

F の中の

、特定の周波数帯域に対応する部分から減算する。続いて、式 (7)を用いて、減算結果 Q (k)の自己相関関数 R (m)を計算する。そして、自己相関関数 R (m)の最

F P P

大値に対応する mを、ピッチ周波数とする。

[数 6]

Q_F(k) = S_F(k)-fi-N_B(m,k) \≤k≤HM … （6)

[数 7]

HM-m

R_P(m)= ^Q_F(k)-Q_F(k + m) \≤m≤PM ··· (7) [0044] そして、ピッチ調波構造修復部 108では、ピッチ調波パヮスペクトル H (k)の中の、

M

特定の周波数帯域に対応する部分を修復する。より具体的には、修復は、特定の周波数帯域の有声性が所定レベルよりも高いと判定された場合に、次のような手順で行われる。

[0045] 第 1に、図 2Cに示すように、ピッチ調波パヮスペクトル H (k)におけるピッチ調波の

M

ピーク (pl〜p5、 p9〜pl2)を抽出する。なお、ピッチ調波のピークの抽出は、特定の周波数帯域のみに対して行われても良い。 [0046] 第 2に、抽出されたピークの間隔を計算する。計算された間隔が、所定の閾値 (例えば、ピッチ周波数の 1. 5倍)を超過した場合、図 2Dに示すように、ピッチ調波パヮスペクトル H (k)にお、て欠落して、るピークを、推定されたピッチ周波数 mに基づ

M

V、て挿入する。このようにしてピッチ調波パヮスペクトル H (k)が修復される。

M

[0047] そして、帯域別有音 Z雑音修正部 109では、図 2Eに示すように、検出結果 S (k)

N

にお、て、修復後のピッチ調波パヮスペクトル H (k)と重複のある部分を有音帯域と

M

し、修復後のピッチ調波パヮスペクトル H (k)と重複してヽなヽ部分を雑音帯域とす

M

る。このようにして検出結果 S (k)の修正を行う。

N

[0048] そして、減算 Z減衰係数計算部 110では、修正された検出結果 S (k)内の有音帯

N

域および雑音帯域のそれぞれに対して、音声パヮスペクトル S (k)およびノイズべ

F 一ス N (n,k)に基づいて減算 Z減衰係数 G (k)を計算する。計算には次の式 (8)を用

B C

いる。ここで、 μは定数であり、また、 gは、ゼロより大きく 1より小さい所定の定数であ

C

る。

[数 8]

^{Gc (k) =} { _gc 雑音帯域 ^k≤赚 · · · ^{( 8 )}

[0049] このように、本実施の形態によれば、有音帯域および雑音帯域の検出結果 S (k)

N

をピッチ調波パヮスペクトル H (k)に基づいて修正するため、雑音成分のスペクトル

M

特性が非定常の場合でも、有音帯域および雑音帯域の検出を高精度で行うことができる。この結果、有音帯域および雑音帯域のそれぞれに対して、減衰度合いの相対的に弱い減算処理と減衰度合いが相対的に強い減衰処理とを行うことができる。これにより、減衰量を大きくしても、音声歪みを低減しつつ雑音抑圧精度を向上することができる。さらに、本実施の形態によれば、検出結果 S (k)を、抽出されたピッチ調

N

波パヮスペクトル H (k)および修復されたピッチ調波パヮスペクトル H (k)のうち、音

M M

声パヮスペクトル S (k)の有声性の判定結果に従って選択されるピッチ調波パヮスぺ

F

タトルに基づいて修正するため、検出結果 S (k)の精度をさらに向上することができ

N

、雑音抑圧精度をさらに向上することができる。

[0050] (実施の形態 2) 図 3は、本発明の実施の形態 2に係る雑音抑圧装置の構成を示すブロック図である。なお、本実施の形態で説明する雑音抑圧装置は、実施の形態 1で説明したものと同様の基本的構成を有するため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。

[0051] 図 3に示す雑音抑圧装置 200は、実施の形態 1で説明した雑音抑圧装置 100の構成要素に音声 Z雑音フレーム判定部 201を加えた構成となっている。

[0052] 音声 Z雑音フレーム判定部 201は、 FFT部 102からの音声パヮスペクトルおよびノィズベース推定部 103からのノイズベースに基づいて、音声パヮスペクトルが取得されたフレームが音声フレームである力雑音フレームであるかを判定する。判定の結果は、有声性判定部 106および帯域別有音 Z雑音修正部 109に出力される。

[0053] 以下、音声 Z雑音フレーム判定部 201のフレーム判定動作について、より具体的に説明する。

[0054] 音声 Z雑音フレーム判定部 201では、まず、 FFT部 102からの音声パヮスペクトル S (k)およびノイズベース推定部 103からのノイズベース N (n,k)に基づき、次の式（

F B

9)および式（10)を用いて、二つの比を算出する。二つの比のうちの一つは、音声パヮスペクトル S (k)の周波数帯域のうち低域での、音声パヮと雑音パヮとの比 SNR

F しであり、もう一つは、音声パヮスペクトル S (k)の周波数帯域の全域での、音声パヮと

F

雑音パヮとの比 SNRである。ここで、 HLは、上記低域の中の上限周波数成分であ

F

り、 HFは、音声パヮスペクトル S (k)の周波数帯域の中の上限周波数成分である。

F

[数 9]

[数 10]

そして、算出された二つの比 SNR、 SNRの相関値 R ( = SNR - SNR )を計算

L F LF L F

する。そして、次の式（11)を用いてフレーム判定を行う。式（11)を用いたフレーム判定の結果として、フレーム情報 SNFが生成される。フレーム情報 SNFは、判定対象のフレームが音声フレームであるか雑音フレームであるかを示す情報である。式（11 )にお、て、 Mはハングオーバーフレーム数である。また、 R が Θ 以下である状態

LF SN

が Mフレーム連続しな力つた場合も、フレーム判定の結果は音声フレームとなる。

[数 11]

_SNF J1 (音声フレーム） R > e_w …

" [0 (雑音フレーム） R ≤0 が Mフレーム連続した場合

[0056] 判定対象のフレームが音声フレームと判定された場合、有声性判定部 106および帯域別有音 Z雑音修正部 109では通常の動作 (実施の形態 1で説明した動作)が行われる。一方、判定対象のフレームが雑音フレームと判定された場合、有声性判定部 106では、強制的に、判定対象のフレームから生成された音声パヮスペクトル S (

F

k)の周波数帯域のうち全帯域の有声性が所定レベル以下であると判定する。この結果、帯域別有音 Z雑音修正部 109では、全帯域を雑音帯域として修正する。

[0057] このように、本実施の形態によれば、判定対象のフレームが雑音フレームであると判定された場合、音声パヮスペクトル S (k)の全帯域の有声性が所定レベル以下で

F

あると判定されるため、雑音フレームに対する不要な検出結果 S (k)修正処理を省く

N

ことができ、修正部の負荷を軽減することができる。

[0058] また、本実施の形態によれば、音声パヮスペクトル S (k)の低域でのパヮの比 SNR

F

と、音声パヮスペクトル S (k)の全域でのパヮの比 SNRとの相関値 R を計算し、こ

F F LF

の相関値 R に基づいてフレーム判定を行うため、低域と全域との間での相関性が

LF

高い音声成分のパヮスペクトルを強調することができる一方、相関性が低い雑音成分のパヮスペクトルを低減することができる。この結果、フレーム判定の精度を向上することができる。

[0059] (実施の形態 3)

図 4は、本発明の実施の形態 3に係る雑音抑圧装置の構成を示すブロック図である。なお、本実施の形態で説明する雑音抑圧装置は、実施の形態 1で説明した雑音抑圧装置と同様の基本的構成を有するため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。

[0060] 図 4に示す雑音抑圧装置 300は、実施の形態 1で説明した雑音抑圧装置 100の構成要素に減算 Z減衰係数平均処理部 301を加えた構成となっている。

[0061] 減算 Z減衰係数平均処理部 301は、減算 Z減衰係数計算部 110による計算の結果として得られた減算 Z減衰係数を、時間領域および周波数領域のそれぞれにおいて平均化する。平均化された減算 Z減衰係数は、乗算部 illに出力される。

[0062] すなわち、本実施の形態では、減算 Z減衰係数計算部 110、減算 Z減衰係数平均処理部 301および乗算部 111の組み合わせが、雑音成分を含む音声パヮスぺクトルにおける有音帯域および雑音帯域の検出結果を用いて、音声パヮスペクトルから雑音成分を抑圧する抑圧部を構成する。

[0063] 以下、減算 Z減衰係数平均処理部 301での係数平均処理について、より具体的に説明する。

[0064] まず、減算 Z減衰係数平均処理部 301では、減算 Z減衰係数計算部 110での計算によって得られた減算 Z減衰係数を、次の式（12)を用いて時間領域において平均化する。ここで、

Fおよび αしは、 α F >α の

し関係を満たす移動平均係数である。

[数 12]

, _k) + a_F -G_c(k) G_c(k) > G_T(n -l,k) _j 删 ... (1 2) T^η'

₊ a_L -G_c(k) G_c(k)≤G_T(n -l,k)

[0065] また、下記の式（13)を用いて、減算 Z減衰係数を周波数領域において平均化する。ここで、 K — Kは、平均化対象範囲としての周波数成分の数である。

H L

[数 13]

G_F(k) = - ~~― θ_τ(η,ί) \≤k≤HBl2 … （1 3)

[0066] そして、式（12)を用いて時間平均処理を施された減算 Ζ減衰係数と、式（13)を用いて周波数平均処理を施された減算 Ζ減衰係数と、を比較し、これらの大小関係に従って、乗算部 111で使用する減算 Ζ減衰係数を選択する。例えば、次の式（14) に示すように、時間平均処理を施された減算 Ζ減衰係数が周波数平均処理を施された減算 Ζ減衰係数よりも大き、場合は、時間平均処理を施された減算 Ζ減衰係数を選択し、そうでな!/ヽ場合は周波数平均処理を施された減算 Ζ減衰係数を選択する G_c {k) = ^^k) G k) > G__F ik) _{l≤ k≤ HB / 2} … （_{1 4 )}

G_F (k) G_T (n,k)≤G_F (k)

[0067] このように、本実施の形態によれば、雑音抑圧に用いる減算 Z減衰係数に対して時間平均処理を行うため、時間軸上での減算 Z減衰係数の急激な変化による音声の非連続性を改善し、残留雑音の変動に伴う音声歪みを低減することができる。

[0068] また、本実施の形態によれば、減算 Z減衰係数に対して周波数平均処理を行うため、周波数軸上での減衰量の不連続性を低減し、雑音減衰量を増大しても音声歪みを低減することができる。

[0069] なお、本実施の形態で説明した減算 Z減衰係数平均処理部 301は、実施の形態 2 で説明した雑音抑圧装置 200において使用することもできる。

[0070] (実施の形態 4)

図 5は、本発明の実施の形態 4に係る雑音抑圧装置の構成を示すブロック図である。なお、本実施の形態で説明する雑音抑圧装置は、実施の形態 1で説明した雑音抑圧装置と同様の基本的構成を有するため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。

[0071] 図 5に示す雑音抑圧装置 400は、実施の形態 1で説明した雑音抑圧装置 100の構成要素にデッドロック防止部 401をカ卩えた構成となっている。

[0072] 雑音抑圧装置 400におけるノイズベース推定部 103は、実施の形態 1で説明した動作を実行するほか、雑音成分のレベルが急激に変化した場合に、ノイズベースの更新を停止する、つまりデッドロック状態を発生する。

[0073] デッドロック防止部 401は、カウンタを有する。カウンタは、音声パヮスペクトルの周波数帯域内の周波数成分に対応づけて設けられ、且つ、ノイズベース推定部 103により推定されたノイズベースのうち対応する周波数成分のパヮが連続で所定値以上となる回数を計数する。デッドロック防止部 401は、計数された回数に基づいて、ノイズベース推定部 103のノイズベース更新停止、、わゆるデッドロック状態を防止する。

[0074] 以下、雑音抑圧装置 400におけるデッドロック状態の防止動作について、図 6を用いて、より具体的に説明する。 [0075] まず、ステップ S 1000では、デッドロック防止部 401で、音声パヮスペクトル S (k)

F

がノイズベース N (n,k)の Θ 倍以下である力否かを判定する。判定の結果、音声パ

B B

ヮスペクトル S (k)がノイズベース N (n，k)の Θ 倍以下の場合（S1000 :YES)、ノィ

F B B

ズベース推定部 103では通常のノイズベース推定が行われる（S1010)。そして、ステツプ S1020では、デッドロック防止部 401に設けられたカウンタで計数された回数 c ount(k)をゼロにリセットする。そして、ステップ S 1000に戻る。

[0076] また、ステップ S 1000での判定の結果、音声パヮスペクトル S (k)力ィズベース N

F

(n,k)の Θ 倍より大きい場合（S 1000 : NO)、カウンタは回数 count(k)をカウントアツ

B B

プする（S1030)。そして、ステップ S1040では、デッドロック防止部 401は回数 count (k)を所定の閾値と比較する。比較の結果、回数 count(k)が閾値よりも大きい場合 (S1 040 : YES)、デッドロック防止部 401は、対応する周波数成分 kが含まれる所定帯域における雑音パヮスペクトルの最小値をノイズベース N (n,k)の更新値とし（S 1050)

B

、この更新値を用いてノイズベース N (n,k)を更新する（S1060)。そして、ステップ S

B

1000に戻る。また、ステップ S 1040での比較の結果、回数 count(k)が閾値以下の場合（S 1040 : NO)は、直接、ステップ S 1000に戻る。

[0077] このように、音声パヮスペクトル S (k)におけるパヮが所定回数連続で所定値以上

F

となったとき、周波数成分 kが含まれる所定帯域における雑音パヮスペクトルのパヮの最小値でノイズベース N (n,k)を更新することができ、これによつて、音声区間力雑

B

音区間かにかかわらずデッドロック状態を防止することができる。なお、上記所定帯域はピッチ調波におけるピークの間に設けられることが好ましい。これによつて、雑音パヮスペクトルの谷部を検出することができ、更新値となる雑音パヮスペクトルの最小値を容易に検出することができる。

[0078] なお、本実施の形態で説明したデッドロック防止部 401は、実施の形態 2、 3で説明した雑音抑圧装置 200、 300にお、て使用することもできる。

[0079] また、本発明は様々な実施の形態を採ることが可能であり、実施の形態 1〜4で説明したもののみに限定されない。例えば、上記の雑音抑圧方法をソフトウェアとしてコンピュータに実行させるようにしても良い。すなわち、上記の実施の形態で説明した雑音抑圧方法を実行するプログラムを予め例えば ROM (Read Only Memory)等の記録媒体に記録しておき、そのプログラムを CPU (Central Processor Unit)によって動作させることで、本発明の雑音抑圧方法を実行することができる。

[0080] なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全てを含むように 1チップィ匕されても良い。

[0081] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレ卜ラ LSIと呼称されることちある。

[0082] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブノレ ·プロセッサーを利用しても良、。

[0083] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適応等が可能性としてありえる。

[0084] 本明細書は、 2004年 6月 18日出願の特願 2004— 181454に基づく。この内容はすべてここに含めておく。

産業上の利用可能性

[0085] 本発明の雑音抑圧装置および雑音抑圧方法は、音声歪みを低減しつつ雑音抑圧精度を向上する効果を有し、音声通信装置や音声認識装置等に適用することができる。

Claims

請求の範囲

[1] 雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する抑圧手段と、前記音声パヮスペクトル力ピッチ調波パヮスペクトルを抽出する抽出手段と、抽出されたピッチ調波パヮスペクトルに基づいて、前記音声パヮスペクトルの有声性を判定する有声性判定手段と、

抽出されたピッチ調波パヮスペクトルを修復する修復手段と、

修復されたピッチ調波パヮスペクトルおよび抽出されたピッチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスベクトルに基づいて、前記検出結果を修正する修正手段と、

を有する雑音抑圧装置。

[2] 前記音声パヮスペクトルは、所定の周波数帯域を有し、

前記有声性判定手段は、

前記所定の周波数帯域のうち特定帯域の有声性を判定し、

前記修正手段は、

前記有声性判定手段による判定の結果、前記特定帯域の有声性が前記所定レべル以上の場合、前記検出結果のうち前記特定帯域に対応する部分を、修復されたピツチ調波パヮスペクトルに基づ、て修正する一方、前記特定帯域の有声性が前記所定レベル以下の場合、前記部分を、抽出されたピッチ調波パヮスペクトルに基づいて修正する、

請求の範囲 1記載の雑音抑圧装置。

[3] 前記音声パヮスペクトル力ノイズベースを推定するノイズベース推定手段をさらに有し、

前記有声性判定手段は、

抽出されたピッチ調波パヮスペクトルのうち前記特定帯域に対応する部分のパヮの総和値と推定されたノイズベースのうち前記特定帯域に対応する部分のパヮの総和値との比に基づいて、前記特定帯域の有声性の判定を行う、

請求の範囲 2記載の雑音抑圧装置。

[4] 前記音声パヮスペクトルは、入力されたフレームから取得され、

前記フレームが音声フレームであるか雑音フレームであるかを判定するフレーム判定手段をさらに有し、

前記有声性判定手段は、

前記フレーム判定手段による判定の結果、前記フレームが雑音フレームであると判定された場合、前記所定の周波数帯域のうち全帯域の有声性が前記所定レベル以下であると判定する、

請求の範囲 2記載の雑音抑圧装置。

[5] 前記抑圧手段は、

前記検出結果力得られる係数を時間領域において平均化する時間平均処理手段と、

平均化された前記係数を前記音声パヮスペクトルに乗算する乗算手段と、を有する請求の範囲 2記載の雑音抑圧装置。

[6] 前記抑圧手段は、

前記検出結果力得られる係数を周波数領域において平均化する周波数平均処理手段と、

[7] ノイズベースの更新を停止する更新停止手段と、

前記音声パヮスペクトルのうち、前記所定の周波数帯域内の周波数成分のパヮが所定回数連続で所定値以上となったときに、前記更新停止手段のノイズベース更新停止を防止する防止手段と、

を有する請求の範囲 2記載の雑音抑圧装置。

[8] 雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する雑音抑圧方法であつて、

前記音声パヮスペクトル力ピッチ調波パヮスペクトルを抽出する抽出ステップと、抽出したピッチ調波パヮスペクトルに基づ!/、て、前記音声パヮスペクトルの有声性を判定する有声性判定ステップと、

抽出したピッチ調波パヮスペクトルを修復する修復ステップと、

修復したピッチ調波パヮスペクトルおよび抽出されたピッチ調波パヮスペクトルのうち、前記有声性判定手段による判定の結果に従って選択されるピッチ調波パヮスぺタトルに基づ、て、前記検出結果を修正する修正ステップと、

を有することを特徴とする雑音抑圧方法。

雑音成分を含む音声パヮスペクトルにおける有音帯域および雑音帯域の検出結果を用いて、前記音声パヮスペクトルから前記雑音成分を抑圧する雑音抑圧プログラムであって、

をコンピュータに実現させるための雑音抑圧プログラム。