JP2023106686A

JP2023106686A - 音声処理装置および音声処理方法

Info

Publication number: JP2023106686A
Application number: JP2022007557A
Authority: JP
Inventors: 雅司鈴木; Masashi Suzuki; 訓史鵜飼; Norifumi Ukai
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-08-02
Also published as: EP4216213A2; EP4216213A3; US20230238013A1; CN116486776A

Abstract

【課題】話者音声を入力している時のノイズを低減することができる音声処理装置を提供する。【解決手段】音声処理装置は、音声を収音して第１音声信号を生成する収音部と、ノイズを推定するノイズ推定部と、前記ノイズ推定部で推定したノイズに基づき、前記第１音声信号のゲインを制御し、第２音声信号を出力するゲイン制御部と、前記ノイズ推定部で推定したノイズに基づき、前記第２音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、を備える。【選択図】図３

Description

本発明の一実施形態は、音声処理装置および音声処理方法に関し、特にノイズを低減する技術に関する。

特許文献１のノイズゲートは、音声信号の周波数スペクトルに基づいて定常ノイズのノイズスペクトルを推定する。ノイズゲートは、音声信号の周波数スペクトルとノイズスペクトルとの信号レベル比が閾値以上の場合、周波数スペクトルをそのまま出力する、ノイズゲートは、音声信号の周波数スペクトルとノイズスペクトルとの信号レベル比が閾値未満の場合、ゲインを低減して出力する。

特開２０１０－１２２６１７号公報

ノイズレベルと音声のレベルの比（Ｓ／Ｎ）に応じてゲイン制御を行う場合、話者音声を入力している時にはノイズが混在してしまう。

以上の事情を考慮して、本開示のひとつの態様は、話者音声を入力している時のノイズを低減することができる音声処理装置を提供することを目的とする。

音声処理装置は、音声を収音して第１音声信号を生成する収音部と、ノイズを推定するノイズ推定部と、前記ノイズ推定部で推定したノイズに基づき、前記第１音声信号のゲインを制御し、第２音声信号を出力するゲイン制御部と、前記ノイズ推定部で推定したノイズに基づき、前記第２音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、を備える。

本発明の一実施形態によれば、話者音声を入力している時のノイズを低減することができる。

音声処理装置１の構成を示すブロック図である。プロセッサ１２の機能的構成を示すブロック図である。プロセッサ１２の動作を示すフローチャートである。ノイズ低減部１２１のゲインおよびＳ／Ｎの関係を示す図である。ＥＱ１２２のゲインおよびノイズパワー推定値の関係を示す図である。複数の周波数帯域のそれぞれのノイズ成分の推定結果を示す図である。ノイズパワー推定値の時間変化を示す図である。参考例として、ある帯域（例えば０～２５０Ｈｚ）のノイズパワーに基づいてノイズパワー推定値を求めた場合のノイズパワー推定値の時間変化を示す図である。変形例２に係るプロセッサ１２の機能的構成を示すブロック図である。ＥＱ１２２のゲインおよびノイズパワー推定値の関係を示す図である。帯域毎のゲインを変更する場合のＥＱ１２２のゲインおよびノイズパワー推定値の関係を示す図である。

図１は、音声処理装置１の構成を示すブロック図である。音声処理装置１は、マイク１１、プロセッサ１２、ＲＡＭ１３、フラッシュメモリ１４、および通信部１５を備えている。

マイク１１は、音声を収音する。プロセッサ１２は、マイク１１で収音した音声信号を、通信部１５を介して外部のパーソナルコンピュータ（ＰＣ）等に送信する。

プロセッサ１２は、ＣＰＵ、ＤＳＰ、またはＳｏＣ（ＳｙｓｔｅｍｏｎａＣｈｉｐ）等からなる。プロセッサ１２は、記憶媒体であるフラッシュメモリ１４からプログラムを読み出し、ＲＡＭ１３に一時記憶することで、種々の動作を行う。プログラムは、音声処理プログラム１４１を含む。

フラッシュメモリ１４は、プロセッサ１２の動作用プログラムを記憶している。例えば、フラッシュメモリ１４は、上記音声処理プログラム１４１を記憶している。プロセッサ１２は、音声処理プログラム１４１により、本発明の音声処理方法を実行する。

図２は、プロセッサ１２の機能的構成を示すブロック図である。図３は、音声処理方法の動作を示すフローチャートである。プロセッサ１２は、ノイズ低減部１２１、イコライザ（ＥＱ）１２２、ゲイン計算部１２３、ＥＱ制御部１２４、第１ノイズ推定部１２５、および第２ノイズ推定部１２６を有する。これら機能的構成は、音声処理プログラム１４１により構成される。ノイズ低減部１２１およびゲイン計算部１２３は、本発明のゲイン制御部の一例である。ＥＱ１２２およびＥＱ制御部１２４は、本発明のフィルタ部の一例である。

マイク１１は、音声を収音し、第１音声信号を生成する（Ｓ１１）。音声は、話者の音声またはノイズを含む。マイク１１は、生成した第１音声信号をプロセッサ１２に出力する。

まず、第１ノイズ推定部１２５は、第１音声信号に基づいてノイズパワーを推定する（Ｓ１２）。ノイズパワーの推定手法は、どの様な手法であってもよい。例えば、第１ノイズ推定部１２５は、第１音声信号の所定区間のパワー平均値における最小値をノイズパワーとして推定する。

ゲイン計算部１２３は、第１ノイズ推定部１２５で推定したノイズパワーに基づいて、ノイズ低減部１２１における第１音声信号のゲインを計算する（Ｓ１３）。例えば、ゲイン計算部１２３は、ノイズ低減部１２１をウィーナーフィルタとして機能させるように、ノイズ低減部１２１のゲインを第１音声信号のパワーＳおよびノイズパワーＮの比（Ｓ／Ｎ）に基づいて決定する。

図４は、ノイズ低減部１２１のゲインおよびＳ／Ｎの関係を示す図である。図４のグラフの横軸はＳ／Ｎであり、縦軸はノイズ低減部１２１のゲインである。ゲイン計算部１２３は、図４に示す様に、Ｓ／Ｎが小さい場合にはノイズ低減部１２１のゲインを小さくし、Ｓ／Ｎが大きい場合にはノイズ低減部１２１のゲインを大きくする。

ノイズ低減部１２１は、ゲイン計算部１２３で計算されたゲインで第１音声信号を入力し、第２音声信号を出力する（Ｓ１４）。これにより、ノイズ低減部１２１は、話者が発話していない場合には第２音声信号のレベルを小さくするため、ノイズを低減する。一方、ノイズ低減部１２１は、話者が発話している場合には第２音声信号のレベルを大きくするため、話者の音声を低減することがない。

第２ノイズ推定部１２６は、第１音声信号の一部の帯域に基づいてノイズを推定する。例えば、第２ノイズ推定部１２６は、第１ノイズ推定部１２５で計算したノイズパワーのうち１ｋＨｚ以下のノイズパワーに基づいてノイズパワー推定値を求める（Ｓ１５）。

ＥＱ制御部１２４は、第２ノイズ推定部１２６で求めたノイズパワー推定値に基づいて、ＥＱ１２２のゲインを計算する（Ｓ１６）。ＥＱ１２２は、ＥＱ制御部１２４で計算されたゲインに基づいて第２音声信号の所定周波数帯域の成分を低減する処理を行う（Ｓ１７）。例えば、ＥＱ１２２は、第２音声信号の１ｋＨｚ以下の帯域を低減する。

図５は、ＥＱ１２２のゲインおよびノイズパワー推定値の関係を示す図である。図５のグラフの横軸はノイズパワー推定値であり、縦軸はＥＱ１２２のゲインである。ＥＱ制御部１２４は、図５に示す様に、ノイズパワー推定値が小さい場合にはＥＱ１２２のゲインを大きくし、ノイズパワー推定値が大きい場合にはＥＱ１２２のゲインを小さくする。ＥＱ制御部１２４は、図５の例では、ノイズパワー推定値が所定値Ｎ１よりも低い場合にはＥＱ１２２のゲインを最大値（例えば０ｄＢ）にする。つまり、ノイズパワー推定値が所定値Ｎ１よりも低い場合にはＥＱ１２２における低減処理は行われない。ＥＱ制御部１２４は、図５の例では、ノイズパワー推定値が所定値Ｎ２よりも高い場合にはＥＱ１２２のゲインを最小値（例えば－３６ｄＢ）にする。ＥＱ制御部１２４は、ノイズパワー推定値が所定値Ｎ１以上、Ｎ２以下の場合、ＥＱ１２２のゲインを、ノイズパワー推定値に応じて線形に変化させる。

以上のように、ノイズ低減部１２１は、話者が発話していない場合には第２音声信号のレベルを小さくするため、ノイズを低減する。一方、ノイズ低減部１２１は、話者が発話している場合には第２音声信号のレベルを大きくするため、第２音声信号にノイズが混在する場合がある。特に、１ｋＨｚ以下の低域に含まれるノイズは、聴感上目立つ。しかし、本実施形態のＥＱ１２２およびＥＱ制御部１２４は、ノイズパワー推定値に基づいて１ｋＨｚ以下の低域を低減するため、話者音声を入力している時のノイズを低減することができる。また、本実施形態のＥＱ制御部１２４は、第１音声信号のパワーに依存せずノイズパワー推定値のみに基づいてＥＱ１２２のゲインを設定する。そのため話者の音声のレベルに依存せずに常時ノイズを低減することができる。

（変形例１）
第２ノイズ推定部１２６は、複数の周波数帯域でそれぞれノイズ成分を推定し、該複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいてノイズを推定してもよい。

例えば、第２ノイズ推定部１２６は、０～２５０Ｈｚの第１帯域、２５０～５００Ｈｚの第２帯域、５００～７５０Ｈｚの第３帯域、および７５０～１０００Ｈｚの第４帯域のそれぞれのノイズパワーを求める。ただし帯域の数および帯域幅はこの例に限らない。

さらに、第２ノイズ推定部１２６は、各帯域のノイズパワーに重み付けを行う。重みは、聴感上影響の大きい帯域を大きく、聴感上影響の小さい帯域を小さくする。例えば、第２ノイズ推定部１２６は、第１帯域の重み付け係数を０．８、第２帯域の重み付け係数を０．１、第３帯域の重み付け係数を０．０５、第４帯域の重み付け係数を０．０５として、各帯域のノイズパワーにそれぞれの重み付け係数を乗算し、期待値を算出する。第２ノイズ推定部１２６は、各帯域の期待値を加算する。第２ノイズ推定部１２６は、加算結果をノイズパワー推定値とする。

図６は、数の周波数帯域のそれぞれのノイズ成分の推定結果を示す図である。第２ノイズ推定部１２６は、第１帯域、第２帯域、第３帯域、および第４帯域のノイズパワーをそれぞれ１０ｄＢ、２０ｄＢ、５ｄＢ、および１５ｄＢとして求めている。第２ノイズ推定部１２６は、各帯域の重み付け係数を乗算し、第１帯域、第２帯域、第３帯域、および第４帯域の期待値をそれぞれ８、２、０．２５、０．７５として求めている。第２ノイズ推定部１２６は、各帯域の期待値を加算し、ノイズパワー推定値＝１１を算出する。

この様に、第２ノイズ推定部１２６は、よりノイズの影響が大きいと予測できる帯域と、ノイズの影響が小さいと予測できる帯域と、を分けてノイズ推定を行う。これにより、第２ノイズ推定部１２６は、ＥＱ１２２によるフィルタ処理を安定化させることができる。

図７は、第２ノイズ推定部１２６で求めたノイズパワー推定値の時間変化を示す図であり、図８は参考例として、ある帯域（例えば０～２５０Ｈｚ）のノイズパワーに基づいてノイズパワー推定値を求めた場合のノイズパワー推定値の時間変化を示す図である。

図８に示す様に、ある帯域（例えば０～２５０Ｈｚ）のノイズパワーに基づいてノイズパワー推定値を求めた場合、瞬間的に当該帯域でノイズパワーが大きくなるまたは小さくなる場合があり、ノイズパワー推定値がばらつく。そのため、ＥＱ１２２のゲインがばらつく可能性がある。

これに対して、図７に示す様に、変形例１の第２ノイズ推定部１２６は、複数の周波数帯域でそれぞれノイズパワーを求めて、重み付け加算を行うことで瞬間的にある帯域でノイズパワーが大きくなるまたは小さくなった場合でも、ノイズパワー推定値がばらつくことがない。したがって、変形例１の第２ノイズ推定部１２６は、ＥＱ１２２のゲインを安定化させることができる。

なお、ＥＱ１２２は、第２ノイズ推定部１２６で推定した複数の周波数帯域（第１帯域乃至第４帯域）よりも狭い帯域でフィルタ処理を行ってもよい。例えば、ＥＱ１２２は、聴感上最も影響の大きい帯域（例えば第１帯域）にのみフィルタ処理を施してもよい。これにより、ＥＱ１２２は、音質の変化を最小限に抑えることができる。

（変形例２）
第１ノイズ推定部１２５または第２ノイズ推定部１２６は、画像データを取得し、取得した画像データに基づいてノイズを推定してもよい。図９は、変形例２に係るプロセッサ１２の機能的構成を示すブロック図である。この例では、音声処理装置１は、画像データを取得するためのカメラ２０を備える。また、この例では、第２ノイズ推定部１２６は、カメラ２０から画像データを取得し、取得した画像データに基づいてノイズを推定する。

具体的には、第２ノイズ推定部１２６は、画像データに含まれるノイズ源を認識し、認識したノイズ源の状態に応じてノイズパワー推定値を求める。ノイズ源は、例えば人、ＰＣ、エアコン、換気扇、または掃除機等を含む。

第２ノイズ推定部１２６は、例えば、所定時間内に認識する移動物体（例えば歩行者）の数に基づいてノイズパワー推定値を求める。第２ノイズ推定部１２６は、所定時間内に認識した移動物体（例えば歩行者）の数が多いほどノイズパワー推定値が大きいと推定し、所定時間内に認識した移動物体（例えば歩行者）の数が少ないほどノイズパワー推定値が小さいと推定する。

あるいは、第２ノイズ推定部１２６は、遠方の人物の数に基づいてノイズパワー推定値を求めてもよい。第２ノイズ推定部１２６は、エアコンの画像を認識し、エアコンの状態（例えばファンの回転数）に基づいてノイズパワー推定値を求めてもよい。あるいは、第２ノイズ推定部１２６は、エアコンの周囲の物体の状態（例えばカーテンの揺れ度合い）に基づいてノイズパワー推定値を求めてもよい。あるいは、第２ノイズ推定部１２６は、エアコンのリモコンを認識し、該リモコンに表示されている設定温度に基づいてノイズパワー推定値を求めてもよい。第２ノイズ推定部１２６は、冷房運転のエアコンの場合、設定温度が低いほどノイズパワー推定値が大きいと推定し、設定温度が高いほどノイズパワー推定値が小さいと推定する。第２ノイズ推定部１２６は、暖房運転のエアコンの場合、設定温度が高いほどノイズパワー推定値が大きいと推定し、設定温度が低いほどノイズパワー推定値が小さいと推定する。

なお、第１ノイズ推定部１２５が、カメラ２０から画像データを取得し、取得した画像データに基づいてノイズを推定してもよいし、第１ノイズ推定部１２５および第２ノイズ推定部１２６の両方がカメラ２０から画像データを取得し、取得した画像データに基づいてノイズを推定してもよい。また、第１ノイズ推定部１２５または第２ノイズ推定部１２６は、第１音声信号および画像データに基づいてノイズパワーを推定してもよい。

本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

例えば、ＥＱ制御部１２４は、第１ノイズ推定部１２５で求めたノイズパワー推定値に基づいて、ＥＱ１２２のゲインを計算してもよい。ＥＱ制御部１２４は、第１音声信号のパワーＳおよびノイズパワーＮの比（Ｓ／Ｎ）に基づいてＥＱ１２２のゲインを計算してもよい。

また、図５では、ＥＱ制御部１２４は、ノイズパワー推定値が所定値Ｎ１以上、Ｎ２以下の場合、ＥＱ１２２のゲインを、ノイズパワー推定値に応じて線形に変化させた。しかし、ＥＱ制御部１２４は、ＥＱ１２２のゲインを、ノイズパワー推定値に応じて線形に変化させる必要はない。

図１０は、ＥＱ１２２のゲインおよびノイズパワー推定値の関係を示す図である。図５のグラフの横軸はノイズパワー推定値であり、縦軸はＥＱ１２２のゲインである。図１０に示すように、ＥＱ制御部１２４は、ノイズパワー推定値が小さい場合、ノイズパワー推定値に応じて緩やかにＥＱ１２２のゲインを変化させ、ノイズパワー推定値がある程度大きくなった場合にＥＱ１２２のゲインを急激に変化させ、ノイズパワー推定値が大きい場合には緩やかにＥＱ１２２のゲインを変化させてもよい。また、ＥＱ制御部１２４は、ノイズパワー推定値が所定値以上になった場合に、ＥＱ１２２のゲインを最小値にし、ノイズパワー推定値が所定値未満になった場合に、ＥＱ１２２のゲインを最大値にしてもよい。

また、変形例１に示した様に第２ノイズ推定部１２６が複数の周波数帯域でそれぞれノイズパワーを求めて、ノイズパワー推定値を求める場合、ＥＱ制御部１２４は、求めたノイズパワー推定値に基づいてＥＱ１２２の帯域毎のゲインを変更してもよい。

例えば、図１１は、帯域毎のゲインを変更する場合のＥＱ１２２のゲインおよびノイズパワー推定値の関係を示す図である。この例では、ＥＱ制御部１２４は、ノイズパワー推定値に基づいてＥＱ１２２の第１帯域および第２帯域それぞれのゲインを変更する。この例では、第１帯域の最小値のゲインは、第２帯域の最小値のゲインよりも小さい。つまり、第１帯域の低減量は総体的に大きく、第２帯域の低減量は相対的に小さくなる。この例ではＥＱ１２２は、第３帯域および第４帯域のゲインを変更しない。

このように、なお、ＥＱ制御部１２４は、ノイズパワー推定値に基づくＥＱ１２２のゲインを帯域毎に変更してもよい。これにより、ＥＱ１２２は、音質の変化を最小限に抑え、かつノイズを正確に低減することができる。

１：音声処理装置
１１：マイク
１２：プロセッサ
１３：ＲＡＭ
１４：フラッシュメモリ
１５：通信部
２０：カメラ
１２１：ノイズ低減部
１２２：ＥＱ
１２３：ゲイン計算部
１２４：ＥＱ制御部
１２５：第１ノイズ推定部
１２６：第２ノイズ推定部
１４１：音声処理プログラム

Claims

音声を収音して第１音声信号を生成する収音部と、
ノイズを推定するノイズ推定部と、
前記ノイズ推定部で推定したノイズに基づき、前記第１音声信号のゲインを制御し、第２音声信号を出力するゲイン制御部と、
前記ノイズ推定部で推定したノイズに基づき、前記第２音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、
を備える
音声処理装置。
前記ノイズ推定部は、前記第１音声信号に基づいて前記ノイズを推定する、
請求項１に記載の音声処理装置。
前記ノイズ推定部は、
第１ノイズ推定部および第２ノイズ推定部を有し、
前記ゲイン制御部は、前記第１ノイズ推定部で推定したノイズに基づき前記第１音声信号のゲインを制御し、
前記フィルタ部は、前記第２ノイズ推定部で推定したノイズに基づき前記フィルタ処理を行い、
前記第２ノイズ推定部は、前記第１音声信号の一部の帯域に基づいてノイズを推定する、
請求項１または請求項２に記載の音声処理装置。
前記第２ノイズ推定部は、複数の周波数帯域でそれぞれノイズ成分を推定し、前記複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいて前記ノイズを推定する、
請求項３に記載の音声処理装置。
前記フィルタ部は、前記第２ノイズ推定部で推定した前記複数の周波数帯域よりも狭い帯域で前記フィルタ処理を行う、
請求項４に記載の音声処理装置。
前記ノイズ推定部で推定したノイズのレベルが大きいほど前記フィルタ処理における低減量が大きくなる、
請求項１乃至請求項５のいずれか１項に記載の音声処理装置。
前記フィルタ処理における低減量は、上限および下限を有する、
請求項１乃至請求項６のいずれか１項に記載の音声処理装置。
前記ノイズ推定部は、画像データを取得し、取得した画像データに基づいて前記ノイズを推定する、
請求項１乃至請求項７のいずれか１項に記載の音声処理装置。
前記ゲイン制御部は、前記ノイズ推定部で推定したノイズのレベルと、前記第１音声信号のレベルと、に基づいて前記ゲインを制御し、
前記フィルタ部は、前記ノイズ推定部で推定したノイズのレベルに基づいて前記フィルタ処理を行う、
請求項１乃至請求項８のいずれか１項に記載の音声処理装置。
音声を収音して第１音声信号を生成し、
ノイズを推定し、
推定したノイズに基づき、前記第１音声信号のゲインを制御し、第２音声信号を出力し、
推定したノイズに基づき、前記第２音声信号の所定周波数帯域の成分を低減するフィルタ処理を行う、
音声処理方法。
前記第１音声信号に基づいて前記ノイズを推定する、
請求項１０に記載の音声処理方法。
前記ノイズ推定部は、
第１ノイズ推定部および第２ノイズ推定部を有し、
第１ノイズ推定処理で推定したノイズに基づき前記第１音声信号のゲインを制御し、
第２ノイズ推定処理で推定したノイズに基づき前記フィルタ処理を行い、
前記第２ノイズ推定処理は、前記第１音声信号の一部の帯域に基づいてノイズを推定する、
請求項１０または請求項１１に記載の音声処理方法。
前記第２ノイズ推定処理は、複数の周波数帯域でそれぞれノイズ成分を推定し、前記複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいて前記ノイズを推定する、
請求項１２に記載の音声処理方法。
前記第２ノイズ推定処理で推定した前記複数の周波数帯域よりも狭い帯域で前記フィルタ処理を行う、
請求項１３に記載の音声処理方法。
推定したノイズのレベルが大きいほど前記フィルタ処理における低減量が大きくなる、
請求項１０乃至請求項１４のいずれか１項に記載の音声処理方法。
前記フィルタ処理における低減量は、上限および下限を有する、
請求項１０乃至請求項１５のいずれか１項に記載の音声処理方法。
画像データを取得し、取得した画像データに基づいて前記ノイズを推定する、
請求項１０乃至請求項１６のいずれか１項に記載の音声処理方法。
ノイズのレベルと、前記第１音声信号のレベルと、に基づいて前記ゲインを制御し、
推定したノイズのレベルに基づいて前記フィルタ処理を行う、
請求項１０乃至請求項１７のいずれか１項に記載の音声処理方法。