JP2008005094A

JP2008005094A - エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体

Info

Publication number: JP2008005094A
Application number: JP2006171045A
Authority: JP
Inventors: Kazunori Kobayashi; 和則小林; Kenichi Furuya; 賢一古家; Yoichi Haneda; 陽一羽田; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-06-21
Filing date: 2006-06-21
Publication date: 2008-01-10
Anticipated expiration: 2026-06-21
Also published as: JP4413205B2

Abstract

【課題】ダブルトーク時も音質劣化が少ないエコー抑圧方法及び装置を提供する。
【解決手段】マイク受話信号を周波数領域変換し、周波数帯域ごとにエコーを抑圧するゲインを求め、周波数帯域ごとにゲイン制御を行う。送話音声のレベルが大きい周波数帯域では送話信号をそのまま通過させ、エコーのレベルが大きい周波数帯域ではエコーを抑圧する。受話音声と近端話者の音声が両方存在するダブルトークの場合でも、音声の切断感が少なく、双方向の通話性能が高いエコー抑圧装置を提案する。
【選択図】図１

Description

本発明はテレビ会議や音声会議などハンズフリー通信のエコー抑圧方法および装置に関する。

従来技術のエコー抑圧装置について説明する。
図８は特許文献１で開示された従来技術のエコー抑圧装置８００の構成図である。従来技術のエコー抑圧装置８００は、ゲイン乗算部８０１と、音響結合量推定部８０２と、送話判定部８０３と、受話判定部８０４と、ゲイン制御部８０５により構成される。
本エコー抑圧装置８００は、スピーカとマイクロホンを用いた拡声通話においてマイク受音信号に混入するスピーカ音であるエコーを抑圧する。入力信号は、通話相手からの受信信号である受話信号と、自地点のマイクロホンで受音した信号であるマイク受音信号であり、出力信号は、自地点のスピーカから出力する信号であるスピーカ出力信号と、通話相手への送信信号である送話信号である。本装置は、マイク受音信号にエコーが主に含まれる場合は１よりも小さいゲインをマイク受音信号に乗算し、送話信号とすることで、マイク受音信号に含まれるエコーを抑圧する。
以下に、本装置の詳細について述べる。
音響結合量推定部８０２は、スピーカとマイクロホン間の伝達特性の振幅値である音響結合量Ａ（ｔ）を求める。ここではｔは離散化された時刻を表す。スピーカ出力信号とマイク受音信号の時間平均レベルを観測し、その比をとって、音響結合量を求める。スピーカ出力信号をＸ（ｔ）、マイク受音信号をＹ（ｔ）とした場合、音響結合量Ａ（ｔ）は式（１）により求められる。
Ａ（ｔ）＝Ｅ｛｜Ｙ（ｔ）｜／｜Ｘ（ｔ）｜｝式（１）
ただし、Ｅ｛・｝は平均時間をとること、｜・｜は絶対値を取ることを表す。

送話判定部８０３は、受話信号Ｘ（ｔ）と音響結合量Ａ（ｔ）とマイク受音信号Ｙ（ｔ）より、送話の判定をする。マイク受音信号Ｙ（ｔ）の時間平滑レベルを観測し、その時間平滑レベルがあらかじめ与えられた固定閾値を越え、さらに、音響結合量Ａ（ｔ）に受話信号Ｘ（ｔ）の時間平滑レベルを乗じた推定音響エコーレベルを定数倍した閾値を越えた場合に送話と判定する。
受話判定部８０４は、受話信号から、受話の判定をする。受話信号Ｘ（ｔ）の時間平滑レベルを観測し、そのレベルがあらかじめ与えた固定閾値を越えた場合に受話と判定する。

ゲイン制御部８０５は、送話判定部８０３と受話判定部８０４の判定結果より、ゲイン値を制御する。受話が検出され、送話が検出されない場合は、マイク受音信号にエコーのみが含まれるので、あらかじめ設定したエコー抑圧ゲインをゲイン値とし、これ以外の場合には、ゲイン値を１とする。また、ゲイン値の不連続な変化による音声の劣化を防ぐため、ゲイン値が滑らかに変化するように、時間平滑化が行われる。
ゲイン乗算部８０１は、ゲイン制御部８０５で設定されたゲイン値を、マイク受音信号に乗じ、送話信号とする。
以上の処理により、マイク受音信号にエコーのみが含まれる期間のみ、１未満のゲイン値がマイク受音信号に乗じられ、エコーが抑圧された送話信号となる。マイク受音信号にエコーが含まれないか、近端話者の音声が含まれる場合は、マイク受音信号がそのまま送話信号となり、通話相手に送話音声を伝えることができる。
特許第３０８２８９８号明細書

しかし、従来技術のエコー抑圧方法では、受話音声と近端話者の音声が同時に存在するダブルトーク時において問題が生じる。ダブルトーク時に送話が検出された場合には、エコーが抑圧されずに、そのまま送話信号となってしまい、相手側に伝わってしまうために、会話がしづらくなる。もし、送話が検出されなかった場合には、近端話者の音声が抑圧され、小さいレベルの音声となってしまうため、相手側で、音声が聞き取りづらくなる。このように、従来のエコー抑圧技術では双方向通話性能が充分ではない。
本発明の目的は、受話音声と近端話者の音声が同時に存在するダブルトーク時の双方向通話性能を向上するエコー抑圧方法を提供することにある。

本発明によるエコー抑圧方法は、マイク受音信号を２以上のＮ個の周波数成分から成る周波数領域信号に変換する第１周波数領域変換処理と、スピーカ出力信号をＮ個の周波数領域成分から成る周波数領域信号に変換する第２周波数領域変換処理と、周波数領域信号に変換されたマイク受音信号と、周波数領域信号に変換されたスピーカ出力信号との比から、スピーカとマイクロホン間の伝達関数の振幅値である音響結合量を周波数領域毎に推定する音響結合量推定処理と、周波数領域信号に変換されたスピーカ出力信号を予め設定した残響時間に対応した時定数で平滑化して時間平滑レベルを求め、この時間平滑レベルに音響結合量を乗じてマイク受音信号に含まれるエコー成分のレベルを周波数帯域毎に推定するエコーレベル推定処理と、周波数領域信号に変換されたマイク受音信号の時間平滑レベルを計算して周波数帯域毎にマイクレベルを推定するマイクレベル推定処理と、推定エコーレベルと、推定マイクレベルとを比較し、推定エコーレベルが大きい程抑圧量の大きいゲイン値を設定し、推定エコーレベルが充分小さい場合には予め設定した固定ゲイン値を周波数帯域毎に設定するゲイン制御処理と、周波数領域信号に変換されたマイク受音信号にゲイン制御処理で設定したゲイン値を周波数帯域毎に乗算するゲイン乗算処理と、ゲイン乗算処理で乗算処理された出力信号を逆周波数領域変換し、送話信号として出力する逆周波数領域変換処理とを含むことを特徴とする。

本発明によるエコー抑圧方法は更に、前記エコー抑圧方法において、周波数帯域毎に施される前記ゲイン制御処理は、推定エコーレベルに予め設定した固定係数を乗じて求めた閾値と、推定マイクレベルとを比較し、推定マイクレベルが閾値より小さい場合は予め設定したエコー抑圧ゲインを瞬時利得係数値とし、これ以外の場合には予め設定した固定値を瞬時利得係数値とし、これらの瞬時利得係数値を時間平滑化した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とする。
本発明によるエコー抑圧方法は更に、前記エコー抑圧方法において、推定エコーレベルに予め設定した固定係数を乗じて求めた複数の閾値と、推定マイクレベルとをそれぞれ比較し、推定マイクレベルが何れかの閾値よりも小さい場合は、推定マイクレベル以上の値を持つ閾値のうち最も推定マイクレベルに近い値を持つ閾値に対応する予め設定されたエコー抑圧ゲインを瞬時利得係数値と定め、これ以外の場合には予め設定した固定値を瞬時利得係数値とし、これら瞬時利得係数値を時間平滑した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とする。

本発明によるエコー抑圧方法は更に、前記エコー抑圧方法において、周波数領域信号に変換されたマイク受音信号から、マイク受音信号に含まれる定常雑音のレベルを周波数領域毎に推定するマイク雑音レベル推定処理と、周波数領域信号に変換されたスピーカ出力信号から、スピーカ出力信号に含まれる定常雑音のレベルを周波数帯域毎に推定する受話雑音レベル推定処理と、周波数領域信号に変換されたスピーカ出力信号からスピーカ出力信号に含まれる定常雑音レベルを減じた信号の時間平滑レベルに前記音響結合量を乗じて、マイク受音信号に含まれるエコー成分の推定エコーレベルを周波数帯域毎に推定するエコーレベル推定処理と、推定エコーレベルに予め設定した固定係数を乗じた値と、推定マイクレベルとを比較し、推定エコーレベルが大きい場合は予め設定したエコー抑圧ゲインを瞬時エコー抑圧利得係数値とし、これ以外の場合は、予め設定した固定値を瞬時エコー抑圧利得係数値とし、マイク受音信号に含まれる定常雑音のレベルに予め設定した固定係数を乗じた値と推定マイクレベルとを比較し、雑音レベルが大きい場合は予め設定した雑音抑圧ゲイン瞬時雑音抑圧利得係数値とし、これ以外の場合は予め設定した固定値を瞬時雑音抑圧利得係数値とし、前記瞬時エコー抑圧係数値と、前記瞬時雑音抑圧利得係数値のうち最も小さい値を瞬時利得係数値とし、この瞬時利得係数値を時間平滑化した値をゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とする。

本発明によるエコー抑圧方法は更に、前記エコー抑圧方法において、周波数帯域毎に施されるゲイン制御処理の出力となるゲイン値を周波数軸で平滑化する周波数特性平滑化処理を付加し、周波数帯域毎に施されるゲイン乗算処理は、周波数領域に変換されたマイク受音信号に周波数特性平滑化処理において平滑化後のゲイン値を、周波数帯域毎に乗算することを特徴とする。
本発明によるエコー抑圧方法は更に、前記エコー抑圧方法において、スピーカ出力信号の周波数領域変換処理で周波数領域信号に変換されたＮ個の周波数成分のスピーカ信号を、２以上でＮ未満のＮ’個の周波数成分のスピーカ出力信号に変換するスピーカ出力信号の帯域分割数変換処理と、マイク受音信号の周波数領域変換処理で周波数領域信号に変換されたＮ個の周波数成分のマイク受音信号をＮ’個の周波数成分のマイク受音信号に変換するマイク受音信号の帯域分割数変換処理と、ゲイン制御処理の出力であるＮ’個の周波数帯域のゲイン値をＮ個の周波数帯域のゲイン値に変換するゲインの帯域分割数変換処理を付加し、Ｎ個の周波数帯域毎に施されていた処理を、帯域分割数変換後のＮ’の周波数帯域毎とすることを特徴とする。

本発明によるエコー抑圧方法は更に、前記エコー抑圧方法において、エコーレベル推定処理は、予め設定したＭ個の残響時間に対応した時定数で時間平滑化してエコーレベルを計算する２以上のＭ個のエコーレベル計算処理部を有し、周波数帯域ごとに設けられたゲイン制御処理は、Ｍ個の残響時間に対応した推定エコーレベルに予め設定した固定係数を乗じた値と推定マイクレベルとを各々比較し、推定エコーレベルが大きい場合はあらかじめ残響時間ごとに設定されたエコー抑圧ゲインを瞬時エコー抑圧利得係数値とし、これ以外の場合には予め設定した固定値を瞬時エコー抑圧利得係数値としてＭ個の瞬時エコー抑圧利得係数を求め、マイク受音信号に含まれる定常雑音のレベルに予め設定した固定係数を乗じた値と推定マイクレベルとを比較し、雑音レベルが大きい場合はあらかじめ設定した雑音抑圧ゲインを瞬時雑音抑圧利得係数値とし、これ以外の場合には予め設定した固定値を瞬時雑音抑圧利得係数値とし、Ｍ個の瞬時エコー抑圧利得係数値と瞬時雑音抑圧利得係数値のうち最も小さい値を瞬時利得係数値とし、この瞬時利得係数値を時間平滑化した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域ごとに設定することを特徴とする。

本発明の以上で説明する第１〜５の実施例によれば、マイク受音信号に対し、帯域別にエコー抑圧のためのゲインを与えることで、受話音声と近端話者音声の両方が存在するダブルトーク区間においても、エコーを抑圧しながら、近端話者音声のレベル変動を抑え、高品質な双方向通信を行うことが可能である。
更に本発明の第２の実施例によれば、空調やファンなどの定常雑音を抑圧することができる。本発明の第３の実施例によれば、不連続な周波数特性を軽減し、より自然な音質を実現することができる。本発明の第４の実施例によれば、演算する帯域数を軽減し、演算量を削減することができる。本発明の第５の実施例によれば、残響時間の長い環境においても、十分なエコー抑圧をしながら、近端話者の音声劣化を最小限とすることができる。

本発明によるエコー抑圧装置はハードウェアによって構成し、ハードウェアによって構成したエコー抑圧装置により本発明によるエコー抑圧方法を実行させる実施形態も可能であるが、最も簡素に実現するには本発明によるエコー抑圧プログラムをコンピュータにインストールし、コンピュータにエコー抑圧装置として機能させ、本発明によるエコー抑圧方法を実行させる実施形態が最良の実施形態である。
コンピュータにより本発明によるエコー抑圧装置を構成するには、コンピュータにインストールしたエコー抑圧プログラムによりコンピュータには少なくとも、マイク受音信号を２以上のＮ個の周波数成分から成る周波数領域信号に変換する第１周波数領域変換部と、スピーカ出力信号をＮ個の周波数領域成分から成る周波数領域信号に変換する第２周波数領域変換部と、周波数領域信号に変換されたマイク受音信号と、周波数領域信号に変換されたスピーカ出力信号との比から、スピーカとマイクロホン間の伝達係数の振幅値である音響結合量を周波数領域毎に推定する音響結合量推定部と、周波数領域信号に変換されたスピーカ出力信号を予め設定した残響時間に対応した時定数で平滑化して時間平滑レベルを求め、この時間平滑レベルに音響結合量を乗じてマイク受音信号に含まれるエコー成分のレベルを周波数帯域毎に推定するエコーレベル推定部と、周波数領域信号に変換されたマイク受音信号の時間平滑レベルを計算して周波数帯域毎にマイクレベルを推定するマイクレベル推定部と、推定エコーレベルと、推定マイクレベルとを比較し、推定エコーレベルが大きい程抑圧量の大きいゲイン値を設定し、推定エコーレベルが充分小さい場合には予め設定した固定ゲイン値を周波数帯域毎に設定するゲイン制御部と、周波数領域信号に変換されたマイク受音信号にゲイン制御部で設定したゲイン値を周波数帯域毎に乗算するゲイン乗算部と、ゲイン乗算部で乗算処理された出力信号を逆周波数領域変換し、送話信号として出力する逆周波数領域変換部とを構築し、エコー抑圧装置として機能させる。

本発明の実施例を説明する前に、本発明によるエコー抑圧装置の利用状況の概要を図７を用いて説明する。図７に示す７００は本発明の各実施例で説明するエコー抑圧装置を示す。本発明によるエコー抑圧装置７００の入力信号は通話相手からの受信信号である受話信号と、自地点のマイクロホンＭで受音した信号であるマイク受音信号であり、出力信号は、自地点のスピーカＳＰから出力する信号であるスピーカ出力信号と、通話相手への送信信号である送話信号である。
図７に示すように、マイク受音信号は、近端話者の音声に加えて、スピーカ出力音がマイクロホンＭに回り込んだ信号（エコー）が含まれる。エコー抑圧装置７００はこのエコーを抑圧し、会話をしやすくする。また、エコー抑圧装置７００の各入力信号は、ＡＤ変換により、アナログ信号から離散時間の信号に変換され、各出力信号は、離散時間信号からＤＡ変換によりアナログ信号に変換されている。
本発明では、マイク受音信号をＮ個の周波数帯域信号に分割し、周波数帯域ごとでエコーを抑圧するためのゲインを信号に乗じ、エコーを抑圧する。ただし、Ｎは２以上の整数である。エコー成分の多く含まれる帯域はゲインを小さくして抑圧し、近端話者の音声が多く含まれる帯域はゲインを予め定めた固定値、例えば１として通過させるようにゲイン値を制御する。このようにすることで、エコーと近端話者の音声が同時に存在するダブルトーク期間であっても、近端話者の音声のレベルの減衰を抑えながら、エコーを抑圧することが可能となり、双方向通話性能を向上させることができる。

図１に、本発明の第１実施例であるエコー抑圧装置１００のブロック図を示す。本発明の第１実施例で提案するエコー抑圧装置１００は、マイク受音信号を周波数領域信号に変換する第１周波数領域変換部１０１と、逆周波数領域変換部１０２と、スピーカ出力信号を周波数領域信号に変換する第２周波数領域変換部１０３と、ゲイン乗算部１０４_１〜１０４_Ｎと、音響結合量推定部１０５_１〜１０５_Ｎと、エコーレベル推定部１０６_１〜１０６_Ｎと、マイクレベル推定部１０７_１〜１０７_Ｎと、ゲイン制御部１０８_１〜１０８_Ｎとにより構成される。
第１周波数領域変換部１０１は、マイク受音信号をＮ個の周波数成分を持つ周波数領域信号に変換する。周波数領域への変換はフーリエ変換や帯域分割フィルタバンクにより行うことができる。変換後のマイク受話信号をＹ（Ω）で表す。ただし、Ωは周波数領域変換でのＮ個の周波数帯域の中心周波数ω_０〜ω_Ｎ−１に対応した離散的な周波数である。この周波数領域変換は、１サンプル以上の複数サンプルごとに行われる。この周波数領域変換が行われる間隔を１フレームと表す。このような処理により、１フレームごとに、周波数領域に変換された受話信号Ｙ（Ω）が得られる。

スピーカ出力信号を周波数領域信号に変換する第２周波数領域変換部１０３は、マイク受音信号の第１周波数領域変換部１０１と同様の処理によりスピーカ出力信号をＮ個の周波数成分に変換する。変換後のスピーカ出力信号をＸ（Ω）で表す。
周波数帯域ごとに設けられた音響結合量推定部１０５_１〜１０５_Ｎは、マイク受音信号の第１周波数領域変換部１０１の出力Ｙ（Ω）とスピーカ出力信号の第２周波数領域変換部１０３の出力Ｘ（Ω）から、周波数帯域ごとの音響結合量Ａ（Ω）を求める。音響結合量とは、スピーカとマイク間の伝達関数の振幅値であり、周波数領域変換後のスピーカ出力信号とマイク受音信号の絶対値の比で求められる。また、音響結合量の精度を向上するために時間平滑化が行われる。スピーカ出力信号の周波数領域変換信号をＸ（Ω）、マイク受音信号の周波数領域変換信号をＹ（Ω）とした場合、音響結合量Ａ（Ω）は式（２）により求められる。
Ａ（Ω）＝Ｅ｛｜Ｙ（Ω）｜／｜Ｘ（Ω）｜｝式（２）
ただし、Ｅ｛・｝は平均値を取ることを表し、｜・｜は絶対値をとることを表す。
周波数帯域ごとに設けられたエコーレベル推定部１０６_１〜１０６_Ｎは、音響結合量推定部１０５_１〜１０５_Ｎで求められた音響結合量Ａ（Ω）と、スピーカ出力信号の周波数領域変換部１０３の出力Ｘ（Ω）からマイク受音信号に含まれるエコーのレベルを推定する。部屋の反響を無視した場合、エコーレベルは、受話信号の周波数ベクトル｜Ｘ（Ω）｜に音響結合量Ａ（Ω）を乗じることで推定可能できる。しかし、実際には部屋の音響が存在するため、反響成分も含めてエコーを推定する必要がある。通常、部屋の音響成分は時間とともに指数減衰するので、以下の式（３）により、エコーレベルＲ（Ω）の推定を行う。
R(Ω)=A(Ω)・P(Ω)
P(Ω)=|X(Ω)| for P'(Ω)≦|X(Ω)|
P(Ω)=u・P'(Ω)+(l-u)・|X(Ω)| for P'(Ω)＞|X(Ω)| 式（３）
ただし、Ｐ（Ω）は反響に相当する時間平滑を行ったあとのスピーカ出力信号であり、Ｐ’（Ω）は１フレーム前のＰ（Ω）であり、ｕは反響の長さ（残響時間）の想定値を調整するための係数でありあらかじめ固定値が設定される。ｕは例えば０≦ｕ＜１の値をとり、１に近いほど残響時間の長い環境が模擬され、０に近いほど残響時間の短い環境が模擬される。

周波数帯域ごとに設けられたマイクレベル推定部１０７_１〜１０７_Ｎは、マイク受音信号の第１周波数領域変換部１０１の出力Ｙ（Ω）からマイク受音信号のレベル（マイクレベル）Ｓ（Ω）を推定する。マイクレベルＳ（Ω）はＹ（Ω）の絶対値で求められる。これは、式（４）で表される。
S(Ω)=|Y(Ω)| 式（４）
もしくは、Ｙ（Ω）の絶対値を時間平滑化して求めても良い。これは例えば式（５）で表される。
S(Ω)=w・S'(Ω)+(l-w)・|Y(Ω)| 式（５）
ただし、S'(Ω)は１フレーム前のマイクレベルであり、wは時間平滑化の係数であり、例えば０≦ｗ＜１の値をとる。ｗが１に近いほど長い時間での平滑化となり、０に近いほど短い時間での時間平滑化となる。
周波数帯域ごとに設けられたゲイン制御１０８_１〜１０８_Ｎは、エコーレベル推定部１０６_１〜１０６_Ｎで推定されたエコーレベルＲ（Ω）と、マイクレベル推定部１０７_１〜１０７_Ｎで推定されたマイクレベルＳ（Ω）から、マイク受音信号に与える帯域ごとのゲインを制御する。ゲイン制御は、マイク受音信号にエコー成分が多く含まれる場合はエコーを抑圧し、これ以外の場合には近端話者音声を通過させるように行われる。

まず、マイク受音信号にエコー成分が多く含まれている場合、推定エコーレベルＲ（Ω）と推定マイクレベルＳ（Ω）が近い値をとるので、推定エコーレベルＲ（Ω）に予め設定した固定値、例えば１以上の固定係数Ｃを乗じた値より、推定マイクレベルＳ（Ω）が小さい場合に、エコー成分が多く含まれる期間として検出する。この条件は式（６）で表される。
S(Ω)≦C・R(Ω) 式（６）
エコー成分が多く含まれる期間として検出されたら、その帯域の瞬時利得係数ｇ（Ω）を、あらかじめ固定値で設定したエコー抑圧量Ｄに設定する。ただし、エコー抑圧量Ｄは例えば０≦Ｄ＜１の値をとり、小さい値にするほどエコー抑圧量が増加するが、ダブルトーク時の近端話者音声の劣化が増加する。次に、エコー成分が多く含まれる期間として検出されなかった場合は、エコー成分が小さいので、瞬時利得係数ｇ（Ω）を予め設定した固定値、例えば１に設定し、マイク受音信号をそのまま通過させる。このゲイン制御を式で表せば式（７）となる。
g(Ω)＝D for S(Ω)≦C・R(Ω)
g(Ω)＝1 for S(Ω)＞C・R(Ω)
次に、瞬時利得係数ｇ（Ω）を時間平滑化して、ゲイン乗算部１０４_１〜１０４_Ｎに
出力するゲインＧ（Ω）を求める。時間平滑化することでゲインの急激な変化による音質劣化を抑えることができる。時間平滑化は、例えば式（８）のように行われる。
G(Ω)＝a・G'(Ω)+(l-a)・g(Ω) for g(Ω)≦G'(Ω)
G(Ω)＝b・G'(Ω)+(l-b)・g(Ω) for g(Ω)＞G'(Ω) 式（８）
ただし、G'(Ω)は１フレーム前のゲインG(Ω)である。ａはゲイン下降時の平滑化係数、ｂはゲイン上昇時の平滑化係数であり、あらかじめ固定値で設定される。ａとｂは０から１の間の値をとり、１に近いほど長い時間での平滑化となり、０に近いほど短い時間での時間平滑化となる。

更に、ゲイン制御部１０８_１〜１０８_Ｎで、複数のエコー抑圧量を設定することもできる。この場合のゲイン制御は、マイク受音信号にエコー成分が多く含まれるほど、エコー抑圧量を増加させるように行われ、エコー成分が含まれない場合は近端話者音声を通過させるように行われる。具体的な例としては、エコー成分が多く含まれる期間を検出するために固定係数ＣをＫ個のＣ_１〜Ｃ_Ｋとし、推定エコーレベルＲ（Ω）にこれらの係数Ｃ_１〜Ｃ_Ｋを乗じた値と、推定マイクレベルＳ（Ω）の値を比較して、エコー抑圧量Ｄ_１〜Ｄ_Ｋを設定する。すなわち、式（９）により、瞬時利得係数ｇ（Ω）を設定する。
g(Ω)=D_K for S(Ω)≦C_K・R(Ω)
g(Ω)=D_K-1 for C_K・R(Ω)＜S(Ω)≦C_K-1・R(Ω)
：：
g(Ω)=D₁ for C₂・R(Ω)＜S(Ω)≦C₁・R(Ω)
g(Ω)=1 for S(Ω)＞C₁・R(Ω) 式（９）
ただし、固定係数Ｃ_１〜Ｃ_Ｋは、それぞれ予め定めた固定値、例えば１以上の値をとり、係数の大小関係はＣ_１＞Ｃ_２＞…＞Ｃ_Ｋとなるように、あらかじめ固定値を設定する。エコー抑圧量Ｄ_１〜Ｄ_Ｋは、それぞれ０≦Ｄ_Ｋ≦１の値をとり、その大小関係はＤ_１＞Ｄ_２＞…＞Ｄ_Ｋとなるようにあらかじめ固定値を設定する。次に、瞬時利得係数ｇ（Ω）を時間平滑化してゲイン乗算部１０４_１〜１０４_Ｎで用いるゲインＧ（Ω）を求める。時間平滑化は、前述と同様に例えば式（８）により行われる。このように、複数のエコー抑圧量を設定することで、マイク受音信号に含まれるエコー成分の割合により、エコー抑圧量を変えることができ、抑圧量を従来技術のように１段階で設定するよりもエコー抑圧量を上げても、ダブルトーク時の通話品質を保つことが可能となる。

周波数帯域ごとに設けられたゲイン乗算部１０４_１〜１０４_Ｎは、ゲイン制御部１０８_１〜１０８_Ｎで計算された周波数帯域ごとの時間平滑化後のゲインＧ（Ω）を、周波数領域後のマイク受音信号Ｙ（Ω）に、周波数帯域ごとで乗算する。
逆周波数領域変換部１０２は、ゲイン乗算部１０４_１〜１０４_Ｎの出力信号を逆周波数領域変換して、送話信号として出力する。
以上の処理により、本実施例のエコー抑圧装置はマイク受音信号にエコー成分が多く含まれる周波数帯域成分を抑圧し、エコーを抑圧することができる。また、周波数帯域ごとで抑圧するか通過させるかの判定を行っているので、従来のエコー抑圧装置よりも受話音声と近端話者音声が同時に存在するダブルトーク時の近端話者の音声の劣化が小さい。
図６Ａ、図６Ｂ、図６Ｃに示すダブルトーク時のマイク受音信号と送話音声の周波数スペクトル図から、本発明の効果を説明する。図６Ａはエコー抑圧前のマイク受音信号の周波数スペクトルであり、図６Ｂは、従来のエコー抑圧装置通過後の送話音声の周波数スペクトルである。従来のエコー抑圧装置では、フルバンドでロスを挿入するため、図６Ｂに示すように、近端話者の音声成分とエコー成分を両方同じだけ抑圧してしまう。このため、ダブルトーク時にエコー抑圧すると送話信号に含まれる近端話者の音声が小さくなり聞き取りづらいレベルになってしまう。これに対し、図６Ｃに示す本発明のエコー抑圧装置通過後の送話音声の周波数スペクトルでは、エコー成分のレベルが高い周波数成分のみ抑圧され、近端話者音声成分のレベルが高い周波数成分はそのまま出力される。これにより、近端話者音声レベルの減少は、従来のエコー抑圧装置に比べ小さくなる。

また、本実施例においてマイク受音信号の第１周波数領域変換部１０１と、逆周波数領域変換部１０２と、スピーカ出力信号の第２周波数領域変換部１０３を削除して、周波数領域変換を行わずに帯域一括でゲイン制御することもできる。この場合、式（９）で示したように複数段のエコー抑圧量を設定することで、マイク受音信号に含まれるエコー成分の割合により、エコー抑圧量を変えることができ、従来のエコー抑圧装置のように抑圧量を１段階で設定するのに比べ、エコー抑圧量を上げてもダブルトーク時の通話品質を保つことができる。
以上示したように、本発明の第１の実施例によれば、受話音声と近端話者音声が両方存在するダブルトークの場合でも、エコーを抑圧し、かつ音声の切断感の少ない高品質な双方向通信を実現できる。

図２は、本発明の第２の実施例であるエコー抑圧装置２００のブロック図である。本実施例のエコー抑圧装置２００は、本発明の第１の実施例に、マイク雑音レベル推定部２０１_１〜２０１_Ｎと、受話雑音レベル２０２_１〜２０２_Ｎを追加した構成である。本実施例は、雑音レベルを推定することで、エコー抑圧に加えて雑音の抑圧を行うことができる。
周波数帯域ごとに設けられたマイク雑音レベル推定部２０１_１〜２０１_Ｎは、マイク受音信号の第１周波数領域変換部１０１の出力信号から、マイク受音信号に含まれる雑音レベルＮ_Ｓ（Ω）を推定する。ここで推定する雑音は、空調やファンの音など時間的なレベル変動が少ない定常雑音である。雑音レベルの推定は、信号レベルの時間変化の谷を保持するディップホールド処理により行われる。このディップホールドは、推定の雑音レベルよりも信号レベルが大きい場合には長い時間の時定数での平滑化を行い、推定の雑音レベルよりも信号レベルが小さい場合には短い時間の時定数での平滑化を行うことにより実現される。例えば、式（１０）によりマイク受音信号の推定雑音レベルＮ_Ｓ（Ω）が計算される。
N_S(Ω)=p・N_S'(Ω)+(l-p)・S(Ω) for N_S'(Ω)≧S(Ω)
N_S(Ω)=q・N_S'(Ω)+(l-q)・S(Ω) for N_S'(Ω)＜S(Ω) 式（１０）
ただし、N'_S(Ω)は１フレーム前のマイク受音信号の推定雑音レベルであり、ｐは推定雑音レベル減少時の平滑化係数であり、ｑは推定雑音レベル増加時の平滑化係数であり、それぞれ例えば０≦ｐ＜１、０≦ｑ＜１の値をあらかじめ固定値として設定する。またｐ＜＜ｑとなるように設定し、推定雑音レベル増加時に非常に緩やかな値の上昇とすることで信号をディップホールドして雑音レベルを推定する。

周波数帯域ごとに設けられた受話雑音レベル推定部２０２_１〜２０２_Ｎは、マイク雑音レベル推定部２０１_１〜２０２_Ｎと同様の処理により、スピーカ出力信号の第２周波数領域変換部１０３の出力信号から、スピーカ出力信号に含まれる雑音である受話雑音レベルＮ_Ｒを推定する。
周波数帯域ごとに設けられたエコーレーベル推定部１０６_１〜１０６_Ｎは、音響結合量推定部１０５_１〜１０５_Ｎで求められた音響結合量Ａ（Ω）と、スピーカ出力信号の第２周波数領域変換部１０３の出力Ｘ（Ω）と、受話雑音レベル推定部２０２_１〜２０２_Ｎで推定された受話雑音レベルＮ_Ｒ（Ω）からマイク受音信号に含まれるエコーのレベルを推定する。ただし、本実施例で推定するエコーレベルは定常雑音成分を除いたエコーレベルである。

受話信号の周波数スペクトル｜Ｘ（Ω）｜から雑音レベルＮ_Ｒ（Ω）を減算してから、音響結合量Ａ（Ω）を乗じてエコーレベルＲ（Ω）を推定する。式（１１）により、エコーレベルＲ（Ω）の推定を行う。
R(Ω)=A(Ω)・P(Ω)
P(Ω)=u・P'(Ω) for {|X(Ω)|-r・N_R(Ω)}＜0
P(Ω)=|X(Ω)| for P'(Ω)≦ {|X(Ω)|-r・N_R(Ω)}≧0
P(Ω)=u・P'(Ω)+(l-u)・{|X(Ω)|-r・N_R(Ω)} for P'(Ω)＞ {|X(Ω)|-r・N_R(Ω)}≧0
式（１１）
ただし、ｒは雑音レベルの減算係数であり、あらかじめ固定的に与えられる。標準的には例えばｒ＝１と設定し、より雑音レベルを減算したい場合は１以上の値に設定し、雑音レベルの減算を少なめにしたい場合には１以下に設定する。この他の記号は、本発明の第１の実施例と同様であり、以下のように定義される。Ｐ（Ω）は反響に相当する時間平滑を行ったあとのスピーカ出力信号であり、Ｐ’（Ω）は１フレーム前のＰ（Ω）であり、ｕは反響の長さ（反響時間）の想定値を調整するための係数であり、あらかじめ固定値が設定される。ｕは例えば０≦ｕ＜１の値をとり、１に近いほど残響時間の長い環境が模擬され、０に近いほど残響時間の短い環境が模擬される。
周波数帯域ごとに設けられたゲイン制御部１０８_１〜１０８_Ｎは、エコーレベル推定部１０６_１〜１０６_Ｎで推定されたエコーレベルＲ（Ω）と、マイクレベル推定部１０７_１〜１０７_Ｎで推定されたマイクレベルＳ（Ω）と、マイク雑音レベル推定部２０１_１〜２０１_Ｎで推定されたマイク雑音レベルＮ_Ｓ（Ω）から、マイク受音信号に与える帯域ごとのゲインを制御する。ゲイン制御は、マイク受音信号にエコー成分が多く含まれる場合はエコーを抑圧し、雑音が主に含まれる場合は雑音を抑圧し、これ以外の場合には近端話者音声を通過させるように行われる。

まず、マイク受音信号にエコー成分が多く含まれる場合、推定エコーレベルＲ（Ω）と推定マイクレベルＳ（Ω）が近い値をとるので、推定エコーレベルＲ（Ω）に予め定めた固定値、例えば１以上の固定係数Ｃを乗じた値より、推定マイクレベルＳ（Ω）が小さい場合に、エコー成分が多く含まれる期間として検出する。この条件は式（１２）で表される。
S(Ω)≦C・R(Ω) 式（１２）
エコー成分が多く含まれる期間として検出されたら、その帯域の瞬時エコー抑圧ゲインｇ_Ｅ(Ω)を、あらかじめ固定値で設定したエコー抑圧量Ｄに設定する。ただし、エコー抑圧量Ｄは例えば０≦Ｄ≦１の値をとり、小さい値にするほどエコー抑圧量が増加するが、ダブルトーク時の近端話者音声の劣化が増加する。次に、エコー成分が多く含まれる期間として検出されなかった場合は、エコー成分が小さいので、瞬時エコー抑圧利得係数ｇ_Ｅ(Ω)を例えば１に設定し、マイク受音信号をそのまま通過させる。このゲイン制御を式で表せば式（１３）となる。
g_E(Ω)=D for S(Ω)≦C・R(Ω)
g_E(Ω)=1 for S(Ω)＞C・R(Ω) 式（１３）

次に、マイク受音信号に雑音成分が多く含まれる場合、推定雑音レベルＮ_Ｓ(Ω)と推定マイクレベルＳ(Ω)が近い値をとるので、推定雑音レベルＮ_Ｓ(Ω)に予め定めた固定値、例えば１以上の固定係数Ｃ_Ｎを乗じた値より、推定マイクレベルＳ（Ω）が小さい場合に、エコー成分が多く含まれる期間として検出する。この条件は式（１４）で表される。
S(Ω)≦C_N・N_S(Ω) 式（１４）
雑音成分が多く含まれる期間として検出されたら、その帯域の瞬時雑音抑圧利得係数ｇ_Ｅ(Ω)を、あらかじめ固定値として設定した雑音抑圧量Ｄ_Ｎに設定する。ただし、雑音抑圧量Ｄ_Ｎは０≦Ｄ≦１の値をとり、小さい値にするほど雑音抑圧量が増加するが、近端話者音声の劣化が増大する。次に、雑音成分が多く含まれている期間として検出されなかった場合は、雑音成分が小さいので、瞬時雑音抑圧利得係数ｇ_Ｎ(Ω)を予め定めた固定値、例えば１に設定し、マイク受音信号をそのまま通過させる。このゲイン制御を式で表せば式（１５）となる。
g_N(Ω)=D_N for S(Ω)≦C_N・N_S(Ω)
g_N(Ω)=1 for S(Ω)＞C_N・N_S(Ω) 式（１５）
以上により求められた瞬時エコー抑圧利得係数ｇ_Ｅ（Ω）と瞬時雑音抑圧利得係数ｇ_Ｎ（Ω）のうち小さい方を瞬時雑音利得係数ｇ（Ω）に設定する。これは式（１６）により表される。
g(Ω)=MIN{g_E(Ω),g_N(Ω)} 式（１６）
ただし、MIN{A,B}はAの値とBの値のうち小さい方を選択するということを意味する。

次に、本発明の実施例１と同様にして、瞬時利得係数ｇ（Ω）を時間平滑化して、ゲインＧ（Ω）を求める。
また、本発明の実施例１と同様にして、複数のエコー抑圧量と雑音抑圧量を設定することもできる。エコー成分が多く含まれる期間を検出するための固定係数ＣをＫ個のＣ_１〜Ｃ_Ｋとし、推定エコーレベルＲ（Ω）にこれらの係数Ｃ_１〜Ｃ_Ｋを乗じた値と、マイクレベルＳ（Ω）の値を比較して、エコー抑圧量Ｄ_１〜Ｄ_Ｋを、瞬時エコー抑圧利得係数ｇ_Ｅ（Ω）に設定する。これを式で表せば式（１７）となる。
g_E(Ω)=D_K for S(Ω)≦C_K・R(Ω)
g_E(Ω)=D_K-1 for C_K・R(Ω)＜S(Ω)≦C_K-1・R(Ω)
：：
g_E(Ω)=D₁ for C₂・R(Ω)＜S(Ω)≦C₁・R(Ω)
g_E(Ω)=1 ₁ for S(Ω)＞C₁・R(Ω) 式（１７）
瞬時雑音抑圧利得係数g_N(Ω)も同様に、雑音成分が多く含まれる期間を検出するための固定係数Ｃ_ＮをＪ個の係数Ｄ_N,1〜Ｄ_N,Jを、瞬時エコー抑圧利得係数ｇ_Ｎ（Ω）に設定する。これを式で表せば式（１８）となる。
g_N(Ω)=D_N,J for S(Ω)≦C_N,J・N_S(Ω)
g_N(Ω)=D_N,J-1 for C_N,J・N_S(Ω)＜S(Ω)≦C_N,J-1・N_S(Ω)
：：
g_N(Ω)=D_N,1 for C_N,2・N_S(Ω)＜S(Ω)≦C_N,1・N_S(Ω)
g_N(Ω)=1 for S(Ω)＞C_N,1・N_S(Ω) 式（１８）
だたし、固定係数Ｃ₁〜Ｃ_KおよびＣ_Ｎ，１〜Ｃ_Ｎ，Ｊは、それぞれ１以上の値をとり、係数の大小関係はＣ₁＞Ｃ_２＞…＞Ｃ_ＫまたはＣ_Ｎ，１＞Ｃ_Ｎ，２＞…＞Ｃ_Ｎ，Ｊとなるように、あらかじめ固定値を設定する。エコー抑圧量Ｄ₁〜Ｄ_Kと雑音抑圧量Ｄ_Ｎ，１〜Ｄ_Ｎ，Ｊは、それぞれ０≦Ｄ_Ｋ≦１、０≦Ｄ_N，Ｊ≦１の値をとり、その大小関係はＤ₁＞Ｄ_２＞…＞Ｄ_ＫまたはＤ_Ｎ，１＞Ｄ_Ｎ，２＞…＞Ｄ_Ｎ，Ｊとなるようにあらかじめ固定値を設定する。次に、瞬時エコー抑圧利得係数ｇ_Ｅ（Ω）のうち小さい方を選択し瞬時利得係数ｇ（Ω）とし、この瞬時利得係数ｇ（Ω）を時間平均化してゲインＧ（Ω）を求める。時間平滑化は、第１の実施例と同様にして行われる。このように、複数のエコー抑圧量と雑音抑圧量を設定することで、マイク受音信号に含まれるエコー成分や雑音成分の割合により、エコーまたは雑音抑圧量を変えることができ、抑圧量を従来技術のように１段階で設定するよりもエコーや雑音抑圧量を上げても、通話品質を保つことが可能となる。
これら以外の部分については、本発明の実施例１と同様であるので説明を省略する。
以上示したように、本実施例２によれば、本発明の第１実施例の効果に加えて、空調やファンの音などの定常的な雑音を抑圧することができる。

図３は、本発明の第３の実施例であるエコー抑圧装置３００のブロック図である。
本実施例のエコー抑圧装置３００は、本発明の第１または第２の実施例に、周波数特性平滑部３０１を追加した構成である。本実施例は、ゲインの周波数特性を周波数軸で平滑化することで、不連続な周波数特性を軽減し、より自然な音質を実現する。
周波数特性平滑部は、ゲイン制御部１０８₁〜１０８_Ｎで設定されたゲインＧ（Ω）を周波数軸で平滑化する。平滑化は例えば式（１９）により行われる。
G'(ω_i)=α・G'(ω_j-1)+(1-α)・G(ω_j) 式（１９）
ただし、G'(ω_j)は、平滑化後のゲインであり、αは平滑係数で、あらかじめ固定値が設定される。αは例えば０≦α＜１の値をとり、１に近いほど、より強い平滑化となる。
この周波数特性の平滑化により、音質の不自然さの原因となるゲインの不連続な周波数特性を軽減し、音質を向上させることができる。
これ以外の部分に関しては本発明の第１または第２の実施例と同様であるので説明を省略する。
以上、示したように本実施例３によれば、本発明の第１または第２の実施例の効果に加えて、不連続な周波数特性を軽減し、より自然な音質を実現することができる。

図４は、本発明の第４の実施例であるエコー抑圧装置４００のブロック図である。本発明の第４の実施例は、本発明の第１〜３の実施例にマイク受音信号の第１帯域分割変換部４０１と、スピーカ出力信号の帯域分割変換部４０２と、ゲインの帯域数変換部４０３が新たに設けられ、音響結合量推定部１０５_１〜１０５_Ｎ’と、エコーレベル推定部１０６_１〜１０６_Ｎ’と、マイクレベル推定部１０７_１〜１０７_Ｎ’と、ゲイン制御部１０８_１〜１０８_Ｎ’と、マイク雑音レベル推定部２０１_１〜２０１_Ｎ’と、受話雑音レベル推定部２０２_１〜２０２_Ｎ’の個数が、変換後の帯域分割数Ｎ’となった構成である。
マイク受音信号の帯域分割変換部４０１は、マイク受音信号の第１周波数領域変換部１０１の出力信号である周波数領域変換後のマイク受音信号Ｙ（Ω）の帯域分割数をＮからＮ’に変換する。ただし、Ｎ’はＮ未満の整数であり、変換後のＹ（Ω）をＹ’（Ω’）とする。
変換は、変換前の複数の帯域を１つの帯域にまとめることにより行われ、例えばΩ＝ωｎ，…，ωｍの範囲のＩ個の帯域を、１つの帯域Ω’に変換するときには、変換前の複数の帯域の振幅の平均値を、変換後の振幅とする。平均値は、式（２０）または式（２１）により計算される。

スピーカ出力信号の帯域分割数変換部４０２は、マイク受音信号の帯域分割数変換部４０１と同様の処理により、スピーカ出力信号の第２周波数領域変換部１０３の出力信号である周波数領域変換後のスピーカ出力信号Ｘ（Ω）の帯域分割数をＮからＮ’に変換する。
音響結合量推定部１０５_１〜１０５_Ｎ’と、エコーレベル推定部１０６_１〜１０６_Ｎ’と、マイクレベル推定部１０７_１〜１０７_Ｎ’と、ゲイン制御部１０８_１〜１０８_Ｎ’と、マイク雑音レベル推定部２０１_１〜２０１_Ｎ’と、受話雑音レベル推定部２０２_１〜２０２_Ｎ’は、変換後の帯域分割数Ｎ’と同数あり、それぞれ帯域分割数変換後の信号を入力として、本発明の第１〜３の実施例と同様の処理を行う。

ゲインの帯域分割数変換部４０３は、ゲイン制御部１０８_１〜１０８_Ｎ’の出力であるＮ’帯域のゲインを周波数領域変換部の帯域分割数Ｎのゲインに変換する。変換は変換前の１つの帯域を複数の帯域に分割するようにして行われる。例えば帯域Ω’を、Ω＝ωｎ，…，ωｍのＩ個の帯域に分割する場合、変換前の帯域Ω’のゲイン値を、変換後のＩ個の帯域Ω＝ωｎ，…，ωｍのゲイン値とする。
周波数特性平滑化部３０１を有さない実施例に適用する場合には、ゲイン乗算部１０４_１〜１０４_Ｎとは、ゲインの帯域分割数変換部４０３により帯域分割数が変換されたゲイン値を入力とし、本発明の第１〜３の実施例と同様の処理を行う。
周波数特性平滑化部３０１を有する実施例に適用する場合には、周波数特性平滑化部３０１は、ゲインの帯域分割数変換部４０３により帯域分割数が変換されたゲイン値を入力とし、本発明の第１〜３の実施例と同様の処理を行う。
これら以外の部分については、本発明の第１〜３の実施例と同様であるので、説明を省略する。
以上示したように、本実施例によれば、本発明の第１〜３の実施例の効果に加えて、帯域分割数を一部の処理で少なくすることで、演算量の削減を行うことができる。

図５は、本発明の第５の実施例であるエコー抑圧装置のエコーレベル推定部を示す図である。
本実施例のエコー抑圧装置は、本発明の第１〜第４の実施例に含まれるエコーレベル推定部１０６_ｉ（ｉ＝１，…，Ｎ）が、図５に示すような複数個の残響時間に対応したエコーレベル計算部１０６_ｉ，１〜１０６_ｉ，Ｍから構成されることを特徴とする。複数個の残響時間を想定して、複数のエコーレベルＲ_１（Ω）〜Ｒ_Ｍ（Ω）を推定することで、残響時間に応じたエコー抑圧量を設定することができる。
エコーレベル推定部１０６_ｉ（ｉ＝１，…，Ｎ）は本発明の第１〜第４の実施例のエコーレベル推定部１０６_１〜１０６_Ｎと同様にしてエコーレベルを推定する。ただし、反響の長さ（残響時間）の想定値を調整するための係数ｕの値をＭ個（ｕ_ｌ〜ｕ_Ｍ）設定し、各エコーレベル計算部１０６_ｉ，１〜１０６_ｉ，Ｍで、各残響時間を想定した場合のエコーレベルＲ_１（Ω）〜Ｒ_Ｍ（Ω）を計算する。
周波数帯域ごとに設けられたゲイン制御部１０８_ｉ〜１０８_Ｎは、エコーレベル推定部１０６_ｉ〜１０６_Ｎで推定されたエコーレベルＲ_１（Ω）〜Ｒ_Ｍ（Ω）と、マイクレベル推定部１０７_ｉ〜１０７_Ｎで推定されたマイクレベルＳ（Ω）と、マイク雑音レベル推定部で２０１_ｉ〜２０１_Ｎで推定されたマイク雑音レベルＮ_Ｓ（Ω）から、マイクレベル受音信号に与える帯域ごとのゲインを制御する。瞬時雑音抑圧利得係数ｇ_Ｎ（Ω）は、本発明の第１〜第４の実施例と同様にして求められる。瞬時エコー抑圧利得係数も本発明の第１〜第４の実施例と同様にして求められるが、複数の残響時間を想定した複数の推定エコーレベルＲ_１（Ω）〜Ｒ_Ｍ（Ω）の、各々に対して瞬時エコー抑圧利得係数ｇ_Ｅ，１（Ω）〜ｇ_Ｅ，Ｍ（Ω）が求められる。これらの瞬時エコー抑圧利得係数と瞬時雑音抑圧利得係数のうち最も利得値が小さいものを最小利得選択部１０８−１で選択し、選択した利得係数を瞬時抑圧利得係数ｇ（Ω）とし、この瞬時抑圧利得係数ｇ（Ω）を（実施例１〜４と同様に）時間平滑部１０８−２で時間平滑し、ゲイン乗算部１０４_１〜１０４_Ｎに出力する。

ここで、エコー抑圧量の設定値Ｄ，Ｄ_１〜Ｄ_Ｋは、想定残響時間ごとに設定される。一般にエコーの大きさは、部屋の残響特性により時間とともに指数関数的に減衰する。このことから、想定残響時間が短いものほど、高いエコー抑圧量を設定し、残響時間がながいほどエコー抑圧量を減らすことで、残響に対して一定の残響エコーレベルとすることができる。これにより、エコーの過度な消去をなくし、近端話者の音声の劣化を最小限とすることができる。
また、本実施例においてマイク受音信号の第１周波数領域変換部１０１と、逆周波数領域変換部１０２と、スピーカ出力信号の第２周波数領域変換部１０３を削除して、周波数領域変換を行わずに全帯域一括してゲイン制御することもできる。この場合も実施例１と同様に、式（９）で示したように複数のエコー抑圧量を設定することで、マイク受音信号に含まれるエコー成分の割合により、エコー抑圧量を変えることができ、従来のエコー抑圧装置のように抑圧量を１段階で設定でするのに比べ、エコー抑圧量を上げてもダブルトーク時の通話品質を保つことができる。

これら以外の部分については、本発明の第１〜第４の実施例と同様であるので説明を省略する。
以上示したように、本実施例５によれば、本発明の第１〜第４の実施例の効果に加えて、残響時間の長い環境においても、十分なエコー抑圧をしながら、近端話者の音声劣化を最小限とすることができる。
以上各実施例で説明した本発明によるエコー抑圧装置はコンピュータが解読可能なプログラム言語によって記述されたエコー抑圧プログラムをコンピュータにインストールし、コンピュータに備えられたＣＰＵに解読させることにより上述したエコー抑圧装置として機能し、本発明によるエコー抑圧方法が実行される。
本発明によるエコー抑圧プログラムはコンピュータが読み取り可能な例えば磁気ディスク或いはＣＤ−ＲＯＭ、半導体メモリ等の記録媒体に記録される。コンピュータにはこれらの記録媒体からインストールするか、又は通信回線を通じてインストールすることができる。

本発明によるエコー抑圧方法、装置はテレビ会議システム或いは音声会議システムのようなハンズフリー通信の分野で活用される。

本発明の第１の実施例であるエコー抑圧装置を説明するためのブロック図。本発明の第２の実施例であるエコー抑圧装置を説明するためのブロック図。本発明の第３の実施例であるエコー抑圧装置を説明するためのブロック図。本発明の第４の実施例であるエコー抑圧装置を説明するためのブロック図。本発明の第５の実施例であるエコー抑圧装置を説明するためのブロック図。Ａはエコー抑圧装置通過前の挿受話音声スペクトルを示す図、Ｂは従来のエコー抑圧装置通過後の送話音声スペクトルを示す図、Ｃは本発明のエコー抑圧装置通過後の送話音声スペクトルを示す図である。本発明によるエコー抑圧装置の使い方を説明するための図。従来のエコー抑圧装置を説明するためのブロック図。

符号の説明

１０１第１周波数領域変換部
１０２逆周波数領域変換部
１０３第２周波数領域変換部
１０４_１〜１０４_Ｎゲイン乗算部
１０５_１〜１０５_Ｎ音響結合量推定部
１０６_１〜１０６_Ｎエコーレベル推定部
１０７_１〜１０７_Ｎマイクレベル推定部
１０８_１〜１０８_Ｎゲイン制御部
２０１_１〜２０１_Ｎマイク雑音レベル推定部
２０２_１〜２０２_Ｎ受話雑音レベル推定部
３０１周波数特性平滑化部
４０１〜４０３帯域分割数変換部

Claims

マイク受音信号を２以上のＮ個の周波数成分から成る周波数領域信号に変換する第１周波数領域変換処理と、
スピーカ出力信号をＮ個の周波数領域成分から成る周波数領域信号に変換する第２周波数領域変換処理と、
前記周波数領域信号に変換されたマイク受音信号と、前記周波数領域信号に変換されたスピーカ出力信号との比から、スピーカとマイクロホン間の伝達関数の振幅値である音響結合量を周波数領域毎に推定する音響結合量推定処理と、
前記周波数領域信号に変換されたスピーカ出力信号を予め設定した残響時間に対応した時定数で平滑化して時間平滑レベルを求め、この時間平滑レベルに前記音響結合量を乗じてマイク受音信号に含まれるエコー成分のレベルを周波数帯域毎に推定するエコーレベル推定処理と、
前記周波数領域信号に変換されたマイク受音信号の時間平滑レベルを計算して周波数帯域毎にマイクレベルを推定するマイクレベル推定処理と、
前記推定エコーレベルと、前記推定マイクレベルとを比較し、推定エコーレベルが大きい程抑圧量の大きいゲイン値を設定し、推定エコーレベルが充分小さい場合には予め設定した固定ゲイン値を周波数帯域毎に設定するゲイン制御処理と、
前記周波数領域信号に変換されたマイク受音信号に前記ゲイン制御処理で設定したゲイン値を周波数帯域毎に乗算するゲイン乗算処理と、
前記ゲイン乗算処理で乗算処理された出力信号を逆周波数領域変換し、送話信号として出力する逆周波数領域変換処理と、
を含むことを特徴とするエコー抑圧方法。
請求項１記載のエコー抑圧方法において、前記周波数帯域毎に施される前記ゲイン制御処理は、前記推定エコーレベルに予め設定した固定係数を乗じて求めた閾値と、前記推定マイクレベルとを比較し、前記推定マイクレベルが前記閾値より小さい場合は予め設定したエコー抑圧ゲインを瞬時利得係数値とし、これ以外の場合には予め設定した固定値を瞬時利得係数値とし、これらの瞬時利得係数値を時間平滑化した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とするエコー抑圧方法。
請求項１に記載のエコー抑圧方法において、前記推定エコーレベルに予め設定した固定係数を乗じて求めた複数の閾値と、前記推定マイクレベルとをそれぞれ比較し、前記推定マイクレベルが何れかの閾値よりも小さい場合は、前記推定マイクレベル以上の値を持つ閾値のうち最も前記推定マイクレベルに近い値を持つ閾値に対応する予め設定されたエコー抑圧ゲインを瞬時利得係数値と定め、これ以外の場合には予め設定した固定値を瞬時利得係数値とし、これら瞬時利得係数値を時間平滑した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とするエコー抑圧方法。
請求項１乃至３の何れかに記載のエコー抑圧方法において、前記周波数領域信号に変換されたマイク受音信号から、マイク受音信号に含まれる定常雑音のレベルを周波数領域毎に推定するマイク雑音レベル推定処理と、
前記周波数領域信号に変換されたスピーカ出力信号から、スピーカ出力信号に含まれる定常雑音のレベルを周波数帯域毎に推定する受話雑音レベル推定処理と、
前記周波数領域信号に変換されたスピーカ出力信号から前記スピーカ出力信号に含まれる定常雑音レベルを減じた信号の時間平滑レベルに前記音響結合量を乗じて、マイク受音信号に含まれるエコー成分の推定エコーレベルを周波数帯域毎に推定するエコーレベル推定処理と、
前記推定エコーレベルに予め設定した固定係数を乗じた値と、前記推定マイクレベルとを比較し、推定エコーレベルが大きい場合は予め設定したエコー抑圧ゲインを瞬時エコー抑圧利得係数値とし、これ以外の場合は、予め設定した固定値を瞬時エコー抑圧利得係数値とし、前記マイク受音信号に含まれる定常雑音のレベルに予め設定した固定係数を乗じた値と前記推定マイクレベルとを比較し、雑音レベルが大きい場合は予め設定した雑音抑圧ゲイン瞬時雑音抑圧利得係数値とし、これ以外の場合は予め設定した固定値を瞬時雑音抑圧利得係数値とし、前記瞬時エコー抑圧利得係数値と、前記瞬時雑音抑圧利得係数値のうち最も小さい値を瞬時利得係数値とし、この瞬時利得係数値を時間平滑化した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とするエコー抑圧方法。
請求項１乃至５の何れかに記載のエコー抑圧方法において、前記周波数帯域毎に施されるゲイン制御処理の出力となるゲイン値を周波数軸で平滑化する周波数特性平滑化処理を付加し、前記周波数帯域毎に施されるゲイン乗算処理は、前記周波数領域に変換されたマイク受音信号に前記周波数特性平滑化処理において平滑化後のゲイン値を、周波数帯域毎に乗算することを特徴とするエコー抑圧方法。
請求項１乃至４の何れかに記載のエコー抑圧方法において、前記スピーカ出力信号の周波数領域変換処理で周波数領域信号に変換されたＮ個の周波数成分のスピーカ信号を、２以上でＮ未満のＮ’個の周波数成分のスピーカ出力信号に変換するスピーカ出力信号の帯域分割数変換処理と、
前記マイク受音信号の周波数領域変換処理で周波数領域信号に変換されたＮ個の周波数成分のマイク受音信号をＮ’個の周波数成分のマイク受音信号に変換するマイク受音信号の帯域分割数変換処理と、
前記ゲイン制御処理の出力であるＮ’個の周波数帯域のゲイン値をＮ個の周波数帯域のゲイン値に変換するゲインの帯域分割数変換処理を付加し、
前記Ｎ個の周波数帯域毎に施されていた処理を、帯域分割数変換後のＮ’の周波数帯域毎とすることを特徴とするエコー抑圧方法。
請求項１乃至６の何れかに記載のエコー抑圧方法において、前記エコーレベル推定処理は、予め設定したＭ個の残響時間に対応した時定数で時間平滑化してエコーレベルを計算する２以上のＭ個のエコーレベル計算処理部を有し、
前記周波数帯域ごとに設けられたゲイン制御処理は、前記Ｍ個の残響時間に対応した推定エコーレベルに予め設定した固定係数を乗じた値と前記推定マイクレベルとを各々比較し、推定エコーレベルが大きい場合はあらかじめ残響時間ごとに設定されたエコー抑圧ゲインを瞬時エコー抑圧利得係数値とし、これ以外の場合には予め設定した固定値を瞬時エコー抑圧利得係数値としてＭ個の瞬時エコー抑圧利得係数を求め、前記マイク受音信号に含まれる定常雑音のレベルに予め設定した固定係数を乗じた値と前記推定マイクレベルとを比較し、雑音レベルが大きい場合はあらかじめ設定した雑音抑圧ゲインを瞬時雑音抑圧利得係数値とし、これ以外の場合には予め設定した固定値を瞬時雑音抑圧利得係数値とし、前記Ｍ個の瞬時エコー抑圧利得係数値と前記瞬時雑音抑圧利得係数値のうち最も小さい値を瞬時利得係数値とし、この瞬時利得係数値を時間平滑化した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域ごとに設定することを特徴とするエコー抑圧方法。
マイク受音信号を２以上のＮ個の周波数成分から成る周波数領域信号に変換する第１周波数領域変換部と、
スピーカ出力信号をＮ個の周波数領域成分から成る周波数領域信号に変換する第２周波数領域変換部と、
前記周波数領域信号に変換されたマイク受音信号と、前記周波数領域信号に変換されたスピーカ出力信号との比から、スピーカとマイクロホン間の伝達関数の振幅値である音響結合量を周波数領域毎に推定する音響結合量推定部と、
前記周波数領域信号に変換されたスピーカ出力信号を予め設定した残響時間に対応した時定数で平滑化して時間平滑レベルを求め、この時間平滑レベルに前記音響結合量を乗じてマイク受音信号に含まれるエコー成分のレベルを周波数帯域毎に推定するエコーレベル推定部と、
前記周波数領域信号に変換されたマイク受音信号の時間平滑レベルを計算して周波数帯域毎にマイクレベルを推定するマイクレベル推定部と、
前記推定エコーレベルと、前記推定マイクレベルとを比較し、推定エコーレベルが大きい程抑圧量の大きいゲイン値を設定し、推定エコーレベルが充分小さい場合には予め設定した固定ゲイン値を周波数帯域毎に設定するゲイン制御部と、
前記周波数領域信号に変換されたマイク受音信号に前記ゲイン制御部で設定したゲイン値を周波数帯域毎に乗算するゲイン乗算部と、
前記ゲイン乗算部で乗算処理された出力信号を逆周波数領域変換し、送話信号として出力する逆周波数領域変換部と、
によって構成することを特徴とするエコー抑圧装置。
請求項８記載のエコー抑圧装置において、前記周波数帯域毎に設けられた前記ゲイン制御部は、前記推定エコーレベルに予め設定した固定係数を乗じて求めた閾値と、前記推定マイクレベルとを比較し、前記推定マイクレベルが前記閾値より小さい場合は予め設定したエコー抑圧ゲインを瞬時利得係数値とし、これ以外の場合には予め設定した固定値を瞬時利得係数値とし、これらの瞬時利得係数値を時間平滑化した値を前記ゲイン乗算部で用いられるゲイン値として周波数帯域毎に設定することを特徴とするエコー抑圧装置。
請求項８に記載のエコー抑圧装置において、前記推定エコーレベルに予め設定した値が予め設定した固定値以上の複数個の係数を乗じて求めた複数の閾値と、前記推定マイクレベルとをそれぞれ比較し、前記推定マイクレベルが何れかの閾値よりも小さい場合は、前記推定マイクレベル以上の値を持つ閾値のうち最も前記推定マイクレベルに近い値を持つ閾値に対応する予め設定されたエコー抑圧ゲインを瞬時利得係数と定め、これ以外の場合には予め設定した固定値を瞬時利得係数とし、これら瞬時利得係数を時間平滑した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とするエコー抑圧装置。
請求項８乃至１０の何れかに記載のエコー抑圧装置において、前記周波数領域信号に変換されたマイク受音信号から、マイク受音信号に含まれる定常雑音のレベルを周波数領域毎に推定するマイク雑音レベル推定部と、
前記周波数領域信号に変換されたスピーカ出力信号から、スピーカ出力信号に含まれる定常雑音のレベルを周波数帯域毎に推定する受話雑音レベル推定部と、
前記周波数領域信号に変換されたスピーカ出力信号から前記スピーカ出力信号に含まれる定常雑音レベルを減じた信号の時間平滑レベルに前記音響結合量を乗じて、マイク受音信号に含まれるエコー成分の推定エコーレベルを周波数帯域毎に推定するエコーレベル推定部と、
前記推定エコーレベルに予め設定した固定係数を乗じた値と、前記推定マイクレベルとを比較し、推定エコーレベルが大きい場合は予め設定したエコー抑圧ゲインを瞬時エコー抑圧利得係数値とし、これ以外の場合は、予め設定した固定値を瞬時エコー抑圧利得係数値とし、前記マイク受音信号に含まれる定常雑音のレベルに予め設定した固定係数を乗じた値と前記推定マイクレベルとを比較し、雑音レベルが大きい場合は予め設定した雑音抑圧ゲイン瞬時雑音抑圧利得係数とし、これ以外の場合は予め設定した固定値を瞬時雑音抑圧利得係数値とし、前記瞬時エコー抑圧利得係数値と、前記瞬時雑音抑圧利得係数値のうち最も小さい値を瞬時利得係数値とし、この瞬時利得係数値を時間平滑化した値を前記ゲイン乗算処理で用いるゲイン値として周波数帯域毎に設定することを特徴とするエコー抑圧装置。
請求項８乃至１１の何れかに記載のエコー抑圧装置において、前記周波数帯域毎に設けられるゲイン制御部の出力となるゲイン値を周波数軸で平滑化する周波数特性平滑化部を付加し、前記周波数帯域毎に設けられたゲイン乗算部は、前記周波数領域信号に変換されたマイク受音信号に前記周波数特性平滑化部において平滑化後のゲイン値を、周波数帯域毎に乗算することを特徴とするエコー抑圧装置。
請求項８乃至１２の何れかに記載のエコー抑圧装置において、前記スピーカ出力信号の周波数領域変換部で周波数領域信号に変換されたＮ個の周波数成分のスピーカ信号を、２以上でＮ未満のＮ’個の周波数成分のスピーカ出力信号に変換するスピーカ出力信号の帯域分割数変換部と、
前記マイク受音信号の周波数領域変換部で周波数領域信号に変換されたＮ個の周波数成分のマイク受音信号をＮ’個の周波数成分のマイク受音信号に変換するマイク受音信号の帯域分割数変換部と、
前記ゲイン制御部の出力であるＮ’個の周波数帯域のゲイン値をＮ個の周波数帯域のゲイン値に変換するゲインの帯域分割数変換部を付加し、
前記Ｎ個の周波数帯域毎に施されていた処理を、帯域分割数変換後のＮ’の周波数帯域毎とすることを特徴とするエコー抑圧装置。
請求項８乃至１３の何れかに記載のエコー抑圧装置において、前記エコーレベル推定部は、予め設定したＭ個の残響時間に対応した時定数で時間平滑化してエコーレベルを計算する２以上のＭ個のエコーレベル計算部を有し、
前記周波数帯域ごとに設けられたゲイン制御部は、前記Ｍ個の残響時間に対応した推定エコーレベルに予め設定した固定係数を乗じた値と前記推定マイクレベルとを各々比較し、推定エコーレベルが大きい場合はあらかじめ残響時間ごとに設定されたエコー抑圧ゲインを瞬時エコー抑圧利得係数値とし、これ以外の場合には予め設定した固定値を瞬時エコー抑圧利得係数値としてＭ個の瞬時エコー抑圧利得係数を求め、前記マイク受音信号に含まれる定常雑音のレベルに予め設定した固定係数を乗じた値と前記推定マイクレベルとを比較し、雑音レベルが大きい場合はあらかじめ設定した雑音抑圧ゲインを瞬時雑音抑圧利得係数値とし、これ以外の場合には予め設定した固定値を瞬時雑音抑圧利得係数値とし、前記Ｍ個の瞬時エコー抑圧利得係数値と前記瞬時雑音抑圧利得係数値のうち最も小さい値を瞬時利得係数値とし、この瞬時利得係数値を時間平滑化した値を前記ゲイン乗算部で用いるゲイン値として周波数帯域ごとに設定することを特徴とするエコー抑圧装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項１乃至７記載のエコー抑圧方法を実行させるエコー抑圧プログラム。
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項１５記載のエコー抑圧プログラムを記録した記録媒体。