JP5666444B2

JP5666444B2 - 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法

Info

Publication number: JP5666444B2
Application number: JP2011521470A
Authority: JP
Inventors: クリスチャンウーレ; オリバーヘルムース; ベルンハルトグリル; ファルコリッデルブッシュ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2008-08-05
Filing date: 2009-08-03
Publication date: 2015-02-12
Anticipated expiration: 2029-08-03
Also published as: WO2010015371A1; EP2151822A1; AU2009278263B2; AU2009278263A1; CA2732723A1; EP2151822B8; CN102124518B; CA2732723C; HK1159300A1; US20110191101A1; KR101266894B1; TR201810466T4; MX2011001339A; EP2151822B1; CN102124518A; KR20110044990A; ES2678415T3; RU2507608C2; RU2011105976A; US9064498B2

Description

本発明は、オーディオ信号処理の分野に関し、特に、処理された信号のスピーチ内容が客観的及び主観的なスピーチ明瞭度(intelligibity)を持つようなオーディオ信号のスピーチ強調の分野に関する。

スピーチ強調は、様々な用途において適用される。主たる用途は、補聴器におけるデジタル信号処理の使用である。補聴器におけるデジタル信号処理は、聴覚障害の回復のための新規かつ有効な手段を提供する。より高い音響信号品質の他に、デジタル補聴器は、特定のスピーチ処理の方策の実現を可能にする。これらの方策の多くにおいて、音響環境のスピーチ対雑音比（ＳＮＲ）の推定が所望される。具体的には、スピーチ処理のための複雑なアルゴリズムが、特定の音響環境に合わせて最適化される応用が考えられるが、特定の仮定に合致しない状況においては、そのようなアルゴリズムが上手く働かない可能性がある。これは、静穏な環境又はＳＮＲが所定のしきい値を下回る状況において処理アーチファクトを持ち込む可能性がある、雑音低減の仕組みに特に当てはまる。圧縮アルゴリズム及び増幅のパラメータの最適な選択は、スピーチ対雑音比に依存する可能性があるため、ＳＮＲ推定に応じてパラメータセットを調整することが、効果をもたらすのに役立つ。さらに、ＳＮＲ推定は、ウィーナー（Wiener）フィルタリング法又はスペクトルサブトラクション法などといった雑音低減の手法のための制御パラメータとして直接使用することもできる。

他の用途は、映画の音声のスピーチ強調の分野にある。多数の人々が、例えば聴覚的障害に起因して、映画のスピーチ内容の理解に困難を抱えていることが明らかになっている。映画の筋立てを辿るために、例えば独白、会話、アナウンス及びナレーションなど、オーディオトラックの関連するスピーチを理解することが重要である。聞き取りにくさを感じる人々は、例えば環境雑音及び音楽などといった背景音のレベルがスピーチに比べて高すぎると感じることが多くある。この場合、スピーチ信号のレベルを高め、背景音を弱めることが望まれ、換言すると、スピーチ信号のレベルを全体のレベルに対して高めることが望まれる。

スピーチ強調の主たる手法は、図３に示されているように、短時間スペクトル減衰とも称されるスペクトル重み付けである。出力信号ｙ［ｋ］が、入力信号ｘ［ｋ］のサブバンド信号Ｘ（ω）をサブバンド信号内の雑音エネルギーに応じて減衰させることによって計算される。

以下では、入力信号ｘ［ｋ］が所望のスピーチ信号ｓ［ｋ］と背景雑音ｂ［ｋ］との加算混合物であると仮定する。

スピーチ強調は、スピーチの客観的な明瞭度及び／又は主観的な品質の改善である。

入力信号の周波数ドメイン表現は、ブロック３０に示されているように、短時間フーリエ変換（ＳＴＦＴ）、他の時間−周波数変換、又はフィルタバンクによって計算される。次に、入力信号は式（２）に従って周波数ドメインにおいてフィルタ処理される一方で、フィルタの周波数応答Ｇ（ω）は雑音エネルギーが少なくなるように計算される。出力信号は、時間−周波数変換又はフィルタバンクのそれぞれの逆処理によって計算される。

適切なスペクトル重みＧ（ω）は、入力信号スペクトルＸ（ω）及び雑音スペクトル推定

を使用し、あるいは線形サブバンドＳＮＲ

を使用して、各スペクトル値についてブロック３１において計算される。重み付けされたスペクトル値は、ブロック３２において再び時間ドメインへと変換される。雑音抑制規則の有名な例は、スペクトルサブトラクション法（非特許文献１）及びウィーナーフィルタリングである。入力信号がスピーチ信号と雑音信号との加算混合物であり、スピーチ及び雑音が相関していないと仮定すると、スペクトルサブトラクション法のためのゲイン値は式（３）において与えられる。

同様の重みは、式（４）に従って、線形サブバンドＳＮＲ推定

からも導出される。
チャネル

スペクトルサブトラクション法の様々な拡張、すなわちオーバーサブトラクション係数及びスペクトル・フロア・パラメータの使用（非特許文献２）、一般化形式（非特許文献３）、知覚基準の使用（例えば、非特許文献４）、及びマルチバンド・スペクトル・サブトラクション（例えば、非特許文献５）が、過去に提案されている。しかしながら、スペクトル重み付け法の決定的な部分は、瞬間的な雑音スペクトル又はサブバンドＳＮＲの推定であり、それらは、特に雑音が静的でない場合に誤差に悩まされがちである。雑音推定による誤差は、残留ノイズ、スピーチ成分の歪み又はミュージカルノイズ（「調性品質を持つ震音（warbling with tonal quality）」）として説明されているアーチファクト（非特許文献６）につながる。

雑音推定のための簡単な手法は、スピーチの休止の最中の雑音スペクトルを測定し、平均することである。この手法は、雑音スペクトルがスピーチ行為の最中に時間変化した場合、及びスピーチの休止の検出に失敗した場合に、満足できる結果をもたらさない。スピーチ行為の最中でも雑音スペクトルを推定するための方法が過去に提案されており、非特許文献６に従って、
・最小トラッキングアルゴリズム
・時間再帰平均アルゴリズム
・ヒストグラムベースのアルゴリズム
に分類することができる。

最小統計を用いた雑音スペクトルの推定が、非特許文献７において提案されている。この方法は、各サブバンドにおける信号エネルギーの極小値のトラッキングに基づいている。雑音推定及びより高速な更新のための非線形な更新規則が、非特許文献８において提案されている。

時間−再帰平均アルゴリズムは、特定の周波数帯の推定ＳＮＲがきわめて低いときに常に、雑音スペクトルの推定及び更新を行う。これは、過去の雑音推定及び現在のスペクトルの重み付け平均を再帰的に計算することによって行われる。重み付けは、例えば、非特許文献９及び非特許文献１０において、スピーチが存在する確率の関数として決定され、あるいは特定の周波数帯の推定ＳＮＲの関数として決定される。

ヒストグラムベースの方法は、サブバンドエネルギーのヒストグラムが多くの場合に２つのモードを持つという仮定に基づいている。大きな低エネルギーのモードは、スピーチを含まないか、又はスピーチの低エネルギー部分を含むセグメントのエネルギー値を蓄積する。高エネルギーのモードは、有声のスピーチ及び雑音を含むセグメントのエネルギー値を蓄積する。特定のサブバンドの雑音エネルギーが、低エネルギーのモードから割り出される（非特許文献１１）。包括的な最近の再検討について、非特許文献６が参照される。

振幅変調の特徴を使用した教師あり学習に基づいてサブバンドＳＮＲを推定するための方法が、非特許文献１２及び非特許文献１３に報告されている。

スピーチ強調の他の手法は、ピッチ同期フィルタ処理（pitch-synchronous filtering）（例えば非特許文献１４）、スペクトル時間変調（ＳＴＭ）のフィルタ処理（例えば非特許文献１５）、及び入力信号の正弦波モデル表現に基づくフィルタ処理（例えば非特許文献１６）である。

非特許文献１２及び非特許文献１３に報告されているような、振幅変調の特徴を使用した教師あり学習に基づいてサブバンドＳＮＲを推定するための方法は、２つのスペクトログラム処理段階が必要とされる点で不利である。第１のスペクトログラム処理段階は、時間ドメインオーディオ信号の時間／周波数スペクトログラムを生成する段階である。次いで、変調スペクトログラムを生成するために、スペクトル情報をスペクトルドメインから変調ドメインへと変換する別の「時間／周波数」変換が必要とされる。システムから必然的に生じる遅延、ならびにあらゆる変換アルゴリズムが生来的に有する時間／周波数分解能の問題ゆえに、この追加の変換操作が問題を招く。

この手順のさらなる結果は、雑音の推定が、雑音が静的ではなく、様々な雑音信号が生じうる状況において、かなり不正確になることである。

S. Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 27,no. 2, pp. 113-120, 1979 M. Berouti, R. Schwartz, J. Makhoul, "Enhancement of speech corruptedby acoustic noise", Proc.of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP,1979 J. Lim, A. Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proc. of the IEEE, vol 67, no. 12, pp. 1586-1604, 1979 N. Virag, "Single channel speech enhancement based on masking properties of thehuman auditory system", IEEE Trans. Speech and Audio Proc., vol. 7, no. 2, pp. 126-137, 1999 S. Kamath, P. Loizou, "A multi-band spectral subtractionmethod for enhancing speech corrupted by colored noise", Proc. of the IEEE Int. Conf.Acoust. Speech Signal Processing, 2002 P.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007 R. Martin "Spectral subtraction based onminimum statistics", Proc.of EUSIPCO, Edingburgh, UK, 1994 G. Doblinger, "Computationally Efficient Speech Enhancement By Spectral Minima Tracking In Subbands", Proc. of Eurospeech, Madrid,Spain, 1995 I. Cohen,"Noise estimation by minima controlled recursive averaging for robustspeech enhancement", IEEE Signal Proc. Letters, vol. 9,no. 1, pp. 12-15, 2002 L.Lin, W. Holmes, E. Ambikairajah, "Adaptive noise estimation algorithm for speech enhancement", Electronic Letters,vol. 39, no. 9, pp. 754-755, 2003 H. Hirsch, C. Ehrlicher, "Noise estimation techniquesfor robust speech recognition", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and SignalProcessing, ICASSP, Detroit, USA, 1995 J. Tchorz, B.Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEETrans. On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003 M. Kleinschmidt, V.Hohmann,"Sub-bandSNR estimation using auditory feature processing", Speech Communication:Special Issue on Speech Processing for HearingAids, vol. 39, pp. 47-64, 2003 R. Frazier, S. Samsam,L. Braida, A. Oppenheim, "Enhancement of speech by adaptive filtering", Proc. of the IEEE Int. Conf.on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 1976 N. Mesgarani, S.Shamma, "Speech enhancement based on filtering the spectro-temporal modulations", Proc. of the IEEE Int. Conf.on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 2005 J. Jensen, J. Hansen, "Speech enhancement using aconstrained iterative sinusoidal model", IEEE Trans. on Speech and Audio Processing, vol. 9, no. 7, pp.731-740, 2001 H. Hermansky, N.Morgan, "RASTAProcessing of Speech", IEEE Trans. On Speech and Audio Processing, vol. 2, no. 4, pp.578-589, 1994 H. Hermansky, "Perceptual Linear Predictive Analysis for Speech", J. Ac. Soc. Am., vol. 87, no. 4, pp. 1738-1752, 1990

本発明の目的は、スピーチ強調のための改善された概念を提供することにある。

第１の態様によれば、前記目的は、オーディオ信号を処理してスピーチ強調フィルタのための制御情報を得る装置であって、前記オーディオ信号の短時間スペクトル表現の時間系列を取得し、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出する特徴抽出器であって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、特徴抽出器と、各周波数帯の前記少なくとも１つの特徴を結合パラメータを使用して結合させ、前記オーディオ信号の１つの時間部分について前記スピーチ強調フィルタのための制御情報を得る特徴結合器と、を備えた装置によって達成される。

第２の態様によれば、前記目的は、オーディオ信号を処理してスピーチ強調フィルタのための制御情報を得る方法であって、前記オーディオ信号の短時間スペクトル表現の時間系列を得るステップと、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出するステップであって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、ステップと、各周波数帯の前記少なくとも１つの特徴を結合パラメータを使用して結合させ、前記オーディオ信号の１つの時間部分について前記スピーチ強調フィルタのための制御情報を得るステップと、を含む方法によって達成される。

第３の態様によれば、前記目的は、オーディオ信号におけるスピーチ強調のための装置であって、オーディオ信号の一時間部分を表している複数の帯域についてフィルタ制御情報を得るために、オーディオ信号を処理する装置と、オーディオ信号の或る帯域を他の帯域に比べて可変に減衰させるように前記制御情報に基づいて制御することができる制御可能フィルタ(controllable filter)と、を備えた装置によって達成される。

第４の態様によれば、前記目的が、オーディオ信号のスピーチ強調の方法であって、オーディオ信号を処理し、オーディオ信号の１つの時間部分を表している複数の帯域についてフィルタ制御情報を得る方法と、前記制御情報に基づき、オーディオ信号の或る帯域が他の帯域に比べて可変に減衰させられるようにフィルタを制御するステップと、を含む方法によって達成される。

第５の態様によれば、前記目的は、特徴結合器の結合パラメータを決定するために当該特徴結合器に学習(training)させる装置であって、スピーチ強調フィルタへの周波数帯ごとの制御情報が既知である学習オーディオ信号について、当該学習オーディオ信号の短時間スペクトル表現の時間系列を取得し、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出する特徴抽出器であって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、特徴抽出器と、各周波数帯の前記少なくとも１つの特徴を前記特徴結合器に供給し、中間結合パラメータを使用して前記制御情報を計算し、前記中間結合パラメータを変化させ、変化後の前記制御情報を前記既知の制御情報と比較し、前記変化後の中間結合パラメータが前記既知の制御情報により良く一致する制御情報をもたらす場合に、前記中間結合パラメータを更新する最適化コントローラと、を備えている装置によって達成される。

第６の態様によれば、前記目的は、特徴結合器の結合パラメータを決定するために当該特徴結合器に学習させる方法であって、スピーチ強調フィルタへの周波数帯ごとの制御情報が既知である学習オーディオ信号について、当該学習オーディオ信号の短時間スペクトル表現の時間系列を得るステップと、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出するステップであって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、ステップと、各周波数帯の前記少なくとも１つの特徴を前記特徴結合器に供給するステップと、中間結合パラメータを使用して前記制御情報を計算するステップと、前記中間結合パラメータを変化させるステップと、変化後の前記制御情報を前記既知の制御情報と比較するステップと、前記変化後の中間結合パラメータが前記既知の制御情報により良く一致する制御情報をもたらす場合に、前記中間結合パラメータを更新するステップと、を含む方法によって達成される。

第７の態様によれば、前記目的は、コンピュータ上で実行されたときに本発明の方法のいずれか１つを実行するためのコンピュータプログラムによって達成される。

本発明は、特定の帯域内のオーディオ信号のスペクトル形状についての帯域ごとの情報が、スピーチ強調フィルタのための制御情報を決定するためにきわめて有用なパラメータであるという知見に基づいている。具体的には、複数の帯域及び複数の連続する短時間スペクトル表現について帯域ごとに決定されたスペクトル形状の情報の特徴が、オーディオ信号のスピーチ強調処理のために、オーディオ信号の有用な特徴描写を提供する。具体的には、スペクトル形状の特徴のセットがあり、各スペクトル形状の特徴が（バーク帯域、あるいは一般的には、周波数範囲において可変の帯域幅を有する帯域のような）複数のスペクトル帯域の中の１つの帯域に関連している場合には、前記特徴のセットが各帯域の信号／雑音比を決定するために活用できる。この目的のため、複数の帯域のスペクトル形状の特徴が、これらの特徴を結合パラメータを使用して結合させる特徴結合器によって処理され、オーディオ信号のある時間部分について、スピーチ強調フィルタへ送る制御情報が得られる。好ましくは、特徴結合器が、多数の結合パラメータによって制御されるニューラルネットワークを備えており、これらの結合パラメータは、スピーチ強調フィルタ処理を実際に実行する前に実行される学習段階において決定される。具体的には、ニューラルネットワークがニューラルネットワーク回帰法を実行する。特有の利点は、結合パラメータを、実際のスピーチ強調オーディオ材料とは異なってもよいオーディオ材料を用いた学習段階において決定することができ、したがって学習段階を１回だけ実行すればよく、この学習段階の後で結合パラメータが固定的に設定され、学習信号のスピーチ特性と類似するスピーチ特性を有する未知のオーディオ信号の各々に適用できることにある。そのようなスピーチ特性は、例えば一言語の特性であっても良いし、又は、欧州言語対アジア言語のような、言語のグループの特性であってもよい。

好ましくは、本発明の概念は、特徴抽出及びニューラルネットワークを使用してスピーチの特徴を学習することによって、雑音を推定することであり、本発明に従って抽出される特徴は、効率的かつ容易な方法で抽出できる単純な低レベルのスペクトル特徴であり、重要なことは、システムから必然的に生じる大きな遅延を発生させることなく抽出できる点である。したがって、本発明の概念は、雑音が非静的でありかつ種々の雑音信号が発生する状況においても、正確な雑音又はＳＮＲ推定をもたらすために特に有用である。

次に、本発明の好ましい実施形態を、添付の図面を参照してさらに詳しく説明する。
オーディオ信号を処理するための本発明の好ましい装置又は方法のブロック図である。本発明の好ましい実施形態による特徴結合器の学習のための装置又は方法のブロック図である。本発明の好ましい実施形態によるスピーチ強調装置及び方法を説明するためのブロック図である。特徴結合器の学習及び最適化された結合パラメータを用いたニューラルネットワーク回帰法の適用の手順について、概要を示している。ゲイン係数をＳＮＲの関数として示しているプロットであり、適用されるゲイン（実線）が、スペクトルサブトラクションのゲイン（点線）及びウィーナーフィルタ（破線）と比較されている。周波数帯ごとの特徴、及び全帯域幅についての好ましいさらなる特徴の概要である。特徴抽出器の好ましい実施例を説明するフローチャートである。周波数値ごとのゲイン係数の計算及びその後のスピーチ強調オーディオ信号部分の計算の好ましい実施例を説明するためのフローチャートを示している。スペクトル重み付けの例を示しており、入力時間信号、推定サブバンドＳＮＲ、補間後の周波数ｂｉｎ内の推定ＳＮＲ、スペクトルの重み付け、及び処理後の時間信号が示されている。多層ニューラルネットワークを使用した特徴結合器の好ましい実施例の概略ブロック図である。

図１は、オーディオ信号１０を処理して、スピーチ強調フィルタ１２のための制御情報１１を得る好ましい装置を示している。スピーチ強調フィルタは、複数の周波数帯の各々について周波数帯ごとの制御情報を使用してオーディオ信号１０をフィルタ処理するものであり、スピーチ強調オーディオ出力信号１３を得るための制御可能フィルタなど、多くの方法で実現することができる。後述するように、制御可能フィルタを時間／周波数変換器として実現することもでき、その場合は、個々に計算されたゲイン係数がスペクトル値又はスペクトル帯へと適用され、その後で周波数／時間変換が実行される。

図１の装置は、オーディオ信号の短時間スペクトル表現の時間シーケンスを取得し、複数の短時間スペクトル表現について複数の周波数帯の各周波数帯の少なくとも１つの特徴を抽出する特徴抽出器１４を備えており、前記少なくとも１つの特徴は、複数の周波数帯の各周波数帯における短時間スペクトル表現のスペクトル形状を表している。さらに、特徴抽出器１４を、スペクトル形状の特徴は別として、他の特徴を抽出するように構成してもよい。特徴抽出器１４の出力にオーディオ短時間スペクトルの幾つかの特徴が出力され、これらの幾つかの特徴は、複数（少なくとも１０、好ましくはさらに多く、２０〜３０など）の周波数帯の各周波数帯についてのスペクトル形状の特徴を少なくとも含んでいる。これらの特徴を、各帯域について生の特徴又は平均された特徴を得るために、そのまま使用することができ、あるいは幾何平均又は算術平均あるいは中央値処理又は他の統計モーメント処理（分散、歪度等）など、平均処理又は任意の他の処理を使用して処理することができる。その結果、これらの生及び／又は平均された特徴のすべてが特徴結合器１５へと入力される。特徴結合器１５は、複数のスペクトル形状の特徴及び好ましくは追加の特徴を、結合パラメータ入力部１６を介して導入可能な結合パラメータを使用して結合させるが、結合パラメータ入力部１６が不要であるように、結合パラメータが特徴結合器１５に組み込まれていても、あるいはプログラムされていてもよい。特徴結合器の出力において、複数の周波数帯又は複数の「サブバンド」の各周波数帯又は各サブバンドについて、スピーチ強調フィルタのための制御情報がオーディオ信号の各時間部分について得られる。

好ましくは、特徴結合器１５は、ニューラルネットワーク回帰回路として実現されるが、特徴結合器を、特徴抽出器１４によって出力された特徴に任意の結合操作を適用し、必要な制御情報（帯域ごとのＳＮＲ値又は帯域ごとのゲイン係数など）を最終的にもたらす任意の他の数値的又は統計的に制御される特徴結合器として実現することもできる。ニューラルネットワークの応用の好ましい実施形態においては、学習段階（「学習段階training phase」とは、実例を用いた学習(learning)が実行される段階を意味する）が必要とされる。この学習段階において、図２に示されているような、特徴結合器１５を学習させるための装置が使用される。具体的には、図２は、特徴結合器１５に、当該特徴結合器の結合パラメータを決定するための学習をさせる装置を示している。この目的のため、図２の装置は、好ましくは図１の特徴抽出器１４と同様に構成される特徴抽出器１４を備えている。さらに、特徴結合器１５も、図１の特徴結合器１５と同様に構成されている。

図１に加えて、図２の装置は、学習オーディオ信号の制御情報２１を入力として受け取る最適化コントローラ２０を備えている。学習段階は、各帯域に既知のスピーチ／雑音比を有している既知の学習オーディオ信号に基づいて実行される。スピーチ部分及び雑音部分が、例えば互いに別々にもたらされ、帯域ごとの実際のＳＮＲがオンザフライで測定され、すなわち学習動作の間に測定される。具体的には、特徴結合器１５に特徴抽出器１４からの特徴が供給されるように、最適化コントローラ２０が特徴結合器を制御する。これらの特徴と先行する反復実行からもたらされる中間結合パラメータとに基づき、特徴結合器１５が制御情報１１を計算する。この制御情報１１が最適化コントローラへと送られ、最適化コントローラ２０において、学習オーディオ信号の制御情報２１と比較される。中間結合パラメータが、最適化コントローラ２０からの指示に応答して変更され、この変更された結合パラメータを使用して、追加の制御情報のセットが特徴結合器１５によって計算される。この追加の制御情報が学習オーディオ信号の制御情報２１により良く一致する場合、最適化コントローラ２０は結合パラメータを更新し、これらの更新済みの結合パラメータ１６を次の実行において中間結合パラメータとして使用されるように特徴結合器１５へと送信する。これに代え、あるいはこれに加えて、更新された結合パラメータをさらなる使用のためにメモリに保存することができる。

図４は、ニューラルネットワーク回帰法での特徴抽出を使用するスペクトル重み付け処理の概要を示している。学習段階において、ニューラルネットワークのパラメータｗが、参照サブバンドＳＮＲ値Ｒ_t及び学習アイテムｘ_t［ｋ］からの特徴を使用して計算される（これは図４の左側に示されている）。雑音推定及びスピーチ強調のフィルタ処理は、図４の右側に示されている。

本発明が提案する概念は、スペクトル重み付けの手法に従い、スペクトル重みを計算するために新規な方法を使用する。雑音の推定は、教師あり学習法に基づき、本発明の特徴セットを使用する。この特徴は、音調の信号成分と雑音の信号成分との間の区別を目的とする。さらに、本発明が提案する特徴は、より長い時間スケールにおける信号特性の進展を考慮する。

本発明が提案する雑音推定方法は、様々な変動する背景音に対処することを可能にする。変動する背景雑音におけるロバストなＳＮＲ推定が、図４に示されるような特徴抽出及びニューラルネットワーク回帰法によって得られる。実数値の重みが、バーク尺度にほぼ近い間隔の周波数帯のＳＮＲ推定から計算される。ＳＮＲ推定のスペクトル分解能は、帯域のスペクトル形状の測定を可能にするためにかなり粗い。

図４の左側は、基本的には１回だけ実行すればよい学習段階に相当する。学習側４１として示す図４の左側の手順は、図２の最適化コントローラ２０へと入力される学習オーディオ信号の制御情報２１を生成する参照ＳＮＲ計算ブロック２１を含んでいる。学習側に位置する図４の特徴抽出装置１４は、図２の特徴抽出器１４に相当する。特に、図２は学習オーディオ信号を受け取る装置として説明してきたが、その学習オーディオ信号とは、スピーチ部分及び背景部分で構成されているものである。有用な参照を実行できるように、背景部分ｂ_t及びスピーチ部分ｓ_tは、互いに別々に入手可能であり、特徴抽出装置１４への入力前に加算器４３によって合計される。したがって、加算器４３の出力が、図２の特徴抽出器１４へと入力される学習オーディオ信号に相当する。

図４において符号１５、２０で示すニューラルネットワーク学習装置は図２におけるブロック１５及び２０に相当し、図２と同様の接続又は他の類似する接続により、メモリ４０に保存可能な一組の結合パラメータｗをもたらす。次に、本発明の概念を図４の適用側４２で示すとおりに適用した場合、これらの結合パラメータは、図１の特徴結合器１５に相当するニューラルネットワーク回帰装置１５において使用される。図４のスペクトル重み付け装置１２が図１の制御可能フィルタ１２に相当し、図４の右側の特徴抽出器１４が図１の特徴抽出器１４に相当する。

本発明が提案する概念の簡潔な実現を以下に詳しく説明する。図４の特徴抽出器１４は以下のように動作する。

異なる特徴からなるセット２１は、サブバンドＳＮＲ推定のための最良の特徴セットを特定するために調査されたものであり、これらの特徴は、様々な設定にて結合され、かつ客観的な測定値及び非公式なリスニングによって評価されたものである。特徴選択プロセスは、スペクトルエネルギー、スペクトル流束(flux)、スペクトルの平坦度、スペクトルの歪度、ＬＰＣ、及びＲＡＳＴＡ−ＰＬＰ係数を含む特徴のセットをもたらす。スペクトルのエネルギー、流束、平坦度、及び歪度の特徴は、臨界帯域スケールに応じたスペクトル係数から計算される。

上述の特徴を、図６を参照しながら詳述する。さらなる特徴は、スペクトルエネルギーのデルタ特徴ならびに低域通過フィルタ処理されたスペクトルエネルギー及びスペクトル流束のデルタ−デルタ特徴である。

図４のブロック１５、２０又は１５において使用され、あるいは好適には図１又は図２の特徴結合器１５において使用されるニューラルネットワークの構造を、図１０を用いて説明する。特に、好ましいニューラルネットワークは、入力ニューロンの層１００を含んでいる。一般に、ｎ個の入力ニューロンを使用することができ、すなわち各入力特徴ごとに１つのニューロンを使用することができる。好ましくは、ニューラルネットワークは、特徴の数に対応する２２０個の入力ニューロンを有している。ニューラルネットワークは、ｐ個の隠れ層ニューロンを有する隠れ層１０２をさらに備えている。一般に、ｐはｎよりも小さく、好ましい実施形態においては、隠れ層が５０個のニューロンを有している。ニューラルネットワークは、出力側にｑ個の出力ニューロンを有する出力層１０４を備えている。特に、出力ニューロンの数は、各出力ニューロンが各周波数帯のＳＮＲ（スピーチ対雑音比）情報など、各周波数帯のための制御情報をもたらすよう、周波数帯の数に等しくなる。例えば、好ましくは低い周波数から高い周波数へと増大する帯域幅を有する２５個の異なる周波数帯が存在する場合、出力ニューロンの数ｑは２５に等しい。このようにして、ニューラルネットワークは、計算された低レベルの特徴からのサブバンドＳＮＲ推定に適用される。ニューラルネットワークは、上述のように、２２０個の入力ニューロンと、５０個のニューロンを有する１つの隠れ層１０２とを有している。出力ニューロンの数は周波数帯の数に等しい。好ましくは、隠れニューロンが双曲正接(hyperbolic tangent)である活性化関数を含んでおり、出力ニューロンの活性化関数が恒等(identity)である。

一般に、層１０２又は１０４からの各ニューロンは、すべての対応する入力（層１０２に関しては、全入力ニューロンの出力）を受け取る。次に、層１０２又は１０４の各ニューロンは、結合パラメータに応じた重み付けパラメータで重み付け加算を実行する。隠れ層は、パラメータに加えてバイアス値を含むことができる。したがって、バイアス値も結合パラメータに属する。詳しくは、各入力がそれに対応する結合パラメータによって重み付けされ、図１０では例示的なボックス１０６によって示される重み付け操作の出力が各ニューロン内の加算器１０８へと入力される。加算器の出力又は出力ニューロンへの入力は、非線形関数１１０を備えることができ、そのような非線形関数を、場合に応じて、例えば隠れ層のニューロンの出力及び／又は入力に配置することができる。

ニューラルネットワークの重み付けは、クリーンなスピーチ信号と背景雑音との混合物で学習されるが、それらの参照ＳＮＲは分離された信号を使用して計算される。学習プロセスは、図４の左側に示されている。スピーチ及び雑音がアイテムごとに３ｄＢのＳＮＲで混合され、特徴抽出器へと供給される。このＳＮＲは、時間的に一定である広帯域のＳＮＲ値である。データセットは、各々の長さが２．５秒の４８個のスピーチ信号及び４８個の雑音信号からなる２３０４個の組み合わせを含む。スピーチ信号は、７つの言語による異なる話者からのものである。雑音信号は、交通雑音、群衆雑音、及び種々の天然環境音の録音である。

特定のスペクトル重み付け規則においては、ニューラルネットワークの出力の２つの定義が適切である。すなわち、ニューラルネットワークを、時間変化するサブバンドＳＮＲ値Ｒ（ω）のための参照値を使用して学習させることができ、あるいは（ＳＮＲ値から導出される）スペクトル重みＧ（ω）によって学習させることができる。非公式なリスニングにおいては、サブバンドＳＮＲを参照値としたシミュレーションの方が、スペクトルの重み付けで学習させたニューラルネットワークと比べて、より良好な客観的結果及びより良好な性能が得られた。ニューラルネットワークは、１００回の反復サイクルを使用して学習させる。この作業においては、スケールされた共役勾配に基づく学習アルゴリズムが使用される。

次に、スペクトル重み付け操作１２の好ましい実施形態を説明する。

推定されたサブバンドＳＮＲ推定値が、入力スペクトルの周波数分解能へと線形補間され、線形比

へと変換される。線形サブバンドＳＮＲが、推定誤差からもたらされる可能性があるアーチファクトを少なくするために、ＩＩＲ低域通過フィルタ処理を使用して時間及び周波数に沿って平滑化される。スペクトル重み付けのインパルス応答がＤＦＴフレームの長さを超える場合に生じる周回畳み込み（circular convolution）の影響を軽減するために、周波数に沿った低域通過フィルタ処理がさらに必要とされる。上記フィルタ処理が２回実行される一方で、第２のフィルタ処理は、結果としてのフィルタがゼロの位相を有するように、（最後のサンプルから出発して）逆順で行われる。

図５は、ＳＮＲの関数としてのゲイン係数を示している。適用されるゲイン（実線）が、スペクトルサブトラクションのゲイン（点線）及びウィーナーフィルタ（破線）と比較されている。

スペクトルの重み付けが、式（５）の修正スペクトルサブトラクション規則に従って計算され、−１８ｄＢに制限される。

パラメータα＝３．５及びβ＝１は、実験的に決定される。０ｄＢのＳＮＲを超えるこの特殊な減衰は、残留雑音を犠牲にしてスピーチ信号のひずみを回避するために選択されている。ＳＮＲの関数としての減衰曲線が、図５に示されている。

図９は、入力及び出力信号、推定されたサブバンドＳＮＲ、及びスペクトル重みの例を示している。

具体的には、図９はスペクトル重み付けの例を示しており、入力時間信号、推定されたサブバンドＳＮＲ、補間後の周波数ｂｉｎの推定されたＳＮＲ、スペクトル重み、及び処理済み時間信号を示している。

図６は、特徴抽出器１４によって抽出されるべき好ましい特徴の概要を示している。特徴抽出器は、各低い分解能を持つ一つの周波数帯、すなわちＳＮＲ又はゲイン値が必要とされる２５の周波数帯の各々について、その周波数帯における短時間スペクトル表現のスペクトル形状を表している特徴を抽出するのが望ましい。ある帯域におけるスペクトル形状は、その帯域内のエネルギーの分布を表し、いくつかの異なる計算規則によって構成可能である。

好ましいスペクトル形状の特徴は、スペクトル値の幾何平均をスペクトル値の算術平均によって除算したスペクトル平坦度（ＳＦＭ）である。幾何平均／算術平均の定義において、ｎ次のルート演算又は平均演算を実行する前に帯域内の各スペクトル値に冪（power）を適用することができる。

一般に、ＳＦＭのための計算式の分母における各スペクトル値を処理するための冪が分子に使用される冪よりも大きい場合に、スペクトルの平坦度を計算することもできる。その場合、分母及び分子の両方が、算術値の計算式を含むことができる。典型的には、分子における冪が２であり、分母における冪が１である。一般に、一般化されたスペクトル平坦度を得るためには、分子に使用される冪が分母に使用される冪よりも大きければよい。

周波数帯の全体にわたってエネルギーが等しく分布している帯域についてのＳＦＭは、１よりも小さく、多数の周波数ラインにおいて０に近い小さな値に接近する一方で、エネルギーが帯域内のただ１つのスペクトル値に集中している場合には、例えばＳＦＭ値が１に等しいことがこの計算から明らかである。すなわち、高いＳＦＭ値はエネルギ−が帯域内のある位置に集中している帯域を表す一方で、低いＳＦＭ値はエネルギーが帯域内に等しく分布していることを示している。

他のスペクトル形状の特徴として、重心を中心とする分布の非対称性の指標であるスペクトル歪度が挙げられる。ある周波数帯内における短時間周波数表現のスペクトル形状に関する他の特徴も存在する。

スペクトル形状が一周波数帯について計算される一方で、一周波数帯について計算され、かつ図６に示され詳しく後述される他の特徴が存在する。また、必ずしも各周波数帯について計算される必要がなく、帯域幅全体について計算されるさらなる特徴も存在する。

スペクトルエネルギー
スペクトルエネルギーは、各時間フレーム及び各周波数帯について計算され、そのフレームの総エネルギーによって正規化される。さらに、スペクトルエネルギーは、二次ＩＩＲフィルタを使用して時間に沿って低域通過フィルタ処理される。

スペクトル流束
スペクトル流束ＳＦは、連続する２０フレームのスペクトルの間の非類似度として定義され、距離関数によって実行されることが多い。この作業において、スペクトル流束は、式（６）によるユークリッド距離を使用し、スペクトル係数Ｘ（ｍ，ｋ）、時間フレームインデックスｍ、サブバンドインデックスｒ、ならびに周波数帯の下限ｌ_r及び上限ｕ_rによって計算される。

スペクトル平坦度
ベクトルの平坦度又はスペクトルの調性（スペクトル平坦度に逆の相関関係を持つ）の計算のための種々の定義が存在する。ここで使用されるスペクトル平坦度ＳＦＭは、式（７）に示されるように、サブバンド信号のＬ個のスペクトル係数の幾何平均及び算術平均の比として計算される。

スペクトル歪度
分布の歪度は、重心を中心とする非対称性の指標であり、ランダム変数の三次中央モーメントをその標準偏差の立方で除算したものとして定義される。

線形予測係数
ＬＰＣは、時系列の実際の値ｘ（ｋ）を、先行の値から、平方誤差

が最小になるように予測する全極型フィルタの係数である。

ＬＰＣは、自己相関法によって計算される。

メル周波数ケプストラム係数
パワースペクトルが、各周波数帯について単位重みを有する三角重み付け関数を使用してメルスケールに従ってワープさせられる。ＭＦＣＣは、対数をとり、離散余弦変換を計算することによって計算される。

相対スペクトル知覚線形予測係数
ＲＡＳＴＡ−ＰＬＰ係数（非特許文献１７）は、以下の工程にてパワースペクトルから計算される。
１．スペクトル係数の大きさの圧縮
２．時間にわたるサブバンドエネルギーの帯域通過フィルタ処理
３．工程２の逆処理に関連する大きさの拡張
４．等ラウドネス曲線に対応する重みの乗算
５．係数を０．３３の冪へと上げることによるラウドネスの知覚のシミュレーション
６．自己相関法による結果スペクトルの全極モデルの計算

知覚的線形予測（ＰＬＰ）係数
ＰＬＰ値は、ＲＡＳＴＡ−ＰＬＰと同様に、しかしながら工程１〜３を適用せずに計算される（非特許文献１８）。

デルタ特徴
デルタ特徴は、過去において自動スピーチ認識及びオーディオコンテンツ分類に成功裏に適用されている。デルタ特徴の計算については、様々な方法が存在している。ここでは、９個のサンプル長を有する線形勾配で特徴の時間系列を畳み込むことによって計算される（特徴の時系列のサンプリングレートはＳＴＦＴのフレームレートに等しい）。デルタ−デルタ特徴は、デルタ特徴にデルタ演算を行うことによって得られる。

上述のように、人間の聴覚システムと同様に、低分解能周波数帯の帯域分離を有することが好ましい。したがって、対数帯域分離又はバーク状の帯域分離が好ましい。これは、低い中心周波数を有する帯域が、高い中心周波数を有する帯域よりも狭いことを意味する。スペクトル平坦度の計算においては、例えば、通常は１つの帯域内の最も低い周波数の値である値ｌ _rから、その所定の帯域内の最大のスペクトル値であるカウント値ｕ_rまでの和の演算が実行される。より良好なスペクトル平坦度を得るために、低い帯域においては、少なくとも下方及び／又は上方に隣接する周波数帯からの一部又はすべてのスペクトル値を使用することが好ましい。これは、例えば第２の帯域についてのスペクトルの平坦度が、第２の帯域のスペクトル値ならびに第１の帯域及び／又は第３の帯域のスペクトル値を使用して計算されることを意味する。好ましい実施形態においては、第１又は第３のいずれかの帯域のスペクトル値だけが使用されるのではなく、第１の帯域及び第３の帯域のスペクトル値も使用される。これは、第２の帯域のＳＦＭを計算するときに、式（７）のｑが、第１の帯域の最初の（最も低い）スペクトル値に等しいｌ_rから第３の帯域の最も高いスペクトル値に等しいｕ_rまでとなることを意味する。値ｌ_r及びｕ_rがその低分解能周波数帯域そのものの範囲内のスペクトル値の個数で十分となる所定の帯域に到達するまでは、上述の方法で、より多数のスペクトル値に基づいて、スペクトル形状の特徴を計算することができる。

特徴抽出器によって抽出される線形予測係数に関しては、式（８）のＬＰＣ係数ａ_j若しくは最適化後に残る残余／誤差値のいずれかを使用するか、又は、特徴抽出器によって抽出されたＬＰＣ特徴に対して前記係数及び平方誤差値の両方が影響を与えるように、乗算又は正規化係数との加算などを用いた、係数及び誤差値の任意の組み合わせを使用することが好ましい。

スペクトル形状の特徴の利点は、それが低次元の特徴である点にある。例えば、１０個の複素又は実数スペクトル値を有する周波数帯域幅を考えたとき、これら１０個の複素又は実数スペクトル値のすべてを使用することは有益ではないであろうし、演算リソースの無駄であろうと考えられる。したがって、生のデータの次元よりも低い次元を有するスペクトル形状の特徴が抽出される。例えば、エネルギーが考慮される場合、生のデータは、１０個の平方スペクトル値が存在するため、１０という次元を有する。効率的に使用できるスペクトル形状の特徴を抽出するために、生のデータの次元よりも低い次元（好ましくは１又は２である）を有するスペクトル形状の特徴が抽出される。生データに対する同様の次元縮小は、例えば周波数帯のスペクトル包絡線への低レベルの多項式の適合が行われる場合に、達成することができる。例えば２つ又は３つのパラメータだけが適合された場合には、スペクトル形状の特徴は、多項式又は任意の他のパラメータ化システムのこれらの２つ又は３つのパラメータを含むことになる。一般に、周波数帯内のエネルギーの分布を表しており、生のデータの次元の５％未満、又は少なくとも５０％未満、あるいはわずかに３０％未満という低い次元を有するすべてのパラメータが有用である。

スペクトル形状の特徴を単独で使用するだけでも、オーディオ信号を処理するための装置について有利な挙動がもたらされることが判明しているが、少なくとも追加の帯域ごとの特徴を使用することが好ましい。改善された結果をもたらすうえで有用な追加の帯域ごとの特徴とは、各時間フレーム及び周波数帯について計算され、かつフレームの総エネルギーによって正規化された、帯域ごとのスペクトルエネルギーであることもまた示されている。この特徴は、低域通過フィルタ処理しても、しなくてもよい。さらに、スペクトル流束の特徴を加えることで、本発明の装置の性能が有利に向上し、帯域ごとのスペクトル形状の特徴が帯域ごとのスペクトルエネルギーの特徴及び帯域ごとのスペクトル流束の特徴に加えて使用されるときに、良好な性能をもたらす効率的な手順が得られることが明らかになっている。前記の追加の特徴に加えて、これも本発明の装置の性能を向上させる。

スペクトルエネルギーの特徴に関して述べたように、時間に沿ったこの特徴の低域通過フィルタ処理又は時間に沿った移動平均正規化の適用を加えることができるが、必ずしも適用の必要はない。前者の場合には、例えば対応する帯域についての５つの先行するスペクトル形状の特徴の平均が計算され、この計算の結果が、現在のフレームの現在の帯域についてのスペクトル形状の特徴として使用される。しかしながら、この平均化を、平均化の演算において現在の特徴を計算するために過去からの特徴だけでなく「未来」からの特徴も使用されるように、双方向的に適用することもできる。

次に、図１、図２又は図４に示したような特徴抽出器１４の好ましい実施例を提示するために、図７及び図８を説明する。第１段階において、ステップ７０に示されているとおり、オーディオサンプリング値のブロックを提供するために、オーディオ信号にウインドウが適用される。好ましくは、オーバーラップが適用される。これは、重なり範囲ゆえに、１つの同じオーディオサンプルが２つの連続するフレームにおいて生じることを意味し、オーディオサンプル値に関する５０％のオーバーラップが好ましい。ステップ７１において、ウインドウが適用されたオーディオサンプリング値のブロックについて、高い分解能である第１の分解能での周波数表現を得るために、時間／周波数変換が実行される。この目的のために、効率的なＦＦＴにて実現される短時間フーリエ変換（ＳＴＦＴ）が用いられる。ステップ７１がオーディオサンプル値の時間的に連続するブロックに対して数回適用されるとき、この技術分野において公知のとおりスペクトログラムが得られる。ステップ７２において、高分解能のスペクトル情報、すなわち高分解能のスペクトル値が、低分解能の周波数帯へとグループ化される。例えば、１０２４個又は２０４８個の入力値を有するＦＦＴが適用される場合、１０２４個又は２０４８個のスペクトル値が存在するが、そのような高い分解能は必要とされず、意図もされない。代わりに、グループ化のステップ７２は、高い分解能のスペクトルについて、例えばバーク帯域又は対数帯域分割から知られるような変化する帯域幅を有する帯域などの少数の帯域への分割をもたらす。次に、グループ化のステップ７２に続いて、スペクトル形状の特徴及び好ましくは他の特徴の計算ステップ７３が低分解能の帯域の各々について実行される。図７には示されていないが、周波数帯の全体に関するさらなる特徴をステップ７０において得られたデータを使用して計算することができる。なぜなら、これらの全帯域幅の特徴については、ステップ７１又はステップ７２によって得られるいかなるスペクトル分離も必要でないからである。

ステップ７３は、ｎよりも小さく、好ましくは周波数帯ごとに１又は２であるｍの次元を有するスペクトル形状の特徴をもたらす。これは、ステップ７２の後に存在する周波数帯ごとの情報が、特徴抽出器の動作によってステップ７３の後に存在する低次元の情報へと圧縮されることを意味する。

図７に示されるように、ステップ７１及びステップ７２の付近において、時間／周波数変換及びグループ化のステップを別の操作で置き換えることができる。ステップ７０の出力を、例えば出力において２５個のサブバンド信号が得られるように低分解能のフィルタバンクでフィルタ処理することができる。次に、各サブバンドの高分解能の分析を実行し、スペクトル形状の特徴計算のための生データを得ることができる。この処理は、例えばサブバンド信号のＦＦＴ分析によって行うことができ、あるいはさらなるカスケードフィルタバンクによるなど、サブバンド信号の他の任意の分析によって行うことができる。

図８は、図１の制御可能フィルタ１２、又は図３において説明され、若しくは図４に符号１２で示されているスペクトル重み付けの特徴を実現するための好ましい手順を示している。ステップ８０に示されているように、図４のニューラルネットワーク回帰ブロック１５によって出力されるサブバンドＳＮＲ値などの低分解能の帯域ごとの制御情報の決定段階に続いて、ステップ８１において、高分解能への線形補間が実行される。

図３のステップ３０において実行され、あるいはステップ７１において実行される短時間フーリエ変換によって得られ、もしくはステップ７１及び７２の右側に示されている代替の手順によって得られる各スペクトル値について、重み付け係数を最終的に得ることが目的である。ステップ８１の後で、各スペクトル値についてのＳＮＲ値が得られる。しかしながら、このＳＮＲ値は依然として対数ドメインにあるので、ステップ８２が各高分解能のスペクトル値について対数ドメインから線形ドメインへの変換をもたらす。

ステップ８３において、各スペクトル値の線形ＳＮＲ値（すなわち高分解能である）が、ＩＩＲ低域通過フィルタ又はＦＩＲ低域通過フィルタなどを使用して、例えば任意の移動平均操作(moving average operations)を適用することで、時間及び周波数において平滑化される。ステップ８４において、平滑化された線形ＳＮＲ値に基づいて、各高分解能の周波数値のためのスペクトル重みが計算される。この計算は、図５に示した関数に基づくが、この図に示されている関数が対数項にて与えられている一方で、ステップ８４において、各高分解能の周波数値のためのスペクトル重みは線形ドメインで計算される。

次に、ステップ８５において、各スペクトル値と決定されたスペクトル重みとが乗算され、スペクトル重みの組で乗算された高分解能のスペクトル値の組が得られる。この処理済みのスペクトルはステップ８６において周波数−時間変換される。適用シナリオに応じて及びステップ８０において使用されるオーバーラップに応じて、ブロッキングアーチファクトに対処するために、２つの連続する周波数−時間変換段階によって得られる時間ドメインオーディオサンプリング値の２つのブロックの間でクロスフェーディング操作を実行することができる。

さらなるウインドウを周回畳み込みのアーチファクトを低減するために適用することができる。

ステップ８６の結果は、改善されたスピーチ性能を有しており、すなわちスピーチ強調が実行されていない対応するオーディオ入力信号と比べてスピーチをより良く知覚することができるオーディオサンプル値のブロックである。

本発明の方法の特定の実施の要件に応じて、本発明の方法は、ハードウェア又はソフトウェアにて実現することができる。実現は、本発明の方法を実行するようにプログラム可能なコンピュータシステムと協働する電子的に読み取り可能な制御信号が保存されてなるデジタル記憶媒体、特に、ディスク、ＤＶＤ、又はＣＤを使用して行うことができる。したがって、一般的に、本発明は、プログラムコードを機械読み取り可能なキャリアに保存して有しているコンピュータプログラム製品であり、このコンピュータプログラム製品がコンピュータ上で実行されるときに、プログラムコードが本発明の方法を実行するように動作する。したがって、換言すると、本発明の方法は、コンピュータ上で実行されるときに本発明の方法の少なくとも１つを実行するプログラムコードを有しているコンピュータプログラムである。

上述した実施形態は、あくまでも本発明の原理を例示するものにすぎない。本明細書において説明した構成及び詳細について、変更及び変形が当業者にとって明らかであることを理解すべきである。したがって、本発明は、添付の特許請求の範囲の技術的範囲によってのみ限定され、本明細書の実施形態の説明及び解説によって提示された特定の詳細によって限定されるものではない。

Claims

オーディオ信号を処理してスピーチ強調フィルタのための制御情報を得る装置であって、
前記オーディオ信号の短時間スペクトル表現の時間系列を取得し、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出する特徴抽出器であって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、特徴抽出器と、
各周波数帯の前記少なくとも１つの特徴を前記複数の周波数帯にわたって結合パラメータを使用して結合させ、前記オーディオ信号の１つの時間部分について前記スピーチ強調フィルタのための制御情報を得る特徴結合器と、
前記特徴結合器の結合パラメータを決定するために当該特徴結合器に学習させる最適化コントローラとを備え、
前記特徴抽出器は、スピーチ強調フィルタへの周波数帯ごとの制御情報が既知である学習オーディオ信号について、当該学習オーディオ信号の短時間スペクトル表現の時間系列を取得し、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出し、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表すものであり、
前記特徴抽出器は、前記学習オーディオ信号から抽出された、各周波数帯の前記少なくとも１つの特徴を前記特徴結合器へ供給し、
前記特徴結合器は、中間結合パラメータを使用して前記制御情報を計算し、
前記最適化コントローラは、前記中間結合パラメータを変化させ、変化後の前記制御情報を前記既知の制御情報と比較し、前記変化後の中間結合パラメータが前記既知の制御情報により良く一致する制御情報をもたらす場合に、前記中間結合パラメータを更新して前記結合パラメータを決定することを特徴とする、装置。
前記特徴抽出器が、短時間スペクトル表現の特性を表す少なくとも１つの追加の特徴を抽出し、前記追加の特徴によって表される前記短時間スペクトル表現の特性は、前記短時間スペクトル表現のスペクトル形状とは異なる特性であり、
前記特徴結合器が、前記結合パラメータを使用して、各周波数帯について、前記少なくとも１つの追加の特徴と前記少なくとも１つの特徴とを結合させる、請求項１に記載の装置。
前記特徴抽出器が、周波数帯の中心周波数が高くなるにつれて帯域幅が大きくなる非一様な帯域幅の周波数帯を有するスペクトル表現の時間系列が得られる周波数変換操作を行う、請求項１に記載の装置。
前記特徴抽出器が、第１の特徴として、帯域内のエネルギー分布を表す帯域ごとのスペクトル平坦度を計算するか、又は第２の特徴として、スペクトル表現の導出元の信号フレームの総エネルギーに基づいて帯域ごとの正規化されたエネルギーを計算し、
前記特徴結合器が、前記帯域ごとのスペクトル平坦度又は前記帯域ごとの正規化されたエネルギーを使用する、請求項１に記載の装置。
前記特徴抽出器が、各帯域について、時間的に連続するスペクトル表現の間の類似度又は非類似度を表すスペクトル流束、又は重心を中心とする非対称性を表すスペクトル歪度をさらに抽出する、請求項１〜４のいずれかに記載の装置。
前記特徴抽出器が、ＬＰＣ誤差信号、所定次数までの線形予測係数、又はＬＰＣ誤差信号と線形予測係数との組み合わせを含むＬＰＣ特徴をさらに抽出し、あるいは前記特徴抽出器が、ＰＬＰ係数、ＲＡＳＴＡ−ＰＬＰ係数、メル周波数ケプストラム係数、又はデルタ特徴をさらに抽出する、請求項１に記載の装置。
前記特徴抽出器は、時間ドメインのオーディオサンプルの一ブロックについて前記線形予測係数の特徴を計算し、前記ブロックは、各周波数帯のスペクトル形状を表す前記少なくとも１つの特徴を抽出するために使用されるオーディオサンプルを含む、請求項６に記載の装置。
前記特徴抽出器は、一周波数帯のスペクトルの形状を計算するために、直接隣接する１つ又は２つの周波数帯のスペクトル情報をも使用する場合と、当該周波数帯のスペクトル情報だけを使用する場合とを含む請求項１に記載の装置。
前記特徴抽出器が、オーディオサンプルのブロックごとに各特徴について個別の特徴情報を抽出し、一周波数帯の個別の特徴情報の系列を結合させて、当該周波数帯について前記少なくとも１つの特徴を得る、請求項１に記載の装置。
前記特徴抽出器が、各周波数帯についていくつかのスペクトル値を計算し、当該いくつかのスペクトル値を結合させてスペクトル形状を表す前記少なくとも１つの特徴を取得し、前記少なくとも１つの特徴が前記周波数帯内の前記スペクトル値の数よりも小さい次元を有している、請求項１に記載の装置。
オーディオ信号を処理してスピーチ強調フィルタのための制御情報を得る方法であって、
前記スピーチ強調フィルタへの周波数帯ごとの制御情報が既知である学習オーディオ信号について、当該学習オーディオ信号の短時間スペクトル表現の時間系列を得るステップと、
前記学習オーディオ信号について、複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出するステップであって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、ステップと、
前記学習オーディオ信号の各周波数帯における前記少なくとも１つの特徴から、中間結合パラメータを使用して前記制御情報を計算するステップと、
前記中間結合パラメータを変化させるステップと、
変化後の前記制御情報を前記既知の制御情報と比較するステップと、
前記変化後の中間結合パラメータが前記既知の制御情報により良く一致する制御情報をもたらす場合に、前記中間結合パラメータを更新して結合パラメータを決定するステップと、
前記オーディオ信号の短時間スペクトル表現の時間系列を得るステップと、
複数の短時間スペクトル表現のために複数の周波数帯の各周波数帯における少なくとも１つの特徴を抽出するステップであって、前記少なくとも１つの特徴が前記複数の周波数帯の１つの周波数帯における１つの短時間スペクトル表現のスペクトル形状を表す、ステップと、
各周波数帯の前記少なくとも１つの特徴を前記複数の周波数帯にわたって前記結合パラメータを使用して結合させ、前記オーディオ信号の１つの時間部分について前記スピーチ強調フィルタのための制御情報を得るステップと、
を含む方法。
オーディオ信号におけるスピーチ強調のための装置であって、
前記オーディオ信号の一時間部分を表している複数の帯域についてフィルタ制御情報を得るために、前記オーディオ信号を処理する請求項１に記載の装置と、
前記オーディオ信号の或る帯域を他の帯域に比べて可変に減衰させるように前記制御情報に基づいて制御することができる制御可能フィルタと、
を備えた装置。
前記処理する装置が、前記制御情報が持つスペクトル分解能よりも高い分解能を有するスペクトル情報を提供する時間周波数変換器を備えており、
前記制御情報を高い分解能へと補間し、補間後の制御情報を平滑化して、後処理済み制御情報を得る制御情報の後処理プロセッサをさらに備えており、
前記後処理済み制御情報に基づいて、前記制御可能フィルタの制御可能なフィルタパラメータが設定される、請求項１２に記載の装置。
オーディオ信号のスピーチ強調の方法であって、
前記オーディオ信号を処理し、オーディオ信号の１つの時間部分を表している複数の帯域についてフィルタ制御情報を得る請求項１１に記載の方法と、
前記制御情報に基づき、前記オーディオ信号の或る帯域が他の帯域に比べて可変に減衰させられるようにフィルタを制御するステップと、
を含む方法。
コンピュータ上で実行されたときに請求項１１又は１４に記載の方法を実行するためのコンピュータプログラム。