JPWO2020183219A5 - - Google Patents

Download PDF

Info

Publication number: JPWO2020183219A5
Authority: JP; Japan
Prior art keywords: frequency; signals; pitch; signal; acoustic
Prior art date: 2024-05-17
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.): Granted

Application number

JP2021553756A

Other languages

English (en)

Other versions

JP7564117B2 (ja

JP2022533300A (ja

Publication date

2024-05-17

2019-03-10 Application filed filed Critical

2019-03-10 Priority claimed from PCT/IB2019/051933 external-priority patent/WO2020183219A1/en

2022-07-22 Publication of JP2022533300A publication Critical patent/JP2022533300A/ja

2024-05-17 Publication of JPWO2020183219A5 publication Critical patent/JPWO2020183219A5/ja

2024-10-08 Application granted granted Critical

2024-10-08 Publication of JP7564117B2 publication Critical patent/JP7564117B2/ja

Status Active legal-status Critical Current

2039-03-10 Anticipated expiration legal-status Critical

Description

（背景技術）
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音（例えば自動車又は飛行機の中）、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率（ｄＢスケールであることがしばしばである）を反映している、音声対雑音比（ＳＮＲ：ｓｐｅｅｃｈ－ｔｏ－ｎｏｉｓｅ－ｒａｔｉｏ）又は音声対妨害比（ＳＩＲ：ｓｐｅｅｃｈ－ｔｏ－ｉｎｔｅｒｆｅｒｅｎｃｅ－ｒａｔｉｏ）を改善するそれらの能力によって判断される。

「ＬｅｓｓｏｎｓｉｎＤｉｇｉｔａｌＥｓｔｉｍａｔｉｏｎＴｈｅｏｒｙ」ｂｙＪｅｒｒｙＭ．Ｍｅｎｄｅｌ「ＮｅｗＦｅａｔｕｒｅｓｆｏｒＥｍｏｔｉｏｎａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」ｂｙＰａｌｏｅｔ．ａｌ．

反響環境で音声強化を実施する必要がますます高くなっている。

音声強化のための方法を提供することができ、方法は、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るステップ又は生成するステップと、周波数変換されたサンプルを提供するために音サンプルを周波数変換するステップと、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化するステップであって、該クラスター化するステップが、（ｉ）受信した音信号に関連する空間キュー、及び（ｉｉ）スピーカに関連する音響キューに基づき得る、クラスター化するステップと、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定するステップと、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ：ｍｕｌｔｉｐｌｅｉｎｐｕｔｍｕｌｔｉｐｌｅｏｕｔｐｕｔ）ビーム形成演算を適用するステップと、音声信号を提供するために、ビーム形成された信号を逆周波数変換するステップとを含むことができる。

方法は、スピーカに関連する音響キューを生成するステップを含むことができる。

音響キューを生成するステップは、音サンプル中のキーワードを探索するステップ、及びキーワードから音響キューを抽出するステップを含むことができる。

方法は、キーワードに関連する空間キューを抽出するステップを含むことができる。

方法は、キーワードに関連する空間キュアをクラスター化シード（clustering seed）として使用するステップを含むことができる。

音響キューは、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び１つ又は複数のピッチ周波数調波の強度を含むことができる。

方法は、信頼性属性を個々のピッチに関連付けるステップ、及びピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するステップを含むことができる。

クラスター化するステップは、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理するステップ、音響キューを使用してスピーカの状態を常に追跡するステップ、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化するステップ、及び周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるステップを含むことができる。

割り当てるステップは、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算するステップを含むことができる。

追跡するステップは、拡張カルマン・フィルターを適用するステップを含むことができる。

追跡するステップは、多重仮説追跡を適用するステップを含むことができる。

追跡するステップは、粒子フィルターを適用するステップを含むことができる。

セグメント化するステップは、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てるステップを含むことができる。

方法は、音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するステップを含むことができる。

方法は、少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するステップを含むことができる。

周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置することができ、方法は、複数のベクトルを重み平均することによって中間ベクトルを計算するステップと、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するステップとを含むことができる。

方法は、雑音の標準偏差の３倍になるように定義済み閾値を決定するステップを含むことができる。

コンピュータ化されたシステムによって実行されると、そのコンピュータ化されたシステムが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化し（このクラスター化は、（ｉ）受信した音信号に関連する空間キュー、及び（ｉｉ）スピーカに関連する音響キューに基づくことができる）、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用し、且つ、音声信号を提供するために、ビーム形成された信号を逆周波数変換することになる命令を記憶する非一時的コンピュータ可読媒体を提供することができる。

非一時的コンピュータ可読媒体は、スピーカに関連する音響キューを生成するための命令を記憶することができる。

音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを抽出することを含むことができる。

非一時的コンピュータ可読媒体は、キーワードに関連する空間キューを抽出するための命令を記憶することができる。

非一時的コンピュータ可読媒体は、キーワードに関連する空間キュアをクラスター化シードとして使用するための命令を記憶することができる。

音響キューは、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び１つ又は複数のピッチ周波数調波の強度を含むことができる。

非一時的コンピュータ可読媒体は、信頼性属性を個々のピッチに関連付け、また、ピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するための命令を記憶することができる。

クラスター化には、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理し、音響キューを使用してスピーカの状態を常に追跡し、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化し、また、周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てることを含むことができる。

割り当てには、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算することを含むことができる。

追跡することには、拡張カルマン・フィルターを適用することを含むことができる。

追跡することには、多重仮説追跡を適用することを含むことができる。

追跡することには、粒子フィルターを適用することを含むことができる。

セグメント化することには、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てることを含むことができる。

非一時的コンピュータ可読媒体は、音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するための命令を記憶することができる。

非一時的コンピュータ可読媒体は、少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するための命令を記憶することができる。

周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置することができ、非一時的コンピュータ可読媒体は、複数のベクトルを重み平均することによって中間ベクトルを計算し、また、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するための命令を記憶することができる。

非一時的コンピュータ可読媒体は、雑音の標準偏差の３倍になるように定義済み閾値を決定するための命令を記憶することができる。

マイクロホンのアレイと、記憶装置と、プロセッサとを含むことができるコンピュータ化されたシステムを提供することができる。プロセッサは、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化し（このクラスター化は、（ｉ）受信した音信号に関連する空間キュー、及び（ｉｉ）スピーカに関連する音響キューに基づくことができる）、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用し、且つ、音声信号を提供するために、ビーム形成された信号を逆周波数変換するように構成することができ、記憶装置は、音サンプル及び音声信号のうちの少なくとも１つを記憶するように構成することができる。

コンピュータ化されたシステムはマイクロホンのアレイを含むことはできないが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す信号をマイクロホンのアレイから受信することは可能である。

プロセッサは、スピーカに関連する音響キューを生成するように構成することができる。

音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを抽出することを含むことができる。

プロセッサは、キーワードに関連する空間キューを抽出するように構成することができる。

プロセッサは、キーワードに関連する空間キュアをクラスター化シードとして使用するように構成することができる。

音響キューは、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び１つ又は複数のピッチ周波数調波の強度を含むことができる。

プロセッサは、信頼性属性を個々のピッチに関連付け、また、ピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するように構成することができる。

プロセッサは、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理することによってクラスター化し、音響キューを使用してスピーカの状態を常に追跡し、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化し、また、周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるように構成することができる。

プロセッサは、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算することによって割り当てるように構成することができる。

プロセッサは、拡張カルマン・フィルターを適用することによって追跡するように構成することができる。

プロセッサは、多重仮説追跡を適用することによって追跡するように構成することができる。

プロセッサは、粒子フィルターを適用することによって追跡するように構成することができる。

プロセッサは、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てることによってセグメント化するように構成することができる。

プロセッサは、音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するように構成することができる。

プロセッサは、少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するように構成することができる。

周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置することができ、プロセッサは、複数のベクトルを重み平均することによって中間ベクトルを計算し、また、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するように構成することができる。

プロセッサは、雑音の標準偏差の３倍になるように定義済み閾値を決定するように構成することができる。

本発明を理解し、また、本発明を実際に実施することができる方法をよく調べるために、以下、好ましい実施例について、添付の図面を参照して、単なる非制限の実例によって説明する。

多重通路を示す図である。方法の実例を示す図である。図２の方法のクラスター化ステップの実例を示す図である。時間－周波数マップ上のピッチ検出の実例を示す図である。時間－周波数－キューマップの実例を示す図である。オフライン訓練における声認識チェーンの実例を示す図である。実時間訓練における声認識チェーンの実例を示す図である。訓練機構の実例を示す図である。方法の実例を示す図である。

システムに対する参照は、すべて、必要な変更を加えて、システムによって実行される方法に、及び／又はシステムによって実行されると、そのシステムが方法を実行することになる命令を記憶する非一時的コンピュータ可読媒体に適用されるものとする。

方法に対する参照は、すべて、必要な変更を加えて、方法を実行するように構成されるシステムに、及び／又はシステムによって実行されると、そのシステムが方法を実行することになる命令を記憶する非一時的コンピュータ可読媒体に適用されるものとする。

非一時的コンピュータ可読媒体に対する参照は、すべて、必要な変更を加えて、システムによって実行される、及び／又は非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成されるシステムによって実行される方法に適用されるものとする。

「及び／又は」という用語は、追加的又は代替的である。

「システム」という用語は、コンピュータ化されたシステムを意味している。

音声強化方法は、信号が雑音及び他のスピーカによって妨害される場合に、所望の発信源（スピーカ）から音声信号を抽出することに的が絞られている。無響環境では、指向性ビーム形成の形態の空間フィルタリングが有効である。しかしながら反響環境では、個々の発信源からの音声は、いくつかの方向にわたって不鮮明にされ、必ずしも連続的ではなく、通常のビームフォーマーの利点を生かしていない。伝達関数（ＴＦ：ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）に基づくビームフォーマーを使用してこの問題に対処し、或いは相対伝達関数（ＲＴＦ：ｒｅｌａｔｉｖｅｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）をＴＦそのものとして使用することは有望な方向である。しかしながら多重スピーカ環境では、スピーカ毎にＲＴＦを予測する能力は、音声信号が同時に捕獲される場合、依然として課題である。音響キュー及び空間キューを追跡して同時スピーカをクラスター化し、それにより反響環境におけるスピーカのＲＴＦの予測を容易にすることを含む解決法が提供される。

とりわけ多重スピーカ反響環境において、個々の周波数成分をその元のスピーカに割り当てる、スピーカのクラスター化アルゴリズムが提供される。このクラスター化アルゴリズムは、ＲＴＦエスティメータ（ＲＴＦ予測器）が多重スピーカ反響環境で適切に動作するために必要な条件を提供する。次に、ＲＴＦ行列の予測を使用して、伝達関数に基づく線形拘束最小分散（ＴＦ－ＬＣＭＶ：ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｂａｓｅｄｌｉｎｅａｒｃｏｎｓｔｒａｉｎｅｄｍｉｎｉｍｕｍｖａｒｉａｎｃｅ）ビームフォーマーの重みベクトルが計算され（後で出てくる方程式（１０）を参照されたい）、したがってＴＦ－ＬＣＭＶが動作するために必要な条件を満たす。個々の人間のスピーカには異なるピッチが賦与されていることが仮定されており、したがってピッチはスピーカに対する全単射インジケータである。多重ピッチ検出は、とりわけ雑音が多い反響多重スピーカ環境では課題タスクであることが知られている。この課題に対処するために、Ｗ－分離直交性（Ｗ－ＤＯ：Ｗ－ＤｉｓｊｏｉｎｔＯｒｔｈｏｇｏｎａｌｉｔｙ）仮定が採用され、また、一組の空間キュー、例えば信号強度、方位角及び仰角が追加特徴として使用される。一時的に非活動状態のスピーカ及びピッチの変化を克服するために、拡張カルマン・フィルター（ＥＫＦ：ｅｘｔｅｎｄｅｄＫａｌｍａｎｆｉｌｔｅｒ）を使用して音響キュー－ピッチ値－が常に追跡され、また、空間キューを使用して最後のＬ個の周波数成分がセグメント化され、且つ、個々の周波数成分が異なる発信源に割り当てられる。特定のピッチを有する特定のスピーカへの周波数成分のクラスター化を容易にするために、相互相関によってＥＫＦ及びセグメント化の結果が結合される。

図１は、音声信号の周波数成分が人間のスピーカ１１からマイクロホン・アレイ１２へ反響環境で移動する経路を説明したものである。環境１４における壁１３及び他の要素は、衝突する信号を反射し、その減衰及び反射角は、壁の材料及び織地で決まる。人間の音声の異なる周波数成分は、異なる経路を辿ることになる。これらの経路は、人間のスピーカ１１とマイクロホン・アレイ１２の間の最短経路上に存在している直接経路１５であっても、或いは間接経路１６、１７であってもよい。周波数成分は１つ又は複数の経路に沿って移動することになることに留意されたい。

図２はアルゴリズムを説明したものである。信号は、Ｍ≧２個のマイクロホンを含むマイクロホン・アレイ２０１によって獲得され、Ｍ＝７個のマイクロホンは一実例である。マイクロホンは、例えば直線、円又は球の上を等間隔で間隔を隔てたような、さらには任意の形を形成する非一様に間隔を隔てたような一連の集まりで展開させることができる。個々のマイクロホンからの信号は、サンプリングされ、デジタル化され、また、それぞれＴ個の連続するサンプル２０２を含むＭ個のフレームに記憶される。フレームＴのサイズは、短時間フーリエ変換（ＳＴＦＴ：ｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）が正確で、しかしながら十分に短く、したがって信号が等価時間継続期間に沿って不動であるよう、十分に大きくなるように選択することができる。Ｔのための典型的な値は、１６ｋＨｚのサンプリング・レートに対して４，０９６サンプルであり、即ちフレームは１／４秒と等価である。連続するフレームは、しばしば、信号の特徴が時間を経過した後の追跡を改善するために互いに重畳する。典型的な重畳は７５％であり、即ち１，０２４サンプル毎に新しいフレームが開始される。Ｔは、例えば０．１秒と２秒の間の範囲であってもよく、それにより１６ｋＨｚサンプリング・レートに対して１０２４～３２７６８個のサンプルを提供する。サンプルは、時間期間Ｔの間にマイクロホンのアレイによって受信された音信号を表す音サンプルと呼ぶことも可能である。

個々のフレームは、２０３で、フーリエ変換、又は短時間フーリエ変換（ＳＴＦＴ）、定－Ｑ変換（ＣＱＴ：ｃｏｎｓｔａｎｔ－Ｑｔｒａｎｓｆｏｒｍ）、対数フーリエ変換（ＬＦＴ：ｌｏｇａｒｉｔｈｍｉｃＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）、フィルター・バンク、等々などのフーリエ変換の変形を適用することによって周波数領域に変換される。窓処理及びゼロ－パッディングなどのいくつかの技法を適用してフレーミング効果を制御することも可能である。２０３によって、長さＫのＭ個の複素数値化ベクトルが得られる。例えばアレイが７個のマイクロホンを含んでいる場合、７個のベクトルが準備され、これらはフレーム時間指数ｌによって登録される。Ｋは周波数ビンの数であり、周波数変換によって決定される。例えば通常のＳＴＦＴを使用する場合、Ｋ＝Ｔであり、これはバッファの長さである。ステップ２０３の出力は、周波数変換された信号と呼ぶことも可能である。

音声信号は、２０４で、異なるスピーカにクラスター化される。クラスターは、スピーカ関連クラスターと呼ぶことができる。方向のみに基づいてスピーカをクラスター化する従来技術ワークとは異なり、２０４は、反響室における複数のスピーカを取り扱っており、したがって直接経路及び間接経路により、異なる方向からの信号を同じスピーカに割り当てることができる。提案されている解決法は、一組の空間キュー、例えばマイクロホンのうちの１つにおける信号の方向（方位及び高度）及び強度に加えて、一組の音響キュー、例えばピッチ周波数及び強度、並びにその調波周波数及び強度の使用を示唆している。ピッチ、及び空間キューのうちの１つ又は複数は、カルマン・フィルター及びその変形、多重仮説追跡（ＭＨＴ：ｍｕｌｔｉｐｌｅｈｙｐｏｔｈｅｓｉｓｔｒａｃｋｉｎｇ）又は粒子フィルターなどの追跡アルゴリズムのための状態ベクトルとして働き、これらは、この状態ベクトルを追跡するために使用され、また、個々の追跡を異なるスピーカに割り得てるために使用される。

すべてのこれらの追跡アルゴリズムは、時間における状態ベクトルの力学を説明しているモデルを使用しており、したがって状態ベクトルの測値が雑音によって紛失し、或いは汚染されると、追跡アルゴリズムは、動的モデルのこの使用を補償し、また、それと同時にモデル・パラメータを更新する。このステージの出力は、所与の時間ｌにおける個々の周波数成分を個々のスピーカに割り当てるベクトルである。２０４については、図３でさらに詳しく説明される。

２０５で、周波数領域におけるデータにＲＴＦエスティメータが適用される。このステージにより一組のＲＴＦが得られ、ＲＴＦの各々は関連するスピーカに登録される。登録プロセスは、クラスター化スピーカ２０４からのクラスター化アレイを使用して実施される。この一組のＲＴＦは、スピーカ関連相対伝達関数と呼ぶことも可能である。

ＭＩＭＯビームフォーマー２０６は、必要な音声信号のエネルギーに関して、空間フィルタリングによって雑音及び妨害信号のエネルギーを小さくする。ステップ２０６の出力は、ビーム形成された信号と呼ぶことも可能である。ビーム形成された信号は、次に、サンプルのストリームの形態の連続音声信号を作り出すために逆周波数変換２０７へ送られ、このサンプルのストリームは、今度は、音声認識システム、通信システム及び記録デバイスなどの他の要素に転送される２０８。

本発明の好ましい実施例では、キーワード・スポッティング２０９を使用して、クラスター化ブロック２０４の性能を改善することができる。２０２からのフレームの中から、定義済みキーワード（例えば「今日はアレクサ」又は「オーケーグーグル」）が探索される。キーワードがフレームのストリームの中にスポットされると、ピッチ周波数及び強度、並びにその調波周波数及び強度などのスピーカの音響キューが抽出される。また、個々の周波数成分がマイクロホン・アレイ２０１に到達した経路の特徴が同じく抽出される。これらの特徴は、クラスター化スピーカ２０４によって、所望のスピーカのクラスターのためのシード（seed）として使用される。シードとは、クラスターの初期パラメータ、例えばクラスターの重心、半径、及びＫ－平均、ＰＳＯ及び２ＫＰＭなどの重心に基づくクラスター化アルゴリズムのための統計量に関する初期推測である。別の実例は、部分空間に基づくクラスター化のための部分空間の基本である。

図３は、スピーカのクラスター化アルゴリズムを説明したものである。個々のスピーカには異なる一組の音響キュー、例えばピッチ周波数及び強度、並びにその調波周波数及び強度が賦与されていることが仮定されており、したがってその一組の音響キューは、スピーカに対する全単射インジケータ（bijective indicator）である。音響キュー検出は、とりわけ雑音が多い反響多重スピーカ環境では骨の折れる課題タスクであることが知られている。この課題に対処するために、例えば信号強度、方位角及び仰角の形態の空間キューが使用される。一時的に非活動状態のスピーカ及び音響キューの変化を克服するために、空間フィルター及び拡張カルマン・フィルター（ＥＫＦ）などのフィルターを使用して音響キューが常に追跡され、また、空間キューを使用して、異なる発信源の間で周波数成分がセグメント化される。特定のピッチを有する特定のスピーカへの周波数成分のクラスター化を容易にするために、相互相関によってＥＫＦ及びセグメント化の結果が結合される。

３１で、好ましい一実施例の実例のように、ピッチ周波数の形態の潜在的音響キューが検出される。最初に、２０３で計算される、個々のマイクロホンからのバッファの周波数変換を使用して時間－周波数マップが準備される。次に、いくつかのマイクロホンにおけるアーチファクトを少なくするように決定することができる何らかの重み係数を使用して、Ｍ個の長さＫの複素数値化ベクトルの各々の絶対値が重み平均される。それにより長さＫの単一の実ベクトルが得られる。このベクトルでは、所与の閾値μより大きい値が抽出され、一方、残りの要素は廃棄される。閾値μは、しばしば、雑音の標準偏差の３倍になり、システムの電気パラメータ、とりわけサンプリングされた信号の有効ビット数で決まる一定の値未満にはならないように適応的に選択される。周波数指数が［ｋ＿最小、ｋ＿最大］の範囲内である値は、ピッチ周波数のための候補として定義される。変数ｋ＿最小及びｋ＿最大は、典型的な成年の男性は８５Ｈｚから１８００Ｈｚまでの基本周波数を有し、また、典型的な成年の女性の基本周波数は１６５Ｈｚから２５５０Ｈｚまでであるため、典型的にはそれぞれ８５Ｈｚ及び２５５０Ｈｚである。次に、そのより高い調波を探索することによって個々のピッチ候補が検証される。第２調波及び第３調波の存在は、信頼性がＲ（例えばＲ＝１０）である道理にかなったピッチとして検出されることになる候補ピッチのための前提条件であり得る。より高い調波（例えば第４及び第５）が存在している場合、ピッチの信頼性が高くなり、例えば調波毎に２倍になり得る。図４に実例を見出すことができる。本発明の好ましい実施例では、所望のスピーカのピッチ３２は、所望のスピーカによって発音されたキーワードを使用して２１０によって供給される。供給されるピッチ３２は、最も高い可能信頼性、例えばＲ＝１０００を有するリストに加えられる。

３３で、拡張カルマン・フィルター（ＥＫＦ）が３１からのピッチに適用される。拡張カルマン・フィルターに対するウィキペディア・エントリーによって注釈されているように（ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｅｘｔｅｎｄｅｄ＿Ｋａｌｍａｎ＿ｆｉｌｔｅｒ）、カルマン・フィルターは、状態移行方程式及び観察モデルを有している。離散計算のための状態移行方程式は、
ｘ_ｋ＝ｆ（ｘ_ｋ－１、ｕ_ｋ）＋ｗ_ｋ（１）

また、離散計算のための観察モデルは、
ｚ_ｋ＝ｈ（ｘ_ｋ）＋ｖ_ｋ（２）
であり、上式でｘ_ｋは、（部分的に）システムの状態を記述しているパラメータを含む状態ベクトルであり、ｕ_ｋは、システムの状態に関する情報を提供する外部入力のベクトルであり、ｗ_ｋ及びｖ_ｋはプロセス及び観察雑音である。拡張カルマン・フィルターの時間アップデータは、予測方程式を使用して次の状態を予測することができ、また、検出されたピッチは、以下のタイプの方程式、
ｙ_ｋ＝ｚ_ｋ－ｈ（ｘ_{ｋ｜ｋ＋１}）（３）
を使用して、実際の測値を予測された測値と比較することによって変数を更新することができ、上式でｚ_ｋは検出されたピッチであり、ｙ_ｋは、測値と予測されたピッチの間の誤差である。

３３で、個々の軌道は、感情のために高くなったり、或いは低くなったりすることがあるピッチの一時的挙動を反映するモデルｆ（ｘ_ｋ、ｕ_ｋ）が後続する、検出されたピッチから開始することができる。モデルの入力は、過去の状態ベクトルｘ_ｋ（１つの状態ベクトル又はそれ以上の状態ベクトルのいずれか）、及び音声の速度、音声の強度及び感情的発声などのピッチの力学に影響を及ぼす任意の外部入力ｕ_ｋであってもよい。状態ベクトルｘの要素は、ピッチを定量的に記述することができる。例えばピッチの状態ベクトルは、とりわけピッチ周波数、一次調波の強度、及びより高い調波の周波数及び強度を含むことができる。ベクトル関数ｆ（ｘ_ｋ、ｕ_ｋ）を使用して、現在の時間より前の何らかの所定の時間ｋ＋１における状態ベクトルｘを予測することができる。ＥＫＦにおける動的モデルの例示的実現は、参照により本明細書に組み込まれている書物「ＬｅｓｓｏｎｓｉｎＤｉｇｉｔａｌＥｓｔｉｍａｔｉｏｎＴｈｅｏｒｙ」ｂｙＪｅｒｒｙＭ．Ｍｅｎｄｅｌに記載されているように時間更新方程式（ａ．ｋ．ａ．予測方程式）を含むことができる。

例えば３項状態ベクトル

を考察する。上式でｆ_ｋは時間ｋにおけるピッチ（第１調波）の周波数であり、ａ_ｋは時間ｋにおけるピッチ（第１調波）の強度であり、また、ｂ_ｋは時間ｋにおける第２調波の強度である。

ピッチのための例示的状態ベクトル・モデルは、

であってもよい。

これは、すべての時間において定ピッチを仮定するモデルを記述している。本発明の好ましい実施例では、当技術分野で知られている音声認識アルゴリズムを使用している音声の速度、音声の強度及び感情的発声が連続的に監視され、ＥＫＦの時間更新ステージを改善する外部入力ｕ_ｋを提供する。感情的発声方法は当技術分野で知られている。例えば「ＮｅｗＦｅａｔｕｒｅｓｆｏｒＥｍｏｔｉｏｎａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」ｂｙＰａｌｏｅｔ．ａｌ．を参照されたい。

個々の追跡には、時間更新のみを使用して追跡を展開する時間に反比例する信頼性フィールドが賦与されている。追跡の信頼性が何らかの信頼性閾値、例えば非検出ピッチの１０秒を表すρ未満になると、追跡は死んだものとして定義され、それは、それぞれのスピーカが活動状態ではないことを意味する。一方、一切の既存の追跡に割り当てられ得ない新しい測値（ピッチ検出）が出現すると、新しい追跡が開始される。

３４で、Ｍ個の周波数変換されたフレームから空間キューが抽出される。３１の場合と同様、時間における相関を使用して解析するために、直近のＬ個のベクトルが保存される。それによりＭ個のマイクロホンの各々に対して、サイズＬｘＫｘＰ（Ｐ＝Ｍ－１である）の３次元アレイである時間－周波数－キュー（ＴＦＣ：ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ－Ｃｕｅ）マップが得られる。ＴＦＣについては図５で説明される。

３５で、ＴＦＣにおける個々の周波数成分の空間キューがセグメント化される。着想は、周波数成分は、異なるスピーカから、Ｌ個のフレームに沿って生じ得る、ということであり、これは、空間キューを比較することによって観察することができる。しかしながら単一のフレーム時間ｌにおいては、Ｗ－ＤＯ仮定のために周波数成分は一人のスピーカから生じることが仮定されている。セグメント化は、Ｋ近傍法（ＫＮＮ：Ｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓ）などのクラスター化のために使用される文献における任意の知られている方法を使用して実施することができる。クラスター化は、Ａの中の個々のセルに、そのセル（ｋ、ｌ）が属しているクラスターを示す指数

を割り当てる。

３６で、ＥＫＦによって追跡されるピッチのリストに挙げられている特定のピッチに個々の周波数成分が割り当てられ、また、個々の周波数成分がその信頼性によって活動状態であるよう、信号の周波数成分が分類される。これは、ピッチのうちの１つに割り当てられる時間－周波数マップ（図４を参照されたい）のｋ番目の線と、時間－周波数マップ中の他の線における特定のクラスター指数ｃ_ｏ（ｊ、ｌ）を有するすべての値の間のサンプル相互相関を計算することによって実施される。これは、すべてのクラスター指数に対して実施される。サンプル相互相関は、

によって与えられる。

上式でＡは時間－周波数マップであり、ｋはピッチのうちの１つの属する線の指数であり、ｊはＡの任意の他の線であり、また、ＬはＡの列の数である。個々のピッチと、他の線におけるクラスターの各々との間のサンプル相互相関の計算の後、最も高い相互相関を有する線ｊ_１におけるクラスターｃ_１がそれぞれのピッチと共に分類され、次に、２番目に高い相互相関を有する線ｊ_２におけるクラスターｃ_２がそれぞれのピッチと共に分類され、以下同様である。このプロセスは、サンプル相互相関が、例えば０．５ｘ（単一の周波数における信号の平均エネルギー）として適応的に設定することができる何らかの閾値ｋ未満になるまで繰り返される。３５により、それぞれのピッチ周波数が賦与された周波数の一組のグループが得られる。

図４は、時間－周波数マップ上のピッチ検出の実例を説明したものである。４１は時間軸であり、パラメータｌによって表されており、また、４２は周波数軸であり、パラメータｋによって説明されている。この２次元アレイにおける個々の列は、Ｍ個の周波数変換されたバッファの絶対値を時間ｌで平均化した後に、３１で抽出された長さＫの実数値ベクトルである。時間における相関解析のために、Ｌ個の直近のベクトルがサイズＫｘＬの２次元アレイに保存される。４３では２つのピッチが異なる方向の対角線で表されている。ｋ＝４、６、８にその調波を有するピッチｋ＝２は、第４の調波が存在しているため、信頼性Ｒ＝２０を有しており、また、ｋ＝６、９にその調波を有するｋ＝３のピッチは、信頼性Ｒ＝１０を有している。４４ではｋ＝３ピッチは非活動状態であり、ｋ＝２のみが活動状態である。しかしながらｋ＝２ピッチの信頼性は、第４の調波が検出されないため（閾値μ未満）、Ｒ＝１０まで低下している。４５ではｋ＝３のピッチは再び活動状態であり、また、ｋ＝２は非活動状態である。４６ではｋ＝４の新しいピッチ候補が出現しているが、その第２の調波しか検出されていない。したがってその候補はピッチとして検出されていない。４７ではｋ＝３ピッチは非活動状態であり、ピッチは検出されない。

図５はＴＦＣ－マップを説明したものであり、その軸はフレーム指数（時間）５１、周波数成分５２、及び例えば個々の周波数成分が到達する方向（方位及び高度）及び成分の強度を表現している複素数値であってもよい空間キュー５３である。指数ｌのフレームが処理され、且つ、周波数領域へ移されると、周波数要素

毎にＭ個の複素数のベクトルが受け取られる。個々のベクトルから最大Ｍ－１個の空間キューが抽出される。個々の周波数成分の方向及び強度の実例では、これは、当技術分野ではＭＵＳＩＣ又はＥＳＰＲＩＴなどとして知られている、アレイ処理のための任意の方向発見アルゴリズムを使用して実施することができる。このアルゴリズムにより、一組の最大Ｍ－１個の方向が３次元空間に得られ、個々の方向は、２つの角度及び到達する信号の予測された強度によって表現される。

ｐ＝１、．．、Ｐ≦Ｍ－１。キューは、セルにおける

がｌ_ｏ、ｋ_ｏ、ｐ_ｏによって指数が付けられるようにＴＦＣ－マップの中に配置される。

付録
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音（例えば自動車又は飛行機の中）、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率（ｄＢスケールであることがしばしばである）を反映している、音声対雑音比（ＳＮＲ）又は音声対妨害比（ＳＩＲ）を改善するそれらの能力によって判断される。

収集モジュールが単一のマイクロホンを含んでいる場合、方法は単一マイクロホン音声強化と呼ばれ、また、しばしば、単一チャネル・スペクトル控除、最小分散歪みなし応答（ＭＶＤＲ：ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｌｅｓｓｒｅｓｐｏｎｓｅ）及びエコー相殺（エコーキャンセレーション（echo-cancelation））を使用したスペクトル予測などの時間－周波数領域における信号自体の統計的特徴に基づいている。複数のマイクロホンが使用される場合、収集モジュールは、しばしばマイクロホン・アレイと呼ばれ、また、方法は多重マイクロホン音声強化（multi-microphone speech enhancement）と呼ばれる。これらの方法の多くは、マイクロホンによって同時に捕獲される信号同士の間の相違を利用している。確立した方法は、個々の信号に重み付け係数を掛け合わせた後のマイクロホンからの信号を合計するビーム形成である。重み付け係数の目的は、重要な信号を条件付けるために妨害信号を平均化することである。

ビーム形成は、言い換えると、空間における所与の場所から放出される信号（所望のスピーカからの所望の信号）の電力をアルゴリズムによって大きくし、また、空間における他の場所から放出される信号（他の発信源からの妨害信号）の電力を小さくし、それによりビームフォーマー出力におけるＳＩＲを大きくする空間フィルターを作り出す方法である。

ＤＳＢの重み付け係数の使用を必要とする遅延及び合計ビームフォーマー（ＤＳＢ：ｄｅｌａｙ－ａｎｄ－ｓｕｍｂｅａｍｆｏｒｍｅｒ）は、所望の信号がその発信源からアレイ中のマイクロホンの各々まで移動する異なる経路によって必然的な条件として含まれるカウンター遅延から構成される。ＤＳＢは、無響環境におけるようなそれぞれ単一の方向からくる信号に限定される。したがって同じ発信源からの信号が異なる経路に沿ってマイクロホンまで移動し、複数の方向からマイクロホンに到達する反響環境では、ＤＳＢ性能は典型的には不十分である。

反響環境におけるＤＳＢの欠点を緩和するために、ビームフォーマーは、個々の周波数成分が所与の発信源から特定のマイクロホンに到達する方向（方位及び高度）を表すもっと複雑な音響伝達関数（ＡＴＦ：ａｃｏｕｓｔｉｃｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）を使用することができる。ＤＳＢ及び他のＤＯＡに基づく方法によって仮定される単一の到達方向（ＤＯＡ：ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ）は、同じ音声信号の成分が異なる方向から到達する反響環境では真実を保持していないことがしばしばである。これは、壁、家具及び人などの反響環境における物理的要素の異なる周波数応答によるものである。周波数領域におけるＡＴＦは、ナイキスト帯域幅における個々の周波数に複素数を割り当てるベクトルである。絶対値は、この周波数に関連する経路の利得を表し、また、位相は、経路に沿って周波数成分に加えられる位相を示す。

空間における所与の点と所与のマイクロホンの間のＡＴＦの予測は、所与の点に配置された、既知の信号を放出する拡声器を使用することによって実施することができる。スピーカの入力及びマイクロホンの出力から信号を同時に取得することにより、ＡＴＦを容易に予測することができる。拡声器は、システムの動作中に人間のスピーカが存在しているであろう１つ又は複数の位置に置くことができる。この方法は、空間における点毎に、より実際的には格子上の点毎にＡＴＦのマップを作り出す。格子に含まれていない点のＡＴＦは、補間を使用して近似される。しかしながらこの方法は大きな欠点を抱えている。第１に、設置毎にシステムを較正する必要があり、それがこのシステムを実際的ではないものにしている。第２は、人間のスピーカと電子スピーカの間の音響差であり、この差が測定されたＡＴＦを実際のＡＴＦから狂わせている。第３は、とりわけスピーカの方向を同じく考慮した場合の、ＡＴＦの莫大な数の測定の複雑さであり、第４は、環境の変化による可能誤差である。

ＡＴＦに対するより実際的な代替は、実際的なアプリケーションにおけるＡＴＦ予測方法の欠点に対する改善としての相対伝達関数（ＲＴＦ）である。ＲＴＦは、アレイ中のマイクロホンのうちの２つに対する所与の発信源同士の間のＡＴＦ同士の間の差であり、周波数領域では、２つのＡＴＦのスペクトル表現同士の間の比率の形態を取る。ＡＴＦと同様、周波数領域におけるＲＴＦは、個々の周波数に複素数を割り当てる。絶対値は２つのマイクロホンの間の利得差であり、マイクロホンが互いに接近している場合は一に近いことがしばしばであり、また、位相は、いくつかの条件の下では発信源の入射角を反映する。

伝達関数に基づく線形拘束最小分散（ＴＦ－ＬＣＭＶ）ビームフォーマーは、出力信号中の音声成分はマイクロホン信号のうちの１つにおける音声成分に等しい、という拘束を仮定して出力エネルギーを最小化することにより、多重マイクロホン・アプリケーションにおける音声歪みを制限しつつ雑音を小さくすることができる。Ｎ＝Ｎ_ｄ＋Ｎ_ｉ個の発信源が与えられ、Ｎ_ｉ個の妨害発信源及び定常雑音によって汚染されたＮ_ｄ個の望ましい音声発信源を抽出する問題を考慮する。含まれている信号の各々は、Ｍ個のマイクロホンを備えた任意のアレイによって拾われる前に音響媒体を通って伝搬する。個々のマイクロホンの信号は長さＴのフレームにセグメント化され、また、個々のフレームにＦＦＴが適用される。周波数領域では、ｍ番目のマイクロホン及びｎ番目の発信源のｌ番目のフレームのｋ番目の周波数成分それぞれ

及び

で表すものとする。同様に、ｎ番目の発信源とｍ番目のマイクロホンの間のＡＴＦはｇ_ｍ、ｎ（ｌ、ｋ）であり、また、ｍ番目のマイクロホンにおける雑音はｖ_ｍ（ｌ、ｋ）である。行列形態の受信信号は、

によって与えられる。

上式で

はセンサ・ベクトルであり、

は発信源ベクトルであり、

は、

になるようにＡＴＦ行列であり、また、

は、一切の発信源と相関されてない付加的定常雑音である。等価的に、（７）はＲＴＦを使用して公式化することができる。普遍性を失うことなく、ｎ番目の音声発信源のＲＴＦ

は、ｍ番目のマイクロホンにおけるｎ番目の音声成分と、第１のマイクロホンにおけるそのそれぞれの成分との間の比率、即ちｈ_ｍ、ｎ（ｌ、ｋ）＝ｇ_ｍ、ｎ（ｌ、ｋ）／ｇ_１、ｎ（ｌ、ｋ）として定義することができる。（７）における信号は、ベクトル表記

で

であるよう、ＲＴＦ行列

を使用して公式化することができる。

上式で

は変更された発信源信号である。

アレイ測値ｚ（ｌ、ｋ）が与えられると、Ｎ_ｄ個の所望の発信源の混合を予測する必要がある。所望の信号の抽出は、ビームフォーマー

をマイクロホン信号

に適用することによって達成することができる。

を選択してＬＣＭＶ基準
Ｗ（ｌ、ｋ）＝ａｒｇｍｉｎ｛ｗ^Ｈ（ｌ、ｋ）Φ_ｖｖ（ｌ、ｋ）ｗ（ｌ、ｋ）｝ｓ．ｔＨ^Ｈ（ｌ、ｋ）ｗ（ｌ、ｋ）＝ｅ（ｌ、ｋ）（９）
を満たすことができると仮定し、上式で

はｖ（ｌ、ｋ）のパワー・スペクトル密度（ＰＳＤ：ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ）であり、また、

は拘束ベクトルである。

（９）に対する可能解は

である。

（７）及び（８）並びに拘束セットに基づいて、ビームフォーマー出力における所望の信号の成分は、

によって与えられ、即ちビームフォーマーの出力は、第１の（基準）マイクロホンによって測定される所望の信号の成分の混合である。

ｌ番目の一組のＲＴＦから、また、周波数成分ｋ毎に、例えば基準マイクロホンとして定義されているマイクロホンのうちの１つから得られた強度ａ_ｐ（ｌ、ｋ）と相俟った、位相差に基づくアルゴリズムを使用して、入射角がθ_ｐ（ｌ、ｋ）、ｐ＝１、．．、Ｐ≦Ｍ－１である一組の最大Ｍ－１個の発信源、及び仰角φ_ｐ（ｌ、ｋ）を抽出することができる。これらの３項

は、しばしば空間キューと呼ばれている。

ＴＦ－ＬＣＭＶは、Ｍ個のセンサからなるアレイに、反響環境における異なる場所から衝突するＭ－１個の音声発信源を抽出するための適用可能な方法である。しかしながらＴＦ－ＬＣＭＶが動作するために必要な条件は、その列が環境中のすべての活動状態の発信源のＲＴＦベクトルであるＲＴＦ行列Ｈ（ｌ、ｋ）が分かり、且つ、ＴＦ－ＬＣＭＶに利用することができることである。そのためには個々の周波数成分をその発信源スピーカに関連付ける必要がある。

いくつかの方法を使用して、補足情報を必要とすることなく信号に発信源を割り当てることができる。方法の主要なファミリーは、未知の信号又は発信源をそれらの観察された混合から回復するブラインド・発信源分離（ＢＳＳ：ｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）と呼ばれている。周波数領域におけるＢＳＳのキーとなる弱さは、個々の周波数において、混合行列の列ベクトル（ＢＳＳによって予測される）が無作為に並べ替えられ、また、この無作為の並べ替えに対する知識なしに、周波数全体にわたって結果を結合し、開示されているように困難になることである。

ピッチ情報によってＢＳＳを補助することができる。しかしながらスピーカの性別にはアプリオリ（ａ－ｐｒｉｏｒｙ）が要求される。

ＢＳＳは、混合行列の特定の列をベクトル中の最大要素に対応する発信源に割り当てる最大－大きさ方法を使用して予測された混合行列の曖昧さを解明している間、周波数領域で使用することができる。しかしながらこの方法は、個々の周波数における最強の成分は、実際、最強の発信源に属することが仮定されているため、発信源のスペクトル分布に大きく依存している。しかしながら異なるスピーカは、異なる周波数で強度ピークを導入することになるため、この条件に遭遇することはまれである。別法としては、特定の時間における活動状態の発信源に関する情報を使用して混合行列における曖昧さが解明されるよう、声アクティビティ検出（ＶＡＤ：ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ）として同じく知られている発信源アクティビティ検出を使用することも可能である。ＶＡＤの欠点は、とりわけ多重スピーカ環境では、声一時停止を頑強に検出することができないことである。また、この方法が有効であるのは、比較的長い訓練期間を必要とし、また、この期間の間、動きに敏感である会話に加わるのが一度に一人のスピーカだけである場合である。

ＴＦ－ＬＣＭＶビームフォーマーは、双聴覚キュー・ジェネレータと相俟って、双聴覚音声強化システムのためのその拡張バージョンとしても使用することができる。音響キューを使用して、入力信号中の雑音成分から音声成分が分離される。この技法は、「カクテル・パーティ」環境における全く異なる音声発信源からの信号をクラスター化するために全く異なる観点のキューの使用を示唆する聴覚シーン解析理論^１に基づいている。音声分離のために使用することができる原始的分類キューの実例は、周波数帯域全体にわたる共通のオンセット／オフセット、ピッチ（基本周波数）、空間における同じ場所、一時的スペクトル変調、ピッチ及びエネルギー連続性並びに平滑性を含む。しかしながらこの方法の基礎をなしている仮定は、望ましい音声信号のすべての成分がほぼ同じ方向を有していることである。即ち頭影効果の効果を維持するほぼ無響状態であり、これは、頭に関連する伝達関数を使用することによって補償されるべきことが示唆される。これは、反響環境では起こりそうにない。

複数のスピーカが同時に活動状態にあっても、スピーカのスペクトル内容は、ほとんどの時間－周波数点において重畳しないことに留意されたい。これは、Ｗ－分離直交性、即ち短くしてＷ－ＤＯと呼ばれている。これは、時間－周波数領域における音声信号の疎であることによって正当化され得る。この疎であることによれば、特定の時間－周波数点における二人のスピーカの同時アクティビティの確率は極めて低い。言い換えると、複数の同時スピーカの場合、個々の時間－周波数点は、スピーカのうちの一人のスペクトル内容にほとんど対応するようである。

Ｗ－ＤＯを使用して、ある程度までＷ－ＤＯである特定の等級の信号を定義することによってＢＳＳを容易にすることができる。これは、必要な第一次の統計量のみを使用することができ、計算的に経済的である。さらに、発信源がＷ－ＤＯであり、同じ空間位置を占有しないことを条件として、たったの２つのマイクロホンしか使わずに任意の数の信号発信源を脱混合することができる。しかしながらこの方法は、すべての周波数にわたって、基礎をなしている全く同じ混合行列を仮定している。この仮定は、異なる周波数にわたって予測された混合係数のヒストグラムを使用するための本質である。しかしながらこの仮定は、反響環境では真実を保持せず、無響環境でのみ真実を保持することがしばしばである。多重経路の場合へのこの方法の拡張は、多重経路からの無視し得るエネルギー、又は十分に滑らかな畳込み混合フィルターのいずれかに限定され、したがってヒストグラムが不鮮明になるが、依然として単一のピークを維持している。この仮定も、滑らかなヒストグラムを作り出すには、異なる経路間の差が大きすぎることがしばしばである反響環境では同じく真実を保持していない。

示唆されている解決法は、反響環境で性能を発揮し、不必要な仮定及び拘束に頼る必要はないことが分かっている。この解決法は、アプリオリ情報がなくても、大規模訓練プロセスがなくても、個々の周波数における所与の発信源の減衰及び遅延の予測を、減衰－遅延空間における単一の点に拘束しなくても、単一の発信源の減衰－遅延値の予測値を単一のクラスターの作出しに拘束しなくても、また、混合された音の数を２つに制限しなくても動作することができる。

音声認識エンジンへの発信源分離
ボイス・ユーザ・インタフェース（ＶＵＩ：Ｖｏｉｃｅｕｓｅｒｉｎｔｅｒｆａｃｅ）は、人間のスピーカと機械の間のインタフェースである。ＶＵＩは、１つ又は複数のマイクロホンを使用して音声信号を受信し、且つ、しばしば音声信号をテキストに転記することによって音声信号をデジタル・シグネチャーに変換し、それを使用してスピーカの意図を推論する。機械は、次に、その機械が設計されているアプリケーションに基づいてスピーカの意図に応答することができる。

ＶＵＩのキー構成要素は、デジタル化された音声信号をテキストに変換する自動音声認識エンジン（ＡＳＲ：ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｅｎｇｉｎｅ）である。ＡＳＲの性能は、テキストが如何に正確に音響音声信号を記述するかは、ＡＳＲの要求事項への入力信号の一致に大きく依存していることである。したがってＶＵＩの他の構成要素は、獲得された音声信号をＡＳＲに供給する前に、その音声信号を強化するように設計されている。このような構成要素は、いくつかを挙げると、雑音抑制、エコー相殺及び発信源分離であってもよい。

音声強化における極めて重要な構成要素の１つは、いくつかの発信源から到達する音声信号を分離することが意図された発信源分離（ＳＳ：ｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）である。２つ以上のマイクロホンのアレイを仮定すると、マイクロホンの各々によって獲得される信号は、環境中のすべての音声信号＋雑音及び音楽などの他の妨害の混合である。ＳＳアルゴリズムは、すべてのマイクロホンからの混合信号を取り上げ、それらをそれらの成分に分解する。即ち発信源分離の出力は一組の信号であり、特定のスピーカ、音楽さらには雑音からの音声信号であれ、それぞれ特定の発信源の信号を表す。

発信源分離を改善する必要がますます高くなっている。

図６は、オフライン訓練における声認識チェーンの実例を図解したものである。チェーンは、しばしば、一組のデジタル化された音響信号を提供するマイクロホンのアレイ５１１を含む。デジタル化される音響信号の数は、アレイ５１１を構成しているマイクロホンの数に等しい。個々のデジタル化された音響信号は、人間のスピーカであれ、ＴＶ、音楽及び雑音などの合成スピーカであれ、マイクロホンのアレイ５１１の近傍のすべての音響発信源の混合を含む。デジタル化された音響信号は予備処理ステージ５１２に引き渡される。予備処理ステージ５１２の目的は、エコー、反響及び雑音などの妨害を除去することによって、デジタル化された音響信号の品質を改善することである。予備処理ステージ５１２は、通常、デジタル化された音響信号同士の間の統計的関連を採用している多重チャネルアルゴリズムを使用して実施される。予備処理ステージ５１２の出力は一組の処理済み信号であり、通常、このステージへの入力でデジタライズされた音響信号の数と同じ数の信号を有している。この一組の処理済み信号は、マイクロホンのアレイの近傍の個々の発信源から音響信号を抽出することを目的としている発信源分離（ＳＳ）ステージ５１３へ送られる。言い換えると、ＳＳステージ５１３は、個々の信号が異なる発信源から受信した音響信号の異なる混合である一組の信号を取り上げ、個々の信号が単一の特定の発信源からの単一の音響信号を主として含むように一組の信号を作り出す。音声信号の発信源分離は、ビーム形成などの発信源の展開の幾何学的考察を使用して、或いは独立成分分析などの音声信号の特性を考察することによって実施することができる。分離される信号の数は、通常、マイクロホンのアレイ５１１の近傍の活動状態の発信源の数に等しいが、マイクロホンの数より少ない。分離された上記一組の信号は発信源セレクター５１４へ送られる。発信源セレクターの目的は、その音声信号が認識されるべき音声の関連する発信源を選択することである。発信源セレクター５１４は、定義済みトリガ・ワードを発音する発信源が選択されるよう、トリガ・ワード・ディテクターを使用することができる。別法としては、発信源セレクター５１４は、マイクロホンのアレイ５１１に対する定義済み方向などの、マイクロホンのアレイ５１１の近傍の発信源の位置を考慮することも可能である。また、発信源セレクター５１４は、音声信号の定義済み音響シグネチャーを使用して、このシグネチャーと一致する発信源を選択することも可能である。発信源セレクター５１４の出力は、音声認識エンジン５１５へ送られる単一の音声信号である。音声認識エンジン５１５は、デジタル化された音声信号をテキストに変換する。当技術分野で知られている音声認識のための多くの方法が存在しており、それらのほとんどは、音声信号から特徴を抽出し、これらの特徴を定義済み語彙と比較することに基づいている。音声認識エンジン５１５の主な出力は、入力音声信号と関連付けられるテキスト・ストリング５１６である。定義済みテキスト５１８は、オフライン訓練においてマイクロホンに対して発音される。ＡＳＲの出力５１６をこのテキストに対して比較することによって誤差５１９が計算される。比較５１７は、単純なワード計数を使用して、又はワードの意味を考慮し、且つ、異なるワードの誤検出に適切に重みを付けるもっと高度に複雑な比較方法を使用して実施することができる。誤差５１９は、次に、誤差を最小にする値を見出すべく一組のパラメータを修正するためにＳＳ５１３によって使用される。これは、任意の被監視予測によって、又は最小二乗、確率的勾配、ニューラル・ネットワーク（ＮＮ：ｎｅｕｒａｌｎｅｔｗｏｒｋ）及びその変形などの最適化方法によって実施することができる。

図７は、実時間訓練、即ちシステムの正規の動作中の訓練における声認識チェーンの実例を図解したものである。ＶＵＩが動作している間、人間のスピーカによって発音された真のテキストは未知であり、また、被監視誤差５１９も利用不可能である。代替は、話された実テキストに対する参照がない場合、また、ＡＳＲ出力の信頼性レベルを知ることによってアプリケーションが利益を得ることができる場合に、実時間アプリケーションのために開発された確信スコア５２１である。例えば確信スコアが低い場合、システムは、より管理された対話がユーザと実施される適切な分岐へ進行することができる。確信スコアを予測するための多くの方法が存在しており、それらのほとんどは、話されたテキストが分かると計算することができる誤差との高い相関を目標にしている。実時間訓練では、確信スコア５２１は、誤差エスティメータ５２２によって被監視誤差５１９に変換される。確信スコアが理論的被監視誤差と高度に相関されている場合、誤差エスティメータは単純な軸変換であってもよい。確信スコア５２１は０から１００までの範囲であり、目的は確信スコア５２１をもっと高くすることであるが、被監視誤差は０から１００までの範囲で、目的は被監視誤差をもっと小さくすることである。ｅｓｔｉｍａｔｅｄ＿ｅｒｒｏｒ＝１００－ｃｏｎｆｉｄｅｎｃｅ＿ｓｃｏｒｅの形態の単純な軸変換を誤差エスティメータ５２２として使用することができる。予測された誤差５１９を使用して、オフライン訓練の場合と同様にＳＳのパラメータを訓練することができる。

図８は、典型的なＳＳ５１３の訓練機構を図解したものである。発信源セパレータ（ＳＳ）５１３は、予備処理ステージ５１２から一組の混合信号を受信し、分離された信号を発信源セレクター５１４に供給する。典型的には、音響信号及びとりわけ音声信号の発信源分離は周波数領域で実施される。予備処理ステージ５１２からの混合された信号は、最初に周波数領域に変換される５５３。これは、混合された信号を全く同じ長さのセグメントに分割し、結果として得られるセグメント同士の間に重畳期間を持たせることによって実施される。例えばセグメントの長さが１０２４サンプルであり、また、重畳期間が２５％として決定されると、混合された信号の各々は、それぞれ１０２４サンプルのセグメントに分割される。異なる混合信号からの現在の一組のセグメントはバッチと呼ばれる。セグメントの個々のバッチは、先行するバッチの後に、７６８個のサンプルを開始する。上記一組の混合信号全体にわたるセグメントは同期化される、即ち同じバッチに属するすべてのセグメントの開始点は全く同じであることに留意されたい。バッチ内におけるセグメントの長さ及び重畳期間は、モデル・パラメータ５５２から得られる。

脱混合アルゴリズム５５４は、周波数変換５５３から到達したセグメントのバッチを分離する。多くの他のアルゴリズムと同様、発信源分離（ＳＳ）アルゴリズムは、一組のモデル・パラメータ５５２が付属する一組の数学モデルを含む。数学モデルは、ＳＳが物理現象、例えば多重経路を取り扱う方法などの操作方法を確立する。上記一組のモデル・パラメータ５５２は、発信源信号の特定の特徴、これらの信号を受信する自動音声認識エンジン（ＡＳＲ）のアーキテクチャー、環境の幾何学、さらには人間のスピーカに対するＳＳの操作を調整する。

セグメントの脱混合されたバッチは逆周波数変換５５５へ送られ、そこでバッチが変換されて時間領域に戻される。逆周波数変換ステージ５５５では、周波数変換ステージ５５３で使用された同じ一組のモデル・パラメータ５５２が使用される。例えば重畳期間を使用して、結果として得られたバッチからの時間領域における出力信号が再構築される。これは、例えば重畳加算方法を使用して実施され、この重畳加算方法では、逆周波数変換の後に、恐らくは、重畳領域全体にわたって０と１の間の範囲である適切な重み付け関数を使用して重畳化し、且つ、重畳された時間間隔を追加することによって、結果として得られる出力信号が再構築され、したがって総エネルギーが節約される。言い換えると、前のバッチからの重畳セグメントがフェード・アウトし、一方、後のバッチからの重畳セグメントがフェード・インする。逆周波数変換ブロックの出力は発信源セレクター５１４へ送られる。

モデル・パラメータ５５２は、周波数変換ブロック５５３、脱混合ブロック５５４及び逆周波数変換ブロック５５５によって使用される一組のパラメータである。周波数変換５５３によって実施される、混合された信号の全く同じ長さのセグメントへの分割は、実時間クロックなどの刻時機構によって歩調が整調される。個々の歩調で、周波数変換ブロック５５３、脱混合ブロック５５４及び逆周波数変換ブロック５５５の各々は、モデル・パラメータ５５２からパラメータを抽出する。これらのパラメータは、次に、周波数変換ブロック５５３、脱混合ブロック５５４及び逆周波数変換ブロック５５５の中で実行される数学的モデルの中で置換される。

コレクター５５１は、誤差エスティメータからの誤差５１９を小さくすることを目的として上記一組のモデル・パラメータ５５２を最適化する。コレクター５５１は、誤差５１９及び現在の一組のモデル・パラメータ５５２を受け取り、また、修正された一組のモデル・パラメータ５５２を出力する。上記一組のパラメータの修正は、アプリオリ（オフライン）で、又はＶＵＩの動作中（実時間）に実施することができる。オフライン訓練では、上記一組のモデル・パラメータ５５２を修正するために使用される誤差５１９は、マイクロホンに対して発音される定義済みテキストを使用し、ＡＳＲの出力をこのテキストに対して比較して抽出される。実時間訓練では、誤差５１９はＡＳＲの確信スコアから抽出される。

次に、誤差を最小にする値を見出すために、誤差を使用して、上記一組のパラメータが修正される。これは、任意の被監視予測又は最適化方法、好ましくは黄金分割探索、格子探索及びＮｅｌｄｅｒ－Ｍｅａｄなどの導関数がない方法によって実施することができる。

Ｎｅｌｄｅｒ－Ｍｅａｄ法（同じく滑降シンプレックス法、アメーバ法又はポリトープ法）は、多次元空間における目的関数の最小又は最大を見出すために使用される、広く適用されている数値方法である。それは直接探索方法であり（関数比較に基づく）、また、導関数を知り得ない非線形最適化問題にしばしば適用される。

Ｎｅｌｄｅｒ－Ｍｅａｄは、誤差５１９の極小をいくつかのパラメータの関数として反復して見出す。方法は、シンプレックス（Ｎ次元における一般化された三角形）を決定する一組の値で開始する。極小はシンプレックス内に存在することが仮定されている。個々の反復で、シンプレックスの頂点における誤差が計算される。最大誤差を有する頂点が新しい頂点に置き替えられ、したがってシンプレックスの体積が小さくなる。これは、シンプレックス体積が定義済み体積より小さくなり、また、最適値が頂点のうちの１つになるまで反復する。このプロセスはコレクター５５１によって実施される。

黄金分割探索は、その中に最小が存在していることが分かる値の範囲を連続的に狭くすることによって誤差５１９の最小を見出す。黄金分割探索には、パラメータの関数としての厳格に単峰形の誤差が必要である。範囲を狭くする操作はコレクター５５１によって実施される。

黄金分割探索は、その中に極値が存在していることが分かる値の範囲を連続的に狭くすることによって厳格に単峰形の関数の極値（最小又は最大）を見出すための技法である（ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ）。

格子探索は、最適化されるべきパラメータのうちの１つ又は複数と関連付けられた一組の値を通して反復する。複数のパラメータが最適化される場合、その一組の中の個々の値は、その長さがパラメータの数に等しいベクトルである。値毎に誤差５１９が計算され、最小誤差に対応する値が選択される。上記一組の値を通した反復はコレクター５５１によって実施される。

格子探索－ハイパーパラメータ最適化を実施する伝統的な方法は、格子探索即ちパラメータ掃引であり、これは、単純に、学習アルゴリズムのハイパーパラメータ空間の手動で規定された部分集合を通した網羅的探索である。格子探索アルゴリズムは、典型的には訓練セットに対する相互検証によって、或いはヘルド－アウト検証セットに対する評価によって判断される何らかの性能メトリックによって導かれなければならない。機械学習のパラメータ空間は、特定のパラメータのための実数値空間又は非有界値空間を含むことができるため、格子探索を適用する前に、手動設定境界及び打切りが必要であり得る（ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ）。

すべての最適化方法には、分離された音響信号の同じ一組を使用した誤差５１９の連続計算が必要である。これは時間を消費するプロセスであり、したがって連続的には実施されず、誤差５１９（これは連続的に計算される）が何らかの定義済み閾値、例えば１０％誤差を超えた場合にのみ実施され得る。これが生じると、２つの手法を取ることができる。

１つの手法は、並列スレッド（ｔｈｒｅａｄ）又は多重コアを使用して、システムの正規の操作と並行して最適化を操作することである。即ちブロック５１３、５１４、５１５、５２２がシステムの正規の操作のタスクと並行して実施する１つ又は複数の並列タスクが存在している。並列タスクでは、長さ１～２秒の混合信号のバッチが予備処理５１２から獲得され、反復して分離され５１３、また、異なる複数組のモデル・パラメータ５５２を使用して解釈される５１４、５１５。誤差５１９は、このようなサイクル毎に計算される。個々のサイクルで、最適化方法に従ってコレクター５５１によって上記一組のモデル・パラメータが選択される。

第２の手法は、部屋に音声が存在しない場合に最適化を操作することである。人間の音声がない期間は、声アクティビティ検出（ＶＡＤ）アルゴリズムを使用して検出することができる。これらの期間を使用して、第１の手法の場合と同じ方法でモデル・パラメータ５５２が最適化され、並列スレッド又は多重コアの必要性を節約する。

５５２におけるパラメータ毎に適切な最適化方法を選択しなければならない。方法のうちのいくつかは単一のパラメータに適用され、また、いくつかはパラメータのグループに適用される。以下のテキストは、音声認識の性能に影響を及ぼすいくつかのパラメータを示唆している。また、パラメータの特性に基づく最適化方法が示唆されている。

セグメント・パラメータの長さ
セグメント・パラメータの長さはＦＦＴ／ＩＦＦＴに関連付けられる。典型的には、分離された音素の特徴を使用するＡＳＲには、２０ミリ秒程度の短いセグメントが必要であり、一方、結果として生じる一連の音素の特徴を使用するＡＳＲは、１００～２００ミリ秒程度のセグメントを使用する。一方、セグメントの長さは、部屋の反響時間などのシナリオによって影響される。セグメント長さは、２００～５００ミリ秒程度であり得る反響時間程度でなければならない。セグメントの長さのためのスイート・ポイントは存在しないため、この値は、そのシナリオ及びＡＳＲに対して最適化しなければならない。典型的な値は、サンプルに関しては１００～５００ミリ秒である。例えば８ｋＨｚのサンプリング・レートは、８００～４０００サンプルのセグメント長さを暗に意味している。これは連続パラメータである。

このパラメータの最適化は、黄金分割探索、又は重畳期間と相俟ったＮｅｌｄｅｒ－Ｍｅａｄなどの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、最小及び最大可能長さ、例えば１０ミリ秒乃至５００ｍＳｅｃ、及び誤差関数５１９である。出力は、誤差関数５１９を最小にするセグメントの長さである。重畳期間と共にＮｅｌｄｅｒ－Ｍｅａｄを使用する場合、入力は、セグメント長さ及び重畳期間の一組の３つの２項、例えば（１０ミリ秒、０％）、（５００ミリ秒、１０％）及び（５００ミリ秒、８０％）、及び誤差関数５１９であり、また、出力は、セグメントの最適長さ及び最適重畳期間である。

重畳期間
重畳期間パラメータはＦＦＴ／ＩＦＦＴに関連付けられる。重畳期間を使用して、セグメント化による音素の見落としが回避される。即ち結果として得られるセグメント同士の間で音素が分割される。セグメントの長さのため、重畳期間はＡＳＲが採用する特徴で決まる。典型的な範囲は、セグメントの長さの０～９０％である。これは連続パラメータである。

このパラメータの最適化は、黄金分割探索、セグメントの長さを有するＮｅｌｄｅｒ－ｍｅａｄなどの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、最小及び最大可能重畳期間、例えば０％乃至９０％、及び誤差関数５１９である。出力は、誤差関数５１９を最小にする重畳期間である。

ウィンドウ。ウィンドウ・パラメータはＦＦＴ／ＩＦＦＴに関連付けられる。周波数変換５５３は、しばしばウィンドウ処理を使用してセグメント化の効果を軽減する。Ｋａｉｓｅｒ及びＣｈｅｂｙｓｈｅｖなどのいくつかのウィンドウがパラメータ化されている。これは、ウィンドウのパラメータを変更することによってウィンドウの効果を制御することができることを意味している。典型的な範囲はウィンドウのタイプで決まる。これは連続パラメータである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、ウィンドウ・タイプで決まる、ウィンドウのパラメータの最小値及び最大値、及び誤差関数５１９である。例えばＫａｉｓｅｒウィンドウの場合、最小値及び最大値は（０、３０）である。出力は最適ウィンドウ・パラメータである。

サンプリング・レート
サンプリング・レート・パラメータはＦＦＴ／ＩＦＦＴに関連付けられる。サンプリング・レートは、音声認識の性能に影響を及ぼす臨界パラメータのうちの１つである。例えば１６ｋＨｚ未満のサンプリング・レートに対して貧弱な結果を立証しているＡＳＲが存在している。他のＡＳＲは、４ｋＨｚ又は８ｋＨｚであっても良好に動作することができる。典型的には、このパラメータはＡＳＲが選択されると最適化される。典型的な範囲は、４ｋＨｚ、８ｋＨｚ、１６ｋＨｚ、４４．１ｋＨｚ、４８ｋＨｚである。このパラメータは離散パラメータである。このパラメータの最適化は、格子探索などの様々な最適化方法を使用して実施することができる。アルゴリズムへの入力は、格子探索が実施される値である例えば（４、８、１６、４４．１、４８）ｋＨｚのサンプリング・レート、及び誤差関数５１９である。出力は最適サンプリング・レートである。

フィルタリング
フィルタリング・パラメータは脱混合に関連付けられる。いくつかのＡＳＲは、制限された周波数を表す特徴を使用する。したがって発信源分離５１３後における分離された信号のフィルタリングは、ＡＳＲによって使用される特定の特徴を協調することができ、それによりその性能を改善することができる。さらに、ＡＳＲによって使用されないスペクトル成分をフィルタリング除去することにより、分離された信号の信号対雑音比（ＳＮＲ：ｓｉｇｎａｌｔｏｎｏｉｓｅｒａｔｉｏ）を改善することができ、延いてはＡＳＲの性能を改善することができる。典型的な範囲は４～８ｋＨｚである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。このパラメータは連続的である。黄金分割探索を適用する場合、アルゴリズムへの入力は、誤差関数５１９及び遮断周波数の分割の初期推測、例えば１０００Ｈｚ及び０．５Ｘサンプリング・レートである。出力は最適フィルタリング・パラメータである。

マイクロホン毎の重み付け係数。マイクロホン毎の重み付け係数は脱混合に関連付けられる。理論的には、特定のアレイ上の異なるマイクロホンの感度は、最大３ｄＢまで同様でなければならない。しかしながら実際的には、異なるマイクロホンの感度のスパンはもっと広いことがあり得る。さらに、マイクロホンの感度は、埃及び湿気のため、時間によって変化し得る。典型的な範囲は０～１０ｄＢである。これは連続パラメータである。このパラメータの最適化は、マイクロホン毎に重み付け係数を有する、或いは重み付け係数を有さないＮｅｌｄｅｒ－ｍｅａｄなどの様々な最適化方法を使用して実施することができる。Ｎｅｌｄｅｒ－ｍｅａｄ法を適用する場合、アルゴリズムへの入力は、誤差関数５１９及びシンプレックスの頂点の初期推測である。例えば個々のｎ項のサイズは、マイクロホンの数－Ｎ：（１、０、．．、０、０）、（０、０、…、０、１）及び（１／Ｎ、１／Ｎ、…、１／Ｎ）である。出力はマイクロホン毎の最適重みである。

マイクロホンの数
マイクロホンの数は脱混合に関連付けられる。マイクロホンの数は、一方では分離することができる発信源の数に影響を及ぼし、また、他方では複雑性及び数値的精度に影響を及ぼす。また、実際的な実験によれば、マイクロホンが多すぎると、出力ＳＮＲが小さくなることがある。典型的な範囲は４～８である。これは離散パラメータである。このパラメータの最適化は、格子探索、又はマイクロホン毎に重み付け係数を有するＮｅｌｄｅｒ－ｍｅａｄなどの様々な最適化方法を使用して実施することができる。格子探索を適用する場合、アルゴリズムへの入力は、誤差関数５１９及び探索が実施されるマイクロホンの数、例えば４個、５個、６個、７個、８個のマイクロホンである。出力は最適マイクロホン数である。

図９は方法６００を図解したものである。

方法６００は、発信源選択プロセスの先行する出力に対して適用された音声認識プロセスに関連した誤差を受け取るか、或いは計算するステップ６１０で開始することができる。

ステップ６１０には、誤差に基づいて発信源分離プロセスの少なくとも１つのパラメータを改訂するステップ６２０を後続させることができる。

ステップ６２０には、複数の発信源から発信され、且つ、マイクロホンのアレイによって検出される可聴信号を表す信号を受信するステップ６３０を後続させることができる。

ステップ６３０には、発信源分離信号を提供するために、複数の発信源の異なる発信源から発信された可聴信号を分離し、且つ、発信源分離信号を発信源選択プロセスに送信するための発信源分離プロセスを実施するステップ６４０を後続させることができる。

ステップ６４０にはステップ６３０を後続させることができる。

ステップ６３０及び６４０の１回又は複数回の反復毎に、ステップ６１０（図示せず）を後続させることができ、ＡＳＲの先行する出力を提供するために、ステップ６４０の出力を発信源選択プロセス及びＡＳＲに供給することができる。

ステップ６３０及び６４０の初期反復は、誤差を受け取ることなく実行することができることに留意されたい。

ステップ６４０は、周波数変換（それには限定されないがＦＦＴなど）を適用するステップ、脱混合するステップ、及び逆周波数変換（それには限定されないがＩＦＦＴなど）を適用するステップを含むことができる。

ステップ６２０は、以下のステップのうちの少なくとも１つを含むことができる。
ａ．周波数変換の少なくとも１つのパラメータを改訂するステップ
ｂ．逆周波数変換の少なくとも１つのパラメータを改訂するステップ
ｃ．脱混合の少なくとも１つのパラメータを改訂するステップ
ｄ．周波数変換が適用される可聴信号を表す信号のセグメントの長さを改訂するステップ
ｅ．可聴信号を表す信号の連続するセグメントの間の重畳を改訂するステップであって、セグメント毎を基本として周波数変換が適用される、ステップ
ｆ．周波数変換のサンプリング・レートを改訂するステップ
ｇ．周波数変換によって適用されるウィンドウのウィンドウ処理パラメータを改訂するステップ
ｈ．脱混合中に適用されるフィルターの遮断周波数を改訂するステップ
ｉ．脱混合中にマイクロホンのアレイのうちの個々のマイクロホンに適用される重みを改訂するステップ
ｊ．マイクロホンのアレイのマイクロホンの数を改訂するステップ
ｋ．黄金分割探索を使用して、少なくとも１つのパラメータの被改訂値を決定するステップ
ｌ．ＮｅｄｌｅｒＭｅａｄアルゴリズムを使用して、少なくとも１つのパラメータの被改訂値を決定するステップ
ｍ．格子探索を使用して、少なくとも１つのパラメータの被改訂値を決定するステップ
ｎ．誤差と少なくとも１つのパラメータの間の定義済みマッピングに基づいて、少なくとも１つのパラメータのパラメータの被改訂値を決定するステップ
ｏ．誤差と少なくとも１つのパラメータの間のマッピングを実時間で決定するステップ

以上、本明細書において、本発明について、本発明の実施例の特定の実例を参照して説明した。しかしながら添付の特許請求の範囲に示されている本発明のより広義の精神及び範囲を逸脱することなく、様々な修正及び変更をそれらに加えることができることは明らかであろう。

さらに、説明及び特許請求の範囲における「前方」、「後方」、「頂部」、「底部」、「上方」、「下方」、等々という用語は、それらが使用されている場合、説明を目的として使用されており、必ずしも永久的な相対位置を説明するためのものではない。そのように使用されている用語は、本明細書において説明されている本発明の実施例が、例えば図解されている配向、さもなければ本明細書において説明されている配向以外の配向で動作することができるよう、適切な状況の下では交換可能であることが理解される。

同じ機能性を達成するための構成要素の配置は、すべて、所望の機能性が達成されるよう、事実上「関連付けられて」いる。したがって特定の機能性を達成するために組み合わされた本明細書における任意の２つの構成要素は、アーキテクチャー又は中間構成要素に無関係に所望の機能性が達成されるよう、互いに「関連付けられている」ものとして捉えることができる。同様に、そのように関連付けられた任意の２つの構成要素は、所望の機能性を達成するために互いに「動作可能に接続」されている、又は「動作可能に結合」されているものとして同じく捉えることができる。

さらに、上で説明した操作同士の間の境界は単に例証にすぎないことは当業者には認識されよう。複数の操作を単一の操作に組み合わせることができ、単一の操作を追加操作の中に分散させることができ、また、操作は、少なくとも部分的に時間を重畳させて実行することができる。さらに、代替実施例は、特定の操作の複数の例を含むことができ、また、操作の順序は、様々な他の実施例では変更することができる。

しかしながら他の変更態様、変形形態及び代替も同じく可能である。したがって本明細書及び図面は、制限的な意味ではなく、例証と見なされるべきである。

「Ｘであってもよい」という語句は、条件Ｘが満たされ得ることを示している。また、この語句は、条件Ｘが満たされなくてもよいことを示唆している。例えば特定の構成要素を含んでいるものとしてのシステムに対する参照は、すべて、システムがその特定の構成要素を含んでいないシナリオを同じく包含しているものとする。例えば特定のステップを含んでいるものとしての方法に対する参照は、すべて、方法がその特定の構成要素を含んでいないシナリオを同じく包含しているものとする。さらに別の実例の場合、特定の操作を実施するように構成されるシステムに対する参照は、すべて、システムがその特定の操作を実施するようには構成されないシナリオを同じく包含しているものとする。

「含む」、「備える」、「有する」、「からなる」及び「から本質的になる」という用語は、交換可能な方法で使用されている。例えば方法は、すべて、図及び／又は本明細書に含まれている少なくともステップを含むことができ、図及び／又は本明細書に含まれているステップのみを含むことも可能である。システムに対しても同様である。

システムは、マイクロホンのアレイ、記憶装置、及びデジタル信号プロセッサ、ＦＰＧＡ、ＡＳＩＣ、上で言及した任意の方法を実行するようにプログラムされた汎用プロセッサ、等々などの１つ又は複数のハードウェア・プロセッサを含むことができる。システムはマイクロホンのアレイを含んでいなくてもよいが、マイクロホンのアレイによって生成される音信号から供給され得る。

例証を単純にし、且つ、分かりやすくするために、図に示されている要素は必ずしもスケール通りに描かれていないことは認識されよう。例えば要素のうちのいくつかの寸法は、分かりやすくするために他の要素に対して誇張され得る。さらに、適切であると見なされる場合、参照数表示は、対応する要素、又は類似の要素であることを示すために、図の間で繰り返され得る。

論理ブロック同士の間の境界は単に例証にすぎないこと、また、代替実施例は、論理ブロック又は回路素子を統合し得ること、或いは様々な論理ブロック又は回路素子に機能性の代替分解を強制し得ることは当業者には認識されよう。したがって本明細書において描かれているアーキテクチャーは単に例示的なものにすぎないこと、また、実際、同じ機能性を達成する多くの他のアーキテクチャーを実現することができることを理解されたい。

また、例えば一実施例では、例証されている実例は、単一の集積回路上又は同じデバイス内に配置された回路機構として実現することも可能である。別法としては、実例は、適切な方法で互いに相互接続された任意の数の個別の集積回路又は個別のデバイスとして実現することも可能である。

また、例えば実例又はその一部は、物理的回路機構のソフト即ちコード表現として、或いは任意の適切なタイプのハードウェア記述言語におけるような、物理的回路機構に変換することができる論理表現として実現することも可能である。

また、本発明は、非プログラマブル・ハードウェアの中で実現される物理的デバイス又はユニットに限定されず、適切なプログラム・コードに従って動作させることによって所望のデバイス機能を実施することができる、本出願においては一般に「コンピュータ・システム」で表されている、メインフレーム、ミニコンピュータ、サーバ、ワークステーション、パーソナル・コンピュータ、ノートパッド、パーソナル・デジタル・アシスタント、電子ゲーム、自動車及び他の埋込みシステム、セル電話及び様々な他の無線デバイスなどのプログラマブル・デバイス又はユニットの中にも同じく適用され得る。

特許請求の範囲では、括弧の間に置かれた参照符号は、すべて、特許請求の範囲を制限するものと解釈してはならない。「備えている」という語は、特許請求の範囲に挙げられている要素又はステップ以外の他の要素又はステップの存在を排他するものではない。さらに、本明細書において使用されている不特定要素の単数形の表現は、１つとして、又は複数として定義されている。また、特許請求の範囲における「少なくとも１つ」及び「１つ又は複数」などの導入節の使用は、同じ特許請求が導入節「１つ又は複数」或いは「少なくとも１つ」、及び不特定要素の単数形の表現を含んでいる場合であっても、不特定要素の単数形の表現による別の特許請求要素の導入が、このような導入される特許請求要素を含む何らかの特定の特許請求を、１つのこのような要素しか含んでいない発明に限定することを暗に意味するものと解釈してはならない。特定の要素をさす表現の使用についても同様である。他に特に言及されていない限り、「第１の」及び「第２の」などの用語は、このような用語が説明している要素同士の間を恣意的に区別するために任意に使用されている。したがってこれらの用語には、このような要素の一時的又は他の順位付けを示すことは必ずしも意図されておらず、特定の手段が相互に異なる特許請求に記載されている、という単なる事実は、これらの手段の組合せを有利に使用することができないことを示しているわけではない。

また、本発明は、コンピュータ・システムなどのプログラマブル装置上で走ると、本発明による方法のステップを実施するか、或いは本発明によるデバイス又はシステムの機能のプログラマブル装置による実施を可能にするためのコード部分を少なくとも含む、コンピュータ・システム上で走らせるためのコンピュータ・プログラムの中で実現することも可能である。コンピュータ・プログラムは、記憶システムにディスク・ドライブをディスク・ドライブ・グループに割り振らせることができる。

コンピュータ・プログラムは、特定のアプリケーション・プログラム及び／又はオペレーティング・システムなどの命令のリストである。コンピュータ・プログラムは、例えばサブルーチン、機能、手順、目的方法、目的実施態様、実行可能アプリケーション、アプレット、サーブレット、ソース・コード、目的コード、共用ライブラリ／ダイナミック・ロード・ライブラリ、及び／又はコンピュータ・システム上で実行するために設計された命令の他のシーケンスのうちの１つ又は複数を含むことができる。

コンピュータ・プログラムは、非一時的コンピュータ可読媒体上に内部的に記憶することができる。コンピュータ・プログラムのすべて又は一部は、情報処理システムに永久的に、除去可能に、又は遠隔的に結合されたコンピュータ可読媒体上に提供することができる。コンピュータ可読媒体は、例えば非制限で任意の数の、ディスク及びテープ記憶媒体を含む磁気記憶媒体；コンパクト・ディスク媒体（例えばＣＤ－ＲＯＭ、ＣＤ－Ｒ、等々）及びデジタル・ビデオ・ディスク記憶媒体などの光記憶媒体；ＦＬＡＳＨメモリ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、ＲＯＭなどの半導体に基づく記憶装置を含む不揮発性メモリ記憶媒体；強磁性デジタル・メモリ；ＭＲＡＭ；レジスタ、バッファ又はキャッシュ、主記憶装置、ＲＡＭ、等々を含む揮発性記憶媒体を含むことができる。コンピュータ・プロセスは、典型的には、実行（ランニング）プログラム又はプログラムの一部、現在のプログラム値及び状態情報、及びプロセスの実行を管理するためにオペレーティング・システムによって使用される資源を含む。オペレーティング・システム（ＯＳ：ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）は、コンピュータの資源の共有を管理し、また、これらの資源にアクセスするために使用されるインタフェースをプログラマーに提供するソフトウェアである。オペレーティング・システムはシステム・データ及びユーザ入力を処理し、また、システムのユーザ及びプログラムに対するサービスとしてタスク及び内部システム資源を割り振り、且つ、管理することによって応答する。コンピュータ・システムは、例えば少なくとも１つの処理装置、関連するメモリ及び多くの入力／出力（Ｉ／Ｏ）デバイスを含むことができるコンピュータ・プログラムを実行する場合、コンピュータ・システムは、コンピュータ・プログラムに従って情報を処理し、且つ、結果として得られる出力情報をＩ／Ｏデバイスを介して生成する。

本特許出願に関連するシステムは、すべて、少なくとも１つのハードウェア構成要素を含む。

以上、本明細書において、本発明の特定の特徴について例証し、且つ、説明したが、当業者には多くの修正、置換、変更及び等価物が思い浮かぶことであろう。したがって添付の特許請求の範囲には、本発明の真の精神の範疇としてすべてのこのような修正及び変更を包含することが意図されていることを理解されたい。

JP2021553756A 2019-03-10 2019-03-10 キューのクラスター化を使用した音声強化 Active JP7564117B2 (ja)

Applications Claiming Priority (1)

Application Number	Priority Date	Filing Date	Title
PCT/IB2019/051933 WO2020183219A1 (en)	2019-03-10	2019-03-10	Speech enhancement using clustering of cues

Publications (3)

Publication Number	Publication Date
JP2022533300A JP2022533300A (ja)	2022-07-22
JPWO2020183219A5 true JPWO2020183219A5 (ja)	2024-05-17
JP7564117B2 JP7564117B2 (ja)	2024-10-08

Family

ID=72427785

Family Applications (1)

Application Number	Title	Priority Date	Filing Date
JP2021553756A Active JP7564117B2 (ja)	2019-03-10	2019-03-10	キューのクラスター化を使用した音声強化

Country Status (5)

Country	Link
EP (1)	EP3939035A4 (ja)
JP (1)	JP7564117B2 (ja)
KR (1)	KR20210137146A (ja)
CN (1)	CN113795881A (ja)
WO (1)	WO2020183219A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number	Priority date	Publication date	Assignee	Title
CN113795881A (zh) *	2019-03-10	2021-12-14	卡多姆科技有限公司	使用线索的聚类的语音增强
CN113473373B (zh) *	2021-06-08	2022-11-01	华侨大学	一种uwb室内定位方法
CN115910047B (zh) *	2023-01-06	2023-05-19	阿里巴巴达摩院(杭州)科技有限公司	数据处理方法、模型训练方法、关键词检测方法及设备
CN117668499B (zh) *	2024-01-31	2024-05-14	平潭综合实验区智慧岛投资发展有限公司	一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number	Priority date	Publication date	Assignee	Title
WO2006059806A1 (ja)	2004-12-03	2006-06-08	Honda Motor Co., Ltd.	音声認識装置
CA2621940C (en) *	2005-09-09	2014-07-29	Mcmaster University	Method and device for binaural signal enhancement
JP2008064892A (ja) *	2006-09-05	2008-03-21	National Institute Of Advanced Industrial & Technology	音声認識方法およびそれを用いた音声認識装置
JP4891801B2 (ja)	2007-02-20	2012-03-07	日本電信電話株式会社	多信号強調装置、方法、プログラム及びその記録媒体
US8498863B2 (en) *	2009-09-04	2013-07-30	Massachusetts Institute Of Technology	Method and apparatus for audio source separation
US8718290B2 (en)	2010-01-26	2014-05-06	Audience, Inc.	Adaptive noise reduction using level cues
CN202534346U (zh)	2010-11-25	2012-11-14	歌尔声学股份有限公司	语音增强装置及头戴式降噪通信耳机
JP2013201525A (ja)	2012-03-23	2013-10-03	Mitsubishi Electric Corp	ビームフォーミング処理装置
US8880395B2 (en) *	2012-05-04	2014-11-04	Sony Computer Entertainment Inc.	Source separation by independent component analysis in conjunction with source direction information
EP2738762A1 (en) *	2012-11-30	2014-06-04	Aalto-Korkeakoulusäätiö	Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
US9460732B2 (en) *	2013-02-13	2016-10-04	Analog Devices, Inc.	Signal source separation
EP3129795A4 (en) *	2014-04-09	2019-01-16	Xmos Inc.	METHOD AND SYSTEMS FOR IMPROVED MEASUREMENT, UNIT AND PARAMETER ESTIMATION, AND MEASUREMENT AND REDUCTION OF A WIDE-OUT EFFECT ON SOURCE SIGNAL SEPARATION
US20170208415A1 (en) *	2014-07-23	2017-07-20	Pcms Holdings, Inc.	System and method for determining audio context in augmented-reality applications
US9324320B1 (en) *	2014-10-02	2016-04-26	Microsoft Technology Licensing, Llc	Neural network-based speech processing
US10431211B2 (en) *	2016-07-29	2019-10-01	Qualcomm Incorporated	Directional processing of far-field audio
US10535361B2 (en) *	2017-10-19	2020-01-14	Kardome Technology Ltd.	Speech enhancement using clustering of cues
CN113795881A (zh) *	2019-03-10	2021-12-14	卡多姆科技有限公司	使用线索的聚类的语音增强

2019
- 2019-03-10 CN CN201980096208.9A patent/CN113795881A/zh active Pending
- 2019-03-10 JP JP2021553756A patent/JP7564117B2/ja active Active
- 2019-03-10 KR KR1020217032319A patent/KR20210137146A/ko not_active Application Discontinuation
- 2019-03-10 WO PCT/IB2019/051933 patent/WO2020183219A1/en unknown
- 2019-03-10 EP EP19918690.9A patent/EP3939035A4/en active Pending

Publication	Publication Date	Title
US11694710B2 (en)	2023-07-04	Multi-stream target-speech detection and channel fusion
US10535361B2 (en)	2020-01-14	Speech enhancement using clustering of cues
Erdogan et al.	2016	Improved MVDR beamforming using single-channel mask prediction networks.
US10901063B2 (en)	2021-01-26	Localization algorithm for sound sources with known statistics
EP3482392B1 (en)	2022-09-07	Method and system for automatically diarising a sound recording
JP7564117B2 (ja)	2024-10-08	キューのクラスター化を使用した音声強化
Chazan et al.	2019	Multi-microphone speaker separation based on deep DOA estimation
Liu et al.	2018	Neural network based time-frequency masking and steering vector estimation for two-channel MVDR beamforming
JP2018169473A (ja)	2018-11-01	音声処理装置、音声処理方法及びプログラム
Martinez et al.	2019	DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters
Chakraborty et al.	2014	Sound-model-based acoustic source localization using distributed microphone arrays
Rodemann et al.	2006	Real-time sound localization with a binaural head-system using a biologically-inspired cue-triple mapping
CN113870893A (zh)	2021-12-31	一种多通道双说话人分离方法及系统
JP2016143042A (ja)	2016-08-08	雑音除去装置及び雑音除去プログラム
Pertilä et al.	2018	Multichannel source activity detection, localization, and tracking
EP2745293B1 (en)	2015-09-16	Signal noise attenuation
WO2020064089A1 (en)	2020-04-02	Determining a room response of a desired source in a reverberant environment
JPWO2020183219A5 (ja)	2024-05-17
Venkatesan et al.	2018	Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
US12148441B2 (en)	2024-11-19	Source separation for automatic speech recognition (ASR)
Malek et al.	2017	Speaker extraction using LCMV beamformer with DNN-based SPP and RTF identification scheme
Ma et al.	2013	A hearing-inspired approach for distant-microphone speech recognition in the presence of multiple sources
Venkatesan et al.	2020	Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker
EP4171064A1 (en)	2023-04-26	Spatial dependent feature extraction in neural network based audio processing
Tao et al.	2023	Single Source Zone Detection in the Spherical Harmonic Domain for Multisource Localization

JPWO2020183219A5 - - Google Patents

Info

Links

Description

Applications Claiming Priority (1)

Publications (3)

Family

ID=72427785

Family Applications (1)

Country Status (5)

Families Citing this family (4)

Family Cites Families (17)

Similar Documents