JPWO2020183219A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2020183219A5 JPWO2020183219A5 JP2021553756A JP2021553756A JPWO2020183219A5 JP WO2020183219 A5 JPWO2020183219 A5 JP WO2020183219A5 JP 2021553756 A JP2021553756 A JP 2021553756A JP 2021553756 A JP2021553756 A JP 2021553756A JP WO2020183219 A5 JPWO2020183219 A5 JP WO2020183219A5
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- signals
- pitch
- signal
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 description 92
- 239000011295 pitch Substances 0.000 description 79
- 239000013598 vector Substances 0.000 description 51
- 230000006870 function Effects 0.000 description 37
- 230000005236 sound signal Effects 0.000 description 34
- 238000004422 calculation algorithm Methods 0.000 description 27
- 238000005457 optimization Methods 0.000 description 24
- 238000012546 transfer Methods 0.000 description 17
- 238000000926 separation method Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000005070 sampling Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 238000002156 mixing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000224489 Amoeba Species 0.000 description 1
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000019988 mead Nutrition 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Description
(背景技術)
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音(例えば自動車又は飛行機の中)、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率(dBスケールであることがしばしばである)を反映している、音声対雑音比(SNR:speech-to-noise-ratio)又は音声対妨害比(SIR:speech-to-interference-ratio)を改善するそれらの能力によって判断される。
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音(例えば自動車又は飛行機の中)、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率(dBスケールであることがしばしばである)を反映している、音声対雑音比(SNR:speech-to-noise-ratio)又は音声対妨害比(SIR:speech-to-interference-ratio)を改善するそれらの能力によって判断される。
「Lessons in Digital Estimation Theory」by Jerry M. Mendel
「New Features for Emotional Speech Recognition」by Palo et. al.
反響環境で音声強化を実施する必要がますます高くなっている。
音声強化のための方法を提供することができ、方法は、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るステップ又は生成するステップと、周波数変換されたサンプルを提供するために音サンプルを周波数変換するステップと、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化するステップであって、該クラスター化するステップが、(i)受信した音信号に関連する空間キュー、及び(ii)スピーカに関連する音響キューに基づき得る、クラスター化するステップと、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定するステップと、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力(MIMO:multiple input multiple output)ビーム形成演算を適用するステップと、音声信号を提供するために、ビーム形成された信号を逆周波数変換するステップとを含むことができる。
方法は、スピーカに関連する音響キューを生成するステップを含むことができる。
音響キューを生成するステップは、音サンプル中のキーワードを探索するステップ、及びキーワードから音響キューを抽出するステップを含むことができる。
方法は、キーワードに関連する空間キューを抽出するステップを含むことができる。
方法は、キーワードに関連する空間キュアをクラスター化シード(clustering seed)として使用するステップを含むことができる。
音響キューは、ピッチ周波数、ピッチ強度、1つ又は複数のピッチ周波数調波、及び1つ又は複数のピッチ周波数調波の強度を含むことができる。
方法は、信頼性属性を個々のピッチに関連付けるステップ、及びピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するステップを含むことができる。
クラスター化するステップは、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理するステップ、音響キューを使用してスピーカの状態を常に追跡するステップ、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化するステップ、及び周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるステップを含むことができる。
割り当てるステップは、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算するステップを含むことができる。
追跡するステップは、拡張カルマン・フィルターを適用するステップを含むことができる。
追跡するステップは、多重仮説追跡を適用するステップを含むことができる。
追跡するステップは、粒子フィルターを適用するステップを含むことができる。
セグメント化するステップは、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てるステップを含むことができる。
方法は、音声速度、音声強度及び感情的発声の中から少なくとも1つの被監視音響特徴を監視するステップを含むことができる。
方法は、少なくとも1つの被監視音響特徴を拡張カルマン・フィルターに供給するステップを含むことができる。
周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に1つのベクトルである複数のベクトルで配置することができ、方法は、複数のベクトルを重み平均することによって中間ベクトルを計算するステップと、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するステップとを含むことができる。
方法は、雑音の標準偏差の3倍になるように定義済み閾値を決定するステップを含むことができる。
コンピュータ化されたシステムによって実行されると、そのコンピュータ化されたシステムが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化し(このクラスター化は、(i)受信した音信号に関連する空間キュー、及び(ii)スピーカに関連する音響キューに基づくことができる)、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力(MIMO)ビーム形成演算を適用し、且つ、音声信号を提供するために、ビーム形成された信号を逆周波数変換することになる命令を記憶する非一時的コンピュータ可読媒体を提供することができる。
非一時的コンピュータ可読媒体は、スピーカに関連する音響キューを生成するための命令を記憶することができる。
音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを抽出することを含むことができる。
音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを抽出することを含むことができる。
非一時的コンピュータ可読媒体は、キーワードに関連する空間キューを抽出するための命令を記憶することができる。
非一時的コンピュータ可読媒体は、キーワードに関連する空間キュアをクラスター化シードとして使用するための命令を記憶することができる。
音響キューは、ピッチ周波数、ピッチ強度、1つ又は複数のピッチ周波数調波、及び1つ又は複数のピッチ周波数調波の強度を含むことができる。
非一時的コンピュータ可読媒体は、信頼性属性を個々のピッチに関連付け、また、ピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するための命令を記憶することができる。
クラスター化には、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理し、音響キューを使用してスピーカの状態を常に追跡し、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化し、また、周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てることを含むことができる。
割り当てには、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算することを含むことができる。
追跡することには、拡張カルマン・フィルターを適用することを含むことができる。
追跡することには、多重仮説追跡を適用することを含むことができる。
追跡することには、粒子フィルターを適用することを含むことができる。
セグメント化することには、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てることを含むことができる。
非一時的コンピュータ可読媒体は、音声速度、音声強度及び感情的発声の中から少なくとも1つの被監視音響特徴を監視するための命令を記憶することができる。
非一時的コンピュータ可読媒体は、少なくとも1つの被監視音響特徴を拡張カルマン・フィルターに供給するための命令を記憶することができる。
周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に1つのベクトルである複数のベクトルで配置することができ、非一時的コンピュータ可読媒体は、複数のベクトルを重み平均することによって中間ベクトルを計算し、また、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するための命令を記憶することができる。
非一時的コンピュータ可読媒体は、雑音の標準偏差の3倍になるように定義済み閾値を決定するための命令を記憶することができる。
マイクロホンのアレイと、記憶装置と、プロセッサとを含むことができるコンピュータ化されたシステムを提供することができる。プロセッサは、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化し(このクラスター化は、(i)受信した音信号に関連する空間キュー、及び(ii)スピーカに関連する音響キューに基づくことができる)、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力(MIMO)ビーム形成演算を適用し、且つ、音声信号を提供するために、ビーム形成された信号を逆周波数変換するように構成することができ、記憶装置は、音サンプル及び音声信号のうちの少なくとも1つを記憶するように構成することができる。
コンピュータ化されたシステムはマイクロホンのアレイを含むことはできないが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す信号をマイクロホンのアレイから受信することは可能である。
プロセッサは、スピーカに関連する音響キューを生成するように構成することができる。
音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを抽出することを含むことができる。
プロセッサは、キーワードに関連する空間キューを抽出するように構成することができる。
プロセッサは、キーワードに関連する空間キュアをクラスター化シードとして使用するように構成することができる。
音響キューは、ピッチ周波数、ピッチ強度、1つ又は複数のピッチ周波数調波、及び1つ又は複数のピッチ周波数調波の強度を含むことができる。
プロセッサは、信頼性属性を個々のピッチに関連付け、また、ピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するように構成することができる。
プロセッサは、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理することによってクラスター化し、音響キューを使用してスピーカの状態を常に追跡し、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化し、また、周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるように構成することができる。
プロセッサは、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算することによって割り当てるように構成することができる。
プロセッサは、拡張カルマン・フィルターを適用することによって追跡するように構成することができる。
プロセッサは、多重仮説追跡を適用することによって追跡するように構成することができる。
プロセッサは、粒子フィルターを適用することによって追跡するように構成することができる。
プロセッサは、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てることによってセグメント化するように構成することができる。
プロセッサは、音声速度、音声強度及び感情的発声の中から少なくとも1つの被監視音響特徴を監視するように構成することができる。
プロセッサは、少なくとも1つの被監視音響特徴を拡張カルマン・フィルターに供給するように構成することができる。
周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に1つのベクトルである複数のベクトルで配置することができ、プロセッサは、複数のベクトルを重み平均することによって中間ベクトルを計算し、また、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するように構成することができる。
プロセッサは、雑音の標準偏差の3倍になるように定義済み閾値を決定するように構成することができる。
本発明を理解し、また、本発明を実際に実施することができる方法をよく調べるために、以下、好ましい実施例について、添付の図面を参照して、単なる非制限の実例によって説明する。
システムに対する参照は、すべて、必要な変更を加えて、システムによって実行される方法に、及び/又はシステムによって実行されると、そのシステムが方法を実行することになる命令を記憶する非一時的コンピュータ可読媒体に適用されるものとする。
方法に対する参照は、すべて、必要な変更を加えて、方法を実行するように構成されるシステムに、及び/又はシステムによって実行されると、そのシステムが方法を実行することになる命令を記憶する非一時的コンピュータ可読媒体に適用されるものとする。
非一時的コンピュータ可読媒体に対する参照は、すべて、必要な変更を加えて、システムによって実行される、及び/又は非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成されるシステムによって実行される方法に適用されるものとする。
「及び/又は」という用語は、追加的又は代替的である。
「システム」という用語は、コンピュータ化されたシステムを意味している。
音声強化方法は、信号が雑音及び他のスピーカによって妨害される場合に、所望の発信源(スピーカ)から音声信号を抽出することに的が絞られている。無響環境では、指向性ビーム形成の形態の空間フィルタリングが有効である。しかしながら反響環境では、個々の発信源からの音声は、いくつかの方向にわたって不鮮明にされ、必ずしも連続的ではなく、通常のビームフォーマーの利点を生かしていない。伝達関数(TF:transfer function)に基づくビームフォーマーを使用してこの問題に対処し、或いは相対伝達関数(RTF:relative transfer function)をTFそのものとして使用することは有望な方向である。しかしながら多重スピーカ環境では、スピーカ毎にRTFを予測する能力は、音声信号が同時に捕獲される場合、依然として課題である。音響キュー及び空間キューを追跡して同時スピーカをクラスター化し、それにより反響環境におけるスピーカのRTFの予測を容易にすることを含む解決法が提供される。
とりわけ多重スピーカ反響環境において、個々の周波数成分をその元のスピーカに割り当てる、スピーカのクラスター化アルゴリズムが提供される。このクラスター化アルゴリズムは、RTFエスティメータ(RTF予測器)が多重スピーカ反響環境で適切に動作するために必要な条件を提供する。次に、RTF行列の予測を使用して、伝達関数に基づく線形拘束最小分散(TF-LCMV:transfer function based linear constrained minimum variance)ビームフォーマーの重みベクトルが計算され(後で出てくる方程式(10)を参照されたい)、したがってTF-LCMVが動作するために必要な条件を満たす。個々の人間のスピーカには異なるピッチが賦与されていることが仮定されており、したがってピッチはスピーカに対する全単射インジケータである。多重ピッチ検出は、とりわけ雑音が多い反響多重スピーカ環境では課題タスクであることが知られている。この課題に対処するために、W-分離直交性(W-DO:W-Disjoint Orthogonality)仮定が採用され、また、一組の空間キュー、例えば信号強度、方位角及び仰角が追加特徴として使用される。一時的に非活動状態のスピーカ及びピッチの変化を克服するために、拡張カルマン・フィルター(EKF:extended Kalman filter)を使用して音響キュー-ピッチ値-が常に追跡され、また、空間キューを使用して最後のL個の周波数成分がセグメント化され、且つ、個々の周波数成分が異なる発信源に割り当てられる。特定のピッチを有する特定のスピーカへの周波数成分のクラスター化を容易にするために、相互相関によってEKF及びセグメント化の結果が結合される。
図1は、音声信号の周波数成分が人間のスピーカ11からマイクロホン・アレイ12へ反響環境で移動する経路を説明したものである。環境14における壁13及び他の要素は、衝突する信号を反射し、その減衰及び反射角は、壁の材料及び織地で決まる。人間の音声の異なる周波数成分は、異なる経路を辿ることになる。これらの経路は、人間のスピーカ11とマイクロホン・アレイ12の間の最短経路上に存在している直接経路15であっても、或いは間接経路16、17であってもよい。周波数成分は1つ又は複数の経路に沿って移動することになることに留意されたい。
図2はアルゴリズムを説明したものである。信号は、M≧2個のマイクロホンを含むマイクロホン・アレイ201によって獲得され、M=7個のマイクロホンは一実例である。マイクロホンは、例えば直線、円又は球の上を等間隔で間隔を隔てたような、さらには任意の形を形成する非一様に間隔を隔てたような一連の集まりで展開させることができる。個々のマイクロホンからの信号は、サンプリングされ、デジタル化され、また、それぞれT個の連続するサンプル202を含むM個のフレームに記憶される。フレームTのサイズは、短時間フーリエ変換(STFT:short-time Fourier Transform)が正確で、しかしながら十分に短く、したがって信号が等価時間継続期間に沿って不動であるよう、十分に大きくなるように選択することができる。Tのための典型的な値は、16kHzのサンプリング・レートに対して4,096サンプルであり、即ちフレームは1/4秒と等価である。連続するフレームは、しばしば、信号の特徴が時間を経過した後の追跡を改善するために互いに重畳する。典型的な重畳は75%であり、即ち1,024サンプル毎に新しいフレームが開始される。Tは、例えば0.1秒と2秒の間の範囲であってもよく、それにより16kHzサンプリング・レートに対して1024~32768個のサンプルを提供する。サンプルは、時間期間Tの間にマイクロホンのアレイによって受信された音信号を表す音サンプルと呼ぶことも可能である。
個々のフレームは、203で、フーリエ変換、又は短時間フーリエ変換(STFT)、定-Q変換(CQT:constant-Q transform)、対数フーリエ変換(LFT:logarithmic Fourier transform)、フィルター・バンク、等々などのフーリエ変換の変形を適用することによって周波数領域に変換される。窓処理及びゼロ-パッディングなどのいくつかの技法を適用してフレーミング効果を制御することも可能である。203によって、長さKのM個の複素数値化ベクトルが得られる。例えばアレイが7個のマイクロホンを含んでいる場合、7個のベクトルが準備され、これらはフレーム時間指数lによって登録される。Kは周波数ビンの数であり、周波数変換によって決定される。例えば通常のSTFTを使用する場合、K=Tであり、これはバッファの長さである。ステップ203の出力は、周波数変換された信号と呼ぶことも可能である。
音声信号は、204で、異なるスピーカにクラスター化される。クラスターは、スピーカ関連クラスターと呼ぶことができる。方向のみに基づいてスピーカをクラスター化する従来技術ワークとは異なり、204は、反響室における複数のスピーカを取り扱っており、したがって直接経路及び間接経路により、異なる方向からの信号を同じスピーカに割り当てることができる。提案されている解決法は、一組の空間キュー、例えばマイクロホンのうちの1つにおける信号の方向(方位及び高度)及び強度に加えて、一組の音響キュー、例えばピッチ周波数及び強度、並びにその調波周波数及び強度の使用を示唆している。ピッチ、及び空間キューのうちの1つ又は複数は、カルマン・フィルター及びその変形、多重仮説追跡(MHT:multiple hypothesis tracking)又は粒子フィルターなどの追跡アルゴリズムのための状態ベクトルとして働き、これらは、この状態ベクトルを追跡するために使用され、また、個々の追跡を異なるスピーカに割り得てるために使用される。
すべてのこれらの追跡アルゴリズムは、時間における状態ベクトルの力学を説明しているモデルを使用しており、したがって状態ベクトルの測値が雑音によって紛失し、或いは汚染されると、追跡アルゴリズムは、動的モデルのこの使用を補償し、また、それと同時にモデル・パラメータを更新する。このステージの出力は、所与の時間lにおける個々の周波数成分を個々のスピーカに割り当てるベクトルである。204については、図3でさらに詳しく説明される。
205で、周波数領域におけるデータにRTFエスティメータが適用される。このステージにより一組のRTFが得られ、RTFの各々は関連するスピーカに登録される。登録プロセスは、クラスター化スピーカ204からのクラスター化アレイを使用して実施される。この一組のRTFは、スピーカ関連相対伝達関数と呼ぶことも可能である。
MIMOビームフォーマー206は、必要な音声信号のエネルギーに関して、空間フィルタリングによって雑音及び妨害信号のエネルギーを小さくする。ステップ206の出力は、ビーム形成された信号と呼ぶことも可能である。ビーム形成された信号は、次に、サンプルのストリームの形態の連続音声信号を作り出すために逆周波数変換207へ送られ、このサンプルのストリームは、今度は、音声認識システム、通信システム及び記録デバイスなどの他の要素に転送される208。
本発明の好ましい実施例では、キーワード・スポッティング209を使用して、クラスター化ブロック204の性能を改善することができる。202からのフレームの中から、定義済みキーワード(例えば「今日はアレクサ」又は「オーケーグーグル」)が探索される。キーワードがフレームのストリームの中にスポットされると、ピッチ周波数及び強度、並びにその調波周波数及び強度などのスピーカの音響キューが抽出される。また、個々の周波数成分がマイクロホン・アレイ201に到達した経路の特徴が同じく抽出される。これらの特徴は、クラスター化スピーカ204によって、所望のスピーカのクラスターのためのシード(seed)として使用される。シードとは、クラスターの初期パラメータ、例えばクラスターの重心、半径、及びK-平均、PSO及び2KPMなどの重心に基づくクラスター化アルゴリズムのための統計量に関する初期推測である。別の実例は、部分空間に基づくクラスター化のための部分空間の基本である。
図3は、スピーカのクラスター化アルゴリズムを説明したものである。個々のスピーカには異なる一組の音響キュー、例えばピッチ周波数及び強度、並びにその調波周波数及び強度が賦与されていることが仮定されており、したがってその一組の音響キューは、スピーカに対する全単射インジケータ(bijective indicator)である。音響キュー検出は、とりわけ雑音が多い反響多重スピーカ環境では骨の折れる課題タスクであることが知られている。この課題に対処するために、例えば信号強度、方位角及び仰角の形態の空間キューが使用される。一時的に非活動状態のスピーカ及び音響キューの変化を克服するために、空間フィルター及び拡張カルマン・フィルター(EKF)などのフィルターを使用して音響キューが常に追跡され、また、空間キューを使用して、異なる発信源の間で周波数成分がセグメント化される。特定のピッチを有する特定のスピーカへの周波数成分のクラスター化を容易にするために、相互相関によってEKF及びセグメント化の結果が結合される。
31で、好ましい一実施例の実例のように、ピッチ周波数の形態の潜在的音響キューが検出される。最初に、203で計算される、個々のマイクロホンからのバッファの周波数変換を使用して時間-周波数マップが準備される。次に、いくつかのマイクロホンにおけるアーチファクトを少なくするように決定することができる何らかの重み係数を使用して、M個の長さKの複素数値化ベクトルの各々の絶対値が重み平均される。それにより長さKの単一の実ベクトルが得られる。このベクトルでは、所与の閾値μより大きい値が抽出され、一方、残りの要素は廃棄される。閾値μは、しばしば、雑音の標準偏差の3倍になり、システムの電気パラメータ、とりわけサンプリングされた信号の有効ビット数で決まる一定の値未満にはならないように適応的に選択される。周波数指数が[k_最小、k_最大]の範囲内である値は、ピッチ周波数のための候補として定義される。変数k_最小及びk_最大は、典型的な成年の男性は85Hzから1800Hzまでの基本周波数を有し、また、典型的な成年の女性の基本周波数は165Hzから2550Hzまでであるため、典型的にはそれぞれ85Hz及び2550Hzである。次に、そのより高い調波を探索することによって個々のピッチ候補が検証される。第2調波及び第3調波の存在は、信頼性がR(例えばR=10)である道理にかなったピッチとして検出されることになる候補ピッチのための前提条件であり得る。より高い調波(例えば第4及び第5)が存在している場合、ピッチの信頼性が高くなり、例えば調波毎に2倍になり得る。図4に実例を見出すことができる。本発明の好ましい実施例では、所望のスピーカのピッチ32は、所望のスピーカによって発音されたキーワードを使用して210によって供給される。供給されるピッチ32は、最も高い可能信頼性、例えばR=1000を有するリストに加えられる。
33で、拡張カルマン・フィルター(EKF)が31からのピッチに適用される。拡張カルマン・フィルターに対するウィキペディア・エントリーによって注釈されているように(www.wikipedia.org/wiki/Extended_Kalman_filter)、カルマン・フィルターは、状態移行方程式及び観察モデルを有している。離散計算のための状態移行方程式は、
xk=f(xk-1、uk)+wk (1)
xk=f(xk-1、uk)+wk (1)
また、離散計算のための観察モデルは、
zk=h(xk)+vk (2)
であり、上式でxkは、(部分的に)システムの状態を記述しているパラメータを含む状態ベクトルであり、ukは、システムの状態に関する情報を提供する外部入力のベクトルであり、wk及びvkはプロセス及び観察雑音である。拡張カルマン・フィルターの時間アップデータは、予測方程式を使用して次の状態を予測することができ、また、検出されたピッチは、以下のタイプの方程式、
yk=zk-h(xk|k+1) (3)
を使用して、実際の測値を予測された測値と比較することによって変数を更新することができ、上式でzkは検出されたピッチであり、ykは、測値と予測されたピッチの間の誤差である。
zk=h(xk)+vk (2)
であり、上式でxkは、(部分的に)システムの状態を記述しているパラメータを含む状態ベクトルであり、ukは、システムの状態に関する情報を提供する外部入力のベクトルであり、wk及びvkはプロセス及び観察雑音である。拡張カルマン・フィルターの時間アップデータは、予測方程式を使用して次の状態を予測することができ、また、検出されたピッチは、以下のタイプの方程式、
yk=zk-h(xk|k+1) (3)
を使用して、実際の測値を予測された測値と比較することによって変数を更新することができ、上式でzkは検出されたピッチであり、ykは、測値と予測されたピッチの間の誤差である。
33で、個々の軌道は、感情のために高くなったり、或いは低くなったりすることがあるピッチの一時的挙動を反映するモデルf(xk、uk)が後続する、検出されたピッチから開始することができる。モデルの入力は、過去の状態ベクトルxk(1つの状態ベクトル又はそれ以上の状態ベクトルのいずれか)、及び音声の速度、音声の強度及び感情的発声などのピッチの力学に影響を及ぼす任意の外部入力ukであってもよい。状態ベクトルxの要素は、ピッチを定量的に記述することができる。例えばピッチの状態ベクトルは、とりわけピッチ周波数、一次調波の強度、及びより高い調波の周波数及び強度を含むことができる。ベクトル関数f(xk、uk)を使用して、現在の時間より前の何らかの所定の時間k+1における状態ベクトルxを予測することができる。EKFにおける動的モデルの例示的実現は、参照により本明細書に組み込まれている書物「Lessons in Digital Estimation Theory」by Jerry M. Mendelに記載されているように時間更新方程式(a.k.a.予測方程式)を含むことができる。
例えば3項状態ベクトル
を考察する。上式でfkは時間kにおけるピッチ(第1調波)の周波数であり、akは時間kにおけるピッチ(第1調波)の強度であり、また、bkは時間kにおける第2調波の強度である。
を考察する。上式でfkは時間kにおけるピッチ(第1調波)の周波数であり、akは時間kにおけるピッチ(第1調波)の強度であり、また、bkは時間kにおける第2調波の強度である。
ピッチのための例示的状態ベクトル・モデルは、
であってもよい。
であってもよい。
これは、すべての時間において定ピッチを仮定するモデルを記述している。本発明の好ましい実施例では、当技術分野で知られている音声認識アルゴリズムを使用している音声の速度、音声の強度及び感情的発声が連続的に監視され、EKFの時間更新ステージを改善する外部入力ukを提供する。感情的発声方法は当技術分野で知られている。例えば「New Features for Emotional Speech Recognition」by Palo et. al.を参照されたい。
個々の追跡には、時間更新のみを使用して追跡を展開する時間に反比例する信頼性フィールドが賦与されている。追跡の信頼性が何らかの信頼性閾値、例えば非検出ピッチの10秒を表すρ未満になると、追跡は死んだものとして定義され、それは、それぞれのスピーカが活動状態ではないことを意味する。一方、一切の既存の追跡に割り当てられ得ない新しい測値(ピッチ検出)が出現すると、新しい追跡が開始される。
34で、M個の周波数変換されたフレームから空間キューが抽出される。31の場合と同様、時間における相関を使用して解析するために、直近のL個のベクトルが保存される。それによりM個のマイクロホンの各々に対して、サイズLxKxP(P=M-1である)の3次元アレイである時間-周波数-キュー(TFC:time-frequency-Cue)マップが得られる。TFCについては図5で説明される。
35で、TFCにおける個々の周波数成分の空間キューがセグメント化される。着想は、周波数成分は、異なるスピーカから、L個のフレームに沿って生じ得る、ということであり、これは、空間キューを比較することによって観察することができる。しかしながら単一のフレーム時間lにおいては、W-DO仮定のために周波数成分は一人のスピーカから生じることが仮定されている。セグメント化は、K近傍法(KNN:K nearest neighbors)などのクラスター化のために使用される文献における任意の知られている方法を使用して実施することができる。クラスター化は、Aの中の個々のセルに、そのセル(k、l)が属しているクラスターを示す指数
を割り当てる。
を割り当てる。
36で、EKFによって追跡されるピッチのリストに挙げられている特定のピッチに個々の周波数成分が割り当てられ、また、個々の周波数成分がその信頼性によって活動状態であるよう、信号の周波数成分が分類される。これは、ピッチのうちの1つに割り当てられる時間-周波数マップ(図4を参照されたい)のk番目の線と、時間-周波数マップ中の他の線における特定のクラスター指数co(j、l)を有するすべての値の間のサンプル相互相関を計算することによって実施される。これは、すべてのクラスター指数に対して実施される。サンプル相互相関は、
によって与えられる。
によって与えられる。
上式でAは時間-周波数マップであり、kはピッチのうちの1つの属する線の指数であり、jはAの任意の他の線であり、また、LはAの列の数である。個々のピッチと、他の線におけるクラスターの各々との間のサンプル相互相関の計算の後、最も高い相互相関を有する線j1におけるクラスターc1がそれぞれのピッチと共に分類され、次に、2番目に高い相互相関を有する線j2におけるクラスターc2がそれぞれのピッチと共に分類され、以下同様である。このプロセスは、サンプル相互相関が、例えば0.5x(単一の周波数における信号の平均エネルギー)として適応的に設定することができる何らかの閾値k未満になるまで繰り返される。35により、それぞれのピッチ周波数が賦与された周波数の一組のグループが得られる。
図4は、時間-周波数マップ上のピッチ検出の実例を説明したものである。41は時間軸であり、パラメータlによって表されており、また、42は周波数軸であり、パラメータkによって説明されている。この2次元アレイにおける個々の列は、M個の周波数変換されたバッファの絶対値を時間lで平均化した後に、31で抽出された長さKの実数値ベクトルである。時間における相関解析のために、L個の直近のベクトルがサイズKxLの2次元アレイに保存される。43では2つのピッチが異なる方向の対角線で表されている。k=4、6、8にその調波を有するピッチk=2は、第4の調波が存在しているため、信頼性R=20を有しており、また、k=6、9にその調波を有するk=3のピッチは、信頼性R=10を有している。44ではk=3ピッチは非活動状態であり、k=2のみが活動状態である。しかしながらk=2ピッチの信頼性は、第4の調波が検出されないため(閾値μ未満)、R=10まで低下している。45ではk=3のピッチは再び活動状態であり、また、k=2は非活動状態である。46ではk=4の新しいピッチ候補が出現しているが、その第2の調波しか検出されていない。したがってその候補はピッチとして検出されていない。47ではk=3ピッチは非活動状態であり、ピッチは検出されない。
図5はTFC-マップを説明したものであり、その軸はフレーム指数(時間)51、周波数成分52、及び例えば個々の周波数成分が到達する方向(方位及び高度)及び成分の強度を表現している複素数値であってもよい空間キュー53である。指数lのフレームが処理され、且つ、周波数領域へ移されると、周波数要素
毎にM個の複素数のベクトルが受け取られる。個々のベクトルから最大M-1個の空間キューが抽出される。個々の周波数成分の方向及び強度の実例では、これは、当技術分野ではMUSIC又はESPRITなどとして知られている、アレイ処理のための任意の方向発見アルゴリズムを使用して実施することができる。このアルゴリズムにより、一組の最大M-1個の方向が3次元空間に得られ、個々の方向は、2つの角度及び到達する信号の予測された強度によって表現される。
p=1、..、P≦M-1。キューは、セルにおける
がlo、ko、poによって指数が付けられるようにTFC-マップの中に配置される。
毎にM個の複素数のベクトルが受け取られる。個々のベクトルから最大M-1個の空間キューが抽出される。個々の周波数成分の方向及び強度の実例では、これは、当技術分野ではMUSIC又はESPRITなどとして知られている、アレイ処理のための任意の方向発見アルゴリズムを使用して実施することができる。このアルゴリズムにより、一組の最大M-1個の方向が3次元空間に得られ、個々の方向は、2つの角度及び到達する信号の予測された強度によって表現される。
p=1、..、P≦M-1。キューは、セルにおける
がlo、ko、poによって指数が付けられるようにTFC-マップの中に配置される。
付録
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音(例えば自動車又は飛行機の中)、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率(dBスケールであることがしばしばである)を反映している、音声対雑音比(SNR)又は音声対妨害比(SIR)を改善するそれらの能力によって判断される。
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音(例えば自動車又は飛行機の中)、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率(dBスケールであることがしばしばである)を反映している、音声対雑音比(SNR)又は音声対妨害比(SIR)を改善するそれらの能力によって判断される。
収集モジュールが単一のマイクロホンを含んでいる場合、方法は単一マイクロホン音声強化と呼ばれ、また、しばしば、単一チャネル・スペクトル控除、最小分散歪みなし応答(MVDR:minimum variance distortionless response)及びエコー相殺(エコーキャンセレーション(echo-cancelation))を使用したスペクトル予測などの時間-周波数領域における信号自体の統計的特徴に基づいている。複数のマイクロホンが使用される場合、収集モジュールは、しばしばマイクロホン・アレイと呼ばれ、また、方法は多重マイクロホン音声強化(multi-microphone speech enhancement)と呼ばれる。これらの方法の多くは、マイクロホンによって同時に捕獲される信号同士の間の相違を利用している。確立した方法は、個々の信号に重み付け係数を掛け合わせた後のマイクロホンからの信号を合計するビーム形成である。重み付け係数の目的は、重要な信号を条件付けるために妨害信号を平均化することである。
ビーム形成は、言い換えると、空間における所与の場所から放出される信号(所望のスピーカからの所望の信号)の電力をアルゴリズムによって大きくし、また、空間における他の場所から放出される信号(他の発信源からの妨害信号)の電力を小さくし、それによりビームフォーマー出力におけるSIRを大きくする空間フィルターを作り出す方法である。
DSBの重み付け係数の使用を必要とする遅延及び合計ビームフォーマー(DSB:delay-and-sum beamformer)は、所望の信号がその発信源からアレイ中のマイクロホンの各々まで移動する異なる経路によって必然的な条件として含まれるカウンター遅延から構成される。DSBは、無響環境におけるようなそれぞれ単一の方向からくる信号に限定される。したがって同じ発信源からの信号が異なる経路に沿ってマイクロホンまで移動し、複数の方向からマイクロホンに到達する反響環境では、DSB性能は典型的には不十分である。
反響環境におけるDSBの欠点を緩和するために、ビームフォーマーは、個々の周波数成分が所与の発信源から特定のマイクロホンに到達する方向(方位及び高度)を表すもっと複雑な音響伝達関数(ATF:acoustic transfer function)を使用することができる。DSB及び他のDOAに基づく方法によって仮定される単一の到達方向(DOA:direction of arrival)は、同じ音声信号の成分が異なる方向から到達する反響環境では真実を保持していないことがしばしばである。これは、壁、家具及び人などの反響環境における物理的要素の異なる周波数応答によるものである。周波数領域におけるATFは、ナイキスト帯域幅における個々の周波数に複素数を割り当てるベクトルである。絶対値は、この周波数に関連する経路の利得を表し、また、位相は、経路に沿って周波数成分に加えられる位相を示す。
空間における所与の点と所与のマイクロホンの間のATFの予測は、所与の点に配置された、既知の信号を放出する拡声器を使用することによって実施することができる。スピーカの入力及びマイクロホンの出力から信号を同時に取得することにより、ATFを容易に予測することができる。拡声器は、システムの動作中に人間のスピーカが存在しているであろう1つ又は複数の位置に置くことができる。この方法は、空間における点毎に、より実際的には格子上の点毎にATFのマップを作り出す。格子に含まれていない点のATFは、補間を使用して近似される。しかしながらこの方法は大きな欠点を抱えている。第1に、設置毎にシステムを較正する必要があり、それがこのシステムを実際的ではないものにしている。第2は、人間のスピーカと電子スピーカの間の音響差であり、この差が測定されたATFを実際のATFから狂わせている。第3は、とりわけスピーカの方向を同じく考慮した場合の、ATFの莫大な数の測定の複雑さであり、第4は、環境の変化による可能誤差である。
ATFに対するより実際的な代替は、実際的なアプリケーションにおけるATF予測方法の欠点に対する改善としての相対伝達関数(RTF)である。RTFは、アレイ中のマイクロホンのうちの2つに対する所与の発信源同士の間のATF同士の間の差であり、周波数領域では、2つのATFのスペクトル表現同士の間の比率の形態を取る。ATFと同様、周波数領域におけるRTFは、個々の周波数に複素数を割り当てる。絶対値は2つのマイクロホンの間の利得差であり、マイクロホンが互いに接近している場合は一に近いことがしばしばであり、また、位相は、いくつかの条件の下では発信源の入射角を反映する。
伝達関数に基づく線形拘束最小分散(TF-LCMV)ビームフォーマーは、出力信号中の音声成分はマイクロホン信号のうちの1つにおける音声成分に等しい、という拘束を仮定して出力エネルギーを最小化することにより、多重マイクロホン・アプリケーションにおける音声歪みを制限しつつ雑音を小さくすることができる。N=Nd+Ni個の発信源が与えられ、Ni個の妨害発信源及び定常雑音によって汚染されたNd個の望ましい音声発信源を抽出する問題を考慮する。含まれている信号の各々は、M個のマイクロホンを備えた任意のアレイによって拾われる前に音響媒体を通って伝搬する。個々のマイクロホンの信号は長さTのフレームにセグメント化され、また、個々のフレームにFFTが適用される。周波数領域では、m番目のマイクロホン及びn番目の発信源のl番目のフレームのk番目の周波数成分それぞれ
及び
で表すものとする。同様に、n番目の発信源とm番目のマイクロホンの間のATFはgm、n(l、k)であり、また、m番目のマイクロホンにおける雑音はvm(l、k)である。行列形態の受信信号は、
によって与えられる。
及び
で表すものとする。同様に、n番目の発信源とm番目のマイクロホンの間のATFはgm、n(l、k)であり、また、m番目のマイクロホンにおける雑音はvm(l、k)である。行列形態の受信信号は、
によって与えられる。
上式で
はセンサ・ベクトルであり、
は発信源ベクトルであり、
は、
になるようにATF行列であり、また、
は、一切の発信源と相関されてない付加的定常雑音である。等価的に、(7)はRTFを使用して公式化することができる。普遍性を失うことなく、n番目の音声発信源のRTF
は、m番目のマイクロホンにおけるn番目の音声成分と、第1のマイクロホンにおけるそのそれぞれの成分との間の比率、即ちhm、n(l、k)=gm、n(l、k)/g1、n(l、k)として定義することができる。(7)における信号は、ベクトル表記
で
であるよう、RTF行列
を使用して公式化することができる。
はセンサ・ベクトルであり、
は発信源ベクトルであり、
は、
になるようにATF行列であり、また、
は、一切の発信源と相関されてない付加的定常雑音である。等価的に、(7)はRTFを使用して公式化することができる。普遍性を失うことなく、n番目の音声発信源のRTF
は、m番目のマイクロホンにおけるn番目の音声成分と、第1のマイクロホンにおけるそのそれぞれの成分との間の比率、即ちhm、n(l、k)=gm、n(l、k)/g1、n(l、k)として定義することができる。(7)における信号は、ベクトル表記
で
であるよう、RTF行列
を使用して公式化することができる。
上式で
は変更された発信源信号である。
は変更された発信源信号である。
アレイ測値z(l、k)が与えられると、Nd個の所望の発信源の混合を予測する必要がある。所望の信号の抽出は、ビームフォーマー
をマイクロホン信号
に適用することによって達成することができる。
を選択してLCMV基準
W(l、k)=arg min{wH(l、k)Φvv(l、k)w(l、k)} s.t HH(l、k)w(l、k)=e(l、k) (9)
を満たすことができると仮定し、上式で
はv(l、k)のパワー・スペクトル密度(PSD:power spectral density)であり、また、
は拘束ベクトルである。
をマイクロホン信号
に適用することによって達成することができる。
を選択してLCMV基準
W(l、k)=arg min{wH(l、k)Φvv(l、k)w(l、k)} s.t HH(l、k)w(l、k)=e(l、k) (9)
を満たすことができると仮定し、上式で
はv(l、k)のパワー・スペクトル密度(PSD:power spectral density)であり、また、
は拘束ベクトルである。
(9)に対する可能解は
である。
である。
(7)及び(8)並びに拘束セットに基づいて、ビームフォーマー出力における所望の信号の成分は、
によって与えられ、即ちビームフォーマーの出力は、第1の(基準)マイクロホンによって測定される所望の信号の成分の混合である。
によって与えられ、即ちビームフォーマーの出力は、第1の(基準)マイクロホンによって測定される所望の信号の成分の混合である。
l番目の一組のRTFから、また、周波数成分k毎に、例えば基準マイクロホンとして定義されているマイクロホンのうちの1つから得られた強度ap(l、k)と相俟った、位相差に基づくアルゴリズムを使用して、入射角がθp(l、k)、p=1、..、P≦M-1である一組の最大M-1個の発信源、及び仰角φp(l、k)を抽出することができる。これらの3項
は、しばしば空間キューと呼ばれている。
は、しばしば空間キューと呼ばれている。
TF-LCMVは、M個のセンサからなるアレイに、反響環境における異なる場所から衝突するM-1個の音声発信源を抽出するための適用可能な方法である。しかしながらTF-LCMVが動作するために必要な条件は、その列が環境中のすべての活動状態の発信源のRTFベクトルであるRTF行列H(l、k)が分かり、且つ、TF-LCMVに利用することができることである。そのためには個々の周波数成分をその発信源スピーカに関連付ける必要がある。
いくつかの方法を使用して、補足情報を必要とすることなく信号に発信源を割り当てることができる。方法の主要なファミリーは、未知の信号又は発信源をそれらの観察された混合から回復するブラインド・発信源分離(BSS:blind source separation)と呼ばれている。周波数領域におけるBSSのキーとなる弱さは、個々の周波数において、混合行列の列ベクトル(BSSによって予測される)が無作為に並べ替えられ、また、この無作為の並べ替えに対する知識なしに、周波数全体にわたって結果を結合し、開示されているように困難になることである。
ピッチ情報によってBSSを補助することができる。しかしながらスピーカの性別にはアプリオリ(a-priory)が要求される。
BSSは、混合行列の特定の列をベクトル中の最大要素に対応する発信源に割り当てる最大-大きさ方法を使用して予測された混合行列の曖昧さを解明している間、周波数領域で使用することができる。しかしながらこの方法は、個々の周波数における最強の成分は、実際、最強の発信源に属することが仮定されているため、発信源のスペクトル分布に大きく依存している。しかしながら異なるスピーカは、異なる周波数で強度ピークを導入することになるため、この条件に遭遇することはまれである。別法としては、特定の時間における活動状態の発信源に関する情報を使用して混合行列における曖昧さが解明されるよう、声アクティビティ検出(VAD:voice activity detection)として同じく知られている発信源アクティビティ検出を使用することも可能である。VADの欠点は、とりわけ多重スピーカ環境では、声一時停止を頑強に検出することができないことである。また、この方法が有効であるのは、比較的長い訓練期間を必要とし、また、この期間の間、動きに敏感である会話に加わるのが一度に一人のスピーカだけである場合である。
TF-LCMVビームフォーマーは、双聴覚キュー・ジェネレータと相俟って、双聴覚音声強化システムのためのその拡張バージョンとしても使用することができる。音響キューを使用して、入力信号中の雑音成分から音声成分が分離される。この技法は、「カクテル・パーティ」環境における全く異なる音声発信源からの信号をクラスター化するために全く異なる観点のキューの使用を示唆する聴覚シーン解析理論1に基づいている。音声分離のために使用することができる原始的分類キューの実例は、周波数帯域全体にわたる共通のオンセット/オフセット、ピッチ(基本周波数)、空間における同じ場所、一時的スペクトル変調、ピッチ及びエネルギー連続性並びに平滑性を含む。しかしながらこの方法の基礎をなしている仮定は、望ましい音声信号のすべての成分がほぼ同じ方向を有していることである。即ち頭影効果の効果を維持するほぼ無響状態であり、これは、頭に関連する伝達関数を使用することによって補償されるべきことが示唆される。これは、反響環境では起こりそうにない。
複数のスピーカが同時に活動状態にあっても、スピーカのスペクトル内容は、ほとんどの時間-周波数点において重畳しないことに留意されたい。これは、W-分離直交性、即ち短くしてW-DOと呼ばれている。これは、時間-周波数領域における音声信号の疎であることによって正当化され得る。この疎であることによれば、特定の時間-周波数点における二人のスピーカの同時アクティビティの確率は極めて低い。言い換えると、複数の同時スピーカの場合、個々の時間-周波数点は、スピーカのうちの一人のスペクトル内容にほとんど対応するようである。
W-DOを使用して、ある程度までW-DOである特定の等級の信号を定義することによってBSSを容易にすることができる。これは、必要な第一次の統計量のみを使用することができ、計算的に経済的である。さらに、発信源がW-DOであり、同じ空間位置を占有しないことを条件として、たったの2つのマイクロホンしか使わずに任意の数の信号発信源を脱混合することができる。しかしながらこの方法は、すべての周波数にわたって、基礎をなしている全く同じ混合行列を仮定している。この仮定は、異なる周波数にわたって予測された混合係数のヒストグラムを使用するための本質である。しかしながらこの仮定は、反響環境では真実を保持せず、無響環境でのみ真実を保持することがしばしばである。多重経路の場合へのこの方法の拡張は、多重経路からの無視し得るエネルギー、又は十分に滑らかな畳込み混合フィルターのいずれかに限定され、したがってヒストグラムが不鮮明になるが、依然として単一のピークを維持している。この仮定も、滑らかなヒストグラムを作り出すには、異なる経路間の差が大きすぎることがしばしばである反響環境では同じく真実を保持していない。
示唆されている解決法は、反響環境で性能を発揮し、不必要な仮定及び拘束に頼る必要はないことが分かっている。この解決法は、アプリオリ情報がなくても、大規模訓練プロセスがなくても、個々の周波数における所与の発信源の減衰及び遅延の予測を、減衰-遅延空間における単一の点に拘束しなくても、単一の発信源の減衰-遅延値の予測値を単一のクラスターの作出しに拘束しなくても、また、混合された音の数を2つに制限しなくても動作することができる。
音声認識エンジンへの発信源分離
ボイス・ユーザ・インタフェース(VUI:Voice user interface)は、人間のスピーカと機械の間のインタフェースである。VUIは、1つ又は複数のマイクロホンを使用して音声信号を受信し、且つ、しばしば音声信号をテキストに転記することによって音声信号をデジタル・シグネチャーに変換し、それを使用してスピーカの意図を推論する。機械は、次に、その機械が設計されているアプリケーションに基づいてスピーカの意図に応答することができる。
ボイス・ユーザ・インタフェース(VUI:Voice user interface)は、人間のスピーカと機械の間のインタフェースである。VUIは、1つ又は複数のマイクロホンを使用して音声信号を受信し、且つ、しばしば音声信号をテキストに転記することによって音声信号をデジタル・シグネチャーに変換し、それを使用してスピーカの意図を推論する。機械は、次に、その機械が設計されているアプリケーションに基づいてスピーカの意図に応答することができる。
VUIのキー構成要素は、デジタル化された音声信号をテキストに変換する自動音声認識エンジン(ASR:automatic speech recognition engine)である。ASRの性能は、テキストが如何に正確に音響音声信号を記述するかは、ASRの要求事項への入力信号の一致に大きく依存していることである。したがってVUIの他の構成要素は、獲得された音声信号をASRに供給する前に、その音声信号を強化するように設計されている。このような構成要素は、いくつかを挙げると、雑音抑制、エコー相殺及び発信源分離であってもよい。
音声強化における極めて重要な構成要素の1つは、いくつかの発信源から到達する音声信号を分離することが意図された発信源分離(SS:source separation)である。2つ以上のマイクロホンのアレイを仮定すると、マイクロホンの各々によって獲得される信号は、環境中のすべての音声信号+雑音及び音楽などの他の妨害の混合である。SSアルゴリズムは、すべてのマイクロホンからの混合信号を取り上げ、それらをそれらの成分に分解する。即ち発信源分離の出力は一組の信号であり、特定のスピーカ、音楽さらには雑音からの音声信号であれ、それぞれ特定の発信源の信号を表す。
発信源分離を改善する必要がますます高くなっている。
図6は、オフライン訓練における声認識チェーンの実例を図解したものである。チェーンは、しばしば、一組のデジタル化された音響信号を提供するマイクロホンのアレイ511を含む。デジタル化される音響信号の数は、アレイ511を構成しているマイクロホンの数に等しい。個々のデジタル化された音響信号は、人間のスピーカであれ、TV、音楽及び雑音などの合成スピーカであれ、マイクロホンのアレイ511の近傍のすべての音響発信源の混合を含む。デジタル化された音響信号は予備処理ステージ512に引き渡される。予備処理ステージ512の目的は、エコー、反響及び雑音などの妨害を除去することによって、デジタル化された音響信号の品質を改善することである。予備処理ステージ512は、通常、デジタル化された音響信号同士の間の統計的関連を採用している多重チャネルアルゴリズムを使用して実施される。予備処理ステージ512の出力は一組の処理済み信号であり、通常、このステージへの入力でデジタライズされた音響信号の数と同じ数の信号を有している。この一組の処理済み信号は、マイクロホンのアレイの近傍の個々の発信源から音響信号を抽出することを目的としている発信源分離(SS)ステージ513へ送られる。言い換えると、SSステージ513は、個々の信号が異なる発信源から受信した音響信号の異なる混合である一組の信号を取り上げ、個々の信号が単一の特定の発信源からの単一の音響信号を主として含むように一組の信号を作り出す。音声信号の発信源分離は、ビーム形成などの発信源の展開の幾何学的考察を使用して、或いは独立成分分析などの音声信号の特性を考察することによって実施することができる。分離される信号の数は、通常、マイクロホンのアレイ511の近傍の活動状態の発信源の数に等しいが、マイクロホンの数より少ない。分離された上記一組の信号は発信源セレクター514へ送られる。発信源セレクターの目的は、その音声信号が認識されるべき音声の関連する発信源を選択することである。発信源セレクター514は、定義済みトリガ・ワードを発音する発信源が選択されるよう、トリガ・ワード・ディテクターを使用することができる。別法としては、発信源セレクター514は、マイクロホンのアレイ511に対する定義済み方向などの、マイクロホンのアレイ511の近傍の発信源の位置を考慮することも可能である。また、発信源セレクター514は、音声信号の定義済み音響シグネチャーを使用して、このシグネチャーと一致する発信源を選択することも可能である。発信源セレクター514の出力は、音声認識エンジン515へ送られる単一の音声信号である。音声認識エンジン515は、デジタル化された音声信号をテキストに変換する。当技術分野で知られている音声認識のための多くの方法が存在しており、それらのほとんどは、音声信号から特徴を抽出し、これらの特徴を定義済み語彙と比較することに基づいている。音声認識エンジン515の主な出力は、入力音声信号と関連付けられるテキスト・ストリング516である。定義済みテキスト518は、オフライン訓練においてマイクロホンに対して発音される。ASRの出力516をこのテキストに対して比較することによって誤差519が計算される。比較517は、単純なワード計数を使用して、又はワードの意味を考慮し、且つ、異なるワードの誤検出に適切に重みを付けるもっと高度に複雑な比較方法を使用して実施することができる。誤差519は、次に、誤差を最小にする値を見出すべく一組のパラメータを修正するためにSS513によって使用される。これは、任意の被監視予測によって、又は最小二乗、確率的勾配、ニューラル・ネットワーク(NN:neural network)及びその変形などの最適化方法によって実施することができる。
図7は、実時間訓練、即ちシステムの正規の動作中の訓練における声認識チェーンの実例を図解したものである。VUIが動作している間、人間のスピーカによって発音された真のテキストは未知であり、また、被監視誤差519も利用不可能である。代替は、話された実テキストに対する参照がない場合、また、ASR出力の信頼性レベルを知ることによってアプリケーションが利益を得ることができる場合に、実時間アプリケーションのために開発された確信スコア521である。例えば確信スコアが低い場合、システムは、より管理された対話がユーザと実施される適切な分岐へ進行することができる。確信スコアを予測するための多くの方法が存在しており、それらのほとんどは、話されたテキストが分かると計算することができる誤差との高い相関を目標にしている。実時間訓練では、確信スコア521は、誤差エスティメータ522によって被監視誤差519に変換される。確信スコアが理論的被監視誤差と高度に相関されている場合、誤差エスティメータは単純な軸変換であってもよい。確信スコア521は0から100までの範囲であり、目的は確信スコア521をもっと高くすることであるが、被監視誤差は0から100までの範囲で、目的は被監視誤差をもっと小さくすることである。estimated_error=100-confidence_scoreの形態の単純な軸変換を誤差エスティメータ522として使用することができる。予測された誤差519を使用して、オフライン訓練の場合と同様にSSのパラメータを訓練することができる。
図8は、典型的なSS513の訓練機構を図解したものである。発信源セパレータ(SS)513は、予備処理ステージ512から一組の混合信号を受信し、分離された信号を発信源セレクター514に供給する。典型的には、音響信号及びとりわけ音声信号の発信源分離は周波数領域で実施される。予備処理ステージ512からの混合された信号は、最初に周波数領域に変換される553。これは、混合された信号を全く同じ長さのセグメントに分割し、結果として得られるセグメント同士の間に重畳期間を持たせることによって実施される。例えばセグメントの長さが1024サンプルであり、また、重畳期間が25%として決定されると、混合された信号の各々は、それぞれ1024サンプルのセグメントに分割される。異なる混合信号からの現在の一組のセグメントはバッチと呼ばれる。セグメントの個々のバッチは、先行するバッチの後に、768個のサンプルを開始する。上記一組の混合信号全体にわたるセグメントは同期化される、即ち同じバッチに属するすべてのセグメントの開始点は全く同じであることに留意されたい。バッチ内におけるセグメントの長さ及び重畳期間は、モデル・パラメータ552から得られる。
脱混合アルゴリズム554は、周波数変換553から到達したセグメントのバッチを分離する。多くの他のアルゴリズムと同様、発信源分離(SS)アルゴリズムは、一組のモデル・パラメータ552が付属する一組の数学モデルを含む。数学モデルは、SSが物理現象、例えば多重経路を取り扱う方法などの操作方法を確立する。上記一組のモデル・パラメータ552は、発信源信号の特定の特徴、これらの信号を受信する自動音声認識エンジン(ASR)のアーキテクチャー、環境の幾何学、さらには人間のスピーカに対するSSの操作を調整する。
セグメントの脱混合されたバッチは逆周波数変換555へ送られ、そこでバッチが変換されて時間領域に戻される。逆周波数変換ステージ555では、周波数変換ステージ553で使用された同じ一組のモデル・パラメータ552が使用される。例えば重畳期間を使用して、結果として得られたバッチからの時間領域における出力信号が再構築される。これは、例えば重畳加算方法を使用して実施され、この重畳加算方法では、逆周波数変換の後に、恐らくは、重畳領域全体にわたって0と1の間の範囲である適切な重み付け関数を使用して重畳化し、且つ、重畳された時間間隔を追加することによって、結果として得られる出力信号が再構築され、したがって総エネルギーが節約される。言い換えると、前のバッチからの重畳セグメントがフェード・アウトし、一方、後のバッチからの重畳セグメントがフェード・インする。逆周波数変換ブロックの出力は発信源セレクター514へ送られる。
モデル・パラメータ552は、周波数変換ブロック553、脱混合ブロック554及び逆周波数変換ブロック555によって使用される一組のパラメータである。周波数変換553によって実施される、混合された信号の全く同じ長さのセグメントへの分割は、実時間クロックなどの刻時機構によって歩調が整調される。個々の歩調で、周波数変換ブロック553、脱混合ブロック554及び逆周波数変換ブロック555の各々は、モデル・パラメータ552からパラメータを抽出する。これらのパラメータは、次に、周波数変換ブロック553、脱混合ブロック554及び逆周波数変換ブロック555の中で実行される数学的モデルの中で置換される。
コレクター551は、誤差エスティメータからの誤差519を小さくすることを目的として上記一組のモデル・パラメータ552を最適化する。コレクター551は、誤差519及び現在の一組のモデル・パラメータ552を受け取り、また、修正された一組のモデル・パラメータ552を出力する。上記一組のパラメータの修正は、アプリオリ(オフライン)で、又はVUIの動作中(実時間)に実施することができる。オフライン訓練では、上記一組のモデル・パラメータ552を修正するために使用される誤差519は、マイクロホンに対して発音される定義済みテキストを使用し、ASRの出力をこのテキストに対して比較して抽出される。実時間訓練では、誤差519はASRの確信スコアから抽出される。
次に、誤差を最小にする値を見出すために、誤差を使用して、上記一組のパラメータが修正される。これは、任意の被監視予測又は最適化方法、好ましくは黄金分割探索、格子探索及びNelder-Meadなどの導関数がない方法によって実施することができる。
Nelder-Mead法(同じく滑降シンプレックス法、アメーバ法又はポリトープ法)は、多次元空間における目的関数の最小又は最大を見出すために使用される、広く適用されている数値方法である。それは直接探索方法であり(関数比較に基づく)、また、導関数を知り得ない非線形最適化問題にしばしば適用される。
Nelder-Meadは、誤差519の極小をいくつかのパラメータの関数として反復して見出す。方法は、シンプレックス(N次元における一般化された三角形)を決定する一組の値で開始する。極小はシンプレックス内に存在することが仮定されている。個々の反復で、シンプレックスの頂点における誤差が計算される。最大誤差を有する頂点が新しい頂点に置き替えられ、したがってシンプレックスの体積が小さくなる。これは、シンプレックス体積が定義済み体積より小さくなり、また、最適値が頂点のうちの1つになるまで反復する。このプロセスはコレクター551によって実施される。
黄金分割探索は、その中に最小が存在していることが分かる値の範囲を連続的に狭くすることによって誤差519の最小を見出す。黄金分割探索には、パラメータの関数としての厳格に単峰形の誤差が必要である。範囲を狭くする操作はコレクター551によって実施される。
黄金分割探索は、その中に極値が存在していることが分かる値の範囲を連続的に狭くすることによって厳格に単峰形の関数の極値(最小又は最大)を見出すための技法である(www.wikipedia.org)。
格子探索は、最適化されるべきパラメータのうちの1つ又は複数と関連付けられた一組の値を通して反復する。複数のパラメータが最適化される場合、その一組の中の個々の値は、その長さがパラメータの数に等しいベクトルである。値毎に誤差519が計算され、最小誤差に対応する値が選択される。上記一組の値を通した反復はコレクター551によって実施される。
格子探索-ハイパーパラメータ最適化を実施する伝統的な方法は、格子探索即ちパラメータ掃引であり、これは、単純に、学習アルゴリズムのハイパーパラメータ空間の手動で規定された部分集合を通した網羅的探索である。格子探索アルゴリズムは、典型的には訓練セットに対する相互検証によって、或いはヘルド-アウト検証セットに対する評価によって判断される何らかの性能メトリックによって導かれなければならない。機械学習のパラメータ空間は、特定のパラメータのための実数値空間又は非有界値空間を含むことができるため、格子探索を適用する前に、手動設定境界及び打切りが必要であり得る(www.wikipedia.org)。
すべての最適化方法には、分離された音響信号の同じ一組を使用した誤差519の連続計算が必要である。これは時間を消費するプロセスであり、したがって連続的には実施されず、誤差519(これは連続的に計算される)が何らかの定義済み閾値、例えば10%誤差を超えた場合にのみ実施され得る。これが生じると、2つの手法を取ることができる。
1つの手法は、並列スレッド(thread)又は多重コアを使用して、システムの正規の操作と並行して最適化を操作することである。即ちブロック513、514、515、522がシステムの正規の操作のタスクと並行して実施する1つ又は複数の並列タスクが存在している。並列タスクでは、長さ1~2秒の混合信号のバッチが予備処理512から獲得され、反復して分離され513、また、異なる複数組のモデル・パラメータ552を使用して解釈される514、515。誤差519は、このようなサイクル毎に計算される。個々のサイクルで、最適化方法に従ってコレクター551によって上記一組のモデル・パラメータが選択される。
第2の手法は、部屋に音声が存在しない場合に最適化を操作することである。人間の音声がない期間は、声アクティビティ検出(VAD)アルゴリズムを使用して検出することができる。これらの期間を使用して、第1の手法の場合と同じ方法でモデル・パラメータ552が最適化され、並列スレッド又は多重コアの必要性を節約する。
552におけるパラメータ毎に適切な最適化方法を選択しなければならない。方法のうちのいくつかは単一のパラメータに適用され、また、いくつかはパラメータのグループに適用される。以下のテキストは、音声認識の性能に影響を及ぼすいくつかのパラメータを示唆している。また、パラメータの特性に基づく最適化方法が示唆されている。
セグメント・パラメータの長さ
セグメント・パラメータの長さはFFT/IFFTに関連付けられる。典型的には、分離された音素の特徴を使用するASRには、20ミリ秒程度の短いセグメントが必要であり、一方、結果として生じる一連の音素の特徴を使用するASRは、100~200ミリ秒程度のセグメントを使用する。一方、セグメントの長さは、部屋の反響時間などのシナリオによって影響される。セグメント長さは、200~500ミリ秒程度であり得る反響時間程度でなければならない。セグメントの長さのためのスイート・ポイントは存在しないため、この値は、そのシナリオ及びASRに対して最適化しなければならない。典型的な値は、サンプルに関しては100~500ミリ秒である。例えば8kHzのサンプリング・レートは、800~4000サンプルのセグメント長さを暗に意味している。これは連続パラメータである。
セグメント・パラメータの長さはFFT/IFFTに関連付けられる。典型的には、分離された音素の特徴を使用するASRには、20ミリ秒程度の短いセグメントが必要であり、一方、結果として生じる一連の音素の特徴を使用するASRは、100~200ミリ秒程度のセグメントを使用する。一方、セグメントの長さは、部屋の反響時間などのシナリオによって影響される。セグメント長さは、200~500ミリ秒程度であり得る反響時間程度でなければならない。セグメントの長さのためのスイート・ポイントは存在しないため、この値は、そのシナリオ及びASRに対して最適化しなければならない。典型的な値は、サンプルに関しては100~500ミリ秒である。例えば8kHzのサンプリング・レートは、800~4000サンプルのセグメント長さを暗に意味している。これは連続パラメータである。
このパラメータの最適化は、黄金分割探索、又は重畳期間と相俟ったNelder-Meadなどの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、最小及び最大可能長さ、例えば10ミリ秒乃至500mSec、及び誤差関数519である。出力は、誤差関数519を最小にするセグメントの長さである。重畳期間と共にNelder-Meadを使用する場合、入力は、セグメント長さ及び重畳期間の一組の3つの2項、例えば(10ミリ秒、0%)、(500ミリ秒、10%)及び(500ミリ秒、80%)、及び誤差関数519であり、また、出力は、セグメントの最適長さ及び最適重畳期間である。
重畳期間
重畳期間パラメータはFFT/IFFTに関連付けられる。重畳期間を使用して、セグメント化による音素の見落としが回避される。即ち結果として得られるセグメント同士の間で音素が分割される。セグメントの長さのため、重畳期間はASRが採用する特徴で決まる。典型的な範囲は、セグメントの長さの0~90%である。これは連続パラメータである。
重畳期間パラメータはFFT/IFFTに関連付けられる。重畳期間を使用して、セグメント化による音素の見落としが回避される。即ち結果として得られるセグメント同士の間で音素が分割される。セグメントの長さのため、重畳期間はASRが採用する特徴で決まる。典型的な範囲は、セグメントの長さの0~90%である。これは連続パラメータである。
このパラメータの最適化は、黄金分割探索、セグメントの長さを有するNelder-meadなどの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、最小及び最大可能重畳期間、例えば0%乃至90%、及び誤差関数519である。出力は、誤差関数519を最小にする重畳期間である。
ウィンドウ。ウィンドウ・パラメータはFFT/IFFTに関連付けられる。周波数変換553は、しばしばウィンドウ処理を使用してセグメント化の効果を軽減する。Kaiser及びChebyshevなどのいくつかのウィンドウがパラメータ化されている。これは、ウィンドウのパラメータを変更することによってウィンドウの効果を制御することができることを意味している。典型的な範囲はウィンドウのタイプで決まる。これは連続パラメータである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、ウィンドウ・タイプで決まる、ウィンドウのパラメータの最小値及び最大値、及び誤差関数519である。例えばKaiserウィンドウの場合、最小値及び最大値は(0、30)である。出力は最適ウィンドウ・パラメータである。
サンプリング・レート
サンプリング・レート・パラメータはFFT/IFFTに関連付けられる。サンプリング・レートは、音声認識の性能に影響を及ぼす臨界パラメータのうちの1つである。例えば16kHz未満のサンプリング・レートに対して貧弱な結果を立証しているASRが存在している。他のASRは、4kHz又は8kHzであっても良好に動作することができる。典型的には、このパラメータはASRが選択されると最適化される。典型的な範囲は、4kHz、8kHz、16kHz、44.1kHz、48kHzである。このパラメータは離散パラメータである。このパラメータの最適化は、格子探索などの様々な最適化方法を使用して実施することができる。アルゴリズムへの入力は、格子探索が実施される値である例えば(4、8、16、44.1、48)kHzのサンプリング・レート、及び誤差関数519である。出力は最適サンプリング・レートである。
サンプリング・レート・パラメータはFFT/IFFTに関連付けられる。サンプリング・レートは、音声認識の性能に影響を及ぼす臨界パラメータのうちの1つである。例えば16kHz未満のサンプリング・レートに対して貧弱な結果を立証しているASRが存在している。他のASRは、4kHz又は8kHzであっても良好に動作することができる。典型的には、このパラメータはASRが選択されると最適化される。典型的な範囲は、4kHz、8kHz、16kHz、44.1kHz、48kHzである。このパラメータは離散パラメータである。このパラメータの最適化は、格子探索などの様々な最適化方法を使用して実施することができる。アルゴリズムへの入力は、格子探索が実施される値である例えば(4、8、16、44.1、48)kHzのサンプリング・レート、及び誤差関数519である。出力は最適サンプリング・レートである。
フィルタリング
フィルタリング・パラメータは脱混合に関連付けられる。いくつかのASRは、制限された周波数を表す特徴を使用する。したがって発信源分離513後における分離された信号のフィルタリングは、ASRによって使用される特定の特徴を協調することができ、それによりその性能を改善することができる。さらに、ASRによって使用されないスペクトル成分をフィルタリング除去することにより、分離された信号の信号対雑音比(SNR:signal to noise ratio)を改善することができ、延いてはASRの性能を改善することができる。典型的な範囲は4~8kHzである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。このパラメータは連続的である。黄金分割探索を適用する場合、アルゴリズムへの入力は、誤差関数519及び遮断周波数の分割の初期推測、例えば1000Hz及び0.5Xサンプリング・レートである。出力は最適フィルタリング・パラメータである。
フィルタリング・パラメータは脱混合に関連付けられる。いくつかのASRは、制限された周波数を表す特徴を使用する。したがって発信源分離513後における分離された信号のフィルタリングは、ASRによって使用される特定の特徴を協調することができ、それによりその性能を改善することができる。さらに、ASRによって使用されないスペクトル成分をフィルタリング除去することにより、分離された信号の信号対雑音比(SNR:signal to noise ratio)を改善することができ、延いてはASRの性能を改善することができる。典型的な範囲は4~8kHzである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。このパラメータは連続的である。黄金分割探索を適用する場合、アルゴリズムへの入力は、誤差関数519及び遮断周波数の分割の初期推測、例えば1000Hz及び0.5Xサンプリング・レートである。出力は最適フィルタリング・パラメータである。
マイクロホン毎の重み付け係数。マイクロホン毎の重み付け係数は脱混合に関連付けられる。理論的には、特定のアレイ上の異なるマイクロホンの感度は、最大3dBまで同様でなければならない。しかしながら実際的には、異なるマイクロホンの感度のスパンはもっと広いことがあり得る。さらに、マイクロホンの感度は、埃及び湿気のため、時間によって変化し得る。典型的な範囲は0~10dBである。これは連続パラメータである。このパラメータの最適化は、マイクロホン毎に重み付け係数を有する、或いは重み付け係数を有さないNelder-meadなどの様々な最適化方法を使用して実施することができる。Nelder-mead法を適用する場合、アルゴリズムへの入力は、誤差関数519及びシンプレックスの頂点の初期推測である。例えば個々のn項のサイズは、マイクロホンの数-N:(1、0、..、0、0)、(0、0、…、0、1)及び(1/N、1/N、…、1/N)である。出力はマイクロホン毎の最適重みである。
マイクロホンの数
マイクロホンの数は脱混合に関連付けられる。マイクロホンの数は、一方では分離することができる発信源の数に影響を及ぼし、また、他方では複雑性及び数値的精度に影響を及ぼす。また、実際的な実験によれば、マイクロホンが多すぎると、出力SNRが小さくなることがある。典型的な範囲は4~8である。これは離散パラメータである。このパラメータの最適化は、格子探索、又はマイクロホン毎に重み付け係数を有するNelder-meadなどの様々な最適化方法を使用して実施することができる。格子探索を適用する場合、アルゴリズムへの入力は、誤差関数519及び探索が実施されるマイクロホンの数、例えば4個、5個、6個、7個、8個のマイクロホンである。出力は最適マイクロホン数である。
マイクロホンの数は脱混合に関連付けられる。マイクロホンの数は、一方では分離することができる発信源の数に影響を及ぼし、また、他方では複雑性及び数値的精度に影響を及ぼす。また、実際的な実験によれば、マイクロホンが多すぎると、出力SNRが小さくなることがある。典型的な範囲は4~8である。これは離散パラメータである。このパラメータの最適化は、格子探索、又はマイクロホン毎に重み付け係数を有するNelder-meadなどの様々な最適化方法を使用して実施することができる。格子探索を適用する場合、アルゴリズムへの入力は、誤差関数519及び探索が実施されるマイクロホンの数、例えば4個、5個、6個、7個、8個のマイクロホンである。出力は最適マイクロホン数である。
図9は方法600を図解したものである。
方法600は、発信源選択プロセスの先行する出力に対して適用された音声認識プロセスに関連した誤差を受け取るか、或いは計算するステップ610で開始することができる。
ステップ610には、誤差に基づいて発信源分離プロセスの少なくとも1つのパラメータを改訂するステップ620を後続させることができる。
ステップ620には、複数の発信源から発信され、且つ、マイクロホンのアレイによって検出される可聴信号を表す信号を受信するステップ630を後続させることができる。
ステップ630には、発信源分離信号を提供するために、複数の発信源の異なる発信源から発信された可聴信号を分離し、且つ、発信源分離信号を発信源選択プロセスに送信するための発信源分離プロセスを実施するステップ640を後続させることができる。
ステップ640にはステップ630を後続させることができる。
ステップ630及び640の1回又は複数回の反復毎に、ステップ610(図示せず)を後続させることができ、ASRの先行する出力を提供するために、ステップ640の出力を発信源選択プロセス及びASRに供給することができる。
ステップ630及び640の初期反復は、誤差を受け取ることなく実行することができることに留意されたい。
ステップ640は、周波数変換(それには限定されないがFFTなど)を適用するステップ、脱混合するステップ、及び逆周波数変換(それには限定されないがIFFTなど)を適用するステップを含むことができる。
ステップ620は、以下のステップのうちの少なくとも1つを含むことができる。
a.周波数変換の少なくとも1つのパラメータを改訂するステップ
b.逆周波数変換の少なくとも1つのパラメータを改訂するステップ
c.脱混合の少なくとも1つのパラメータを改訂するステップ
d.周波数変換が適用される可聴信号を表す信号のセグメントの長さを改訂するステップ
e.可聴信号を表す信号の連続するセグメントの間の重畳を改訂するステップであって、セグメント毎を基本として周波数変換が適用される、ステップ
f.周波数変換のサンプリング・レートを改訂するステップ
g.周波数変換によって適用されるウィンドウのウィンドウ処理パラメータを改訂するステップ
h.脱混合中に適用されるフィルターの遮断周波数を改訂するステップ
i.脱混合中にマイクロホンのアレイのうちの個々のマイクロホンに適用される重みを改訂するステップ
j.マイクロホンのアレイのマイクロホンの数を改訂するステップ
k.黄金分割探索を使用して、少なくとも1つのパラメータの被改訂値を決定するステップ
l.Nedler Meadアルゴリズムを使用して、少なくとも1つのパラメータの被改訂値を決定するステップ
m.格子探索を使用して、少なくとも1つのパラメータの被改訂値を決定するステップ
n.誤差と少なくとも1つのパラメータの間の定義済みマッピングに基づいて、少なくとも1つのパラメータのパラメータの被改訂値を決定するステップ
o.誤差と少なくとも1つのパラメータの間のマッピングを実時間で決定するステップ
a.周波数変換の少なくとも1つのパラメータを改訂するステップ
b.逆周波数変換の少なくとも1つのパラメータを改訂するステップ
c.脱混合の少なくとも1つのパラメータを改訂するステップ
d.周波数変換が適用される可聴信号を表す信号のセグメントの長さを改訂するステップ
e.可聴信号を表す信号の連続するセグメントの間の重畳を改訂するステップであって、セグメント毎を基本として周波数変換が適用される、ステップ
f.周波数変換のサンプリング・レートを改訂するステップ
g.周波数変換によって適用されるウィンドウのウィンドウ処理パラメータを改訂するステップ
h.脱混合中に適用されるフィルターの遮断周波数を改訂するステップ
i.脱混合中にマイクロホンのアレイのうちの個々のマイクロホンに適用される重みを改訂するステップ
j.マイクロホンのアレイのマイクロホンの数を改訂するステップ
k.黄金分割探索を使用して、少なくとも1つのパラメータの被改訂値を決定するステップ
l.Nedler Meadアルゴリズムを使用して、少なくとも1つのパラメータの被改訂値を決定するステップ
m.格子探索を使用して、少なくとも1つのパラメータの被改訂値を決定するステップ
n.誤差と少なくとも1つのパラメータの間の定義済みマッピングに基づいて、少なくとも1つのパラメータのパラメータの被改訂値を決定するステップ
o.誤差と少なくとも1つのパラメータの間のマッピングを実時間で決定するステップ
以上、本明細書において、本発明について、本発明の実施例の特定の実例を参照して説明した。しかしながら添付の特許請求の範囲に示されている本発明のより広義の精神及び範囲を逸脱することなく、様々な修正及び変更をそれらに加えることができることは明らかであろう。
さらに、説明及び特許請求の範囲における「前方」、「後方」、「頂部」、「底部」、「上方」、「下方」、等々という用語は、それらが使用されている場合、説明を目的として使用されており、必ずしも永久的な相対位置を説明するためのものではない。そのように使用されている用語は、本明細書において説明されている本発明の実施例が、例えば図解されている配向、さもなければ本明細書において説明されている配向以外の配向で動作することができるよう、適切な状況の下では交換可能であることが理解される。
同じ機能性を達成するための構成要素の配置は、すべて、所望の機能性が達成されるよう、事実上「関連付けられて」いる。したがって特定の機能性を達成するために組み合わされた本明細書における任意の2つの構成要素は、アーキテクチャー又は中間構成要素に無関係に所望の機能性が達成されるよう、互いに「関連付けられている」ものとして捉えることができる。同様に、そのように関連付けられた任意の2つの構成要素は、所望の機能性を達成するために互いに「動作可能に接続」されている、又は「動作可能に結合」されているものとして同じく捉えることができる。
さらに、上で説明した操作同士の間の境界は単に例証にすぎないことは当業者には認識されよう。複数の操作を単一の操作に組み合わせることができ、単一の操作を追加操作の中に分散させることができ、また、操作は、少なくとも部分的に時間を重畳させて実行することができる。さらに、代替実施例は、特定の操作の複数の例を含むことができ、また、操作の順序は、様々な他の実施例では変更することができる。
しかしながら他の変更態様、変形形態及び代替も同じく可能である。したがって本明細書及び図面は、制限的な意味ではなく、例証と見なされるべきである。
「Xであってもよい」という語句は、条件Xが満たされ得ることを示している。また、この語句は、条件Xが満たされなくてもよいことを示唆している。例えば特定の構成要素を含んでいるものとしてのシステムに対する参照は、すべて、システムがその特定の構成要素を含んでいないシナリオを同じく包含しているものとする。例えば特定のステップを含んでいるものとしての方法に対する参照は、すべて、方法がその特定の構成要素を含んでいないシナリオを同じく包含しているものとする。さらに別の実例の場合、特定の操作を実施するように構成されるシステムに対する参照は、すべて、システムがその特定の操作を実施するようには構成されないシナリオを同じく包含しているものとする。
「含む」、「備える」、「有する」、「からなる」及び「から本質的になる」という用語は、交換可能な方法で使用されている。例えば方法は、すべて、図及び/又は本明細書に含まれている少なくともステップを含むことができ、図及び/又は本明細書に含まれているステップのみを含むことも可能である。システムに対しても同様である。
システムは、マイクロホンのアレイ、記憶装置、及びデジタル信号プロセッサ、FPGA、ASIC、上で言及した任意の方法を実行するようにプログラムされた汎用プロセッサ、等々などの1つ又は複数のハードウェア・プロセッサを含むことができる。システムはマイクロホンのアレイを含んでいなくてもよいが、マイクロホンのアレイによって生成される音信号から供給され得る。
例証を単純にし、且つ、分かりやすくするために、図に示されている要素は必ずしもスケール通りに描かれていないことは認識されよう。例えば要素のうちのいくつかの寸法は、分かりやすくするために他の要素に対して誇張され得る。さらに、適切であると見なされる場合、参照数表示は、対応する要素、又は類似の要素であることを示すために、図の間で繰り返され得る。
以上、本明細書において、本発明について、本発明の実施例の特定の実例を参照して説明した。しかしながら添付の特許請求の範囲に示されている本発明のより広義の精神及び範囲を逸脱することなく、様々な修正及び変更をそれらに加えることができることは明らかであろう。
さらに、説明及び特許請求の範囲における「前方」、「後方」、「頂部」、「底部」、「上方」、「下方」、等々という用語は、それらが使用されている場合、説明を目的として使用されており、必ずしも永久的な相対位置を説明するためのものではない。そのように使用されている用語は、本明細書において説明されている本発明の実施例が、例えば図解されている配向、さもなければ本明細書において説明されている配向以外の配向で動作することができるよう、適切な状況の下では交換可能であることが理解される。
論理ブロック同士の間の境界は単に例証にすぎないこと、また、代替実施例は、論理ブロック又は回路素子を統合し得ること、或いは様々な論理ブロック又は回路素子に機能性の代替分解を強制し得ることは当業者には認識されよう。したがって本明細書において描かれているアーキテクチャーは単に例示的なものにすぎないこと、また、実際、同じ機能性を達成する多くの他のアーキテクチャーを実現することができることを理解されたい。
同じ機能性を達成するための構成要素の配置は、すべて、所望の機能性が達成されるよう、事実上「関連付けられて」いる。したがって特定の機能性を達成するために組み合わされた本明細書における任意の2つの構成要素は、アーキテクチャー又は中間構成要素に無関係に所望の機能性が達成されるよう、互いに「関連付けられている」ものとして捉えることができる。同様に、そのように関連付けられた任意の2つの構成要素は、所望の機能性を達成するために互いに「動作可能に接続」されている、又は「動作可能に結合」されているものとして同じく捉えることができる。
さらに、上で説明した操作同士の間の境界は単に例証にすぎないことは当業者には認識されよう。複数の操作を単一の操作に組み合わせることができ、単一の操作を追加操作の中に分散させることができ、また、操作は、少なくとも部分的に時間を重畳させて実行することができる。さらに、代替実施例は、特定の操作の複数の例を含むことができ、また、操作の順序は、様々な他の実施例では変更することができる。
また、例えば一実施例では、例証されている実例は、単一の集積回路上又は同じデバイス内に配置された回路機構として実現することも可能である。別法としては、実例は、適切な方法で互いに相互接続された任意の数の個別の集積回路又は個別のデバイスとして実現することも可能である。
また、例えば実例又はその一部は、物理的回路機構のソフト即ちコード表現として、或いは任意の適切なタイプのハードウェア記述言語におけるような、物理的回路機構に変換することができる論理表現として実現することも可能である。
また、本発明は、非プログラマブル・ハードウェアの中で実現される物理的デバイス又はユニットに限定されず、適切なプログラム・コードに従って動作させることによって所望のデバイス機能を実施することができる、本出願においては一般に「コンピュータ・システム」で表されている、メインフレーム、ミニコンピュータ、サーバ、ワークステーション、パーソナル・コンピュータ、ノートパッド、パーソナル・デジタル・アシスタント、電子ゲーム、自動車及び他の埋込みシステム、セル電話及び様々な他の無線デバイスなどのプログラマブル・デバイス又はユニットの中にも同じく適用され得る。
しかしながら他の変更態様、変形形態及び代替も同じく可能である。したがって本明細書及び図面は、制限的な意味ではなく、例証と見なされるべきである。
特許請求の範囲では、括弧の間に置かれた参照符号は、すべて、特許請求の範囲を制限するものと解釈してはならない。「備えている」という語は、特許請求の範囲に挙げられている要素又はステップ以外の他の要素又はステップの存在を排他するものではない。さらに、本明細書において使用されている不特定要素の単数形の表現は、1つとして、又は複数として定義されている。また、特許請求の範囲における「少なくとも1つ」及び「1つ又は複数」などの導入節の使用は、同じ特許請求が導入節「1つ又は複数」或いは「少なくとも1つ」、及び不特定要素の単数形の表現を含んでいる場合であっても、不特定要素の単数形の表現による別の特許請求要素の導入が、このような導入される特許請求要素を含む何らかの特定の特許請求を、1つのこのような要素しか含んでいない発明に限定することを暗に意味するものと解釈してはならない。特定の要素をさす表現の使用についても同様である。他に特に言及されていない限り、「第1の」及び「第2の」などの用語は、このような用語が説明している要素同士の間を恣意的に区別するために任意に使用されている。したがってこれらの用語には、このような要素の一時的又は他の順位付けを示すことは必ずしも意図されておらず、特定の手段が相互に異なる特許請求に記載されている、という単なる事実は、これらの手段の組合せを有利に使用することができないことを示しているわけではない。
また、本発明は、コンピュータ・システムなどのプログラマブル装置上で走ると、本発明による方法のステップを実施するか、或いは本発明によるデバイス又はシステムの機能のプログラマブル装置による実施を可能にするためのコード部分を少なくとも含む、コンピュータ・システム上で走らせるためのコンピュータ・プログラムの中で実現することも可能である。コンピュータ・プログラムは、記憶システムにディスク・ドライブをディスク・ドライブ・グループに割り振らせることができる。
コンピュータ・プログラムは、特定のアプリケーション・プログラム及び/又はオペレーティング・システムなどの命令のリストである。コンピュータ・プログラムは、例えばサブルーチン、機能、手順、目的方法、目的実施態様、実行可能アプリケーション、アプレット、サーブレット、ソース・コード、目的コード、共用ライブラリ/ダイナミック・ロード・ライブラリ、及び/又はコンピュータ・システム上で実行するために設計された命令の他のシーケンスのうちの1つ又は複数を含むことができる。
コンピュータ・プログラムは、非一時的コンピュータ可読媒体上に内部的に記憶することができる。コンピュータ・プログラムのすべて又は一部は、情報処理システムに永久的に、除去可能に、又は遠隔的に結合されたコンピュータ可読媒体上に提供することができる。コンピュータ可読媒体は、例えば非制限で任意の数の、ディスク及びテープ記憶媒体を含む磁気記憶媒体;コンパクト・ディスク媒体(例えばCD-ROM、CD-R、等々)及びデジタル・ビデオ・ディスク記憶媒体などの光記憶媒体;FLASHメモリ、EEPROM、EPROM、ROMなどの半導体に基づく記憶装置を含む不揮発性メモリ記憶媒体;強磁性デジタル・メモリ;MRAM;レジスタ、バッファ又はキャッシュ、主記憶装置、RAM、等々を含む揮発性記憶媒体を含むことができる。コンピュータ・プロセスは、典型的には、実行(ランニング)プログラム又はプログラムの一部、現在のプログラム値及び状態情報、及びプロセスの実行を管理するためにオペレーティング・システムによって使用される資源を含む。オペレーティング・システム(OS:operating system)は、コンピュータの資源の共有を管理し、また、これらの資源にアクセスするために使用されるインタフェースをプログラマーに提供するソフトウェアである。オペレーティング・システムはシステム・データ及びユーザ入力を処理し、また、システムのユーザ及びプログラムに対するサービスとしてタスク及び内部システム資源を割り振り、且つ、管理することによって応答する。コンピュータ・システムは、例えば少なくとも1つの処理装置、関連するメモリ及び多くの入力/出力(I/O)デバイスを含むことができるコンピュータ・プログラムを実行する場合、コンピュータ・システムは、コンピュータ・プログラムに従って情報を処理し、且つ、結果として得られる出力情報をI/Oデバイスを介して生成する。
本特許出願に関連するシステムは、すべて、少なくとも1つのハードウェア構成要素を含む。
以上、本明細書において、本発明の特定の特徴について例証し、且つ、説明したが、当業者には多くの修正、置換、変更及び等価物が思い浮かぶことであろう。したがって添付の特許請求の範囲には、本発明の真の精神の範疇としてすべてのこのような修正及び変更を包含することが意図されていることを理解されたい。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2019/051933 WO2020183219A1 (en) | 2019-03-10 | 2019-03-10 | Speech enhancement using clustering of cues |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022533300A JP2022533300A (ja) | 2022-07-22 |
JPWO2020183219A5 true JPWO2020183219A5 (ja) | 2024-05-17 |
JP7564117B2 JP7564117B2 (ja) | 2024-10-08 |
Family
ID=72427785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021553756A Active JP7564117B2 (ja) | 2019-03-10 | 2019-03-10 | キューのクラスター化を使用した音声強化 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3939035A4 (ja) |
JP (1) | JP7564117B2 (ja) |
KR (1) | KR20210137146A (ja) |
CN (1) | CN113795881A (ja) |
WO (1) | WO2020183219A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113795881A (zh) * | 2019-03-10 | 2021-12-14 | 卡多姆科技有限公司 | 使用线索的聚类的语音增强 |
CN113473373B (zh) * | 2021-06-08 | 2022-11-01 | 华侨大学 | 一种uwb室内定位方法 |
CN115910047B (zh) * | 2023-01-06 | 2023-05-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据处理方法、模型训练方法、关键词检测方法及设备 |
CN117668499B (zh) * | 2024-01-31 | 2024-05-14 | 平潭综合实验区智慧岛投资发展有限公司 | 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006059806A1 (ja) | 2004-12-03 | 2006-06-08 | Honda Motor Co., Ltd. | 音声認識装置 |
CA2621940C (en) * | 2005-09-09 | 2014-07-29 | Mcmaster University | Method and device for binaural signal enhancement |
JP2008064892A (ja) * | 2006-09-05 | 2008-03-21 | National Institute Of Advanced Industrial & Technology | 音声認識方法およびそれを用いた音声認識装置 |
JP4891801B2 (ja) | 2007-02-20 | 2012-03-07 | 日本電信電話株式会社 | 多信号強調装置、方法、プログラム及びその記録媒体 |
US8498863B2 (en) * | 2009-09-04 | 2013-07-30 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
CN202534346U (zh) | 2010-11-25 | 2012-11-14 | 歌尔声学股份有限公司 | 语音增强装置及头戴式降噪通信耳机 |
JP2013201525A (ja) | 2012-03-23 | 2013-10-03 | Mitsubishi Electric Corp | ビームフォーミング処理装置 |
US8880395B2 (en) * | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
EP2738762A1 (en) * | 2012-11-30 | 2014-06-04 | Aalto-Korkeakoulusäätiö | Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence |
US9460732B2 (en) * | 2013-02-13 | 2016-10-04 | Analog Devices, Inc. | Signal source separation |
EP3129795A4 (en) * | 2014-04-09 | 2019-01-16 | Xmos Inc. | METHOD AND SYSTEMS FOR IMPROVED MEASUREMENT, UNIT AND PARAMETER ESTIMATION, AND MEASUREMENT AND REDUCTION OF A WIDE-OUT EFFECT ON SOURCE SIGNAL SEPARATION |
US20170208415A1 (en) * | 2014-07-23 | 2017-07-20 | Pcms Holdings, Inc. | System and method for determining audio context in augmented-reality applications |
US9324320B1 (en) * | 2014-10-02 | 2016-04-26 | Microsoft Technology Licensing, Llc | Neural network-based speech processing |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10535361B2 (en) * | 2017-10-19 | 2020-01-14 | Kardome Technology Ltd. | Speech enhancement using clustering of cues |
CN113795881A (zh) * | 2019-03-10 | 2021-12-14 | 卡多姆科技有限公司 | 使用线索的聚类的语音增强 |
-
2019
- 2019-03-10 CN CN201980096208.9A patent/CN113795881A/zh active Pending
- 2019-03-10 JP JP2021553756A patent/JP7564117B2/ja active Active
- 2019-03-10 KR KR1020217032319A patent/KR20210137146A/ko not_active Application Discontinuation
- 2019-03-10 WO PCT/IB2019/051933 patent/WO2020183219A1/en unknown
- 2019-03-10 EP EP19918690.9A patent/EP3939035A4/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694710B2 (en) | Multi-stream target-speech detection and channel fusion | |
US10535361B2 (en) | Speech enhancement using clustering of cues | |
Erdogan et al. | Improved MVDR beamforming using single-channel mask prediction networks. | |
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
EP3482392B1 (en) | Method and system for automatically diarising a sound recording | |
JP7564117B2 (ja) | キューのクラスター化を使用した音声強化 | |
Chazan et al. | Multi-microphone speaker separation based on deep DOA estimation | |
Liu et al. | Neural network based time-frequency masking and steering vector estimation for two-channel MVDR beamforming | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
Martinez et al. | DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters | |
Chakraborty et al. | Sound-model-based acoustic source localization using distributed microphone arrays | |
Rodemann et al. | Real-time sound localization with a binaural head-system using a biologically-inspired cue-triple mapping | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
JP2016143042A (ja) | 雑音除去装置及び雑音除去プログラム | |
Pertilä et al. | Multichannel source activity detection, localization, and tracking | |
EP2745293B1 (en) | Signal noise attenuation | |
WO2020064089A1 (en) | Determining a room response of a desired source in a reverberant environment | |
JPWO2020183219A5 (ja) | ||
Venkatesan et al. | Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest | |
US12148441B2 (en) | Source separation for automatic speech recognition (ASR) | |
Malek et al. | Speaker extraction using LCMV beamformer with DNN-based SPP and RTF identification scheme | |
Ma et al. | A hearing-inspired approach for distant-microphone speech recognition in the presence of multiple sources | |
Venkatesan et al. | Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker | |
EP4171064A1 (en) | Spatial dependent feature extraction in neural network based audio processing | |
Tao et al. | Single Source Zone Detection in the Spherical Harmonic Domain for Multisource Localization |