JP2015070321A - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法、及び音声処理プログラム Download PDFInfo
- Publication number
- JP2015070321A JP2015070321A JP2013200391A JP2013200391A JP2015070321A JP 2015070321 A JP2015070321 A JP 2015070321A JP 2013200391 A JP2013200391 A JP 2013200391A JP 2013200391 A JP2013200391 A JP 2013200391A JP 2015070321 A JP2015070321 A JP 2015070321A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- sound source
- reverberation
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 157
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000001629 suppression Effects 0.000 claims abstract description 125
- 238000004364 calculation method Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims description 135
- 238000000926 separation method Methods 0.000 claims description 76
- 230000005236 sound signal Effects 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 53
- 238000012546 transfer Methods 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 17
- 238000000513 principal component analysis Methods 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【解決手段】音声処理装置は、音響信号を収録する収音部と、収音部が収録した音響信号の音源の向きを推定する音源向き推定部と、収音部が収録した音響信号に対して作用させる残響抑圧フィルタを算出する残響抑圧フィルタ算出部と、残響抑圧フィルタ算出部によって算出された残響抑圧フィルタを音響信号に作用させる抑圧処理部と、を備え、残響抑圧フィルタ算出部は、音源向き推定部によって推定された前記音源の向きに基づいて作用させる前記残響抑圧フィルタを算出する。
【選択図】図3
Description
上述した(2)の構成によれば、拡張フィルタを用いて前記残響抑圧フィルタを生成するため、少ない演算量で残響抑圧を行うことができる。
上述した(3)の構成によれば、収音部が収録した1つの音響信号を用いて音源の向きを推定できるので、少ない演算量で音源の向きを推定できる。
上述した(5)の構成によれば、残響抑圧フィルタによって後期反射成分を抑圧できるので、少ない演算量で残響抑圧を行うことができる。
上述した(6)の構成によれば、第1の音源分離部によって分離された残響音信号から、第2の音源分離部によって分離された後期反射成分を抑圧できるので、少ない演算量で残響抑圧を行うことができる。
上述した(7)の構成によれば、撮像された画像、または方位検出器の検出結果に応じて音源の向きを推定できるので、少ない演算量で音源の向きを推定できる。
本発明の音声処理装置は、収録した音響信号を残響音信号と後期反射音信号とに分離する。また、本発明の音声処理装置は、後期反射音信号に基づいて装置に対する発話者(音源)の向きを推定し、推定した音源の向きに基づいて音響信号に作用させる残響抑圧フィルタを算出する。そして、本発明の音声処理装置は、分離された後期反射音信号を残響抑圧フィルタによって補正する。さらに、本発明の音声処理装置は、補正後の後期反射音信号に基づいて、残響音信号に対して抑圧処理を行う。この結果、本発明の音声処理装置は、音源の向きが変化した場合であっても、音声認識精度を向上する残響抑圧を実現できる。
なお、音源は指向性のあるスピーカ等であってもよい。
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の配置例を示す平面図である。図1に示すように、音声処理システム1は、音声処理装置11及び収音部12を備えている。
この配置例では、残響環境として部屋Rmにおいて発話者Spが収音部12の中心部から距離dだけ離れた位置に所在していることを示す。また、収音部12に対する発話者Sp(音源)の向き(azimuth)を、例えば反時計回りにθ1、・・・、θg、・・・、θGとする。部屋Rmは、到来した音波を反射する内壁を有する。収音部12は、音源として発話者Spから直接到来した音声l(ω)と、内壁を反射した音声e(ω)を収録する。なお、ωは、周波数である。
また、発話者Sp(音源)の向きは、水平面上の方位角に限られず、垂直方向の方位角も含む。垂直方向の方位角は、例えば、部屋Rmの天井方向(上方向)、床方向(下方向)などである。
残響が付加されると周波数特性が原音声から変化するため、音声認識を行う音声認識装置では、音声認識率が低下することがある。また、音声認識装置では、過去に発された音声が現在発されている音声に重畳するため明瞭度が低下することがある。このため、本実施形態では、後期反射信号を抑圧することで、音声認識率を向上できる。
図2は、本実施形態に係る音声処理装置11の構成を示すブロック図である。図2に示すように、音声処理装置11は、音源分離部101、抑圧部102、音声認識部103、及び記憶部104を備えている。
音源分離部101は、収音部12が送信したNチャネルの音響信号を取得し、記憶部104に記憶されている室内伝達関数A(ω)に基づいて、取得したNチャネルの音響信号を残響音信号s(ω)と後期反射音信号(後期反射音成分)sL(ω)とに分離する。音源分離部101は、分離した残響音信号s(ω)と後期反射音信号sL(ω)と抑圧部102に出力する。なお、音源分離部101の構成については後述する。
ここで、音声認識部103は、残響抑圧後音響信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、34次のメル周波数ケプストラム(MFCC;Mel−Frequency Cepstrum Coefficients)、静的メル尺度対数スペクトル(static MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である特性ベクトル(feature vector)、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組等である。音声認識部103は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から単語辞書を用いて単語を認識する。
まず、音源分離部101について説明する。図3に示すように、音源分離部101は、音響信号処理部1011、音響信号処理部1012、音源分離処理部1013、及び音源分離処理部1014を備えている。
GHDSS法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列(separation matrix)[V(ω)](残響音信号s(ω)または後期反射音信号sL(ω))が逐次に算出され、入力音声ベクトル[x(ω)]に分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]が推定される。分離行列[V(ω)]は、各音源から収音部12の各マイクロホンまでの伝達関数を要素とする伝達関数行列[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。
また、幾何制約度JGC(ω)は、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、式(8)で表される。
式(10)において、確率モデルμθgは、例えば予め学習を行う。確率モデルμθgの学習において、後期反射音信号sL(ω)は、式(3)及び式(6)より、次式(11)のように表される。
向き推定部1022は、式(12)の拡張フィルタHθを記憶されている拡張フィルタHθから選択し、選択した拡張フィルタHθを推定値Hθ^として残響抑圧フィルタ算出部1023に出力する。
また、式(10)における確率モデルμθgは、向きの集合{θ1、・・・、θg、・・・、θG}を用いて次式(13)によって学習する。この処理は、オフラインで行われる。
なお、拡張フィルタHθは、例えば、実際の発話者Spの向きθに応じて、後期反射音信号sL(ω)を実測することで求めたフィルタ特性である。
ここで、sL Aθ(ω)は、マルチチャネルの室内伝達関数Aθ(ω)に従う事実上の後期反射音信号である。このようなフィルタの設計は、例えば、非特許文献1及び2に基づく対数関数の頻度格子(grid)の上で、ポールポジション法(pole positioning method)によって行われる。
Conference, 2007.
非特許文献2;J. Laroche and J−L. Meillier, ”Multichannel Excitation/Filter Modeling
of Percussive Sounds with Application to the Piano” In Proceedings
IEEE Transactions Speech and Audio Processing, 1994.
次に、残響抑圧フィルタ算出部1023は、{θ1、・・・、θg、・・・、θG}のための拡張フィルタHθは、目標応答sL(ω)を達成するために室内伝達関数における極を適切に置くことによって求める。なお、残響抑圧フィルタ算出部1023は、目標応答sL(ω)の逆転現象を防ぐために、平均化の前処理を行うようにしてもよい。なお、残響抑圧フィルタ算出部1023には、例えば、発話者Spの向きθ毎に対応付けられている向きモデルを記憶させておく。向きモデルは、例えば、GMM(Gaussian Mixture Model、混合ガウスモデル)である。GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、向きモデルは、混合重み係数、平均値、共分散行列といった統計量で規定される。各向きθについてGMMを学習させる際、各向きθにおいて残響特性が付加された学習用音声信号を用いて尤度が最大となるように、これらの統計量を予め定めておくようにしてもよい。なお、向きモデルとして、HMMを用いたり、またはSVM(Support vector machine;サポートベクターマシン)等の一般的な判別器を用いるようにしてもよい。
向き推定部1022によって拡張フィルタHθ^が推定された後、残響抑圧フィルタ算出部1023は、一致する室内関数A(ω)を用いずに、式(14)によって分離された後期反射音信号sL(ω)を補正する。
式(15)において、|s(ω、t)|2は、分離された反射音信号(ただし、|s(ω、t)|2は|r(ω、t)|2にほぼ等しい)のパワーである。また、|sL(ω、t)|2は、後期反射音信号sL(ω)のパワーである。残響抑圧部1024は、算出した初期反射信号の周波数領域係数e(ω、t)を時間領域に変換した残響抑圧後音響信号eθ^(ω)を生成し、生成した残響抑圧後音響信号eθ^(ω)を音声認識部103に出力する。
図4は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)音響信号処理部1011は、収音部12から入力されたNチャネルの音響信号について、記憶部104に記憶されている室内伝達関数A(ω)を用いて、式(2)によりベクトルx(ω)を算出する。次に、音響信号処理部1011は、算出したベクトルx(ω)を音源分離処理部1013に出力する。音響信号処理部1011は、ステップS101終了後、処理をステップS102に進める。
以上で、音声処理を終了する。
次に、本実施形態に係る音声処理装置11を用いて音声認識精度を検証した実験結果について説明する。実験は、図5に示す環境で行った。図5は、本実施形態に係る実験を行った環境を説明する図である。図5に示すように、実験室の短手方向の幅が4.8m、長手方向の幅が5.5mである。図5に示すように、収音部12は、長手方向のほぼ中央、短手方向の紙面に向かって左端に配置されている。また、実験室の長手方向の両端には、ガラスの窓301がある。また、実験室の紙面に向かって右下に扉302がある。さらに実験室内には、ホワイトボート303、テーブル304、ソファ305、及び冷蔵庫306が配置されている。そして、異なる2つの残響音の実験室を実験に用いた。実験室Aは、残響時間が240msであり、実験室Bは、残響時間が640msである。また、発話者Spの向きを、θ1、・・、θg、・・・、θGとする。なお、向きθgのとき、発話者Spは、収音部12に対して垂直な向きである。
また、図6に示すように、第1設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果がほぼ同じである。そして、図7の第2設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果が図6より分離し、図8の第3設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果が図7より分離する。そして、図9の第4設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果が最も分離している。
発話者Spの向きθ^の適切な選択は、最適平均化パラメータ(optimal equalization parameter)である拡張フィルタの推定値Hθ^を選択するために有効である。まず、上述した第1設定の部屋〜第4設定の部屋において、3つのランダムな互いに異なる位置(第1位置〜第3位置)を選択する。図10に示す各欄の値は、発話者Spの向きの推定値の精度を表している。図10の1行目に示すように、対称性が最も良い第1の設定の部屋では、第1位置〜第3位置において、発話者Spの向きの推定値の精度が全て100%である。2行目に示すように、第2の設定の部屋では、発話者Spの向きの推定値の精度が98%〜99%である。3行目に示すように、第3の設定の部屋では、発話者Spの向きの推定値の精度が94%〜95%である。4行目に示すように、第4の設定の部屋では、発話者Spの向きの推定値の精度が88%〜90%である。すなわち、対称性の良い第1の設定の部屋が最もパフォーマンスが良く、不均整な第4の設定の部屋が最もパフォーマンスが悪い。
非特許文献4;B. Yegnanarayana and P. Satyaranyarana, ”Enhancement of Reverberant Speech Using LP Residual Signals”, In Proceedings of IEEE Trans. on Audio, Speech and Lang. Proc., 2000.
例えば、発話者Spとの距離が0.5mのとき、各単語認識率は、手法Aが約68%、手法Bが約70%、手法Cが約72%、手法Dが約72.5%である。また、各単語認識率は、手法Eが約74%、手法Fが約77.5%、手法Gが約78%である。
また、例えば、発話者Spとの距離が2.5mのとき、各単語認識率は、手法Aが約15%、符号手法Bが約25%、手法Cが約27%、手法Dが約28%である。また、各単語認識率は、手法Eが約30%、手法Fが約46%、手法Gが約47%である。
例えば、発話者Spとの距離が1.0mのとき、各単語認識率は、手法Aが約11%、手法Bが約20%、手法Cが約22%、手法Dが約24%である。また、各単語認識率は、手法Eが約26%、手法Fが約39%、手法Gが約40%である。
また、例えば、発話者Spとの距離が2.0mのとき、各単語認識率は、手法Aが約−14%、手法Bが約7%、手法Cが約10%、手法Dが約12%である。また、各単語認識率は、手法Eが約14%、手法Fが約26%、手法Gが約27%である。
図13に示すように、単語認識率は、手法A(符号511)が発話者Spの向きにかかわらず約44%であり、手法B(符号512)が発話者Spの向きにかかわらず約50%であり、手法E(符号515)が発話者Spの向きにかかわらず約53%である。一方、本実施形態の手法である手法F(符号516)は、発話者Spの向きによって単語認識率が変化し、単語認識率は約58%〜63%である。すなわち、手法Fでは、収音部12の正面方向である発話者の向き0°に近くなるほど単語認識率が高くなり、0°から離れるほど単語認識率が下がっている。さらに手法G(符号517)では、単語認識率が発話者Spの向きにかかわらず約63%である。このように、本実施形態の音声処理装置11は、残響時間が短い実験室Aにおいて、他の手法に対して単語認識率に有意な差がある。
図14に示すように、単語認識率は、手法A(符号511)が発話者Spの向きにかかわらず−1%であり、手法B(符号512)が発話者Spの向きにかかわらず約12%であり、手法E(符号515)が発話者Spの向きにかかわらず約22%である。一方、本実施形態の手法である手法F(符号516)は、発話者Spの向きによって単語認識率が変化し、単語認識率は約27%〜35%である。すなわち、手法Fでは、収音部12の正面方向である発話者の向き0°に近くなるほど単語認識率が高くなり、0°から離れるほど単語認識率が下がっている。さらに手法G(符号517)では、単語認識率が発話者Spの向きにかかわらず約35%である。このように、本実施形態の音声処理装置11は、残響時間が長い実験室Bにおいても、他の手法に対して単語認識率に有意な差がある。
第1実施形態では、抑圧部102は、収録されたNチャネルの音響信号が、音源分離部101によって分離された残響音信号s(ω)と後期反射音信号(後期反射音成分)sL(ω)とを用いて、発話者Spの向きの推定、残響抑圧を行う例を説明した。
発話者Spの向きの推定や、残響抑圧は、抑圧部102のみでも行うことができる。
図15は、本実施形態に係る抑圧部102Aの構成を説明するブロック図である。図15に示すように、抑圧部102Aは、ベクトルパラメータ推定部1021、向き推定部(音源向き推定部)1022、残響抑圧フィルタ算出部1023、残響抑圧部(抑圧処理部)1024、及び取得部1025を備えている。
または、収音部12が備えるマイクロホンのうち1つのマイクロホンが収録した音響信号が、音源分離部101によって分離された残響音信号s(ω)と後期反射音信号(後期反射音成分)sL(ω)とが抑圧部102Aに入力されてもよい。
また、取得部1025は、発話者Spの例えば頭部に取り付けられている方位センサー等が出力した検出値を取得し、取得した検出値を向き推定部1022に出力するようにしてもよい。そして、向き推定部1022は、取得した検出値に基づいて発話者SP(音源)の向きを推定するようにしてもよい。
あるいは、収音部12が備えるマイクロホン毎に抑圧部102Aが接続されていてもよい。
Claims (9)
- 音響信号を収録する収音部と、
前記収音部が収録した前記音響信号の音源の向きを推定する音源向き推定部と、
前記収音部が収録した前記音響信号に対して作用させる残響抑圧フィルタを算出する残響抑圧フィルタ算出部と、
前記残響抑圧フィルタ算出部によって算出された前記残響抑圧フィルタを前記音響信号に作用させる抑圧処理部と、
を備え、
前記残響抑圧フィルタ算出部は、
前記音源向き推定部によって推定された前記音源の向きに基づいて作用させる前記残響抑圧フィルタを算出する
ことを特徴とする音声処理装置。 - 前記残響抑圧フィルタ算出部は、
前記音響信号の後期反射成分と前記音源の方位毎の前記後期反射成分の応答とを用いて生成された拡張フィルタを用いて、前記残響抑圧フィルタを生成する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記音源向き推定部は、
前記収音部が収録した1つの前記音響信号の特徴ベクトルと音源の向き毎の確率モデルを用いて前記音源向きを推定する
ことを特徴とする請求項1または請求項2に記載の音声処理装置。 - 前記収音部が収録した複数の前記音響信号から残響信号と後期反射成分とを分離する音源分離部、を備え、
前記残響抑圧フィルタ算出部は、
記音源分離部によって分離された後期反射成分と前記音源の方位毎の前記後期反射成分の応答とを用いて生成された拡張フィルタを用いて、前記残響抑圧フィルタを生成する
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声処理装置。 - 前記抑圧処理部は、
前記残響抑圧フィルタ算出部によって算出された前記残響抑圧フィルタを前記残響信号に作用させることで、前記音源分離部によって分離された残響信号から前記後期反射成分を抑圧する
ことを特徴とする請求項4に記載の音声処理装置。 - 第1の室内伝達関数に基づいて、前記収音部が収録した複数の前記音響信号の第1の特徴ベクトルを算出する第1の音響信号処理部と、
第2の室内伝達関数に基づいて、前記収音部が収録した複数の前記音響信号の第2の特徴ベクトルを算出する第2の音響信号処理部と、
を備え、
前記音源分離部は、
前記第1の音響信号処理部によって算出された前記第1の特徴ベクトルに基づいて、残響音信号を分離する第1の音源分離部と、
前記第2の音響信号処理部によって算出された前記第2の特徴ベクトルに基づいて、前記後期反射成分を分離する第2の音源分離部と、
を備え、
前記抑圧処理部は、
前記残響抑圧フィルタ算出部によって算出された前記残響抑圧フィルタを前記残響信号に作用させることで、前記第1の音源分離部によって分離された残響音信号から、前記第2の音源分離部によって分離された前記後期反射成分を抑圧する
ことを特徴とする請求項4または請求項5に記載の音声処理装置。 - 前記音源向き推定部は、
撮像部によって撮像された画像、または前記音源の近傍に取り付けられている方位検出器の検出結果の少なくとも一方に基づいて前記音源向きを推定する
ことを特徴とする請求項1から請求項6のいずれか1項に記載の音声処理装置。 - 収音部が、音響信号を収録する収音手順と、
音源向き推定部が、前記収音手順によって収録された前記音響信号の音源の向きを推定する音源向き推定手順と、
残響抑圧フィルタ算出部が、前記収音手順によって収録された前記音響信号に対して作用させる残響抑圧フィルタを、前記音源向き推定手順によって推定された前記音源の向きに基づいて前記残響抑圧フィルタを算出する残響抑圧フィルタ算出手順と、
抑圧処理部が、前記残響抑圧フィルタ算出手順によって算出された前記残響抑圧フィルタを前記音響信号に作用させる抑圧処理手順と、
を含むこと特徴する音声処理方法。 - 音響処理装置のコンピュータに、
音響信号を収録する収音手順と、
前記収音手順によって収録された前記音響信号の音源の向きを推定する音源向き推定手順と、
前記収音手順によって収録された前記音響信号に対して作用させる残響抑圧フィルタを、前記音源向き推定手順によって推定された前記音源の向きに基づいて前記残響抑圧フィルタを算出する残響抑圧フィルタ算出手順と、
前記残響抑圧フィルタ算出手順によって算出された前記残響抑圧フィルタを前記音響信号に作用させる抑圧処理手順と、
を実行させる音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013200391A JP5841986B2 (ja) | 2013-09-26 | 2013-09-26 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US14/495,012 US9478230B2 (en) | 2013-09-26 | 2014-09-24 | Speech processing apparatus, method, and program of reducing reverberation of speech signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013200391A JP5841986B2 (ja) | 2013-09-26 | 2013-09-26 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015070321A true JP2015070321A (ja) | 2015-04-13 |
JP5841986B2 JP5841986B2 (ja) | 2016-01-13 |
Family
ID=52691709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013200391A Active JP5841986B2 (ja) | 2013-09-26 | 2013-09-26 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9478230B2 (ja) |
JP (1) | JP5841986B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105338449A (zh) * | 2015-11-26 | 2016-02-17 | 宁波柏人艾电子有限公司 | 一种音效处理电路 |
KR20190108711A (ko) * | 2018-03-15 | 2019-09-25 | 한양대학교 산학협력단 | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 |
JPWO2021171406A1 (ja) * | 2020-02-26 | 2021-09-02 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10766144B2 (en) * | 2018-01-08 | 2020-09-08 | Digital Dream Labs, Llc | Map related acoustic filtering by a mobile robot |
CN110610702B (zh) * | 2018-06-15 | 2022-06-24 | 惠州迪芬尼声学科技股份有限公司 | 以自然语言声控均衡器的方法及计算器可读存储介质 |
CN110164469B (zh) * | 2018-08-09 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
US11546689B2 (en) * | 2020-10-02 | 2023-01-03 | Ford Global Technologies, Llc | Systems and methods for audio processing |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080199024A1 (en) * | 2005-07-26 | 2008-08-21 | Honda Motor Co., Ltd. | Sound source characteristic determining device |
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2010206392A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2012034312A (ja) * | 2010-08-03 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 放射指向特性推定方法とその装置とプログラム |
JP2012039276A (ja) * | 2010-08-05 | 2012-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 反射音情報推定装置、反射音情報推定方法、プログラム |
JP2012109643A (ja) * | 2010-11-15 | 2012-06-07 | National Institute Of Information & Communication Technology | 音再現システム、音再現装置および音再現方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4396449B2 (ja) | 2004-08-25 | 2010-01-13 | パナソニック電工株式会社 | 残響除去方法及びその装置 |
JP4532576B2 (ja) * | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム |
WO2009151578A2 (en) * | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
US8867754B2 (en) * | 2009-02-13 | 2014-10-21 | Honda Motor Co., Ltd. | Dereverberation apparatus and dereverberation method |
JP6169910B2 (ja) * | 2013-07-08 | 2017-07-26 | 本田技研工業株式会社 | 音声処理装置 |
-
2013
- 2013-09-26 JP JP2013200391A patent/JP5841986B2/ja active Active
-
2014
- 2014-09-24 US US14/495,012 patent/US9478230B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080199024A1 (en) * | 2005-07-26 | 2008-08-21 | Honda Motor Co., Ltd. | Sound source characteristic determining device |
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2010206392A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2012034312A (ja) * | 2010-08-03 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 放射指向特性推定方法とその装置とプログラム |
JP2012039276A (ja) * | 2010-08-05 | 2012-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 反射音情報推定装置、反射音情報推定方法、プログラム |
JP2012109643A (ja) * | 2010-11-15 | 2012-06-07 | National Institute Of Information & Communication Technology | 音再現システム、音再現装置および音再現方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105338449A (zh) * | 2015-11-26 | 2016-02-17 | 宁波柏人艾电子有限公司 | 一种音效处理电路 |
KR20190108711A (ko) * | 2018-03-15 | 2019-09-25 | 한양대학교 산학협력단 | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 |
KR102087307B1 (ko) * | 2018-03-15 | 2020-03-10 | 한양대학교 산학협력단 | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 |
JPWO2021171406A1 (ja) * | 2020-02-26 | 2021-09-02 | ||
WO2021171406A1 (ja) * | 2020-02-26 | 2021-09-02 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
JP7351401B2 (ja) | 2020-02-26 | 2023-09-27 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20150088497A1 (en) | 2015-03-26 |
JP5841986B2 (ja) | 2016-01-13 |
US9478230B2 (en) | 2016-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5841986B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
EP3707716B1 (en) | Multi-channel speech separation | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
Hoshen et al. | Speech acoustic modeling from raw multichannel waveforms | |
JP5572445B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
US8160273B2 (en) | Systems, methods, and apparatus for signal separation using data driven techniques | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6169910B2 (ja) | 音声処理装置 | |
US10283115B2 (en) | Voice processing device, voice processing method, and voice processing program | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
Kumatani et al. | Channel selection based on multichannel cross-correlation coefficients for distant speech recognition | |
Delcroix et al. | Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds | |
Huang et al. | Multi-Microphone Adaptive Noise Cancellation for Robust Hotword Detection. | |
Nakajima et al. | An easily-configurable robot audition system using histogram-based recursive level estimation | |
Palla et al. | Wearable speech enhancement system based on MEMS microphone array for disabled people | |
Gomez et al. | Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication | |
JP2005258215A (ja) | 信号処理方法及び信号処理装置 | |
Wolf et al. | Towards microphone selection based on room impulse response energy-related measures | |
Kawase et al. | Automatic parameter switching of noise reduction for speech recognition | |
Dat et al. | A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments | |
Sivasankaran et al. | SLOGD: Speaker location guided deflation approach to speech separation | |
Aprilyanti et al. | Optimized joint noise suppression and dereverberation based on blind signal extraction for hands-free speech recognition system | |
Mizumachi et al. | Design of robust subtractive beamformer for noisy speech recognition. | |
Takashima et al. | Monaural sound-source-direction estimation using the acoustic transfer function of a parabolic reflection board |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150811 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5841986 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |