JP6169910B2 - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP6169910B2 JP6169910B2 JP2013143079A JP2013143079A JP6169910B2 JP 6169910 B2 JP6169910 B2 JP 6169910B2 JP 2013143079 A JP2013143079 A JP 2013143079A JP 2013143079 A JP2013143079 A JP 2013143079A JP 6169910 B2 JP6169910 B2 JP 6169910B2
- Authority
- JP
- Japan
- Prior art keywords
- reverberation
- unit
- acoustic model
- speech
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 79
- 238000012937 correction Methods 0.000 claims description 82
- 230000003044 adaptive effect Effects 0.000 claims description 51
- 238000000034 method Methods 0.000 description 59
- 230000008569 process Effects 0.000 description 33
- 238000000926 separation method Methods 0.000 description 28
- 238000004364 calculation method Methods 0.000 description 26
- 239000011159 matrix material Substances 0.000 description 26
- 239000013598 vector Substances 0.000 description 25
- 230000015572 biosynthetic process Effects 0.000 description 22
- 238000003786 synthesis reaction Methods 0.000 description 22
- 230000006978 adaptation Effects 0.000 description 21
- 230000014509 gene expression Effects 0.000 description 19
- 230000005236 sound signal Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000009826 distribution Methods 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 230000004048 modification Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000002194 synthesizing effect Effects 0.000 description 11
- 230000007423 decrease Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
また、収音部から音源までの距離によって異なる音源から放射される直接音による寄与が考慮されるため、残響抑圧精度を向上させることができる。
上述した(3)の構成によれば、選択した距離に基づいて第1の音響モデルと第2の音響モデルから残響環境に応じた音響モデルが予測される。予測された音響モデルを用いて音声認識処理が行われるため音声認識精度が向上する。
図1は、本実施形態に係る音声処理装置11の配置例を示す平面図である。
この配置例では、残響環境として部屋Rmにおいて発話者Spが収音部12(後述)の中心部から距離rだけ離れた位置に所在し、音声処理装置11が収音部12に接続されていることを示す。部屋Rmは、到来した音波を反射する内壁を有する。収音部12は、音源として発話者Spから直接到来した音声と、内壁を反射した音声を収録する。音源から直接到来した音声、反射した音声を、それぞれ直接音(direct sound)、反射音(reflection)と呼ぶ。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短く(例えば、約30ms以下)、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射(early reflection)と呼ばれる。反射音のうち、それよりも経過時間が長く、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射(late reflection)、後期残響(late reverberation)又は単に残響(reverberation)と呼ばれる。初期反射と後期反射とを区分する時間は、部屋Rmの大きさによっても異なるが、音声認識においては処理単位となるフレーム長がその時間に相当する。前フレームで処理した直接音及び初期反射に係る後期反射が、現フレームの処理に影響することによる。
これにより、残響特性を逐次に計測しなくても音声認識精度を向上する残響抑圧を実現できる。
図2は、本実施形態に係る音声処理装置11の構成を示すブロック図である。
音声処理装置11は、残響特性合成部101、音声信号取得部102、残響付加部103、音響モデル適応部104、補正データ生成部105、残響特性選択部106、音源分離部107、特徴量算出部108、残響除去部109、及び音声認識部110を含んで構成される。
音響モデル適応部104は、適応音響モデルπ[r] kΔを生成する際、例えば、最大尤度線形回帰法(MLLR:Maximum Likelihood Linear Regression)を用いる。これにより、比較的少量の学習用データを用いて適応音響モデルπ[r] kΔを生成することができる。
音響モデル適応部104は、生成した適応音響モデルπ[r] kΔを残響特性選択部106が有する残響モデル記憶部1061(図5)に記憶させる。音響モデルについては、後述する。
補正データ生成部105は、重み係数δb,[r] kΔで補正した後期反射のパワーと残響付加音声のパワーの差が最小化されるように、重み係数δb,[r] kΔを算出する。補正データ生成部105は、算出した重み係数δb,[r] kΔを示す補正データを適応音響モデルπ[r] kΔと対応付けて残響特性選択部106の残響モデル記憶部1061(図5)に記憶する。補正データ生成部105の構成については、後述する。
音源分離部107は、音源分離処理として、例えば、GHDSS(Geometric−constrained Highorder Decorrelation−based Source Separation)法を用いる。GHDSS法は、1種のブラインド分離処理(blind deconvolution)である。GHDSS法については後述する。音源分離部107は、GHDSS法に代えて、その他の音源分離処理、例えば、音源方向を推定し、推定した音源方向に感度が最も高くなるように指向性を制御する適応ビームフォーミング法(adaptive beamforming)を用いてもよい。また、音源方向を推定する際、音源分離部107は、MUSIC(Multiple Signal Classification)法を用いてもよい。
特徴量算出部108は、算出した音響特徴量T(u’)を示す特徴量データを残響特性選択部106に出力する。
(|r(ω,t)|2−δb,[r] kΔ|r(ω,t)|2)が0より大きい場合)
|e(ω,t)|2=β|r(ω,t)|2 (それ以外の場合) … (1)
ここで、音声認識部110は、残響除去音声信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、特徴量算出部108で算出した特徴量と同様なもの、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。
音声認識部110は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を認識する。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。
次に、残響特性合成部101における残響特性合成処理について説明する。
残響特性合成部101は、例えば、式(2)、(3)を用いて距離r’に応じた残響伝達関数(RTF:Reverberation Transfer Function) A’(ω,r’)を定める。RTFは、周波数ω毎の直接音のパワーに対する残響のパワーの比を示す係数であり、残響特性の一つの指標である。
式(2)、(3)は、(i)部屋Rmにおいて音源の位置によってRTFの位相が変化しない、(ii)RTFの振幅は、距離r’に反比例して減衰する成分を含む、という仮定(i)(ii)に基づく。
図3は、係数算出処理の例を示すフローチャートである。
(ステップS101)残響特性合成部101は、id個(idは、1よりも大きい整数、例えば、3個)のRTF A(ω,ri)を予め計測しておく。距離ri(iは、1からidまでの整数を示す)は、各々異なる距離である。例えば、収音部12が複数のマイクロホンを備える場合には、既知の出力音響信号に基づく音を再生したとき、残響特性合成部101は、各マイクロホンが収録した音響信号を用いてRTF A(ω,ri)を取得することができる。その後、ステップS102に進む。
その後、ステップS103に進む。
残響特性合成部101は、式(5)、(6)を用いて算出した係数α1、α2を式(3)に代入して、式(7)に示すように残響特性A’[r] kΔ(ω,r’)の利得fkΔ(r’)をk毎に算出する。
残響特性合成部101は、算出した利得fkΔ(r’)とRTF A(ω,r)に基づいて、式(8)を用いて残響特性A’[r] kΔ(ω,r’)をk毎に算出する。
まず、音響モデル適応部104で扱われる音響モデルπ(c)として、例えば、GMMについて説明する。GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、音響モデルπ(c)は、混合重み係数、平均値、共分散行列といった統計量で規定される。また、出力確率を算出する際に用いられる正規分布の組(mixture)が所定のクラス毎に分類されている。
従って、音響モデル適応部104は、もとの音響モデルπ[r] (c)について、式(9)、(10)に示す関係を用いて残響特性A’[r] kΔ(ω,r’)毎に適応音響モデルπ[r] kΔに変換することができる。
次に、本実施形態に係る補正データ生成部105の構成について説明する。
図4は、本実施形態に係る補正データ生成部105の構成を示すブロック図である。
補正データ生成部105は、後期反射特性設定部1051、残響特性設定部1052、2つの乗算部1053−1、1053−2、及び重み算出部1054を備える。
ここで、後期反射特性設定部1051は、RTF A’[r] kΔ(ω,r’)を時間領域に変換したインパルス応答を算出し、算出したインパルス応答から所定の経過時間(例えば、30ms)よりも後の成分を抽出する。後期反射特性設定部1051は、抽出した成分を周波数領域に変換して後期反射特性の伝達関数A’L,[r] kΔ(ω,r’)を算出することができる。
残響特性設定部1052は、残響特性合成部101から入力された残響特性データが示すRTF A’[r] kΔ(ω,r’)を乗算部1053−2に乗算係数として設定する。
次に、本実施形態に係る残響特性選択部106の構成について説明する。
図5は、本実施形態に係る残響特性選択部106の構成を示すブロック図である。
残響特性選択部106は、残響モデル記憶部1061、尤度算出部1062、及び補正データ読出部1063を含んで構成される。
尤度算出部1062は、特徴量算出部108から入力された特徴量データが示す音響特徴量T[u’]について、残響モデル記憶部1061に記憶された音響モデルπ[r] kΔのそれぞれについて尤度P(T[u’]|π[r] kΔ)を算出し、算出した尤度P(T[u‘]|π[r] kΔ)を補正データ読出部1063に出力する。
次に、音源分離部107で用いられるGHDSS法について説明する。
GHDSS法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列(separation matrix)[V(ω)]が逐次に算出され、入力音声ベクトル[x(ω)]に分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]が推定される。分離行列[V(ω)]は、各音源から収音部12の各マイクロホンまでの伝達関数を要素とする伝達関数行列[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。
次に、本実施形態に係る残響モデルデータ生成処理について説明する。次に説明する残響モデルデータ生成処理は、後述する音声処理を行う前に予め実行しておく。
図6は、本実施形態に係る残響モデルデータ生成処理を示すフローチャートである。
(ステップS201)残響特性合成部101は、予め定めた残響モデルに基づいて目標とする距離r’に応じた残響特性A’[r] kΔ(ω,r’)を示す残響特性データを合成する。残響特性合成部101は、合成した残響特性データを残響付加部103及び補正データ生成部105に出力する。その後、ステップS202に出力する。
(ステップS202)残響付加部103は、音声信号取得部102から入力された時間領域の音声信号を周波数領域の周波数領域係数に変換し、変換した周波数領域係数に残響特性合成部101から入力された残響特性データを示す残響特性A’[r] kΔ(ω,r’)をそれぞれ乗じて、残響付加音声の周波数領域係数s[r] kΔ(ω,r’)を算出する。算出した周波数領域係数s[r] kΔ(ω,r’)を示す残響付加周波数領域係数データを音響モデル適応部104に出力する。その後、ステップS204に出力する。
(ステップS204)補正データ生成部105は、残響特性合成部101から入力された残響特性データに基づいて、各音源について予め定めた周波数帯域b毎に重み係数δb,[r] kΔをそれぞれ算出する。ここで、重み係数δb,[r] kΔは、重み係数δb,[r] kΔで補正した後期反射のパワーと残響付加音声のパワーの差が最小化されるように算出される。補正データ生成部105は、算出した重み係数δb,[r] kΔを示す補正データを適応音響モデルπ[r] kΔと対応付けて残響モデル記憶部1061に記憶する。その後、図6に示す処理を終了する。
次に、本実施形態に係る音声処理について説明する。
図7は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS301)音源分離部107は、収音部12から入力されたNチャネルの音響信号について音源分離処理を行って1個又は複数の音源の音響信号に分離する。音源分離部107は、分離した音源毎の音響信号を特徴量算出部108及び残響除去部109に出力する。その後、ステップS302に進む。
(ステップS302)特徴量算出部108は、音源分離部107から入力された音響信号について予め定めた時間間隔毎に音響特徴量T(u’)を算出し、算出した音響特徴量T(u’)を示す特徴量データを残響特性選択部106に出力する。その後、ステップS303に進む。
(ステップS305)音声認識部110は、残響除去部109から入力された残響除去音声信号について音声認識処理を行い、発話内容を認識し、認識した発話内容を示す認識データを外部に出力する。その後、図7に示す処理を終了する。
次に、RTFの実測例について説明する。
図8は、RTFの測定環境の例を示す平面図である。
RTFは、既知の音響信号に基づく音を音源から発し、収音部12で収録した音響信号を用いて得ることができる。図8において、収音部12の中心を黒丸で示し、音源の位置を収音部12から右方に向う線分T0の×印で示す。ここで、距離rは0.5m、1.0m、1.5m、2.0m、2.5mである。
横軸はサンプル数、縦軸は平均RTFを示す。この例では、1サンプルは、1フレームに相当する。図9において、距離rが0.5m、0.6m、0.7m、0.9m、1.0m、1.5m、2.0m、2.5mのそれぞれについて、平均RTFが曲線で示されている。平均RTFは、距離rが大きくなるに従って低下する。例えば、距離rが0.5m、1.0m、2.0mであるとき、平均RTFは、それぞれ1.4×10−8、0.33×10−8、0.08×10−8となり、距離rの増加に応じて減少する。また、距離rにかかわらず、第100サンプルよりも後のサンプルで、平均RTFがほぼ0に低下する。この点は、位相が距離rに依存しないこと、つまり上述した仮定(i)を裏付ける。
横軸は距離、縦軸は利得を示す。この例では、RTFの利得について、実測値が+印で示され、上述した残響モデルによる推定値が実線で示される。実測値は、推定値の周囲に分散し、距離rが小さいほど分散が大きくなる傾向がある。しかしながら、各距離rでの実測値の最大値、最小値同士も距離rにほぼ反比例する。例えば、実測値の最大値は、距離0.5m、1.0、2.0m、それぞれについて3.6、1.7、0.8となる。従って、これらの実測値は、係数α1、α2を調整することで推定値に近似できる。この点は、上述した仮定(ii)を裏付ける。
次に、本実施形態に係る音声処理装置11を用いて音声認識精度を検証した実験結果について説明する。
実験は、上述した実験室Rm1、Rm2それぞれで行った。発話回数は、RTFを測定した各計測位置について200回であり、認識対象の語彙数は2万語である。音声認識部110では、音響モデルとして連続HMMの一種である、計8256個の正規分布からなるPTM(Phonetically Tied Mixture、音素内タイドミクスチャ)HMMを用いた。音響モデルを学習させる際、クリーン音声の学習用データベース(training database)として日本語新聞記事文(JNAS:Japanese Newspaper Article Sentence)コーパス(corpus)を用いた。音声認識部110で用いた言語モデルは、標準単語トライグラムモデル(standard word trigram model)である。
図11、図12は、処理方法毎の単語認識率の例を示す図である。
図11、図12には、それぞれ実験室Rm1、Rm2で得られた単語認識率(単位は%)が示されている。各行は発話された音声の処理方法(方法A−F)を示し、各列は距離r’を示す。
実験室Rm1、Rm2との間では、残響時間がより長い実験室Rm2の方が、単語認識率が低い。また、同一の実験室同士については、距離が大きくなるほど単語認識率が低い。単語認識率は、方法A、B、C、D、E、Fの順に高くなる。例えば、実験室Rm1、距離r’=2.5mの場合、本実施形態に係る方法Dでの50.8%は、従来技術に係る方法Cの46.1%よりも有意に高い。この結果は、上述した残響モデルに基づいた残響除去により従来技術よりも音声認識率が向上することを示す。
また、本実施形態に係る方法Eでの55.4%は、方法Dでの50.8%よりも有意に高く、方法Fでの56.1%とほぼ同等である。このことから、上述した音響モデルに基づいて選択した補正データを用いた残響除去により、残響特性を測定しなくとも残響特性が十分に除去された場合と同等な高い音声認識率を得ることができる。
このため、本実施形態に係る音声処理装置では、収録した音声について最も尤度が大きい適応音響モデルに係る残響特性を示す補正データが選択され、その補正データが示す残響成分が音声から除去される。従って、残響特性を計測しなくても音声認識精度を向上する残響抑圧を実現できる。
次に、本実施形態に係る変形例について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図13は、本変形例に係る音声処理装置11aの構成を示すブロック図である。
音声処理装置11aは、残響特性合成部101a、音声信号取得部102、残響付加部103、音響モデル適応部104、補正データ生成部105、残響特性選択部106a、音源分離部107、特徴量算出部108、残響除去部109、音声認識部110及び音響モデル更新部(音響モデル予測部)111aを含んで構成される。
即ち、音声処理装置11aは、音声処理装置11(図2)において、残響特性合成部101及び残響特性選択部106に代えて、残響特性合成部101a及び残響特性選択部106aを備える。また、音声処理装置11aは、さらに音響モデル更新部111aを備える。
具体的には、残響特性合成部101aは、上述した係数算出処理(図3)を行って係数α1、α2を定め、定めた係数α1、α2を式(3)に代入して、式(15)に示すように残響特性A’[r](ω,rk’)の利得f(rk’)を算出する。
残響モデル記憶部1061aには、音響モデル適応部104が生成した適応音響モデルπ[r] k、補正データ生成部105が生成した補正データ及び距離r’を示す距離データが対応付けて記憶される。
従って、尤度算出部1062は、残響モデル記憶部1061aに記憶された音響モデルπ[r] kのそれぞれについて尤度P(T[u’]|π[r] k)を算出し、算出した尤度P(T[u’]|π[r] k)を補正データ読出部1063aに出力する。
次に、認識モデルを予測する処理について説明する。
認識モデルλ(c)、λ(r)は、音響特徴量に基づいて音素を認識する際に用いられる。認識モデルλ(c)、λ(r)は、例えば、連続隠れマルコフモデル(continuous HMM:Hidden Markov Model)である。連続HMMは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して示される。例えば、残響付加音響モデルλ(r)は、例えば、正規分布毎の混合重み係数(mixture weight)[Cim (r)]、平均値(mean)[μim (r)]、共分散行列(covariance matrix)[Σim (r)]、遷移確率(transition probability)aij (r)といった統計量(statistics)で規定される。ここで、i、jは、それぞれ現在の状態、遷移先の状態を示すインデックスである。mは、上述した周波数帯域を示すインデックスである。クリーン音響モデルλ(c)も、残響付加音響モデルλ(r)と同じ種類の統計量[Cim (c)]、μim (c)、[Σim (c)]、aij (c)で規定される。
事前確率β(c)はパワーレベルが増加することに伴い増加するため、距離r’に応じて変動する。式(21)−(24)に示すように、これらの統計量に基づいて線形予測を行うことで音響モデルλ’が高精度で予測される。従って、音声認識部110が、予測された音響モデルλ’を用いて音声認識処理を行うことで認識率が向上する。
図14は、本変形例に係る音声処理を示すフローチャートである。
図14に示す音声処理は、ステップS301、S302、S303a、S304、S305及びS306aを有する。即ち、この音声処理は、図7に示す音声処理において、ステップS303に代えてステップS303aを有し、さらにステップS306aを有する。
この音声処理では、ステップS301、S302が行われた後、ステップS303aに進む。
ここで、本変形例に係る音声処理装置(例えば、音声処理装置11a)は、予め定めた距離に係る残響特性による残響が付加された残響付加音声で学習した第1の音響モデル(例えば、残響付加音響モデル)と、残響を無視できる環境下での音声を用いて学習された第2の音響モデル(例えば、クリーン音響モデル)から、残響特性選択部(例えば、残響特性選択部106a)で選択された距離データが示す距離に応じた音響モデルを予測する音響モデル予測部(例えば、音響モデル更新部111a)と、予測された音響モデルを用いて、残響が除去された音声に対して音声認識処理を行う音声認識部(例えば、音声認識部110)を備える。
このため、本変形例によれば、クリーン音響モデルと残響付加音響モデルから選択した距離に基づいて残響環境に応じた音響モデルが予測され、予測された音響モデルを用いて音声認識処理が行われるため音声認識精度が向上する。
なお、上述した実施形態、変形例において、収音部12が備えるマイクロホンの個数Nが1である場合には、音源分離部107は省略されてもよい。
上述した音声処理装置11、11aは、収音部12と一体化されていてもよい。
そして、補正データ読出部1063は、選択した適応音響モデルの組のそれぞれに対応する補正データが示す重み係数δb,[r] kΔについて、選択した予測係数を用いて予測処理を行って重み係数を算出する。補正データ読出部1063は、算出した重み係数を示す補正データを残響除去部109に出力する。
これにより、予め離散的に設定された重み係数δb,[r] kΔが残響環境に応じて平滑化されるため、残響除去精度が向上し、ひいては音声認識精度が向上する。
これにより、予め離散的に設定された距離が残響環境に応じて平滑化されるため、距離の推定精度が向上し、この距離を用いて予測した音響モデルを用いることで音声認識精度が向上する。
また、上述した実施形態及び変形例における音声処理装置11、11aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置11、11aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
101、101a…残響特性合成部、102…音声信号取得部、103…残響付加部、
104…音響モデル適応部、105…補正データ生成部、
1051…後期反射特性設定部、1052…残響特性設定部、
1053(1053−1、1053−2)…乗算部、1054…重み算出部、
106、106a…残響特性選択部、
1061、1061a…残響モデル記憶部、1062…尤度算出部、
1063、1063a…補正データ読出部、
107…音源分離部、108…特徴量算出部、109…残響除去部、110…音声認識部、
111a…音響モデル更新部(音響モデル予測部)
12…収音部
Claims (3)
- 音源からの音声を収録する収音部と前記音源までの距離に反比例する成分の寄与がそれぞれ異なることを特徴とする複数の残響特性のそれぞれについて、当該残響特性による残響成分の寄与を示す補正データと、当該残響特性による残響が付加された残響付加音声で学習した適応音響モデルとを対応付け、収録した音声について前記適応音響モデルに基づく尤度を算出し、算出した尤度が最も大きい適応音響モデルに対応する補正データを選択する残響特性選択部と、
前記補正データに基づいて前記音声から残響成分を除去する残響除去部と、
を備えることを特徴とする音声処理装置。 - 前記残響特性選択部は、前記補正データ及び前記適応音響モデルにそれぞれの残響特性に係る前記距離を示す距離データを対応付け、前記算出した尤度が最も大きい適応音響モデルに対応する距離データを選択することを特徴とする請求項1に記載の音声処理装置。
- 予め定めた距離に係る残響特性による残響が付加された残響付加音声で学習した第1の音響モデルと、残響を無視できる環境下での音声を用いて学習された第2の音響モデルから、前記残響特性選択部が選択した距離データが示す距離に応じた音響モデルを予測する音響モデル予測部と、
前記音響モデル予測部が予測した音響モデルを用いて、前記音声について音声認識処理を行う音声認識部と、
を備えることを特徴とする請求項2に記載の音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013143079A JP6169910B2 (ja) | 2013-07-08 | 2013-07-08 | 音声処理装置 |
US14/265,612 US9208782B2 (en) | 2013-07-08 | 2014-04-30 | Speech processing device, speech processing method, and speech processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013143079A JP6169910B2 (ja) | 2013-07-08 | 2013-07-08 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015018015A JP2015018015A (ja) | 2015-01-29 |
JP6169910B2 true JP6169910B2 (ja) | 2017-07-26 |
Family
ID=52133397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013143079A Active JP6169910B2 (ja) | 2013-07-08 | 2013-07-08 | 音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9208782B2 (ja) |
JP (1) | JP6169910B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5841986B2 (ja) * | 2013-09-26 | 2016-01-13 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US9338761B2 (en) * | 2014-02-26 | 2016-05-10 | Empire Technology Development Llc | Presence-based device mode modification |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
WO2017151362A1 (en) * | 2016-02-29 | 2017-09-08 | Ember Technologies, Inc. | Liquid container and module for adjusting temperature of liquid in container |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10219098B2 (en) * | 2017-03-03 | 2019-02-26 | GM Global Technology Operations LLC | Location estimation of active speaker |
US10468032B2 (en) * | 2017-04-10 | 2019-11-05 | Intel Corporation | Method and system of speaker recognition using context aware confidence modeling |
CN109754821B (zh) * | 2017-11-07 | 2023-05-02 | 北京京东尚科信息技术有限公司 | 信息处理方法及其系统、计算机系统和计算机可读介质 |
KR102527278B1 (ko) * | 2017-12-04 | 2023-04-28 | 삼성전자주식회사 | 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체 |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
JP6891144B2 (ja) * | 2018-06-18 | 2021-06-18 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
US10818296B2 (en) | 2018-06-21 | 2020-10-27 | Intel Corporation | Method and system of robust speaker recognition activation |
US20220114995A1 (en) * | 2019-07-03 | 2022-04-14 | Hewlett-Packard Development Company, L.P. | Audio signal dereverberation |
CN114008999B (zh) | 2019-07-03 | 2024-09-03 | 惠普发展公司,有限责任合伙企业 | 声学回声消除 |
US11657828B2 (en) * | 2020-01-31 | 2023-05-23 | Nuance Communications, Inc. | Method and system for speech enhancement |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566790A (ja) * | 1991-09-10 | 1993-03-19 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JP2000075889A (ja) * | 1998-09-01 | 2000-03-14 | Oki Electric Ind Co Ltd | 音声認識システム及び音声認識方法 |
JP2000194392A (ja) * | 1998-12-25 | 2000-07-14 | Sharp Corp | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 |
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
US8073147B2 (en) * | 2005-11-15 | 2011-12-06 | Nec Corporation | Dereverberation method, apparatus, and program for dereverberation |
JP2009003008A (ja) * | 2007-06-19 | 2009-01-08 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム |
JP2009216835A (ja) * | 2008-03-07 | 2009-09-24 | Fujitsu Ten Ltd | 音響エコー除去装置、車載装置および音響エコー除去方法 |
JP5079761B2 (ja) * | 2009-09-01 | 2012-11-21 | 日本電信電話株式会社 | 直間比推定装置、音源距離測定装置、雑音除去装置、各装置の方法と、装置プログラム |
-
2013
- 2013-07-08 JP JP2013143079A patent/JP6169910B2/ja active Active
-
2014
- 2014-04-30 US US14/265,612 patent/US9208782B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015018015A (ja) | 2015-01-29 |
US9208782B2 (en) | 2015-12-08 |
US20150012268A1 (en) | 2015-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6169910B2 (ja) | 音声処理装置 | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP5706782B2 (ja) | 音源分離装置及び音源分離方法 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP6124949B2 (ja) | 音声処理装置、音声処理方法、及び音声処理システム | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP6454916B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
US10403300B2 (en) | Spectral estimation of room acoustic parameters | |
EP2058797A1 (en) | Discrimination between foreground speech and background noise | |
US9858949B2 (en) | Acoustic processing apparatus and acoustic processing method | |
US10283115B2 (en) | Voice processing device, voice processing method, and voice processing program | |
JP5841986B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2014145838A (ja) | 音響処理装置及び音響処理方法 | |
Karbasi et al. | Twin-HMM-based non-intrusive speech intelligibility prediction | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
KR101068666B1 (ko) | 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치 | |
JP2003076393A (ja) | 騒音環境下における音声推定方法および音声認識方法 | |
WO2020230460A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6169910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |