JP6169849B2 - 音響処理装置 - Google Patents
音響処理装置 Download PDFInfo
- Publication number
- JP6169849B2 JP6169849B2 JP2013004626A JP2013004626A JP6169849B2 JP 6169849 B2 JP6169849 B2 JP 6169849B2 JP 2013004626 A JP2013004626 A JP 2013004626A JP 2013004626 A JP2013004626 A JP 2013004626A JP 6169849 B2 JP6169849 B2 JP 6169849B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- unit
- signal
- speech recognition
- recognition rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001629 suppression Effects 0.000 claims description 65
- 238000004364 calculation method Methods 0.000 claims description 61
- 238000001228 spectrum Methods 0.000 description 91
- 238000000034 method Methods 0.000 description 70
- 230000001186 cumulative effect Effects 0.000 description 59
- 238000006243 chemical reaction Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 7
- 238000000926 separation method Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
また、音声認識率が最も高くなる補助雑音の付加量が定められるので、音声認識率をさらに向上することができる。
上述の(2)の態様によれば、雑音成分の抑圧による歪みの影響を低減して音声認識率をさらに向上することができる。
上述の(3)の態様によれば、歪みの影響を緩和し音声認識率への影響がより少ない補助雑音の付加量を求めることができる。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理装置1の構成を示す概略ブロック図である。
音響処理装置1は、収音部101、周波数領域変換部102、雑音抑圧部103、時間領域変換部107、加算部(補助雑音付加部)108、周波数領域変換部109、歪み度合い算出部110、制御部111、補助雑音生成部112、振幅調整部113及び音声認識部114を含んで構成される。
周波数領域変換部102は、収音部101から入力され、時間領域で表された音響信号y(t)を、周波数領域で表された複素入力スペクトルY(k,l)に変換する。kは、周波数を表すインデックスであり、lは、フレームを示すインデックスである。ここで、周波数領域変換部102は、音響信号y(t)について、例えば、フレームl毎に離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。周波数領域変換部102は、音響信号y(t)に窓関数(例えば、ハミング窓)を乗算して、窓関数が乗算された音響信号について周波数領域で表された複素入力スペクトルY(k,l)に変換してもよい。
周波数領域変換部102は、変換した複素入力スペクトルY(k,l)を雑音抑圧部103に出力する。
パワー算出部104は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|2を算出する。以下の説明では、パワースペクトルを単にパワーと呼ぶことがある。ここで、|…|は、複素数…の絶対値を示す。パワー算出部104は、算出したパワースペクトル|Y(k,l)|2を雑音推定部105、減算部106及び歪み度合い算出部110に出力する。
ここで、雑音推定部105は、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いて雑音パワーλ(k,l)を算出する。HRLE法では、対数領域におけるパワースペクトル|Y(k,l)|2のヒストグラム(頻度分布)を算出し、その累積分布と予め定めた累積頻度Lx(例えば、0.3)に基づいて雑音パワーλ(k,l)を算出する。この累積頻度Lxは、収録された音響信号に含まれる背景雑音の雑音パワーを定める変数、言い換えれば減算部106で減算(抑圧)される雑音成分の抑圧量を制御するための制御変数である。累積頻度Lxが大きいほど、抑圧量が大きくなり、累積頻度Lxが小さいほど抑圧量は小さくなる。累積頻度Lxが0のときは、抑圧量も0になる。HRLE法を用いて雑音パワーλ(k,l)を算出する処理については後述する。
本実施形態では、雑音推定部105は、HRLE法の代わりに、MCRA(Minima−Controlled Recursive Average)法等、他の雑音成分を推定する方法を用いて雑音パワーλ(k,l)を算出してもよい。MCRA法を用いる場合には、累積頻度Lxの代わりにMCRA法で導入されている雑音の抑圧量を制御するための制御変数を用いる。そのような制御変数は、例えば、推定定常雑音の混合比αdと定常雑音推定時の係数rのセットである。
雑音推定部105は、算出した雑音パワーλ(k,l)を減算部106に出力する。
ここで、減算部106は、パワー算出部104から入力されたパワースペクトル|Y(k,l)|2と雑音推定部105から入力された雑音パワーλ(k,l)とに基づいて、利得GSS(k,l)を、例えば式(1)を用いて算出する。
加算部108は、時間領域変換部107から入力された雑音除去信号x’(t)と振幅調整部113で振幅が調整された補助雑音信号w’(t)とを加算(付加)して補助雑音付加信号x(t)を生成する。加算部108は、生成した補助雑音付加信号x(t)を周波数領域変換部109と音声認識部114に出力する。
n次(nは、1よりも大きい整数)のモーメントμnは式(2)で表される。
歪み度合い算出部110は、指標値として歪度(skewness)Sを算出してもよい。歪度Sは、頻度分布の偏りを示す統計量である。歪度Sが大きいほどパワーxが大きい方向に頻度分布P(x)が偏ることを示し、歪度Sが小さいほどパワーxが小さい方向に頻度分布P(x)が偏ることを示す。頻度分布P(x)が正規分布である場合には、歪度は0である。歪度Sは、頻度分布P(x)の3次のモーメントμ3である。
なお、歪み度合い算出部110は、指標値として歪度差SDを算出してもよい。歪度差SDは、複素補助雑音付加スペクトルX(k,l)についての歪度Sprocから複素入力スペクトルY(k,l)についての歪度Sorigの差である。
歪み度合い算出部110は、算出した歪み度合いの指標値を制御部111に出力する。以下の説明では、歪み度合いの指標値として主に尖度比KRを用いる場合を例にとるが、本実施形態及び後述する実施形態では、尖度比KRの代わりに尖度K、歪度S又は歪度差SDのいずれを用いてもよい。
制御部111は、例えば、歪み度合いを示す指標値と音声認識率とを対応付けた音声認識率対応情報と、その指標値と補助雑音信号の付加量とを対応付けた付加量対応情報とを自部が備える記憶部に予め記憶しておく。音声認識率対応情報は、指標値と音声認識率との関係を示す表であってもよいし、指標値に基づいて音声認識率を算出する数式(関数)やその係数であってもよい。付加量対応情報は、指標値と付加量との関係を示す表であってもよいし、指標値に基づいて付加量を算出する数式(関数)であってもよい。音声認識率対応情報と付加量対応情報の例については後述する。後述するように、音声認識率対応情報には対応する音声認識率が最も高くなる指標値が存在する。この音声認識率が最も高くなる指標値に対応する付加量が、音声認識率が最も高くなる理想付加量である。
図2は、本実施形態に係る雑音推定処理の例を示すフローチャートである。
(ステップS101)雑音推定部105は、パワースペクトル|Y(k,l)|2に基づき対数スペクトルYL(k,l)を算出する。ここで、YL(k,l)=20log10|Y(k,l)|である。その後、ステップS102に進む。
(ステップS102)雑音推定部105は、算出した対数スペクトルYL(k,l)が属する階級Iy(k,l)を定める。ここで、Iy(k,l)=floor(YL(k,l)−Lmin)/Lstepである。floor(…)は、実数…、又は…よりも小さい最大の整数を与える床関数(floor function)である。Lmin、Lstepは、それぞれ予め定めた最小レベル、階級毎のレベルの幅である。その後、ステップS103に進む。
(ステップS105)雑音推定部105は、所定の累積頻度Lxに対応する累積度数S(k,l,Imax)・Lx/100に最も近似する累積度数S(k,l,i)を与える階数iを、推定階数Ix(k,l)として定める。即ち、推定階数Ix(k,l)は、累積度数S(k,l,i)との間で次の関係がある。Ix(k,l)=argi min[S(k,l,Imax)・Lx/100−S(k,l,i)]ここで、argi(…)は、…の条件を満たすiの値を示す。その後、ステップS106に進む。
(ステップS106)雑音推定部105は、定めた推定階数Ix(k,l)を対数レベルλHRLE(k,l)に換算する。ここで、λHRLE(k,l)=Lmin+Lstep・Ix(k,l)である。そして、対数レベルλHRLE(k,l)を、線形領域に変換して雑音パワーλ(k,l)を算出する。即ち、λ(k,l)=10(λHRLE(k,l)/20)である。その後、処理を終了する。
図3は、パワースペクトル|Y(k,l)|2の時間変動の例を示すスペクトログラムである。
図3において、横軸は時刻、縦軸は周波数を示す。図3では、パワーの大きさが濃淡で示されている。図3の右端に示されているように、パワーが大きい領域ほど濃く、パワーが小さい領域ほど薄く示されている。
図3では、時刻が1.3−2.0s(秒)、3.3−4.2s、5.9−6.7sである3つの区間では、それ以外の区間よりも濃く示されている。この3つの区間が、収録された音響信号に発話された音声が含まれる音声区間であることを示す。
図4において、横軸は周波数、縦軸はパワーを示す。但し、縦軸の数値は、機器に固有の設定値で規格化された無次元の値である。
図4は、音声区間内のある時刻(例えば、4.0s)における複素補助雑音付加スペクトルX(k,l)に基づくパワーを示す。例えば、2200Hz付近や、7200Hz付近において、パワーを示す曲線は鋭いピークを有する。これらのピークは、ミュージカルノイズ、つまり、雑音抑圧部103で雑音成分を抑圧する処理によって生じた歪みを示す。
図5において、横軸はパワーを示し、縦軸は頻度を示す。ここで、頻度は、予め定めたパワーの量子化幅(図5の例では、0.01)で量子化した量子化パワー毎に、所定の時間内に現れた頻度を示す。図5に塗りつぶして示されている頻度分布は、雑音成分が抑圧されていない複素入力スペクトルY(k,l)に係る頻度分布を示す。図5に斜線で示されている頻度分布は、同じ時刻の複素入力スペクトルY(k,l)から算出された複素補助雑音付加スペクトルX(k,l)に基づくパワーに係る頻度分布を示す。図5に示されているように、複素補助雑音付加スペクトルX(k,l)に基づくパワーに係る頻度分布の方が、パワーの値がより大きい領域に分布している。これは、図4に示したように複素補助雑音付加スペクトルX(k,l)に、処理によって歪が加えられたことを示す。
図6は、本実施形態に係る歪み度合い算出部110が統計量を算出する処理を示すフローチャートである。
(ステップS202)歪み度合い算出部110は、現在のフレームlよりも所定の累積時間前(例えば、20秒)から現在のフレームlまでの、その量子化パワーxをとる回数を累積することによって量子化パワーx毎の頻度P(x)を計数する。歪み度合い算出部110は、頻度を直接計数する代わりに、α’P’(x)+(1−α’)を現在の頻度P(x)として算出し、この算出した値を頻度P(x)と定めてもよい。α’は、0より大きく、1より小さい時間減衰係数であり、累積時間に対応する値である。P’(x)は、直前のフレームl−1における頻度P(x)である。その後、ステップS203に進む。
(ステップS204)歪み度合い算出部110は、形状母数a及び尺度母数θに基づき統計量を算出する。例えば、歪み度合い算出部110は、歪度Sprocを2/√aと算出する。歪み度合い算出部110は、尖度Kprocを6/aと算出する。その後、図6に示す処理を終了する。
図7は、尖度比KRの例を示す図である。
図7において、横軸は補助雑音信号の付加量を示し、縦軸は尖度比KRを示す。図7に示す付加量は、前述した振幅が調整された補助雑音信号w’(t)の平均振幅の雑音除去信号x’(t)の平均振幅に対する割合をパーセントで表した値である。付加量の最小値が0であり最大値が100である。但し、図7に示す付加量は、0から40までに限られている。また、この例では、雑音として白色雑音が付加されている環境下で1名の話者が発話している環境下で収録された音響信号が用いられている。
図8は、音声認識率の例を示す図である。
図8において、横軸は尖度比KRを示し、縦軸は音声認識率を示す。図8に示す認識率は、収録される雑音として白色雑音が付加されている環境下で1名の女性が発話しているときの単語認識率(WCR:Word Recognition Rate)である。この例では、単語認識率は、発話された単語の各回について正しく認識された回数(正解数)を全発話数(計216回)で除算した値である。ここで、尖度比KRは、音声区間について算出されたものである。
図9は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS301)音響処理装置1は、処理に用いる変数について、予め定めた初期値を設定する(初期設定)。かかる変数には、例えば、雑音推定部105においてHRLE法を用いる場合における累積頻度Lx、振幅調整部113における付加量がある。その後、ステップS302に進む。
(ステップS302)パワー算出部104は、音響信号y(t)を周波数領域で表した複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|2を算出する。雑音推定部105はパワースペクトル|Y(k,l)|2に含まれる雑音パワーλ(k,l)を、例えばHRLE法を用いて算出することで雑音成分を推定する。その後、ステップS303に進む。
(ステップS304)加算部108は、複素雑音除去スペクトルX’(k,l)を時間領域に変換した雑音除去信号x’(t)に振幅が調整された補助雑音信号w’(t)を加算(付加)して補助雑音付加信号x(t)を生成する。その後、ステップS305に進む。
(ステップS306)制御部111は、歪みの度合いを示す指標値として尖度比KRに基づいて雑音除去信号x’(t)に補助雑音信号w(t)を付加する付加量を音声認識率が最高になるように制御する。ここで、制御部111は、例えば、尖度比KRに対応する付加量を予め記憶している付加量対応情報に基づいて定め、定めた付加量と音声認識率が最高になる理想付加量との差である差分付加量を算出する。その後、ステップS307に進む。
(ステップS307)音声認識部114は、雑音除去信号x’(t)に振幅が調整された補助雑音信号w’(t)が付加された補助雑音付加信号x(t)について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。
また、本実施形態では、補助雑音付加信号に基づいて音声認識率を推定し、推定した音声認識率が最も高くなるように補助雑音の付加量が制御されるため音声認識率をさらに向上することができる。
以下、図面を参照しながら本発明の第2の実施形態について第1の実施形態と同一の構成については同一の符号を付して説明する。
図10は、本実施形態に係る音響処理装置2の構成を示す概略ブロック図である。
音響処理装置2は、音響処理装置1(図1)における制御部111の代わりに制御部211を備え、さらに、雑音抑圧部203、時間領域変換部207、加算部208及び振幅調整部213を含んで構成される。
音響処理装置2において、加算部108は、生成した補助雑音付加信号x(t)を音声認識部114に出力せず、補助雑音付加信号x(t)は、後述するように制御部211が累積頻度Lxや付加量を制御するために用いる。音響処理装置2では、雑音抑圧部203は、制御部211が定めた累積頻度Lxに基づいて雑音成分を抑圧する。また、制御部211が制御した付加量で振幅が調整された補助雑音信号が付加された補助雑音付加信号が音声認識部114で音声認識処理に用いられる。
ここで、制御部211には、付加量対応情報と音声認識率対応情報を自部が備える記憶部に予め記憶しておく。音声認識率対応情報には、音声認識率に、歪み度合いを示す指標値と累積頻度Lxとの組を対応付けておく(図8)。付加量対応情報には、付加量に、累積頻度Lxと歪み度合いを示す指標値との組を対応付けておく(図7)。
制御部211は、付加量対応情報に基づいて、選択した累積頻度Lxと入力された歪み度合いを示す指標値との組に対応した付加量を推定する。この推定した付加量を推定付加量と呼ぶ。
パワー算出部204は、パワー算出部104と同様に、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|2を算出する。パワー算出部204は、算出したパワースペクトル|Y(k,l)|2を雑音推定部205及び減算部206に出力する。
減算部206は、減算部106と同様に、パワー算出部204から入力されたパワースペクトル|Y(k,l)|2から雑音パワーλ(k,l)を減算することによって、雑音成分を除去した複素雑音除去スペクトルX’(k,l)を算出する。減算部206は、算出した複素雑音除去スペクトルX’(k,l)を時間領域変換部207に出力する。
加算部208は、時間領域変換部207から入力された雑音除去信号x’(t)と振幅調整部213で振幅が調整された補助雑音信号w’(t)とを加算(付加)して補助雑音付加信号x(t)を生成する。加算部208は、生成した補助雑音付加信号x(t)を音声認識部114に出力する。
従って、音声認識部114には、制御部211が定めた累積頻度Lxに基づいて雑音成分が抑制され、制御部211が制御した付加量に基づいて補助雑音信号w’(t)が付加された補助雑音付加信号x(t)が供給される。
図11において、横軸と縦軸の関係は図7に示す例と同様である。図11や後述する図12に示す例では、雑音として音楽が付加されている環境下で1名の話者が発話している環境下で収録された音響信号が用いられている。
この例でも、付加量が大きくなるほど尖度比KRが線形に減少し、累積頻度Lxが0から0.4までの間では、付加量と尖度比KRとの関係に有意な差は認められず、累積頻度Lxによる依存性がほとんどないことが示される。但し、累積頻度Lxが0.5よりも大きい場合には付加量と尖度比KRとの関係に差が生じる。また、図11に示す尖度比KRは、全体的に図7に示すものよりも大きい値であり、収録される雑音の音源によっても尖度比KRが異なることを示す。
図12において、横軸と縦軸の関係は図8に示す例と同様である。
この例でも、音声認識率が最高となる尖度比KRが存在する。累積頻度Lxが0から0.4までの間では、累積頻度Lxによる有意な差は認められず、尖度比KRが約1.26のとき認識率が85%と最も高くなる。但し、累積頻度Lxが0.5よりも大きい場合には尖度比KRと認識率との関係に差が生じる。また、図12に示す認識率は、全体的に図8に示すものよりも大きい値であり、収録される雑音の音源によっても認識率が異なることを示す。
図13は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS401)音響処理装置1は、処理に用いる変数について、予め定めた初期値を設定する(初期設定)。かかる変数には、例えば、雑音推定部105においてHRLE法を用いる場合における累積頻度Lx、振幅調整部113における付加量がある。その後、ステップS402に進む。
(ステップS402)雑音推定部105はパワースペクトル|Y(k,l)|2に含まれる雑音パワーλ(k,l)を、例えばHRLE法を用いて制御部211から入力された少なくとも2通りの累積頻度Lxのそれぞれについて算出する。これにより、それぞれの累積頻度Lxについての雑音成分が推定される。その後、ステップS403に進む。
(ステップS404)加算部108は、複素雑音除去スペクトルX’(k,l)を時間領域に変換した雑音除去信号x’(t)に振幅が調整された補助雑音信号w’(t)を加算(付加)して、それぞれの累積頻度Lxについての補助雑音付加信号x(t)を生成する。その後、ステップS405に進む。
(ステップS406)制御部211は、音声認識率対応情報に基づいて、それぞれの累積頻度Lx並びにそれぞれに基づいて算出された歪み度合いを示す指標値との組に対応した音声認識率を推定し、推定した音声認識率が最も高い累積頻度Lxを選択する。累積頻度Lxは雑音成分の抑圧量を示すところ、これにより、雑音抑圧量が決定される。制御部211は、選択した累積頻度Lxを雑音推定部205に出力する。その後、ステップS407に進む。
(ステップS408)音声認識部114には、制御部211が定めた累積頻度Lxに基づいて雑音成分が抑制され、制御部211が制御した付加量に基づいて補助雑音信号が付加された補助雑音付加信号x(t)が供給される。音声認識部114は、供給された補助雑音付加信号x(t)について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。
音声判定部は、その時間間隔毎の零交差数が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、音響信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。
音響条件判定部は、収音部101から入力された音響信号に基づいて音響条件を判定してもよい。音響条件判定部は、既知の残響時間推定処理や残響量推定処理を用いて、それぞれ残響時間、残響量を算出してもよい。また、音響条件判定部は、既知の話者認識処理を用いて、話者を認識してもよい。
歪み度合い算出部110は、予め音響条件毎に歪み度合いを示す指標値を算出しておく。そこで、歪み度合い算出部110は、予め算出しておいた指標値と音響条件とを対応付けた音響条件情報を予め記憶させておいた記憶部を備え、音響条件判定部が判定した音響条件に対応する指標値を、記憶部から読み出すようにしてもよい。
また、制御部111、211は、加算部108から補助雑音付加信号x(t)が入力され、入力された補助雑音付加信号x(t)について音声認識部114と同様の音声認識処理を行い、その過程で尤度を取得してもよい。
制御部111は、補助雑音信号w’(t)の付加量を変更し、変更された付加量が得られるように振幅調整部113に補助雑音信号w’(t)の振幅を調整させてもよい。さらに、制御部111は、音声認識処理によって得られた尤度が最も高くなる付加量を定めてもよいし、付加量毎に歪み度合い算出部110から入力された歪み度合いの指標値と尤度とを対応付けて上述の付加量対応情報を更新してもよい。
制御部211は、補助雑音信号w’(t)の付加量と抑圧量(例えば、累積頻度Lx)の組を変更し、変更された付加量が得られるように振幅調整部113に補助雑音信号w’(t)の振幅を調整させ、変更された抑圧量が得られるように雑音抑圧部103の抑圧量を制御してもよい。さらに、制御部111は、音声認識処理によって得られた尤度が最も高くなる付加量と抑圧量を定めてもよいし、付加量と抑圧量毎に歪み度合い算出部110から入力された歪み度合いの指標値と尤度とを対応付けて上述の音声認識率対応情報を更新してもよい。従って、尤度を音声認識率の指標値として用いることにより、制御部111、211においてオンラインで音声認識率を推定する処理や、付加量対応情報、音声認識率対応情報を更新することが可能になる。これにより、システム全体として音声認識率が向上する。
これらの少なくとも1チャネルの音響信号が周波数領域で示されているデータである場合には、収音部101又は音源分離部は、そのデータを雑音抑圧部103に出力してもよい。
上述した実施形態では、歪み度合い算出部110は、予め定めた周波数帯域毎に歪み度合いを示す指標値を算出する。そして、音声認識部114、制御部111、211は、歪み度合いを示す指標値が大きい周波数帯域ほど、その寄与が小さくなるMFMを算出する。そして、音声認識部114は、制御部111、211は、算出したMFMで音響特徴量に対応する尤度で周波数帯域毎に重み付け、重み付けた尤度が最も高い認識結果(例えば、音素)を定める。これにより、歪み度合いが大きい周波数帯域の成分ほど、その成分の音響特徴量による寄与が低減するため音声認識率が向上する。
(a)補助雑音付加信号x(t)を周波数領域の複素雑音除去スペクトルX’(k,l)に変換する。なお、本実施形態では、この過程を行う代わりに周波数領域変換部109から複素雑音除去スペクトルX’(k,l)を入力してもよい。
(b)周波数領域変換部102から入力信号y(t)の複素スペクトルY(k,l)を入力する。
(c)雑音抑圧部105、205から雑音パワーλ(k,l)を入力する。
(d)予め定めた周波数帯域、例えば、メル周波数の帯域f毎に複素スペクトルY(k,l)、複素雑音除去スペクトルX’(k,l)及び雑音パワーλ(k,l)に基づいて、例えば式(6)を用いて信頼度m(f,l)を算出する。
雑音抑圧処理においてミュージカルノイズ等の歪が生じていなければ、Sout(f,l)+B(f,l)は、Sin(f,l)に補助雑音信号のエネルギー値を加算した値と等しくなる。従って、雑音が抑圧されておらず、補助雑音が付加されていない場合には、信頼度m(f,l)は1となる。また、歪が生じていればSout(f,l)+B(f,l)は、Sin(f,l)に補助雑音信号のエネルギー値を加算した値よりもさらに大きい値となるため、信頼度m(f,l)は、1よりも小さく、0により近い値となる。
従って、信頼度m(f,l)は、補助雑音信号を加えたことや歪による劣化の度合いを示す指標値であって、その最大値が1、最小値が0である。
(f)歪み度合いを示す指標値に基づいて後述するMFMの閾値Tを算出する。ここで、歪み度合いを示す指標値が大きいほど、閾値Tが大きくなるように算出する。例えば、閾値Tを尖度比KRの一次関数、T=cKR+dを用いて算出する。ここで、c、dは、予め定めた実数値である。
(g)信頼度m(f,l)、尖度比KRに基づいて帯域f毎にMFM M(f,l)を算出する。上述した実施形態では、MFMとしてハードマスク(ハードMFM)を用いてもよいし、ソフトマスク(MFM)を用いてもよい。ハードマスクを用いるとき、信頼度m(f,l)が閾値Tよりも小さい場合、M(f,l)=0であり、信頼度m(f,l)が閾値Tと等しいか、閾値Tより大きい場合、M(f,l)=1である。
ソフトマスクを用いるとき、信頼度m(f,l)が閾値Tよりも小さい場合には、M(f,l)は0である。また、信頼度m(f,l)が閾値Tと等しいか、閾値Tよりも大きい場合には、M(f,l)は信頼度m(f,l)によって単調増加する関数であって、最小値が0、最大値が1である関数、例えば、式(7)に示されるシグモイド関数である。
(i)音響特徴量ξが与えられたときの状態S、例えば音素モデルの尤度L(ξ|S)を、例えば式(8)を用いて算出する。
また、上述した実施形態における音響処理装置1、2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1、2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
103、203…雑音推定部、104、204…パワー算出部、
105、205…雑音推定部、106、206…減算部、
107、207…時間領域変換部、108、208…加算部、110…歪み度合い算出部、111、211…制御部、112…補助雑音生成部、113、213…振幅調整部、
114…音声認識部
Claims (3)
- 入力された音響信号に含まれる雑音成分を抑圧する雑音抑圧部と、
前記雑音抑圧部が雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加部と、
前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出部と、
前記補助雑音付加信号に基づいて音声認識率を推定し、前記音声認識率が最も高くなるように前記歪み度合いに対応する前記補助雑音の付加量を制御する制御部と、
を備えることを特徴とする音響処理装置。 - 前記制御部は、少なくとも2通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、前記雑音抑圧部に選択した抑圧量で雑音成分を抑圧させることを特徴とする請求項1に記載の音響処理装置。
- 前記制御部は、前記選択した抑圧量について推定した音声認識率が最も高くなるように前記補助雑音の付加量を制御することを特徴とする請求項2に記載の音響処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013004626A JP6169849B2 (ja) | 2013-01-15 | 2013-01-15 | 音響処理装置 |
US14/148,813 US9542937B2 (en) | 2013-01-15 | 2014-01-07 | Sound processing device and sound processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013004626A JP6169849B2 (ja) | 2013-01-15 | 2013-01-15 | 音響処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014137405A JP2014137405A (ja) | 2014-07-28 |
JP6169849B2 true JP6169849B2 (ja) | 2017-07-26 |
Family
ID=51165835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013004626A Active JP6169849B2 (ja) | 2013-01-15 | 2013-01-15 | 音響処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9542937B2 (ja) |
JP (1) | JP6169849B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6337519B2 (ja) * | 2014-03-03 | 2018-06-06 | 富士通株式会社 | 音声処理装置、雑音抑圧方法、およびプログラム |
US10670417B2 (en) * | 2015-05-13 | 2020-06-02 | Telenav, Inc. | Navigation system with output control mechanism and method of operation thereof |
WO2017094121A1 (ja) * | 2015-12-01 | 2017-06-08 | 三菱電機株式会社 | 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム |
US10134379B2 (en) | 2016-03-01 | 2018-11-20 | Guardian Glass, LLC | Acoustic wall assembly having double-wall configuration and passive noise-disruptive properties, and/or method of making and/or using the same |
US10354638B2 (en) | 2016-03-01 | 2019-07-16 | Guardian Glass, LLC | Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same |
US10373626B2 (en) | 2017-03-15 | 2019-08-06 | Guardian Glass, LLC | Speech privacy system and/or associated method |
US10304473B2 (en) | 2017-03-15 | 2019-05-28 | Guardian Glass, LLC | Speech privacy system and/or associated method |
US20180268840A1 (en) * | 2017-03-15 | 2018-09-20 | Guardian Glass, LLC | Speech privacy system and/or associated method |
US10726855B2 (en) | 2017-03-15 | 2020-07-28 | Guardian Glass, Llc. | Speech privacy system and/or associated method |
JP6868196B2 (ja) * | 2017-06-05 | 2021-05-12 | 富士電機株式会社 | ヒューズの劣化診断方法及び劣化診断装置 |
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
EP3483885B1 (en) * | 2017-11-14 | 2020-05-27 | Talking 2 Rabbit Sarl | A method of enhancing distorted signal, a mobile communication device and a computer program product |
US10440497B2 (en) * | 2017-11-17 | 2019-10-08 | Intel Corporation | Multi-modal dereverbaration in far-field audio systems |
EP3811360A4 (en) * | 2018-06-21 | 2021-11-24 | Magic Leap, Inc. | PORTABLE SYSTEM VOICE PROCESSING |
CN113748462A (zh) | 2019-03-01 | 2021-12-03 | 奇跃公司 | 确定用于语音处理引擎的输入 |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
JP7276469B2 (ja) * | 2019-09-02 | 2023-05-18 | 日本電気株式会社 | 波源方向推定装置、波源方向推定方法、およびプログラム |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4358221B2 (ja) * | 1997-12-08 | 2009-11-04 | 三菱電機株式会社 | 音信号加工方法及び音信号加工装置 |
FR2786308B1 (fr) * | 1998-11-20 | 2001-02-09 | Sextant Avionique | Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede |
US8744844B2 (en) * | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
JP5041934B2 (ja) | 2006-09-13 | 2012-10-03 | 本田技研工業株式会社 | ロボット |
US20080071540A1 (en) * | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
US7881929B2 (en) * | 2007-07-25 | 2011-02-01 | General Motors Llc | Ambient noise injection for use in speech recognition |
US9202455B2 (en) * | 2008-11-24 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation |
JP5207479B2 (ja) * | 2009-05-19 | 2013-06-12 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
WO2011010604A1 (ja) * | 2009-07-21 | 2011-01-27 | 日本電信電話株式会社 | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 |
US8706497B2 (en) * | 2009-12-28 | 2014-04-22 | Mitsubishi Electric Corporation | Speech signal restoration device and speech signal restoration method |
JP5609157B2 (ja) * | 2010-02-26 | 2014-10-22 | ヤマハ株式会社 | 係数設定装置および雑音抑圧装置 |
JP5738020B2 (ja) * | 2010-03-11 | 2015-06-17 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US8892046B2 (en) * | 2012-03-29 | 2014-11-18 | Bose Corporation | Automobile communication system |
EP2747081A1 (en) * | 2012-12-18 | 2014-06-25 | Oticon A/s | An audio processing device comprising artifact reduction |
-
2013
- 2013-01-15 JP JP2013004626A patent/JP6169849B2/ja active Active
-
2014
- 2014-01-07 US US14/148,813 patent/US9542937B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9542937B2 (en) | 2017-01-10 |
JP2014137405A (ja) | 2014-07-28 |
US20140200887A1 (en) | 2014-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6169849B2 (ja) | 音響処理装置 | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP5127754B2 (ja) | 信号処理装置 | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
JP6169910B2 (ja) | 音声処理装置 | |
Tsao et al. | Generalized maximum a posteriori spectral amplitude estimation for speech enhancement | |
JP5153886B2 (ja) | 雑音抑圧装置および音声復号化装置 | |
CN104823236B (zh) | 语音处理系统 | |
CN112086093A (zh) | 解决基于感知的对抗音频攻击的自动语音识别系统 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
WO2009123387A1 (en) | Procedure for processing noisy speech signals, and apparatus and computer program therefor | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
EP2151820B1 (en) | Method for bias compensation for cepstro-temporal smoothing of spectral filter gains | |
WO2022068440A1 (zh) | 啸叫抑制方法、装置、计算机设备和存储介质 | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
Saleem | Single channel noise reduction system in low SNR | |
CN112133320B (zh) | 语音处理装置及语音处理方法 | |
JP5687522B2 (ja) | 音声強調装置、方法、及びプログラム | |
JP2017009657A (ja) | 音声強調装置、および音声強調方法 | |
US11322168B2 (en) | Dual-microphone methods for reverberation mitigation | |
Sai et al. | Speech Enhancement using Kalman and Wiener Filtering | |
Biswas et al. | Acoustic feature extraction using ERB like wavelet sub-band perceptual Wiener filtering for noisy speech recognition | |
CN118692481A (zh) | 消噪及啸叫检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6169849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |