[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6169849B2 - 音響処理装置 - Google Patents

音響処理装置 Download PDF

Info

Publication number
JP6169849B2
JP6169849B2 JP2013004626A JP2013004626A JP6169849B2 JP 6169849 B2 JP6169849 B2 JP 6169849B2 JP 2013004626 A JP2013004626 A JP 2013004626A JP 2013004626 A JP2013004626 A JP 2013004626A JP 6169849 B2 JP6169849 B2 JP 6169849B2
Authority
JP
Japan
Prior art keywords
noise
unit
signal
speech recognition
recognition rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013004626A
Other languages
English (en)
Other versions
JP2014137405A (ja
Inventor
一博 中臺
一博 中臺
圭佑 中村
圭佑 中村
大輔 木元
大輔 木元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013004626A priority Critical patent/JP6169849B2/ja
Priority to US14/148,813 priority patent/US9542937B2/en
Publication of JP2014137405A publication Critical patent/JP2014137405A/ja
Application granted granted Critical
Publication of JP6169849B2 publication Critical patent/JP6169849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響処理装置に関する。
雑音下で音声認識を行うと音声認識率が低下することが知られている。入力される音響信号に含まれる背景雑音を抑圧して音声認識率の低下を緩和することが提案されている。背景雑音を抑圧すると人間が発した音声の成分に歪みを生じさせるため、音声認識率を十分に低下できないことや、却って音声認識率が低下することがある。この現象に対して、例えば、特許文献1には、雑音を抑圧した後の音響信号に白色雑音を付加して歪みの影響を低減する処理が開示されている。特許文献1に記載の処理では、白色雑音の付加量を大きくするに従い雑音抑圧による歪みの影響が緩和され音声認識率が高くなることがある。しかしながら、白色雑音を付加すると音声の成分が相対的に少なくなるため音声認識率が却って低くなることもある。
他方、特許文献2には、例えば、各チャネルの音響信号について雑音成分を抽出し、雑音成分に含まれる定常雑音を推定し、定常雑音のスペクトルを減算係数に応じた度合いで各チャネルの音響信号のスペクトルから減算する第1雑音抑圧手段を備える雑音抑圧装置が開示されている。この雑音抑圧装置は、各チャネルの雑音成分のスペクトルから定常雑音のスペクトルを減算することで非定常雑音のスペクトルを推定し、目的音成分を強調するフィルタ係数を非定常雑音のスペクトルから生成する。また、この雑音抑圧装置は、第1雑音抑圧手段による処理後の複数のチャネルの音響信号についてフィルタ係数を適用したフィルタ処理を実行する第2雑音抑圧手段を備える。そして、この雑音抑圧装置は、音響信号の強度の度数分布における尖度が第1雑音抑圧手段による処理前と第2雑音抑圧手段による処理後とで変化する度合いを示す尖度変化指標を算定し、尖度変化指標に応じて減算係数を可変に制御する。
特許第5041934号公報 特開2010−271411号公報
しかしながら、特許文献2に記載の雑音抑圧装置は、目的音と雑音との方向性の差異の指標として尖度変化指標に基づくスペクトル減算係数を定め、多チャネルの音響信号に含まれる背景雑音を低減するものであるため、処理量が過大である。従って、特許文献1に記載の音響処理装置の白色雑音等の補助雑音を付加する処理のように比較的小さい処理で音声認識率を向上させることができなかった。
本発明は上記の点に鑑みてなされたものであり、補助雑音を付加して音声認識率を向上させる音響処理装置を提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音響信号に含まれる雑音成分を抑圧する雑音抑圧部と、前記雑音抑圧部が雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加部と、前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出部と、前記補助雑音付加信号に基づいて音声認識率を推定し、前記音声認識率が最も高くなるように前記歪み度合いに対応する前記補助雑音の付加量を制御する制御部と、を備えることを特徴とする音響処理装置である。
(2)本発明の他の態様は、上述の音響処理装置であって、前記制御部は、少なくとも2通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、前記雑音抑圧部に選択した抑圧量で雑音成分を抑圧させることを特徴とする。
(3)本発明の他の態様は、上述の音響処理装置であって、前記制御部は、前記選択した抑圧量について推定した音声認識率が最も高くなるように前記補助雑音の付加量を制御することを特徴とする。
上述の(1)の態様によれば、雑音成分が抑圧された音響信号に、雑音抑圧による音声の歪み度合いに応じた付加量で補助雑音が付加されて歪みが緩和される。そのため、本態様によって取得した補助雑音付加信号を音声認識処理に用いることで比較的小さい処理量で音声認識率を向上させることができる。
また、音声認識率が最も高くなる補助雑音の付加量が定められるので、音声認識率をさらに向上することができる。
上述の(2)の態様によれば、雑音成分の抑圧による歪みの影響を低減して音声認識率をさらに向上することができる。
上述の(3)の態様によれば、歪みの影響を緩和し音声認識率への影響がより少ない補助雑音の付加量を求めることができる。
本発明の第1の実施形態に係る音響処理装置1の構成を示す概略ブロック図である。 本実施形態に係る雑音推定処理の例を示すフローチャートである。 パワースペクトルの時間変動の例を示すスペクトログラムである。 複素補助雑音付加スペクトルに基づくパワーの例を示す図である。 パワーの頻度分布の例を示す。 本実施形態に係る歪み度合い算出部が統計量を算出する処理を示すフローチャートである。 尖度比の例を示す図である。 音声認識率の例を示す図である。 本実施形態に係る音響処理を示すフローチャートである。 本発明の第2の実施形態に係る音響処理装置の構成を示す概略ブロック図である。 尖度比の他の例を示す図である。 音声認識率のその他の例を示す図である。 本実施形態に係る音響処理を示すフローチャートである。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理装置1の構成を示す概略ブロック図である。
音響処理装置1は、収音部101、周波数領域変換部102、雑音抑圧部103、時間領域変換部107、加算部(補助雑音付加部)108、周波数領域変換部109、歪み度合い算出部110、制御部111、補助雑音生成部112、振幅調整部113及び音声認識部114を含んで構成される。
音響処理装置1は、入力された音響信号に含まれる雑音成分を雑音抑圧部103で抑圧し、雑音抑圧部103が雑音成分を抑圧した音響信号に、補助雑音付加部(加算部108)で補助雑音を付加して補助雑音付加信号を生成する。音響処理装置1は、歪み度合い算出部110で、生成した補助雑音付加信号の歪み度合いを算出し、制御部111では算出された歪み度合いに基づいて補助雑音付加部で補助雑音を付加する付加量を制御する。そして、音響処理装置1は、生成された補助雑音付加信号について音声認識部114で音声認識処理を行う。
収音部101は、到来した音波に基づいて電気信号である音響信号y(t)を生成し、生成した音響信号y(t)を周波数領域変換部102に出力する。tは、時刻である。収音部101は、例えば、可聴帯域(20−20kHz)の音響信号を収録するマイクロホンである。
周波数領域変換部102は、収音部101から入力され、時間領域で表された音響信号y(t)を、周波数領域で表された複素入力スペクトルY(k,l)に変換する。kは、周波数を表すインデックスであり、lは、フレームを示すインデックスである。ここで、周波数領域変換部102は、音響信号y(t)について、例えば、フレームl毎に離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。周波数領域変換部102は、音響信号y(t)に窓関数(例えば、ハミング窓)を乗算して、窓関数が乗算された音響信号について周波数領域で表された複素入力スペクトルY(k,l)に変換してもよい。
周波数領域変換部102は、変換した複素入力スペクトルY(k,l)を雑音抑圧部103に出力する。
雑音抑圧部103は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)の雑音成分を推定し、推定した雑音成分を抑圧した音響信号のスペクトル(複素雑音除去スペクトル)を算出する。雑音抑圧部103は、パワー算出部104、雑音推定部105及び減算部106を含んで構成される。
パワー算出部104は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|を算出する。以下の説明では、パワースペクトルを単にパワーと呼ぶことがある。ここで、|…|は、複素数…の絶対値を示す。パワー算出部104は、算出したパワースペクトル|Y(k,l)|を雑音推定部105、減算部106及び歪み度合い算出部110に出力する。
雑音推定部105はパワー算出部104から入力されたパワースペクトル|Y(k,l)|に含まれる雑音成分のパワースペクトルλ(k,l)を算出する。以下の説明では、雑音パワースペクトルλ(k,l)を雑音パワーλ(k,l)と呼ぶことがある。
ここで、雑音推定部105は、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いて雑音パワーλ(k,l)を算出する。HRLE法では、対数領域におけるパワースペクトル|Y(k,l)|のヒストグラム(頻度分布)を算出し、その累積分布と予め定めた累積頻度Lx(例えば、0.3)に基づいて雑音パワーλ(k,l)を算出する。この累積頻度Lxは、収録された音響信号に含まれる背景雑音の雑音パワーを定める変数、言い換えれば減算部106で減算(抑圧)される雑音成分の抑圧量を制御するための制御変数である。累積頻度Lxが大きいほど、抑圧量が大きくなり、累積頻度Lxが小さいほど抑圧量は小さくなる。累積頻度Lxが0のときは、抑圧量も0になる。HRLE法を用いて雑音パワーλ(k,l)を算出する処理については後述する。
本実施形態では、雑音推定部105は、HRLE法の代わりに、MCRA(Minima−Controlled Recursive Average)法等、他の雑音成分を推定する方法を用いて雑音パワーλ(k,l)を算出してもよい。MCRA法を用いる場合には、累積頻度Lxの代わりにMCRA法で導入されている雑音の抑圧量を制御するための制御変数を用いる。そのような制御変数は、例えば、推定定常雑音の混合比αと定常雑音推定時の係数rのセットである。
雑音推定部105は、算出した雑音パワーλ(k,l)を減算部106に出力する。
減算部106は、パワー算出部104から入力されたパワースペクトル|Y(k,l)|から雑音パワーλ(k,l)を減算することによって、複素雑音除去スペクトルX’(k,l)を算出する。
ここで、減算部106は、パワー算出部104から入力されたパワースペクトル|Y(k,l)|と雑音推定部105から入力された雑音パワーλ(k,l)とに基づいて、利得GSS(k,l)を、例えば式(1)を用いて算出する。
式(1)において、max(α,β)は、実数αとβのうち大きいほうの数を与える関数を示す。βは、予め定めた利得GSS(k,l)の最小値である。ここで、関数maxの左側(実数αの側)は、フレームlにおける周波数kに係る雑音成分が除去されたパワースペクトル|Y(k,l)|−λ(k,l)の、雑音が除去されていないパワースペクトル|Y(k,l)|の比に対する平方根を示す。
減算部106は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に算出した利得GSS(k,l)を乗算して複素雑音除去スペクトルX’(k,l)を算出する。つまり、複素雑音除去スペクトルX’(k,l)は、複素入力スペクトルY(k,l)からその雑音成分を示す雑音パワーが減算(抑圧)された複素スペクトルを示す。減算部106は、算出した複素雑音除去スペクトルX’(k,l)を時間領域変換部107に出力する。
時間領域変換部107は、減算部106から入力された複素雑音除去スペクトルX’(k,l)を時間領域の雑音除去信号x’(t)に変換する。ここで、時間領域変換部107は、フレームl毎に推定雑音除去X’(k,l)に対して、例えば逆離散フーリエ変換(Inverse Discrete Fourier Transform、IDFT)を行って、雑音除去信号x’(t)を算出する。時間領域変換部107は、変換した雑音除去信号x’(t)を加算部108に出力する。つまり、雑音除去信号x’(t)は、音響信号y(t)から雑音抑圧部103で推定された雑音成分が抑圧された音響信号である。
加算部108は、時間領域変換部107から入力された雑音除去信号x’(t)と振幅調整部113で振幅が調整された補助雑音信号w’(t)とを加算(付加)して補助雑音付加信号x(t)を生成する。加算部108は、生成した補助雑音付加信号x(t)を周波数領域変換部109と音声認識部114に出力する。
周波数領域変換部109は、加算部108から入力された補助雑音付加信号x(t)を、周波数領域で表された複素補助雑音付加スペクトルX(k,l)に変換する。周波数領域変換部109が補助雑音付加信号x(t)に行う処理は、周波数領域変換部102が音響信号y(t)に行う処理と同様であってもよい。周波数領域変換部109は、変換した複素補助雑音付加スペクトルX(k,l)を歪み度合い算出部110に出力する。
歪み度合い算出部110は、複素補助雑音付加スペクトルX(k,l)に基づいて上述した処理、主に雑音抑圧部103によって生じた歪みの度合いを示す指標値を算出する。雑音抑圧部103で推定した雑音成分のスペクトルを抑圧する処理を行うと、特定の狭い周波数帯域においてパワーが大きい成分を1個又は複数個有する歪みの成分が複素雑音除去スペクトルX’(k,l)や複素補助雑音付加スペクトルX(k,l)に残ることがある。このような歪みの成分は、ミュージカルノイズと呼ばれ、音声認識率を低下させる原因となる。
歪み度合い算出部110は、主にミュージカルノイズの特性を示す指標値として、複素補助雑音付加スペクトルX(k,l)のパワーxの頻度分布(ヒストグラム)P(x)における3次又は3次よりも高次のモーメントに基づく統計量を算出する。以下の説明では、頻度分布P(x)を単に頻度P(x)と呼ぶことがある。歪み度合い算出部110は、そのような指標値として、例えば、尖度(kurtosis)Kを算出する。尖度Kは、頻度分布の尖鋭さを示す統計量である。尖度Kが大きいほど鋭いピークと長い裾を有する分布を示し、尖度Kが小さいほど鈍いピークと短い裾を有する分布を示す。具体的には、尖度Kは、μ/μ である。ここで、μは、頻度分布P(x)の4次のモーメントμである。μ は、2次のモーメントμの二乗値、つまり分散である。尖度Kにより、歪みの度合いを定量的に表すことができる。
n次(nは、1よりも大きい整数)のモーメントμは式(2)で表される。
式(2)において、μは、頻度分布P(x)が与えられたときのパワーxの期待値である。
歪み度合い算出部110は、指標値として歪度(skewness)Sを算出してもよい。歪度Sは、頻度分布の偏りを示す統計量である。歪度Sが大きいほどパワーxが大きい方向に頻度分布P(x)が偏ることを示し、歪度Sが小さいほどパワーxが小さい方向に頻度分布P(x)が偏ることを示す。頻度分布P(x)が正規分布である場合には、歪度は0である。歪度Sは、頻度分布P(x)の3次のモーメントμである。
歪み度合い算出部110は、指標値として尖度比(kurtosis ratio)Kを算出してもよい。尖度比Kは、Kproc/Korigである。ここで、Kprocは、複素補助雑音付加スペクトルX(k,l)についての尖度であり、Korigは、周波数領域変換部102から入力された複素入力スペクトルY(k,l)についての尖度である。つまり、尖度比Kは、上述した雑音成分を抑圧する処理と、補助雑音信号を付加する処理によって生じた歪みを定量化した指標値である。
なお、歪み度合い算出部110は、指標値として歪度差Sを算出してもよい。歪度差Sは、複素補助雑音付加スペクトルX(k,l)についての歪度Sprocから複素入力スペクトルY(k,l)についての歪度Sorigの差である。
歪み度合い算出部110は、算出した歪み度合いの指標値を制御部111に出力する。以下の説明では、歪み度合いの指標値として主に尖度比Kを用いる場合を例にとるが、本実施形態及び後述する実施形態では、尖度比Kの代わりに尖度K、歪度S又は歪度差Sのいずれを用いてもよい。
制御部111は、歪み度合い算出部110から入力された指標値に基づいて補助雑音信号の付加量を制御する。補助雑音信号の付加量は、例えば、振幅が調整された補助雑音信号w’(t)の平均パワーの、雑音除去信号x’(t)の平均パワーに対する割合で示される。この割合は無次元量である。
制御部111は、例えば、歪み度合いを示す指標値と音声認識率とを対応付けた音声認識率対応情報と、その指標値と補助雑音信号の付加量とを対応付けた付加量対応情報とを自部が備える記憶部に予め記憶しておく。音声認識率対応情報は、指標値と音声認識率との関係を示す表であってもよいし、指標値に基づいて音声認識率を算出する数式(関数)やその係数であってもよい。付加量対応情報は、指標値と付加量との関係を示す表であってもよいし、指標値に基づいて付加量を算出する数式(関数)であってもよい。音声認識率対応情報と付加量対応情報の例については後述する。後述するように、音声認識率対応情報には対応する音声認識率が最も高くなる指標値が存在する。この音声認識率が最も高くなる指標値に対応する付加量が、音声認識率が最も高くなる理想付加量である。
制御部111は、入力された指標値に対応する音声認識率を音声認識率対応情報に基づいて推定する。制御部111は、入力された指標値に対応する付加量を付加量対応情報に基づいて定める。制御部111は、定めた付加量と理想付加量との差である差分付加量を算出し、算出した差分付加量を振幅調整部113に出力する。差分付加量を付加量の制御に用いることで、音源によって指標値や音声認識率が異なっても所定の音源に係る指標値と音声認識率との関係を利用することができる。これによって、音声認識率が最高になるように付加量が制御される。
補助雑音生成部112は、補助雑音を示す補助雑音信号wを生成する。補助雑音生成部112は、例えば、各周波数帯域のパワーが等しい白色雑音(ホワイトノイズ)を示す信号を生成する。このような信号として、例えば、M系列等の疑似乱数系列を使用することができる。補助雑音生成部112は、その他、各オクターブ帯域のパワーがほぼ等しいピンクノイズを生成してもよい。補助雑音生成部112が生成する補助雑音は、白色雑音やピンクノイズ等の広帯域雑音に限られず、雑音除去信号x’(t)に付加されることにより音声認識率を向上させることができる音響信号であれば、例えば、周波数帯域が制限された帯域雑音であってもよい。補助雑音生成部112は、生成した補助雑音信号wを振幅調整部113に出力する。
振幅調整部113は、制御部111から入力された差分付加量を現在の付加量に加算して付加量を更新する。振幅調整部113は、更新した付加量に応じて補助雑音生成部112から入力された補助雑音信号w(t)の振幅を調整し、振幅を調整した補助雑音信号w’(t)を加算部108に出力する。振幅調整部113は、例えば、入力された音響信号の振幅を増加又は減少する増幅器である。
音声認識部114は、加算部108から入力された補助雑音付加信号x(t)について音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。音声認識部114は例えば、音響モデルである隠れマルコフモデル(HMM:Hidden Markov Model,HMM)と単語辞書を備える。音声認識部114は、補助雑音付加信号x(t)について音響特徴量、例えば、13個の静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)と13個のデルタMSLSと1個のデルタパワーを所定時間毎に算出する。音声認識部114は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から単語辞書を用いて単語を認識する。
次に、雑音推定部105がHRLE法を用いて雑音パワーλ(k,l)を算出する雑音推定処理について説明する。
図2は、本実施形態に係る雑音推定処理の例を示すフローチャートである。
(ステップS101)雑音推定部105は、パワースペクトル|Y(k,l)|に基づき対数スペクトルY(k,l)を算出する。ここで、Y(k,l)=20log10|Y(k,l)|である。その後、ステップS102に進む。
(ステップS102)雑音推定部105は、算出した対数スペクトルY(k,l)が属する階級I(k,l)を定める。ここで、I(k,l)=floor(Y(k,l)−Lmin)/Lstepである。floor(…)は、実数…、又は…よりも小さい最大の整数を与える床関数(floor function)である。Lmin、Lstepは、それぞれ予め定めた最小レベル、階級毎のレベルの幅である。その後、ステップS103に進む。
(ステップS103)雑音推定部105は、現フレームlにおける階級I(k,l)での度数N(k,l)を累積する。ここで、N(k,l,i)=αN(k,l−1,i)+(1−α)δ(i−I(k,l))である。αは、時間減衰係数(time decay parameter)である。α=1−1/(T・F)である。Tは、予め定めた時定数(time constant)である。Fは、サンプリング周波数である。δ(…)は、ディラックのデルタ関数(Dirac’s delta function)である。iは、任意の階級、つまり対数スペクトルY(k,l)の区間を示すインデックスである。即ち、度数N(k,l,I(k,l))は、前フレームl−1における度数N(k,l−1,I(k,l))にαを乗じて減衰させた値に、1−αを加算して得られる。その後、ステップS104に進む。
(ステップS104)雑音推定部105は、最下位の階級0から階級iまで度数N(k,l,i’)を加算して、累積度数S(k,l,i)を算出する。その後、ステップS105に進む。
(ステップS105)雑音推定部105は、所定の累積頻度Lxに対応する累積度数S(k,l,Imax)・Lx/100に最も近似する累積度数S(k,l,i)を与える階数iを、推定階数I(k,l)として定める。即ち、推定階数I(k,l)は、累積度数S(k,l,i)との間で次の関係がある。I(k,l)=arg min[S(k,l,Imax)・Lx/100−S(k,l,i)]ここで、arg(…)は、…の条件を満たすiの値を示す。その後、ステップS106に進む。
(ステップS106)雑音推定部105は、定めた推定階数I(k,l)を対数レベルλHRLE(k,l)に換算する。ここで、λHRLE(k,l)=Lmin+Lstep・I(k,l)である。そして、対数レベルλHRLE(k,l)を、線形領域に変換して雑音パワーλ(k,l)を算出する。即ち、λ(k,l)=10(λHRLE(k,l)/20)である。その後、処理を終了する。
次に、パワー算出部104が算出したパワースペクトル|Y(k,l)|の例について説明する。
図3は、パワースペクトル|Y(k,l)|の時間変動の例を示すスペクトログラムである。
図3において、横軸は時刻、縦軸は周波数を示す。図3では、パワーの大きさが濃淡で示されている。図3の右端に示されているように、パワーが大きい領域ほど濃く、パワーが小さい領域ほど薄く示されている。
図3では、時刻が1.3−2.0s(秒)、3.3−4.2s、5.9−6.7sである3つの区間では、それ以外の区間よりも濃く示されている。この3つの区間が、収録された音響信号に発話された音声が含まれる音声区間であることを示す。
図4は、複素補助雑音付加スペクトルX(k,l)に基づくパワーの例を示す図である。
図4において、横軸は周波数、縦軸はパワーを示す。但し、縦軸の数値は、機器に固有の設定値で規格化された無次元の値である。
図4は、音声区間内のある時刻(例えば、4.0s)における複素補助雑音付加スペクトルX(k,l)に基づくパワーを示す。例えば、2200Hz付近や、7200Hz付近において、パワーを示す曲線は鋭いピークを有する。これらのピークは、ミュージカルノイズ、つまり、雑音抑圧部103で雑音成分を抑圧する処理によって生じた歪みを示す。
図5は、パワーxの頻度分布P(x)の例を示す。
図5において、横軸はパワーを示し、縦軸は頻度を示す。ここで、頻度は、予め定めたパワーの量子化幅(図5の例では、0.01)で量子化した量子化パワー毎に、所定の時間内に現れた頻度を示す。図5に塗りつぶして示されている頻度分布は、雑音成分が抑圧されていない複素入力スペクトルY(k,l)に係る頻度分布を示す。図5に斜線で示されている頻度分布は、同じ時刻の複素入力スペクトルY(k,l)から算出された複素補助雑音付加スペクトルX(k,l)に基づくパワーに係る頻度分布を示す。図5に示されているように、複素補助雑音付加スペクトルX(k,l)に基づくパワーに係る頻度分布の方が、パワーの値がより大きい領域に分布している。これは、図4に示したように複素補助雑音付加スペクトルX(k,l)に、処理によって歪が加えられたことを示す。
次に、歪み度合い算出部110が、複素補助雑音付加スペクトルX(k,l)に基づいて指標値として3次又は3次よりも高次のモーメントに基づく統計量を算出する処理について説明する。
図6は、本実施形態に係る歪み度合い算出部110が統計量を算出する処理を示すフローチャートである。
(ステップS201)歪み度合い算出部110は、複素補助雑音付加スペクトルX(k,l)についてパワーを算出する。歪み度合い算出部110は、算出したパワーを、予め定めた量子化幅で、量子化した量子化パワーxを算出する。その後、ステップS202に進む。
(ステップS202)歪み度合い算出部110は、現在のフレームlよりも所定の累積時間前(例えば、20秒)から現在のフレームlまでの、その量子化パワーxをとる回数を累積することによって量子化パワーx毎の頻度P(x)を計数する。歪み度合い算出部110は、頻度を直接計数する代わりに、α’P’(x)+(1−α’)を現在の頻度P(x)として算出し、この算出した値を頻度P(x)と定めてもよい。α’は、0より大きく、1より小さい時間減衰係数であり、累積時間に対応する値である。P’(x)は、直前のフレームl−1における頻度P(x)である。その後、ステップS203に進む。
(ステップS203)歪み度合い算出部110は、頻度P(x)を式(3)に示されるガンマ分布の確率密度関数でモデリング(当てはめ)を行う。
式(3)において、Γ(…)は、実数…のガンマ関数を示す。aは、形状母数、θは、尺度母数である。ここで、歪み度合い算出部110は、形状母数a及び尺度母数θをそれぞれ、例えば、式(4)及び式(5)を用いて算出する。
式(4)において、γ=log(E[x])−E[log(x)]である。また、E[…]は期待値を示す。その後、ステップS204に進む。
(ステップS204)歪み度合い算出部110は、形状母数a及び尺度母数θに基づき統計量を算出する。例えば、歪み度合い算出部110は、歪度Sprocを2/√aと算出する。歪み度合い算出部110は、尖度Kprocを6/aと算出する。その後、図6に示す処理を終了する。
これにより、歪み度合い算出部110は、複素補助雑音付加スペクトルX(k,l)についての歪度Sproc、尖度Kproc等の統計量を比較的少ない演算量で算出することができる。また、歪み度合い算出部110は、複素入力スペクトルY(k,l)についても同様にして歪度Sorig、尖度Korig等の統計量を算出することができる。そして、歪み度合い算出部110は、尖度Kproc、Korigに基づいて尖度比Kを算出してもよいし、歪度Sproc、Sorigに基づいて歪度差Sを算出してもよい。
次に、歪み度合いを示す指標値の一種である尖度比Kの例について説明する。
図7は、尖度比Kの例を示す図である。
図7において、横軸は補助雑音信号の付加量を示し、縦軸は尖度比Kを示す。図7に示す付加量は、前述した振幅が調整された補助雑音信号w’(t)の平均振幅の雑音除去信号x’(t)の平均振幅に対する割合をパーセントで表した値である。付加量の最小値が0であり最大値が100である。但し、図7に示す付加量は、0から40までに限られている。また、この例では、雑音として白色雑音が付加されている環境下で1名の話者が発話している環境下で収録された音響信号が用いられている。
図7は、累積頻度Lxが0、0.1、0.2、0.3、0.4、0.5、0.6のそれぞれについて、付加量と尖度比Kとの関係を示す。ここで、付加量が大きくなるほど尖度比Kが線形に減少する。この関係は、雑音成分の除去によって生じた歪みが、補助雑音信号が付加されるほど緩和されることを示す。また、累積頻度Lxが0から0.5までの間では、付加量と尖度比Kとの関係に有意な差は認められず、累積頻度Lxによる依存性がほとんどないことが示される。
制御部111には、例えば、図7に示す尖度比Kと付加量との関係を示す付加量対応情報を記憶しておいてもよい。付加量対応情報は、この尖度比Kが付加量についての一次関数を示す情報であってもよい。これにより、所定の音源に対する尖度比Kと付加量との関係が、付加量に対応する尖度比Kの目標値として与えられる。
次に、尖度比Kの音声認識率への依存性について説明する。
図8は、音声認識率の例を示す図である。
図8において、横軸は尖度比Kを示し、縦軸は音声認識率を示す。図8に示す認識率は、収録される雑音として白色雑音が付加されている環境下で1名の女性が発話しているときの単語認識率(WCR:Word Recognition Rate)である。この例では、単語認識率は、発話された単語の各回について正しく認識された回数(正解数)を全発話数(計216回)で除算した値である。ここで、尖度比Kは、音声区間について算出されたものである。
図8は、累積頻度Lxが0、0.1、0.2、0.3、0.4、0.5、0.6のそれぞれについて、尖度比Kと音声認識率の関係を示す。尖度比Kと音声認識率の関係に有意な差は認められず、尖度比Kが約1.18のとき認識率が66%と最も高くなり、累積頻度Lxによる有意な差は認められなかった。付加量を大きくすることによって尖度比Kが小さくなり音声認識率が高くなるが、音声認識率が最も高くなった後は付加される補助雑音の影響が現れ認識率が低下することを示す。
制御部111には、例えば、図8に示す尖度比Kと音声認識率との関係を示す音声認識率対応情報を記憶しておいてもよい。音声認識率対応情報は、この音声認識率が、尖度比Kについての最大値を有する関数(例えば、二次関数)を示す情報であってもよい。これにより、予め定めた音源に対する音声認識率を最高にする尖度比に応じた付加量が、付加量の目標値として与えられる。
次に、本実施形態に係る音響処理について説明する。
図9は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS301)音響処理装置1は、処理に用いる変数について、予め定めた初期値を設定する(初期設定)。かかる変数には、例えば、雑音推定部105においてHRLE法を用いる場合における累積頻度Lx、振幅調整部113における付加量がある。その後、ステップS302に進む。
(ステップS302)パワー算出部104は、音響信号y(t)を周波数領域で表した複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|を算出する。雑音推定部105はパワースペクトル|Y(k,l)|に含まれる雑音パワーλ(k,l)を、例えばHRLE法を用いて算出することで雑音成分を推定する。その後、ステップS303に進む。
(ステップS303)減算部106は、パワースペクトル|Y(k,l)|から雑音パワーλ(k,l)を減算して、雑音成分を除去した複素雑音除去スペクトルX’(k,l)を算出する。これにより、雑音成分が抑圧される。その後、ステップS304に進む。
(ステップS304)加算部108は、複素雑音除去スペクトルX’(k,l)を時間領域に変換した雑音除去信号x’(t)に振幅が調整された補助雑音信号w’(t)を加算(付加)して補助雑音付加信号x(t)を生成する。その後、ステップS305に進む。
(ステップS305)歪み度合い算出部110は、補助雑音付加信号x(t)を時間領域に変換した複素補助雑音付加スペクトルX(k,l)について歪みの度合いを示す指標値として、例えば、尖度比Kを算出する。その後、ステップS306に進む。
(ステップS306)制御部111は、歪みの度合いを示す指標値として尖度比Kに基づいて雑音除去信号x’(t)に補助雑音信号w(t)を付加する付加量を音声認識率が最高になるように制御する。ここで、制御部111は、例えば、尖度比Kに対応する付加量を予め記憶している付加量対応情報に基づいて定め、定めた付加量と音声認識率が最高になる理想付加量との差である差分付加量を算出する。その後、ステップS307に進む。
(ステップS307)音声認識部114は、雑音除去信号x’(t)に振幅が調整された補助雑音信号w’(t)が付加された補助雑音付加信号x(t)について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。
上述したように、本実施形態では、入力された音響信号に含まれる雑音成分を抑圧し、雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成し、補助雑音付加信号の歪み度合いを算出する。また、本実施形態では、算出した歪み度合いに基づいて補助雑音を付加する付加量を制御する。これにより、音声の歪み度合いに応じた付加量で補助雑音が付加されて歪みが緩和されるため音声認識率を向上することができる。
また、本実施形態では、補助雑音付加信号に基づいて音声認識率を推定し、推定した音声認識率が最も高くなるように補助雑音の付加量が制御されるため音声認識率をさらに向上することができる。
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について第1の実施形態と同一の構成については同一の符号を付して説明する。
図10は、本実施形態に係る音響処理装置2の構成を示す概略ブロック図である。
音響処理装置2は、音響処理装置1(図1)における制御部111の代わりに制御部211を備え、さらに、雑音抑圧部203、時間領域変換部207、加算部208及び振幅調整部213を含んで構成される。
音響処理装置2において、加算部108は、生成した補助雑音付加信号x(t)を音声認識部114に出力せず、補助雑音付加信号x(t)は、後述するように制御部211が累積頻度Lxや付加量を制御するために用いる。音響処理装置2では、雑音抑圧部203は、制御部211が定めた累積頻度Lxに基づいて雑音成分を抑圧する。また、制御部211が制御した付加量で振幅が調整された補助雑音信号が付加された補助雑音付加信号が音声認識部114で音声認識処理に用いられる。
制御部211は、制御部111(図1)と同様に歪み度合い算出部110から入力された指標値に基づいて補助雑音信号の付加量を制御する。但し、制御部211は、雑音推定部105に既に設定された累積頻度Lxとは異なる1個又は複数の累積頻度Lxについて、音声認識率を定める。以下では、既に設定された累積頻度Lxとは異なる累積頻度Lxを追加累積頻度Lxと呼ぶことがある。
ここで、制御部211には、付加量対応情報と音声認識率対応情報を自部が備える記憶部に予め記憶しておく。音声認識率対応情報には、音声認識率に、歪み度合いを示す指標値と累積頻度Lxとの組を対応付けておく(図8)。付加量対応情報には、付加量に、累積頻度Lxと歪み度合いを示す指標値との組を対応付けておく(図7)。
制御部211は、1個又は複数の追加累積頻度Lxのそれぞれを雑音推定部105に出力し、雑音推定部105は、追加累積頻度Lxのそれぞれについて雑音パワーλ(k,l)を算出する。減算部106は、それぞれ算出された雑音パワーλ(k,l)に基づいて複素雑音除去スペクトルX’(k,l)を算出する。加算部108は、時間領域変換部107でそれぞれ算出された雑音除去信号x’(t)に、予め定めた付加量で振幅調整部113により振幅が調整された補助雑音信号w’(t)を付加して補助雑音付加信号x(t)を生成する。そして、歪み度合い算出部110は、それぞれ算出された複素補助雑音付加スペクトルX(k,l)について歪み度合いを示す指標値を算出して、制御部211に出力する。これにより、制御部211には、追加累積頻度Lxのそれぞれについても歪み度合いを示す指標値が入力される。
制御部211は、音声認識率対応情報に基づいて、累積頻度Lx(追加累積頻度Lxも含む)のそれぞれと、歪み度合い算出部110から入力されたそれぞれの累積頻度Lxに対応した歪み度合いを示す指標値との組に対応した音声認識率を推定し、推定した音声認識率が最も高い累積頻度Lxを選択する。制御部211は、選択した累積頻度Lxを雑音抑圧部203の雑音推定部205に出力する。つまり、少なくとも2通りの累積頻度Lxのそれぞれについて推定した音声認識率が最も高い累積頻度Lxが選択される。
制御部211は、付加量対応情報に基づいて、選択した累積頻度Lxと入力された歪み度合いを示す指標値との組に対応した付加量を推定する。この推定した付加量を推定付加量と呼ぶ。
制御部211は、さらに音声認識率対応情報に基づいて、選択した累積頻度Lxについて音声認識率が最も高くなる歪み度合いを示す指標値を選択する。制御部211は、付加量対応情報に基づいて、選択した累積頻度Lxと選択された歪み度合いを示す指標値に対応する付加量を推定する。この推定された付加量が、音声認識率が最も高くなる指標値に対応した理想付加量である。制御部211は、推定付加量と理想付加量との差である差分付加量を算出し、算出した差分付加量を振幅調整部113に出力する。振幅調整部113は、差分付加量を現在の付加量に加算して付加量を更新する。これにより、振幅調整部113では選択された累積頻度Lxのもとで音声認識率が最も高くなるように振幅調整部113での付加量を制御することができる。制御部211は、振幅調整部113で更新した付加量を振幅調整部213に出力する。
雑音抑圧部203は、パワー算出部204、雑音推定部205及び減算部206を含んで構成される。
パワー算出部204は、パワー算出部104と同様に、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|を算出する。パワー算出部204は、算出したパワースペクトル|Y(k,l)|を雑音推定部205及び減算部206に出力する。
雑音推定部205は、制御部211から入力された累積頻度Lxに基づいて、雑音推定部105と同様にパワー算出部204から入力されたパワースペクトル|Y(k,l)|に含まれる雑音パワーλ(k,l)を算出する。雑音推定部205は、算出した雑音パワーλ(k,l)を減算部206に出力する。
減算部206は、減算部106と同様に、パワー算出部204から入力されたパワースペクトル|Y(k,l)|から雑音パワーλ(k,l)を減算することによって、雑音成分を除去した複素雑音除去スペクトルX’(k,l)を算出する。減算部206は、算出した複素雑音除去スペクトルX’(k,l)を時間領域変換部207に出力する。
時間領域変換部207は、時間領域変換部107と同様に、減算部206から入力された複素雑音除去スペクトルX’(k,l)を時間領域の雑音除去信号x’(t)に変換する。時間領域変換部207は、変換した雑音除去信号x’(t)を加算部208に出力する。
加算部208は、時間領域変換部207から入力された雑音除去信号x’(t)と振幅調整部213で振幅が調整された補助雑音信号w’(t)とを加算(付加)して補助雑音付加信号x(t)を生成する。加算部208は、生成した補助雑音付加信号x(t)を音声認識部114に出力する。
振幅調整部213は、制御部211から入力された付加量に応じて補助雑音生成部112から入力された補助雑音信号w(t)の振幅を調整し、振幅を調整した補助雑音信号w’(t)を加算部208に出力する。
従って、音声認識部114には、制御部211が定めた累積頻度Lxに基づいて雑音成分が抑制され、制御部211が制御した付加量に基づいて補助雑音信号w’(t)が付加された補助雑音付加信号x(t)が供給される。
図11は、尖度比Kの他の例を示す図である。
図11において、横軸と縦軸の関係は図7に示す例と同様である。図11や後述する図12に示す例では、雑音として音楽が付加されている環境下で1名の話者が発話している環境下で収録された音響信号が用いられている。
この例でも、付加量が大きくなるほど尖度比Kが線形に減少し、累積頻度Lxが0から0.4までの間では、付加量と尖度比Kとの関係に有意な差は認められず、累積頻度Lxによる依存性がほとんどないことが示される。但し、累積頻度Lxが0.5よりも大きい場合には付加量と尖度比Kとの関係に差が生じる。また、図11に示す尖度比Kは、全体的に図7に示すものよりも大きい値であり、収録される雑音の音源によっても尖度比Kが異なることを示す。
制御部211には、例えば、図11に示す付加量と尖度比K並びに累積頻度Lxとの関係を示す付加量対応情報を記憶しておいてもよい。付加量対応情報は、この付加量と尖度比K並びに累積頻度Lxとの関数を示す情報であってもよい。これにより、さらに累積頻度Lxに対する依存性が考慮される。
図12は、音声認識率のその他の例を示す図である。
図12において、横軸と縦軸の関係は図8に示す例と同様である。
この例でも、音声認識率が最高となる尖度比Kが存在する。累積頻度Lxが0から0.4までの間では、累積頻度Lxによる有意な差は認められず、尖度比Kが約1.26のとき認識率が85%と最も高くなる。但し、累積頻度Lxが0.5よりも大きい場合には尖度比Kと認識率との関係に差が生じる。また、図12に示す認識率は、全体的に図8に示すものよりも大きい値であり、収録される雑音の音源によっても認識率が異なることを示す。
制御部111には、例えば、図12に示す認識率と尖度比K並びに累積頻度Lxとの関係を示す音声認識率対応情報を記憶しておいてもよい。音声認識率対応情報は、この音声認識率が、尖度比K並びに累積頻度Lxとの関数を示す情報であってもよい。これにより、さらに累積頻度Lxに対する依存性が考慮される。
次に、本実施形態に係る音響処理について説明する。
図13は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS401)音響処理装置1は、処理に用いる変数について、予め定めた初期値を設定する(初期設定)。かかる変数には、例えば、雑音推定部105においてHRLE法を用いる場合における累積頻度Lx、振幅調整部113における付加量がある。その後、ステップS402に進む。
(ステップS402)雑音推定部105はパワースペクトル|Y(k,l)|に含まれる雑音パワーλ(k,l)を、例えばHRLE法を用いて制御部211から入力された少なくとも2通りの累積頻度Lxのそれぞれについて算出する。これにより、それぞれの累積頻度Lxについての雑音成分が推定される。その後、ステップS403に進む。
(ステップS403)減算部106は、パワースペクトル|Y(k,l)|からそれぞれの雑音パワーλ(k,l)を減算して、雑音成分を除去した複素雑音除去スペクトルX’(k,l)を算出する。これにより、それぞれの累積頻度Lxについて雑音成分が抑圧される。その後、ステップS404に進む。
(ステップS404)加算部108は、複素雑音除去スペクトルX’(k,l)を時間領域に変換した雑音除去信号x’(t)に振幅が調整された補助雑音信号w’(t)を加算(付加)して、それぞれの累積頻度Lxについての補助雑音付加信号x(t)を生成する。その後、ステップS405に進む。
(ステップS405)歪み度合い算出部110は、補助雑音付加信号x(t)を時間領域に変換した複素補助雑音付加スペクトルX(k,l)について歪みの度合いを示す指標値として、例えば、それぞれの累積頻度Lxについての尖度比Kを算出する。その後、ステップS406に進む。
(ステップS406)制御部211は、音声認識率対応情報に基づいて、それぞれの累積頻度Lx並びにそれぞれに基づいて算出された歪み度合いを示す指標値との組に対応した音声認識率を推定し、推定した音声認識率が最も高い累積頻度Lxを選択する。累積頻度Lxは雑音成分の抑圧量を示すところ、これにより、雑音抑圧量が決定される。制御部211は、選択した累積頻度Lxを雑音推定部205に出力する。その後、ステップS407に進む。
(ステップS407)制御部211は、さらに音声認識率対応情報に基づいて、選択した累積頻度Lxのもとで音声認識率が最大になるように付加量を定め、定めた付加量で振幅調整部113での付加量を制御する。制御部211は、振幅調整部113で制御された付加量を振幅調整部213に出力する。その後、ステップS408に進む。
(ステップS408)音声認識部114には、制御部211が定めた累積頻度Lxに基づいて雑音成分が抑制され、制御部211が制御した付加量に基づいて補助雑音信号が付加された補助雑音付加信号x(t)が供給される。音声認識部114は、供給された補助雑音付加信号x(t)について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。
上述したように、本実施形態では、少なくとも2通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、選択した抑圧量で雑音成分を抑圧させる。これにより、雑音成分の抑圧による歪みの影響を低減して音声認識率をさらに向上することができる。また、本実施形態では、選択した抑圧量について推定した音声認識率が最も高くなるように補助雑音信号の付加量を制御する。これにより、歪みの影響を緩和し音声認識率への影響がより少ない補助雑音信号の付加量が選択される。
上述した実施形態では、さらに収音部101から入力された音響信号y(t)について、所定時間間隔で音声区間か非音声区間かを判定する音声判定部を備えてもよい。音声判定部は、音声区間と判定された区間の補助雑音付加信号x(t)を音声認識部114に供給し、非音声区間と判定された区間の補助雑音付加信号x(t)を音声認識部114に供給しない。また、音声判定部は、音声区間と判定された区間の音響信号y(t)を周波数領域変換部102に供給し、非音声区間と判定された区間の音響信号y(t)を周波数領域変換部102に供給しなくともよい。これにより、音声区間のみに音声認識処理が施され、非音声区間については処理が行われないため、高い音声認識率を確保することができる。
音声判定部は、音響信号y(t)に対して、例えば音声区間検出(Voice Activity Detection;VAD)を有音区間毎に行う。有音区間は、音響信号の振幅の立ち上がりから立ち下りに挟まれる区間である。立ち上がりとは、無音区間の後、音響信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、音響信号のパワーが予め定めたパワーよりも小さくなる部分である。
音声判定部は、その時間間隔毎の零交差数が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、音響信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。
上述では、一定時間間隔で、歪み度合い算出部110が歪みの度合いを示す指標値を算出し、制御部111、211が補助雑音信号w(t)を付加する付加量を制御し、制御部211が雑音成分の抑圧量を選択する場合を例にとって説明した。しかし、上述した実施形態では、これには限られない。本実施形態では、少なくとも1回、歪み度合い算出部110が歪みの度合いを示す指標値を算出し、制御部111、211が補助雑音信号w(t)を付加する付加量を制御し、制御部211が雑音成分の抑圧量を選択した後では、これらの処理を省略してもよい。即ち、図9に示す音響処理において、ステップS305及びS306が、それぞれ少なくとも1回実行された後であれば、ステップS305及びS306を省略してもよい。また、図13に示す音響処理において、ステップS405、S406及びS407が、それぞれ少なくとも1回実行された後であれば、ステップS405、S406及びS407を省略してもよい。これにより、処理量や処理によって生じる遅延が低減する。また、音響条件、例えば、音源の種類(例えば、話者)、残響時間、残響量、等が一定、又はその変動が少ない場合には音声認識率を維持することができる。
上述した実施形態において、音響処理装置1、2は、周囲の音響条件を判定する音響条件判定部(図示せず)を備え、歪み度合い算出部110は、音響条件判定部が判定した音響条件に基づいて歪み度合いを示す指標値を取得してもよい。これにより、歪み度合い算出部110が歪みの度合いを示す指標値を算出する処理や、制御部111、211が補助雑音信号w(t)を付加する付加量を制御する処理や、制御部211が雑音成分の抑圧量を選択する処理を逐次に行うことを省略することができる。そのため、音声認識率を維持し、処理量や処理によって生じる遅延が低減することができる。
ここで、音響条件判定部は、周囲の画像を撮影する撮影部から画像信号が入力され、入力された画像信号に基づいて音響条件を判定してもよい。ここで、音響条件判定部は、既知の画像認識技術を用いて画像信号に基づいて、周囲が室内であるか屋外(即ち、残響なし)であるかを判定する。室内であると判定された場合には、音響条件判定部は、既知の画像認識技術、その他の画像処理技術を用いて周囲の空間の大きさと内壁の材質等の空間情報を判定し、判定した空間情報に基づいて残響時間や残響量を算出してもよい。また、音響条件判定部は、既知の画像認識技術を用いて、話者を認識してもよい。
音響条件判定部は、収音部101から入力された音響信号に基づいて音響条件を判定してもよい。音響条件判定部は、既知の残響時間推定処理や残響量推定処理を用いて、それぞれ残響時間、残響量を算出してもよい。また、音響条件判定部は、既知の話者認識処理を用いて、話者を認識してもよい。
歪み度合い算出部110は、予め音響条件毎に歪み度合いを示す指標値を算出しておく。そこで、歪み度合い算出部110は、予め算出しておいた指標値と音響条件とを対応付けた音響条件情報を予め記憶させておいた記憶部を備え、音響条件判定部が判定した音響条件に対応する指標値を、記憶部から読み出すようにしてもよい。
上述では、制御部111、211が音声認識率の指標値として単語認識率を用いる場合を例にとって説明したが、単語認識率の代わりに尤度を用いてもよい。尤度とは、認識結果、例えば単語に対して統計的なもっともらしさを示す指標値である。尤度を示す値は、線形領域の実数値でもよいし、対数領域の実数値でもよい。
また、制御部111、211は、加算部108から補助雑音付加信号x(t)が入力され、入力された補助雑音付加信号x(t)について音声認識部114と同様の音声認識処理を行い、その過程で尤度を取得してもよい。
制御部111は、補助雑音信号w’(t)の付加量を変更し、変更された付加量が得られるように振幅調整部113に補助雑音信号w’(t)の振幅を調整させてもよい。さらに、制御部111は、音声認識処理によって得られた尤度が最も高くなる付加量を定めてもよいし、付加量毎に歪み度合い算出部110から入力された歪み度合いの指標値と尤度とを対応付けて上述の付加量対応情報を更新してもよい。
制御部211は、補助雑音信号w’(t)の付加量と抑圧量(例えば、累積頻度Lx)の組を変更し、変更された付加量が得られるように振幅調整部113に補助雑音信号w’(t)の振幅を調整させ、変更された抑圧量が得られるように雑音抑圧部103の抑圧量を制御してもよい。さらに、制御部111は、音声認識処理によって得られた尤度が最も高くなる付加量と抑圧量を定めてもよいし、付加量と抑圧量毎に歪み度合い算出部110から入力された歪み度合いの指標値と尤度とを対応付けて上述の音声認識率対応情報を更新してもよい。従って、尤度を音声認識率の指標値として用いることにより、制御部111、211においてオンラインで音声認識率を推定する処理や、付加量対応情報、音声認識率対応情報を更新することが可能になる。これにより、システム全体として音声認識率が向上する。
上述した実施形態では、収音部101は複数のチャネルの音響信号を収録し、その複数のチャネルのうち少なくとも1チャネルの音響信号を周波数領域変換部102に出力するものであってもよい。また、音響処理装置1、2は、収音部101が収録した複数のチャネルの音響信号から、それぞれ異なる方向から到来した少なくとも2個の音源のそれぞれの成分を、成分毎に異なるチャネルの音響信号に分離する音源分離部を備えていてもよい。音源分離部は、例えば、それぞれの音源の方向を公知の音源定位技術、例えばMUSIC(Multiple Signal Classification)法を用いて推定する。この音源分離部は、それぞれ推定された方向に指向性を向けた方向フィルタを用いて、収音部101が収録した複数のチャネルの音響信号から、それぞれの音源の成分を示す音響信号を取得する。音源分離部は、取得した音響信号のうち少なくとも1チャネルの音響信号を周波数領域変換部102に出力する。
これらの少なくとも1チャネルの音響信号が周波数領域で示されているデータである場合には、収音部101又は音源分離部は、そのデータを雑音抑圧部103に出力してもよい。
上述した実施形態では、音声認識部114、制御部111、211は、ミッシングフィーチャマスク(MFM:Missing Feature Mask)を用いた音声認識処理を行ってもよい。MFMを用いた音声認識処理は、ミッシングフィーチャ理論自動音声認識(MFT−ASR:Missing Feature Theory−Automatic Speech Recognition)とも呼ばれる。MFMは、歪んだ音声の信頼できない成分の寄与を低減するマスクである。
上述した実施形態では、歪み度合い算出部110は、予め定めた周波数帯域毎に歪み度合いを示す指標値を算出する。そして、音声認識部114、制御部111、211は、歪み度合いを示す指標値が大きい周波数帯域ほど、その寄与が小さくなるMFMを算出する。そして、音声認識部114は、制御部111、211は、算出したMFMで音響特徴量に対応する尤度で周波数帯域毎に重み付け、重み付けた尤度が最も高い認識結果(例えば、音素)を定める。これにより、歪み度合いが大きい周波数帯域の成分ほど、その成分の音響特徴量による寄与が低減するため音声認識率が向上する。
このMFMを用いた音声認識処理は、例えば、次の過程(a)−(i)を有する。
(a)補助雑音付加信号x(t)を周波数領域の複素雑音除去スペクトルX’(k,l)に変換する。なお、本実施形態では、この過程を行う代わりに周波数領域変換部109から複素雑音除去スペクトルX’(k,l)を入力してもよい。
(b)周波数領域変換部102から入力信号y(t)の複素スペクトルY(k,l)を入力する。
(c)雑音抑圧部105、205から雑音パワーλ(k,l)を入力する。
(d)予め定めた周波数帯域、例えば、メル周波数の帯域f毎に複素スペクトルY(k,l)、複素雑音除去スペクトルX’(k,l)及び雑音パワーλ(k,l)に基づいて、例えば式(6)を用いて信頼度m(f,l)を算出する。
式(6)において、Sin(f,l)、Sout(f,l)は、それぞれフレームl、帯域fにおける入力エネルギー値、出力エネルギー値を示す。入力エネルギー値Sin(f,l)は、複素スペクトルY(k,l)の二乗和である。出力エネルギー値Sout(f,l)は、複素雑音除去スペクトルX’(k,l)の二乗和である。B(f,l)は、フレームl、帯域fにおける雑音エネルギー値を示す。雑音エネルギー値B(f,l)は、雑音パワーλ(k,l)の総和である。
雑音抑圧処理においてミュージカルノイズ等の歪が生じていなければ、Sout(f,l)+B(f,l)は、Sin(f,l)に補助雑音信号のエネルギー値を加算した値と等しくなる。従って、雑音が抑圧されておらず、補助雑音が付加されていない場合には、信頼度m(f,l)は1となる。また、歪が生じていればSout(f,l)+B(f,l)は、Sin(f,l)に補助雑音信号のエネルギー値を加算した値よりもさらに大きい値となるため、信頼度m(f,l)は、1よりも小さく、0により近い値となる。
従って、信頼度m(f,l)は、補助雑音信号を加えたことや歪による劣化の度合いを示す指標値であって、その最大値が1、最小値が0である。
(e)歪み度合い算出部110から、帯域f毎に歪み度合いを示す指標値、例えば尖度比Kが入力される。
(f)歪み度合いを示す指標値に基づいて後述するMFMの閾値Tを算出する。ここで、歪み度合いを示す指標値が大きいほど、閾値Tが大きくなるように算出する。例えば、閾値Tを尖度比Kの一次関数、T=cK+dを用いて算出する。ここで、c、dは、予め定めた実数値である。
(g)信頼度m(f,l)、尖度比Kに基づいて帯域f毎にMFM M(f,l)を算出する。上述した実施形態では、MFMとしてハードマスク(ハードMFM)を用いてもよいし、ソフトマスク(MFM)を用いてもよい。ハードマスクを用いるとき、信頼度m(f,l)が閾値Tよりも小さい場合、M(f,l)=0であり、信頼度m(f,l)が閾値Tと等しいか、閾値Tより大きい場合、M(f,l)=1である。
ソフトマスクを用いるとき、信頼度m(f,l)が閾値Tよりも小さい場合には、M(f,l)は0である。また、信頼度m(f,l)が閾値Tと等しいか、閾値Tよりも大きい場合には、M(f,l)は信頼度m(f,l)によって単調増加する関数であって、最小値が0、最大値が1である関数、例えば、式(7)に示されるシグモイド関数である。
式(7)において、σは、m(f,l)の変化に対するM(f,l)の変化量を示す傾き値を示す。σは、0よりも大きい予め定められた実数である。即ち、M(f,l)は、信頼度m(f,l)が閾値Tよりも小さい場合には、帯域fの成分による寄与を考慮せず、信頼度m(f,l)が閾値Tよりも大きくなるほど、帯域fの成分による寄与が大きくなるように重み付けることを示す。従って、尖度比Kが大きいほど、MFMが小さくなる。
(h)帯域f毎に、補助雑音付加信号x(t)の音響特徴量ξ、例えば、MSLSとデルタMSLSを算出する。
(i)音響特徴量ξが与えられたときの状態S、例えば音素モデルの尤度L(ξ|S)を、例えば式(8)を用いて算出する。
式(8)において、L(ξ(f)|S)は、帯域fにおける音響特徴量ξ(f)が与えられたときの状態Sの尤度を示す。従って、式(8)は、帯域f毎に、尤度L(ξ(f)|S)をMFM M(f,l)で重み付けを行なって、尤度L(ξ|S)を算出することを示す。
なお、上述した過程(a)−(d)、(f)では、帯域f毎に信頼度m(f,l)と閾値Tが算出され、過程(g)で信頼度m(f,l)と閾値Tとの関係でMFM M(f,l)が算出されるが、上述した実施形態では、これには限られない。歪み度合いの指標値が大きい帯域ほど、その帯域の成分による寄与の大きさの指標としてMFM M(f,l)が小さくなればよい。例えば、ハードマスクを用いとき、上述の過程(i)で算出した閾値Tが所定の閾値Tよりも小さい場合、M(f,l)=1とし、閾値Tが閾値Tと等しいか、閾値Tより大きい場合、M(f,l)=0としてもよい。ここで、閾値Tは定数である。また、ソフトマスクを用いるとき、閾値Tが閾値Tよりも大きい場合、M(f,l)は0である。閾値Tが閾値Tよりも小さい場合、M(f,l)は閾値Tの増加に伴い単調減少し、最小値が0、最大値が1である関数、例えば、式(9)に示されるシグモイド関数であってもよい。
この例を用いる場合には、上述の過程(a)−(d)、(g)を省略してもよい。
なお、上述した実施形態における音響処理装置1、2の一部、例えば、周波数領域変換部102、109、雑音抑圧部103、203、時間領域変換部107、207、加算部108、208、歪み度合い算出部110、制御部111、211、補助雑音生成部112、振幅調整部113、213及び音声認識部114をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音響処理装置1、2に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音響処理装置1、2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1、2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、2…音響処理装置、101…収音部、102、109…周波数領域変換部、
103、203…雑音推定部、104、204…パワー算出部、
105、205…雑音推定部、106、206…減算部、
107、207…時間領域変換部、108、208…加算部、110…歪み度合い算出部、111、211…制御部、112…補助雑音生成部、113、213…振幅調整部、
114…音声認識部

Claims (3)

  1. 入力された音響信号に含まれる雑音成分を抑圧する雑音抑圧部と、
    前記雑音抑圧部が雑音成分を抑圧した音響信号に、補助雑音を付加して補助雑音付加信号を生成する補助雑音付加部と、
    前記補助雑音付加信号の歪み度合いを算出する歪み度合い算出部と、
    前記補助雑音付加信号に基づいて音声認識率を推定し、前記音声認識率が最も高くなるように前記歪み度合いに対応する前記補助雑音の付加量を制御する制御部と、
    を備えることを特徴とする音響処理装置。
  2. 前記制御部は、少なくとも2通りの抑圧量で雑音成分を抑圧させて生成された補助雑音付加信号の歪み度合いに基づいて音声認識率を推定し、推定した音声認識率が最も高くなる抑圧量を選択し、前記雑音抑圧部に選択した抑圧量で雑音成分を抑圧させることを特徴とする請求項に記載の音響処理装置。
  3. 前記制御部は、前記選択した抑圧量について推定した音声認識率が最も高くなるように前記補助雑音の付加量を制御することを特徴とする請求項に記載の音響処理装置。
JP2013004626A 2013-01-15 2013-01-15 音響処理装置 Active JP6169849B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013004626A JP6169849B2 (ja) 2013-01-15 2013-01-15 音響処理装置
US14/148,813 US9542937B2 (en) 2013-01-15 2014-01-07 Sound processing device and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013004626A JP6169849B2 (ja) 2013-01-15 2013-01-15 音響処理装置

Publications (2)

Publication Number Publication Date
JP2014137405A JP2014137405A (ja) 2014-07-28
JP6169849B2 true JP6169849B2 (ja) 2017-07-26

Family

ID=51165835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013004626A Active JP6169849B2 (ja) 2013-01-15 2013-01-15 音響処理装置

Country Status (2)

Country Link
US (1) US9542937B2 (ja)
JP (1) JP6169849B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6337519B2 (ja) * 2014-03-03 2018-06-06 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム
US10670417B2 (en) * 2015-05-13 2020-06-02 Telenav, Inc. Navigation system with output control mechanism and method of operation thereof
WO2017094121A1 (ja) * 2015-12-01 2017-06-08 三菱電機株式会社 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
US10134379B2 (en) 2016-03-01 2018-11-20 Guardian Glass, LLC Acoustic wall assembly having double-wall configuration and passive noise-disruptive properties, and/or method of making and/or using the same
US10354638B2 (en) 2016-03-01 2019-07-16 Guardian Glass, LLC Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same
US10373626B2 (en) 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
US10304473B2 (en) 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
US20180268840A1 (en) * 2017-03-15 2018-09-20 Guardian Glass, LLC Speech privacy system and/or associated method
US10726855B2 (en) 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
JP6868196B2 (ja) * 2017-06-05 2021-05-12 富士電機株式会社 ヒューズの劣化診断方法及び劣化診断装置
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
EP3483885B1 (en) * 2017-11-14 2020-05-27 Talking 2 Rabbit Sarl A method of enhancing distorted signal, a mobile communication device and a computer program product
US10440497B2 (en) * 2017-11-17 2019-10-08 Intel Corporation Multi-modal dereverbaration in far-field audio systems
EP3811360A4 (en) * 2018-06-21 2021-11-24 Magic Leap, Inc. PORTABLE SYSTEM VOICE PROCESSING
CN113748462A (zh) 2019-03-01 2021-12-03 奇跃公司 确定用于语音处理引擎的输入
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
JP7276469B2 (ja) * 2019-09-02 2023-05-18 日本電気株式会社 波源方向推定装置、波源方向推定方法、およびプログラム
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4358221B2 (ja) * 1997-12-08 2009-11-04 三菱電機株式会社 音信号加工方法及び音信号加工装置
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
JP5041934B2 (ja) 2006-09-13 2012-10-03 本田技研工業株式会社 ロボット
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US7881929B2 (en) * 2007-07-25 2011-02-01 General Motors Llc Ambient noise injection for use in speech recognition
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
WO2011010604A1 (ja) * 2009-07-21 2011-01-27 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US8706497B2 (en) * 2009-12-28 2014-04-22 Mitsubishi Electric Corporation Speech signal restoration device and speech signal restoration method
JP5609157B2 (ja) * 2010-02-26 2014-10-22 ヤマハ株式会社 係数設定装置および雑音抑圧装置
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US8892046B2 (en) * 2012-03-29 2014-11-18 Bose Corporation Automobile communication system
EP2747081A1 (en) * 2012-12-18 2014-06-25 Oticon A/s An audio processing device comprising artifact reduction

Also Published As

Publication number Publication date
US9542937B2 (en) 2017-01-10
JP2014137405A (ja) 2014-07-28
US20140200887A1 (en) 2014-07-17

Similar Documents

Publication Publication Date Title
JP6169849B2 (ja) 音響処理装置
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
JP5127754B2 (ja) 信号処理装置
EP2164066B1 (en) Noise spectrum tracking in noisy acoustical signals
JP5528538B2 (ja) 雑音抑圧装置
JP6169910B2 (ja) 音声処理装置
Tsao et al. Generalized maximum a posteriori spectral amplitude estimation for speech enhancement
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
CN104823236B (zh) 语音处理系统
CN112086093A (zh) 解决基于感知的对抗音频攻击的自动语音识别系统
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
WO2009123387A1 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
US8423360B2 (en) Speech recognition apparatus, method and computer program product
EP2151820B1 (en) Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
WO2022068440A1 (zh) 啸叫抑制方法、装置、计算机设备和存储介质
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Saleem Single channel noise reduction system in low SNR
CN112133320B (zh) 语音处理装置及语音处理方法
JP5687522B2 (ja) 音声強調装置、方法、及びプログラム
JP2017009657A (ja) 音声強調装置、および音声強調方法
US11322168B2 (en) Dual-microphone methods for reverberation mitigation
Sai et al. Speech Enhancement using Kalman and Wiener Filtering
Biswas et al. Acoustic feature extraction using ERB like wavelet sub-band perceptual Wiener filtering for noisy speech recognition
CN118692481A (zh) 消噪及啸叫检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170629

R150 Certificate of patent or registration of utility model

Ref document number: 6169849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150