JP3297346B2

JP3297346B2 - 音声検出装置

Info

Publication number: JP3297346B2
Application number: JP11225097A
Authority: JP
Inventors: 真資高田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-04-30
Filing date: 1997-04-30
Publication date: 2002-07-02
Anticipated expiration: 2017-04-30
Also published as: US6088670A; JPH10301600A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号における
音声成分の存在（有音）、不存在（無音）を検出する音
声検出装置に関し、例えば、音声成分の存在、不存在に
よって処理を切り替えることを要する電話機、ナビゲー
ション機器、音声認識装置、無線機、録音機などに適用
し得るものである。

【０００２】

【従来の技術】従来、この種の音声検出装置（第１の従
来例と呼ぶ）として、以下のような音声検出方法を採用
しているものがある。

【０００３】この第１の従来例の音声検出方法は、音声
信号のレベル（パワーの場合もある）の長期平均と短期
平均とを計算し、滑らかな変動特性を示す長期平均の計
算結果に固定のオフセット（例えば６ｄＢに相当するオ
フセット）を持たせ、急峻な変化を示す短期平均が、長
期平均にオフセットを加えた閾値を超過したときに音声
成分（有音）とみなす方法であった。

【０００４】また、従来、特開平８−２０２３９４号公
報に記載されている音声検出装置（第２の従来例と呼
ぶ）がある。図２は、この第２の従来例の音声検出装置
の構成を示すものであり、以下、この図２を参照しなが
ら、第２の従来例を説明する。

【０００５】この第２の従来例は、予め定められた固定
長のフレーム単位に音声信号のパワー等を検出し、音声
成分の有無（有音／無音）を検出するものである。

【０００６】離散化された入力音声信号から、音声パワ
ー算出器２０により、１サンプル毎にある固定長の長さ
の音声パワーが計算される。１サンプル毎に算出された
音声パワーは最大値検出器２１に入力され、最大値検出
器２１により、処理対象フレーム区間に対して、その前
後に所定区間だけ加えた範囲内で音声パワーの最大値が
検出されて判定回路２２に与えられる。また、入力音声
信号から、零交差率測定器２３により、処理対象フレー
ム区間についての零交差率が算出されて判定回路２２に
与えられる。

【０００７】以上のように、最大値検出器２１及び零交
差率測定器２３の検出結果は、フレームに１回ずつ判定
回路２２に入力され、この判定回路２２により、その時
点で閾値算出器２５に設定されている閾値が利用されて
有音／無音判定がなされ、その判定結果（例えば、有音
で１、無音で０）がハングオーバ発生器２４に与えられ
る。ハングオーバ発生器２４においては、有音から無音
に変化したときには、その変化フレームから所定フレー
ム数の区間だけ、無音を指示する判定結果を有音を指示
する判定結果に変更して出力する。

【０００８】なお、閾値算出器２５は、判定回路２２の
判定結果によって定まる期間内の音声パワーの変動を監
視して、閾値を更新するものである。

【０００９】この第２の従来例において、処理対象フレ
ームの期間より最大値の探索区間を広くとっているの
は、以下の理由による。音声（実際の有音区間）は、そ
の発声直後（以下、話頭と呼ぶ）や発声終了直前（以
下、話尾と呼ぶ）においてはパワーが小さいものであ
り、処理対象フレームの後半に話頭がある場合や、処理
対象フレームの前半に話尾があるような場合には、その
処理対象フレームだけを探索区間としたときの最大値は
小さく、無音と誤判定される恐れが大きい。そこで、処
理対象フレームの期間より最大値の探索区間を広くとっ
て、上述したような話頭や話尾に係る処理対象フレーム
でも、その処理対象フレームを代表させる最大値を大き
くするようにしている。

【００１０】

【発明が解決しようとする課題】しかしながら、第１の
従来例の音声検出装置では、短期平均の変化が急峻であ
るため、長期平均だけから作成した閾値によっては、有
音期間において、短期平均が閾値に対して超過すること
と達しないこととが頻繁に繰り返されるようなことも生
じ、仮に、有音判定結果から無音判定結果への変化に緩
衝期間を設けたとしても、誤判定が生じる恐れが高いも
のであった。同様に、無音期間であっても、背景ノイズ
などの変動による短期平均の急峻な変化のために、短期
平均が閾値に対して超過することと達しないこととが頻
繁に繰り返されるようなことも生じ、誤判定が生じる恐
れが高いものであった。

【００１１】また、第２の従来例の音声検出装置でも、
以下のような課題（１）や（２）などを有するものであ
った。

【００１２】（１）処理対象フレーム単位で最大パワー
の値を決定してその最大値に基づいて有音／無音を判定
するので、背景ノイズの急増（例えばスパイク状ノイ
ズ）がフレーム内でおこったときに、ノイズ急変を音声
成分（有音）と誤判定することを避けることができない
ものであった。

【００１３】（２）上記では詳述しなかったが、有音／
無音判定用の閾値更新では、以下のような処理を行って
いる。１フレーム毎に、一定区間の音声パワーを入力
し、フレーム毎にそのパワーの変動を監視し、パワー変
動がある一定時間、所定値以下であればその区間は背景
ノイズの区間と判定し、この区間に入力された背景ノイ
ズのパワーを推定して閾値を決定する。

【００１４】そのため、背景ノイズが急減したときに、
変化分を音声の変化と誤判定して背景ノイズのフレーム
ではないと判定し、一定フレーム数の期間、背景ノイズ
の推定レベルを実際の値よりも大きく誤判定してしま
う。その結果、本来ならば有音と判定すべきレベルの信
号を、背景ノイズレベル内であると誤判定する。特に、
有音でありながら音声成分のレベルが低い話頭や話尾の
期間では、この誤判定が起こりやすい。すなわち、背景
ノイズ変化の起きた後の一定フレーム数の期間は音声の
話尾、話頭切れが起こることを避けることができないこ
とが多い。

【００１５】そのため、有音／無音をより正確に判定す
ることができる音声検出装置が求められている。

【００１６】

【課題を解決するための手段】かかる課題を解決するた
め、第１の発明は、入力された音声信号が有音であるか
無音であるかを検出する音声検出装置において、（１）
入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、（２）入力音声信号のレベルの短期平均を計
算する短期平均計算手段と、（３）これら長期平均計算
手段及び短期平均計算手段で計算された長期平均及び短
期平均に基づいて、背景ノイズレベルを推定して得た有
音／無音の判定用レベルを出力する判定用レベル形成手
段と、（４）長期平均計算手段で計算された長期平均
と、この判定用レベル形成手段から出力された判定用レ
ベルとを大小比較して、有音期間及び無音期間を決定す
る音声判定手段とを備え、上記判定用レベル形成手段
が、（５）長期平均に、当該長期平均及び短期平均によ
って定まる可変オフセットを与えるオフセット付加手段
と、（６）可変オフセットが与えられた長期平均、上記
長期平均計算手段から出力された長期平均、及び、直前
の推定背景ノイズレベルに基づいて、推定背景ノイズレ
ベルを更新するか否かを判定する背景ノイズレベル推定
判定手段と、（７）推定背景ノイズレベルを更新すると
いう判定結果のときに、直前の推定背景ノイズレベル
と、可変オフセットが与えられた長期平均とを重み付け
合成して推定背景ノイズレベルを更新させると共に、推
定背景ノイズレベルを更新しないという判定結果のとき
に、直前の推定背景ノイズレベルを維持して、有音／無
音の判定用レベルを形成する背景ノイズレベル推定手段
とを有することを特徴とする。また、第２の発明は、入
力された音声信号が有音であるか無音であるかを検出す
る音声検出装置において、（１）入力音声信号のレベル
の長期平均を計算する長期平均計算手段と、（２）入力
音声信号のレベルの短期平均を計算する短期平均計算手
段と、（３）これら長期平均計算手段及び短期平均計算
手段で計算された長期平均及び短期平均に基づいて、背
景ノイズレベルを推定して得た有音／無音の判定用レベ
ルを出力する判定用レベル形成手段と、（４）上記長期
平均計算手段で計算された長期平均と、この判定用レベ
ル形成手段から出力された判定用レベルとを大小比較し
て、有音期間及び無音期間を決定する音声判定手段とを
備え、（５）上記音声判定手段が、所定単位期間毎に有
音／無音を決定するものであり、所定単位期間中の１サ
ンプル期間でも、上記長期平均計算手段で計算された長
期平均が判定用レベルを越えていれば、その所定単位期
間を有音期間と決定するものであることを特徴とする。

【００１７】第１の発明の音声検出装置は、以上のよう
に、長期平均と判定用レベルとの比較により有音／無音
を決定するものであるので、短期平均や最高レベル値を
判定用レベルと比較して有音／無音を決定する装置より
高精度に音声検出を実行でき、また、判定用レベルを長
期平均及び短期平均の両方から背景ノイズレベルを推定
して形成しているので、背景ノイズレベルの変動によく
追従している判定用レベルを形成できて、この点からも
有音／無音を高精度に検出できる。しかも、オフセット
付加手段や背景ノイズレベル推定判定手段によって、背
景ノイズの急変にも追随することができる。また、第２
の発明の音声検出装置では、第１の発明と同様、短期平
均や最高レベル値を判定用レベルと比較して有音／無音
を決定する装置より高精度に音声検出を実行でき、背景
ノイズレベルの変動によく追従している判定用レベルを
形成できから、この点から有音／無音を高精度に検出で
きることに加えて、所定単位期間中の１サンプル期間で
も、上記長期平均計算手段で計算された長期平均が判定
用レベルを越えていれば、その所定単位期間を有音期間
と決定するため、他の装置で処理する場合でも、話頭、
話尾切れが防止できる。

【００１８】

【発明の実施の形態】

（Ａ）第１の実施形態以下、本発明による音声検出装置の第１の実施形態を図
面を参照しながら詳述する。

【００１９】（Ａ−１）第１の実施形態の構成図１は、第１の実施形態の音声検出装置の構成を示すブ
ロック図である。この第１の実施形態の音声検出装置に
は、図示しないアナログ／ディジタル変換器によってデ
ィジタル化されている音声信号が入力される。

【００２０】図１において、この第１の実施形態の音声
検出装置は、音声信号入力端子１、フレーム分割器２、
２個の絶対値計算器３及び１１、短期平均計算器４、長
期平均計算器５、３個の加算器６、７及び９、平滑演算
器８、背景ノイズレベル推定判定器１０、背景ノイズレ
ベル推定器１２、音声判定器１３、並びに、判定結果出
力端子１４から構成されている。

【００２１】音声信号入力端子１からは、例えば、８ｋ
Ｈｚでサンプリングされたディジタル音声信号が入力さ
れる。

【００２２】フレーム分割器２は、入力音声信号Ｘ(n)
を特定単位長（この実施形態では１２８サンプルとす
る；勿論これに限定されるものではない）毎にまとめ
て、１フレームを構成するように分割し、フレーム単位
に絶対値計算器３に出力するものである。

【００２３】この第１の実施形態は、１２８サンプルを
１フレーム単位としているので、動作開始の第１サンプ
ル目から第１２８サンプル目までの入力音声サンプルは
第１フレームに格納されることになる。例えば、第１フ
レームのｍ（ｍは１、…、１２８）番目のサンプル値を
Ｘ(1,m)で表すことにする。第１２９サンプル目の入力
音声サンプルＸ(129)は第２フレームの１番目になり、
フレーム分割器２の処理を得た後は、Ｘ(2,1)と記述さ
れる。同様に、第ｋサンプル目の入力音声サンプルＸ
(k)は、（１）式で表されるように、第ｎフレームのｍ
番目の値になって、フレーム分割器２から出力される。

【００２４】Ｘ(k)＝Ｘ(n,m) （但し、ｋ、ｎ、ｍ（ｍは１、…、１２８）は整数であってｋ＝１２８＊ｎ＋ｍの関係がある） …（１）絶対値計算器３は、フレーム分割器２から与えられた各
フレームの各サンプルＸ(n,m)についてそれぞれ、
（２）式に示すように絶対値ｘ１(n,m)を計算し、その
絶対値ｘ１(n,m)を短期平均計算器４及び長期平均計算
器５に出力するものである。

【００２５】ｘ１(n,m)＝｜Ｘ(n,m)｜ …（２）短期平均計算器４は、処理対象フレームの絶対値ｘ１
(n,m)が入力される毎に短期平均ｘｓｔ(n,m)を計算する
ものである。一方、長期平均計算器５は、処理対象フレ
ームの絶対値ｘ１(n,m)が入力される毎に長期平均ｘｌ
ｎｇ(n,m)を計算するものである。

【００２６】短期平均計算器４及び長期平均計算器５と
してはそれぞれ、一般的な平均（算術平均）を求めるも
のを適用でき、また、算術平均の代わりに平滑値を求め
るものを適用できる。この実施形態では、（３）式及び
（４）式に示すように、平滑値演算によって、短期平均
ｘｓｔ(n,m)、長期平均ｘｌｎｇ(n,m)を求めているもの
とする。

【００２７】ｘｓｔ(n,m)＝α・ｘｓｔ(n,m-1)＋（１−α）・ｘ１(n,m) … （３）ｘｌｎｇ(n,m)＝β・ｘｌｎｇ(n,m-1)＋（１−β）・ｘ１(n,m) …（４）ここで、平滑化係数α、βは０より大きく１より小さい
定数である。平滑化係数α（βについても同様）が小さ
い値のとき、入力された絶対値ｘ１(n,m)の急峻な変動
にもよく追従し、短期平均に相当する計算結果が得られ
る。また、平滑化係数β（αについても同様）が大きい
値のとき、入力された絶対値ｘ１(n,m)の急峻な変動に
は鈍感になり、絶対値ｘ１(n,m)の変動成分の大まかな
変化にのみ追従するようになり、長期平均に相当する計
算結果が得られる。平滑化係数α、βとしては、種々の
値を適用し得るが、例えば、α＝０．９、β＝０．９９
６を適用する。

【００２８】また、上述した（３）式及び（４）式にお
いて、ｍ＝１のとき（処理対象フレームが更新された直
後のサンプル入力時刻）には、直前サンプル入力時刻で
の短期平均ｘｓｔ(n,m-1)＝ｘｓｔ(n,0)として、前フレ
ームの最終サンプル時刻での短期平均ｘｓｔ(n-1,128)
を用い、同様に、直前サンプル入力時刻での長期平均ｘ
ｌｎｇ(n,m-1)＝ｘｌｎｇ(n,0)として、前フレームの最
終サンプル時刻での長期平均ｘｌｎｇ(n-1,128)を用い
る。

【００２９】さらに、第１フレームに関しての初期状態
では、ｘｓｔ(1,0)＝０、ｘｌｎｇ(1,0)＝０とする。な
お、０以外の初期値を設けて背景ノイズ等の値に最適化
をするようにしても良く、すなわち、初期値は０に限定
されるものではない。

【００３０】短期平均計算器４から出力された短期平均
ｘｓｔ(n,m)は加算器６に出力され、長期平均計算器５
から出力された長期平均ｘｌｎｇ(n,m)は加算器６、
７、９、背景ノイズレベル推定判定器１０及び音声判定
器１３に出力される。

【００３１】加算器（機能的には減算器）６は、（５）
式に示すように、短期平均ｘｓｔ(n,m)及び長期平均ｘ
ｌｎｇ(n,m)の差ｄｉｆ(n,m)を求めて絶対値計算器１１
に出力するものである。第１フレームに関しての初期状
態では、ｄｉｆ(1,0)＝０とする。なお、０以外の初期
値を設けて背景ノイズ等の値に最適化をするようにして
も良い。

【００３２】ｄｉｆ(n,m)＝ｘｓｔ(n,m)−ｘｌｎｇ(n,m) … （５）絶対値計算器１１は、（６）式に示すように、加算器６
の出力ｄｉｆ(n,m)の絶対値ｄｉｆ２(n,m)を計算して加
算器７に出力する。

【００３３】ｄｉｆ２(n,m)＝｜ｄｉｆ(n,m)｜ …（６）加算器７は、（７）式に示すように、長期平均計算器５
の出力ｘｌｎｇ(n,m)と絶対値計算器１１の出力ｄｉｆ
２(n,m)とを加算することにより、音声検出用の閾値の
瞬時値ｄｉｆｌ３(n,m)を計算して平滑演算器８に出力
するものである。この（７）式から明らかなように、音
声検出用の閾値瞬時値ｄｉｆｌ３(n,m)は、必ず長期平
均ｘｌｎｇ(n,m)より大きくなっている。

【００３４】ｄｉｆｌ３(n,m)＝ｘｌｎｇ(n,m)＋ｄｉｆ２(n,m) … （７）平滑演算器８は、（８）式に示すように、加算器７から
の出力ｄｉｆｌ３(n,m)を平滑処理して、平滑値ｄｉｆ
ｌｌｐｏ(n,m)を加算器９及び背景ノイズレベル推定器
１２に出力するものである。

【００３５】ｄｉｆｌｌｐｏ(n,m)＝ γ・ｄｉｆｌｌｐｏ(n,m-1)＋（１−γ）・ｄｉｆｌ３(n,m) …（８）ここで、平滑化係数γは、加算器７からの出力ｄｉｆｌ
３(n,m)の変化に対応する追従性の速さを決定する係数
であり、この係数γが小さければ、加算器７からの出力
ｄｉｆｌ３(n,m)の急峻な変化にもよく追従し、この係
数γが大きければ、加算器７からの出力ｄｉｆｌ３(n,
m)の急峻な変化には鈍感になり、緩やかな変化成分をよ
く反映する。この係数γは、０より大きく１より小さい
範囲で選定すれば良く、例えば、０．９を適用すること
ができる。

【００３６】また、フレーム内サンプル番号ｍが１のと
きのｄｉｆｌｌｐｏ(n,m-1)＝ｄｉｆｌｌｐｏ(n,0)に
は、前出の他の信号と同様に、前フレームのデータｄｉ
ｆｌｌｐｏ(n-1,128)を用いる。さらに、第１のフレー
ムに関しての初期値ｄｉｆｌｌｐｏ(1,0)としては０を
適用する。なお、背景ノイズ等の値に最適化をするよう
に、０以外の初期値を適用するようにしても良い。

【００３７】加算器６、７、絶対値計算器１１、及び平
滑演算器８は、長期平均に可変オフセットを与える手段
を構成している。

【００３８】加算器（機能的には減算器）９は、（９）
式に示すように、平滑演算器８からの平滑値ｄｉｆｌｌ
ｐｏ(n,m)から、長期平均計算器５からの長期平均ｘｌ
ｎｇ(n,m)を減算することにより、第１のノイズ推定判
定閾値Ｊ１を計算して背景ノイズレベル推定判定器１０
に出力するものである。

【００３９】Ｊ１＝ｄｉｆｌｌｐｏ(n,m)−ｘｌｎｇ(n,m) …（９）背景ノイズレベル推定判定器１０には、背景ノイズレベ
ル推定器１２が後述する（１１）式又は（１２）式に従
って形成した直前時刻（直前のサンプルタイミング）で
の背景ノイズレベルのオフセット付推定値ｄｉｆｌｌｐ
ｏ１(n,m-1)が与えられる。背景ノイズレベル推定判定
器１０は、（１０）式に示すように、直前時刻の背景ノ
イズレベルの推定値ｄｉｆｌｌｐｏ１(n,m-1)から、長
期平均計算器５からの長期平均ｘｌｎｇ(n,m)を減算す
ることにより、第２のノイズ推定判定閾値Ｊ２を計算
し、その後、第１及び第２のノイズ推定判定閾値Ｊ１及
びＪ２に基づいて、以下の条件１及び２のいずれを満足
するものであるかを判定して、その判定結果（有音、無
御を考慮して背景ノイズレベルが変化したととらえて良
いものか否かを表している）を背景ノイズレベル推定器
１２に出力するものである。

【００４０】Ｊ２＝ｄｉｆｌｌｐｏ１(n,m-1)−ｘｌｎｇ(n,m) …（１０）条件１：Ｊ２・ｃ１＞Ｊ１条件２：Ｊ２・ｃ１≦Ｊ１ここで、係数ｃ１としては、例えば２．５を適用する。
しかし、係数ｃ１が２．５に限定されないことは勿論で
ある。

【００４１】条件１を満足することは、背景ノイズレベ
ルがこのサンプル期間で直前レベルよりかなり変動して
いることを表している。一方、条件２を満足すること
は、背景ノイズレベルがこのサンプル期間で直前レベル
と同程度であることを表している。

【００４２】背景ノイズレベル推定器１２は、（１１）
式又は（１２）式に従って、背景ノイズレベルの推定値
ｄｉｆｌｌｐｏ１(n,m)を、背景ノイズレベル推定判定
器１０からの判定結果に応じて更新し、更新した背景ノ
イズレベルの推定値ｄｉｆｌｌｐｏ１(n,m)を背景ノイ
ズレベル推定判定器１０及び音声判定器１３に出力する
ものである。

【００４３】ｄｉｆｌｌｐｏ１(n,m)＝ δ・ｄｉｆｌｌｐｏ１(n,m-1)＋（１−δ）・ｄｉｆｌｌｐｏ(n,m) （条件１を満足するとき） …（１１）ｄｉｆｌｌｐｏ１(n,m)＝ｄｉｆｌｌｐｏ１(n,m-1) （条件２を満足するとき） …（１２）ここで、δも０から１の範囲の平滑化係数であり、例え
ば、０．９９６を適用できる。また、背景ノイズレベル
の推定値ｄｉｆｌｌｐｏ１(n,m)の初期値は、音声振幅
のとりえる最大値に近い大きな値を設定する。例えば、
音声振幅の最大値１に対して０．７になるように背景ノ
イズレベルの推定値ｄｉｆｌｌｐｏ１(n,m)の初期値を
設定する。なお、初期値として固定値を適用しなくても
良い。また、はじめの５０サンプル期間については、条
件１及び条件２の満足、不満足に関係なく強制的に（１
１）式を実行するようにして、背景ノイズレベルの推定
値ｄｉｆｌｌｐｏ１(n,m)の初期値を継続させるように
しても良い。

【００４４】音声判定器１３は、背景ノイズレベル推定
器１２からの背景ノイズレベルの推定値ｄｉｆｌｌｐｏ
１(n,m)と、長期平均計算器５からの長期平均ｘｌｎｇ
(n,m)との大小比較を行い、現在の処理対象フレームｎ
について、ｄｉｆｌｌｐｏ１(n,m)≦ｘｌｎｇ(n,m)を満
たすサンプル期間が１個でもあるときに、この第ｎフレ
ーム全体に対し音声あり（有音）の判定を下し、その他
のときに、この第ｎフレーム全体に対し音声なし（無
音）の判定を下して、その判定結果を出力端子１４を介
して次段の装置に出力するものである。

【００４５】（Ａ−２）第１の実施形態の動作次に、以上のような各部から構成されている第１の実施
形態の音声検出装置の動作を説明する。

【００４６】音声信号入力端子１から、８ｋＨｚでサン
プリングされたディジタル音声信号Ｘ(n)が入力される
と、フレーム分割器２によって、特定単位長毎にまとめ
られて、すなわち１フレームを構成するように分割さ
れ、フレーム単位に絶対値計算器３に出力される。そし
て、絶対値計算器３によって、フレーム分割器２からの
各フレームの各サンプルＸ(n,m)の絶対値ｘ１(n,m)が計
算されて、短期平均計算器４及び長期平均計算器５に与
えられる。

【００４７】この絶対値ｘ１(n,m)の短期平均ｘｓｔ(n,
m)が、短期平均計算器４によって計算されると共に、こ
の絶対値ｘ１(n,m)の長期平均ｘｌｎｇ(n,m)が、長期平
均計算器５によって計算される。

【００４８】図３（Ａ）は、短期平均ｘｓｔ(n,m)の一
例を示し、図３（Ｂ）は、それに対応する長期平均ｘｌ
ｎｇ(n,m)の一例を示している。図３（Ａ）に示すよう
に、短期平均ｘｓｔ(n,m)では背景ノイズ成分が平均化
（平滑化）後においても残っているのに対して、図３
（Ｂ）に示すように、長期平均ｘｌｎｇ(n,m)では背景
ノイズ成分が平均化（平滑化）後においてほとんど除去
されている。

【００４９】これら短期平均ｘｓｔ(n,m)及び長期平均
ｘｌｎｇ(n,m)の差ｄｉｆ(n,m)が、加算器６によって求
められた後、絶対値計算器１１によって、その絶対値ｄ
ｉｆ２(n,m)が求められて、加算器７によって、この絶
対値ｄｉｆ２(n,m)と長期平均ｘｌｎｇ(n,m)とが加算さ
れ、音声検出用の閾値の瞬時値ｄｉｆｌ３(n,m)が形成
される。

【００５０】形成された音声検出用の閾値の瞬時値ｄｉ
ｆｌ３(n,m)は、図３（Ｃ）に示すように、長期平均ｘ
ｌｎｇ(n,m)より常に大きく、しかも、短期平均ｘｓｔ
(n,m)（言い換えると、短期変動の背景ノイズ成分）が
反映されたものとなっている。

【００５１】このような音声検出用の閾値瞬時値ｄｉｆ
ｌ３(n,m)は、平滑演算器８によって、平滑処理され
て、音声検出用の閾値ｄｉｆｌｌｐｏ(n,m)に変換され
る。図３（Ｄ）は、音声検出用の閾値瞬時値ｄｉｆｌ３
(n,m)が図３（Ｃ）に示すような場合における平滑演算
器８からの出力（可変オフセットが付加された長期平
均；音声検出用の閾値の基本レベルを提供するものであ
る）ｄｉｆｌｌｐｏ(n,m)を示している。この図３
（Ｄ）から明らかなように、平滑値ｄｉｆｌｌｐｏ(n,
m)は、音声検出用の閾値瞬時値ｄｉｆｌ３(n,m)に比較
して、背景ノイズ成分による変動が小さくなされてい
る。

【００５２】この平滑値ｄｉｆｌｌｐｏ(n,m)から、加
算器９によって、長期平均計算器５からの長期平均ｘｌ
ｎｇ(n,m)が減算され、第１のノイズ推定判定閾値Ｊ１
が得られて背景ノイズレベル推定判定器１０に与えられ
る。この第１のノイズ推定判定閾値Ｊ１は、背景ノイズ
レベルの変動を、短期平均ｘｓｔ(n,m)及び長期平均ｘ
ｌｎｇ(n,m)の変動を考慮して、しかも、背景ノイズレ
ベルをかなり平滑化したものとなっている（なお、第２
のノイズ推定判定閾値Ｊ２に比較するとその変動は大き
い）。

【００５３】背景ノイズレベル推定判定器１０において
は、背景ノイズレベル推定器１２から背景ノイズレベル
のオフセット付推定値ｄｉｆｌｌｐｏ１(n,m-1)が与え
られ、この背景ノイズレベル推定判定器１０によって、
この推定値ｄｉｆｌｌｐｏ１(n,m-1)から、長期平均計
算器５からの長期平均ｘｌｎｇ(n,m)が減算されて第２
のノイズ推定判定閾値Ｊ２が求められる。その後、背景
ノイズレベル推定判定器１０によって、第１のノイズ推
定判定閾値Ｊ１と、第２のノイズ推定判定閾値Ｊ２をｃ
１倍した値とが大小比較され、後者が前者より大きい場
合には（上述した条件１：Ｊ２・ｃ１＞Ｊ１が満足する
場合には）、背景ノイズレベルの推定値を更新させる判
定結果が形成され、一方、後者が前者以下の場合には
（上述した条件２：Ｊ２・ｃ１≦Ｊ１が満足する場合に
は）、音声成分が存在する可能性があるので、背景ノイ
ズレベルの推定値の更新を禁止する判定結果が形成され
る。

【００５４】背景ノイズレベル推定器１２においては、
背景ノイズレベル推定判定器１０から条件１を満足して
いるという判定結果が与えられたときには、現時刻（現
サンプルタイミング）の推定値ｄｉｆｌｌｐｏ１(n,m)
を、直前時刻の推定値ｄｉｆｌｌｐｏ１(n,m-1)と、平
滑演算器８からの出力ｄｉｆｌｌｐｏ(n,m)との重み付
け加算（平滑化）によって更新し、一方、背景ノイズレ
ベル推定判定器１０から条件２を満足しているという判
定結果が与えられたときには、現時刻（現サンプルタイ
ミング）の推定値ｄｉｆｌｌｐｏ１(n,m)として、直前
時刻の推定値ｄｉｆｌｌｐｏ１(n,m-1)を適用する。

【００５５】このように更新された背景ノイズレベルの
オフセット付推定値ｄｉｆｌｌｐｏ１(n,m)は、音声判
定器１３に出力されると共に、背景ノイズレベル推定判
定器１０に対しては、上述したように、直前時刻用の推
定値ｄｉｆｌｌｐｏ１(n,m-1)として出力される。

【００５６】図３（Ｅ）は、背景ノイズレベルのオフセ
ット付推定値ｄｉｆｌｌｐｏ１(n,m)の一例を示すもの
である。背景ノイズレベルのオフセット付推定値ｄｉｆ
ｌｌｐｏ１(n,m)は、短期平均ｘｓｔ(n,m)及び長期平均
ｘｌｎｇ(n,m)の変動に応じた変動を有すると共に、そ
の変動成分は、図３（Ｅ）に示すように緩やかであり、
また、音声成分（有音成分）が除去されており、背景ノ
イズレベルのみを良く反映したものとなっている。

【００５７】そして、音声判定器１３において、長期平
均計算器５からの長期平均ｘｌｎｇ(n,m)と、背景ノイ
ズレベル推定器１２からの背景ノイズレベルのオフセッ
ト付推定値ｄｉｆｌｌｐｏ１(n,m)とが大小比較され、
現在の処理対象フレームｎについて、前者が後者以上で
あるサンプル期間が１個でもあるときに、この第ｎフレ
ームが音声あり（有音）フレームであることを表し、そ
の他のときに、この第ｎフレームが音声なし（無音）フ
レームであることを表す音声検出結果が形成されて、出
力端子１４を介して次段の装置に出力される。

【００５８】図４は、長期平均計算器５からの長期平均
ｘｌｎｇ(n,m)と、背景ノイズレベル推定器１２からの
背景ノイズレベルのオフセット付推定値ｄｉｆｌｌｐｏ
１(n,m)との一例を示すものであり、図３より、単位長
さあたりの時間を長くとっているものである。背景ノイ
ズレベルのオフセット付推定値ｄｉｆｌｌｐｏ１(n,m)
は、音声成分（有音成分）が除去された背景ノイズレベ
ルのみを良く反映したものとなっているので、少なくと
もこれを越える長期平均ｘｌｎｇ(n,m)の期間は有音期
間である。

【００５９】（Ａ−３）第１の実施形態の効果上述した第１の実施形態の音声検出装置によれば、以下
の効果を奏することができる。

【００６０】（１）入力音声信号のレベルの長期平均
を、長期平均及び短期平均から推定された可変オフセッ
トを有する背景ノイズレベル（閾値）と比較することに
より、有音／無音を判定するようにしたので、短期平均
を閾値と比較して有音／無音を検出する第１の従来例の
ような短期平均の急峻な変動性のために閾値に対する超
過と未達が頻繁に繰り返されて誤検出するということが
なくなる。

【００６１】（２）また、音声パワーの最大値を、背景
ノイズレベルを考慮して作成した閾値と比較して有音／
無音を判定する第２の従来例に比較しても、安定かつ高
精度に有音／無音を判定することができる。

【００６２】（３）フレーム内のサンプル毎に、可変オ
フセットを有する背景ノイズレベル（閾値）の見直しを
行い、背景ノイズの急増がフレーム内でおこったときに
は、可変オフセットを有する背景ノイズレベル（閾値）
を更新してそのノイズの急増に追従していくようにして
いるので、背景ノイズの急変を有音と誤判定することを
防止することができる。

【００６３】（４）フレーム内のサンプル毎に、可変オ
フセットを有する背景ノイズレベル（閾値）の見直しを
行い、背景ノイズの急増がフレーム内でおこったときに
は、可変オフセットを有する背景ノイズレベル（閾値）
を更新してそのノイズの急増に追従していくようにし、
かつ、フレーム単位で有音／無音を判定するようにして
いるので、第２の従来例のような複数のフレームの期
間、背景ノイズの推定レベルを実際の値よりも大きく誤
判定してしまうようなことがなくなり、言い換えると、
有音と判定すべきレベルの信号を、背景ノイズレベル内
であると誤判定することが複数フレームで連続すること
がなくなり、背景ノイズの変化に伴う判定結果における
話尾、話頭切れをなくすことができる。

【００６４】（５）フレーム内のどのサンプルで有音と
判定されても、当該処理対象フレーム全体を有音（音声
あり）と判定するようにしたので、他の装置でフレーム
処理する際に、話頭、話尾切れを防止することができ
る。

【００６５】（Ｂ）第２の実施形態次に、本発明による音声検出装置の第２の実施形態を図
面を参照しながら詳述する。

【００６６】この第２の実施形態の音声検出装置は、第
１の実施形態よりフレーム長を短く定めた場合を考慮し
ているものである。すなわち、最も短い実際上の有音期
間でも、２以上のフレームにまたがる程度にフレーム長
を短く選定した場合（例えば、１０ｍｓ；８０サンプ
ル）を考慮したものである。

【００６７】図５は、第２の実施形態の音声検出装置の
構成を示すブロック図であり、上述した第１の実施形態
に係る図１との同一、対応部分には同一符号を付して示
している。

【００６８】図５において、この第２の実施形態の音声
検出装置は、第１の実施形態と同様な音声信号入力端子
１、フレーム分割器２、２個の絶対値計算器３及び１
１、短期平均計算器４、長期平均計算器５、３個の加算
器６、７及び９、平滑演算器８、背景ノイズレベル推定
判定器１０、背景ノイズレベル推定器１２、音声判定器
１３、並びに、判定結果出力端子１４に加えて、さら
に、前後フレーム音声制御器１５を有するものである。

【００６９】前後フレーム音声制御器１５以外の構成要
素は、第１の実施形態のものと同様な機能を担っている
ので、その説明は省略する。

【００７０】前後フレーム音声制御器１５は、音声判定
器１３の判定結果が有音であるフレームの前後それぞれ
のｓ個のフレームを、強制的に「有音フレーム」に変化
させて出力端子１４に出力するものである。ここで、強
制的に有音フレームに変化させるフレーム個数ｓは任意
で良い。例えば、フレーム長が１０ｍｓ程度であればｓ
は１程度で良い。要は、フレーム長に応じて、ｓを定め
れば良い。

【００７１】この第２の実施形態の音声検出装置によっ
ても、第１の実施形態と同様な効果を奏することができ
る。

【００７２】これに加えて、第２の実施形態によれば、
音声判定器１３の後段に前後フレーム音声制御器１５を
設けて、有音フレームの前後のｓフレームを強制的に有
音フレームに変化させるようにしたので、フレーム長を
短く選定した場合であっても、有音フレームを無音フレ
ームと誤って判定することを防止することができる。

【００７３】フレーム長が短ければ、１フレーム当りの
サンプル数がフレーム長が長い場合に比較して少なくな
るので、第１の実施形態においてフレーム長を短くした
場合には、話頭や話尾に係るフレームにおいて、非常に
小さくなっていても無音と誤判定される恐れは残ってい
る。そこで、第２の実施形態のように、フレーム長が短
い場合には、音声判定器１３の後段に前後フレーム音声
制御器１５を設けて、有音フレームの前後のｓフレーム
を強制的に有音フレームに変化させるようにすることが
好ましい。

【００７４】なお、実際上の有音最短期間に比べて、フ
レーム長が十分長い場合であっても、前後フレーム音声
制御器１５を設けるようにして、有音フレームを無音フ
レームと誤判定される恐れを一段と小さくするようにし
ても良い。

【００７５】（Ｃ）第３の実施形態次に、本発明による音声検出装置の第３の実施形態を図
面を参照しながら詳述する。

【００７６】この第３の実施形態の音声検出装置は、第
１の実施形態よりフレーム長を短く定めた場合を考慮し
ているものである。

【００７７】ここで、図６が、この第３の実施形態の音
声検出装置の構成を示すブロック図であり、上述した第
２の実施形態に係る図５との同一、対応部分には、同一
符号を付して示している。図６及び図５の比較から明ら
かなように、この第３の実施形態の音声検出装置は、第
２の実施形態の構成に加えて、音声フレーム判定器１
（中間音声フレーム制御器）６を有するものである。

【００７８】音声フレーム判定器１６以外の構成要素
は、第２の実施形態のものと同様な機能を担っているの
で、その説明は省略する。

【００７９】音声フレーム判定器１６は、音声判定器１
３及び前後フレーム音声制御器１５の間に設けられてい
る。音声フレーム判定器１６は、音声判定器１３から出
力された連続するｔ（ｔは３、４程度）個のフレームの
判定結果を監視し、両端の２フレームが有音フレームで
あって、中間のｔ−２個のフレームに無音フレームがあ
れば、その無音フレームを強制的に有音フレームに変化
させて（実際上は判定結果を変化させて）前後フレーム
音声制御器１５に出力するものである。

【００８０】これは、中間の無音フレームは、本来は音
声と音声の間の過渡期間であって子音である可能性が大
きく、正しくは、有音と判定されるべきものであるとい
う考え方によっている。

【００８１】例えば、音声フレーム判定器１６は、第ｎ
−１フレームが「有音」、第ｎフレームが「無音」、第
ｎ＋１フレームが「有音」であれば、第ｎフレームを
「無音」から「有音」に変化させる。なお、次回の第ｎ
フレーム〜第ｎ＋２フレームの判定においては、第ｎフ
レームの判定結果は当初の「無音」のままで、第ｎ＋１
フレームが「無音」から「有音」に変化させる必要があ
るかの判定を行う。

【００８２】第３の実施形態の音声検出装置によって
も、上述した第２の実施形態と同様な効果を奏すること
ができ、さらに、この第３の実施形態によれば、以下の
効果を奏することができる。

【００８３】すなわち、音声判定器１３と前後フレーム
音声制御器１５との間に音声フレーム判定器１６を設
け、音声フレーム判定器１６によって連続したｔ個のフ
レームのうち、両端の有音フレームに挟まれた中間の無
音フレームを有音フレームに強制的に変換させるように
したので、例えば、音声と音声の過渡期間における子音
に係るフレームが無音フレームと音声判定器１３では誤
判定されても、当該音声検出装置から出力される判定結
果では正しく有音フレームとすることができる。

【００８４】また、音声フレーム判定器１６が監視して
いる連続するｔ個のフレームが切り替わった場合には
（例えば、ｎ−１、ｎ、ｎ＋１の３フレームが、ｎ、ｎ
＋１、ｎ＋２のフレームに切り替わった場合には）、変
換後の判定結果ではなく、音声判定器１３からの判定結
果に基づいて、音声と音声の過渡期間かを確認するよう
にしているので、判定換えの結果が後続する処理の判定
における誤動作の原因になることを確実に防止すること
ができる。

【００８５】なお、監視している連続するｔ個のフレー
ムが切り替わった場合に、変換後の判定結果を用いたと
しても（他の実施形態を構成する）、誤動作の原因には
ほとんどならないと考えられるが、誤動作の原因を完全
に除去するという観点からは、上記第３の実施形態のよ
うに、変換後の判定結果を用いないことが好ましい。

【００８６】（Ｄ）他の実施形態上述した各実施形態の説明においても、種々変形実施形
態を説明したが、さらに以下のような変形実施形態を挙
げることができる。

【００８７】上記各実施形態におけるフレーム分割器
は、各フレームでサンプルが重複しないようにフレーム
分割するものであったが、一部のサンプルが相前後する
フレームで重複するようにフレーム分割するフレーム分
割器を適用しても良い。

【００８８】また、フレーム分割器を省略し、音声判定
器による判定段階でフレーム概念を導入するようにして
も良い。

【００８９】さらに、入力音声信号のレベルを表した値
を形成するための絶対値計算器３は、入力音声信号が正
の範囲（例えば０〜２５６）だけをとるように表現され
ているデータであれば省略することもできる。また、絶
対値計算器３に代えて、２乗計算器を適用するようにし
ても良い。同様に、絶対値計算器１１についても、絶対
値計算器１１に代えて、２乗計算器を適用するようにし
ても良い。

【００９０】さらにまた、上記各実施形態においては、
背景ノイズレベルが変動してないときには、直前の推定
背景ノイズレベルを維持するものを示したが、この場合
も、平滑演算器８の出力ｄｉｆｌｌｐｏ(n,m)と直前の
推定背景ノイズレベルｄｉｆｌｌｐｏ１(n,m)との平滑
演算を行うようにしても良い（（１０）式参照）。但
し、平滑化係数を、背景ノイズレベルが変動していると
きと異なるようにすることを要する。

【００９１】また、推定背景ノイズレベルの見直し周期
を１サンプル期間毎ではなく、２サンプル期間毎や３サ
ンプル期間毎にして処理量を軽減するようにしても良
い。

【００９２】さらに、第３の実施形態において、音声フ
レーム判定器１６と前後フレーム音声制御器１５の設置
位置を逆にするようにしても良い。

【００９３】

【発明の効果】以上のように、第１の発明の音声検出装
置によれば、短期平均や最高レベル値を判定用レベルと
比較して有音／無音を決定する従来装置より高精度に音
声検出を実行でき、また、判定用レベルを長期平均及び
短期平均の両方から背景ノイズレベルを推定して形成し
ているので、背景ノイズレベルの変動によく追従してい
る判定用レベルを形成できて、この点からも有音／無音
を高精度に検出できる。しかも、オフセット付加手段や
背景ノイズレベル推定判定手段によって、背景ノイズの
急変にも追随することができる。また、第２の発明の音
声検出装置では、第１の発明と同様、短期平均や最高レ
ベル値を判定用レベルと比較して有音／無音を決定する
装置より高精度に音声検出を実行でき、背景ノイズレベ
ルの変動によく追従している判定用レベルを形成できか
ら、この点から有音／無音を高精度に検出できることに
加えて、所定単位期間中の１サンプル期間でも、上記長
期平均計算手段で計算された長期平均が判定用レベルを
越えていれば、その所定単位期間を有音期間と決定する
ため、他の装置で処理する場合でも、話頭、話尾切れが
防止できる。

【図面の簡単な説明】

【図１】第１の実施形態の構成を示すブロック図であ
る。

【図２】従来の構成を締め巣ブロック図である。

【図３】第１の実施形態の各部信号波形図である。

【図４】第１の音声判定器の処理の説明図である。

【図５】第２の実施形態の構成を示すブロック図であ
る。

【図６】第３の実施形態の構成を示すブロック図であ
る。

【符号の説明】

２…フレーム分割器、３、１１…絶対値計算器、４…短
期平均計算器、５…長期平均計算器、６、７、９…加算
器、１０…背景ノイズレベル推定判定器、１２…背景ノ
イズレベル推定器、１３…音声判定器、１５…前後フレ
ーム音声制御器、１６…音声フレーム判定器。

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声信号が有音であるか無音
であるかを検出する音声検出装置において、入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、入力音声信号のレベルの短期平均を計算する短期平均計
算手段と、これら長期平均計算手段及び短期平均計算手段で計算さ
れた長期平均及び短期平均に基づいて、背景ノイズレベ
ルを推定して得た有音／無音の判定用レベルを出力する
判定用レベル形成手段と、上記長期平均計算手段で計算された長期平均と、この判
定用レベル形成手段から出力された判定用レベルとを大
小比較して、有音期間及び無音期間を決定する音声判定
手段とを備え、上記判定用レベル形成手段が、長期平均に、当該長期平均及び短期平均によって定まる
可変オフセットを与えるオフセット付加手段と、可変オフセットが与えられた長期平均、上記長期平均計
算手段から出力された長期平均、及び、直前の推定背景
ノイズレベルに基づいて、推定背景ノイズレベルを更新
するか否かを判定する背景ノイズレベル推定判定手段
と、推定背景ノイズレベルを更新するという判定結果のとき
に、直前の推定背景ノイズレベルと、可変オフセットが
与えられた長期平均とを重み付け合成して推定背景ノイ
ズレベルを更新させると共に、推定背景ノイズレベルを
更新しないという判定結果のときに、直前の推定背景ノ
イズレベルを維持して、有音／無音の判定用レベルを形
成する背景ノイズレベル推定手段とを有することを特徴
とする音声検出装置。
【請求項２】上記オフセット付加手段が、上記長期平
均計算手段及び上記短期平均計算手段から出力された長
期平均及び短期平均間の差分絶対値を得、この差分絶対
値に上記長期平均計算手段から出力された長期平均を加
算し、この加算値を平滑して、可変オフセットが与えら
れた長期平均を形成するものであることを特徴とする請
求項１に記載の音声検出装置。
【請求項３】上記背景ノイズレベル推定判定手段が、
可変オフセットが与えられた長期平均から、上記長期平
均計算手段から出力された長期平均を減算して第１の判
定用値を形成すると共に、今までの推定背景ノイズレベ
ルから、上記長期平均計算手段から出力された長期平均
を減算して第２の判定用値を形成し、第２の判定用値の
所定倍が第１の判定用値より大きいときに、推定背景ノ
イズレベルを更新すると判定するものであることを特徴
とする請求項１又は２に記載の音声検出装置。
【請求項４】入力された音声信号が有音であるか無音
であるかを検出する音声検出装置において、入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、入力音声信号のレベルの短期平均を計算する短期平均計
算手段と、これら長期平均計算手段及び短期平均計算手段で計算さ
れた長期平均及び短期平均に基づいて、背景ノイズレベ
ルを推定して得た有音／無音の判定用レベルを出力する
判定用レベル形成手段と、上記長期平均計算手段で計算された長期平均と、この判
定用レベル形成手段から出力された判定用レベルとを大
小比較して、有音期間及び無音期間を決定する音声判定
手段とを備え、上記音声判定手段が、所定単位期間毎に有音／無音を決
定するものであり、所定単位期間中の１サンプル期間で
も、上記長期平均計算手段で計算された長期平均が判定
用レベルを越えていれば、その所定単位期間を有音期間
と決定するものであることを特徴とする音声検出装置。
【請求項５】上記音声判定手段が、所定単位期間毎に
有音／無音を決定するものであると共に、この音声判定手段の後段に、有音期間と判定された所定
単位期間の前後所定数の無音期間と判定された所定単位
期間を、強制的に有音期間に変換する前後所定単位期間
制御手段をさらに備えることを特徴とする請求項１〜４
のいずれかに記載の音声検出装置。
【請求項６】上記音声判定手段が、所定単位期間毎に
有音／無音を決定するものであると共に、この音声判定手段の後段に、有音期間と判定された２個
の所定単位期間に挟まれた無音期間と判定された所定単
位期間の数が所定数のときに、有音期間と判定された２
個の所定単位期間に挟まれた無音期間と判定された所定
単位期間を強制的に有音期間に変換する中間所定単位期
間制御手段をさらに備えることを特徴とする請求項１〜
５のいずれかに記載の音声検出装置。