JP3297346B2 - 音声検出装置 - Google Patents
音声検出装置Info
- Publication number
- JP3297346B2 JP3297346B2 JP11225097A JP11225097A JP3297346B2 JP 3297346 B2 JP3297346 B2 JP 3297346B2 JP 11225097 A JP11225097 A JP 11225097A JP 11225097 A JP11225097 A JP 11225097A JP 3297346 B2 JP3297346 B2 JP 3297346B2
- Authority
- JP
- Japan
- Prior art keywords
- term average
- long
- sound
- background noise
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 48
- 230000007774 longterm Effects 0.000 claims abstract description 104
- 230000005236 sound signal Effects 0.000 claims description 22
- 238000012935 Averaging Methods 0.000 abstract description 4
- 238000009499 grossing Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 206010019133 Hangover Diseases 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
音声成分の存在(有音)、不存在(無音)を検出する音
声検出装置に関し、例えば、音声成分の存在、不存在に
よって処理を切り替えることを要する電話機、ナビゲー
ション機器、音声認識装置、無線機、録音機などに適用
し得るものである。
来例と呼ぶ)として、以下のような音声検出方法を採用
しているものがある。
信号のレベル(パワーの場合もある)の長期平均と短期
平均とを計算し、滑らかな変動特性を示す長期平均の計
算結果に固定のオフセット(例えば6dBに相当するオ
フセット)を持たせ、急峻な変化を示す短期平均が、長
期平均にオフセットを加えた閾値を超過したときに音声
成分(有音)とみなす方法であった。
報に記載されている音声検出装置(第2の従来例と呼
ぶ)がある。図2は、この第2の従来例の音声検出装置
の構成を示すものであり、以下、この図2を参照しなが
ら、第2の従来例を説明する。
長のフレーム単位に音声信号のパワー等を検出し、音声
成分の有無(有音/無音)を検出するものである。
ー算出器20により、1サンプル毎にある固定長の長さ
の音声パワーが計算される。1サンプル毎に算出された
音声パワーは最大値検出器21に入力され、最大値検出
器21により、処理対象フレーム区間に対して、その前
後に所定区間だけ加えた範囲内で音声パワーの最大値が
検出されて判定回路22に与えられる。また、入力音声
信号から、零交差率測定器23により、処理対象フレー
ム区間についての零交差率が算出されて判定回路22に
与えられる。
差率測定器23の検出結果は、フレームに1回ずつ判定
回路22に入力され、この判定回路22により、その時
点で閾値算出器25に設定されている閾値が利用されて
有音/無音判定がなされ、その判定結果(例えば、有音
で1、無音で0)がハングオーバ発生器24に与えられ
る。ハングオーバ発生器24においては、有音から無音
に変化したときには、その変化フレームから所定フレー
ム数の区間だけ、無音を指示する判定結果を有音を指示
する判定結果に変更して出力する。
判定結果によって定まる期間内の音声パワーの変動を監
視して、閾値を更新するものである。
ームの期間より最大値の探索区間を広くとっているの
は、以下の理由による。音声(実際の有音区間)は、そ
の発声直後(以下、話頭と呼ぶ)や発声終了直前(以
下、話尾と呼ぶ)においてはパワーが小さいものであ
り、処理対象フレームの後半に話頭がある場合や、処理
対象フレームの前半に話尾があるような場合には、その
処理対象フレームだけを探索区間としたときの最大値は
小さく、無音と誤判定される恐れが大きい。そこで、処
理対象フレームの期間より最大値の探索区間を広くとっ
て、上述したような話頭や話尾に係る処理対象フレーム
でも、その処理対象フレームを代表させる最大値を大き
くするようにしている。
従来例の音声検出装置では、短期平均の変化が急峻であ
るため、長期平均だけから作成した閾値によっては、有
音期間において、短期平均が閾値に対して超過すること
と達しないこととが頻繁に繰り返されるようなことも生
じ、仮に、有音判定結果から無音判定結果への変化に緩
衝期間を設けたとしても、誤判定が生じる恐れが高いも
のであった。同様に、無音期間であっても、背景ノイズ
などの変動による短期平均の急峻な変化のために、短期
平均が閾値に対して超過することと達しないこととが頻
繁に繰り返されるようなことも生じ、誤判定が生じる恐
れが高いものであった。
以下のような課題(1)や(2)などを有するものであ
った。
の値を決定してその最大値に基づいて有音/無音を判定
するので、背景ノイズの急増(例えばスパイク状ノイ
ズ)がフレーム内でおこったときに、ノイズ急変を音声
成分(有音)と誤判定することを避けることができない
ものであった。
無音判定用の閾値更新では、以下のような処理を行って
いる。1フレーム毎に、一定区間の音声パワーを入力
し、フレーム毎にそのパワーの変動を監視し、パワー変
動がある一定時間、所定値以下であればその区間は背景
ノイズの区間と判定し、この区間に入力された背景ノイ
ズのパワーを推定して閾値を決定する。
変化分を音声の変化と誤判定して背景ノイズのフレーム
ではないと判定し、一定フレーム数の期間、背景ノイズ
の推定レベルを実際の値よりも大きく誤判定してしま
う。その結果、本来ならば有音と判定すべきレベルの信
号を、背景ノイズレベル内であると誤判定する。特に、
有音でありながら音声成分のレベルが低い話頭や話尾の
期間では、この誤判定が起こりやすい。すなわち、背景
ノイズ変化の起きた後の一定フレーム数の期間は音声の
話尾、話頭切れが起こることを避けることができないこ
とが多い。
ることができる音声検出装置が求められている。
め、第1の発明は、入力された音声信号が有音であるか
無音であるかを検出する音声検出装置において、(1)
入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、(2)入力音声信号のレベルの短期平均を計
算する短期平均計算手段と、(3)これら長期平均計算
手段及び短期平均計算手段で計算された長期平均及び短
期平均に基づいて、背景ノイズレベルを推定して得た有
音/無音の判定用レベルを出力する判定用レベル形成手
段と、(4)長期平均計算手段で計算された長期平均
と、この判定用レベル形成手段から出力された判定用レ
ベルとを大小比較して、有音期間及び無音期間を決定す
る音声判定手段とを備え、上記判定用レベル形成手段
が、(5)長期平均に、当該長期平均及び短期平均によ
って定まる可変オフセットを与えるオフセット付加手段
と、(6)可変オフセットが与えられた長期平均、上記
長期平均計算手段から出力された長期平均、及び、直前
の推定背景ノイズレベルに基づいて、推定背景ノイズレ
ベルを更新するか否かを判定する背景ノイズレベル推定
判定手段と、(7)推定背景ノイズレベルを更新すると
いう判定結果のときに、直前の推定背景ノイズレベル
と、可変オフセットが与えられた長期平均とを重み付け
合成して推定背景ノイズレベルを更新させると共に、推
定背景ノイズレベルを更新しないという判定結果のとき
に、直前の推定背景ノイズレベルを維持して、有音/無
音の判定用レベルを形成する背景ノイズレベル推定手段
とを有することを特徴とする。また、第2の発明は、入
力された音声信号が有音であるか無音であるかを検出す
る音声検出装置において、(1)入力音声信号のレベル
の長期平均を計算する長期平均計算手段と、(2)入力
音声信号のレベルの短期平均を計算する短期平均計算手
段と、(3)これら長期平均計算手段及び短期平均計算
手段で計算された長期平均及び短期平均に基づいて、背
景ノイズレベルを推定して得た有音/無音の判定用レベ
ルを出力する判定用レベル形成手段と、(4)上記長期
平均計算手段で計算された長期平均と、この判定用レベ
ル形成手段から出力された判定用レベルとを大小比較し
て、有音期間及び無音期間を決定する音声判定手段とを
備え、(5)上記音声判定手段が、所定単位期間毎に有
音/無音を決定するもので あり、所定単位期間中の1サ
ンプル期間でも、上記長期平均計算手段で計算された長
期平均が判定用レベルを越えていれば、その所定単位期
間を有音期間と決定するものであることを特徴とする。
に、長期平均と判定用レベルとの比較により有音/無音
を決定するものであるので、短期平均や最高レベル値を
判定用レベルと比較して有音/無音を決定する装置より
高精度に音声検出を実行でき、また、判定用レベルを長
期平均及び短期平均の両方から背景ノイズレベルを推定
して形成しているので、背景ノイズレベルの変動によく
追従している判定用レベルを形成できて、この点からも
有音/無音を高精度に検出できる。しかも、オフセット
付加手段や背景ノイズレベル推定判定手段によって、背
景ノイズの急変にも追随することができる。 また、第2
の発明の音声検出装置では、第1の発明と同様、短期平
均や最高レベル値を判定用レベルと比較して有音/無音
を決定する装置より高精度に音声検出を実行でき、背景
ノイズレベルの変動によく追従している判定用レベルを
形成できから、この点から有音/無音を高精度に検出で
きることに加えて、所定単位期間中の1サンプル期間で
も、上記長期平均計算手段で計算された長期平均が判定
用レベルを越えていれば、その所定単位期間を有音期間
と決定するため、他の装置で処理する場合でも、話頭、
話尾切れが防止できる。
面を参照しながら詳述する。
ロック図である。この第1の実施形態の音声検出装置に
は、図示しないアナログ/ディジタル変換器によってデ
ィジタル化されている音声信号が入力される。
検出装置は、音声信号入力端子1、フレーム分割器2、
2個の絶対値計算器3及び11、短期平均計算器4、長
期平均計算器5、3個の加算器6、7及び9、平滑演算
器8、背景ノイズレベル推定判定器10、背景ノイズレ
ベル推定器12、音声判定器13、並びに、判定結果出
力端子14から構成されている。
Hzでサンプリングされたディジタル音声信号が入力さ
れる。
を特定単位長(この実施形態では128サンプルとす
る;勿論これに限定されるものではない)毎にまとめ
て、1フレームを構成するように分割し、フレーム単位
に絶対値計算器3に出力するものである。
1フレーム単位としているので、動作開始の第1サンプ
ル目から第128サンプル目までの入力音声サンプルは
第1フレームに格納されることになる。例えば、第1フ
レームのm(mは1、…、128)番目のサンプル値を
X(1,m)で表すことにする。第129サンプル目の入力
音声サンプルX(129)は第2フレームの1番目になり、
フレーム分割器2の処理を得た後は、X(2,1)と記述さ
れる。同様に、第kサンプル目の入力音声サンプルX
(k)は、(1)式で表されるように、第nフレームのm
番目の値になって、フレーム分割器2から出力される。
フレームの各サンプルX(n,m)についてそれぞれ、
(2)式に示すように絶対値x1(n,m)を計算し、その
絶対値x1(n,m)を短期平均計算器4及び長期平均計算
器5に出力するものである。
(n,m)が入力される毎に短期平均xst(n,m)を計算する
ものである。一方、長期平均計算器5は、処理対象フレ
ームの絶対値x1(n,m)が入力される毎に長期平均xl
ng(n,m)を計算するものである。
してはそれぞれ、一般的な平均(算術平均)を求めるも
のを適用でき、また、算術平均の代わりに平滑値を求め
るものを適用できる。この実施形態では、(3)式及び
(4)式に示すように、平滑値演算によって、短期平均
xst(n,m)、長期平均xlng(n,m)を求めているもの
とする。
定数である。平滑化係数α(βについても同様)が小さ
い値のとき、入力された絶対値x1(n,m)の急峻な変動
にもよく追従し、短期平均に相当する計算結果が得られ
る。また、平滑化係数β(αについても同様)が大きい
値のとき、入力された絶対値x1(n,m)の急峻な変動に
は鈍感になり、絶対値x1(n,m)の変動成分の大まかな
変化にのみ追従するようになり、長期平均に相当する計
算結果が得られる。平滑化係数α、βとしては、種々の
値を適用し得るが、例えば、α=0.9、β=0.99
6を適用する。
いて、m=1のとき(処理対象フレームが更新された直
後のサンプル入力時刻)には、直前サンプル入力時刻で
の短期平均xst(n,m-1)=xst(n,0)として、前フレ
ームの最終サンプル時刻での短期平均xst(n-1,128)
を用い、同様に、直前サンプル入力時刻での長期平均x
lng(n,m-1)=xlng(n,0)として、前フレームの最
終サンプル時刻での長期平均xlng(n-1,128)を用い
る。
では、xst(1,0)=0、xlng(1,0)=0とする。な
お、0以外の初期値を設けて背景ノイズ等の値に最適化
をするようにしても良く、すなわち、初期値は0に限定
されるものではない。
xst(n,m)は加算器6に出力され、長期平均計算器5
から出力された長期平均xlng(n,m)は加算器6、
7、9、背景ノイズレベル推定判定器10及び音声判定
器13に出力される。
式に示すように、短期平均xst(n,m)及び長期平均x
lng(n,m)の差dif(n,m)を求めて絶対値計算器11
に出力するものである。第1フレームに関しての初期状
態では、dif(1,0)=0とする。なお、0以外の初期
値を設けて背景ノイズ等の値に最適化をするようにして
も良い。
の出力dif(n,m)の絶対値dif2(n,m)を計算して加
算器7に出力する。
の出力xlng(n,m)と絶対値計算器11の出力dif
2(n,m)とを加算することにより、音声検出用の閾値の
瞬時値difl3(n,m)を計算して平滑演算器8に出力
するものである。この(7)式から明らかなように、音
声検出用の閾値瞬時値difl3(n,m)は、必ず長期平
均xlng(n,m)より大きくなっている。
の出力difl3(n,m)を平滑処理して、平滑値dif
llpo(n,m)を加算器9及び背景ノイズレベル推定器
12に出力するものである。
3(n,m)の変化に対応する追従性の速さを決定する係数
であり、この係数γが小さければ、加算器7からの出力
difl3(n,m)の急峻な変化にもよく追従し、この係
数γが大きければ、加算器7からの出力difl3(n,
m)の急峻な変化には鈍感になり、緩やかな変化成分をよ
く反映する。この係数γは、0より大きく1より小さい
範囲で選定すれば良く、例えば、0.9を適用すること
ができる。
きのdifllpo(n,m-1)=difllpo(n,0)に
は、前出の他の信号と同様に、前フレームのデータdi
fllpo(n-1,128)を用いる。さらに、第1のフレー
ムに関しての初期値difllpo(1,0)としては0を
適用する。なお、背景ノイズ等の値に最適化をするよう
に、0以外の初期値を適用するようにしても良い。
滑演算器8は、長期平均に可変オフセットを与える手段
を構成している。
式に示すように、平滑演算器8からの平滑値difll
po(n,m)から、長期平均計算器5からの長期平均xl
ng(n,m)を減算することにより、第1のノイズ推定判
定閾値J1を計算して背景ノイズレベル推定判定器10
に出力するものである。
ル推定器12が後述する(11)式又は(12)式に従
って形成した直前時刻(直前のサンプルタイミング)で
の背景ノイズレベルのオフセット付推定値difllp
o1(n,m-1)が与えられる。背景ノイズレベル推定判定
器10は、(10)式に示すように、直前時刻の背景ノ
イズレベルの推定値difllpo1(n,m-1)から、長
期平均計算器5からの長期平均xlng(n,m)を減算す
ることにより、第2のノイズ推定判定閾値J2を計算
し、その後、第1及び第2のノイズ推定判定閾値J1及
びJ2に基づいて、以下の条件1及び2のいずれを満足
するものであるかを判定して、その判定結果(有音、無
御を考慮して背景ノイズレベルが変化したととらえて良
いものか否かを表している)を背景ノイズレベル推定器
12に出力するものである。
しかし、係数c1が2.5に限定されないことは勿論で
ある。
ルがこのサンプル期間で直前レベルよりかなり変動して
いることを表している。一方、条件2を満足すること
は、背景ノイズレベルがこのサンプル期間で直前レベル
と同程度であることを表している。
式又は(12)式に従って、背景ノイズレベルの推定値
difllpo1(n,m)を、背景ノイズレベル推定判定
器10からの判定結果に応じて更新し、更新した背景ノ
イズレベルの推定値difllpo1(n,m)を背景ノイ
ズレベル推定判定器10及び音声判定器13に出力する
ものである。
ば、0.996を適用できる。また、背景ノイズレベル
の推定値difllpo1(n,m)の初期値は、音声振幅
のとりえる最大値に近い大きな値を設定する。例えば、
音声振幅の最大値1に対して0.7になるように背景ノ
イズレベルの推定値difllpo1(n,m)の初期値を
設定する。なお、初期値として固定値を適用しなくても
良い。また、はじめの50サンプル期間については、条
件1及び条件2の満足、不満足に関係なく強制的に(1
1)式を実行するようにして、背景ノイズレベルの推定
値difllpo1(n,m)の初期値を継続させるように
しても良い。
器12からの背景ノイズレベルの推定値difllpo
1(n,m)と、長期平均計算器5からの長期平均xlng
(n,m)との大小比較を行い、現在の処理対象フレームn
について、difllpo1(n,m)≦xlng(n,m)を満
たすサンプル期間が1個でもあるときに、この第nフレ
ーム全体に対し音声あり(有音)の判定を下し、その他
のときに、この第nフレーム全体に対し音声なし(無
音)の判定を下して、その判定結果を出力端子14を介
して次段の装置に出力するものである。
形態の音声検出装置の動作を説明する。
プリングされたディジタル音声信号X(n)が入力される
と、フレーム分割器2によって、特定単位長毎にまとめ
られて、すなわち1フレームを構成するように分割さ
れ、フレーム単位に絶対値計算器3に出力される。そし
て、絶対値計算器3によって、フレーム分割器2からの
各フレームの各サンプルX(n,m)の絶対値x1(n,m)が計
算されて、短期平均計算器4及び長期平均計算器5に与
えられる。
m)が、短期平均計算器4によって計算されると共に、こ
の絶対値x1(n,m)の長期平均xlng(n,m)が、長期平
均計算器5によって計算される。
例を示し、図3(B)は、それに対応する長期平均xl
ng(n,m)の一例を示している。図3(A)に示すよう
に、短期平均xst(n,m)では背景ノイズ成分が平均化
(平滑化)後においても残っているのに対して、図3
(B)に示すように、長期平均xlng(n,m)では背景
ノイズ成分が平均化(平滑化)後においてほとんど除去
されている。
xlng(n,m)の差dif(n,m)が、加算器6によって求
められた後、絶対値計算器11によって、その絶対値d
if2(n,m)が求められて、加算器7によって、この絶
対値dif2(n,m)と長期平均xlng(n,m)とが加算さ
れ、音声検出用の閾値の瞬時値difl3(n,m)が形成
される。
fl3(n,m)は、図3(C)に示すように、長期平均x
lng(n,m)より常に大きく、しかも、短期平均xst
(n,m)(言い換えると、短期変動の背景ノイズ成分)が
反映されたものとなっている。
l3(n,m)は、平滑演算器8によって、平滑処理され
て、音声検出用の閾値difllpo(n,m)に変換され
る。図3(D)は、音声検出用の閾値瞬時値difl3
(n,m)が図3(C)に示すような場合における平滑演算
器8からの出力(可変オフセットが付加された長期平
均;音声検出用の閾値の基本レベルを提供するものであ
る)difllpo(n,m)を示している。この図3
(D)から明らかなように、平滑値difllpo(n,
m)は、音声検出用の閾値瞬時値difl3(n,m)に比較
して、背景ノイズ成分による変動が小さくなされてい
る。
算器9によって、長期平均計算器5からの長期平均xl
ng(n,m)が減算され、第1のノイズ推定判定閾値J1
が得られて背景ノイズレベル推定判定器10に与えられ
る。この第1のノイズ推定判定閾値J1は、背景ノイズ
レベルの変動を、短期平均xst(n,m)及び長期平均x
lng(n,m)の変動を考慮して、しかも、背景ノイズレ
ベルをかなり平滑化したものとなっている(なお、第2
のノイズ推定判定閾値J2に比較するとその変動は大き
い)。
は、背景ノイズレベル推定器12から背景ノイズレベル
のオフセット付推定値difllpo1(n,m-1)が与え
られ、この背景ノイズレベル推定判定器10によって、
この推定値difllpo1(n,m-1)から、長期平均計
算器5からの長期平均xlng(n,m)が減算されて第2
のノイズ推定判定閾値J2が求められる。その後、背景
ノイズレベル推定判定器10によって、第1のノイズ推
定判定閾値J1と、第2のノイズ推定判定閾値J2をc
1倍した値とが大小比較され、後者が前者より大きい場
合には(上述した条件1:J2・c1>J1が満足する
場合には)、背景ノイズレベルの推定値を更新させる判
定結果が形成され、一方、後者が前者以下の場合には
(上述した条件2:J2・c1≦J1が満足する場合に
は)、音声成分が存在する可能性があるので、背景ノイ
ズレベルの推定値の更新を禁止する判定結果が形成され
る。
背景ノイズレベル推定判定器10から条件1を満足して
いるという判定結果が与えられたときには、現時刻(現
サンプルタイミング)の推定値difllpo1(n,m)
を、直前時刻の推定値difllpo1(n,m-1)と、平
滑演算器8からの出力difllpo(n,m)との重み付
け加算(平滑化)によって更新し、一方、背景ノイズレ
ベル推定判定器10から条件2を満足しているという判
定結果が与えられたときには、現時刻(現サンプルタイ
ミング)の推定値difllpo1(n,m)として、直前
時刻の推定値difllpo1(n,m-1)を適用する。
オフセット付推定値difllpo1(n,m)は、音声判
定器13に出力されると共に、背景ノイズレベル推定判
定器10に対しては、上述したように、直前時刻用の推
定値difllpo1(n,m-1)として出力される。
ット付推定値difllpo1(n,m)の一例を示すもの
である。背景ノイズレベルのオフセット付推定値dif
llpo1(n,m)は、短期平均xst(n,m)及び長期平均
xlng(n,m)の変動に応じた変動を有すると共に、そ
の変動成分は、図3(E)に示すように緩やかであり、
また、音声成分(有音成分)が除去されており、背景ノ
イズレベルのみを良く反映したものとなっている。
均計算器5からの長期平均xlng(n,m)と、背景ノイ
ズレベル推定器12からの背景ノイズレベルのオフセッ
ト付推定値difllpo1(n,m)とが大小比較され、
現在の処理対象フレームnについて、前者が後者以上で
あるサンプル期間が1個でもあるときに、この第nフレ
ームが音声あり(有音)フレームであることを表し、そ
の他のときに、この第nフレームが音声なし(無音)フ
レームであることを表す音声検出結果が形成されて、出
力端子14を介して次段の装置に出力される。
xlng(n,m)と、背景ノイズレベル推定器12からの
背景ノイズレベルのオフセット付推定値difllpo
1(n,m)との一例を示すものであり、図3より、単位長
さあたりの時間を長くとっているものである。背景ノイ
ズレベルのオフセット付推定値difllpo1(n,m)
は、音声成分(有音成分)が除去された背景ノイズレベ
ルのみを良く反映したものとなっているので、少なくと
もこれを越える長期平均xlng(n,m)の期間は有音期
間である。
の効果を奏することができる。
を、長期平均及び短期平均から推定された可変オフセッ
トを有する背景ノイズレベル(閾値)と比較することに
より、有音/無音を判定するようにしたので、短期平均
を閾値と比較して有音/無音を検出する第1の従来例の
ような短期平均の急峻な変動性のために閾値に対する超
過と未達が頻繁に繰り返されて誤検出するということが
なくなる。
ノイズレベルを考慮して作成した閾値と比較して有音/
無音を判定する第2の従来例に比較しても、安定かつ高
精度に有音/無音を判定することができる。
フセットを有する背景ノイズレベル(閾値)の見直しを
行い、背景ノイズの急増がフレーム内でおこったときに
は、可変オフセットを有する背景ノイズレベル(閾値)
を更新してそのノイズの急増に追従していくようにして
いるので、背景ノイズの急変を有音と誤判定することを
防止することができる。
フセットを有する背景ノイズレベル(閾値)の見直しを
行い、背景ノイズの急増がフレーム内でおこったときに
は、可変オフセットを有する背景ノイズレベル(閾値)
を更新してそのノイズの急増に追従していくようにし、
かつ、フレーム単位で有音/無音を判定するようにして
いるので、第2の従来例のような複数のフレームの期
間、背景ノイズの推定レベルを実際の値よりも大きく誤
判定してしまうようなことがなくなり、言い換えると、
有音と判定すべきレベルの信号を、背景ノイズレベル内
であると誤判定することが複数フレームで連続すること
がなくなり、背景ノイズの変化に伴う判定結果における
話尾、話頭切れをなくすことができる。
判定されても、当該処理対象フレーム全体を有音(音声
あり)と判定するようにしたので、他の装置でフレーム
処理する際に、話頭、話尾切れを防止することができ
る。
面を参照しながら詳述する。
1の実施形態よりフレーム長を短く定めた場合を考慮し
ているものである。すなわち、最も短い実際上の有音期
間でも、2以上のフレームにまたがる程度にフレーム長
を短く選定した場合(例えば、10ms;80サンプ
ル)を考慮したものである。
構成を示すブロック図であり、上述した第1の実施形態
に係る図1との同一、対応部分には同一符号を付して示
している。
検出装置は、第1の実施形態と同様な音声信号入力端子
1、フレーム分割器2、2個の絶対値計算器3及び1
1、短期平均計算器4、長期平均計算器5、3個の加算
器6、7及び9、平滑演算器8、背景ノイズレベル推定
判定器10、背景ノイズレベル推定器12、音声判定器
13、並びに、判定結果出力端子14に加えて、さら
に、前後フレーム音声制御器15を有するものである。
素は、第1の実施形態のものと同様な機能を担っている
ので、その説明は省略する。
器13の判定結果が有音であるフレームの前後それぞれ
のs個のフレームを、強制的に「有音フレーム」に変化
させて出力端子14に出力するものである。ここで、強
制的に有音フレームに変化させるフレーム個数sは任意
で良い。例えば、フレーム長が10ms程度であればs
は1程度で良い。要は、フレーム長に応じて、sを定め
れば良い。
ても、第1の実施形態と同様な効果を奏することができ
る。
音声判定器13の後段に前後フレーム音声制御器15を
設けて、有音フレームの前後のsフレームを強制的に有
音フレームに変化させるようにしたので、フレーム長を
短く選定した場合であっても、有音フレームを無音フレ
ームと誤って判定することを防止することができる。
サンプル数がフレーム長が長い場合に比較して少なくな
るので、第1の実施形態においてフレーム長を短くした
場合には、話頭や話尾に係るフレームにおいて、非常に
小さくなっていても無音と誤判定される恐れは残ってい
る。そこで、第2の実施形態のように、フレーム長が短
い場合には、音声判定器13の後段に前後フレーム音声
制御器15を設けて、有音フレームの前後のsフレーム
を強制的に有音フレームに変化させるようにすることが
好ましい。
レーム長が十分長い場合であっても、前後フレーム音声
制御器15を設けるようにして、有音フレームを無音フ
レームと誤判定される恐れを一段と小さくするようにし
ても良い。
面を参照しながら詳述する。
1の実施形態よりフレーム長を短く定めた場合を考慮し
ているものである。
声検出装置の構成を示すブロック図であり、上述した第
2の実施形態に係る図5との同一、対応部分には、同一
符号を付して示している。図6及び図5の比較から明ら
かなように、この第3の実施形態の音声検出装置は、第
2の実施形態の構成に加えて、音声フレーム判定器1
(中間音声フレーム制御器)6を有するものである。
は、第2の実施形態のものと同様な機能を担っているの
で、その説明は省略する。
3及び前後フレーム音声制御器15の間に設けられてい
る。音声フレーム判定器16は、音声判定器13から出
力された連続するt(tは3、4程度)個のフレームの
判定結果を監視し、両端の2フレームが有音フレームで
あって、中間のt−2個のフレームに無音フレームがあ
れば、その無音フレームを強制的に有音フレームに変化
させて(実際上は判定結果を変化させて)前後フレーム
音声制御器15に出力するものである。
声と音声の間の過渡期間であって子音である可能性が大
きく、正しくは、有音と判定されるべきものであるとい
う考え方によっている。
−1フレームが「有音」、第nフレームが「無音」、第
n+1フレームが「有音」であれば、第nフレームを
「無音」から「有音」に変化させる。なお、次回の第n
フレーム〜第n+2フレームの判定においては、第nフ
レームの判定結果は当初の「無音」のままで、第n+1
フレームが「無音」から「有音」に変化させる必要があ
るかの判定を行う。
も、上述した第2の実施形態と同様な効果を奏すること
ができ、さらに、この第3の実施形態によれば、以下の
効果を奏することができる。
音声制御器15との間に音声フレーム判定器16を設
け、音声フレーム判定器16によって連続したt個のフ
レームのうち、両端の有音フレームに挟まれた中間の無
音フレームを有音フレームに強制的に変換させるように
したので、例えば、音声と音声の過渡期間における子音
に係るフレームが無音フレームと音声判定器13では誤
判定されても、当該音声検出装置から出力される判定結
果では正しく有音フレームとすることができる。
いる連続するt個のフレームが切り替わった場合には
(例えば、n−1、n、n+1の3フレームが、n、n
+1、n+2のフレームに切り替わった場合には)、変
換後の判定結果ではなく、音声判定器13からの判定結
果に基づいて、音声と音声の過渡期間かを確認するよう
にしているので、判定換えの結果が後続する処理の判定
における誤動作の原因になることを確実に防止すること
ができる。
ムが切り替わった場合に、変換後の判定結果を用いたと
しても(他の実施形態を構成する)、誤動作の原因には
ほとんどならないと考えられるが、誤動作の原因を完全
に除去するという観点からは、上記第3の実施形態のよ
うに、変換後の判定結果を用いないことが好ましい。
態を説明したが、さらに以下のような変形実施形態を挙
げることができる。
は、各フレームでサンプルが重複しないようにフレーム
分割するものであったが、一部のサンプルが相前後する
フレームで重複するようにフレーム分割するフレーム分
割器を適用しても良い。
器による判定段階でフレーム概念を導入するようにして
も良い。
を形成するための絶対値計算器3は、入力音声信号が正
の範囲(例えば0〜256)だけをとるように表現され
ているデータであれば省略することもできる。また、絶
対値計算器3に代えて、2乗計算器を適用するようにし
ても良い。同様に、絶対値計算器11についても、絶対
値計算器11に代えて、2乗計算器を適用するようにし
ても良い。
背景ノイズレベルが変動してないときには、直前の推定
背景ノイズレベルを維持するものを示したが、この場合
も、平滑演算器8の出力difllpo(n,m)と直前の
推定背景ノイズレベルdifllpo1(n,m)との平滑
演算を行うようにしても良い((10)式参照)。但
し、平滑化係数を、背景ノイズレベルが変動していると
きと異なるようにすることを要する。
を1サンプル期間毎ではなく、2サンプル期間毎や3サ
ンプル期間毎にして処理量を軽減するようにしても良
い。
レーム判定器16と前後フレーム音声制御器15の設置
位置を逆にするようにしても良い。
置によれば、短期平均や最高レベル値を判定用レベルと
比較して有音/無音を決定する従来装置より高精度に音
声検出を実行でき、また、判定用レベルを長期平均及び
短期平均の両方から背景ノイズレベルを推定して形成し
ているので、背景ノイズレベルの変動によく追従してい
る判定用レベルを形成できて、この点からも有音/無音
を高精度に検出できる。しかも、オフセット付加手段や
背景ノイズレベル推定判定手段によって、背景ノイズの
急変にも追随することができる。 また、第2の発明の音
声検出装置では、第1の発明と同様、短期平均や最高レ
ベル値を判定用レベルと比較して有音/無音を決定する
装置より高精度に音声検出を実行でき、背景ノイズレベ
ルの変動によく追従している判定用レベルを形成できか
ら、この点から有音/無音を高精度に検出できることに
加えて、所定単位期間中の1サンプル期間でも、上記長
期平均計算手段で計算された長期平均が判定用レベルを
越えていれば、その所定単位期間を有音期間と決定する
ため、他の装置で処理する場合でも、話頭、話尾切れが
防止できる。
る。
る。
る。
期平均計算器、5…長期平均計算器、6、7、9…加算
器、10…背景ノイズレベル推定判定器、12…背景ノ
イズレベル推定器、13…音声判定器、15…前後フレ
ーム音声制御器、16…音声フレーム判定器。
Claims (6)
- 【請求項1】 入力された音声信号が有音であるか無音
であるかを検出する音声検出装置において、 入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、 入力音声信号のレベルの短期平均を計算する短期平均計
算手段と、 これら長期平均計算手段及び短期平均計算手段で計算さ
れた長期平均及び短期平均に基づいて、背景ノイズレベ
ルを推定して得た有音/無音の判定用レベルを出力する
判定用レベル形成手段と、 上記長期平均計算手段で計算された長期平均と、この判
定用レベル形成手段から出力された判定用レベルとを大
小比較して、有音期間及び無音期間を決定する音声判定
手段とを備え、 上記判定用レベル形成手段が、 長期平均に、当該長期平均及び短期平均によって定まる
可変オフセットを与えるオフセット付加手段と、 可変オフセットが与えられた長期平均、上記長期平均計
算手段から出力された長期平均、及び、直前の推定背景
ノイズレベルに基づいて、推定背景ノイズレベルを更新
するか否かを判定する背景ノイズレベル推定判定手段
と、 推定背景ノイズレベルを更新するという判定結果のとき
に、直前の推定背景ノイズレベルと、可変オフセットが
与えられた長期平均とを重み付け合成して推定背景ノイ
ズレベルを更新させると共に、推定背景ノイズレベルを
更新しないという判定結果のときに、直前の推定背景ノ
イズレベルを維持して、有音/無音の判定用レベルを形
成する背景ノイズレベル推定手段とを有することを特徴
とする音声検出装置。 - 【請求項2】 上記オフセット付加手段が、上記長期平
均計算手段及び上記短期平均計算手段から出力された長
期平均及び短期平均間の差分絶対値を得、この差分絶対
値に上記長期平均計算手段から出力された長期平均を加
算し、この加算値を平滑して、可変オフセットが与えら
れた長期平均を形成するものであることを特徴とする請
求項1に記載の音声検出装置。 - 【請求項3】 上記背景ノイズレベル推定判定手段が、
可変オフセットが与えられた長期平均から、上記長期平
均計算手段から出力された長期平均を減算して第1の判
定用値を形成すると共に、今までの推定背景ノイズレベ
ルから、上記長期平均計算手段から出力された長期平均
を減算して第2の判定用値を形成し、第2の判定用値の
所定倍が第1の判定用値より大きいときに、推定背景ノ
イズレベルを更新すると判定するものであることを特徴
とする請求項1又は2に記載の音声検出装置。 - 【請求項4】 入力された音声信号が有音であるか無音
であるかを検出する音声検出装置において、 入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、 入力音声信号のレベルの短期平均を計算する短期平均計
算手段と、 これら長期平均計算手段及び短期平均計算手段で計算さ
れた長期平均及び短期平均に基づいて、背景ノイズレベ
ルを推定して得た有音/無音の判定用レベルを出力する
判定用レベル形成手段と、 上記長期平均計算手段で計算された長期平均と、この判
定用レベル形成手段から出力された判定用レベルとを大
小比較して、有音期間及び無音期間を決定する音声判定
手段とを備え、 上記音声判定手段が、所定単位期間毎に有音/無音を決
定するものであり、所定単位期間中の1サンプル期間で
も、上記長期平均計算手段で計算された長期平均が判定
用レベルを越えていれば、その所定単位期間を有音期間
と決定するものであることを特徴とする音声検出装置。 - 【請求項5】 上記音声判定手段が、所定単位期間毎に
有音/無音を決定するものであると共に、 この音声判定手段の後段に、有音期間と判定された所定
単位期間の前後所定数の無音期間と判定された所定単位
期間を、強制的に有音期間に変換する前後所定単位期間
制御手段をさらに備えることを特徴とする請求項1〜4
のいずれかに記載の音声検出装置。 - 【請求項6】 上記音声判定手段が、所定単位期間毎に
有音/無音を決定するものであると共に、 この音声判定手段の後段に、有音期間と判定された2個
の所定単位期間に挟まれた無音期間と判定された所定単
位期間の数が所定数のときに、有音期間と判定された2
個の所定単位期間に挟まれた無音期間と判定された所定
単位期間を強制的に有音期間に変換する中間所定単位期
間制御手段をさらに備えることを特徴とする請求項1〜
5のいずれかに記載の音声検出装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11225097A JP3297346B2 (ja) | 1997-04-30 | 1997-04-30 | 音声検出装置 |
US09/069,858 US6088670A (en) | 1997-04-30 | 1998-04-30 | Voice detector |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11225097A JP3297346B2 (ja) | 1997-04-30 | 1997-04-30 | 音声検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10301600A JPH10301600A (ja) | 1998-11-13 |
JP3297346B2 true JP3297346B2 (ja) | 2002-07-02 |
Family
ID=14582011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11225097A Expired - Fee Related JP3297346B2 (ja) | 1997-04-30 | 1997-04-30 | 音声検出装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6088670A (ja) |
JP (1) | JP3297346B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101636784B (zh) * | 2007-03-20 | 2011-12-28 | 富士通株式会社 | 语音识别系统及语音识别方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4085214B2 (ja) * | 1999-01-11 | 2008-05-14 | ブラザー工業株式会社 | 通信装置 |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
JP4345225B2 (ja) * | 2000-11-27 | 2009-10-14 | 沖電気工業株式会社 | エコーキャンセラ |
US7031916B2 (en) * | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
GB2384670B (en) * | 2002-01-24 | 2004-02-18 | Motorola Inc | Voice activity detector and validator for noisy environments |
KR100770895B1 (ko) * | 2006-03-18 | 2007-10-26 | 삼성전자주식회사 | 음성 신호 분리 시스템 및 그 방법 |
KR101437830B1 (ko) * | 2007-11-13 | 2014-11-03 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US20090150144A1 (en) * | 2007-12-10 | 2009-06-11 | Qnx Software Systems (Wavemakers), Inc. | Robust voice detector for receive-side automatic gain control |
US8416964B2 (en) * | 2008-12-15 | 2013-04-09 | Gentex Corporation | Vehicular automatic gain control (AGC) microphone system and method for post processing optimization of a microphone signal |
JP5333307B2 (ja) * | 2010-03-19 | 2013-11-06 | 沖電気工業株式会社 | 雑音推定方法及び雑音推定器 |
EP2891151B1 (en) * | 2012-08-31 | 2016-08-24 | Telefonaktiebolaget LM Ericsson (publ) | Method and device for voice activity detection |
JP6064566B2 (ja) * | 2012-12-07 | 2017-01-25 | ヤマハ株式会社 | 音響処理装置 |
US9107010B2 (en) * | 2013-02-08 | 2015-08-11 | Cirrus Logic, Inc. | Ambient noise root mean square (RMS) detector |
US9257952B2 (en) * | 2013-03-13 | 2016-02-09 | Kopin Corporation | Apparatuses and methods for multi-channel signal compression during desired voice activity detection |
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US8990079B1 (en) * | 2013-12-15 | 2015-03-24 | Zanavox | Automatic calibration of command-detection thresholds |
US9674607B2 (en) | 2014-01-28 | 2017-06-06 | Mitsubishi Electric Corporation | Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system |
US10163453B2 (en) * | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
US11631421B2 (en) | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
JP6695057B2 (ja) * | 2016-04-27 | 2020-05-20 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価方法、およびプログラム |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
AU2021221525A1 (en) * | 2020-08-25 | 2022-03-24 | Viotel Limited | A device and method for monitoring status of cable barriers |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202394A (ja) * | 1995-01-27 | 1996-08-09 | Kyocera Corp | 音声検出器 |
-
1997
- 1997-04-30 JP JP11225097A patent/JP3297346B2/ja not_active Expired - Fee Related
-
1998
- 1998-04-30 US US09/069,858 patent/US6088670A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101636784B (zh) * | 2007-03-20 | 2011-12-28 | 富士通株式会社 | 语音识别系统及语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US6088670A (en) | 2000-07-11 |
JPH10301600A (ja) | 1998-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3297346B2 (ja) | 音声検出装置 | |
JP3423906B2 (ja) | 音声の動作特性検出装置および検出方法 | |
JP4236726B2 (ja) | 音声活動検出方法及び音声活動検出装置 | |
EP0979504B1 (en) | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments | |
JP3224132B2 (ja) | 音声活動検出装置 | |
EP2656341B1 (en) | Apparatus for performing a voice activity detection | |
JPH09212195A (ja) | 音声活性検出装置及び移動局並びに音声活性検出方法 | |
WO2009009522A1 (en) | Voice activity detector and a method of operation | |
US5430826A (en) | Voice-activated switch | |
US4700394A (en) | Method of recognizing speech pauses | |
JP2573352B2 (ja) | 音声検出装置 | |
US5696873A (en) | Vocoder system and method for performing pitch estimation using an adaptive correlation sample window | |
US6865529B2 (en) | Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor | |
SE470577B (sv) | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud | |
GB2380644A (en) | Speech detection | |
US9245537B2 (en) | Speech enhancement apparatus and method for emphasizing consonant portion to improve articulation of audio signal | |
JP2002198918A (ja) | 適応雑音レベル推定器 | |
JP4551817B2 (ja) | ノイズレベル推定方法及びその装置 | |
US20010029447A1 (en) | Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor | |
JP2656069B2 (ja) | 音声検出装置 | |
JPH08202394A (ja) | 音声検出器 | |
KR100312334B1 (ko) | 에너지와 lsp 파라메타를 이용한 음성신호처리부호화기에서의 음성 활동 검출 방법 | |
JP2585214B2 (ja) | ピッチ抽出方法 | |
JP2003316380A (ja) | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム | |
JPH02266400A (ja) | 有音/無音判定回路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080412 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090412 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100412 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100412 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110412 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110412 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130412 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140412 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |