JPS59124397A - 無音区間検出回路 - Google Patents
無音区間検出回路Info
- Publication number
- JPS59124397A JPS59124397A JP57233616A JP23361682A JPS59124397A JP S59124397 A JPS59124397 A JP S59124397A JP 57233616 A JP57233616 A JP 57233616A JP 23361682 A JP23361682 A JP 23361682A JP S59124397 A JPS59124397 A JP S59124397A
- Authority
- JP
- Japan
- Prior art keywords
- average value
- section
- silent
- audio power
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声処理分野における無音7区間の検出を行な
う無音区間検出回路に関するもので、とりわけ音声認識
装置における無音区間検出に関するものである。
う無音区間検出回路に関するもので、とりわけ音声認識
装置における無音区間検出に関するものである。
従来例の構成とその問題点
近年の音声処理分野の発展は著しく、音声合成ばかりで
なく音声認識の実用化も急速に早捷っている。しかしな
がら実用化においては様々な問題がある。周囲雑音の犬
なる環境下での認識も実用化における1つの問題である
。無音区間の検出は音声認識において重要な処理の1つ
であるが、従来の無音区間検出方法では、周囲雑音のレ
ベルの変動にともない、無音区間が正しく検出されず、
音声の認識が正常になされな瞠いう欠点を有していた。
なく音声認識の実用化も急速に早捷っている。しかしな
がら実用化においては様々な問題がある。周囲雑音の犬
なる環境下での認識も実用化における1つの問題である
。無音区間の検出は音声認識において重要な処理の1つ
であるが、従来の無音区間検出方法では、周囲雑音のレ
ベルの変動にともない、無音区間が正しく検出されず、
音声の認識が正常になされな瞠いう欠点を有していた。
以下登録型単語音声認識装置について第1図に従って説
明しつつ、従来の無音区間検出方法の問題点について説
明する。
明しつつ、従来の無音区間検出方法の問題点について説
明する。
第1図において、1はマイク、2は前処理回路で、マイ
ク1からの音声信号の増幅、及び子音部の検出を容易に
するだめの高域の強調等を行なう。
ク1からの音声信号の増幅、及び子音部の検出を容易に
するだめの高域の強調等を行なう。
3は分析部で、音声信号の周波数分析等を行なう。
具体的には、複数個の帯域フィルタより構成され、一定
のフレーム周期TFで、これらの帯域フィルタの値を出
力する。これをSiとする。フレームとは音声信号を時
間的に処理する単位をいい、フレーム周期とは処理する
単位周期であり、一般にる事を示す。4はバタン変換部
で、分析部3からの出力S1から特徴を抽出してパラメ
ータa、に変換し、入力バタンエリヤ5へこのパラメー
タを格納して、単語音声を音声バタンに変換する。なお
入カニリヤ5内に、音声パタンを形成させるためには、
以下説明する6、7.8で示されるフロックの処理がさ
らに必要である。6は音声パワー算出部で、分析部3か
ら送出される出力S にもとづき、第1番目のフレーム
の音声パワーP、を求める。具体的には複数個の帯域フ
ィルタからの出力値の総和を求めて、音声パワーにする
。6は無音フレーム検出部で、そのフレームが音声信号
の存在しない無音であるフレームであるが否がを検出す
る。無音フレームの状態から、音声区間検出部8により
単語音声の始端フレーム、終端フレームを検出する。バ
タン変換部4で特徴を抽出したパラメータを得る場合、
音声パワー算出部6の出力が使用される。又、音声区間
検出部8がらの出力に応じてバタン変換部4は、計算し
たパラメータを入力バタンエリヤ5へ出力するか否か判
断し、入力バタンエリヤ6内に入力された単語音声の音
声パタンを最終的に与える。9はスイッチで、登録時に
は、E側に接続し、入力バタンを辞書にするために、登
録バタンエリヤ10内に格納する○認識時には、スイッ
チ11をR側に接続して、入力バタンと、すへての登録
バタンとの間でバタンマツチングがバタンマツチング部
11で行なわれる。このバタンマツチング部11は最も
類似度の高い登録バタンを選出して、認識結果を出力す
る0以上の構成において、以下無音区間の検出方法、音
声区間の検出方法について、第2図に従って詳細に説明
する。
のフレーム周期TFで、これらの帯域フィルタの値を出
力する。これをSiとする。フレームとは音声信号を時
間的に処理する単位をいい、フレーム周期とは処理する
単位周期であり、一般にる事を示す。4はバタン変換部
で、分析部3からの出力S1から特徴を抽出してパラメ
ータa、に変換し、入力バタンエリヤ5へこのパラメー
タを格納して、単語音声を音声バタンに変換する。なお
入カニリヤ5内に、音声パタンを形成させるためには、
以下説明する6、7.8で示されるフロックの処理がさ
らに必要である。6は音声パワー算出部で、分析部3か
ら送出される出力S にもとづき、第1番目のフレーム
の音声パワーP、を求める。具体的には複数個の帯域フ
ィルタからの出力値の総和を求めて、音声パワーにする
。6は無音フレーム検出部で、そのフレームが音声信号
の存在しない無音であるフレームであるが否がを検出す
る。無音フレームの状態から、音声区間検出部8により
単語音声の始端フレーム、終端フレームを検出する。バ
タン変換部4で特徴を抽出したパラメータを得る場合、
音声パワー算出部6の出力が使用される。又、音声区間
検出部8がらの出力に応じてバタン変換部4は、計算し
たパラメータを入力バタンエリヤ5へ出力するか否か判
断し、入力バタンエリヤ6内に入力された単語音声の音
声パタンを最終的に与える。9はスイッチで、登録時に
は、E側に接続し、入力バタンを辞書にするために、登
録バタンエリヤ10内に格納する○認識時には、スイッ
チ11をR側に接続して、入力バタンと、すへての登録
バタンとの間でバタンマツチングがバタンマツチング部
11で行なわれる。このバタンマツチング部11は最も
類似度の高い登録バタンを選出して、認識結果を出力す
る0以上の構成において、以下無音区間の検出方法、音
声区間の検出方法について、第2図に従って詳細に説明
する。
第2図において、横軸は時間軸であり、Plは音声パワ
ー算出部4からの出力値である。同図においては連続的
に変化しているが、実際はフレーム周期に同期して変化
するためディジタル的に変ムと判別し、第2図に示す様
に無音区間M1,1vi2゜M3と有音区間U1.U2
とを検出する。同図の場合は、トノキョ(特許)等の促
音(つ捷る音)が存在する単語を発声した場合の音声ノ
くワーの時間的変化を示しており、この場合には単語内
に無音区間M2が存在することになる。゛′トノキョ″
の′ト”と゛°キョ″の間に無音区間が存在する。この
促音によって生じる無音区間は、最長でも0.3秒以内
であり、音声区間の検出は次の様にして、一般に行なわ
れている。すなわち単語音声の始端Bは、300m5以
上の無音区間が存在した後に現われる最初の有音フレー
ムを検出し、このフレームを始端とする。単語音声の終
端Eは、始端検出語、300m5以上の無音区間が存在
した時、無音区間以前の最後の有音フレームを終端とす
る。
ー算出部4からの出力値である。同図においては連続的
に変化しているが、実際はフレーム周期に同期して変化
するためディジタル的に変ムと判別し、第2図に示す様
に無音区間M1,1vi2゜M3と有音区間U1.U2
とを検出する。同図の場合は、トノキョ(特許)等の促
音(つ捷る音)が存在する単語を発声した場合の音声ノ
くワーの時間的変化を示しており、この場合には単語内
に無音区間M2が存在することになる。゛′トノキョ″
の′ト”と゛°キョ″の間に無音区間が存在する。この
促音によって生じる無音区間は、最長でも0.3秒以内
であり、音声区間の検出は次の様にして、一般に行なわ
れている。すなわち単語音声の始端Bは、300m5以
上の無音区間が存在した後に現われる最初の有音フレー
ムを検出し、このフレームを始端とする。単語音声の終
端Eは、始端検出語、300m5以上の無音区間が存在
した時、無音区間以前の最後の有音フレームを終端とす
る。
なお第2図におい才、無音区間M1 とM3は0.3
秒以上の時間長であり、無音区間M2は0.3秒以内の
時間長である。そして始端Bから終端Eの間が音声区間
になり、この区間の音声信号をパラメータに変換して、
入力バタンエリヤ5内に入力バタンを形成させる。
秒以上の時間長であり、無音区間M2は0.3秒以内の
時間長である。そして始端Bから終端Eの間が音声区間
になり、この区間の音声信号をパラメータに変換して、
入力バタンエリヤ5内に入力バタンを形成させる。
音声認識処理内における無音区間の検出は、以上の説明
から理解できるように、きわめて重要な処理の一つであ
る。音声が存在しないのにもかかわらず、無音区間と判
別しなかったため、誤って音声区間が検出されると、誤
認識が生じる等の間(辿か生じる。特に周囲騒音が高い
環境、例えは工場等で音声認識装置を動作させた場合、
周囲雑音による音声パワーが、第2図における閾値りよ
り大きくなり、音声区間が全く検出できなくなるという
問題が生じていた。この場合閾値りを犬き(するか、あ
るいは前処理回路2内の音声信号の増幅度を低くしてよ
り大きな声で発声する等の対策がとられていた。しかし
この様な対策では周囲雑音が逆に低くなった場合には、
単語音声の始端付近のレベルの低い子音部が検出されに
くくなるという問題が発生する。
から理解できるように、きわめて重要な処理の一つであ
る。音声が存在しないのにもかかわらず、無音区間と判
別しなかったため、誤って音声区間が検出されると、誤
認識が生じる等の間(辿か生じる。特に周囲騒音が高い
環境、例えは工場等で音声認識装置を動作させた場合、
周囲雑音による音声パワーが、第2図における閾値りよ
り大きくなり、音声区間が全く検出できなくなるという
問題が生じていた。この場合閾値りを犬き(するか、あ
るいは前処理回路2内の音声信号の増幅度を低くしてよ
り大きな声で発声する等の対策がとられていた。しかし
この様な対策では周囲雑音が逆に低くなった場合には、
単語音声の始端付近のレベルの低い子音部が検出されに
くくなるという問題が発生する。
すなわち、周囲雑音のレベルが変動する場合には従来の
方法では正しく無音区間を検出することができなかった
。
方法では正しく無音区間を検出することができなかった
。
発明の目的
本発明は、周囲の雑音レベルが変動しても、正しく無音
区間を検出する無音区間検出回路を提供するものである
。
区間を検出する無音区間検出回路を提供するものである
。
発明の構成
本発明は上記目的を達するために、音声信号から音声パ
ワーを検出する音声パワー検出部と、前記音声パワーか
ら平均値を算出する平均値算出部と、前記音声パワーか
ら前記平均値を減じる減算部と、前記減算部の出力が一
定の値より小さい時を無音区間と判別する比較部とを設
け、前記平均値算出部は、無音区間内の音声パワーから
平均値を算出するように制御して、無音区間を検出する
ことによって、周囲雑音が変化しても、正確に無音区間
を検出することができるようにしたものである。
ワーを検出する音声パワー検出部と、前記音声パワーか
ら平均値を算出する平均値算出部と、前記音声パワーか
ら前記平均値を減じる減算部と、前記減算部の出力が一
定の値より小さい時を無音区間と判別する比較部とを設
け、前記平均値算出部は、無音区間内の音声パワーから
平均値を算出するように制御して、無音区間を検出する
ことによって、周囲雑音が変化しても、正確に無音区間
を検出することができるようにしたものである。
寸だ本発明は音声信号から音声パワーを検出する音声パ
ワー検出部と、前記音声パワーから平均値を算出する平
均値算出部と、前記音声パワーから前記平均値ヲ減じる
減算部と、前記減算部の出力が一定の値より小さい時を
無音区間と判別する比較部とを有し、前記平均値算出部
は平均値を記憶するためのレジスタ・と、前記レジスタ
の出力をPAとし、無音区間内の音声パワーをP工と、
し、Nを一定の値とした時、 を算出する演算部とを有して、 演算部の出力を平均値とするとともに、前記し・ジスタ
ヘ演算後格納するように制御することにより、簡単な構
成で平均値の算出を行なうものであるO実施例の説明 以下、図面を参照しながら本発明の一実施例について説
明する。
ワー検出部と、前記音声パワーから平均値を算出する平
均値算出部と、前記音声パワーから前記平均値ヲ減じる
減算部と、前記減算部の出力が一定の値より小さい時を
無音区間と判別する比較部とを有し、前記平均値算出部
は平均値を記憶するためのレジスタ・と、前記レジスタ
の出力をPAとし、無音区間内の音声パワーをP工と、
し、Nを一定の値とした時、 を算出する演算部とを有して、 演算部の出力を平均値とするとともに、前記し・ジスタ
ヘ演算後格納するように制御することにより、簡単な構
成で平均値の算出を行なうものであるO実施例の説明 以下、図面を参照しながら本発明の一実施例について説
明する。
第3図は本発明の一実施例における無音区間検出回路の
ブロック構成を示すものである。第3図において、4は
音声〕々ワ一の算出部で、第1図の□ 音声パワー算
出部と同様な処理を行なうものである。Siはたとえば
音声信号分析部3からの出力値であるが、従来例で述べ
た様な周波数分析結果である必要は特になく、音声信号
から、なんらかの手段で音声パワーを算出すれば良い。
ブロック構成を示すものである。第3図において、4は
音声〕々ワ一の算出部で、第1図の□ 音声パワー算
出部と同様な処理を行なうものである。Siはたとえば
音声信号分析部3からの出力値であるが、従来例で述べ
た様な周波数分析結果である必要は特になく、音声信号
から、なんらかの手段で音声パワーを算出すれば良い。
30はスイ・ノチで、無音フレームの場合にはこのスイ
ッチ3oはオン腰この時このフレームの音声ノ々ワーP
0は平均値算出部31へ転送される。一方有音フレーム
とイ1j別された場合にはスイ、ノチ30はオフしこの
時このフレームの音声パワーP0は平均値算出部31に
転送されない。平均値算出部31は、無音フレームの時
の音声パワー(この時の音声パワーをp /、とする)
を複数個得て、平均値を算出する。この平均値をPaと
する。32は減算部で、音声パワーP工から平均値Pa
を減しる。
ッチ3oはオン腰この時このフレームの音声ノ々ワーP
0は平均値算出部31へ転送される。一方有音フレーム
とイ1j別された場合にはスイ、ノチ30はオフしこの
時このフレームの音声パワーP0は平均値算出部31に
転送されない。平均値算出部31は、無音フレームの時
の音声パワー(この時の音声パワーをp /、とする)
を複数個得て、平均値を算出する。この平均値をPaと
する。32は減算部で、音声パワーP工から平均値Pa
を減しる。
33は比較部で、減算部32からの値、すなわち(P、
−P )かあらかじめ定められた閾値りより太1
a であるか否か検出し、そのフレームが有音であるか無音
フレームであるか判別する。そして(PニーP )<
Lである時を無音フレームと判断して、無音区間Mを出
力する。無音フレームの場合には、前述したようにスイ
ッチ30をオンして、そのフレームの音声パワーP1を
平均値算出部31へ転送する。捷だ無音区間Mは、従来
例で説明した第1図の音声区間検出部6へも出力され、
音声区間の検出に使用される。
−P )かあらかじめ定められた閾値りより太1
a であるか否か検出し、そのフレームが有音であるか無音
フレームであるか判別する。そして(PニーP )<
Lである時を無音フレームと判断して、無音区間Mを出
力する。無音フレームの場合には、前述したようにスイ
ッチ30をオンして、そのフレームの音声パワーP1を
平均値算出部31へ転送する。捷だ無音区間Mは、従来
例で説明した第1図の音声区間検出部6へも出力され、
音声区間の検出に使用される。
上記のよう々構成において、その動准を第4図に従って
説明する。第4図a、b、cはそれぞれ音声パワーP工
、平均値算出部31からの出力Pa1及び減算部32の
出力(PニーPa)の時間的変化を示している。横軸は
時間軸であり、縦軸はそれぞれパワーの大きさを示して
いる。時間T1.T3゜T5の区間は単語音声を発声し
た区間を示している。時間T2は周囲雑音が増加した場
合を示し時間T4は周囲雑音が減少した場合を示す。P
aは無音区間内の音声パワーP工の複数個から算出され
た平均値であり、従って急激に変化することはなく、あ
る時定数をもって変化するものである。
説明する。第4図a、b、cはそれぞれ音声パワーP工
、平均値算出部31からの出力Pa1及び減算部32の
出力(PニーPa)の時間的変化を示している。横軸は
時間軸であり、縦軸はそれぞれパワーの大きさを示して
いる。時間T1.T3゜T5の区間は単語音声を発声し
た区間を示している。時間T2は周囲雑音が増加した場
合を示し時間T4は周囲雑音が減少した場合を示す。P
aは無音区間内の音声パワーP工の複数個から算出され
た平均値であり、従って急激に変化することはなく、あ
る時定数をもって変化するものである。
時間T0で音声パワーP、から平均値か求1つて、(p
、−pa)は閾値りより小さいゼロに近い値になってい
る。時間Tつ で単語音声を発声する。音声パワーP0
は急激に変化し、(PニーPa)>LになるP□が出現
する○そしてこの間は有音フレームであると判別する。
、−pa)は閾値りより小さいゼロに近い値になってい
る。時間Tつ で単語音声を発声する。音声パワーP0
は急激に変化し、(PニーPa)>LになるP□が出現
する○そしてこの間は有音フレームであると判別する。
スイッチ3oによって有音フレームの時の音声パワーP
、は、出力Paには影響しないため、出力Paは時間T
。で算出された値になっている。従って時間T1 で発
生された単語音声の音声区間が検出される。そして時間
T2で周囲雑音がゆっくりと増加する。この時(Pニー
Pa)は正の値を示すが、閾値りよジ小さいため、無音
区間と判定され、出力Paは音声パワーP□に応じて平
均値を求めつつ、ゆっくりと変化する。
、は、出力Paには影響しないため、出力Paは時間T
。で算出された値になっている。従って時間T1 で発
生された単語音声の音声区間が検出される。そして時間
T2で周囲雑音がゆっくりと増加する。この時(Pニー
Pa)は正の値を示すが、閾値りよジ小さいため、無音
区間と判定され、出力Paは音声パワーP□に応じて平
均値を求めつつ、ゆっくりと変化する。
音声パワーPiが安定になって、時間T5の後に出力P
aは音声パワーP0になり、(PニーPa)はゼロに近
い値になる。時間T3において音声を発声すると、音声
パワーP0は発声によって膚、激に増加して、前述した
様に時間T3で有音期間となり、時間T3では音声パワ
ーPaは変化しない。
aは音声パワーP0になり、(PニーPa)はゼロに近
い値になる。時間T3において音声を発声すると、音声
パワーP0は発声によって膚、激に増加して、前述した
様に時間T3で有音期間となり、時間T3では音声パワ
ーPaは変化しない。
そして時間T4で周囲の雑音レベルが減少すると、(P
i−Pa)tl′i負の値じなり、音声パワーPよの変
化に応じて、出力Paは音声パワーP□の平均値を求め
つつ変化する。音声パワーP工が安定になって、時間T
′4の後に出力Paは安定し、(P、−Pa)はゼロに
近い値になる。時間T5において音声を発声すると、音
声パワーP、は発声によって急激に増加して、(P、、
−Pa)>Lになり、時間T5において発声された単語
音声の音声区間が同図の様に検出される。
i−Pa)tl′i負の値じなり、音声パワーPよの変
化に応じて、出力Paは音声パワーP□の平均値を求め
つつ変化する。音声パワーP工が安定になって、時間T
′4の後に出力Paは安定し、(P、−Pa)はゼロに
近い値になる。時間T5において音声を発声すると、音
声パワーP、は発声によって急激に増加して、(P、、
−Pa)>Lになり、時間T5において発声された単語
音声の音声区間が同図の様に検出される。
従って、本実施例によれば、周囲雑音が変化しても、無
音区間の検出が正しく行なわれることになる。
音区間の検出が正しく行なわれることになる。
以下図面を参照しながら、平均値算出部31の具体的構
成を説明する0 第5図は、平均値算出部31の具体的な構成を示したも
のである。第5図において、50,51゜62.53は
レジスタで、無音フレームと判断された時の音声パワー
P′、を格納する。これらは、シフトレジスタになって
おり、N個のし/スタである。R1,R2,・・・RN
−1、RNば、それぞれのレジスタからの出カイ直を示
しており、あらたなP′、が入力されるとシフトされて
、P /、は第1段目のレジスタへ格納され、シフト前
の第1段目の内容は第2段目へ転送される。以下同様に
、第N段目の内容は、シフト前の第N−1段目の内容に
なり、第N段目のシフト前の値は消える。64は加算器
で、R1+R2+R3・・・+RN−1+ RNを行な
う。55は除算器て、加算器の出力を1/Nして、平均
値Paを出力する。従って、平均値Paは、N になり、無音区間内のN個のフレームの音声パワーのP
工の平均値を算出することができる。周囲雑音は、発声
した時の音声パワーPiの変化に比べて、ゆっくりと変
化するため、第3図、第5図のような構成で周囲雑音の
変化に応じて、平均値を算出していけは、周囲雑音のレ
ベルの変動に影響しない無音区間の検出か可能になる。
成を説明する0 第5図は、平均値算出部31の具体的な構成を示したも
のである。第5図において、50,51゜62.53は
レジスタで、無音フレームと判断された時の音声パワー
P′、を格納する。これらは、シフトレジスタになって
おり、N個のし/スタである。R1,R2,・・・RN
−1、RNば、それぞれのレジスタからの出カイ直を示
しており、あらたなP′、が入力されるとシフトされて
、P /、は第1段目のレジスタへ格納され、シフト前
の第1段目の内容は第2段目へ転送される。以下同様に
、第N段目の内容は、シフト前の第N−1段目の内容に
なり、第N段目のシフト前の値は消える。64は加算器
で、R1+R2+R3・・・+RN−1+ RNを行な
う。55は除算器て、加算器の出力を1/Nして、平均
値Paを出力する。従って、平均値Paは、N になり、無音区間内のN個のフレームの音声パワーのP
工の平均値を算出することができる。周囲雑音は、発声
した時の音声パワーPiの変化に比べて、ゆっくりと変
化するため、第3図、第5図のような構成で周囲雑音の
変化に応じて、平均値を算出していけは、周囲雑音のレ
ベルの変動に影響しない無音区間の検出か可能になる。
なお、初期の設定は、各レジスタ60,51,62゜5
3の内容を最大にしておくだけで良い。各レジスタ50
,151.52.53 (7)出力R1〜RNが最大値
であれば出力Paは最大値となるため、音声パワーP、
より出力Paは犬きくなる。つ′−j8す(p、−pa
)は負となって、無音フレームとみなされ、音声パワー
P□は自動的に第1段目のンジスタヘ転送されることに
なる。N個程の音声パワーPiが現われるまでは、出力
Paは音声パワーP0より太であり、無音フレームと判
別されて、自動的にN個の音声パワーP1ば、各レジス
タ60,61.62゜53へ格納されることになる。
3の内容を最大にしておくだけで良い。各レジスタ50
,151.52.53 (7)出力R1〜RNが最大値
であれば出力Paは最大値となるため、音声パワーP、
より出力Paは犬きくなる。つ′−j8す(p、−pa
)は負となって、無音フレームとみなされ、音声パワー
P□は自動的に第1段目のンジスタヘ転送されることに
なる。N個程の音声パワーPiが現われるまでは、出力
Paは音声パワーP0より太であり、無音フレームと判
別されて、自動的にN個の音声パワーP1ば、各レジス
タ60,61.62゜53へ格納されることになる。
第5図の場合は、N個のレジスタが必要である。
しかし第6図は、このレジスタを1個有するだけで、平
均値に相当する値を算出しようとするものである。第6
図において、60はレジスタ、61及び62はN分の1
する除算器、63は蒲−器である。レジスタ60には平
均値に相当する値Paが格納してあり、加減算器63で
は次の様な計算を行なう。
均値に相当する値を算出しようとするものである。第6
図において、60はレジスタ、61及び62はN分の1
する除算器、63は蒲−器である。レジスタ60には平
均値に相当する値Paが格納してあり、加減算器63で
は次の様な計算を行なう。
この結果を新たなPaとして、レジスタ60へ格納する
。周囲雑音レベルとして、厳密に平均値を算出する必要
はない。上式における( P a/N’ )は、第6図
における第N段目のレジスタのシフトによって、捨てら
れる値に相当する。従って、Paから(Pa/N)k減
して、これに新たな(P’1/N)を加算することによ
って、Paは、P7のN個から算出される平均値に対応
するものになる。(1/N)の計算はNを2の倍数とす
ることで7フト処理で可能になる。第6図の構成によれ
ば、第5図の場合と比べて、レジスタの数を減少する事
ができる。
。周囲雑音レベルとして、厳密に平均値を算出する必要
はない。上式における( P a/N’ )は、第6図
における第N段目のレジスタのシフトによって、捨てら
れる値に相当する。従って、Paから(Pa/N)k減
して、これに新たな(P’1/N)を加算することによ
って、Paは、P7のN個から算出される平均値に対応
するものになる。(1/N)の計算はNを2の倍数とす
ることで7フト処理で可能になる。第6図の構成によれ
ば、第5図の場合と比べて、レジスタの数を減少する事
ができる。
なお第4図においては、時間T1 で発声された単語に
は、促音がある場合を示している。この促音によって生
じる無音区間内の音声パワーP工が平均値の算出に影響
しないようにする方が望捷しい。なぜならば、促音によ
って生じる無音区間はあく寸で発声中に生じるものであ
り、周囲雑音とはかぎらないためである。第2図は、音
声区間の検出について示したものであるが、始端部Bが
検出されて、終端部Eが検出される1では、第3図にお
けるスイッチ30をオンしない様に処理することにより
、この問題が解決できる。第3図の方法を実現する方法
は、具体的には計算器のプログラム処理によって行なわ
れるのが一般的である。
は、促音がある場合を示している。この促音によって生
じる無音区間内の音声パワーP工が平均値の算出に影響
しないようにする方が望捷しい。なぜならば、促音によ
って生じる無音区間はあく寸で発声中に生じるものであ
り、周囲雑音とはかぎらないためである。第2図は、音
声区間の検出について示したものであるが、始端部Bが
検出されて、終端部Eが検出される1では、第3図にお
けるスイッチ30をオンしない様に処理することにより
、この問題が解決できる。第3図の方法を実現する方法
は、具体的には計算器のプログラム処理によって行なわ
れるのが一般的である。
従って、始端フレームが、検出されてから、終端フレー
ムが検出される丑での間、スイッチ30をオンさせる処
理は、プログラム上で簡単に実現できる。終端部Eを検
出するためには、終端部E以降の無音区間が30o m
s以上ある事を検出しなければならない。この間も、
スイッチ301dオフしている方が望ましい。なぜなら
ば、発声の終端付近では、無音区間と判別されても、不
明隙な発声が続いているかも知れないためである。たと
えば、″ゴオー”(qo)の場合、終端での発声は伸ば
されて、語尾付近はあいまいな発声になりやすい。この
あい寸いな発声を無音区間とみなして、平均値の算出に
使用しない方が良い。
ムが検出される丑での間、スイッチ30をオンさせる処
理は、プログラム上で簡単に実現できる。終端部Eを検
出するためには、終端部E以降の無音区間が30o m
s以上ある事を検出しなければならない。この間も、
スイッチ301dオフしている方が望ましい。なぜなら
ば、発声の終端付近では、無音区間と判別されても、不
明隙な発声が続いているかも知れないためである。たと
えば、″ゴオー”(qo)の場合、終端での発声は伸ば
されて、語尾付近はあいまいな発声になりやすい。この
あい寸いな発声を無音区間とみなして、平均値の算出に
使用しない方が良い。
スイッチ30をオフさせる期間には、終端部Eが検出さ
せるだめの終端部E以降の無音区間300m5の間も含
くめた方力\′良い。
せるだめの終端部E以降の無音区間300m5の間も含
くめた方力\′良い。
本実施例によれば、ゆるやかに変化する周囲雑音につい
ては、平均値は変化するOしかし周囲雑音が急激に増加
する場合には、平均値は変化せずに有音区間になるとい
う問題が生じる。(PニーPa)〉Lとなる周囲雑音が
急に発生した場合には、有音区間とみなすため、平均値
Paは変化しなくなり、無音区間が正しく検出されない
ことになる。
ては、平均値は変化するOしかし周囲雑音が急激に増加
する場合には、平均値は変化せずに有音区間になるとい
う問題が生じる。(PニーPa)〉Lとなる周囲雑音が
急に発生した場合には、有音区間とみなすため、平均値
Paは変化しなくなり、無音区間が正しく検出されない
ことになる。
この問題を解決する方法としては次の様な方法がある。
有音フレームが連続して、ある一定の間TL秒以」二に
なった場合には、自動的にイニイ/ヤル処理を実行する
方法である。イニイシャル処理とは、前記したように第
5図、第6図におけるレジスタ内の値を最大値にする処
理であり、これにより、新たなP がレジスタ内に格納
される事になって平均値は周囲雑音に対応し7たレベル
になる。単語−よって発声される期間は、せいぜい1〜
2秒程度であるから前記のTLをこの時間以上にする0
有音フレームがTL秒以上字連続した場合には、周囲雑
音が急激に変化して、平均値が周囲雑音のレベルに対応
した値になってないと判断して、イニイシャル処理を実
行する。これによりいかなる周囲雑音の変化にも対応で
きることになるQなおこれらの処理、判断は、計算機の
プログラムで容易に実現できる。
なった場合には、自動的にイニイ/ヤル処理を実行する
方法である。イニイシャル処理とは、前記したように第
5図、第6図におけるレジスタ内の値を最大値にする処
理であり、これにより、新たなP がレジスタ内に格納
される事になって平均値は周囲雑音に対応し7たレベル
になる。単語−よって発声される期間は、せいぜい1〜
2秒程度であるから前記のTLをこの時間以上にする0
有音フレームがTL秒以上字連続した場合には、周囲雑
音が急激に変化して、平均値が周囲雑音のレベルに対応
した値になってないと判断して、イニイシャル処理を実
行する。これによりいかなる周囲雑音の変化にも対応で
きることになるQなおこれらの処理、判断は、計算機の
プログラムで容易に実現できる。
発明の効果
本発明は以上のように、過去の無音区間内の音声パワー
から平均値を算出するとともに、前記音声パワーから前
記平均値を減算し、前記減算結果に応じて無音区間を判
別することにより、周囲の雑音レベルが変化しても、こ
れに応じて無音区間の検出を正しく行なうことができる
。そしす認識装置の場合に、これを使用すれは、周囲雑
音の変化する環境下での認識率の向上が可能になる。
から平均値を算出するとともに、前記音声パワーから前
記平均値を減算し、前記減算結果に応じて無音区間を判
別することにより、周囲の雑音レベルが変化しても、こ
れに応じて無音区間の検出を正しく行なうことができる
。そしす認識装置の場合に、これを使用すれは、周囲雑
音の変化する環境下での認識率の向上が可能になる。
丑だ本発明は音声信号から音声パワーを検出する音声パ
ワー検出部と、前記音声パワーから平均値を算出する平
均値算出部と、前記音声パワーから前記平均値を減じる
減算部と、前記減算部の出力が一定の値より小さい時を
無音区間と判別する比較部とを設け、前記平均値算出部
は平均値を記憶するためのレジスタと、前記レジスタの
出力ヲPAとし、無音区間内の音声パワーをPoとし、
N f一定の値とした時、 を算出する演算部とを有して、演算部の出力を平均値と
するとともに、前記レジスタへ演算後格納するように制
御することにより、レジスタ1個でかつ簡単な方法で平
均値の算出を実現することができる。
ワー検出部と、前記音声パワーから平均値を算出する平
均値算出部と、前記音声パワーから前記平均値を減じる
減算部と、前記減算部の出力が一定の値より小さい時を
無音区間と判別する比較部とを設け、前記平均値算出部
は平均値を記憶するためのレジスタと、前記レジスタの
出力ヲPAとし、無音区間内の音声パワーをPoとし、
N f一定の値とした時、 を算出する演算部とを有して、演算部の出力を平均値と
するとともに、前記レジスタへ演算後格納するように制
御することにより、レジスタ1個でかつ簡単な方法で平
均値の算出を実現することができる。
第1図は従来の登録型単語音声認識装置のブロック結線
図、第2図は音声パワー算出部の出力波形図、第3図は
本発明の一実施例における無音区間検出回路のブ、ロッ
ク結線図、第4図は同回路の各部波形図、第5図は同回
路の平均値算出部のブロック結線図、第6図は本発明の
他の実施例における無音区間検出回路の平均値算出部の
ブロック結線図である0 4−・・・音声パワー算出部、31 ・・・平均値算出
部、32−・・・減算部、33・・・・・比較部、60
−・・・レジスタ、61.62・・ 1/N除算器、6
3・加減算器。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第2
図 ) 3 図
図、第2図は音声パワー算出部の出力波形図、第3図は
本発明の一実施例における無音区間検出回路のブ、ロッ
ク結線図、第4図は同回路の各部波形図、第5図は同回
路の平均値算出部のブロック結線図、第6図は本発明の
他の実施例における無音区間検出回路の平均値算出部の
ブロック結線図である0 4−・・・音声パワー算出部、31 ・・・平均値算出
部、32−・・・減算部、33・・・・・比較部、60
−・・・レジスタ、61.62・・ 1/N除算器、6
3・加減算器。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第2
図 ) 3 図
Claims (2)
- (1)音声信号から音声パワーを検出する音声パワー検
、出部と、前記音声パワーから平均値を算出する平均値
算出部と、前記音声パワーから前記平均値を感じる減算
部と、前記減算部の出力が一定の値より小さい時を無音
区間と判別する比較部とを有し、前記平均値算出部は、
過去の無音区間内の音声パワーから平均値を算出するよ
うに制御される事を特徴とする無音区間検出回路。 - (2)音声信号から音声パワーを検出する音声パワー検
出部と、前記音声パワーから平均値を算出する平均値算
出部と、前記音声パワーから前記平均値砒戊じる減算部
と、前記減算部の出力が一定の値より小さい時を無音区
間と判別する比較部とを有し、前記平均値算出部は、平
均値を記憶するだめのレジスタと、前記レジスタの出力
をPAとし、無音区間内の音声パワーをPlとし、Nを
一定の値とした時、 を算出する演算部とを有して、 前記演算部の出力を平均値とするとともに、前記レジス
タへ演算後格納するように制御されることを特徴とする
無音区間検出回路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57233616A JPS59124397A (ja) | 1982-12-29 | 1982-12-29 | 無音区間検出回路 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57233616A JPS59124397A (ja) | 1982-12-29 | 1982-12-29 | 無音区間検出回路 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS59124397A true JPS59124397A (ja) | 1984-07-18 |
Family
ID=16957832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57233616A Pending JPS59124397A (ja) | 1982-12-29 | 1982-12-29 | 無音区間検出回路 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59124397A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6057396A (ja) * | 1983-09-08 | 1985-04-03 | 松下電器産業株式会社 | 閾値算出方法 |
JPH03212697A (ja) * | 1990-01-18 | 1991-09-18 | Matsushita Electric Ind Co Ltd | 信号処理装置 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
EP0763813A1 (en) | 1990-05-28 | 1997-03-19 | Matsushita Electric Industrial Co., Ltd. | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal |
-
1982
- 1982-12-29 JP JP57233616A patent/JPS59124397A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6057396A (ja) * | 1983-09-08 | 1985-04-03 | 松下電器産業株式会社 | 閾値算出方法 |
JPH03212697A (ja) * | 1990-01-18 | 1991-09-18 | Matsushita Electric Ind Co Ltd | 信号処理装置 |
EP0763813A1 (en) | 1990-05-28 | 1997-03-19 | Matsushita Electric Industrial Co., Ltd. | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal |
EP0763811A1 (en) | 1990-05-28 | 1997-03-19 | Matsushita Electric Industrial Co., Ltd. | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal |
EP0763812A1 (en) | 1990-05-28 | 1997-03-19 | Matsushita Electric Industrial Co., Ltd. | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal |
EP0763810A1 (en) | 1990-05-28 | 1997-03-19 | Matsushita Electric Industrial Co., Ltd. | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH06332492A (ja) | 音声検出方法および検出装置 | |
JPS59124397A (ja) | 無音区間検出回路 | |
JP3526911B2 (ja) | 音声認識装置及び音声認識方法 | |
JPS59137999A (ja) | 音声認識装置 | |
JPS63281200A (ja) | 音声区間検出方式 | |
JPH04163497A (ja) | 音声区間検出方法 | |
JPS60129796A (ja) | 音声入力装置 | |
JPH03114100A (ja) | 音声区間検出装置 | |
JPH0546196A (ja) | 音声認識装置 | |
JP2870421B2 (ja) | 話速変換機能を有する補聴器 | |
JP2737109B2 (ja) | 音声区間検出方式 | |
JP2748383B2 (ja) | 音声認識方式 | |
JPS62113197A (ja) | 音声認識装置 | |
JPS6217800A (ja) | 音声区間判定方式 | |
JPH0474720B2 (ja) | ||
JPH0285898A (ja) | 音声検出方式 | |
JPS6039700A (ja) | 音声区間検出方法 | |
JPS62165694A (ja) | 繰返し音声計数装置 | |
JPS62165697A (ja) | 繰返し音声計数装置 | |
JPH03290700A (ja) | 有音検出装置 | |
JPS62165698A (ja) | 繰返し音声計数装置 | |
JPH026079B2 (ja) | ||
JPS63247798A (ja) | 音声区間検出装置 | |
JPS63155196A (ja) | 無声音検出方法 | |
JPH1146398A (ja) | 聴覚補助装置 |