[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP3423906B2 - 音声の動作特性検出装置および検出方法 - Google Patents

音声の動作特性検出装置および検出方法

Info

Publication number
JP3423906B2
JP3423906B2 JP32819899A JP32819899A JP3423906B2 JP 3423906 B2 JP3423906 B2 JP 3423906B2 JP 32819899 A JP32819899 A JP 32819899A JP 32819899 A JP32819899 A JP 32819899A JP 3423906 B2 JP3423906 B2 JP 3423906B2
Authority
JP
Japan
Prior art keywords
signal
input signal
speech
value
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP32819899A
Other languages
English (en)
Other versions
JP2000148172A (ja
Inventor
ダニエル・ケネス・フリーマン
イヴン・ボイド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000148172A publication Critical patent/JP2000148172A/ja
Application granted granted Critical
Publication of JP3423906B2 publication Critical patent/JP3423906B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】音声の動作特性検出器(vo
ice activity detector)は、会
話の期間、又はノイズのみを含む期間を検出する目的を
有する信号が供給される装置である。この発明はこれら
の応用に限るものではなく、そのような検出器に関する
この発明の特定な実施例には、移動ラジオ電話システム
があり、このシステムにおいて会話は会話コ−ダ(co
der)によって利用され、電波スペクトルの有効な利
用法を改善し、又、それらのシステムではノイズレベル
(車に搭載されたユニットからの)は一般に大きい。
【0002】
【発明が解決しようとする課題】音声の動作特性検出の
本質は、会話と会話ではない期間の間で異なる分量を探
すことである。会話コ−ダを含む装置において、一つコ
−ダから、又は他のステ−ジから、多くのパラメ−タを
容易に用いることができ、従ってそのようなパラメ−タ
を利用することによって、必要な処理を経済的に簡素に
することが望まれる。多くの状況において、主要なノイ
ズはある周波数スペクトルの限られた領域内に発生す
る。例えば移動する車(自動車)のノイズ(例えばエン
ジンノイズ)は、低い周波数帯域スペクトルである。ノ
イズスペクトルのそのような位置に関する認識が利用で
きる場合は、比較的少ないノイズを含むスペクトル部分
から得られた測定量について、会話が存在するかどうか
の判断の基準を置くのが望ましい。勿論、会話の動作特
性を検出して分析する前に、信号を濾波することが実際
に可能であるが、音声の動作特性検出器が会話コ−ダの
出力に依存している場合、この前段濾波はコ−ド化され
る音声信号を妨害する。
【0003】
【課題を解決するための手段】第3図にその実施の形態
を示す本発明によれば、入力信号内に会話が存在するか
存在しないかを示す出力信号を作成するため、入力信号
成分と会話がないと判断される入力信号の成分との間の
スペクトル的類似性の値を形成するように動作する第1
音声動作特性検出器と、前記会話がない部分から導かれ
たデータを格納するメモリと、補助的な音声動作特性検
出器とを有し、前記補助的な音声動作特性検出器は前記
メモリの更新を制御し、前記補助的な動作特性検出器は
入力信号の最新の成分と入力信号のより早期の成分との
間のスペクトル的類似性の値を形成するように動作する
音声動作特性検出装置が提供される。
【0004】また、入力信号の会話動作特性を検出する
方法であって、入力信号を受信し、入力信号のノイズ信
号部分を概算し、ノイズ信号部分を表現するデータを格
納し、入力信号の一部とノイズ信号部分との間のスペク
トル的類似性の値Mを形成し、スレショルド値(thr
eshold value)より高いか否かに従って会
話が存在するか存在しないかを示す第1の音声動作特性
指示を作成するため、上記値Mから導かれるパラメータ
を第1のスレショルド値Tと比較し、ここで概算するス
テップは補助的な音声動作特性指示の作成を含み、そし
て、補助的な音声動作特性指示の作成は、入力信号の最
新の成分と入力信号のより早期の成分との間の類似性の
スペクトル歪み値を形成し、その値を超えるか超えない
かに対応して会話が存在するか存在しないかの指示を作
成するために前記スペクトル歪み値を第2のスレショル
ド値と比較し、補助的な音声動作特性指示が会話が存在
しないと指示する期間においてのみ入力信号により前記
格納されたデータを更新するステップを含む方法が提供
される。
【0005】上記値Mは、板倉・斎藤による歪み値であ
ることが望ましい。
【0006】この発明の他の局面は特許請求の範囲に含
まれる。
【0007】
【発明の実施の形態】この発明の幾つかの実施例が添付
図面を参照してこれより説明される。
【0008】この発明による音声の動作特性検出器の第
1実施例を特徴付ける一般原則が次に示される。
【0009】n個の信号サンプル (s,s,s,s,s … sn−1)は、
パルス応答(1,h,h,h)の概念上の4次有
限パルス応答(FIR)デジタルフィルタを通過すると
き、濾波された信号となり(以前のフレ−ムからのサン
プルを無視する)、
【0010】
【数1】
【0011】0次の自己相関係数は、各項の2乗の合計
値であり、それは正規化され、即ち項の全数によって分
割され(一定フレ−ム長に関し、その分割を省略するの
が容易である)、従って濾波された信号の合計値は、
【0012】
【数2】
【0013】従ってこれは、論理的に濾波された信号s
´の電力量、即ち概念的フィルタの通過帯域内の信号s
の部分の電力量である。
【0014】最初の4項を無視して拡張すると、
【0015】
【数3】
【0016】従って、R´は、値R´が応答する周
波数帯域を決定する括弧でくくった定数によって重み付
けされた自己相関係数Rの結合によって得られる。実
際、括弧でくくった項は論理フィルタのパルス応答の自
己相関係数であり、従って上記表現は次のように簡単に
現すことができる。
【0017】
【数4】
【0018】ここで、Nはフィルタの次数、Hはフィ
ルタのパルス応答の(正規化されていない)自己相関係
数。
【0019】即ち、信号濾波の信号自己相関係数に関す
る効果は、要求されるフィルタが有するパルス応答を用
い、(濾波されていない)信号の自己相関係数の合計を
生成することによってシミュレ−ト(simulat
e)することができる。
【0020】従って、乗算動作の小さい数を含む比較的
簡単なアルゴリズムは、この数の100回の乗算動作を
一般に必要とするデジタルフィルタのシミュレ−ション
を行うことができる。
【0021】一方、この濾波動作は、信号スペクトルが
参照スペクトルに対して整合している(matche
d)状態で(論理フィルタの逆相応答)、スペクトル比
較の形式として見ることができる。この応用における論
理フィルタはノイズスペクトルの逆を概算するように選
択されるので、この動作は、スペクトル間の非類似性を
を示す値のような、会話及びノイズのスペクトルと、生
成される0次自己相関係数(即ち逆濾波された信号のエ
ネルギ)とのスペクトル的比較として見ることができ
る。板倉・斎藤による歪み値が、予測フィルタ(pre
distor filter)と入力スペクトルの整合
を評価するLPC内に用いられ、一つの形式は次のよう
に示される。
【0022】
【数5】
【0023】ここで、AなどはLPCパラメ−タ・セ
ットの自己相関係数である。これは前記得られた関係に
非常に類似していることが判り、LPC係数が入力信号
の逆スペクト応答を有するFIRのタップ(taps)
であり、それによってLPC係数セットは逆LPCフィ
ルタのパルス応答であることを考えれば、実際、板倉・
斎藤による歪み値は単に式1の一形式であり、そこでフ
ィルタ応答Hは入力信号の全ポ−ルモデル(all−p
ole model)であることは明らかである。
【0024】事実、試験スペクトルのLPC係数と参照
スペクトルの自己相関係数を用いて、転換し、スペクト
ル的類似性の異なる値を得ることができる。
【0025】I−Sによる歪み値は、”ベクトル量子化
に基づく会話の符号化”(”Speech Codin
g based upon Vector Quant
isation”by A Buzo,A H Gra
y,R M Gray and J D Marke
l,IEE Trans on ASSP,Vol A
SSP−28,No5,October 1980)に
更に詳細に説明されている。
【0026】信号のフレ−ムは単に有限値長を有し、項
の数(N、ここでNはフィルタ次数)は無視されるの
で、前述の結果は単に概算である。しかし、それは会話
があるかどうかを非常に良く示し、従って会話報告の値
Mとして用いられる。ノイズスペクトルが既知であり、
それが静的ノイズの場合、固定のh、hなどの係数
を逆ノイズフィルタに適用することは十分可能である。
【0027】しかし、異なるノイズ状況に適合すること
ができる装置は更に有益である。
【0028】第1図にはこの発明の第1実施例が示さ
れ、マイクロホン(図示されず)からの信号sは入力1
に受信され、アナログ・デジタルコンバ−タ2によっ
て、適切なサンプリングレ−ト(sampling r
ate)でデジタルサンプルに変換される。LPC分析
ユニット3(一般的なLPCコ−ダ [coder])
は、n個(例えば160個)のサンプルの連続するフレ
−ムについて、入力の会話を示すために送信されるN個
(例えば8又は12個)のLPCフィルタ係数Lの一
組を得る。会話信号sは又、相関ユニット(corre
lator unit)4(通常これはLPCコ−ダ3
の一部分である。なぜならば、ここで分離相関器[se
parate crrelator]を供給することが
評価できるが、会話の自己相関ベクトルRは通常LP
C分析の1ステップとして生成されるからである)に入
力される。相関器4は自己相関ベクトルRを発生し、
ベクトルRは0次相関係数R、及び少なくとも更に
2つの自己相関係数R1、R2、R3を含む。これらは
マルチプライアユニット(multiplier un
it)5に供給される。
【0029】第2入力11はスピ−カから離れて配置さ
れる第2マイクロホンに接続され、背景ノイズのみが受
信される。このマイクロホンからの入力は、ADコンバ
−タ12によってデジタル入力サンプル列に変換され、
LPCアナライザ13によってLPC分析される。アナ
ライザ13から発生した”ノイズ”LPC係数は相関ユ
ニット14を通過し、それによって発生した自己相関ベ
クトルは、マルチプライア5の会話マイクロホンからの
入力信号の自己相関係数Rによって項ごとに乗算さ
れ、それによって生成された重み係数は等式1に従って
加算器6によって加算され、それによってノイズのみの
マイクロホンからのノイズスペクトルの逆相形状を有す
るフィルタを提供し(実際は信号・パルス・ノイズ・マ
イクロホンにおけるノイズスペクトルと同一形状であ
る)、従って殆どのノイズを濾波する。その結果的測定
値Mはスレショルダ(thresholder)7によ
ってスレショルド値(threshold)と比較さ
れ、会話が存在するかどうかを示すロジック出力8を発
生する。ここでMが大きい場合、会話が存在すると考え
られる。
【0030】この実施例では2つのマイクロホンと2つ
のLPCアナライザを使用するが、費用と複雑性が増大
するが、必要であればこれらを増やすことができる。
【0031】一方、他の実施例では、ノイズマイクロホ
ン11からの自己相関、及びメインマイクロホン1から
のLPC係数を使用して形成される対応する値を使用す
る。その場合、LPCアナライザではなく、更に他の自
己相関器が必要となる。
【0032】従ってこれらの実施例は、異なる周波数の
ノイズを有する異なる状況、又は与えられた一つの状況
において、変化するノイズスペクトルの存在する所で動
作することが可能である。
【0033】第2図の好適実施例においては、LPC係
数の一組(又はその一組の自己相関ベクトル)を格納す
るバッファ15が提供され、これらの値は、”ノンスピ
−チ(non−speech)(即ちノイズのみ)”と
して定義される期間に、マイクロホン入力1から得られ
る。これらの値は等式1による値を得るために使用さ
れ、勿論この測定は、板倉・斎藤による歪み測定法に対
応するが、LPC係数の現在のフレ−ムではなく、逆相
ノイズスペクトルの概算値に一致する、LPC係数の格
納された単一フレ−ムが使用されるところが異なる。
【0034】アナライザ3によって出力されるLPC係
数ベクトルLも又、相関器14に導かれ、それによっ
てLPC係数ベクトルの自己相関ベクトルを発生する。
バッファメモリ15はスレショルダ7のスピ−チ/ノン
スピ−チ出力によって制御され、 ”スピ−チ”フレ−
ムの間、バッファは”ノイズ”自己相関係数を保持する
が、”ノイズ”フレ−ムの間は、LPC係数の新たな一
組が、例えば複合スイッチ16によってバッファを更新
するのに使用することができ、このスイッチ16を介し
て、各自己相関係数を伝送する相関器14の出力がバッ
ファ15に接続される。相関器14がバッファ15の後
に配置されてもよい。更に、係数更新のためのスピ−チ
/ノンスピ−チの決定は出力8からである必要はなく、
(好適に)他の方法で得ることができる。
【0035】会話の無い期間がしばしば発生するので、
バッファに格納されたLPC係数は時折更新され、それ
によって装置はノイズスペクトル内の変化に追随するこ
とができる。ノイズスペクトルが時間的に比較的安定し
ている場合(多くの場合そうであるが)、そのようなバ
ッファの更新は、極く希に、又は検出器の初期の動作の
みに必要とされると考えられが、移動する(車の)ラジ
オのような状況のときには、しばしば更新するのが望ま
しい。
【0036】この実施例の変更例として、簡単な固定ハ
イパス・フィルタに一致する係数項を有する等式1をシ
ステムは適用し、次に”ノイズ期間”LPC係数を使用
して切り替わることによってシステムは適合を開始す
る。幾つかの理由によって会話検出が失敗した場合、シ
ステムは簡単なハイパスフィルタを再び用いることがで
きる。
【0037】上記値をRで割ることによって正規化す
ることができ、スレショルドと比較される表現は、
【0038】
【数6】
【0039】この値はフレ−ムの総合信号電力とは独立
しており、従って総合信号レベル変化に関しては補償さ
れるが、”ノイズ”と”会話”レベルの間の著しい対比
を与えず、従ってノイズの大きな環境では好適に使用さ
れることはない。
【0040】(後述されるように)ノイズスペクトルが
徐々に変化するとき、(前述の様々な実施例におけるノ
イズマイクロホン又はノイズのみの期間から得られる)
ノイズ信号の逆フィルタ係数を得るためにLPC分析を
用いる代わりに、一般的な適合性フィルタ(adapt
ive filter)を用いて逆相ノイズスペクトル
の原型を生成することができ、そのようなフィルタに共
通する比較的低速な適合率を得ることができる。第1図
に一致する実施例において、LPC分析ユニット13は
容易に適合性フィルタ(例えばトランスバ−サル (t
ransversal)FIR又はラティスフィルタ
(lattice filter))と交換することが
でき、そのフィルタは、逆フィルタの原型を生成するこ
とによって、ノイズ入力をホワイトノイズに転換するた
めにシステムに接続され、その係数は前述のように自己
相関器14に供給される。
【0041】第2図に示される第2実施例において、L
PC分析手段3は、そのような適合性フィルタと置換さ
れ、バッファ手段15は省略される。しかし、スイッチ
16は、適合性フィルタが会話期間の間、その係数を適
合するのを防止するために動作する。
【0042】この発明の他の実施例に使用される第2の
音声の動作特性検出器がこれより説明される。
【0043】以下の説明において、LPC係数ベクトル
は、FIRフィルタの単にパルス応答であり、FIRフ
ィルタは入力信号の逆位相スペクトル形状であることは
明らかである。隣接するフレ−ムの間に板倉・斎藤によ
る歪み値が形成されるとき、以前のフレ−ムのLPCフ
ィルタによって濾波されているので、実際にその値は信
号の電力に等しい。従って隣接するフレ−ムのスペクト
ルに違いが殆どない場合、フレ−ムの対応する僅かなス
ペクトル電力は濾波を免れ、その値は小さいであろう。
同時に、フレ−ム間の大きなスペクトルの相違は大きな
板倉・斎藤歪み値を発生し、それによってその値は隣接
するフレ−ムのスペクトルの類似性を反映する。スピ−
チコ−ダに関して、デ−タレ−トを最小とすることによ
って、フレ−ム長をできるだけ長くするのが望ましい。
即ち、フレ−ム長が十分長ければ、会話信号はフレ−ム
からフレ−ムへの重要なスペクトル変化を示す(もしそ
うでなければコ−ド化は冗長である)。一方、ノイズは
フレ−ムからフレ−ムへ徐々に変化するスペクトル形状
を有し、会話が信号に存在しない期間において、以前の
フレ−ムから逆相LPCフィルタを適用し、殆どのノイ
ズ電力を”フィルタアウト(filter out)”
するので、板倉・斎藤による歪み値はそれに対応して少
ない。
【0044】断続的な会話を含み、ノイズの多い信号の
隣接するフレ−ム間の板倉・斎藤歪み値は、一般にノイ
ズの期間より会話の期間の方が大きく、変化の程度(標
準偏倚によって示されるように)も大きく、断続的な変
化は少ない。
【0045】ここで、Mの標準偏差(standard
deviation)も信頼できる値であり、各標準
偏差をとる効果は本質的に値を円滑にすることである。
【0046】音声の動作特性検出器のこの第2の形態に
おいて、会話が存在するかどうかを判断するのに用いる
測定されたパラメ−タは、板倉・斎藤歪み値の標準偏差
であることが望ましいが、変化を測定する他の方法、及
び(例えばFFT分析に基づく)スペクトル歪みを測定
する他の方法を適用することができる。
【0047】音声の動作特性検出に適合性スレショルド
(adaptive threshold)を用いるこ
とにも利点がある。そのようなスレショルドは、会話期
間の間は調整されるべきではなく、調整されると会話信
号はスレショルドアウト(threshold ou
t)される。従ってスピ−チ/ノンスピ−チ制御信号を
用いてスレショルド・アダプタを制御する必要があり、
この制御信号はスレショルド・アダプタの出力から独立
しているのが望ましい。スレショルドTは、ノイズのみ
が存在するとき、値Mのレベル以上のレベルに保たれる
ように調整される。その値はノイズが存在するとき一般
にランダムに変化するので、多くのブロックについての
平均レベルを決定し、スレショルドをこの平均レベルに
比例するレベルに設定することによって、スレショルド
が変化する。しかし、これはノイズの多い状況では一般
に十分ではなく、幾つかのブロックについてのパラメ−
タの変化程度に関する査定が考慮される。
【0048】従ってスレショルド値Tは次式に従って計
算される。
【0049】
【数7】
【0050】ここでMは、連続する多くのフレ−ムにつ
いての測定値の平均値であり、dはそれらフレ−ムにつ
いての測定値の標準偏差であり、Kは定数である(代表
的には2である)。
【0051】実際的に、会話の存在しないことが示され
た直後に再び適合動作を開始すべきではなく、(適合及
び非適合状態の間に繰り返される急速なスイッチングを
避けるために)降下が安定したことを確認するまで待つ
べきである。
【0052】第3図は前述の事柄を具備する本発明の好
適実施例であり、入力1はアナログ・デジタルコンバ−
タ(ADC)2によってサンプルされ、デジタル化され
た信号を受信し、逆相フィルタアナライザ3の入力に信
号を供給し、逆相フィルタアナライザ3は実際に音声の
動作特性検出器が動作するスピ−チコ−ダの一部であ
り、又、入力信号スペクトルの逆相に一致するフィルタ
の係数L(代表的に8)を発生する。デジタル信号は
又、(アナライザ3の一部である)自己相関器4に供給
され、自己相関器4は入力信号(又は少なくともそれら
がLPC係数と同じくらい多くの低次項)の自己相関ベ
クトルRを発生する。装置のこれらの部分の動作は第
1図及び第2図に示される。自己相関係数Rは好適
に、連続する幾つかのスピ−チフレ−ム(代表的に5〜
20ms)について平均値がとられ、それらの信頼度が
改善される。この平均化は、バッファ4a内の自己相関
器4によって出力される自己相関係数の各組を格納し、
平均器(averager)4bを用いて、現在の自己
相関係数R、及びバッファ4aに格納されバッファ4
aから供給される以前のフレ−ムからの係数の重み付け
された加算値を生成することによって達成される。それ
によって得られた平均化された自己相関係数Ra は重
み付け及び加算手段5、6に供給され、この手段は又、
バッファ15を介して自己相関器14から格納されたノ
イズ期間の逆相フィルタ係数Lの自己相関ベクトルA
を受信し、Ra及びAから次式により定義される
値Mを形成する。
【0053】
【数8】
【0054】この値はスレショルダ7によって、スレシ
ョド値と比較され、会話が存在するかしないかを示す論
理結果が出力8に発生する。
【0055】逆相フィルタ係数Lがノイズスペクトル
の逆相の適切な概算に一致するために、これらの係数を
ノイズの期間に更新するのが望ましい(勿論、会話の期
間には更新しない)。しかし、その更新に基づくスピ−
チ/ノンスピ−チの決定はその更新の結果に影響され
ず、又は誤って確認された信号の単一フレ−ムによっ
て、音声の動作特性検出器は結果的に”ロックはずれ
(out of lock)”となり、次のフレ−ムを
誤って認識する。従って制御信号発生回路20、即ち分
離音声の補助的な動作特性検出器が提供され、この検出
器は会話が存在するかどうかを示す独立制御信号を形成
し、逆相フィルタアナライザ3(又はバッファ8)を制
御し、それによって値Mを形成するのに用いられる逆相
フィルタ自己相関係数Aは”ノイズ”期間にのみ更新
される。制御信号発生回路20はLPCアナライザ21
を含み(これは再び会話コ−ダの一部であり、特にアナ
ライザ3によって実行される)、このアナライザは、入
力信号及び自己相関器21a(自己相関器3aによって
実行することができる)に一致する一組のLPC係数M
を発生し、自己相関器21aはMの自己相関係数B
を得る。アナライザ21がアナライザ3によって実行
された場合は、M=L、及びB=Aである。こ
れら自己相関係数は、重み付け及び加算手段22、23
(5、6に同等)に供給され、この手段も自己相関器4
からの入力信号の自己相関ベクトルRを受信する。従
って、入力スピ−チフレ−ムと以前のスピ−チフレ−ム
の間のスペクトル的類似性が計算される。これは前記し
たように、現在のフレ−ムのRと以前のフレ−ムのB
の間の板倉・斎藤歪み値、又現在のフレ−ムのRiと
に関する板倉・斎藤歪み値を計算することによって
得られ、又は対応する値をバッファ24に格納された以
前のフレ−ムに関して減算することによって得られ、ス
ペクトル的に異なる信号を発生する(それぞれの場合、
その値はRoで分割することによってエネルギ・正規化
されるのが望ましい)。勿論ここでバッファ24は更新
される。このスペクトル的に異なる信号は、スレショル
ダ26によってスレショルドと比較されたとき、前述の
ように、会話が存在するかどうかを示す。音声とはなら
ない会話からのノイズを区別するためにこの方法は優れ
ているが(従来のシステムにおいて可能なタスク(ta
sk))、音声となった会話からノイズを区別する能力
は一般に少ないことが発見された。従って、回路20に
は、ピッチアナライザ(pitch analyse
r)27(実際にスピ−チコ−ダの一部として動作する
ことができ、特にマルチパルスLPCコ−ダ内に生成さ
れる算定器(predictor)の長い遅延値測定す
ることができる)を具備する音声の会話検出回路が提供
されるのが望ましい。ピッチアナライザ27は、音声と
なった会話が検出されたとき”真理(true)”であ
るロジック信号を発生し、この信号は、スレショルダ2
6(音声とはならない会話が存在するとき、一般に”真
理”である)から得られるスレショルド値と結合され、
NORゲ−ト28の入力に供給され、会話が存在すると
き”誤り(false)”であり、ノイズが存在すると
き”真理”である信号を発生する。この信号はバッファ
8(又は逆相フィルタアナライザ3)に供給され、それ
によって逆相フィルタ係数Liは、ノイズ期間のみに更
新される。
【0056】スレショルドアダプタ29も又接続され、
制御信号発生回路20のノンスピ−チ信号制御出力を受
信する。スレショルドアダプタ29の出力はスレショル
ダ7に供給される。スレショルドアダプタ29の出力は
スレショルダ7に供給される。スレショルドアダプタ
は、スレショルドがノイズ電力レベルに近付くまで(こ
れは、例えば回路22、23の加算及び重み付けするこ
とによって容易に得られる)、瞬時スレショルドレベル
に比例するステップに、スレショルドをインクリメント
(increment)又はデクリメント(decre
ment)するように動作する。入力信号が非常に小さ
いとき、スレショルドは自動的にロ−レベルに設定され
るのが望ましい。なぜならば、小さい信号レベルのと
き、ADC2によって生成される信号量は信頼できる結
果を生成できないからである。
【0057】更に”ハングオ−バ(hangove
r)”発生手段30が提供され、これはスレショルダ7
の後の会話を示す期間を測定し、所定時定数を越える期
間の間、会話の存在が示されたとき、その出力は短い”
ハングオ−バ”の間、ハイに維持される。このようにし
て、ロ−レベルな会話バ−ストの中間の欠損(clip
ping)が避けられ、適切な時定数の選択によって、
会話のときに誤って示された短いスパイクノイズにより
ハングオ−バ発生器30の起動を防ぐことができる。勿
論、前述した全ての機能は、適切にプログラムされた単
一のデジタル処理手段、例えば、LPCコ−デックの一
部として構成され(これは所望される構成である)、又
は関連するメモリ装置を有する適切にプログラムされた
マイクロコンピュ−タやマイクロコントロ−ラチップと
して構成されるデジタル信号処理チップ(DSP)など
のような手段によって実行することができる。
【0058】前述したように、音声検出装置はLPCコ
−デックの一部として容易に構成されることができる。
一方、信号の自己相関係数、又はそれに関連する値(部
分相関又は”パルコ−ル(parcor)”係数)が離
れたステ−ションに送信される場合、音声検出はコ−デ
ックから離れて行われる。
【図面の簡単な説明】
【図1】第1図はこの発明の第1実施例を示すブロック
図である。
【図2】第2図はこの発明の第2実施例を示すブロック
図である。
【図3】第3図はこの発明の好適な第3実施例を示す。
【符号の説明】
1 … 入力 2 … ADコンバータ 3 … アナライザ 4 … AFC 5 … マルチプライア 6 … 加算器 7 … スレショルダ 8 … 出力 11 … ノイズマイクロホン 12 … ADコンバータ 13 … アナライザ 14 … AFC 15 … バッファメモリ 16 … スイッチ
フロントページの続き (72)発明者 ダニエル・ケネス・フリーマン イギリス国 アイ・ピー4,2エツチ テイ,サフォーク,アイプスウイツチ, フインチレイ・ロード 42 (72)発明者 イヴン・ボイド イギリス国 アイ・ピー9,2エツク ス・イー,サフォーク,アイプスウイツ チ,カペル・エス・テイ・マリー,ホー ムフイールド 5 (56)参考文献 特開 昭63−98700(JP,A) 特公 昭62−50837(JP,B2)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 (i)入力信号に会話が存在するか存在し
    ないかを示す出力信号を作成するため、入力信号成分と
    会話がないと判断される入力信号の成分との間のスペク
    トル的類似性の値を形成するように動作する第1音声動
    作特性検出器(3−6、14)と、 (ii)前記会話がない部分から導かれたデータを格納する
    メモリ(15)と、 (iii)補助的な音声動作特性検出器(20)とを有し、 前記補助的な音声動作特性検出器(20)は単独で前記
    メモリ(15)の更新を制御し、前記補助的な動作特性
    検出器(20)は、入力信号に会話が存在するか存在し
    ないかを示す前記出力信号から独立の制御信号を生成す
    るために、入力信号の最新の成分と入力信号のより早期
    の成分との間のスペクトル的類似性の値を形成するよう
    に動作することを特徴とする音声動作特性検出装置。
  2. 【請求項2】 (i)入力信号を受信する手段(1)と、 (ii)前記入力信号の概算されたノイズ部分を表現するノ
    イズ表現信号を格納するメモリ(15)と、 (iii)前記入力信号と前記ノイズ表現信号から、前記入
    力信号の一部と前記概算されたノイズ部分との間のスペ
    クトル的類似性の値を周期的に形成する手段(3−6、
    14)と、 (iv)会話が存在するか存在しないかを示す出力信号を作
    成するため前記値をスレショルド値と比較する手段
    (7)と、 (v)補助的な音声動作特性検出器(20)と、そして (vi)前記入力信号により前記メモリを更新するメモリ
    更新手段とを有し、 前記補助的な音声動作特性検出器は、会話が存在するか
    又は存在しないかを示す前記出力信号から独立の制御信
    号を生成するため、入力信号の最新の部分と入力信号の
    以前の部分との間のスペクトル的類似性の値に対応して
    動作し、そして前記制御信号は入力信号に会話が存在す
    るか又は存在しないかを示し、そして前記メモリ更新手
    段は前記制御信号が会話が存在しないことを示す場合の
    み前記入力信号により前記メモリを更新するために動作
    することを特徴とする音声動作特性検出装置。
  3. 【請求項3】 さらに前記制御信号により会話が存在し
    ないと示された期間の間に前記スレショルド値を調整す
    る手段を含むことを特徴とする請求項2に記載の装置。
  4. 【請求項4】 前記補助的な音声動作特性検出器はさら
    に音声となった会話の存在を表示する信号を生成するピ
    ッチアナライザ手段を含む音声となった会話を検出する
    手段(27)を含み、これに前記補助的な音声動作特性
    検出器(20)によって作成された前記制御信号がさら
    に従うことを特徴とする請求項2または請求項3に記載
    の装置。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項に
    記載の装置を含む会話信号をエンコードする装置。
  6. 【請求項6】 請求項1乃至請求項5のいずれか1項に
    記載の装置を含む自動車電話装置。
  7. 【請求項7】 入力信号の会話動作特性を検出する方法
    であって、 前記入力信号を受信し、 前記入力信号のノイズ信号部分を概算し、 前記ノイズ信号部分を表現するデータを格納し、 入力信号の一部と前記ノイズ信号部分との間のスペクト
    ル的類似性の値Mを形成し、 スレショルド値より高いか否かに従って会話が存在する
    か存在しないかを示す第1の音声動作特性指示を作成す
    るため、値Mから導かれるパラメータを第1のスレショ
    ルド値Tと比較し、 ここで前記概算するステップは補助的な音声動作特性指
    示の作成を含み、そして、 前記補助的な音声動作特性指示の作成は、 入力信号の最新の成分と入力信号のより早期の成分との
    間の類似性のスペクトル歪み値を形成し、 その値を超えるか超えないかに対応して会話が存在する
    か存在しないかを指示する前記補助的な音声動作特性
    示を作成するために前記スペクトル歪み値を第2のスレ
    ショルド値と比較し、前記補助的な音声指示は前記第1
    の音声動作特性 指示から独立しており、 前記補助的な音声動作特性指示が会話が存在しないと指
    示する期間においてのみ入力信号により前記格納された
    データを更新するステップを含むことを特徴とする方
    法。
JP32819899A 1988-03-11 1999-11-18 音声の動作特性検出装置および検出方法 Expired - Lifetime JP3423906B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB8805795 1988-03-11
GB8813346.7 1988-06-06
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
GB8820105.8 1988-08-24

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP50377289A Division JP3321156B2 (ja) 1988-03-11 1989-03-10 音声の動作特性検出

Publications (2)

Publication Number Publication Date
JP2000148172A JP2000148172A (ja) 2000-05-26
JP3423906B2 true JP3423906B2 (ja) 2003-07-07

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
JP50377289A Expired - Lifetime JP3321156B2 (ja) 1988-03-11 1989-03-10 音声の動作特性検出
JP32819899A Expired - Lifetime JP3423906B2 (ja) 1988-03-11 1999-11-18 音声の動作特性検出装置および検出方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP50377289A Expired - Lifetime JP3321156B2 (ja) 1988-03-11 1989-03-10 音声の動作特性検出

Country Status (16)

Country Link
EP (2) EP0335521B1 (ja)
JP (2) JP3321156B2 (ja)
KR (1) KR0161258B1 (ja)
AU (1) AU608432B2 (ja)
BR (1) BR8907308A (ja)
CA (1) CA1335003C (ja)
DE (2) DE68929442T2 (ja)
DK (1) DK175478B1 (ja)
ES (2) ES2047664T3 (ja)
FI (2) FI110726B (ja)
HK (1) HK135896A (ja)
IE (1) IE61863B1 (ja)
NO (2) NO304858B1 (ja)
NZ (1) NZ228290A (ja)
PT (1) PT89978B (ja)
WO (1) WO1989008910A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
GB2317084B (en) * 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
WO1998001847A1 (en) * 1996-07-03 1998-01-15 British Telecommunications Public Limited Company Voice activity detector
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
KR900700993A (ko) 1990-08-17
AU3355489A (en) 1989-10-05
NO316610B1 (no) 2004-03-08
FI20010933A (fi) 2001-05-04
ES2188588T3 (es) 2003-07-01
NO982568D0 (no) 1998-06-04
CA1335003C (en) 1995-03-28
IE61863B1 (en) 1994-11-30
FI904410A0 (fi) 1990-09-07
PT89978B (pt) 1995-03-01
DK175478B1 (da) 2004-11-08
NZ228290A (en) 1992-01-29
DE68910859T2 (de) 1994-12-08
BR8907308A (pt) 1991-03-19
EP0335521A1 (en) 1989-10-04
WO1989008910A1 (en) 1989-09-21
EP0548054B1 (en) 2002-12-11
DK215690D0 (da) 1990-09-07
PT89978A (pt) 1989-11-10
NO982568L (no) 1990-11-09
NO903936D0 (no) 1990-09-10
AU608432B2 (en) 1991-03-28
NO903936L (no) 1990-11-09
EP0335521B1 (en) 1993-11-24
HK135896A (en) 1996-08-02
EP0548054A2 (en) 1993-06-23
ES2047664T3 (es) 1994-03-01
DE68929442T2 (de) 2003-10-02
DE68929442D1 (de) 2003-01-23
DE68910859D1 (de) 1994-01-05
NO304858B1 (no) 1999-02-22
KR0161258B1 (ko) 1999-03-20
DK215690A (da) 1990-09-07
JP3321156B2 (ja) 2002-09-03
EP0548054A3 (ja) 1994-01-12
JPH03504283A (ja) 1991-09-19
FI115328B (fi) 2005-04-15
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
US5276765A (en) Voice activity detection
JP3224132B2 (ja) 音声活動検出装置
US5970441A (en) Detection of periodicity information from an audio signal
CA1123955A (en) Speech analysis and synthesis apparatus
EP0871157B1 (en) A method and a device for recognising speech
JP3297346B2 (ja) 音声検出装置
JPH09212195A (ja) 音声活性検出装置及び移動局並びに音声活性検出方法
EP0807305A1 (en) Spectral subtraction noise suppression method
JPH08505715A (ja) 定常的信号と非定常的信号との識別
US5430826A (en) Voice-activated switch
US5579432A (en) Discriminating between stationary and non-stationary signals
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JP2001005486A (ja) 音声処理装置及び方法
JPH08160994A (ja) 雑音抑圧装置
JPH08221097A (ja) 音声成分の検出法
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JPH1185185A (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
US6633847B1 (en) Voice activated circuit and radio using same
JP2007093635A (ja) 既知雑音除去装置
JPH07283860A (ja) ノイズ除去装置
JPH0844390A (ja) 音声認識装置

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

EXPY Cancellation because of completion of term