JPH0490599A - Aural operation type switch - Google Patents
Aural operation type switchInfo
- Publication number
- JPH0490599A JPH0490599A JP2206921A JP20692190A JPH0490599A JP H0490599 A JPH0490599 A JP H0490599A JP 2206921 A JP2206921 A JP 2206921A JP 20692190 A JP20692190 A JP 20692190A JP H0490599 A JPH0490599 A JP H0490599A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- acf
- determination
- frames
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 23
- 238000005311 autocorrelation function Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 8
- 238000012886 linear function Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 238000011835 investigation Methods 0.000 claims description 3
- 230000035508 accumulation Effects 0.000 claims 1
- 238000009825 accumulation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 208000019300 CLIPPERS Diseases 0.000 description 5
- 208000021930 chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids Diseases 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000003750 conditioning effect Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- BHMLFPOTZYRDKA-IRXDYDNUSA-N (2s)-2-[(s)-(2-iodophenoxy)-phenylmethyl]morpholine Chemical compound IC1=CC=CC=C1O[C@@H](C=1C=CC=CC=1)[C@H]1OCCNC1 BHMLFPOTZYRDKA-IRXDYDNUSA-N 0.000 description 1
- 101100510615 Caenorhabditis elegans lag-2 gene Proteins 0.000 description 1
- 101100510617 Caenorhabditis elegans sel-8 gene Proteins 0.000 description 1
- 241001070941 Castanea Species 0.000 description 1
- 235000014036 Castanea Nutrition 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、音声トリガー式スイッチング、特に、非常に
紛られしいバックグラウンド信号がある場合において発
声情報の検出に応答して音声指示信号(speech
1ndication signal)を発生する方法
及び装置に関連する。このような音声操作式スイッチ(
voice operated 5w1tch)は、電
話やラジオの送信器(t ranslllt t te
rs)や音声強調装置など、非常に雑音が多い環境にお
いて好ましくないオーディオ情報を含むタイムフレーム
(time frame)から音声(speech)を
含むタイムフレームを分離することを必要とする装置の
発音でトリガーされるコントロールに役立つ。DETAILED DESCRIPTION OF THE INVENTION [Industrial Application] The present invention relates to voice-triggered switching, particularly in the presence of highly confusing background signals, in response to the detection of speech information.
1indication signal). A voice-operated switch like this one (
voice operated 5w1tch) is a telephone or radio transmitter (transllllttte
rs) and speech enhancement devices that require the separation of time frames containing speech from time frames containing objectionable audio information in very noisy environments. Useful for controlling
〔従来の技術と発明が解決しようとする課題〕従来の音
声操作式スイッチには種々のものがあるが、それらは主
としてアナログ式の信号検出技術であった。[Prior Art and Problems to be Solved by the Invention] There are various types of conventional voice-operated switches, but they are mainly based on analog signal detection technology.
ボアケラ(Poikela)に付与された米国特許節4
.825.()83号には、二つのマイクロフォンによ
る音声操作式スイッチ(VOX)システムについて記載
されており、これは二つのマイクロフォンからの信号を
比較するための差動増幅器を用いたアナログ信号の自己
相関(autocorrelat 1on)について提
案しているよってある。この技術は、雑音を消去するマ
イクロフォン技術を思い起こさせるものであるが、本発
明とは特別の関連性はない。US Patent Section 4 granted to Poikela
.. 825. () No. 83 describes a two-microphone voice-operated switch (VOX) system that uses autocorrelation of analog signals ( There is a proposal for autocorrelat 1on). This technique is reminiscent of noise-canceling microphone technology, but has no particular relevance to the present invention.
メイら(Mat et al、)に付与された米国特許
節4.484,344号には、音節比フィルター(sy
llabic rate filter)をベースにし
た音声操作式スイッチが記載されている。これは、信号
の検出動作を750kHz以下に制限するアナログ式の
低域フィルターによって入力信号の調整を行っている。U.S. Patent No. 4,484,344 to Mat et al.
A voice-operated switch based on a llabic rate filter is described. It conditions the input signal using an analog low-pass filter that limits the signal detection operation to 750 kHz or less.
リュハウイ(Luhowy)に付与された米国特許節4
.187,396号には、音節比フィルターを用いたア
ナログ式の音声検出回路について記載されている。これ
は包絡線の検出器として機能するハングオーバータイム
機能(hangover tile function
)を用いている。U.S. Patent Section 4 granted to Luhowy
.. No. 187,396 describes an analog speech detection circuit using a syllable ratio filter. This is a hangover tile function that acts as an envelope detector.
) is used.
ジャンコウスキイ−(Jankowski)に付与され
た米国特許節4,052,568号には、広帯域のスペ
クトルの音声信号について動作するディジタル音声検出
器及び雑音検出器を用いたディジタル・ボイス・スイッ
チについて記載されている。U.S. Pat. No. 4,052,568 to Jankowski describes a digital voice switch using a digital voice detector and noise detector that operates on a wideband spectrum of voice signals. has been done.
これはまた、ハングオーバータイム機能及びデュアルス
レショルド検出(dual threshold de
tecoon)について教示している。It also has a hangover time function and dual threshold detection.
tecoon).
シューリイ(Sciul I Dに付与された米国特許
節3.832,491号には、初期のディジタル音声ス
イッチについて記載されており、そこでは話者の声の振
幅が振幅閾値を単位時間当りに越える回数に基づいたデ
ィジタル適合型スレショルドが用いられている。U.S. Pat. A digital adaptive threshold based on
本発明は、前記したような従来技術とは異なり、音声ト
リガー式スイッチング、特に、非常に紛られしいバック
グラウンド信号がある場合において発声情報の検出に応
答して音声指示信号を発生する方法及び装置を提供しよ
うとするものである。In contrast to the prior art as described above, the present invention provides a method and apparatus for voice-triggered switching, particularly for generating voice instruction signals in response to detection of voiced information in the presence of highly confusing background signals. This is what we are trying to provide.
本発明によれば、前記目的を達成するために、入力オー
ディオ信号をディジタル化し、低域濾波し、そしてクリ
ッピングして、ディジタル化され、濾波され、そしてク
リップされた信号を得;
その後クリップされた信号をオートコリレート(aut
ocorrela、ting) L、、て、多数のフレ
ームのそれぞれに対して自己相関(autocorre
lation)関数ACFを得;その後、
1)下記調査ステップ、
最も高いACFのピークの振幅を決定し;次に高いAC
Fのピークの振幅を決定し;前記多数のフレームの各々
の中で、振幅が予め決められた閾値を越えるACFピー
クの周期性を決定し、決定された周期性を有するACF
ピークがいくつ検出されたかを記憶し;そして最も高い
ACFピークと次に高いACFピークの振幅の非線形関
数の重み付けされた加算、及び決定された周期性を有す
る検出されたACFピークの数に基づいて、ピッチがあ
るかピッチがないかの決定を与えるステップ
からなる調査ステップによって、ピッチを示すピークの
存在について前記多数のフレームのそれぞれの前記AC
Fを調べて、前記多数のフレームのそれぞれについてピ
ッチがあるかピッチがないかの決定を得;そして、
2)前記フレーム内のトーンを検出するために前記多数
のフレームのそれぞれの前記ACFを分析して、そのフ
レームについてトーンがあるかトーンがないかの決定(
tone/no tone decision)を得;
そして
前記フレームについて音声があるか音声がないかの決定
(speech/no 5peech decisio
n)を行い、トーンがないとの決定とピッチがあるとの
決定との一致に基づいて音声があるとの決定を与える;
というステップからなる、時間によって不変の多数のフ
レームのそれぞれにおいてオーディオ信号中に音声があ
ることを示す方法が提供される。According to the present invention, in order to achieve the said object, an input audio signal is digitized, low-pass filtered and clipped to obtain a digitized, filtered and clipped signal; Autocorrelate the signal (aut
autocorrela, ting) L, , , autocorrelation (autocorrela, ting)
lation) obtain the function ACF; then: 1) the following investigation steps: determine the peak amplitude of the highest ACF;
determining the periodicity of the ACF peak whose amplitude exceeds a predetermined threshold in each of said plurality of frames;
remembering how many peaks were detected; and based on a weighted addition of a non-linear function of the amplitude of the highest ACF peak and the next highest ACF peak, and the number of detected ACF peaks with the determined periodicity. , the AC of each of the plurality of frames for the presence of a peak indicative of pitch by a step of examining the AC of each of the plurality of frames for the presence of a peak indicative of pitch.
F to obtain a pitch or no pitch determination for each of the multiple frames; and 2) analyzing the ACF of each of the multiple frames to detect tones within the frame. to determine if there is a tone or no tone for that frame (
tone/no tone decision);
Then, it is determined whether there is speech or no speech for the frame (speech/no 5peech decision).
n) and providing a determination that there is speech based on the agreement between the determination that there is no tone and the determination that there is pitch; A method is provided to indicate the presence of audio.
さらに本発明によれば、オーディオ入力信号の時間によ
って不変のフレームを濾波するよう結合されたディジタ
ル低域フィルター及びクリップ手段:
前記オーディオ信号の多数の前記フレームのそれぞれに
ついて自己相関関数(ACF)を得るために、前記フィ
ルター及びクリップ手段によって処理された信号を受け
取るよう結合された手段;
前記オーディオ入力信号の前記各フレーム内にピッチの
存在を示すピークを検出するために前記自己相関関数を
処理するよう結合された手段であって、
最も高いACFピークの振幅を決定するための第1のピ
ーク決定プロセッサ;
2番目に高いACFピークの振幅を決定するための第2
のピーク決定プロセッサ、および;前記多数のフレーム
のそれぞれの中の、予め決められた閾値を越える振幅を
有するACFピークの周期性を決定し、決定された周期
性を持つACFピークか幾つ検出されたかを記録し、最
も高いACFピークと次に高いACFピークの振幅の非
線形関数の重み付けされた加算、及び決定された周期性
を持つ検出されたACFピークの数に基づいて、ピッチ
がある/ピッチがないという決定を与える周期性ディテ
クターからなる処理手段;
前記多数のフレームのそれぞれの前記ACFを分析して
、前記多数のフレームのそれぞれのトーンを検出し、・
前記フレームについてトーンがある/トーンがないとい
う決定を得る手段;前記オーディオ入力信号にピッチと
トーンの存在を検出するために、前記自己相関関数を処
理するよう結合された自己相関関数周期性検出手段;お
よび
トーンがないという決定及びピッチがあるという決定の
ときに発声された音声の存在を示すために、ピッチがあ
る/ピッチがないという決定及びトーンがある/トーン
がないという決定を受け取るよう結合された決定結合手
段:からなるオーディオ信号中に音声の存在を示す装置
か提供される。Further according to the invention, digital low-pass filters and clipping means are coupled to filter time-invariant frames of an audio input signal: obtaining an autocorrelation function (ACF) for each of a number of said frames of said audio signal. means coupled to receive the signal processed by the filter and clipping means for processing the autocorrelation function to detect peaks indicative of the presence of pitch within each frame of the audio input signal; a first peak determination processor for determining the amplitude of the highest ACF peak; a second peak determination processor for determining the amplitude of the second highest ACF peak;
a peak determination processor; and; determining the periodicity of ACF peaks having an amplitude exceeding a predetermined threshold in each of the plurality of frames, and determining how many ACF peaks having the determined periodicity are detected. and based on a weighted addition of a non-linear function of the amplitudes of the highest and next highest ACF peaks, and the number of detected ACF peaks with the determined periodicity, pitch is/is pitched. processing means comprising a periodicity detector for providing a determination that the plurality of frames are not present; analyzing the ACF of each of the plurality of frames to detect a tone of each of the plurality of frames;
means for obtaining a tone/absence determination for said frame; autocorrelation function periodicity detection means coupled to process said autocorrelation function to detect the presence of pitch and tone in said audio input signal; ; and coupled to receive a pitched/unpitched determination and a tone/absent tone determination to indicate the presence of voice uttered at the time of the no-tone determination and the pitched determination. An apparatus is provided for indicating the presence of speech in an audio signal consisting of:
本発明によれば、音声操作式スイッチは、発声された音
声を特定し、選択されたセグメントが主として音声を含
むのか雑音を含むのかを決定するために、ディジタル信
号処理技術を用いて、高調波成分(harmonic
content)を有するオーディオ信号のフレームの
検出動作を行う。この方法及び装置は、通常に人手可能
のDSP電子回路部品を使用することにより構成され、
多段階(liultiple−stage)の遅延決定
(del 2yed−decision)適合型のディ
ジタル信号処理アルゴリズムを用いる。特に、この方法
及び装置は、(1)入力信号の検出動作を約1 kHz
以下に限定するための低域フィルター (2)ピークに
関連する閾値以下又は以上の入力信号の周期的成分の存
在によって、時間によって不変のフレームか音声又は雑
音を含んでいることを認諧する中央をクリップした(c
enter−ckipped)自己相関のディジタルプ
ロセッサー (3)フレームレベルの決定を非線形平滑
化し、遅延を行い、更に音声セグメントレベルで前方又
は後方への決定の拡張を行う非線形フィルタリング・プ
ロセッサ、を含む多くの段階からなっている。In accordance with the present invention, the voice-operated switch uses digital signal processing techniques to identify the voice being uttered and determine whether the selected segment contains primarily speech or noise. ingredient (harmonic)
Detecting a frame of an audio signal having "content" is performed. The method and apparatus are constructed using conventionally manipulable DSP electronic circuitry;
A multiple-stage, del 2yed-decision adaptive digital signal processing algorithm is used. In particular, the method and apparatus provide (1) detecting an input signal at approximately 1 kHz;
(2) A low-pass filter for limiting (2) the presence of periodic components of the input signal below or above a threshold associated with peaks that recognize time-invariant frames or frames containing speech or noise; clipped (c
(3) a nonlinear filtering processor that performs nonlinear smoothing and delay of frame-level decisions and further forward or backward decision extension at the audio segment level; It consists of
本発明については、添付した図面とともに以下の詳しい
説明を参照することにより、より良く理解されるであろ
う。The present invention will be better understood by reference to the following detailed description in conjunction with the accompanying drawings.
本発明は、プログラムされたディジタル信号処理装置内
に設けられたハードウェア又はソフトウェアによって実
現される。例えば、この音声操作式スイッチは、ディジ
タル信号処理技術を用いた他の装置の一要素として実現
することもてきる。特定の応用について、本発明は、テ
キサス・インストゥルメンツ社(Texas Inst
ruments)から市販されているTMS320シリ
ース装置のような補充的なディジタル信号処理コンポー
ネントによって性能が向上されたモトローラ(Moto
rola)68000のようなマイクロプロセッサの周
辺用に製造された専用デバイスにおいて実現されること
を意図している。本発明の思想及び範囲から逸脱せずに
、他のコンポーネントを使用して実現することも考えら
れる。The present invention is implemented by hardware or software provided within a programmed digital signal processing device. For example, the voice-operated switch can be implemented as an element of other devices using digital signal processing technology. For certain applications, the present invention is manufactured by Texas Instruments, Inc.
Performance has been enhanced by supplemental digital signal processing components such as the TMS320 series devices commercially available from Motorola
It is intended to be implemented in a specialized device manufactured for the periphery of microprocessors such as the Rola 68000. It is contemplated that implementations may be made using other components without departing from the spirit and scope of the invention.
第1図には、音声操作式スイッチ(VOX)によってコ
ントロールされる装置10のブロック線図か示されてお
り、本発明の音声操作式スイッチの主要な機能が例示し
である。VOXによってコントロールされる装置10は
、音声チャンネル14を介してオーディオ信号を受け取
り、コントロールされた減衰信号を次の段階に与える信
号調整手段12を有する。この次の段階は、アナログ信
号をディジタルサンプルに変換するだめのアナログ−デ
ィジタルコンバータ(ADC)16である。ADC16
の出力は、後続の段階における信頼性の高い動作のため
必要とされる遅延を加えるための先入れ先たしバッファ
(FIFO)18に結合される。FIF018の出力は
ブリプロセッサ20及び可変遅延回路22へと結合され
る。可変遅延回路22の出力はディジタル−アナログコ
ンバータ(DAC)24に結合され、この出力はチャン
ネルスイッチ26に結合される。チャンネルスイッチ2
6の出力は、一つのオーディオ出力信号チャンネル30
に供給される。この音声操作式スイッチコントロールが
用いられたときは、音声でスイッチングされるオーディ
オ信号が生成される。そうでない場合には、オーディオ
チャンネルは単純に音声及び雑音を含んだ調整されたオ
ーディオ信号を通過させる。FIG. 1 shows a block diagram of a device 10 controlled by a voice-operated switch (VOX), illustrating the main functions of the voice-operated switch of the present invention. The VOX controlled device 10 has signal conditioning means 12 for receiving an audio signal via an audio channel 14 and providing a controlled attenuation signal to the next stage. This next stage is an analog-to-digital converter (ADC) 16 that converts the analog signal into digital samples. ADC16
The output of is coupled to a first-in, first-out buffer (FIFO) 18 for adding the delay needed for reliable operation in subsequent stages. The output of FIF 018 is coupled to a preprocessor 20 and variable delay circuit 22. The output of variable delay circuit 22 is coupled to a digital-to-analog converter (DAC) 24, which output is coupled to a channel switch 26. channel switch 2
6 outputs are one audio output signal channel 30
supplied to When this voice-operated switch control is used, a voice-switched audio signal is generated. Otherwise, the audio channel simply passes a conditioned audio signal containing speech and noise.
音声操作式スイッチングは、ブリプロセッサ20によっ
て引き出される情報を処理することによって行われ、ブ
リプロセッサ20の出力はVOXプロセッサ32に供給
される。このブリプロセッサ20とvOXプロセッサ3
2とをあわせて音声操作式スイッチが構成されると考え
ることもてきる。VOXプロセッサ32からは二つのコ
ントロール出力が与えられる。すなわち、最初の遅延コ
ントロール出力34と次の音声決定出力36である。Voice-activated switching is accomplished by processing information retrieved by the briprocessor 20, the output of which is fed to a VOX processor 32. This briprocessor 20 and vOX processor 3
2 can be considered to constitute a voice-operated switch. Two control outputs are provided from the VOX processor 32. namely, the first delay control output 34 and the next audio decision output 36.
ここで第1図の信号調整回路12をより詳しく見てみる
。この信号調整回路12は、好ましくは約50デシベル
のダイナミックレンジを持つ自動利得コントロール(a
utoIIlatic gain controle:
AGC)装置とする。このAGCは、信号間隔における
概算されたエネルギーに基づいて減衰率が相互的にコン
トロールされる一連の減衰器から構成することもてきる
。このAGCは、音声を含むようVOXプロセッサによ
って決められる間隔のみに基づいて減衰を決定すること
によって、より厳密にコントロールすることができる。Let us now take a closer look at the signal conditioning circuit 12 shown in FIG. The signal conditioning circuit 12 preferably includes an automatic gain control (a
uto II latic gain control:
AGC) device. The AGC may also consist of a series of attenuators whose attenuation rates are mutually controlled based on the estimated energy in the signal interval. This AGC can be more tightly controlled by determining attenuation based only on intervals determined by the VOX processor to contain audio.
ADC12は、アンチ・エイリアシング(偽信号発生防
止)を併った通常の線形12ビツトコンバーターでもよ
いし、またはディジタル電話通信において用いられるA
法則(A−l ay)またはMU法則(MU−1aw)
のコーデック(codec)てもよい。サンプリング・
レートは、毎秒8000サンプルか音声処理には適当で
ある。D A C24はその後の利用のためにアナログ
信号を再構成するためのもので、ADC16の形式に対
して相補的な形式となっている。ADC 12 may be a conventional linear 12-bit converter with anti-aliasing, or an ADC converter used in digital telephony.
law (A-lay) or MU-law (MU-1aw)
It may also be a codec. sampling·
The rate is 8000 samples per second, which is adequate for audio processing. The DAC 24 is for reconstructing analog signals for subsequent use and is of a complementary format to the ADC 16 format.
PIF018は、約1/4秒(250ミリ秒)の遅延を
導入するディジタル遅延線(delay fine)で
ある。ブリプロセッサ20は、後述するように、サンプ
ル信号を調整し、これらを、VOXプロセッサ32で使
用できるよう互いに重なり合うフレームのシーケンスに
分類する。vOXプロセッサ32は、後述するように、
音声であるか/音声でないか(speech/no−5
peech)の決定を行う。PIF018 is a digital delay fine that introduces a delay of approximately 1/4 second (250 milliseconds). Briprocessor 20 conditions the sample signals and sorts them into a sequence of overlapping frames for use by VOX processor 32, as described below. The vOX processor 32, as described later,
Speech/no-5
peech).
可変遅延回路22は、vOXプロセッサ32によって導
入された遅延に影響を与えるパラメーターの変化を補償
するために設けられている。Variable delay circuit 22 is provided to compensate for changes in parameters that affect the delay introduced by vOX processor 32.
チャンネルスイッチは、VOXプロセッサ32によって
音声セグメントを通過するときは閉じられ、音声でない
セグメントを遮断するときは開かれる。The channel switch is closed by the VOX processor 32 when passing audio segments and opened when blocking non-audio segments.
第1図の装置は本発明を説明することを意図したもので
あって、本発明の特定の特徴について限定するものでは
なく、また音声操作式スイッチと考えられる装置の一つ
の具体例を例示したものである。実際のスイッチングの
決定は、■OXプロセッサ32として示した素子の中で
行われる。The device of FIG. 1 is intended to be illustrative of the present invention, not limiting as to the particular features of the invention, and is illustrative of one embodiment of a device that may be considered a voice-operated switch. It is something. The actual switching decisions are made in an element shown as OX processor 32.
第2図には、本発明のブリプロセッサ20のブロック線
図が示しである。ブリプロセッサ20は、VOXプロセ
ッサ32において処理されるディジタル化された入力信
号を生成する。本発明によれば、vOXプロセッサ32
は、オーディオ信号中に音声が存在すると、16ミリ秒
の持続時間をもつ不変の発声された音声セグメントの中
のピッチ情報を基礎として予備決定を行い、そして前及
び後ろに拡張された期間にわたって連続性を与えて補償
することによってこの決定の不十分さを補うと共に、前
後の発音されてない音声を補う。FIG. 2 shows a block diagram of the preprocessor 20 of the present invention. Briprocessor 20 produces digitized input signals that are processed in VOX processor 32. According to the invention, vOX processor 32
When speech is present in the audio signal, it makes a preliminary decision based on pitch information in a constant vocalized speech segment with a duration of 16 ms, and continuously over a period extended forward and backward. The inadequacy of this determination is compensated for by giving a gender, and the unpronounced sounds before and after the sound are compensated for.
ブリプロセッサ20は低域フィルター38、ダウン・サ
ンプラー40、センター−クリッパー42、及びフレー
ム・セグメンタ−44からなる。低域フィルター38は
FIFO18の選定された段階からのディジタル信号を
受け取ると共に、濾波(rilter)されたディジタ
ル信号をダウン・サンプラー40へ通過させる。ダウン
・サンプラー40はフレーム・セグメンタ−44に結合
されている。フレーム・セグメンタ−44の出力は、セ
ンター・クリッパー42の入力に結合されている。セン
ター・クリッパー42の出力は、後に説明するように、
VOXプロセッサ32の入力に結合されている。The preprocessor 20 consists of a low pass filter 38, a down sampler 40, a center clipper 42, and a frame segmenter 44. Low pass filter 38 receives the digital signals from selected stages of FIFO 18 and passes the filtered digital signals to down sampler 40 . Down sampler 40 is coupled to frame segmenter 44. The output of frame segmenter 44 is coupled to the input of center clipper 42. The output of the center clipper 42 is as explained later.
It is coupled to an input of VOX processor 32.
低域フィルター38は、1000Hz以下の遮断周波数
(cutof’f’ frequency)を持つディ
ジタルフィルターで、好ましくは800Hzとする。The low-pass filter 38 is a digital filter with a cut-off frequency (cutof'f' frequency) of 1000 Hz or less, preferably 800 Hz.
これは50Hzから500Hzまでのスペクトルにおけ
る有用なピッチのS/N比特性を改善するためであり、
この50から500Hzの中にリアルタイムの通常の会
話において発音される音素(phoneme)のピッチ
周波数のほとんどか含まれることか知られている。This is to improve the useful pitch S/N ratio characteristics in the spectrum from 50Hz to 500Hz,
It is known that most of the pitch frequencies of phonemes pronounced in real-time normal conversation are included in this range of 50 to 500 Hz.
ダウン・サンプラー40は、濾波されて得られる信号を
削減するための機構である。毎秒当り8000のサンプ
ルという解像度は、もはや必要ではない。というのは、
有効バンド幅がたった800H2だからである。したか
って、ダウン・サンプラー40は、4つのサンプルの中
から毎回、例えば3つを、捨てるとともに、残るバンド
幅の信号について必要な決定を行うのに十分な情報を保
持するよう機能する。これによっても信号処理の複雑さ
が低減される。(しかしながら、濾波はされたが捨てら
れていない信号は、自己相関など選択される適合処理(
preeisjon processing)において
用いるために保持される。)
フレーム・セグメンタ−44は、ディジタル・オーディ
オ・サンプルの流れを有用な処理フレームに分割するた
めのセグメント化処理を行う。特に、ディジタル・オー
ディオ・サンプルはフレーム・セグメンタ−44におい
て、連続するインターバルの間で好ましくは509oの
重なりを持つフレームに集められる。ここでの好ましい
具体例においては、フレームの長さは256サンプル又
は32ミリ秒か選択される。フレームレベルの決定は、
16ミリ秒毎に生成される。重なりがあるために、発声
された音声セグメント間の遷移はより円滑に扱われ、第
2レヘルの決定はフレームレベルの決定の2倍か有効と
なる。Down sampler 40 is a mechanism for reducing the filtered signal. A resolution of 8000 samples per second is no longer necessary. I mean,
This is because the effective bandwidth is only 800H2. The down sampler 40 thus functions to discard, say, three out of four samples each time, while retaining sufficient information to make the necessary decisions about the remaining bandwidth of the signal. This also reduces the complexity of signal processing. (However, signals that have been filtered but not discarded can be processed by a selected adaptive process such as autocorrelation.)
pre-processing). ) Frame segmenter 44 performs a segmentation process to divide the stream of digital audio samples into useful processing frames. In particular, the digital audio samples are grouped in frame segmenter 44 into frames with preferably 509o overlap between successive intervals. In the presently preferred embodiment, the frame length is selected to be 256 samples or 32 milliseconds. Deciding on the frame level is
Generated every 16 milliseconds. Because of the overlap, transitions between spoken audio segments are handled more smoothly, and second-level decisions are twice as effective as frame-level decisions.
センター・クリッパー42は、スペクトルを平坦にする
ためのもの(spectrua+ flattener
)で、声道伝達関数(vocal tract tra
nsfer function)の効果を除去し、各調
波(harmonic)を基本波(fundament
al )と近似的に同し振幅となるよう抑制する。特定
の手順では、セグメント(すなわち、32ミリ秒の音声
セグメント)の最初の3分の1及び最後の3分の1にお
いてピークの振幅を見いたし、そしてクリッピング・レ
ベルをこれら二つの測定された最大値のうちの小さい方
の所定のパーセンテージに設定する。このVOXプロセ
ッサ32より供給されるパラメーターであるクリッピン
グ・レベル入力43は、好ましくは小さい方の最大値の
約0.65倍とする。このセンター−クリッピングの技
術についての詳しい説明は、ラビナー(L、R,Rab
iner)とシェイフ7− (17J、5chafer
)による「音声信号のディジタル処理(Digital
Processing of 5peech Sig
nals)J (076B 2ニユージヤージイング
ルウツド・クリフスのプレンティス・ホール社Pren
tice−Hall、Inc、Englewood C
l1ff’s、NJO7632) 1978年の15
0−154頁に与えられている。The center clipper 42 is for flattening the spectrum (spectrum + flattener).
), the vocal tract transfer function (vocal tract tra
nsfer function) and convert each harmonic to the fundamental wave.
It is suppressed so that the amplitude is approximately the same as (al). In the specific procedure, we looked at the peak amplitude in the first third and last third of the segment (i.e., a 32 ms audio segment) and set the clipping level to these two measured maxima. Set to a predetermined percentage of the smaller of the values. The clipping level input 43, which is a parameter supplied by the VOX processor 32, is preferably about 0.65 times the smaller maximum value. For a detailed explanation of this center-clipping technique, please refer to Rabiner (L, R, Rab
iner) and Sheikh 7- (17J, 5chafer
``Digital processing of audio signals (Digital
Processing of 5peech Sig
nals) J (076B 2New Jersey Ingredients Cliffs Prentice Hall Co. Pren.
tice-Hall, Inc., Englewood C.
l1ff's, NJO7632) 15 of 1978
Given on pages 0-154.
センター・クリッパーの必要性を理解するためには、音
声生成の古典的なモデルを見直してみることか役に立つ
。音声の生成は声帯の励起と考えることができ、この声
帯が、声に出す音声の振動と声に出さない“ホワイトノ
イズのような音声とを発声する。声帯がピッチ周波数で
振動すると、周波数選択的な減衰を生じる声道伝達関数
によって表されるピッチ周波数のインパルスの列を生成
する。対応するパワースペクトルは、主に基本ピッチ周
波数の高調波の飛び飛びの周波数に集中し、スペクトル
の包路線はピークと谷とを示す。このスペクトルのピー
クは「フォルマント周波数(formant freq
uencies) Jとして知られ、これは声道の共鳴
周波数に対応する。To understand the need for a center clipper, it is helpful to review the classical model of speech production. Speech production can be thought of as the excitation of the vocal cords, which produce both vocal vibrations and unspoken "white noise-like" sounds.When the vocal cords vibrate at the pitch frequency, frequency selection occurs. generates a train of impulses at the pitch frequency represented by the vocal tract transfer function that produces an attenuation of The peaks and valleys of this spectrum are shown.The peaks of this spectrum
frequencies) J, which corresponds to the resonant frequency of the vocal tract.
本発明によれば、VOXプロセッサ32は、オーディオ
信号の中に音声があるかないかを決定するために、声に
出された音声の中のピッチの存在を利用する。しかし、
この励起またはピッチがその検出性を向上するために強
められるべきであれば、検出に先たって音声スペクトル
からフォルマント・スペクトル構造を除去することが望
ましくまた必要であると信しられている。ここで用いら
れている特定のタイプのV。In accordance with the present invention, VOX processor 32 utilizes the presence of pitch in the voiced speech to determine whether there is speech in the audio signal. but,
If this excitation or pitch is to be enhanced to improve its detectability, it is believed that it is desirable and necessary to remove formant spectral structure from the speech spectrum prior to detection. The particular type of V used here.
Xプロセッサにおいては、ピッチの周期性について短時
間の自己相関関数が検出のために使用され、これによっ
て発音された音声スペクトルの中の他の信号のピークは
無関係となり、そして周期的な振動による自己相関ピー
クか声の励起の周期性による自己相関ピークよりも高い
ので、誤った読みを生しる。特にこの読みかセグメント
内の最も高いピークの選択に基ついている場合はそうで
ある。この問題を最小限に抑えるために、他のファクタ
ーによるピークを抑制して、音声信号の周期性がより目
たつように処理することが望ましい。それ故に、本発明
では、上記に説明したようにセンター・クリ・ソノマー
のスペクトル平坦化技術が用いられる。In the The correlation peak is higher than the autocorrelation peak due to the periodicity of the vocal excitation, resulting in false readings. This is especially true if this reading is based on the selection of the highest peak within the segment. In order to minimize this problem, it is desirable to process the audio signal so that its periodicity is more noticeable by suppressing peaks caused by other factors. Therefore, in the present invention, a centered chestnut sonomer spectral flattening technique is used as explained above.
第3図には、本発明のVOXプロセ・ソサ32のブロッ
ク線図を示す。vOXプロセッサ32は、本発明で用い
ている対応するソフトウェアのアルゴリズムによって最
もよく説明される。FIG. 3 shows a block diagram of the VOX processor 32 of the present invention. vOX processor 32 is best described by the corresponding software algorithms used in the present invention.
vOXアルゴリズムは第ルベル決定手段50、第2レベ
ル決定手段52、及び第3レベル決定手段54を用いて
いる。第ルベル決定手段50は信号か重なりあったフレ
ームで動作し、そのフレームが第1であるカテゴリーの
発声された音声であるか、または第2のカテゴリーであ
る発声されていない音声、すなわち雑音又は無音、であ
るかを評価する。第ルベルのアルコリズムは入力された
フレームか(1)発声された音声V又はトーンTである
か、(2)発声されていな1X音声Uまたは雑音Nまた
は無音Sであるかどうかを決定するための指標としてピ
ッチを用い、第2レヘル決定手段52の最初の素子56
へ2進数の決定として供給する。第ルベル決定手段50
はまた、ピッチ情報Pを引出し、引き出されたトーンT
を第2レベル決定手段52の遅延されたトーン検出器素
子58へ供給する。VT/UNSという決定を受け取る
最初の素子56は、中間円滑器56、すなわち、決定を
円滑化し、鮮明で、矛盾のない遷移を示す決定を通過さ
せるのに使われる非線形フィルターである。遅延された
決定のトーン検出器58は、50Hzから500Hzま
での範囲で数フレーム以上の持続時間を持つ一定周波数
のトーンの存在を検出する検出器である。中間円滑器5
6及び遅延された決定のトーン検出器58の出力は、決
定結合器60と結合され、ここてトン検出器58のトー
ン出力の決定Tか中間円滑器56の音声/トーン出力の
決定VTと一致するときには、音声の決定を遮断する決
定がなされる。The vOX algorithm uses a first level determining means 50, a second level determining means 52, and a third level determining means 54. The first rubel determining means 50 operates on overlapping frames of the signal and determines whether the frame is of the first category of vocalized speech or of the second category of unspoken speech, i.e. noise or silence. , evaluate whether it is. The algorithm of the first rubel determines whether the input frame is (1) uttered voice V or tone T, or (2) unvoiced 1X voice U or noise N or silence S. Using the pitch as an index of the first element 56 of the second level determining means 52
as a binary decision. No. 1 rubel determining means 50
also extracts the pitch information P and the extracted tone T
is applied to a delayed tone detector element 58 of the second level determining means 52. The first element 56 that receives the VT/UNS decision is an intermediate smoother 56, a nonlinear filter used to smooth the decision and pass decisions that exhibit sharp, consistent transitions. Delayed decision tone detector 58 is a detector that detects the presence of constant frequency tones having a duration of several frames or more in the range from 50 Hz to 500 Hz. Intermediate smoother 5
6 and the output of the tone detector 58 of the delayed decision is coupled to a decision combiner 60 where the tone output decision T of the tone detector 58 coincides with the voice/tone output decision VT of the intermediate smoother 56. A decision is made to block the audio decision.
第3レベル決定手段54は、数フレームにわたって動作
する。このため全ての第2のレベルの決定は決定記憶手
段(decision siorage meanS)
62に記憶され、第3レベルの決定に必要な遅延か与え
られる。この決定記憶手段は、各市なりあったフレーム
に対して音声である/音声でないという最終的な決定を
与える決定拡張/修正器(decision exte
nder/a+odifier)64と相互に動作する
。この決定拡張/修正器64は、誤った音声の検出であ
ることを示す極端に短い音声セグメントを削除すること
、及び発声されていない音声セグメントが発声された音
声セグメントに隣接している場合にこれかこの決定に含
まれるよう第2レベルの決定を拡張すること、短い無音
のギャップを埋めること、及び、ノ\ング・タイム遅延
(hang−time delay)を与えること、な
どを意図して設けられている。シンクロナイザ−66は
、FIFO18とVOXプロセッサ32との間で等しい
遅延か与えられることを確保するために用いられる。こ
のシンクロナイザー66は可変遅延回路22をコントロ
ールする。The third level determining means 54 operates over several frames. All second level decisions are therefore stored in a decision storage means.
62 to provide the necessary delay for the third level decision. This decision storage means includes a decision extender/modifier that provides a final speech/non-speech decision for each different frame.
der/a+odifier) 64. This decision extender/modifier 64 removes extremely short audio segments that indicate false audio detections and does this when an unspoken audio segment is adjacent to a vocal audio segment. It is intended to extend second-level decisions to be included in this decision, to fill short gaps of silence, and to provide a hang-time delay. ing. Synchronizer 66 is used to ensure that equal delays are provided between FIFO 18 and VOX processor 32. This synchronizer 66 controls the variable delay circuit 22.
第4図は、本発明の第ルベル決定手段50の詳しいブロ
ック線図を示している。この第ルベル決定手段50は、
オートコリレータ−(自己相関器’)(ACF)68、
ACF規格器(normalizer) 70 、ポジ
ティブ・ピーク検出器72、オーディオ信号検出器74
、第1ピーク決定プロセツサ76、第2ピーク決定プロ
セ・ソサ78、周期性検出器80、周期性関数プロセッ
サ81、選択された重み付は関数82,84、及び86
、乗算器88.90及び92、第1ピーク決定プロセツ
サ76と第2ピーク決定プロセツサ78と周期性関数プ
ロセッサ81とを積算する加算器(sullnier)
94、比較器96、及び決定結合器98からなる。FIG. 4 shows a detailed block diagram of the rubel determining means 50 of the present invention. This rubel determining means 50 is
Autocorrelator (autocorrelator') (ACF) 68,
ACF normalizer 70 , positive peak detector 72 , audio signal detector 74
, a first peak determination processor 76 , a second peak determination processor 78 , a periodicity detector 80 , a periodicity function processor 81 , selected weighting functions 82 , 84 , and 86
, multipliers 88, 90 and 92, an adder for integrating the first peak determination processor 76, the second peak determination processor 78, and the periodicity function processor 81.
94, a comparator 96, and a deterministic combiner 98.
この好ましい具体例の中に示したオートコリレータ−6
8は、プリプロセッサ20のフレーム・セグメンターか
ら、256サンプルから64サンプルに削減された32
ミリ秒の長さの重なりあったフレームを受け取り、最大
ラグと最小ラグとの間の規格化されていない自己相関関
数を計算し、得られる自己相関関数ACF (k)、k
−最小値、 ・最大値、をACF規格器70及びオー
ディオ信号検出器74に与える。ここで500Hzのハ
イピッチに対応する好ましい最小ラグは4てあり、50
Hzのローピッチに対応する好ましい最大ラグは40で
ある。ラグ、ゼロにおけるACF (ACF (0))
は、フレームエネルギーとして知られている。Autocorrelator-6 shown in this preferred embodiment
8 is 32 samples reduced from 256 samples to 64 samples from the frame segmenter of preprocessor 20.
Taking overlapping frames of millisecond length, we calculate the unnormalized autocorrelation function between the maximum and minimum lags, and the resulting autocorrelation function ACF (k), k
- the minimum value, and the maximum value are given to the ACF standardizer 70 and the audio signal detector 74; Here, the preferred minimum lag corresponding to a high pitch of 500Hz is 4, and 50
The preferred maximum lag corresponding to a low pitch of Hz is 40. Lag, ACF at zero (ACF (0))
is known as frame energy.
オーディオ信号検出器74は、パラメーター入力として
最小エネルギーレベル(12ビツトの信号の4〜5ビツ
ト)を用いて、フレームエネルギー(ACF (0))
におけるオーディオ信号かない状況を検出する。オーデ
ィオ信号があるかないかを示す信号は決定結合器98に
供給される。これは決定プロセスの中にお(1て信号レ
ベルが決定の基準となる唯一の段階である。The audio signal detector 74 uses the minimum energy level (4-5 bits of a 12-bit signal) as a parameter input to determine the frame energy (ACF (0)).
Detect situations where there is no audio signal. A signal indicating the presence or absence of an audio signal is provided to a decision combiner 98. This is the only stage in the decision process where the signal level is the basis for the decision.
ACF規格器70はオートコリレータ−68の出力信号
を受け取り、エネルギー及び包路線を規格化する。エネ
ルギーの規格化は、k=最小ラグ(min lag)か
らに−最大ラグ(max lag)までの規格化関数の
出力をフレーム・エネルギー)ACF (0)で割るこ
とによって行われる。ACF normalizer 70 receives the output signal of autocorrelator 68 and normalizes the energy and envelope. Normalization of the energy is performed by dividing the output of the normalization function from k = min lag to -max lag by the frame energy ACF (0).
包路線の規格化は、ACFに逆三角形のファクターを乗
算することによって行われ、これ(こよってACFの三
角形の包路線のロールオフ(r。The normalization of the envelope is done by multiplying the ACF by the inverted triangle factor, thus giving the roll-off (r) of the triangle envelope of the ACF.
for r)特性の代わりに、ACFに対する矩形の包
路線となる。for r) characteristic is replaced by a rectangular envelope for the ACF.
ポジティブ・ピーク検出器72は、規格化された閾値を
越えるピークを予め選択されtコ数tこけ検出し、そし
てACFの値及び各ピークのラグをより正確に計算する
。規格化された閾値の好ましい値は0.1から0.2ま
での範囲である。ACFの値及びラグを伴ったピークの
リストの形になっている出力は、第1ピーク決定プロセ
ツサ76、第2ピーク決定プロセツサ78、及び周期性
検出器80に供給される。The positive peak detector 72 detects a preselected number of peaks that exceed a standardized threshold, and more accurately calculates the value of the ACF and the lag of each peak. Preferred values for the normalized threshold range from 0.1 to 0.2. The output, in the form of a list of peaks with ACF values and lags, is provided to a first peak determination processor 76, a second peak determination processor 78, and a periodicity detector 80.
第1ピーク決定プロセツサ76は、入力として最大値の
ACFピークを受け取り、この値か予め選択された信号
中のピッチの存在を示す閾値PIMAX−Tを越えたな
らば、肯定的な決定ヲ出力する。PIMAXの種々のレ
ベルてのピッチの存在の可能性を反映するために、非線
形関数が適用される。PIMAX−Tの代表的な値は、
0.4から0.6であり、この値か減少すると音声及び
誤りの警報を検出する可能性か高くなる。A first peak decision processor 76 receives as input the maximum value of the ACF peak and outputs a positive decision if this value exceeds a threshold PIMAX-T indicating the presence of a pitch in the preselected signal. . A non-linear function is applied to reflect the possible presence of pitch at different levels of PIMAX. Typical values for PIMAX-T are:
It ranges from 0.4 to 0.6, and as this value decreases, the probability of detecting audio and false alarms increases.
第2ピーク決定プロセツサ78は、その入力として2番
目に高いACFピークを受け取り、0.35から0.5
5までの値、すなわち第2のACFピークに対する閾値
であるP2MAXTを閾値として使用すること以外は、
第1ピーク決定プロセツサ76と等しい非線形関数であ
る。A second peak determination processor 78 receives as its input the second highest ACF peak and has a value between 0.35 and 0.5.
5, i.e. the threshold for the second ACF peak, except that P2MAXT is used as the threshold.
It is a non-linear function equal to the first peak determination processor 76.
周期性検出器80は、ACFピークの周期性を確認する
。発音されたフレームに対して、ACFピークのラグは
、ピッチの周期に対応して最初の要素であるゼロ及び一
連の要素間の差を伴う算術的なシーケンスを形成する。Periodicity detector 80 confirms the periodicity of the ACF peak. For a pronounced frame, the lag of the ACF peaks forms an arithmetic sequence with the first element, zero, and the difference between successive elements corresponding to the pitch period.
許容されるラグは理想的なシーケンスと検出されたシー
ケンスとの差を補う。周期性検出器80は出力として、
以下の値を与える= (1)最大のラグを第1ピークの
遅延で割ることによって計算される理論的なピークの数
(TNPKS) ; (2)近似的な算術シーケン
スを形成する実際のピークの数(ラグかないときのピー
ク以下) (ANPKS)(3)ピッチ周期の評価又は
シーケンスの差。The allowed lag compensates for the difference between the ideal sequence and the detected sequence. The periodicity detector 80 has as an output:
Give the following values = (1) the theoretical number of peaks (TNPKS) calculated by dividing the maximum lag by the delay of the first peak; (2) the number of actual peaks forming an approximate arithmetic sequence; number (below the peak when there is no lag) (ANPKS) (3) Pitch period evaluation or sequence difference.
このピッチ周期の評価は、第2レベル決定手段52のピ
ッチ−成性検出器(pitch consistenc
ydetector) ()−ン検出器)に送られ、他
の値は周期性決定プロセッサ81に供給される。This evaluation of the pitch period is performed by a pitch consistency detector (pitch consistency detector) of the second level determining means 52.
ydetector) ()-n detector), and other values are provided to the periodicity determination processor 81.
周期性決定プロセッサ81は、上記出力バラメーターを
受け取り、受け取られる信号が周期的である確率を示す
ルックアップ・テーブルからそれぞれの結合に値を割り
当てる。これらの値は主として周期性検出器80に対し
て紅験的に補正されるものなので、この好ましい具体例
では特定のアルゴリズムは与えられていない。A periodicity determination processor 81 receives the output parameters and assigns a value to each combination from a look-up table indicating the probability that the received signal is periodic. Since these values are primarily empirically corrected for periodicity detector 80, no specific algorithm is provided in this preferred embodiment.
各決定プロセッサ76.78.81の出力は、発声され
たセグメントまたはトーン(ピッチ)が検出された可能
性を示す確定的でない決定(Sof’t decisi
on)である。結果的に得られた決定の適応性(f 1
exjbi I 1ty)を高めるために、各確定的で
ない決定に関連して重み付は係数(weighting
coefricient) 82 、84 、86が
設けてあり、これらはそれぞれ乗算器88.90.92
により乗算することによって確定的でない決定の値に重
み付けをする。このそれぞれの出力は加算器94によっ
て加算され、閾値か好ましくはセロに設定された比較器
96に供給される。The output of each decision processor 76.78.81 is a non-deterministic decision indicating the probability that an uttered segment or tone (pitch) has been detected.
on). The fitness of the resulting decision (f 1
In order to increase exjbi I 1ty, a weighting factor (weighting
coefricient) 82, 84, 86 are provided, which are multipliers 88, 90, 92, respectively.
Weight the values of non-deterministic decisions by multiplying by . The respective outputs are summed by an adder 94 and provided to a comparator 96 which is set to a threshold value, preferably zero.
したかって、この結果か肯定的であれば、信号中のピッ
チの存在が示される。A positive result thus indicates the presence of pitch in the signal.
第ルベルの決定の最後の段階は、決定結合器98である
。これはピッチの決定を信号検出器74のオーディオ信
号があるかどうかの決定(audio/no au旧□
deCiston)と結合するOもしもオーディオ信
号かなかったならば、そのときは加算器94の全出力か
あったとしても、第三レベル決定手段54の出力はDN
S (音声又はトーンかない)である。しかし、ピッチ
評価たけてなくVT/UNSの決定も、第2レヘル決定
プロセツサ52へ送られる。The final step in determining the second level is the decision combiner 98. This determines the pitch and determines whether there is an audio signal in the signal detector 74 (audio/no au old □
If there is no audio signal, then even if there is a full output of the adder 94, the output of the third level determining means 54 will be DN
S (no voice or tone). However, if the pitch evaluation is not successful, the VT/UNS determination is also sent to the second level determination processor 52.
再び第3図を参照すると、第2レベル決定手段52の主
要な素子か示されている。中間円滑器56はこの前の第
ルベルの決定の与えられた奇数を見て、二つの状態のう
ちどちらが多いかを決定する。これはその出力として第
2レベル決定の前もって与えられた奇数か多数の状態を
示す。したがって、雑音によって誘発される短期間の遷
移を削除するよう動作する。この種の中間円滑器は、ラ
ビナー(L、R,Rabiner)とシエイファ−(R
,W、5chafer)の「音声信号のディジタル処理
J 1978年(前掲)の158−161頁に書かれて
いるものと同しものである。Referring again to FIG. 3, the major elements of second level determining means 52 are shown. Intermediate smoother 56 looks at the given odd number of previous rubel decisions and determines which of the two states is more common. It shows as its output the pre-given odd or multiple state of the second level decision. Therefore, it operates to eliminate short duration transitions induced by noise. Intermediate smoothers of this type include Rabiner (L, R, Rabiner) and Schafer (R).
, W., 5chafer), ``Digital Processing of Audio Signals J, 1978 (cited above), pp. 158-161.
ピッチの評価は、トーン検出器58、より正確にいえば
、パラメーター入力として一致性の許容量及びウィンド
ウの幅を持つピッチ−散性検出器58に供給される。こ
のピッチの評価が、所定の最小トーン持続時間よりも長
い持続時間について一致性許容量の範囲内にあれば、ト
ーンか存在するとの決定Tが決定結合器に発せられる。The pitch estimate is fed to a tone detector 58, more precisely to a pitch-dispersion detector 58, which has the consistency tolerance and the window width as parameter inputs. If this pitch estimate is within a consistency tolerance for a duration greater than a predetermined minimum tone duration, a decision T that a tone is present is issued to the decision combiner.
第2レベル決定手段52の決定結合器60は、中間円滑
器56の円滑化された出力とトーン検出器のトーンの決
定Tとを結合して、その信号が発声された信号V又は発
声されず、雑音又は無音(DNS)であることを示す信
号を、トーンを含むフレームを抑制して生成する。この
■/UNSの決定は、第3レベル決定手段54の決定記
憶手段62に与えられ、ここで音声セグメント・レベル
の決定が行われる。A decision combiner 60 of the second level decision means 52 combines the smoothed output of the intermediate smoother 56 and the tone determination T of the tone detector to determine whether the signal is voiced or unvoiced. , a signal indicating noise or silence (DNS) is generated by suppressing frames containing tones. This determination of ■/UNS is provided to the decision storage means 62 of the third level determination means 54, where the determination of the audio segment level is made.
第5図には、決定記憶手段62、決定拡張/修正器64
を有する第三レベル決定手段54の一部が示しである。FIG. 5 shows a decision storage means 62, a decision expansion/modifier 64
A portion of the third level determining means 54 having the following is shown.
前に説明したように、全てのフレームの決定は、−周期
の期間にわたって決定記憶手段62にキャッチされ記憶
される。As explained earlier, the decisions of all frames are caught and stored in the decision storage means 62 for a period of -periods.
いくつかの音声セグメント・レベルの決定プロセスは、
累算されたデータにおいて行われる。Some audio segment level decision processes are:
This is done on accumulated data.
最初の短音声セグメント・テスター100は、UNS決
定に対して持続時間が予め選択された最小値kVよりも
短い全てのVセグメントを削除し又は変更するために設
けられている。The first short speech segment tester 100 is provided to delete or modify all V-segments whose duration is less than a preselected minimum kV for UNS determination.
初期後方拡張器(initial backward
extensi。initial backward dilator
extensi.
nHO2及び最終後方拡張器(final backw
ardextension) 104は、全ての音声の
決定Vの時間における後方への拡張をテストするために
設けられている。この目的は、音声のあるセグメントに
、これに関連する音声であるとの決定として通過させる
べき先の音声のないセグメントを含めることである。代
表的な拡張は5がら10フレームである。(初期後方拡
張時間及び最終後方拡張時間の合計は時間の遅延に直接
的な影響を与えるので、VoXのハングを短くすること
を望む場合には、時間か長くならないよう注意する必要
がある。)
初期前方拡張器106及び最終前方拡張器108は、全
ての音声セグメントVの時間における前方への拡張をテ
ストするために設けられている。この目的は、音声のあ
るセグメントに、これに関連する音声であるとの決定と
して通過させるべき後に続く音声のないセグメントを含
めること、及び限定された量のハングをワードとセンテ
ンスの間に与えることである。初期前方拡張パラメータ
ーの代表的な値は、5フレームである。(前方への拡張
はVOXの時間遅延には直接の影響を与えない。)
ショート・サイレンス・インターバル(短い無音間隔)
テスター110は、予め選択された長さkSよりも短い
無音間隔を、音声があるとの決定Vに変換するために設
けられている。nHO2 and final back dilator
ardextension) 104 is provided to test the backward extension in time of every voice decision V. The purpose is for a segment of audio to include a segment without audio to which it should be passed as a determination of its associated audio. A typical extension is 5 to 10 frames. (The sum of the initial backward expansion time and the final backward expansion time has a direct impact on the time delay, so care must be taken not to increase the time if you wish to shorten VoX hangs.) An initial forward dilator 106 and a final forward dilator 108 are provided to test the temporal forward expansion of all voice segments V. The purpose is to include a segment of speech with a following segment of speech that should be passed as a determination of its associated speech, and to provide a limited amount of hang between words and sentences. It is. A typical value for the initial forward expansion parameter is 5 frames. (Forward extension has no direct effect on VOX time delay.) Short Silence Interval.
The tester 110 is provided to convert silence intervals shorter than a preselected length kS into a determination V that there is speech.
最終後方拡張器104は、代表的には、ゼロから15フ
レームまでに設定される。パラメーターは、許容される
全体の時間の遅延に基づいて選択される。The final rear dilator 104 is typically set from zero to 15 frames. Parameters are selected based on the total time delay allowed.
最終前方拡張器108は最小で10フレームに設定され
、検出された音声の後に続く音声でないフレームを含む
ようにする。この最大値は使用可能なメモリのみによっ
て制限される。The final forward dilator 108 is set to a minimum of 10 frames to include the non-speech frames that follow the detected speech. This maximum value is limited only by available memory.
500ミリ秒から3秒までの値であれば、予想される応
用において十分であると考えられる。Values from 500 milliseconds to 3 seconds are considered sufficient for anticipated applications.
本発明の理解を助けるために、特定の具体例のフローチ
ャートを第6図(A)〜(D)に示す。このプロセスの
ステップ毎の説明を以下に示す。To aid in understanding the invention, flowcharts of specific embodiments are shown in FIGS. 6A-6D. A step-by-step explanation of this process is provided below.
201.202,203,204:これはサンプリング
及び低域濾波のブロックである。201.202, 203, 204: This is the sampling and low-pass filtering block.
205.206,207:別の128サンプルか累算さ
れたときには、新たな256個の50%重なりあったフ
レームが形成される。205, 206, 207: When another 128 samples are accumulated, a new 256 50% overlapping frame is formed.
208 209.210,211+中央部のクリッピン
グ
212:フレーム当り64個の削減されたサンプルにつ
いて自己相関関数(DACF)を計算する。ラグ(la
g)は〔最小ラグ〕から〔最大ラグ〕まで変化する。208 209. 210, 211 + central clipping 212: Compute the autocorrelation function (DACF) for 64 reduced samples per frame. Rug (la)
g) varies from [minimum lag] to [maximum lag].
213:ラグか0のDACFはフレームエネルギーであ
る。213: DACF with lag or 0 is frame energy.
214:フレームエネルギーを閾値と比較してオーディ
オがあるか/オーディオがないかという決定をする。214: Compare the frame energy with a threshold to make an audio/no audio decision.
215+DACFをフレームエネルギーによって規格化
する。215+DACF is normalized by frame energy.
216.217:ラグか増加すると合計の中に含まれる
項か少ないので、A、CFは三角形の包絡線を持ってい
る。従って、DACFはこの包絡線によって分割される
。この結果得られる関数1;i N D A CF 色
指定さレル。NDACF (0)−1゜
218:l:”−りとは、隣あった二つの点よりも大き
い点である。閾値を越えるピークのみが考慮され、閾値
を越える最初のn個のピークだけが考慮される。216.217: As the lag increases, fewer terms are included in the sum, so A and CF have triangular envelopes. Therefore, the DACF is divided by this envelope. The resulting function 1; i NDA CF color specified. NDACF (0)-1゜218:l:"- is a point that is greater than two adjacent points. Only peaks that exceed the threshold are considered, and only the first n peaks that exceed the threshold be considered.
219〜227:これはループである。この目的は、2
18て検出された全てのピークの正確なラグと値を見い
たすことである。最も高い3つのピークに垂直放物線を
合わせる。放物線の対称軸のラグかピークのラグの近似
を与える。219-227: This is a loop. This purpose is 2
18 to find the exact lag and value of all detected peaks. Fit the vertical parabola to the three highest peaks. Gives an approximation to the lag of the axis of symmetry or the lag of the peak of the parabola.
そしてフレームの256個のサンプル全てを使用してA
CFが再び計算され、より正確な値を得る。このACF
はUDACFと指定され、ピークの近似された位置の回
りで計算される。モしてUDACFは、DACFか規格
化されたのと同じ方法で規格化され、NUDACFとな
る。and using all 256 samples of the frame
CF is calculated again to obtain a more accurate value. This ACF
is designated UDACF and is calculated around the approximated position of the peak. Therefore, UDACF is standardized in the same way that DACF was standardized, and becomes NUDACF.
最終的に、各ピークの正確な位置と値か記憶される。Finally, the exact location and value of each peak is memorized.
228:PIMAXは最も高いNUDACFのピークの
値で、P2MAXは次に高いNUDACFのピークの値
である。228: PIMAX is the highest NUDACF peak value and P2MAX is the next highest NUDACF peak value.
229:このブロックの目的は、いくつかのピークの位
置がシーケンスの最初のエレメントであるゼロを持った
算術シーケンスにどの(らい近いかを計ることである。229: The purpose of this block is to measure how close the positions of some peaks are to an arithmetic sequence with zero being the first element of the sequence.
手続は以下のようにして行う。The procedure is as follows.
最初のピーク、すなわち最小のラグを持ったものか選択
される。The first peak, i.e. the one with the minimum lag, is selected.
このラグはここで、算術シーケンスの差と考えられ、D
と指定される。This lag can now be considered as the difference in the arithmetic sequence, D
is specified.
ラグ2*D±〔周期性の許容量〕にピークがあるか?
もしもNoであれば、最初のピークに対応する最も長い
シーケンスは1である。Is there a peak in lag 2*D± [periodicity tolerance]? If No, the longest sequence corresponding to the first peak is 1.
もしもYESであれば、ラグ3*D(許容量の範囲内で
)に別のピークがあるか?
NOであれば、最初のピークに対応する最も長いシーケ
ンスは2である。If YES, is there another peak at lag 3*D (within tolerance)? If NO, the longest sequence corresponding to the first peak is 2.
YESであれば、4*Dにおいて他のピークがあるか・
このようにして最初のピークに対応する最も長いシ
ーケンスの長さか決定されるまで行う。If YES, are there other peaks in 4*D?
This process is continued until the length of the longest sequence corresponding to the first peak is determined.
第2のピークを選択し、上記の手続を繰り返して第2の
ピークに対応する最も長いシーケンスの長さを決定する
。Select a second peak and repeat the above procedure to determine the length of the longest sequence corresponding to the second peak.
同様にして、これに続くピークに対応する最も長いシー
ケンスの長さを決定する。Similarly, determine the length of the longest sequence corresponding to the following peak.
最も長いシーケンスの長さを記憶する。Remember the length of the longest sequence.
230・ 〔ピッチ〕は、全ての最も長いシーケンスの
中の最も長いものの差として定義される。230. Pitch is defined as the difference between the longest of all longest sequences.
〔周期性インデックス〕は、任意のピークに対応する最
も長いシーケンスの全ての中で最も長いシーケンスの長
さである。[Periodicity Index] is the length of the longest sequence among all the longest sequences corresponding to any peak.
232:ピークの理論的な数[T N P O)とは、
フレームか〔ピッチ〕の基本波周波数を持った完全に周
期的な波形である場合に、存在すべきピークの数であり
、ACFは〔最大ラグ〉〕の最大のラグによって計算さ
れる。232: The theoretical number of peaks [T N P O) is
This is the number of peaks that should exist in the case of a completely periodic waveform with a fundamental frequency of frame [pitch], and ACF is calculated by the maximum lag of [maximum lag].
233.234,235:PIMAX、P2MAX、T
NPO及び周期性インデックスを用いて表が調べられる
。周期性ソフト決定関数の表は2次元である。233.234,235: PIMAX, P2MAX, T
The table is examined using the NPO and the periodicity index. The table of periodic soft decision functions is two-dimensional.
236:重みはアルゴリズムのパラメーターである。こ
れらの値は特定の応用について最適なものとされる。236: Weights are parameters of the algorithm. These values are optimized for a particular application.
237・
239:これ以降、各フレームはビットによって表され
、z;tv、T、oはu、 N又は5t−i味する。K
VOXと呼ばれるこのようなビットの無限の列がある。237/239: From now on, each frame is represented by a bit, where z; tv, T, o means u, N or 5t-i. K
There is an infinite string of such bits called VOX.
これはソフトウェアの中に循環的な(cyclic)な
バッファとして設けられている。This is provided as a cyclic buffer in the software.
240.241.242:このブロックは中間円滑化機
能を果たす。中間円滑器の出力は新しいビット列LVO
Xに記憶される。処理された決定を同じ列にてはなく新
しいビット列に記憶する理由は、単に次の中間円滑化ウ
ィンドウに対する未処理決定を保存するためである。240.241.242: This block performs an intermediate smoothing function. The output of the intermediate smoother is the new bit string LVO
Stored in X. The reason for storing processed decisions in a new bit string rather than in the same column is simply to save the unprocessed decisions for the next intermediate smoothing window.
このブロックはトーン検出器である。This block is a tone detector.
244.245,246.247:このブロックは短す
ぎる発声セグメントを除去する。1から0への遷移かL
VOX (すなわち中間円滑化された決定)か検出され
たときには(244)、前の(KV)ビットか0から1
への遷移についてスキャンされ(245) もし一つ
あれば、その発声セグメントは短すぎ、従って遷移の間
の1を0に修正することによって削除する(247)。244.245, 246.247: This block removes speech segments that are too short. Transition from 1 to 0 or L
When a VOX (i.e. intermediate smoothed decision) is detected (244), the previous (KV) bits or 0 to 1
is scanned for transitions to (245) and if there is one, the utterance segment is too short and is therefore deleted by modifying the 1's to 0's during the transition (247).
もしこのような遷移かなければ、発声セグメントは十分
長く、従ってC246)ビット列M V OXにコピー
されたあと、前方に[IFE)+ CFFEIフレーム
たけ拡張される。If there is no such transition, the utterance segment is long enough so that it is extended forward [IFE)+CFFEI frames after being copied into C246) bit stream M V OX.
248 249:このブロックは、正確に(KV〕 “
1“隣接ビットか累算される場合を検出し、“1“を後
方に初期の後方拡張である〔IBE)たけ拡張する。248 249: This block is exactly (KV) “
Detect the case where 1" adjacent bits are accumulated and extend "1" backward by the initial backward extension [IBE].
250.251 :このブロックは短すぎる無音セグメ
ントを削除する。250.251: This block removes silent segments that are too short.
252:このブロックは、最終後方拡張(FBE)を行
う。MVOXはN V OX l:対し70Rされ、N
VOXは削除される音声または削除される無音のブロッ
クによって演算されることに注意する。この手続によっ
て最終拡張か消去されないことが保証される。252: This block performs final backward extension (FBE). MVOX is 70R for N V OX l:
Note that VOX is computed by blocks of deleted audio or deleted silence. This procedure ensures that the final expansion is not erased.
261、最終的な決定は、ビット列NVOXに基づいて
出力される。261, the final decision is output based on the bit string NVOX.
以上、本発明を特定の具体例をコ照しつつ説明した。こ
の他の具体例、例えばノ1−ドウエアによって実現した
もの、又は別のプログラムされた、またはソフトウェア
の形として実現したものも、この技術の当業者にとって
は明らかであろう。したかって、添付された特許請求の
範囲のものを例外として、本発明を限定することを意図
するものではない。The present invention has been described above with reference to specific examples. Other embodiments, such as those implemented by hardware or in other programmed or software forms, will be apparent to those skilled in the art. Accordingly, it is not intended that the invention be limited, except as in the scope of the appended claims.
第1図は本発明の音声操作式スイッチング手段を用いた
装置のブロック線図、第2図は本発明のプリプロセッサ
のブロック線図、第3図は本発明のvOXプロセッサの
ブロック線図、第4図は本発明の第3レベル決定手段の
詳しいブロック線図、第5図は本発明の第3レベル決定
手段のブロック線図、第6図(A)乃至(D)は本発明
のプロセスの一実施例を示すフローチャートである。FIG. 1 is a block diagram of a device using voice-operated switching means of the present invention, FIG. 2 is a block diagram of a preprocessor of the present invention, FIG. 3 is a block diagram of a vOX processor of the present invention, and FIG. The figure is a detailed block diagram of the third level determining means of the present invention, FIG. 5 is a block diagram of the third level determining means of the present invention, and FIGS. 6(A) to (D) are part of the process of the present invention. It is a flow chart showing an example.
Claims (13)
し、そしてクリッピングして、ディジタル化され、濾波
され、そしてクリップされた信号を得; その後クリップされた信号をオートコリレートして、多
数のフレームのそれぞれに対して自己相関関数ACFを
得;その後、 1)下記調査ステップ、即ち最も高いACFのピークの
振幅を決定し; 次に高いACFのピークの振幅を決定し; 前記多数のフレームの各々の中で、振幅が予め決められ
た閾値を越えるACFピークの周期性を決定し、決定さ
れた周期性を有するACFピークがいくつ検出されたか
を記憶し;そして最も高いACFピークと次に高いAC
Fピークの振幅の非線形関数の重み付けされた加算、及
び決定された周期性を有する検出されたACFピークの
数に基づいて、ピッチがあるかピッチがないかの決定を
与えるステップ からなる調査ステップによって、ピッチを示すピークの
存在について前記多数のフレームのそれぞれの前記AC
Fを調べて、前記多数のフレームのそれぞれについてピ
ッチがあるかピッチがないかの決定を得;そして、 2)前記フレーム内のトーンを検出するために前記多数
のフレームのそれぞれの前記ACFを分析して、そのフ
レームについてトーンがあるかトーンがないかの決定を
得;そして前記フレームについて音声があるか音声がな
いかの決定を行い、トーンがないとの決定とピッチがあ
るとの決定との一致に基づいて音声があるとの決定を行
う; という各ステップからなる、時間によって不変の多数の
フレームのそれぞれにおいてオーディオ信号中に音声が
あることを示す方法。(1) Digitize, low-pass filter, and clip the input audio signal to obtain a digitized, filtered, and clipped signal; then autocorrelate the clipped signal to produce a large number of frames. Obtain the autocorrelation function ACF for each of the multiple frames; then: 1) determine the amplitude of the highest ACF peak; determine the amplitude of the next highest ACF peak; and then perform the following investigation steps: determine the periodicity of the ACF peaks whose amplitude exceeds a predetermined threshold, memorize how many ACF peaks with the determined periodicity are detected; and identify the highest ACF peak and the next highest
by a probing step consisting of a weighted addition of a non-linear function of the amplitudes of the F peaks and a step of providing a pitch or no pitch determination based on the number of detected ACF peaks with the determined periodicity; , the AC of each of the plurality of frames for the presence of a peak indicative of pitch.
F to obtain a pitch or no pitch determination for each of the multiple frames; and 2) analyzing the ACF of each of the multiple frames to detect tones within the frame. and obtain a tone or no tone determination for the frame; and make a voice or no voice determination for the frame, and determine a toneless determination and a pitch determination. A method for indicating the presence of speech in an audio signal in each of a number of time-invariant frames, comprising the steps of: making a determination of the presence of speech based on a match of the signals;
フレームを互いに重なるように分割するというステップ
を含む請求項1記載の方法。2. The method of claim 1, further comprising the step of: (2) after said digitizing step, dividing said frames into overlapping parts.
フレーム及び2番目の3分の1のフレームにおいて生じ
る濾波された信号の最も高い二つのピークのうちの低い
方に関連して適合的にクリッピングレベルを設定するこ
とを含む請求項1記載の方法。(3) said clipping step is adapted in relation to the lower of the two highest peaks of the filtered signal occurring in the first third of frames and the second third of frames; 2. The method of claim 1, including setting a clipping level to .
相関関数の規格化を含む請求項1記載の方法。(4) The method of claim 1, wherein the autocorrelation step includes normalizing the autocorrelation function.
番目に高いACFピークを含む前記ACFピークを比較
する動作からなり、前記最も高いACFピークを第1の
閾値と比較して、ピッチの決定の第1の可能性に対応す
る予備的な定量的値を得、そして前記2番目に高いAC
Fピークを第2の閾値と比較して、ピッチの決定の第2
の可能性に対応する予備的な定量的値を得る請求項4記
載の方法。(5) The investigation step includes the highest ACF peak and 2
a preliminary quantitative value corresponding to a first possibility of pitch determination, comprising an act of comparing said ACF peaks including a second highest ACF peak, said highest ACF peak to a first threshold; and said second highest AC
A second step in determining pitch by comparing the F peak with a second threshold.
5. The method according to claim 4, wherein preliminary quantitative values are obtained corresponding to the probability of .
Fピークの間のラグ(ずれ)の一致性をチェックし、前
記ACFのピッチの評価を引き出すことからなる請求項
5記載の方法。(6) The analysis step includes AC
6. The method of claim 5, comprising checking the consistency of lags between F-peaks and deriving an estimate of the pitch of the ACF.
プに適用するために多数のフレームにわたって一致した
トーンを検出することを含む請求項6記載の方法。7. The method of claim 6, wherein the step of analyzing further comprises detecting matched tones across multiple frames for application to the step of making a determination.
るという決定とピッチがないという決定との間の過剰な
遷移を抑制するために、多数のフレームにわたって、予
備的なピッチがある/ピッチがないという決定を平滑化
するステップを更に含む請求項1記載の方法。(8) Prior to the step of making said decision, there is a preliminary pitch/no pitch over a number of frames to suppress excessive transitions between the decision that there is a pitch and the decision that there is no pitch. 2. The method of claim 1, further comprising the step of smoothing the determination.
る/音声がないという決定を記憶して、音声セグメント
レベルの決定を生成するステップ、及び発声された音声
の前及び後の発声されてない音声を含むよう、十分な持
続時間の音声セグメントレベルの決定を生成するステッ
プを更に含む請求項1記載の方法。(9) storing a large number of voice/no voice determinations to perform a sufficient number of accumulations to generate voice segment level decisions, and utterances before and after the voiced voice; 2. The method of claim 1, further comprising the step of generating audio segment level determinations of sufficient duration to include unused audio.
ームを濾波するよう結合されたディジタル低域フィルタ
ー及びクリップ手段; 前記オーディオ信号の多数の前記フレームのそれぞれに
ついて自己相関関数(ACF)を得るために、前記フィ
ルター及びクリップ手段によって処理された信号を受け
取るよう結合された手段; 前記オーディオ入力信号の前記各フレーム内にピッチの
存在を示すピークを検出するために前記自己相関関数を
処理するよう結合された手段であつて、 最も高いACFピークの振幅を決定するための第1のピ
ーク決定プロセッサ; 2番目に高いACFピークの振幅を決定するための第2
のピーク決定プロセッサ、および;前記多数のフレーム
のそれぞれの中の、予め決められた閾値を越える振幅を
有するACFピークの周期性を決定し、決定された周期
性を持つACFピークが幾つ検出されたかを記録し、最
も高いACFピークと次に高いACFピークの振幅の非
線形関数の重み付けされた加算、及び決定された周期性
を持つ検出されたACFピークの数に基づいて、ピッチ
がある/ピッチがないという決定を与える周期性ディテ
クターからなる処理手段; 前記多数のフレームのそれぞれの前記ACFを分析して
、前記多数のフレームのそれぞれのトーンを検出し、前
記フレームについてトーンがある/トーンがないという
決定を得る手段;前記オーディオ入力信号にピッチとト
ーンの存在を検出するために、前記自己相関関数を処理
するよう結合された自己相関関数周期性検出手段;およ
び トーンがないという決定及びピッチがあるという決定の
ときに発声された音声の存在を示すために、ピッチがあ
る/ピッチがないという決定及びトーンがある/トーン
がないという決定を受け取るよう結合された決定結合手
段; からなるオーディオ信号中に音声の存在を示す装置。(10) digital low-pass filter and clipping means coupled to filter time-invariant frames of the audio input signal; means coupled to receive the signal processed by the filter and clipping means; means coupled to process the autocorrelation function to detect peaks indicative of the presence of pitch within each frame of the audio input signal; a first peak determination processor for determining the amplitude of the highest ACF peak; a second peak determination processor for determining the amplitude of the second highest ACF peak;
a peak determination processor; and; determining the periodicity of an ACF peak having an amplitude exceeding a predetermined threshold in each of the plurality of frames, and determining how many ACF peaks having the determined periodicity are detected. and based on a weighted addition of a non-linear function of the amplitudes of the highest and next highest ACF peaks, and the number of detected ACF peaks with the determined periodicity, pitch is/is pitched. processing means comprising a periodicity detector for providing a determination that there is no tone; analyzing the ACF of each of the plurality of frames to detect the tone of each of the plurality of frames; means for obtaining a determination; autocorrelation function periodicity detection means coupled to process the autocorrelation function to detect the presence of pitch and tone in the audio input signal; and a determination that there is no tone and pitch. decision combining means coupled to receive a pitch/no pitch determination and a tone/no tone determination to indicate the presence of uttered speech when the decision is made; A device that indicates the presence of audio.
の存在を示す前記決定結合手段の出力に応答する音声セ
グメントレベル決定手段を含み、前記音声セグメントレ
ベル決定手段は、十分な数のフレームを捕らえて処理し
音声セグメントレベルの決定を生成する手段を含み、初
期後方拡張手段、初期前方拡張手段、最終後方拡張手段
、最終前方拡張手段、短い発声セグメントテスト手段、
及び短い無音間隔テスト手段を含み、前記拡張手段及び
テスト手段は、発声されてない音声及びワード間のギャ
ップを含むよう前記音声セグメントレベル決定手段のタ
イムベースを拡張する請求項10記載の装置。(11) further comprising audio segment level determining means responsive to an output of said determining and combining means indicating the presence of uttered audio in a given frame, said audio segment level determining means being configured to select a sufficient number of frames; means for capturing and processing to produce speech segment level determinations, initial backward extension means, initial forward extension means, final backward extension means, final forward extension means, short speech segment testing means;
and short silence interval testing means, said extending means and testing means extending the time base of said speech segment level determining means to include unspoken speech and gaps between words.
応する音声セグメントと同期させる手段を含む請求項1
1記載の装置。(12) Claim 1 further comprising means for synchronizing said audio segment level determining means with a corresponding audio segment.
1. The device according to 1.
レームに分割する手段を含む請求項10記載の装置。(13) The apparatus according to claim 10, further comprising means for dividing the frame into frames that temporally overlap with each other.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2206921A JPH0490599A (en) | 1990-08-06 | 1990-08-06 | Aural operation type switch |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2206921A JPH0490599A (en) | 1990-08-06 | 1990-08-06 | Aural operation type switch |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0490599A true JPH0490599A (en) | 1992-03-24 |
Family
ID=16531288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2206921A Pending JPH0490599A (en) | 1990-08-06 | 1990-08-06 | Aural operation type switch |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0490599A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001069597A (en) * | 1999-06-22 | 2001-03-16 | Yamaha Corp | Voice-processing method and device |
JP2005189518A (en) * | 2003-12-25 | 2005-07-14 | Ntt Docomo Inc | Voiced/voiceless judgment apparatus and voiced/voiceless judgment method |
-
1990
- 1990-08-06 JP JP2206921A patent/JPH0490599A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001069597A (en) * | 1999-06-22 | 2001-03-16 | Yamaha Corp | Voice-processing method and device |
JP2005189518A (en) * | 2003-12-25 | 2005-07-14 | Ntt Docomo Inc | Voiced/voiceless judgment apparatus and voiced/voiceless judgment method |
JP4490090B2 (en) * | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | Sound / silence determination device and sound / silence determination method |
US8442817B2 (en) | 2003-12-25 | 2013-05-14 | Ntt Docomo, Inc. | Apparatus and method for voice activity detection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4959865A (en) | A method for indicating the presence of speech in an audio signal | |
US5054085A (en) | Preprocessing system for speech recognition | |
KR100455225B1 (en) | Method and apparatus for adding hangover frames to a plurality of frames encoded by a vocoder | |
JP3321156B2 (en) | Voice operation characteristics detection | |
KR100870502B1 (en) | Method and device for speech enhancement in the presence of background noise | |
US8165880B2 (en) | Speech end-pointer | |
US4630304A (en) | Automatic background noise estimator for a noise suppression system | |
JP4222951B2 (en) | Voice communication system and method for handling lost frames | |
EP0054365B1 (en) | Speech recognition systems | |
KR970001166B1 (en) | Speech processing method and apparatus | |
KR20040075787A (en) | System for suppressing wind noise | |
JP2005534950A (en) | Method and apparatus for efficient frame loss concealment in speech codec based on linear prediction | |
US6640208B1 (en) | Voiced/unvoiced speech classifier | |
JPH08160997A (en) | Method for determining pitch of speech and speech transmitting system | |
JPH08505715A (en) | Discrimination between stationary and nonstationary signals | |
US5430826A (en) | Voice-activated switch | |
JPH10504695A (en) | Test method | |
US5706392A (en) | Perceptual speech coder and method | |
WO2001029821A1 (en) | Method for utilizing validity constraints in a speech endpoint detector | |
RU2127912C1 (en) | Method for detection and encoding and/or decoding of stationary background sounds and device for detection and encoding and/or decoding of stationary background sounds | |
O'Shaughnessy | Enhancing speech degrated by additive noise or interfering speakers | |
EP0248593A1 (en) | Preprocessing system for speech recognition | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
JPH0490599A (en) | Aural operation type switch | |
JPH08221097A (en) | Detection method of audio component |