JPH08221097A - 音声成分の検出法 - Google Patents
音声成分の検出法Info
- Publication number
- JPH08221097A JPH08221097A JP7304462A JP30446295A JPH08221097A JP H08221097 A JPH08221097 A JP H08221097A JP 7304462 A JP7304462 A JP 7304462A JP 30446295 A JP30446295 A JP 30446295A JP H08221097 A JPH08221097 A JP H08221097A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- autocorrelation
- signal
- norm
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 16
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001645095 Parisis Species 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Cosmetics (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
供する、音声成分検出の技法を提案する。 【解決手段】 信号の自己相関係数を計算する手段と、
成分が自己相関係数の第1のシリーズから成る第1の自
己相関ベクトルを識別する手段と、成分が既定オフセッ
ト値だけ前記第1のシリーズからオフセットされた自己
相関係数の第2のシリーズから成る第2の自己相関ベク
トルを識別する手段と、差分ベクトルを得るために、前
記第2の自己相関ベクトルから前記第1の自己相関ベク
トルを引く手段と、音声成分の第1のインディケータを
表す、前記差分ベクトルのノルムを計算する手段とを含
む、可聴信号における音声成分を検出する装置。
Description
ignal)における音声成分(voice activity)の検出に関す
る。
号においては、ときとして、その信号が音声を含むかま
たはその信号がノイズだけから成っているかを判定する
必要が生じる。
特定の処理を決定するために使用されることが多い。音
声信号が存在する場合に起動する必要のある典型的な用
途には、音声認識、エコー削除、またもちろん録音も含
まれる。
において、可聴信号が使用される場合は、信号がノイズ
だけから構成されていれば伝送を中止するのが、今日の
無線通信分野における通例であり、これは一般に不連続
伝送と呼ばれている。
を試みる各種の技法が、これまでに提供されている。
追跡することから成り立っている。エネルギーが急激に
増加する場合、音声成分の存在に対応している可能性が
あるが、またこれは、背景ノイズの変化にも対応してい
る可能性がある。したがって、この方法を実施するのは
非常に簡単であるが、たとえば自動車の中のような比較
的ノイズの多い環境においては、あまり信頼性が高くな
い。
た、その他様々な技法が周知である。その中には特に、
可聴信号のフーリエ変換を行い、音声成分の不在時に更
新される平均化されたノイズ信号と可聴信号との間のス
ペクトルの距離を測定する技法がある。また、信号のサ
ブ・バンド分析を使用する方法もあるが、この方法はフ
ーリエ変換を使用する方法に近い。これはケプストラム
分析を利用する方法にも適用される。
に複雑であり、信頼性のレベルを向上させることはでき
ても、現時点でまだ完全な満足に至るものではない。
た周知であり、その1つは、欧州特許出願第EP012
3349号に記載されている。あらゆる音声は決まった
周期性を有するが、ノイズは非周期的であり、あるいは
周期的であってもその周期性は、音声の周期性とは異な
っている。
に、この決まった周期性のピッチを探すことが可能であ
る。
が一般に計算され、このような係数の第2の最大値が一
般に求められる。ここで、第一の最大値はエネルギーを
表す。これは、比較的複雑ではあるが信頼性において完
璧な満足に至らないもう1つの技法である。
た、許容可能な信頼性を提供する、音声成分検出の技法
を提案する。
号における音声成分を検出する装置は、信号の自己相関
係数を計算する手段と、成分が自己相関係数の第1のシ
リーズから成る、第一の自己相関ベクトルを識別する手
段と、成分が既定のオフセット値だけ前記第1のシリー
ズからオフセットされた自己相関係数の第2のシリーズ
から成る、第2の自己相関ベクトルを識別する手段と、
差分ベクトル(differentiation vector)を得るために、
前記第2の自己相関ベクトルから前記第1の自己相関ベ
クトルを引く手段と、音声成分の第1のインディケータ
を表す前記差分ベクトルのノルムを計算する手段とを備
えている。
ベクトル・ノルムを割ることにより、低減ノルムを設定
する低減手段をさらに備えており、前記低減ノルムが音
声成分の第2のインディケータを表す。
ネルギーと等しいかあるいは、可聴信号のエネルギーに
底値を加えた合計に等しい。
記音声成分のインディケータの1つの現行値とその先行
値の線形結合を生成するため、前記音声成分のインディ
ケータの1つを平坦化する手段を備えており、前記線形
結合は、音声成分の第3のインディケータを表してい
る。
れかインディケータの1つが検出閾値を超える場合、音
声成分信号を生成する決定手段を備えている。
い可聴信号におけるエネルギーに基づいて設定すること
は有利である。
て、差分ベクトルの成分の絶対値の合計を選択すること
も備えている。
出する方法を提供し、この方法は以下の操作から構成さ
れている。
が自己相関係数の第1のシリーズから成る、第1の自己
相関ベクトルを識別する操作、成分が既定のオフセット
値だけ前記第1のシリーズからオフセットされた自己相
関係数の第2のシリーズから成る、第2の自己相関ベク
トルを識別する操作、差分ベクトルを得るために、前記
第2の自己相関ベクトルから前記第1の自己相関ベクト
ルを引く操作、音声成分の第1のインディケータを表
す、前記差分ベクトルのノルムを計算する操作。
施の形態の記述から、および音声成分を検出する装置に
よって行われる操作を示す添付の流れ図を参照して、よ
り明らかとなろう。
である可聴信号、すなわち標本化周波数で繰り返される
連続の瞬時における信号の値にそれぞれ対応する一連の
サンプルの形態をとる信号を参照する。
られるような、アナログ信号である場合、可聴信号を生
成するために、最初に標本化周波数において操作される
A/D変換器にかけられる。
信号プロセッサによって音声成分検出装置を実施するこ
とは、当然と思われる。プロセッサは、もちろん他の目
的にも使用することができる。
には周知の基本的な演算を行うので、検出装置を構造的
には記述しないことを理解されたい。したがって、本発
明の実施を明らかに説明する最も適した方法と考えられ
るため、記述は機能面について行う。
し、0からNの範囲においてiのあるサンプルのシリー
ズS(i)が考慮される。
らNの範囲にあるすべてのkの値の信号の自己相関係数
R(k)を計算することである。
整数であるオフセット値qを考慮することによっても第
1および第2の自己相関ベクトルR0 およびRq を定義
することができる。第1の自己相関ベクトルR0 は、そ
の成分として(N−q+1)の最初の自己相関係数R
(k)を有する。
q+1)の最後の自己相関係数R(k)を有する。
第1の自己相関ベクトルR0 を引くことによって、差分
ベクトル△Rを計算する。
+1)番目の成分を△R(k)と表す場合、0からN−
qの範囲のすべてのkについて、次の式が成り立つ。
れ自体有用ではないと言える。これらは、ただ説明を明
確化する目的で言及されている。重要な点は、差分ベク
トルを計算することにある。したがって、このベクトル
は、上記で定義されたように、その成分の値によって定
義される。
ノルム‖△R‖を計算する。有利なことに、このノルム
は、ベクトルの成分の絶対値の合計に等しい。
は各成分の絶対値の最大値などの他のノルムが選ばれた
場合も、同様に適応できることは言うまでもない。
声成分の第1のインディケータを構成する。
閾値よりも大きい場合に音声成分が可聴信号内に存在す
ることを判定するために、このインディケータと閾値と
を比較することが含まれている。
は、差分ベクトル・ノルム‖△R‖を低減値で割ること
により、低減ノルムPを計算する。例のように、この低
減値は、可聴信号のエネルギーR(0)に等しくなるよ
うに選択することができるため、ノルム‖△R‖のダイ
ナミック・レンジを圧縮することになる。独自の利点を
もたらす他の解決法には、可聴信号のエネルギーR
(0)に「底値」と呼ぶ定数値Cを加えた合計値を、低
減値として使用することが含まれる。
内に音声成分が存在するか否かを判定するために、同様
に閾値と比較することのできる音声成分の第2のインデ
ィケータから構成されている。
低減ノルムを平坦化することによって進行する。したが
って、可聴信号の複数のNサンプル連続シリーズが考慮
される場合、低減ノルムPi はi番目に対応する。この
低減ノルムの平坦化された値
i-1 の平坦化された値
る。
るように選択することが可能である。
判定するために閾値とも比較できる、音声成分の第3の
インディケータを構成する。
されても、検出装置はこのように、それを検出閾値Tと
比較する。最も簡単な技法には、この検出閾値に定数値
を与えることが含まれる。
成分が不足するたびに、低減ノルムPのレベルに閾値を
適用することが含まれる。
可聴信号のサンプルの複数の連続シリーズに対する低減
ノルムの平均値を計算し、検出閾値Tを得るために平均
値に定係数を乗じることができる。これは、当業者には
周知の平坦化技法と類似の技法を構成しており、そのた
めここでは詳細には述べない。
また、装置によって実施される音声成分検出方法にも、
当然関連する。
途を示すために、GSMとして知られる欧州統一ディジ
タル・セルラ通信システムが例示として使用されてい
る。このシステムにおいて、処理されるアナログ信号
は、8kHzでサンプリングされる。このようにして得
られたサンプルは、各シリーズが20msになるよう
に、160サンプルのシリーズにまとめられる。
等しくオフセット値qは有利に1に設定される。
囲にあるすべてのkに対し、以下のように表される。
る。
を示す流れ図である。
Claims (9)
- 【請求項1】 信号の自己相関係数を計算する手段と、 成分が自己相関係数の第1のシリーズから成る第1の自
己相関ベクトルを識別する手段と、 成分が既定オフセット値だけ前記第1のシリーズからオ
フセットされた自己相関係数の第2のシリーズから成る
第2の自己相関ベクトルを識別する手段と、 差分ベクトルを得るために、前記第2の自己相関ベクト
ルから前記第1の自己相関ベクトルを引く手段と、 音声成分の第1のインディケータを表す、前記差分ベク
トルのノルムを計算する手段とを備えている、可聴信号
における音声成分を検出する装置。 - 【請求項2】 低減値で前記差分ベクトル・ノルムを割
ることによって低減ノルムを設定する減少手段をさらに
備えており、前記低減ノルムが音声成分の第2のインデ
ィケータを表すことを特徴とする、請求項1に記載の装
置。 - 【請求項3】 前記低減値が可聴信号のエネルギーに等
しいことを特徴とする、請求項2に記載の装置。 - 【請求項4】 前記低減値が可聴信号のエネルギーに底
値を加えた合計値に等しいことを特徴とする、請求項2
に記載の装置。 - 【請求項5】 前記インディケータの現行値およびその
先行値の線形結合を生成する前記音声成分インディケー
タの1つを平坦化する手段を備えており、前記線形結合
が音声成分の第3のインディケータを表すことを特徴と
する、請求項1に記載の装置。 - 【請求項6】 前記インディケータのいずれかが検出閾
値を超える場合、音声成分信号を生成する決定手段を備
えていることを特徴とする、請求項1に記載の装置。 - 【請求項7】 前記検出閾値が、前記音声成分信号が存
在しない場合の前記可聴信号の低減ノルム値に基づき設
定されることを特徴とする、請求項6に記載の装置。 - 【請求項8】 前記差分ベクトル・ノルムが、前記ベク
トルの成分の絶対値の合計値に等しいことを特徴とす
る、請求項1に記載の装置。 - 【請求項9】 信号の自己相関係数を計算する操作と、 成分が自己相関係数の第1のシリーズから成る第1の自
己相関ベクトルを識別する操作と、 成分が既定オフセット値だけ前記第1のシリーズからオ
フセットされた自己相関係数の第2のシリーズから成る
第2の自己相関ベクトルを識別する操作と、 差分ベクトルを得るために、前記第2の自己相関ベクト
ルから前記第1の自己相関ベクトルを引く操作と、 音声成分の第1のインディケータを表す、前記差分ベク
トルのノルムを計算する操作とを備えている、可聴信号
における音声成分を検出する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9413962A FR2727236B1 (fr) | 1994-11-22 | 1994-11-22 | Detection d'activite vocale |
FR9413962 | 1994-11-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08221097A true JPH08221097A (ja) | 1996-08-30 |
Family
ID=9469024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7304462A Pending JPH08221097A (ja) | 1994-11-22 | 1995-11-22 | 音声成分の検出法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US5732141A (ja) |
EP (1) | EP0714088B1 (ja) |
JP (1) | JPH08221097A (ja) |
AT (1) | ATE183598T1 (ja) |
AU (1) | AU698712B2 (ja) |
CA (1) | CA2163295A1 (ja) |
DE (1) | DE69511508T2 (ja) |
ES (1) | ES2136815T3 (ja) |
FI (1) | FI955584A (ja) |
FR (1) | FR2727236B1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19716862A1 (de) | 1997-04-22 | 1998-10-29 | Deutsche Telekom Ag | Sprachaktivitätserkennung |
US6556967B1 (en) | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6381568B1 (en) | 1999-05-05 | 2002-04-30 | The United States Of America As Represented By The National Security Agency | Method of transmitting speech using discontinuous transmission and comfort noise |
EP1170728A1 (en) * | 2000-07-05 | 2002-01-09 | Alcatel | System for adaptively reducing noise in speech signals |
EP1304682A1 (en) * | 2000-07-05 | 2003-04-23 | Alcatel | Distributed speech recognition system |
EP1175058A1 (en) * | 2000-07-21 | 2002-01-23 | Alcatel | Processor system, and terminal, and network-unit, and method |
US7305099B2 (en) * | 2003-08-12 | 2007-12-04 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients |
EP1729410A1 (en) * | 2005-06-02 | 2006-12-06 | Sony Ericsson Mobile Communications AB | Device and method for audio signal gain control |
WO2010032405A1 (ja) * | 2008-09-16 | 2010-03-25 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
US9002030B2 (en) | 2012-05-01 | 2015-04-07 | Audyssey Laboratories, Inc. | System and method for performing voice activity detection |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3919479A (en) * | 1972-09-21 | 1975-11-11 | First National Bank Of Boston | Broadcast signal identification system |
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
JPS5672499A (en) * | 1979-11-19 | 1981-06-16 | Hitachi Ltd | Pretreatment for voice identifier |
GB2139052A (en) * | 1983-04-20 | 1984-10-31 | Philips Electronic Associated | Apparatus for distinguishing between speech and certain other signals |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
JPS62204652A (ja) * | 1986-03-04 | 1987-09-09 | Nec Corp | 可聴周波信号識別方式 |
US4815137A (en) * | 1986-11-06 | 1989-03-21 | American Telephone And Telegraph Company | Voiceband signal classification |
FR2623382B1 (fr) * | 1987-11-24 | 1991-05-03 | Peugeot Cycles | Dispositif de fixation d'un revetement notamment un revetement de siege |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
PT89978B (pt) * | 1988-03-11 | 1995-03-01 | British Telecomm | Aparelho detector da actividade vocal e aparelho telefonico movel que o contem |
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
-
1994
- 1994-11-22 FR FR9413962A patent/FR2727236B1/fr not_active Expired - Fee Related
-
1995
- 1995-11-17 AT AT95402589T patent/ATE183598T1/de not_active IP Right Cessation
- 1995-11-17 EP EP95402589A patent/EP0714088B1/fr not_active Expired - Lifetime
- 1995-11-17 ES ES95402589T patent/ES2136815T3/es not_active Expired - Lifetime
- 1995-11-17 DE DE69511508T patent/DE69511508T2/de not_active Expired - Fee Related
- 1995-11-20 CA CA002163295A patent/CA2163295A1/fr not_active Abandoned
- 1995-11-20 US US08/560,645 patent/US5732141A/en not_active Expired - Fee Related
- 1995-11-20 FI FI955584A patent/FI955584A/fi unknown
- 1995-11-20 AU AU37937/95A patent/AU698712B2/en not_active Ceased
- 1995-11-22 JP JP7304462A patent/JPH08221097A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CA2163295A1 (fr) | 1996-05-23 |
FR2727236B1 (fr) | 1996-12-27 |
FI955584A (fi) | 1996-05-23 |
FR2727236A1 (fr) | 1996-05-24 |
ES2136815T3 (es) | 1999-12-01 |
US5732141A (en) | 1998-03-24 |
AU698712B2 (en) | 1998-11-05 |
EP0714088A1 (fr) | 1996-05-29 |
DE69511508T2 (de) | 2000-07-06 |
FI955584A0 (fi) | 1995-11-20 |
DE69511508D1 (de) | 1999-09-23 |
AU3793795A (en) | 1996-05-30 |
ATE183598T1 (de) | 1999-09-15 |
EP0714088B1 (fr) | 1999-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6023674A (en) | Non-parametric voice activity detection | |
JP3321156B2 (ja) | 音声の動作特性検出 | |
EP0459382B1 (en) | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal | |
US5970441A (en) | Detection of periodicity information from an audio signal | |
US5276765A (en) | Voice activity detection | |
JP4279357B2 (ja) | 特に補聴器における雑音を低減する装置および方法 | |
CA2346251C (en) | A method and system for updating noise estimates during pauses in an information signal | |
US6289309B1 (en) | Noise spectrum tracking for speech enhancement | |
EP1547061B1 (en) | Multichannel voice detection in adverse environments | |
JP3878482B2 (ja) | 音声検出装置および音声検出方法 | |
JPH08505715A (ja) | 定常的信号と非定常的信号との識別 | |
US5430826A (en) | Voice-activated switch | |
JPH08221097A (ja) | 音声成分の検出法 | |
US6865529B2 (en) | Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor | |
FI111572B (fi) | Menetelmä puheen käsittelemiseksi akustisten häiriöiden läsnäollessa | |
JP3270866B2 (ja) | 雑音除去方法および雑音除去装置 | |
US8788265B2 (en) | System and method for babble noise detection | |
CN115762576A (zh) | 定向麦克风阵列语音失真检测、修复方法、装置及系统 | |
US20010029447A1 (en) | Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor | |
US6633847B1 (en) | Voice activated circuit and radio using same | |
JP3520430B2 (ja) | 左右音像方向抽出方法 | |
JP2000010593A (ja) | スペクトル雑音除去装置 | |
Lim et al. | Acoustic blur kernel with sliding window for blind estimation of reverberation time | |
KR20040073145A (ko) | 음성인식기의 성능 향상 방법 | |
KR0171004B1 (ko) | Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050927 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051213 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20051219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061121 |