JP5395066B2 - 音声区間検出および音声信号分類ための方法および装置 - Google Patents
音声区間検出および音声信号分類ための方法および装置 Download PDFInfo
- Publication number
- JP5395066B2 JP5395066B2 JP2010512474A JP2010512474A JP5395066B2 JP 5395066 B2 JP5395066 B2 JP 5395066B2 JP 2010512474 A JP2010512474 A JP 2010512474A JP 2010512474 A JP2010512474 A JP 2010512474A JP 5395066 B2 JP5395066 B2 JP 5395066B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- audio signal
- tone
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 85
- 238000001514 detection method Methods 0.000 title claims description 49
- 230000005236 sound signal Effects 0.000 claims description 107
- 238000001228 spectrum Methods 0.000 claims description 98
- 230000003595 spectral effect Effects 0.000 claims description 66
- 230000007774 longterm Effects 0.000 claims description 48
- 238000005259 measurement Methods 0.000 claims description 13
- 230000000295 complement effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims 2
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 claims 1
- 229910052571 earthenware Inorganic materials 0.000 claims 1
- 229910052717 sulfur Inorganic materials 0.000 claims 1
- 239000011593 sulfur Substances 0.000 claims 1
- 238000010183 spectrum analysis Methods 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 19
- 239000010410 layer Substances 0.000 description 17
- 238000005070 sampling Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 206010019133 Hangover Diseases 0.000 description 7
- 230000005284 excitation Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000012792 core layer Substances 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
−音声区間検出は、非アクティブフレームに最適化された技法を使用して符号化されるフレームの選択に使用され、
−音声信号分類器は、異なるスピーチ信号クラスおよび音楽を区別して、音声信号をより効率的に符号化できるようにするため、すなわち、無声スピーチ信号の最適化された符号化、安定有声信号の最適化された符号化、および他の音声信号の一般的な符号化を可能にするために使用され、
−アルゴリズムが提供され、このアルゴリズムは、いくつかの関連パラメータおよび特徴を使用して、符号化モードのよりよい選択および背景雑音のよりロバストな推定を可能にし、
−音調推定が、音楽信号の存在する場合の音声区間検出の性能を向上させるため、かつ無声音と音楽とをよりよく区別するために使用され、例えば、音調推定を超広帯域コーデックに使用して、7kHzを超える信号を符号化するコーデックモデルを決定することができる。
Hpre−emph(z)=1−0.68z−1
スペクトル解析は、図1のスペクトル解析器102によって実行される。
xw (1)(n)=wFFT(n)s’(n) n=0,...,LFFT−1
xw (2)(n)=wFFT(n)s’(n+LFFT/2) n=0,...,LFFT−1
式中、s’(0)は現在のフレーム内の最初のサンプルである。本発明の非限定的で例示的な実施形態では、第1の窓の冒頭は、現在のフレームの冒頭に配置される。第2の窓は、サンプル128個分、さらに配置される。
臨界帯域={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz
Et=10log(0.5(Eframe(0)+Eframe(1)),dB (6)
である。
音声区間検出は、図1のSNRベースの音声区間検出器103により実行される。
SNRCB≧1により境界が決まるSNRCB(i)=Eav(i)/NCB(i) (8)
を使用して計算され、式中、NCB(i)は、後述するように、臨界帯域毎の推定雑音エネルギーである。次に、フレーム毎の平均SNRが、
thSAD=0.41287SNRLT+13.259625
に等しく、その他(雑音の少ないスピーチ)の場合、
thSAD=1.0333SNRLT−18
である。
thSAD=0.1071SNRLT+16.5
に等しく、その他(雑音の少ないスピーチ)の場合、
thSAD=0.4773SNRLT−6.1364
である。
SNRLT≧35の場合、lhang=0
15≦SNRLT<35の場合、lhang=1
SNRLT<15の場合、lhang=2
のように、長期SNRに従って長さが変化する「ハングオーバ期間」内にある場合に適用される。
SNRLT<19の場合、thSAD=thSAD−5.2
19≦SNRLT<35の場合、thSAD=thSAD−2
35≦SNRLTの場合、thSAD=thSAD
のように、SAD判断閾値を低減することからなる。したがって、低SNRを有する雑音の多い信号の場合、閾値は、アクティブ信号としての判断に有利なように低減される。狭帯域信号にはハングオーバはない。
if SNRav>thSAD
SADlocal=1
SAD=1
else
SADlocal=0
if ハングオーバ期間中
SAD=1
else
SAD=0
end
end
図1に示す雑音推定器104は、総雑音エネルギー、相対フレームエネルギー、長期平均雑音エネルギーの更新、および長期平均フレームエネルギーの更新、臨界帯域毎の平均エネルギー、および雑音補正係数を計算する。さらに、雑音推定器104は、雑音エネルギー初期化および下方更新を実行する。
パラメトリック音声区間検出・雑音推定更新モジュール107は、次のフレーム内の音声区間検出器103で使用される臨界帯域毎の雑音エネルギー推定を更新する。この更新は、非アクティブ信号期間中に実行される。しかし、臨界帯域毎のSNRに基づく、上で実行されたSAD判断は、雑音エネルギー推定が更新されるか否かを判断する際に使用されない。別の判断が、臨界帯域毎のSNRからむしろ独立して他のパラメータに基づいて実行される。雑音エネルギー推定の更新に使用されるパラメータは、ピッチ安定性、信号非定常性、ボイシング(voicing)、および2次LP残余誤差エネルギーと16次LP残余誤差エネルギーとの比であり、一般に、雑音レベルの変動の影響を受けにくい。雑音エネルギー推定の更新の判断は、スピーチ信号に対して最適化される。アクティブ音楽信号の検出を向上させるために、以下の他のパラメータが使用される:スペクトルダイバーシチ(spectral diversity)、相補的非定常性(complementary non−stationarity)、雑音特徴、および音調安定性。音楽検出については以下の説明において詳細に説明する。
pc=|d0−d−1|+|d1−d0|+|d2−d1| (19)
式中、d−1は、前のフレームの第2の半フレームのラグである。122よりも大きなピッチラグの場合、LP解析器・ピッチ追跡器モジュール106は、d2=d1に設定する。したがって、このようなラグの場合、式(19)中のpcの値は、3/2で乗算されて、この式中の第3項の欠落を補償する。ピッチ安定性は、pcの値が14未満の場合に真である。さらに、ボイシングが低いフレームの場合、pcは14に設定され、ピッチ不安定性を示す。より具体的には、
(Cnorm(d0)+Cnorm(d1)+Cnorm(d2))/3+re<thCpcの場合、pc=14 (20)
であり、式中、Cnorm(d)は、生の正規化相関であり、reは、背景雑音が存在する場合に正規化相関の低減を補償するために、正規化相関に追加されるオプションの補正である。ボイシング閾値は、WBの場合、thCpc=0.52であり、NBの場合、thCpc=0.65である。補正係数は、以下の関係式
d=10,...,16の場合、Lsec=40
d=17,...,31の場合、Lsec=40
d=32,...,61の場合、Lsec=62
d=62,...,115の場合、Lsec=115
に従って与えられる。
第1の半フレームの場合、tstart=0
第2の半フレームの場合、tstart=128
先読みの場合、tstart=256
により与えられる。
広帯域信号の場合、0.5≦αe≦0.99で境界が決まるαe=0.0245Et−0.235
狭帯域信号の場合、0.5≦αe≦0.999で境界が決まるαe=0.00091Et+0.3185
Etは式(6)において与えられる。
voicing=(Cnorm(d0)+Cnorm(d1))/2+re (23)
を使用して雑音更新のボイシング係数をさらに生成する。
resid_ratio=E(2)/E(16) (24)
を使用して2次LP解析および16次LP解析後のLP残余エネルギーの比を計算し、式中、E(2)およびE(16)は、当業者に周知の手続きであるレビンソン−ダービン帰納法を使用して、LP解析器・ピッチ追跡器モジュール106において計算される2次LP解析および16次LP解析後のLP残余エネルギーである。この比は、信号スペクトル包絡線を表すために、一般に、雑音よりもスピーチ信号に対して次数のより高いLPが必要とされることを反映する。換言すれば、E(2)とE(16)との差は、アクティブスピーチよりも雑音の場合により低くなると考えられる。
If(nonstat<thstat)OR(pc<14)OR(voicing>thCnorm)OR(resid_ratio>thresid)
noise_update=noise_update+2
Else
noise_update=noise_update−1
のように各フレームにおいて更新され、広帯域信号の場合、thstat=thCnorm=0.85であり、thresid=1.6であり、狭帯域信号の場合、thstat=500000であり、thCnorm=0.7であり、thresid=10.4である。
(nonstat≦thstat)AND(pc≦14)AND(voicing≦thCnorm)AND(resid_ratio≦thresid)
場合、雑音更新に関して非アクティブであると宣言され、雑音更新が行われる前に、フレーム6個のハングオーバが使用される。
i=0〜19について、NCB(i)=Ntmp(i)
であり、式中、Ntmp(i)は、式(18)ですでに計算された一時更新雑音エネルギーである。
上述した雑音推定は、主にスピーチ検出に向けて開発され最適化されたため、ピアノコンサート、器楽ロック、または器楽ポップ等の特定の音楽信号の場合に制限を有する。音楽信号全般の検出を向上させるために、パラメトリック音声区間検出・雑音推定更新モジュール107は、既存のパラメータまたは技法と併せて他のパラメータまたは技法を使用する。これら他のパラメータまたは技法は、上述したように、スペクトルダイバーシチ、相補的非定常性、雑音特徴、および音調安定性を含み、スペクトルダイバーシチ計算器、相補的非定常性計算器、雑音特徴計算器、および音調推定器のそれぞれにより計算される。これらについて以下に詳細に説明する。
スペクトルダイバーシチは、周波数領域での信号の大きな変化についての情報を与える。この変化は、現在のフレームの第1のスペクトル解析でのエネルギーと2フレーム分前の第2のスペクトル解析でのエネルギーとを比較することにより、臨界帯域において追跡される。現在のフレームでの第1のスペクトル解析の臨界帯域i内のエネルギーは、
音楽信号内での急激なエネルギーアタック(energy attack)の後に、エネルギーがゆっくりと低減する場合、式(22)において定義される非定常性パラメータが機能しなくなるため、相補的非定常性パラメータが含められる。この場合、式(21)において定義される臨界帯域毎の平均長期エネルギーECB,LT(i)は、アタック中にゆっくりと増大し、その一方で、式(15)において定義される臨界帯域毎のフレームエネルギーはゆっくりと低減する。アタック後の特定のフレーム内では、これら2つのエネルギー値は同じになり、その結果として、nonstatパラメータが、アクティブ信号がないことを示す小さな値になる。これは、誤った雑音更新に繋がり、続けて、誤ったSAD判断に繋がる。
if(spec_div>thspec_div)
βe=0
else
βe=αe
end
のように与えられ、式中、thspec_div=5である。したがって、エネルギーアタックが検出された場合(spec_div>5)、代替の平均長期エネルギーはすぐに平均フレームエネルギーに設定される。すなわち、
if((nonstat>thstat)OR(tonal_stability=1))
act_pred_LT=kaact_pred_LT+(1−ka).1
else
act_pred_LT=kaact_pred_LT+(1−ka).0
end
のように計算される。係数kaは0.99に設定される。範囲<0:1>内にあるパラメータact_pred_LTは、区間の予測子として解釈することができる。これが1に近い場合、信号はアクティブである可能性が高く、0に近い場合、非アクティブである可能性が高い。act_pred_LTパラメータは1に初期化される。上の状況では、tonal_stabilityは、安定音調信号の検出に使用されるバイナリパラメータである。このtonal_stabilityパラメータについては、以下の説明において説明する。
雑音特徴は、シンバルまたは低周波ドラムとの特定の雑音のような音楽信号の検出に使用される別のパラメータである。このパラメータは、以下の関係式
noise_char_LT=αnnoise_char_LT+(1−αn)noise_char (29)
を使用して更新される。noise_char_LTの初期値は0であり、およびαnの初期値は、0.9に等しく設定される。noise_char_LTパラメータは、本セクションの終わりで説明される雑音エネルギー更新についての判断に使用される。
音調安定性は、雑音エネルギー推定の誤った更新を回避するために使用される最後のパラメータである。音調安定性は、いくつかの音楽セグメントを無声フレームとして宣言することを回避するためにも使用される。音調安定性は、埋め込み超広帯域コーデックにおいて、どの符号化モデルが7kHzを超える音声信号の符号化に使用されるかを判断するためにさらに使用される。音調安定性の検出は、音楽信号の音調の性質を利用する。典型的な音楽信号には、いくつかの連続したフレームにわたって安定した音調がある。この特徴を利用して、強スペクトルピークが音調に対応し得るため、強スペクトルピークの位置および形状を追跡する必要がある。音調安定性検出は、現在のフレーム内のスペクトルピークと過去のフレーム内のスペクトルピークとの相関解析に基づく。入力は、式(4)において定義される平均対数エネルギースペクトルである。スペクトルビンの数はNSPEC(ビン0はDC成分であり、NSPEC=LFFT/2)と示される。以下の開示では、「スペクトル」という用語は、式(4)により定義される平均対数エネルギースペクトルを指す。
imin=(∀i:(EdB(i−1)>EdB(i))∧(EdB(i)<EdB(i+1)) i=1,...,NSPEC−2 (30)
のように表現することができるバッファiminに記憶され、式中、記号∧は論理積を意味する。
fl(j)=k.(j−imin(x))+q j=imin(x),...,imin(x+1)
として記述することができ、式中、kは線の傾きであり、q=EdB(imin(x))である。傾きkは、以下の関係式
EdB,res(j)=EdB(j)−sp_floor(j) j=0,...,NSPEC−1 (32)
を使用してスペクトルから減算され、この結果が剰余スペクトルと呼ばれる。スペクトルフロアの計算を図3に示す。
cor_map_LT(k)=αmapcor_map_LT(k)+(1−αmap)cor_map(k),k=0,...,NSPEC−1 (34)
で記述される長期値の更新に使用され、式中、αmap=0.9である。cor_map_LTは、すべてのkについてゼロに初期化される。
if(cor_map_sum>56)
thr_tonal=thr_tonal−0.2
else
thr_tonal=thr_tonal+0.2
end
のようにフレーム毎に更新される。
if((cor_map_sum>thr_tonal)OR(cor_strong=1))
tonal_stability=1
else
tonal_stability=0
end
すべての音楽検出パラメータは、パラメトリック音声区間検出・雑音推定更新(上方)モジュール107における雑音エネルギー推定の更新についての最終判断に組み込まれる。雑音エネルギー推定は、noise_updateの値がゼロである限り、更新される。最初、noise_updateは6に設定され、以下
if(nonstat>thstat)OR(pc<14)OR(voicing>thCnorm)OR(resid_ratio>thresid)OR(tonal_stability=1)OR(noise_char_LT>0.3)OR((act_pred_LT>0.8)AND(nonstat2>thstat))
noise_update=noise_update+2
else
noise_update=noise_update−1
end
のように各フレームで更新される。
音声信号分類器108(図1)の下にある一般原理を図5に示す。この手法は以下のように説明することができる。音声信号分類は、それぞれが特定の信号クラスを区別する論理モジュール501、502、および503において3つのステップで行われる。第1に、音声信号区間検出器(SAD)501が、アクティブ信号フレームと非アクティブ信号フレームとを区別する。この音声信号区間検出器501は、図1において音声信号区間検出器103と呼ばれたものと同じである。音声信号区間検出器については上記説明ですでに説明した。
・平均正規化相関
・平均スペクトル傾斜測定値
・無声信号から音楽を区別する音調安定性(上記説明において説明した)、および
・非常に低いエネルギーの信号を検出するための相対フレームエネルギー(Erel)
を使用して無声フレームを分類する方法を提案する。
ボイシング測定値の決定に使用される正規化相関は、図1のLP解析器・ピッチ追跡器モジュール106において行われる開ループピッチ解析の一環として計算される。例えば、20msのフレームを使用することができる。LP解析器・ピッチ追跡器モジュール106は通常、10ms毎に(フレーム毎に2度)開ループピッチ推定を出力する。ここで、LP解析器・ピッチ追跡器モジュール106は、正規化相関測定値の生成および出力にも使用される。これら正規化相関は、重み付き信号および開ループピッチ遅延にある過去の重み付き信号に対して計算される。重み付きスピーチ信号sw(n)は、知覚加重フィルタを使用して計算される。例えば、広帯域信号に適した、一定の分母を有する知覚加重フィルタを使用することができる。知覚荷重フィルタの伝達関数の一例は、以下の関係式
スペクトル傾斜パラメータは、エネルギーの周波数分布についての情報を含む。スペクトル傾斜は、低周波数に集中したエネルギーと高周波数に集中したエネルギーとの比として周波数領域において推定することができる。しかし、信号の最初の2つの自動相関係数の比等の他の方法を使用して推定することも可能である。
臨界帯域={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz
低レベルでの最大短期エネルギー増大dE0は、音声信号s(n)上で評価される。但し、n=0は、現在のフレームの冒頭に対応する。例えば、20msのスピーチフレームが使用され、あらゆるフレームは、スピーチ符号化のために4つのサブフレームに分割される。信号エネルギーは、サンプル32個分の長さ(12.8kHzサンプリングレートで)の短期セグメントに基づいて、サブフレーム毎に2回、すなわちフレーム毎に8回評価される。さらに、前のフレームからの最後の32個のサンプルの短期エネルギーも計算される。短期エネルギーは、以下の関係式
dE0=max(rat(1)(j),rat(2)(j)) (48)
のように探索され、これは、低レベルでの最大短期エネルギー増大である。
この例では、非アクティブフレームは、通常、DTX動作がない場合に無声スピーチ向けに設計された符号化モードを使用して符号化される。しかし、何等かの車の雑音のような準周期的背景雑音の場合、汎用符号化が代わりにWBに使用されるとき、より忠実な雑音レンダリングが達成される。
無声信号フレームの分類は、上述したパラメータ、すなわち、ボイシング測定値
フレームが非アクティブフレームまたは無声フレームとして分類されない場合、安定有声フレームであるか否かがテストされる。判断ルールは、各サブフレームの正規化相関(1/4サブサンプル分解能を使用する)、平均スペクトル傾斜、およびすべてのサブフレームの開ループピッチ推定(1/4サブサンプル分解能を使用する)に基づく。
超広帯域信号の符号化に際して、特定の符号化モードが、音調構造を有する音声信号に使用される。対象とする周波数範囲は主に7000〜14000Hzであるが、異なってもよい。この目的は、音調固有の符号化モードを効率的に使用できるように、対象とする範囲内で強い音調内容を有するフレームを検出することである。これは、本開示において上述した音調安定性解析を使用して行われる。しかし、このセクションにおいて説明するいくつかの逸脱がある。
j=LMA−1,...,0の場合sp_floor(j)=0.9sp_floor(j+1)+0.1EdB(j)
j=NSPEC−LMA,...,NSPEC−1の場合sp_floor(j)=0.9sp_floor(j−1)+0.1EdB(j)
上の最初の式では、更新はLMA−1から下方の0に進む。
if(cor_map_sum>130)
thr_tonal=thr_tonal
−1.0
else
thr_tonal=thr_tonal+1.0
end
101 プリプロセッサ
102 スペクトル解析器
103 音声区間検出器
104 雑音推定器
105 雑音抑制器
106 LP解析器・ピッチ追跡器
107 パラメトリック音声区間検出・雑音推定更新モジュール
108 音声信号分類器
109 音声エンコーダ
Claims (66)
- スペクトルを有する音声信号の音調を推定する方法であって、
前記音声信号のスペクトルフロアを前記音声信号のスペクトルから減算することによって現在の剰余スペクトルを計算するステップと、
前記現在の剰余スペクトルのピークを検出するステップと、
検出された各ピークについて、前記現在の剰余スペクトルと前の剰余スペクトルとの相関を表す相関マップを計算するステップと、
前記計算された相関マップに基づいて長期相関マップを計算するステップと
を含み、
前記長期相関マップは、前記音声信号の音調を示す、方法。 - 前記現在の剰余スペクトルを計算するステップは、
現在のフレーム内の前記音声信号の前記スペクトルの極小を探すステップと、
前記極小を互いに結ぶことにより前記スペクトルフロアを推定するステップと、
前記推定されたスペクトルフロアを前記現在のフレーム内の前記音声信号の前記スペクトルから減算して、前記現在の剰余スペクトルを生成するステップと
を含む、請求項1に記載の方法。 - 前記現在の剰余スペクトルの前記ピークを検出するステップは、2つの連続した極小の各対間の最大を見つけるステップを含む、請求項2に記載の方法。
- 前記相関マップを計算するステップは、
前記現在の剰余スペクトルの検出された各ピークについて、前記ピークを区切る前記現在の剰余スペクトル内の2つの連続した極小間の周波数ビンにわたり、前記前の剰余スペクトルとの正規化された相関値を計算するステップと、
検出された各ピークにスコアを割り当てるステップと
を含み、
前記スコアは前記正規化された相関値に対応し、
前記相関マップを計算するステップは、
検出された各ピークについて、前記ピークを区切る前記2つの連続した極小間の前記周波数ビンにわたり、前記ピークの前記正規化された相関値を割り当て、前記相関マップを形成するステップを含む、請求項1に記載の方法。 - 前記長期相関マップを計算するステップは、
周波数ビン毎に単極フィルタを通して前記相関マップをフィルタリングするステップと、
前記周波数ビンにわたって前記フィルタリングされた相関マップを合算して、合算長期相関マップを生成するステップと
を含む、請求項1に記載の方法。 - 前記音声信号内の強音調を検出するステップをさらに含む、請求項1に記載の方法。
- 前記音声信号内の前記強音調を検出するステップは、前記相関マップから、所与の一定の閾値を超える大きさを有する周波数ビンを探すステップを含む、請求項6に記載の方法。
- 前記音声信号内の前記強音調を検出するステップは、前記長期相関マップを前記音声信号内の音声区間を示す適応閾値と比較するステップを含む、請求項6に記載の方法。
- 強音調の存在を検証するステップをさらに含む、請求項1に記載の方法。
- 音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する方法であって、
背景雑音信号から音楽信号を区別するために使用される前記音声信号の音調に関連するパラメータを推定するステップを含み、
前記音調は、請求項1〜9のいずれか一項に従う方法を用いて推定される、方法。 - 音調音声信号が検出された場合、雑音エネルギー推定の更新を回避するステップをさらに含む、請求項10に記載の方法。
- 前記音声信号内の前記音声区間を検出するステップは、信号対雑音比(SNR)ベースの音声区間検出を使用するステップをさらに含む、請求項10に記載の方法。
- 前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、周波数に依存する信号対雑音比(SNR)に基づいて前記音声信号を検出するステップを含む、請求項12に記載の方法。
- 前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、平均信号対雑音比(SNRav)を、長期信号対雑音比(SNRLT)に応じて計算される閾値と比較するステップを含む、請求項12に記載の方法。
- 前記音声信号内で前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、SNR計算において前のフレームで計算された雑音エネルギー推定を使用するステップをさらに含む、請求項14に記載の方法。
- 前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、次のフレームの前記雑音エネルギー推定を更新するステップをさらに含む、請求項15に記載の方法。
- 前記次のフレームの前記雑音エネルギー推定を更新するステップは、前記音声信号のピッチ安定性、ボイシング、非定常性パラメータ、および2次線形予測残余誤差エネルギーと16次線形予測残余誤差エネルギーとの比のうちの少なくとも1つに基づいて更新判断を計算するステップを含む、請求項16に記載の方法。
- 前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップを含み、前記分類するステップは、前記平均信号対雑音比(SNRav)が前記計算された閾値未満の場合、非アクティブ音声信号であると判断するステップを含む、請求項14に記載の方法。
- 前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップを含み、前記分類するステップは、前記平均信号対雑音比(SNRav)が前記計算された閾値を超える場合、アクティブ音声信号であると判断するステップを含む、請求項14に記載の方法。
- 前記音声信号の前記音調に関連する前記パラメータを推定するステップは、音楽信号が検出された場合、雑音エネルギー推定の更新を回避する、請求項10に記載の方法。
- 背景雑音信号から音楽信号を区別し、前記音楽信号上での雑音エネルギー推定の更新を回避するために、相補的非定常性パラメータおよび雑音特徴パラメータを計算するステップをさらに含む、請求項10に記載の方法。
- 前記相補的非定常性パラメータを計算するステップは、スペクトルアタックが検出された場合、長期エネルギーをリセットすることにより、従来の非定常性と同様のパラメータを計算するステップを含む、請求項21に記載の方法。
- 前記長期エネルギーをリセットするステップは、前記長期エネルギーを現在のフレームエネルギーに設定するステップを含む、請求項22に記載の方法。
- 前記スペクトルアタックを検出するステップおよび前記長期エネルギーをリセットするステップは、スペクトルダイバーシチパラメータを計算するステップを含む、請求項22に記載の方法。
- 前記スペクトルダイバーシチパラメータを計算するステップは、
所与の数よりも大きな周波数帯域について、現在のフレーム内の前記音声信号のエネルギーと前のフレーム内の前記音声信号のエネルギーとの比を計算するステップと、
前記所与の数よりも大きなすべての前記周波数帯域にわたり、前記スペクトルダイバーシチを前記計算された比の重み付き和として計算するステップと
を含む、請求項24に記載の方法。 - 前記相補的非定常性パラメータを計算するステップは、前記音声信号の区間を示す区間予測パラメータを計算するステップをさらに含む、請求項22に記載の方法。
- 前記区間予測パラメータを計算するステップは、前記音声信号の音調に関連するパラメータおよび前記従来の非定常性パラメータを推定することから得られる二分決定の長期値を計算するステップを含む、請求項26に記載の方法。
- 前記雑音エネルギー推定の更新は、第1の所与の一定の閾値よりも大きな前記区間予測パラメータおよび第2の所与の一定の閾値よりも大きな前記相補的非定常性パラメータを同時に有することに応答して回避される、請求項26に記載の方法。
- 前記雑音特徴パラメータを計算するステップは、
複数の周波数帯域を第1の周波数帯域のうちの特定の数の第1の群および前記周波数帯域の残りの第2の群に分割するステップと、
前記第1の群の周波数帯域の第1のエネルギー値および前記第2の群の周波数帯域の第2のエネルギー値を計算するステップと、
前記第1のエネルギー値と前記第2のエネルギー値との比を計算して、前記雑音特徴パラメータを生成するステップと、
前記計算された雑音特徴パラメータに基づいて前記雑音特徴パラメータの長期値を計算するステップと
を含む、請求項21に記載の方法。 - 前記雑音エネルギー推定の更新は、所与の一定の閾値未満の前記雑音特徴パラメータを有することに応答して回避される、請求項29に記載の方法。
- 音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する方法であって、
前記音声信号内の音声区間を検出するステップと、
前記音声信号内の前記検出された音声区間に従って、前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップと、
前記音声信号がアクティブ音声信号として分類されたことに応答して、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方としてさらに分類するステップと
を含み、
前記アクティブ音声信号を無声スピーチ信号として分類するステップは、前記音声信号の音調を推定して、音楽信号を無声スピーチ信号として分類することを回避するステップを含み、
前記音調推定は、請求項1〜9のいずれか一項に従って実行される、方法。 - 前記音声信号の前記分類に従って前記音声信号を符号化するステップをさらに含む、請求項31に記載の方法。
- 前記音声信号の前記分類に従って前記音声信号を符号化するステップは、無音区間疑似背景雑音生成を使用して非アクティブ音声信号を符号化するステップを含む、請求項32に記載の方法。
- 前記アクティブ音声信号を無声スピーチ信号として分類するステップは、ボイシング測定値、平均スペクトル傾斜測定値、低レベルでの最大短期エネルギー増大、音調安定性、および相対フレームエネルギーのうちの少なくとも1つに基づいて判断ルールを計算するステップを含む、請求項31に記載の方法。
- 前記無声スピーチ信号を安定有声スピーチ信号および前記安定有声スピーチ信号とは異なる別の種類の信号のうちの一方として分類するステップをさらに含む、請求項31に記載の方法。
- 前記無声スピーチ信号を前記安定有声スピーチ信号として分類するステップは、前記音声信号の正規化相関、平均スペクトル傾斜、および開ループピッチ推定のうちの少なくとも1つに基づいて判断ルールを計算するステップを含む、請求項35に記載の方法。
- 音声信号の分類を使用して前記音声信号の高帯域を符号化する方法であって、
前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類するステップを含み、
前記音声信号を音調信号として分類するステップは、請求項1〜9のいずれか一項に従って前記音声信号の音調を推定するステップを含む、方法。 - 請求項1〜9のいずれか一項に従って前記音声信号の音調を推定するステップは、前記スペクトルフロアを計算する代替の方法を使用するステップをさらに含む、請求項37に記載の方法。
- 前記スペクトルフロアを計算する代替の方法を使用するステップは、移動平均フィルタを使用して現在のフレーム内の前記音声信号の対数エネルギースペクトルをフィルタリングするステップを含む、請求項38に記載の方法。
- 請求項1〜9のいずれか一項に従って前記音声信号の音調を推定するステップは、短期移動平均フィルタにより前記剰余スペクトルを平滑化するステップをさらに含む、請求項37に記載の方法。
- 前記音声信号の前記分類に従って前記音声信号の前記高帯域を符号化するステップをさらに含む、請求項37に記載の方法。
- 前記音声信号の前記分類に従って前記音声信号の前記高帯域を符号化するステップは、このような信号に最適化されたモデルを使用して前記音調音声信号を符号化するステップを含む、請求項41に記載の方法。
- 前記音声信号の前記高帯域は7kHzを超える周波数範囲を含む、請求項37に記載の方法。
- スペクトルを有する音声信号の音調を推定する装置であって、
前記音声信号のスペクトルフロアを前記音声信号のスペクトルから減算することによって現在の剰余スペクトルを計算する手段と、
前記現在の剰余スペクトルのピークを検出する手段と、
検出された各ピークについて、前記現在の剰余スペクトルと前の剰余スペクトルとの相関を表す相関マップを計算する手段と、
前記計算された相関マップに基づいて長期相関マップを計算する手段であって、前記長期相関マップは、前記音声信号の音調を示す手段と
を備える、装置。 - スペクトルを有する音声信号の音調を推定する装置であって、
前記音声信号のスペクトルフロアを前記音声信号のスペクトルから減算することによる現在の剰余スペクトルの計算器と、
前記現在の剰余スペクトルのピークの検出器と、
検出された各ピークについての前記現在の剰余スペクトルと前の剰余スペクトルとの相関を表す相関マップの計算器と、
前記計算された相関マップに基づく長期相関マップの計算器と
を備え、
前記長期相関マップは、前記音声信号の音調を示す、装置。 - 前記現在の剰余スペクトルの計算器は、
現在のフレーム内の前記音声信号の前記スペクトル内の極小の特定器と、
前記極小を互いに結ぶ前記スペクトルフロアの推定器と、
前記現在の剰余スペクトルを生成するための、前記スペクトルからの前記推定されたスペクトルフロアの減算器と
を備える、請求項45に記載の装置。 - 前記長期相関マップの計算器は、
周波数ビン毎に前記相関マップをフィルタリングするフィルタと、
前記周波数ビンにわたって前記フィルタリングされた相関マップを合算して、合算長期相関マップを生成する合算器と
を備える、請求項45に記載の装置。 - 前記音声信号内の強音調の検出器をさらに備える、請求項45に記載の装置。
- 音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する装置であって、
背景雑音信号から音楽信号を区別するために使用される前記音声信号の音調に関連するパラメータを推定する手段を備え、
前記音調パラメータ推定手段は、請求項44に記載の装置を備える、装置。 - 音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する装置であって、
背景雑音信号から音楽信号を区別するために使用される、前記音声信号の音調推定器を備え、
前記音調推定器は、請求項45〜48のいずれか一項に記載の装置を備える、装置。 - 信号対雑音比(SNR)ベースの音声区間検出器をさらに備える、請求項50に記載の装置。
- 前記(SNR)ベースの音声区間検出器は、平均信号対雑音比(SNRav)と、長期信号対雑音比(SNRLT)に応じた閾値との比較器を備える、請求項51に記載の装置。
- 前記SNRベースの音声区間検出器での信号対雑音比(SNR)の計算での雑音エネルギー推定を更新する雑音推定器をさらに備える、請求項51に記載の装置。
- 背景雑音信号から音楽信号を区別し、雑音エネルギー推定の更新を回避するために、相補的非定常性パラメータの計算器と、前記音声信号の雑音特徴の計算器とをさらに備える、請求項50に記載の装置。
- 前記音声信号内のスペクトル変化およびスペクトルアタックの検出に使用されるスペクトルパラメータの計算器をさらに備える、請求項50に記載の装置。
- 音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する装置であって、
前記音声信号内の音声区間を検出する手段と、
前記音声信号内の前記検出された音声区間に従って、前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類する手段と、
前記音声信号がアクティブ音声信号として分類されたことに応答して、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方としてさらに分類する手段と
を備え、
前記音声信号を無声スピーチ信号としてさらに分類する手段は、音楽信号を無声スピーチ信号として分類することを回避するために、前記音声信号の音調に関連するパラメータを推定する手段を備え、
前記音調に関連するパラメータを推定する手段は、請求項45〜48のいずれか一項に記載の装置を備える、装置。 - 音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する装置であって、
前記音声信号内の音声区間の検出器と、
前記音声信号内の前記検出された音声区間に従って前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類する第1の音声信号分類器と、
前記第1の音声信号分類器と併せて、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方として分類する第2の音声信号分類器と
を備え、
前記音声区間検出器は、音楽信号を無声スピーチ信号として分類することを回避するために、前記音声信号の音調を推定する音調推定器を備え、
前記音調推定器は、請求項45〜48のいずれか一項に記載の装置を備える、装置。 - 前記音声信号の前記分類に従って前記音声信号を符号化する音声エンコーダをさらに備える、請求項57に記載の装置。
- 前記音声エンコーダは、非アクティブ音声信号を符号化する雑音エンコーダを備える、請求項58に記載の装置。
- 前記音声エンコーダは無声スピーチに最適化されたコーダを備える、請求項58に記載の装置。
- 前記音声エンコーダは、安定有声信号を符号化する有声スピーチに最適化されたコーダを備える、請求項58に記載の装置。
- 前記音声エンコーダは、高速に発達しつつある有声信号を符号化する汎用音声信号コーダを備える、請求項58に記載の装置。
- 音声信号の分類を使用して音声信号の高帯域を符号化する装置であって、
前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類する手段と、
前記分類された音声信号の前記高帯域を符号化する手段と
を備え、
前記音声信号を音調信号として分類する手段は、請求項45〜48のいずれか一項に記載の音声信号の音調を推定する装置を備える、装置。 - 音声信号の分類を使用して音声信号の高帯域を符号化する装置であって、
前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類する音声信号分類器と、
前記分類された音声信号の前記高帯域を符号化する音声エンコーダと
を備え、
前記音声信号分類器は、請求項45〜48のいずれか一項に記載の音声信号の音調を推定する装置を備える、装置。 - 前記音声信号から導出される前記スペクトルフロアを計算する移動平均フィルタをさらに備え、前記スペクトルフロアは、前記音声信号の前記音調を推定する際に使用される、請求項64に記載の装置。
- 前記音声信号の前記剰余スペクトルを平滑化する短期移動平均フィルタをさらに備え、前記剰余スペクトルは、前記音声信号の前記音調を推定する際に使用される、請求項64に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US92933607P | 2007-06-22 | 2007-06-22 | |
US60/929,336 | 2007-06-22 | ||
PCT/CA2008/001184 WO2009000073A1 (en) | 2007-06-22 | 2008-06-20 | Method and device for sound activity detection and sound signal classification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010530989A JP2010530989A (ja) | 2010-09-16 |
JP5395066B2 true JP5395066B2 (ja) | 2014-01-22 |
Family
ID=40185136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010512474A Active JP5395066B2 (ja) | 2007-06-22 | 2008-06-20 | 音声区間検出および音声信号分類ための方法および装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8990073B2 (ja) |
EP (1) | EP2162880B1 (ja) |
JP (1) | JP5395066B2 (ja) |
CA (1) | CA2690433C (ja) |
ES (1) | ES2533358T3 (ja) |
RU (1) | RU2441286C2 (ja) |
WO (1) | WO2009000073A1 (ja) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
US8521530B1 (en) * | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
BRPI1008915A2 (pt) * | 2009-02-27 | 2018-01-16 | Panasonic Corp | dispositivo de determinação de tom e método de determinação de tom |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US9215538B2 (en) * | 2009-08-04 | 2015-12-15 | Nokia Technologies Oy | Method and apparatus for audio signal classification |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
EP2491548A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER |
CA2778342C (en) * | 2009-10-19 | 2017-08-22 | Martin Sehlstedt | Method and background estimator for voice activity detection |
CN102714040A (zh) * | 2010-01-14 | 2012-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法 |
US9263063B2 (en) * | 2010-02-25 | 2016-02-16 | Telefonaktiebolaget L M Ericsson (Publ) | Switching off DTX for music |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
JP5714002B2 (ja) * | 2010-04-19 | 2015-05-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置、符号化方法及び復号方法 |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8907929B2 (en) * | 2010-06-29 | 2014-12-09 | Qualcomm Incorporated | Touchless sensing and gesture recognition using continuous wave ultrasound signals |
KR20130036304A (ko) * | 2010-07-01 | 2013-04-11 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
US8521541B2 (en) * | 2010-11-02 | 2013-08-27 | Google Inc. | Adaptive audio transcoding |
ES2665944T3 (es) * | 2010-12-24 | 2018-04-30 | Huawei Technologies Co., Ltd. | Aparato para realizar una detección de actividad de voz |
EP3726530B1 (en) * | 2010-12-24 | 2024-05-22 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting a voice activity in an input audio signal |
EP2686846A4 (en) * | 2011-03-18 | 2015-04-22 | Nokia Corp | DEVICE FOR AUDIO SIGNAL PROCESSING |
US20140114653A1 (en) * | 2011-05-06 | 2014-04-24 | Nokia Corporation | Pitch estimator |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
US8527264B2 (en) * | 2012-01-09 | 2013-09-03 | Dolby Laboratories Licensing Corporation | Method and system for encoding audio data with adaptive low frequency compensation |
US9099098B2 (en) | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
EP2828854B1 (en) * | 2012-03-23 | 2016-03-16 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
KR101398189B1 (ko) * | 2012-03-27 | 2014-05-22 | 광주과학기술원 | 음성수신장치 및 음성수신방법 |
DK2831874T3 (en) | 2012-03-29 | 2017-06-26 | ERICSSON TELEFON AB L M (publ) | Transformation encoding / decoding of harmonic audio signals |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
EP2891151B1 (en) | 2012-08-31 | 2016-08-24 | Telefonaktiebolaget LM Ericsson (publ) | Method and device for voice activity detection |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
KR102561265B1 (ko) * | 2012-11-13 | 2023-07-28 | 삼성전자주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CA2895391C (en) * | 2012-12-21 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
MY169132A (en) | 2013-06-21 | 2019-02-18 | Fraunhofer Ges Forschung | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN106409310B (zh) | 2013-08-06 | 2019-11-19 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
US9570093B2 (en) | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
US9769550B2 (en) | 2013-11-06 | 2017-09-19 | Nvidia Corporation | Efficient digital microphone receiver process and system |
US9454975B2 (en) * | 2013-11-07 | 2016-09-27 | Nvidia Corporation | Voice trigger |
JP2015099266A (ja) * | 2013-11-19 | 2015-05-28 | ソニー株式会社 | 信号処理装置、信号処理方法およびプログラム |
PT3438979T (pt) * | 2013-12-19 | 2020-07-28 | Ericsson Telefon Ab L M | Estimativa de ruído de fundo em sinais de áudio |
US9934793B2 (en) | 2014-01-24 | 2018-04-03 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9899039B2 (en) | 2014-01-24 | 2018-02-20 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
WO2015115677A1 (ko) * | 2014-01-28 | 2015-08-06 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101621780B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
EP3550563B1 (en) * | 2014-03-31 | 2024-03-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder, encoding method, decoding method, and associated programs |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
WO2015171061A1 (en) * | 2014-05-08 | 2015-11-12 | Telefonaktiebolaget L M Ericsson (Publ) | Audio signal discriminator and coder |
CN105225666B (zh) * | 2014-06-25 | 2016-12-28 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
ES2664348T3 (es) | 2014-07-29 | 2018-04-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimación de ruido de fondo en señales de audio |
US9799330B2 (en) | 2014-08-28 | 2017-10-24 | Knowles Electronics, Llc | Multi-sourced noise suppression |
US10163453B2 (en) * | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
US9401158B1 (en) * | 2015-09-14 | 2016-07-26 | Knowles Electronics, Llc | Microphone signal fusion |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN106910494B (zh) | 2016-06-28 | 2020-11-13 | 创新先进技术有限公司 | 一种音频识别方法和装置 |
US9978392B2 (en) * | 2016-09-09 | 2018-05-22 | Tata Consultancy Services Limited | Noisy signal identification from non-stationary audio signals |
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
KR20200133525A (ko) | 2019-05-20 | 2020-11-30 | 삼성전자주식회사 | 생체 정보 추정 모델의 유효성 판단 장치 및 방법 |
JP7552137B2 (ja) | 2020-08-13 | 2024-09-18 | 沖電気工業株式会社 | 音声検出装置、音声検出プログラム、及び音声検出方法 |
CN112908352B (zh) * | 2021-03-01 | 2024-04-16 | 百果园技术(新加坡)有限公司 | 一种音频去噪方法、装置、电子设备及存储介质 |
US11545159B1 (en) | 2021-06-10 | 2023-01-03 | Nice Ltd. | Computerized monitoring of digital audio signals |
CN116935900A (zh) * | 2022-03-29 | 2023-10-24 | 哈曼国际工业有限公司 | 语音检测方法 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040217A (en) | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
JPH05335967A (ja) * | 1992-05-29 | 1993-12-17 | Takeo Miyazawa | 音情報圧縮方法及び音情報再生装置 |
DE69421911T2 (de) * | 1993-03-25 | 2000-07-20 | British Telecommunications P.L.C., London | Spracherkennung mit pausedetektion |
JP3321933B2 (ja) * | 1993-10-19 | 2002-09-09 | ソニー株式会社 | ピッチ検出方法 |
JPH07334190A (ja) * | 1994-06-14 | 1995-12-22 | Matsushita Electric Ind Co Ltd | 高調波振幅値量子化装置 |
US5712953A (en) * | 1995-06-28 | 1998-01-27 | Electronic Data Systems Corporation | System and method for classification of audio or audio/video signals based on musical content |
JP3064947B2 (ja) * | 1997-03-26 | 2000-07-12 | 日本電気株式会社 | 音声・楽音符号化及び復号化装置 |
US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
US6424938B1 (en) | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6160199A (en) | 1998-12-21 | 2000-12-12 | The Procter & Gamble Company | Absorbent articles comprising biodegradable PHA copolymers |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6510407B1 (en) * | 1999-10-19 | 2003-01-21 | Atmel Corporation | Method and apparatus for variable rate coding of speech |
JP2002169579A (ja) * | 2000-12-01 | 2002-06-14 | Takayuki Arai | オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置 |
DE10109648C2 (de) | 2001-02-28 | 2003-01-30 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
DE10134471C2 (de) | 2001-02-28 | 2003-05-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
EP1280138A1 (de) * | 2001-07-24 | 2003-01-29 | Empire Interactive Europe Ltd. | Verfahren zur Analyse von Audiosignalen |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
FR2850781B1 (fr) * | 2003-01-30 | 2005-05-06 | Jean Luc Crebouw | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
US7333930B2 (en) * | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
JP4434813B2 (ja) * | 2004-03-30 | 2010-03-17 | 学校法人早稲田大学 | 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 |
DE602004020765D1 (de) * | 2004-09-17 | 2009-06-04 | Harman Becker Automotive Sys | Bandbreitenerweiterung von bandbegrenzten Tonsignalen |
RU2404506C2 (ru) * | 2004-11-05 | 2010-11-20 | Панасоник Корпорэйшн | Устройство масштабируемого декодирования и устройство масштабируемого кодирования |
KR100657948B1 (ko) * | 2005-02-03 | 2006-12-14 | 삼성전자주식회사 | 음성향상장치 및 방법 |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
JP2007025290A (ja) | 2005-07-15 | 2007-02-01 | Matsushita Electric Ind Co Ltd | マルチチャンネル音響コーデックにおける残響を制御する装置 |
KR101116363B1 (ko) * | 2005-08-11 | 2012-03-09 | 삼성전자주식회사 | 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 |
JP4736632B2 (ja) * | 2005-08-31 | 2011-07-27 | 株式会社国際電気通信基礎技術研究所 | ボーカル・フライ検出装置及びコンピュータプログラム |
US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
TWI330355B (en) * | 2005-12-05 | 2010-09-11 | Qualcomm Inc | Systems, methods, and apparatus for detection of tonal components |
KR100653643B1 (ko) * | 2006-01-26 | 2006-12-05 | 삼성전자주식회사 | 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 |
SG136836A1 (en) * | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
JP4236675B2 (ja) * | 2006-07-28 | 2009-03-11 | 富士通株式会社 | 音声符号変換方法および装置 |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US8428957B2 (en) * | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
-
2008
- 2008-06-20 JP JP2010512474A patent/JP5395066B2/ja active Active
- 2008-06-20 WO PCT/CA2008/001184 patent/WO2009000073A1/en active Application Filing
- 2008-06-20 ES ES08783143.4T patent/ES2533358T3/es active Active
- 2008-06-20 EP EP08783143.4A patent/EP2162880B1/en active Active
- 2008-06-20 RU RU2010101881/08A patent/RU2441286C2/ru active
- 2008-06-20 US US12/664,934 patent/US8990073B2/en active Active
- 2008-06-20 CA CA2690433A patent/CA2690433C/en active Active
Also Published As
Publication number | Publication date |
---|---|
CA2690433A1 (en) | 2008-12-31 |
CA2690433C (en) | 2016-01-19 |
US8990073B2 (en) | 2015-03-24 |
US20110035213A1 (en) | 2011-02-10 |
EP2162880A4 (en) | 2013-12-25 |
ES2533358T3 (es) | 2015-04-09 |
RU2010101881A (ru) | 2011-07-27 |
RU2441286C2 (ru) | 2012-01-27 |
WO2009000073A1 (en) | 2008-12-31 |
EP2162880B1 (en) | 2014-12-24 |
EP2162880A1 (en) | 2010-03-17 |
WO2009000073A8 (en) | 2009-03-26 |
JP2010530989A (ja) | 2010-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5395066B2 (ja) | 音声区間検出および音声信号分類ための方法および装置 | |
KR100870502B1 (ko) | 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기 | |
US8396707B2 (en) | Method and device for efficient quantization of transform information in an embedded speech and audio codec | |
KR101295729B1 (ko) | 비트 레이트규모 가변적 및 대역폭규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법 | |
US7693710B2 (en) | Method and device for efficient frame erasure concealment in linear predictive based speech codecs | |
EP1157374B1 (en) | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting | |
US9672835B2 (en) | Method and apparatus for classifying audio signals into fast signals and slow signals | |
DK2633521T3 (en) | CODING GENERIC AUDIO SIGNALS BY LOW BITRATES AND LOW DELAY | |
US8352250B2 (en) | Filtering speech | |
KR20090104846A (ko) | 디지털 오디오 신호에 대한 향상된 코딩/디코딩 | |
KR20100031742A (ko) | 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩 | |
WO2010028301A1 (en) | Spectrum harmonic/noise sharpness control | |
JP5097219B2 (ja) | 非因果性ポストフィルタ | |
US8571852B2 (en) | Postfilter for layered codecs | |
US20180033444A1 (en) | Audio encoder and method for encoding an audio signal | |
TW201923749A (zh) | 支援一組不同丟失消隱工具之音訊解碼器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5395066 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |