[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5395066B2 - 音声区間検出および音声信号分類ための方法および装置 - Google Patents

音声区間検出および音声信号分類ための方法および装置 Download PDF

Info

Publication number
JP5395066B2
JP5395066B2 JP2010512474A JP2010512474A JP5395066B2 JP 5395066 B2 JP5395066 B2 JP 5395066B2 JP 2010512474 A JP2010512474 A JP 2010512474A JP 2010512474 A JP2010512474 A JP 2010512474A JP 5395066 B2 JP5395066 B2 JP 5395066B2
Authority
JP
Japan
Prior art keywords
signal
speech
audio signal
tone
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010512474A
Other languages
English (en)
Other versions
JP2010530989A (ja
Inventor
ウラジミール・マレノフスキー
ミラン・ジェリネク
トミー・ヴェヤンクール
レドワン・サラミ
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40185136&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP5395066(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2010530989A publication Critical patent/JP2010530989A/ja
Application granted granted Critical
Publication of JP5395066B2 publication Critical patent/JP5395066B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音声が有用な信号として理解される、音声区間の検出、背景雑音の推定、および音声信号の分類に関する。本発明は、対応する音声区間検出器、背景雑音推定器、および音声信号分類器にも関する。
排他的にではないが、特に、
−音声区間検出は、非アクティブフレームに最適化された技法を使用して符号化されるフレームの選択に使用され、
−音声信号分類器は、異なるスピーチ信号クラスおよび音楽を区別して、音声信号をより効率的に符号化できるようにするため、すなわち、無声スピーチ信号の最適化された符号化、安定有声信号の最適化された符号化、および他の音声信号の一般的な符号化を可能にするために使用され、
−アルゴリズムが提供され、このアルゴリズムは、いくつかの関連パラメータおよび特徴を使用して、符号化モードのよりよい選択および背景雑音のよりロバストな推定を可能にし、
−音調推定が、音楽信号の存在する場合の音声区間検出の性能を向上させるため、かつ無声音と音楽とをよりよく区別するために使用され、例えば、音調推定を超広帯域コーデックに使用して、7kHzを超える信号を符号化するコーデックモデルを決定することができる。
主観的品質とビットレートとのトレードオフが良好で効率的な狭帯域および広帯域のデジタルスピーチ符号化技法に対する需要が、テレビ会議、マルチメディア、および無線通信等の様々な用途で増えつつある。最近まで、200〜3400Hzの範囲内に制限されてきた電話帯域幅は、主にスピーチ符号化用途(信号は8kHzでサンプリングされる)に使用されてきた。しかし、広帯域スピーチ用途は、従来の電話帯域幅と比較して、了解度および自然度のより高い通信を提供する。広帯域サービスでは、入力信号は16kHzでサンプリングされ、符号化帯域幅は50〜7000Hzの範囲である。この帯域幅は、対面でのやりとりに近い印象を与える良好な品質をもたらすのに十分なことが分かっている。さらなる品質の改良が、いわゆる超広帯域を使用して達成され、この場合、信号は32kHzでサンプリングされ、符号化帯域幅は50〜15000Hzの範囲である。スピーチ信号の場合、これは、人間の発話内の略すべてのエネルギーが14000Hz未満であるため、対面品質を提供する。この帯域幅は、音楽を含むオーディオ信号全般にかなりの品質改良も与える(広帯域はAMラジオと等価であり、超広帯域はFMラジオと等価である)。オーディオ信号全般には、より高い帯域幅が使用され(CD品質は44.1kHzまたは48kHzでサンプリングされる)、全帯域は20〜20000Hzである。
音声エンコーダが、音声信号(スピーチまたはオーディオ)をデジタルビットストリームに変換し、デジタルビットストリームは、通信チャネル上で送信されるか、または記憶媒体に記憶される。音声信号はデジタル化される。すなわち、通常は16ビット/サンプルでサンプリングされ量子化される。音声エンコーダは、良好な主観的品質を保ちながら、これらデジタルサンプルをより少数のビットを使用して表す役割を果たす。音声デコーダは、送信または記憶されたビットストリームに対して動作して、ビットストリームを元の音声信号に変換する。
符号励振線形予測(CELP)符号化は、主観的品質とビットレートとの良好な折り合いを達成する最良の従来技術による技法の1つである。この符号化技法は、無線用途および有線用途の両方でのいくつかのスピーチ符号化規格の基本である。CELP符号化では、サンプリングされたスピーチ信号は、通常はフレームと呼ばれるL個のサンプルの連続ブロックで処理される。但し、Lは通常、10〜30msに対応する所定の数である。線形予測(LP)フィルタが、あらゆるフレームについて計算され、送信される。Lサンプルのフレームは、サブフレームと呼ばれるより小さなブロックに分けられる。各サブフレームでは、通常、励振信号が、過去の励振および革新的固定コードブック励振(innovative fixed codebook excitation)という2つの成分から得られる。過去の励振から形成される成分は、多くの場合、適応コードブックまたはピッチ励振と呼ばれる。励振信号を特徴付けるパラメータは、符号化されてデコーダに送信され、デコーダにおいて、再構築された励振信号がLPフィルタの入力として使用される。
ソース制御可変ビットレート(VBR)スピーチ符号化の使用は、システム容量をかなり向上させる。ソース制御VBR符号化では、コーデックは信号分類モジュールを使用し、最適化符号化モデルが、スピーチフレームの性質(例えば、有声、無声、過渡(transient)、背景雑音)に基づく各スピーチフレームの符号化に使用される。さらに、異なるビットレートを各クラスに使用することができる。ソース制御VBR符号化の最も単純な形態は、音声区間検出(VAD)を使用し、非アクティブスピーチフレーム(背景雑音)を非常に低いビットレートで符号化するものである。安定背景雑音の場合にデータが送信されない不連続送信(DTX)をさらに使用することができる。デコーダは、無音区間疑似背景雑音生成(CNG:comfort noise generation)を使用して、背景雑音特徴を生成する。VAD/DTX/CNGにより、結果として平均ビットレートがかなり低減されると共に、パケット交換用途において、ルーティングされるパケット数がかなり低減する。VADアルゴリズムは、スピーチ信号には上手く機能するが、音楽信号の場合には重大な問題を生じさせ得る。音楽信号のセグメントが無声信号として分類され、結果として、無声最適化モードで符号化されることがあり、これは音楽品質に深刻に影響する。さらに、安定音楽信号のセグメントによっては、安定背景雑音として分類されることがあり、これは、VADアルゴリズムでの背景雑音の更新を引き起こし、結果として、アルゴリズムの性能低下に繋がることがある。したがって、音楽信号をよりよく区別するようにVADアルゴリズムを拡張することが有利である。本開示では、このアルゴリズムは、音声区間検出(SAD)アルゴリズムと呼ばれ、音声はスピーチ、音楽、または他の任意の有用な信号であることができる。本開示は、音楽信号の場合にSADアルゴリズムの性能を向上させるために使用される音調検出方法も記載する。
スピーチおよびオーディオの符号における別の側面は、階層符号化としても知られている埋め込み符号化の概念である。埋め込み符号化では、信号は第1の階層に符号化されて、第1のビットストリームを生成し、次に、元の信号と第1の階層からの符号化信号との誤差がさらに符号化されて、第2のビットストリームが生成される。これは、元の信号とすべての先行階層からの符号化信号との誤差を符号化することにより、より多くの階層に対して繰り返すことができる。すべての階層のビットストリームは連結されて送信される。階層符号化の利点は、ビットストリームの部分(上位階層に対応する)をネットワーク内で破棄でき(例えば、輻輳の場合に)、破棄してもなお、受信した階層の数に依存して受信器で信号を復号化することができることである。階層符号化は、エンコーダがすべての階層のビットストリームを生成し、ネットワークが、各リンクで利用可能なビットレートに依存して、異なるエンドポイントに異なるビットレートを送信することを決定するマルチキャスト用途でも有用である。
埋め込み符号化または階層符号化は、広く使用されている既存のコーデックの品質を、これらコーデックとの相互運用性をなお保ちながら、向上させるためにも有用であることができる。より多くの階層を標準のコーデックコア階層に追加することにより、品質を向上させることができると共に、さらには、符号化オーディオ信号の帯域幅を増大させることができる。例は、最近標準化されたITU−T勧告G.729.1であり、ITU−T勧告G.729.1では、コア層が、8キロビット/秒の広く使用されているG.729狭帯域規格と相互運用可能であり、上位階層が最高で32キロビット/秒のビットレートを生成する(広帯域信号は16キロビット/秒から始まる)。現在の標準化作業は、より多くの階層を追加して、超広帯域コーデック(14kHz帯域幅)およびステレオ拡張を生成することを目指している。別の例は、8、12、16、24、および32キロビット/秒での広帯域符号化のITU−T勧告G718である。このコーデックも、より高いビットレートで超広帯域およびステレオ信号を符号化するように拡張されつつある。
埋め込みコーデックの要件は、通常、スピーチ信号およびオーディオ信号の両方の場合で良好な品質を必要とする。スピーチは、モデルベースの手法を使用して比較的低いビットレートで符号化することができるため、第1の階層(または最初の2階層)は、スピーチに特定の技法を使用して符号化され、上位階層の誤差信号は、より汎用的なオーディオ符号化技法を使用して符号化される。これにより、低ビットレートで良好なスピーチ品質が届けられると共に、ビットレートが増大するため、良好なオーディオ品質が届けられる。G.718およびG.729.1では、最初の2階層は、スピーチ信号の符号化に適したACELP(代数的符号励振線形予測)技法に基づく。上位階層では、オーディオ信号に適する変換ベースの符号化が使用されて、誤差信号(元の信号と最初の2階層からの出力との差)が符号化される。周知のMDCT(変形離散コサイン変換)変換が使用され、この変換では、誤差信号は周波数領域において変換される。超広帯域階層では、7kHzを超える信号は、汎用符号化モデルまたは音調符号化モデル(tonal coding model)を使用して符号化される。上述した音調検出も、使用すべき適切な符号化モデルの選択に使用することができる。
本発明の第1の態様によれば、音声信号の音調を推定する方法が提供される。この方法は、音声信号の現在の剰余スペクトルを計算するステップと、現在の剰余スペクトルのピークを検出するステップと、検出された各ピークについて、現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算するステップと、計算された相関マップに基づいて長期相関マップを計算するステップとを含み、長期相関マップは、音声信号の音調を示す。
本発明の第2の態様によれば、音声信号の音調を推定する装置が提供される。この装置は、音声信号の現在の剰余スペクトルを計算する手段と、現在の剰余スペクトルのピークを検出する手段と、検出された各ピークについて、現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算する手段と、計算された相関マップに基づいて長期相関マップを計算する手段とを備え、長期相関マップは、音声信号の音調を示す。
本発明の第3の態様によれば、音声信号の音調を推定する装置が提供される。この装置は、音声信号の現在の剰余スペクトルの計算器と、現在の剰余スペクトルのピークの検出器と、検出された各ピークについての現在の剰余スペクトルと前の剰余スペクトルとの相関マップの計算器と、計算された相関マップに基づく長期相関マップの計算器とを備え、長期相関マップは、音声信号の音調を示す。
本発明の上記および他の目的、利点、および特徴は、添付図面を参照して単なる例として与えられる本発明の例示的な実施形態の以下の限定されない説明を読めば、より明確になるであろう。
音声区間の検出、背景雑音推定の更新、および音声信号の分類を含む音声通信システムの例の部分の概略ブロック図である。 スペクトル解析での窓掛け処理の非限定的な図である。 スペクトルフロア(spectral floor)および剰余スペクトルの原理の非限定的なグラフ図である。 現在のフレーム内のスペクトル相関マップの計算の非限定的な図である。 信号分類アルゴリズムの機能ブロック図の例である。 無声スピーチを区別するための決定木の例である。
本発明の非限定的で例示的な実施形態では、音声区間検出(SAD)が、音声通信システム内で実行されて、信号の短期フレームを音声または背景雑音/無音として分類する。音声区間検出は、周波数に依存する信号対雑音比(SNR)に基づき、臨界帯域毎の推定背景雑音エネルギーを使用する。背景雑音推定器の更新についての判断は、背景雑音/無音と音楽とを区別し、それにより、音楽信号についての背景雑音推定器の更新を回避するパラメータを含むいくつかのパラメータに基づく。
SADは、信号分類の第1の段階に対応する。この第1の段階は、非アクティブ信号の最適化された符号化のために、非アクティブフレームを区別するために使用される。第2の段階において、無声スピーチフレームが、無声信号の最適化された符号化のために区別される。この第2の段階において、音楽を無声信号として分類することを回避するために、音楽検出が追加される。最後に、第3の段階において、有声信号が、フレームパラメータのさらなる調査を通して区別される。
本明細書に開示される技法は、8000サンプル/秒でサンプリングされる狭帯域(NB)音声信号または16000サンプル/秒もしくは他の任意のサンプリング周波数でサンプリングされる広帯域(WB)音声信号のいずれかと共に導入することができる。本発明の非限定的で例示的な実施形態において使用されるエンコーダは、内部サンプリング変換を使用して、信号サンプリング周波数を12800サンプル/秒に変換する(6.4kHz帯域幅内で動作する)AMR−WBコーデック[AMR Wideband Speech Codec:Transcoding Functions,3GPP Technical Specification TS 26.190(http://www.3gpp.org)]およびVMR−WB[Source−Controlled Variable−Rate Multimode Wideband Speech Codec(VMR−WB),Service Options 62 and 63 for Spread Spectrum Systems,3GPP2 Technical Specification C.S0052−A v1.0,April 2005(http://www.3gpp2.org)]コーデックに基づく。したがって、非限定的で例示的な実施形態における音声区間検出技法は、12.8kHzへのサンプリング変換後、狭帯域信号または広帯域信号のいずれかに対して動作する。
図1は、音声区間検出を含む、本発明の非限定的で例示的な実施形態による音声通信システム100のブロック図である。
図1の音声通信システム100は、プリプロセッサ101を備える。モジュール101による事前処理は、以下の例(高域通過フィルタリング、再サンプリング、およびプリエンファシス)で説明するように実行することができる。
周波数変換前に、入力音声信号は高域通過フィルタリングされる。この非限定的で例示的な実施形態では、高域通過フィルタの遮断周波数は、WBの場合には25Hzであり、NBの場合には100Hzである。高域通過フィルタは、望ましくない低周波成分に対する防止策として機能する。例えば、以下の伝達関数を使用することができる。
式中、WBの場合、b=0.9930820、b=−1.98616407、b=0.9930820、a=−1.9861162、a=0.9862119292であり、NBの場合、b=0.945976856、b=−1.891953712、b=0.945976856、a=−1.889033079、a=0.894874345である。明らかなことに、高域通過フィルタリングは、代替として、12.8kHzに再サンプリングした後に実行することもできる。
WBの場合、入力音声信号は、16kHzから12.8kHzに間引きされる。この間引きは、音声信号を4でアップサンプリングするアップサンプラによって実行される。結果として得られる出力は、次に、遮断周波数6.4kHzを有する低域通過FIR(有限インパルス応答)フィルタを通してフィルタリングされる。次に、低域通過フィルタリングされた信号は、適切なダウンサンプラによって5でダウンサンプリングされる。フィルタリング遅延は、16kHzサンプリング周波数で16個のサンプルである。
NBの場合、音声信号は8kHzから12.8kHzにアップサンプリングされる。そのために、アップサンプラが、音声信号に対して8でのアップサンプリングを実行する。結果として得られる出力は、次に、遮断周波数6.4kHzを有する低域通過FIRフィルタを通してフィルタリングされる。次に、ダウンサンプラが低域通過フィルタリングされた信号を5でダウンサンプリングする。フィルタリング遅延は、8kHzサンプリング周波数で16個のサンプルである。
サンプリング変換後、符号化処理前に、プリエンファシスが音声信号に適用される。プリエンファシスでは、一次高域通過フィルタが使用されて、高周波が強調される。この一次高域通過フィルタは、プリエンファサイザ(pre−emphasizer)を形成し、例えば、以下の伝達関数を使用する。
pre−emph(z)=1−0.68z−1
プリエンファシスは、高周波数でのコーデック性能を向上させると共に、エンコーダに使用される誤差最小化処理での知覚的重み付けを向上させるために使用される。
上述したように、入力音声信号は12.8kHzサンプリング周波数に変換され、例えば、上述したように事前処理される。しかし、開示される技法は、異なる事前処理が施されるか、または事前処理なしの、8kHzまたは16kHz等の他のサンプリング周波数での信号にも等しく適用することができる。
本発明の非限定的で例示的な実施形態では、音声区間検出を使用するエンコーダ109(図1)は、12.8kHzサンプリング周波数での256個のサンプルを含む20msフレームに対して動作する。エンコーダ109は、将来のフレームからの10msの先読みを使用して、解析を実行する(図2)。音声区間検出は、同じフレーミング構造に従う。
図1を参照すると、スペクトル解析はスペクトル解析器102において実行される。2つの解析が、50%の重複を有する20ms窓を使用して各フレームで実行される。窓掛け処理の原理を図2に示す。周波数ビンおよび臨界帯域の信号エネルギーが計算される[J.D.Johnston,“Transform coding of audio signal using perceptual noise criteria”,IEEE J.Select.Areas Commun.,vol.6,pp.314−323,February 1988]。
音声区間検出(信号分類の第1の段階)が、前のフレームで計算された雑音エネルギー推定を使用して音声区間検出器103内で実行される。音声区間検出器103の出力は二進変数であり、この二進変数は、エンコーダ109によりさらに使用され、現在のフレームがアクティブとして符号化されているか、それとも非アクティブとして符号化されているかを決める。
雑音推定器104は、雑音推定を下方更新する(雑音推定および更新の第1のレベル)。すなわち、臨界帯域において、フレームエネルギーが背景雑音の推定エネルギーよりも低い場合、その臨界帯域の雑音推定のエネルギーが更新される。
雑音低減は、オプションとして、例えば、スペクトル減算方法を使用して、オプションの雑音低減器105によりスピーチ信号に適用される。このような雑音低減方式の例は、[M.Jelinek and R.Salami,“Noise Reduction Method for Wideband Speech Coding”,in Proc.Eusipco,Vienna,Austria,September 2004]に説明されている。
線形予測(LP)解析および開ループピッチ解析が、LP解析器・ピッチ追跡器106によって実行される(通常、スピーチ符号化アルゴリズムの一環として)。この非限定的で例示的な実施形態では、LP解析器・ピッチ追跡器106から得られたパラメータは、モジュール107において実行される臨界帯域での雑音推定の更新の判断の際に使用される。あるいは、音声区間検出器103は、雑音更新判断をするために使用することもできる。さらなる代替によれば、LP解析器・ピッチ追跡器106により実施される機能は、音声符号化アルゴリズムの一体部分であることができる。
モジュール107において雑音エネルギー推定を更新する前に、音楽検出が実行されて、アクティブ音楽信号による誤った更新が回避される。音楽検出は、スペクトル解析器102により計算されたスペクトルパラメータを使用する。
最後に、雑音エネルギー推定がモジュール107において更新される(雑音推定および更新の第2のレベル)。このモジュール107は、モジュール102〜106においてそれまでに計算された利用可能なすべてのパラメータを使用して、雑音エネルギー推定の更新について判断する。
信号分類器108において、音声信号は、無声、安定有声、または一般にさらに分類される。いくつかのパラメータが、この判断をサポートするために計算される。この信号分類器において、符号化中の信号の分類を最もよく表すように、現在のフレームの音声信号を符号化するモードが選ばれる。
音声エンコーダ109は、音声信号分類器108において選択される符号化モードに基づいて音声信号の符号化を実行する。他の用途では、音声信号分類器108は、自動スピーチ認識システムであることができる。
スペクトル解析
スペクトル解析は、図1のスペクトル解析器102によって実行される。
フーリエ変換が使用されて、スペクトル解析およびスペクトルエネルギー推定が実行される。スペクトル解析は、50%重複を使用する(図2に示すように)256ポイント高速フーリエ変換(FFT)を使用してフレーム毎に2度行われる。解析窓は、すべての先読みが利用されるように配置される。第1の窓の冒頭は、エンコーダの現在のフレームの冒頭にある。第2の窓は、サンプル128個分、後に配置される。平方根ハニング窓(正弦窓に等しい)が使用されて、スペクトル解析のために入力音声信号が重み付けされる。この窓は重複加算法に特によく適する(したがって、この特定のスペクトル解析は、スペクトル減算および重複加算解析/合成に基づく雑音抑圧に使用される)。平方根ハニング窓は、
により与えられ、式中、LFFT=256はFTT解析のサイズである。ここでは、この窓は対称であるため、窓の半分のみ(0からLFFT/2まで)が計算され記憶される。
両方のスペクトル解析(第1および第2のスペクトル解析)の窓掛け処理された信号が、以下の2つの関係式を使用して得られる。
(1)(n)=wFFT(n)s’(n) n=0,...,LFFT−1
(2)(n)=wFFT(n)s’(n+LFFT/2) n=0,...,LFFT−1
式中、s’(0)は現在のフレーム内の最初のサンプルである。本発明の非限定的で例示的な実施形態では、第1の窓の冒頭は、現在のフレームの冒頭に配置される。第2の窓は、サンプル128個分、さらに配置される。
FFTは、窓掛け処理された両方の信号に対して実行され、フレーム毎に以下の2つのスペクトルパラメータセットが得られる。
式中、N=LFFTである。
このFFTは、X(k)、k=0〜128、およびX(k)、k=1〜127で示されるスペクトルの実部および虚部を提供する。X(0)は0Hz(DC)でのスペクトルに対応し、X(128)は6400Hzでのスペクトルに対応する。これらポイントでのスペクトルは実数値のみである。
FFT解析後、結果として得られたスペクトルは、以下の上限を有する間隔を使用して臨界帯域に分けられる[M.Jelinek and R.Salami,“Noise Reduction Method for Wideband Speech Coding”,in Proc.Eusipco,Vienna,Austria,September 2004](周波数0〜6400Hz内の20個の帯域)。
臨界帯域={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz
256ポイントFFTにより、50Hzの周波数分解能になる(6400/128)。したがって、スペクトルのDC成分を無視した後、臨界帯域毎の周波数ビンの数のそれぞれは、MCB={2,2,2,2,2,2,3,3,3,4,4,5,6,6,8,9,11,14,18,21}である。
臨界帯域内の平均エネルギーは、以下の関係式
を使用して計算され、式中、X(k)およびX(k)のそれぞれは、k番目の周波数ビンの実部および虚部であり、jは、j={1,3,5,7,9,11,13,16,19,22,26,30,35,41,47,55,64,75,89,107}により与えられるi番目の臨界帯域内の最初のビンのインデックスである。
スペクトル解析器102は、以下の関係式
を使用して、範囲0〜6400Hz内の周波数ビン毎の正規化エネルギーEBIN(k)も計算する。さらに、両解析での周波数ビン毎のエネルギースペクトルは一緒に組み合わせられて、平均対数エネルギースペクトル(デシベル単位)、すなわち、
が得られ、式中、上付き文字(1)および(2)を用いて、第1および第2のスペクトル解析をそれぞれ示している。
最後に、スペクトル解析器102は、平均臨界帯域エネルギーECBを加算することにより、20msフレーム内の第1および第2のスペクトル解析の両方に対して平均総エネルギーを計算する。すなわち、特定のスペクトル解析のスペクトルエネルギーは、以下の関係式
を使用して計算され、総フレームエネルギーは、フレーム内の第1および第2のスペクトル解析の両方のスペクトルエネルギーの平均として計算される。すなわち、
=10log(0.5(Eframe(0)+Eframe(1)),dB (6)
である。
スペクトル解析器102の出力パラメータ、すなわち、臨界帯域毎の平均エネルギー、周波数ビン毎のエネルギー、および総エネルギーは、音声区間検出器103およびレート選択に使用される。平均対数エネルギースペクトルは音楽検出に使用される。
8000サンプル/秒でサンプリングされた狭帯域入力信号では、12800サンプル/秒へのサンプリング変換後、スペクトルの両端には内容がないため、最初の低周波数臨界帯域ならびに最後の3つの高周波数帯域は、関連パラメータの計算に考慮されない(i=1〜16の帯域のみが考慮される)。しかし、式(3)および式(4)は影響されない。
音声区間検出(SAD)
音声区間検出は、図1のSNRベースの音声区間検出器103により実行される。
上述したスペクトル解析は、解析器102によりフレーム毎に2回実行される。式(2)において計算される
が、第1および第2のスペクトル解析のそれぞれでの臨界帯域毎のエネルギー情報を示すものとする。全体フレームおよび前のフレームの部分の臨界帯域毎の平均エネルギーは、以下の関係式
を使用して計算され、式中、
は、前のフレームの第2のスペクトル解析からの臨界帯域毎のエネルギーの情報を示す。次に、臨界帯域毎の信号対雑音比(SNR)が、以下の関係式
SNRCB≧1により境界が決まるSNRCB(i)=Eav(i)/NCB(i) (8)
を使用して計算され、式中、NCB(i)は、後述するように、臨界帯域毎の推定雑音エネルギーである。次に、フレーム毎の平均SNRが、
として計算され、式中、広帯域信号の場合、bmin=0およびbmax=19であり、狭帯域信号の場合、bmin=1であり、bmax=16である。
音声区間は、フレーム毎の平均SNRを、長期SNRの関数である特定の閾値と比較することにより検出される。長期SNRは以下の関係式
により与えられ、式中、
のそれぞれは、後述する式(13)および式(14)を使用して計算される。
の初期値は45dBである。
閾値は、長期SNRの区分的線形関数である。2つの関数が使用され、一方は雑音の少ないスピーチに最適化され、他方は雑音の多いスピーチに最適化される。
広帯域信号の場合、SNRLT<35(雑音の多いスピーチ)の場合、閾値は、
thSAD=0.41287SNRLT+13.259625
に等しく、その他(雑音の少ないスピーチ)の場合、
thSAD=1.0333SNRLT−18
である。
狭帯域信号の場合、SNRLT<20(雑音の多いスピーチ)の場合、閾値は、
thSAD=0.1071SNRLT+16.5
に等しく、その他(雑音の少ないスピーチ)の場合、
thSAD=0.4773SNRLT−6.1364
である。
さらに、SAD判断にヒステリシスが追加されて、アクティブ音声期間の終わりでの周波数の頻繁な切り替えが回避される。ヒステリシス戦略は、広帯域信号および狭帯域信号に対して異なり、信号に雑音が多い場合のみ実行される。
広帯域信号の場合、ヒステリシス戦略は、フレームが、以下
SNRLT≧35の場合、lhang=0
15≦SNRLT<35の場合、lhang=1
SNRLT<15の場合、lhang=2
のように、長期SNRに従って長さが変化する「ハングオーバ期間」内にある場合に適用される。
ハングオーバ期間は、3つの連続したアクティブ音声フレーム後、最初の非アクティブ音声フレームで開始される。その機能は、強制的に、ハングオーバ期間中のあらゆる非アクティブフレームをアクティブフレームにすることからなる。SAD判断については後に説明する。
狭帯域信号の場合、ヒステリシス戦略は、以下
SNRLT<19の場合、thSAD=thSAD−5.2
19≦SNRLT<35の場合、thSAD=thSAD−2
35≦SNRLTの場合、thSAD=thSAD
のように、SAD判断閾値を低減することからなる。したがって、低SNRを有する雑音の多い信号の場合、閾値は、アクティブ信号としての判断に有利なように低減される。狭帯域信号にはハングオーバはない。
最後に、音声区間検出器103は、2つの出力−SADフラグおよびローカルSADフラグを有する。両フラグは、アクティブ信号が検出された場合には1に設定され、その他の場合は0に設定される。さらに、SADフラグは、ハングオーバ期間中は1に設定される。SAD判断は、フレーム毎の平均SNRをSAD判断閾値と比較することにより行われる(例えば、比較器を介して)。すなわち、
if SNRav>thSAD
SADlocal=1
SAD=1
else
SADlocal=0
if ハングオーバ期間中
SAD=1
else
SAD=0
end
end
雑音推定および更新の第1のレベル
図1に示す雑音推定器104は、総雑音エネルギー、相対フレームエネルギー、長期平均雑音エネルギーの更新、および長期平均フレームエネルギーの更新、臨界帯域毎の平均エネルギー、および雑音補正係数を計算する。さらに、雑音推定器104は、雑音エネルギー初期化および下方更新を実行する。
フレーム毎の総雑音エネルギーは、以下の関係式
を使用して計算され、式中、NCB(i)は、臨界帯域毎の推定雑音エネルギーである。
フレームの相対エネルギーは、dB単位のフレームエネルギーと長期平均エネルギーとの差により与えられる。相対フレームエネルギーは、以下の関係式
を使用して計算され、式中Eは式(6)において与えられる。
長期平均雑音エネルギーまたは長期平均フレームエネルギーは、あらゆるフレームで更新される。アクティブ信号フレーム(SADフラグ=1)の場合、長期平均フレームエネルギーは、関係式
を使用して更新され、初期値
である。
非アクティブスピーチフレーム(SADフラグ=0)の場合、長期平均雑音エネルギーは、以下
のように更新される。
の初期値は、最初の4つのフレームのNtotに等しく設定される。最初の4つのフレームでは、
の値は
によって境界が決まる。
全体フレームの臨界帯域毎のフレームエネルギーは、以下の関係式
を使用して、フレームでの第1および第2のスペクトル解析からのエネルギーを平均化することにより計算される。
臨界帯域毎の雑音エネルギーNCB(i)は、0.03に初期化される。
この段階において、雑音エネルギー下方更新のみが臨界帯域に対して実行され、それにより、エネルギーは背景雑音エネルギーよりも低い。第1に、一時更新雑音エネルギーは、以下の関係式
を使用して計算され、式中、
は、前のフレームからの第2のスペクトル解析に対応する臨界帯域毎のエネルギーを示す。
次に、i=0〜19について、Ntmp(i)<NCB(i)の場合、NCB(i)=Ntmp(i)である。
雑音推定および更新の第2のレベルは、フレームが非アクティブフレームであると宣言された場合、NCB(i)=Ntmp(i)に設定することにより、後に実行される。
雑音推定および更新の第2のレベル
パラメトリック音声区間検出・雑音推定更新モジュール107は、次のフレーム内の音声区間検出器103で使用される臨界帯域毎の雑音エネルギー推定を更新する。この更新は、非アクティブ信号期間中に実行される。しかし、臨界帯域毎のSNRに基づく、上で実行されたSAD判断は、雑音エネルギー推定が更新されるか否かを判断する際に使用されない。別の判断が、臨界帯域毎のSNRからむしろ独立して他のパラメータに基づいて実行される。雑音エネルギー推定の更新に使用されるパラメータは、ピッチ安定性、信号非定常性、ボイシング(voicing)、および2次LP残余誤差エネルギーと16次LP残余誤差エネルギーとの比であり、一般に、雑音レベルの変動の影響を受けにくい。雑音エネルギー推定の更新の判断は、スピーチ信号に対して最適化される。アクティブ音楽信号の検出を向上させるために、以下の他のパラメータが使用される:スペクトルダイバーシチ(spectral diversity)、相補的非定常性(complementary non−stationarity)、雑音特徴、および音調安定性。音楽検出については以下の説明において詳細に説明する。
雑音エネルギー推定の更新にSAD判断を使用しない理由は、高速変化する雑音レベルに対して雑音推定をロバストにするためである。仮にSAD判断が雑音エネルギー推定の更新に使用されたならば、雑音レベルの急激な増大が、非アクティブ信号フレームのSNRさえも増大させ、雑音エネルギー推定の更新が阻止され、これにより、後続フレームでSNRが高く保たれることになり、以下同様である。したがって、更新はブロックされ、雑音適合を再開するために、他の何等かのロジックが必要になる。
本発明の非限定的で例示的な実施形態では、開ループピッチ解析が、図1中の)LP解析器・ピッチ追跡器モジュール106において実行されて、フレーム毎に、第1の半フレーム、第2の半フレーム、および先読みのそれぞれに対応する3つの開ループピッチ推定:d、d、およびdが計算される。この手続きは当業者に周知であり、本開示ではこれ以上説明しない(例えば、VMR−WB[Source−Controlled Variable−Rate Multimode Wideband Speech Codec(VMR−WB),Service Options 62 and 63 for Spread Spectrum Systems,3GPP2 Technical Specification C.S0052−A v1.0,April 2005(http://www.3gpp2.org)])。LP解析器・ピッチ追跡器モジュール106は、以下の関係式を使用してピッチ安定性カウンタを計算する。
pc=|d−d−1|+|d−d|+|d−d| (19)
式中、d−1は、前のフレームの第2の半フレームのラグである。122よりも大きなピッチラグの場合、LP解析器・ピッチ追跡器モジュール106は、d=dに設定する。したがって、このようなラグの場合、式(19)中のpcの値は、3/2で乗算されて、この式中の第3項の欠落を補償する。ピッチ安定性は、pcの値が14未満の場合に真である。さらに、ボイシングが低いフレームの場合、pcは14に設定され、ピッチ不安定性を示す。より具体的には、
(Cnorm(d)+Cnorm(d)+Cnorm(d))/3+r<thCpcの場合、pc=14 (20)
であり、式中、Cnorm(d)は、生の正規化相関であり、rは、背景雑音が存在する場合に正規化相関の低減を補償するために、正規化相関に追加されるオプションの補正である。ボイシング閾値は、WBの場合、thCpc=0.52であり、NBの場合、thCpc=0.65である。補正係数は、以下の関係式
を使用して計算することができ、式中、Ntotは、式(11)に従って計算されたフレーム毎の総雑音エネルギーである。
生の正規化相関は、以下の式
を使用して、間引きされた重み付き音声信号swd(n)に基づいて計算することができ、式中、加算限度(summation limit)は遅延自体に依存する。重み付き信号swd(n)は、開ループピッチ解析に使用されるものであり、A(z/γ)/(1−μz−1)の形式の重み付けフィルタを通して、プリプロセッサ101からの事前処理された入力音声信号をフィルタリングすることにより与えられる。重み付き信号swd(n)は2で間引きされ、加算限度は、
d=10,...,16の場合、Lsec=40
d=17,...,31の場合、Lsec=40
d=32,...,61の場合、Lsec=62
d=62,...,115の場合、Lsec=115
に従って与えられる。
これら長さは、相関ベクトル長が、ロバストな開ループピッチ検出を得るのを助ける少なくとも1つのピッチ周期を含むことを保証する。瞬間tstartが現在のフレームの冒頭に関連し、12.8kHzサンプリングレートで、
第1の半フレームの場合、tstart=0
第2の半フレームの場合、tstart=128
先読みの場合、tstart=256
により与えられる。
パラメトリック音声区間検出・雑音推定更新モジュール107は、臨界帯域毎のエネルギーと臨界帯域毎の平均長期エネルギーとの比の積に基づいて信号非定常性推定を実行する。
臨界帯域毎の平均長期エネルギーは、以下の関係式
を使用して更新され、式中、広帯域信号の場合、bmin=0であり、bmax=19であり、狭帯域信号の場合、bmin=1であり、bmax=16であり、
は、式(15)中で定義される臨界帯域毎のフレームエネルギーである。更新係数αは、式(6)中で定義される総フレームエネルギーの線形関数であり、以下のように与えられる。
広帯域信号の場合、0.5≦α≦0.99で境界が決まるα=0.0245E−0.235
狭帯域信号の場合、0.5≦α≦0.999で境界が決まるα=0.00091E+0.3185
は式(6)において与えられる。
フレーム非定常性は、フレームエネルギーと臨界帯域毎の平均長期エネルギーとの比の積により与えられる。より具体的には、
である。
パラメトリック音声区間検出・雑音推定更新モジュール107は、以下の関係式
voicing=(Cnorm(d)+Cnorm(d))/2+r (23)
を使用して雑音更新のボイシング係数をさらに生成する。
最後に、パラメトリック音声区間検出・雑音推定更新モジュール107は、関係式
resid_ratio=E(2)/E(16) (24)
を使用して2次LP解析および16次LP解析後のLP残余エネルギーの比を計算し、式中、E(2)およびE(16)は、当業者に周知の手続きであるレビンソン−ダービン帰納法を使用して、LP解析器・ピッチ追跡器モジュール106において計算される2次LP解析および16次LP解析後のLP残余エネルギーである。この比は、信号スペクトル包絡線を表すために、一般に、雑音よりもスピーチ信号に対して次数のより高いLPが必要とされることを反映する。換言すれば、E(2)とE(16)との差は、アクティブスピーチよりも雑音の場合により低くなると考えられる。
パラメトリック音声区間検出・雑音推定更新モジュール107により行われる更新判断は、最初は6に設定され、非アクティブフレームが検出された場合には1だけ低減され、アクティブフレームが検出された場合には2だけ増分される変数noise_updateに基づいて判断される。変数noise_updateは、0と6との間に区切られる。雑音エネルギー推定は、noise_update=0の場合のみ更新される。
変数noise_updateの値は、以下
If(nonstat<thstat)OR(pc<14)OR(voicing>thCnorm)OR(resid_ratio>thresid
noise_update=noise_update+2
Else
noise_update=noise_update−1
のように各フレームにおいて更新され、広帯域信号の場合、thstat=thCnorm=0.85であり、thresid=1.6であり、狭帯域信号の場合、thstat=500000であり、thCnorm=0.7であり、thresid=10.4である。
換言すれば、フレームは、
(nonstat≦thstat)AND(pc≦14)AND(voicing≦thCnorm)AND(resid_ratio≦thresid
場合、雑音更新に関して非アクティブであると宣言され、雑音更新が行われる前に、フレーム6個のハングオーバが使用される。
したがって、noise_update=0の場合、
i=0〜19について、NCB(i)=Ntmp(i)
であり、式中、Ntmp(i)は、式(18)ですでに計算された一時更新雑音エネルギーである。
音楽信号の雑音検出の改良
上述した雑音推定は、主にスピーチ検出に向けて開発され最適化されたため、ピアノコンサート、器楽ロック、または器楽ポップ等の特定の音楽信号の場合に制限を有する。音楽信号全般の検出を向上させるために、パラメトリック音声区間検出・雑音推定更新モジュール107は、既存のパラメータまたは技法と併せて他のパラメータまたは技法を使用する。これら他のパラメータまたは技法は、上述したように、スペクトルダイバーシチ、相補的非定常性、雑音特徴、および音調安定性を含み、スペクトルダイバーシチ計算器、相補的非定常性計算器、雑音特徴計算器、および音調推定器のそれぞれにより計算される。これらについて以下に詳細に説明する。
スペクトルダイバーシチ
スペクトルダイバーシチは、周波数領域での信号の大きな変化についての情報を与える。この変化は、現在のフレームの第1のスペクトル解析でのエネルギーと2フレーム分前の第2のスペクトル解析でのエネルギーとを比較することにより、臨界帯域において追跡される。現在のフレームでの第1のスペクトル解析の臨界帯域i内のエネルギーは、
として示される。2フレーム分前の第2のスペクトル解析で計算された同じ臨界帯域内のエネルギーを
として示す。これらエネルギーは両方とも0.0001に初期化される。次に、9よりも高いすべての臨界帯域について、2つのエネルギーの最大および最小が、以下
のように計算される。続けて、特定の臨界帯域内の最大エネルギーと最小エネルギーとの比が、
として計算される。最後に、パラメトリック音声区間検出・雑音推定更新モジュール107は、重み自体が最大エネルギーEmax(i)である、比の正規化された重み付き和としてスペクトルダイバーシチパラメータを計算する。このスペクトルダイバーシチパラメータは、以下の関係式
により与えられる。
spec_divパラメータは、音楽区間および雑音エネルギー更新についての最終判断に使用される。spec_divパラメータは、後述する相補的非定常性パラメータを計算するための補助パラメータとしても使用される。
相補的非定常性
音楽信号内での急激なエネルギーアタック(energy attack)の後に、エネルギーがゆっくりと低減する場合、式(22)において定義される非定常性パラメータが機能しなくなるため、相補的非定常性パラメータが含められる。この場合、式(21)において定義される臨界帯域毎の平均長期エネルギーECB,LT(i)は、アタック中にゆっくりと増大し、その一方で、式(15)において定義される臨界帯域毎のフレームエネルギーはゆっくりと低減する。アタック後の特定のフレーム内では、これら2つのエネルギー値は同じになり、その結果として、nonstatパラメータが、アクティブ信号がないことを示す小さな値になる。これは、誤った雑音更新に繋がり、続けて、誤ったSAD判断に繋がる。
この問題を解消するために、代替の臨界帯域毎の平均長期エネルギーが、以下の関係式
を使用して計算される。変数E2CB,LT(i)は、すべてのiについて0.03に初期化される。式(26)は式(21)とよく似ており、違いは更新係数βのみであり、更新係数βは、以下
if(spec_div>thspec_div
β=0
else
β=α
end
のように与えられ、式中、thspec_div=5である。したがって、エネルギーアタックが検出された場合(spec_div>5)、代替の平均長期エネルギーはすぐに平均フレームエネルギーに設定される。すなわち、
になる。その他の場合、この代替の平均長期エネルギーは、従来の非定常性と同じように、すなわち、更新係数αを有する指数フィルタを使用して更新される。相補的非定常性パラメータは、nonstatと同じようにではなるが、E2CB,LT(i)を使用して計算される。すなわち、
である。
相補的非定常性パラメータnonstat2は、エネルギーアタック直後の少数のフレームでは機能しないことがあるが、ゆっくりと低減するエネルギーを特徴とする推移中は機能するはずである。nonstatパラメータはエネルギーアタックおよびその後の少数のフレームに対して上手く機能するため、nonstatとnonstat2との論理和が、特定の音楽信号上で非アクティブ信号を検出する問題を解消する。しかし、論理和は、「アクティブである可能性が高い」推移中のみに適用される。この可能性は、以下
if((nonstat>thstat)OR(tonal_stability=1))
act_pred_LT=kact_pred_LT+(1−k).1
else
act_pred_LT=kact_pred_LT+(1−k).0
end
のように計算される。係数kは0.99に設定される。範囲<0:1>内にあるパラメータact_pred_LTは、区間の予測子として解釈することができる。これが1に近い場合、信号はアクティブである可能性が高く、0に近い場合、非アクティブである可能性が高い。act_pred_LTパラメータは1に初期化される。上の状況では、tonal_stabilityは、安定音調信号の検出に使用されるバイナリパラメータである。このtonal_stabilityパラメータについては、以下の説明において説明する。
nonstat2パラメータは、act_pred_LTが、0.8に設定されている特定の閾値よりも高い場合のみ、雑音エネルギーを更新する際に考慮される(nonstatと離れて)。雑音エネルギー更新のロジックについては、本セクションの終わりで詳細に説明する。
雑音特徴
雑音特徴は、シンバルまたは低周波ドラムとの特定の雑音のような音楽信号の検出に使用される別のパラメータである。このパラメータは、以下の関係式
を使用して計算される。noise_charパラメータは、式(28)の分子および分母の両方が100よりも大きい場合に満たされる、スペクトル内容が少なくとも最小エネルギーを有するフレームに対してのみ計算される。noise_charパラメータの上限は10であり、その長期値は、以下の関係式
noise_char_LT=αnoise_char_LT+(1−α)noise_char (29)
を使用して更新される。noise_char_LTの初期値は0であり、およびαの初期値は、0.9に等しく設定される。noise_char_LTパラメータは、本セクションの終わりで説明される雑音エネルギー更新についての判断に使用される。
音調安定性
音調安定性は、雑音エネルギー推定の誤った更新を回避するために使用される最後のパラメータである。音調安定性は、いくつかの音楽セグメントを無声フレームとして宣言することを回避するためにも使用される。音調安定性は、埋め込み超広帯域コーデックにおいて、どの符号化モデルが7kHzを超える音声信号の符号化に使用されるかを判断するためにさらに使用される。音調安定性の検出は、音楽信号の音調の性質を利用する。典型的な音楽信号には、いくつかの連続したフレームにわたって安定した音調がある。この特徴を利用して、強スペクトルピークが音調に対応し得るため、強スペクトルピークの位置および形状を追跡する必要がある。音調安定性検出は、現在のフレーム内のスペクトルピークと過去のフレーム内のスペクトルピークとの相関解析に基づく。入力は、式(4)において定義される平均対数エネルギースペクトルである。スペクトルビンの数はNSPEC(ビン0はDC成分であり、NSPEC=LFFT/2)と示される。以下の開示では、「スペクトル」という用語は、式(4)により定義される平均対数エネルギースペクトルを指す。
音調安定性の検出は3段階で進められる。さらに、音調安定性の検出は、現在の剰余スペクトルの計算器と、現在の剰余スペクトルのピークの検出器と、相関マップおよび長期相関マップの計算器とを使用し、これらについては後述する。
第1の段階では、スペクトルの極小のインデックスが、以下の式により記述されるループ内で探され(例えば、スペクトル極小特定器により)、以下
min=(∀i:(EdB(i−1)>EdB(i))∧(EdB(i)<EdB(i+1)) i=1,...,NSPEC−2 (30)
のように表現することができるバッファiminに記憶され、式中、記号∧は論理積を意味する。
式(30)では、EdB(i)は、式(4)を通して計算された平均対数エネルギースペクトルを示す。EdB(0)<EdB(1)の場合、imin内の最初のインデックスは0である。したがって、EdB(NSPEC−1)<EdB(NSPEC−2)の場合、imin内の最後のインデックスはNSPEC−1である。見つかった極小の数をNminと示す。
第2の段階は、スペクトルフロアを計算し(例えば、スペクトルフロア推定器を通して)、スペクトルフロアをスペクトルから減算する(例えば、適した減算器を介して)ことからなる。スペクトルフロアは、検出された極小を通る区分的線形関数である。2つの連続した極小imin(x)とimin(x+1)との間のあらゆる線形区分は、
fl(j)=k.(j−imin(x))+q j=imin(x),...,imin(x+1)
として記述することができ、式中、kは線の傾きであり、q=EdB(imin(x))である。傾きkは、以下の関係式
を使用して計算することができる。
したがって、スペクトルフロアは、全区間
の論理結合である。
スペクトルフロアのimin(0)までの先頭ビンおよびimin(Nmin−1)からの終端ビンは、スペクトル自体に設定される。最後に、スペクトルフロアは、以下の関係式
dB,res(j)=EdB(j)−sp_floor(j) j=0,...,NSPEC−1 (32)
を使用してスペクトルから減算され、この結果が剰余スペクトルと呼ばれる。スペクトルフロアの計算を図3に示す。
第3の段階では、相関マップおよび長期相関マップが、現在のフレームおよび前のフレームの剰余スペクトルから計算される。ここでも、これは区分的演算である。したがって、相関マップは、極小がピークを区切るため、ピーク毎に計算される。以下の開示では、「ピーク」という用語は、剰余スペクトルEdb,res内の2つの極小間の区分を示すために使用される。
前のフレームの剰余スペクトルを
と示す。現在の剰余スペクトル内のあらゆるピーク毎に、このピークの位置に対応する前の剰余スペクトル内の形状を使用して、正規化相関が計算される。信号が安定していた場合、ピークはフレーム間で大きく動くべきではなく、その位置および形状はおおよそ同じであるべきである。したがって、相関演算は、2つの連続した極小により区切られた特定のピークのすべてのインデックス(ビン)を考慮する。より具体的には、正規化相関は、以下の関係式
を使用して計算される。
cor_mapのimin(0)までの先頭ビンおよびimin(Nmin−1)からの終端ビンcor_mapはゼロに設定される。相関マップを図4に示す。
現在のフレームの相関マップは、
cor_map_LT(k)=αmapcor_map_LT(k)+(1−αmap)cor_map(k),k=0,...,NSPEC−1 (34)
で記述される長期値の更新に使用され、式中、αmap=0.9である。cor_map_LTは、すべてのkについてゼロに初期化される。
最後に、cor_map_LTのすべての値が、以下
のように一緒に合算される(例えば、合算器を通して)。cor_map_LT(j)、j=0,...,NSPEC−1の任意の値が、閾値0.95を超える場合、フラグcor_strong(検出器として見ることができる)は1に設定され、その他の場合にはゼロに設定される。
音調安定性についての判断は、cor_map_sumを適応閾値thr_tonalで処理することにより計算される。この閾値は56に初期化され、以下
if(cor_map_sum>56)
thr_tonal=thr_tonal−0.2
else
thr_tonal=thr_tonal+0.2
end
のようにフレーム毎に更新される。
適応閾値thr_tonalは60を上限とし、49を下限とする。したがって、適応閾値thr_tonalは、相関が、アクティブ信号セグメントを示す比較的良好である場合、低減され、その他の場合、増大する。閾値が低いほど、特にアクティブ期間の終わりで、より多くのフレームがアクティブと分類される可能性が高い。したがって、適応閾値はハングオーバとして見ることができる。
tonal_stabilityパラメータは、cor_map_sumがthr_tonalよりも高い場合、またはcor_strongフラグが1に設定されている場合は常に1に設定される。より具体的には、
if((cor_map_sum>thr_tonal)OR(cor_strong=1))
tonal_stability=1
else
tonal_stability=0
end
雑音エネルギー更新での音楽検出パラメータの使用
すべての音楽検出パラメータは、パラメトリック音声区間検出・雑音推定更新(上方)モジュール107における雑音エネルギー推定の更新についての最終判断に組み込まれる。雑音エネルギー推定は、noise_updateの値がゼロである限り、更新される。最初、noise_updateは6に設定され、以下
if(nonstat>thstat)OR(pc<14)OR(voicing>thCnorm)OR(resid_ratio>thresid)OR(tonal_stability=1)OR(noise_char_LT>0.3)OR((act_pred_LT>0.8)AND(nonstat2>thstat))
noise_update=noise_update+2
else
noise_update=noise_update−1
end
のように各フレームで更新される。
組み合わせた条件が肯定の結果である場合、信号はアクティブであり、noise_updateパラメータは増大される。その他の場合、信号は非アクティブであり、パラメータは低減される。0に達したとき、雑音エネルギーは現在の信号エネルギーで更新される。
雑音エネルギーの更新に加えて、tonal_stabilityパラメータは、無声音声信号の分類アルゴリズムにも使用される。特に、このパラメータは、以下のセクションに説明するように、音楽に対する無声信号分類のロバスト性を向上させるために使用される。
音声信号分類(音声信号分類器108)
音声信号分類器108(図1)の下にある一般原理を図5に示す。この手法は以下のように説明することができる。音声信号分類は、それぞれが特定の信号クラスを区別する論理モジュール501、502、および503において3つのステップで行われる。第1に、音声信号区間検出器(SAD)501が、アクティブ信号フレームと非アクティブ信号フレームとを区別する。この音声信号区間検出器501は、図1において音声信号区間検出器103と呼ばれたものと同じである。音声信号区間検出器については上記説明ですでに説明した。
音声信号区間検出器501が非アクティブフレーム(背景雑音信号)を検出した場合、分類チェインは終了し、不連続送信(DTX)がサポートされる場合、エンコーダ109(図1)に組み込むことができる符号化モジュール541が、無音区間疑似背景雑音生成(CNG)を使用してフレームを符号化する。DTXがサポートされていない場合、フレームはアクティブ信号分類に続き、殆どの場合、無声スピーチフレームとして分類される。
アクティブ信号フレームが音声区間検出器501により検出された場合、フレームは、無声スピーチフレームの分類専用の第2の分類器502に供される。分類器502がフレームを無声スピーチ信号として分類した場合、分類チェインは終了し、エンコーダ109(図1)に組み込むことができる符号化モジュール542が、無声スピーチ信号に最適化された符号化方法を使用してフレームを符号化する。
その他の場合、信号フレームは「安定有声」分類器503を通して処理される。フレームが、分類器503により安定有声フレームとして分類された場合、エンコーダ109(図1)に組み込むことができる符号化モジュール543が、安定有声または準周期信号に最適化された符号化方法を使用してフレームを符号化する。
その他の場合、フレームは、有声スピーチオンセットまたは急激に発達しつつある有声スピーチまたは音楽信号等の非定常信号セグメントを含む可能性が高い。これらフレームは通常、高ビットレートでフレームを符号化して、良好な主観的品質を保つために、エンコーダ109(図1)に組み込むことができる汎用符号化モジュール544を必要とする。
以下に、無声信号フレームおよび有声信号フレームの分類を開示する。非アクティブフレームの区別に使用されるSAD検出器501(または図1の103)については、上記説明においてすでに説明した。
スピーチ信号の無声部は、周期的な成分がないことを特徴とし、エネルギーおよびスペクトルが素早く変化する不安定フレームおよびこれら特徴が比較的安定したままの安定フレームにさらに分類することができる。本発明の非限定的で例示的な実施形態は、以下のパラメータ
・平均正規化相関
として計算されるボイシング測定値、
・平均スペクトル傾斜測定値
・信号内のスピーチ破裂音を効率的に検出するように設計された低レベルからの最大短期エネルギー増大(dE0)、
・無声信号から音楽を区別する音調安定性(上記説明において説明した)、および
・非常に低いエネルギーの信号を検出するための相対フレームエネルギー(Erel
を使用して無声フレームを分類する方法を提案する。
ボイシング測定値
ボイシング測定値の決定に使用される正規化相関は、図1のLP解析器・ピッチ追跡器モジュール106において行われる開ループピッチ解析の一環として計算される。例えば、20msのフレームを使用することができる。LP解析器・ピッチ追跡器モジュール106は通常、10ms毎に(フレーム毎に2度)開ループピッチ推定を出力する。ここで、LP解析器・ピッチ追跡器モジュール106は、正規化相関測定値の生成および出力にも使用される。これら正規化相関は、重み付き信号および開ループピッチ遅延にある過去の重み付き信号に対して計算される。重み付きスピーチ信号s(n)は、知覚加重フィルタを使用して計算される。例えば、広帯域信号に適した、一定の分母を有する知覚加重フィルタを使用することができる。知覚荷重フィルタの伝達関数の一例は、以下の関係式
により与えられ、式中、A(z)は、LP解析器・ピッチ追跡器モジュール106において計算された線形予測(LP)フィルタの伝達関数であり、これは、以下の関係式
により与えられる。
LP解析および開ループピッチ解析の詳細については、当業者に周知であると考えられるため、本明細書ではこれ以上説明しない。
ボイシング測定値は、
として定義される平均相関
により与えられ、式中、Cnorm(d)、Cnorm(d)、およびCnorm(d)のそれぞれは、現在のフレームの第1の半フレームの正規化相関、現在のフレームの第2の半フレームの正規化相関、および先読み(次のフレームの冒頭)の正規化相関である。相関への引数は、図1のLP解析器・ピッチ追跡器モジュール106において計算された上記開ループピッチラグである。例えば、10msの先読みを使用することができる。背景雑音を補償するために、相関係数rが平均相関に加えられる(背景雑音が存在する場合、相関値は低減する)。相関係数は、以下の関係式
を使用して計算され、式中、Ntotは、式(11)に従って計算されたフレーム毎の総雑音エネルギーである。
スペクトル傾斜
スペクトル傾斜パラメータは、エネルギーの周波数分布についての情報を含む。スペクトル傾斜は、低周波数に集中したエネルギーと高周波数に集中したエネルギーとの比として周波数領域において推定することができる。しかし、信号の最初の2つの自動相関係数の比等の他の方法を使用して推定することも可能である。
図1のスペクトル解析器102を使用して、上記説明で説明したように、フレーム毎に2つのスペクトル解析を実行する。高周波数にあるエネルギーおよび低周波数にあるエネルギーは、知覚臨界帯域(perceptual critical band)に従って計算され[M.Jelinek and R.Salami,“Noise Reduction Method for Wideband Speech Coding”in Proc.Eusipco,Vienna,Austria,September 2004]、便宜上のためここに再掲する。
臨界帯域={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz
高周波数にあるエネルギーは、以下の関係式
を使用して、最後の2つの臨界帯域のエネルギーの平均として計算され、式中、臨界帯域エネルギーECB(i)は、式(2)に従って計算される。この計算は、両方のスペクトル解析に対して2回実行される。
低周波数にあるエネルギーは、以下の関係式
を使用して、最初の10個の臨界帯域のエネルギーの平均として計算される(NB信号の場合、最初の帯域は含まれない)。
低周波数に高いエネルギー濃度を有するフレーム(一般に有音)と高周波数に高いエネルギー濃度を有するフレーム(一般に無声)との区別を向上させるために、中間の臨界帯域は計算から除外された。中間では、エネルギー量はいずれのクラスに関しても特徴的ではなく、判断の混乱を増大させる。
しかし、低周波数にあるエネルギーは、低周波数での高エネルギー量を有する高調波無声信号に対しては別様に計算される。これは、女性の有声スピーチセグメントの場合、スペクトルの高調波構造が、有声−無声の区別を向上させるために利用可能なことによる。影響を受ける信号は、ピッチ周期が128よりも短い信号または先験的に無声としてみなされなかった信号である。先験的無声音声信号は以下の条件を満たさなければならない。
したがって、上記条件により区別された信号について、低周波数でのエネルギーはビン毎に計算され、高調波に十分に近い周波数ビンのみが加算に考慮される。より具体的には、以下の関係式
が使用され、式中、Kminは最初のビンであり(WBの場合、Kmin=1であり、NBの場合、Kmin=3である)、EBIN(k)は、最初の25個の周波数ビン(DC成分は省かれる)の式(3)において定義されるビンエネルギーである。これら25個のビンは、最初の10個の臨界帯域に対応する。上記合算では、ピッチ高調波に近い項のみが考慮され、最も近い高調波間の距離が、特定の周波数閾値(例えば、50Hz)以下の場合、w(i)は1に設定され、その他の場合、0に設定され、したがって、最も近い高調波への距離が50Hzよりも短いビンのみが考慮される。カウンタcntは、加算内の非ゼロ項の数に等しい。ここで、構造が低周波における高調波である場合、高エネルギー項のみが加算に含められる。他方、構造が高調波ではない場合、項の選択はランダムであり、和はより小さくなる。したがって、低周波数に高エネルギーを含む無声音声信号であっても検出することができる。
スペクトル傾斜は以下の関係式
により与えられ、式中、
は、最後の2つの臨界帯域および最初の10個の臨界帯域(またはNBの場合には最初の9個の臨界帯域)のそれぞれの平均雑音エネルギーであり、式(39)および式(40)での
と同じように計算される。推定雑音エネルギーは、背景雑音の存在を説明するために、傾斜の計算に含められている。NB信号の場合、欠落した帯域は、eを6で乗算することにより補償される。スペクトル傾斜の計算がフレーム毎に2回実行されて、フレーム毎の第1および第2のスペクトル解析の両方に対応するe(0)およびe(1)が得られる。無声フレーム分類器に使用される平均スペクトル傾斜は、
により与えられ、式中、eoldは、前のフレームの第2の半フレームでの傾斜である。
低レベルでの最大短期エネルギー増大
低レベルでの最大短期エネルギー増大dE0は、音声信号s(n)上で評価される。但し、n=0は、現在のフレームの冒頭に対応する。例えば、20msのスピーチフレームが使用され、あらゆるフレームは、スピーチ符号化のために4つのサブフレームに分割される。信号エネルギーは、サンプル32個分の長さ(12.8kHzサンプリングレートで)の短期セグメントに基づいて、サブフレーム毎に2回、すなわちフレーム毎に8回評価される。さらに、前のフレームからの最後の32個のサンプルの短期エネルギーも計算される。短期エネルギーは、以下の関係式
を使用して計算され、式中、j=−1およびj=0,...,7は、前のフレームの末尾および現在のフレームのそれぞれに対応する。別の9個の最大エネルギーのセットが、式(45)内の信号インデックスをサンプル16個分シフトすることにより計算される。すなわち、
である。十分に低い、すなわち、10log(Est(j))<37の条件を満たすエネルギーの場合、第1のインデックスセットに対して、以下の比
が計算され、同じ計算が
に対して繰り返され、2つの比のセットrat(1)(j)およびrat(2)(j)が得られる。これら2つのセット内の最大のみが、以下
dE0=max(rat(1)(j),rat(2)(j)) (48)
のように探索され、これは、低レベルでの最大短期エネルギー増大である。
背景雑音スペクトル平坦度の測定値
この例では、非アクティブフレームは、通常、DTX動作がない場合に無声スピーチ向けに設計された符号化モードを使用して符号化される。しかし、何等かの車の雑音のような準周期的背景雑音の場合、汎用符号化が代わりにWBに使用されるとき、より忠実な雑音レンダリングが達成される。
この種の背景雑音を検出するために、背景雑音スペクトル平坦度の測定値が計算され、時間にわたって平均化される。第1に、平均雑音エネルギーは、以下
のように、最初および最後の4つの臨界帯域に計算される。次に、平坦度測定値は、以下の関係式
を使用して計算され、以下の関係式
を使用して時間にわたって平均化され、式中、
は、過去のフレームの平均平坦度測定値であり、
は、現在のフレームの平均平坦度測定値の更新値である。
無声信号の分類
無声信号フレームの分類は、上述したパラメータ、すなわち、ボイシング測定値
平均スペクトル傾斜
、低レベルでの最大短期エネルギー増大dE0、および背景雑音スペクトル平坦度の測定値
に基づく。この分類は、雑音エネルギー更新段階(図1のモジュール107)中に計算される音調安定性パラメータおよび相対フレームエネルギーによってさらにサポートされる。相対フレームエネルギーは、以下の関係式
を使用して計算され、式中、Eは、式(6)において計算される総フレームエネルギー(dB単位)であり、
は、以下の関係式
を使用して各アクティブフレームで更新される長期平均フレームエネルギーである。更新は、SADフラグが設定されている(変数SADが1に等しい)場合のみ行われる。
WB信号の無声分類のルールは、以下にまとめられる。
条件の1行目は、低エネルギー信号および高周波数にエネルギーが集中した低相関を有する信号に関連する。2行目は有声オフセットをカバーし、3行目は信号の爆発音のセグメントをカバーし、4行目は有声オンセットのためである。5行目は、雑音の多い非アクティブフレームの場合の平坦スペクトルを保証する。最後の行は、この条件がなければ無声と宣言されてしまう音楽信号を区別する。
NB信号の場合、無声分類条件は以下の形式をとる。
WBの場合およびNBの場合の決定木を図6に示す。組み合わせられた条件が満たされる場合、この分類は、無声符号化モードを選択することで終了する。
有声信号の分類
フレームが非アクティブフレームまたは無声フレームとして分類されない場合、安定有声フレームであるか否かがテストされる。判断ルールは、各サブフレームの正規化相関(1/4サブサンプル分解能を使用する)、平均スペクトル傾斜、およびすべてのサブフレームの開ループピッチ推定(1/4サブサンプル分解能を使用する)に基づく。
開ループピッチ推定の手続きは、図1のLP解析器・ピッチ追跡器モジュール106により行われる。式(19)において、第1の半フレーム、第2の半フレーム、および先読みに対応する3つの開ループピッチ推定:d、d、およびdが使用される。4つすべてのサブフレームにおいて正確なピッチ情報を得るために、1/4サンプル分解能分数ピッチ改良が計算される。この改良は、重み付き音声信号swd(n)に対して計算される。この例示的な実施形態では、重み付き信号swd(n)は、開ループピッチ推定改良のために間引きされない。各サブフレームの冒頭において、1サンプル分解能を使用する短い相関解析(12.8kHzサンプリング周波数では64個のサンプル)が、以下の遅延を使用して間隔(−7,+7)で行われる:1番目および2番目のサブフレームではd、3番目および4番目のサブフレームにはd。次に、この相関は分数位置dmax−3/4、dmax−1/2、dmax−1/4、dmax、dmax+1/4、dmax+1/2、dmax+3/4において最大の前後で補間される。最大の相関をもたらす値が、改良ピッチラグとして選ばれる。
4つすべてのサブフレームの改良開ループピッチラグをT(0)、T(1)、T(2)、およびT(3)と示し、対応する正規化相関をC(0)、C(1)、C(2)、およびC(3)と示す。そうすると、有声信号分類条件は、
により与えられる。この条件は、正規化相関がすべてのサブフレームで十分に高く、ピッチ推定がフレーム全体に分散せず、エネルギーが低周波数に集中することを述べている。この条件が満たされる場合、分類は、有声信号符号化モードを選択することにより終了し、その他の場合、信号は、汎用信号符号化モードにより符号化される。この条件は、WB信号およびNB信号の両方に適用される。
超広帯域コンテンツ内の音調の推定
超広帯域信号の符号化に際して、特定の符号化モードが、音調構造を有する音声信号に使用される。対象とする周波数範囲は主に7000〜14000Hzであるが、異なってもよい。この目的は、音調固有の符号化モードを効率的に使用できるように、対象とする範囲内で強い音調内容を有するフレームを検出することである。これは、本開示において上述した音調安定性解析を使用して行われる。しかし、このセクションにおいて説明するいくつかの逸脱がある。
第1に、対数エネルギースペクトルから減算されるスペクトルフロアは、以下のように計算される。対数エネルギースペクトルは、長さLMA=15サンプルである移動平均(MA)フィルタまたはFIRフィルタを使用してフィルタリングされる。フィルタリングされたスペクトルは、
により与えられる。計算の複雑性の程度を下げるために、フィルタリング演算は、j=LMAの場合のみ行われ、その他のラグの場合には、
として計算される。ラグ0,...,LMA−1およびNSPEC−LMA,...,NSPEC−1の場合、スペクトルフロアは補外により計算される。より具体的には、以下の関係式が使用される。
j=LMA−1,...,0の場合sp_floor(j)=0.9sp_floor(j+1)+0.1EdB(j)
j=NSPEC−LMA,...,NSPEC−1の場合sp_floor(j)=0.9sp_floor(j−1)+0.1EdB(j)
上の最初の式では、更新はLMA−1から下方の0に進む。
次に、スペクトルフロアは、本開示において上述した方法と同じ方法で対数エネルギースペクトルから減算される。
res,dB(j)として示される剰余スペクトルは、次に、短期移動平均フィルタを使用して、以下のようにサンプル3個分にわたって平滑化される。
スペクトル極小とそのインデックスの探索、相関マップおよび長期相関マップの計算は、平滑化スペクトル
を使用して、本開示において上述した方法と同じである。
超広帯域コンテンツ内の信号音調についての判断も、本開示において上述した判断と同じである。すなわち、適応閾値に基づく。しかし、この場合、異なる一定の閾値およびステップが使用される。閾値thr_tonalは130に初期化され、以下のようにフレーム毎に更新される。
if(cor_map_sum>130)
thr_tonal=thr_tonal
−1.0
else
thr_tonal=thr_tonal+1.0
end
適応閾値thr_tonalは140を上限とし、120を下限とする。一定の閾値は、周波数範囲7000〜14000Hzに関して設定された。異なる範囲の場合、調整する必要がある。一般的な経験則としては、以下の関係式:thr_tonal=NSPEC/2を適用することができる。
本開示において上述した方法との最後の違いは、強音調の検出が超広帯域コンテンツでは使用されないことである。この理由は、強音調が、超広帯域コンテンツ内の音調信号を符号化するために知覚的に適さないことである。
本発明を上記開示において非限定的で例示的な実施形態として説明したが、この実施形態は、本発明の主旨および性質から逸脱せずに添付の特許請求の範囲内で、随意、変更することが可能である。
100 音声通信システム
101 プリプロセッサ
102 スペクトル解析器
103 音声区間検出器
104 雑音推定器
105 雑音抑制器
106 LP解析器・ピッチ追跡器
107 パラメトリック音声区間検出・雑音推定更新モジュール
108 音声信号分類器
109 音声エンコーダ

Claims (66)

  1. スペクトルを有する音声信号の音調を推定する方法であって、
    前記音声信号のスペクトルフロアを前記音声信号のスペクトルから減算することによって現在の剰余スペクトルを計算するステップと、
    前記現在の剰余スペクトルのピークを検出するステップと、
    検出された各ピークについて、前記現在の剰余スペクトルと前の剰余スペクトルとの相関を表す相関マップを計算するステップと、
    前記計算された相関マップに基づいて長期相関マップを計算するステップと
    を含み、
    前記長期相関マップは、前記音声信号の音調を示す、方法。
  2. 前記現在の剰余スペクトルを計算するステップは、
    現在のフレーム内の前記音声信号の前記スペクトルの極小を探すステップと、
    前記極小を互いに結ぶことにより前記スペクトルフロアを推定するステップと、
    前記推定されたスペクトルフロアを前記現在のフレーム内の前記音声信号の前記スペクトルから減算して、前記現在の剰余スペクトルを生成するステップと
    を含む、請求項1に記載の方法。
  3. 前記現在の剰余スペクトルの前記ピークを検出するステップは、2つの連続した極小の各対間の最大を見つけるステップを含む、請求項に記載の方法。
  4. 前記相関マップを計算するステップは、
    前記現在の剰余スペクトルの検出された各ピークについて、前記ピークを区切る前記現在の剰余スペクトル内の2つの連続した極小間の周波数ビンにわたり、前記前の剰余スペクトルとの正規化された相関値を計算するステップと、
    検出された各ピークにスコアを割り当てるステップと
    を含み、
    前記スコアは前記正規化された相関値に対応し、
    前記相関マップを計算するステップは、
    検出された各ピークについて、前記ピークを区切る前記2つの連続した極小間の前記周波数ビンにわたり、前記ピークの前記正規化された相関値を割り当て、前記相関マップを形成するステップを含む、請求項1に記載の方法。
  5. 前記長期相関マップを計算するステップは、
    周波数ビン毎に単極フィルタを通して前記相関マップをフィルタリングするステップと、
    前記周波数ビンにわたって前記フィルタリングされた相関マップを合算して、合算長期相関マップを生成するステップと
    を含む、請求項1に記載の方法。
  6. 前記音声信号内の強音調を検出するステップをさらに含む、請求項1に記載の方法。
  7. 前記音声信号内の前記強音調を検出するステップは、前記相関マップから、所与の一定の閾値を超える大きさを有する周波数ビンを探すステップを含む、請求項6に記載の方法。
  8. 前記音声信号内の前記強音調を検出するステップは、前記長期相関マップを前記音声信号内の音声区間を示す適応閾値と比較するステップを含む、請求項6に記載の方法。
  9. 強音調の存在を検証するステップをさらに含む、請求項1に記載の方法。
  10. 音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する方法であって、
    背景雑音信号から音楽信号を区別するために使用される前記音声信号の音調に関連するパラメータを推定するステップを含み、
    前記音調は、請求項1〜9のいずれか一項に従う方法を用いて推定される、方法。
  11. 音調音声信号が検出された場合、雑音エネルギー推定の更新を回避するステップをさらに含む、請求項10に記載の方法。
  12. 前記音声信号内の前記音声区間を検出するステップは、信号対雑音比(SNR)ベースの音声区間検出を使用するステップをさらに含む、請求項10に記載の方法。
  13. 前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、周波数に依存する信号対雑音比(SNR)に基づいて前記音声信号を検出するステップを含む、請求項12に記載の方法。
  14. 前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、平均信号対雑音比(SNRav)を、長期信号対雑音比(SNRLT)に応じて計算される閾値と比較するステップを含む、請求項12に記載の方法。
  15. 前記音声信号内で前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、SNR計算において前のフレームで計算された雑音エネルギー推定を使用するステップをさらに含む、請求項14に記載の方法。
  16. 前記信号対雑音比(SNR)ベースの音声区間検出を使用するステップは、次のフレームの前記雑音エネルギー推定を更新するステップをさらに含む、請求項15に記載の方法。
  17. 前記次のフレームの前記雑音エネルギー推定を更新するステップは、前記音声信号のピッチ安定性、ボイシング、非定常性パラメータ、および2次線形予測残余誤差エネルギーと16次線形予測残余誤差エネルギーとの比のうちの少なくとも1つに基づいて更新判断を計算するステップを含む、請求項16に記載の方法。
  18. 前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップを含み、前記分類するステップは、前記平均信号対雑音比(SNRav)が前記計算された閾値未満の場合、非アクティブ音声信号であると判断するステップを含む、請求項14に記載の方法。
  19. 前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップを含み、前記分類するステップは、前記平均信号対雑音比(SNRav)が前記計算された閾値を超える場合、アクティブ音声信号であると判断するステップを含む、請求項14に記載の方法。
  20. 前記音声信号の前記音調に関連する前記パラメータを推定するステップは、音楽信号が検出された場合、雑音エネルギー推定の更新を回避する、請求項10に記載の方法。
  21. 背景雑音信号から音楽信号を区別し、前記音楽信号上での雑音エネルギー推定の更新を回避するために、相補的非定常性パラメータおよび雑音特徴パラメータを計算するステップをさらに含む、請求項10に記載の方法。
  22. 前記相補的非定常性パラメータを計算するステップは、スペクトルアタックが検出された場合、長期エネルギーをリセットすることにより、従来の非定常性と同様のパラメータを計算するステップを含む、請求項21に記載の方法。
  23. 前記長期エネルギーをリセットするステップは、前記長期エネルギーを現在のフレームエネルギーに設定するステップを含む、請求項22に記載の方法。
  24. 前記スペクトルアタックを検出するステップおよび前記長期エネルギーをリセットするステップは、スペクトルダイバーシチパラメータを計算するステップを含む、請求項22に記載の方法。
  25. 前記スペクトルダイバーシチパラメータを計算するステップは、
    所与の数よりも大きな周波数帯域について、現在のフレーム内の前記音声信号のエネルギーと前のフレーム内の前記音声信号のエネルギーとの比を計算するステップと、
    前記所与の数よりも大きなすべての前記周波数帯域にわたり、前記スペクトルダイバーシチを前記計算された比の重み付き和として計算するステップと
    を含む、請求項24に記載の方法。
  26. 前記相補的非定常性パラメータを計算するステップは、前記音声信号の区間を示す区間予測パラメータを計算するステップをさらに含む、請求項22に記載の方法。
  27. 前記区間予測パラメータを計算するステップは、前記音声信号の音調に関連するパラメータおよび前記従来の非定常性パラメータを推定することから得られる二分決定の長期値を計算するステップを含む、請求項26に記載の方法。
  28. 前記雑音エネルギー推定の更新は、第1の所与の一定の閾値よりも大きな前記区間予測パラメータおよび第2の所与の一定の閾値よりも大きな前記相補的非定常性パラメータを同時に有することに応答して回避される、請求項26に記載の方法。
  29. 前記雑音特徴パラメータを計算するステップは、
    複数の周波数帯域を第1の周波数帯域のうちの特定の数の第1の群および前記周波数帯域の残りの第2の群に分割するステップと、
    前記第1の群の周波数帯域の第1のエネルギー値および前記第2の群の周波数帯域の第2のエネルギー値を計算するステップと、
    前記第1のエネルギー値と前記第2のエネルギー値との比を計算して、前記雑音特徴パラメータを生成するステップと、
    前記計算された雑音特徴パラメータに基づいて前記雑音特徴パラメータの長期値を計算するステップと
    を含む、請求項21に記載の方法。
  30. 前記雑音エネルギー推定の更新は、所与の一定の閾値未満の前記雑音特徴パラメータを有することに応答して回避される、請求項29に記載の方法。
  31. 音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する方法であって、
    前記音声信号内の音声区間を検出するステップと、
    前記音声信号内の前記検出された音声区間に従って、前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップと、
    前記音声信号がアクティブ音声信号として分類されたことに応答して、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方としてさらに分類するステップと
    を含み、
    前記アクティブ音声信号を無声スピーチ信号として分類するステップは、前記音声信号の音調を推定して、音楽信号を無声スピーチ信号として分類することを回避するステップを含み、
    前記音調推定は、請求項1〜9のいずれか一項に従って実行される、方法。
  32. 前記音声信号の前記分類に従って前記音声信号を符号化するステップをさらに含む、請求項31に記載の方法。
  33. 前記音声信号の前記分類に従って前記音声信号を符号化するステップは、無音区間疑似背景雑音生成を使用して非アクティブ音声信号を符号化するステップを含む、請求項32に記載の方法。
  34. 前記アクティブ音声信号を無声スピーチ信号として分類するステップは、ボイシング測定値、平均スペクトル傾斜測定値、低レベルでの最大短期エネルギー増大、音調安定性、および相対フレームエネルギーのうちの少なくとも1つに基づいて判断ルールを計算するステップを含む、請求項31に記載の方法。
  35. 前記無声スピーチ信号を安定有声スピーチ信号および前記安定有声スピーチ信号とは異なる別の種類の信号のうちの一方として分類するステップをさらに含む、請求項31に記載の方法。
  36. 前記無声スピーチ信号を前記安定有声スピーチ信号として分類するステップは、前記音声信号の正規化相関、平均スペクトル傾斜、および開ループピッチ推定のうちの少なくとも1つに基づいて判断ルールを計算するステップを含む、請求項35に記載の方法。
  37. 音声信号の分類を使用して前記音声信号の高帯域を符号化する方法であって、
    前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類するステップを含み、
    前記音声信号を音調信号として分類するステップは、請求項1〜9のいずれか一項に従って前記音声信号の音調を推定するステップを含む、方法。
  38. 請求項1〜9のいずれか一項に従って前記音声信号の音調を推定するステップは、前記スペクトルフロアを計算する代替の方法を使用するステップをさらに含む、請求項37に記載の方法。
  39. 前記スペクトルフロアを計算する代替の方法を使用するステップは、移動平均フィルタを使用して現在のフレーム内の前記音声信号の対数エネルギースペクトルをフィルタリングするステップを含む、請求項38に記載の方法。
  40. 請求項1〜9のいずれか一項に従って前記音声信号の音調を推定するステップは、短期移動平均フィルタにより前記剰余スペクトルを平滑化するステップをさらに含む、請求項37に記載の方法。
  41. 前記音声信号の前記分類に従って前記音声信号の前記高帯域を符号化するステップをさらに含む、請求項37に記載の方法。
  42. 前記音声信号の前記分類に従って前記音声信号の前記高帯域を符号化するステップは、このような信号に最適化されたモデルを使用して前記音調音声信号を符号化するステップを含む、請求項41に記載の方法。
  43. 前記音声信号の前記高帯域は7kHzを超える周波数範囲を含む、請求項37に記載の方法。
  44. スペクトルを有する音声信号の音調を推定する装置であって、
    前記音声信号のスペクトルフロアを前記音声信号のスペクトルから減算することによって現在の剰余スペクトルを計算する手段と、
    前記現在の剰余スペクトルのピークを検出する手段と、
    検出された各ピークについて、前記現在の剰余スペクトルと前の剰余スペクトルとの相関を表す相関マップを計算する手段と、
    前記計算された相関マップに基づいて長期相関マップを計算する手段であって、前記長期相関マップは、前記音声信号の音調を示す手段と
    を備える、装置。
  45. スペクトルを有する音声信号の音調を推定する装置であって、
    前記音声信号のスペクトルフロアを前記音声信号のスペクトルから減算することによる現在の剰余スペクトルの計算器と、
    前記現在の剰余スペクトルのピークの検出器と、
    検出された各ピークについての前記現在の剰余スペクトルと前の剰余スペクトルとの相関を表す相関マップの計算器と、
    前記計算された相関マップに基づく長期相関マップの計算器と
    を備え、
    前記長期相関マップは、前記音声信号の音調を示す、装置。
  46. 前記現在の剰余スペクトルの計算器は、
    現在のフレーム内の前記音声信号の前記スペクトル内の極小の特定器と、
    前記極小を互いに結ぶ前記スペクトルフロアの推定器と、
    前記現在の剰余スペクトルを生成するための、前記スペクトルからの前記推定されたスペクトルフロアの減算器と
    を備える、請求項45に記載の装置。
  47. 前記長期相関マップの計算器は、
    周波数ビン毎に前記相関マップをフィルタリングするフィルタと、
    前記周波数ビンにわたって前記フィルタリングされた相関マップを合算して、合算長期相関マップを生成する合算器と
    を備える、請求項45に記載の装置。
  48. 前記音声信号内の強音調の検出器をさらに備える、請求項45に記載の装置。
  49. 音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する装置であって、
    背景雑音信号から音楽信号を区別するために使用される前記音声信号の音調に関連するパラメータを推定する手段を備え、
    前記音調パラメータ推定手段は、請求項44に記載の装置を備える、装置。
  50. 音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する装置であって、
    背景雑音信号から音楽信号を区別するために使用される、前記音声信号の音調推定器を備え、
    前記音調推定器は、請求項45〜48のいずれか一項に記載の装置を備える、装置。
  51. 信号対雑音比(SNR)ベースの音声区間検出器をさらに備える、請求項50に記載の装置。
  52. 前記(SNR)ベースの音声区間検出器は、平均信号対雑音比(SNRav)と、長期信号対雑音比(SNRLT)に応じた閾値との比較器を備える、請求項51に記載の装置。
  53. 前記SNRベースの音声区間検出器での信号対雑音比(SNR)の計算での雑音エネルギー推定を更新する雑音推定器をさらに備える、請求項51に記載の装置。
  54. 背景雑音信号から音楽信号を区別し、雑音エネルギー推定の更新を回避するために、相補的非定常性パラメータの計算器と、前記音声信号の雑音特徴の計算器とをさらに備える、請求項50に記載の装置。
  55. 前記音声信号内のスペクトル変化およびスペクトルアタックの検出に使用されるスペクトルパラメータの計算器をさらに備える、請求項50に記載の装置。
  56. 音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する装置であって、
    前記音声信号内の音声区間を検出する手段と、
    前記音声信号内の前記検出された音声区間に従って、前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類する手段と、
    前記音声信号がアクティブ音声信号として分類されたことに応答して、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方としてさらに分類する手段と
    を備え、
    前記音声信号を無声スピーチ信号としてさらに分類する手段は、音楽信号を無声スピーチ信号として分類することを回避するために、前記音声信号の音調に関連するパラメータを推定する手段を備え、
    前記音調に関連するパラメータを推定する手段は、請求項45〜48のいずれか一項に記載の装置を備える、装置。
  57. 音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する装置であって、
    前記音声信号内の音声区間の検出器と、
    前記音声信号内の前記検出された音声区間に従って前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類する第1の音声信号分類器と、
    前記第1の音声信号分類器と併せて、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方として分類する第2の音声信号分類器と
    を備え、
    前記音声区間検出器は、音楽信号を無声スピーチ信号として分類することを回避するために、前記音声信号の音調を推定する音調推定器を備え、
    前記音調推定器は、請求項45〜48のいずれか一項に記載の装置を備える、装置。
  58. 前記音声信号の前記分類に従って前記音声信号を符号化する音声エンコーダをさらに備える、請求項57に記載の装置。
  59. 前記音声エンコーダは、非アクティブ音声信号を符号化する雑音エンコーダを備える、請求項58に記載の装置。
  60. 前記音声エンコーダは無声スピーチに最適化されたコーダを備える、請求項58に記載の装置。
  61. 前記音声エンコーダは、安定有声信号を符号化する有声スピーチに最適化されたコーダを備える、請求項58に記載の装置。
  62. 前記音声エンコーダは、高速に発達しつつある有声信号を符号化する汎用音声信号コーダを備える、請求項58に記載の装置。
  63. 音声信号の分類を使用して音声信号の高帯域を符号化する装置であって、
    前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類する手段と、
    前記分類された音声信号の前記高帯域を符号化する手段と
    を備え、
    前記音声信号を音調信号として分類する手段は、請求項45〜48のいずれか一項に記載の音声信号の音調を推定する装置を備える、装置。
  64. 音声信号の分類を使用して音声信号の高帯域を符号化する装置であって、
    前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類する音声信号分類器と、
    前記分類された音声信号の前記高帯域を符号化する音声エンコーダと
    を備え、
    前記音声信号分類器は、請求項45〜48のいずれか一項に記載の音声信号の音調を推定する装置を備える、装置。
  65. 前記音声信号から導出される前記スペクトルフロアを計算する移動平均フィルタをさらに備え、前記スペクトルフロアは、前記音声信号の前記音調を推定する際に使用される、請求項64に記載の装置。
  66. 前記音声信号の前記剰余スペクトルを平滑化する短期移動平均フィルタをさらに備え、前記剰余スペクトルは、前記音声信号の前記音調を推定する際に使用される、請求項64に記載の装置。
JP2010512474A 2007-06-22 2008-06-20 音声区間検出および音声信号分類ための方法および装置 Active JP5395066B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US92933607P 2007-06-22 2007-06-22
US60/929,336 2007-06-22
PCT/CA2008/001184 WO2009000073A1 (en) 2007-06-22 2008-06-20 Method and device for sound activity detection and sound signal classification

Publications (2)

Publication Number Publication Date
JP2010530989A JP2010530989A (ja) 2010-09-16
JP5395066B2 true JP5395066B2 (ja) 2014-01-22

Family

ID=40185136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010512474A Active JP5395066B2 (ja) 2007-06-22 2008-06-20 音声区間検出および音声信号分類ための方法および装置

Country Status (7)

Country Link
US (1) US8990073B2 (ja)
EP (1) EP2162880B1 (ja)
JP (1) JP5395066B2 (ja)
CA (1) CA2690433C (ja)
ES (1) ES2533358T3 (ja)
RU (1) RU2441286C2 (ja)
WO (1) WO2009000073A1 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
BRPI1008915A2 (pt) * 2009-02-27 2018-01-16 Panasonic Corp dispositivo de determinação de tom e método de determinação de tom
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
CA2778342C (en) * 2009-10-19 2017-08-22 Martin Sehlstedt Method and background estimator for voice activity detection
CN102714040A (zh) * 2010-01-14 2012-10-03 松下电器产业株式会社 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
US9263063B2 (en) * 2010-02-25 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Switching off DTX for music
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
JP5714002B2 (ja) * 2010-04-19 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法及び復号方法
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8907929B2 (en) * 2010-06-29 2014-12-09 Qualcomm Incorporated Touchless sensing and gesture recognition using continuous wave ultrasound signals
KR20130036304A (ko) * 2010-07-01 2013-04-11 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8521541B2 (en) * 2010-11-02 2013-08-27 Google Inc. Adaptive audio transcoding
ES2665944T3 (es) * 2010-12-24 2018-04-30 Huawei Technologies Co., Ltd. Aparato para realizar una detección de actividad de voz
EP3726530B1 (en) * 2010-12-24 2024-05-22 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
EP2686846A4 (en) * 2011-03-18 2015-04-22 Nokia Corp DEVICE FOR AUDIO SIGNAL PROCESSING
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8527264B2 (en) * 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
US9099098B2 (en) 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
EP2828854B1 (en) * 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
DK2831874T3 (en) 2012-03-29 2017-06-26 ERICSSON TELEFON AB L M (publ) Transformation encoding / decoding of harmonic audio signals
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
EP2891151B1 (en) 2012-08-31 2016-08-24 Telefonaktiebolaget LM Ericsson (publ) Method and device for voice activity detection
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
KR102561265B1 (ko) * 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
CA2895391C (en) * 2012-12-21 2019-08-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
MY169132A (en) 2013-06-21 2019-02-18 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN106409310B (zh) 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9769550B2 (en) 2013-11-06 2017-09-19 Nvidia Corporation Efficient digital microphone receiver process and system
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
JP2015099266A (ja) * 2013-11-19 2015-05-28 ソニー株式会社 信号処理装置、信号処理方法およびプログラム
PT3438979T (pt) * 2013-12-19 2020-07-28 Ericsson Telefon Ab L M Estimativa de ruído de fundo em sinais de áudio
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9899039B2 (en) 2014-01-24 2018-02-20 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
WO2015115677A1 (ko) * 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
EP3550563B1 (en) * 2014-03-31 2024-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, encoding method, decoding method, and associated programs
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
WO2015171061A1 (en) * 2014-05-08 2015-11-12 Telefonaktiebolaget L M Ericsson (Publ) Audio signal discriminator and coder
CN105225666B (zh) * 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
ES2664348T3 (es) 2014-07-29 2018-04-19 Telefonaktiebolaget Lm Ericsson (Publ) Estimación de ruido de fondo en señales de audio
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US10163453B2 (en) * 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN106910494B (zh) 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
KR20200133525A (ko) 2019-05-20 2020-11-30 삼성전자주식회사 생체 정보 추정 모델의 유효성 판단 장치 및 방법
JP7552137B2 (ja) 2020-08-13 2024-09-18 沖電気工業株式会社 音声検出装置、音声検出プログラム、及び音声検出方法
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US11545159B1 (en) 2021-06-10 2023-01-03 Nice Ltd. Computerized monitoring of digital audio signals
CN116935900A (zh) * 2022-03-29 2023-10-24 哈曼国际工业有限公司 语音检测方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5040217A (en) 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
JPH05335967A (ja) * 1992-05-29 1993-12-17 Takeo Miyazawa 音情報圧縮方法及び音情報再生装置
DE69421911T2 (de) * 1993-03-25 2000-07-20 British Telecommunications P.L.C., London Spracherkennung mit pausedetektion
JP3321933B2 (ja) * 1993-10-19 2002-09-09 ソニー株式会社 ピッチ検出方法
JPH07334190A (ja) * 1994-06-14 1995-12-22 Matsushita Electric Ind Co Ltd 高調波振幅値量子化装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6160199A (en) 1998-12-21 2000-12-12 The Procter & Gamble Company Absorbent articles comprising biodegradable PHA copolymers
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
JP2002169579A (ja) * 2000-12-01 2002-06-14 Takayuki Arai オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
DE10109648C2 (de) 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
EP1280138A1 (de) * 2001-07-24 2003-01-29 Empire Interactive Europe Ltd. Verfahren zur Analyse von Audiosignalen
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
FR2850781B1 (fr) * 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
DE602004020765D1 (de) * 2004-09-17 2009-06-04 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten Tonsignalen
RU2404506C2 (ru) * 2004-11-05 2010-11-20 Панасоник Корпорэйшн Устройство масштабируемого декодирования и устройство масштабируемого кодирования
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
JP2007025290A (ja) 2005-07-15 2007-02-01 Matsushita Electric Ind Co Ltd マルチチャンネル音響コーデックにおける残響を制御する装置
KR101116363B1 (ko) * 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
TWI330355B (en) * 2005-12-05 2010-09-11 Qualcomm Inc Systems, methods, and apparatus for detection of tonal components
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
JP4236675B2 (ja) * 2006-07-28 2009-03-11 富士通株式会社 音声符号変換方法および装置
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands

Also Published As

Publication number Publication date
CA2690433A1 (en) 2008-12-31
CA2690433C (en) 2016-01-19
US8990073B2 (en) 2015-03-24
US20110035213A1 (en) 2011-02-10
EP2162880A4 (en) 2013-12-25
ES2533358T3 (es) 2015-04-09
RU2010101881A (ru) 2011-07-27
RU2441286C2 (ru) 2012-01-27
WO2009000073A1 (en) 2008-12-31
EP2162880B1 (en) 2014-12-24
EP2162880A1 (en) 2010-03-17
WO2009000073A8 (en) 2009-03-26
JP2010530989A (ja) 2010-09-16

Similar Documents

Publication Publication Date Title
JP5395066B2 (ja) 音声区間検出および音声信号分類ための方法および装置
KR100870502B1 (ko) 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기
US8396707B2 (en) Method and device for efficient quantization of transform information in an embedded speech and audio codec
KR101295729B1 (ko) 비트 레이트­규모 가변적 및 대역폭­규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법
US7693710B2 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
EP1157374B1 (en) Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
US9672835B2 (en) Method and apparatus for classifying audio signals into fast signals and slow signals
DK2633521T3 (en) CODING GENERIC AUDIO SIGNALS BY LOW BITRATES AND LOW DELAY
US8352250B2 (en) Filtering speech
KR20090104846A (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
KR20100031742A (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
WO2010028301A1 (en) Spectrum harmonic/noise sharpness control
JP5097219B2 (ja) 非因果性ポストフィルタ
US8571852B2 (en) Postfilter for layered codecs
US20180033444A1 (en) Audio encoder and method for encoding an audio signal
TW201923749A (zh) 支援一組不同丟失消隱工具之音訊解碼器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131017

R150 Certificate of patent or registration of utility model

Ref document number: 5395066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250