[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4658596B2 - 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 - Google Patents

線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 Download PDF

Info

Publication number
JP4658596B2
JP4658596B2 JP2004509923A JP2004509923A JP4658596B2 JP 4658596 B2 JP4658596 B2 JP 4658596B2 JP 2004509923 A JP2004509923 A JP 2004509923A JP 2004509923 A JP2004509923 A JP 2004509923A JP 4658596 B2 JP4658596 B2 JP 4658596B2
Authority
JP
Japan
Prior art keywords
frame
decoder
signal
filter
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004509923A
Other languages
English (en)
Other versions
JP2005534950A (ja
Inventor
ミラン・ジェリネク
フィリップ・ゴールネイ
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29589088&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP4658596(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2005534950A publication Critical patent/JP2005534950A/ja
Application granted granted Critical
Publication of JP4658596B2 publication Critical patent/JP4658596B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、特に、音声(発話)信号に限らない音響信号を、この音響信号の伝送及び/または合成を考慮して、デジタル処理で符号化するための技術に関するものである。更に明確には、本発明は、もし、例えば無線(ワイヤレス)システムにおけるチャネルエラー、またはパケットネットワークアプリケーション上の音声における失われたパケットを原因とする消去されたフレームが発生しても良好な性能を維持するための音響信号の強力な符号化及び復号化に関するものである。
主観的品質とビットレートとの間の良好なトレードオフ(trade-off)を伴う、効率的なディジタル狭帯域及び広帯域の音声符号化技術に対する要求は、遠隔会議、マルチメディア、及び無線通信のような様々な応用分野において増加している。最近まで、200〜3400[Hz]の範囲に抑制された電話の帯域幅は、主に音声符号化アプリケーションに使われていた。しかしながら、広帯域音声アプリケーションは、従来の電話の帯域幅と比較して、通信における増進された明瞭度及び自然性を提供する。50〜7000[Hz]の範囲の帯域幅は、直接対面して意志疎通を行うような印象を与える良好な品質を実現するのに十分であることが発見された。一般的な音声信号に対して、この帯域幅は許容範囲の主観的品質を与えるが、しかし、まだ、それぞれ20〜16000[Hz]、及び20〜20000[Hz]の範囲で動作するFMラジオ、またはCDの品質よりは低い。
音声符号器(エンコーダ)は、音声信号を、通信チャネル上で伝送されるか、または記憶媒体に記憶されるデジタルビットストリームに変換する。音声信号は、デジタル化、すなわち通常1サンプル当たり16ビットで標本化されると共に量子化される。音声符号器は、良好な主観的音声品質を維持する一方、これらの少ないビット数のデジタルサンプルを表す役割を備えている。音声復号器(デコーダ)、または音声合成装置(シンセサイザ)は、伝送された、または記憶されたビットストリームに対して操作を行い、音響信号まで戻すようにそれを変換する。
符号励振型線形予測(Code-Excited Linear Prediction:CELP)符号化は、主観的品質とビットレートとの間で良好な妥協点を達成するための、最適な利用可能技術の内の1つである。この符号化技術は、無線アプリケーション及び有線アプリケーションの両方における、いくつかの音声符号化標準(規格)の基礎である。CELP(セルプ)符号化において、標本化された音声信号は、“L”サンプルの、通常フレームと呼ばれる連続するブロックで処理され、一般的に“L”は10〜30[ms]に対応する所定の数である。線形予測(LP)フィルタは、全てのフレームで計算されると共に伝送される。LPフィルタの計算は、一般的に先読み部分として、次のフレームからの5〜15[ms]の音声セグメントを必要とする。“L”サンプルのフレームは、サブフレームと呼ばれる更に小さなブロックに分割される。一般にサブフレームの数は、4〜10[ms]となるサブフレームが3個または4個である。各サブフレームにおいて、励振信号は、通常、過去の励振及び新規な(innovative)固定のコードブック励振の2つの成分から取得される。過去の励振から形成された成分は、多くの場合、適応コードブック、またはピッチ励振と言われる。励振信号の特性を示すパラメータは、符号化されると共に、復元された励振信号がLPフィルタの入力として使用される復号器に伝送される。
米国特許第5,444,816号明細書 米国特許第5,699,482号明細書 米国特許第5,754,976号明細書 米国特許第5,701,392号明細書 国際公開第00/25305号パンフレット ITU-T Recommendation G. 722.2" Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB) ", Geneva, 2002 3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE Jour. on Selected Areas in Communications, vol. 6, no. 2, pp. 314-323 3GPP TS 26.192,"AMR Wideband Speech Codec: Comfort Noise Aspects," 3GPP Technical Specification
低ビットレート音声符号化の主なアプリケーションは、無線移動通信システム、及びパケットネットワーク上の音声であるので、フレーム消失の場合には、音声コーデックの堅牢性(ロバスト性)の増加が著しく重要なものとなる。無線のセルラーシステムにおいて、受信信号のエネルギーは、高いビット誤り率となる頻繁に発生する深刻な減衰(fade)を示すと共に、これはセル境界で更に顕著となる。この場合、チャネル復号器は、受信されたフレームにおいてエラーを訂正することができないと共に、その結果、チャネル復号器の後で通常使用されるエラー検出器は、フレームが消去されたことを示すことになる。パケットネットワークアプリケーション上の音声において、音声信号は、通常各パケットに20[ms]のフレームが配置されてパケット化される。パケット交換通信において、もしパケットの数が非常に多くなる、またはそのパケットが長時間の遅延の後受信機に届く場合、パケットの欠落がルータにおいて発生し得ると共に、もしその遅延が受信機側のジッタ用バッファの長さを超える場合、それは失われたものとして示されるべきである。これらのシステムにおいて、コーデックは、一般的に3〜5[%]のフレーム消失率となる傾向がある。更に、遺物的な狭帯域音声信号を利用する旧来のPSTN(public switched telephone network:加入者電話網)と競うことを可能にするために、広帯域音声符号化の使用はこれらのシステムにとって重要な利点である。
CELPにおける適応コードブック、またはピッチ予測器は、低ビットレートにおいて高い音声品質を維持する際に重要な役割を果たす。しかしながら、適応コードブックの内容は過去のフレームからの信号に基づいているので、コーデックの状態がフレームの損失に影響されやすくなる。フレームが消去されるかまたは失われた場合、復号器における適応コードブックの内容は、符号器におけるその内容と異なる状態になる。このように、失われたフレームが隠蔽され、結果として良好なフレームが受信される後では、適応コードブックの寄与が変化しているので、受信された良好なフレームにおいて合成された信号は対象とする合成信号と異なる。失われたフレームの影響は、消失が発生したフレームにおける音声セグメントの性質により決まる。もし消失が、信号の同じ状態を保つセグメントにおいて発生する場合、その場合には効率的なフレーム消失の隠蔽が実行され得ると共に、結果として生じる良好なフレームに対する影響は最小限にされ得る。一方、その消失が音声の頭子音(speech onset)、または音声の遷移(transition)において発生する場合、消失の影響はいくつかのフレームを通して伝搬し得る。例えば、もし有声(voiced)のセグメントの始まりが欠ける場合、その場合には、最初のピッチ期間は、適応コードブックの内容から見つけられないことになる。これは、結果として生じる良好なフレームにおいて、ピッチ予測器に対する深刻な影響を有し、合成信号が符号器において対象とされたものに収束するまでに長い時間がかかることになる。
本発明は、符号器において、隠蔽/回復パラメータを決定する過程と、符号器において決定された隠蔽/回復パラメータを復号器に伝送する過程と、復号器において、受信された隠蔽/回復パラメータに応答して、消失フレームの隠蔽及び復号器の回復を処理する過程とを有し、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための方法に関するものである。
本発明は、同様に、復号器において信号符号化パラメータから隠蔽/回復パラメータを決定する過程と、復号器において、決定された隠蔽/回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理する過程とを有し、信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための方法に関するものである。
本発明によれば、符号器において、隠蔽/回復パラメータを決定する手段と、符号器において決定された隠蔽/回復パラメータを復号器に伝送する手段と、復号器において、受信された隠蔽/回復パラメータに応答して、消失フレームの隠蔽及び復号器の回復を処理する手段とを有し、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための装置もまた提供される。
本発明によれば、更に、復号器において信号符号化パラメータから隠蔽/回復パラメータを決定するための手段と、復号器において、決定された隠蔽/回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理するための手段とを有し、信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための装置が提供される。
本発明は、同様に、音響信号の符号化及び復号化のためのシステムと、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための上記の定義された装置を使用する音響信号復号器とに関するものである。
前述及び他の目的、本発明の利点及び特徴は、添付図面を参照して一例としてのみ与えられた、それらの実施例の非制限的な以下の記載を読むことで更に明白になる。
本発明の実施例が音声信号に関する以下の記載において説明されることになるが、本発明の概念が、特に他のタイプの音響信号に限らず、他のタイプの信号に等しく適用されることが留意されるべきである。
図1は、本発明に照らした音声の符号化及び復号化の使用法を表している音声通信システム100を説明する。図1の音声通信システム100は、通信チャネル101の全域で音声信号の伝送をサポートする。それは例えば有線接続、光接続、またはファイバ接続を有するかもしれないが、通信チャネル101は、一般的に、無線周波数接続を少なくとも一部に有している。無線周波数接続は、多くの場合、セルラー電話システムにおいて見られるような、共有された帯域幅資源を必要とする多重の同時音声通信をサポートする。それは図示されないが、通信チャネル101は、システム100の単一装置の実施例において、後の再生のために符号化された音声信号を記録すると共に記憶する記憶装置と交換されても良い。
図1の音声通信システム100において、マイクロホン102は、アナログ音声信号103をデジタル音声信号105に変換するためのアナログ−デジタル(A/D)変換器104に供給される、アナログ音声信号103を生成する。音声符号器106は、バイナリ形式に符号化されると共にチャネル符号器108に供給される信号符号化パラメータ107のセットを生成するために、デジタル音声信号105を符号化する。任意のチャネル符号器108は、信号符号化パラメータ107を通信チャネル101上で伝送する前に、信号符号化パラメータ107のバイナリ表示に冗長性を加える。
受信機において、チャネル復号器109は、伝送中に発生したチャネルエラーを検出して訂正するために、受信されたビットストリーム111内の前記の冗長な情報を利用する。音声復号器110は、チャネル復号器109から受信したビットストリーム112を、信号符号化パラメータのセットに変換すると共に、回復した信号符号化パラメータからディジタル合成された音声信号113を生成する。音声復号器110で復元された、ディジタル合成された音声信号113は、デジタル−アナログ(D/A)変換器115によりアナログ形式114に変換されると共に、ラウドスピーカーユニット116を通して再生される。
本明細書で開示された効率的なフレーム消失の隠蔽方法の実施例は、コーデックに基づく狭帯域線形予測または広帯域線形予測のどちらででも使用され得る。本実施例は、国際電気通信連合(ITU)により勧告“G. 722.2”として標準化されると共に、“AMR−WBコーデック(Adaptive Multi-Rate Wideband codec:適応マルチレート広帯域コーデック)”,[ITU-T Recommendation G. 722.2" Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB) ", Geneva, 2002]として知られている広帯域音声コーデックに関して開示されている。このコーデックは、第三世代無線システムにおける広帯域電話通信のための第三世代パートナーシッププロジェクト(third generation partnership project:3GPP)により同様に選択された[3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification]。“AMR−WB”は、6.6〜23.85[kbit/s]の範囲で9ビットレートで動作することができる。本発明を説明するために、12.65[kbit/s]のビットレートが使用される。
ここで、効率的なフレーム消失の隠蔽方法の実施例が、他のタイプのコーデックに適用され得るということが理解されるべきである。
以下のセクションにおいて、AMR−WBの符号器及び復号器の概要は最初に示されることになる。その場合には、コーデックの堅牢性を改善するための新しいアプローチの実施例が開示されることになる。
「AMR−WB符号器の概要」
標本化された音声信号は、201から211まで番号をつけられた11個のモジュールに分解される図2の符号化装置200によりブロック毎に符号化される。
入力音声信号212は、従ってブロック毎、すなわち上述のフレームと呼ばれた“L”サンプルのブロック毎に処理される。
図2を参照すると、標本化された入力音声信号212は、ダウンサンプラモジュール201において、ダウンサンプルされる。信号は、当業者に良く知られている技術を使用して、16[kHz]から12.8[kHz]にダウンサンプルされる。より小さな周波数帯域幅が符号化されるので、ダウンサンプリングは、符号化効率を増加させる。フレームにおけるサンプルの数が減少するので、これは、同様にアルゴリズム的複雑さを減少させる。ダウンサンプリングの後で、20[ms]で320サンプルのフレームは、256サンプルのフレーム(4/5のダウンサンプル比)まで減少する。
入力フレームは、それから任意の前処理モジュール202に供給される。前処理モジュール202は、50[Hz]のカットオフ周波数を有するハイパス(高域通過)フィルタから構成されても良い。ハイパスフィルタ202は、50[Hz]未満の不必要な音声成分を取り除く。
ダウンサンプル及び前処理された信号は、“sp (n), n=O,1,2, ..., L-1”により表示され、ここで、“L”はフレームの長さ(12.8[kHz]のサンプリング周波数において256)である。プリエンファシス(preemphasis:前強調)フィルタ203の実施例において、信号“sp(n)”は、次式の伝達関数を有するフィルタを用いてプリエンファシス(preemphasized:前強調)処理される。
Figure 0004658596
ここで、“μ”は0及び1の間(標準値が“μ=0.7”である)の値を有するプリエンファシス係数(preemphasis factor)である。プリエンファシスフィルタ203の機能は、入力音声信号の高い周波数の含有量を増加させることである。それは、同様に入力音声信号のダイナミックレンジを減少させ、入力音声信号のダイナミックレンジを固定小数点演算の実行に対して更に適当にする。プリエンファシスは、同様に、改善された音質に貢献する、量子化誤差の適切で全体的な知覚による重み付けを達成する際、重要な役割を果たす。これは、以下の文書中で更に詳細に説明されることになる。
プリエンファシスフィルタ203の出力は、“s(n)”と表示される。この信号は、モジュール204においてLP分析を行うために使用される。LP分析は、当業者に良く知られている技術である。この実施例では、自己相関アプローチが使用される。自己相関アプローチにおいて、信号“s(n)”は、最初に一般的に長さ30〜40[ms]程度を有するハミング窓(Hamming window)を用いて窓関数処理(windowed)される。自己相関は、窓関数処理された信号から計算されると共に、レビンソン−ダービン再帰(Levinson-Durbin recursion)がLPフィルタ係数“ai”を計算するために使用され、ここで“i=1,...p”であると共に、“p”は一般的にLPフィルタの次数で、広帯域符号化においては16である。パラメータ“ai”は、次式の関係により与えられるLPフィルタの伝達関数“A(z)”の係数である。
Figure 0004658596
LP分析は、同様にLPフィルタ係数の量子化、及び補間も実行するモジュール204において実行される。LPフィルタ係数は、最初に、量子化及び補間目的で、更に適当な別の同等の領域に変換される。ラインスペクトル(line spectral)のペア(LSP)、及びイミッタンススペクトル(immittance spectral)のペア(ISP)の領域は、量子化、及び補間が効率的に実行され得る2つの領域である。16次のLPフィルタの係数“ai”は、分割、または多段階量子化、またはそれの結合を使用して、30〜50ビットの桁数に量子化され得る。補間の目的は、全てのフレームに1回サブフレームを伝送する一方、サブフレーム毎にLPフィルタ係数を更新することを可能にし、ビットレートを増加せずに符号器の性能を改善することである。LPフィルタ係数の量子化、及び補間は、一方では当業者に良く知られていると考えられており、従って、本仕様書ではこれ以上説明されない。
以下の段落は、サブフレーム毎に実行される符号化動作の残りを説明することになる。この実施例において、入力フレームは、5[ms]の4つのサブフレーム(12.8[kHz]のサンプリング周波数において64サンプル)に分割される。以下の記載において、フィルタ“A(z)”は、サブフレームの量子化されない補間LPフィルタを意味し、そして、フィルタ“A^(z)=A(z)のハット(以下、本翻訳文では、「ハット記号“^”」が文字の右横に書かれた場合、文字の上部に「ハット記号」があるものとする。)”は、サブフレームの量子化された補間LPフィルタを意味する。フィルタ“A^(z)”は、通信チャネルを介した伝送のために、サブフレーム毎にマルチプレクサ(MUX)213へ提供される。
分析×合成符号器(analysis-by-synthesis encoders)において、最適ピッチ及び新規パラメータ(innovation parameters)は、入力音声信号212と知覚的に重み付けされた領域において合成された音声信号との間で平均二乗誤差を最小限にすることにより検索される。重み付けされた信号“sW(n)”は、プリエンファシスフィルタ203からの信号“s(n)”に応答して、知覚重み付けフィルタ205において計算される。広帯域信号に適している固定した基準を有する知覚重み付けフィルタ205が使用される。知覚重み付けフィルタ205のための伝達関数の例は次式の関係により示される。
Figure 0004658596
ピッチ分析を簡単化するために、開ループピッチ遅れ(open-loop pitch lag)“TOL”は、開ループピッチ検索モジュール206において、最初に重み付けされた音声信号“sW(n)”から推定される。その場合に、閉ループピッチ検索モジュール207において、サブフレームに対して実行される閉ループピッチ分析は、LTPパラメータ“T(ピッチ遅れ(pitch lag))”,及びLTPパラメータ“b(ピッチ利得(pitch gain))”の検索の複雑さを著しく軽減する開ループピッチ遅れ“TOL”の前後に制限される。開ループピッチ分析は、通常、当業者に良く知られている手法を使用して、モジュール206において10[ms](2つのサブフレーム)毎に1度実行される。
LTP(Long Term Prediction:長期予測)分析のためのターゲットベクトル(target vector)“x”は、最初に計算される。これは、通常、重み付けされた合成フィルタ“W(z)/A^(z)”のゼロ入力応答(zero-input response)“s0”を、重み付けされた音声信号“sW(n)”から減算することにより実行される。このゼロ入力応答“s0”は、LP分析、量子化及び補間モジュール204からの量子化された補間LPフィルタ“A^(z)”と、LPフィルタ“A(z)”、LPフィルタ“A^(z)”、及び励振ベクトル(excitation vector)“u”に応答するメモリ更新モジュール211に記憶される重み付けされた合成フィルタ“W(z)/A^(z)”の初期状態とに応答して、ゼロ入力応答計算器208により計算される。この動作は、当業者に良く知られており、従ってこれ以上説明されることはない。
N次の重み付けされた合成フィルタ“W(z)/A^(z)”のインパルス応答ベクトル“h”は、モジュール204からのLPフィルタ“A(z)”、及びLPフィルタ“A^(z)”の係数を使用するインパルス応答生成器209において計算される。更に、この動作は、当業者に良く知られており、従ってこれ以上本仕様書で説明されることはない。
閉ループピッチ(または、ピッチコードブック)パラメータ“b”,“T”,及び“j”は、入力としてターゲットベクトル“x”、インパルス応答ベクトル“h”、及び開ループピッチ遅れ“TOL”を使用する閉ループピッチ検索モジュール207において計算される。
ピッチ検索は、例えば、次式で示される、ターゲットベクトル“x”と過去の励振の増減フィルタ処理された(scaled filtered)バージョンとの間の平均二乗重み付けピッチ予測誤差(mean squared weighted pitch prediction error)を最小限にする最も良いピッチ遅れ“T”及びピッチ利得“b”を見つけることから構成される。
Figure 0004658596
更に明確には、本実施例において、ピッチ(ピッチコードブック)検索は、3つのステージから構成される。
第1のステージにおいて、開ループピッチ遅れ“TOL”は、重み付けされた音声信号“sW(n)”に応答して開ループピッチ検索モジュール206において推定される。上述のように、この開ループピッチ分析は、通常、当業者に良く知られている手法を使用して、10[ms](2つのサブフレーム)に1度実行される。
第2のステージにおいて、検索基準“C”は、捜索手順を著しく簡単化する、推定された開ループピッチ遅れ“TOL”(通常は5)の前後の整数ピッチ遅れ(integer pitch lags)を得るために、閉ループピッチ検索モジュール207において検索される。単純な手順が、ピッチ遅れ毎の畳み込みを計算する必要なしに、フィルタ処理されたコードベクトル“yT”(このベクトルは、以下の記載において定義される)を更新するために使用される。検索基準“C”の一例は、次式により与えられる。
Figure 0004658596
ここで、“t”はベクトルの転置を表す。
一度、最高の整数ピッチ遅れが第2のステージで発見されれば、検索(モジュール207)の第3の段階は、検索基準“C”により、その最高の整数ピッチ遅れの前後の部分をテストする。例えば、AMR−WB標準は、“1/4”及び“1/2”のサブサンプル分解能を使用する。
広帯域信号において、調波構造(harmonic structure)は、音声セグメントに応じて、ある周波数までのみ存在する。このように、広帯域音声信号の有声のセグメントにおけるピッチ寄与(pitch contribution)の効率的な表示を達成するために、広帯域スペクトル上での周期性の量を変えるのには柔軟性が必要とされる。これは、複数の周波数成形フィルタ(例えば、ローパス(低域通過)フィルタ、またはバンドパス(帯域通過)フィルタ)を通してピッチコードベクトル(pitch codevector)を処理することにより達成される。そして、重み付けされた平均二乗誤差“e(j) ”を最小限にする周波数成形フィルタが選択される。選択された周波数成形フィルタは、指数“j”で識別される。
ピッチコードブックの指数“T”は、符号化されると共に、通信チャネルを介した伝送のために、マルチプレクサ213に伝送される。ピッチ利得“b”は、量子化されると共に、マルチプレクサ213に伝送される。特別なビットは、指数“j”を符号化するために使用されると共に、この特別なビットは、マルチプレクサ213にもまた供給される。
一度、ピッチ、またはLTP(Long Term Prediction:長期予測)パラメータ“b”,“T”,及び“j”が決定されれば、次のステップは、図2の新規励振検索モジュール(innovative excitation search module)210により、最適な新規励振(innovative excitation)を検索することである。最初に、ターゲットベクトル“x”は、次式のようにLTPの寄与を減算することにより更新される。
Figure 0004658596
ここで、“b”はピッチ利得であり、“yT”は、フィルタ処理されたピッチコードブックベクトル(選択された周波数成形フィルタ(指数“y”)フィルタによりフィルタ処理されると共に、インパルス応答“h”と畳み込み演算された、遅延“T”における過去の励振)である。
CELPにおける新規励振検索手順(innovative excitation search procedure)は、例えば次式に示すように、新規コードブック(innovation codebook)において、ターゲットベクトル”x'”とコードベクトル“ck”の増減フィルタ処理されたバージョンとの間の平均二乗誤差“E”を最小限にする最適な励振コードベクトル“ck”と利得“g”とを発見するように実行される。
Figure 0004658596
ここで、“H”は、インパルス応答ベクトル“h”から導かれた、更に低次の(lower)畳み込み三角行列(triangular convolution matrix)である。発見された最適なコードブック“ck”に対応する新規コードブックの指数“k”、及び利得“g”は、通信チャンネルを介した伝送のために、マルチプレクサ213に供給される。
使用される新規コードブックが、1995年8月22日に“Adoul”等に交付された米国特許第5,444,816号による、合成音声品質を改善するために特別なスペクトルの成分を拡張する適応前置フィルタ“F(z)”が後に続く代数のコードブックから構成される、動的なコードブックであることに留意すべきである。この実施例において、新規コードブック検索(innovative codebook search)は、米国の特許番号である、1995年8月22日に公表された第5,444,816号(“Adoul”他)、1997年12月17日に“Adoul”等に交付された第5,699,482号、1998年5月19日に“Adoul”等に交付された第5,754,976号、及び1997年12月23日付の第5,701,392号に記載された代数のコードブックにより、モジュール210において実行される。
「AMR−WB復号器の概要」
図3の音声復号器300は、デジタル入力信号322(デマルチプレクサ(DEMUX)317への入力ビットストリーム)と、標本化音声出力信号323(加算器321の出力信号)との間で実行される様々なステップを説明する。
デマルチプレクサ317は、デジタル入力チャネルから受信されたバイナリ情報(入力ビットストリーム322)から、合成モデルパラメータを抽出する。受信されたそれぞれのバイナリフレームから抽出されたパラメータは、
・短期予測(short-term prediction:STP)パラメータと呼ばれ、フレーム毎に1回生成される量子化された補間LPフィルタ係数“A^(z)”;
・長期予測(long-term prediction:LTP)パラメータ“T”,“b”,及び“j”(各サブフレームに対する);
・新規コードブックの指数“k”及び利得“g”(各サブフレームに対する);
である。
本音声信号は、以下に説明されることになるこれらのパラメータに基づいて合成される。
新規コードブック318は、増幅器324を通して復号化利得係数“g”により増減される新規コードベクトル(innovation codevector)“ck”を生成するために、指数“k”に応答する。本実施例において、上述の米国特許番号第5,444,816号、第5,699,482号、第5,754,976号、及び第5,701,392号に記載された新規コードブックは、新規コードベクトル(innovative codevector)“ck”を生成するために使用される。
増幅器324の出力端子における、生成された、増減されたコードベクトルは、周波数依存のピッチ拡張器305を通して処理される。
励振信号“u”の周期性を拡張することは、有声のセグメントの品質を改善する。周期性の拡張は、その周波数応答が低い方の周波数より高い方の周波数を更に強調する新規フィルタ(innovation filter)“F(z)”(ピッチ拡張器305)を通して、新規(固定の)コードブックからの新規コードベクトル“ck”をフィルタ処理することにより達成される。新規フィルタ“F(z)”の係数は、励振信号“u”における周期性の量と関係している。
新規フィルタ“F(z)”の係数を得るための効率的な具体的方法は、全部の励振信号“u”において、それらをピッチの寄与の量と関係づけることである。これは、サブフレームの周期性に応じた周波数応答となり、高い方の周波数が、更に高いピッチ利得のために更に強く強調される(全体のスロープを更に強くする)。励振信号“u”がより周期的であるとき、高い方の周波数より低い方の周波数で励振信号“u”の周期性を更に拡張する新規フィルタ305は、低い方の周波数で新規コードベクトル“ck”のエネルギーを低下させる効果を有する。新規フィルタ305に対して提案された形式は、次式のようになる。
Figure 0004658596
ここで、“α”は励振信号“u”の周期性のレベルから得られた周期性の係数である。周期性の係数αは、有声化(voicing)係数生成器304において計算される。最初に、有声化係数“rv”は、次式により有声化係数生成器304において計算される。
Figure 0004658596
ここで、“EV”は増減されたピッチコードベクトル“bvT”のエネルギーであると共に、“EC”は増減された新規コードベクトル“gck”のエネルギーである。それは、
Figure 0004658596
と、
Figure 0004658596
である。
“rv”の値が“−1”と”1”との間にある点に留意すること(“1”が単に有声の信号に対応すると共に、“−1”が単に無声(unvoiced)の信号に対応する)。
上述の増減されたピッチコードベクトル“bvT”は、ピッチコードベクトルを生成するために、ピッチコードブック301へピッチ遅延“T”を供給することにより生成される。ピッチコードベクトルは、その場合、フィルタ処理されたピッチコードベクトル“vT”を生成するために、遮断周波数がデマルチプレクサ317からの指数“j”に関して選択されるローパスフィルタ302を通して処理される。その場合、フィルタ処理されたピッチコードベクトル“vT”は、その後、増減されたピッチコードベクトル“bvT”を生成するために、増幅器326によるピッチ利得“b”により増幅される。
本実施例において、係数αは、その場合、有声化係数生成器304において、次式により計算される。
Figure 0004658596
それは、単に無声の信号に対しては“0”の値に対応すると共に、単に有声の信号に対しては“0.25”の値に対応する。
拡張された信号“cf”は、従って新規フィルタ305(F(z))を通して、増減された新規コードベクトル“gck”をフィルタ処理することにより計算される。
拡張された励振信号“u'”は、加算器320により次式のように計算される。
Figure 0004658596
この処理が符号器200において実行されないことに留意すべきである。このように、符号器200と復号器300との間の同期を保持するためにメモリ303に記憶される拡張なしで、励振信号“u”の過去の値を使用するピッチコードブック301の内容を更新することは不可欠である。従って、励振信号“u”は、ピッチコードブック301のメモリ303を更新するために使用されると共に、拡張された励振信号“u'”は、LP合成フィルタ306の入力において使用される。
合成された信号“s'”は、形式“1/A^(z)”を有するLP合成フィルタ306を通して、拡張された励振信号“u'”をフィルタ処理することにより計算され、ここで、“A^(z)”は現在のサブフレームにおける量子化された補間LPフィルタである。図3に示すように、デマルチプレクサ317からの線325上の量子化された補間LPフィルタ係数“A^(z)”は、従ってLP合成フィルタ306のパラメータを調整するために、LP合成フィルタ306に供給される。ディエンファシスフィルタ307は、図2のプリエンファシスフィルタ203の逆である。ディエンファシスフィルタ307の伝達関数は、次式により与えられる。
Figure 0004658596
ここで、“μ”は、“0”と“1”との間に配置された値(標準的な値は、“μ=0.7”である)を有するプリエンファシス係数である。より高次のフィルタが同様に使用されることもあり得る。
ベクトル“s'”は、50[Hz]未満の不必要な周波数を取り除くと共に更に“sh”を取得するようにハイパスフィルタ308を通して処理されるベクトル“sd”を取得するために、ディエンファシスフィルタ“D(z)”307を通してフィルタ処理される。
オーバサンプラ309は、図2のダウンサンプラ201の逆の過程を処理する。この実施例において、オーバサンプリングは、当業者に良く知られている手法を使用して、サンプリングレート12.8[kHz]を元のサンプリングレート16[kHz]に変換する。オーバサンプルされた合成信号は“S^=Sのハット”と表示される。信号“S^”は、合成された広帯域の中間信号ともまた呼ばれる。
オーバサンプルされた合成信号“S^”は、符号器200におけるダウンサンプリング処理(図2のモジュール201)の間に失われた高い方の周波数成分を含んでいない。これは、低域通過の知覚作用を合成された音声信号に与える。元の信号の最大限の帯域を回復するために、高域周波数生成手順がモジュール310において実行されると共に、有声化係数生成器304(図3)から入力を必要とする。
高域周波数生成モジュール310から結果として生じるバンドパスフィルタ処理されたノイズシーケンス“z”は、出力端子323上の最終の復元された音声出力信号“sout”を取得するために、加算器321により、オーバサンプルされた合成音声信号“S^”に加算される。高域周波数再生処理の例は、2000年5月4日に国際公開第00/25305号の番号で公表された国際PCT特許出願において説明されている。
12.65[kbit/s]におけるAMR−WBコーデックのビット割当が表1に与えられている。
Figure 0004658596
「強力なフレーム消失の隠蔽」
デジタル音声通信システムにおいて、特に、無線環境、及びパケット交換ネットワークにおいて動作しているとき、フレームの消失が合成された音声品質に対して重大な影響を与える。無線のセルラーシステムにおいて、受信信号のエネルギーは、高いビット誤り率となる、頻繁に発生する深刻な減衰(fade)を示すと共に、これはセル境界で更に顕著となる。この場合、チャネル復号器は、受信されたフレームにおいてエラーを訂正することができないと共に、その結果、チャネル復号器の後で通常使用されるエラー検出器は、フレームが消去されたことを示すことになる。インターネットプロトコル上の音声(Voice over Internet Protocol:VoIP)のような、パケットネットワークアプリケーション上の音声において、音声信号は、通常各パケットに20[ms]のフレームが配置されてパケット化される。パケット交換通信において、もしパケットの数が非常に多くなる、またはそのパケットが長時間の遅延の後受信機に到着する場合、パケットの欠落はルータで発生し得ると共に、もしその遅延が受信機側のジッタ用バッファの長さを超える場合、それは失われたものとして示されるべきである。これらのシステムにおいて、コーデックは、一般的に3〜5[%]のフレーム消失率となる傾向がある。
フレーム消失(frame erasure:FER)処理の問題は、基本的に2つの面を有する。第1に、消去されたフレーム指示子が到着するとき、前のフレームで送信された情報を使用すると共に、欠けているフレームにおける信号の発生を推定することにより、欠けているフレームは生成されなければならない。推定の成功は、隠蔽方法ばかりではなく、その消失が発生する音声信号における場所により決まる。第2に、通常の操作が回復するとき、すなわち消去されたフレームのブロック(1つ以上)の後で最初の良好なフレームが到着するとき、スムーズな移行が保障されなければならない。これは、本当の合成として重要でない仕事(タスク)ではないと共に、推定された合成は異なって発展し得る。最初の良好なフレームが到着するとき、復号器は、従って符号器から非同期化される。主な理由は、低いビットレートの符号器がピッチ予測を信頼すると共に、消去されたフレーム期間中に、ピッチ予測器のメモリは、もはや符号器のものと同じではなくなるからである。多くの連続したフレームが消去されるとき、その問題は拡大される。隠蔽に関して、正常な処理の回復の難しさは、その消失が発生した音声信号のタイプにより決まる。
フレーム消失の悪影響は、隠蔽及び正常な処理の回復(更なる回復)を消失が発生する音声信号のタイプへ適合させることにより、著しく低減され得る。この目的のために、各音声フレームを分類することが必要である。この分類は、符号器で実行されると共に伝送され得る。一方、それは復号器で推定され得る。
最適な隠蔽及び回復のために、注意深く制御されなければならない音声信号の重大な特性がいくつかある。これらの重大な特性は、信号エネルギーまたは振幅、周期性の量、スペクトル包絡線、及びピッチ期間である。有声の音声の回復の場合には、更なる改善は、位相制御により達成され得る。ビットレートのわずかな増加で、更に良い制御のために、いくらかの補足のパラメータが量子化されると共に伝送され得る。もし追加の帯域幅が利用可能ではない場合、それらのパラメータは復号器において推定され得る。制御されたこれらのパラメータを用いて、特に符号器における復号化された信号の実際の信号への収束性を改善すると共に、正常な処理が回復するとき、符号器と復号器との間での食い違いの影響を軽減することにより、フレーム消失の隠蔽及び回復は、著しく改善され得る。
本発明の実施例では、消去されたフレームの後に続くフレームにおいて、復号器の性能及び収束性を改善することになる、効率的なフレーム消失の隠蔽のための方法、及びパラメータを抽出すると共に伝送するための方法が開示される。これらのパラメータは、以下のフレーム分類、エネルギー、有声化情報、及び位相情報の中の2つ以上を有している。更に、もし特別なビットの伝送が可能ではない場合、そのようなパラメータを復号器において抽出するための方法が開示される。最後に、消去されたフレームの後に続く良好なフレームにおいて復号器の収束性を改善するための方法もまた開示される。
本実施例によるフレーム消失の隠蔽技術は、上述のAMR−WBコーデックに適用された。このコーデックは、以下の記載におけるFERの隠蔽方法の実現のための構成例としての役割を果たすことになる。上述のように、コーデックへの入力音声信号212は、16[kHz]のサンプリング周波数を有するが、しかし、それは、更なる処理の前に12.8[kHz]のサンプリング周波数へダウンサンプルされる。本実施例において、FER処理は、ダウンサンプルされた信号に対して実行される。
図4は、AMR−WB符号器400の簡略化したブロック図を示す。この簡略化したブロック図において、ダウンサンプラ201、ハイパスフィルタ202、及びプリエンファシスフィルタ203は、前処理モジュール401に分類される。同様に、閉ループ検索モジュール207、ゼロ入力応答計算器208、インパルス応答計算器209、新規励振検索モジュール(innovative excitation search module)210、及びメモリ更新モジュール211は、閉ループピッチ及び新規コードブック検索モジュール402に分類される。この分類は、本発明の実施例に関する新しいモジュールの説明を簡単化するために実行される。
図5は、本発明の実施例に関するモジュールが加えられる図4のブロック図の拡張である。これらの加えられたモジュール500〜507において、FERの隠蔽、及び消去されたフレーム後の復号器の収束と回復を改善することを目的として、追加のパラメータが計算され、量子化され、そして伝送される。本実施例において、これらのパラメータは、信号分類、エネルギー、及び位相情報(フレームにおける最初の声門音パルスの推定される位置)を有している。
次のセクションにおいて、これらの追加のパラメータの計算及び量子化は、図5を参照して詳細に示されると共に、更に明白になる。これらのパラメータの中で、信号分類は、更に詳細に扱われることになる。次のセクションにおいて、収束性を改善するためにこれらの追加のパラメータを使用する、効率的なFERの隠蔽が説明されることになる。
「FERの隠蔽及び回復のための信号分類」
消去されたフレームが存在する場合に、信号復元のために音声の分類を使用するという基礎的なアイデアは、準定常音声セグメントに対してと急激に特性を変える音声セグメントに対してとでは理想的な隠蔽方法が異なるという事実から構成される。同じ状態を保たない音声セグメントにおける消去されたフレームの最も良い処理が、音声符号化パラメータの環境雑音特性への急速な収束として簡単にまとめられ得る一方、準定常信号の場合は、音声符号化パラメータは、弱められる前のいくらかの隣接する消去されたフレーム期間では、劇的には変動しないと共にほとんど変わらない状態に保たれ得る。同様に、フレームの消去されたブロックの後に続いて起こる信号回復のための最適な方法は、音声信号の分類により異なる。
音声信号は、有声状態、無声状態、及び休止中としておおよそ分類され得る。有声の音声は、目立つ量の周期的成分を含むと共に、更に以下の種類、有声の頭子音(voiced onsets)、有声のセグメント(voiced segments)、有声の遷移(voiced transitions)、及び有声のオフセット(voiced offsets)において分類され得る。有声の頭子音は、休止または声に出さないセグメント後の有声の音声セグメントの始まりとして定義される。有声のセグメントの間、音声信号パラメータ(スペクトル包絡線,ピッチ期間,周期的及び非周期的な成分の比率,エネルギー)は、フレームからフレームへゆっくりと変化する。有声の遷移は、母音の間の遷移のような、有声の音声の急速な変化により特徴づけられる。有声のオフセットは、有声のセグメントの終りにおけるエネルギー及び有声化の緩やかな減少により特徴づけられる。
信号の無声部分は、周期的成分が欠けていることにより特徴づけられると共に、更に、エネルギー及びスペクトルが急激に変化する不安定フレームと、これらの特性が比較的安定した状態を維持する安定フレームとに分類され得る。残っているフレームは無音として分類される。無音フレームは、有効な音声がない全てのフレーム、すなわち、もしバックグラウンドノイズ(背景雑音)が存在する場合、ノイズだけのフレームもまた具備している。
上述のクラス(classes:階級)の全てが個別の処理を必要とするとは限らない。従って、誤りの隠蔽技術の目的のために、いくらかの信号分類は一まとめにされる。
「符号器における分類」
ビットストリームに分類情報を含むための利用可能な帯域幅があるとき、その分類は、符号器において実行され得る。これにはいくらかの利点がある。最も重要なことは、多くの場合、音声符号器に先読み部分があることである。先読み部分は、次のフレームにおける信号の発生を推定することを可能にすると共に、従って、その分類は将来の信号の動きを考慮に入れることにより実行され得る。一般的に、先読み部分が長い程、その分類はより良好なものとなり得る。フレーム消失の隠蔽に必要な信号処理の大部分が、いずれにせよ音声符号化のために必要とされるので、更なる利点は複雑さの減少である。最後に、同様に合成された信号の代りに元の信号を使って作業をすることの利点もある。
フレーム分類は、隠蔽及び回復方法を念頭においた検討により実行される。すなわち、あらゆるフレームは、次のフレームが欠けている場合には隠蔽が最適であり得るか、または前のフレームが失われた場合には回復が最適であり得るように分類される。FER処理のために使用されるいくらかのクラスは、復号器において、曖昧性なしに推測され得るので、伝送される必要がない。本実施例においては、5個の明確なクラスが使用されると共に、以下のように定義される。
・無声クラス(UNVOICED class)は、全ての無声のフレーム、及び有効な音声なしの全てのフレームを具備する。もし、その終わりが無声となる傾向がある場合、有声のオフセットフレームは同様に無声クラスとして分類され得ると共に、それが失われる場合、無声のフレームのために策定された(designed)隠蔽は、次のフレームのために使用され得る。
・無声遷移クラス(UNVOICED TRANSITION class)は、その終わりにおいて有声の頭子音が見込まれる無声のフレームを具備する。その頭子音は、しかしながら、有声のフレームのために策定された隠蔽を十分に使用するには、まだあまりにも短いか、またはよく確立されていない。無声遷移クラスは、無声クラスまたは、無声遷移クラスとして分類されたフレームのみの後に続くことができる。
・有声遷移クラス(VOICED TRANSITION class)は、他と比較して弱い有声の特性を備える有声のフレームを具備する。それらは、一般的に、急激に特性(母音の間の遷移)が変化する有声のフレームか、またはフレーム全体に続いている有声のオフセットである。有声遷移クラスは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続くことができる。
・有声クラス(VOICED class)は、安定した特性を備える有声のフレームを具備する。このクラスは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続くことができる。
・頭子音クラス(ONSET class)は、無声クラス、または無声遷移クラスとして分類されたフレームの後に続く、安定した特性を備える全ての有声のフレームを具備する。頭子音クラスとして分類されたフレームは、頭子音が、既に失われた有声のフレームのために策定された隠蔽の使用に対して十分に形成されている、有声の頭子音のフレームに対応する。頭子音クラスの後に続くフレーム消失に使用される隠蔽技術は、有声クラスの後に続く場合と同じである。違いは回復方法にある。もし、頭子音クラスのフレームが失われる(すなわち、有声クラスの良好なフレームは、消失の後で到着するが、しかし消失の前の最後の良好なフレームは無声クラスであった)場合、特別な技術が、失われた頭子音を人工的に復元するために使用され得る。このシナリオは図6において示される。人工的な頭子音の復元技術は、以下の記載において更に詳細に説明されることになる。一方、もし頭子音クラスの良好なフレームが消失フレームの後で到着すると共に、その消失フレームの前の最後の良好なフレームが無声クラスであった場合、頭子音が失われなかった(失われたフレーム中になかった)ので、この特別な処理は必要とされない。
分類の状態遷移図は図7において概説される。もし、利用可能な帯域幅が十分である場合、その分類は、符号器において実行されると共に、2ビットを用いて伝送される。図7から分かるように、それらが明らかに復号器において区別され得るので、無声遷移クラス及び有声遷移クラスは、一まとめにされ得る(無声遷移クラスが無声クラス、または無声遷移クラスのフレームのみの後に続くことができ、有声遷移クラスが頭子音クラス、有声クラス、または有声遷移クラスのフレームのみの後に続くことができる)。以下のパラメータ、正規化された相関値“rX”、スペクトルの傾斜測定値“et”、信号対雑音比“snr”、ピッチ安定性計数値“pc”、現在のフレームの終りにおける信号の相対的なフレームエネルギー“ES”、及びゼロ交差計数値“zc”は、分類のために使用される。以下の詳細な分析から分かるように、これらのパラメータの計算は、次のフレームにおける音声信号の動きも同様に考慮するために、できる限り利用可能な先読み部分を使用する。
正規化された相関値“rX”は、図5の開ループピッチ検索モジュール206の一部として計算される。このモジュール206は、通常、10[ms]毎に(フレーム当たり2回)、開ループピッチの推定値を出力する。ここで、それは正規化された相関の評価値を出力するためにもまた使用される。これらの正規化された相関値は、現在の重み付けされた音声信号“sW(n)”と、開ループピッチ遅延だけ過去の重み付けされた音声信号とについて計算される。複雑さを減少させるために、重み付けされた音声信号“sW(n)”は、開ループピッチ分析の前に、係数2により6400[Hz]のサンプリング周波数までダウンサンプルされる[3GPP TS 26.190,"AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification]。平均相関値“rX”は、次式で定義される。
Figure 0004658596
ここで、“rX(1)”、“rX(2)”は、それぞれ現在のフレームの後半の正規化された相関値、及び先読み部分の正規化された相関値である。この実施例では、5[ms]の先読み部分を使用するAMR−WB標準とは異なり、13[ms]の先読み部分が使用される。正規化された相関値“rX(k)”は、次式のように計算される。
Figure 0004658596
ここで、
Figure 0004658596
Figure 0004658596
Figure 0004658596
相関値“rX(k)”は、重み付けされた音声信号“sW(n)”を使用して計算される。瞬時値(instants)“tK”は、現在のフレームの始まりと関連があると共に、6.4[kHz] (10[ms]及び20[ms])のサンプリングレートまたは周波数において、それぞれ64及び128サンプルに等しい。数値“PK=TOL”は、選択された開ループピッチ推定値である。自己相関計算値の長さ“LK”は、ピッチ期間に依存している。“LK”の値は、(6.4[kHz]のサンプリングレートに対して)以下のように簡単にまとめられる。
“PK≦31サンプル”に対しては“LK=40サンプル”である。
“PK≦61サンプル”に対しては“LK=62サンプル”である。
“PK>61サンプル”に対しては“LK=115サンプル”である。
相関関係があるベクトルの長さが、強力な開ループピッチ検出のために役立つ少なくとも1ピッチ期間を含むということを、これらの長さは保証する。長いピッチ期間(“p1”>61サンプル)に対して、rX(1)、及びrX(2)は同一であり、すなわち、先読み部分における分析がもはや必要ではなくなるくらい相関関係があるベクトルが十分に長いので、1つの相関値だけが計算される。
スペクトルの傾斜値パラメータ“et”は、エネルギーの周波数分布に関する情報を含んでいる。本実施例において、スペクトルの傾斜値は、低域周波数に集中したエネルギーと、高域周波数に集中したエネルギーとの間の比率として推定される。しかしながら、それは、2個の音声信号の第1自己相関係数の間の比率のような、異なる方法でもまた推定され得る。
離散フーリエ変換は、図5のスペクトル解析及びスペクトルエネルギー推定モジュール500において、スペクトル解析を実行するために使用される。周波数分析、及び傾斜値計算は、フレーム当たり2回実行される。256ポイントの高速フーリエ変換(FFT)は、50パーセントのオーバラップ処理(overlap)により使用される。先読み部分全てが利用されるように分析窓は配置される。本実施例において、第1の窓の始まりは、現在のフレームの始まりの24サンプル後に配置される。第2の窓は、更に128サンプル後に配置される。周波数分析のために、入力信号に重み付けするための異なる窓が使用され得る。ハミング窓の平方根(それはサイン窓に相当する)が本実施例においては使用された。この窓は、特にオーバラップ処理を加える方法にとても適している。従って、この特別なスペクトル解析は、スペクトルの減算及びオーバラップ処理を加える分析/合成に基づく、任意の雑音抑圧アルゴリズムにおいて使用され得る。
知覚の臨界帯域に続く高い周波数及び低い周波数におけるエネルギーは、図5のモジュール500において計算される。本実施例において、各臨界帯域は、以下の数まで考慮される[J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise
Criteria," IEEE Jour. on Selected Areas in Communications, vol. 6, no. 2,
pp. 314-323]。
臨界帯域={ 100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350.0 }[Hz]である。
高い方の周波数におけるエネルギーは、モジュール500において、次式により最後の2つの臨界帯域のエネルギーの平均値として計算される。
Figure 0004658596
ここで、臨界帯域エネルギー“e(i)”は、臨界帯域の中のビン(bin:周波数ブロック)のエネルギーの和として計算され、ビンの数により平均化される。
低い方の周波数におけるエネルギーは、最初の10個の臨界帯域におけるエネルギーの平均値として計算される。中間の臨界帯域は、低い周波数において高いエネルギー密度を有するフレーム(一般的に有声クラス)と、高い周波数において高いエネルギー密度を有するフレーム(一般に無声クラス)との間の識別を改善するために、計算から除外された。両者の間では、エネルギー含有量がクラスのうちのどれに対しても特有ではないと共に、判定の混乱を増加させることもあり得る。
モジュール500において、低い周波数におけるエネルギーは、長いピッチ期間と短いピッチ期間との間では異なって計算される。有声の女性の音声セグメントに対しては、スペクトルの調波構造(harmonic structure)が、有声−無声識別を増加させるために活用され得る。従って、短いピッチ期間の間、“El ̄=Elのバー(以下、本翻訳文では、「上バー記号“ ̄”」が文字の右横に書かれた場合、文字の上部に「上バー記号」があるものとする。)”は、ビンに関して計算されると共に、音声の調波(speech harmonics)に十分に近い周波数ビン(frequency bins)のみが加算において考慮され、すなわち次式のようになる。
Figure 0004658596
ここで、“eb(i)”は、(直流(DC)成分が考慮されない)最初の25個の周波数ビンにおけるビンエネルギー(bin energies)である。これらの25個のビンが最初の10個の臨界帯域に対応する点に留意すること。上述の加算式において、最も近い調波に対してある周波数しきい値より更に近いビンに関係した項のみがゼロではない。計数値“cnt”は、それらのゼロでない項の数に等しい。加算結果に含まれるビンに対するしきい値は50[Hz]に固定されており、すなわち、最も近い調波に対して50[Hz]より近いビンのみが考慮される。従って、もし低い周波数においてその構造が調波である場合、高いエネルギーの項のみ加算結果に含まれることになる。一方、その構造が調波ではない場合、項の選択は無作為になると共に、その加算結果は更に小さいものになることになる。このように、低い周波数において高いエネルギー含有量を伴う規則正しい無声音が検出され得る。周波数分解能が十分ではないので、この処理は更に長いピッチ期間に対しては実行され得ない。ピッチのしきい値は、100[Hz]に対応する128サンプルである。それは、128サンプルより更に長いピッチ期間に対して、及び推測的な無声音(すなわち、“rX ̄+re”<0.6)に対しても、低い周波数のエネルギー推定が臨界帯域毎に実行されると共に、次式のように計算されることを意味する。
Figure 0004658596
ノイズ推定及び正規化相関値修正モジュール501において計算される数値“re”は、以下の理由により、バックグラウンドノイズが存在する場合に、正規化された相関値に加算された補正値である。バックグラウンドノイズが存在する場合には、正規化された相関値の平均値は減少する。しかしながら、信号分類のために、この減少は有声−無声の判定に影響を及ぼすべきではない。この減少量“re”とデシベル(dB)で表された全バックグラウンドノイズエネルギーとの間の依存関係は、近似的に指数の関係となると共に、次式の関係を用いて表され得るということが分かっている。
Figure 0004658596
ここで、“NdB”は次式を表す。
Figure 0004658596
ここで、“n(i)”は、“e(i)”と同一の方法で正規化された各臨界帯域を推定するノイズエネルギーであると共に、“gdB”は、ノイズ低減ルーチンを可能にさせる、デシベル(dB)で表された最大の雑音抑圧レベルである。数値“re”は負の数にはならない。良好なノイズ除去アルゴリズムが使用されると共に“gdB”が十分に高いとき、“re”は実質的にゼロに等しいことに留意するべきである。ノイズ除去が無効にされるとき、またはバックグラウンドノイズのレベルが最大許容除去量より著しく高い場合にのみ、それは有意義である。“re”の影響は、この項を定数と乗算することにより調整され得る。
最後に、その結果生じる、低い方の周波数エネルギー及び高い方の周波数エネルギーは、上記で計算された値“Eh ̄”、及び値“El ̄”から、推定されたノイズエネルギーを減算することにより取得される。それは次式となる。
Figure 0004658596
Figure 0004658596
ここで、“Nh”、及び“Nl”は、それぞれが(3)式及び(5)式と類似する式を用いて計算された、最後の2個の臨界帯域及び最初の10個の臨界帯域における平均化されたノイズエネルギーであり、“fC”は、バックグラウンドノイズレベルを変えることにより、これらの大きさが一定値に近づいたままとなるように調整された補正係数である。この実施例において、“fC”の値は“3”に固定された。
スペクトルの傾斜値“et”は、次式を使用して、スペクトル傾斜値推定モジュール503において計算される。
Figure 0004658596
そして、それはフレーム毎に実行される2回の周波数分析について、次式のようにデシベル(dB)領域において平均化される。
Figure 0004658596
信号対雑音比(SNR)測定は、一般的な波形整合符号器に関して、有声音の間はSNRがはるかに高いという事実を活用する。“snr”パラメータ推定は、符号器サブフレームループ(encoder subframe loop)の終りに実行されなければならないと共に、次式を使用して、SNR計算モジュール504において計算される。
Figure 0004658596
ここで、“ESW”は、知覚の重み付けフィルタ205からの、現在のフレームの重み付けされた音声信号“sW(n)”のエネルギーであり、“Ee”は、知覚の重み付けフィルタ205からの、この重み付けされた音声信号と現在のフレームの重み付けされた合成信号との間のエラーのエネルギーである。
ピッチ安定性計数値“pc”は、ピッチ期間の変化量を決定する。それは、次式のように開ループピッチ推定値に応答して、信号分類モジュール505内部において計算される。
Figure 0004658596
数値“P0, P1, P2”は、それぞれ現在のフレームの前半、現在のフレームの後半、及び先読み部分から開ループピッチ検索モジュール206により計算された、開ループピッチ推定値に対応する。
相対的なフレームエネルギー“ES”は、デシベル(dB)領域における現在のフレームエネルギーとその長期間の平均値との間の差異として、モジュール500により次式のように計算される。
Figure 0004658596
ここで、フレームエネルギー“Ef ̄”は、各フレーム毎に実行された両方のスペクトル解析について平均化された臨界帯域エネルギーの加算結果として取得される。
Figure 0004658596
Figure 0004658596
長期間にわたり平均化されたエネルギーは、有効な音声のフレーム上で次式の関係を使用して更新される。
Figure 0004658596
最後のパラメータは、ゼロ交差計算モジュール508により音声信号の1つのフレーム上で計算されたゼロ交差パラメータ“zc”である。そのフレームは、現在のフレームの中程で開始すると共に、先読み部分の2個のサブフレームを使用する。この実施例において、ゼロ交差計数値“zc”は、信号の間隔の間に信号の正負の符号が正から負に変わる回数をカウントする。
分類を更に強固なものにするために、分類パラメータは、メリット関数“fm”の形成と共に検討される。その目的のために、分類パラメータは、無声の信号に対する標準的な各パラメータの値が“0”に移行すると共に、有声の信号に対する標準的な各パラメータの値が“1”に移行するように、最初に“0”と“1”との間において増減される。一次関数がそれらの間で使用される。ここで、その増減されたバージョンが次式を使用して取得されると共に、“0”と“1”との間に制限される、パラメータ“px”について検討することにする。
Figure 0004658596
関数の係数“kP”及び関数の係数“cP”は、FERが存在する場合に使用される隠蔽及び回復技術による信号ひずみを最小とするように、各パラメータに関して実験的に見つけられた。この実施例において使用される値は表2に集約される。
Figure 0004658596
メリット関数は、次式のように定義された。
Figure 0004658596
ここで、上付き文字“S”はパラメータの増減されたバージョンであることを示す。
その分類は、その場合にはメリット関数“fm”と、表3に集約される基準を用いて実行される。
Figure 0004658596
信号源制御可変ビットレート(source-controlled variable bit rate)符号器(VBR符号器)の場合には、信号分類は符号化動作に固有である。そのコーデックは、さまざまなビットレートで動作すると共に、各音声フレームの符号化に使用されるビットレートを音声フレームの性質に基づいて決定するために、レート選択モジュールが使用される(例えば、有声のフレーム、無声のフレーム、一時的なフレーム、バックグラウンドノイズのフレームは、それぞれ特別な符号化アルゴリズムにより符号化される)。符号化モード及びこのような音声クラスに関する情報は、既にビットストリームに含まれた部分であり、FER処理のために明示的に伝送する必要がない。このクラス情報は、その場合には上述の分類の決定を上書きするために使用され得る。
AMR−WBコーデックに対する応用例において、信号源制御レート選択(source-controlled rate selection)のみが音声アクティビティ検出(voice activity detection:VAD)を表している。このVADフラグは、有効な音声に対しては“1”、無音に対しては“0”に等しい。もしその値が“0”である(すなわち、そのフレームは、直接無声クラスとして分類される)場合、それは、それ以上分類が必要ではないことを直接示すので、このパラメータは分類にとって有効である。このパラメータは、音声アクティビティ検出(VAD)モジュール402の出力である。異なるVADアルゴリズムが文献に存在すると共に、あらゆるアルゴリズムが本発明の目的のために使用され得る。例えば、標準“G. 722.2”の一部であるVADアルゴリズムが使用され得る[ITU-T Recommendation G. 722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)",Geneva, 2002]。ここで、VADアルゴリズムは、(臨界帯域当たりの信号対雑音比に基づく、)モジュール500のスペクトル解析の出力に基づいている。分類目的のために使用されるVADは、余韻(hangover)に関して符号化する目的のために使用されるものと異なる。有効な音声を備えない(無声またはノイズのみ)セグメントに対して無音区間疑似背景雑音発生機能(comfort noise generation:CNG)を使用する音声符号器において、余韻は多くの場合、音声が噴出した後に加えられる(AMR−WB標準におけるCNGには、一例として[3GPP TS 26.192,"AMR Wideband Speech Codec: Comfort Noise Aspects," 3GPP Technical Specification]がある。)。余韻の間、音声符号器は使用され続けると共に、余韻期間が終了した後でのみ、そのシステムはCNGに切り替わる。FER隠蔽に関する分類のために、この高い保護は必要とされない。従って、分類のためのVADフラグは、余韻期間の間も同様に“0”に等しい。
この実施例において、その分類は、上述のパラメータ、すなわち、正規化された相関値(もしくは、有声化情報)“rX”、スペクトルの傾斜値“et”、“snr”、ピッチ安定性計数値“pc”、相対的なフレームエネルギー“ES”、ゼロ交差計数値“zc”、及び、VADフラグに基づいてモジュール505において実行される。
「復号器における分類」
もし、アプリケーションがクラス情報の伝送を許可しない(特別なビットが伝送されることができない)場合、分類はやはりデコーダで実行され得る。既に述べたように、ここでの主要な問題点は、一般的に音声復号器には利用可能な先読み機能がないということである。同様に、多くの場合、復号器の複雑さを制限された状態に保持する必要がある。
単純な分類が、合成された信号の有声化を推定することにより実行され得る。もしCELPタイプの復号器の場合を考慮する場合、有声化推定値“rV”は、(1)式を使用して計算され得る。それは、次式となる。
Figure 0004658596
ここで、“EV”は増減されたピッチコードベクトル“bvT”のエネルギーであると共に、“EC”は増減された新規コードベクトル“gck”のエネルギーである。理論的に、純粋な有声信号に対しては“rV=1”であると共に、純粋な無声信号に対しては“rV=-1”である。実際の分類は、4個のサブフレーム毎に平均化された“rV”の値により実行される。その結果生じる係数“frv”(4個のサブフレーム毎の“rV”の値の平均値)は、以下の表4に示すように使用される。
Figure 0004658596
符号器における分類と同様に、復号器において、分類を支援するために、LPフィルタまたはピッチ安定性のパラメータとして他のパラメータが使用され得る。
信号源制御可変ビットレート符号器の場合には、符号化モードに関する情報は、既にビットストリームの一部分である。従って、例えば純粋な無声の符号化モードが使用される場合、フレームは、無声クラスとして自動的に分類され得る。同様に、もし純粋な有声の符号化モードが使用される場合、フレームは、有声クラスとして分類される。
「FER処理に関する音声パラメータ」
FERが発生するときに、面倒な副作用を回避するために注意深く制御されなければならない重大なパラメータがいくつかある。もし少しの特別なビットが伝送され得る場合、その場合には、これらのパラメータは符号器で推定され、量子化され、そして伝送され得る。そうでない場合には、それらのうちいくつかは復号器において推定され得る。これらのパラメータは、信号分類、エネルギー情報、位相情報、及び有声化情報を具備している。最も重要なことは、音声エネルギーの正確な制御である。更にFER隠蔽及び回復を改善するために、位相及び音声の周期性が、同様に制御され得る。
フレームの消去されたブロックの後で通常動作が回復するとき、主としてエネルギー制御の重要性が現れる。大部分の音声符号器が予測を使用するので、正しいエネルギーは、復号器において完全には推定され得ない。有声の音声セグメントにおいて、誤ったエネルギーは、この誤ったエネルギーが増加するとき特に面倒である、いくらかの連続したフレームにおいて持続し得る。
もしエネルギー制御が、長期の予測(ピッチ予測)のために、有声の音声にとって最も重要であるとしても、それは、無声の音声にとっても同様に重要である。その理由は、CELPタイプの符号器において多くの場合使用される新規利得量子化器(innovation gain quantizer)の予測にある。無声のセグメントの間の誤ったエネルギーは、面倒な高い周波数の変動を引き起こし得る。
主として利用可能な帯域幅に応じて、位相制御はさまざまな方法で実行され得る。この実施例においては、声門音パルスの位置に関する概略の情報を検索することにより、単純な位相制御が失われた有声の頭子音の間に達成される。
従って、前のセクションにおいて論じられた信号分類情報は別として、送信するべき最も重要な情報は、信号エネルギーとフレームにおける最初の声門音パルスの位置(位相情報)とに関する情報である。もし十分な帯域幅が利用可能である場合には、同様に有声化情報もまた送信され得る。
「エネルギー情報」
エネルギー情報は、推定され得ると共に、LPフィルタ未処理領域または音声信号領域で送信され得る。情報をLPフィルタ未処理領域で送信することには、LP合成フィルタの影響を考慮しないという欠点がある。これは、いくつかの失われた有声のフレームの後における有声の回復の場合(FERが有声の音声セグメントの間に発生するとき)に、特に慎重を要する傾向がある。FERが有声のフレームの後で到着するとき、最後の良好なフレームの励振は、一般的にある減衰方法による隠蔽の間に使用される。新しいLP合成フィルタ係数が消失の後の最初の良好なフレームにより到着するとき、励振エネルギーとLP合成フィルタの利得との間に食い違いがある傾向がある。新しい合成フィルタは、消去されたフレームの最後に合成されたエネルギー、更には元信号エネルギーと非常に異なるエネルギーを有する合成信号を生成する傾向がある。この理由のために、そのエネルギーは、信号領域において計算されると共に、量子化される。
エネルギー“Eq”は、エネルギー推定及び量子化モジュール506において計算されると共に量子化される。エネルギーを伝えるのには6ビットで十分であるということが分かっている。しかしながら、十分なビットが利用可能でなければ、ビットの数は、重大な影響を与えずに減少され得る。この好ましい実施例において、6ビット一定の量子化器は、“-15[dB]から83[dB]”の範囲において“1.58[dB]”のステップで使用される。量子化インデックスは、次式の整数部分により与えられる。
Figure 0004658596
ここで、“E”は、有声クラスまたは頭子音クラスとして分類されたフレームに関する信号エネルギーの最大値、または他のフレームに関するサンプル当たりの平均エネルギーである。有声クラスまたは頭子音クラスのフレームに関して、信号エネルギーの最大値は、フレームの終わりにおいて、ピッチに同期して次式のように計算される。
Figure 0004658596
ここで、“L”はフレームの長さであると共に、信号“s(i)”は、音声信号(または、もし雑音抑圧器が使用されるならば、ノイズ除去された音声信号)を表す。この実施例において、“s(i)”は、12.8[kHz]にダウンサンプルされると共に前処理された後の入力信号を表す。もし、ピッチ遅延が63サンプルより大きい場合、“tE”は、最後のサブフレームの丸められた閉ループピッチ遅れ(closed-loop pitch lag)に等しい。もし、ピッチ遅延が64サンプルより短い場合、“tE”は、最後のサブフレームの丸められた閉ループピッチ遅れの2倍にセットされる。
他のクラスに関して、“E”は、現在のフレームの後半のサンプル当たりの平均エネルギーであり、すなわち“tE”は、“L/2”にセットされると共に、“E”は次式のように計算される。
Figure 0004658596
「位相制御情報」
前のセクションにおいて示された同様の理由のために、有声の音声の失われたセグメントの後で回復している間、位相制御は特に重要である。消去されたフレームのブロックの後で、復号器メモリは、符号器メモリと非同期化された状態になる。復号器を再同期化するために、いくらかの位相情報が利用可能な帯域幅に応じて送られ得る。記載された実施例において、フレームにおける最初の声門音パルスの概略の位置が送信される。後で示されるように、この情報は、その場合には失われた有声の頭子音の回復のために使用される。
“T0”は最初のサブフレームに対する丸められた閉ループピッチ遅れとする。最初の声門音パルス検索及び量子化モジュール507は、最大振幅を有するサンプルを捜すことにより、フレームの最初の“T0”サンプルの間に、最初の声門音パルス“τ”の位置を検索する。最初の声門音パルスの位置が、ローパスフィルタ処理された残りの信号上で測定されるとき、最も良い結果が得られる。
最初の声門音パルスの位置は、以下の方法において6ビットを用いて符号化される。最初の声門音パルスの位置を符号化するために使用される精度は、最初のサブフレーム“T0”に関する閉ループピッチの値に依存する。この値は符号器及び復号器により知られているので、これは可能であると共に、1つまたはいくらかのフレーム損失後のエラーの伝搬に影響を受けにくい。“T0”が64未満であるとき、フレームの始まりに関連する最初の声門音パルスの位置は、1つのサンプルの精度により直接符号化される。“64=T0<128”のとき、フレームの始まりに関連する最初の声門音パルスの位置は、単純な整数分割を使用すること、すなわち“τ/2”により2つのサンプルの精度により符号化される。“T0=128”のとき、フレームの始まりに関連する最初の声門音パルスの位置は、更にτを2個に分割することにより、4つのサンプルの精度により符号化される。復号器では逆の手続きが実行される。もし“T0<64”の場合、受信される量子化された位置は、そのまま使用される。もし“64=T0<128”の場合、受信される量子化された位置は、2を乗算されると共に1つ増加される。もし“T0=128”の場合、受信される量子化された位置は、4を乗算されると共に2つ増加される(2つ増加することが、一様に分散された量子化誤差となる。)。
最初の声門音パルスの形が符号化される本発明の別の実施例によれば、最初の声門音パルスの位置は、残りの信号とあり得るパルス波形、正負の符号(正または負)、及び位置との間の相関分析により決定される。パルス波形は、符号器と復号器との両方で知られているパルス波形のコードブックから取得され得ると共に、この方法は当業者によりベクトル量子化として知られている。最初の声門音パルスの波形、正負の符号、及び振幅は、その場合には符号化されると共に、復号器に伝送される。
「周期性情報」
十分な帯域幅がある場合、周期性の情報、または有声化情報は、計算されると共に伝送され、そしてフレーム消失の隠蔽を改善するために復号器において使用され得る。有声化情報は、正規化された相関値に基づいて推定される。それは、4ビットにより完全に正確に符号化され得るが、しかしながら、必要ならば3ビット、または2ビットでさえ十分である。有声化情報は、一般的にはいくらかの周期的な成分を伴うフレームに対してのみ必要であるが、高度に有声化されたフレームのために更に良い有声化分解能が必要とされる。正規化された相関値は、(2)式において与えられると共に、それは有声化情報への指示子として使用される。それは、最初の声門音パルス検索及び量子化モジュール507において量子化される。この実施例においては、区分線形量子化器(piece-wise linear quantizer)が、次式のように有声化情報を符号化するために使用された。
Figure 0004658596
Figure 0004658596
更に、“i”の整数部は、符号化されると共に伝送される。相関値“rX(2)”は、(1)式と同じ意味を有している。(18)式において、有声化情報は、“0.65”と“0.89”との間において“0.03”ステップで線形に量子化される。(19)式において、有声化情報は、“0.92”と“0.98”との間において“0.01”ステップで線形に量子化される。
もし、更に大きな量子化範囲が必要とされる場合、次式の線形量子化が使用され得る。
Figure 0004658596
この方程式は、“0.4〜1”の範囲において“0.04”ステップで有声化情報を量子化する。相関値“rX ̄=rXのバー”は、(2a)式で定義される。
その場合には、(18)式、及び(19)式または(20)式は、“rX(2)”または“rX ̄”を計算するために復号器において使用される。この量子化された、正規化された相関値を“rq”と呼ぶことにする。有声化情報を伝送することができない場合、有声化情報は、それを“0”から“1”の範囲にマッピング(mapping)することにより、(2a)式の有声化係数を使用して推定され得る。
Figure 0004658596
「消去されたフレームの処理」
この実施例におけるFER隠蔽技術は、ACELPタイプの符号器上で例示される。それらは、しかしながら、LP合成フィルタを通して励振信号をフィルタ処理することにより合成信号が生成される、あらゆる音声コーデックに容易に適用され得る。隠蔽方法は、バックグラウンドノイズの推定されたパラメータへの、信号エネルギー及びスペクトル包絡線の収束として集約され得る。信号の周期性はゼロに収束している。収束のスピードは、最後の良好な受信フレームクラスのパラメータ、及び連続して消去されたフレームの数に依存していると共に、減衰係数αにより制御される。係数αは、無声クラスのフレームに対するLPフィルタの安定性に更に依存している。一般的に、もし最後の良好な受信フレームが安定したセグメントにある場合、その収束は遅く、もしそのフレームが遷移セグメントにある場合、その収束は早い。“α”の値は表5に集約される。
Figure 0004658596
安定係数“θ”は、隣接するLPフィルタの間の距離測定に基づいて計算される。ここで、係数θは、より大きなθの値がより安定した信号に対応し、ISF(Immittance Spectral Frequencies:イミッタンススペクトル周波数)距離測定に関連づけられると共に、それは“0≦θ≦1”に拘束される。これは、孤立したフレーム消失が安定した無声のセグメントの中で発生するとき、エネルギー及びスペクトル包絡線の変動が減少することになる。
信号クラスは、消去されたフレームの処理の間は変わらないままであり、すなわちそのクラスは最後の良好な受信フレームと同じ状態を維持する。
「励振の周期的な部分の組立」
正しく受信された無声クラスのフレームの後に続く消去されたフレームの隠蔽に対して、励振信号の周期的な部分は生成されない。正しく受信された無声クラス以外のフレームの後に続く消去されたフレームの隠蔽に対して、励振信号の周期的な部分は、前のフレームの最後のピッチ期間を繰り返すことにより組み立てられる。もし、それが良好なフレームの後で最初に消去されたフレームの場合、このピッチパルス(pitch pulse)は最初にローパスフィルタ処理される。使用されるフィルタは、フィルタ係数が“0.18”,“0.64”,及び“0.18”に等しい、単純な3タップ線形位相FIRフィルタである。もし、有声化情報が利用可能である場合、そのフィルタは、有声化情報に依存して動的にカットオフ周波数が選択され得る。
最後のピッチパルスを選択するために使用されると共に、従って隠蔽の間に使用されるピッチ期間“TC”は、ピッチの倍数(multiples)またはピッチの約数(submultiples)が回避または減少され得るように定義される。次式の論理は、ピッチ期間“TC”を決定する際に使用される。
Figure 0004658596
ここで、“T3”は最後の良好な受信フレームの4番目のサブフレームの丸められたピッチ期間であると共に、“TS”は統一のとれたピッチ推定による最後の良好に安定した有声のフレームの4番目のサブフレームの丸められたピッチ期間である。安定した有声のフレームは、ここでは、有声タイプ(有声遷移クラス、有声クラス、頭子音クラス)のフレームにより先行される有声クラスのフレームとして定義される。ピッチの統一性は、この実施において、閉ループピッチ推定値が適度に近いか、すなわち最後のサブフレームのピッチと前のフレームの最後のサブフレームのピッチとの間の比率、及び2番目のサブフレームのピッチと前のフレームの最後のサブフレームのピッチとの間の比率が、それぞれ“(0.7, 1.4)”の区間中にあるどうかを調査することにより証明される。
ピッチ期間“TC”のこの決定は、最後の良好なフレームの終わりにおけるピッチ、及び最後の安定したフレームのピッチが相互に近い場合、最後の良好なフレームのピッチが使用されることを意味する。もしそうでなければ、このピッチは信頼できないと考えられると共に、有声の頭子音における誤ったピッチ推定値の影響を回避するために、最後の安定したフレームのピッチが代りに使用される。この論理は、しかしながら、過去における最後の安定したセグメントがさほど遠くない場合に限り意味をなす。従って、計数値“Tcnt”は、最後の安定したセグメントの影響の範囲を制限する値として定義される。もし“Tcnt”が“30”より大きいか、または“30”に等しい場合、すなわち最後の“TS”の更新以降少なくとも30フレームある場合、最後の良好なフレームのピッチが系統的に使用される。安定したセグメントが検出され、かつ“TS”が更新されるたびに、“Tcnt”は“0”にリセットされる。期間“TC”は、その場合には、全ての消去されたブロックに対する隠蔽の間、一定に維持される。
前のフレームの励振の最後のパルスが周期的部分の組立のために使用されるので、その利得は、隠蔽されたフレームの始まりにおいて、だいたい修正されると共に“1”に設定され得る。その利得は、その場合には、フレームの終わりの、または終わりにおける値に到達するように、サンプル毎にフレームの全体にわたって直線的に減衰される。
有声のセグメントのエネルギー発生を考慮に入れるために、有声クラス及び頭子音クラスのフレームの後に続く消失に関してそれらは修正されるということを除いて、“α”の値は表5に相当する。この発生は、最後の良好なフレームにおける各サブフレームのピッチ励振利得値(pitch excitation gain values)を使用することにより、いくらか拡大することが推定され得る。一般的に、もしこれらの利得が“1”を超えている場合、信号エネルギーは増加しており、もしそれらが“1”未満である場合、そのエネルギーは減少している。αは、従って次式のように計算された補正係数“fb”を乗算される。
Figure 0004658596
ここで、“b(0)”,“b(1)”,“b(2)”,及び“b(3)”は、最後の正しく受信されたフレームの4つのサブフレームのピッチ利得である。“fb”の値は、励振の周期的な部分を増減するために使用される前に、“0.98”と“0.85”との間にクリップ(clip)される。このようにして、強いエネルギーの増加及び減少が回避される。
正しく受信された無声クラス以外のフレームの後に続く消去されたフレームに関して、励振バッファは、励振のこの周期的な部分のみにより更新される。この更新は、次のフレームにおいてピッチコードブック励振を組み立てるために使用されることになる。
「励振のランダム(不規則)な部分の組立」
励振信号の新規(非周期的な)部分は、ランダムに生成される。それは、ランダムノイズとして、またはランダムに生成されたベクトルインデックスを有するCELPの新規コードブックを使用することにより、生成され得る。本実施例においては、およそ一定の配分を有する単純なランダム信号発生器が使用された。新規利得(innovation gain)を調整する前に、ランダムに生成された新規部分は、ここではサンプル当たりの単位的なエネルギーに固定されたいくらかの基準値に増減される。
消去されたブロックの始まりにおいて、新規利得“gS”は、最後の良好なフレームの各サブフレームの新規励振利得(innovation excitation gains)を使用することにより、次式のように初期化される。
Figure 0004658596
ここで、“g(0)”、“g(1)”、“g(2)”、及び“g(3)”は、最後の正しく受信されたフレームにおける4個のサブフレームの固定のコードブック利得、または新規利得である。励振のランダム部分の減衰方法は、ある程度ピッチ励振の減衰とは異なる。その理由は、ランダム励振が無音区間疑似背景雑音発生機能の励振エネルギーへ収束している一方、ピッチ励振(従って、励振の周期性)が“0”に収束していることである。新規利得の減衰は、次式のように実行される。
Figure 0004658596
ここで、“gS 1”(以下、本翻訳文では、下付き文字“s”の右横に上付き文字“1”が書かれた場合、下付き文字“s”の上部に上付き文字“1”があるものとする。)は、次のフレームの始まりにおける新規利得であり、“gS 0”(以下、本翻訳文では、下付き文字“s”の右横に上付き文字“0”が書かれた場合、下付き文字“s”の上部に上付き文字“0”があるものとする。)は、現在のフレームの始まりにおける新規利得である。また“gn”は、無音区間疑似背景雑音発生の間に使用される励振利得(innovative gain)であり、“α”は表5のように定義される。同様に、周期的な励振の減衰に対して、その利得は、“gS 0”で始まり次のフレームの始まりにおいて達成される“gS 1”の値へ進むように、サンプル毎にこのようにフレームの全体にわたって直線的に減衰される。
最終的に、もし最後の良好な(正しく受信された、または消去されなかった)受信フレームが無声クラスと異なる場合、新規励振(innovation excitation)は、係数“-0.0125”,“-0.109”,“0.7813”,“-0.109”,“-0.0125”を備える線形位相FIRハイパス(高域通過)フィルタを通してフィルタ処理される。有声のセグメントの間の雑音成分の量を減少するために、これらのフィルタ係数は、(1)式において定義されたような有声化係数“rV”で表された(0.75-0.25rV)に等しい適応係数を乗算される。励振のランダムな部分は、その場合には、全部の励振信号を形成するために、適応性のある励振に加算される。
もし、最後の良好なフレームが無声クラスである場合、新規励振のみが使用されると共に、それは更に係数“0.8”により減衰される。この場合、励振の周期的な部分が利用可能ではないので、過去の励振バッファは新規励振により更新される。
「スペクトル包絡線の隠蔽、合成、及び更新」
復号化された音声を合成するためには、LPフィルタパラメータが取得されなければならない。スペクトル包絡線は、環境雑音の推定された包絡線へ徐々に動かされる。ここでは、次式のようなLPパラメータのISF表示が用いられる。
Figure 0004658596
(25)式において、“I1(j)”は、現在のフレームのJ番目のISFの値であり、“I0(j)”は、前のフレームのJ番目のISFの値であり、“In(j)”は、推定された無音区間疑似背景雑音の包絡線のJ番目のISFの値であり、更に“p”はLPフィルタの係数である。
合成された音声は、LP合成フィルタを通して励振信号をフィルタ処理することにより取得される。フィルタ係数は、ISF表示から計算されると共に、正常な符号化処理中のように、各サブフレーム毎に(フレーム当たり4回)補間が実行される。
新規利得量子化器、及びISF量子化器の双方が予測を使用するので、通常動作が再開された後でそれらのメモリが更新されることはない。この影響を減少させるために、量子化器のメモリ(quantizers’memories)は、各消去されたフレームの終わりで推定されると共に更新される。
「消失の後の通常動作の回復」
フレームの消去されたブロック後の回復の問題は、基本的に全ての現代の音声符号器に事実上使用される強力な予測が原因である。特に、CELPタイプの音声符号器は、現在のフレームの励振を符号化するために過去の励振信号を使用しているという事実(長期またはピッチの予測)により、有声の音声に対するそれらの高い信号対雑音比を達成する。同様に、大部分の量子化器(LPの量子化器、利得の量子化器)も予測を利用する。
「人工の頭子音の組立」
CELP符号器における長期予測の使用に関連した最も複雑な状況は、有声の頭子音が失われる時である。失われた頭子音は、有声の音声の頭子音が、消去されたブロックの間のどこかで発生したことを意味する。この場合、最後の良好な受信フレームは無声であり、従って周期的励振は励振バッファの中には見つけられない。消去されたブロック後の最初の良好なフレームは、しかしながら有声であり、符号器における励振バッファは、非常に周期的であると共に、適応性のある励振は、この周期的な過去の励振を使用して符号化された。励振のこの周期的な部分が復号器において完全に欠けているので、この損失から回復するのにはいくらかのフレームを要し得る。
頭子音クラスのフレームが失われる(すなわち、有声クラスの良好なフレームは消失の後で到着するが、しかし図6において示されたように、消失の前の最後の良好なフレームが無声クラスであった)場合、失われた頭子音を人工的に復元すると共に、有声合成のきっかけを与えるために特別な技術が使用される。失われた頭子音の後の最初の良好なフレームの始まりにおいて、励振の周期的な部分は、ピッチ期間により分離されたパルスのローパスフィルタ処理された周期的な列として人工的に組み立てられる。本実施例において、ローパスフィルタは、インパルス応答hlow={-0.0125、0.109、0.7813、0.109、-0.0125}を有する単純な線形位相FIRフィルタである。しかしながら、そのフィルタは、もし有声化情報が利用可能であるならば、有声化情報に対応してカットオフ周波数が動的に選択されることもあり得る。励振の新規部分は、標準のCELPの復号化処理を用いて組み立てられる。元の信号との同時性がいずれにせよ失われたので、新規コードブックの入力もまたランダムに選択されることもあり得る(または、新規部分自体はランダムに生成されることもあり得る。)。
実際には、少なくとも1つの完全なピッチ期間がこの方法により構成されると共に、その方法が現在のサブフレームの終りまで続けられるように、人工の頭子音の長さは制限される。その後で、正規のACELP処理が再開される。検討されたピッチ期間は、人工の頭子音の復元が使用される全てのサブフレームの、復号化されたピッチ期間の丸められた平均値である。ローパスフィルタ処理されたインパルス列は、ローパスフィルタのインパルス応答を適応性のある(予めゼロに初期化される)励振バッファに配置することにより実現する。第1のインパルス応答は、フレームの始まりについての(ビットストリーム内で伝送される)量子化された位置の中心に来るように配置され、残りのインパルスは、人工の頭子音の復元により影響を受けた最後のサブフレームの終りまで、平均化されたピッチの距離で配置されることになる。もし、利用可能な帯域幅が最初の声門音パルスの位置を伝送するのに十分ではない場合、第1のインパルス応答は、現在のフレームの始まりの後のピッチ期間の半分あたりに配置され得る。
一例として、64サンプルの長さのサブフレームについて、第1及び第2のサブフレームにおけるピッチ期間が“p(0)=70.75”及び“p(1)=71”であるとする。これは64のサブフレームサイズより大きいので、その場合には、人工の頭子音は、最初の2つのサブフレーム期間中に組み立てられると共に、ピッチ期間は、最も近い整数にまるめられた2つのサブフレームのピッチの平均値、すなわち“71”に等しくなることになる。最後の2つのサブフレームは、通常のCELPの復号器により処理されることになる。
人工の頭子音の励振の周期的な部分のエネルギーは、その場合には、量子化されると共に伝送された、(16(式)及び(17)式として定義された)FERの隠蔽についてのエネルギーに対応する利得により増減されると共に、LP合成フィルタの利得により分割される。LP合成フィルタ利得は、次式のように計算される。
Figure 0004658596
ここで、h(i)はLP合成フィルタのインパルス応答である。最終的に、人工の頭子音の利得は、周期的な部分に“0.96”を乗算することにより減少される。代りに、もし、同様に有声化情報も伝送するための利用可能な帯域幅があった場合、この値は有声化に対応することもあり得る。代りに、この発明の本質から方向を変えずに、人工の頭子音は、復号器サブフレームループ(decoder subframe loop)に入力される前に、過去の励振バッファにおいて同様に組み立てられ得る。これは人工の頭子音の周期的な部分を組み立てるための特別な処理を回避するという利点を有すると共に、正規のCELP復号化がその代りに使用されることもあり得る。
人工の頭子音の組立の場合に、出力音声合成のためのLPフィルタは補間されない。その代りに、受信されたLPパラメータは、全フレームの合成に対して使用される。
「エネルギー制御」
フレームの消去されたブロック後の回復における最も重要な処理は、合成された音声信号のエネルギーを適切に制御することである。合成エネルギーの制御は、現代の音声符号器において通常使用される強力な予測のために必要とされる。エネルギー制御は、消去されたフレームのブロックが有声のセグメントの間に発生するときが最も重要である。フレームの消失が有声のフレームの後で到着するとき、最後の良好なフレームの励振は、一般的にある減衰方法による隠蔽の間に使用される。新しいLPフィルタが消失の後の最初の良好なフレームにより到着するとき、励振エネルギーと新しいLP合成フィルタの利得との間に食い違いがある傾向がある。新しい合成フィルタは、最後に合成された消去されたフレームのエネルギー、更には元の信号エネルギーとも非常に異なるエネルギーを有する合成信号を生成する傾向がある。
消去されたフレーム後の最初の良好なフレーム期間のエネルギー制御は、以下のようにに集約され得る。合成された信号は、最初の良好なフレームの始まりと最後に消去されたフレームの終わりとにおいて、そのエネルギーが合成された音声信号のエネルギーと類似すると共に、大きすぎるエネルギーの増加を防止しながら、フレームの終わりに向けて伝送されたエネルギーに収束するように増減される。
エネルギー制御は、合成された音声信号の領域において実行される。もし、そのエネルギーが音声領域において制御されるとしても、次のフレームのための長期の予測メモリとして役立つように、励振信号は増減されなければならない。その合成は、その場合には、遷移を円滑にするためにやり直される。“g0”は、現在のフレームにおける最初のサンプルを増減するために使用される利得を示すものとし、“g1”は、フレームの最後において使用される利得を示すものとする。励振信号は、その場合には次式のように増減される。
Figure 0004658596
ここで、“us(i)”は増減された励振であり、“u(i)”は増減される前の励振であり、“L”はフレームの長さであると共に、“gAGC(i)”は“gAGC(-1)=g0”に初期化され、“g0”から始まって“g1”へ指数的に収束する利得であり、“fAGC”は、この実施例では“0.98”の値に設定される減衰係数である。
Figure 0004658596
この値は、一方では前の(消去された)フレームからスムーズに移行し、もう一方では現在のフレームの最後のピッチ期間をできる限り正しい(伝送された)値に増減するように、双方の妥協点として実験的に求められた。伝送されたエネルギー値は、フレームの終わりにおいて、ピッチに同調して推定されるので、これは重要である。利得“gO”及び利得“g1”は、次式のように定義される。
Figure 0004658596
Figure 0004658596
ここで、“E-1”は前の(消去された)フレームの終わりにおいて計算されたエネルギーであり、“E0”は現在の(回復された)フレームの始まりにおけるエネルギーであり、“E1”は現在のフレームの終わりにおけるエネルギーであると共に、“Eq”は量子化された、符号器において(16)式及び(17)式から計算され現在のフレームの終わりにおいて伝送されたエネルギー情報である。それらが合成された音声信号“s'”上で計算されることを除いて、“E-1”及び“E1”は同様に計算される。“E-1”は、隠蔽ピッチ期間(concealment pitch period)“TC”を使用することによりピッチに同調して計算されると共に、“E1”は、最後のサブフレームの丸められたピッチ“T3”を使用する。“E0”は、最初のサブフレームの丸められたピッチの値“T0”を使用することにより同様に計算され、有声クラス及び頭子音クラスのフレームについて、(16)式及び(17)式は次式のように修正される。
Figure 0004658596
“tE”は、ピッチが64サンプルより短いならば、丸められたピッチの遅れ、またはその長さの2倍に等しい。他のフレームについて、“tE”はフレームの長さの半分に等しく、エネルギーは次式のように定義される。
Figure 0004658596
強いエネルギーを防止するために、利得“g0”及び利得“g1”は、更に最大の許容値に制限される。この値は、本実施例では“1.2”に設定された。
フレーム消失の隠蔽及び復号器の回復を処理することは、フレーム消失の後に続いて受信された最初の消去されなかったフレームのLPフィルタの利得が前記フレーム消失の間に消去された最後のフレームのLPフィルタの利得より高い時、受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、以下の関係を使用して、前記受信された最初の消去されなかったフレームのLPフィルタの利得へ調整することを有する。
もし、“Eq”が伝送されない場合、“Eq”は“E1”に設定される。しかしながら、もしその消失が有声の音声セグメントの間に起こる(すなわち、消失の前の最後の良好なフレーム、及び消失の後の最初の良好なフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類される)ならば、前述のように、励振信号エネルギーとLPフィルタ利得との間の可能性のある食い違いのために、更なる事前対策が講じられなければならない。フレーム消失の後に続いて受信された最初の消去されなかったフレームのLPフィルタの利得が、そのフレーム消失の間に消去された最後のフレームのLPフィルタの利得より高いとき、特に危険な状況が発生する。その特別な場合において、受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーは、次式の関係を使用して、受信された最初の消去されなかったフレームのLPフィルタの利得に調整される。
Figure 0004658596
ここで、“ELP0”は消失の前の最後の良好なフレームにおけるLPフィルタのインパルス応答のエネルギーであると共に、“ELP1”は消失の後の最初の良好なフレームにおけるLPフィルタのエネルギーである。本実施例では、フレームにおける最後のサブフレームのLPフィルタが使用される。最終的に、この場合(“Eq”の情報が伝送されない有声セグメントの消失の場合)、“Eq”の値は“E-1”の値に制限される。
以下の例外では、音声信号中の遷移に関連づけられた全てが更に“g0”の計算を上書きする。人工の頭子音が現在のフレームに使用されるならば、頭子音のエネルギーを徐々に増加させるために、“g0”は“0.5g1”に設定される。
頭子音クラスとして分類された、消失の後の最初の良好なフレームの場合は、利得“g0”が利得“g1”より高くなることが防止される。この事前対策は、(まだ少なくとも部分的には恐らく無声である)フレームの始まりにおける上向きの利得調整が、フレームの終わりにおいて有声の頭子音を増幅することを防止するために講じられる。
最終的に、有声から無声への遷移の間(すなわち、最後の良好なフレームが有声遷移クラス、有声クラス、または頭子音クラスとして分類され、かつ現在のフレームが無声クラスとして分類される)、または、無効な音声期間から有効な音声期間への遷移の間(最後の良好な受信フレームが疑似背景雑音として符号化され、かつ現在のフレームが有効な音声として符号化される)、“g0”は“g1”に設定される。
有声のセグメントの消失の場合には、消失の後の最初の良好なフレームの後に続くフレームにおいてもまた、誤ったエネルギーの問題が発生し得る。上述のように、最初の良好なフレームのエネルギーが調整されたとしても、これは起こり得る。この問題を弱めるために、エネルギー制御は有声のセグメントの終りまで続けられ得る。
本発明は、上述の説明において、その実施例に関連して説明されたが、本実施例は、当然のことながら、対象とする発明の範囲及び精神からはずれることなく、付加されたクレームの範囲内で修正され得る。
本発明による音声符号化復号化装置の適用例を説明する音声通信システムのブロック図である。 広帯域符号化装置(AMR−WB符号器)の一例のブロック図である。 広帯域復号化装置(AMR−WB復号器)の一例のブロック図である。 単一の前処理モジュールに集められたダウンサンプラモジュールと、ハイパスフィルタモジュールと、プリエンファシスフィルタモジュール、及び単一の閉ループピッチ及び新規コードブック検索モジュールに集められた閉ループピッチ検索モジュールと、ゼロ入力応答計算器モジュールと、インパルス応答生成器モジュールと、新規励振検索モジュールと、メモリ更新モジュールとを備える、図2のAMR−WB符号器を簡略化したブロック図である。 本発明の実施例に関するモジュールが加えられた、図4のブロック図を拡張した図である。 人為的な頭子音が組み立てられるときの状況を説明する図である。 消失の隠蔽のためのフレーム分類の状態遷移の実施例を示す図である。
符号の説明
100 音声通信システム
101 通信チャネル
102 マイクロホン
103 アナログ音声信号
104 アナログ−デジタル(A/D)変換器
105 デジタル音声信号
106 音声符号器
107 信号符号化パラメータ
108 チャネル符号器
109 チャネル復号器
110 音声復号器
111 受信されたビットストリーム
112 チャネル復号器109から受信したビットストリーム
113 ディジタル合成された音声信号
114 アナログ形式信号
115 デジタル−アナログ(D/A)変換器
116 ラウドスピーカーユニット
200 符号化装置
201 ダウンサンプラ
202 ハイパスフィルタ
203 プリエンファシスフィルタ
204 LP分析、量子化及び補間モジュール
205 知覚重み付けフィルタ
206 開ループピッチ検索モジュール
207 閉ループピッチ検索モジュール
208 ゼロ入力応答計算器
209 インパルス応答生成器
210 新規励振検索モジュール
211 メモリ更新モジュール
212 入力音声信号
213 マルチプレクサ(MUX)
300 音声復号器
301 ピッチコードブック
302 ローパスフィルタ
303 メモリ
304 有声化係数生成器
305 ピッチ拡張器(新規フィルタ)
306 LP合成フィルタ
307 ディエンファシスフィルタ
308 ハイパスフィルタ
309 オーバサンプラ
310 高域周波数生成モジュール
317 デマルチプレクサ(DEMUX)
318 新規コードブック
321 加算器
322 デジタル入力信号
323 標本化音声出力信号
324 増幅器
325 量子化された補間LPフィルタ係数
400 AMR−WB符号器
401 前処理モジュール
402 閉ループピッチ及び新規コードブック検索モジュール
500 スペクトル解析及びスペクトルエネルギー推定モジュール
501 ノイズ推定及び正規化相関値修正モジュール
503 スペクトル傾斜値推定モジュール
504 SNR計算モジュール
505 信号分類モジュール
506 エネルギー推定及び量子化モジュール
507 最初の声門音パルス検索及び量子化モジュール
508 ゼロ交差計算モジュール






Claims (116)

  1. 符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失を隠蔽する方法であって、
    符号器において隠蔽/回復パラメータを決定する過程と、
    符号器において決定された隠蔽/回復パラメータを復号器に伝送する過程と、
    復号器において、受信された隠蔽/回復パラメータに応答して、フレーム消失の隠蔽及び復号器の回復を処理する過程とを有し、
    音響信号が音声信号であると共に、
    符号器における隠蔽/回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
    フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元する過程を有する
    ことを特徴とする方法。
  2. 符号器において、前記隠蔽/回復パラメータを復号器に伝送する前に、隠蔽/回復パラメータを量子化する過程を更に有する
    ことを特徴とする請求項1に記載の方法。
  3. 前記隠蔽/回復パラメータが、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループの中から選択される
    ことを特徴とする請求項1に記載の方法。
  4. 位相情報パラメータの決定が、符号化された音響信号の全てのフレームにおいて最初の声門音パルスの位置を検索する過程を有する
    ことを特徴とする請求項3に記載の方法。
  5. フレーム消失の隠蔽及び復号器の回復を処理する過程が、
    少なくとも1つの失われた音声の頭子音における最初の声門音パルスの決定された位置に応答して、復号器の回復を処理する過程を有する
    ことを特徴とする請求項1に記載の方法。
  6. 前記最初の声門音パルスの位置の復号器への伝送の前に、最初の声門音パルスの位置を量子化する過程と、
    周期的な励振部分を組み立てる過程とを有し、
    前記周期的な励振部分を組み立てる過程が、
    −ローパスフィルタの最初のインパルス応答を、フレームの始まりに関して最初の声門音パルスの量子化された位置の中心に置くこと、及び
    −前のインパルス応答からそれぞれ平均ピッチ値に対応する距離を有するローパスフィルタの残りのインパルス応答を、人工的な組立により影響を受けた最後のサブフレームの終りまで配置すること
    により、パルスのローパスフィルタ処理された周期的な列を実現する過程を有する
    ことを特徴とする請求項1に記載の方法。
  7. 位相情報パラメータの決定が、
    符号器において、最初の声門音パルスの形状、正負の符号、及び振幅を符号化する過程と、
    符号化された形状、正負の符号、及び振幅を符号器から復号器へ伝送する過程と
    を更に有する
    ことを特徴とする請求項4に記載の方法。
  8. 最初の声門音パルスの位置を検索する過程が、
    最初の声門音パルスをピッチ期間内部の最大振幅のサンプルとして測定する過程と、
    ピッチ期間内部の最大振幅のサンプルの位置を量子化する過程と
    を有することを特徴とする請求項4に記載の方法。
  9. 連続するフレームを分類する過程が、無声のフレームである全てのフレーム、有効な音声がない全てのフレーム、及び無声となる傾向がある終わりを有する全ての有声のオフセットフレームを無声クラスと分類する過程を有する
    ことを特徴とする請求項1に記載の方法。
  10. 連続するフレームを分類する過程が、有声のフレームとして処理するには短すぎるかまたは確立されていない有声の頭子音の可能性がある終わりを有する全ての無声のフレームを無声遷移クラスとして分類する過程を有する
    ことを特徴とする請求項1に記載の方法。
  11. 連続するフレームを分類する過程が、急激に特性が変化する有声のフレーム及びフレーム全体に続いている有声のオフセットを含む、他と比較して弱い有声の特性を備える全ての有声のフレームを有声遷移クラスとして分類する過程を有し、
    有声遷移クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
    ことを特徴とする請求項1に記載の方法。
  12. 連続するフレームを分類する過程が、安定した特性を備える全ての有声のフレームを有声クラスとして分類する過程を有し、
    有声クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
    ことを特徴とする請求項1に記載の方法。
  13. 連続するフレームを分類する過程が、無声クラス、または無声遷移クラスとして分類されたフレームの後に続く、安定した特性を備える全ての有声のフレームを頭子音クラスとして分類する過程を有する
    ことを特徴とする請求項1に記載の方法。
  14. 少なくとも次の、正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの一部に基づいて、符号化された音響信号の連続するフレームの分類を決定する過程を有する
    ことを特徴とする請求項1に記載の方法。
  15. 連続するフレームの分類を決定する過程が、
    正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータに基づいてメリットの数値を計算する過程と、
    分類を決定するためにメリットの数値をしきい値と比較する過程と
    を有することを特徴とする請求項14に記載の方法。
  16. 音声信号の現在の重み付けされたバージョンと前記音声信号の過去の重み付けされたバージョンとに基づいて、正規化された相関値パラメータを計算する過程を有する
    ことを特徴とする請求項14に記載の方法。
  17. スペクトルの傾斜値パラメータを、低域周波数に集中したエネルギーと高域周波数に集中したエネルギーとの間の比率として推定する過程を有する
    ことを特徴とする請求項14に記載の方法。
  18. 信号対雑音比パラメータを、現在のフレームの音声信号の重み付けされたバージョンのエネルギーと、現在のフレームの音声信号の重み付けされたバージョンと前記現在のフレームの合成された音声信号の重み付けされたバージョンとの間のエラーのエネルギーとの間における比率として推定する過程を有する
    ことを特徴とする請求項14に記載の方法。
  19. 現在のフレームの前半、現在のフレームの後半、及び先読み部分に対する開ループピッチ推定値に応答して、ピッチ安定性パラメータを計算する過程を有する
    ことを特徴とする請求項14に記載の方法。
  20. 相対的なフレームエネルギーパラメータを、現在のフレームのエネルギーと、有効な音声のフレームにおけるエネルギーの長期間の平均値との間の差異として計算する過程を有する
    ことを特徴とする請求項14に記載の方法。
  21. ゼロ交差パラメータを、音声信号の正負の符号が第1の極性から第2の極性に変わる回数として決定する過程を有する
    ことを特徴とする請求項14に記載の方法。
  22. 次のフレームにおける音声信号の動きを考慮にいれるために、利用可能な先読み部分を使用して、少なくとも正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの内の1つを計算する過程を有する
    ことを特徴とする請求項14に記載の方法。
  23. 音声アクティビティ検出フラグに基づいて、同様に符号化された音響信号の連続するフレームの分類を決定する過程を更に有する
    ことを特徴とする請求項14に記載の方法。
  24. 隠蔽/回復パラメータを決定する過程が、
    有声クラスまたは頭子音クラスとして分類されたフレームに対する信号エネルギーの最大値に関してエネルギー情報パラメータを計算する過程と、
    他のフレームに対するサンプル毎の信号エネルギーの平均値に関してエネルギー情報パラメータを計算する過程とを有する
    ことを特徴とする請求項3に記載の方法。
  25. 符号器において隠蔽/回復パラメータを決定する過程が、有声化情報パラメータを計算する過程を有する
    ことを特徴とする請求項1に記載の方法。
  26. 前記方法が、
    正規化された相関値パラメータに基づいて符号化された音響信号の連続するフレームを分類する過程と、
    有声化情報パラメータを計算する過程とを有し、
    前記有声化情報パラメータを計算する過程が、正規化された相関値パラメータに基づいて有声化情報パラメータを推定する過程を有する
    ことを特徴とする請求項25に記載の方法。
  27. フレーム消失の隠蔽及び復号器の回復を処理する過程が、
    フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、LPフィルタの励振信号の非周期的な部分を生成する過程と、
    フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりLPフィルタの励振信号の周期的な部分を生成する過程と
    を有することを特徴とする請求項1に記載の方法。
  28. LPフィルタの励振信号の周期的な部分を組み立てる過程が、前のフレームの繰り返された最後のピッチ期間をローパスフィルタを通してフィルタ処理する過程を有する
    ことを特徴とする請求項27に記載の方法。
  29. 隠蔽/回復パラメータを決定する過程が有声化情報パラメータを計算する過程を有し、
    ローパスフィルタがカットオフ周波数を有し、
    励振信号の周期的な部分を組み立てる過程が有声化情報パラメータに関してカットオフ周波数を動的に調整する過程を有する
    ことを特徴とする請求項28に記載の方法。
  30. フレーム消失の隠蔽及び復号器の回復を処理する過程が、LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程を有する
    ことを特徴とする請求項1に記載の方法。
  31. LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、ランダム雑音を生成する過程を有する
    ことを特徴とする請求項30に記載の方法。
  32. LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、新規コードブックのベクトルインデックスをランダムに生成する過程を有する
    ことを特徴とする請求項30に記載の方法。
  33. LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、
    ・もし最後に正しく受信されたフレームが無声クラスと異なる場合、励振信号の新規部分をハイパスフィルタを通してフィルタ処理する過程と、
    ・もし最後に正しく受信されたフレームが無声クラスである場合、励振信号の新規部分のみを使用する過程と
    を更に有することを特徴とする請求項30に記載の方法。
  34. フレーム消失の隠蔽及び復号器の回復を処理する過程が、通常の復号化処理により励振信号の新規部分を組み立てる過程を更に有する
    ことを特徴とする請求項1に記載の方法。
  35. 励振信号の新規部分を組み立てる過程が、新規コードブックの入力をランダムに選択する過程を有する
    ことを特徴とする請求項34に記載の方法。
  36. 失われた頭子音を人工的に復元する過程が、少なくとも1つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限する過程を有する
    ことを特徴とする請求項1に記載の方法。
  37. フレーム消失の隠蔽及び復号器の回復を処理する過程が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のCELP処理を再開する過程を更に有する
    ことを特徴とする請求項36に記載の方法。
  38. フレーム消失の隠蔽及び復号器の回復を処理する過程が、復号器により生成された、合成された音響信号のエネルギーを制御する過程を有し、
    合成された音響信号のエネルギーを制御する過程が、
    フレーム消失の後に続いて受信された最初の消去されなかったフレームの始まりにおける前記合成された音響信号のエネルギーを、前記フレーム消失の間に消去された最後のフレームの終わりにおける前記合成信号のエネルギーと類似させるために、合成された音響信号を増減する過程と、
    最初の消去されなかったフレームにおける合成された音響信号のエネルギーを、エネルギーの増加を制限しながら、前記受信された最初の消去されなかったフレームの終わりに向けて、受信されたエネルギー情報パラメータに対応するエネルギーに収束させる過程と
    を有する
    ことを特徴とする請求項3に記載の方法。
  39. エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
    フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのLPフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのLPフィルタの利得より高いとき、受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのLPフィルタの利得に調整する過程を有する
    ことを特徴とする請求項3に記載の方法。
  40. 受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのLPフィルタの利得に調整する過程が、次の“数1”の関係を使用する過程を有し、
    Figure 0004658596
    ここで、“E1”は現在のフレームの終わりにおけるエネルギーであり、“ELPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーであり、“ELP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーである
    ことを特徴とする請求項39に記載の方法。
  41. フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後で受信された最初の消去されなかったフレームが頭子音クラスに分類されるとき、合成された音響信号を増減するために使用される利得を所定値に制限する過程を有する
    ことを特徴とする請求項38に記載の方法。
  42. 前記方法が、
    ・有声のフレームから無声のフレームへの遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが有声遷移クラス、有声クラス、または頭子音クラスとして分類されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが無声クラスとして分類された場合、及び
    ・無効な音声期間から有効な音声期間への遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが疑似背景雑音として符号化されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが有効な音声として符号化されるとき、
    フレーム消失の後で受信された最初の消去されなかったフレームの始まりにおいて合成された音響信号を増減するために使用される利得を、前記受信された最初の消去されなかったフレームの終わりで使用される利得に等しくさせる過程を有する
    ことを特徴とする請求項38に記載の方法。
  43. 信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善するための方法であって、
    復号器において信号符号化パラメータから隠蔽/回復パラメータを決定する過程と、
    復号器において、復号器で決定された隠蔽/回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理する過程とを有し、
    音響信号が音声信号であると共に、
    復号器における隠蔽/回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
    フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元する過程を有する
    ことを特徴とする方法。
  44. 次の、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループから選択された隠蔽/回復パラメータを、復号器において決定する過程を有する
    ことを特徴とする請求項43に記載の方法。
  45. 復号器において隠蔽/回復パラメータを決定する過程が、有声化情報パラメータを計算する過程を有する
    ことを特徴とする請求項43に記載の方法。
  46. フレーム消失の隠蔽及び復号器の回復を処理する過程が、
    フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、LPフィルタの励振信号の非周期的な部分を生成する過程と、
    フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりLPフィルタの励振信号の周期的な部分を生成する過程と
    を有することを特徴とする請求項43に記載の方法。
  47. 励振信号の周期的な部分を組み立てる過程が、前のフレームの繰り返された最後のピッチ期間をローパスフィルタを通してフィルタ処理する過程を有する
    ことを特徴とする請求項46に記載の方法。
  48. 復号器において隠蔽/回復パラメータを決定する過程が有声化情報パラメータを計算する過程を有し、
    ローパスフィルタがカットオフ周波数を有し、
    LPフィルタの励振信号の周期的な部分を組み立てる過程が有声化情報パラメータに関してカットオフ周波数を動的に調整する過程を有する
    ことを特徴とする請求項47に記載の方法。
  49. フレーム消失の隠蔽及び復号器の回復を処理する過程が、LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程を有する
    ことを特徴とする請求項43に記載の方法。
  50. LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、ランダム雑音を生成する過程を有する
    ことを特徴とする請求項49に記載の方法。
  51. LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、新規コードブックのベクトルインデックスをランダムに生成する過程を有する
    ことを特徴とする請求項49に記載の方法。
  52. LPフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、
    ・もし最後に受信された消去されなかったフレームが無声クラスと異なる場合、LPフィルタの励振信号の新規部分をハイパスフィルタを通してフィルタ処理する過程と、
    ・もし最後に受信された消去されなかったフレームが無声クラスである場合、LPフィルタの励振信号の新規部分のみを使用する過程と
    を更に有することを特徴とする請求項49に記載の方法。
  53. フレーム消失の隠蔽及び復号器の回復を処理する過程が、通常の復号化処理によりLPフィルタの励振信号の新規部分を組み立てる過程を更に有する
    ことを特徴とする請求項43に記載の方法。
  54. LPフィルタの励振信号の新規部分を組み立てる過程が、新規コードブックの入力をランダムに選択する過程を有する
    ことを特徴とする請求項53に記載の方法。
  55. 失われた頭子音を人工的に復元する過程が、少なくとも1つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限する過程を有する
    ことを特徴とする請求項43に記載の方法。
  56. フレーム消失の隠蔽及び復号器の回復を処理する過程が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のCELP処理を再開する過程を更に有する
    ことを特徴とする請求項55に記載の方法。
  57. エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
    フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのLPフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのLPフィルタの利得より高いとき、次の“数2”の関係を使用して、受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのLPフィルタの利得に調整する過程を有し、
    Figure 0004658596
    ここで、“E1”は現在のフレームの終わりにおけるエネルギーであり、“ELPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーであり、“ELP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーである
    ことを特徴とする請求項44に記載の方法。
  58. 符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を処理するための装置であって、
    符号器において隠蔽/回復パラメータを決定するための手段と、
    符号器において決定された隠蔽/回復パラメータを復号器に伝送するための手段と、
    復号器において、決定するための手段により決定され受信された隠蔽/回復パラメータに応答して、フレーム消失の隠蔽及び復号器の回復を処理するための手段とを有し、
    音響信号が音声信号であると共に、
    符号器において隠蔽/回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
    フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元するための手段を有する
    ことを特徴とする装置。
  59. 符号器において、前記隠蔽/回復パラメータを復号器に伝送する前に、隠蔽/回復パラメータを量子化するための手段を更に有する
    ことを特徴とする請求項58に記載の装置。
  60. 前記隠蔽/回復パラメータが、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループの中から選択される
    ことを特徴とする請求項58に記載の装置。
  61. 位相情報パラメータを決定するための手段が、符号化された音響信号の全てのフレームにおいて最初の声門音パルスの位置を検索するための手段を有する
    ことを特徴とする請求項60に記載の装置。
  62. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、
    少なくとも1つの失われた音声の頭子音の後の最初の声門音パルスの決定された位置に応答して復号器の回復を処理するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  63. 前記最初の声門音パルスの位置の復号器への伝送の前に、最初の声門音パルスの位置を量子化するための手段と、
    周期的な励振部分を組み立てるための手段とを有し、
    前記周期的な励振部分を組み立てるための手段が、
    −ローパスフィルタの最初のインパルス応答を、フレームの始まりに関して最初の声門音パルスの量子化された位置の中心に置くこと、及び
    −前のインパルス応答からそれぞれ平均ピッチ値に対応する距離を有するローパスフィルタの残りのインパルス応答を、人工的な組立により影響を受けた最後のサブフレームの終りまで配置すること
    により、パルスのローパスフィルタ処理された周期的な列を実現するための手段を有することを特徴とする請求項58に記載の装置。
  64. 位相情報パラメータを決定するための手段が、
    符号器において、最初の声門音パルスの形状、正負の符号、及び振幅を符号化するための手段と、
    符号化された形状、正負の符号、及び振幅を符号器から復号器へ伝送するための手段とを更に有する
    ことを特徴とする請求項61に記載の装置。
  65. 最初の声門音パルスの位置を検索するための手段が、
    最初の声門音パルスをピッチ期間内部の最大振幅のサンプルとして測定するための手段と、
    ピッチ期間内部の最大振幅のサンプルの位置を量子化するための手段と
    を有することを特徴とする請求項61に記載の装置。
  66. 連続するフレームを分類するための手段が、無声のフレームである全てのフレーム、有効な音声がない全てのフレーム、及び無声となる傾向がある終わりを有する全ての有声のオフセットフレームを無声クラスと分類するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  67. 連続するフレームを分類するための手段が、有声のフレームとして処理するには短すぎるかまたは確立されていない有声の頭子音の可能性がある終わりを有する全ての無声のフレームを無声遷移クラスとして分類するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  68. 連続するフレームを分類するための手段が、急激に特性が変化する有声のフレーム及びフレーム全体に続いている有声のオフセットを含む、他と比較して弱い有声の特性を備える全ての有声のフレームを有声遷移クラスとして分類するための手段を有し、
    有声遷移クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
    ことを特徴とする請求項58に記載の装置。
  69. 連続するフレームを分類するための手段が、安定した特性を備える全ての有声のフレームを有声クラスとして分類するための手段を有し、
    有声クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
    ことを特徴とする請求項58に記載の装置。
  70. 連続するフレームを分類するための手段が、無声クラス、または無声遷移クラスとして分類されたフレームの後に続く、安定した特性を備える全ての有声のフレームを頭子音クラスとして分類するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  71. 少なくとも次の、正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの一部に基づいて、符号化された音響信号の連続するフレームの分類を決定するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  72. 連続するフレームの分類を決定するための手段が、
    正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータに基づいてメリットの数値を計算するための手段と、
    分類を決定するためにメリットの数値をしきい値と比較するための手段と
    を有することを特徴とする請求項71に記載の装置。
  73. 音声信号の現在の重み付けされたバージョンと前記音声信号の過去の重み付けされたバージョンとに基づいて、正規化された相関値パラメータを計算するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  74. スペクトルの傾斜値パラメータを、低域周波数に集中したエネルギーと高域周波数に集中したエネルギーとの間の比率として推定するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  75. 信号対雑音比パラメータを、現在のフレームの音声信号の重み付けされたバージョンのエネルギーと、現在のフレームの音声信号の重み付けされたバージョンと前記現在のフレームの合成された音声信号の重み付けされたバージョンとの間のエラーのエネルギーとの間における比率として推定するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  76. 現在のフレームの前半、現在のフレームの後半、及び先読み部分に対する開ループピッチ推定値に応答して、ピッチ安定性パラメータを計算するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  77. 相対的なフレームエネルギーパラメータを、現在のフレームのエネルギーと、有効な音声のフレームにおけるエネルギーの長期間の平均値との間の差異として計算するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  78. ゼロ交差パラメータを、音声信号の正負の符号が第1の極性から第2の極性に変わる回数として決定するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  79. 次のフレームにおける音声信号の動きを考慮にいれるために、利用可能な先読み部分を使用して、正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの内の1つを計算するための手段を有する
    ことを特徴とする請求項71に記載の装置。
  80. 音声アクティビティ検出フラグに基づいて、同様に符号化された音響信号の連続するフレームの分類を決定するための手段を更に有する
    ことを特徴とする請求項71に記載の装置。
  81. 隠蔽/回復パラメータを決定するための手段が、
    有声クラスまたは頭子音クラスとして分類されたフレームに対する信号エネルギーの最大値に関してエネルギー情報パラメータを計算するための手段と、
    他のフレームに対するサンプル毎の信号エネルギーの平均値に関してエネルギー情報パラメータを計算するための手段とを有する
    ことを特徴とする請求項60に記載の装置。
  82. 符号器において隠蔽/回復パラメータを決定する過程が、有声化情報パラメータを計算するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  83. 前記装置が、
    正規化された相関値パラメータに基づいて符号化された音響信号の連続するフレームを分類するための手段と、
    有声化情報パラメータを計算するための手段とを有し、
    前記有声化情報パラメータを計算するための手段が、正規化された相関値パラメータに基づいて有声化情報パラメータを推定するための手段を有する
    ことを特徴とする請求項82に記載の装置。
  84. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、
    フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、LPフィルタの励振信号の非周期的な部分を生成するための手段と、
    フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりLPフィルタの励振信号の周期的な部分を生成するための手段と
    を有することを特徴とする請求項58に記載の装置。
  85. LPフィルタの励振信号の周期的な部分を組み立てるための手段が、前のフレームの繰り返された最後のピッチ期間をフィルタ処理するためのローパスフィルタを有する
    ことを特徴とする請求項84に記載の装置。
  86. 隠蔽/回復パラメータを決定するための手段が有声化情報パラメータを計算するための手段を有し、
    ローパスフィルタがカットオフ周波数を有し、
    励振信号の周期的な部分を組み立てるための手段が有声化情報パラメータに関してカットオフ周波数を動的に調整するための手段を有する
    ことを特徴とする請求項85に記載の装置。
  87. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  88. LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、ランダム雑音を生成するための手段を有する
    ことを特徴とする請求項87に記載の装置。
  89. LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、新規コードブックのベクトルインデックスをランダムに生成するための手段を有する
    ことを特徴とする請求項87に記載の装置。
  90. LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、
    ・もし最後に正しく受信されたフレームが無声クラスと異なる場合、励振信号の新規部分をフィルタ処理するためのハイパスフィルタと、
    ・もし最後に正しく受信されたフレームが無声クラスである場合、励振信号の新規部分のみを使用するための手段と
    を更に有することを特徴とする請求項87に記載の装置。
  91. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、通常の復号化処理により励振信号の新規部分を組み立てるための手段を更に有する
    ことを特徴とする請求項58に記載の装置。
  92. 励振信号の新規部分を組み立てるための手段が、新規コードブックの入力をランダムに選択するための手段を有する
    ことを特徴とする請求項91に記載の装置。
  93. 失われた頭子音を人工的に復元するための手段が、少なくとも1つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限するための手段を有する
    ことを特徴とする請求項58に記載の装置。
  94. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のCELP処理を再開するための手段を更に有する
    ことを特徴とする請求項93に記載の装置。
  95. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、復号器により生成された、合成された音響信号のエネルギーを制御するための手段を有し、
    合成された音響信号のエネルギーを制御するための手段が、
    フレーム消失の後に続いて受信された最初の消去されなかったフレームの始まりにおける前記合成された音響信号のエネルギーを、前記フレーム消失の間に消去された最後のフレームの終わりにおける前記合成信号のエネルギーと類似させるために、合成された音響信号を増減するための手段と、
    最初の消去されなかったフレームにおける合成された音響信号のエネルギーを、エネルギーの増加を制限しながら、前記受信された最初の消去されなかったフレームの終わりに向けて、受信されたエネルギー情報パラメータに対応するエネルギーに収束させるための手段とを有する
    ことを特徴とする請求項60に記載の装置。
  96. エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
    フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのLPフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのLPフィルタの利得より高いとき、受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのLPフィルタの利得に調整するための手段を有する
    ことを特徴とする請求項60に記載の装置。
  97. 受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのLPフィルタの利得に調整するための手段が、次の“数3”の関係を使用するための手段を有し、
    Figure 0004658596
    ここで、“E1”は現在のフレームの終わりにおけるエネルギーであり、“ELPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーであり、“ELP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーである
    ことを特徴とする請求項96に記載の装置。
  98. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後で受信された最初の消去されなかったフレームが頭子音クラスに分類されるとき、合成された音響信号を増減するために使用される利得を所定値に制限するための手段を有する
    ことを特徴とする請求項95に記載の装置。
  99. 前記装置が、
    ・有声のフレームから無声のフレームへの遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが有声遷移クラス、有声クラス、または頭子音クラスとして分類されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが無声クラスとして分類された場合、及び
    ・無効な音声期間から有効な音声期間への遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが疑似背景雑音として符号化されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが有効な音声として符号化されるとき、
    フレーム消失の後で受信された最初の消去されなかったフレームの始まりにおいて合成された音響信号を増減するために使用される利得を、前記受信された最初の消去されなかったフレームの終わりで使用される利得に等しくさせるための手段を有する
    ことを特徴とする請求項95に記載の装置。
  100. 信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失を隠蔽するための装置であって、
    復号器において信号符号化パラメータから隠蔽/回復パラメータを決定するための手段と、
    復号器において、決定するための手段により決定された隠蔽/回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理するための手段とを有し、
    音響信号が音声信号であると共に、
    復号器において隠蔽/回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
    フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元するための手段を有する
    ことを特徴とする装置。
  101. 次の、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループから選択された隠蔽/回復パラメータを、復号器において決定するための手段を有する
    ことを特徴とする請求項100に記載の装置。
  102. 復号器において隠蔽/回復パラメータを決定するための手段が、有声化情報パラメータを計算するための手段を有する
    ことを特徴とする請求項100に記載の装置。
  103. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、
    フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、LPフィルタの励振信号の非周期的な部分を生成するための手段と、
    フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりLPフィルタの励振信号の周期的な部分を生成するための手段と
    を有することを特徴とする請求項100に記載の装置。
  104. 励振信号の周期的な部分を組み立てるための手段が、前のフレームの繰り返された最後のピッチ期間をフィルタ処理するためのローパスフィルタを有する
    ことを特徴とする請求項103に記載の装置。
  105. 復号器において隠蔽/回復パラメータを決定するための手段が有声化情報パラメータを計算するための手段を有し、
    ローパスフィルタがカットオフ周波数を有し、
    LPフィルタの励振信号の周期的な部分を組み立てるための手段が有声化情報パラメータに関してカットオフ周波数を動的に調整するための手段を有する
    ことを特徴とする請求項104に記載の装置。
  106. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段を有する
    ことを特徴とする請求項100に記載の装置。
  107. LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、ランダム雑音を生成するための手段を有する
    ことを特徴とする請求項106に記載の装置。
  108. LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、新規コードブックのベクトルインデックスをランダムに生成するための手段を有する
    ことを特徴とする請求項106に記載の装置。
  109. LPフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、
    ・もし最後に受信された消去されなかったフレームが無声クラスと異なる場合、LPフィルタの励振信号の新規部分をフィルタ処理するためのハイパスフィルタと、
    ・もし最後に受信された消去されなかったフレームが無声クラスである場合、LPフィルタの励振信号の新規部分のみを使用するための手段と
    を更に有することを特徴とする請求項106に記載の装置。
  110. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、通常の復号化処理によりLPフィルタの励振信号の新規部分を組み立てるための手段を更に有する
    ことを特徴とする請求項100に記載の装置。
  111. LPフィルタの励振信号の新規部分を組み立てるための手段が、新規コードブックの入力をランダムに選択するための手段を有する
    ことを特徴とする請求項110に記載の装置。
  112. 失われた頭子音を人工的に復元するための手段が、少なくとも1つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限するための手段を有する
    ことを特徴とする請求項100に記載の装置。
  113. フレーム消失の隠蔽及び復号器の回復を処理するための手段が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のCELP処理を再開するための手段を更に有する
    ことを特徴とする請求項112に記載の装置。
  114. エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
    フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのLPフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのLPフィルタの利得より高いとき、次の“数4”の関係を使用して、受信された最初の消去されなかったフレーム期間中に復号器において生成されたLPフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのLPフィルタの利得に調整するための手段を有し、
    Figure 0004658596
    ここで、“E1”は現在のフレームの終わりにおけるエネルギーであり、“ELPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーであり、“ELP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するLPフィルタのインパルス応答のエネルギーである
    ことを特徴とする請求項101に記載の装置。
  115. 音響信号を符号化及び復号化するためのシステムであって、
    符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するために、
    信号符号化パラメータのセットを生成するために音響信号に応答する音響信号符号器と、
    復号器に信号符号化パラメータを伝送するための手段と、
    信号符号化パラメータに応答して音響信号を合成するための前記復号器と、
    請求項58から請求項99のいずれかに記載された装置と
    を有することを特徴とするシステム。
  116. 符号化された音響信号を復号化するための復号器であって、
    符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するために、
    前記符号化された音響信号から信号符号化パラメータのセットを回復するために符号化された音響信号に応答する手段と、
    信号符号化パラメータに応答して音響信号を合成するための手段と、
    請求項100から請求項114のいずれかに記載された装置と
    を有することを特徴とする復号器。
JP2004509923A 2002-05-31 2003-05-30 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 Expired - Lifetime JP4658596B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002388439A CA2388439A1 (en) 2002-05-31 2002-05-31 A method and device for efficient frame erasure concealment in linear predictive based speech codecs
PCT/CA2003/000830 WO2003102921A1 (en) 2002-05-31 2003-05-30 Method and device for efficient frame erasure concealment in linear predictive based speech codecs

Publications (2)

Publication Number Publication Date
JP2005534950A JP2005534950A (ja) 2005-11-17
JP4658596B2 true JP4658596B2 (ja) 2011-03-23

Family

ID=29589088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004509923A Expired - Lifetime JP4658596B2 (ja) 2002-05-31 2003-05-30 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置

Country Status (18)

Country Link
US (1) US7693710B2 (ja)
EP (1) EP1509903B1 (ja)
JP (1) JP4658596B2 (ja)
KR (1) KR101032119B1 (ja)
CN (1) CN100338648C (ja)
AU (1) AU2003233724B2 (ja)
BR (3) BRPI0311523B1 (ja)
CA (2) CA2388439A1 (ja)
DK (1) DK1509903T3 (ja)
ES (1) ES2625895T3 (ja)
MX (1) MXPA04011751A (ja)
MY (1) MY141649A (ja)
NO (1) NO20045578L (ja)
NZ (1) NZ536238A (ja)
PT (1) PT1509903T (ja)
RU (1) RU2325707C2 (ja)
WO (1) WO2003102921A1 (ja)
ZA (1) ZA200409643B (ja)

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558295B1 (en) * 2003-06-05 2009-07-07 Mindspeed Technologies, Inc. Voice access model using modem and speech compression technologies
JP4135621B2 (ja) * 2003-11-05 2008-08-20 沖電気工業株式会社 受信装置および方法
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
CA2596338C (en) 2005-01-31 2014-05-13 Sonorit Aps Method for weighted overlap-add
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8160868B2 (en) 2005-03-14 2012-04-17 Panasonic Corporation Scalable decoder and scalable decoding method
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR101151746B1 (ko) 2006-01-02 2012-06-15 삼성전자주식회사 오디오 신호용 잡음제거 방법 및 장치
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
WO2007119368A1 (ja) * 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8218529B2 (en) * 2006-07-07 2012-07-10 Avaya Canada Corp. Device for and method of terminating a VoIP call
CN101101753B (zh) * 2006-07-07 2011-04-20 乐金电子(昆山)电脑有限公司 音频帧识别方法
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
WO2008022176A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Packet loss concealment for sub-band predictive coding based on extrapolation of full-band audio waveform
CN101366080B (zh) * 2006-08-15 2011-10-19 美国博通公司 一种更新解码器的状态的方法和系统
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
BRPI0718300B1 (pt) * 2006-10-24 2018-08-14 Voiceage Corporation Método e dispositivo para codificar quadros de transição em sinais de fala.
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
DE602006015328D1 (de) * 2006-11-03 2010-08-19 Psytechnics Ltd Abtastfehlerkompensation
EP1921608A1 (en) * 2006-11-13 2008-05-14 Electronics And Telecommunications Research Institute Method of inserting vector information for estimating voice data in key re-synchronization period, method of transmitting vector information, and method of estimating voice data in key re-synchronization using vector information
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
US20100332223A1 (en) * 2006-12-13 2010-12-30 Panasonic Corporation Audio decoding device and power adjusting method
EP2128855A1 (en) 2007-03-02 2009-12-02 Panasonic Corporation Voice encoding device and voice encoding method
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
CN101622665B (zh) * 2007-03-02 2012-06-13 松下电器产业株式会社 编码装置以及编码方法
EP2535894B1 (en) * 2007-03-02 2015-01-07 Telefonaktiebolaget L M Ericsson (PUBL) Methods and arrangements in a telecommunications network
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR101449431B1 (ko) 2007-10-09 2014-10-14 삼성전자주식회사 계층형 광대역 오디오 신호의 부호화 방법 및 장치
US20090182556A1 (en) * 2007-10-24 2009-07-16 Red Shift Company, Llc Pitch estimation and marking of a signal representing speech
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
EP2491556B1 (en) * 2009-10-20 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, corresponding method and computer program
CN102725791B (zh) * 2009-11-19 2014-09-17 瑞典爱立信有限公司 用于音频编解码中的响度和锐度补偿的方法和设备
CN102648493B (zh) 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
PT3364411T (pt) 2009-12-14 2022-09-06 Fraunhofer Ges Forschung Dispositivo de quantização de vetor, dispositivo de codificação de voz, método de quantização de vetor e método de codificação de voz
JP5314771B2 (ja) 2010-01-08 2013-10-16 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
US8660195B2 (en) 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding
EP4239635A3 (en) * 2010-11-22 2023-11-15 Ntt Docomo, Inc. Audio encoding device and method
DK2975610T3 (da) 2010-11-22 2019-05-27 Ntt Docomo Inc Audiokodningsindretning og fremgangsmåde
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
WO2012110476A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
BR112013020699B1 (pt) 2011-02-14 2021-08-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada
MY160272A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Audio Codec Using Noise Synthesis During Inactive Phases
CA2827266C (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
WO2012110447A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
ES2458436T3 (es) 2011-02-14 2014-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Representación de señal de información utilizando transformada superpuesta
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
IN2014DN03022A (ja) 2011-11-03 2015-05-08 Voiceage Corp
JP6012203B2 (ja) * 2012-03-05 2016-10-25 キヤノン株式会社 画像処理装置、及び制御方法
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9123328B2 (en) 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN102984122A (zh) * 2012-10-09 2013-03-20 中国科学技术大学苏州研究院 基于amr-wb码率伪装的ip语音隐蔽通信方法
ES2588156T3 (es) 2012-12-21 2016-10-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio
SG11201504899XA (en) 2012-12-21 2015-07-30 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
US9601125B2 (en) 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
ES2603266T3 (es) * 2013-02-13 2017-02-24 Telefonaktiebolaget L M Ericsson (Publ) Ocultación de errores de trama
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
MX345389B (es) 2013-03-04 2017-01-26 Voiceage Corp Dispositivo y metodo para la reduccion del ruido de cuantificacion en un decodificador del dominio del tiempo.
CN106169297B (zh) 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
RU2665253C2 (ru) 2013-06-21 2018-08-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона
WO2014202770A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
PL3011560T3 (pl) 2013-06-21 2019-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio mający moduł rozszerzania szerokości pasma z modułem regulacji energii
MX347233B (es) 2013-06-21 2017-04-19 Fraunhofer Ges Forschung Aparato y método para desvanecimiento mejorado de señal para sistemas de codificación de audio conmutados durante el ocultamiento de errores.
MY181845A (en) * 2013-06-21 2021-01-08 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pulse resynchronization
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN104299614B (zh) 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
PT3336841T (pt) * 2013-10-31 2020-03-26 Fraunhofer Ges Forschung Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma dissimulação de erros que modifica um sinal de excitação de domínio de tempo
EP3285256B1 (en) 2013-10-31 2019-06-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
SG11201607971TA (en) * 2014-02-24 2016-11-29 Samsung Electronics Co Ltd Signal classifying method and device, and audio encoding method and device using same
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
CN104934035B (zh) * 2014-03-21 2017-09-26 华为技术有限公司 语音频码流的解码方法及装置
ES2768090T3 (es) * 2014-03-24 2020-06-19 Nippon Telegraph & Telephone Método de codificación, codificador, programa y soporte de registro
CN106165013B (zh) * 2014-04-17 2021-05-04 声代Evs有限公司 在声音信号编码器和解码器中使用的方法、设备和存储器
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN106415717B (zh) * 2014-05-15 2020-03-13 瑞典爱立信有限公司 音频信号分类和编码
NO2780522T3 (ja) 2014-05-15 2018-06-09
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
ES2770704T3 (es) * 2014-07-28 2020-07-02 Nippon Telegraph & Telephone Codificación de una señal acústica
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
JP6754764B2 (ja) 2014-12-09 2020-09-16 ドルビー・インターナショナル・アーベー Mdct領域の誤り隠蔽
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
US9916835B2 (en) * 2015-01-22 2018-03-13 Sennheiser Electronic Gmbh & Co. Kg Digital wireless audio transmission system
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US20170365271A1 (en) * 2016-06-15 2017-12-21 Adam Kupryjanow Automatic speech recognition de-reverberation
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
WO2019000178A1 (zh) * 2017-06-26 2019-01-03 华为技术有限公司 一种丢帧补偿方法及设备
CN107564533A (zh) * 2017-07-12 2018-01-09 同济大学 基于信源先验信息的语音帧修复方法和装置
CA3074750A1 (en) * 2017-09-20 2019-03-28 Voiceage Corporation Method and device for efficiently distributing a bit-budget in a celp codec
KR102548184B1 (ko) 2018-04-05 2023-06-28 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 컴포트 노이즈 생성 지원
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
US10803876B2 (en) 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
CN111063362B (zh) * 2019-12-11 2022-03-22 中国电子科技集团公司第三十研究所 一种数字语音通信噪音消除和语音恢复方法及装置
CN113766239B (zh) * 2020-06-05 2024-07-02 于江鸿 数据处理的方法和系统
US11388721B1 (en) * 2020-06-08 2022-07-12 Sprint Spectrum L.P. Use of voice muting as a basis to limit application of resource-intensive service
CN113113030B (zh) * 2021-03-22 2022-03-22 浙江大学 一种基于降噪自编码器的高维受损数据无线传输方法
EP4329202A4 (en) 2021-05-25 2024-10-16 Samsung Electronics Co Ltd SELF-CORRECTING MIN-SUM DECODER BASED ON NEURAL NETWORK AND ELECTRONIC DEVICE COMPRISING SAME
KR20220159071A (ko) * 2021-05-25 2022-12-02 삼성전자주식회사 신경망 자기 정정 최소합 복호기 및 이를 포함하는 전자 장치
CN114913844A (zh) * 2022-04-11 2022-08-16 昆明理工大学 一种基音归一化重构的广播语种识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06507252A (ja) * 1990-12-05 1994-08-11 ディジタル ボイス システムズ、インク 音声の量子化とエラー訂正のための方法
JPH09120298A (ja) * 1995-06-07 1997-05-06 At & T Ipm Corp フレーム消失の間の音声復号に使用する音声の有声/無声分類
WO2001006491A1 (en) * 1999-07-19 2001-01-25 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
WO2001086637A1 (en) * 2000-05-11 2001-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Forward error correction in speech coding

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4707857A (en) * 1984-08-27 1987-11-17 John Marley Voice command recognition system having compact significant feature data
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5122875A (en) * 1991-02-27 1992-06-16 General Electric Company An HDTV compression system
DE69203186T2 (de) * 1991-09-20 1996-02-01 Philips Electronics Nv Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze.
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
KR20000068950A (ko) * 1997-09-12 2000-11-25 요트.게.아. 롤페즈 신호의 미싱 부분을 복구하는 기능이 향상된 전송 시스템
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6418408B1 (en) * 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
RU2000102555A (ru) 2000-02-02 2002-01-10 Войсковая часть 45185 Способ маскирования видеосигнала
SE0001727L (sv) * 2000-05-10 2001-11-11 Global Ip Sound Ab Överföring över paketförmedlade nät
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
DE60233283D1 (de) * 2001-02-27 2009-09-24 Texas Instruments Inc Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US20070174047A1 (en) * 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06507252A (ja) * 1990-12-05 1994-08-11 ディジタル ボイス システムズ、インク 音声の量子化とエラー訂正のための方法
JPH09120298A (ja) * 1995-06-07 1997-05-06 At & T Ipm Corp フレーム消失の間の音声復号に使用する音声の有声/無声分類
WO2001006491A1 (en) * 1999-07-19 2001-01-25 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
JP2003524939A (ja) * 1999-07-19 2003-08-19 クゥアルコム・インコーポレイテッド フレーム抹消条件下で予測音声コーダの性能を改良するためにデコーダからエンコーダにフィードバックを供給するための方法および装置
WO2001086637A1 (en) * 2000-05-11 2001-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Forward error correction in speech coding
JP2003533916A (ja) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) スピーチ符号化における前方向誤り訂正

Also Published As

Publication number Publication date
MXPA04011751A (es) 2005-06-08
MY141649A (en) 2010-05-31
NZ536238A (en) 2006-06-30
CN1659625A (zh) 2005-08-24
CA2483791C (en) 2013-09-03
JP2005534950A (ja) 2005-11-17
WO2003102921A1 (en) 2003-12-11
AU2003233724B2 (en) 2009-07-16
BRPI0311523B1 (pt) 2018-06-26
EP1509903B1 (en) 2017-04-12
US20050154584A1 (en) 2005-07-14
PT1509903T (pt) 2017-06-07
DK1509903T3 (en) 2017-06-06
ZA200409643B (en) 2006-06-28
BR0311523A (pt) 2005-03-08
RU2004138286A (ru) 2005-06-10
AU2003233724A1 (en) 2003-12-19
CA2388439A1 (en) 2003-11-30
KR20050005517A (ko) 2005-01-13
EP1509903A1 (en) 2005-03-02
US7693710B2 (en) 2010-04-06
KR101032119B1 (ko) 2011-05-09
ES2625895T3 (es) 2017-07-20
BR122017019860B1 (pt) 2019-01-29
RU2325707C2 (ru) 2008-05-27
CN100338648C (zh) 2007-09-19
CA2483791A1 (en) 2003-12-11
NO20045578L (no) 2005-02-22

Similar Documents

Publication Publication Date Title
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP5149198B2 (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
JP5412463B2 (ja) 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
JP2006525533A5 (ja)
JP2006502427A (ja) 適応マルチレート広帯域(amr−wb)コーデックとマルチモード可変ビットレート広帯域(vmr−wb)コーデック間における相互運用方法
JP2004504637A (ja) 紛失フレームを取扱うための音声通信システムおよび方法
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091222

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4658596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term