[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2016528539A5 - - Google Patents

Download PDF

Info

Publication number
JP2016528539A5
JP2016528539A5 JP2016524867A JP2016524867A JP2016528539A5 JP 2016528539 A5 JP2016528539 A5 JP 2016528539A5 JP 2016524867 A JP2016524867 A JP 2016524867A JP 2016524867 A JP2016524867 A JP 2016524867A JP 2016528539 A5 JP2016528539 A5 JP 2016528539A5
Authority
JP
Japan
Prior art keywords
frequency
filter
band
frequency band
scale factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016524867A
Other languages
English (en)
Other versions
JP6487429B2 (ja
JP2016528539A (ja
Filing date
Publication date
Priority claimed from FR1356909A external-priority patent/FR3008533A1/fr
Application filed filed Critical
Publication of JP2016528539A publication Critical patent/JP2016528539A/ja
Publication of JP2016528539A5 publication Critical patent/JP2016528539A5/ja
Application granted granted Critical
Publication of JP6487429B2 publication Critical patent/JP6487429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

音声周波数信号復号器における周波数帯域拡張のため最適化スケール因子
本発明は、送信または記憶のための音声周波数信号(会話、音楽、または他のそのような信号など)の符号化/復号化および処理の分野に関する。
特に、本発明は、励起信号のレベル、または均等な方式で、復号器もしくは音声周波数信号を改善するプロセッサにおける周波数帯域拡張の一部としてのフィルタのレベルを調節するために使用することができる最適化スケール因子を判定する方法およびデバイスに関する。
会話または音楽などの音声周波数信号を圧縮する(損失を伴う)多数の技術が存在する。
会話アプリケーションのための従来の符号化方法は概して、波形符号化(「パルス符号変調」を表すPCM、「適応差分パルス符号変調」を表すADCPM、変換符号化など)、パラメトリック符号化(「線形予測符号化」を表すLPC、正弦符号化など)、およびそのCELP(「符号励振線形予測」)符号化が最も知られている例である、「合成による分析」によるパラメータの量子化でのパラメトリックハイブリッド符号化として分類される。
非会話アプリケーションの場合、(モノラルの)音声信号符号化のための従来技術は、帯域レプリケーションによる高周波数のパラメトリック符号化での、変換による知覚的符号化、またはサブ帯域における知覚的符号化から構成される。
従来の会話および音声符号化方法の概要を、(非特許文献1)、(非特許文献2)、(非特許文献3)による研究において発見することができる。
ここでの焦点はより具体的に、16kHzの入力/出力周波数において動作する、3GPPの標準化されたAMR−WB(「適応マルチレートワイドバンド」コーデック(符号器および復号器)であり、3GPP標準AMR−WBでは、12.8kHzにおいてサンプリングされ、およびCELPモデルによって符号化される低帯域(0〜6.4kHz)と、カレントフレームのモードに応じた追加情報を伴い、もしくは追加情報なしで、「帯域拡張」(または、「帯域幅拡張」を表すBWE」)によってパラメータ的に再構築される高帯域(6.4〜7kHz)と、の2つのサブ帯域に信号が分割される。ここで、7kHzにおけるAMR−WBコーデックの符号化された帯域の制限は、ITU−T標準の341ページで定義された周波数マスクに従って、より具体的には、7kHzを超える周波数をカットするITU−T標準G.191で定義されたいわゆる「P341」フィルタ(このフィルタは、341ページで定義されたマスクを観察する)を使用することよって、標準化(ETSI/3GPP次いでITU−T)の時に広帯域端末の送信における周波数応答が近似していた事実に本来関連付けられることに留意されたい。しかしながら、理論的には、16kHzにおいてサンプリングされた信号は、0〜8000Hzの定義された音声帯域を有することができ、したがって、AMR−WBコーデックは、8kHzの理論上の帯域幅との比較によって高帯域の制限をもたらす。
3GPP AMR−WB会話コーデックは、主にGSM(登録商標)(2G)およびUMTS(3G)上の回路モード(CS)電話アプリケーションのために2001年に標準化された。この同一のコーデックはまた、勧告G.722.2「適応マルチレートワイドバンド(AMR−WB)を使用した約16キロビット/秒における広帯域符号化会話」の形式でITU−Tによって2003年に標準化された。
それは、9のビットレート、6.6〜23.85キロビット/秒の呼モードを備え、ならびに音声区間検出(VAD:voice activity detection)、およびサイレンス記述フレーム(silence description frame)(「Silence Insertion Descriptor」を表すSID)からの快適雑音生成(CNG:comfort noise generation)を有する連続送信機構(「不連続送信」を表すDTX)と、損失フレーム補正機構(「Frame Erasure Concealment」を表すFEC、時に「Packet Loss Concealment」を表すPLCと称される)とを備える。
AMR−WB符号化および復号化アルゴリズムの詳細は、ここでは繰り返されず、このコーデックの詳細な説明を、(非特許文献4)、(非特許文献5)(および対応する付属文書および附録)、(非特許文献6)による論文、および関連する3GPPとITU−T標準のソースコードにおいて発見することができる。
AMR−WBコーデックにおける帯域拡張の原理は、非常に基礎的である。実際に、時間(サブフレームごとのゲインの形式で適用される)および周波数(線形予測合成フィルタまたは「線形予測符号化」を表すLPCの適用によって)エンベロープを通じてホワイトノイズを形成することによって、高帯域(6.4〜7kHz)が生成される。この帯域拡張技術は図1に示される。
ホワイトノイズuHB1(n)、n=0,・・・,79は、線形合同ジェネレータによって5ミリ秒のサブフレームごとに16kHzにおいて生成される(ブロック100)。このノイズuHB1(n)は、サブフレームごとにゲインを適用することによって時間でフォーマットされ、この動作は、2つの処理ステップ(ブロック102、106または109)に分解される。
・第1の因子が算出されて(ブロック101)、低帯域で12.8kHzにおいて復号化された、励起u(n)、n=0,・・・,のレベルと同様のレベルでホワイトノイズuHB1(n)を設定する(ブロック102)。
Figure 2016528539
ここで、異なるサイズ(u(n)に対して64、およびuHB1(n)に対して80)のブロックを比較することによって、サンプリング周波数(12.8または16kHz)における差異の補償をすることなく、エネルギーの正規化が行われることに留意されたい。
・次いで、高帯域における励起
Figure 2016528539
の形式で取得され(ブロック106または109)、ゲイン
Figure 2016528539
は、ビットレートに応じて異なって取得される。カレントフレームのビットレートが23.85キロビット/秒を下回る場合、
Figure 2016528539
が「分かりにくく」(すなわち、追加情報なしで)評価され、このケースでは、ブロック103は、信号
Figure 2016528539
ここで、n=0,・・・,63を取得するために400Hzにおけるカットオフ周波数を有するハイパスフィルタによって、低帯域で復号化された信号をフィルタリングし、このハイパスフィルタは、ブロック104においてなされた評価を歪めることがある超低周波数の影響を除去し、次いで、信号
Figure 2016528539
のetiltで表される「傾斜」(スペクトル傾斜のインジケータ)が、正規化自己相関によって算出され(ブロック104)、
Figure 2016528539
最後に、
Figure 2016528539

Figure 2016528539
の形式で算出され、gSP=1−etiltは、活性会話(SP)フレームに適用されるゲインであり、gBG=1.25gSPは、背景(BG)ノイズと関連付けられた非活性会話フレームに適用されるゲインであり、およびwSPは、音声区間検出(VAD)に依存した重み付け関数である。傾斜(etilt)の評価によって、信号のスペクトルの性質に応じて高帯域のレベルを適合させることが可能になり、この評価は、CELP復号化信号のスペクトル傾斜によって、周波数が増加するときに(よって、etiltが1に近く、よって、gSP=1−etiltが減少する音声信号のケース)平均エネルギーが減少することになるときに特に重要であることが理解される。また、AMR−WB復号化における因子
Figure 2016528539
が範囲[0.1、1.0]内での値をとるように境界を付けられることに留意されたい。実際に、そのエネルギーが増大する信号の場合、周波数が増加するときに(−1に近いetilt、2に近いgSP)、ゲイン
Figure 2016528539
は通常、過小評価される。
23.85キロビット/秒において、サブフレームごとに(5ミリ秒ごとに4ビット、または0.8キロビット/秒)評価されたゲインを改善するために、補正情報項目がAMR−WB符号器によって伝達され、および復号化される(ブロック107、108)。次いで、人工励起HB(n)が、伝達関数1/AHB(z)のLPC合成フィルタ(ブロック111)によってフィルタリングされ、16kHzのサンプリング周波数において動作している。このフィルタの構築は、カレントフレームのビットレートに依存し、
・6.6キロビット/秒において、フィルタ1/AHB(z)は、因子γ=0.9によって次数16のLPCフィルタ
Figure 2016528539
を「推定する」、次数20のLPCフィルタ
Figure 2016528539
を重み付けすることによって取得され、低帯域(12.8kHz)で復号化され、ISF(Imittance Spectral Frequency)の領域における推定の詳細は、第6.3.2.1章における標準G.722.2で説明されており、このケースでは、
Figure 2016528539
である。
・ビットレートが6.6キロビット/秒を上回る場合、フィルタ1/AHB(z)は、次数16のフィルタであり、および単純に
Figure 2016528539
に相当し、γは0.6である。このケースでは、フィルタ
Figure 2016528539
([0、6.4kHz]〜[0、8kHz]のこのフィルタの周波数応答の拡散(比例変換による)をもたらす)が16kHzにおいて使用されることに留意するべきである。
最後に、結果SHB(n)が、FIR(「有限インパルス応答」)タイプのバンドパスフィルタ(ブロック112)によって処理されて、6〜7kHzの帯域のみを維持し、23.85キロビット/秒においては、FIRタイプのローパスフィルタ(ブロック113)がまた、7kHzを上回る周波数をさらに減衰させるために処理に追加される。最後に、高周波数(HF)合成は、ブロック120〜122で取得された低周波数(LF)合成に追加され(ブロック130)、および16kHzにおいてリサンプリングされる(ブロック123)。よって、AMR−WBコーデックにおいて、高帯域が理論的に6.4から7kHzまでに拡張する場合でさえ、HF合成はむしろ、LF合成での追加の前に6〜7kHz帯域に含まれる。
AMR−WBコーデックの帯域拡張技術における多数の欠点を特定することができ、特に、
・サブフレームごとのゲインの評価(ブロック101、103〜105)が最適でない。部分的に、それは、異なる周波数における信号、16kHzにおける人工励起(ホワイトノイズ)および12.8kHzにおける信号(復号化ACELP励起)の間のサブフレームごとの「絶対」エネルギーの等化(ブロック101)に基づいている。特に、このアプローチは、高帯域励起(12.8/16=0.8の比率により)の減衰を黙示的に誘導することに留意することができ、また、実際に、0.6に比較的近い減衰(6400Hzにおける1/(1−0.68z−1))の周波数応答の値に相当する)を黙示的に誘導する、AMR−WBコーデックにおける高帯域上でデエンファシスが実行されないことに留意されたい。実際に、1/0.8の因子および0.6の因子が近似して補償される。
・会話に関して、3GPPレポートTR26.976において文書化された3GPP AMR−WBコーデックの特性化試験は、23.85キロビット/秒におけるモードが23.05キロビット/秒よりも劣る品質を有し、実際にその品質が15.85キロビット/秒におけるモードの品質と同様であることを示している。これは特に、品質が23.85キロビット/秒に低下し、フレームごとの4ビットが元の高周波数のエネルギーに近似させることを可能にするのに最良であると考えられるため、人工HF信号のレベルが非常に慎重に制御されるべきであることを示す。
・7kHzにおけるローパスフィルタ(ブロック113)は、低帯域と高帯域との間で約1ミリ秒のシフトをもたらし、それは、23.85キロビット/秒における2つの帯域をわずかに非同期化することによって一定の信号の品質を低下させることがあり、この非同期化はまた、ビットレートを23.85キロビット/秒から他のモードに切り替えるときに問題を引き起こすことがある。
一時的なアプローチを介した帯域拡張の例は、AMR−WB+コーデックを説明した3GPP標準TS26.290(2005年に標準化された)において説明されている。この例は、3GPP specification TS26.290の図16および10にそれぞれ対応する、図2a(全体的なブロック図)および2b(応答レベル補正によるゲイン予測)のブロック図で示される。
AMR−WB+コーデックでは、周波数Fs(Hz)においてサンプリングされた(モノラルの)入力信号が、2つの別個の周波数帯域に分割され、そこでは2つのLPCフィルタが別個に算出および符号化され、
・低帯域(0〜Fs/4)におけるA(z)で表される1つのLPCフィルタ、その量子化されたバージョンが
Figure 2016528539
で表され、
・スペクトル的に生じる高帯域(Fs/4〜Fs/2)におけるAHF(z)で表される別のLPCフィルタ、その量子化されたバージョンが
Figure 2016528539
で表される。
3GPP specification TS26.290の第5.4章(HF符号化)および6.2章(HF復号化)で詳述されるようなAMR−WB+コーデックにおいて、帯域拡張が行われる。その原理がここで要約され、拡張は、低周波数(LFC励起)において復号化された励起を使用すること、ならびにサブフレームごとの一時ゲインによるこの励起(ブロック205)およびLPC合成フィルタリング(ブロック207)をフォーマットすることにあり、励起を改善し(後処理)(ブロック206)、および再構築されたHF信号のエネルギーを平滑化する(ブロック208)ための動作を処理することがさらに、図2aで示されるように実装される。
AMR−WB+におけるこの拡張が追加情報の伝達、204におけるフィルタ
Figure 2016528539
の係数、およびサブフレームごとのゲインを一時的にフォーマットする(ブロック201)ことを必要とすることに留意することが重要である。AMR−WB+における帯域拡張アルゴリズムの1つの特定の機能は、サブフレームごとのゲインが予測的アプローチによって量子化されることであり、言い換えると、ゲインが直接符号化されず、むしろgmatchで表されるゲインの評価に相対的なゲイン補正である。この評価gmatchは実際には、低帯域と高帯域(Fs/4)との間の分離の周波数におけるフィルタ
Figure 2016528539
と、
Figure 2016528539
との間のレベル等化因子に相当する。因子gmatchの算出(ブロック203)は、図2bにおいてここで複製される3GPP specification TS26.290の図10で詳述される。この図は、ここではこれ以上詳述されない。
Figure 2016528539
のインパルス応答のエネルギーを算出するために、ブロック210〜230が使用されることに単純に留意されるとともに、フィルタ
Figure 2016528539
がスペクトル的に生じた高帯域(低帯域および高帯域を分離するフィルタバンクのスペクトル特性を理由に)をモデル化することが想起される。フィルタがサブフレームによって補間されるため、ゲインgmatchがフレームごとに1回のみ算出され、およびそれはサブフレームによって補間される。
AMR−WB+における帯域拡張ゲイン符号化技術、より具体的には、それらの分岐におけるLPCフィルタのレベルの補償が、低帯域および高帯域におけるLPCモデルによる帯域拡張に関連して適切な方法であり、ならびにLPCフィルタの間のそのようなレベル補償がAMR−WBコーデックの帯域拡張には存在しないことに留意されたい。しかしながら、実際には、別個の周波数における2つのLPCフィルタの間のレベルの直接等化が最適な方法でなく、ならびに一部のケースでは、高帯域におけるエネルギーの過大評価、および可聴アーチファクトを引き起こすことがあることを立証することが可能であり、LPCフィルタは、スペクトルエンベロープ、および2つのLPCエンベロープの相対レベルを調整することになる所与の周波数に対する2つのLPCフィルタの間のレベルの等化の原理が想起される。ここで、正確な周波数において実行されるそのような等化は、等化ポイントの周辺においてエネルギー(周波数における)の完全な連続性および全体的な一貫性を保証しない(信号の周波数エンベロープがこの周辺で著しく変動するときに)。問題を仮定する数学的方法は、2つの曲線の間の連続性を、それらを1つかつ同一のポイントにおいて一致させることによって保証することができることに留意することにあるが、より全体的な一貫性を保証するようにローカル特性(逐次導関数)が一致することを保証するものが存在しない。低帯域および高帯域LPCエンベロープの間の点の一貫性を保証するリスクは、非常に強く、または非常に弱い相対レベルの高帯域におけるLPCエンベロープを設定するリスクであり、非常に強いレベルのケースでは、それがさらに問題となるアーチファクトをもたらすため、さらに不利である。
さらに、AMR−WB+におけるゲイン補償は主として、符号器および復号器に既知であり、かつ高帯域励起信号をスケーリングするゲイン情報の伝達に必要なビットレートを減少させる役割を果たすゲインの予測である。ここで、AMR−WB符号化/復号化の相互動作可能な改善に関連して、AMR−WB23.85キロビット/秒モードにおいて帯域拡張のサブフレーム(0.8キロビット/秒)によるゲインの既存の符号化を修正することが可能ではない。さらに、厳密に23.85キロビット/秒未満のビットレートの場合、低帯域および高帯域におけるLPCフィルタのレベルの補償を、AMR−WBと互換性を有する復号化の帯域拡張に適用することができるが、最適化をすることなく適用される、AMR−WB+符号化から導出されるこの唯一の技術によって、高帯域(6kHzを上回る)のエネルギーの過大評価の問題が生じることがある。
W.B.Kleijn and K.K.Paliwal(eds.),Speech Coding and Synthesis,Elsevier(1995) M.Bosi,R.E.Goldberg,Introduction to Digital Audio Coding and Standards,Springer(2002) J.Benesty,M.M.Sondhi,Y.Huang(Eds.),Handbook of Speech Processing,Springer(2008) 3GPP specifications(TS26.190、26.191、26.192、26.193、26.194、26.204) ITU−T−G.722.2 B.Bessette et al.entitled"The adaptive multirate wideband speech codec(AMR−WB)",IEEE Transactions on Speech and Audio Processing,vol.10,No.8,2002,pp.620−636
したがって、周波数帯域においてエネルギーを過大評価することなく、かつ符号器からの追加情報を必要とすることなく、AMR−WBタイプのコーデックにおける周波数帯域拡張に対する異なる周波数帯域の線形予測フィルタと、このコーデックの相互動作可能なバージョンとの間のゲインの補償を改善する必要が存在する。
本発明はこの状況を改善する。
この目的を達成するために、本発明は、音声周波数信号周波数帯域拡張方法において励起信号またはフィルタに適用されることになる最適化スケール因子を判定する方法を対象とし、帯域拡張方法は、第1の周波数帯域において、励起信号、および線形予測フィルタの係数を備えた第1の周波数帯域のパラメータを復号化または抽出するステップと、少なくとも1つの第2の周波数帯域上で、拡張された励起信号を生成するステップと、線形予測フィルタによって、第2の周波数帯域をフィルタリングするステップと、を備える。判定方法は、
− 第1の周波数帯域の線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するステップであって、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されたパラメータから取得される、ステップと、
− 追加フィルタの係数に少なくとも応じて、最適化スケール因子を算出するステップと
を備える。
よって、等化されることになる第1の周波数帯域のフィルタよりも低次数の追加フィルタの使用によって、エンベロープの局所揺らぎから生じることがあり、かつ予測フィルタの等化を中断させることがある、高周波数におけるエネルギーの過大評価を回避することが可能になる。
よって、第1の周波数帯域の線形予測フィルタと第2の周波数帯域の線形予測フィルタとの間のゲインの等化が改善される。
正規に取得された最適化スケール因子の有利な適用では、帯域拡張方法は、最適化スケール因子を拡張された励起信号に適用するステップを備える。
最適な実施形態では、最適化スケール因子の適用は、第2の周波数帯域においてフィルタリングするステップと組み合わされる。
よって、最適化スケール因子をフィルタリングおよび適用するステップは、処理の複雑度を減少させる単一のフィルタリングステップにおいて組み合わされる。
特定の実施形態では、追加フィルタの係数は、低次数を取得するために第1の周波数帯域の線形予測フィルタの伝達関数の打ち切り(truncation)によって取得される。
したがって、この低次数追加フィルタは単一の方式で取得される。
さらに、安定したフィルタを取得するために、追加フィルタの係数が追加フィルタの安定度基準に応じて修正される。
特定の実施形態では、最適化スケール因子を算出するステップは、
− 共通周波数に対する第1の周波数帯域および第2の周波数帯域の線形予測フィルタの周波数応答を算出するステップと、
− この共通周波数に対する追加フィルタの周波数応答を算出するステップと、
− 正規に算出された周波数応答に応じて、最適化スケール因子を算出するステップと
を備える。
よって、最適化スケール因子は、共通周波数に近接した第1の帯域の高次数フィルタ周波数応答が信号の最大値または最小値を示すはずである、起こり得る問題となるアーチファクトを防止する方法で算出される。
特定の実施形態では、方法はさらに、予め定められた復号化ビットレートに対して実装される、以下のステップ:
− 復号化された励起信号と拡張された励起信号との間のエネルギー比に応じて、サブフレームごとに算出されたゲインによって、拡張された励起信号をスケーリングする第1のステップと、
− 復号化された補正ゲインによってスケーリングする第1のステップから取得された励起信号をスケーリングする第2のステップと、
− スケーリングする第2のステップの後に取得された信号のエネルギーに応じて、および最適化スケール因子の適用の後に取得された信号に応じて、算出された調整因子によって、カレントサブフレームに対する励起のエネルギーを調整するステップと
を備える。
よって、予め定められた動作モードに対する拡張された信号の品質を改善するために追加情報を使用することができる。
本発明はまた、音声周波数信号周波数帯域拡張デバイスにおいて励起信号またはフィルタに適用されることになる最適化スケール因子を判定するデバイスを対象とし、帯域拡張デバイスは、第1の周波数帯域において、励起信号、および線形予測フィルタの係数を備えた第1の周波数帯域のパラメータを復号化または抽出するモジュールと、少なくとも1つの第2の周波数帯域上で、拡張された励起信号を生成するモジュールと、線形予測フィルタによって、第2の周波数帯域をフィルタリングするモジュールとを備える。判定するデバイスは、
− 第1の周波数帯域の線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するモジュールであって、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されたパラメータから取得される、モジュールと、
− 追加フィルタの係数に少なくとも応じて、最適化スケール因子を算出するモジュールと
を備える。
本発明は、上述したデバイスを備える復号器を対象とする。
それは、コード命令がプロセッサによって実行されると、上述した最適化スケール因子を判定する方法のステップを実行するそれらのコード命令を備えるコンピュータプログラムを対象とする。
最後に、本発明は、上述した最適化スケール因子を判定する方法を実行するコンピュータプログラムを記憶している、最適化スケール因子を判定するデバイスに組み込まれ、または組み込まれていない、場合によっては着脱可能である、プロセッサによって読み取ることが可能な記憶媒体に関する。
本発明の他の特徴および利点が、純粋に非限定的な例として与えられる、以下の発明を実施するための形態を読むことによって、かつ添付の図面を参照してより明確になるであろう。
従来技術の、および前に説明された周波数帯域拡張ステップを実装するAMR−WBタイプの復号器の一部を示す図である。 従来技術に従って、および前に説明されたAMR−WB+コーデックにおける高帯域の符号化を提示する図である。 従来技術に従って、および前に説明されたAMR−WB+コーデックにおける高帯域の符号化を提示する図である。 本発明の実施形態に従って使用される帯域拡張デバイスを組み込んだ、AMR−WB符号化と相互動作することができる復号器を示す図である。 本発明の実施形態に従って、ビットレートに応じてサブフレームによって最適化されたスケール因子を判定するデバイスを示す図である。 本発明の実施形態に従って、最適化スケール因子の算出に使用されるフィルタの周波数応答を示す図である。 本発明の実施形態に従って、最適化スケール因子の算出に使用されるフィルタの周波数応答を示す図である。 本発明の実施形態に従って、最適化スケール因子を判定する方法の主たるステップをフローチャート形式で示す図である。 帯域拡張の一部として最適化スケール因子を判定するデバイスの周波数領域における実施形態を示す図である。 本発明の実施形態に従って、帯域拡張における最適化スケール因子判定デバイスのハードウェア実装形態を示す図である。
図3は、ブロック309によって示される帯域拡張デバイスによって実装される、本発明の方法の実施形態に従って最適化スケール因子を判定するステップを備える帯域拡張が存在する、AMR−WB/G.722.2標準と互換性を有する、例示的な復号器を示す。
16kHzの出力サンプリング周波数で動作するAMR−WB復号化とは異なり、ここでは、復号器は、周波数fs=8、16、32または48kHzにおいて出力信号(合成)で動作することができると考えられる。ここでは、低帯域におけるCELP符号化に対する12.8kHzの内部周波数でのAMR−WBアルゴリズムに従って、および16kHzの周波数におけるサブフレームごとのゲイン符号化により23.85キロビット/秒で符号化が実行されていることが想定され、ここでは、本発明が復号化レベルにおいて説明されるが、ここでは、符号化はまた、周波数fs=8、16、32または48kHzにおいて入力信号で動作することができ、および本発明の文脈の範囲外の、適切なリサンプリング動作が、fsの値に応じて符号化において実装されることが想定される。fs=8kHzのとき、AMR−WBと互換性を有する復号化のケースでは、周波数fsにおいて再構築される音声帯域が0〜4000Hzに制限されるため、0〜6.4kHz低帯域を拡張する必要がないことに留意されたい。
図3では、CELP復号化(低周波数を表すLF)は、AMR−WBにあるように、12.8kHzの内部周波数においていまだに動作し、本発明に使用される帯域拡張(高周波数を表すHF)は、16kHzの周波数において動作し、ならびにLFおよびHF合成は、適切なリサンプリング(ブロック306およびブロック311における内部処理)の後、周波数fsにおいて結合される(ブロック312)。変形形態の実施形態では、周波数fsにおける結合された信号をリサンプリングする前に、12.8〜16kHzの低帯域をリサンプリングした後、低帯域および高帯域の結合を16kHzにおいて行うことができる。
図3に従った復号化は、受信されるカレントフレームと関連付けられたAMR−WBモード(またはビットレート)に依存する。インジケーションとして、およびブロック309に影響を与えることなく、低帯域におけるCELP部の復号化は、以下のステップ、
・正確に受信されたフレームのケースでは(bfi=0、bfiは「受信されたフレームに対して値0、および損失したフレーム対して値1を有する、「不良フレームインジケータ」である)、符号化されたパラメータを逆多重化する(ブロック300)ステップ、
・標準G.722.2の第6.1節で説明される補間およびLPC係数への変換を伴うISFパラメータを復号化する(ブロック301)ステップ、
・12.8kHzにおいて長さ64の各サブフレームにおいて励起(excまたはu'(n))を再構築する適応および固定部で、CELP励起を復号化する(ブロック302)ステップであって、CELP復号化に関して、AMR−WB符号器/復号器と相互動作可能な復号器のITU−T勧告G.718の第7.1.2.1節の以下の注記によって、
Figure 2016528539
であり、v(n)およびc(n)はそれぞれ、適応および固定ディクショナリのコードワードであり、ならびに
Figure 2016528539
および
Figure 2016528539
は、関連付けられた復号化されたゲインである。この励起u'(n)は、次のサブフレームの適応ディクショナリに使用され、次いで、それは後処理され、およびG.718にあるように、励起u'(n)(excとも表される)が、ブロック303における合成フィルタ
Figure 2016528539
に対する入力としての役割を果たす、その修正された後処理されたバージョンu(n)(exc2とも表される)と区別される、ステップ、

Figure 2016528539
によって合成フィルタリングする(ブロック303)ステップであって、復号化されたLPCフィルタ
Figure 2016528539
は、次数16のフィルタである、ステップ、
・fs=8kHzの場合、G.718の第7.3節に従って狭帯域の後処理をするステップ、
・フィルタ1/(1−0.68z−1)によってデエンファシスするステップと、
・G.718の第7.14.1.1節で説明される、低周波数における混調波ノイズ(cross−harmonics noise)を減衰させる、低周波数を後処理する(「帯域ポスフィルタ(bass posfilter)」と称される)(ブロック306)ステップ。この処理は、高帯域(6.4kHzを上回る)の復号化において考慮される遅延を生じさせる、
・出力周波数fsにおいて12.8kHzの内部周波数をリサンプリングするステップ。多数の実施形態が可能である。概念を失うことなく、ここでは、例として、fs=8または16kHzの場合、G.718の第7.6節で説明されるリサンプリングがここで繰り返され、およびfs=32または48kHzの場合、追加有限インパルス応答(FIR)フィルタが使用され、
レベル低減によるサイレンスの品質を「改善する」ためにG.718の第7.14.3節で説明されるように好ましくは実行される「ノイズゲート」(ブロック308)のパラメータを算出するステップ。
本発明に対して実装することができる変形形態では、帯域拡張の本質に影響を与えることなく、励起に適用される後処理動作を修正することができ(例えば、位相分散を改善することができ)、またはそれらの後処理動作を拡張することができる(例えば、混調波ノイズの低減を実装することができる)。
ブロック306、308、314の使用は任意選択であることに留意されたい。
上記説明された低帯域の復号化は、6.6キロビット/秒と23.85キロビット/秒との間のビットレートを有する、いわゆる「活性」カレントフレームを想定していることに留意されたい。実際に、DTXモードが活性化されるとき、一定のフレームを「非活性」として符号化することができ、このケースでは、サイレンス記述子(silence descriptor)を伝達し(35ビット上で)、または何も伝達しないかのいずれかが可能である。特に、SIDフレームは、多数のパラメータ、8のフレームで平均化されたISFパラメータ、8のフレームでの平均エネルギー、非固定ノイズの再構築のための「ディザリング」フラグを記述することが想起される。全てのケースでは、復号器では、カレントフレームに対する励起およびLPCフィルタの再構築(それによって、さらに非活性フレームに帯域拡張を適用することが可能になる)を伴う、活性フレームに対するのと同一の復号化モデルが存在する。同一の観察は、LPCモデルが適用される、「損失フレーム」(またはFEC、PLC)の復号化を要求する。
ここで説明される実施形態において、および図7を参照して、復号器によって、復号化された低帯域を、カレントフレームで実装されたモードに応じて約50〜6900Hzから50〜7700Hzまでの範囲でその幅が変動する、拡張された帯域に拡張することが可能になる(復号器上での50Hzハイパスフィルタリングを考慮した50〜6400Hz、一般的なケースでは0〜6400Hz)。よって、0〜6400Hzの第1の周波数帯域、および6400〜8000Hzの第2の周波数帯域を参照することが可能である。実際に、好ましい実施形態では、6000〜6900または7700Hzの幅のバンドパスフィルタリングを可能にするために、5000〜8000Hzの帯域における周波数領域において励起の拡張が実行される。
23.85キロビット/秒において、23.85キロビット/秒において伝達されるHFゲイン補正情報(0.8キロビット/秒)がここで復号化される。その使用は、図4を参照して後に詳述される。本発明のために使用される帯域拡張デバイスを示し、および実施形態における図7で詳述される、高帯域合成部が、ならびにブロック309において作成される。
復号化された低帯域および高帯域を調整するために、ブロック306および307の出力を同期する遅延(ブロック310)がもたらされ、16kHzにおいて合成される高帯域は、16kHz〜周波数fsでリサンプリングされる(ブロック311の出力)。遅延Tの値は、高帯域信号がどのように合成されるかに依存し、および低周波数の後処理にあるように周波数fsに依存する。よって、全体的に、ブロック310におけるTの値は、特定の実装形態に従って調整される必要がある。
次いで、低帯域および高帯域がブロック312において結合され(追加され)、得られた合成が、次数2の、その係数が周波数fsに依存する50Hzハイパスフィルタリング(IIRタイプの)によって後処理され(ブロック313)、ならびにG.718と同様の方式で、「ノイズゲート」の任意選択の適用で後処理を出力する(ブロック314)。
図3を参照して、ここでは、周波数帯域拡張処理において励起信号に適用されることになる最適化スケール因子を判定するデバイスの実施形態が説明される。このデバイスは、前に説明された帯域拡張ブロック309に含まれる。
よって、ブロック400は、第1の周波数帯域u(n)において復号化された励起信号から、少なくとも1つの第2の周波数帯域上で、拡張された励起信号uHB(n)を取得するために帯域拡張を実行する。
本発明に従った最適化スケール因子評価は、信号uHB(n)がどのように取得されるかとは独立していることに留意されたい。しかしながら、そのエネルギーに関する1つの条件が重要である。実際に、6000〜8000Hzの高帯域のエネルギーは、ブロック302の出力における復号化された励起信号の4000〜6000Hzの帯域のエネルギーと同様のレベルにあるべきである。さらに、低帯域信号がデエンファシスされるため(ブロック305)、特定のデエンファシスフィルタを使用し、または上述したフィルタの平均減衰に対応する定数因子を乗算するかのいずれかによって、デエンファシスがまた高帯域励起信号に適用されるべきである。この条件は、符号器によって伝達される追加情報を使用する23.85キロビット/秒ビットレートのケースには当てはまらない。このケースでは、高帯域励起信号のエネルギーは、後に説明されるように、符号器に対応する信号のエネルギーと一致するはずである。
周波数帯域拡張は、例えば、ホワイトノイズから、図1を参照してブロック100〜102において説明されたAMR−WBタイプの復号器に対するのと同一の方法で実装されてもよい。
別の実施形態では、図7におけるブロック700〜707に対して後に示され、かつ説明されるホワイトノイズおよび復号化された励起信号の結合から、この周波数帯域拡張を実装することができる。
以下で説明される復号化された励起信号と拡張された励起信号との間のエネルギーレベルの保存を伴う他の周波数帯域拡張方法はもちろん、ブロック400に対して想定されてもよい。
さらに、帯域拡張モジュールはまた、復号器から独立することができ、ならびに励起およびそれからのLPCフィルタを抽出する音声信号の分析と共に、拡張モジュールに記憶されまたは拡張モジュールに送信される既存の音声信号に対する帯域拡張を実行することができる。このケースでは、拡張モジュールの入力における励起信号は、もはや復号化された信号ではないが、本発明の実装形態において最適化スケール因子を判定する方法で使用される第1の周波数帯域の線形予測フィルタの係数と同様に、分析の後に抽出された信号である。
図4で示された例では、それに対して最適化スケール因子の判定がブロック401に制限される、23.85キロビット/秒を上回るビットレートのケースが最初に考えられる。
このケースでは、gHB2(m)で表される最適化スケール因子が算出される。一実施形態では、この算出は、好ましくはサブフレームごとに実行され、ならびにそれは、合成された高帯域の過度なエネルギーをもたらし、よって可聴アーチファクトを生じさせることがある過大評価のケースを回避するための追加の予防策を有する、図7を参照して後に説明されるような、低周波数および高周波数で使用されるLPCフィルタ
Figure 2016528539
および
Figure 2016528539
の周波数応答のレベルを均等にすることにある。
代替的な実施形態では、例えば、フィルタ
Figure 2016528539
の代わりに、ITU−T勧告G.718に従って、AMR−WB符号器/復号器と相互作用することができるAMR−WB復号器または復号器で実装されるような、推定されたHF合成フィルタ
Figure 2016528539
を維持することが可能である。次いで、本発明に従った補償が、フィルタ
Figure 2016528539
および
Figure 2016528539
から実行される。
最適化スケール因子の判定はまた、第1の周波数帯域の線形予測フィルタ
Figure 2016528539
よりも低次数の、追加フィルタと称される線形予測フィルタの判定(401aにおいて)によって実行され、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されるパラメータから取得される。次いで、最適化スケール因子は、拡張された励起信号uHB(n)に適用されることになるそれらの係数に少なくとも応じて算出される(401bにおいて)。
ブロック401で実装される、最適化スケール因子の判定の原理は、16kHzにおいてサンプリングされる信号から取得される具体的な例と共に図5aおよび5bで示され、3つのフィルタの以下でR、P、Qで表される周波数応答振幅値が、カレントサブフレームにおける6000Hz(垂直破線)の共通周波数において算出され、カレントサブフレームのインデックスmは、文章を明確にするために、サブフレームによって推定されるLPCフィルタの表記においてここでは想起されない。6000Hzの値は、それが低帯域のナイキスト周波数に近づくように、すなわち、6400Hzになるように選択される。最適化スケール因子を判定するためにこのナイキスト周波数をとらないことが好ましい。実際に、低周波数における復号化された信号のエネルギーは典型的には、6400Hzにおいて既に減衰している。さらに、ここで説明される帯域拡張は、6000〜8000Hzの範囲にある、高帯域と称される第2の周波数帯域上で実行される。本発明の変形形態では、6000Hz以外の周波数が、最適化スケール因子を判定する概念を失うことなく、選択されることが可能であることに留意するべきである。2つのLPCフィルタが別個の帯域(AMR−WB+にあるように)に対して定義されるケースを考えることも可能である。このケースでは、R、PおよびQが別個の周波数において算出される。
図5aおよび5bは、量(quantities)R、P、Qがどのように定義されるかを示す。
第1のステップは、6000Hzの周波数における第1の周波数帯域(低帯域)および第2の周波数帯域(高帯域)の線形予測フィルタの周波数応答RおよびPをそれぞれ算出することにある。以下が最初に算出され、
Figure 2016528539
M=16は、復号化されたLPCフィルタ
Figure 2016528539
の次数であり、θは、12.8kHzのサンプリング周波数に対して正規化される6000Hzの周波数に相当し、すなわち、
Figure 2016528539
である。
次いで、同様に以下が算出され、
Figure 2016528539
Figure 2016528539
である。
好ましい実施形態では、量PおよびRが、以下の疑似コードに従って算出される。
px=py=0
rx=ry=0
for i=0 to 16
px=px+Ap[i]*exp_tab_p[i]
py=py+Ap[i]*exp_tab_p[33−i]
rx=rx+Aq[i]*exp_tab_q[i]
ry=ry+Aq[i]*exp_tab_q[33−i]
end for
P=1/sqrt(px*px+py*py)
R=1/sqrt(rx*rx+ry*ry)
ここで、
Figure 2016528539
は、
Figure 2016528539
(次数16の)の係数に相当し、
Figure 2016528539
は、
Figure 2016528539
の係数に相当し、sqrt()は、平方根演算に対応し、ならびにサイズ34のテーブルexp_tab_pおよびexp_tab_qは、
Figure 2016528539
を有する、6000Hz周波数と関連付けられた複素指数関数の実数部および虚数部を含む。
例えば、多項式
Figure 2016528539
を次数2に適切に切り捨てることによって、追加予測フィルタが取得される。
実際に、次数への直接の切り捨ては、次数2のこのフィルタが安定することを保証するものが通常存在しないため、問題を引き起こすことがある、フィルタ
Figure 2016528539
につながる。好ましい実施形態では、したがって、フィルタ
Figure 2016528539
の安定度が検出され、およびフィルタ
Figure 2016528539
が使用され、その係数は、不安定度検出に応じて
Figure 2016528539
から得られる。特に、以下が初期化される。
Figure 2016528539
フィルタ
Figure 2016528539
の安定度を異なって検証することができ、ここでは、PARCOR係数(または反射係数)領域において
Figure 2016528539
を算出することによって変換が使用される。
|k|<1、i=1,2の場合に安定度が検証される。したがって、kの値は、以下のステップで、フィルタの安定度を保証する前に条件付きで修正され、
Figure 2016528539
ここで、min(.,.)およびmax(.,.)はそれぞれ、2つのオペランドの最小値および最大値を与える。
に対する閾値0.99およびkに対する閾値0.6は、本発明に変形形態において調整されることが可能であることに留意されたい。第1の反射係数kは、次数1にモデル化される信号のスペクトル傾斜(またはチルト)を特徴付け、本発明におけるkの値は、この傾斜を保持し、および
Figure 2016528539
のそれと同様のチルトを維持するために、安定限界に近い値で飽和することが想起される。また、第2の反射係数kは、次数2にモデル化される信号の共鳴レベルを特徴付け、次数2のフィルタの使用が6000Hzの周波数の周囲のそのような共鳴の影響を除去することを目的としているため、kの値はさらに強く制限され、この制限は0.6に設定されることが想起される。
次いで、
Figure 2016528539
の係数が
Figure 2016528539
によって取得される。
したがって、追加フィルタの周波数応答は最後に
Figure 2016528539
で算出され
Figure 2016528539
である。この量は、好ましくは以下の疑似コードに従って算出され、
qx=qy=0
for i=0 to 2
qx=qx+As[i]*exp_tab_q[i];
qy=qy+As[i]*exp_tab_q[33−i];
end for
Q=1/sqrt(qx*qx+qy*qy)
ここで、As[i]=
Figure 2016528539
である。
概念を失うことなく、別の方法では、例えば、次数16のLPCフィルタ
Figure 2016528539
に、J.D.Markel and A.H.Gray,Linear Prediction of Speech,Springer Verlag(1976年)で説明される「STEP DOWN」と称されるLPC次数の削減手順を適用することよって、または12.8kHzにおいて合成され(復号化され)およびウインドウ化された信号上で算出された自己相関からの2つのLevinson−Durbin(またはSTEP−UP)アルゴリズムの繰り返しを実行することによって、次数2のフィルタの係数を算出することが可能である。
一部の信号に対し、復号化された最初の3つのLPC係数から算出された量Qは、スペクトルにおけるスペクトル傾斜(またはチルト)をより良好に考慮し、および「偽」ピークの影響を回避し、または全てのLPC係数から算出される量Rの値を歪めもしくは上昇させることがある6000Hzに近い。
好ましい実施形態では、以下のように、事前に算出された量R、P、Qから条件付きで推定される:
チルト(r(i)が自己相関であるr(1)/r(0)の形式で正規化された自己相関によって、ブロック104でAMR−WBにあるように算出される)が負である場合(図5bに示されるようにチルトが0未満である)、以下のようにスケール因子の算出が行われ、
高帯域のエネルギーの過度に急激な変動に起因したアーチファクトを回避するために、平滑化がRの値に適用される。好ましい実施形態では、指数関数的平滑化が、
R=0.5R+0.5Rprev
prev=R
の形式で時間において一定の因子(0.5)で実行され、Rprevは、先行のサブフレームにおけるRの値に相当し、因子0.5は、経験的に最適化され、明白に、因子0.5は、別の値に変更されることが可能であり、および他の平滑化方法も可能である。平滑化によって、一時的な変動を減少させることが可能であり、よってアーチファクトを回避することが可能である。
次いで、最適化スケール因子が
HB2(m)=max(min(R,Q),P)/P
によって与えられる。
代替的な実施形態では、
HB2(m)←0.5gHB2(m)+0.5gHB2(m−1)
となるように、Rの平滑化をgHB2(m)の平滑化に置き換えることが可能である。チルト(ブロック104でAMR−WBにあるように算出される)が正である場合(図5aにあるようにチルトが0を上回る)、以下のようにスケール因子の算出が行われる:
先行のケースにあるように、Rが低いときにより強い平滑化で、量Rが時間で適応して平滑化され、この平滑化によって一時的な変動を減少させることが可能であり、よってアーチファクトを回避することが可能である。
R=(1−α)R+αRprev、α=1−R
prev=R
次いで、最適化スケール因子が
HB2(m)=min(R,P,Q)/P
によって与えられる。
代替的な実施形態では、Rの平滑化を、上記算出されたgHB2(m)の平滑化に置き換えることが可能である。
HB(m)=(1−α)gHB(m)+αgHB(m−1)、m=0,...,3、α=1−g HB(m)
ここで、gHB(−1)は、先行のフレームの最後のサブフレームに対して算出されたスケールまたはゲイン因子である。
ここで、スケール因子を過大評価することを回避するために、R、P、Qの最小値がとられる。
変形形態では、チルトにのみ依存する上記条件は、決定を改善するために、チルトパラメータのみでなく、他のパラメータをも考慮するように拡張されることが可能である。さらに、gHB2(m)の算出は、それらの前記追加パラメータに従って調整されることが可能である。
追加パラメータの例は、
Figure 2016528539
として定義することができるゼロ交差(ZCR、ゼロ交差率)の数であり、
Figure 2016528539
である。
パラメータzcrは概して、チルトと同様の結果を与える。良好な分類基準は、合成信号s(n)に対して算出されたzcrと、12800Hzにおける励起信号u(n)に対して算出されたzcrとの間の比率である。この比率は、0と1との間であり、0は、減少するスペクトルを信号が有していることを意味し、1は、スペクトルが増加していることを意味((1−tilt)/2に相当する)する。このケースでは、zcr/zcr>0.5の比率は、tilt<0のケースに相当し、zcr/zcr<0.5の比率は、tilt>0に相当する。
変形形態では、パラメータtilthpの関数を使用することが可能であり、tilthpは、例えば、4800Hzにおいてカットオフ周波数でハイパスフィルタによってフィルタリングされる、合成信号s(n)に対して算出されたチルトであり、このケースでは、6〜8kHzの応答
Figure 2016528539
(16kHzにおいて適用される)は、4.8〜6.4kHzの
Figure 2016528539
の重み付け応答(weighted response)に相当する。
Figure 2016528539
は、さらなる平坦化応答(flattened response)を有するため、このチルトの変化を補償する必要がある。tilthpに従ったスケール因子関数は次いで、(1−tilthp+0.6、によって実施形態において与えられる。したがって、QおよびRは、tilt>0のときに、min(1,(1−tilthp+0.6)、と乗算され、tilt<0のときに、max(1,(1−tilthp+0.6)、と乗算される。
ここで、23.85キロビット/秒ビットレートのケースが考えられ、そのケースでは、ブロック403〜408によってゲイン補正が実行される。このゲイン補正はさらに、別の発明の主題である。本発明に従ったこの特定の実施形態では、23.85キロビット/秒において品質を改善するために使用される、0.8キロビット/秒のビットレートを有するAMR−WB(互換性を有する)符号化によって伝達される、gHBcorr(m)で表されるゲイン補正情報が使用される。
ここで、ITU−T clause G.722.2/5.11、または同様に、3GPP clause TS26.190/5.11で説明されるように、AMR−WB(互換性を有する)符号化は、4ビット上で補正ゲイン量子化を実行している。
AMR−WB符号器では、16kHzにおいてサンプリングされ、および6〜7kHzバンドパスフィルタsHB(n)によってフィルタリングされた元の信号のエネルギーを、合成フィルタ
Figure 2016528539
および6〜7kHzバンドパスフィルタ(フィルタリングの前に、ノイズのエネルギーが、12.8kHzにおける励起レベルと同様のレベルに設定される)sHB2(n)によってフィルタリングされた16kHzにおけるホワイトノイズのエネルギーと比較することによって、補正ゲインが算出される。ゲインは元の信号のエネルギーと、2つに分割されるノイズのエネルギーとの比率のルートである。1つの可能な実施形態では、より広帯域(例えば、6〜7.6kHz)を有するフィルタに対するバンドパスフィルタを変更することが可能である。
Figure 2016528539
23.85キロビット/秒において受信されるゲイン情報(ブロック407で)を適用することを可能にするために、AMR−WB(互換性を有する)符号化の予想されるレベルと同様のレベル励起をさせることが重要である。よって、ブロック404は、以下の式に従って励起信号のスケーリングを実行し、
HB1(n)=gHB3(m)uHB(n)、n=80m,・・・,80(m+1)−1
HB3(m)は、
Figure 2016528539
の形式で、ブロック403で算出されたサブフレームごとのゲインであり、AMR−WB符号化において、HF励起が0〜8000Hz帯域を上回るホワイトノイズであると仮定すると、分母における因子5は、信号u(n)と信号uHB(n)との間の帯域幅差を補償する役割を果たす。
23.85キロビット/秒において送信される、indexHF_gain(m)で表されるサブフレームごとの4ビットのインデックスは、ビットストリームから逆多重化され(ブロック405)、および以下のようにブロック406によって復号化され、
HBcorr(m)=2HP_gain(indexHF_gain(m))
HP_gain(.)は、AMR−WB符号化で定義され、および以下で想起されるHFゲイン量子化辞書である。
Figure 2016528539
ブロック407は、以下の式に従って、励起信号のスケーリングを実行する。
HB2(n)=gHBcorr(m)uHB1(n)、n=80m,・・・,80(m+1)−1
最後に、励起のエネルギーは、以下の条件(ブロック408)でのカレントサブフレームのレベルに調整される。以下が算出される。
Figure 2016528539
ここで、分子は、モード23.05で取得される高帯域信号エネルギーを表す。前に説明されたように、ビットレート<23.85キロビット/秒の場合、復号化された励起信号と拡張された励起信号uHB(n)との間のエネルギーのレベルを保持することが必要であるが、23.85キロビット/秒のビットレートのケースでは、uHB(n)がゲインgHB3(m)によってスケーリングされるため、この制約は、このケースでは必要ではない。二重乗算を回避するために、ブロック400で信号に適用される一定の乗算演算は、g(m)と乗算することによってブロック402で適用される。g(m)の値は、uHB(n)合成アルゴリズムに依存し、および低帯域における復号化された励起信号と信号g(m)uHB(n)との間のエネルギーレベルが保持されるように調整される必要がある。
図7を参照して後に詳細に説明される特定の実施形態では、g(m)=0.6gHB1(m)であり、gHB1(m)は、信号uHBに対し、サブフレームごとのエネルギーと信号u(n)に関するフレームごとのエネルギーとの間で同一の比率を保証するゲインであり、および0.6は、5000〜6400Hzのデエンファシスフィルタの平均周波数応答振幅値に相当する。
ブロック408では、低帯域信号のチルト上に情報が存在し、好ましい実施形態では、このチルトは、ブロック103および104に従ってAMR−WBコーデックにあるように算出されるが、本発明の原理を変更することなくチルトを評価する他の方法が可能であることが想定される。
fac(m)>1またはチルト<0の場合、
HB'(n)=uHB2(n)、n=80m,・・・,80(m+1)−1
が想定され、それ以外の場合、
Figure 2016528539
が想定される。
特にブロック401および402では、ここで説明される最適化スケール因子の算出は、多数の態様によるAMR−WB+コーデックで実行されるフィルタレベルの上述した等化と区別される。
・最適化スケール因子は、一時的フィルタリングを伴うことなくLPCフィルタの伝達関数から直接算出される。これは方法を簡易化する。
・低帯域と関連付けられたナイキスト周波数(6400Hz)とは異なる周波数において好ましくは等化が行われる。実際に、LPCモデリングは、リサンプリング動作によって典型的には生じる信号の減衰を黙示的に表し、したがってLPCフィルタの周波数応答は、選択された共通周波数までではないナイキスト周波数における減少の影響を受けることがある。
・ここで、等化は、等化されることになる2つのフィルタに加え、低次数(ここでは次数2の)フィルタに依存する。この追加フィルタによって、予測フィルタの周波数応答の算出のために共通周波数に存在することがある局所的スペクトル変動(最大値または最小値)の影響を回避することが可能になる。
ブロック403〜408に対し、本発明の利点は、本発明に従って23.85キロビット/秒において復号化された信号の品質が、AMR−WB復号器におけるケースではない、23.05キロビット/秒において復号化された信号と比較して改善されることである。実際に、本発明のこの態様によって、23.85キロビット/秒において受信される追加情報(0.8キロビット/秒)を使用することが可能になるが、制御された方式では(ブロック408)、23.85のビットレートにおいて拡張された励起信号の品質を改善することが可能になる。
図4のブロック401〜408によって示されるような最適化スケール因子を判定するデバイスは、図6を参照してここで説明される最適化スケール因子を判定する方法を実装する。
メインステップは、ブロック401によって実装される。
よって、拡張された励起信号uHB(n)は、低帯域と称される第1の周波数帯域で、励起信号、および例えば、第1の周波数帯域の線形予測フィルタの係数などの第1の周波数帯域のパラメータを復号化または抽出するステップを備える周波数帯域拡張方法E601において取得される。
ステップE602は、第1の周波数帯域の次数よりも低次数の、追加フィルタと称される線形予測フィルタを判定する。このフィルタを判定するために、復号化または抽出された第1の周波数帯域のパラメータが使用される。
一実施形態では、例えば2の、より低いフィルタ次数を取得するために低帯域の線形予測フィルタの伝達関数の打ち切りによってこのステップが実行される。次いで、図4を参照して前に説明されたような安定度基準に応じてそれらの係数を修正することができる。
よって、判定された追加フィルタの係数から、拡張された励起信号に適用されることになる最適化スケール因子を算出するために、ステップE603が実装される。この最適化スケール因子は例えば、低帯域(第1の周波数帯域)と高帯域(第2の周波数帯域)との間の共通周波数において、追加フィルタの周波数応答から算出される。このフィルタの周波数応答と低帯域および高帯域フィルタの応答との間で最小値を選択することができる。
したがって、これは、従来技術の方法に存在することがあったエネルギーの過大評価を回避する。
最適化スケール因子の算出のこのステップは、例えば、図4ならびに図5aおよび5bを参照して前に説明されている。
帯域拡張のためのブロック402または409によって実行される(復号化ビットレートに応じて)ステップE604は、正規に算出された最適化スケール因子を拡張された励起信号に適用して、最適に拡張された励起信号uHB'(n)を取得する。
特定の実施形態では、最適化スケール因子708を判定するデバイスは、図7を参照してここで説明される帯域拡張デバイスに組み込まれる。ブロック708によって示される最適化スケール因子を判定するこのデバイスは、図6を参照して前に説明された最適化スケール因子を判定する方法を実装する。
この実施形態では、図4の帯域拡張ブロック400は、ここで説明される図7のブロック700〜707を備える。
よって、帯域拡張デバイスの入力において、分析によって復号化または評価された低帯域励起信号が受信される(u(n))。ここでの帯域拡張は、図3のブロック302の出力において12.8kHzにおいて復号化された励起(exc2またはu(n))を使用する。
この実施形態では、オーバーサンプリングおよび拡張された励起の生成が、5〜8kHzの範囲にあり、よって第1の周波数帯域(0〜6.4kHz)を上回る第2の周波数帯域(6.4〜8kHz)を含む周波数帯域において実行される。
よって、拡張された励起信号の生成は、少なくとも第2の周波数帯域上で実行されるが、第1の周波数帯域の一部の上でも実行される。
明らかに、それらの周波数帯域を定義する値は、復号器または本発明が適用される処理デバイスに応じて異なってもよい。
この例示的な実施形態の場合、この信号は、時間−周波数変換モジュール500によって励起信号スペクトルU(k)を取得するために変換される。
特定の実施形態では、変換は、ウインドウ化なしで、20ミリ秒(256サンプル)のカレントフレーム上でDCT−IV(「離散コサイン変換」−タイプIVを表す)を使用し、それは以下の式に従ってn=0,・・・,255を有するu(n)を直接変換することになり、
Figure 2016528539
Nは256であり、およびkは、0,・・・,255である。
処理が信号領域においてではなく、励起領域において実行され、それによって、アーチファクトが聞こえなくなり(ブロック効果)、それは本発明のこの実施形態の重要な利点を構成するため、ウインドウ化なしの(または同様に、フレームの長さの黙示的な長方形ウインドウでの)変換が可能であることに留意するべきである。
この実施形態では、DCT−IV変換は、D.M.Zhang,H.T.Li,A Low Complexity Transform−Evolved DCT,IEEE 14th International Conference on Computational Science and Engineering(CSE),2011年8月,144〜149ページの論文によって説明され、およびITU−T標準G.718 Annex BおよびG.729.1 Annex Eにおいて実装されるいわゆる「発展型DCT(EDCT)」アルゴリズムに従ったFFTによって実装される。
本発明の変形形態では、および概念を失うことなく、DCT−IV変換は、FFT(「高速フーリエ変換」を表す)またはDCT−II(離散コサイン変換−タイプII)などの、同一の長さの、かつ励起領域における他の短期時間−周波数変換と置き換えられることが可能である。代わりに、変換によるフレーム上でのDCT−IVを、例えば、MDCT(「修正離散コサイン変換」を表す)を使用することによって、カレントフレームの長さよりも長い長さの重複−加算およびウインドウ化と置き換えることが可能である。このケースでは、図3のブロック310における遅延Tは、この変換による分析/合成に起因した追加遅延に応じて適切に調整(減少)される必要がある。
0〜6400Hz帯域をカバーする(12.8kHzにおいて)256のサンプルの、DCTスペクトルU(k)は次いで、以下の形式にある0〜8000Hz帯域をカバーする(16kHzにおいて)320のサンプルのスペクトルに拡張され(ブロック701)、
Figure 2016528539
そこでは、好ましくはstart_band=160とされる。
ブロック701は、オーバーサンプリングおよび拡張された励起信号を生成するモジュールとして動作し、ならびにサンプル(k=240,・・・,319)の1/4をスペクトルに追加することによって(16と12.8との間の比率は5/4である)、周波数領域における12.8〜16kHzでリサンプリングを実行する。
さらに、ブロック701は、UHB1(k)の最初の200のサンプルがゼロに設定されるため、0〜5000Hz帯域において黙示的なハイパスフィルタリングを実行し、後に説明されるように、このハイパスフィルタリングはまた、5000〜6400Hz帯域におけるインデックスk=200,・・・,255のスペクトル値の漸進的な減衰の一部によって補完され、この漸進的な減衰は、ブロック704において実装されるが、ブロック704の外部では別個に実行されてもよい。同様に、かつ本発明の変形形態では、変換された領域における減衰された係数k=200,・・・,255の、ゼロに設定されるインデックスk=0,・・・,199の係数のブロックに分離されるハイパスフィルタリングの実装形態は、したがって、単一のステップで実行されることが可能である。
この例示的な実施形態では、かつUHB1(k)の定義に従って、UHB1(k)(インデックスk=200,・・・,239に相当する)の5000〜6000Hz帯域は、U(k)の5000〜6000Hz帯域から複製されることに留意されたい。このアプローチによって、この帯域において元のスペクトルを保持し、およびLF合成にHF合成を追加するときの5000〜6000Hz帯域における歪みを生じさせることを回避することが可能になり、特に、この帯域における信号の位相(DCT−IV領域において黙示的に表される)が保持される。
ここで、UHB1(k)の6000〜8000Hz帯域は、start_bandの値が好ましくは160に設定されるため、U(k)の4000〜6000Hz帯域を複製することによって定義される。
実施形態の変形形態では、start_bandの値は、160の値の周囲で適応することが可能になる。start_band値の適応の詳細は、それらが本発明の枠組みを、その範囲を変更することなく超えるため、ここでは説明されない。
一定の広帯域信号(16kHzにおいてサンプリングされる)の場合、高帯域(6kHzを上回る)は、ノイズが入り、調波であり、またはノイズおよび調波の混合を含むことがある。さらに、6000〜8000Hz帯域における調波のレベルは概して、低周波数帯域のレベルと相関付けられる。よって、ノイズ生成ブロック702は、高周波数と称される第2の周波数帯域に相当する周波数領域UHBN(k)、k=240,・・・,319(80のサンプル)においてノイズ生成を実行して、次いで、ブロック703において、このノイズをスペクトルUHB1(k)と結合する。
特定の実施形態では、ノイズ(6000〜8000Hz帯域における)は、16ビット上の線形合同ジェネレータで疑似ランダムに生成され、
Figure 2016528539
上記規定では、カレントフレームにおけるUHBN(239)は、前のフレームの値UHBN(319)に相当する。本発明の変形形態では、このノイズ生成を他の方法によって置き換えることが可能である。
異なる方法で、結合ブロック703を作成することができる。好ましくは、以下の式の適応加法混合が考えられ、
HB2(k)=βUHB1(k)+αGHBNHBN(k)、k=240,・・・,319
HBNは、2つの信号の間のエネルギーのレベルを等化する役割を果たす正規化因子であり、
Figure 2016528539
ε=0.01であり、係数α(0と1との間)は、復号化された低帯域から評価されたパラメータに応じて調整され、および係数β(0と1との間)は、αに依存する。
好ましい実施形態では、ノイズのエネルギーは、3つの帯域、
Figure 2016528539
を有する2000〜4000Hz、4000〜6000Hzおよび6000〜8000Hzにおいて算出され、
Figure 2016528539
であり、N(k,k)は、インデックスkの集合であり、インデックスkに対して、インデックスkの係数が、ノイズと関連付けられるものとして分類される。この集合は、例えば、|U'(k)|≧|U'(k−1)|および|U'(k)|≧|U'(k+1)|を検証するU'(k)における局所的ピークを検出し、およびそれらの射線がノイズと関連付けられないことを考慮することによって、すなわち、(前の条件の否定を適用することによって)
N(a,b)={a≦k≦b||U'(k)|<|U'(k−1)|または|U'(k)|<|U'(k+1)|}
取得されてもよい。
例えば、考えられる帯域上のスペクトルの中間値をとることによって、または帯域ごとのエネルギーを算出する前に、各々の周波数の射線に平滑化を適用することによって、ノイズのエネルギーを算出する他の方法が可能であることに留意されたい。
αは、4〜6kHzおよび6〜8kHz帯域におけるノイズのエネルギーの間の比率が、2〜4kHzおよび4〜6kHz帯域の間と同一であるように設定され、
Figure 2016528539
であり、
Figure 2016528539
である。
本発明の変形形態では、αの算出は、他の方法によって置き換えられることが可能である。例えば、変形形態では、AMR−WBコーデックにおいて算出されるのと同様の「チルト」パラメータを含む、低帯域における信号を特徴付ける異なるパラメータ(または「特徴」)を抽出(算出)することが可能であり、および因子αは、0と1との間のその値を制限することによってそれらの異なるパラメータから線形回帰に応じて評価される。線形回帰は、例えば、学習に基づく元の高帯域を交換することによる因子αを評価することによって、指揮された方式で評価されることが可能である。αが算出される方法は、本発明の本質を限定しないことに留意されたい。
好ましい実施形態では、混合の後に拡張された信号のエネルギーを保持するために、
Figure 2016528539
がとられる。
変形形態では、因子βおよびαは、信号の所与の帯域に入り込むノイズが概して、同一の帯域における同一のエネルギーを有する調波信号よりも強いとして知覚される事実を考慮するように適合されることが可能である。よって、以下のように、因子βおよびαを修正することが可能であり、
β←β.f(α)
α←α.f(α)
f(α)は、αの減少関数であり、例えば、
Figure 2016528539
であり、b=1.1、α=1.2であり、f(α)は、0.3〜1に制限される。f(α)との乗算の後に、信号UHB2(k)=βUHB1(k)+αGHBNHBN(k)のエネルギーがUHB1(k)のエネルギーよりも低くなるように(エネルギー差はαに依存し、ノイズがさらに追加されると、エネルギーはさらに減衰する)、α+β<1となることに留意するべきである。
本発明の他の変形形態では、
β=1−α
をとることが可能であり、それによって、振幅レベルを保持することが可能であるが(結合された信号が同一の兆候の信号であるとき)、この変形形態は、αに応じて単調にならない、全体的なエネルギー(UHB2(k)のレベルにおける)をもたらすという欠点を有する。
したがって、ここでは、ブロック703は、励起に応じてホワイトノイズを正規化する、図1のブロック101と均等な内容を実行し、一方で、励起は、周波数領域において、16kHzの速度で既に拡張されており、さらに混合は6000〜8000Hz帯域に制限されることに留意するべきである。
単一の変形形態では、ブロック703の実装形態を考慮することが可能であり、そこでは、αに対して値0または1のみを許可することになる、スペクトルUHB1(k)またはGHBNHBN(k)が適応的に選択され(切り替えられ)、このアプローチは、6000〜8000Hz帯域において生成されることになる励起のタイプを分類することになる。
ブロック704は、周波数領域においてバンドパスフィルタ周波数応答およびデエンファシスフィルタリングの適用の二重動作を任意選択で実行する。
本発明の変形形態では、デエンファシスフィルタリングは、ブロック705の後、さらにはブロック700の前で、時間領域において実行されることが可能であるが、しかしながら、このケースでは、ブロック704において実行されるバンドパスフィルタリングは、復号化された低帯域をわずかに知覚可能な方式で修正することができる、デエンファシスによって増幅される超低レベルの一定の低周波数成分をそのままとすることがある。その理由として、ここでは、周波数領域においてデエンファシスを実行することが好ましいからである。好ましい実施形態では、インデックスk=0,・・・,199の係数はゼロに設定され、よってデエンファシスはより高い係数に制限される。
励起は、以下の式に従って最初にデエンファシスされ、
Figure 2016528539
deemph(k)は、制限された離散周波数帯域上でのフィルタ1/(1−0.68z−1)の周波数応答である。DCT−IVの離散(奇数)周波数を考慮することによって、Gdeemph(k)はここでは以下のように定義され、
Figure 2016528539
Figure 2016528539
である。
DCT−IV以外の変換が使用されるケースでは、θの定義が調整されることが可能である(例えば、偶数周波数に対し)。
5000〜6400Hz周波数帯域に相当する2つの位相、k=200,・・・,255にデエンファシスが適用され、応答1/1(1−0.68z−1)が12.8kHzにおいて、および、6400〜8000Hz周波数帯域に相当するk=256,・・・,319に対して適用され、ここでは、応答が16kHzから6.4〜8kHz帯域における一定値に拡張されることに留意するべきである。
AMR−WBコーデックでは、HF合成がデエンファシスされないことに留意されたい。
ここで提示される実施形態では、一方で、高周波数信号がデエンファシスされて、それを、図3のブロック305を出る低周波数信号(0〜6.4kHz)と一致する領域に持ち込む。これは、HF合成のエネルギーの評価および後続の調整に対して重要である。
実施形態の変形形態では、複雑度を低減させるために、例えば、上記説明された実施形態の条件におけるGdeemph(k)、k=200,・・・,319の平均値に大凡相当するGdeemph(k)=0.6をとることによって、kとは独立した一定値にGdeemph(k)を設定することが可能である。
拡張デバイスの実施形態の別の変形形態では、逆DCTの後に時間領域において均等な方式で、デエンファシスが実行されることが可能である。
デエンファシスに加え、1つがハイパス、固定、その他がローパス、適応的(ビットレートの関数)、の2つの部分でバンドパスフィルタリング適用される。
このフィルタリングは、周波数領域において実行される。
好ましい実施形態では、ローパスフィルタ部分応答は、以下のように周波数領域において算出され、
Figure 2016528539
lpは、6.6キロビット/秒においては60、8.85キロビット/秒においては40、およびビットレート>8.85ビット/秒においては20である。
次いで、
Figure 2016528539
の形式で、バンドパスフィルタが適用される。
hp(k)、k=0,・・・,55の定義は、例えば、以下の表2において与えられる。
Figure 2016528539
本発明の変形形態では、Ghp(k)の値は、漸次的な減衰を維持する間に修正されることが可能であることに留意されたい。同様に、可変帯域幅Glp(k)を有するローパスフィルタリングは、このフィルタリングステップの原理を変更することなく、異なる値または周波数の中間(medium)で調整されることが可能である。
ハイパスおよびローパスフィルタリングを組み合わせる単一のフィルタリングステップを定義することによって、バンドパスフィルタリングが適応されることが可能であることにも留意されたい。
別の実施形態では、バンドパスフィルタリングは、逆DCTステップの後に、ビットレートに従った異なるフィルタ係数を有する時間領域における(図1のブロック112にあるように)均等な方式で実行されることが可能である。しかしながら、フィルタリングがLPC励起の領域で実行され、よって、巡回畳み込み、およびエッジ効果の問題がこの領域において非常に限定されるため、このステップを周波数領域において直接実行することが有利である。
また、23.85キロビット/秒ビットレートのケースでは、励起HB2(k)のデエンファシスは、補正ゲインがAMR−WB符号器において算出される方法との一致を維持するため、および二重乗算を回避するために実行されない。このケースでは、ブロック704は、ローパスフィルタリングのみを実行する。
逆変換ブロック705は、16kHzにおいてサンプリングされた高周波数励起を発見するために320のサンプル上で逆DCTを実行する。その実装形態はブロック700と同様であり、なぜならば、変換の長さが256の代わりに320であることを除いて、DCT−IVが正規直交しており、および以下が取得されるからであり、
Figure 2016528539
16k=320であり、k=0,・・・,319である。
16kHzにおいてサンプリングされたこの励起は、次いで、任意選択で、80のサンプルのサブフレームごとに定義されたゲインによってスケーリングされる(ブロック707)。
好ましい実施形態では、ゲインgHB1(m)は、サブフレームのエネルギー比によってサブフレームごとに最初に算出され(ブロック706)、それによって、カレントフレームのインデックスm=0、1、2または3の各々のサブフレームにおいて、
Figure 2016528539
となり、
Figure 2016528539
ε=0.01である。サブフレームgHB1(m)ごとのゲインは、信号uHBにおいて、サブフレームごとのエネルギーと信号u(n)にあるようにフレームごとのエネルギーとの間の同一の比率が保証されることを示す
Figure 2016528539
の形式で書き込まれる。
ブロック707は、以下の式に従って、結合された信号のスケーリングを実行する。
HB(n)=gHB1(m)uHB0(n)、n=80m,・・・,80(m+1)−1
ブロック706の実装形態は、図1のブロック101の実装形態とは異なり、なぜならば、カレントフレームにおけるエネルギーのレベルが、サブフレームのレベルに加えて考慮されるからである。これによって、フレームのエネルギーに関連して各々のサブフレームのエネルギーの比率を有することが可能になる。したがって、低帯域と高帯域との間の絶対エネルギーよりもエネルギー比(または相対エネルギー)が比較される。
よって、このスケーリングステップによって、高帯域において、低帯域にあるのと同一の方法で、サブフレームとフレームとの間のエネルギー比を維持することが可能になる。
ここでは、23.85キロビット/秒ビットレートのケースでは、ゲインgHB1(m)が算出されるが、二重乗算を回避するために、図4を参照して説明されるように、次のステップにおいてゲインgHB1(m)が適用される。このケースでは、uHB(n)=uHB0(n)である。
本発明に従って、次いで、ブロック708は、図6を参照して前に説明され、ならびに図4および5において詳述されたように、信号のサブフレームごとのスケール因子算出を実行する(図6のステップE602〜E603)。
最後に、補正された励起HB'(n)は、伝達関数
Figure 2016528539
として見なすことによって、ここで実行することができるフィルタリングモジュール710によってフィルタリングされ、6.6キロビット/秒においてγ=0.9であり、および他のビットレートにおいてγ=0.6であり、それは、フィルタの次数を次数16に制限する。
変形形態では、このフィルタリングは、AMR−WB復号器の図1のブロック111に対して説明されたのと同一の方法で実行されることが可能であるが、フィルタの次数は、6.6ビットレートにおいては20に変化し、それは、合成信号の品質を著しく変化させるものではない。別の変形形態では、ブロック710で実装されるフィルタの周波数応答を算出した後、周波数領域においてLPC合成フィルタリングを実行することが可能である。
変形形態では、第2の周波数帯域に対する線形予測フィルタ710によるフィルタリングのステップは、処理の複雑度を低減させることが可能な最適化スケール因子の適用と組み合わされる。よって、フィルタリング
Figure 2016528539
および最適化スケール因子gHB2の適用のステップは、処理の複雑度を低減させるために、フィルタリング
Figure 2016528539
の単一のステップにおいて組み合わされる。
本発明の変形形態では、低帯域(0〜6.4kHz)の符号化は、例えば、8キロビット/秒におけるG.718でのCELP符号器などの、AMR−WBで使用される以外のCELP符号器によって置き換えられることが可能である。概念を失うことなく、他の広帯域符号器、または低帯域の符号化が12.8kHzにおいて内部周波数で動作する、16kHzを上回る周波数において動作する符号器が使用されてもよい。さらに、本発明は、低周波数符号器が、元の信号または再構築された信号の周波数よりも低いサンプリング周波数で動作するとき、12.8kHz以外の周波数をサンプリングするように明確に適合されてもよい。低帯域復号化が線形予測を使用しないとき、拡張されることになる励起信号が存在せず、そのケースでは、カレントフレームにおいて再構築された信号のLPC分析を実行することが可能であり、およびLPC励起は、本発明を適用することが可能なように算出される。
最後に、本発明の別の変形形態では、例えば、長さ320の変換(例えば、DCT−IV)の前に12.8kHz〜16kHzで、線形補間または三次「スプライン」によって、励起(u(n))がリサンプリングされる。この変形形態は、励起の変換(DCT−IV)が次いで、さらなる長さ上で算出され、およびリサンプリングが変換領域で実行されないため、より複雑になる欠点を有する。
さらに、本発明の変形形態では、ゲイン(GHBN,gHB1(m),gHB2(m),gHBN,・・・)の評価に必要な全ての算出は、対数領域で実行されることが可能である。
帯域拡張の変形形態では、低帯域u(n)における励起およびLPCフィルタ
Figure 2016528539
は、それに対して帯域が拡張される必要がある低帯域信号のLPC分析によって、フレームごとに評価される。次いで、低帯域励起信号は、音声信号の分析によって抽出される。
この変形形態の可能な実施形態では、音声信号から抽出された励起(線形予測によって)が既にリサンプリングされるように、励起を抽出するステップの前に低帯域音声信号がリサンプリングされる。
図7で示された帯域拡張は、このケースでは、復号化されないが分析される低帯域に適用される。
図8は、本発明に従って最適化スケール因子800を判定するデバイスの例示的な物理的な実施形態を示す。後者は、音声周波数信号復号器、または復号化され、もしくは復号化されていない音声周波数信号を受信する設備機器の一体部分を形成することができる。
このタイプのデバイスは、記憶装置および/または作業メモリMEMを備えたメモリブロックBMと協働するプロセッサPROCを備える。
そのようなデバイスは、低帯域(u(n)またはU(k))と称される第1の周波数帯域において復号化または抽出された励起音声信号、および線形予測合成フィルタ
Figure 2016528539
のパラメータを受信するのに適切な入力モジュールEを備える。それは、合成および最適化された高周波数信号(uHB'(n))を、例えば、図7のブロック710のようなフィルタリングモジュールまたは図3のモジュール311のようなリサンプリングモジュールに送信するのに適切な出力モジュールSを備える。
有利なことに、メモリブロックは、コード命令を備えたコンピュータプログラムを備え、それらの命令がプロセッサPROCによって実行されるとき、命令は、本発明の意義の中で励起信号またはフィルタに適用されることになる最適化スケール因子を判定する方法のステップ、ならびに、特に、第1の周波数帯域の線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタ、第1の周波数帯域から復号化または抽出されたパラメータから取得される追加フィルタの係数を判定するステップ(E602)、および追加フィルタの係数に少なくとも応じて最適化スケール因子を算出するステップ(E603)を実行する。
典型的に、図6の説明は、そのようなコンピュータプログラムのアルゴリズムのステップを繰り返す。また、デバイスの読取機によって読み取ることが可能であり、またはそのメモリ空間にダウンロードすることが可能なメモリ媒体にコンピュータプログラムを記憶することができる。
メモリMEMは概して、方法の実装に必要な全てのデータを記憶する。
可能な実施形態では、説明されたデバイスはまた、拡張された励起信号への最適化スケール因子の適用、周波数帯域拡張の適用、低帯域復号化の適用のための機能、ならびに本発明に従った最適化スケール因子判定機能に加え、例えば、図3および4において説明された他の処理機能を備えることができる。

Claims (11)

  1. 音声周波数信号周波数帯域拡張方法において励起信号またはフィルタに適用されることになる最適化スケール因子を判定する方法であって、前記帯域拡張方法は
    第1の周波数帯域において、励起信号、および線形予測フィルタの係数を備えた前記第1の周波数帯域のパラメータを復号化または抽出するステップと、
    少なくとも1つの第2の周波数帯域上で、拡張された励起信号を生成するステップと、
    線形予測フィルタによって、前記第2の周波数帯域をフィルタリングするステップと
    を備える、前記判定する方法において、
    − 前記第1の周波数帯域の前記線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するステップであって、前記追加フィルタの係数は、前記第1の周波数帯域から復号化または抽出された前記パラメータから取得される、ステップと、
    − 前記追加フィルタの前記係数に少なくとも応じて、前記最適化スケール因子を算出するステップと
    を備えることを特徴とする方法。
  2. 前記帯域拡張方法は、前記最適化スケール因子を前記拡張された励起信号に適用するステップを備えることを特徴とする請求項1に記載の方法。
  3. 前記最適化スケール因子を適用する前記ステップは、前記第2の周波数帯域においてフィルタリングするステップと組み合わされることを特徴とする請求項2に記載の方法。
  4. 前記追加フィルタの前記係数は、低次数を取得するために前記第1の周波数帯域の前記線形予測フィルタの伝達関数の打ち切りによって取得されることを特徴とする請求項1に記載の方法。
  5. 前記追加フィルタの前記係数は、前記追加フィルタの安定度基準に応じて修正されることを特徴とする請求項4に記載の方法。
  6. 前記最適化スケール因子を算出する前記ステップは、
    − 共通周波数に対する前記第1および第2の周波数帯域の前記線形予測フィルタの周波数応答を算出するステップと、
    − 前記共通周波数に対する前記追加フィルタの前記周波数応答を算出するステップと、
    − 前記正規に算出された周波数応答に応じて、前記最適化スケール因子を算出するステップと
    を備えることを特徴とする請求項1に記載の方法。
  7. 予め定められた復号化ビットレートに対して実装される、以下のステップ:
    − 前記復号化された励起信号と前記拡張された励起信号との間のエネルギー比に応じて、サブフレームごとに算出されたゲインによって、前記拡張された励起信号をスケーリングする第1のステップと、
    − 復号化された補正ゲインによって前記スケーリングする第1のステップから取得された前記励起信号をスケーリングする第2のステップと、
    − 前記スケーリングする第2のステップの後に取得された前記信号のエネルギーに応じて、および前記最適化スケール因子を適用するステップの後に取得された前記信号に応じて、算出された調整因子によって、カレントサブフレームに対する励起のエネルギーを調整するステップと
    をさらに備えることを特徴とする請求項1に記載の方法。
  8. 音声周波数信号周波数帯域拡張デバイスにおいて励起信号またはフィルタに適用されることになる最適化スケール因子を判定するデバイスであって、前記帯域拡張デバイスは
    第1の周波数帯域において、励起信号、および線形予測フィルタの係数を備えた前記第1の周波数帯域のパラメータを復号化または抽出するモジュールと、
    少なくとも1つの第2の周波数帯域上で、拡張された励起信号を生成するモジュールと、
    線形予測フィルタによって、前記第2の周波数帯域をフィルタリングするモジュールと
    を備える、前記判定するデバイスにおいて、
    − 前記第1の周波数帯域の前記線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するモジュールであって、前記追加フィルタの係数は、前記第1の周波数帯域から復号化または抽出された前記パラメータから取得される、モジュールと、
    − 前記追加フィルタの前記係数に少なくとも応じて、前記最適化スケール因子を算出するモジュールと
    を備えることを特徴とするデバイス。
  9. 請求項8に記載の最適化スケール因子を判定するデバイスを備えることを特徴とする音声周波数信号復号器。
  10. プロセッサによって命令が実行されるときに、請求項1〜7のいずれか一項に記載の最適化スケール因子を判定する方法のステップを実行するコード命令を備えるコンピュータプログラム。
  11. 請求項1〜7のいずれか一項に記載の最適化スケール因子を判定する方法のステップを実行するためのコード命令を備えるコンピュータプログラムを記憶している、最適化スケール因子を判定するデバイスによって読み取ることが可能な記憶媒体。
JP2016524867A 2013-07-12 2014-07-04 音声周波数信号復号器における周波数帯域拡張のため最適化スケール因子 Active JP6487429B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1356909 2013-07-12
FR1356909A FR3008533A1 (fr) 2013-07-12 2013-07-12 Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
PCT/FR2014/051720 WO2015004373A1 (fr) 2013-07-12 2014-07-04 Facteur d'échelle optimisé pour l'extension de bande de fréquence dans un décodeur de signaux audiofréquences

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP2017145792A Division JP6515147B2 (ja) 2013-07-12 2017-07-27 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2017175592A Division JP6515157B2 (ja) 2013-07-12 2017-09-13 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2017175593A Division JP6515158B2 (ja) 2013-07-12 2017-09-13 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置

Publications (3)

Publication Number Publication Date
JP2016528539A JP2016528539A (ja) 2016-09-15
JP2016528539A5 true JP2016528539A5 (ja) 2017-10-26
JP6487429B2 JP6487429B2 (ja) 2019-03-20

Family

ID=49753286

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2016524867A Active JP6487429B2 (ja) 2013-07-12 2014-07-04 音声周波数信号復号器における周波数帯域拡張のため最適化スケール因子
JP2017145792A Active JP6515147B2 (ja) 2013-07-12 2017-07-27 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2017175593A Active JP6515158B2 (ja) 2013-07-12 2017-09-13 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2017175592A Active JP6515157B2 (ja) 2013-07-12 2017-09-13 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2017145792A Active JP6515147B2 (ja) 2013-07-12 2017-07-27 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2017175593A Active JP6515158B2 (ja) 2013-07-12 2017-09-13 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2017175592A Active JP6515157B2 (ja) 2013-07-12 2017-09-13 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置

Country Status (11)

Country Link
US (8) US10446163B2 (ja)
EP (1) EP3020043B1 (ja)
JP (4) JP6487429B2 (ja)
KR (4) KR102343019B1 (ja)
CN (4) CN107527629B (ja)
BR (4) BR122017018553B1 (ja)
CA (4) CA2917795C (ja)
FR (1) FR3008533A1 (ja)
MX (1) MX354394B (ja)
RU (4) RU2751104C2 (ja)
WO (1) WO2015004373A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
CN103928029B (zh) * 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US10681486B2 (en) * 2017-10-18 2020-06-09 Htc Corporation Method, electronic device and recording medium for obtaining Hi-Res audio transfer information
TWI834582B (zh) * 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
CN110660409A (zh) * 2018-06-29 2020-01-07 华为技术有限公司 一种扩频的方法及装置
JP7562554B2 (ja) * 2019-04-03 2024-10-07 ドルビー ラボラトリーズ ライセンシング コーポレイション スケーラブル音声シーンメディアサーバ
CN115136236A (zh) * 2020-02-25 2022-09-30 索尼集团公司 信号处理装置、信号处理方法和程序
RU2747368C1 (ru) * 2020-07-13 2021-05-04 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ мониторинга и управления информационной безопасностью подвижной сети связи
CN114333856B (zh) * 2021-12-24 2024-08-02 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统

Family Cites Families (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1239456A1 (en) * 1991-06-11 2002-09-11 QUALCOMM Incorporated Variable rate vocoder
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE502244C2 (sv) * 1993-06-11 1995-09-25 Ericsson Telefon Ab L M Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation
JP3189614B2 (ja) * 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
US6002352A (en) * 1997-06-24 1999-12-14 International Business Machines Corporation Method of sampling, downconverting, and digitizing a bandpass signal using a digital predictive coder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
US7353168B2 (en) * 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
EP1440432B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
WO2005036527A1 (ja) * 2003-10-07 2005-04-21 Matsushita Electric Industrial Co., Ltd. スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
US7949057B2 (en) * 2003-10-23 2011-05-24 Panasonic Corporation Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1721312B1 (en) * 2004-03-01 2008-03-26 Dolby Laboratories Licensing Corporation Multichannel audio coding
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006103488A1 (en) * 2005-03-30 2006-10-05 Nokia Corporation Source coding and/or decoding
AU2006232362B2 (en) * 2005-04-01 2009-10-08 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
TR201821299T4 (tr) * 2005-04-22 2019-01-21 Qualcomm Inc Kazanç faktörü yumuşatma için sistemler, yöntemler ve aparat.
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
EP1989706B1 (fr) * 2006-02-14 2011-10-26 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
KR100905585B1 (ko) * 2007-03-02 2009-07-02 삼성전자주식회사 음성신호의 대역폭 확장 제어 방법 및 장치
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
PT2313887T (pt) * 2008-07-10 2017-11-14 Voiceage Corp Dispositivo e método de quantificação de filtro de lpc de taxa de bits variável e quantificação inversa
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
PL2491556T3 (pl) * 2009-10-20 2024-08-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder sygnału audio, odpowiadający mu sposób oraz program komputerowy
CA2683983A1 (en) 2009-10-21 2011-04-21 Carbon Solutions Inc. Stabilization and remote recovery of acid gas fractions from sour wellsite gas
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN102044250B (zh) * 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
US8380524B2 (en) * 2009-11-26 2013-02-19 Research In Motion Limited Rate-distortion optimization for advanced audio coding
US8455888B2 (en) * 2010-05-20 2013-06-04 Industrial Technology Research Institute Light emitting diode module, and light emitting diode lamp
RU2552184C2 (ru) * 2010-05-25 2015-06-10 Нокиа Корпорейшн Устройство для расширения полосы частот
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
PL2791937T3 (pl) * 2011-11-02 2016-11-30 Wytworzenie rozszerzenia pasma wysokiego sygnału dźwiękowego o poszerzonym paśmie
US9589576B2 (en) * 2011-11-03 2017-03-07 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of audio signals
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
CN102930872A (zh) * 2012-11-05 2013-02-13 深圳广晟信源技术有限公司 用于宽带语音解码中基音增强后处理的方法及装置
KR101775084B1 (ko) * 2013-01-29 2017-09-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
JP2017145792A (ja) 2016-02-19 2017-08-24 株式会社ケーヒン インテークマニホールドにおけるセンサ取付構造
RU2636700C1 (ru) * 2016-03-18 2017-11-27 Акционерное общество "Лаборатория Касперского" Способ устранения уязвимостей устройств, имеющих выход в Интернет
TWI596952B (zh) * 2016-03-21 2017-08-21 固昌通訊股份有限公司 耳道式耳機

Similar Documents

Publication Publication Date Title
JP6515158B2 (ja) 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
JP2016528539A5 (ja)
US11325407B2 (en) Frequency band extension in an audio signal decoder