[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6258522B2 - デバイスにおいてコーディング技術を切り替える装置および方法 - Google Patents

デバイスにおいてコーディング技術を切り替える装置および方法 Download PDF

Info

Publication number
JP6258522B2
JP6258522B2 JP2016559604A JP2016559604A JP6258522B2 JP 6258522 B2 JP6258522 B2 JP 6258522B2 JP 2016559604 A JP2016559604 A JP 2016559604A JP 2016559604 A JP2016559604 A JP 2016559604A JP 6258522 B2 JP6258522 B2 JP 6258522B2
Authority
JP
Japan
Prior art keywords
frame
encoder
audio signal
signal
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016559604A
Other languages
English (en)
Other versions
JP2017511503A (ja
JP2017511503A5 (ja
Inventor
アッティ、ベンカトラマン・エス.
クリシュナン、ベンカテシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2017511503A publication Critical patent/JP2017511503A/ja
Publication of JP2017511503A5 publication Critical patent/JP2017511503A5/ja
Application granted granted Critical
Publication of JP6258522B2 publication Critical patent/JP6258522B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

優先権の主張
本出願は、その内容全体が参照により組み込まれる、2015年3月27日に出願された「SYSTEMS AND METHODS OF SWITCHING CODING TECHNOLOGIES AT A DEVICE」と題する米国出願第14/671,757号および2014年3月31日に出願された「SYSTEMS AND METHODS OF SWITCHING CODING TECHNOLOGIES AT A DEVICE」と題する米国仮出願第61/973,028号の優先権を主張する。
本開示は、一般に、デバイスにおいてコーディング技術を切り替えることに関する。
[0003]技術の進歩により、コンピューティングデバイスは、より小型でより強力になった。たとえば、現在、小型で、軽量で、ユーザが容易に持ち運べる、ポータブルワイヤレス電話、携帯情報端末(PDA)、およびページングデバイスなど、ワイヤレスコンピューティングデバイスを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。より具体的には、セルラー電話およびインターネットプロトコル(IP)電話などのポータブルワイヤレス電話が、ワイヤレスネットワークを介して音声とデータパケットとを通信することができる。さらに、多くのそのようなワイヤレス電話は、その中に組み込まれた他のタイプのデバイスを含む。たとえば、ワイヤレス電話は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤを含むこともできる。
[0004]ワイヤレス電話は、人間の音声(voice)(たとえばスピーチ)を表す信号を送り、また受信する。デジタル技法による音声の送信は、特に長距離およびデジタル無線電話用途において普及している。再構成されたスピーチの知覚品質を維持しながらチャネルを介して送られ得る情報の最小量を決定することが重要であり得る。スピーチがサンプリングおよびデジタル化によって送信される場合、64キロビット毎秒(kbps)程度のデータレートが、アナログ電話のスピーチ品質を達成するために使用され得る。スピーチ分析の使用に、受信機におけるコーディング、送信、および再合成が続くことにより、データレートのかなりの低減が達成され得る。
[0005]スピーチを圧縮するためのデバイスが、電気通信の多数の分野で用途を見出し得る。例示的な分野はワイヤレス通信である。ワイヤレス通信の分野は、たとえば、コードレス電話、ページング、ワイヤレスローカルループ、セルラー電話システムおよびパーソナル通信サービス(PCS)電話システムなどのワイヤレス電話、モバイルIP電話、ならびに衛星通信システムを含む、多くの適用例を有する。特定的な用途が、モバイル加入者用のワイヤレス電話である。
[0006]様々なオーバージエアインターフェースが、たとえば、周波数分割多元接続(FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、および時分割同期CDMA(TD−SCDMA)を含むワイヤレス通信システム用に開発されてきた。これらのインターフェースに関連して、たとえば、先進移動電話サービス(AMPS)、モバイル通信用グローバルシステム(GSM(登録商標))、およびインテリムスタンダード95(IS−95)などを含む様々な国内および国際標準が策定されている。例示的なワイヤレス電話通信システムがCDMAシステムである。IS−95規格およびその派生規格、IS−95A、米国規格協会(ANSI)J−STD−008、およびIS−95B(本明細書ではまとめてIS−95と呼ばれる)は、セルラーまたはPCS電話通信システムのためのCDMAオーバージエアインターフェースの使用法を指定するために、米国電気通信工業会(TIA)および他の規格団体によって公表されている。
[0007]IS−95規格は後に、より大容量で高速なパケットデータサービスを提供する、cdma2000および広帯域CDMA(WCDMA(登録商標))などの「3G」システムへと進化した。cdma2000の2つの変形形態が、TIAによって発行されているドキュメントIS−2000(cdma2000 1xRTT)およびIS−856(cdma2000 1xEV−DO)に示されている。cdma2000 1xRTT通信システムは153kbpsのピークデータレートを提供するのに対し、cdma2000 1xEV−DO通信システムは、38.4kbps〜2.4Mbpsの範囲のデータレートのセットを規定する。WCDMA規格は、第3世代パートナーシッププロジェクト「3GPP(登録商標)」、ドキュメント番号3G TS 25.211、3G TS 25.212、3G TS 25.213、および3G TS 25.214に包含されている。国際モバイル電気通信アドバンスト(IMT−Advanced)仕様は、「4G」規格を示している。IMT−アドバンスト仕様は、4Gサービスのピークデータレートを高モビリティ通信(たとえば、列車および車から)に対しては100メガビット毎秒(Mbit/s)に、低モビリティ通信(たとえば、歩行者および静止ユーザから)に対しては1ギガビット毎秒(Gbit/s)に設定している。
[0008]人間のスピーチ生成のモデルに関するパラメータを抽出することによってスピーチを圧縮する技法を用いるデバイスは、スピーチコーダと呼ばれる。スピーチコーダは、エンコーダとデコーダとを含み得る。エンコーダは、着信スピーチ信号を、時間のブロック、または分析フレームに分割する。時間(または「フレーム」)における各セグメントの持続時間は、信号のスペクトルエンベロープが比較的定常のままであることが予想され得るほど十分に短くなるように選択され得る。たとえば、特定の適用例に好適と見なされる任意のフレーム長またはサンプリングレートが使用され得るが、1つのフレーム長は20ミリ秒であり、それは、8キロヘルツ(kHz)のサンプリングレートで160個のサンプルに対応する。
[0009]エンコーダは、着信スピーチフレームを分析していくつかの関連するパラメータを抽出し、次いで、それらのパラメータを、2進表現に、たとえば、ビットのセットまたはバイナリデータパケットに量子化する。データパケットは、通信チャネル(たとえば、ワイヤードおよび/またはワイヤレスネットワーク接続)を介して受信機およびデコーダに送信される。デコーダは、データパケットを処理し、それらの処理されたデータパケットを逆量子化してパラメータを生成し、逆量子化されたパラメータを使用してスピーチフレームを再合成する。
[0010]スピーチコーダの機能は、スピーチに内在する固有の冗長性を除去することによって、デジタル化されたスピーチ信号を低ビットレート信号へと圧縮することである。デジタル圧縮は、入力スピーチフレームをパラメータのセットで表し、量子化を用いてそれらのパラメータをビットのセットで表すことによって達成され得る。入力スピーチフレームがビット数Niを有し、スピーチコーダによって生成されたデータパケットがビット数Noを有する場合、スピーチコーダによって達成される圧縮係数はCr=Ni/Noである。問題は、ターゲットの圧縮係数を達成しながら、復号スピーチの高度な音声品質を保つことである。スピーチコーダの性能は、(1)スピーチモデル、または上述した分析および合成プロセスの組合せがいかに良好に働くか、ならびに(2)パラメータ量子化プロセスが1フレーム毎にNoビットのターゲットビットレートでいかに良好に実施されるかに依存する。スピーチモデルの目標はしたがって、フレームごとにパラメータの小さなセットを用いて、スピーチ信号の本質またはターゲットの音声品質を捕捉することである。
[0011]スピーチコーダは一般に、スピーチ信号を記述するためにパラメータ(ベクトルを含む)のセットを利用する。パラメータの良好なセットは理想的には、知覚的に正確なスピーチ信号の再構成のために、低いシステム帯域幅をもたらす。ピッチ、信号電力、スペクトルエンベロープ(またはホルマント)、振幅および位相スペクトルは、スピーチコーディングパラメータの例である。
[0012]スピーチコーダは、スピーチの小セグメント(たとえば、5ミリ秒(ms)のサブフレーム)を一度に符号化するために高時間分解能(high time-resolution)の処理を用いることによって時間領域のスピーチ波形を捕捉することを試行する時間領域コーダとして実装され得る。サブフレームごとに、コードブック空間からの高精度代表が探索アルゴリズムによって発見される。代替的に、スピーチコーダは、パラメータのセットを用いて入力スピーチフレームの短期間スピーチスペクトルを捕捉し(分析)、スペクトルパラメータからスピーチ波形を再生成するために対応する合成プロセスを用いることを試行する周波数領域コーダとして実装され得る。パラメータ量子化器は、既知の量子化技法に従って、コードベクトルの記憶された表現を用いてパラメータを表すことによって、パラメータを保存する。
[0013]ある時間領域スピーチコーダは、符号励振線形予測(CELP:Code Excited Linear Predictive)コーダである。CELPコーダでは、スピーチ信号における短期間の相関または冗長性が、短期間ホルマントフィルタの係数を発見する線形予測(LP)分析によって除去される。短期間予測フィルタを着信スピーチフレームに適用することにより、LP残差信号が生成され、このLP残差信号は、長期間予測フィルタパラメータと後続のストキャスティックコードブックを用いてさらにモデル化および量子化される。このようにして、CELPコーディングは、時間領域のスピーチ波形を符号化するタスクを、別々のLP短期間フィルタ係数を符号化するタスクとLP残差を符号化するタスクとに分割する。時間領域コーディングは、固定レートで(たとえば、各フレームに対して同じビット数Noを使用して)または可変レートで(異なるタイプのフレームコンテンツに対して異なるビットレートが使用される)実施され得る。可変レートコーダは、ターゲットの品質を得るのに適切なレベルにコーデックパラメータを符号化するのに必要な量のビットを使用することを試行する。
[0014]CELPコーダなどの時間領域コーダは、時間領域のスピーチ波形の精度を保存するために、フレーム当たりの高ビット数N0に依存し得る。そのようなコーダは、フレーム当たりのビット数Noが比較的多ければ(たとえば、8kbps以上)、優れたボイス品質を提供し得る。低ビットレート(たとえば、4kbps以下)では、時間領域コーダは、利用可能なビットの数が限られることが原因で、高品質およびロバストな性能を維持することに失敗し得る。低ビットレートでは、限られたコードブック空間は、より高いレートの商用アプリケーションで配備される時間領域コーダの波形マッチング能力を制限する。したがって、長い間の改善にもかかわらず、低ビットレートで動作する多くのCELPコーディングシステムは、雑音として特徴付けられる、知覚的に顕著なひずみを伴うという欠点がある。
[0015]低ビットレートにおけるCELPコーダに対する代替物は、CELPコーダと同様の原理で動作する「雑音励振線形予測」(NELP)コーダである。NELPコーダは、スピーチをモデル化するために、コードブックではなく、フィルタ処理された疑似ランダム雑音信号を使用する。NELPは、コード化されたスピーチに対して、より単純なモデルを使用するので、NELPは、CELPよりも低いビットレートを達成する。NELPは、無声スピーチまたは無音を圧縮または表現するために使用され得る。
[0016]2.4kbps程度のレートで動作するコーディングシステムは一般に、本質的にパラメトリックである。すなわち、そのようなコーディングシステムは、スピーチ信号のピッチ周期とスペクトルエンベロープ(またはホルマント)とを記述するパラメータを規則的な間隔で送信することによって動作する。これらのいわゆるパラメトリックコーダの例示的なものが、LPボコーダシステムである。
[0017]LPボコーダは、有声スピーチ(voiced speech)信号をピッチ周期当たりの単一のパルスでモデル化する。この基本的な技法は、特にスペクトルエンベロープに関する送信情報を含むように拡張され得る。LPボコーダは、一般的には妥当なパフォーマンスをもたらすが、それらは、バズ(buzz)として特徴付けられる、知覚的に顕著なひずみを導入し得る。
[0018]近年、波形コーダとパラメトリックコーダの両方のハイブリッドであるコーダが出現している。これらのいわゆるハイブリッドコーダの例示的なものが、プロトタイプ波形補間(PWI)スピーチコーディングシステムである。PWIコーディングシステムはまた、プロトタイプピッチ周期(PPP)スピーチコーダとも呼ばれ得る。PWIコーディングシステムは、有声スピーチをコーディングするための効率的な方法を提供する。PWIの基本的概念は、固定間隔で代表的なピッチサイクル(プロトタイプ波形)を抽出すること、その記述を送信すること、および、プロトタイプ波形間を補間することによってスピーチ信号を再構成することである。PWI法は、LP残差信号またはスピーチ信号のいずれかに対して作用し得る。
[0019]通信デバイスは、最適なボイス品質より低いスピーチ信号を受信し得る。説明のために、通信デバイスは、ボイス呼の間に別の通信デバイスからスピーチ信号を受信し得る。ボイス呼品質は、環境雑音(たとえば、風、街頭雑音)など、様々な理由により、通信デバイスのインターフェースの制限、通信デバイスによる信号処理、パケット損失、帯域幅制限、ビットレート制限などを受け得る。
[0020]従来の電話システム(たとえば、公衆交換電話網(PSTN))では、信号帯域幅は、300ヘルツ(Hz)〜3.4kHzの周波数範囲に限定される。セルラーテレフォニーおよびボイスオーバーインターネットプロトコル(VoIP)など、広帯域(WB)適用例では、信号帯域幅が、50Hz〜7kHzの周波数範囲にわたり得る。超広帯域(SWB)コーディング技術は、最大約16kHzに及ぶ帯域幅をサポートする。3.4kHzの狭帯域テレフォニーから16kHzのSWBテレフォニーの信号帯域幅まで拡張することにより、信号再構成の品質、明瞭さ、自然らしさを改善し得る。
[0021]あるWB/SWBコーディング技法は、信号の低周波数部分(たとえば、0Hz〜6.4kHz、「ローバンド(low band)」とも呼ばれる)を符号化および送信することを伴う帯域幅拡張(BWE)である。たとえば、ローバンドは、フィルタパラメータおよび/またはローバンド励振信号(excitation signal)を用いて表され得る。しかしながら、コーディング効率を改善するために、信号のより高い周波数部分(たとえば、6.4kHz〜16kHz、「ハイバンド(high band)」とも呼ばれる)は、完全には符号化および伝送されないことがある。代わりに、受信機は、ハイバンドを予測するために信号モデリングを利用し得る。いくつかの実施態様では、予測を助けるために、ハイバンドと関連付けられるデータが受信機に与えられ得る。そのようなデータは「サイド情報」と呼ばれることがあり、利得(gain)情報、線スペクトル(line spectral)周波数(LSF、線スペクトル対(LSP)とも呼ばれる)などを含むことができる。
[0022]いくつかのワイヤレス電話では、複数のコーディング技術が利用可能である。たとえば、種々のタイプのオーディオ信号(たとえば、ボイス信号対音楽信号)を符号化するために、種々のコーディング技術が使用され得る。ワイヤレス電話が、オーディオ信号を符号化するために第1の符号化技術を使用することから、オーディオ信号を符号化するために第2の符号化技術を使用することへと切り替えるとき、エンコーダ内におけるメモリバッファのリセットが原因で、可聴アーティファクト(artifacts)がオーディオ信号のフレーム境界に生成され得る。
[0023]デバイスにおけるコーディング技術を切り替えるときの、フレーム境界アーティファクトおよびエネルギー不一致を低減するシステムおよび方法が開示される。たとえば、デバイスは、かなりの高周波数成分を含んだオーディオ信号のフレームを符号化するために、修正離散コサイン変換(MDCT:modified discrete cosine transform)エンコーダなどの第1のエンコーダを使用し得る。たとえば、当該フレームは、背景雑音、雑音の多いスピーチ、または音楽を含み得る。デバイスは、かなりの高周波成分を含まないスピーチフレームを符号化するために、代数符号励振線形予測(ACELP:algebraic code-excited linear prediction)エンコーダなどの第2のエンコーダを使用し得る。これらのエンコーダの一方または両方がBWE技法を適用し得る。MDCTエンコーダとACELPエンコーダとの間で切り替えるとき、BWEに使用されるメモリバッファがリセットされ(たとえば、ゼロでポピュレートされ)得、フィルタ状態がリセットされ得、これがフレーム境界アーティファクトとエネルギー不一致とを引き起こし得る。
[0024]説明した技法によれば、バッファをリセット(または「ゼロ設定」)すること、およびフィルタをリセットすることに代わって、1つのエンコーダがバッファにポピュレートし、他のエンコーダからの情報に基づいてフィルタ設定を決定し得る。たとえば、オーディオ信号の第1のフレームを符号化するとき、MDCTエンコーダは、ハイバンド「ターゲット」に対応するベースバンド信号を生成し得、ACELPエンコーダは、そのベースバンド信号を使用して、ターゲット信号バッファにポピュレートし、オーディオ信号の第2のフレームに対するハイバンドパラメータを生成し得る。別の例として、ターゲット信号バッファは、MDCTエンコーダの合成出力に基づいてポピュレートされ得る。また別の例として、ACELPエンコーダは、外挿技法、信号エネルギー、フレームタイプ情報(たとえば、第2のフレームおよび/または第1のフレームが無声(unvoiced)フレーム、有声(voiced)フレーム、過渡(transient)フレーム、または一般(generic)フレームであるかどうか)などを使用して、第1のフレームの一部分を推定し得る。
[0025]信号合成の間、デコーダはまた、コーディング技法の切替えを原因とするフレーム境界アーティファクトとエネルギー不一致とを低減するように動作を実施し得る。たとえば、デバイスは、MDCTデコーダとACELPデコーダとを含み得る。ACELPデコーダがオーディオ信号の第1のフレームを復号するとき、ACELPデコーダは、オーディオ信号の第2の(すなわち、次の)フレームに対応する「重複(overlap)」サンプルのセットを生成し得る。コーディング技法の切替えが第1のフレームと第2のフレームとのフレーム境界で生じる場合、MDCTデコーダは、フレーム境界における知覚される信号連続性を向上させるために、第2のフレームの復号の間、ACELPデコーダからの重複サンプルに基づいて平滑化(たとえばクロスフェード)動作を実施し得る。
[0026]特定の態様では、ある方法が、第1のエンコーダを使用してオーディオ信号の第1のフレームを符号化することを含む。この方法はまた、第1のフレームの符号化の間に、オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成することを含む。この方法は、第2のエンコーダを使用してオーディオ信号の第2のフレームを符号化すること、をさらに含み、第2のフレームを符号化することは、第2のフレームと関連付けられるハイバンドパラメータを生成するためにベースバンド信号を処理することを含む。
[0027]別の特定の態様では、ある方法が、第1のデコーダと第2のデコーダとを含むデバイスで、第2のデコーダを使用してオーディオ信号の第1のフレームを復号することを含む。第2のデコーダは、オーディオ信号の第2のフレームの開始部分に対応する重複データを生成する。この方法はまた、第1のデコーダを使用して第2のフレームを復号することを含む。第2のフレームを復号することは、第2のデコーダからの重複データを使用して平滑化動作を適用することを含む。
[0028]別の特定の態様では、ある装置が、オーディオ信号の第1のフレームを符号化し、また、第1のフレームの符号化の間に、オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成するように構成された第1のエンコーダを含む。この装置はまた、オーディオ信号の第2のフレームを符号化するように構成された第2のエンコーダを含む。第2のフレームを符号化することは、第2のフレームと関連付けられるハイバンドパラメータを生成するためにベースバンド信号を処理することを含む。
[0029]別の特定の態様では、ある装置が、オーディオ信号の第1のフレームを符号化するように構成された第1のエンコーダを含む。この装置はまた、オーディオ信号の第2のフレームの符号化の間に、第1のフレームの第1の部分を推定するように構成された第2のエンコーダを含む。第2のエンコーダはまた、第1のフレームの第1の部分および第2のフレームに基づいて第2のエンコーダのバッファにポピュレートし、また第2のフレームと関連付けられるハイバンドパラメータを生成するように構成される。
[0030]別の特定の態様では、ある装置が、第1のデコーダと第2のデコーダとを含む。第2のデコーダは、オーディオ信号の第1のフレームを復号し、またオーディオ信号の第2のフレームの一部分に対応する重複データを生成するように構成される。第1のデコーダは、第2のフレームの復号の間に、第2のデコーダからの重複データを使用して平滑化動作を適用するように構成される。
[0031]また別の特定の態様では、コンピュータ可読記憶デバイスが、プロセッサによって実行されるとプロセッサに、第1のエンコーダを使用してオーディオ信号の第1のフレームを符号化することを含む動作を実施させる命令を記憶する。これらの動作はまた、第1のフレームの符号化の間に、オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成することを含む。これらの動作は、第2のエンコーダを使用してオーディオ信号の第2のフレームを符号化することをさらに含む。第2のフレームを符号化することは、第2のフレームと関連付けられるハイバンドパラメータを生成するためにベースバンド信号を処理することを含む。
[0032]開示する例のうちの少なくとも1つによってもたらされる特定の利点には、デバイスにおいてエンコーダ間またはデコーダ間で切り替えるときのフレーム境界アーティファクトとエネルギー不一致とを低減する能力が含まれる。たとえば、1つのエンコーダまたはデコーダのバッファまたはフィルタ状態など、1つまたは複数のメモリが、別のエンコーダまたはデコーダの動作に基づいて決定され得る。本開示の他の態様、利点、および特徴は、「図面の簡単な説明」と「発明を実施するための形態」と「特許請求の範囲」とを含む出願書類全体の検討の後、明らかになるであろう。
フレーム境界アーティファクトおよびエネルギー不一致の低減を伴うエンコーダ間の切替えをサポートするように動作可能であるシステムの特定の例を示すブロック図。 ACELP符号化システムの特定の例を示すブロック図。 フレーム境界アーティファクトおよびエネルギー不一致の低減を伴うデコーダ間の切替えをサポートするように動作可能であるシステムの特定の例を示すブロック図。 エンコーダデバイスにおける動作の方法の特定の例を示すフローチャート。 エンコーダデバイスにおける動作の方法の別の特定の例を示すフローチャート。 エンコーダデバイスにおける動作の方法の別の特定の例を示すフローチャート。 デコーダデバイスにおける動作の方法の特定の例を示すフローチャート。 図1〜7のシステムおよび方法に従って動作を実施するように動作可能なワイヤレスデバイスのブロック図。
[0041]図1を参照すると、フレーム境界アーティファクトとエネルギー不一致とを低減しながらエンコーダ(たとえば、符号化技術)を切り替えるように動作可能であるシステムの特定の例が示され、全体として100で示されている。例示的な例では、システム100は、ワイヤレス電話、タブレットコンピュータなどの電子デバイスに統合される。システム100は、エンコーダセレクタ110と、変換ベースのエンコーダ(たとえば、MDCTエンコーダ120)と、LPベースのエンコーダ(たとえば、ACELPエンコーダ150)とを含んでいる。代替例では、種々のタイプの符号化技術がシステム100に実装され得る。
[0042]以下の説明では、図1のシステム100によって実施される様々な機能は、いくつかの構成要素またはモジュールによって実施されるものとして説明される。しかしながら、構成要素およびモジュールのこの分割は説明のためにすぎない。代替例では、特定の構成要素またはモジュールによって実施される機能は、代わりに複数の構成要素またはモジュール間に分割され得る。さらに、代替例では、図1の2つ以上の構成要素またはモジュールが、単一の構成要素またはモジュールに統合され得る。図1に示された各構成要素またはモジュールは、ハードウェア(たとえば、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、コントローラ、フィールドプログラマブルゲートアレイ(FPGA)デバイスなど)、ソフトウェア(たとえば、プロセッサによって実行可能な命令)、またはそれらの任意の組合せを使用して実装され得る。
[0043]加えて、図1は別々のMDCTエンコーダ120とACELPエンコーダ150を示しているが、これは限定するものと見なされるべきでないことに留意されたい。代替例では、電子デバイスの単一のエンコーダが、MDCTエンコーダ120およびACELPエンコーダ150に対応する構成要素を含み得る。たとえば、エンコーダは、1つまたは複数のローバンド(LB)「コア」モジュール(たとえば、MDCTコアおよびACELPコア)と、1つまたは複数のハイバンド(HB)/BWEモジュールとを含み得る。オーディオ信号102の各フレームのローバンド部分が、符号化用の特定のローバンドコアモジュール、フレームの依存する特性(たとえば、フレームがスピーチ、雑音、音楽などを含むかどうか)に与えられ得る。各フレームのハイバンド部分は、特定のHB/BWEモジュールに与えられ得る。
[0044]エンコーダセレクタ110は、オーディオ信号102を受信するように構成され得る。オーディオ信号102は、スピーチデータ、非スピーチデータ(たとえば、音楽または背景雑音)、またはそれら両方を含み得る。例示的な例では、オーディオ信号102はSWB信号である。たとえば、オーディオ信号102は、およそ0Hz〜16kHzにまたがる周波数範囲を占め得る。オーディオ信号102は複数のフレームを含み得、各フレームは特定の持続期間を有する。例示的な例では、各フレームは持続期間において20msであるが、代替的な例では、異なるフレーム持続期間が使用され得る。エンコーダセレクタ110は、オーディオ信号102の各フレームがMDCTエンコーダ120またはACELPエンコーダ150によって符号化されるかどうかを決定し得る。たとえば、エンコーダセレクタ110は、フレームのスペクトル分析に基づいてオーディオ信号102のフレームを分類し得る。特定の例では、エンコーダセレクタ110は、かなりの高周波成分を含むフレームをMDCTエンコーダ120に送る。たとえば、そのようなフレームは、背景雑音、雑音の多いスピーチ、または音楽信号を含み得る。エンコーダセレクタ110は、かなりの高周波成分を含まないフレームをACELPエンコーダ150に送り得る。たとえば、そのようなフレームはスピーチ信号を含み得る。
[0045]したがって、システム100の動作の間、オーディオ信号102の符号化は、MDCTエンコーダ120からACELPエンコーダ150に切り替わり得、その逆も同様である。MDCTエンコーダ120およびACELPエンコーダ150は、符号化されたフレームに対応する出力ビットストリーム199を生成し得る。説明しやすいように、ACELPエンコーダ150によって符号化されるフレームはクロスハッチ付きのパターンで示され、MDCTエンコーダ120によって符号化されるフレームはパターンなしで示されている。図1の例では、ACELP符号化からMDCT符号化への切替えは、フレーム108と109とのフレーム境界において生じる。MDCT符号化からACELP符号化への切替えは、フレーム104と106とのフレーム境界において生じる。
[0046]MDCTエンコーダ120は、周波数領域で符号化を実施するMDCT分析モジュール121を含む。MDCTエンコーダ120がBWEを実施しない場合、MDCT分析モジュール121は「完全」MDCTモジュール122を含み得る。「完全」MDCTモジュール122は、オーディオ信号102の周波数範囲全体(たとえば、0Hz〜16kHz)の分析に基づいて、オーディオ信号102のフレームを符号化し得る。代替的に、MDCTエンコーダ120がBWEを実施する場合、LBデータとハイHBデータは別々に処理され得る。ローバンドモジュール123はオーディオ信号102のローバンド部分の符号化表現を生成し得、ハイバンドモジュール124は、オーディオ信号102のハイバンド部分(たとえば、8kHz〜16kHz)を再構成するためにデコーダによって使用されるハイバンドパラメータを生成し得る。MDCTエンコーダ120はまた、閉ループ推定用のローカルデコーダ126を含み得る。例示的な例では、ローカルデコーダ126は、オーディオ信号102(または、ハイバンド部分などその一部分)の表現を合成するために使用される。合成された信号は、合成バッファ内に記憶され得、ハイバンドパラメータの決定の間にハイバンドモジュール124によって使用され得る。
[0047]ACELPエンコーダ150は、時間領域ACELP分析モジュール159を含み得る。図1の例では、ACELPエンコーダ150は帯域幅拡張を実施するものであり、ローバンド分析モジュール160と、別個のハイバンド分析モジュール161とを含んでいる。ローバンド分析モジュール160は、オーディオ信号102のローバンド部分を符号化し得る。例示的な例では、オーディオ信号102のローバンド部分は、およそ0Hz〜6.4kHzにまたがる周波数範囲を占める。代替的な例では、図2を参照しながらさらに説明するように、異なるクロスオーバ周波数がローバンド部分とハイバンド部分とを分離すること、および/または、各部分が重複(オーバーラップ)することが可能である。特定の例では、ローバンド分析モジュール160は、ローバンド部分のLP分析から生成されたLSPを量子化することによって、オーディオ信号102のローバンド部分を符号化する。この量子化は、ローバンドコードブックに基づき得る。ACELPローバンド分析は、図2を参照しながらさらに説明されている。
[0048]ACELPエンコーダ150のターゲット信号生成器155が、オーディオ信号102のハイバンド部分のベースバンドバージョンに対応するターゲット信号を生成し得る。説明のために、計算モジュール156が、1つまたは複数のフリップ(flip)、デシメーション(decimation)、高次フィルタ処理、ダウンミキシング、および/またはダウンサンプリング動作をオーディオ信号102に対して実施するによってターゲット信号を生成し得る。ターゲット信号が生成されるとき、ターゲット信号は、ターゲット信号バッファ151にポピュレートするために使用され得る。特定の例では、ターゲット信号バッファ151は、1.5フレームに値するデータを記憶し、第1の部分152と、第2の部分153と、第3の部分154とを含む。したがって、フレームが持続期間において20msであるとき、ターゲット信号バッファ151は、オーディオ信号のうちの30msについてハイバンドデータを表す。第1の部分152は、1ms〜10msにおけるハイバンドデータを表し得、第2の部分153は11ms〜20msにおけるハイバンドデータを表し得、第3の部分154は21ms〜30msにおけるハイバンドデータを表し得る。
[0049]ハイバンド分析モジュール161は、オーディオ信号102のハイバンド部分を再構成するためにデコーダによって使用され得るハイバンドパラメータを生成し得る。たとえば、オーディオ信号102のハイバンド部分は、およそ6.4kHz〜16kHzにまたがる周波数範囲を占め得る。例示的な例では、ハイバンド分析モジュール161は、ハイバンド部分のLP分析から生成されたLSPを(たとえば、コードブックに基づいて)量子化する。ハイバンド分析モジュール161はまた、ローバンド分析モジュール160からローバンド励振信号を受信し得る。ハイバンド分析モジュール161はまた、ローバンド励振信号からハイバンド励振信号を生成し得る。ハイバンド励振信号は、合成ハイバンド部分を生成するローカルデコーダ158に与えられ得る。ハイバンド分析モジュール161は、ターゲット信号バッファ151内のハイバンドターゲットおよび/またはローカルデコーダ158からの合成ハイバンド部分に基づいて、フレーム利得、利得係数などのハイバンドパラメータを決定し得る。ACELPハイバンド分析は、図2を参照しながらさらに説明されている。
[0050]フレーム104と106とのフレーム境界においてオーディオ信号102の符号化がMDCTエンコーダ120からACELPエンコーダ150に切り替わった後、ターゲット信号バッファ151は、空であることもあり、リセットされることもあり、または過去のいくつかのフレーム(たとえば、フレーム108)からのハイバンドデータを含んでいることもある。さらに、計算モジュール156、LB分析モジュール160、および/またはHB分析モジュール161におけるフィルタのフィルタ状態など、ACELPエンコーダにおけるフィルタ状態が、過去のいくつかのフレームからの動作を反映し得る。そのようなリセットされるまたは「古い」情報がACELP符号化の間に使用される場合、不快なアーティファクト(たとえば、クリック音(clicking))が、第1のフレーム104と第2のフレーム106とのフレーム境界で生成され得る。さらに、エネルギー不一致がリスナーによって知覚され得る(たとえば、音量または他のオーディオ特性の急激な増減)。説明した技法によれば、古いフィルタ状態とターゲットデータとをリセットまたは使用する代わりに、ターゲット信号バッファ151にポピュレートされ、フィルタ状態が、第1のフレーム104(すなわち、ACELPエンコーダ150への切替えの前にMDCTエンコーダ120によって符号化された最後のフレーム)と関連付けられるデータに基づいて決定され得る。
[0051]特定の態様では、ターゲット信号バッファ151は、MDCTエンコーダ120によって生成された「軽量」ターゲット信号に基づいてポピュレートされる。たとえば、MDCTエンコーダ120は、「軽量」ターゲット信号生成器125を含み得る。「軽量」ターゲット信号生成器125は、ACELPエンコーダ150によって使用されるターゲット信号の推定値を表すベースバンド信号130を生成し得る。特定の態様では、ベースバンド信号130は、オーディオ信号102に対してフリップ動作とデシメーション動作とを実施することによって生成される。一例では、「軽量」ターゲット信号生成器125は、MDCTエンコーダ120の動作中、連続的に稼働する。計算上の複雑さを軽減するために、「軽量」ターゲット信号生成器125は、高次のフィルタ処理動作またはダウンミキシング動作を実施せずに、ベースバンド信号130を生成し得る。ベースバンド信号130は、ターゲット信号バッファ151の少なくとも一部分にポピュレートするために使用され得る。たとえば、第1の部分152は、ベースバンド信号130に基づいてポピュレートされ得、第2の部分153および第3の部分154は、第2のフレーム106によって表される20msのハイバンド部分に基づいてポピュレートされ得る。
[0052]特定の例では、ターゲット信号バッファ151の一部分(たとえば、第1の部分152)は、「軽量」ターゲット信号生成器125の出力の代わりに、MDCTローカルデコーダ126の出力(たとえば、合成出力のうちの直近の10ms)に基づいてポピュレートされ得る。この例では、ベースバンド信号130は、オーディオ信号102の合成バージョンに対応し得る。
説明のために、ベースバンド信号130は、MDCTローカルデコーダ126の合成バッファから生成されてもよい。MDCT分析モジュール121が「完全」MDCTを行う場合、ローカルデコーダ126は、「完全」逆MDCT(IMDCT)(0Hz〜16kHz)を実施し得、ベースバンド信号130は、オーディオ信号102のハイバンド部分ならびにオーディオ信号の付加的部分(たとえば、ローバンド部分)に対応し得る。この例では、合成出力および/またはベースバンド信号130は、ハイバンドデータを(たとえば、8kHz〜16kHzの帯域において)近似する(たとえば、含む)結果信号を生成するために、(たとえば、ハイパスフィルタ(HPF)、フリップおよびデシメーション動作などを介して)フィルタ処理され得る。
[0053]MDCTエンコーダ120がBWEを実施する場合、ローカルデコーダ126は、ハイバンド専用信号を合成するために、ハイバンドIMDCT(8kHz〜16kHz)を含み得る。この例では、ベースバンド信号130は、合成されたハイバンド専用信号を表し得、ターゲット信号バッファ151の第1の部分152の中にコピーされ得る。この例では、ターゲット信号バッファ151の第1の部分152は、フィルタ処理動作を使用することなく、データコピー動作のみを使用してポピュレートされる。ターゲット信号バッファ151の第2の部分153および第3の部分154は、第2のフレーム106によって表される20msのハイバンド部分に基づいてポピュレートされ得る。
[0054]したがって、特定の態様では、ターゲット信号バッファ151は、ベースバンド信号130に基づいてポピュレートされ得、ベースバンド信号130は、第1のフレーム104がMDCTエンコーダ120の代わりにACELPエンコーダ150によって符号化されている場合に、ターゲット信号生成器155またはローカルデコーダ158によって生成されるターゲットまたは合成信号データを表す。ACELPエンコーダ150内のフィルタ状態(たとえば、LPフィルタ状態、デシメータ状態など)などの他のメモリ要素がまた、エンコーダ切替えに応答してリセットされる代わりにベースバンド信号130に基づいて決定され得る。ターゲットまたは合成信号データの近似を使用することにより、ターゲット信号バッファ151をリセットすることと比較して、フレームの境界アーティファクトおよびエネルギー不一致が低減され得る。加えて、ACELPエンコーダ150内のフィルタは、「定常の」状態により迅速に到達(たとえば、収束)し得る。
[0055]特定の態様では、第1のフレーム104に対応するデータはACELPエンコーダ150によって推定され得る。たとえば、ターゲット信号生成器155は、ターゲット信号バッファ151の一部分にポピュレートするために第1のフレーム104の一部分を推定するように構成された推定器157を含み得る。特定の態様では、推定器157は、第2のフレーム106のデータに基づいて外挿動作を実施する。たとえば、第2のフレーム106のハイバンド部分を表すデータは、ターゲット信号バッファ151の第2および第3の部分153、154内に記憶され得る。推定器157は、第2の部分153内に、およびオプションで第3の部分154内に記憶されたデータを外挿する(代替的に「逆伝播する(backpropagating)」と呼ばれる)ことによって生成されるデータを、第1の部分152内に記憶する。別の例として、推定器157は、第1のフレーム104またはその一部分(たとえば、第1のフレーム104の最後の10msまたは5ms)を予測するために、第2のフレーム106に基づいて後方(backward)LPを実施し得る。
[0056]特定の態様では、推定器157は、第1のフレーム104と関連付けられるエネルギーを示すエネルギー情報140に基づいて、第1のフレーム104の一部分を推定する。たとえば、第1のフレーム104の一部分は、第1のフレーム104のうちの(たとえば、MDCTローカルデコーダ126において)局所的に復号されたローバンド部分、第1のフレーム104のうちの(たとえば、MDCTローカルデコーダ126において)局所的に復号されたハイバンド部分、またはそれら両方に関連付けられるエネルギーに基づいて推定され得る。エネルギー情報140を考慮することにより、推定器157は、MDCTエンコーダ120からACELPエンコーダ150に切り替えるときの利得形状の下降など、フレーム境界におけるエネルギー不一致を低減するのに役立ち得る。例示的な例では、エネルギー情報140は、MDCT合成バッファなど、MDCTエンコーダ内のバッファと関連付けられるエネルギーに基づいて決定される。合成バッファの周波数範囲全体(たとえば、0Hz〜16kHz)のエネルギーまたは合成バッファのハイバンド部分(たとえば、8kHz〜16kHz)のみのエネルギーが推定器157によって使用され得る。推定器157は、第1のフレーム104の推定エネルギーに基づいて、第1の部分152においてデータにテーパリング(tapering)動作を適用し得る。テーパリングは、「非アクティブ」または低エネルギーフレームと「アクティブ」または高エネルギーフレームとの間の遷移が生じる場合などの、フレーム境界におけるエネルギー不一致を低減し得る。推定器157によって第1の部分152に適用されるテーパリングは、線形であってもよく、または別の数学関数に基づいてもよい。
[0057]特定の態様では、推定器157は、第1のフレーム104のフレームタイプに少なくとも部分的に基づいて、第1のフレーム104の一部分を推定する。たとえば、推定器157は、第1のフレーム104のフレームタイプおよび/または第2のフレーム106のフレームタイプ(代替的に「コーディングタイプ」と呼ばれる)に基づいて、第1のフレーム104の一部分を推定し得る。フレームタイプは、有声フレームタイプ、無声フレームタイプ、過渡フレームタイプ、および一般フレームタイプを含み得る。フレームタイプに応じて、推定器157は、第1の部分152においてデータに異なるテーパリング動作を適用し得る(たとえば、異なるテーパリング係数を使用する)。
[0058]したがって、特定の態様では、ターゲット信号バッファ151は、第1のフレーム104またはその一部分と関連付けられる信号推定値および/またはエネルギーに基づいてポピュレートされ得る。代替または追加として、第1のフレーム104および/または第2のフレーム106のフレームタイプが、信号のテーパリングなどのために、推定プロセスの間に使用され得る。ACELPエンコーダ150内のフィルタ状態(たとえば、LPフィルタ状態、デシメータ状態など)などの他のメモリ要素がまた、エンコーダ切替えに応答してリセットされる代わりに推定値に基づいて決定され得、これによって、フィルタ状態は「定常」状態により迅速に到達する(たとえば、収束する)ことが可能となり得る。
[0059]図1のシステム100は、フレーム境界アーティファクトとエネルギー不一致とを低減する方式で、第1の符号化モードまたはエンコーダ(たとえば、MDCTエンコーダ120)と第2の符号化モードまたはエンコーダ(たとえば、ACELPエンコーダ150)との間で切り替えるときに、メモリ更新を処理し得る。図1のシステム100を使用することは、信号コーディング品質の改善、ならびにユーザエクスペリエンスの改善につながり得る。
[0060]図2を参照すると、ACELP符号化システム200の特定の例が示されており、全体として200で示されている。本明細書でさらに説明するように、システム200の1つまたは複数の構成要素が、図1のシステム100の1つまたは複数の構成要素に対応し得る。例示的な例では、システム200は、ワイヤレス電話、タブレットコンピュータなどの電子デバイスに統合される。
[0061]以下の説明では、図2のシステム200によって実施される様々な機能は、いくつかの構成要素またはモジュールによって実施されるものとして説明される。しかしながら、構成要素およびモジュールのこの分割は説明のためにすぎない。代替例では、特定の構成要素またはモジュールによって実施される機能は、代わりに複数の構成要素またはモジュール間に分割され得る。さらに、代替例では、図2の2つ以上の構成要素またはモジュールが、単一の構成要素またはモジュールに統合され得る。図2に示された各構成要素またはモジュールは、ハードウェア(たとえば、ASIC、DSP、コントローラ、FPGAデバイスなど)、ソフトウェア(たとえば、プロセッサによって実行可能な命令)、またはそれらの任意の組合せを使用して実装され得る。
[0062]システム200は、入力音声信号202を受信するように構成された分析フィルタバンク210を含む。たとえば、入力音声信号202はマイクロフォンまたは他の入力装置によって供給され得る。例示的な例では、入力オーディオ信号202は、オーディオ信号102が図1のACELPエンコーダ150によって符号化されるべきであると図1のエンコーダセレクタ110が決定するとき、図1のオーディオ信号102に対応し得る。入力オーディオ信号202は、約0Hz〜約16kHzの周波数範囲内のデータを含む超広帯域(SWB)信号であり得る。分析フィルタバンク210は、周波数に基づいて入力オーディオ信号202をフィルタ処理して複数の部分にし得る。たとえば、分析フィルタバンク210は、ローバンド信号222とハイバンド信号224とを生成するために、ローパスフィルタ(LPF)とハイパスフィルタ(HPF)とを含み得る。ローバンド信号222およびハイバンド信号224は、等しい帯域幅を有しても等しくない帯域幅を有してもよく、重複してもよいし重複しなくてもよい。ローバンド信号222とハイバンド信号224が重複するとき、分析フィルタバンク210のローパスフィルタとハイパスフィルタは、スムーズなロールオフを有し得、これによって、設計が単純化され、ローパスフィルタおよびハイパスフィルタのコストが低減され得る。ローバンド信号222とハイバンド信号224とを重複させることは、受信機におけるローバンド信号とハイバンド信号との滑らかな混合をも可能にし得、これは、より少数の可聴アーティファクトをもたらし得る。
[0063]いくつかの例は本明細書ではSWB信号を処理する状況において説明されているが、これは説明のためのものにすぎないことに留意されたい。代替例では、説明した技法は、約0Hz〜約8kHzの周波数範囲を有するWB信号を処理するために使用され得る。そのような例では、ローバンド信号222は約0Hz〜約6.4kHzの周波数範囲に対応し得、ハイバンド信号224は約6.4kHz〜約8kHzの周波数範囲に対応し得る。
[0064]システム200は、ローバンド信号222を受信するように構成されたローバンド分析モジュール230を含み得る。特定の態様では、ローバンド分析モジュール230は、ACELPエンコーダの一例を表し得る。たとえば、ローバンド分析モジュール230は、図1のローバンド分析モジュール160に対応し得る。ローバンド分析モジュール230は、LP分析およびコーディングモジュール232と、線形予測係数(LPC)−線スペクトル対(LSP)変換モジュール234と、量子化器236とを含み得る。LSPはLSFと呼ばれる場合もあり、2つの用語は本明細書において互換的に用いられる場合がある。LP分析およびコーディングモジュール232は、ローバンド信号222のスペクトルエンベロープをLPCのセットとして符号化し得る。LPCは、オーディオの各フレーム(たとえば、16kHzのサンプリングレートにおける320個のサンプルに対応する、オーディオの20ms)、オーディオの各サブフレーム(たとえば、オーディオの5ms)、またはそれらの任意の組合せについて、生成され得る。各フレームまたはサブフレームに対して生成されるLPCの数は、実施されるLP分析の「次数」によって決定され得る。特定の態様では、LP分析およびコーディングモジュール232は、10次LP分析に対応する11個のLPCのセットを生成し得る。
[0065]変換モジュール234は、LP分析およびコーディングモジュール232によって生成されたLPCのセットを(たとえば1対1変換を使用して)LSPの対応するセットに変換し得る。代替的には、LPCのセットは、パーコール係数、ログ面積比値、イミッタンススペクトル対(ISP)、またはイミッタンススペクトル周波数(ISF)の対応するセットに1対1変換され得る。LPCのセットとLSPのセットとの間の変換は、誤差を生じることなく可逆的にすることができる。
[0066]量子化器236は、変換モジュール234によって生成されたLSPのセットを量子化し得る。たとえば、量子化器236は、複数のエントリ(たとえば、ベクトル)を含む複数のコードブックを含むかまたはそれらに結合され得る。LSPのセットを量子化するために、量子化器236は、(たとえば、最小2乗または平均2乗誤差などのひずみ尺度に基づいて)LSPのセット「に最も近い」コードブックのエントリを識別し得る。量子化器236は、コードブック内の特定された項目の位置に対応する指標値または一連の指標値を出力し得る。したがって、量子化器236の出力は、ローバンドビットストリーム242に含まれるローバンドフィルタパラメータを表し得る。
[0067]ローバンド分析モジュール230はまた、ローバンド励振信号244を生成し得る。たとえば、ローバンド励振信号244は、ローバンド分析モジュール230によって実行されるLPプロセス中に生成されるLP残差信号を量子化することによって生成される符号化された信号であってよい。LP残差信号は、予測誤差を表し得る。
[0068]システム200は、分析フィルタバンク210からのハイバンド信号224とローバンド分析モジュール230からのローバンド励振信号244とを受け取るように構成されたハイバンド分析モジュール250をさらに含み得る。たとえば、ハイバンド分析モジュール250は、図1のハイバンド分析モジュール161に対応し得る。ハイバンド分析モジュール250は、ハイバンド信号224およびローバンド励振信号244に基づいてハイバンドパラメータ272を生成し得る。たとえば、ハイバンドパラメータ272は、本明細書でさらに説明されるように、ハイバンドLSPおよび/またはゲイン情報(たとえば、少なくともハイバンドエネルギーとローバンドエネルギーとの比に基づく)を含んでよい。
[0069]ハイバンド分析モジュール250は、ハイバンド励振生成器260を含み得る。ハイバンド励振生成器260は、ローバンド励振信号244のスペクトルをハイバンド周波数範囲(たとえば、8kHz〜16kHz)に拡張することによってハイバンド励振信号を生成し得る。ハイバンド励振信号は、ハイバンドパラメータ272に含まれる1つまたは複数のハイバンド利得パラメータを決定するために使用され得る。図示のように、ハイバンド分析モジュール250は、LP分析およびコーディングモジュール252と、LPC−LSP変換モジュール254と、量子化器256も含むことができる。LP分析およびコーディングモジュール252、変換モジュール254、および量子化器256の各々は、ローバンド分析モジュール230の対応する構成要素を参照しながら先に説明されたように機能することができるが、(たとえば、それぞれの係数、LSPなどに対してより少ないビットを用いて)比較的低い解像度で機能することができる。LP分析およびコーディングモジュール252は、変換モジュール254によってLSPに変換されコードブック263に基づいて量子化器256によって量子化されるLPCのセットを生成することができる。たとえば、LP分析およびコーディングモジュール252、変換モジュール254、および量子化器256は、ハイバンドパラメータ272に含まれるハイバンドフィルタ情報(たとえば、ハイバンドLSP)を決定するためにハイバンド信号224を使用することができる。特定の実施形態では、ハイバンドパラメータ272は、ハイバンドLSPならびにハイバンド利得パラメータを含むことができる。
[0070]ハイバンド分析モジュール250はまた、ローカルデコーダ262とターゲット信号生成器264とをさらに含み得る。たとえば、ローカルデコーダ262は図1のローカルデコーダ158に対応し得、ターゲット信号生成器264は図1のターゲット信号生成器155に対応し得る。ハイバンド分析モジュール250はさらに、MDCTエンコーダからMDCT情報266を受信し得る。たとえば、MDCT情報266は、図1のベースバンド信号130および/または図1のエネルギー情報140を含み得、また、図2のシステム200によって実施されるMDCT符号化からACELP符号化への切替えのときに、フレーム境界アーティファクトとエネルギー不一致とを低減するために使用され得る。
[0071]ローバンドビットストリーム242およびハイバンドパラメータ272は、出力ビットストリーム299を生成するためにマルチプレクサ(MUX)280によって多重化され得る。出力ビットストリーム299は、入力音声信号202に対応する符号化音声信号を表し得る。たとえば、出力ビットストリーム299は(たとえば、ワイヤード、ワイヤレス、または光チャネルを介して)送信機298によって送信されることおよび/または記憶されることが可能である。受信機デバイスにおいて、合成オーディオ信号(たとえば、スピーカーまたは他の出力デバイスに与えられる入力オーディオ信号202の再構成されたバージョン)を生成するために、逆方向演算が、デマルチプレクサ(DEMUX)、ローバンドデコーダ、ハイバンドデコーダ、およびフィルタバンクによって実施され得る。ローバンドビットストリーム242を表すために使用されるビット数は、ハイバンドパラメータ272を表すために使用されるビット数よりも実質的に大きいことがある。したがって、出力ビットストリーム299中のビットの大部分は、ローバンドデータを表し得る。ハイバンドパラメータ272は、信号モデルに従ってローバンドデータからハイバンド励振信号を再生成するために受信機で使用され得る。たとえば、この信号モデルは、ローバンドデータ(たとえば、ローバンド信号222)とハイバンドデータ(たとえば、ハイバンド信号224)の関係または相関関係の予測されるセットを表すことができる。したがって、異なる種類のオーディオデータに異なる信号モデルが使用可能であり、符号化オーディオデータの通信の前に、使用する特定の信号モデルが送信器と受信器とによってネゴシエートされてよい(または業界標準で定義されてよい)。信号モデルを使用して、送信機におけるハイバンド分析モジュール250は、出力ビットストリーム299からハイバンド信号224を再構成するために受信機における対応するハイバンド分析モジュールが信号モデルを使用することが可能であるように、ハイバンドパラメータ272を生成することが可能であってよい。
[0072]図2はしたがって、入力オーディオ信号202を符号化するときにMDCTエンコーダからのMDCT情報266を使用するACELP符号化システム200を示している。MDCT情報266を使用することにより、フレーム境界アーティファクトとエネルギー不一致とが低減され得る。たとえば、MDCT情報266は、ターゲット信号推定、逆伝播、テーパリングなどを実施するために使用され得る。
[0073]図3を参照すると、フレーム境界アーティファクトとエネルギー不一致とを低減しながらデコーダ間の切替えをサポートするように動作可能であるシステムの特定の例が示され、全体として300で示されている。例示的な例では、システム300は、ワイヤレス電話、タブレットコンピュータなどの電子デバイスに統合される。
[0074]システム300は、受信機301と、デコーダセレクタ310と、変換ベースのデコーダ(たとえば、MDCTデコーダ320)と、LPベースのデコーダ(たとえば、ACELPデコーダ350)とを含んでいる。したがって、図示されていないが、MDCTデコーダ320およびACELPデコーダ350は、それぞれ図1のMDCTエンコーダ120および図1のACELPエンコーダ150の1つまたは複数の構成要素を参照しながら説明したものに対して逆の動作を実施する1つまたは複数の構成要素を含み得る。さらに、MDCTデコーダ320によって実施されるものとして説明した1つまたは複数の動作がまた、図1のMDCTローカルデコーダ126によって実施されてもよく、ACELPデコーダ350によって実施されるものとして説明した1つまたは複数の動作もまた、図1のACELPローカルデコーダ158によって実施されてもよい。
[0075]動作の間、受信機301が、ビットストリーム302を受信し、デコーダセレクタ310に供給し得る。例示的な例では、ビットストリーム302は、図1の出力ビットストリーム199または図2の出力ビットストリーム299に対応する。デコーダセレクタ310は、ビットストリーム302の特性に基づいて、ビットストリーム302を復号して合成オーディオ信号399を生成するためにMDCTデコーダ320またはACELPデコーダ350が使用されるべきかどうかを決定し得る。
[0076]ACELPデコーダ350が選択されたとき、LPC合成モジュール352は、ビットストリーム302またはその一部分を処理し得る。たとえば、LPC合成モジュール352は、オーディオ信号の第1のフレームに対応するデータを復号し得る。復号の間、LPC合成モジュール352は、オーディオ信号の第2の(たとえば、次の)フレームに対応する重複データ340を生成し得る。例示的な例では、重複データ340は、20のオーディオサンプルを含み得る。
[0077]デコーダセレクタ310がACELPデコーダ350からMDCTデコーダ320に復号を切り替えるとき、平滑化モジュール322は、平滑化関数を実行するために重複データ340を使用し得る。平滑化関数は、ACELPデコーダ350からMDCTデコーダ320への切替えに応答して、MDCTデコーダ320におけるフィルタメモリおよび合成バッファのリセットを原因とする、フレーム境界の不連続性を平滑化し得る。例示的な非限定的な例として、平滑化モジュール322は、重複データ340に基づいてクロスフェード(crossfade)動作を実施し得、それにより、重複データ340に基づいた合成出力とオーディオ信号の第2のフレームに対する合成出力との間の遷移が、より連続的であるとリスナーに知覚されるようになる。
[0078]図3のシステム300はしたがって、フレーム境界の不連続性を低減する方式で、第1の復号モードまたはデコーダ(たとえば、ACELPデコーダ350)と第2の復号モードまたはデコーダ(たとえば、MDCTデコーダ320)との間で切り替えるときに、フィルタメモリとバッファ更新とを処理し得る。図3のシステム300を使用することは、信号再構成品質の改善、ならびにユーザエクスペリエンスの改善につながり得る。
[0079]図1〜3のシステムのうちの1つまたは複数はしたがって、フィルタメモリと先読み(lookahead)バッファとを修正し、「現在の」コアの合成との組合せのために「以前の」コアの合成のフレーム境界オーディオサンプルを後方予測し得る。たとえば、図1を参照しながら説明したように、ACELP先読みバッファをゼロにリセットする代わりに、バッファ内のコンテンツが、MDCTの「軽量」ターゲットまたは合成バッファから予測されてもよい。代替的に、フレーム境界サンプルの後方予測は、図1〜2を参照しながら説明したように行われてもよい。MDCTエネルギー情報(たとえば、図1のエネルギー情報140)、フレームタイプなどのさらなる情報が場合によっては使用されてもよい。さらに、図3を参照して説明したように、時間的な不連続性を限定するために、ACELP重複サンプルなど、特定の合成出力が、MDCT復号の間にフレーム境界において平滑に混合され得る。特定の例では、「以前の」合成の最後のいくつかのサンプルが、フレーム利得および他の帯域幅拡張パラメータの算出において使用され得る。
[0080]図4を参照すると、エンコーダデバイスにおける動作の方法の特定の例が示され、全体として400で指定されている。例示的な例では、方法400は、図1のシステム100において実施され得る。
[0081]方法400は、402において、第1のエンコーダを使用してオーディオ信号の第1のフレームを符号化することを含み得る。第1のエンコーダはMDCTエンコーダであってもよい。たとえば、図1では、MDCTエンコーダ120は、オーディオ信号102の第1のフレーム104を符号化し得る。
[0082]方法400はまた、404において、第1のフレームの符号化の間に、オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成することを含み得る。ベースバンド信号は、「軽量」MDCTターゲット生成またはMDCT合成出力に基づいたターゲット信号推定値に対応し得る。たとえば、図1では、MDCTエンコーダ120は、「軽量」ターゲット信号生成器125によって生成された「軽量」ターゲット信号に基づいて、またはローカルデコーダ126の合成出力に基づいて、ベースバンド信号130を生成し得る。
[0083]方法400は、406において、第2のエンコーダを使用してオーディオ信号の第2の(たとえば、連続的に次の)フレームを符号化することをさらに含み得る。第2のエンコーダは、ACELPエンコーダであってもよく、第2のフレームを符号化することは、第2のフレームと関連付けられるハイバンドパラメータを生成するためにベースバンド信号を処理することを含み得る。たとえば、図1では、ACELPエンコーダ150は、ターゲット信号バッファ151の少なくとも一部分にポピュレートするためのベースバンド信号130の処理に基づいて、ハイバンドパラメータを生成し得る。例示的な例では、ハイバンドパラメータは、図2のハイバンドパラメータ272を参照しながら説明したように生成され得る。
[0084]図5を参照すると、エンコーダデバイスにおける動作の方法の別の特定の例が示され、全体として500で指定されている。方法500は図1のシステム100において実施され得る。特定の実装形態では、方法500は図4の404に対応し得る。
[0085]方法500は、502において、オーディオ信号のハイバンド部分を近似する結果信号を生成するために、ベースバンド信号に対してフリップ動作とデシメーション動作とを実施することを含む。ベースバンド信号は、オーディオ信号のハイバンド部分およびオーディオ信号の付加的部分に対応し得る。たとえば、図1のベースバンド信号130は、図1を参照しながら説明したように、MDCTローカルデコーダ126の合成バッファから生成され得る。説明のために、MDCTエンコーダ120は、MDCTローカルデコーダ126の合成出力に基づいてベースバンド信号130を生成してもよい。ベースバンド信号130は、オーディオ信号120のハイバンド部分、ならびにオーディオ信号120の付加的(たとえば、ローバンド)部分に対応し得る。図1を参照しながら説明したように、ハイバンドデータを含む結果信号を生成するために、フリップ動作およびデシメーション動作がベースバンド信号130に対して実施され得る。たとえば、ACELPエンコーダ150は、結果信号を生成するために、ベースバンド信号130に対してフリップ動作とデシメーション動作とを実施し得る。
[0086]方法500はまた、504において、結果信号に基づいて第2のエンコーダのターゲット信号バッファにポピュレートすることを含む。たとえば、図1のACELPエンコーダ150のターゲット信号バッファ151は、図1を参照しながら説明したように、結果信号に基づいてポピュレートされ得る。説明のために、ACELPエンコーダ150は、結果信号に基づいてターゲット信号バッファ151にポピュレートしてもよい。ACELPエンコーダ150は、図1を参照しながら説明したように、ターゲット信号バッファ151に記憶されたデータに基づいて、第2のフレーム106のハイバンド部分を生成し得る。
[0087]図6を参照すると、エンコーダデバイスにおける動作の方法の別の特定の例が示され、全体として600で指定されている。例示的な例では、方法600は、図1のシステム100において実施され得る。
[0088]方法600は、602において、第1のエンコーダを使用してオーディオ信号の第1のフレームを符号化することと、604において、第2のエンコーダを使用してオーディオ信号の第2のフレームを符号化することとを含み得る。第1のエンコーダは、図1のMDCTエンコーダ120などのMDCTエンコーダであってもよく、第2のエンコーダは、図1のACELPエンコーダ150などのACELPエンコーダであってもよい。第2のフレームは、第1のフレームに連続的に続き得る。
[0089]第2のフレームを符号化することは、606において、第2のエンコーダで第1のフレームの第1の部分を推定することを含み得る。たとえば、図1を参照すると、推定器157は、外挿、線形予測、MDCTエネルギー(たとえば、エネルギー情報140)、フレームタイプなどに基づいて、第1のフレーム104の一部分(たとえば、最後の10ms)を推定し得る。
[0090]第2のフレームを符号化することはまた、608において、第1のフレームの第1の部分および第2のフレームに基づいて第2のバッファのバッファにポピュレートすることを含み得る。たとえば、図1を参照すると、ターゲット信号バッファ151の第1の部分152は、第1のフレーム104の推定部分に基づいてポピュレートされ得、ターゲット信号バッファ151の第2および第3の部分153、154は、第2のフレーム106に基づいてポピュレートされ得る。
[0091]第2のフレームを符号化することは、610において、第2のフレームと関連付けられるハイバンドパラメータを生成することをさらに含み得る。たとえば、図1では、ACELPエンコーダ150は、第2のフレーム106と関連付けられるハイバンドパラメータを生成し得る。例示的な例では、ハイバンドパラメータは、図2のハイバンドパラメータ272を参照しながら説明したように生成され得る。
[0092]図7を参照すると、デコーダデバイスにおける動作の方法の特定の例が示され、全体として700で指定されている。例示的な例では、方法700は、図3のシステム300において実施され得る。
[0093]方法700は、702において、第1のデコーダと第2のデコーダとを含むデバイスで、第2のデコーダを使用してオーディオ信号の第1のフレームを復号することを含み得る。第2のデコーダはACELPデコーダであってもよく、オーディオ信号の第2のフレームの一部分に対応する重複データを生成し得る。たとえば、図3を参照すると、ACELPデコーダ350は、第1のフレームを復号し、重複データ340(たとえば、20のオーディオサンプル)を生成し得る。
[0094]方法700はまた、704において、第1のデコーダを使用して第2のフレームを復号することを含み得る。第1のデコーダはMDCTデコーダであってもよく、第2のフレームを復号することは、第2のデコーダからの重複データを使用して平滑化(たとえば、クロスフェード)動作を適用することを含み得る。たとえば、図1を参照すると、MDCTデコーダ320は、第2のフレームを復号し、重複データ340を使用して平滑化動作を適用し得る。
[0095]特定の態様では、方法図4〜7のうちの1つまたは複数が、中央処理ユニット(CPU)、DSP、またはコントローラなどの処理ユニットのハードウェア(たとえば、FPGAデバイス、ASICなど)を介して、ファームウェアデバイスを介して、またはそれらの任意の組合せで実装され得る。例として、方法図4〜7の内の1つまたは複数が、図8に関して説明したように、命令を実行するプロセッサによって実施され得る。
[0096]図8を参照すると、デバイス(たとえば、ワイヤレス通信デバイス)の特定の例示的な実施形態のブロック図が示されており、全体的に800と指定されている。様々な例では、デバイス800は、図8に示すものよりも少ない、または多い構成要素を有し得る。例示的な例として、デバイス800は、図1〜3のシステムのうちの1つまたは複数に対応し得る。例示的な例として、デバイス800は、図4〜7の方法のうちの1つまたは複数に従って動作し得る。
[0097]特定の態様では、デバイス800はプロセッサ806(たとえば、CPU)を含む。デバイス800は、1つまたは複数の付加的なプロセッサ810(たとえば、1つまたは複数のDSP)を含み得る。プロセッサ810は、スピーチおよび音楽コーダデコーダ(CODEC)808と、エコーキャンセラ812とを含み得る。スピーチおよび音楽CODEC808は、ボコーダエンコーダ836、ボコーダデコーダ838、またはそれら両方を含み得る。
[0098]特定の態様では、ボコーダエンコーダ836は、MDCTエンコーダ860と、ACELPエンコーダ862とを含み得る。MDCTエンコーダ860は、図1のMDCTエンコーダ120に対応し得、ACELPエンコーダ862は、図1のACELPエンコーダ150または図2のACELP符号化システム200の1つもしくは複数の構成要素に対応し得る。ボコーダエンコーダ836はまた、(たとえば、図1のエンコーダセレクタ110に対応する)エンコーダセレクタ864を含み得る。ボコーダデコーダ838は、MDCTデコーダ870とACELPデコーダ872とを含み得る。MDCTデコーダ870は、図3のMDCTデコーダ320に対応し得、ACELPデコーダ872は、図1のACELPデコーダ350に対応し得る。ボコーダデコーダ838はまた、(たとえば、図3のデコーダセレクタ310に対応する)デコーダセレクタ874を含み得る。スピーチおよび音楽CODEC808はプロセッサ810の構成要素として示されているが、他の例では、スピーチおよび音楽CODEC808の1つまたは複数の構成要素が、プロセッサ806、CODEC834、別の処理構成要素、またはそれらの組合せの中に含められてもよい。
[0099]デバイス800は、メモリ832と、トランシーバ850を介してアンテナ842に結合されたワイヤレスコントローラ840とを含み得る。デバイス800は、ディスプレイコントローラ826に結合されたディスプレイ828を含み得る。スピーカー848、マイクロフォン846、またはそれら両方がCODEC834に結合され得る。CODEC834は、デジタルアナログ変換器(DAC)802と、アナログデジタル変換器(ADC)804とを含み得る。
[0100]特定の態様では、CODEC834は、マイクロフォン846からアナログ信号を受信し、アナログデジタル変換器804を使用してそのアナログ信号をデジタル信号に変換し、パルス符号変調(PCM)形式などでスピーチおよび音楽CODEC808にそのデジタル信号を供給し得る。スピーチおよび音楽CODEC808はデジタル信号を処理し得る。特定の態様では、スピーチおよび音楽CODEC808は、CODEC834にデジタル信号を供給し得る。CODEC834は、デジタルアナログ変換器802を使用してデジタル信号をアナログ信号に変換し得、そのアナログ信号をスピーカー848に供給し得る。
[0101]メモリ832は、図4〜7の方法のうちの1つまたは複数など、本明細書で開示する方法とプロセスとを実施するために、プロセッサ806によって実行可能な命令856、プロセッサ810、CODEC834、デバイス800の別の処理ユニット、またはそれらの組合せを含み得る。図1〜3のシステムの1つまたは複数の構成要素が、専用ハードウェア(たとえば回路)により、1つもしくは複数のタスクを実施するための命令(たとえば命令856)を実行するプロセッサによって、またはそれらの組合せによって実装され得る。一例として、メモリ832またはプロセッサ806、プロセッサ810、および/もしくはCODEC834の1つもしくは複数の構成要素は、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピントルクトランスファーMRAM(STT−MRAM)、フラッシュメモリ、読出し専用メモリ(ROM)、プログラマブル読出し専用メモリ(PROM)、消去可能プログラマブル読出し専用メモリ(EPROM)、電気的消去可能プログラマブル読出し専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読出し専用メモリ(CD−ROM)などのメモリデバイスであり得る。メモリデバイスは、コンピュータ(たとえば、CODEC834内のプロセッサ、プロセッサ806、および/またはプロセッサ810)によって実行されたとき、コンピュータに図4〜7の方法のうちの1つまたは複数の方法の少なくとも一部分を実施させ得る命令(たとえば命令856)を含み得る。一例として、メモリ832またはプロセッサ806、プロセッサ810、CODEC834の1つもしくは複数の構成要素は、コンピュータ(たとえば、CODEC834内のプロセッサ、プロセッサ806、および/またはプロセッサ810)によって実行されるときにコンピュータに方法図4〜7のうちの1つまたは複数の方法の少なくとも一部分を実施させる命令(たとえば、命令856)を含む非一時的コンピュータ可読媒体であり得る。
[0102]特定の態様では、デバイス800は、移動局モデム(MSM)など、システムインパッケージまたはシステムオンチップデバイス822内に含められ得る。特定の態様では、プロセッサ806、プロセッサ810、ディスプレイコントローラ826、メモリ832、CODEC834、ワイヤレスコントローラ840、およびトランシーバ850は、システムインパッケージまたはシステムオンチップデバイス822内に含められる。特定の態様では、タッチスクリーンおよび/またはキーパッドなどの入力デバイス830ならびに電源844が、システムオンチップデバイス822に結合される。さらに、特定の態様では、図8に示すように、ディスプレイ828、入力デバイス830、スピーカー848、マイクロフォン846、アンテナ842、および電源844は、システムオンチップデバイス822の外部に存在する。しかしながら、ディスプレイ828、入力デバイス830、スピーカー848、マイクロフォン846、アンテナ842、および電源844の各々は、インターフェースまたはコントローラなど、システムオンチップデバイス822の構成要素に結合され得る。例示的な例では、デバイス800は、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレットコンピュータ、携帯情報端末、ディスプレイデバイス、テレビ、ゲーム機、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、光ディスクプレーヤ、チューナー、カメラ、ナビゲーションデバイス、デコーダシステム、エンコーダシステム、またはそれらの任意の組合せに対応する。
[0103]例示的な態様では、プロセッサ810は、説明した技法に従って単一の符号化および復号動作を実施するように動作可能となり得る。たとえば、マイクロフォン846はオーディオ信号(たとえば、図1のオーディオ信号102)を捕捉し得る。ADC804は、捕捉されたオーディオ信号を、アナログ波形から、デジタルオーディオサンプルを含んだデジタル波形へと変換し得る。プロセッサ810は、デジタルオーディオサンプルを処理し得る。エコーキャンセラ812は、スピーカー848の出力がマイクロフォン846に入ることによって生成された可能性のあるエコーを低減し得る。
[0104]ボコーダエンコーダ836は、処理されたスピーチ信号に対応するデジタルオーディオサンプルを圧縮し得、また送信パケット(たとえば、デジタルオーディオサンプルの圧縮されたビットの表現)を形成し得る。たとえば、送信パケットは、図1の出力ビットストリーム199または図2の出力ビットストリーム299の少なくとも一部分に対応し得る。送信パケットはメモリ832に記憶され得る。トランシーバ850は、ある形式の送信パケットを変調し得(たとえば、他の情報が送信パケットに付加され得る)、アンテナ842を介して、その変調されたデータを送信し得る。
[0105]さらなる例として、アンテナ842は、受信パケットを含んだ着信パケットを受信し得る。受信パケットは、ネットワークを介して別のデバイスによって送られ得る。たとえば、受信パケットは、図3のビットストリーム302の少なくとも一部分に対応し得る。ボコーダデコーダ838は、(たとえば、合成オーディオ信号399に対応する)再構成オーディオサンプルを生成するために、受信パケットを復元および復号し得る。エコーキャンセラ812は、再構成オーディオサンプルからエコーを除去し得る。DAC802は、ボコーダデコーダ838の出力をデジタル波形からアナログ波形に変換し得、その変換された波形を出力用にスピーカー848に供給し得る。
[0106]説明した態様に関連して、オーディオ信号の第1のフレームを符号化するための第1の手段を含む装置が開示される。たとえば、符号化するための第1の手段は、図1のMDCTエンコーダ120、プロセッサ806、プロセッサ810、図8のMDCTエンコーダ860、オーディオ信号の第1のフレームを符号化するように構成された1つもしくは複数のデバイス(たとえば、コンピュータ可読記憶デバイスに記憶された命令を実行するプロセッサ)、またはそれらの任意の組合せを含み得る。符号化するための第1の手段は、第1のフレームの符号化の間に、オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成するように構成され得る。
[0107]この装置はまた、オーディオ信号の第2のフレームを符号化するための第2の手段を含む。たとえば、符号化するための第2の手段は、図1のACELPエンコーダ150、プロセッサ806、プロセッサ810、図8のACELPエンコーダ862、オーディオ信号の第2のフレームを符号化するように構成された1つもしくは複数のデバイス(たとえば、コンピュータ可読記憶デバイスに記憶された命令を実行するプロセッサ)、またはそれらの任意の組合せを含み得る。第2のフレームを符号化することは、第2のフレームと関連付けられるハイバンドパラメータを生成するためにベースバンド信号を処理することを含み得る。
[0108]さらに、本明細書で開示した態様に関して説明した様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、ハードウェアプロセッサなどの処理デバイスによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、上記では概して、それらの機能に関して説明された。そのような機能をハードウェアとして実現するか、実行可能ソフトウェアとして実現するかは、特定の適用例およびシステム全体に課される設計制約によって決まる。当業者は、説明された機能を特定の適用例ごとに様々な方法において実現できるが、そのような実現の決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。
[0109]本明細書で開示した態様に関して説明した方法またはアルゴリズムのステップは、直接ハードウェアで実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。ソフトウェアモジュールは、RAM、MRAM、STT−MRAM、フラッシュメモリ、ROM、PROM、EPROM、EEPROM、レジスタ、ハードディスク、リムーバブルディスク、またはCD−ROMなどのメモリデバイス内に存在し得る。例示のメモリデバイスは、プロセッサがメモリデバイスから情報を読み取り、メモリデバイスに情報を書き込むことができるようにプロセッサに結合される。代替実施形態では、メモリデバイスはプロセッサに内蔵され得る。プロセッサおよび記憶媒体はASIC中に存在し得る。ASICはコンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。
[0110]開示されている例の上記の説明は、当業者が開示されている例を製作または使用することを可能にするために提供されている。これらの例に対する種々の変更は、当業者には容易に明らかになり、本明細書において規定される原理は、本開示の範囲から逸脱することなく、他の例に適用され得る。したがって、本開示は、本明細書に示した態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴と一致する、可能な最も広い範囲が与えられるべきものである。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
[C1]
第1のエンコーダを使用して、オーディオ信号の第1のフレームを符号化することと、
前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成することと、
第2のエンコーダを使用して、前記オーディオ信号の第2のフレームを符号化することと、ここで、前記第2のフレームを符号化することは、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために前記ベースバンド信号を処理することを含み、
を備える方法。
[C2]
前記第2のフレームは、前記オーディオ信号において前記第1のフレームに連続的に続く、C1に記載の方法。
[C3]
前記第1のエンコーダは、変換ベースのエンコーダを備える、C1に記載の方法。
[C4]
前記変換ベースのエンコーダは、修正離散コサイン変換(MDCT)エンコーダを備える、C3に記載の方法。
[C5]
前記第2のエンコーダは、線形予測(LP)ベースのエンコーダを備える、C1に記載の方法。
[C6]
前記線形予測(LP)ベースのエンコーダは、代数符号励振線形予測(ACELP)エンコーダを備える、C5に記載の方法。
[C7]
前記ベースバンド信号を生成することは、フリップ動作とデシメーション動作とを実行することを含む、C1に記載の方法。
[C8]
前記ベースバンド信号を生成することは、高次フィルタ処理動作を実行することを含まず、ダウンミキシング動作を実行することを含まない、C1に記載の方法。
[C9]
前記ベースバンド信号に少なくとも部分的に基づいて、および前記第2のフレームの特定のハイバンド部分に少なくとも部分的に基づいて、前記第2のエンコーダのターゲット信号バッファにポピュレートすることをさらに備える、C1に記載の方法。
[C10]
前記ベースバンド信号は、前記第1のエンコーダのローカルデコーダを使用して生成され、ここにおいて、前記ベースバンド信号は、前記オーディオ信号の少なくとも一部分の合成バージョンに対応する、C1に記載の方法。
[C11]
前記ベースバンド信号は、前記オーディオ信号の前記ハイバンド部分に対応し、前記第2のエンコーダのターゲット信号バッファにコピーされる、C10に記載の方法。
[C12]
前記ベースバンド信号は、前記オーディオ信号の前記ハイバンド部分および前記オーディオ信号の付加的な部分に対応し、前記方法は、
前記ハイバンド部分を近似する結果信号を生成するために、前記ベースバンド信号に対してフリップ動作とデシメーション動作とを実行することと、
前記結果信号に基づいて、前記第2のエンコーダのターゲット信号バッファにポピュレートすることと、
をさらに備える、C10に記載の方法。
[C13]
第1のデコーダと第2のデコーダとを含むデバイスにおいて、前記第2のデコーダを使用してオーディオ信号の第1のフレームを復号することと、ここで、前記第2のデコーダは、前記オーディオ信号の第2のフレームの一部分に対応する重複データを生成し、
前記第1のデコーダを使用して前記第2のフレームを復号することと、ここで、前記第2のフレームを復号することは、前記第2のデコーダからの前記重複データを使用して平滑化動作を適用することを含み、
を備える方法。
[C14]
前記第1のデコーダは修正離散コサイン変換(MDCT)デコーダを備え、前記第2のデコーダは代数符号励振線形予測(ACELP)デコーダを備える、C13に記載の方法。
[C15]
前記重複データは、前記第2のフレームの20オーディオサンプルを備える、C13に記載の方法。
[C16]
前記平滑化動作はクロスフェード動作を備える、C13に記載の方法。
[C17]
オーディオ信号の第1のフレームを符号化し、
前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成する
ように構成された第1のエンコーダと、
前記オーディオ信号の第2のフレームを符号化するように構成された第2のエンコーダと、ここで、前記第2のフレームを符号化することは、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために、前記ベースバンド信号を処理することを含む、
を備える装置。
[C18]
前記第2のフレームは、前記オーディオ信号において前記第1のフレームに連続的に続く、C17に記載の装置。
[C19]
前記第1のエンコーダは修正離散コサイン変換(MDCT)エンコーダを備え、前記第2のエンコーダは代数符号励振線形予測(ACELP)エンコーダを備える、C17に記載の装置。
[C20]
前記ベースバンド信号を生成することは、フリップ動作とデシメーション動作とを実行することを含み、前記ベースバンド信号を生成することは、高次のフィルタ処理動作を実行することを含まず、前記ベースバンド信号を生成することは、ダウンミキシング動作を実行することを含まない、C17に記載の装置。
[C21]
オーディオ信号の第1のフレームを符号化するように構成された第1のエンコーダと、
前記オーディオ信号の第2のフレームの符号化の間に、
前記第1のフレームの第1の部分を推定し、
前記第1のフレームの前記第1の部分および前記第2のフレームに基づいて、前記第2のエンコーダのバッファにポピュレートし、
前記第2のフレームと関連付けられるハイバンドパラメータを生成するように構成された第2のエンコーダと、
を備える装置。
[C22]
前記第1のフレームの前記第1の部分を推定することは、前記第2のフレームのデータに基づいて外挿動作を実行することを含む、C21に記載の装置。
[C23]
前記第1のフレームの前記第1の部分を推定することは、後方線形予測を実施することを含む、C21に記載の装置。
[C24]
前記第1のフレームの前記第1の部分は、前記第1のフレームと関連付けられるエネルギーに基づいて推定される、C21に記載の装置。
[C25]
前記第1のエンコーダに結合された第1のバッファをさらに備え、
前記第1のフレームと関連付けられる前記エネルギーは、前記第1のバッファと関連付けられる第1のエネルギーに基づいて決定される、C24に記載の装置。
[C26]
前記第1のフレームと関連付けられる前記エネルギーは、前記第1のバッファのハイバンド部分と関連付けられる第2のエネルギーに基づいて決定される、C25に記載の装置。
[C27]
前記第1のフレームの前記第1の部分は、前記第1のフレームの第1のフレームタイプ、前記第2のフレームの第2のフレームタイプ、またはそれら両方に少なくとも部分的に基づいて推定される、C21に記載の装置。
[C28]
前記第1のフレームタイプは、有声フレームタイプ、無声フレームタイプ、過渡フレームタイプ、または一般フレームタイプを備え、
前記第2のフレームタイプは、前記有声フレームタイプ、前記無声フレームタイプ、前記過渡フレームタイプ、または前記一般フレームタイプを備える、C27に記載の装置。
[C29]
前記第1のフレームの前記第1の部分は、持続時間において約5ミリ秒であり、前記第2のフレームは、持続時間において約20ミリ秒である、C21に記載の装置。
[C30]
前記第1のフレームの前記第1の部分は、前記第1のフレームの局所的に復号されたローバンド部分、前記第1のフレームの局所的に復号されたハイバンド部分、またはそれら両方と関連付けられるエネルギーに基づいて推定される、C21に記載の装置。
[C31]
第1のデコーダと、
第2のデコーダと、を備え、
前記第2のデコーダは、
オーディオ信号の第1のフレームを復号し、
前記オーディオ信号の第2のフレームの一部分に対応する重複データを生成するように構成され、
前記第1のデコーダは、前記第2のフレームの復号の間、前記第2のデコーダからの前記重複データを使用して平滑化動作を適用するように構成される、装置。
[C32]
前記平滑化動作はクロスフェード動作を備える、C31に記載の装置。
[C33]
命令を記憶したコンピュータ可読記憶デバイスであって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
第1のエンコーダを使用して、オーディオ信号の第1のフレームを符号化することと、
前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成することと、
第2のエンコーダを使用して、前記オーディオ信号の第2のフレームを符号化することと、ここで、前記第2のフレームを符号化することは、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために、前記ベースバンド信号を処理することを含む、
を備える動作を実行させる、コンピュータ可読記憶デバイス。
[C34]
前記第1のエンコーダは、変換ベースのエンコーダを備え、前記第2のエンコーダは、線形予測(LP)ベースのエンコーダを備える、C33に記載のコンピュータ可読記憶デバイス。
[C35]
前記ベースバンド信号を生成することは、フリップ動作とデシメーション動作とを実行することを含み、
前記動作は、前記ベースバンド信号に少なくとも部分的に基づいて、および前記第2のフレームの特定のハイバンド部分に少なくとも部分的に基づいて、前記第2のエンコーダのターゲット信号バッファにポピュレートすることをさらに備える、
C33に記載のコンピュータ可読記憶デバイス。
[C36]
前記ベースバンド信号は、前記第1のエンコーダのローカルデコーダを使用して生成され、前記ベースバンド信号は、前記オーディオ信号の少なくとも一部分の合成バージョンに対応する、C33に記載のコンピュータ可読記憶デバイス。
[C37]
オーディオ信号の第1のフレームを符号化するための第1の手段と、符号化するための前記第1の手段は、前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド部分に対応するコンテンツを含むベースバンド信号を生成するように構成され、
前記オーディオ信号の第2のフレームを符号化するための第2の手段と、ここで、前記第2のフレームを符号化することは、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために前記ベースバンド信号を処理することを含む、
を備える装置。
[C38]
符号化するための前記第1の手段および符号化するための前記第2の手段は、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレットコンピュータ、携帯情報端末、ディスプレイデバイス、テレビ、ゲーム機、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、光ディスクプレーヤ、チューナー、カメラ、ナビゲーションデバイス、デコーダシステム、またはエンコーダシステムのうちの少なくとも1つに統合される、C37に記載の装置。
[C39]
符号化するための前記第1の手段は、フリップ動作とデシメーション動作とを実行することによって前記ベースバンド信号を生成するようにさらに構成される、C37に記載の装置。
[C40]
符号化するための前記第1の手段は、ローカルデコーダを使用することによって、前記ベースバンド信号を生成するようにさらに構成され、
前記ベースバンド信号は、前記オーディオ信号の少なくとも一部分の合成バージョンに対応する、C37に記載の装置。

Claims (40)

  1. オーディオ信号を符号化するための方法であって、前記方法は、
    第1のエンコーダにおける第1の領域分析を使用して、前記オーディオ信号の第1のフレームを符号化することと、
    前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド推定値、または前記オーディオ信号の少なくとも一部分の合成バージョンに対応するベースバンド信号を生成することと、
    第2のエンコーダにおける第2の領域分析を使用して、前記オーディオ信号の第2のフレームを、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために、前記ベースバンド信号を表す第1のデータと前記第2のフレームのハイバンド部分を表す第2のデータとを処理することによって、符号化することと
    備える方法。
  2. 前記第1の領域分析と前記第2の領域分析とは、それぞれ、周波数領域分析と時間領域分析とを備え、前記第2のフレームは、前記オーディオ信号において前記第1のフレームに連続的に続く、請求項1に記載の方法。
  3. 前記オーディオ信号の前記第1のフレームは、変換ベースのエンコーダを使用して符号化される、請求項1に記載の方法。
  4. 前記オーディオ信号の前記第1のフレームは、修正離散コサイン変換(MDCT)エンコーダを使用して符号化される、請求項1に記載の方法。
  5. 前記オーディオ信号の前記第2のフレームは、ターゲット信号バッファに前記第1のデータおよび前記第2のデータを記憶する線形予測(LP)ベースのエンコーダを使用して符号化される、請求項1に記載の方法。
  6. 前記オーディオ信号の前記第2のフレームは、帯域幅拡張を実行するように構成された代数符号励振線形予測(ACELP)エンコーダを使用して符号化される、請求項1に記載の方法。
  7. 前記ベースバンド信号を生成することは、フリップ動作とデシメーション動作とを実行することを含む、請求項1に記載の方法。
  8. 前記ベースバンド信号を生成することは、高次のフィルタ処理動作を実行することを含まず、および、ダウンミキシング動作を実行することを含まない、請求項1に記載の方法。
  9. 前記第2のエンコーダは、前記第2のエンコーダのターゲット信号バッファの第1の部分に前記第1のデータを記憶し、前記ターゲット信号バッファの第2の部分に前記第2のデータを記憶する、請求項1に記載の方法。
  10. 前記第1のエンコーダおよび前記第2のエンコーダは、モバイル通信デバイスに含まれる、請求項1に記載の方法。
  11. 前記ベースバンド信号を生成することは、前記第1のエンコーダのローカルデコーダを使用することを備え、前記第2のエンコーダのターゲット信号バッファに前記第1のデータをコピーすることをさらに備える、請求項1に記載の方法。
  12. 前記オーディオ信号の前記ハイバンド部分を近似する結果信号を生成するために、前記ベースバンド信号に対してフリップ動作とデシメーション動作とを実行することと、
    前記結果信号に基づいて、前記第2のエンコーダのターゲット信号バッファにポピュレートすることと、
    をさらに備える、請求項1に記載の方法。
  13. オーディオ信号を復号するための方法であって、前記方法は、
    第1のエンコーダにおける第1の領域分析を使用して符号化された前記オーディオ信号の第2のフレームに基づく第2のビットの、および、第2のエンコーダにおける第2の領域分析を使用して符号化された前記オーディオ信号の第1のフレームに基づく第1のビットのビットストリームを受信することと、前記第1のフレームは、ベースバンド信号を表す第1のデータと前記第1のフレームのハイバンド部分を表す第2のデータとを処理することによって符号化され、ここで、前記ベースバンド信号は、第3のフレームのハイバンド推定値、または前記第3のフレームの少なくとも一部分の合成バージョンに基づいて前記第1のエンコーダによって生成され
    第1のデコーダと第2のデコーダとを含むデバイスにおいて、前記第2のデコーダおよび前記第1のビットを使用して前記第1のフレームの符号化バージョンを復号することと、前記第2のデコーダは、前記第2のフレームの一部分に対応する重複データを生成し、
    前記第1のデコーダおよび前記第2のビットを使用して前記第2のフレームの符号化バージョンを復号することと、前記復号することは、前記第2のデコーダからの前記重複データを使用して平滑化動作を適用することを含
    を備える方法。
  14. 前記第1のデコーダは修正離散コサイン変換(MDCT)デコーダを備え、前記第2のデコーダは、帯域幅拡張パラメータに基づいて算出を実行する代数符号励振線形予測(ACELP)デコーダを備え、前記重複データは、前記第2のフレームの20オーディオサンプルに対応するデータを備える、請求項13に記載の方法。
  15. 前記第1の領域分析と前記第2の領域分析とは、それぞれ、周波数領域分析と時間領域分析とを備える、請求項13に記載の方法。
  16. 前記平滑化動作はクロスフェード動作を含み、前記第1のデコーダおよび前記第2のデコーダは、モバイル通信デバイスに含まれる、請求項13に記載の方法。
  17. オーディオ信号を符号化するための装置であって、前記装置は、
    アンテナと、
    第1の領域分析に基づいて、前記オーディオ信号の第1のフレームを符号化することと、
    前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド推定値、または、前記オーディオ信号の少なくとも一部分の合成バージョンに対応するベースバンド信号を生成することと
    を行うように構成された第1のエンコーダと、
    第2の領域分析と、
    前記ベースバンド信号を表す第1のデータと第2のフレームのハイバンド部分を表す第2のデータと、
    に基づいて、前記オーディオ信号の第2のフレームを符号化するように構成された第2のエンコーダと、第2のエンコーダは、前記第2のフレームと関連付けられるハイバンドパラメータを生成するように構成され、
    前記アンテナに結合され、前記ベースバンド信号と関連付けられる符号化オーディオ信号を送信するように構成された送信機と、
    を備える装置。
  18. 前記第1の領域分析と前記第2の領域分析とは、それぞれ、周波数領域分析と時間領域分析とを備え、前記第2のフレームは、前記オーディオ信号において前記第1のフレームに連続的に続く、請求項17に記載の装置。
  19. 前記第1のエンコーダは修正離散コサイン変換(MDCT)エンコーダを備え、
    前記第2のエンコーダは、ターゲット信号バッファに前記第1のデータまたは前記第2のデータのうちの少なくとも1つを記憶することと、帯域幅拡張を実行することとを行うように構成された代数符号励振線形予測(ACELP)エンコーダを備え、
    前記第1のエンコーダおよび前記第2のエンコーダは、モバイル通信デバイスに統合される、
    請求項17に記載の装置。
  20. 前記第1のエンコーダは、高次のフィルタ処理動作を実行せずに、および、ダウンミキシング動作を実行せずに、フリップ動作を使用して、およびデシメーション動作を使用して、前記ベースバンド信号を生成するように構成される、請求項17に記載の装置。
  21. オーディオ信号を符号化するための装置であって、前記装置は、
    アンテナと、
    第1の領域分析に基づいて、オーディオ信号の第1のフレームを符号化するように構成された第1のエンコーダと
    第2の領域分析に基づいて、前記オーディオ信号の第2のフレーム符号化する間に、前記第1のフレームの第1の部分の信号推定値を生成することと、
    前記信号推定値に基づいて第1のデータで、および、前記オーディオ信号の第2のフレームのハイバンド部分を表す第2のデータで、第2のエンコーダのバッファにポピュレートすることと、
    前記バッファに記憶された前記第1のデータおよび前記第2のデータに基づいて、前記第2のフレームと関連付けられるハイバンドパラメータを生成することと、
    を行うように構成された第2のエンコーダと、
    前記アンテナに結合され、前記オーディオ信号と関連付けられる符号化オーディオ信号を送信するように構成された送信機と、
    を備える、装置。
  22. 前記信号推定値は、前記第2のフレームのデータに基づく外挿動作に基づく、請求項21に記載の装置。
  23. 前記信号推定値は、後方線形予測に基づく、請求項21に記載の装置。
  24. 前記信号推定値は、前記第1のフレームと関連付けられるエネルギーを示すエネルギー情報に基づく、請求項21に記載の装置。
  25. 前記第1のエンコーダに結合された第1のバッファをさらに備え、
    前記第1のフレームと関連付けられる前記エネルギーは、前記第1のバッファと関連付けられる第1のエネルギーに基づいて決定され、前記第1のフレームと関連付けられる前記エネルギーは、前記第1のバッファのハイバンド部分と関連付けられる第2のエネルギーに基づいて決定される、請求項24に記載の装置。
  26. 記符号化オーディオ信号を変調するように構成された変調器をさらに備える、請求項21に記載の装置。
  27. 前記アンテナ、前記送信機、および前記変調器は、モバイル通信デバイスに統合される、請求項26に記載の装置。
  28. 前記第1の領域分析と前記第2の領域分析とは、それぞれ、周波数領域分析と時間領域分析とを備え、
    前記信号推定値は、前記第1のフレームの第1のフレームタイプ、前記第2のフレームの第2のフレームタイプ、またはそれら両方に少なくとも部分的に基づき、
    前記第1のフレームタイプは、有声フレームタイプ、無声フレームタイプ、過渡フレームタイプ、または一般フレームタイプを備え、
    前記第2のフレームタイプは、前記有声フレームタイプ、前記無声フレームタイプ、前記過渡フレームタイプ、または前記一般フレームタイプを備える、請求項21に記載の装置。
  29. 前記第1のフレームの前記第1の部分は、持続時間において約5ミリ秒であり、前記第2のフレームは、持続時間において約20ミリ秒である、請求項21に記載の装置。
  30. 前記信号推定値は、前記第1のフレームの局所的に復号されたローバンド部分、前記第1のフレームの局所的に復号されたハイバンド部分、またはそれら両方と関連付けられるエネルギーに基づく、請求項21に記載の装置。
  31. オーディオ信号を復号するための装置であって、前記装置は、
    第1のエンコーダにおける第1の領域分析を介して符号化される前記オーディオ信号の第2のフレームに対応する第2のビットの、および、第2のエンコーダにおける第2の領域分析を介して符号化される前記オーディオ信号の第1のフレームに対応する第1のビットの、ビットストリームを受信するように構成された受信機と、前記第1のフレームは、ベースバンド信号を表す第1のデータと前記第1のフレームのハイバンド部分を表す第2のデータとを処理することによって符号化され、ここで、前記ベースバンド信号は、第3のフレームのハイバンド推定値、または前記第3のフレームの少なくとも一部分の合成バージョンに基づいて前記第1のエンコーダによって生成され、
    前記第2のビットに基づく前記第2のフレームの符号化バージョンの復号の間に、前記第2のフレームの一部分に対応する重複データを使用して平滑化動作を適用するように構成された第1のデコーダと、
    記第1のフレームの符号化バージョンを復号することと、前記重複データを生成することとを行うように構成された第2のデコーダと、
    を備える、装置。
  32. 前記受信機に結合されたアンテナをさらに備え、前記第1の領域分析と前記第2の領域分析とは、それぞれ、周波数領域分析と時間領域分析とを備え、前記平滑化動作はクロスフェード動作を含み、前記アンテナ、前記受信機、前記第1のデコーダ、および前記第2のデコーダは、モバイル通信デバイスに統合される、請求項31に記載の装置。
  33. 命令を記憶したコンピュータ可読記憶デバイスであって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
    第1のエンコーダにおける第1の領域分析を使用して、オーディオ信号の第1のフレームを符号化することと、
    前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド推定値、または、前記オーディオ信号の少なくとも一部分の合成バージョンに対応するベースバンド信号を生成することと、
    第2のエンコーダにおける第2の領域分析を使用して、前記オーディオ信号の第2のフレームを符号化することと、ここで、前記第2のフレームを符号化することは、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために、前記ベースバンド信号を表す第1のデータと前記第2のフレームのハイバンド部分を表す第2のデータとを処理することを含む、
    を備える、オーディオ信号を符号化するための動作を実行させる、コンピュータ可読記憶デバイス。
  34. 前記第1のエンコーダは、変換ベースのエンコーダを備え、前記第2のエンコーダは、線形予測(LP)ベースのエンコーダを備える、請求項33に記載のコンピュータ可読記憶デバイス。
  35. 前記ベースバンド信号を生成することは、フリップ動作とデシメーション動作とを実行することを含み、
    前記動作は、前記第1のデータに少なくとも部分的に基づいて、前記第2のエンコーダのターゲット信号バッファの第1の部分にポピュレートすることと、前記第2のデータに少なくとも部分的に基づいて、前記ターゲット信号バッファの第2の部分にポピュレートすることとをさらに備える、
    請求項33に記載のコンピュータ可読記憶デバイス。
  36. 前記ベースバンド信号は、前記第1のエンコーダのローカルデコーダを使用して生成される、請求項33に記載のコンピュータ可読記憶デバイス。
  37. オーディオ信号を符号化するための装置であって、前記装置は、
    第1の領域分析に基づいて、オーディオ信号の第1のフレームを符号化するための第1の手段と、符号化するための前記第1の手段は、前記第1のフレームの符号化の間に、前記オーディオ信号のハイバンド推定値、または前記オーディオ信号の少なくとも一部分の合成バージョンに対応するベースバンド信号を生成するように構成され、
    第2の領域分析に基づいて、前記オーディオ信号の第2のフレームを、前記第2のフレームと関連付けられるハイバンドパラメータを生成するために、前記ベースバンド信号を表す第1のデータと前記第2のフレームのハイバンド部分を表す第2のデータとを処理することに基づいて、符号化するための第2の手段と、
    前記オーディオ信号と関連付けられる符号化オーディオ信号を送信するための手段と、
    を備える装置。
  38. 前記第1の領域分析と前記第2の領域分析とは、それぞれ、周波数領域分析と時間領域分析とを備え、
    符号化するための前記第1の手段符号化するための前記第2の手段、および送信するための前記手段は、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレットコンピュータ、携帯情報端末、ディスプレイデバイス、テレビ、ゲーム機、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、光ディスクプレーヤ、チューナー、カメラ、ナビゲーションデバイス、デコーダシステム、またはエンコーダシステムのうちの少なくとも1つに統合される、請求項37に記載の装置。
  39. 符号化するための前記第1の手段は、フリップ動作とデシメーション動作とを実行することによって前記ベースバンド信号を生成するようにさらに構成され、符号化するための前記第2の手段は、ターゲット信号バッファに前記第1のデータおよび前記第2のデータを記憶するようにさらに構成される、請求項37に記載の装置。
  40. 符号化するための前記第1の手段は、ローカルデコーダを使用して前記ベースバンド信号を生成するようにさらに構成される、請求項37に記載の装置。
JP2016559604A 2014-03-31 2015-03-30 デバイスにおいてコーディング技術を切り替える装置および方法 Active JP6258522B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461973028P 2014-03-31 2014-03-31
US61/973,028 2014-03-31
US14/671,757 2015-03-27
US14/671,757 US9685164B2 (en) 2014-03-31 2015-03-27 Systems and methods of switching coding technologies at a device
PCT/US2015/023398 WO2015153491A1 (en) 2014-03-31 2015-03-30 Apparatus and methods of switching coding technologies at a device

Publications (3)

Publication Number Publication Date
JP2017511503A JP2017511503A (ja) 2017-04-20
JP2017511503A5 JP2017511503A5 (ja) 2017-09-07
JP6258522B2 true JP6258522B2 (ja) 2018-01-10

Family

ID=54191285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016559604A Active JP6258522B2 (ja) 2014-03-31 2015-03-30 デバイスにおいてコーディング技術を切り替える装置および方法

Country Status (26)

Country Link
US (1) US9685164B2 (ja)
EP (1) EP3127112B1 (ja)
JP (1) JP6258522B2 (ja)
KR (1) KR101872138B1 (ja)
CN (1) CN106133832B (ja)
AU (1) AU2015241092B2 (ja)
BR (1) BR112016022764B1 (ja)
CA (1) CA2941025C (ja)
CL (1) CL2016002430A1 (ja)
DK (1) DK3127112T3 (ja)
ES (1) ES2688037T3 (ja)
HK (1) HK1226546A1 (ja)
HU (1) HUE039636T2 (ja)
MX (1) MX355917B (ja)
MY (1) MY183933A (ja)
NZ (1) NZ723532A (ja)
PH (1) PH12016501882A1 (ja)
PL (1) PL3127112T3 (ja)
PT (1) PT3127112T (ja)
RU (1) RU2667973C2 (ja)
SA (1) SA516371927B1 (ja)
SG (1) SG11201606852UA (ja)
SI (1) SI3127112T1 (ja)
TW (1) TW201603005A (ja)
WO (1) WO2015153491A1 (ja)
ZA (1) ZA201606744B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US9984699B2 (en) 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
CN108352165B (zh) * 2015-11-09 2023-02-03 索尼公司 解码装置、解码方法以及计算机可读存储介质
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
CN111709872B (zh) * 2020-05-19 2022-09-23 北京航空航天大学 一种图三角形计数算法的自旋存内计算架构

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5673412A (en) * 1990-07-13 1997-09-30 Hitachi, Ltd. Disk system and power-on sequence for the same
SE504010C2 (sv) 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US7236688B2 (en) * 2000-07-26 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing method and signal processing apparatus
JP2005244299A (ja) * 2004-02-24 2005-09-08 Sony Corp 記録再生装置、記録方法および再生方法、並びに、プログラム
US7463901B2 (en) * 2004-08-13 2008-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Interoperability for wireless user devices with different speech processing formats
KR20070115637A (ko) 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
JP5448850B2 (ja) * 2008-01-25 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2010003545A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. An apparatus and a method for decoding an encoded audio signal
CN102105930B (zh) 2008-07-11 2012-10-03 弗朗霍夫应用科学研究促进协会 用于编码采样音频信号的帧的音频编码器和解码器
EP2146343A1 (en) * 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP5678071B2 (ja) * 2009-10-08 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
US9037456B2 (en) 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder

Also Published As

Publication number Publication date
PT3127112T (pt) 2018-10-19
CA2941025A1 (en) 2015-10-08
SA516371927B1 (ar) 2020-05-31
US9685164B2 (en) 2017-06-20
MX2016012522A (es) 2017-01-09
CN106133832B (zh) 2019-10-25
RU2016137922A3 (ja) 2018-05-30
DK3127112T3 (en) 2018-09-17
BR112016022764A8 (pt) 2021-07-06
ES2688037T3 (es) 2018-10-30
BR112016022764A2 (pt) 2017-08-15
US20150279382A1 (en) 2015-10-01
EP3127112B1 (en) 2018-06-20
KR20160138472A (ko) 2016-12-05
EP3127112A1 (en) 2017-02-08
RU2667973C2 (ru) 2018-09-25
JP2017511503A (ja) 2017-04-20
SG11201606852UA (en) 2016-10-28
NZ723532A (en) 2019-05-31
HK1226546A1 (zh) 2017-09-29
ZA201606744B (en) 2018-05-30
RU2016137922A (ru) 2018-05-07
PL3127112T3 (pl) 2018-12-31
KR101872138B1 (ko) 2018-06-27
HUE039636T2 (hu) 2019-01-28
BR112016022764B1 (pt) 2022-11-29
WO2015153491A1 (en) 2015-10-08
CN106133832A (zh) 2016-11-16
AU2015241092B2 (en) 2018-05-10
TW201603005A (zh) 2016-01-16
CA2941025C (en) 2018-09-25
SI3127112T1 (en) 2018-08-31
MY183933A (en) 2021-03-17
CL2016002430A1 (es) 2017-02-17
PH12016501882A1 (en) 2016-12-19
MX355917B (es) 2018-05-04
AU2015241092A1 (en) 2016-09-08

Similar Documents

Publication Publication Date Title
DK3138096T3 (en) Highband excitation signal-GENERATION
KR101809866B1 (ko) 고대역 신호 특성에 기초한 시간 이득 조정
JP6396538B2 (ja) 複数のサブバンドを使用するハイバンド信号コーディング
KR101988710B1 (ko) 미스매치된 주파수 범위들을 이용한 고-대역 신호 코딩
JP6258522B2 (ja) デバイスにおいてコーディング技術を切り替える装置および方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161213

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170728

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170728

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171206

R150 Certificate of patent or registration of utility model

Ref document number: 6258522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250