JP7130878B2

JP7130878B2 - 高分解能オーディオコーディング

Info

Publication number: JP7130878B2
Application number: JP2021540311A
Authority: JP
Inventors: ガオ，ヤン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-01-13
Filing date: 2020-01-13
Publication date: 2022-09-05
Anticipated expiration: 2040-01-13
Also published as: JP2022517992A; US11715478B2; BR112021012753A2; CN113348507A; US20210343301A1; WO2020146870A1

Description

本開示は、信号処理に、より具体的には、オーディオ信号コーディングの有効性を改善することに関係がある。

ハイディフィニションオーディオ又はＨＤオーディオとしても知られている高分解能（ハイレゾ）オーディオは、いくつかのレコード音楽小売店及び高忠実度音響再生機器供給メーカによって使用されている広告表現である。その最も簡単な表現では、ハイレゾオーディオは、１６ｂｉｔ／４４．１ｋＨｚで規定されているコンパクトディスク（ＣＤ）よりも高いサンプリング周波数及び／又はビット深度を有している音楽ファイルを指す傾向がある。ハイレゾオーディオファイルの主な主張される利点は、圧縮オーディオフォーマットに対する優れた音響品質である。再生すべきファイルに関する情報が多いほど、ハイレゾオーディオは、より詳細で、質感が高くなる傾向があり、リスナーを元の性能に近づけることができる。

ハイレゾオーディオは、ファイルサイズに関して欠点がある。ハイレゾファイルは、通常はサイズが数十メガバイトであり、数トラックでデバイス上のストレージを直ぐに使い果たす可能性がある。ストレージは以前よりもはるかに安価であるが、ファイルのサイズは依然として、ハイレゾオーディオを、圧縮なしではＷｉ－Ｆｉ又はモバイルネットワーク経由でストリーミングすることを厄介にする可能性がある。

いくつかの実施において、明細書は、オーディオ信号コーディングの有効性を改善するための技術について記載する。

第１の実施において、線形予測コーディング（ＬＰＣ）を実行する方法は、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定することと、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出することと、オーディオ信号のスペクトル安定性を検出することに応答して、前のフレームについての量子化されたＬＰＣパラメータをオーディオ信号の現在のフレームにコピーすることとを含む。

第２の実施において、電子デバイスは、命令を有する非一時的なメモリストレージと、メモリストレージと通信する１つ以上のハードウェアプロセッサとを含み、１つ以上のハードウェアプロセッサは、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定し、オーディオ信号の現在のフレームと前のフレームとの間の前分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出し、オーディオ信号のスペクトル安定性を検出することに応答して、前のフレームについての量子化されたＬＰＣパラメータをオーディオ信号の前記現在のフレームにコピーするよう、命令を実行する。

第３の実施において、非一時的なコンピュータ可読媒体は、ＬＰＣを実行するためコンピュータ命令を記憶しており、コンピュータ命令は、１つ以上のハードウェアプロセッサによって実行される場合に、１つ以上のハードウェアプロセッサに、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定することと、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出することと、オーディオ信号のスペクトル安定性を検出することに応答して、前のフレームについての量子化されたＬＰＣパラメータをオーディオ信号の前記現在のフレームにコピーすることとを含む動作を実行させる。

上記の実施は、コンピュータにより実施される方法と、コンピュータにより実施される方法を実行するようコンピュータ可読命令を記憶している非一時的なコンピュータ可読媒体と、コンピュータにより実施される方法及び非一時的なコンピュータ可読媒体に記憶されている命令を実行するよう構成されたハードウェアプロセッサと相互運用可能に結合されたコンピュータメモリを有するコンピュータ実装システムとを用いて、実施可能である。

本明細書の主題の１つ以上の実施形態の詳細は、添付の図面及び以下の記載で説明される。主題の他の特徴、態様、及び利点は、明細書、図面、及び特許請求の範囲から明らかになる。

いくつかの実施に従うＬ２ＨＣ（Low delay & Low complexity High resolution Codec）エンコーダの構造例を示す。いくつかの実施に従うＬ２ＨＣデコーダの構造例を示す。いくつかの実施に従うロー・ロー・バンド（ＬＬＢ）エンコーダの構造例を示す。いくつかの実施に従うＬＬＢデコーダの構造例を示す。いくつかの実施に従うロー・ハイ・バンド（ＬＨＢ）エンコーダの構造例を示す。いくつかの実施に従うＬＨＢデコーダの構造例を示す。いくつかの実施に従うハイ・ロー・バンド（ＨＬＢ）及び／又はハイ・ハイ・バンド（ＨＨＢ）サブバンドのためのエンコーダの構造例を示す。いくつかの実施に従うＨＬＢ及び／又はＨＨＢサブバンドのためのデコーダの構造例を示す。いくつかの実施に従う高ピッチ信号のスペクトル構造の例を示す。いくつかの実施に従う高ピッチ検出のプロセスの例を示す。いくつかの実施に従って高ピッチ信号の知覚重み付けを実行する方法の例を表すフローチャートである。いくつかの実施に従う残差量子化エンコーダの構造例を示す。いくつかの実施に従う残差量子化デコーダの構造例を示す。いくつかの実施に従って、信号に対して残差量子化を実行する方法の例を表すフローチャートである。いくつかの実施に従う有声音声の例を示す。いくつかの実施に従って長期予測（ＬＴＰ）制御を実行するプロセスの例を示す。いくつかの実施に従うオーディオ信号のスペクトルの例を示す。いくつかの実施に従って、長期予測（ＬＴＰ）を実行する方法の例を表すフローチャートである。いくつかの実施に従う線形予測コーディング（ＬＰＣ）パラメータの量子化の方法の例を表すフローチャートである。いくつかの実施に従うオーディオ信号のスペクトルの例を示す。いくつかの実施に従う電子デバイスの構造の例を表す図である。

様々な図中の同じ参照番号及び記号表示は、同じ要素を示す。

最初に理解されるべきは、１つ以上の実施形態の実例となる実施が以下で与えられているが、開示されるシステム及び／又は方法は、現在知られていようとなかろうと又は存在していようなかろうと、任意の数の技術を用いて実施されてよい点である。開示は、ここで図示及び記載されている例となる設計及び実施を含む、以下で説明されている実例となる実施、図面、及び技術に、決して限定されるべきではなく、添付の特許請求の範囲及びそれらの均等の全範囲内で変更され得る。

ハイディフィニションオーディオ又はＨＤオーディオとしても知られている高分解能（ハイレゾ）オーディオは、いくつかのレコード音楽小売店及び高忠実度音響再生機器供給メーカによって使用されている広告表現である。ハイレゾオーディオは、ハイレゾ規格をサポートするより多くの製品、ストリーミングサービス、更にはスマートフォンの発売のおかげで、ゆっくりとしかし確実に主流になりつつある。しかし、ハイディフィニションビデオとは異なり、ハイレゾオーディオのための単一の汎用的な規格は存在しない。デジタル・エンターテイメント・グループ、コンシューマ・エレクトロニクス・アソシエーション、及びレコーディング・アカデミーは、レコードレーベルとともに、ハイレゾオーディオを、「ＣＤ品質よりも優れた音楽ソースからマスタリングされた録音から全範囲のサウンドを再生できるロスレスオーディオ」と公式に定義している。その最も簡単な表現では、ハイレゾオーディオは、１６ｂｉｔ／４４．１ｋＨｚで規定されているコンパクトディスク（ＣＤ）よりも高いサンプリング周波数及び／又はビット深度を有している音楽ファイルを指す傾向がある。サンプリング周波数（又はサンプルレート）は、アナログ－デジタル変換プロセス中に１秒あたりに信号のサンプルが取得される回数を指す。ビットが多ければ多いほど、ますます正確に信号は最初に測定可能である。従って、ビット深度が１６ｂｉｔから２４ｂｉｔにすることは、品質の著しい向上をもたらし得る。ハイレゾファイルは、通常は、２４ｂｉｔで９６ｋＨｚの（又はそれよりずっと高い）サンプリング周波数を使用する。いくつかの場合に、８８．２ｋＨｚのサンプリング周波数も、ハイレゾオーディオファイルのために使用されることがある。ＨＤオーディオとラベル付けされた４４．１ｋＨｚ／２４ｂｉｔの録音も存在する。

独自の互換性要件を備えたいくつかの異なるハイレゾオーディオファイルフォーマットが存在する。高分解能オーディオを保存可能なファイル形式には、一般的なＦＬＡＣ（Free Lossless Audio Codec）形式及びＡＬＡＣ（Apple Lossless Audio Codec）があり、どちらも圧縮されているが、理論的には情報が失われることはない。その他の形式には、非圧縮のＷＡＶ及びＡＩＦＦ形式、ＤＳＤ（スーパーオーディオＣＤに使用される形式）、並びに最新のＭＱＡ（Master Quality Authenticated）が含まれる。以下は、主なファイル形式の内訳である。

ＷＡＶ（ハイレゾ）：全てのＣＤが符号化される標準フォーマット。優れた音質であるが、非圧縮であり、（特にハイレゾファイルの場合に）巨大なファイルサイズを意味する。メタデータ（つまり、アルバムアートワーク、アーティスト、曲のタイトル情報）のサポートが不十分である。

ＡＩＦＦ（ハイレゾ）：ＷＡＶに対するアップルの代替手段であり、より良いメタｑデータサポートを備える。ロスレスかつ非圧縮であるが（故に、ファイルサイズが大きい）、それほど一般的ではない。

ＦＬＡＣ（ハイレゾ）：このロスレス圧縮フォーマットは、ハイレゾサンプルレートをサポートし、ＷＡＶの約半分のスペースしか占有せずにメタデータを記憶する。ロイヤリティフリーで広くサポートされており（ただし、アップルはサポートしていない）、ハイレゾアルバムをダウンロードして記憶するための推奨フォーマットと見なされる。

ＡＬＡＣ（ハイレゾ）：アップル独自のロスレス圧縮形式もハイレゾを実行し、メタデータを記憶し、ＷＡＶＥの半分のスペースしか占有しない。ＦＬＡＣに対するｉＴｕｎｅｓ及びｉＯＳ対応の代替手段。

ＤＳＤ（ハイレゾ）：スーパーオーディオＣＤに使用されるシングルビットフォーマット。２．５ＭＨｚ、５．６ＭＨｚ、１１．２ＭＨｚの種類があるが、広くサポートされていない。

ＭＱＡ（ハイレゾ）：時間領域により重点を置いてハイレゾファイルをパッケージ化するロスレス圧縮形式。ＴｉｄａｌＭａｓｔｅｒｓのハイレゾストリーミングに使用されるが、製品間でのサポートは限られている。

ＭＰ３（非ハイレゾ）：人気のある非可逆フォーマットは、ファイルサイズを小さくすることはできるが、最高の音質にはほど遠いものである。スマートフォン及びｉＰｏｄに音楽を保存するのに便利であるが、ハイレゾには対応していない。

ＡＡＣ（非ハイレゾ）：ＭＰ３に対する代替手段であり、非可逆圧縮であるが、サウンドは優れている。ｉＴｕｎｅｓのダウンロード、ＡｐｐｌｅＭｕｓｉｃストリーミング（２５６ｋｂｐｓ）、及びＹｏｕＴｕｂｅストリーミングに使用される。

ハイレゾオーディオファイルの主な主張される利点は、圧縮オーディオフォーマットに対する優れた音響品質である。Ａｍａｚｏｎ及びｉＴｕｎｅｓなどのサイトからのダウンロード、並びにＳｐｏｔｉｆｙなどのストリーミングサービスは、ＡｐｐｌｅＭｕｓｉｃの２５６ｋｂｐｓＡＡＣファイル及びＳｐｏｔｉｆｙの３２０ｋｂｐｓＯｇｇＶｏｒｂｉｓストリームなど、ビットレートが比較的に低い圧縮ファイル形式を使用する。非可逆圧縮の使用は、符号化プロセスでデータが失われることを意味し、転じて、分解能が利便性及びより小さいファイルサイズのために犠牲にされることを意味する。これは、音響品質に対して影響を与える。例えば、最高品質のＭＰ３は３２０ｋｂｐｓのビットレートを有し、一方、２４ｂｉｔ／１９２ｋＨｚファイルは９２１６ｋｂｐｓのデータレートを有する。音楽ＣＤは１４１１ｋｂｐｓである。ハイレゾ２４ｂｉｔ／９６ｋＨｚ又は２４ｂｉｔ／１９２ｋＨｚファイルは、従って、ミュージシャン及びエンジニアがスタジオで作業していた音響品質をより厳密に再現するはずである。再生すべきファイルに関する情報が多いほど、ハイレゾオーディオは、より詳細で、質感が高くなる傾向があり、リスナーを元の性能に近づけることができる。

ハイレゾオーディオを再生及びサポートすることができる非常に多様な製品が存在する。それは全て、システムの大きさ、予算の大きさ、及び曲を聴くために主に使用される方法に応じて異なっている。ハイレゾオーディオをサポートする製品の例を以下に示す。

スマートフォン
スマートフォンは、ハイレゾ再生をますますサポートしている。ただし、これは、現在のＳａｍｓｕｎｇＧａｌａｘｙＳ９及びＳ９＋並びにＮｏｔｅ９（それは全て、ＤＳＤファイルをサポートしている）、更にＳｏｎｙのＸｐｅｒｉａＸＺ３などの主力Ａｎｄｒｏｉｄモデルに限定されている。ＬＧのＶ３０及びＢ３０ＴｈｉｎＱのハイレゾ対応電話機は、現在、ＭＱＡ互換性を提供するものであり、一方、ＳａｍｓｕｎｇのＳ９電話機は、ＤｏｌｂｙＡｔｏｍｏｓもサポートしている。ＡｐｐｌｅｉＰｈｏｎｅは、これまでのところ、製品入手後直ぐにはハイレゾオーディオをサポートしないが、正規のアプリを使用し、それから、デジタル－アナログコンバータ（ＤＡＣ）を接続するか、あるいは、ｉＰｈｏｎｅのＬｉｇｈｔｎｉｎｇコネクタとともにＬｉｇｈｔｎｉｎｇヘッドフォンを使用することによって、これを解決する。

タブレット
ハイレゾ再生タブレットも存在し、ＳａｍｓｕｎｇＧａｌａｘｙＴａｂＳ４のようなものを含む。ＭＷＣ２０１８では、ＨｕａｗｅｉのＭ５シリーズ及びオンキョーの魅力的なＧｒａｎｂｅａｔタブレットを含む、互換性のある新しいモデルが多数発売された。

ポータブル音楽プレイヤー
代替的に、様々なＳｏｎｙＷａｌｋｍａｎ及びＡｓｔｅｌｌ＆Ｋｅｒｎの受賞歴のあるポータブルプレイヤーなどの専用のポータブルハイレゾ音楽プレイヤーがある。それらの音楽プレイヤーは、マルチタスクのスマートフォンよりも多くの記憶空間及びはるかに優れた音響品質を提供する。また、従来のポータブルにはほど遠いものの、驚くほど高価なＳｏｎｙＤＭＰ－Ｚ１デジタル音楽プレイヤーには、ハイレゾ及びダイレクト・ストリーム・デジタル（ＤＳＤ）の才能が満載である。

デスクトップ
デスクトップソリューションについては、ラップトップ（Ｗｉｎｄｏｗｓ、Ｍａｃ、Ｌｉｎｕｘ）がハイレゾ音楽を保存及び再生する主要ソースである（結局のところ、これは、ハイレゾのダウンロードサイトからの曲がどうにかダウンロードされる場所である）。

ＤＡＣ
ＵＳＢ又はデスクトップＤＡＣ（例えば、ＣｙｒｕｓｓｏｕｎｄＫｅｙ又はＣｈｏｒｄＭｏｊｏ）は、コンピュータ又はスマートフォン（音声回路が音響品質のために最適化されていない傾向があるもの）に保存されているハイレゾファイルから優れた音響品質を引き出すための優れた方法である。瞬時に音をブーストするためにソースとヘッドフォンとの間に適切なデジタル－アナログコンバータ（ＤＡＣ）を単にプラグ接続する。

非圧縮オーディオファイルは、完全なオーディオ入力信号を、入来データの完全な負荷を保存可能なデジタルフォーマットに符号化する。それらは、多くの場合にそれらの広範な使用を妨げながら大きなファイルサイズを犠牲にして、最高の品質及びアーカイブ機能を提供する。ロスレス符号化は、非圧縮と非可逆との中間に位置する。それは、同等又は同じオーディオ品質を、縮小されたサイズで、非圧縮オーディオファイルに付与する。ロスレスコーデックは、デコード時に非圧縮情報を回復する前に、エンコード時に非破壊的な方法で入来オーディオを圧縮することによって、これを達成する。ロスレス符号化されたオーディオのフルサイズは、多くの用途にとって依然として大きすぎる。非可逆ファイルは、非圧縮又はロスレスとは異なる方法で符号化される。アナログ－デジタル変換の本質的な機能は、非可逆符号化技術でも同である。非可逆は、非圧縮から分岐する。非可逆コーデックは、主観的なオーディオ品質を元の音波にできるだけ近づけようとしながら、元の音波に含まれているかなりの量の情報を破棄する。このため、非可逆オーディオファイルは、非圧縮オーディオファイルよりも相当に小さく、ライブオーディオシナリオでの使用を可能にする。非可逆オーディオファイルと非圧縮オーディオファイルとの間に主観的な品質の差がないならば、非可逆オーディオファイルの品質は「トランスペアレント」と見なされ得る。近年、いくつかの高分解非可逆オーディオコーデックが開発されており、その中でも、ＬＤＡＣ（Ｓｏｎｙ）及びａｐｔＸ（Ｑｕａｌｏｃｏｍｍ）は、最も人気のあるものである。ＬＨＤＣ（Ｓａｖｉｔｅｃｈ）もそれらのうちの１つである。

消費者及びハイエンドオーディオ会社は、これまで以上に最近Ｂｌｕｅｔｏｏｔｈオーディオについてより多く話している。ワイヤレスヘッドセット、ハンズフリーイヤピース、自動車、又はコネクテッドホームなど、優れた品質のＢｌｕｅｔｏｏｔｈオーディオの使用ケースが増えつつある。多くの会社が、入手後直ぐに使用可能なＢｌｕｅｔｏｏｔｈソリューションのまあまあの性能を超えるソリューションを搭載している。ＱｕａｌｏｃｏｍｍのａｐｔＸは、既に多くのＡｎｄｒｏｉｄ電話機に搭載されているが、マルチメディアの巨人であるＳｏｎｙは、ＬＤＡＣと呼ばれる独自のハイエンドソリューションを持っている。この技術は、以前は、ＳｏｎｙのＸｐｅｒｉａシリーズのハンドセットでしか利用可能でなかったが、Ａｎｄｒｏｉｄ８．０Ｏｒｅｐのロールアウトにより、Ｂｌｕｅｔｏｏｔｈコーデックは、必要に応じて、他のＯＥＭＳが実装するためのコアＡＯＳＰコーデックの部分として利用できるようになる。最も基本的なレベルでは、ＬＤＡＣは、Ｂｌｕｅｔｏｏｔｈを介した無線での２４ｂｉｔ／９６ｋＨｚ（ハイレゾ）の伝送をサポートする。最も近い競合コーデックは、２４ｂｉｔ／４８ｋＨｚオーディオデータをサポートするＱｕａｌｏｃｏｍｍのａｐｔＸＨＤである。ＬＤＡＣは、３つの異なったタイプの接続モード、すなわち、品質優先、通常、及び接続優先、を搭載している。これらの夫々は、異なったビットレートを提供し、９９０ｋｂｐｓ,６６０ｋｂｐｓ、及び３３０ｋｂｐｓで夫々動作する。従って、利用可能な接続のタイプに応じて、様々なレベルの品質が存在する。ＬＤＡＣの最低ビットレートは、ＬＤＡＣが誇る完全な２４ｂｉｔ／９６ｋＨｚを与えないことが、明らかである。ＬＤＡＣは、Ｓｏｎｙによって開発されたオーディオコーディング技術であり、２４ｂｉｔ／９６ｋＨｚで最高９９０ｋｂｉｔ／ｓのＢｌｕｅｔｏｏｔｈ接続によりデータをストリーミングすることを可能にする。それは、ヘッドフォン、スマートフォン、ポータブルメディアプレイヤー、アクティブスピーカ及びホームシアターを含む様々なＳｏｎｙ製品で使用されている。ＬＤＡＣは非可逆コーデックであり、より効率的なデータ圧縮を提供するためにＭＤＣＴに基づいたコーディングスキームを採用している。ＬＤＡＣの主な競合相手は、ＱｕａｌｏｃｏｍｍのａｐｔＸＨＤである。高品質の、標準的な、複雑性の低いサブバンドコーデック（ＳＢＣ）は、最大３２８ｋｂｐｓでクロックインし、ＱｕａｌｏｃｏｍｍのａｐｔＸでは３５２ｋｂｐｓ、ａｐｔＸＨＤでは５７６ｋｂｐｓである。紙の上では、９９０ｋｂｐｓのＬＤＡＣは、他のどのＢｌｕｅｔｏｏｔｈコーデックよりもはるかに多くのデータを伝送する。また、ローエンドの接続優先度設定でさえ、ＳＢＣ及びａｐｔＸに匹敵し、最も人気のあるサービスから音楽をストリーミングする人の要求に応じる。ＳｏｎｙのＬＤＡＣには２つの主な部分がある。第１の部分は、９９０ｋｂｐｓに達するほど十分に速いＢｌｕｅｔｏｏｔｈ転送速度を達成することであり、第２の部分は、品質の低下を最小限に抑えながら、高分解能オーディオデータをこの帯域幅に圧縮することである。ＬＤＡＣは、通常のＡ２ＤＰ（Advanced Audio Distribution Profile）プロファイルの制限を超えてデータ速度を向上させるために、Ｂｌｕｅｔｏｏｔｈの任意のエンハンスド・データ・レート（ＥＤＲ）技術を使用する。しかし、これは、ハードウェアに依存する。ＥＤＲ速度は、通常は、Ａ２ＤＰオーディオプロファイルによって使用されない。

元のａｐｔＸアルゴリズムは、音響心理学的聴覚マスキング技術によらない時間領域適応差分パルス符号変調（ＡＤＰＣＭ）原理に基づいていた。ＱｕａｌｏｃｏｍｍのａｐｔＸオーディオコーディングは、最初に、半導体製品として市場に導入され、部品名ＡＰＴＸ１００ＥＤのカスタムプログラムＤＳＰ集積回路が、当初は、ラジオ番組中の自動再生のために、例えば、従って、ディスクジョッキーの作業を置き換えるためにコンピュータハードディスクドライブにＣＤ品質のオーディオを保存する手段を必要とした放送自動化装置製造業者によって採用された。１９９０年代初頭の商業的に導入されて以来、実時間のオーディオデータ圧縮のためのａｐｔＸアルゴリズムの範囲は拡大し続けており、知的財産が、プロのオーディオ、テレビ、及びラジオ放送、並びにコンシューマ・エレクトロニクス、特に、ワイヤレスオーディオ、ゲーム及びビデオのための低遅延ワイヤレスオーディオ、並びにＡｕｄｉｏｏｖｅｒＩＰにおける応用のために、ソフトウェア、ファームウェア、及びプログラム可能なハードウェアの形で利用可能になっている。更には、ａｐｔＸコーデックは、ＳＢＣ（sub-band coding）、ＢｌｕｅｔｏｏｔｈのＡ２ＤＰに対してＢｌｕｅｔｏｏｔｈＳＩＧによって義務づけられている非可逆ステレオ／モノオーディオストリーミング用のサブバンドコーディングスキーム、短距離無線パーソナル・エリア・ネットワーク規格の代わりに、使用され得る。ａｐｔＸは、高性能Ｂｌｕｅｔｏｏｔｈ周辺機器でサポートされている。今日、ａｐｔＸ及びエンハンスドａｐｔＸ（Ｅ－ａｐｔＸ）の両方の規格が、多数の放送機器メーカからＩＳＤＮ及びＩＰオーディオコーデックハードウェアの両方で使用されている。最大８：１圧縮を提供するａｐｔＸＬｉｖｅの形式のａｐｔＸファミリーの追加が、２００７年に導入された。また、非可逆であるがスケーラブルな適応オーディオコーデックであるａｐｔＸＨＤが、２００９年４月に発表された。ａｐｔＸは、２０１０年にＣＳＲｐｌｃに買収されるまで、以前はａｐｔ－Ｘと呼ばれていた。その後、ＣＳＲは、２０１５年８月にＱｕａｌｏｃｏｍｍによって買収された。ａｐｔＸオーディオコーデックは、消費者向け及び自動車用のワイヤレスオーディオ用途、特に、「ソース」デバイス（例えば、スマートフォン、タブレット又はラップトップ）と「シンク」アクセサリ（例えば、Ｂｌｕｅｔｏｏｔｈステレオスピーカ、ヘッドセット又はヘッドフォン）との間のＢｌｕｅｔｏｏｔｈＡ２ＤＰ接続／ペアリングを経由した非可逆ステレオオーディオのリアルタイムストリーミング、に使用される。Ｂｌｕｅｔｏｏｔｈ規格によって義務づけられているデフォルトのサブバンドコーディング（ＳＢＣ）に対するａｐｔＸオーディオコーディングの音響上の利点を引き出すために、この技術は送信器及び受信器の両方に組み込まれるべきである。エンハンスドａｐｔＸは、プロのオーディオ放送用途のために４：１圧縮比でコーディングを提供し、ＡＭ、ＦＭ、ＤＡＰ、ＨＤＲａｄｉｏに適している。

ＥｎｈａｎｃｅｄａｐｔＸは、１６、２０又は２４ビットのビット深度をサポートする。４８ｋＨｚでサンプリングされたオーディオの場合に、Ｅ－ａｐｔＸのビットレートは３８４ｋｂｉｔ／ｓ（デュアルチャネル）である。ａｐｔＸＨＤは、５７６ｋｂｉｔ／ｓのビットレートを有する。それは、最大４８ｋＨｚのサンプリングレート及び最大２４ｂｉｔのサンプル分解能のハイディフィニションオーディオをサポートする。名称が示唆しているのとは異なり、コーデックは依然として非可逆と見なされる。しかし、それは、平均又はピーク圧縮データレートが制約されたレベルで制限されるべきである用途のための「ハイブリッド」コーディングスキームを可能にする。これは、完全にロスレスのコーディングが帯域幅制約により不可能であるオーディオのセクションのための「ほぼロスレス」のコーディングの動的な適用を含む。「ほぼロスレス」のコーディングは、最大２０ｋＨｚのオーディオ周波数及び少なくとも１２０ｄＢのダイナミックレンジを保ちながら、ハイディフィニションオーディオ品質を維持する。その主な競合相手は、Ｓｏｎｙによって開発されたＬＤＡＣコーデックである。ａｐｔＸＨＤ内の他のスケーラブルパラメータは、コーディングレイテンシである。それは、圧縮のレベル及び計算複雑性などの他のパラメータと動的に交換可能である。

ＬＨＤＣは、low latency and high-definition audio codecの略語であり、Ｓａｖｉｔｅｃｈによって発表されている。ＢｌｕｅｔｏｏｔｈＳＢＣオーディオフォーマットと比較して、ＬＨＤＣは、最もリアルかつハイディフィニションのワイヤレスオーディオを提供し、かつ、ワイヤレスオーディオデバイスと有線オーディオデバイスとの間でオーディオ品質の格差をなくすために、３倍以上の伝送データを許可することができる。伝送データの増大は、ユーザがより多くの詳細及びより良い音場を経験し、音楽の感情に没入することを可能にする。しかし、３倍以上のＳＢＣデータレートは、多くの実用な用途にとって高すぎる可能性がある。

図１は、いくつかの実施に従うＬ２ＨＣ（Low delay & Low Complexity High resolution Codec）エンコーダ１００の構造例を示す。図２は、いくつかの実施に従うＬ２ＨＣデコーダ２００の構造例を示す。一般に、Ｌ２ＨＣは、まあまあ低いビットレートで「トランスペアレント」品質を提供することができる。いくつかの場合に、エンコーダ１００及びデコーダ２００は、単一のコーデックデバイスで実装されてよい。いくつかの場合に、エンコーダ１００及びデコーダ２００は、異なるデバイスで実装されてもよい。いくつかの場合に、エンコーダ１００及びデコーダ２００は、如何なる適切なデバイスでも実装されてよい。いくつかの場合に、エンコーダ１００及びデコーダ２００は、同じアルゴリズム遅延（例えば、同じフレームサイズ又は同数のサブフレーム）を有してよい。いくつかの場合に、サンプル内のサブフレームサイズは固定であることができる。例えば、サンプリングレートが９６ｋＨｚ又は４８ｋＨｚである場合に、サブフレームサイズは１９２又は９６サンプルであることができる。各フレームは、異なるアルゴリズム遅延に対応する１、２、３、４、又は５個のサンプルを有することができる。いくつかの例では、エンコーダ１００の入力サンプリングレートが９６ｋＨｚであるとき、デコーダ２００の出力サンプリングレートは９６ｋＨｚ又は４８ｋＨｚであってよい。いくつかの例では、エンコーダ１００の入力サンプリングレートが４８ｋＨｚであるとき、デコーダ２００の出力サンプリングレートはやはり９６ｋＨｚ又は４８ｋＨｚであってよい。いくつかの場合に、エンコーダ１００の入力サンプリングレートが４８ｋＨｚであり、デコーダ２００の出力サンプリングレートが９６ｋＨｚである場合には、高い帯域が人工的に加えられる。

いくつかの例では、エンコーダ１００の入力サンプリングレートが８８．２ｋＨｚであるとき、デコーダ２００の出力サンプリングレートは８８．２ｋＨｚ又は４４．１ｋＨｚであってよい。いくつかの例では、エンコーダ１００の入力サンプリングレートが４４．１ｋＨｚであるとき、デコーダ２００の出力サンプリングレートはやはり８８．２ｋＨｚ又は４４．１ｋＨｚであってよい。同様に、エンコーダ１００の入力サンプリングレートが４４．１ｋＨｚであり、デコーダ２００の出力サンプリングレートが８８．２ｋＨｚである場合には、高い帯域がやはり人工的に加えられてもよい。それは、９６ｋＨｚ又は８８．２ｋＨｚ入力信号を符号化するのと同じエンコーダである。それはまた、４８ｋＨｚ又は４４．１ｋＨｚ入力信号を符号化するのと同じエンコーダである。

いくつかの場合に、Ｌ２ＨＣエンコーダ１００で、入力信号ビット深度は３２ｂ、２４ｂ又は１６ｂであってよい。Ｌ２ＨＣデコーダ２００で、出力信号ビット深度も３２ｂ、２４ｂ又は１６ｂであってよい。いくつかの場合に、エンコーダ１００でのエンコーダビット深度及びデコーダ２００でのデコーダビット深度は異なってもよい。

いくつかの場合に、コーディングモード（例えば、ＡＢＲ＿ｍｏｄｅ）はエンコーダ１００でセット可能であり、実行中に実時間で変更可能である。いくつかの場合に、ＡＢＲ＿ｍｏｄｅ＝０は高ビットレートを示し、ＡＢＲ＿ｍｏｄｅ＝１は中間ビットレートを示し、ＡＢＲ＿ｍｏｄｅ＝２は低ビットレートを示す。いくつかの場合に、ＡＢＲ＿ｍｏｄｅ情報は、２ビットを費やすことによってビットストリームチャネルを通じてデコーダ２００へ送信され得る。チャネルのデフォルト数は、それがＢｌｕｅｔｏｏｔｈイヤホン用途のためである場合にはステレオ（２チャネル）であることができる。いくつかの例では、ＡＢＲ＿ｍｏｄｅ＝２の場合の平均ビットレートは３７０から４００ｋｂｐｓであってよく、ＡＢＲ＿ｍｏｄｅ＝１の場合の平均ビットレートは４５０から５５０ｋｂｐｓであってよく、ＡＢＲ＿ｍｏｄｅ＝０の場合の平均ビットレートは５５０から７１０ｋｂｐｓであってよい。いくつかの場合に、全ての場合／モードの最大瞬時ビットレートは９９０ｋｂｐｓに満たなくてもよい。

図１に示されるように、エンコーダ１００は、プリエンファシスフィルタ１０４、直交ミラーフィルタ（ＱＭＦ）解析フィルタバンク１０６、ロー・ロー・バンド（ＬＬＢ）エンコーダ１１８、ロー・ハイ・バンド（ＬＨＢ）エンコーダ１２０、ハイ・ロー・バンド（ＨＬＢ）エンコーダ１２２、ハイ・ハイ・バンド（ＨＨＢ）エンコーダ１２４、及びマルチプレクサ１２６を含む。元の入力デジタル信号１０２は、最初に、プリエンファシスフィルタ１０４によって強調される。いくつかの場合に、プリエンファシスフィルタ１０４は、一定ハイパスフィルタであってよい。プリエンファシスフィルタ１０４は、ほとんどの音楽信号が、高周波帯域エネルギよりもずっと高い低周波帯域エネルギを含むということで、ほとんどの音楽信号にとって有益である。高周波帯域エネルギの増大は、高周波帯域信号の処理精度を高めることができる。

プリエンファシスフィルタ１０４の出力は、４つのサブバンド信号、すなわち、ＬＬＢ信号１１０、ＬＨＢ信号１１２、ＨＬＢ信号１１４、及びＨＨＢ信号１１６を生成するよう、ＱＭＦ解析フィルタバンク１０６を通過する。一例では、元の入力信号は、９６ｋＨｚサンプリングレートで生成される。この例では、ＬＬＢ信号１１０は０～１２ｋＨｚサブバンドを含み、ＬＨＢ信号１１２は１２～２４ｋＨｚサブバンドを含み、ＨＬＢ信号１１４は２４～３６ｋＨｚサブバンドを含み、ＨＨＢ信号１１６は３６～４８ｋＨｚサブバンドを含む。図示されるように、４つのサブバンド信号の夫々は、符号化サブバンド信号を生成するよう、ＬＬＢエンコーダ１１８、ＬＨＢエンコーダ１２０、ＨＬＢエンコーダ１２２、及びＨＨＢエンコーダ１２４によって夫々符号化される。４つの符号化された信号は、符号化オーディオ信号を生成するよう、マルチプレクサ１２６によって多重化されてよい。

図２に示されるように、デコーダ２００は、ＬＬＢデコーダ２０４、ＬＨＢデコーダ２０６、ＨＬＢデコーダ２０８、ＨＨＢデコーダ２１０、ＱＭＦ合成フィルタバンク２１２、後処理コンポーネント２１４、及びデエンファシスフィルタ２１６を含む。いくつかの場合に、ＬＬＢデコーダ２０４、ＬＨＢデコーダ２０６、ＨＬＢデコーダ２０８、及びＨＨＢデコーダ２１０の各１つは、チャネル２０２から符号化サブバンド信号を夫々受信し、復号化サブバンド信号を生成してよい。４つのデコーダ２０４～２１０からの復号化サブバンド信号は、出力信号を生成するよう、ＱＭＦ合成フィルタバンク２１２を通じて再び合わせられ得る。出力信号は、必要に応じて後処理コンポーネント２１４によって後処理され、それから、復号化オーディオ信号２１８を生成するようデエンファシスフィルタ２１６によって強調を抑えられてよい。いくつかの場合に、デエンファシスフィルタ２１６は、一定フィルタであってよく、エンファシスフィルタ１０４の逆フィルタであってよい。一例では、復号化オーディオ信号２１８は、エンコーダ１００の入力オーディオ信号（例えば、オーディオ信号１０２）と同じサンプリングレートでデコーダ２００によって生成されてよい。この例では、復号化オーディオ信号２１８は、９６ｋＨｚサンプリングレートで生成される。

図３及び図４は、ＬＬＢエンコーダ３００及びＬＬＢデコーダ４００の構造例を夫々表す。図３に示されるように、ＬＬＢエンコーダ３００は、高スペクトル傾斜検出コンポーネント３０４、傾斜フィルタ３０６、線形予測コーディング（ＬＰＣ）解析コンポーネント３０８、逆ＬＰＣフィルタ３１０、長期予測（ＬＴＰ）条件コンポーネント３１２、高ピッチ検出コンポーネント３１４、重み付けフィルタ３１６、高速ＬＴＰ寄与コンポーネント３１８、加算関数ユニット３２０、ビットレート制御コンポーネント３２２、初期残差量子化コンポーネント３２４、ビットレート調整コンポーネント３２６、及び高速量子化最適化コンポーネント３２８を含む。

図３に示されるように、ＬＬＢサブバンド信号３０２は、最初に、スペクトル傾斜検出コンポーネント３０４によって制御される傾斜フィルタ３０６を通る。いくつかの場合に、傾斜フィルタ処理されたＬＬＢ信号が傾斜フィルタ３０６によって生成される。傾斜フィルタ処理されたＬＬＢ信号は、次いで、ＬＬＢサブバンドでＬＰＣフィルタパラメータを生成するよう、ＬＰＣ解析コンポーネント３０８によってＬＰＣ解析されてよい。いくつかの場合に、ＬＰＣフィルタパラメータは、量子化され、ＬＬＢデコーダ４００へ送信されてよい。逆ＬＰＣフィルタ３１０は、傾斜フィルタ処理されたＬＬＢ信号にフィルタをかけ、ＬＬＢ残差信号を生成するために使用され得る。この残差信号領域では、重み付けフィルタ３１６が高ピッチ信号のために加えられる。いくつかの場合に、重み付けフィルタ３１６は、高ピッチ検出コンポーネント３１４による高ピッチ検出に応じてオン又はオフを切り替えられ得る。この詳細は、以下で更に詳細に説明される。いくつかの場合に、重み付けされたＬＬＢ残差信号が、重み付けフィルタ３１６によって生成され得る。

図３に示されるように、重み付けされたＬＬＢ残差信号はリファレンス信号になる。いくつかの場合に、強い周期性が元の信号に存在する場合に、ＬＴＰ（Long-Term Prediction）寄与が、ＬＴＰ条件３１２に基づいて高速ＬＴＰ寄与コンポーネント３１８によって導入されてよい。エンコーダ３００において、ＬＴＰ寄与は、初期ＬＬＢ残差量子化コンポーネント３２４のための入力信号になる第２の重み付けされたＬＬＢ残差信号を生成するよう、重み付けされたＬＬＢ残差信号から加算関数ユニット３２０によって減じられてよい。いくつかの場合に、初期ＬＬＢ残差量子化コンポーネント３２４の出力信号は、量子化されたＬＬＢ残差信号３３０を生成するよう高速量子化最適化コンポーネント３２８によって処理されてよい。いくつかの場合に、量子化されたＬＬＢ残差信号３３０は、（ＬＴＰが存在する場合に）ＬＴＰパラメータとともに、ビットストリームチャネルを通じてＬＬＢデコーダ４００へ送信されてよい。

図４は、ＬＬＢデコーダ４００の構造例を示す。図示されるように、ＬＬＢデコーダ４００は、量子化残差コンポーネント４０６、高速ＬＴＰ寄与コンポーネント４０８、ＬＴＰスイッチフラグコンポーネント４１０、加算関数ユニット４１４、逆重み付けフィルタ４１６、高ピッチフラグコンポーネント４２０、ＬＰＣフィルタ４２２、逆傾斜フィルタ４２４、及び高スペクトル傾斜フラグコンポーネント４２８を含む。いくつかの場合に、量子化残差コンポーネント４０６からの量子化された残差信号及び高速ＬＴＰ寄与コンポーネント４０８からのＬＴＰ寄与信号は、逆重み付けフィルタ４１６への入力信号として重み付けされたＬＬＢ残差信号を生成するよう、加算関数ユニット４１４によって足し合わされてよい。

いくつかの場合に、逆重み付けフィルタ４１６は、重み付けを取り除いて、ＬＬＢ量子化残差信号のスペクトル平坦性を回復するために使用されてよい。いくつかの場合に、回復されたＬＬＢ残差信号が、逆重み付けフィルタ４１６によって生成され得る。回復されたＬＬＢ残差信号は、信号領域でＬＬＢ信号を生成するよう、ＬＰＣフィルタ４２２によって再びフィルタをかけられてよい。いくつかの場合に、傾斜フィルタ（例えば、傾斜フィルタ３０６）がＬＬＢエンコーダ３００に存在する場合に、ＬＬＢデコーダ４００でのＬＬＢ信号は、高スペクトル傾斜フラグコンポーネント４２８によって制御される逆傾斜フィルタ４２４によってフィルタをかけられてよい。いくつかの場合に、復号されたＬＬＢ信号４３０が、逆傾斜フィルタ４２４によって生成され得る。

図５及び図６は、ＬＨＢエンコーダ５００及びＬＨＢデコーダ６００の構造例を表す。図５に示されるように、ＬＨＢエンコーダ５００は、ＬＰＣ解析コンポーネント５０４、逆ＬＰＣフィルタ５０６、ビットレート制御コンポーネント５１０、初期残差量子化コンポーネント５１２、及び高速量子化最適化コンポーネント５１４を含む。いくつかの場合に、ＬＨＢサブバンド信号５０２は、ＬＨＢサブバンドでＬＰＣフィルタパラメータを生成するよう、ＬＰＣ解析コンポーネント５０４によってＬＰＣ解析されてよい。いくつかの場合に、ＬＰＣフィルタパラメータは、量子化され、ＬＨＢデコーダ６００へ送信され得る。ＬＨＢサブバンド信号５０２は、エンコーダ５００において逆ＬＰＣフィルタ５０６によってフィルタをかけられてよい。いくつかの場合に、ＬＨＢ残差信号が、逆ＬＰＣフィルタ５０６によって生成されてよい。ＬＨＢ残差信号は、ＬＨＢ残差量子化のための入力信号になり、量子化されたＬＨＢ残差信号５１６を生成するよう初期残差量子化コンポーネント５１２及び高速量子化最適化コンポーネント５１４によって処理され得る。いくつかの場合に、量子化されたＬＨＢ残差信号５１６は、その後にＬＨＢデコーダ６００へ送信されてよい。図６に示されるように、ビット６０２から取得された量子化された残差６０４は、復号されたＬＨＢ信号６０８を生成するよう、ＬＨＢサブバンドについてＬＰＣフィルタ６０６によって処理されてよい。

図７及び図８は、ＨＬＢ及び／又はＨＨＢサブバンドのためのエンコーダ７００及びデコーダ８００の構造例を表す。図示されるように、エンコーダ７００は、ＬＰＣ解析コンポーネント７０４、逆ＬＰＣフィルタ７０６、ビットレートスイッチコンポーネント７０８、ビットレート制御コンポーネント７１０、残差量子化コンポーネント７１２、及びエネルギエンベロープ量子化コンポーネント７１４を含む。一般に、ＨＬＢ及びＨＨＢは両方とも、比較的に高い周波数領域に位置している。いくつかの場合に、それらは、２つの可能な方法で符号化及び復号化される。例えば、ビットレートが十分に高い（例えば、９６ｋＨｚ／２４ｂｉｔステレオコーディングの場合に、７００ｋｂｐｓよりも高い）場合に、それらはＬＨＢのように符号化及び復号化されてよい。一例では、ＨＬＢ又はＨＨＢサブバンド信号７０２は、ＨＬＢ又はＨＨＢサブバンドでＬＰＣフィルタパラメータを生成するよう、ＬＰＣ解析コンポーネント７０４によってＬＰＣ解析されてよい。いくつかの場合に、ＬＰＣフィルタパラメータは、量子化され、ＨＬＢ又はＨＨＢデコーダ８００へ送信されてよい。ＨＬＢ又はＨＨＢサブバンド信号７０２は、ＨＬＢ又はＨＨＢ残差信号を生成するよう逆ＬＰＣフィルタ７０６によってフィルタをかけられてよい。ＨＬＢ又はＨＨＢ残差信号は、残差量子化のための対象信号となり、量子化されたＨＬＢ又はＨＨＢ残差信号７１６を生成するよう残差量子化コンポーネント７１２によって処理されてよい。量子化されたＨＬＢ又はＨＨＢ残差信号７１６は、その後にデコーダ側（例えば、デコーダ８００）へ送信され、復号されたＨＬＢ又はＨＨＢ信号８１４を生成するよう残差デコーダ８０６及びＬＰＣフィルタ８１２によって処理されてよい。

いくつかの場合に、ビットレートが比較的に低い（例えば、９６ｋＨｚ／２４ｂｉｔステレオに、５００ｋｂｐｓより低い）場合に、ＨＬＢ又はＨＨＢサブバンドについてＬＰＣ解析コンポーネント７０４によって生成されたＬＰＣフィルタのパラメータは、依然として量子化され、デコーダ側（例えば、デコーダ８００）へ送信されてよい。しかし、ＨＬＢ又はＨＨＢ残差信号は、如何なるビットも費やさずに生成可能であり、残差信号の時間領域エネルギエンベロープのみが量子化され、非常に低いビットレート（例えば、エネルギエンベロープを符号化するために３ｋｂｐｓに満たない）でデコーダへ送信される。一例では、エネルギエンベロープ量子化コンポーネント７１４は、逆ＬＰＣフィルタからＨＬＢ又はＨＨＢ残差信号を受信し、出力信号を生成してよく、出力信号は、その後に、デコーダ８００へ送信されてよい。次いで、エンコーダ７００からの出力信号は、ＬＰＣフィルタ８１２への入力信号を生成するようエネルギエンベロープデコーダ８０８及び残差生成コンポーネント８１０によって処理されてよい。いくつかの場合に、ＬＰＣフィルタ８１２は、残差生成コンポーネント８１０からＨＬＢ又はＨＨＢ残差信号を受信し、復号されたＨＬＢ又はＨＨＢ信号８１４を生成してよい。

図９は、高ピッチ信号の例となるスペクトル構造９００を示す。一般に、通常のスピーチ信号は、比較的に高いピッチスペクトル構造をめったに有さない。しかし、音楽信号及び歌声信号は、高ピッチスペクトル構造をしばしば有する。図示されるように、スペクトル構造９００は、比較的により高い一次高調波周波数Ｆ０（例えば、Ｆ０＞５００Ｈｚ）と、比較的に低いバックグラウンドスペクトルレベルとを含む。この場合に、スペクトル構造９００を有するオーディオ信号は、高ピッチ信号と見なされてよい。高ピッチ信号の場合に、０ＨｚとＦ０との間のコーディングエラーは、聴覚マスキング効果の欠如により容易に聞き取ることができる。エラー（例えば、Ｆ１とＦ２との間のエラー）は、Ｆ１及びＦ２のピークエネルギが正確である限りは、Ｆ１及びＦ２によってマスキングされ得る。しかし、ビットレートが十分に高くない場合には、コーディングエラーは回避されないことがある。

いくつかの場合に、ＬＴＰにおける正確なショートピッチ（高ピッチ）ラグは、信号品質を改善することを助けることができる。しかし、それは、「トランスペアレント」品質を達成するには不十分であり得る。ロバストな方法で信号品質を改善するために、適応重み付けフィルタが導入され得る。これは、より高い周波数でのコーディングエラーの増大を犠牲にして、非常に低い周波数を強めて、非常に低い周波数でのコーディングエラーを低減する。いくつかの場合に、適応重み付けフィルタ（例え、重み付けフィルタ３１６）は、以下の：

ような一次極フィルタであることができ、逆重み付けフィルタ（例えば、逆重み付けフィルタ４１６）は、次の：

のような一次零フィルタであることができる。

いくつかの場合に、適応重み付けフィルタは、高ピッチの場合を改善することが示されている。しかし、それは、他の場合には品質を低下させる可能性がある。従って、いくつかの場合に、適応重み付けフィルタは、（例えば、図３の高ピッチ検出コンポーネント３１４を用いて）高ピッチの場合の検出に基づいてオン及びオフを切り替えられ得る。高ピッチ信号を検出するための多数の方法が存在する。１つの方法は、図１０を参照して以下で説明される。

図１０に示されるように、現在のピッチゲイン１００２、平坦化されたピッチゲイン１００４、ピッチラグ長１００６、及びスペクトル傾斜１００８を含む４つのパラメータが、高ピッチ信号が存在するか否かを決定するために高ピッチ検出コンポーネント１０１０によって使用され得る。いくつかの場合に、ピッチゲイン１００２は、信号の周期性を示す。いくつかの場合に、平坦化されたピッチゲイン１００４は、ピッチゲイン１００２の正規化された値に相当する。一例では、正規化されたピッチゲイン（例えば、平坦化されたピッチゲイン１００４）が０から１の間にある場合に、正規化されたピッチゲインのハイ値（例えば、正規化されたピッチゲインが１に近い場合）は、スペクトル領域での強い高調波の存在を示し得る。平坦化されたピッチゲイン１００４は、周期性が安定している（単に局所的でない）ことを示す。いくつかの場合に、ピッチラグ長１００６が短い（例えば、３ｍｓに満たない）場合には、それは、一次高調波周波数Ｆ０が大きい（高い）ことを意味する。スペクトル傾斜１００８は、ＬＰＣパラメータの第１反射係数又は１つのサンプル距離での断片的な信号相関によって測定されてよい。いくつかの場合に、スペクトル傾斜１００８は、非常に低い周波数領域が有意なエネルギを含むか否かを示すために使用されてよい。非常に低い周波数領域（例えば、Ｆ０よりも低い周波数）でのエネルギが比較的に高い場合には、高ピッチ信号は存在しない可能性がある。いくつかの場合に、高ピッチ信号が検出されるとき、重み付けフィルタが適用されてよい。そうでないならば、重み付けフィルタは、高ピッチ信号が検出されないときには適用されなくてよい。

図１１は、高ピッチ信号の知覚重み付けを実行する、例となる方法１１００を表すフローチャートである。いくつかの場合に、方法１１００は、オーディオコーデックデバイス（ＬＬＢエンコーダ３００）によって実施されてよい。いくつかの場合に、方法１１００は、如何なる適切なデバイスによっても実施可能である。

方法１１００は、ブロック１１０２から開始してよく、信号（例えば、図１の信号１０２）が受信される。いくつかの場合に、信号はオーディオ信号であってよい。いくつかの場合に、信号は、１つ以上のサブバンドコンポーネントを含んでよい。いくつかの場合に、信号は、ＬＬＢコンポーネント、ＬＨＢコンポーネント、ＨＬＢコンポーネント、及びＨＨＢコンポーネントを含んでよい。一例では、信号は、９６ｋＨｚのサンプリングレートで生成され、４８ｋＨｚの帯域幅を有してよい。この例では、信号のＬＬＢコンポーネントは０～１２ｋＨｚサブバンドを含んでよく、ＬＨＢコンポーネントは１２～２４ｋＨｚサブバンドを含んでよく、ＨＬＢコンポーネントは２４～３６ｋＨｚサブバンドを含んでよく、ＨＨＢコンポーネントは３６～４８ｋＨｚサブバンドを含んでよい。いくつかの場合に、信号は、４つのサブバンドでサブバンド信号を生成するよう、プリエンファシスフィルタ（例えば、プリエンファシスフィルタ１０４）及びＱＭＦ解析フィルタバンク（例えば、ＱＭＦ解析フィルタバンク１０６）によって処理されてよい。この例では、ＬＬＢサブバンド信号、ＬＨＢサブバンド信号、ＨＬＢサブバンド信号、及びＨＨＢサブバンド信号が、４つのサブバンドについて夫々生成されてよい。

ブロック１１０４で、１つ以上のサブバンド信号のうちの少なくとも１つの残差信号が、１つ以上のサブバンド信号のうちのその少なくとも１つに基づいて生成される。いくつかの場合に、１つ以上のサブバンド信号のうちの少なくとも１つは、傾斜フィルタ処理された信号を生成するよう、傾斜フィルタをかけれられてよい。一例では、１つ以上のサブバンド信号のうちの少なくとも１つは、ＬＬＢサブバンドにおけるサブバンド信号（例えば、図３のＬＬＢサブバンド信号３０２）を含んでよい。いくつかの場合に、傾斜フィルタ処理された信号は、残差信号を生成するよう逆ＬＰＣフィルタ（例えば、逆ＬＰＣフィルタ３１０）によって更に処理されてもよい。

ブロック１１０６で、１つ以上のサブバンド信号のうちの少なくとも１つが高ピッチ信号であることが決定される。いくつかの場合に、１つ以上のサブバンド信号のうちの少なくとも１つは、１つ以上のサブバンド信号のうちのその少なくとも１つの現在のピッチゲイン、平坦化されたピッチゲイン、ピッチラグ長、又はスペクトル傾斜のうちの少なくとも１つに基づいて、高ピッチ信号であると決定される。

いくつかの場合に、ピッチゲインは、信号の周期性を示し、平坦化されたピッチゲインは、ピッチゲインの正規化された値を表す。いくつかの例では、正規化されたピッチゲインは、０から１の間にあってよい。これらの例では、正規化されたピッチゲインのハイ値（例えば、正規化されたピッチゲインが１に近い場合）は、スペクトル領域での強い高調波の存在を示し得る。いくつかの場合に、短いピッチラグ長は、一次高調波周波数（例えば、図９の周波数Ｆ０９０６）が大きい（高い）ことを意味する。一次高調波周波数Ｆ０が比較的に高く（例えば、Ｆ０＞５００Ｈｚ）、バックグラウンドスペクトルレベルが比較的により低い（例えば、所定の閾値の下）場合に、高ピッチ信号は検出され得る。いくつかの場合に、スペクトル傾斜は、ＬＰＣパラメータの第１反射係数又は１つのサンプル距離での断片的な信号相関によって測定され得る。いくつかの場合に、スペクトル傾斜は、非常に低い周波数領域が有意なエネルギを含むか否かを示すために使用されてよい。非常に低い周波数領域（例えば、Ｆ０よりも低い周波数）でのエネルギが比較的に高い場合に、高ピッチ信号は存在しない可能性がある。

ブロック１１０８で、１つ以上のサブバンド信号のうちの少なくともが高ピッチ信号であるとの決定に応答して、重み付け操作が、１つ以上のサブバンド信号のうちのその少なくとも１つの残差信号に対して実行される。いくつかの場合に、高ピッチ信号が検出される場合に、重み付けフィルタ（例えば、重み付けフィルタ３１６）が残差信号に適用されてよい。いくつかの場合に、重み付けされた残差信号が生成されてよい。いくつかの場合に、重み付け操作は、高ピッチ信号が検出されない場合には実行されなくてもよい。

述べられたように、高ピッチ信号の場合に、低周波数領域でのコーディングエラーは、聴覚マスキング効果の欠如により知覚的に感知可能であることができる。ビットレートが十分に高くない場合には、コーディングエラーは回避されないことがある。ここで記載されている適応重み付けフィルタ（例えば、重み付けフィルタ３１６）及び重み付け方法は、低周波数領域でコーディングエラーを低減しかつ信号品質を改善するために使用されてよい。しかし、いくつかの場合に、これは、より高い周波数でコーディングエラーを増大させる可能性があり、高ピッチ信号の知覚的な品質にとって不十分であることがある。いくつかの場合に、適応重み付けフィルタは、高ピッチ信号の検出に基づいて条件付きでオン及びオフされてよい。上述されたように、重み付けフィルタは、高ピッチ信号が検出される場合にオンされてよく、高ピッチ信号が検出されない場合にオフされてよい。このようにして、高ピッチの場合の品質は依然として改善され、一方で、非高ピッチの場合の品質が妥協され得ない。

ブロック１１１０で、量子化された残差信号が、ブロック１１０８で生成された重み付けされた残差信号に基づいて生成される。いくつかの場合に、重み付けされた残差信号は、ＬＴＰ寄与とともに、第２の重み付けされた残差信号を生成するよう加算関数ユニットによって処理されてよい。いくつかの場合に、第２の重み付けされた残差信号は、量子化された残差信号を生成するよう量子化されてよく、量子化された残差信号は、デコーダ側（例えば、図４のＬＬＢデコーダ４００）へ更に送信されてよい。

図１２及び図１３は、残差量子化エンコーダ１２００及び残差量子化デコーダ１３００の構造例を示す。いくつかの例では、残差量子化エンコーダ１２００及び残差量子化デコーダ１３００は、ＬＬＢサブバンドでの信号を処理するために使用されてよい。図示されるように、残差量子化エンコーダ１２００は、エネルギエンベロープコーディングコンポーネント１２０４、残差正規化コンポーネント１２０６、第１ラージステップコーディングコンポーネント１２１０、第１ファインステップコンポーネント１２１２、ターゲット最適化コンポーネント１２１４、ビットレート調整コンポーネント１２１６、第２ラージステップコーディングコンポーネント１２１８、及び第２ファインステップコーディングコンポーネント１２２０を含む。

図示されるように、ＬＬＢサブバンド信号１２０２は、最初に、エネルギエンベロープコーディングコンポーネント１２０４によって処理されてよい。いくつかの場合に、ＬＬＢ残差信号の時間領域エネルギエンベロープが、エネルギエンベロープコーディングコンポーネント１２０４によって決定及び量子化されてよい。いくつかの場合に、量子化された時間領域エネルギエンベロープはデコーダ側（例えば、デコーダ１３００）へ送信されてよい。いくつかの例では、決定されたエネルギエンベロープは、非常に低いレベル及び非常に高いレベルをカバーする残差領域での１２ｄＢから１３２ｄＢまでのダイナミックレンジを有してよい。いくつかの場合に、１つのフレーム内のあらゆるサブフレームが１つのエネルギレベル量子化を有し、フレーム内のピークサブフレームエネルギはｄＢ領域で直接にコーディングされてよい。同じフレーム内の他のサブフレームエネルギは、ピークエネルギと現在のエネルギとの間の差をコーディングすることによってハフマンコーディングアプローチでコーディングされてよい。いくつかの場合に、１つのサブフレーム存続期間は約２ｍｓと短くなるので、エンベロープ精度は、ヒトの耳のマスキング原理に基づいて、受け入れられ得る。

量子化された時間領域エネルギエンベロープを得た後、ＬＬＢ残差信号は、次いで、残差正規化コンポーネント１２０６によって正規化されてよい。いくつかの場合に、ＬＬＢ残差信号は、量子化された時間領域エネルギエンベロープに基づいて正規化されてよい。いくつかの例では、ＬＬＢ残差信号は、正規化されたＬＬＢ残差信号を生成するよう、量子化された時間領域エネルギエンベロープによって除されてよい。いくつかの場合に、正規化されたＬＬＢ残差信号は、初期量子化のための初期ターゲット信号１２０８として使用されてよい。いくつかの場合に、初期量子化は、コーディング／量子化の２つの段階を含んでよい。いくつかの場合に、第１の段階のコーディング／量子化は、ラージステップハフマンコーディングを含み、第２の段階のコーディング／量子化は、ファインステップ一様コーディングを含む。図示されるように、初期ターゲット信号１２０８は、正規化されたＬＬＢ残差信号であり、最初にラージステップコーディングコンポーネント１２１０によって処理されてよい。高分解のオーディオコーデックについては、エネルギ残差サンプルが量子化されてよい。ハフマンコーディングは、特別な量子化インデックス確率分布を利用することによってビットを節約し得る。いくつかの場合に、残差量子化ステップサイズが十分に大きい場合に、量子化インデックス確率分布はハフマンコーディングにとって適切になる。いくつかの場合に、ラージステップ量子化からの量子化結果は次善である可能性がある。一様量子化が、ハフマンコーディングの後に、より小さい量子化ステップで加えられてもよい。図示されるように、ファインステップ一様コーディングコンポーネント１２１２は、ラージステップハフマンコーディングコンポーネント１２１０からの出力信号を量子化するために使用されてよい。そのようなものとして、正規化されたＬＬＢ残差信号の第１の段階のコーディング／量子化は、量子化されたコーディングインデックスの特別な分布がより効率的なハフマンコーディングをもたらすので、比較的に大きい量子化ステップを選択し、第２の段階のコーディング／量子化は、第１の段階のコーディング／量子化からの量子化エラーを更に低減するために、比較的に小さい量子化ステップで比較的に簡単な一様コーディングを使用する。

いくつかの場合に、初期残差信号は、残差量子化がエラーを有さないか又はエラーが十分に小さい場合に、理想的なターゲットリファレンスであり得る。コーディングビットエラーが十分に高くない場合に、コーディングエラーは常に存在し、取るに足らないものでない可能性がある。従って、この初期残差ターゲットリファレンス信号１２０８は、量子化にとって知覚的に次善である可能性がある。たとえ初期残差ターゲットリファレンス信号１２０８が知覚的に次善であるとしても、それは、即座の量子化エラー推定を提供することができ、この推定は、（例えば、ビットエラー調整コンポーネント１２１６によって）コーディングビットエラーを調整するために使用され得るだけでなく、知覚的に最適化されたターゲットリファレンス信号を形成するためにも使用され得る。いくつかの場合に、知覚的に最適化されたターゲットリファレンス信号は、初期残差ターゲットリファレンス信号１２０８及び初期量子化の出力信号（例えば、ファインステップ一様コーディングコンポーネント１２１２の出力信号）に基づいてターゲット最適化コンポーネント１２１４によって生成されてよい。

いくつかの場合に、最適化されたターゲットリファレンス信号は、現在のサンプルのエラーの影響だけでなく前のサンプル及び将来のサンプルのエラーの影響も最小限にするように形成されてよい。更に、それは、ヒトの耳の知覚的なマスキング効果を考慮するためにスペクトル領域でのエラー分布を最適化し得る。

最適化されたターゲットリファレンス信号がターゲット最適化コンポーネント１２１４によって形成された後、第１の段階のハフマンコーディング及び第２の段階の一様コーディングが、第１の（初期）量子化結果を置換しかつより良い知覚品質を得るために、再び実行されてよい。この例では、第２ラージステップハフマンコーディングコンポーネント１２１８及び第２ファインステップ一様コーディングコンポーネント１２２０がｍ最適化されたターゲットリファレンス信号に対して第１の段階のハフマンコーディング及び第２の段階の一様コーディングを実行するために使用されてよい。初期ターゲットリファレンス信号及び最適化されたターゲットリファレンス信号の量子化は、以下で更に詳細に説明される。

いくつかの例では、量子化されていない残差信号又は初期ターゲット残差信号は、ｒ_ｉ（ｎ）によって表されてよい。ｒ_ｉ（ｎ）をターゲットとして使用して、残差信号は、最初に、
［外１］

と記される第１の量子化された残差信号を得るよう量子化されてよい。
［外２］

及び知覚重み付けフィルタのインパルス応答ｈ_ｗ（ｎ）に基づいて、知覚的に最適化されたターゲットリファレンス信号ｒ_ｏ（ｎ）の値が求められ得る。ｒ_ｏ（ｎ）を更新又は最適化されたターゲットとして使用して、残差信号は、
［外３］

と記される第２の量子化された残差信号を得るよう再び量子化されてよい。第２の量子化された残差信号は、第１の量子化された残差信号
［外４］

を置換するよう知覚的に最適化されている。いくつかの場合に、ｈ_ｗ（ｎ）は、例えば、ＬＰＣフィルタに基づいてｈ_ｗ（ｎ）を推定することによって、多くの可能な方法で決定されてよい。

いくつかの場合に、ＬＬＢサブバンドのためのＬＰＣフィルタは、次の：

のように表現されてよい。

知覚的に重み付けされたフィルタＷ（ｚ）は：

として定義され得る。

ここで、αは、定係数であり、０＜α＜１であり、γは、ＬＰＣフィルタの第１反射係数、又は単に定数であることができ、－１＜γ＜１である。フィルタＷ（ｚ）のインパルス応答は、ｈ_ｗ（ｎ）と定義されてよい。いくつかの場合に、ｈ_ｗ（ｎ）の長さは短くなり、直ぐに０になるよう減衰する。計算複雑性の視点から、短いインパルス応答ｈ_ｗ（ｎ）を有することが最適である。ｈ_ｗ（ｎ）が十分に短くない場合に、それは、ｈ_ｗ（ｎ）を直ぐにゼロに減衰させるために、半ハミング窓又は半ハニング窓を乗じられてもよい。インパルス応答ｈ_ｗ（ｎ）を得た後、知覚的に重み付けされた信号領域でのターゲットは：

と表されてよく、ｒ_ｉ（ｎ）とｈ_ｗ（ｎ）との間の畳み込みである。知覚的に重み付けされた信号領域での最初に量子化された残差
［外５］

の寄与は：

と表現され得る。

残差領域でのエラー

は、それが直接残差領域で量子化されると言うことで、最小限にされる。しかし、知覚的に重み付けされた信号領域でのエラー

は、最小限にされないことがある。従って、量子化エラーは、知覚的に重み付けされた信号領域で最小限にされる必要があり得る。いくつかの場合に、全ての残差サンプルは一緒に量子化されてよい。しかし、これは、余分な複雑性を引き起こす可能性がある。いくつかの場合に、残差は、サンプルごとに量子化されるが、知覚的に最適化され得る。例えば、

が、最初に、現在のフレーム内の全てのサンプルについてセットされてよい。もし全てのサンプルが、ｍでのサンプルが量子化されないことを除いて、量子化されているならば、このときｍでの知覚的に最良な値はｒ_ｉ（ｍ）ではなく、

であるはずである。

ここで、＜Ｔ_ｇ’（ｎ），ｈ_ｗ（ｎ）＞は、ベクトル｛Ｔ_ｇ’（ｎ）｝とベクトル｛ｈ_ｗ（ｎ）｝との間の相互相関を表し、ベクトル長は、インパルス応答ｈ_ｗ（ｎ）の長さに等しく、｛Ｔ_ｇ’（ｎ）｝のベクトル開始点は、ｍにある。｜｜ｈ_ｗ（ｎ）｜｜は、ベクトル｛ｈ_ｗ（ｎ）｝のエネルギであり、同じフレームで一定のエネルギである。Ｔ_ｇ’（ｎ）は：

と表され得る。

知覚的に最適化された新しいターゲット値ｒ_ｏ（ｍ）が決定されると、それは、ラージステップハフマンコーディング及びファインステップ一様コーディングを含む初期量子化と同様にして
［外６］

を生成するよう再び量子化されてよい。次いで、ｍは次のサンプル位置に進む。上記の処理は、サンプルごとに繰り返され、一方、式（７）及び（８）は、全てのサンプルが最適に量子化されるまで、新しい結果で更新される。各ｍについての夫々の更新中に、式（８）は、
［外７］

でのほとんどのサンプルが変更されないので、再計算される必要がない。式（７）の分母は一定であり、それにより、除算は定数倍になることができる。

デコーダ側では、図１３に示されるように、ラージステップハフマン復号化１３０２及びファインステップ一様復号化１３０４からの量子化された値が、正規化された残差信号を生成するよう加算関数ユニット１３０６によって足し合わされる。正規化された残差信号は、復号された残差信号１３１０を生成するよう時間領域でエネルギエンベロープ復号化コンポーネント１３０８によって処理されてよい。

図１４は、信号の残差量子化を実行する、例となる方法１４００を表すフローチャートである。いくつかの場合に、方法１４００は、オーディオコーデックデバイス（例えば、ＬＬＢエンコーダ３００又は残差量子化エンコーダ１２００）によって実装されてよい。いくつかの場合に、方法１４００は、如何なる適切なデバイスによっても実装可能である。

方法１４００はブロック１４０２から開始し、入力残差信号の時間領域エネルギエンベロープが決定される。いくつかの場合に、入力残差信号の時間領域エネルギエンベロープは、ＬＬＢサブバンドでの残差信号であってよい（例えば、ＬＬＢ残差信号１２０２）。

ブロック１４０４で、入力残差信号の時間領域エネルギエンベロープは、量子化された時間領域エネルギエンベロープを生成するよう量子化される。いくつかの場合に、量子化された時間領域エネルギエンベロープは、デコーダ側（例えば、デコーダ１３００）へ送信されてよい。

ブロック１４０６で、入力残差信号は、第１のターゲット残差信号を生成する、量子化された時間領域エネルギエンベロープに基づいて正規化される。いくつかの場合に、ＬＬＢ残差信号は、正規化されたＬＬＢ残差信号を生成するよう、量子化された時間領域エネルギエンベロープで除されてもよい。いくつかの場合に、正規化されたＬＬＢ残差信号は、初期量子化のための処理ターゲット信号として使用されてよい。

ブロック１４０８で、第１の量子化が、第１の量子化された残差信号を生成するよう第１ビットレートで第１のターゲット残差信号に対して実行される。いくつかの場合に、第１の残差量子化は、サブ量子化／コーディングの２つの段階を含んでもよい。第１の段階のサブ量子化は、第１のサブ量子化出力信号を生成するよう第１量子化ステップで第１のターゲット残差信号に対して実行されてよい。第２の段階のサブ量子化は、第１の量子化された残差信号を生成するよう第２量子化ステップで第１のサブ量子化出力信号に対して実行されてよい。いくつかの場合に、第１量子化ステップは、第２量子化ステップよりもサイズが大きい。いくつかの例では、第１の段階のサブ量子化は、ラージステップハフマンコーディングであってよく、第２の段階のサブ量子化は、ファインステップ一様コーディングであってよい。

いくつかの場合に、第１のターゲット残差信号は、複数のサンプルを含む。第１の量子化は、サンプルごとに第１のターゲット残差信号に対して実行されてよい。いくつかの場合に、これは、量子化の複雑性を低減して、量子化効率を改善することができる。

ブロック１４１０で、第２のターゲット残差信号が、第１の量子化された残差信号及び第１のターゲット残差信号に少なくとも基づいて、生成される。いくつかの場合に、第２のターゲット残差信号は、第１のターゲット残差信号、第１の量子化された残差信号、及び知覚重み付けフィルタのインパルス応答ｈ_ｗ（ｎ）に基づいて、生成されてもよい。いくつかの場合に、知覚的に最適化されたターゲット残差信号は、第２のターゲット残差信号であり、第２の残差量子化のために生成されてよい。

ブロック１４１２で、第２の残差量子化は、第２の量子化された残差信号を生成するよう第２ビットレートで第２のターゲット残差信号に対して実行される。いくつかの場合に、第２ビットレートは、第１ビットレートとは異なってよい。一例では、第２ビットレートは、第１ビットレートよりも高くてよい。いくつかの場合に、第１ビットレートでの第１の残差量子化からのコーディングエラーは、取るに足らないものでない可能性がある。いくつかの場合に、コーディングビットレートは、コーディングレートを低減するよう第２の残差量子化で調整されてよい（例えば、高められてよい）。

いくつかの場合に、第２の残差量子化は、第１の残差量子化と類似する。いくつかの例では、第２の残差量子化も、サブ量子化／コーディングの２つの段階を含んでよい。これらの例では、第１の段階のサブ量子化は、サブ量子化出力信号を生成するよう、大きい量子化ステップで、第２のターゲット残差信号に対して実行されてよい。第２の段階のサブ量子化は、第２の量子化された残差信号を生成するよう、小さい量子化ステップで、サブ量子化出力信号に対して実行されてよい。いくつかの場合に、第１の段階のサブ量子化は、ラージステップハフマンコーディングであってよく、第２の段階のサブ量子化は、ファインステップ一様コーディングであってよい。いくつかの場合に、第２の量子化された残差信号は、ビットストリームチャネルを通じてデコーダ側（例えば、デコーダ１３００）へ送信されてよい。

図３～４で述べられたように、ＬＴＰは、より良いＰＬＣのために条件付きでオン及びオフされてよい。いくつかの場合に、コーデックビットレートが、トランスペアレント品質を達成するほど十分に高くない場合に、ＬＴＰは、周期的な高調波信号にとって非常に有用である。高分解のコーデックについては、ＬＴＰ適用のために、２つの課題が解決される必要があり得る。（１）従来のＬＴＰは、高サンプリングレート環境で非常に高い計算複雑性を要するので、計算複雑性が低減されるべきであり、かつ（２）ＬＴＰは、フレーム間相関を利用しており、伝送チャネルでのパケット損失が起きる場合にエラー伝播を引き起こす可能性があるので、パケット損失隠蔽（ＰＬＣ）の悪影響が制限されるべきである。

いくつかの場合に、ピッチラグ探索は、余分の計算複雑性をＬＴＰに加える。コーディング効率を改善するよう、ＬＴＰでは、より効率的なことが望まれ得る。ピッチラグ探索のプロセスの例は、図１５～１６を参照して以下で説明される。

図１５は、ピッチラグ１５０２が２つの隣接周期サイクルの間の距離（例えば、ピークＰ１からＰ２の間の距離）を表す有声音声の例を示す。いくつかの音楽信号は、強い周期性だけでなく、安定したピッチラグ（ほぼ一定のピッチラグ）も有することがある。

図１６は、より良いパケット損失隠蔽のためのＬＴＰ制御を実行する、例となるプロセス１６００を示す。いくつかの場合に、プロセス１６００は、コーデックデバイス（例えば、エンコーダ１００、又はエンコーダ３００）によって実装されてよい。いくつかの場合に、プロセス１６００は、如何なる適切なデバイスによっても実装されてよい。プロセス１６００は、ピッチラグ（以下では略して「ピッチ」と記載される）探索及びＬＴＰ制御を含む。一般に、ピッチ探索は、ピッチ候補の数が多いために、従来方法では、高サンプリングレートで複雑になることがある。ここで説明されるプロセス１６００は、３つのフェーズ／ステップを含んでよい。第１フェーズ／ステップ中、信号（例えば、ＬＬＢ信号１６０２）は、周期性が主に低周波数領域にあるということで、ローパスフィルタ１６０４をかけられてよい。次いで、フィルタ処理された信号は、高速初期ラフピッチ探索１６０８のための入力信号を生成するようダウンサンプリングされてよい。一例では、ダウンサンプリングされた信号は、２ｋＨｚサンプリングレートで生成される。低サンプリングレートでのピッチ候補の総数は多くないので、ラフピッチ結果は、低サンプリングレートで全てのピッチ候補を探索することによって高速に取得され得る。いくつかの場合に、初期ピッチ探索１６０８は、短い窓による正規化された相互相関又は大きい窓による自己相関を最大限にする従来のアプローチを用いて行われてもよい。

初期ピッチ探索結果は、比較的に粗くてよいので、複数の初期ピッチの近傍での相互相関アプローチによる細かい探索は、依然として、高サンプリングレート（例えば、２４ｋＨｚ）で複雑になることがある。従って、第２フェーズ／ステップ（例えば、高速ファインピッチ探索１６１０）中、ピッチ精度は、単に低サンプリングレートで波形ピーク位置を見ることによって、波形領域で高められ得る。次いで、第３フェーズ／ステップ（例えば、最適化されたファインピッチ探索１６１２）中、第２フェーズ／ステップからのファインピッチ探索結果は、高サンプリングレートで小さい探索範囲内で相互相関アプローチにより最適化されてよい。

例えば、第１フェーズ／ステップ（例えば、初期ピッチ探索１６０８）中、初期ラフピッチ探索結果は、探索された全てのピッチ候補に基づいて取得されてよい。いくつかの場合に、ピッチ候補近傍は、初期ラフピッチ探索結果に基づいて定義されてよく、より正確なピッチ探索結果を得るよう第２フェーズ／ステップに使用されてよい。第２フェーズ／ステップ（例えば、高速ファインピッチ探索１６１０）中、波形ピーク位置は、ピッチ候補に基づいて、第１フェーズ／ステップで決定されたピッチ候補近傍内で決定されてよい。図１５に示される一例では、図１５の第１ピーク位置Ｐ１は、初期ピッチ探索結果から定義された有限な探索範囲（例えば、第１フェーズ／ステップから約１５％変動で決定されたピッチ候補近傍）内で決定されてよい。図１５の第２ピーク位置Ｐ２は、同様の方法で決定されてよい。Ｐ１からＰ２の間の位置の差は、初期ピッチ推定よりもずっと正確なピッチ推定になる。いくつかの場合に、第２フェーズ／ステップから取得されたより正確なピッチ推定は、最適化されたファインピッチラグを見つけるために第３フェーズ／ステップで使用され得る第２ピッチ候補近傍、例えば、第２フェーズ／ステップから約１５％変動で決定されたピッチ候補近傍、を定義するために使用されてよい。第３フェーズ／ステップ（例えば、最適化されたファインピッチ探索１６１２）中、最適化されたファインピッチラグは、非常に小さい探索範囲（第２ピッチ候補近傍）内で、正規化された相互相関アプローチにより探索され得る。

いくつかの場合に、ＬＴＰが常にオンである場合に、ＰＬＣは、ビットストリームパケットが失われるとき、起こり得るエラー伝播により次善となることがある。いくつかの場合に、ＬＴＰは、それがオーディオ品質を有効に改善することができかつＰＬＣに有意な影響を与えない場合に、オンされてよい。実際上、ＬＴＰは、ピッチゲインが高くかつ安定している、つまり、高い周期性が少なくとも数フレームの間続く（１フレームだけでない）場合に、有効であることができる。いくつかの場合に、高周期性信号領域では、ＰＬＣは、ＰＬＣが常に、前の情報を現在の失われたフレームにコピーするよう周期性を使用するということで、比較的に単純で効率的である。いくつかの場合に、安定したピッチラグも、ＰＬＣへの悪影響を減らし得る。安定したピッチラグは、ピッチラグ値が少なくともいくつかのフレームの間有意に変化せず、近い将来に安定したピッチをもたらすと思われることを意味する。いくつかの場合に、ビットストリームパケットの現在のフレームが失われる場合に、ＰＬＣは、現在のフレームを回復するために、前のピッチ情報を使用してよい。そのようなものとして、安定したピッチラグは、ＰＬＣのための現在ピッチ推定を助け得る。

図１６を参照して例を続けると、周期性検出１６１４及び安定性検出１６１６が、ＬＴＰをオン又はオフすると決定する前に実行される。いくつかの場合に、ピッチゲインが安定して高く、ピッチラグが比較的に安定している場合に、ＬＴＰはオンされてよい。例えば、ピッチゲインは、ブロック１６１８に示されるように、大いに周期性があり安定しているフレームについてセットされてよい（例えば、ピッチゲインは安定して０．８よりも高い）。いくつかの場合に、図３を参照すると、ＬＴＰ寄与信号は生成され、残差量子化のための入力信号を生成するよう、重み付けされた残差信号と結合されてよい。他方で、ピッチゲインが安定して高くなく、かつ／あるいは、ピッチラグが安定していない場合には、ＬＴＰはオフされてよい。

いくつかの場合に、ビットストリームパケットが失われるときに、起こり得るエラー伝播を回避するために、ＬＴＰは、ＬＴＰがこれまで数フレームの間オンされていた場合には、１又は２フレームの間オフされてもよい。一例では、ブロック１６２０に示されるように、ピッチゲインは、条件付きで、例えば、ＬＴＰがこれまで数フレーム間オンされていた場合に、より良いＰＬＣのためにゼロにリセットされてよい。いくつかの場合に、ＬＴＰがオフされる場合に、可変ビットレートコーディングシステムでは、もう少しコーディングビットレートがセットされてよい。いくつかの場合に、ＬＴＰがオンされると決定される場合に、ピッチゲイン及びピッチラグは、ブロック１６２２に示されるように、量子化され、デコーダ側へ送信されてよい。

図１７は、オーディオ信号のスペクトログラムの例を示す。図示されるように、スペクトログラム１７０２は、オーディオ信号の時間周波数プロットを示す。スペクトログラム１７０２は、多数の高調波を含むことが示されており、これは、オーディオ信号の高周期性を示す。スペクトログラム１７０４は、オーディオ信号の元のピッチゲインを示す。ピッチゲインは、ほとんどの時間に安定して高いことが示されており、これも、オーディオ信号の高周期性を示す。スペクトログラム１７０６は、オーディオ信号の平坦化されたピッチゲイン（ピッチ相関）を示す。この例では、平坦化されたピッチゲインは、正規化されたピッチゲインを表す。スペクトログラム１７０８は、ピッチラグを示し、スペクトログラム１７１０は、量子化されたピッチゲインを示す。ピッチラグは、ほとんどの時間に比較的に安定していることが示されている。図示されるように、ピッチゲインは、周期的にゼロにリセットされており、これは、エラー伝播を回避するために、ＬＴＰがオフされることを示す。量子化されたピッチゲインも、ＬＴＰがオフされる場合にゼロにセットされる。

図１８は、ＬＴＰを実行する、例となる方法１８００を表すフローチャートである。いくつかの場合に、方法１８００は、オーディオコーデックデバイス（例えば、ＬＬＢエンコーダ３００）によって実装されてよい。いくつかの場合に、方法１８００は、如何なる適切なデバイスによっても実装されてよい。

方法１８００はブロック１８０２から開始し、入力オーディオ信号が第１サンプリングレートで受信される。いくつかの場合に、オーディオ信号は、複数の第１サンプルを含んでよく、複数の第１サンプルは、第１サンプリングレートで生成される。一例では、複数の第１サンプルは、９６ｋＨｚサンプリングレートで生成されてよい。

ブロック１８０４で、オーディオ信号はダウンサンプリングされる。いくつかの場合に、オーディオ信号の複数の第１サンプルは、第２サンプリングレートで複数の第２サンプルを生成するよう、ダウンサンプリングされてよい。いくつかの場合に、第２サンプリングレートは、第１サンプリングレートよりも低い。この例では、複数の第２サンプルは、２ｋＨｚのサンプリングレートで生成されてよい。

ブロック１８０６で、第１ピッチラグが第２サンプリングレートで決定される。低サンプリングレートでのピッチ候補の総数は多くないので、ラフピッチ結果は、低サンプリングレートで全てのピッチ候補を探索することによって高速に取得され得る。いくつかの場合に、複数のピッチ候補は、第２サンプリングレートでの複数の第２サンプルに基づいて決定されてよい。いくつかの場合に、第１ピッチラグは、複数のピッチ候補に対して決定されてよい。いくつかの場合に、第１ピッチラグは、第１窓による正規化された相互相関又は第２窓による自己相関を最大限にすることによって決定されてよく、第２窓は第１窓よりも大きい。

ブロック１８０８で、第２ピッチラグは、ブロック１８０４で決定された第１ピッチラグに基づいて決定される。いくつかの場合に、第１探索範囲は第１ピッチラグに基づいて決定されてよい。いくつかの場合に、第１ピーク位置及び第２ピーク位置は、第１探索範囲内で決定されてよい。いくつかの場合に、第２ピッチラグは、第１ピーク位置及び第２ピーク位置に基づいて決定されてよい。例えば、第１ピーク位置と第２ピーク位置との間の位置の差が、第２ピッチラグを決定するために使用されてよい。

ブロック１８１０で、第３ピッチラグは、ブロック１８０８で決定された第２ピッチラグに基づいて決定される。いくつかの場合に、第２ピッチラグは、最適化されたファインピッチラグを見つけるために使用され得るピッチ候補近傍を定義するために使用されてよい。例えば、第２探索範囲は、第２ピッチラグに基づいて決定されてよい。いくつかの場合に、第３ピッチラグは、第３サンプリングレートで第２探索範囲内で決定されてよい。いくつかの場合に、第３サンプリングレートは、第２サンプリングレートよりも高い。この例では、第３サンプリングレートは２４ｋＨｚであってよい。いくつかの場合に、第３ピッチラグは、第３サンプリングレートで第２探索範囲内で、正規化された相互相関アプローチを用いて決定されてよい。いくつかの場合に、第３ピッチラグは、入力オーディオ信号のピッチラグとして決定されてよい。

ブロック１８１２で、入力オーディオ信号のピッチゲインが所定の閾値を超えており、かつ、入力オーディオ信号のピッチラグの変化が少なくとも所定数のフレームについて所定の範囲内にあることが決定される。ＬＴＰは、ピッチゲインが高くかつ安定しており、つまり、高い周期性が少なくとも数フレームの間続く（１つのフレームだけでない）場合に、より有効であることができる。いくつかの場合に、安定したピッチラグも、ＰＬＣに対する悪影響を低減し得る。安定したピッチラグは、ピッチラグ値が少なくとも数フレームの間有意に変化せず、近い将来に安定したピッチをもたらすと思われることを意味する。

ブロック１８１４で、ピッチゲインは、入力オーディオ信号のピッチゲインが所定の閾値を超えていることと、第３ピッチラグの変化が少なくとも所定数の前のフレームについて所定の範囲内にあることとを決定することに応答して、入力オーディオ信号の現在のフレームについてセットされる。そのようなものとして、ピッチゲインは、ＰＬＣに影響を及ぼさずに信号品質を改善するよう、大いに周期的かつ安定したフレームについてセットされる。

いくつかの場合に、入力オーディオ信号のピッチゲインが所定の閾値よりも低いこと及び／又は第３ピッチラグの変化が少なくとも所定数の前のフレームについて所定の範囲内にあることを決定することに応答して、ピッチゲインは、入力オーディオ信号の現在のフレームについてゼロにセットされる。そのようなものとして、エラー伝播は低減され得る。

述べられているように、あらゆる残差サンプルが高分解能オーディオコーデックについて量子化される。これは、残差サンプル量子化の計算複雑性及びコーディングビットレートが、フレームサイズが１０ｍｓから２ｍｓに変化するときに有意に変化し得ないことを意味する。しかし、ＬＰＣのようないくつかのコーデックパラメータの計算複雑性及びコーディングビットレートは、フレームサイズが１０ｍｓから２ｍｓに変化するときに劇的に増大することがある。通常、ＬＰＣパラメータは、フレームごとに量子化及び伝送される必要がある。いくつかの場合に、現在のフレームと前のフレームとの間のＬＰＣ差分コーディングは、ビットを節約し得るが、それはまた、ビットストリームパケットが伝送チャネルで失われるときにエラー伝播を引き起こす可能性もある。従って、短いフレームサイズが、低遅延コーデックを達成するためにセットされてよい。いくつかの場合に、フレームサイズが２ｍｓといった短さである場合に、ＬＰＣパラメータのコーディングビットレートは、非常に高くなり、計算複雑性も、フレーム時間存続期間がビットレート又は複雑性の分母にあるため、高くなる。

一例では、図１２に示される時間領域エネルギエンベロープ量子化を参照して、サブフレームサイズが２ｍｓである場合に、１０ｍｓフレームは５つのサブフレームを含むはずである。普通は、各サブフレームは、量子化される必要があるエネルギレベルを有している。１つのフレームが５のサブフレームを含むということで、５つのサブフレームのエネルギレベルは一緒に量子化されてもよく、それにより、時間領域エネルギエンベロープのコーディングビットレートは制限される。いくつかの場合に、フレームサイズがサブフレームサイズに等しい、すなわち、１つのフレームが１つのサブフレームを含むとき、コーディングビットレートは、各エネルギレベルが独立して量子化される場合に有意に増大する可能性がある。これらの場合に、連続したフレームの間のエネルギレベルの差分コーディングは、コーディングビットレートを低減し得る。しかし、このようなアプローチは、ビットストリームパケットが伝送チャネルで失われるときにエラー伝播を引き起こす可能性があるということで次善となることがある。

いくつかの場合に、ＬＰＣパラメータのベクトル量子化は、より低いビットレートをもたらし得る。なお、それは、より多くの計算負荷を要する可能性がある。ＬＰＣパラメータの単純なスカラー量子化は、複雑性がより低いが、より高いビットレートを必要とすることがある。いくつかの場合に、ハフマンコーディングから利益を得る空間スカラー量子化が使用されてもよい。しかし、この方法は、非常に短いフレームサイズ又は非常に低い遅延コーディングにとって十分でないことがある。ＬＰＣパラメータの量子化の新しい方法が、図１９～２０を参照して以下で説明される。

ブロック１９０２で、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差が決定される。図２０を参照すると、スペクトログラム２００２は、オーディオ信号の時間周波数プロットを示す。スペクトログラム２００４は、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜の絶対値を示す。スペクトログラム２００６は、オーディオ信号の現在のフレームと前のフレームとの間のエネルギ差の絶対値を示す。スペクトログラム２００８は、１により、現在のフレームが量子化されたＬＰＣパラメータを前のフレームからコピーすることを示し、０により、現在のフレームがＬＰＣパラメータを再び量子化／送信することを示すところのコピー決定を示す。この例では、差分スペクトル傾斜及びエネルギ差の両方の絶対値がほとんどの時間中に比較的に非常に小さく、それらは、最後に（右側で）比較的に大きくなる。

ブロック１９０４で、オーディオ信号の安定性が検出される。いくつかの場合に、オーディオ信号のスペクトル安定性は、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜および／又はエネルギ差に基づいて決定されてよい。いくつかの場合に、オーディオ信号のスペクトル安定性は、オーディオ信号の周波数に基づいて更に決定されてもよい。いくつかの場合に、差分スペクトル傾斜の絶対値は、オーディオ信号のスペクトル（例えば、スペクトログラム２００４）に基づいて決定されてよい。いくつかの場合に、オーディオ信号の現在のフレームと前のフレームとの間のエネルギ差の絶対も、オーディオ信号のスペクトル（例えば、スペクトログラム２００６）に基づいて決定されてよい。いくつかの場合に、差分スペクトル傾斜の絶対値の変化及び／又はエネルギ差の絶対値の変化が少なくとも所定数のフレームについて所定の範囲内にあることが決定される場合に、オーディオ信号のスペクトル安定性は、検出されることが決定されてよい。

ブロック１９０６で、前のフレームについての量子化されたＬＰＣパラメータは、オーディオ信号のスペクトル安定性を検出することに応答して、オーディオ信号の現在のフレームにコピーされる。いくつかの場合に、オーディオ信号のスペクトルが非常に安定しており、それが１つのフレームから次のフレームまで有意味に変化しない場合に、現在のフレームについての現在のＬＰＣパラメータはコーディング／量子化されなくてもよい。代わりに、前の量子化されたＬＰＣパラメータが、その量子化されたＬＰＣパラメータが前のフレームから現在のフレームまでほぼ同じ情報を保つので、現在のフレームにコピーされてよい。そのような場合に、ほんの１ビットが、量子化されたＬＰＣパラメータが前のフレームからコピーされることをデコーダに伝えるために送信されてよく、その結果、現在のフレームについて非常に低いビットレート及び非常に低い複雑性が得られる。

オーディオ信号のスペクトル安定性が検出されない場合に、ＬＰＣパラメータは、再び量子化されコーディングされることを強いられてよい。いくつかの場合に、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜の絶対値の変化が少なくとも所定数のフレームについて所定の範囲内になかったと決定される場合に、オーディオ信号のスペクトル安定性は検出されないと決定されてよい。いくつかの場合に、エネルギ差の絶対値の変化が少なくとも所定数のフレームについて所定の範囲内になかったと決定される場合に、オーディオ信号のスペクトル安定性は検出されないと決定されてよい。

ブロック１９０８で、量子化されたＬＰＣパラメータは、現在のフレームより前の少なくとも所定数のフレームに対してコピーされていることが決定される。いくつかの場合に、量子化されたＬＰＣパラメータが数フレームの間コピーされている場合に、ＬＰＣパラメータは、再び量子化されコーディングされること強いられてよい。

ブロック１９１０で、量子化されたＬＰＣパラメータが少なくとも所定数のフレームに対してコピーされているとの決定に応答して、現在のフレームについてのＬＰＣパラメータに対して量子化が実行される。いくつかの場合に、量子化されたＬＰＣパラメータをコピーする連続したフレームの数は、ビットストリームパケットが伝送チャネルで失われるときにエラー伝播を回避するために、制限される。

いくつかの場合に、ＬＰＣコピー決定（スペクトログラム１００８に図示あり）は、時間領域エネルギエンベロープを量子化することを助け得る。いくつかの場合に、コピー決定が１であるとき、現在のフレームと前のフレームとの間の差分エネルギレベルは、ビットを節約するようコーディングされてよい。いくつかの場合に、コピー決定が０であるとき、エネルギレベルの直接量子化が、ビットストリームパケットが伝送で失われるときにエラー伝播を回避するよう、実行されてよい。

図２１は、実施に従って、本開示で記載される電子デバイス２１００の構造例を表す図である。電子デバイス２１００は、１つ以上のプロセッサ２１０２、メモリ２１０４、符号化回路２１０６、及び復号化回路２１０８を含む。いくつかの実施で、電子デバイス２１００は、本開示で記載されるステップのいずれか１つ又は組み合わせを実行する１つ以上の回路を更に含むことができる。

主題の記載されている実施は、１つ以上の特徴を単独で又は組み合わせて含むことができる。

第１の実施で、線形予測コーディング（ＬＰＣ）を実行する方法は、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定することと、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出することと、オーディオ信号のスペクトル安定性を検出することに応答して、前のフレームについての量子化されたＬＰＣパラメータをオーディオ信号の現在のフレームにコピーすることとを含む。

上記及び他の記載されている実施は、夫々が任意に、次の特徴の１つ以上を含むことができる。

下記の特徴のいずれかと組み合わせ可能な第１の特徴では、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出することは、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜の絶対値を決定することと、オーディオ信号の現在のフレームと前のフレームとの間のエネルギ差の絶対値を決定することと、差分スペクトル傾斜の絶対値の変化及びエネルギ差の絶対値の変化のうちの少なくとも１つが少なくとも所定数のフレームについて所定の範囲に入っているとの決定に応答して、オーディオ信号のスペクトル安定性が検出されることを決定することとを含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第２の特徴で、方法は、オーディオ信号の現在のフレームと前記前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性が検出されないことを決定することと、オーディオ信号のスペクトル安定性が検出されないとの決定に応答して、現在のフレームについての量子化されたＬＰＣパラメータを生成するよう現在のフレームについてのＬＰＣパラメータに対して量子化を実行することとを更に含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第２の特徴で、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性が検出されないことを決定することは、次の：オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜の絶対値を決定し、差分スペクトル傾斜の絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること、又はオーディオ信号の現在のフレームと前のフレームとの間のエネルギ差の絶対値を決定し、エネルギ差の絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること、のうちの少なくとも１つを含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第４の特徴で、方法は、量子化されたＬＰＣパラメータが現在のフレームより前の少なくとも所定数のフレームについてコピーされていることを決定することと、量子化されたＬＰＣパラメータが現在のフレームより前の少なくとも所定数のフレームについてコピーされているとの決定に応答して、現在のフレームについての量子化されたＬＰＣパラメータを生成するよう現在のフレームについてのＬＰＣパラメータに対して量子化を実行することとを更に含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第５の特徴で、方法は、量子化されたＬＰＣパラメータが前のフレームからコピーされることを示すビットをデコーダへ送信することを更に含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第６の特徴で、方法は、オーディオ信号のスペクトル安定性を検出することに応答して、量子化された差分エネルギレベルを生成するよう現在のフレームと前のフレームとの間の差分エネルギレベルに対して量子化を実行することと、スペクトル安定性が検出されないとの決定に応答して、現在のフレームの量子化されたエネルギレベルを生成するよう現在のフレームのエネルギレベルに対して量子化を実行することとを更に含む。

第２の実施で、電子デバイスは、命令を有する非一時的なメモリストレージと、メモリストレージと通信する１つ以上のハードウェアプロセッサとを含み、１つ以上のハードウェアプロセッサは、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定し、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出し、オーディオ信号のスペクトル安定性を検出することに応答して、前のフレームについての量子化されたＬＰＣパラメータをオーディオ信号の現在のフレームにコピーするよう命令を実行する。

下記の特徴のいずれかと組み合わせ可能な第１の特徴で、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出することは、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜の絶対値を決定することと、オーディオ信号の現在のフレームと前のフレームとの間のエネルギ差の絶対値を決定することと、差分スペクトル傾斜の絶対値の変化及びエネルギ差の絶対値の変化のうちの少なくとも１つが少なくとも所定数のフレームについて所定の範囲に入っているとの決定に応答して、オーディオ信号のスペクトル安定性が検出されることを決定することとを含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第２の特徴で、１つ以上のハードウェアプロセッサは更に、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性が検出されないことを決定し、オーディオ信号のスペクトル安定性が検出されないとの決定に応答して、現在のフレームについての量子化されたＬＰＣパラメータを生成するよう現在のフレームについてのＬＰＣパラメータに対して量子化を実行するよう命令を実行する。

上記又は下記の特徴のいずれかと組み合わせ可能な第３の特徴で、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性が検出されないことを決定することは、次の：オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜の絶対値を決定し、差分スペクトル傾斜の絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること、又はオーディオ信号の現在のフレームと前のフレームとの間のエネルギ差の絶対値を決定し、エネルギ差の絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること、のうちの少なくとも１つを含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第４の特徴で、１つ以上のハードウェアプロセッサは更に、量子化されたＬＰＣパラメータが現在のフレームより前の少なくとも所定数のフレームについてコピーされていることを決定し、量子化されたＬＰＣパラメータが現在のフレームより前の少なくとも所定数のフレームについてコピーされているとの決定に応答して、現在のフレームについての量子化されたＬＰＣパラメータを生成するよう現在のフレームについてのＬＰＣパラメータに対して量子化を実行するよう命令を実行する。

上記又は下記の特徴のいずれかと組み合わせ可能な第５の特徴で、１つ以上のハードウェアプロセッサは更に、量子化されたＬＰＣパラメータが前のフレームからコピーされることを示すビットをデコーダへ送信するよう命令を実行する。

上記又は下記の特徴のいずれかと組み合わせ可能な第６の特徴で、１つ以上のハードウェアプロセッサは更に、オーディオ信号のスペクトル安定性を検出することに応答して、量子化された差分エネルギレベルを生成するよう現在のフレームと前のフレームとの間の差分エネルギレベルに対して量子化を実行し、スペクトル安定性が検出されないとの決定に応答して、現在のフレームの量子化されたエネルギレベルを生成するよう現在のフレームのエネルギレベルに対して量子化を実行するよう命令を実行する。

第３の実施で、非一時的なコンピュータ可読媒体は、ＬＰＣを実行するためコンピュータ命令を記憶しており、コンピュータ命令は、１つ以上のハードウェアプロセッサによって実行される場合に、１つ以上のハードウェアプロセッサに、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定することと、オーディオ信号の前記現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性を検出することと、オーディオ信号のスペクトル安定性を検出することに応答して、前のフレームについての量子化されたＬＰＣパラメータをオーディオ信号の現在のフレームにコピーすることとを含む動作を実行させる。

上記又は下記の特徴のいずれかと組み合わせ可能な第２の特徴で、動作は、オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つに基づいてオーディオ信号のスペクトル安定性が検出されないことを決定することと、オーディオ信号のスペクトル安定性が検出されないとの決定に応答して、現在のフレームについての量子化されたＬＰＣパラメータを生成するよう現在のフレームについてのＬＰＣパラメータに対して量子化を実行することとを更に含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第４の特徴で、動作は、量子化されたＬＰＣパラメータが現在のフレームより前の少なくとも所定数のフレームについてコピーされていることを決定することと、量子化されたＬＰＣパラメータが現在のフレームより前の少なくとも所定数のフレームについてコピーされているとの決定に応答して、現在のフレームについての量子化されたＬＰＣパラメータを生成するよう現在のフレームについてのＬＰＣパラメータに対して量子化を実行することとを更に含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第５の特徴で、動作は、量子化されたＬＰＣパラメータが前のフレームからコピーされることを示すビットをデコーダへ送信することを更に含む。

上記又は下記の特徴のいずれかと組み合わせ可能な第６の特徴で、動作は、オーディオ信号のスペクトル安定性を検出することに応答して、量子化された差分エネルギレベルを生成するよう現在のフレームと前のフレームとの間の差分エネルギレベルに対して量子化を実行することと、スペクトル安定性が検出されないとの決定に応答して、現在のフレームの量子化されたエネルギレベルを生成するよう現在のフレームのエネルギレベルに対して量子化を実行することとを更に含む。

本開示ではいくつかの実施形態が適用されてきたが、開示されているシステム及び方法は、本開示の精神又は範囲から逸脱せずに、多数の他の具体的な形態で具現されてもよいことが理解され得る。本例は、実例として見なされるべきであり、限定として見なされるべきではなく、意図は、ここで与えられている詳細に限定されない。例えば、様々な要素又はコンポーネントは、他のシステムでは結合又は一体化されてよく、あるいは、特定の特徴は、省略されるか又は実施されなくてもよい。

更に、様々な実施形態で個別的又は別々なものとして記載又は例示されている技術、システム、サブシステム及び方法は、本開示の範囲から逸脱せずに他のシステム、コンポーネント、技術、又は方法と結合又は一体化されてもよい。変更、置換、又は代替の他の例は、当業者によって確かめられ、ここで開示されている精神及び範囲から逸脱せずに行われてよい。

本発明の実施形態及び本明細書で記載されている機能的な動作の全ては、デジタル電子回路で、あるいは、本明細書で開示されている構造及びそれらの構造的同等物を含むコンピュータソフトウェア、ファームウェア、又はハードウェアで、あるいは、それらの１つ以上の組み合わせで実装されてよい。本発明の実施形態は、１つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために又はその動作を制御するためにコンピュータ可読媒体上に符号化されているコンピュータプログラム命令の１つ以上のモジュール、として実装されてもよい。コンピュータ可読媒体は、非一時的なコンピュータ可読記憶媒体、マシン読み出し可能な記憶デバイス、マシン読み出し可能な記憶担体、メモリデバイス、機械読み出し可能な伝搬信号を実現する合成物、又はそれらの１つ以上の組み合わせであってよい。「データ処理装置」という用語は、例として、プログラム可能なプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む、データを処理する全ての装置、デバイス、及びマシンを包含する。装置は、ハードウェアに加えて、問題となっているコンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらの１つ以上の組み合わせを構成するコード、を含んでもよい。伝搬信号は、人工的に生成された信号、例えば、適切な受信装置への伝送のために情報を符号化するよう生成される、マシンにより生成された電気的、光学的、又電磁気的な信号、である。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコード）は、コンパイル済み又は解釈済み言語を含む如何なる形式のプログラミング言語でも記述されてよく、それは、スタンドアロンプログラムとして、あるいは、モジュール、コンポーネント、サブルーチン、又はコンピューティング環境での使用に適した他のユニットとしてを含む、如何なる形でもデプロイされてよい。コンピュータプログラムは、必ずしもファイルシステムにおけるファイルに対応しない。プログラムは、他のプログラム又はデータを保持するファイルの部分（例えば、マークアップ言語ドキュメントで記憶されている１つ以上のスクリプト）において、問題となっているプログラムに専用の単一のファイルにおいて、あるいは、複数の協調ファイル（例えば、１つ以上のモジュール、サブプログラム、又はコードの部分を記憶するファイル）において記憶されてもよい。コンピュータプログラムは、１つのコンピュータで、あるいは、１つの場所に位置しているか、又は複数の場所に分布して、通信ネットワークによって相互接続されている複数のコンピュータで実行されるようデプロイされてもよい。

本明細書で記載されるプロセス及び論理フローは、入力データに作用して出力を生成することによって機能を実行するよう１つ以上のコンピュータプログラムを実行する１つ以上のプログラム可能なプロセッサによって実行されてよい。プロセス及び論理フローはまた、特別の論理回路、例えば、ＦＰＧＡ（field programmable gate array）又はＡＳＩＣ（application specific integrated circuit）によって実行されてもよく、装置は、そのようなものとして実装されてよい。

コンピュータプログラムの実行に適したプロセッサは、例として、汎用及び専用の両方のマイクロプロセッサと、あらゆる種類のデジタルコンピュータのいずれか１つ以上のプロセッサを含む。一般に、プロセッサは、リードオンリーメモリ若しくはランダムアクセスメモリ又は両方から命令及びデータを受け取る。コンピュータの必須の要素は、命令を実行するためのプロセッサと、命令及びデータを記憶するための１つ以上のメモリデバイスとである。一般に、コンピュータはまた、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気、光学磁気ディスク、又は光ディスクも含み、あるいは、それらからデータを受け取り又はそれらへデータを転送するよう動作可能に結合される。更に、コンピュータは、他のデバイス、例えば、２～３例を挙げると、タブレットコンピュータ、携帯電話機、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオプレイヤー、グローバルポジショニングシステム（ＧＰＳ）レシーバに組み込まれてもよい。コンピュータプログラム命令及びデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイス；磁気ディスク、例えば、内蔵ハードディスク又はリムーバブルディスク；光学磁気ディスク；並びにＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭディスクを含む全ての形式の不揮発性メモリ、媒体、及びメモリデバイスを含む。プロセッサ及びメモリは、専用の論理回路によって捕足されても、あるいは、それに組み込まれてもよい。

ユーザとのインタラクションを提供するために、本発明の実施形態は、情報をユーザに表示するディスプレイデバイス、例えば、ＣＲＴ（cathode ray tube）又はＬＣＤ（liquid crystal display）モニタと、ユーザが入力をコンピュータに供給し得るキーボード及び指示デバイス、例えば、マウス又はトラックボールとを備えるコンピュータで実装されてよい。他の種類のデバイスが、同様にユーザとのインタラクションを提供するために使用されてもよく、例えば、ユーザへ供給されるフィードバックは、如何なる形のセンサフィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック、であってもよく、ユーザからの入力は、音響、スピーチ、又は触覚入力を含む如何なる形でも受け取られてよい。

本発明の実施形態は、バックエンドコンポーネントを、例えば、データサーバとして、含むか、又はミドルウェアコンポーネント、例えば、アプリケーションサーバを含むか、又はフロントエンドコンポーネント、例えば、ユーザが本発明の実施と相互作用し得るグラフィカルユーザインターフェース若しくはウェブブラウザを備えるクライアントコンピュータを含むか、あるいは、１つ以上のそのようなバックエンド、ミドルウェア、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実装されてよい。システムのコンポーネントは、如何なる形又は媒体のデジタルデータ通信、例えば、通信ネットワーク、によっても相互接続されてよい。通信ネットワークの例は、ローカルエリアネットワーク（“ＬＡＮ”）及びワイドエリアネットワーク（“ＷＡＷＮ”）、例えば、インターネットを含む。

コンピューティングシステムは、クライアント及びサーバを含んでよい。クライアント及びサーバは、一般的に、互いから遠隔にあり、通常は、通信ネットワークを通じて相互作用する。クライアント及びサーバの関係は、各々のコンピュータで実行され、互いにクライアント－サーバ関係を有しているコンピュータプログラムのおかげで生じる。

２、３の実施が上記で作用しに説明されてきたが、他の変更が可能である。例えば、クライアントアプリケーションは、デリゲートにアクセスするものとして記載され、一方、他の実施では、デリゲートは、１つ以上のサーバで実行されるアプリケーションのような、１つ以上のプロセッサによって実装される他のアプリケーションによって、用いられてもよい。更に、図に表されている論理フローは、所望の結果を達成するために、示されている特定の順序、又は順次的順序を必要としない。更に、他の動作が適用されてもよく、あるいは、動作は、記載されているフローから削除されてもよく、他のコンポーネントが、記載されているシステムに加えられても、又はそれから除かれてもよい。従って、他の実施は、続く特許請求の範囲の範囲内にある。

本明細書は、多数の具体的な実施詳細を含み、一方で、これらは、いずれかの発明の又は請求されているものの範囲に対する限定と解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別々の実施形態に関連して本明細書で記載される特定の特徴はまた、単一の実施形態において組み合わせて実装可能である。対照的に、単一の実施形態に関連して記載される様々な特徴はまた、複数の実施形態で別々に又は如何なる適切なサブコンビネーションでも実装可能である。更に、特徴は、特定の組み合わせで動作するものとして上述され、更には最初にそのようなものとして請求されることがあるが、請求されている組み合わせからの１つ以上の特徴は、いくつかの場合に、その組み合わせから削除されることがあり、請求されている組み合わせは、サブコンビネーション又はサブコンビネーションの変形を対象とし得る。

同様に、操作は、特定の順序で図面に表されている一方で、これは、所望の結果を達成するために、そのような操作が、示されている特定の順序で又は順次的順序で実行されるべきであること、あるいは、説明された全ての操作が実行されるべきであることを必要とすると理解されるべきではない。特定の条件で、マルチタスク及び並列処理が有利であり得る。更に、上記の実施形態における様々なシステムモジュール及びコンポーネントの分離は、全ての実施形態でそのような分離を必要とすると理解されるべきではなく、記載されているプログラムコンポーネント及びシステムは、一般に、単一のソフトウェア製品で一体化されるか、又は複数のソフトウェア製品にパッケージ化され得ることが理解されるべきである。

対象の特定の実施形態が記載されてきた。他の実施形態は、続く特許請求の範囲の範囲内にある。例えば、特許請求の範囲で挙げられている動作は、異なる順序で実行され、依然として所望の結果を達成可能である。一例として、添付の図に表されているプロセスは、所望の結果を達成するために、必ずしも、示されている特定の順序又は順次的順序を必要としない。特定の実施において、マルチタスク及び並列処理が有利であり得る。

Claims

オーディオ信号の線形予測コーディング（ＬＰＣ）のための、コンピュータにより実施される方法であって、
前記オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定することと、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号のスペクトル安定性を検出することと、
前記オーディオ信号の前記スペクトル安定性を検出することに応答して、前記前のフレームについての量子化されたＬＰＣパラメータを前記オーディオ信号の前記現在のフレームにコピーすることと
を有する、コンピュータにより実施される方法。
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号の前記スペクトル安定性を検出することは、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜の絶対値を決定することと、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記エネルギ差の絶対値を決定することと、
前記差分スペクトル傾斜の前記絶対値の変化及び前記エネルギ差の前記絶対値の変化のうちの少なくとも１つが少なくとも所定数のフレームについて所定の範囲に入っているとの決定に応答して、前記オーディオ信号の前記スペクトル安定性が検出されることを決定することと
を有する、請求項１に記載のコンピュータにより実施される方法。
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号の前記スペクトル安定性が検出されないことを決定することと、
前記オーディオ信号の前記スペクトル安定性が検出されないとの決定に応答して、前記現在のフレームについての量子化されたＬＰＣパラメータを生成するよう前記現在のフレームについてのＬＰＣパラメータに対して量子化を実行することと
を更に有する、請求項１に記載のコンピュータにより実施される方法。
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号の前記スペクトル安定性が検出されないことを決定することは、次の：
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜の絶対値を決定し、前記差分スペクトル傾斜の前記絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること、又は
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記エネルギ差の絶対値を決定し、前記エネルギ差の前記絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること
のうちの少なくとも１つを有する、
請求項３に記載のコンピュータにより実施される方法。
前記量子化されたＬＰＣパラメータが前記現在のフレームより前の少なくとも所定数のフレームについてコピーされていることを決定することと、
前記量子化されたＬＰＣパラメータが前記現在のフレームより前の少なくとも前記所定数のフレームについてコピーされているとの決定に応答して、前記現在のフレームについての量子化されたＬＰＣパラメータを生成するよう前記現在のフレームについてのＬＰＣパラメータに対して量子化を実行することと
を更に有する、請求項１に記載のコンピュータにより実施される方法。
前記量子化されたＬＰＣパラメータが前記前のフレームからコピーされることを示すビットをデコーダへ送信することを更に有する、
請求項１に記載のコンピュータにより実施される方法。
前記オーディオ信号の前記スペクトル安定性を検出することに応答して、量子化された差分エネルギレベルを生成するよう前記現在のフレームと前記前のフレームとの間の差分エネルギレベルに対して量子化を実行することと、
前記スペクトル安定性が検出されないとの決定に応答して、前記現在のフレームの量子化されたエネルギレベルを生成するよう前記現在のフレームのエネルギレベルに対して量子化を実行することと
を更に有する、請求項１に記載のコンピュータにより実施される方法。
命令を有する非一時的なメモリストレージと、
前記メモリストレージと通信する１つ以上のハードウェアプロセッサと
を有し、
前記１つ以上のハードウェアプロセッサは、
オーディオ信号の現在のフレームと前のフレームとの間の差分スペクトル傾斜及びエネルギ差のうちの少なくとも１つを決定し、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号のスペクトル安定性を検出し、
前記オーディオ信号の前記スペクトル安定性を検出することに応答して、前記前のフレームについての量子化されたＬＰＣパラメータを前記オーディオ信号の前記現在のフレームにコピーする
よう前記命令を実行する、電子デバイス。
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号の前記スペクトル安定性を検出することは、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜の絶対値を決定することと、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記エネルギ差の絶対値を決定することと、
前記差分スペクトル傾斜の前記絶対値の変化及び前記エネルギ差の前記絶対値の変化のうちの少なくとも１つが少なくとも所定数のフレームについて所定の範囲に入っているとの決定に応答して、前記オーディオ信号の前記スペクトル安定性が検出されることを決定することと
を有する、請求項８に記載の電子デバイス。
前記１つ以上のハードウェアプロセッサは更に、
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号の前記スペクトル安定性が検出されないことを決定し、
前記オーディオ信号の前記スペクトル安定性が検出されないとの決定に応答して、前記現在のフレームについての量子化されたＬＰＣパラメータを生成するよう前記現在のフレームについてのＬＰＣパラメータに対して量子化を実行する
よう前記命令を実行する、
請求項８に記載の電子デバイス。
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜及び前記エネルギ差のうちの前記少なくとも１つに基づいて前記オーディオ信号の前記スペクトル安定性が検出されないことを決定することは、次の：
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記差分スペクトル傾斜の絶対値を決定し、前記差分スペクトル傾斜の前記絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること、又は
前記オーディオ信号の前記現在のフレームと前記前のフレームとの間の前記エネルギ差の絶対値を決定し、前記エネルギ差の前記絶対値の変化が少なくとも所定数のフレームについて所定の範囲に入っていないことを決定すること
のうちの少なくとも１つを有する、
請求項１０に記載の電子デバイス。
前記１つ以上のハードウェアプロセッサは更に、
前記量子化されたＬＰＣパラメータが前記現在のフレームより前の少なくとも所定数のフレームについてコピーされていることを決定し、
前記量子化されたＬＰＣパラメータが前記現在のフレームより前の少なくとも前記所定数のフレームについてコピーされているとの決定に応答して、前記現在のフレームについての量子化されたＬＰＣパラメータを生成するよう前記現在のフレームについてのＬＰＣパラメータに対して量子化を実行する
よう前記命令を実行する、
請求項８に記載の電子デバイス。
前記１つ以上のハードウェアプロセッサは更に、前記量子化されたＬＰＣパラメータが前記前のフレームからコピーされることを示すビットをデコーダへ送信するよう前記命令を実行する、
請求項８に記載の電子デバイス。
前記１つ以上のハードウェアプロセッサは更に、
前記オーディオ信号の前記スペクトル安定性を検出することに応答して、量子化された差分エネルギレベルを生成するよう前記現在のフレームと前記前のフレームとの間の差分エネルギレベルに対して量子化を実行し、
前記スペクトル安定性が検出されないとの決定に応答して、前記現在のフレームの量子化されたエネルギレベルを生成するよう前記現在のフレームのエネルギレベルに対して量子化を実行する
よう前記命令を実行する、
請求項８に記載の電子デバイス。
コンピュータによって実行される場合に、前記コンピュータに、請求項１乃至７のうちいずれか一項に記載のコンピュータにより実施される方法を実行させるプログラムを記録している、
コンピュータ可読記憶媒体。
コンピュータによって実行される場合に、前記コンピュータに、請求項１乃至７のうちいずれか一項に記載のコンピュータにより実施される方法を実行させるコンピュータプログラム。