JP2022526726A

JP2022526726A - 符号化ビデオストリームにおける適応パラメータセット参照および制約のための方法

Info

Publication number: JP2022526726A
Application number: JP2021556291A
Authority: JP
Inventors: ビョンドゥ・チェ; シャン・リュウ; ステファン・ヴェンガー
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-12-27
Filing date: 2020-10-05
Publication date: 2022-05-26
Anticipated expiration: 2040-10-05
Also published as: CA3137346A1; JP7297919B2; US11765371B2; KR20210142201A; EP4081936A4; JP2023107958A; US20220256182A1; AU2023203915A1; AU2020415272A1; US11343524B2; SG11202111504TA; AU2020415272B2; WO2021133452A1; US20240048743A1; EP4081936A1; US20210203967A1; CN113874875A; JP2024091956A; JP7483989B2

Abstract

少なくとも1つのプロセッサを使用してエンコードされたビデオビットストリームを復号する方法が：エンコードされたビデオビットストリームから、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスを取得するステップと；画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得するステップと；画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）ネットワーク抽象化レイヤ（NAL）ユニットを取得するステップと；PH NALユニット、少なくとも1つのVCL NALユニット、および符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて、符号化画像を復号するステップと；復号画像を出力するステップと、を含み、APS NALユニットは、少なくとも1つのVCL NALユニットの前に少なくとも1つのプロセッサに利用可能である。

Description

関連出願の相互参照
本出願は、2019年12月27日に出願された米国仮特許出願第62／954，096号および2020年9月30日に出願された米国特許出願第17／038，541号の優先権を主張し、その全体が本明細書に組み込まれる。

開示される主題は、ビデオの符号化および復号に関し、より具体的には、符号化ビデオストリームにおける適応パラメータセット参照および制約に関する。

動き補償を伴う画像間予測を用いたビデオ符号化および復号が知られている。非圧縮デジタルビデオは、一連の画像からなることができ、各画像は、例えば1920×1080の輝度サンプルおよび関連するクロミナンスサンプルの空間次元を有する。一連の画像は、例えば毎秒60画像または60Hzの固定または可変画像レート（非公式にはフレームレートとしても知られる）を有することができる。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、サンプルごとに8ビットの1080p60 4：2：0ビデオ（60Hzのフレームレートで1920×1080の輝度サンプル解像度）は、1．5Gbit／sに近い帯域幅を必要とする。そのようなビデオの1時間は、600GByteを超えるストレージスペースを必要とする。

ビデオの符号化および復号の目的の1つは、圧縮による入力ビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅またはストレージスペース要件を、場合によっては2桁以上低減するのに役立つことができる。可逆圧縮および非可逆圧縮の両方、ならびにそれらの組み合わせを使用することができる。可逆圧縮とは、元の信号の正確なコピーを圧縮された元の信号から再構築することができる技術を指す。非可逆圧縮を使用する場合、再構築された信号は元の信号と同一ではない可能性があるが、元の信号と再構築された信号との間の歪みは、再構築された信号を意図された用途に有用にするのに十分小さい。ビデオの場合、非可逆圧縮が広く採用されている。許容される歪みの量はアプリケーションによって異なる；例えば、特定の消費者ストリーミングアプリケーションのユーザは、テレビコントリビューションアプリケーションのユーザよりも高い歪みを許容する場合がある。達成可能な圧縮比は、より高い許容可能な歪みがより高い圧縮比をもたらすことができることを反映することができる。

ビデオエンコーダおよびデコーダは、例えば、動き補償、変換、量子化、およびエントロピー符号化を含む、いくつかの広範なカテゴリからの技術を利用することができ、これらのうちのいくつかは、以下に導入され得る。

歴史的に、ビデオエンコーダおよびデコーダは、ほとんどの場合、符号化ビデオシーケンス（CVS）、画像のグループ（GOP）、または同様のマルチ画像タイムフレームに対して定義され一定のままであった所与の画像サイズで動作する傾向があった。例えば、MPEG－2では、システム設計は、シーンのアクティビティなどの要因に応じて水平解像度（および、それによって、画像サイズ）を変更することが知られているが、I画像においてのみ、したがって通常はGOP用である。CVS内の異なる解像度を使用するための参照画像の再サンプリングは、例えばITU－T Rec．H．263 Annex Pから知られている。しかしながら、ここでは画像サイズは変化せず、参照画像のみが再サンプリングされ、その結果、画像キャンバスの一部のみが使用される（ダウンサンプリングの場合）、またはシーンの一部のみが取り込まれる（アップサンプリングの場合）可能性がある。さらに、H．263 Annex Qは、個々のマクロブロックを上方または下方に（各次元で）2倍で再サンプリングすることを可能にする。ここでも、画像サイズは同じままである。マクロブロックのサイズはH．263では固定されているため、シグナリングする必要はない。

発明を解決するための手段

一実施形態では、少なくとも1つのプロセッサを使用してエンコードされたビデオビットストリームを復号する方法が提供され、本方法は：エンコードされたビデオビットストリームから、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスを取得するステップと；画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得するステップと；画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）ネットワーク抽象化レイヤ（NAL）ユニットを取得するステップと；PH NALユニット、少なくとも1つのVCL NALユニット、および符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて、符号化画像を復号するステップと；復号画像を出力するステップと、を含み、APS NALユニットは、少なくとも1つのVCL NALユニットの前に少なくとも1つのプロセッサに利用可能である。

一実施形態では、エンコードされたビデオビットストリームを復号するためのデバイスが提供され、本デバイスは：プログラムコードを格納するように構成された少なくとも1つのメモリと；プログラムコードを読み取り、プログラムコードによって指示されるように動作するように構成された少なくとも1つのプロセッサと、を含み、プログラムコードは：少なくとも1つのプロセッサに、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスをエンコードされたビデオビットストリームから取得させるように構成された第1の取得コードと；少なくとも1つのプロセッサに、画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得させるように構成された第2の取得コードと；少なくとも1つのプロセッサに、画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）ネットワーク抽象化レイヤ（NAL）ユニットを取得させるように構成された第3の取得コードと；少なくとも1つのプロセッサに、PH NALユニット、少なくとも1つのVCL NALユニット、および符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて符号化画像を復号させるように構成された復号コードと；少なくとも1つのプロセッサに復号画像を出力させるように構成された出力コードと、を含み、APS NALユニットは、少なくとも1つのVCL NALユニットの前に少なくとも1つのプロセッサに利用可能である。

一実施形態では、命令を格納する非一時的コンピュータ可読媒体が提供され、命令は、エンコードされたビデオビットストリームを復号するためのデバイスの1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、エンコードされたビデオビットストリームから、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスを取得させ；画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得させ；画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）ネットワーク抽象化レイヤ（NAL）ユニットを取得させ；PH NALユニット、少なくとも1つのVCL NALユニット、および符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて、符号化画像を復号させ；復号画像を出力させる、1つまたは複数の命令を含み、APS NALユニットは、少なくとも1つのVCL NALユニットの前に少なくとも1つのプロセッサに利用可能である。

開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかにされよう。

一実施形態による通信システムの簡略ブロック図の概略図である。一実施形態による通信システムの簡略ブロック図の概略図である。一実施形態によるデコーダの簡略ブロック図の概略図である。一実施形態によるエンコーダの簡略ブロック図の概略図である。一実施形態によるARCパラメータをシグナリングするためのオプションの一概略図である。一実施形態によるARCパラメータをシグナリングするためのオプションの別の概略図である。一実施形態によるARCパラメータをシグナリングするためのオプションのさらに別の概略図である。一実施形態によるARCパラメータをシグナリングするためのオプションのさらに別の概略図である。一実施形態によるARCパラメータをシグナリングするためのオプションのさらに別の概略図である。一実施形態によるシンタックステーブルの例の概略図である。一実施形態によるシンタックステーブルの例の別の概略図である。一実施形態による、適応解像度変更を伴うスケーラビリティのための予測構造の一例である。一実施形態によるシンタックステーブルの一例を示す図である。一実施形態による、アクセスユニットごとのPOCサイクルおよびアクセスユニットカウント値の構文解析および復号の簡略ブロック図の概略図である。一実施形態による、多層サブ画像を含むビデオビットストリーム構造の概略図である。一実施形態による、拡張解像度を有する選択されたサブ画像の表示の概略図である。一実施形態による、多層サブ画像を含むビデオビットストリームの復号および表示プロセスのブロック図である。一実施形態による、サブ画像の拡張レイヤを有する360度ビデオ表示の概略図である。一実施形態による、サブ画像ならびにその対応するレイヤおよび画像予測構造のレイアウト情報の一例を示す図である。一実施形態による、ローカル領域の空間スケーラビリティ形式を有する、サブ画像ならびにその対応するレイヤおよび画像予測構造のレイアウト情報の一例を示す図である。一実施形態によるサブ画像レイアウト情報のシンタックステーブルの例を示す図である。一実施形態によるサブ画像レイアウト情報のシンタックステーブルの例を示す別の図である。一実施形態による、サブ画像レイアウト情報についてのSEIメッセージのシンタックステーブルの例を示す図である。一実施形態による、出力レイヤおよび各出力レイヤセットのプロファイル／階層／レベル情報を示すシンタックステーブルの例を示す図である。一実施形態による、出力レイヤセットごとの出力レイヤモードを示すシンタックステーブルの例を示す図である。一実施形態による、出力レイヤセットごとの各レイヤの現在のサブ画像を示すシンタックステーブルの例を示す図である。一実施形態によるビットストリーム適合性要件の概略図である。一実施形態による、エンコードされたビデオビットストリームを復号するための例示的なプロセスのフローチャートである。一実施形態によるコンピュータシステムの概略図である。

図1は、本開示の一実施形態による通信システム（100）の簡略ブロック図を示している。システム（100）は、ネットワーク（150）を介して相互接続された少なくとも2つの端末（110～120）を含むことができる。データの単方向伝送のために、第1の端末（110）は、ネットワーク（150）を介して他の端末（120）に伝送するためにローカル位置でビデオデータを符号化してもよい。第2の端末（120）は、ネットワーク（150）から他の端末の符号化ビデオデータを受信し、符号化データを復号し、復元されたビデオデータを表示してもよい。単方向データ伝送は、メディアサービングアプリケーションなどにおいて一般的であり得る。

図1は、例えばビデオ会議中に発生し得る符号化ビデオの双方向伝送をサポートするために提供される第2の端末対（130，140）を示している。データの双方向伝送のために、各端末（130，140）は、ネットワーク（150）を介して他の端末に伝送するために、ローカル位置で取り込まれたビデオデータを符号化してもよい。各端末（130，140）はまた、他方の端末によって伝送された符号化ビデオデータを受信し、符号化データを復号し、復元されたビデオデータをローカルディスプレイデバイスに表示してもよい。

図1では、端末（110～140）は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示されているが、本開示の原理はそのように限定されなくてもよい。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤおよび／または専用ビデオ会議機器に適用される。ネットワーク（150）は、例えば有線および／または無線通信ネットワークを含む、端末（110～140）間で符号化ビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（150）は、回路交換チャネルおよび／またはパケット交換チャネルでデータを交換することができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットが含まれる。本説明の目的のために、ネットワーク（150）のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作に重要ではない場合がある。

図2は、開示された主題のアプリケーションの一例として、ストリーミング環境におけるビデオエンコーダおよびデコーダの配置を示している。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタル媒体への圧縮ビデオの格納などを含む、他のビデオ対応アプリケーションにも等しく適用可能であり得る。

ストリーミングシステムは、例えば非圧縮ビデオサンプルストリーム（202）を生成する、例えばデジタルカメラなどのビデオソース（201）を含むことができるキャプチャサブシステム（213）を含むことができる。エンコードされたビデオビットストリームと比較して高いデータ量を強調するために太線として示されているそのサンプルストリーム（202）は、カメラ（201）に結合されたエンコーダ（203）によって処理され得る。エンコーダ（203）は、以下でより詳細に説明するように、開示された主題の態様を可能にするかまたは実施するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。エンコードされたビデオビットストリーム（204）は、サンプルストリームと比較してより低いデータ量を強調するために細い線として示されており、将来の使用のためにストリーミングサーバ（205）に格納され得る。1つまたは複数のストリーミングクライアント（206，208）は、ストリーミングサーバ（205）にアクセスして、エンコードされたビデオビットストリーム（204）のコピー（207，209）を検索することができる。クライアント（206）は、エンコードされたビデオビットストリーム（207）の着信コピーを復号し、ディスプレイ（212）または他のレンダリングデバイス（図示せず）上にレンダリングすることができる発信ビデオサンプルストリーム（211）を生成するビデオデコーダ（210）を含むことができる。いくつかのストリーミングシステムでは、ビデオビットストリーム（204，207，209）を、特定のビデオ符号化／圧縮規格に従ってエンコードすることができる。例えば、ITU－T Recommendation H．265などが挙げられる。多用途ビデオ符号化（Versatile Video Coding，VVC）として非公式に知られているビデオ符号化規格が開発中である。開示された主題は、VVCのコンテキストで使用され得る。

図3は、本開示の一実施形態によるビデオデコーダ（210）の機能ブロック図であり得る。

受信機（310）は、デコーダ（210）によって復号される1つまたは複数のコーデックビデオシーケンスを受信することができ；同じまたは別の実施形態では、一度に1つの符号化ビデオシーケンスであり、各符号化ビデオシーケンスの復号は他の符号化ビデオシーケンスから独立している。符号化ビデオシーケンスは、エンコードされたビデオデータを格納するストレージデバイスへのハードウェア／ソフトウェアリンクであり得るチャネル（312）から受信され得る。受信機（310）は、エンティティ（図示せず）を使用してそれぞれに転送され得る他のデータ、例えば、符号化オーディオデータおよび／または補助データストリームを有するエンコードされたビデオデータを受信することができる。受信機（310）は、符号化ビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ（315）が、受信機（310）とエントロピーデコーダ／パーサ（320）（以下「パーサ」）との間に結合され得る。受信機（310）が十分な帯域幅および制御可能性の格納／転送デバイスから、またはアイソサイクロナスネットワークからデータを受信しているとき、バッファ（315）は必要とされなくてもよく、または小さくてもよい。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファ（315）を必要とする場合があり、比較的大きくすることができ、好適には適応サイズとすることができる。

ビデオデコーダ（210）は、エントロピー符号化ビデオシーケンスからシンボル（321）を再構築するためのパーサ（320）を含み得る。これらのシンボルのカテゴリは、デコーダ（210）の動作を管理するために使用される情報、および潜在的には、図3に示すように、デコーダの不可欠な部分ではないがそれに結合することができるディスプレイなどのレンダリングデバイス（212）を制御するための情報を含む。レンダリングデバイス（複数可）の制御情報は、補足拡張情報（SEIメッセージ）またはビデオユーザビリティ情報（VUI）パラメータセット断片（図示せず）の形態であってもよい。パーサ（320）は、受信された符号化ビデオシーケンスを解析および／またはエントロピー復号することができる。符号化ビデオシーケンスの符号化は、ビデオ符号化技術または規格に従うことができ、可変長符号化、ハフマン符号化、コンテキストセンシティビティの有無にかかわらない算術符号化などを含む、当業者に周知の原理に従うことができる。パーサ（320）は、グループに対応する少なくとも1つのパラメータに基づいて、符号化ビデオシーケンスから、ビデオデコーダ内の画素のサブグループのうちの少なくとも1つについてのサブグループパラメータのセットを抽出することができる。サブグループは、画像のグループ（GOP）、画像、サブ画像、タイル、スライス、ブリック、マクロブロック、符号化ツリーユニット（CTU）符号化ユニット（CU）、ブロック、変換ユニット（TU）、予測ユニット（PU）などを含むことができる。タイルは、画像内の特定のタイル列および行内のCU／CTUの矩形領域を示すことができる。ブリックは、特定のタイル内のCU／CTU列の矩形領域を示すことができる。スライスは、NALユニットに含まれる画像の1つまたは複数のブリックを示すことができる。サブ画像は、画像内の1つまたは複数のスライスの矩形領域を示すことができる。エントロピーデコーダ／パーサはまた、変換係数、量子化器パラメータ値、動きベクトルなどの情報を符号化ビデオシーケンスから抽出することができる。

パーサ（320）は、シンボル（321）を作成するために、バッファ（315）から受信したビデオシーケンスに対してエントロピー復号および／または構文解析動作を実行することができる。

シンボル（321）の再構築は、符号化ビデオ画像またはその一部（例えば、インター画像およびイントラ画像、インターブロックおよびイントラブロック）のタイプ、およびその他の要因に依存して、複数の異なるユニットに関与することができる。どのユニットがどのように関与するかは、パーサ（320）によって符号化ビデオシーケンスから構文解析されたサブグループ制御情報によって制御され得る。パーサ（320）と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明確にするために示されていない。

既に述べた機能ブロックを超えて、デコーダ210は、以下に説明するように概念的にいくつかの機能ユニットに細分することができる。商業的制約の下で動作する実際の実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示された主題を説明する目的で、以下の機能ユニットへの概念的細分化が適切である。

第1のユニットはスケーラおよび／または逆変換ユニット（351）である。スケーラおよび／または逆変換ユニット（351）は、量子化変換係数、ならびにどの変換を使用するか、ブロックサイズ、量子化ファクタ、量子化スケーリング行列などを含む制御情報を、パーサ（320）からシンボル（複数可）（321）として受信する。それにより、アグリゲータ（355）に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラおよび／または逆変換（351）の出力サンプルは、イントラ符号化ブロック；すなわち、以前に再構築された画像からの予測情報を使用していないが、現在の画像の以前に再構築された部分からの予測情報を使用することができるイントラ符号化ブロックに関連し得る。そのような予測情報を、イントラ画像予測ユニット（352）によって提供することができる。場合によっては、イントラ画像予測ユニット（352）は、現在の（部分的に再構築された）画像（358）からフェッチされた周囲の既に再構築された情報を用いて、再構築中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ（355）は、場合によっては、サンプルごとに、イントラ予測ユニット（352）が生成した予測情報を、スケーラおよび／または逆変換ユニット（351）によって提供される出力サンプル情報に追加する。

他の場合には、スケーラおよび／または逆変換ユニット（351）の出力サンプルは、インターコードされた、潜在的に動き補償されたブロックに関連し得る。そのような場合、動き補償予測ユニット（353）は、予測に使用されるサンプルをフェッチするために参照画像メモリ（357）にアクセスすることができる。ブロックに関連するシンボル（321）に従ってフェッチされたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（355）によってスケーラおよび／または逆変換ユニットの出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加され得る。動き補償ユニットが予測サンプルをフェッチする参照画像メモリ形式内のアドレスは、動き補償ユニットが、例えばX、Y、および参照画像成分を有することができるシンボル（321）の形式で利用可能な動きベクトルによって制御され得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照画像メモリからフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。

アグリゲータ（355）の出力サンプルは、ループフィルタユニット（356）における様々なループフィルタ処理技術を適用することができる。ビデオ圧縮技術は、符号化ビデオビットストリームに含まれるパラメータによって制御され、パーサ（320）からシンボル（321）としてループフィルタユニット（356）に利用可能にされるインループフィルタ技術を含むことができるが、符号化画像または符号化ビデオシーケンスの以前の（復号順の）部分の復号中に取得されたメタ情報に応答することもでき、以前に再構築され、ループフィルタリングされたサンプル値に応答することもできる。

ループフィルタユニット（356）の出力は、レンダリングデバイス（212）に出力することができるとともに、将来の画像間予測に使用するために参照画像メモリに格納されることができるサンプルストリームとすることができる。

完全に再構築されると、特定の符号化画像は、将来の予測のための参照画像として使用され得る。符号化画像が完全に再構築され、（例えば、パーサ（320）によって）符号化画像が参照画像として識別されると、現在の参照画像（358）は、参照画像バッファ（357）の一部になることができ、新しい現在の画像メモリは、後続の符号化画像の再構築を開始する前に再配置され得る。

ビデオデコーダ210は、例えばITU－T Rec．H．265のような規格において文書化され得る所定のビデオ圧縮技術に従って復号動作を実行することができる。符号化ビデオシーケンスは、ビデオ圧縮技術文書または規格、特にその中のプロファイル文書で指定されているように、ビデオ圧縮技術または規格のシンタックスに準拠するという意味で、使用されているビデオ圧縮技術または規格で指定されているシンタックスに準拠することができる。また、コンプライアンスのために必要なのは、符号化ビデオシーケンスの複雑さがビデオ圧縮技術または規格のレベルによって定義される境界内にあることであり得る。場合によっては、レベルは、最大画像サイズ、最大フレームレート、最大再構築サンプルレート（例えば、毎秒メガサンプルで測定される）、最大参照画像サイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想リファレンスデコーダ（HRD）仕様および符号化ビデオシーケンスにおいてシグナリングされたHRDバッファ管理のためのメタデータによってさらに制限され得る。

一実施形態では、受信機（310）は、エンコードされたビデオを有する追加の（冗長な）データを受信することができる。追加のデータは、符号化ビデオシーケンス（複数可）の一部として含まれ得る。追加のデータは、データを適切に復号するために、および／または元のビデオデータをより正確に再構築するために、ビデオデコーダ（210）によって使用され得る。追加のデータは、例えば、時間、空間、またはSNR拡張レイヤ、冗長スライス、冗長画像、前方誤り訂正符号などの形態であり得る。

図4は、本開示の一実施形態によるビデオエンコーダ（203）の機能ブロック図であり得る。

エンコーダ（203）は、エンコーダ（203）によって符号化されるビデオ画像（複数可）を取り込むことができる（エンコーダの一部ではない）ビデオソース（201）からビデオサンプルを受信することができる。

ビデオソース（201）は、エンコーダ（203）によって符号化されるソースビデオシーケンスを、任意の適切なビット深度（例えば、8ビット、10ビット、12ビット、．．．）、任意の色空間（例えば、BT．601 Y CrCB、RGB、．．．）、および任意の適切なサンプリング構造（例えば、Y CrCb 4：2：0、Y CrCb 4：4：4）であり得るデジタルビデオサンプルストリームの形態で提供することができる。メディアサービングシステムにおいて、ビデオソース（201）は、予め用意されたビデオを格納するストレージデバイスであってもよい。ビデオ会議システムでは、ビデオソース（203）は、ビデオシーケンスとしてローカル画像情報を取り込むカメラであってもよい。ビデオデータは、連続して見たときに動きを与える複数の個々の画像として提供されてもよい。画像自体は、画素の空間アレイとして編成されてもよく、各画素は、使用中のサンプリング構造、色空間などに応じて1つまたは複数のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

一実施形態によれば、エンコーダ（203）は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約下で、ソースビデオシーケンスの画像を符号化して符号化ビデオシーケンス（443）に圧縮することができる。適切な符号化速度を強制することは、コントローラ（450）の一機能である。コントローラは、以下に説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。結合は、明確にするために示されていない。コントローラによって設定されるパラメータは、レート制御関連パラメータ（画像スキップ、量子化器、レート歪み最適化技術のラムダ値、．．．）、画像サイズ、画像のグループ（GOP）レイアウト、最大動きベクトル検索範囲などを含むことができる。当業者であれば、あるシステム設計のために最適化されたビデオエンコーダ（203）に関連し得るので、コントローラ（450）のその他の機能を容易に識別することができる。

一部のビデオエンコーダは、当業者が「符号化ループ」として容易に認識できる方法で動作する。過度に簡略化された説明として、符号化ループは、エンコーダ（430）（以下、「ソースコーダ」）のエンコード部分（符号化される入力画像と、参照画像（複数可）とに基づいてシンボルを作成する役割を担う）と、エンコーダ（203）に埋め込まれ、シンボルを再構築してサンプルデータを生成する（ローカル）デコーダ（433）とから構成することができ、（リモート）デコーダもまた生成する（開示された主題で考慮されるビデオ圧縮技術では、シンボルと符号化ビデオビットストリームとの間の任意の圧縮が可逆的であるため）。その再構築されたサンプルストリームは、参照画像メモリ（434）に入力される。シンボルストリームの復号は、デコーダ位置（ローカルまたはリモート）とは無関係にビットが正確な結果をもたらすので、参照画像バッファコンテンツもローカルエンコーダとリモートエンコーダとの間でビットが正確である。言い換えれば、エンコーダの予測部は、復号中に予測を使用するときにデコーダが「見る」のと全く同じサンプル値を参照画像サンプルとして「見る」。参照画像同期性（および、例えばチャネル誤差のために同期性を維持することができない場合、結果として生じるドリフト）のこの基本原理は、当業者に周知である。

「ローカル」デコーダ（433）の動作は、図3に関連して既に詳細に説明した「リモート」デコーダ（210）の動作と同じであり得る。しかしながら、図4も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（445）およびパーサ（320）による符号化ビデオシーケンスへのシンボルのエンコードおよび／または復号は可逆であり得るため、チャネル（312）、受信機（310）、バッファ（315）、およびパーサ（320）を含むデコーダ（210）のエントロピー復号部は、ローカルデコーダ（433）において完全には実装され得ない。

この時点でなされ得る観測は、デコーダ内に存在する構文解析および／またはエントロピー復号を除く任意のデコーダ技術もまた、対応するエンコーダ内に実質的に同一の機能形態で存在する必要があるということである。このため、開示された主題はデコーダ動作に焦点を合わせている。エンコーダ技術の説明は、それらが包括的に説明されたデコーダ技術の逆であるので省略することができる。特定の領域においてのみ、より詳細な説明が必要とされ、以下に提供される。

その動作の一部として、ソースコーダ（430）は、「参照フレーム」として指定されたビデオシーケンスからの1つまたは複数の以前に符号化されたフレームを参照して入力フレームを予測的に符号化する動き補償予測符号化を実行することができる。このようにして、符号化エンジン（432）は、入力フレームの画素ブロックと、入力フレームに対する予測参照（複数可）として選択され得る参照フレーム（複数可）の画素ブロックとの間の差を符号化する。

ローカルビデオデコーダ（433）は、ソースコーダ（430）によって生成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化ビデオデータを復号し得る。符号化エンジン（432）の動作は、有利には非可逆プロセスであり得る。符号化ビデオデータがビデオデコーダ（図4には示されていない）で復号され得るとき、再構築されたビデオシーケンスは、通常、いくつかのエラーを有するソースビデオシーケンスの複製であり得る。ローカルビデオデコーダ（433）は、ビデオデコーダによって実行され得る復号プロセスを参照フレームに複製し、再構築された参照フレームが参照画像キャッシュ（434）に格納され得る。このようにして、エンコーダ（203）は、遠端ビデオデコーダ（伝送エラーなし）によって取得される再構築された参照フレームとして共通のコンテンツを有する再構築された参照フレームのコピーをローカルに格納することができる。

予測器（435）は、符号化エンジン（432）の予測検索を実行することができる。すなわち、符号化される新しいフレームについて、予測器（435）は、（候補参照画素ブロックとしての）サンプルデータ、または、新しい画像の適切な予測参照として機能し得る、参照画像の動きベクトル、ブロック形状などの特定のメタデータを求めて参照画像メモリ（434）を検索し得る。予測器（435）は、適切な予測参照を見つけるために、サンプルの画素ブロックごとに動作することができる。場合によっては、予測器（435）によって取得された検索結果によって決定されるように、入力画像は、参照画像メモリ（434）に格納された複数の参照画像から描画された予測参照を有することができる。

コントローラ（450）は、例えば、ビデオデータをエンコードするために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ（430）の符号化動作を管理することができる。

前述のすべての機能ユニットの出力は、エントロピーコーダ（445）においてエントロピー符号化の対象となり得る。エントロピーコーダは、例えばハフマン符号化、可変長符号化、算術符号化などの当業者に知られている技術に従ってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化ビデオシーケンスに変換する。

送信機（440）は、エントロピーコーダ（445）によって生成された符号化ビデオシーケンス（複数可）をバッファリングして、エンコードされたビデオデータを格納するストレージデバイスへのハードウェア／ソフトウェアリンクであり得る通信チャネル（460）を介した伝送の準備をすることができる。送信機（440）は、ビデオコーダ（430）からの符号化ビデオデータを、伝送される他のデータ、例えば、符号化オーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ（450）は、エンコーダ（203）の動作を管理することができる。符号化中、コントローラ（450）は、各符号化画像に特定の符号化画像タイプを割り当てることができ、これは、それぞれの画像に適用され得る符号化技術に影響を及ぼし得る。例えば、画像は、以下のフレームタイプのうちの1つとして割り当てられることが多い。

イントラ画像（I画像）は、シーケンス内の他のフレームを予測のソースとして使用せずに符号化および復号され得る画像であり得る。いくつかのビデオコーデックは、例えば、独立したデコーダのリフレッシュ画像を含む、異なるタイプのイントラ画像を可能にする。当業者は、I画像のこれらの変形ならびにそれらのそれぞれの用途および特徴を認識している。

予測画像（P画像）は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得る画像であり得る。

双方向予測画像（B画像）は、各ブロックのサンプル値を予測するために最大で2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得る画像であり得る。同様に、複数の予測画像は、単一のブロックの再構築のために3つ以上の参照画像および関連するメタデータを使用することができる。

ソース画像は、一般に、複数のサンプルブロック（例えば、4×4、8×8、4×8、または16×16サンプルの各ブロック）に空間的に細分化され、ブロックごとに符号化され得る。ブロックは、ブロックのそれぞれの画像に適用される符号化割当によって決定されるように、他の（既に符号化された）ブロックを参照して予測的に符号化され得る。例えば、I画像のブロックは、非予測的に符号化されてもよいし、同じ画像の既に符号化されたブロックを参照して予測的に符号化されてもよい（空間予測またはイントラ予測）。P画像の画素ブロックは、以前に符号化された1つの参照画像を参照して、非予測的に、空間予測を介して、または時間予測を介して符号化され得る。B画像のブロックは、1つまたは2つの以前に符号化された参照画像を参照して、空間予測を介して、または時間予測を介して、非予測的に符号化され得る。

ビデオコーダ（203）は、ITU－T Rec．H．265などの所定のビデオ符号化技術または規格に従って符号化動作を実行することができる。その動作において、ビデオコーダ（203）は、入力ビデオシーケンスにおける時間的および空間的冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行し得る。したがって、符号化ビデオデータは、使用されているビデオ符号化技術または規格によって指定されたシンタックスに準拠することができる。

一実施形態では、送信機（440）は、エンコードされたビデオと共に追加のデータを伝送することができる。ビデオコーダ（430）は、符号化ビデオシーケンスの一部としてそのようなデータを含み得る。追加のデータは、時間／空間／SNR拡張レイヤ、冗長画像およびスライスなどの他の形態の冗長データ、補足拡張情報（SEI）メッセージ、ビジュアルユーザビリティ情報（VUI）パラメータセットフラグメントなどを含み得る。

最近、圧縮ドメインの集約、または複数の意味的に独立した画像部分の単一のビデオ画像への抽出が注目を集めている。特に、例えば、360度の符号化または特定の監視アプリケーションのコンテキストでは、複数の意味的に独立したソース画像（例えば、立方体投影された360度シーンの6つの立方体表面、またはマルチカメラ監視設定の場合の個々のカメラ入力）は、所与の時点における異なるシーンごとのアクティビティに対処するために別々の適応解像度設定を必要とする場合がある。言い換えれば、エンコーダは、所与の時点において、360度または監視シーン全体を構成する異なる意味的に独立した画像に対して異なる再サンプリングファクタを使用することを選択することができる。単一の画像に結合されると、それは、符号化画像の部分に対して、参照画像の再サンプリングが実行されることを必要とし、適応解像度符号化シグナリングが利用可能である。

以下、この説明の残りの部分で参照されるいくつかの用語を紹介する。

サブ画像は、場合によっては、意味的にグループ化され、変更された解像度で独立して符号化され得るサンプル、ブロック、マクロブロック、符号化ユニット、または同様のエンティティの矩形配置を指すことができる。1つまたは複数のサブ画像が画像を形成し得る。1つまたは複数の符号化サブ画像は、符号化画像を形成し得る。1つまたは複数のサブ画像は画像にアセンブルされ得、1つまたは複数のサブ画像は画像から抽出され得る。特定の環境では、1つまたは複数の符号化サブ画像は、サンプルレベルまで符号化画像にトランスコードすることなく圧縮ドメインでアセンブルされ、同じまたは他の場合には、1つまたは複数の符号化サブ画像は、圧縮ドメインの符号化画像から抽出され得る。

適応解像度変更（ARC）は、例えば、参照画像再サンプリングによる、符号化ビデオシーケンス内の画像またはサブ画像の解像度の変更を可能にするメカニズムを指すことができる。以降、ARCパラメータは、適応解像度変更を実行するために必要とされる制御情報を指し、これは、例えば、フィルタパラメータ、スケーリングファクタ、出力画像および／または参照画像の解像度、様々な制御フラグなどを含み得る。

実施形態では、符号化および復号は、単一の意味的に独立した符号化ビデオ画像に対して実行されてもよい。独立したARCパラメータを有する複数のサブ画像の符号化／復号の含意およびその含意される追加の複雑さを説明する前に、ARCパラメータをシグナリングするためのオプションを説明するものとする。

図5A～図5Eを参照すると、ARCパラメータをシグナリングするためのいくつかの実施形態が示されている。各実施形態で述べたように、それらは、符号化効率、複雑さ、およびアーキテクチャの観点から、特定の利点および特定の欠点を有し得る。ビデオ符号化規格または技術は、ARCパラメータをシグナリングするために、これらの実施形態のうちの1つまたは複数、または従来技術から知られているオプションを選択することができる。実施形態は、相互に排他的でなくてもよく、アプリケーションのニーズ、関連する標準技術、またはエンコーダの選択に基づいて交換されてもよいと考えられる。

ARCパラメータのクラスは、以下を含み得る：

－X次元およびY次元で別々のまたは組み合わされる、アップサンプルおよび／またはダウンサンプルファクタ。

－所与の数の画像に対する一定速度のズームイン／アウトを示す、時間次元を追加したアップサンプルおよび／またはダウンサンプルファクタ。

－上記の2つのいずれかは、ファクタ（複数可）を含むテーブルを指すことができる1つまたは複数の推定される短いシンタックス要素の符号化を含むことができる。

－組み合わされるまたは別々の、入力画像、出力画像、参照画像、符号化画像の、サンプル、ブロック、マクロブロック、符号化ユニット（CUs）、または任意の他の適切な粒度の単位でのX次元またはY次元の解像度。2つ以上の解像度がある場合（例えば、入力画像用のもの、参照画像用のものなど）、特定の場合には、ある値のセットが別の値のセットから推測され得る。これは、例えば、フラグを使用することによってゲーティングすることができる。より詳細な例については、以下を参照されたい。

－上述したように適切な粒度の、H．263 Annex Pで使用されているのと同様の「ワーピング」座標。H．263 Annex Pは、そのようなワーピング座標を符号化する1つの効率的な方法を定義しているが、他の潜在的により効率的な方法も考えられる。例えば、Annex Pのワーピング座標の可変長可逆「ハフマン」スタイルの符号化は、適切な長さのバイナリ符号化に置き換えることができ、バイナリコードの長さは、例えば、最大画像サイズから導出することができ、場合によっては特定のファクタを乗算し、特定の値をオフセットして、最大画像サイズの境界外の「ワーピング」を可能にする。

－アップサンプルおよび／またはダウンサンプルフィルタパラメータ。実施形態では、アップサンプリングおよび／またはダウンサンプリングのための単一のフィルタのみが存在してもよい。しかしながら、実施形態では、フィルタ設計においてより高い柔軟性を可能にすることが望ましく、それはフィルタパラメータのシグナリングを必要とし得る。そのようなパラメータは、可能なフィルタ設計のリスト内のインデックスを介して選択されてもよく、フィルタは、完全に指定されてもよく（例えば、適切なエントロピー符号化技術を使用して、フィルタ係数のリストを介して）、フィルタは、アップサンプルおよび／またはダウンサンプル比を介して暗黙的に選択されてもよく、これに応じて、上述のメカニズムのいずれかに従ってシグナリングされる、などである。

以下、説明は、符号語を介して示されるアップサンプルおよび／またはダウンサンプルファクタの有限集合（X次元およびY次元の両方で使用される同じファクタ）の符号化を想定している。その符号語は、例えば、H．264およびH．265などのビデオ符号化仕様における特定のシンタックス要素に共通のExt－Golomb符号を使用して、可変長符号化され得る。アップサンプルファクタおよび／またはダウンサンプルファクタへの値の1つの適切なマッピングは、例えば、表1に従うことができる。

アプリケーションのニーズ、およびビデオ圧縮技術または規格で利用可能なアップスケール機構およびダウンスケール機構の能力に従って、多くの同様のマッピングを考案することができる。テーブルを、より多くの値に拡張することができる。値はまた、例えばバイナリ符号化を使用して、Ext－Golomb符号以外のエントロピー符号化機構によって表されてもよい。これは、例えばMANEによって、再サンプリングファクタがビデオ処理エンジン（主要なエンコーダおよびデコーダ）自体の外部で重要であった場合に、特定の利点を有し得る。解像度変更が必要とされない状況では、短いExt－Golomb符号を選択することができることに留意されたい。上記のテーブルでは、シングルビットのみである。これは、最も一般的な場合にバイナリコードを使用するよりも符号化効率の利点を有することができる。

テーブル内のエントリの数、ならびにそれらのセマンティクスは、完全にまたは部分的に構成可能であり得る。例えば、テーブルの基本的な概要は、シーケンスまたはデコーダパラメータセットなどの「高」パラメータセットで伝達されてもよい。実施形態では、1つまたは複数のそのようなテーブルは、ビデオ符号化技術または規格で定義されてもよく、例えばデコーダまたはシーケンスパラメータセットを介して選択されてもよい。

上記のように符号化されたアップサンプルおよび／またはダウンサンプルファクタ（ARC情報）がビデオ符号化技術または規格シンタックスにどのように含まれ得るかを以下に説明する。アップサンプルおよび／またはダウンサンプルフィルタを制御する1つまたはいくつかの符号語にも同様の考慮事項が適用され得る。フィルタまたは他のデータ構造に比較的大量のデータが必要な場合の説明については、以下を参照されたい。

図5Aに示すように、H．263 Annex Pは、具体的にはH．263 PLUSPTYPE（503）ヘッダ拡張における、画像ヘッダ（501）への4つのワーピング座標の形態のARC情報（502）を含む。これは、a）利用可能な画像ヘッダがあり、b）ARC情報の頻繁な変更が予想される場合に、賢明な設計選択となり得る。しかしながら、H．263スタイルのシグナリングを使用する場合のオーバーヘッドは非常に高くなる可能性があり、画像ヘッダは一時的な性質であり得るため、スケーリングファクタは画像境界間に関係しない可能性がある。

図5Bに示すように、JVCET－M135－v1は、画像パラメータセット（504）内に位置するARC参照情報（505）（インデックス）を含み、シーケンスパラメータセット（507）内に位置するターゲット解像度を含むテーブル（506）をインデックス付けする。シーケンスパラメータセット（507）内のテーブル（506）における可能な解像度の配置は、著者によって行われた口頭の陳述に従って、能力交換中に相互運用交渉点としてSPSを使用することによって正当化され得る。解像度は、適切な画像パラメータセット（504）を参照することによって、画像ごとにテーブル（506）内の値によって設定された制限内で変化し得る。

図5C～図5Eを参照すると、ビデオビットストリームでARC情報を伝達するために以下の実施形態が存在し得る。これらのオプションの各々は、上述の実施形態を超える特定の利点を有する。実施形態は、同じビデオ符号化技術または規格に同時に存在してもよい。

実施形態では、例えば図5Cに示す実施形態では、再サンプリング（ズーム）ファクタなどのARC情報（509）は、スライスヘッダ、GOPヘッダ、タイルヘッダ、またはタイルグループヘッダに存在し得る。図5Cは、タイルグループヘッダ（508）が使用される実施形態を示している。これは、例えば上記のように、単一の可変長ue（v）または数ビットの固定長符号語など、ARC情報が小さい場合に適切であり得る。タイルグループヘッダ内にARC情報を直接有することは、ARC情報のさらなる利点を有し、画像全体ではなく、例えば、そのタイルグループによって表されるサブ画像に適用可能であり得る。以下も参照されたい。加えて、（例えば、タイルグループベースの適応解像度変更とは対照的に）ビデオ圧縮技術または規格が全画像適応解像度変更のみを想定している場合であっても、ARC情報をH．263スタイルの画像ヘッダに入れることに対して、ARC情報をタイルグループヘッダに入れることは、エラー回復力の観点から一定の利点を有する。

実施形態、例えば図5Dに示す実施形態では、ARC情報（512）自体は、例えば、画像パラメータセット、ヘッダパラメータセット、タイルパラメータセット、適応パラメータセットなどの適切なパラメータセットに存在し得る。図5Dは、適応パラメータセット（511）が使用される実施形態を示している。そのパラメータセットの範囲は、好適には、画像、例えばタイルグループ以下とすることができる。ARC情報の使用は、関連するパラメータセットの起動によって暗黙的に行われる。例えば、ビデオ符号化技術または規格が画像ベースのARCのみを企図する場合、画像パラメータセットまたは等価物が適切であり得る。

実施形態、例えば図5Eに示す実施形態では、ARC参照情報（513）は、タイルグループヘッダ（514）または同様のデータ構造に存在し得る。その参照情報（513）は、単一画像を超える範囲、例えばシーケンスパラメータセットまたはデコーダパラメータセットを有するパラメータセット（516）において利用可能なARC情報（515）のサブセットを指すことができる。

図6Aに示すように、画像の（場合によっては矩形の）部分に適用可能なヘッダの例示的なシンタックス構造としてのタイルグループヘッダ（601）は、条件付きで、可変長のExp－Golomb符号化シンタックス要素dec＿pic＿size＿idx（602）（太字で示されている）を含むことができる。タイルグループヘッダ内のこのシンタックス要素の存在は、適応解像度（603）、ここでは太字で示されていないフラグの値を使用してゲーティングすることができ、これは、フラグがシンタックス図内で発生する点でビットストリーム内に存在することを意味する。適応解像度がこの画像またはその一部に使用されているかどうかは、ビットストリームの内部または外部の任意の高レベルシンタックス構造でシグナリングされ得る。示されている例では、以下に概説するようにシーケンスパラメータセットでシグナリングされる。

図6Bを参照すると、シーケンスパラメータセット（610）の抜粋も示されている。示されている第1のシンタックス要素は、adaptive＿pic＿resolution＿change＿flag（611）である。真の場合、そのフラグは適応解像度の使用を示すことができ、適応解像度は特定の制御情報を必要とする場合がある。この例では、このような制御情報は、パラメータセット（612）内のif（）文に基づくフラグの値と、タイルグループヘッダ（601）とに基づいて、条件付きで存在する。

適応解像度が使用されているとき、この例では、符号化はサンプル単位の出力解像度（613）である。数字613は、出力画像の解像度をともに定義することができるoutput＿pic＿width＿in＿luma＿samplesおよびoutput＿pic＿height＿in＿luma＿samplesの両方を指す。ビデオ符号化技術または規格の他の場所では、いずれかの値に対する特定の制限を定義することができる。例えば、レベル定義は、それらの2つのシンタックス要素の値の積とすることができる総出力サンプルの数を制限することができる。また、特定のビデオ符号化技術もしくは規格、または例えばシステム規格などの外部技術もしくは規格は、番号付け範囲（例えば、一方または両方の寸法は、2の累乗で割り切れなければならない）、またはアスペクト比（例えば、幅と高さは4：3または16：9などの関係になければならない）を制限することができる。そのような制限は、ハードウェア実装を容易にするために、または他の理由で導入されてもよく、当技術分野で周知である。

特定の用途では、エンコーダは、サイズが出力画像サイズであると暗黙的に仮定するのではなく、特定の参照画像サイズを使用するようにデコーダに指示することが望ましい場合がある。この例では、シンタックス要素reference＿pic＿size＿present＿flag（614）は、参照画像寸法（615）（この場合も、数字は幅と高さの両方を指す）の条件付き存在をゲーティングする。

最後に、可能な復号画像の幅および高さのテーブルが示されている。このようなテーブルは、例えば、テーブル指示（num＿dec＿pic＿size＿in＿luma＿samples＿minus1）（616）で表すことができる。“minus1”は、そのシンタックス要素の値の解釈を指すことができる。例えば、符号化された値が0である場合、1つのテーブルエントリが存在する。値が5である場合、6つのテーブルエントリが存在する。テーブル内の各「ライン」について、復号された画像の幅および高さがシンタックス（617）に含まれる。

提示されたテーブルエントリ（617）は、タイルグループヘッダ内のシンタックス要素dec＿pic＿size＿idx（602）を使用してインデックス付けすることができ、それにより、タイルグループごとに異なる復号サイズ、実際にはズームファクタを可能にする。

例えばVP9のような特定のビデオ符号化技術または規格は、空間スケーラビリティを可能にするために、（開示された主題とは全く異なるようにシグナリングされた）ある形式の参照画像の再サンプリングを、時間スケーラビリティと併せて実施することによって、空間スケーラビリティをサポートする。特に、特定の参照画像は、ARCスタイル技術を使用してより高い解像度にアップサンプリングされ、空間拡張レイヤのベースを形成することができる。これらのアップサンプリングされた画像は、詳細を追加するために、高解像度で通常の予測メカニズムを使用して洗練され得る。

本明細書で説明する実施形態を、そのような環境で使用することができる。場合によっては、同じまたは別の実施形態では、NALユニットヘッダ内の値、例えばTemporal IDフィールドを使用して、時間レイヤだけでなく空間レイヤも示すことができる。そうすることで、特定のシステム設計に特定の利点をもたらすことができる；例えば、NALユニットヘッダのTemporal ID値に基づいて時間レイヤ選択転送のために作成および最適化された既存の選択転送ユニット（SFU）を、スケーラブル環境のために、修正なしで使用することができる。これを可能にするために、符号化画像サイズと時間レイヤとの間のマッピングに対する要件が存在してもよく、これはNALユニットヘッダ内のTemporal IDフィールドによって示される。

いくつかのビデオ符号化技術では、アクセスユニット（AU）は、所与の時間的なインスタンスで、それぞれの画像、スライス、タイル、および／またはNALユニットビットストリームへ取り込まれ、構成された符号化画像（複数可）、スライス（複数可）、タイル（複数可）、NALユニット（複数可）などを指すことができる。その時間的なインスタンスは、例えば、合成時間であり得る。

HEVC、および特定の他のビデオ符号化技術では、画像順序カウント（POC）値を使用して、復号画像バッファ（DPB）に格納された複数の参照画像の中から選択された参照画像を示すことができる。アクセスユニット（AU）が1つまたは複数の画像、スライス、またはタイルを含む場合、同じAUに属する各画像、スライス、またはタイルは同じPOC値を搬送することができ、そこから、それらが同じ合成時間のコンテンツから作成されたことを導出することができる。言い換えれば、2つの画像／スライス／タイルが同じ所与のPOC値を搬送するシナリオでは、それは同じAUに属し、同じ合成時間を有する2つの画像／スライス／タイルを示すことができる。逆に、異なるPOC値を有する2つの画像／タイル／スライスは、それらの画像／スライス／タイルが異なるAUに属し、異なる合成時間を有することを示すことができる。

実施形態では、アクセスユニットが異なるPOC値を有する画像、スライス、またはタイルを含むことができるという点で、この堅固な関係を緩和することができる。AU内で異なるPOC値を許容することにより、POC値を使用して、同一の提示時間を有する、潜在的に独立して復号可能な画像／スライス／タイルを識別することが可能になる。これにより、以下でより詳細に説明するように、参照画像選択シグナリング、例えば、参照画像セットシグナリングまたは参照画像リストシグナリングを変更することなく、複数のスケーラブルレイヤのサポートを可能にすることができる。

しかしながら、POC値のみから、異なるPOC値を有する他の画像／スライス／タイルに対して、画像／スライス／タイルが属するAUを識別できることが依然として望ましい。これは、以下に説明するように達成され得る。

実施形態では、アクセスユニットカウント（AUC）は、NALユニットヘッダ、スライスヘッダ、タイルグループヘッダ、SEIメッセージ、パラメータセットまたはAUデリミタなどの高レベルシンタックス構造でシグナリングされてもよい。AUCの値は、所与のAUに属するNALユニット、画像、スライス、またはタイルを識別するために使用され得る。AUCの値は、別個の合成時間インスタンスに対応し得る。AUC値は、POC値の倍数に等しくてもよい。POC値を整数値で除算することにより、AUC値を算出することができる。場合によっては、分割演算は、デコーダの実装に一定の負担をかける可能性がある。そのような場合、AUC値の番号付けスペースの小さな制限は、分割演算をシフト演算で置き換えることを可能にすることができる。例えば、AUC値は、POC値範囲の最上位ビット（MSB）値に等しくてもよい。

実施形態では、AUごとのPOCサイクルの値（poc＿cycle＿au）は、NALユニットヘッダ、スライスヘッダ、タイルグループヘッダ、SEIメッセージ、パラメータセットまたはAUデリミタなどの高レベルシンタックス構造でシグナリングされてもよい。poc＿cycle＿auは、同じAUに関連付けられることができる異なる連続するPOC値の数を示すことができる。例えば、poc＿cycle＿auの値が4に等しい場合、POC値が0～3に等しい画像、スライス、またはタイルは、AUC値が0に等しいAUに関連付けられることができ、POC値が4～7に等しい画像、スライス、またはタイルは、AUC値が1に等しいAUに関連付けられることができる。したがって、AUCの値は、POC値をpoc＿cycle＿auの値で除算することによって推測され得る。

実施形態では、poc＿cyle＿auの値は、例えばビデオパラメータセット（VPS）に位置する、符号化ビデオシーケンス内の空間レイヤまたはSNRレイヤの数を識別する情報から導出され得る。そのような可能な関係の例を以下に簡単に説明する。上述したような導出は、VPSにおいて数ビットを節約することができ、したがって符号化効率を改善することができるが、いくつかの実施形態では、poc＿cycle＿auは、画像などのビットストリームの所与の小部分についてpoc＿cycle＿auを最小化することができるように、ビデオパラメータセットの下位に階層的に適切な高レベルシンタックス構造で明示的に符号化され得る。POC値、および／またはPOCを間接的に参照するシンタックス要素の値は、低レベルのシンタックス構造で符号化され得るため、この最適化は、上記の導出プロセスを通して節約することができるよりも多くのビットを節約し得る。

実施形態では、図8は、符号化ビデオシーケンス内のすべての画像／スライスに使用されるpoc＿cycle＿auを示すVPS（またはSPS）内のvps＿poc＿cycle＿auのシンタックス要素、およびスライスヘッダ内の現在のスライスのpoc＿cycle＿auを示すslice＿poc＿cycle＿auのシンタックス要素をシグナリングするためのシンタックステーブルの一例を示している。POC値がAUごとに一律に増加する場合、VPSにおけるvps＿contant＿poc＿cycle＿per＿auを1に設定し、vps＿poc＿cycle＿auをVPSでシグナリングしてもよい。この場合、slice＿poc＿cycle＿auを明示的にシグナリングせずに、POCの値をvps＿poc＿cycle＿auで除算することにより、AUごとのAUCの値を算出してもよい。POC値がAUごとに一律に増加しない場合には、VPSにおけるvps＿contant＿poc＿cycle＿per＿auを0に設定してもよい。この場合、vps＿access＿unit＿cntはシグナリングされなくてもよく、slice＿access＿unit＿cntは、スライスまたは画像ごとにスライスヘッダでシグナリングされてもよい。各スライスまたは画像は、異なる値のslice＿access＿unit＿cntを有してもよい。AUごとのAUCの値は、POCの値をslice＿poc＿cycle＿auで除算することにより算出されてもよい。

図9は、上記のプロセスの一例を示すブロック図を示している。例えば、動作S910において、VPS（またはSPS）を解析することができ、動作S920において、AUごとのPOCサイクルが符号化ビデオシーケンス内で一定であるかどうかを判定することができる。AUごとのPOCサイクルが一定である場合（動作S920においてYES）、特定のアクセスユニットについてのアクセスユニットカウントの値は、動作S930において、符号化ビデオシーケンスについてシグナルされたpoc＿cycle＿auと、特定のアクセスユニットのPOC値とから計算され得る。AUごとのPOCサイクルが一定でない場合（動作S920においてNO）、特定のアクセスユニットについてのアクセスユニットカウントの値は、動作S940において画像レベルにおいてシグナリングされたpoc＿cycle＿auと、特定のアクセスユニットのPOC値とから計算され得る。動作S950において、新しいVPS（またはSPS）を解析することができる。

実施形態では、画像、スライス、またはタイルのPOCの値が異なっていても、同じAUC値を有するAUに対応する画像、スライス、またはタイルは、同じ復号または出力時間インスタンスに関連付けられ得る。したがって、同じAU内の画像、スライス、またはタイルにわたる構文解析／復号間の依存関係なしに、同じAUに関連付けられた画像、スライス、またはタイルのすべてまたはサブセットを並列に復号することができ、同じ時間インスタンスで出力することができる。

実施形態では、画像、スライス、またはタイルのPOCの値が異なっていても、同じAUC値を有するAUに対応する画像、スライス、またはタイルは、同じ合成／表示時間インスタンスに関連付けられ得る。合成時間がコンテナ形式に含まれている場合、画像が異なるAUに対応していても、画像が同じ合成時間を有する場合、それらの画像を同じ時間インスタンスで表示することができる。

実施形態では、各画像、スライス、またはタイルは、同じAU内の同じ時間識別子（temporal＿id）を有することができる。時間インスタンスに対応する画像、スライス、またはタイルのすべてまたはサブセットは、同じ時間サブレイヤに関連付けられ得る。実施形態では、各画像、スライス、またはタイルは、同じAU内の同じまたは異なる空間レイヤid（layer＿id）を有し得る。時間インスタンスに対応する画像、スライス、またはタイルのすべてまたはサブセットは、同じまたは異なる空間レイヤに関連付けられ得る。

図7は、適応解像度変更を伴うtemporal＿id、layer＿id、POC、およびAUC値の組み合わせを有するビデオシーケンス構造の一例を示している。この例では、AUC＝0の第1のAU内の画像、スライス、またはタイルは、temporal＿id＝0およびlayer＿id＝0または1を有することができるが、AUC＝1の第2のAU内の画像、スライス、またはタイルは、それぞれtemporal＿id＝1およびlayer＿id＝0または1を有することができる。temporal＿idおよびlayer＿idの値にかかわらず、POCの値は画像ごとに1ずつ増加する。この例では、poc＿cycle＿auの値は2に等しくすることができる。実施形態では、poc＿cycle＿auの値は、（空間スケーラビリティ）レイヤの数に等しく設定されてもよい。したがって、この例では、POCの値は2だけ増加し、AUCの値は1だけ増加する。

上記の実施形態では、画像間またはレイヤ間予測構造および参照画像指示のすべてまたはサブセットは、HEVCにおける既存の参照画像セット（RPS）シグナリングまたは参照画像リスト（RPL）シグナリングを使用することによってサポートされ得る。RPSまたはRPLでは、選択された参照画像は、現在の画像と選択された参照画像との間のPOCの値またはPOCのデルタ値をシグナリングすることによって示され得る。実施形態では、RPSおよびRPLを使用して、シグナリングを変更せずに画像間またはレイヤ間予測構造を示すことができるが、以下の制限がある。参照画像のtemporal＿idの値がtemporal＿idの現在の画像の値より大きい場合、現在の画像は、動き補償または他の予測のために参照画像を使用しない場合がある。参照画像のlayer＿idの値がlayer＿idの現在の画像の値より大きい場合、現在の画像は、動き補償または他の予測のために参照画像を使用しない場合がある。

実施形態では、時間動きベクトル予測のためのPOC差に基づく動きベクトルのスケーリングは、アクセスユニット内の複数の画像にわたって無効にすることができる。したがって、各画像はアクセスユニット内で異なるPOC値を有し得るが、動きベクトルはスケーリングされず、アクセスユニット内の時間動きベクトル予測に使用されない。これは、同じAU内のPOCが異なる参照画像は、同じ時間インスタンスを有する参照画像とみなされるためである。したがって、本実施形態では、参照画像が現在の画像に関連付けられたAUに属する場合、動きベクトルスケーリング関数は1を返すことができる。

実施形態では、参照画像の空間解像度が現在の画像の空間解像度と異なる場合、時間動きベクトル予測のためのPOC差に基づく動きベクトルのスケーリングは、複数の画像にわたって任意選択的に無効にすることができる。動きベクトルのスケーリングが許可されている場合、動きベクトルは、現在の画像と参照画像との間のPOC差および空間解像度比の両方に基づいてスケーリングされる。

実施形態では、動きベクトルは、特にpoc＿cycle＿auが不均一な値を有する場合（例えば、vps＿contant＿poc＿cycle＿per＿au＝＝0の場合）、時間動きベクトル予測のために、POC差ではなくAUC差に基づいてスケーリングされてもよい。そうでない場合（例えば、vps＿contant＿poc＿cycle＿per＿au＝＝1の場合）、AUC差に基づく動きベクトルのスケーリングは、POC差に基づく動きベクトルのスケーリングと同一であり得る。

実施形態では、動きベクトルがAUC差に基づいてスケーリングされるとき、現在の画像と同じAU内の（同じAUC値を有する）参照動きベクトルは、AUC差に基づいてスケーリングされず、現在の画像と参照画像との間の空間解像度比に基づくスケーリングなしまたはスケーリングありの動きベクトル予測に使用される。

実施形態では、AUC値は、AUの境界を識別するために使用され、AU粒度を有する入力および出力タイミングを必要とする仮想参照デコーダ（HRD）動作に使用され得る。実施形態において、AU内の最上位レイヤを有する復号画像は、表示のために出力され得る。AUC値およびlayer＿id値は、出力画像の識別に使用され得る。

実施形態では、画像は、1つまたは複数のサブ画像を含むことができる。各サブ画像は、画像の局所領域または全領域をカバーすることができる。サブ画像によってサポートされる領域は、別のサブ画像によってサポートされる領域と重なっていてもよいし、重なっていなくてもよい。1つまたは複数のサブ画像によってカバーされる領域は、画像の全領域をカバーしてもしなくてもよい。画像がサブ画像を含む場合、サブ画像によってサポートされる領域は、画像によってサポートされる領域と同一であり得る。

実施形態では、サブ画像は、符号化画像に使用される符号化方法と同様の符号化方法によって符号化され得る。サブ画像は、独立して符号化され得るか、または、別のサブ画像または符号化画像に従属的に符号化され得る。サブ画像は、別のサブ画像または符号化画像からの構文解析の依存関係を有しても、有しなくてもよい。

実施形態では、符号化サブ画像は、1つまたは複数のレイヤに含まれてもよい。レイヤ内の符号化サブ画像は、異なる空間解像度を有することができる。元のサブ画像は、空間的に再サンプリングされ（例えば、アップサンプリングまたはダウンサンプリングされ）、異なる空間解像度パラメータで符号化され、レイヤに対応するビットストリームに含まれ得る。

実施形態では、（W，H）を有するサブ画像が符号化されてレイヤ0に対応する符号化ビットストリームに含まれ得、それぞれ、Wはサブ画像の幅を示し、Hはサブ画像の高さを示し、一方で、（W＊S_w，k，H＊S_h，k）を有する元の空間解像度を有するサブ画像からアップサンプリングされた（またはダウンサンプリングされた）サブ画像が符号化されてレイヤkに対応する符号化ビットストリームに含まれ得、S_w，k，S_h，kは水平方向および垂直方向の再サンプリング比を示す。S_w，k，S_h，kの値が1より大きい場合、再サンプリングはアップサンプリングであり得る。一方、S_w，k，S_h，kの値が1より小さい場合、再サンプリングはダウンサンプリングであり得る。

実施形態では、レイヤ内の符号化サブ画像は、同じサブ画像または異なるサブ画像内の別のレイヤ内の符号化サブ画像の視覚的品質とは異なる視覚的品質を有し得る。例えば、レイヤn内のサブ画像iは量子化パラメータQ_i，nで符号化され得、レイヤm内のサブ画像jは量子化パラメータQ_j，mで符号化され得る。

実施形態では、レイヤ内の符号化サブ画像は、同じローカル領域の別のレイヤ内の符号化サブ画像からの構文解析または復号の依存関係なしに、独立して復号可能であり得る。同じローカル領域の別のサブ画像レイヤを参照することなく独立して復号可能であり得るサブ画像レイヤは、独立したサブ画像レイヤであり得る。独立したサブ画像レイヤ内の符号化サブ画像は、同じサブ画像レイヤ内の以前に符号化されたサブ画像からの復号または構文解析の依存関係を有しても有しなくてもよいが、符号化サブ画像は、別のサブ画像レイヤ内の符号化画像からのいかなる依存関係も有しなくてもよい。

実施形態では、レイヤ内の符号化サブ画像は、同じローカル領域の別のレイヤ内の符号化サブ画像からの任意の構文解析または復号の依存関係で、従属的に復号可能であり得る。同じローカル領域の別のサブ画像レイヤを参照して従属的に復号可能であり得るサブ画像レイヤは、従属サブ画像レイヤであり得る。従属サブ画像内の符号化サブ画像は、同じサブ画像に属する符号化サブ画像、同じサブ画像レイヤ内の以前に符号化されたサブ画像、または両方の参照サブ画像を参照することができる。

実施形態では、符号化サブ画像は、1つまたは複数の独立したサブ画像レイヤおよび1つまたは複数の従属サブ画像レイヤを含むことができる。しかしながら、符号化サブ画像に対して少なくとも1つの独立したサブ画像レイヤが存在してもよい。独立したサブ画像レイヤの、NALユニットヘッダまたは別の高レベルシンタックス構造に存在し得るレイヤ識別子（layer＿id）の値は0に等しくてもよい。layer＿idが0に等しいサブ画像レイヤは、ベースサブ画像レイヤであってもよい。

実施形態では、画像は、1つまたは複数の前景サブ画像および1つの背景サブ画像を含むことができる。背景サブ画像によってサポートされる領域は、画像の領域と等しくてもよい。前景サブ画像によってサポートされる領域は、背景サブ画像によってサポートされる領域と重複してもよい。背景サブ画像はベースサブ画像レイヤであってもよく、前景サブ画像はノンベース（拡張）サブ画像レイヤであってもよい。1つまたは複数のノンベースサブ画像レイヤは、復号のために同じベースレイヤを参照することができる。layer＿idがaに等しい各ノンベースサブ画像レイヤは、layer＿idがbに等しいノンベースサブ画像レイヤを参照することができ、aはbより大きい。

実施形態では、画像は、背景サブ画像の有無にかかわらず、1つまたは複数の前景サブ画像を含むことができる。各サブ画像は、それ自体のベースサブ画像レイヤおよび1つまたは複数のノンベース（拡張）レイヤを有することができる。各ベースサブ画像レイヤは、1つまたは複数のノンベースサブ画像レイヤによって参照され得る。layer＿idがaに等しい各ノンベースサブ画像レイヤは、layer＿idがbに等しいノンベースサブ画像レイヤを参照することができ、aはbより大きい。

実施形態では、画像は、背景サブ画像の有無にかかわらず、1つまたは複数の前景サブ画像を含むことができる。（ベースまたはノンベース）サブ画像レイヤ内の各符号化サブ画像は、同じサブ画像に属する1つまたは複数のノンベースレイヤサブ画像と、同じサブ画像に属さない1つまたは複数のノンベースレイヤサブ画像とによって参照され得る。

実施形態では、画像は、背景サブ画像の有無にかかわらず、1つまたは複数の前景サブ画像を含むことができる。レイヤa内のサブ画像は、同じレイヤ内の複数のサブ画像にさらに分割され得る。レイヤb内の1つまたは複数の符号化サブ画像は、レイヤa内の分割サブ画像を参照することができる。

実施形態では、符号化ビデオシーケンス（CVS）は、符号化画像のグループであってもよい。CVSは、1つまたは複数の符号化サブ画像シーケンス（CSPS）を含むことができ、CSPSは、画像の同じローカル領域をカバーする符号化サブ画像のグループであり得る。CSPSは、符号化ビデオシーケンスの時間解像度と同じまたは異なる時間解像度を有し得る。

実施形態では、CSPSは符号化され、1つまたは複数のレイヤに含まれてもよい。CSPSは、1つまたは複数のCSPSレイヤを含むことができる。CSPSに対応する1つまたは複数のCSPSレイヤを復号することは、同じローカル領域に対応するサブ画像のシーケンスを再構築することができる。

実施形態では、CSPSに対応するCSPSレイヤの数は、別のCSPSに対応するCSPSレイヤの数と同一であっても異なっていてもよい。

実施形態では、CSPSレイヤは、別のCSPSレイヤとは異なる時間分解能（例えば、フレームレート）を有し得る。元の（圧縮されていない）サブ画像シーケンスは、時間的に再サンプリングされ（例えば、アップサンプリングまたはダウンサンプリングされ）、異なる時間解像度パラメータで符号化され、レイヤに対応するビットストリームに含まれ得る。

実施形態では、フレームレートFを有するサブ画像シーケンスが符号化され、レイヤ0に対応する符号化ビットストリームに含まれてもよく、F＊S_t，kを有する元のサブ画像シーケンスからの時間的にアップサンプリングされた（またはダウンサンプリングされた）サブ画像シーケンスが符号化され、レイヤkに対応する符号化ビットストリームに含まれてもよく、S_t，kはレイヤkの時間的サンプリング比を示す。S_t，kの値が1より大きい場合、時間的再サンプリングプロセスはフレームレートアップ変換であってもよい。一方、S_t，kの値が1より小さい場合、時間的再サンプリングプロセスはフレームレートダウン変換であってもよい。

実施形態では、CSPSレイヤaを有するサブ画像が動き補償または任意のレイヤ間予測のためにCSPSレイヤbを有するサブ画像によって参照されるとき、CSPSレイヤaの空間解像度がCSPSレイヤbの空間解像度と異なる場合、CSPSレイヤa内の復号された画素は再サンプリングされ、参照に使用される。再サンプリングプロセスは、アップサンプリングフィルタリングまたはダウンサンプリングフィルタリングを使用することができる。

図10は、layer＿idが0に等しい背景ビデオCSPSおよび複数の前景CSPSレイヤを含む例示的なビデオストリームを示している。符号化サブ画像は1つまたは複数のCSPSレイヤを含むことができるが、任意の前景CSPSレイヤに属さない背景領域はベースレイヤを含むことができる。ベースレイヤは背景領域および前景領域を含むことができ、一方、拡張CSPSレイヤは前景領域を含むことができる。拡張CSPSレイヤは、同じ領域において、ベースレイヤよりも良好な視覚的品質を有することができる。拡張CSPSレイヤは、同じ領域に対応する、再構築された画素およびベースレイヤの動きベクトルを参照することができる。

実施形態では、ベースレイヤに対応するビデオビットストリームはトラックに含まれ、各サブ画像に対応するCSPSレイヤはビデオファイル内の分離されたトラックに含まれる。

実施形態では、ベースレイヤに対応するビデオビットストリームはトラックに含まれ、同じlayer＿idを有するCSPSレイヤは分離されたトラックに含まれる。この例では、レイヤkに対応するトラックは、レイヤkに対応するCSPSレイヤのみを含む。

実施形態では、各サブ画像の各CSPSレイヤは、別個のトラックに格納される。各トラックは、1つまたは複数の他のトラックからの構文解析または復号の依存関係を有しても、有しなくてもよい。

実施形態では、各トラックは、サブ画像のすべてまたはサブセットのCSPSレイヤのレイヤiからレイヤjに対応するビットストリームを含むことができ、0＜i＝＜j＝＜kであり、kはCSPSの最上位層である。

実施形態では、画像は、深度マップ、アルファマップ、3Dジオメトリデータ、占有マップなどを含む1つまたは複数の関連するメディアデータを含む。そのような関連する時限メディアデータを、各々が1つのサブ画像に対応する1つまたは複数のデータサブストリームに分割することができる。

図11は、多層サブ画像方法に基づくビデオ会議の一例を示している。ビデオストリームには、背景画像に対応する1つのベースレイヤビデオビットストリームと、前景サブ画像に対応する1つまたは複数の拡張レイヤビデオビットストリームとが含まれる。各拡張レイヤビデオビットストリームは、CSPSレイヤに対応することができる。ディスプレイでは、ベースレイヤに対応する画像がデフォルトで表示される。これは、画像内の1つまたは複数のユーザの画像（PIP）を含む。クライアントの制御によって特定のユーザが選択されると、選択されたユーザに対応する拡張CSPSレイヤは、拡張された品質または空間解像度で復号および表示され得る。

図12は、上記のプロセスの一例を示すブロック図を示している。例えば、動作S1210において、複数のレイヤを有するビデオビットストリームを復号することができる。動作S1220において、背景領域および1つまたは複数の前景サブ画像を識別することができる。動作S1230において、特定のサブ画像領域、例えば前景サブ画像のうちの1つが選択されているかどうかを判定することができる。特定のサブ画像領域が選択された場合（動作S1240においてYES）、拡張サブ画像を復号して表示することができる。特定のサブ画像領域が選択されていない場合（動作S1240においてNO）、背景領域を復号して表示することができる。

実施形態では、ネットワーク中間ボックス（例えば、ルータ）は、その帯域幅に応じて、ユーザに送信するレイヤのサブセットを選択することができる。画像／サブ画像編成は、帯域幅適応のために使用され得る。例えば、ユーザが帯域幅を持っていない場合、ルータは、それらの重要性に起因して、または使用される設定に基づいて、レイヤをストリップするかまたはいくつかのサブ画像を選択し、これは、帯域幅を採用するために動的に行うことができる。

図13は、360度ビデオのユースケースに関する一実施形態を示している。球面360度画像、例えば画像1310が平面画像に投影されるとき、投影360度画像はベースレイヤとして複数のサブ画像に分割され得る。例えば、複数のサブ画像は、バックサブ画像、トップサブ画像、右サブ画像、左サブ画像、フォワードサブ画像、およびボトムサブ画像を含むことができる。特定のサブ画像、例えばフォワードサブ画像の拡張レイヤは、符号化され、クライアントに伝送され得る。デコーダは、すべてのサブ画像を含むベースレイヤと選択されたサブ画像の拡張レイヤの両方を復号することができる。現在のビューポートが選択されたサブ画像と同一である場合、表示された画像は、拡張レイヤを有する復号されたサブ画像でより高い品質を有することができる。そうでなければ、ベースレイヤを有する復号画像をより低い品質で表示することができる。

実施形態では、表示用の任意のレイアウト情報は、補足情報（SEIメッセージまたはメタデータなど）としてファイルに存在することができる。1つまたは複数の復号されたサブ画像は、シグナリングされたレイアウト情報に応じて再配置および表示され得る。レイアウト情報は、ストリーミングサーバまたは放送局によってシグナリングされてもよいし、ネットワークエンティティまたはクラウドサーバによって再生成されてもよいし、ユーザのカスタマイズされた設定によって決定されてもよい。

実施形態では、入力画像が1つまたは複数の（矩形の）サブ領域に分割される場合、各サブ領域は独立したレイヤとして符号化され得る。ローカル領域に対応する独立した各レイヤは、一意のlayer＿id値を有することができる。各独立したレイヤについて、サブ画像サイズおよび位置情報がシグナリングされ得る。例えば、画像サイズ（幅、高さ）、左上隅のオフセット情報（x＿offset，y＿offset）である。図14は、分割されたサブ画像のレイアウト、そのサブ画像サイズおよび位置情報、ならびにその対応する画像予測構造の一例を示している。サブ画像サイズ（複数可）およびサブ画像位置（複数可）を含むレイアウト情報は、パラメータセット（複数可）、スライスもしくはタイルグループのヘッダ、またはSEIメッセージなどの高レベルシンタックス構造でシグナリングされ得る。

実施形態では、独立したレイヤに対応する各サブ画像は、AU内に固有のPOC値を有し得る。DPBに格納された画像のうちの参照画像が、RPSまたはRPL構造のシンタックス要素（複数可）を使用して示される場合、レイヤに対応する各サブ画像のPOC値（複数可）が使用され得る。

実施形態では、（レイヤ間）予測構造を示すために、layer＿idは使用されなくてもよく、POC（デルタ）値が使用されてもよい。

実施形態では、レイヤ（またはローカル領域）に対応するNに等しいPOC値を有するサブ画像は、動き補償予測のための同じレイヤ（または同じローカル領域）に対応する、N＋Kに等しいPOC値を有するサブ画像の参照画像として使用されてもされなくてもよい。ほとんどの場合、数値Kは、（独立した）レイヤの最大数に等しくてもよく、これはサブ領域の数と同一であってもよい。

実施形態では、図15は、図14の拡張ケースを示している。入力画像が複数の（例えば4つの）サブ領域に分割される場合、各ローカル領域は1つまたは複数のレイヤで符号化され得る。この場合、独立したレイヤの数はサブ領域の数に等しくてもよく、1つまたは複数のレイヤがサブ領域に対応してもよい。したがって、各サブ領域は、1つまたは複数の独立したレイヤおよび0または複数の従属レイヤで符号化され得る。

実施形態では、図15において、入力画像は4つのサブ領域に分割され得る。一例として、右上サブ領域は、レイヤ1およびレイヤ4である2つのレイヤとして符号化されてもよく、右下サブ領域は、レイヤ3およびレイヤ5である2つのレイヤとして符号化されてもよい。この場合、レイヤ4は、動き補償予測のためにレイヤ1を参照することができ、レイヤ5は、動き補償のためにレイヤ3を参照することができる。

実施形態では、レイヤ境界にわたるインループフィルタリング（デブロッキングフィルタリング、適応インループフィルタリング、リシェーパ、バイラテラルフィルタリング、または任意のディープラーニングベースのフィルタリングなど）は、（任意選択的に）無効にされ得る。

実施形態では、レイヤ境界にわたる動き補償予測またはイントラブロックコピーは、（任意選択的に）無効にされ得る。

実施形態では、サブ画像の境界における動き補償予測またはインループフィルタリングのための境界パディングは、任意選択的に処理され得る。境界パディングが処理されるかどうかを示すフラグは、パラメータセット（VPS、SPS、PPS、またはAPS）、スライスもしくはタイルグループヘッダ、またはSEIメッセージなどの高レベルシンタックス構造でシグナリングされ得る。

実施形態では、サブ領域（またはサブ画像）（複数可）のレイアウト情報は、VPSまたはSPSでシグナリングされ得る。図16Aは、VPSのシンタックス要素の例を示し、図16Bは、SPSのシンタックス要素の例を示している。この例では、vps＿sub＿picture＿dividing＿flagがVPSでシグナリングされる。フラグは、入力画像が複数のサブ領域に分割されるかどうかを示すことができる。vps＿sub＿picture＿dividing＿flagの値が0に等しいとき、現在のVPSに対応する符号化ビデオシーケンス（複数可）内の入力画像（複数可）は、複数のサブ領域に分割されなくてもよい。この場合、入力画像サイズは、SPSでシグナリングされる符号化画像サイズ（pic＿width＿in＿luma＿samples、pic＿height＿in＿luma＿samples）に等しくてもよい。vps＿sub＿picture＿dividing＿flagの値が1に等しいとき、入力画像（複数可）は複数のサブ領域に分割されてもよい。この場合、シンタックス要素vps＿full＿pic＿width＿in＿luma＿samplesおよびvps＿full＿pic＿height＿in＿luma＿samplesは、VPSでシグナリングされる。vps＿full＿pic＿width＿in＿luma＿samplesおよびvps＿full＿pic＿height＿in＿luma＿samplesの値は、それぞれ入力画像（複数可）の幅および高さに等しくてもよい。

実施形態では、vps＿full＿pic＿width＿in＿luma＿samplesおよびvps＿full＿pic＿height＿in＿luma＿samplesの値は復号に使用されなくてもよく、合成および表示に使用されてもよい。

実施形態において、vps＿sub＿picture＿dividing＿flagの値が1に等しいとき、シンタックス要素pic＿offset＿xおよびpic＿offset＿yは、（a）特定のレイヤ（複数可）に対応するSPSにおいてシグナリングされ得る。この場合、SPSでシグナリングされる符号化画像サイズ（pic＿width＿in＿luma＿samples，pic＿height＿in＿luma＿samples）は、特定のレイヤに対応するサブ領域の幅および高さに等しくてもよい。また、サブ領域の左上隅の位置（pic＿offset＿x，pic＿offset＿y）は、SPSでシグナリングされてもよい。

実施形態では、サブ領域の左上隅の位置情報（pic＿offset＿x，pic＿offset＿y）は復号に使用されなくてもよく、合成および表示に使用されてもよい。

実施形態では、入力画像のサブ領域のすべてまたはサブセットのレイアウト情報（サイズおよび位置）、レイヤ間の依存関係情報は、パラメータセットまたはSEIメッセージでシグナリングされ得る。図17は、サブ領域のレイアウト、レイヤ間の依存関係、およびサブ領域と1つまたは複数のレイヤとの間の関係の情報を示すシンタックス要素の一例を示している。この例では、シンタックス要素num＿sub＿regionは、現在の符号化ビデオシーケンス内の（矩形の）サブ領域の数を示す。シンタックス要素num＿layersは、現在の符号化ビデオシーケンス内のレイヤ数を示す。num＿layersの値は、num＿sub＿regionの値以上であってもよい。任意のサブ領域が単一のレイヤとして符号化される場合、num＿layersの値は、num＿sub＿regionの値と等しくてもよい。1つまたは複数のサブ領域が複数のレイヤとして符号化されるとき、num＿layersの値は、num＿sub＿regionの値よりも大きくてもよい。シンタックス要素direct＿dependency＿flag［i］［j］は、j番目のレイヤからi番目のレイヤへの依存関係を示す。num＿layers＿for＿region［i］は、i番目のサブ領域に対応付けられているレイヤの数を示す。sub＿region＿layer＿id［i］［j］は、i番目のサブ領域に対応付けられているj番目のレイヤのlayer＿idを示す。sub＿region＿offset＿x［i］およびsub＿region＿offset＿y［i］は、それぞれ、i番目のサブ領域の左上隅の水平および垂直位置を示す。sub＿region＿width［i］およびsub＿region＿height［i］は、それぞれ、i番目のサブ領域の幅および高さを示す。

実施形態では、プロファイル階層レベル情報の有無にかかわらず出力される複数のレイヤのうちの1つを示すように設定された出力レイヤを指定する1つまたは複数のシンタックス要素は、高レベルシンタックス構造、例えば、VPS、DPS、SPS、PPS、APSまたはSEIメッセージでシグナリングされ得る。図18を参照すると、VPSを参照する符号化ビデオシーケンス内の出力レイヤセット（OLS）の数を示すシンタックス要素num＿output＿layer＿setsは、VPS内でシグナリングされ得る。各出力レイヤセットについて、出力レイヤの数と同じ数だけoutput＿layer＿flagがシグナリングされ得る。

実施形態では、1に等しいoutput＿layer＿flag［i］は、i番目のレイヤが出力されることを指定する。0に等しいvps＿output＿layer＿flag［i］は、i番目のレイヤを出力しないことを指定する。

実施形態では、各出力レイヤセットのプロファイル階層レベル情報を指定する1つまたは複数のシンタックス要素は、高レベルシンタックス構造、例えばVPS、DPS、SPS、PPS、APSまたはSEIメッセージでシグナリングされ得る。さらに図18を参照すると、VPSを参照する符号化ビデオシーケンス内のOLSごとのプロファイル階層レベル情報の数を示すシンタックス要素num＿profile＿tile＿levelは、VPSでシグナリングされ得る。各出力レイヤセットについて、プロファイル階層レベル情報のシンタックス要素のセット、またはプロファイル階層レベル情報内のエントリのうちの特定のプロファイル階層レベル情報を示すインデックスは、出力レイヤの数と同じ数だけシグナリングされ得る。

実施形態では、profile＿tier＿level＿idx［i］［j］は、VPS内のprofile＿tier＿level（）シンタックス構造のリスト内に、i番目のOLSのj番目のレイヤに適用されるprofile＿tier＿level（）シンタックス構造のインデックスを指定する。

実施形態では、図19を参照すると、最大レイヤ数が1より大きい場合（vps＿max＿layers＿minus1＞0）、シンタックス要素num＿profile＿tile＿levelおよび／またはnum＿output＿layer＿setsがシグナリングされ得る。

実施形態では、図19を参照すると、i番目の出力レイヤセットに対する出力レイヤシグナリングのモードを示すシンタックス要素vps＿output＿layers＿mode［i］は、VPS内に存在し得る。

実施形態では、0に等しいvps＿output＿layers＿mode［i］は、i番目の出力レイヤセットで最上位層のみが出力されることを指定する。1に等しいvps＿output＿layer＿mode［i］は、i番目の出力レイヤセットですべてのレイヤが出力されることを指定する。2に等しいvps＿output＿layer＿mode［i］は、出力される層が、i番目の出力レイヤセットで1に等しいvps＿output＿layer＿flag［i］［j］を有するレイヤであることを指定する。より多くの値がリザーブされてもよい。

実施形態では、output＿layer＿flag［i］［j］は、i番目の出力レイヤセットのvps＿output＿layers＿mode［i］の値に応じてシグナリングされてもされなくてもよい。

実施形態では、図19を参照すると、i番目の出力レイヤセットに対してフラグvps＿ptl＿signal＿flag［i］が存在してもよい。vps＿ptl＿signal＿flag［i］の値に応じて、i番目の出力レイヤセットのプロファイル階層レベル情報はシグナリングされてもされなくてもよい。

実施形態では、図20を参照すると、現在のCVS内のサブ画像の数max＿subpics＿minus1は、高レベルシンタックス構造、例えばVPS、DPS、SPS、PPS、APSまたはSEIメッセージでシグナリングされ得る。

実施形態では、図20を参照すると、サブ画像の数が1より大きい（max＿subpics＿minus1＞0）場合、i番目のサブ画像のためのサブ画像識別子sub＿pic＿id［i］がシグナリングされ得る。

実施形態では、各出力レイヤセットの各層に属するサブ画像識別子を示す1つまたは複数のシンタックス要素は、VPSでシグナリングされ得る。図20を参照すると、sub＿pic＿id＿layer［i］［j］［k］は、i番目の出力レイヤセットのj番目のレイヤに存在するk番目のサブ画像を示す。この情報を用いて、デコーダは、特定の出力レイヤセットのレイヤごとにどのサブ画像を復号して出力することができるかを認識することができる。

実施形態では、画像ヘッダ（PH）は、符号化画像のすべてのスライスに適用されるシンタックス要素を含むシンタックス構造であってもよい。画像ユニット（PU）は、指定された分類規則に従って互いに関連付けられ、復号順で連続し、正確に1つの符号化画像を含むNALユニットのセットであり得る。PUは、画像ヘッダ（PH）と、符号化画像を構成する1つまたは複数のビデオ符号化レイヤ（VCL）NALユニットとを含み得る。

実施形態では、適応パラメータセット（APS）は、スライスヘッダに見られる0以上のシンタックス要素によって決定される0以上のスライスに適用され得るシンタックス要素を含むシンタックス構造であってもよい。

実施形態では、APSで（例えばu（5）として）シグナリングされるadaptation＿parameter＿set＿idは、他のシンタックス要素による参照のためにAPSの識別子を提供することができる。ps＿params＿typeがALF＿APSまたはSCALING＿APSに等しい場合、adaptation＿parameter＿set＿idの値は、0～7の範囲とすることができる。aps＿params＿typeがLMCS＿APSに等しい場合、adaptation＿parameter＿set＿idの値は、0～3の範囲とすることができる。

実施形態では、APSにおいてue（v）としてシグナリングされるadaptation＿parameter＿set＿idは、他のシンタックス要素による参照のためにAPSの識別子を提供することができる。ps＿params＿typeがALF＿APSまたはSCALING＿APSに等しい場合、adaptation＿parameter＿set＿idの値は、0～7＊（現在のCVSの最大レイヤ数）の範囲とすることができる。aps＿params＿typeがLMCS＿APSに等しい場合、adaptation＿parameter＿set＿idの値は、0～3＊（現在のCVSの最大レイヤ数）の範囲とすることができる。

実施形態では、各APS（RBSP）は、参照される前に復号プロセスに利用可能であってもよく、それを参照する符号化スライスNALユニットの時間識別子（例えば、TemporalId）以下の時間識別子（例えば、TemporalId）を有する少なくとも1つのAUに含まれるか、または外部手段を介して提供される。APS NALユニットがAUに含まれる場合、APS NALユニットの時間識別子（例えば、TemporalId）の値は、APS NALユニットを含むAUの時間識別子（例えば、TemporalId）の値と等しくてもよい。

実施形態では、各APS（RBSP）は、参照される前に復号プロセスに利用可能であってもよく、0に等しい時間識別子（例えば、TemporalId）を有する少なくとも1つのAUに含まれるか、または外部手段を介して提供される。APS NALユニットがAUに含まれる場合、APS NALユニットの時間識別子（例えば、TemporalId）の値は0に等しくてもよい。

実施形態では、APS（RBSP）は、参照される前に復号プロセスに利用可能であってもよく、APSを参照する1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットを含む、CVS内のAPS NALユニットの時間識別子（例えば、TemporalId）に等しい時間識別子（例えば、TemporalId）を有する少なくとも1つのAUに含まれるか、または外部手段を介して提供される。

実施形態では、APS（RBSP）は、参照される前に復号プロセスに利用可能であってもよく、APSを参照する1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットを含む、CVS内の0に等しい時間識別子（例えば、TemporalId）を有する少なくとも1つのAUに含まれるか、または外部手段を介して提供される。

実施形態では、フラグ、no＿temporal＿sublayer＿switching＿flagがDPS、VPS、SPS、またはPPSでシグナリングされる場合、1に等しいフラグを含むパラメータセットを参照するAPSの時間識別子（例えば、TemporalId）値は0に等しくてもよく、1に等しいフラグを含むパラメータセットを参照するAPSの時間識別子（例えば、TemporalId）値は、パラメータセットの時間識別子（例えば、TemporalId）値以上であってもよい。

実施形態では、各APS（RBSP）は、参照される前に復号プロセスに利用可能であってもよく、それを参照する符号化スライスNALユニット（またはPH NALユニット）の時間識別子（例えば、TemporalId）以下の時間識別子（例えば、TemporalId）を有する少なくとも1つのAUに含まれるか、または外部手段を介して提供される。APS NALユニットが、APSを参照する符号化スライスNALユニットを含むAUの前にAUに含まれる場合、時間的アップレイヤ切り替えを可能にするVCL NALユニット、またはnal＿unit＿typeがSTSA＿NUTに等しいVCL NALユニットは、VCL NALユニット内の画像が段階的な時間的サブレイヤアクセス（STSA）画像であってもよく、APS NALユニットの後で、符号化スライスNALユニットがAPSを参照する前には存在しなくてもよいことを示す。図21は、この制約の例を示している。

実施形態では、APSを参照するAPS NALユニットおよび符号化スライスNALユニット（およびそのPH NALユニット）は、同じAUに含まれてもよい。

実施形態では、APS NALユニットおよびSTSA NALユニットは、APSを参照する符号化スライスNALユニット（およびそのPH NALユニット）の前であり得る同じAUに含まれ得る。

実施形態では、APSを参照するSTSA NALユニット、APS NALユニット、および符号化スライスNALユニット（およびそのPH NALユニット）は、同じAU内に存在してもよい。

実施形態では、APSを含むVCL NALユニットの時間識別子（例えば、TemporalId）値は、前のSTSA NALユニットの時間識別子（例えば、TemporalId）値に等しくてもよい。

実施形態では、APS NALユニットの画像順序カウント（POC）値は、STSA NALユニットのPOC値以上であり得る。図21において、APSのPOC Mの値は、STSA NALユニットのPOC Lの値以上であってもよい。

実施形態では、APS NALユニットを参照する、符号化スライスまたはPH NALユニットの画像順序カウント（POC）値は、参照されるAPS NALユニットのPOC値以上であり得る。図21において、APSを参照するVCL NALユニットのPOC Mの値は、APS NALユニットのPOC Lの値以上であってもよい。

一実施形態では、APS（RBSP）は、1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットによって参照される前に、復号プロセスに利用可能であってもよく、APSを参照する1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットを含む、CVS内のAPS NALユニットを参照する符号化スライスNALユニットの最も低いnuh＿layer＿id値に等しいnuh＿layer＿idを有する少なくとも1つのPUに含まれるか、または外部手段を介して提供される。

一実施形態では、APS（RBSP）は、1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットによって参照される前に、復号プロセスに利用可能であってもよく、PPSを参照する1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットを含む、CVS内のAPS NALユニットを参照するAPS NALユニットのTemporalIdに等しいTemporalIdおよび符号化スライスNALユニットの最も低いnuh＿layer＿id値に等しいnuh＿layer＿idを有する少なくとも1つのPUに含まれるか、または外部手段を介して提供される。

一実施形態では、APS（RBSP）は、1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットによって参照される前に、復号プロセスに利用可能であってもよく、PPSを参照する1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットを含む、CVS内のAPS NALユニットを参照する0に等しいTemporalIdおよび符号化スライスNALユニットの最も低いnuh＿layer＿id値に等しいnuh＿layer＿idを有する少なくとも1つのPUに含まれるか、または外部手段を介して提供される。

実施形態では、PU内のadaptation＿parameter＿set＿idの特定の値およびaps＿params＿typeの特定の値を有するすべてのAPS NALユニットは、それらがプレフィックスまたはサフィックスAPS NALユニットであるかどうかにかかわらず、同じコンテンツを有し得る。

実施形態では、nuh＿layer＿id値に関係なく、APS NALユニットは、adaptation＿parameter＿set＿idおよびaps＿params＿typeの同じ値空間を共有し得る。

実施形態では、APS NALユニットのnuh＿layer＿id値は、APS NALユニットを参照するNALユニットを参照する符号化スライスNALユニットの最も低いnuh＿layer＿id値に等しくてもよい。

一実施形態では、mに等しいnuh＿layer＿idを有するAPSが、nに等しいnuh＿layer＿idを有する1つまたは複数の符号化スライスNALユニットによって参照される場合、mに等しいnuh＿layer＿idを有するレイヤは、nに等しいnuh＿layer＿idを有するレイヤまたはmに等しいnuh＿layer＿idを有するレイヤの（直接または間接）参照レイヤと同じであってもよい。

図22は、エンコードされたビデオビットストリームを復号するための例示的なプロセス2200のフローチャートである。いくつかの実装形態では、図22の1つまたは複数のプロセスブロックは、デコーダ210によって実行されてもよい。いくつかの実装形態では、図22の1つまたは複数のプロセスブロックは、エンコーダ203などのデコーダ210とは別の、またはそれを含む別のデバイスもしくはデバイスのグループによって実行されてもよい。

図22に示されるように、プロセス2200は、エンコードされたビデオビットストリームから、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスを取得することを含み得る（ブロック2210）。

図22にさらに示されるように、プロセス2200は、画像ユニットに含まれるPH NALユニットを取得することを含み得る（ブロック2220）。

図22にさらに示されるように、プロセス2200は、画像ユニットに含まれる少なくとも1つのVCL NALユニットを取得することを含み得る（ブロック2230）。

図22にさらに示されるように、プロセス2200は、符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる、PH NALユニットと、少なくとも1つのVCL NALユニットと、適応パラメータセット（APS）とに基づいて、符号化画像を復号することを含み得、APS NALユニットは、少なくとも1つのVCL NALユニットの前に、少なくとも1つのプロセッサに利用可能である（ブロック2240）。

図22にさらに示されるように、プロセス2200は、復号画像を出力することを含み得る（ブロック2250）。

実施形態では、APS NALユニットは、少なくとも1つの予測ユニット（PU）に含まれる、1つまたは複数の画像ヘッダ（PH）または1つまたは複数の符号化スライスネットワーク抽象化レイヤ（NAL）ユニットによって参照される前に復号プロセスに利用可能であり、nuh＿layer＿idは、APSを参照する1つまたは複数のPHまたは1つまたは複数の符号化スライスNALユニットを含む、CVS内のAPS NALユニットを参照する1つまたは複数の符号化スライスNALユニットの最も低いnuh＿layer＿id値に等しい。

実施形態では、少なくとも1つのVCL NALユニットの時間識別子は、APS NALユニットの時間識別子以上である。

実施形態では、APS NALユニットの時間識別子は0に等しくてもよい。

実施形態では、少なくとも1つのVCL NALユニットのPOCは、APS NALユニットのPOC以上であってもよい。

実施形態では、PH NALユニットのレイヤ識別子および少なくとも1つのVCL NALユニットのレイヤ識別子は、APS NALユニットのレイヤ識別子以上である。

実施形態では、PH NALユニット、少なくとも1つのVCL NALユニット、およびAPS NALユニットは、単一のアクセスユニットに含まれる。

実施形態では、符号化ビデオシーケンスは、STSA画像に対応するSTSA NALユニットをさらに含み、STSA NALユニットは、APS NALユニットと少なくとも1つのVCL NALユニットとの間に位置しない。

実施形態では、少なくとも1つのVCL NALユニット、APS NALユニット、およびSTSA NALユニットは、単一のアクセスユニットに含まれてもよい。

実施形態では、APS NALユニットの時間識別子は、STSA NALユニットの時間識別子以上であってもよい。

実施形態では、APS NALユニットの画像順序カウント（POC）は、STSA NALユニットのPOC以上であってもよい。

図22はプロセス2200の例示的なブロックを示しているが、いくつかの実装形態では、プロセス2200は、図22に示されたものとは異なる追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加的または代替的に、プロセス2200のブロックのうちの2つ以上が並列に実行されてもよい。

さらに、提案された方法は、処理回路（例えば、1つまたは複数のプロセッサまたは1つまたは複数の集積回路）によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行して、提案された方法のうちの1つまたは複数を実行する。

上述した技術は、コンピュータ可読命令を使用し、1つまたは複数のコンピュータ可読媒体に物理的に格納されたコンピュータソフトウェアとして実装され得る。例えば、図23は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム2300を示している。

コンピュータソフトウェアは、コンピュータ中央処理装置（CPU）、グラフィックス処理装置（GPU）などによって直接、または間接的に、マイクロコード実行などを介して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構を対象とし得る任意の適切な機械コードまたはコンピュータ言語を使用して符号化され得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む様々な種類のコンピュータまたはその構成要素上で実行され得る。

コンピュータシステム2300について図23に示す構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する制限を示唆することを意図していない。構成要素の構成は、コンピュータシステム2300の例示的な実施形態に示されている構成要素のいずれか1つまたは組み合わせに関する依存関係または要件を有すると解釈されるべきではない。

コンピュータシステム2300は、特定のヒューマンインターフェース入力デバイスを含んでもよい。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スワイプ、データグローブの動き）、音声入力（例えば、声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）を介した1人または複数の人間のユーザによる入力に応答してもよい。ヒューマンインターフェースデバイスは、オーディオ（例えば、スピーチ、音楽、周囲音）、画像（例えば、走査画像、静止画像カメラから取得された写真画像）、ビデオ（例えば、2次元ビデオ、立体ビデオを含む3次元ビデオ）など、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むために使用されてもよい。

入力ヒューマンインターフェースデバイスは、キーボード2301、マウス2302、トラックパッド2303、タッチスクリーン2310および関連するグラフィックスアダプタ2350、データグローブ、ジョイスティック2305、マイクロフォン2306、スキャナ2307、カメラ2308のうちの1つまたは複数（各々のうちのただ1つ）を含んでもよい。

コンピュータシステム2300はまた、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い／味によって1人または複数の人間のユーザの感覚を刺激してもよい。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン2310、データグローブ、またはジョイスティック2305による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る）、音声出力デバイス（例えば、スピーカ2309、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ブラウン管（CRT）スクリーン、液晶ディスプレイ（LCD）スクリーン、プラズマスクリーン、有機発光ダイオード（OLED）スクリーンを含むスクリーン2310であって、それぞれがタッチスクリーン入力機能を有するかまたは有さず、それぞれが触覚フィードバック機能を有するかまたは有さず、その一部は、ステレオ出力などの手段を介して二次元視覚出力または三次元以上の出力を出力することができてもよい；仮想現実メガネ（図示せず）、ホログラフィックディスプレイ、およびスモークタンク（図示せず））、およびプリンタ（図示せず）を含んでもよい。

コンピュータシステム2300はまた、ヒューマンアクセス可能なストレージデバイスおよびそれらの関連媒体、例えば、CD／DVDなどの媒体2321を有するCD／DVD ROM／RWを含む光学媒体2320、サムドライブ2322、リムーバブルハードドライブまたはソリッドステートドライブ2323、テープおよびフロッピーディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの専用ROM／ASIC／PLDベースのデバイス（図示せず）などを含むことができる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム2300はまた、1つまたは複数の通信ネットワーク（955）へのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット、無線LANなどのローカルエリアネットワーク、モバイル通信用グローバルシステム（GSM）、第3世代（3G）、第4世代（4G）、第5世代（5G）、ロングタームエボリューション（LTE）などを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むテレビ有線または無線広域デジタルネットワーク、CANBusを含む車両および産業用などが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（949）に取り付けられた外部ネットワークインターフェースアダプタ（954）を必要とする（例えば、コンピュータシステム2300のユニバーサルシリアルバス（USB）ポートなど）；他のものは、一般に、後述するようなシステムバスへの取り付け（例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース）によってコンピュータシステム2300のコアに統合される。一例として、ネットワーク2355は、ネットワークインターフェース2354を使用して周辺バス2349に接続されてもよい。これらのネットワークのいずれかを使用して、コンピュータシステム2300は、他のエンティティと通信することができる。そのような通信は、例えば、ローカルまたは広域デジタルネットワークを使用する他のコンピュータシステムに対して、単方向受信のみ（例えば、放送TV）、単方向送信のみ（例えば、特定のCANbusデバイスへのCANbus）、または双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上記のように、それらのネットワークおよびネットワークインターフェース（954）のそれぞれで使用され得る。

前述のヒューマンインターフェースデバイス、ヒューマンアクセス可能なストレージデバイス、およびネットワークインターフェースを、コンピュータシステム2300のコア2340に取り付けることができる。

コア2340は、1つまたは複数の中央処理装置（CPU）2341、グラフィックス処理装置（GPU）2342、フィールドプログラマブルゲートエリア（FPGA）2343の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ2344などを含むことができる。これらのデバイスは、読み取り専用メモリ（ROM）2345、ランダムアクセスメモリ（RAM）2346、内部非ユーザアクセス可能ハードドライブやソリッドステートドライブ（SSD）などの内部大容量ストレージ2347と共に、システムバス2348を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス2348は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺機器を、コアのシステムバス2348に直接取り付けることも、周辺バス2349を介して取り付けることもできる。周辺バスのアーキテクチャには、周辺構成要素相互接続（PCI）、USBなどが含まれる。

CPU2341、GPU2342、FPGA2343、およびアクセラレータ2344は、組み合わせて上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM2345またはRAM2346に格納され得る。移行データはまた、RAM2346に格納され得、一方、永続データは、例えば内部大容量ストレージ2347に格納され得る。メモリデバイスのいずれかへの高速記憶および検索は、1つまたは複数のCPU2341、GPU2342、大容量ストレージ2347、ROM2345、RAM2346などと密接に関連付けることができるキャッシュメモリの使用によって可能にすることができる。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知で利用可能な種類のものであってもよい。

限定ではなく、例として、アーキテクチャ2300、特にコア2340を有するコンピュータシステムは、1つまたは複数の有形のコンピュータ可読媒体で実現されたソフトウェアを実行する1つまたは複数のプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上述のようなユーザアクセス可能な大容量ストレージ、ならびにコア内部大容量ストレージ2347またはROM2345などの非一時的な性質のコア2340の特定のストレージに関連付けられた媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに格納され、コア2340によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア2340、具体的にはその中のプロセッサ（CPU、GPU、FPGA等を含む）に、RAM2346に格納されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ハードワイヤードまたは他の方法で回路（例えば、アクセラレータ2344）に実現された論理の結果として機能を提供することができ、ソフトウェアの代わりに、またはソフトウェアと共に動作して、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行することができる。ソフトウェアへの参照は、必要に応じて、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを格納する回路（集積回路（IC）など）、実行のための論理を実現する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替の等価物がある。したがって、当業者は、本明細書に明示的に示されていないまたは記載されていないが、本開示の原理を具体化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

100 システム
110 端末
120 端末
130 端末
140 端末
150 ネットワーク
201 ビデオソース
202 サンプルストリーム
203 エンコーダ、ビデオコーダ
204 ビデオビットストリーム
205 ストリーミングサーバ
206 クライアント
207 ビデオビットストリーム
208 クライアント
209 ビデオビットストリーム
210 デコーダ
211 発信ビデオサンプルストリーム
212 ディスプレイ
213 キャプチャサブシステム
310 受信機
312 チャネル
315 バッファ
320 パーサ
321 シンボル
351 スケーラおよび／または逆変換ユニット
352 イントラ画像予測ユニット
353 動き補償予測ユニット
355 アグリゲータ
356 ループフィルタユニット
357 参照画像メモリ、参照画像バッファ
358 現在の参照画像
430 エンコーダ、ソースコーダ、ビデオコーダ
432 符号化エンジン
433 ローカルビデオデコーダ
434 参照画像メモリ、参照画像キャッシュ
435 予測器
440 送信機
443 符号化ビデオシーケンス
445 エントロピーコーダ
450 コントローラ
460 チャネル
501 画像ヘッダ
502 ARC情報
503 H．263 PLUSPTYPE
504 画像パラメータセット
505 ARC参照情報
506 テーブル
507 シーケンスパラメータセット
508 タイルグループヘッダ
509 ARC情報
511 適応パラメータセット
512 ARC情報
513 ARC参照情報
514 タイルグループヘッダ
515 ARC情報
516 パラメータセット
601 タイルグループヘッダ
602 可変長のExp－Golomb符号化シンタックス要素dec＿pic＿size＿idx
603 適応解像度
610 シーケンスパラメータセット
611 adaptive＿pic＿resolution＿change＿flag
612 パラメータセット
613 サンプル単位の出力解像度
614 シンタックス要素reference＿pic＿size＿present＿flag
615 参照画像寸法
616 テーブル指示（num＿dec＿pic＿size＿in＿luma＿samples＿minus1）
617 シンタックス、提示されたテーブルエントリ
949 特定の汎用データポートまたは周辺バス
954 外部ネットワークインターフェースアダプタ
955 1つまたは複数の通信ネットワーク
1310 画像
2300 コンピュータシステム、アーキテクチャ
2301 キーボード
2302 マウス
2303 トラックパッド
2305 ジョイスティック
2306 マイクロフォン
2307 スキャナ
2308 カメラ
2309 スピーカ
2310 タッチスクリーン
2320 光学媒体
2321 CD／DVDなどの媒体
2322 サムドライブ
2323 リムーバブルハードドライブまたはソリッドステートドライブ
2340 コア
2341 CPU
2342 GPU
2343 FPGA
2344 アクセラレータ
2345 ROM
2346 RAM
2347 内部大容量ストレージ
2348 システムバス
2349 周辺バス
2350 グラフィックスアダプタ
2354 ネットワークインターフェース
2355 ネットワーク

Claims

少なくとも1つのプロセッサを使用してエンコードされたビデオビットストリームを復号する方法であって、前記方法は、
前記エンコードされたビデオビットストリームから、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンス（CVS）を取得するステップと、
前記画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得するステップと、
前記画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）NALユニットを取得するステップと、
前記PH NALユニット、前記少なくとも1つのVCL NALユニット、および前記符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて、前記符号化画像を復号するステップと、
前記復号画像を出力するステップと、
を含み、
前記APS NALユニットは、前記少なくとも1つのVCL NALユニットの前に前記少なくとも1つのプロセッサに利用可能である、
方法。
前記APS NALユニットが、少なくとも1つの予測ユニット（PU）に含まれる、1つまたは複数の画像ヘッダ（PH）または1つまたは複数の符号化スライスNALユニットによって参照される前に前記少なくとも1つのプロセッサに利用可能であり、nuh＿layer＿idは、前記APSを参照する前記1つまたは複数のPHまたは前記1つまたは複数の符号化スライスNALユニットを含む、前記CVS内の前記APS NALユニットを参照する前記1つまたは複数の符号化スライスNALユニットの最も低いnuh＿layer＿id値に等しい、請求項1に記載の方法。
前記少なくとも1つのVCL NALユニットの時間識別子が、前記APS NALユニットの時間識別子以上である、請求項1に記載の方法。
前記少なくとも1つのVCL NALユニットの画像順序カウント（POC）が、前記APS NALユニットのPOC以上である、請求項1に記載の方法。
前記PH NALユニットのレイヤ識別子および前記少なくとも1つのVCL NALユニットのレイヤ識別子が、前記APS NALユニットのレイヤ識別子以上である、請求項1に記載の方法。
前記PH NALユニット、前記少なくとも1つのVCL NALユニット、および前記APS NALユニットが、単一のアクセスユニットに含まれる、請求項1に記載の方法。
前記符号化ビデオシーケンスが、STSA画像に対応する段階的な時間的サブレイヤアクセス（STSA）NALユニットをさらに備え、
前記STSA NALユニットは、前記APS NALユニットと前記少なくとも1つのVCL NALユニットとの間に位置しない、
請求項1に記載の方法。
前記PH NALユニット、前記少なくとも1つのVCL NALユニット、前記APS NALユニット、および前記STSA NALユニットが、単一のアクセスユニットに含まれる、請求項7に記載の方法。
前記APS NALユニットの時間識別子が、前記STSA NALユニットの時間識別子以上である、請求項7に記載の方法。
前記APS NALユニットの画像順序カウント（POC）が、前記STSA NALユニットのPOC以上である、請求項7に記載の方法。
エンコードされたビデオビットストリームを復号するためのデバイスであって、前記デバイスは、
プログラムコードを格納するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって指示されるように動作するように構成された少なくとも1つのプロセッサと、
を備え、前記プログラムコードは、
前記少なくとも1つのプロセッサに、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスを前記エンコードされたビデオビットストリームから取得させるように構成された第1の取得コードと、
前記少なくとも1つのプロセッサに、前記画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得させるように構成された第2の取得コードと、
前記少なくとも1つのプロセッサに、前記画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）NALユニットを取得させるように構成された第3の取得コードと、
前記少なくとも1つのプロセッサに、前記PH NALユニット、前記少なくとも1つのVCL NALユニット、および前記符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて、前記符号化画像を復号させるように構成された復号コードと、
前記少なくとも1つのプロセッサに前記復号画像を出力させるように構成された出力コードと、
を含み、
前記APS NALユニットは、前記少なくとも1つのVCL NALユニットの前に前記少なくとも1つのプロセッサに利用可能である、
デバイス。
前記少なくとも1つのVCL NALユニットの時間識別子が、前記APS NALユニットの時間識別子以上である、請求項11に記載のデバイス。
前記少なくとも1つのVCL NALユニットの画像順序カウント（POC）が、前記APS NALユニットのPOC以上である、請求項11に記載のデバイス。
前記PH NALユニットのレイヤ識別子および前記少なくとも1つのVCL NALユニットのレイヤ識別子が、前記APS NALユニットのレイヤ識別子以上である、請求項11に記載のデバイス。
前記PH NALユニット、前記少なくとも1つのVCL NALユニット、および前記APS NALユニットが、単一のアクセスユニットに含まれる、請求項11に記載のデバイス。
前記符号化ビデオシーケンスが、STSA画像に対応する段階的な時間的サブレイヤアクセス（STSA）NALユニットをさらに備え、
前記STSA NALユニットは、前記APS NALユニットと前記少なくとも1つのVCL NALユニットとの間に位置しない、
請求項11に記載のデバイス。
前記PH NALユニット、前記少なくとも1つのVCL NALユニット、前記APS NALユニット、および前記STSA NALユニットが、単一のアクセスユニットに含まれる、請求項16に記載のデバイス。
前記APS NALユニットの時間識別子が、前記STSA NALユニットの時間識別子以上である、請求項16に記載のデバイス。
前記APS NALユニットの画像順序カウント（POC）が、前記STSA NALユニットのPOC以上である、請求項16に記載のデバイス。
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、エンコードされたビデオビットストリームを復号するためのデバイスの1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
前記エンコードされたビデオビットストリームから、符号化画像に対応する画像ユニットを含む符号化ビデオシーケンスを取得させ、
前記画像ユニットに含まれる画像ヘッダ（PH）ネットワーク抽象化レイヤ（NAL）ユニットを取得させ、
前記画像ユニットに含まれる少なくとも1つのビデオ符号化レイヤ（VCL）NALユニットを取得させ、
前記PH NALユニット、前記少なくとも1つのVCL NALユニット、および前記符号化ビデオシーケンスから取得されたAPS NALユニットに含まれる適応パラメータセット（APS）に基づいて、前記符号化画像を復号させ、
前記復号画像を出力させる、
1つまたは複数の命令を含み、
前記APS NALユニットは、前記少なくとも1つのVCL NALユニットの前に前記少なくとも1つのプロセッサに利用可能である、
非一時的コンピュータ可読媒体。