JP2019535202A

JP2019535202A - インター予測モードベースの画像処理方法及びそのための装置

Info

Publication number: JP2019535202A
Application number: JP2019519004A
Authority: JP
Inventors: ヒョンムンチャン
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2016-10-06
Filing date: 2017-09-29
Publication date: 2019-12-05
Also published as: EP3525460A1; US10785477B2; US20200045307A1; KR20190053238A; EP3525460A4; WO2018066927A1; CN110024384A

Abstract

本発明においては、インター予測モードベースの画像処理方法及びそのための装置が開示される。具体的に、インター予測（inter prediction）に基づいて画像を処理する方法において、現在ピクチャー（current picture）の参照ピクチャー（reference picture）内のブロックの動き情報を利用して、現在ブロック（current block）の逆方向動き情報を導出するステップ、前記逆方向動き情報を前記現在ブロックの動き情報候補リストに追加するステップ、前記動き情報候補リストに追加された動き情報候補のうち選択された動き情報から前記現在ブロックの動き情報を導出するステップ、及び前記現在ブロックの動き情報を利用して前記現在ブロックの予測ブロックを生成するステップを含み、前記逆方向動き情報により前記参照ピクチャー内のブロックを特定することができる。【選択図】図２３

Description

本発明は、静止画又は動画の処理方法に関し、より詳細には、インター予測モード（inter prediction mode）ベースに静止画又は動画をエンコード／デコードする方法及びそれを支援する装置に関する。

圧縮符号化とは、デジタル化した情報を通信回線を介して送信したり、格納媒体に適した形態で格納するための一連の信号処理技術を意味する。画像、イメージ、音声等のメディアが圧縮符号化の対象になることができ、特に、画像を対象として圧縮符号化を行う技術をビデオ画像圧縮と称する。

次世代ビデオコンテンツは、高解像度（high spatial resolution）、高フレーム率（high frame rate）、及び画像表現の高次元化（high dimensionality of scene representation）という特徴を有するようになるであろう。そのようなコンテンツを処理するためには、メモリ格納（memory storage）、メモリアクセス率（memory access rate）、及び処理電力（processing power）の側面で莫大な増加を有してくるであろう。

従って、次世代ビデオコンテンツをより効率的に処理するためのコーディングツールをデザインする必要がある。

本発明の目的は、インター予測（画面間の予測）において、バイナリツリー構造（binary tree structure）分割による周辺動き情報の類似性を考慮してマージ候補を決定する方法を提案することにある。

また、本発明の目的は、バイナリツリー構造（binary tree structure）に分割されたブロックにおいてクアッドツリー構造（quad tree structure）に分割されたブロックの隣り合うブロックをマージ候補として用いる方法を提案することにある。

本発明においてなそうとする技術的課題は、以上で言及した技術的課題に制限されず、言及していないさらに他の技術的課題は、下記の記載から本発明の属する技術分野における通常の知識を有する者に明確に理解され得るであろう。

本発明の一様態は、インター予測（inter prediction）モードベースに画像を処理する方法において、現在ブロックの空間マージ候補（spatial merge candidate）及び時間マージ候補（temporal merge candidate）を用いてマージ候補リストを生成するステップと、前記マージ候補リスト内で特定マージ候補を示すマージインデックス（merge index）を復号するステップと、前記マージインデックスにより示されるマージ候補の動き情報を用いて前記現在ブロックの予測ブロックを生成するステップと、を含み、前記現在ブロックがクアッドツリー構造（quad tree structure）のリーフノードブロック（leaf node block）を示すクアッドツリーブロックからバイナリツリー構造（binary tree structure）に分割されたブロックである場合、前記空間マージ候補は、前記クアッドツリーブロック境界に隣接するブロックに決定されることができる。

好ましくは、前記空間マージ候補は、前記クアッドツリーブロックの左下側境界に隣接するブロック、左上側境界に隣接するブロック、右上側境界に隣接するブロック、上側境界に隣接するブロック、又は左側境界に隣接するブロックの少なくとも１つに決定されることができる。

好ましくは、前記上側境界に隣接するブロックは、前記現在ブロックの左上側境界に隣接するピクセルと垂直方向に隣接するピクセルを含むブロック又は前記現在ブロックの右上側ピクセルと垂直方向に隣接するピクセルを含むブロックであり得る。

好ましくは、前記左側境界に隣接するブロックは、前記現在ブロックの左下側ピクセルと水平方向に隣接するピクセルを含むブロックであり得る。

好ましくは、前記マージ候補リストを生成するステップは、時間候補ピクチャー内で前記空間マージ候補の動き情報により特定されるブロックを示す第１の向上した時間マージ候補を前記マージ候補リストに追加するステップを含み、前記マージインデックスが前記第１の向上した時間マージ候補を示す場合、前記現在ブロックの予測ブロックは、前記第１の向上した時間マージ候補の動き情報をサブブロック（sub-block）単位で用いて生成されることができる。

好ましくは、前記マージ候補リストを生成するステップは、第２の向上した時間マージ候補を前記マージ候補リストに追加するステップを含み、前記第２の向上した時間マージ候補の動き情報は、現在ピクチャー内で前記現在ブロックの境界に隣接するブロックの動き情報及び時間候補ピクチャー内で前記現在ブロックと同一位置の（collocated）ブロックの動き情報を用いてサブブロック（sub-block）単位で決定されることができる。

好ましくは、前記現在ブロックの現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向及び垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの下側及び右側位置のブロックの動き情報を用いて決定されることができる。

好ましくは、前記現在サブブロックとの距離に基づいて前記現在サブブロックの水平方向又は垂直方向に隣接するブロックの動き情報に加重値が適用されることができる。

好ましくは、前記現在サブブロックが前記現在ブロックの垂直境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの上側、下側、及び右側位置のブロックの動き情報を用いて決定されることができる。

好ましくは、前記現在サブブロックが前記現在ブロックの水平境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの左側、下側、及び右側位置のブロックの動き情報を用いて決定されることができる。

本発明の他の一様態は、インター予測（inter prediction）モードベースに画像を処理する装置において、現在ブロックの空間マージ候補（spatial merge candidate）及び時間マージ候補（temporal merge candidate）を用いてマージ候補リストを生成するマージ候補リスト生成部と、前記マージ候補リスト内で特定マージ候補を示すマージインデックス（merge index）を復号するマージインデックス復号部と、前記マージインデックスにより示されるマージ候補の動き情報を用いて前記現在ブロックの予測ブロックを生成する予測ブロック生成部と、を含み、前記現在ブロックがクアッドツリー構造（quad tree structure）のリーフノードブロック（leaf node block）を示すクアッドツリーブロックからバイナリツリー構造（binary tree structure）に分割されたブロックである場合、前記空間マージ候補は、前記クアッドツリーブロック境界に隣接するブロックに決定されることができる。

本発明の実施形態によれば、ブロック分割構造によって相対的に選択確率がより高いマージ候補を利用してマージ候補リストを生成することにより、予測性能を向上させ、画像の圧縮効率を向上させることができる。

また、本発明の実施形態によれば、バイナリツリー構造に分割されたブロックにおいてクアッドツリー構造に分割されたブロックの隣り合うブロックをマージ候補として利用することにより、クアッドツリー構造に分割されたブロック単位で並列化を行うことができる。

本発明において得ることができる効果は、以上で言及した効果に制限されず、言及していないさらに他の効果は、下記の記載から本発明の属する技術分野における通常の知識を有する者に明確に理解され得るであろう。

本発明に関する理解を助けるために、詳細な説明の一部として含まれる添付図面は、本発明に対する実施形態を提供し、詳細な説明とともに本発明の技術的特徴を説明する。
本発明が適用される実施形態であって、静止画または動画信号のエンコードが行われるエンコーダの概略的なブロック図を示す。本発明が適用される実施形態であって、静止画または動画信号のエンコードが行われるデコーダの概略的なブロック図を示す。本発明に適用できるコーディングユニットの分割構造を説明するための図である。本発明に適用できる予測ユニットを説明するための図である。本発明が適用できる実施形態であって、インター予測の方向を例示する図である。本発明が適用できる実施形態であって、１／４サンプル補間のための整数及び分数サンプル位置を例示する。本発明が適用できる実施形態であって、空間的候補の位置を例示する。本発明が適用される実施形態であって、インター予測方法を例示する図である。本発明が適用できる実施形態であって、動き補償過程を例示する図である。本発明が適用される実施形態であって、空間マージ候補の位置を説明するための図である。本発明が適用される実施形態であって、時間マージ候補の位置を説明するための図である。本発明が適用される実施形態であって、向上した時間動きベクトル予測子（Advanced Temporal Motion Vector Predictor）を利用して動き情報を誘導する方法を説明するための図である。本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を利用して動き情報を誘導する方法を説明するための図である。本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を利用して動き情報を誘導する方法を説明するための図である。ＱＴＢＴ構造において、既存の空間マージ候補位置を利用してマージ候補を構成する場合に発生する問題を説明するための図である。ＱＴＢＴ構造において、既存の空間マージ候補位置を利用してマージ候補を構成する場合に発生する問題を説明するための図である。ＱＴＢＴ構造において、既存の空間マージ候補位置を利用してマージ候補を構成する場合に発生する問題を説明するための図である。ＱＴＢＴ構造において、既存の空間マージ候補位置を利用してマージ候補を構成する場合に発生する問題を説明するための図である。本発明が適用される実施形態であって、クアッドツリーのリーフノードブロック境界に隣接するブロックを利用して空間マージ候補を構成する方法を説明するための図である。を参照すると、クアッドツリーブロックからバイナリツリー構造に深さ（depth）３まで分割されたと仮定する。本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を利用して動き情報を誘導する方法を説明するための図である。本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を利用して動き情報を誘導する方法を説明するための図である。本発明の一実施形態によるインター予測方法を説明するための図である。本発明の一実施形態によるインター予測部をより具体的に例示する図である。

以下、本発明に係る好ましい実施形態を添付された図面を参照して詳細に説明する。添付された図面とともに以下に開示される詳細な説明は、本発明の例示的な実施形態を説明しようとするものであり、本発明が実施できる唯一の実施形態を表そうとするものではない。以下の詳細な説明は、本発明の完全な理解を提供するために具体的な細部事項を含む。しかしながら、当業者は、本発明がこのような具体的な細部事項がなくとも実施できることが分かる。

いくつかの場合、本発明の概念が曖昧になることを避けるために、公知の構造及び装置は省略されるか、各構造及び装置の核心機能を中心としたブロック図形式で図示されることができる。

合わせて、本発明で使用される用語は、なるべく現在広く使用される一般的な用語を選択したが、特定の場合は、出願人が任意に選定した用語を使用して説明する。そのような場合には、当該部分の詳細説明でその意味を明確に記載するので、本発明の説明で使用された用語の名称だけで単純解釈されてはならず、その当該用語の意味まで把握して解釈されなければならないことを明かしておく。

以下の説明で使用される特定用語等は、本発明の理解を助けるために提供されたものであって、このような特定用語の使用は、本発明の技術的思想を逸脱しない範囲で他の形態に変更されることができる。例えば、信号、データ、サンプル、ピクチャー、フレーム、ブロックなどの場合、各コーディング過程で適宜代替されて解釈され得るであろう。

以下、本明細書において「処理ユニット」は、予測、変換、及び／又は量子化などのエンコード／デコードの処理過程が行われる単位を意味する。以下、説明の便宜のために、処理ユニットは「処理ブロック」又は「ブロック」と呼ばれることもできる。

処理ユニットは、輝度（luma）成分に対する単位と色差（chroma）成分に対する単位とを含む意味として解釈することができる。例えば、処理ユニットは、コーディングツリーユニット（ＣＴＵ：Coding Tree Unit）、コーディングユニット（ＣＵ：Coding Unit）、予測ユニット（ＰＵ：Prediction Unit）、又は変換ユニット（ＴＵ：Transform Unit）に該当する。

また、処理ユニットは、輝度成分に対する単位又は色差成分に対する単位として解釈されることができる。例えば、処理ユニットは、輝度成分に対するコーディングツリーブロック（ＣＴＢ：Coding Tree Block）、コーディングブロック（ＣＢ：Coding Block）、予測ブロック（ＰＵ：Prediction Block）、又は変換ブロック（ＴＢ: Transform Block）に該当する。または、色差成分に対するコーディングツリーブロック（ＣＴＢ）、コーディングブロック（ＣＢ）、予測ブロック（ＰＵ）、又は変換ブロック（ＴＢ）に該当する。また、これに限定されるものではなく、処理ユニットは、輝度成分に対する単位と色差成分に対する単位を含む意味として解釈されることもできる。

さらに、処理ユニットは、必ず正方形のブロックに限定されるものではなく、３つ以上の頂点を有する多角形状で構成されることもできる。

図１は、本発明が適用される実施形態であって、静止画または動画信号のエンコードが行われるエンコーダの概略的なブロック図を示す。

図１に示すように、エンコーダ１００は、画像分割部１１０、減算器１１５、変換部１２０、量子化部１３０、逆量子化部１４０、逆変換部１５０、フィルタリング部１６０、復号ピクチャーバッファ（ＤＰＢ：Decoded Picture Buffer）１７０、予測部１８０、及びエントロピーエンコード部１９０を備えて構成されることができる。そして、予測部１８０は、インター予測部１８１、イントラ予測部１８２を備えて構成されることができる。

画像分割部１１０は、エンコーダ１００に入力された入力画像信号（Input video signal）（又は、ピクチャー、フレーム）を１つ以上の処理ユニットに分割する。

減算器１１５は、入力画像信号から予測部１８０（すなわち、インター予測部１８１又はイントラ予測部１８２）から出力された予測信号（prediction signal）（又は、予測ブロック）を減算して差分信号（residual signal）（又は、差分ブロック）を生成する。生成された差分信号（又は、差分ブロック）は変換部１２０に送信される。

変換部１２０は、差分信号（または、差分ブロック）に変換技法（例えば、ＤＣＴ（Discrete Cosine Transform）、ＤＳＴ（Discrete Sine Transform）、ＧＢＴ（Graph-Based Transform）、ＫＬＴ（Karhunen-Loeve transform）等）を適用して変換係数（transform coefficient）を生成する。このとき、変換部１２０は、差分ブロックに適用された予測モードと差分ブロックのサイズに応じて決定された変換技法を利用して変換を行うことにより、変換係数を生成することができる。

量子化部１３０は、変換係数を量子化してエントロピーエンコード部１９０に送信し、エントロピーエンコード部１９０は、量子化された信号（quantized signal）をエントロピーコーディングしてビットストリームに出力する。

一方、量子化部１３０から出力された量子化された信号（quantized signal）は予測信号を生成するために用いられることができる。例えば、量子化された信号（quantized signal）は、ループ内の逆量子化部１４０及び逆変換部１５０により逆量子化及び逆変換を適用することにより差分信号を復元することができる。復元された差分信号をインター予測部１８１又はイントラ予測部１８２から出力された予測信号（prediction signal）に加算することにより復元信号（reconstructed signal）が生成される。

一方、上記のような圧縮過程で隣接したブロックが互いに異なる量子化パラメータにより量子化されることで、ブロック境界が見える劣化が発生し得る。このような現象をブロッキング劣化（blocking artifacts）といい、これは、画質を評価する重要な要素のうちの１つである。このような劣化を減らすために、フィルタリング過程を行うことができる。このようなフィルタリング過程を介してブロッキング劣化を除去するとともに、現在ピクチャーに対する誤差を減らすことにより、画質を向上させることができるようになる。

フィルタリング部１６０は、復元信号にフィルタリングを適用して、これを再生装置に出力するか、復号ピクチャーバッファ１７０に送信する。復号ピクチャーバッファ１７０に送信されたフィルタリングされた信号は、インター予測部１８１で参照ピクチャーとして使用されることができる。このように、フィルタリングされたピクチャーを画面間予測モードで参照ピクチャーとして用いることにより、画質だけでなく、符号化効率も向上させることができる。

復号ピクチャーバッファ１７０は、フィルタリングされたピクチャーをインター予測部１８１での参照ピクチャーとして使用するために格納することができる。

インター予測部１８１は、復元ピクチャー（reconstructed picture）を参照して時間的重複性及び／又は空間的重複性を除去するために、時間的予測及び／又は空間的予測を行う。

特に、本発明によるインター予測部１８１は、逆方向動き情報をインター予測（又は、ピクチャー間予測) 過程で用いることができる。これに関する詳細な説明は後述する。

ここで、予測を行うために用いられる参照ピクチャーは、以前の時間に符号化／復号の際、ブロック単位に量子化と逆量子化を経て変換された信号であるから、ブロッキングアーティファクト（blocking artifact）やリンギングアーティファクト（ringing artifact）が存在し得る。

従って、インター予測部１８１は、このような信号の不連続や量子化による性能低下を解決するために、ローパスフィルタ（lowpass filter）を適用することにより、ピクセル間の信号をサブピクセル単位に補間することができる。ここで、サブピクセルは、補間フィルタを適用して生成された仮想の画素を意味し、整数ピクセルは、復元されたピクチャーに存在する実際画素を意味する。補間方法では、線形補間、双線形補間（bi-linear interpolation）、ウィーナフィルタ（wiener filter）などが適用され得る。

補間フィルタは、復元ピクチャー（reconstructed picture）に適用されて予測の精密度を向上させることができる。例えば、インター予測部１８１は、整数ピクセルに補間フィルタを適用して補間ピクセル（interpolated pixels）を生成し、補間ピクセルで構成された補間ブロック（interpolated block）を予測ブロック（prediction block）として用いて予測を行うことができる。

イントラ予測部１８２は、現在符号化を行おうとするブロックの周辺にあるサンプルを参照して現在ブロックを予測する。イントラ予測部１８２は、イントラ予測を行うために次の過程を行うことができる。まず、予測信号を生成するために必要な参照サンプルを準備する。また、準備した参照サンプルを用いて予測信号を生成する。その後、予測モードを符号化する。ここで、参照サンプルは、参照サンプルパディング及び／又は参照サンプルフィルタリングにより準備される。参照サンプルは、予測及び復元過程を経たので、量子化エラーが存在することがある。従って、このようなエラーを減らすためにイントラ予測に用いられる各予測モードに対して参照サンプルフィルタリング過程が行われる。

インター予測部１８１又はイントラ予測部１８２により生成された予測信号（prediction signal）（又は、予測ブロック）は、復元信号（又は、復元ブロック）を生成するために利用されるか、差分信号（又は、差分ブロック）を生成するために利用されることができる。

図２は、本発明が適用される実施形態であって、静止画または動画信号のエンコードが行われるデコーダの概略的なブロック図を示す。

図２に示すように、デコーダ２００は、エントロピーデコード部２１０、逆量子化部２２０、逆変換部２３０、加算器２３５、フィルタリング部２４０、復号ピクチャーバッファ（ＤＰＢ：Decoded Picture Buffer Unit）２５０、予測部２６０を備えて構成されることができる。そして、予測部２６０は、インター予測部２６１及びイントラ予測部２６２を備えて構成されることができる。

そして、デコーダ２００を介して出力された復元画像信号（reconstructed video signal）は、再生装置を介して再生されることができる。

デコーダ２００は、図１のエンコーダ１００から出力された信号（すなわち、ビットストリーム）を受信し、受信された信号は、エントロピーデコード部２１０を介してエントロピーデコードされる。

逆量子化部２２０では、量子化ステップサイズ情報を利用してエントロピーデコードされた信号から変換係数（transform coefficient）を取得する。

逆変換部２３０では、逆変換技法を適用して変換係数を逆変換して差分信号（residual signal）（または、差分ブロック）を取得するようになる。

加算器２３５は、取得された差分信号（または、差分ブロック）を予測部２６０（すなわち、インター予測部２６１またはイントラ予測部２６２）から出力された予測された信号（predicted signal）（または、予測されたブロック）に足すことにより、復元信号（reconstructed signal）（または、復元ブロック）が生成される。

フィルタリング部２４０は、復元信号（reconstructed signal）（または、復元ブロック）にフィルタリングを適用して、これを再生装置に出力するか、復号ピクチャーバッファ部２５０に送信する。復号ピクチャーバッファ部２５０に送信されたフィルタリングされた信号は、インター予測部２６１で参照ピクチャーとして使用されることができる。

本明細書において、エンコーダ１００のフィルタリング部１６０、インター予測部１８１、及びイントラ予測部１８２で説明された実施形態は、各々デコーダのフィルタリング部２４０、インター予測部２６１、及びイントラ予測部２６２にも同様に適用されることができる。

特に、本発明によるインター予測部２６１は、逆方向動き情報をインター予測（又は、ピクチャー間予測）過程で用いることができる。これに関する詳細な説明は後述する。

処理ユニット分割構造

一般に、静止画または動画圧縮技術（例えば、ＨＥＶＣ）では、ブロック基盤の画像圧縮方法を利用する。ブロック基盤の画像圧縮方法は、画像を特定ブロック単位に分けて処理する方法であって、メモリ使用と演算量を減少させることができる。

図３は、本発明に適用できるコーディングユニットの分割構造を説明するための図である。

エンコーダは、１つの画像（または、ピクチャー）を四角形の形態のコーディングツリーユニット（ＣＴＵ：Coding Tree Unit）単位に分割する。そして、ラスタースキャン順序（raster scan order）にしたがって１つのＣＴＵずつ順次エンコードする。

ＨＥＶＣでＣＴＵのサイズは、６４×６４、３２×３２、１６×１６のうち、いずれか１つに決められることができる。エンコーダは、入力された画像の解像度または入力された画像の特性などによってＣＴＵのサイズを選択して使用することができる。ＣＴＵは、輝度（luma）成分に対するコーディングツリーブロック（ＣＴＢ：Coding Tree Block）と、これに対応する２つの色差（chroma）成分に対するＣＴＢを含む。

１つのＣＴＵは、クアッドツリー（Quad-tree）構造に分割されることができる。すなわち、１つのＣＴＵは、正方形の形態を有しながら半分の水平サイズ（half horizontal size）及び半分の垂直サイズ（half vertical size）を有する４個のユニットに分割されて、コーディングユニット（ＣＵ：Coding Unit）が生成され得る。このようなクアッドツリー構造の分割は、再帰的に行われることができる。すなわち、ＣＵは、１つのＣＴＵからクアッドツリー構造で階層的に分割される。

ＣＵは、入力画像の処理過程、例えば、イントラ（intra）／インター（inter）予測が行われるコーディングの基本単位を意味する。ＣＵは、輝度（luma）成分に対するコーディングブロック（ＣＢ：Coding Block）と、これに対応する２つの色差（chroma）成分に対するＣＢを含む。ＨＥＶＣでＣＵのサイズは、６４×６４、３２×３２、１６×１６、８×８のうち、いずれか１つに決められることができる。

図３に示すように、クアッドツリーのルートノード（root node）は、ＣＴＵと関連する。クアッドツリーは、リーフノード（leaf node）に到達するまで分割され、リーフノードは、ＣＵに該当する。

より具体的に説明すれば、ＣＴＵは、ルートノード（root node）に該当し、最も小さい深さ（depth）（すなわち、ｄｅｐｔｈ＝０）値を有する。入力画像の特性に応じてＣＴＵが分割されないことがあり、この場合、ＣＴＵは、ＣＵに該当する。

ＣＴＵは、クアッドツリー形態に分割されることができ、その結果、深さ１（ｄｅｐｔｈ＝１）である下位ノードが生成される。そして、１の深さを有する下位ノードでそれ以上分割されないノード（すなわち、リーフノード）は、ＣＵに該当する。例えば、図３（ｂ）においてノードａ、ｂ及びｊに対応するＣＵ（ａ）、ＣＵ（ｂ）、ＣＵ（ｊ）は、ＣＴＵで１回分割され、１の深さを有する。

１の深さを有するノードのうち、少なくともいずれか１つは、再度クアッドツリー形態に分割されることができ、その結果、深さ２（すなわち、ｄｅｐｔｈ＝２）である下位ノードが生成される。そして、２の深さを有する下位ノードでそれ以上分割されないノード（すなわち、リーフノード）は、ＣＵに該当する。例えば、図３（ｂ）においてノードｃ、ｈ、及びｉに対応するＣＵ（ｃ）、ＣＵ（ｈ）、ＣＵ（ｉ）は、ＣＴＵで２回分割され、２の深さを有する。

また、２の深さを有するノードのうち、少なくともいずれか１つは、再度クアッドツリー形態に分割されることができ、その結果、深さ３（すなわち、ｄｅｐｔｈ＝３）である下位ノードが生成される。そして、３の深さを有する下位ノードでそれ以上分割されないノード（すなわち、リーフノード）は、ＣＵに該当する。例えば、図３（ｂ）においてノードｄ、ｅ、ｆ、ｇに対応するＣＵ（ｄ）、ＣＵ（ｅ）、ＣＵ（ｆ）、ＣＵ（ｇ）は、ＣＴＵで３回分割され、３の深さを有する。

エンコーダでは、ビデオ画像の特性（例えば、解像度）に応じて、あるいは符号化の効率を考慮してＣＵの最大サイズまたは最小サイズを決定できる。そして、これに関する情報またはこれを導くことができる情報がビットストリームに含まれ得る。最大サイズを有するＣＵを最大コーディングユニット（ＬＣＵ：Largest Coding Unit）と呼び、最小サイズを有するＣＵを最小コーディングユニット（ＳＣＵ：Smallest Coding Unit）と呼ぶことができる。

また、ツリー構造を有するＣＵは、予め決められた最大深さ情報（または、最大レベル情報）を有して階層的に分割されることができる。そして、それぞれの分割されたＣＵは、深さ情報を有することができる。深さ情報は、ＣＵの分割された回数及び／又は程度を表すので、ＣＵのサイズに関する情報を含むこともできる。

ＬＣＵがクアッドツリー形態に分割されるので、ＬＣＵのサイズ及び最大深さ情報を利用すれば、ＳＣＵのサイズを求めることができる。または逆に、ＳＣＵのサイズ及びツリーの最大深さ情報を利用すれば、ＬＣＵのサイズを求めることができる。

１つのＣＵに対して、当該ＣＵが分割されるか否かを表す情報（例えば、分割ＣＵフラグ（split_cu_flag））がデコーダに伝達され得る。この分割モードは、ＳＣＵを除いた全てのＣＵに含まれている。例えば、分割可否を表すフラグの値が「１」であれば、当該ＣＵはさらに４個のＣＵに分けられ、分割可否を表すフラグの値が「０」であれば、当該ＣＵはそれ以上分けられず、当該ＣＵに対する処理過程が行われ得る。

上述のように、ＣＵは、イントラ予測またはインター予測が行われるコーディングの基本単位である。ＨＥＶＣは、入力画像をより効果的にコーディングするために、ＣＵを予測ユニット（ＰＵ：Prediction Unit）単位に分割する。

ＰＵは、予測ブロックを生成する基本単位であって、１つのＣＵ内でもＰＵ単位に互いに異なるように予測ブロックを生成できる。ただし、１つのＣＵ内に属したＰＵなどは、イントラ予測とインター予測とが混合されて使用されず、１つのＣＵ内に属したＰＵなどは、同じ予測方法（すなわち、イントラ予測あるいはインター予測）によりコーディングされる。

ＰＵは、クアッドツリー構造に分割されず、１つのＣＵで予め決められた形態で１回分割される。これについて、下記の図面を参照して説明する。

図４は、本発明に適用できる予測ユニットを説明するための図である。

ＰＵは、ＰＵが属するＣＵのコーディングモードとしてイントラ予測モードが使用されるか、インター予測モードが使用されるかによって相違して分割される。

図４（ａ）は、イントラ予測モードが使用される場合のＰＵを例示し、図４（ｂ）は、インター予測モードが使用される場合のＰＵを例示する。

図４（ａ）に示すように、１つのＣＵのサイズが２Ｎ×２Ｎ（Ｎ＝４、８、１６、３２）である場合を仮定すれば、１つのＣＵは、２つのタイプ（すなわち、２Ｎ×２ＮまたはＮ×Ｎ）に分割されることができる。

ここで、２Ｎ×２Ｎ形態のＰＵに分割される場合、１つのＣＵ内に１つのＰＵだけが存在することを意味する。

それに対し、Ｎ×Ｎ形態のＰＵに分割される場合、１つのＣＵは、４個のＰＵに分割され、各ＰＵ単位別に互いに異なる予測ブロックが生成される。ただし、このようなＰＵの分割は、ＣＵの輝度成分に対するＣＢのサイズが最小サイズである場合（すなわち、ＣＵがＳＣＵである場合）にのみ行われることができる。

図４（ｂ）に示すように、１つのＣＵのサイズが２Ｎ×２Ｎ（Ｎ＝４、８、１６、３２）である場合を仮定すれば、１つのＣＵは、８つのＰＵタイプ（すなわち、２Ｎ×２Ｎ、Ｎ×Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、ｎＬ×２Ｎ、ｎＲ×２Ｎ、２Ｎ×ｎＵ、２Ｎ×ｎＤ）に分割されることができる。

イントラ予測と同様に、Ｎ×Ｎ形態のＰＵ分割は、ＣＵの輝度成分に対するＣＢのサイズが最小サイズである場合（すなわち、ＣＵがＳＣＵである場合）にのみ行われることができる。

インター予測では、横方向に分割される２Ｎ×Ｎ形態及び縦方向に分割されるＮ×２Ｎ形態のＰＵ分割を支援する。

また、非対称動き分割（ＡＭＰ：Asymmetric Motion Partition）形態であるｎＬ×２Ｎ、ｎＲ×２Ｎ、２Ｎ×ｎＵ、２Ｎ×ｎＤ形態のＰＵ分割を支援する。ここで、「ｎ」は、２Ｎの１／４の値を意味する。ただし、ＡＭＰは、ＰＵが属したＣＵが最小サイズのＣＵである場合、使用されることができない。

１つのＣＴＵ内の入力画像を効率的に符号化するために、コーディングユニットＣＵ、予測ユニットＰＵ、変換ユニットＴＵの最適の分割構造は、下記のような実行過程を経て最小レート歪み（Rate-Distortion）値に基づいて決定されることができる。例えば、６４×６４ＣＴＵ内の最適のＣＵ分割過程を説明すれば、６４×６４サイズのＣＵから８×８サイズのＣＵまでの分割過程を経ながら、レート歪みコストを計算できる。具体的な過程は、次のとおりである。

１）６４×６４サイズのＣＵに対してインター／イントラ予測、変換／量子化、逆量子化／逆変換、及びエントロピーエンコード実行を介して最小のレート歪み値を発生させる最適のＰＵとＴＵの分割構造を決定する。

２）６４×６４ＣＵを３２×３２サイズのＣＵ４個に分割し、各３２×３２ＣＵに対して最小のレート歪み値を発生させる最適のＰＵとＴＵの分割構造を決定する。

３）３２×３２ＣＵを１６×１６サイズのＣＵ４個に再度分割し、各１６×１６ＣＵに対して最小のレート歪み値を発生させる最適のＰＵとＴＵの分割構造を決定する。

４）１６×１６ＣＵを８×８サイズのＣＵ４個に再度分割し、各８×８ＣＵに対して最小のレート歪み値を発生させる最適のＰＵとＴＵの分割構造を決定する。

５）上記の３）の過程で算出した１６×１６ＣＵのレート歪み値と、上記の４）の過程で算出した４個８×８ＣＵのレート歪み値との合計を比較して、１６×１６ブロック内で最適のＣＵの分割構造を決定する。この過程を残りの３個の１６×１６ＣＵなどに対しても同様に行う。

６）上記の２）の過程で計算された３２×３２ＣＵのレート歪み値と、上記の５）の過程で取得した４個の１６×１６ＣＵのレート歪み値との合計を比較して、３２×３２ブロック内で最適のＣＵの分割構造を決定する。この過程を残りの３個の３２×３２ＣＵなどに対しても同様に行う。

７）最後に、上記の１）の過程で計算された６４×６４ＣＵのレート歪み値と、上記の６）の過程で取得した４個の３２×３２ＣＵのレート歪み値との合計を比較して、６４×６４ブロック内で最適のＣＵの分割構造を決定する。

イントラ予測モードにおいて、ＰＵ単位に予測モードが選択され、選択された予測モードに対して実際ＴＵ単位に予測と再構成が行われる。

ＴＵは、実際予測と再構成が行われる基本単位を意味する。ＴＵは、輝度（luma）成分に対する変換ブロック（ＴＢ：Transform Block）と、これに対応する２つの色差（chroma）成分に対するＴＢを含む。

前述した図３の例示において１つのＣＴＵがクアッドツリー構造に分割されてＣＵが生成されるように、ＴＵは、コーディングしようとする１つのＣＵからクアッドツリー構造に階層的に分割される。

ＴＵは、クアッドツリー構造に分割されるので、ＣＵから分割されたＴＵは再度より小さい下位ＴＵに分割されることができる。ＨＥＶＣでは、ＴＵのサイズは、３２×３２、１６×１６、８×８、４×４のうち、いずれか１つに決められることができる。

さらに、図３に示すように、クアッドツリーのルートノード（root node）は、ＣＵと関連すると仮定する。クアッドツリーは、リーフノード（leaf node）に到達するまで分割され、リーフノードは、ＴＵに該当する。

より具体的に説明すれば、ＣＵは、ルートノード（root node）に該当し、最も小さい深さ（depth）（すなわち、ｄｅｐｔｈ＝０）値を有する。入力画像の特性に応じてＣＵが分割されないこともあり、この場合、ＣＵは、ＴＵに該当する。

ＣＵは、クアッドツリー形態に分割されることができ、その結果、深さ１（ｄｅｐｔｈ＝１）である下位ノードが生成される。そして、１の深さを有する下位ノードでそれ以上分割されなかったノード（すなわち、リーフノード）は、ＴＵに該当する。例えば、図３（ｂ）においてノードａ、ｂ、及びｊに対応するＴＵ（ａ）、ＴＵ（ｂ）、ＴＵ（ｊ）は、ＣＵで１回分割され、１の深さを有する。

１の深さを有するノードのうち、少なくともいずれか１つは、再度クアッドツリー形態に分割されることができ、その結果、深さ２（すなわち、ｄｅｐｔｈ＝２）である下位ノードが生成される。そして、２の深さを有する下位ノードでそれ以上分割されなかったノード（すなわち、リーフノード）は、ＴＵに該当する。例えば、図３（ｂ）においてノードｃ、ｈ、及びｉに対応するＴＵ（ｃ）、ＴＵ（ｈ）、ＴＵ（ｉ）は、ＣＵで２回分割され、２の深さを有する。

また、２の深さを有するノードのうち、少なくともいずれか１つは、再度クアッドツリー形態に分割されることができ、その結果、深さ３（すなわち、ｄｅｐｔｈ＝３）である下位ノードが生成される。そして、３の深さを有する下位ノードでそれ以上分割されなかったノード（すなわち、リーフノード）は、ＣＵに該当する。例えば、図３（ｂ）においてノードｄ、ｅ、ｆ、ｇに対応するＴＵ（ｄ）、ＴＵ（ｅ）、ＴＵ（ｆ）、ＴＵ（ｇ）は、ＣＵで３回分割され、３の深さを有する。

ツリー構造を有するＴＵは、予め決められた最大深さ情報（または、最大レベル情報）を有して階層的に分割されることができる。そして、それぞれの分割されたＴＵは、深さ情報を有することができる。深さ情報は、ＴＵの分割された回数及び／又は程度を表すので、ＴＵのサイズに関する情報を含むこともできる。

１つのＴＵに対して、当該ＴＵが分割されるか否かを表す情報（例えば、分割ＴＵフラグ（split_transform_flag））がデコーダに伝達され得る。この分割情報は、最小サイズのＴＵを除いた全てのＴＵに含まれている。例えば、分割可否を表すフラグの値が「１」であれば、当該ＴＵは、さらに４個のＴＵに分けられ、分割可否を表すフラグの値が「０」であれば、当該ＴＵは、それ以上分けられない。

予測（prediction）

デコーディングが行われる現在処理ユニットを復元するために現在処理ユニットが含まれた現在ピクチャー又は他のピクチャーのデコードされた部分を用いることができる。

復元に現在ピクチャーのみを用いる、すなわち、画面内予測のみを行うピクチャー（スライス）をイントラピクチャーまたはＩピクチャー（スライス）、各ブロックを予測するために、最大１つの動きベクトル及びレファレンスインデックスを用いるピクチャー（スライス）を予測ピクチャー（predictive picture）またはＰピクチャー（スライス）、最大２つの動きベクトル及びレファレンスインデックスを用いるピクチャー（スライス）を双予測ピクチャー（Bi-predictive picture）またはＢピクチャー（スライス）と呼ぶことができる

イントラ予測とは、同一のデコードされたピクチャー（又は、スライス）のデータ要素（例えば、サンプル値など）から現在処理ブロックを導出する予測方法を意味する。すなわち、現在ピクチャー内の復元された領域を参照して現在処理ブロックのピクセル値を予測する方法を意味する。

以下、インター予測についてより詳細に説明する。

インター予測（Inter prediction）（又は、画面間予測）

インター予測とは、現在ピクチャー以外のピクチャーのデータ要素（例えば、サンプル値又は動きベクトルなど）に基づいて現在処理ブロックを導出する予測方法を意味する。すなわち、現在ピクチャー以外の復元された他のピクチャー内の復元された領域を参照して現在処理ブロックのピクセル値を予測する方法を意味する。

インター予測（又は、ピクチャー間予測）は、ピクチャー間に存在する重複性を除去する技術として、大部分は動き推定（motion estimation）及び動き補償（motion compensation）により行われる。

図５は、本発明が適用できる実施形態であって、インター予測の方向を例示する図である。

図５に示すように、インター予測は、１つのブロックに対して時間軸上で過去のピクチャー又は未来のピクチャー１つのみを参照ピクチャーとして用いる単方向予測（Uni-directional prediction）と、過去及び未来ピクチャーを同時に参照する双方向予測（Bi-directional prediction）に分けられる。

また、単方向予測（Uni-directional prediction）は、時間的に現在ピクチャー以前に表示（または、出力）される１つの参照ピクチャーを用いる順方向予測（forward direction prediction）と、時間的に現在ピクチャー以後に表示（または、出力）される１個の参照ピクチャーを用いる逆方向予測（backward direction prediction）とに区分されることができる。

インター予測過程（すなわち、単方向または双方向予測）で現在ブロックを予測するのに、ある参照領域（または、参照ブロック）が用いられるか特定するために使用される動きパラメータ（または、情報）は、インター予測モード（inter prediction mode）（ここで、インター予測モードは、参照方向（すなわち、単方向または双方向）と参照リスト（すなわち、Ｌ０、Ｌ１、または双方向）を指示できる）、参照インデックス（reference index）（または、参照ピクチャーインデックスまたは参照リストインデックス）、動きベクトル（motion vector）情報を含む。前記動きベクトル情報は、動きベクトル、動きベクトル予測子（ＭＶＰ：motion vector predictor）、または動きベクトル差分値（ＭＶＤ：motion vector difference）を含むことができる。動きベクトル差分値は、前記動きベクトルと動きベクトル予測子との間の差分値を意味する。

単方向予測は、一方向に対する動きパラメータが使用される。すなわち、参照領域（または、参照ブロック）を特定するために、１個の動きパラメータが必要でありうる。

双方向予測は、両方向に対する動きパラメータが使用される。双方向予測方式では、最大２個の参照領域を用いることができるが、この２個の参照領域は、同じ参照ピクチャーに存在することができ、互いに異なるピクチャーに各々存在することもできる。すなわち、双方向予測方式では、最大２個の動きパラメータが用いられ得るが、２個の動きベクトルが同じ参照ピクチャーインデックスを有することができ、互いに異なる参照ピクチャーインデックスを有することもできる。このとき、参照ピクチャー等は、時間的に現在ピクチャー以前に全て表示（または、出力）されるか、以後に全て表示（または、出力）されることができる。

エンコーダは、インター予測過程において現在処理ブロックと最も類似した参照領域を参照ピクチャーから探す動き推定（Motion Estimation）を行う。また、エンコーダは、参照領域に対する動きパラメータをデコーダに提供する。

エンコーダ／デコーダは、動きパラメータを用いて現在処理ブロックの参照領域を取得することができる。前記参照領域は、前記参照インデックスを有する参照ピクチャー内に存在する。また、前記動きベクトルにより特定された参照領域のピクセル値又は補間（interpolation）された値が前記現在処理ブロックの予測値（predictor）として用いられることができる。すなわち、動き情報を用いて、以前にデコードされたピクチャーから現在処理ブロックの画像を予測する動き補償（motion compensation）が行われる。

動きベクトル情報に関連した送信量を減らすために、以前にコードされたブロックの動き情報を用いて動きベクトル予測値（ｍｖｐ）を取得し、これに対する差分値（ｍｖｄ）のみを送信する方法を用いることができる。すなわち、デコーダは、デコードされた他のブロックの動き情報を用いて現在処理ブロックの動きベクトル予測値を求め、エンコーダから送信された差分値を用いて現在処理ブロックに対する動きベクトル値を取得する。動きベクトル予測値を取得するにおいて、デコーダは、既にデコードされた他のブロックの動き情報を用いて多様な動きベクトル候補値を取得し、そのうち１つを動きベクトル予測値として取得することができる。

・参照ピクチャーセット及び参照ピクチャーリスト

複数の参照ピクチャーを管理するために、以前にデコードされたピクチャーのセットが、残ったピクチャーのデコードのために復号ピクチャーバッファ（ＤＰＢ）内に格納される。

ＤＰＢに格納された復元されたピクチャーのうち、インター予測に用いられる復元されたピクチャーを参照ピクチャー（reference picture）と呼ぶ。言い換えれば、参照ピクチャー（reference picture）は、デコード順序上、次のピクチャーのデコードプロセスでインター予測のために使用され得るサンプルを含むピクチャーを意味する。

参照ピクチャーセット（ＲＰＳ：reference picture set）は、ピクチャーと関連した参照ピクチャーのセットを意味し、デコード順序上、以前に関連した全てのピクチャーで構成される。参照ピクチャーセットは、関連したピクチャーまたはデコード順序上、関連したピクチャーに後続するピクチャーのインター予測に用いられ得る。すなわち、復号ピクチャーバッファ（ＤＰＢ）に維持される参照ピクチャーは、参照ピクチャーセットと呼ばれることができる。エンコーダは、シーケンスパラメータセット（ＳＰＳ：sequence parameter set）（すなわち、シンタックス要素で構成されるシンタックス構造）または各スライスヘッダで参照ピクチャーセット情報をデコーダに提供することができる。

参照ピクチャーリスト（reference picture list）は、Ｐピクチャー（または、スライス）またはＢピクチャー（または、スライス）のインター予測のために用いられる参照ピクチャーのリストを意味する。ここで、参照ピクチャーリストは、２個の参照ピクチャーリストに区分されることができ、各々参照ピクチャーリスト０（または、Ｌ０）及び参照ピクチャーリスト１（または、Ｌ１）と呼ぶことができる。また、参照ピクチャーリスト０に属した参照ピクチャーを参照ピクチャー０（または、Ｌ０参照ピクチャー）と呼び、参照ピクチャーリスト１に属した参照ピクチャーを参照ピクチャー１（または、Ｌ１参照ピクチャー）と呼ぶことができる。

Ｐピクチャー（または、スライス）のデコードプロセスにおいて、１つの参照ピクチャーリスト（すなわち、参照ピクチャーリスト０）が用いられ、Ｂピクチャー（または、スライス）のデコードプロセスにおいて、２個の参照ピクチャーリスト（すなわち、参照ピクチャーリスト０及び参照ピクチャーリスト１）が用いられ得る。このような、各参照ピクチャー別に参照ピクチャーリストを区分するための情報は、参照ピクチャーセット情報を介してデコーダに提供されることができる。デコーダは、参照ピクチャーセット（ｒｅｆｅｒｅｎｃｅｐｉｃｔｕｒｅｓｅｔ）情報に基づいて参照ピクチャーを参照ピクチャーリスト０または参照ピクチャーリスト１に追加する。

参照ピクチャーリスト内のいずれか１つの特定参照ピクチャーを識別するために、参照ピクチャーインデックス（reference picture index）（または、参照インデックス）が用いられる。

・分数サンプル補間（fractional sample interpolation）

インター予測された現在ブロックに対する予測ブロックのサンプルは、参照ピクチャーインデックス（reference picture index）により識別される参照ピクチャー内の当該参照領域のサンプル値から取得される。ここで、参照ピクチャー内の当該参照領域は、動きベクトルの水平要素（horizontal component）及び垂直要素（vertical component）により指示される位置の領域を表す。動きベクトルが整数値を有する場合を除き、非整数（noninteger）サンプル座標のための予測サンプルを生成するために分数サンプル補間（fractional sample interpolation）が使用される。例えば、サンプル間の距離の１／４単位の動きベクトルが支援され得る。

ＨＥＶＣの場合、輝度成分の分数サンプル補間（fractional sample interpolation）は、８タブフィルタを横方向及び縦方向に各々適用する。そして、色差成分の分数サンプル補間（fractional sample interpolation）は、４タブフィルタを横方向及び縦方向に各々適用する。

図６は、本発明が適用できる実施形態であって、１／４サンプル補間のための整数及び分数サンプル位置を例示する。

図６に示すように、大文字（upper-case letter）（Ａ＿ｉ、ｊ）が記載された陰影ブロックは、整数サンプル位置を表し、小文字（lower-case letter）（ｘ＿ｉ、ｊ）が記載された陰影のないブロックは、分数サンプル位置を表す。

分数サンプルは、水平方向及び垂直方向に各々整数サンプル値に補間フィルタが適用されて生成される。例えば、水平方向の場合、生成しようとする分数サンプルを基準として左側の４個の整数サンプル値と右側の４個の整数サンプル値とに８タブフィルタが適用され得る。

・インター予測モード

ＨＥＶＣでは、動き情報の量を減らすために、マージ（Merge）モード、ＡＭＶＰ（Advanced Motion Vector Prediction）が用いられ得る。

１）マージ（Merge）モード

マージ（Merge）モードは、空間的（spatially）または時間的（temporally）に隣り合うブロックから動きパラメータ（または、情報）を導出する方法を意味する。

マージモードで利用可能な候補のセットは、空間的に隣り合う候補（spatial neighbor candidates）、時間的候補（temporal candidates）、及び生成された候補（generated candidates）で構成される。

図７は、本発明が適用できる実施形態であって、空間的候補の位置を例示する。

図７（ａ）に示すように、｛Ａ１、Ｂ１、Ｂ０、Ａ０、Ｂ２｝の順序にしたがって各空間的候補ブロックが利用可能であるか否かが判断される。このとき、候補ブロックがイントラ予測モードでエンコードされて動き情報が存在しない場合、または候補ブロックが現在ピクチャー（または、スライス）の外に位置する場合には、当該候補ブロックは利用できない。

空間的候補の有効性の判断後、現在ブロックの候補ブロックから不要な候補ブロックを除くことにより、空間的マージ候補が構成され得る。例えば、現在予測ブロックの候補ブロックが同一コーディングブロック内の１番目の予測ブロックである場合、当該候補ブロックを除き、かつ同じ動き情報を有する候補ブロックを除くことができる。

空間的マージ候補構成が完了すれば、｛Ｔ０、Ｔ１｝の順序にしたがって時間的マージ候補構成過程が進まれる。

時間的候補構成において、参照ピクチャーの同一位置の（collocated）ブロックの右下端（right bottom）ブロックＴ０が利用可能な場合、当該ブロックを時間的マージ候補として構成する。同一位置の（collocated）ブロックは、選択された参照ピクチャーで現在ブロックに対応する位置に存在するブロックを意味する。それに対し、そうでない場合、同一位置の（collocated）ブロックの中央（center）に位置するブロックＴ１を時間的マージ候補として構成する。

マージ候補の最大個数は、スライスヘッダで特定されることができる。マージ候補の個数が最大個数より大きい場合、最大個数より小さい個数の空間的候補と時間的候補が維持される。そうでない場合、マージ候補の個数は、候補個数が最大個数になるまで現在まで追加された候補を組み合わせて追加的なマージ候補（すなわち、組み合わせられた双予測マージ候補（combined bi-predictive merging candidates））が生成される。

エンコーダでは、上記のような方法によりマージ候補リストを構成し、動き推定（Motion Estimation）を行うことにより、マージ候補リストで選択された候補ブロック情報をマージインデックス（merge index）（例えば、ｍｅｒｇｅ＿ｉｄｘ［ｘ０］［ｙ０］’）としてデコーダにシグナリングする。図７（ｂ）では、マージ候補リストでＢ１ブロックが選択された場合を例示しており、この場合、マージインデックス（merge index）として「インデックス１（Ｉｎｄｅｘ１）」がデコーダにシグナリングされ得る。

デコーダでは、エンコーダと同様にマージ候補リストを構成し、マージ候補リストでエンコーダから受信したマージインデックス（merge index）に該当する候補ブロックの動き情報から現在ブロックに対する動き情報を導出する。そして、デコーダは、導出した動き情報に基づいて現在ブロックに対する予測ブロックを生成する（すなわち、動き補償）。

２）ＡＭＶＰ（Advanced Motion Vector Prediction）モード

ＡＭＶＰモードは、周辺ブロックから動きベクトル予測値を導く方法を意味する。したがって、水平及び垂直動きベクトル差分値（ＭＶＤ：motion vector difference）、参照インデックス及びインター予測モードがデコーダにシグナリングされる。水平及び垂直動きベクトル値は、導出された動きベクトル予測値とエンコーダから提供された動きベクトル差分値（ＭＶＤ：motion vector difference）とを用いて計算される。

すなわち、エンコーダは、動きベクトル予測値候補リストを構成し、動き推定（Motion Estimation）を行うことにより動きベクトル予測値候補リストにおいて選択された動き参照フラグ（すなわち、候補ブロック情報）（例えば、ｍｖｐ＿ｌＸ＿ｆｌａｇ［ｘ０］［ｙ０］’）をデコーダにシグナリングする。デコーダは、エンコーダと同様に動きベクトル予測値候補リストを構成し、動きベクトル予測値候補リストにおいてエンコーダから受信した動き参照フラグで示された候補ブロックの動き情報を用いて現在処理ブロックの動きベクトル予測値を導出する。また、デコーダは、導出された動きベクトル予測値とエンコーダから送信された動きベクトル差分値とを用いて現在処理ブロックに対する動きベクトル値を取得する。さらに、デコーダは、導出した動き情報に基づいて現在処理ブロックに対する予測ブロックを生成する（すなわち、動き補償）。

ＡＭＶＰモードの場合、前述した図７において５個の利用可能な候補のうち、２個の空間的動き候補が選択される。１番目の空間的動き候補は、左側に位置した｛Ａ０、Ａ１｝セットから選択され、２番目の空間的動き候補は、上位に位置した｛Ｂ０、Ｂ１、Ｂ２｝セットから選択される。このとき、隣り合う候補ブロックの参照インデックスが現在予測ブロックと同じでない場合、動きベクトルがスケーリングされる。

空間的動き候補の探索結果、選択された候補個数が２個であれば、候補構成を終了するが、２個未満である場合、時間的動き候補が追加される。

図８は、本発明が適用される実施形態であって、インター予測方法を例示する図である。

図８に示すように、デコーダ（特に、図２におけるデコーダのインター予測部２６１）は、処理ブロック（例えば、予測ユニット）に対する動きパラメータを復号する（Ｓ８０１）。

例えば、処理ブロックにマージモードが適用された場合、デコーダは、エンコーダからシグナリングされたマージインデックスを復号することができる。また、マージインデックスで示された候補ブロックの動きパラメータから現在処理ブロックの動きパラメータを導出することができる。

さらに、処理ブロックにＡＭＶＰモードが適用された場合、デコーダは、エンコーダからシグナリングされた水平及び垂直動きベクトル差分値（ＭＶＤ：motion vector difference）、参照インデックス、及びインター予測モードを復号することができる。さらに、動き参照フラグから示された候補ブロックの動きパラメータから動きベクトル予測値を導出し、動きベクトル予測値と受信した動きベクトル差分値とを用いて現在処理ブロックの動きベクトル値を導出することができる。

デコーダは、復号した動きパラメータ（又は、情報）を用いて予測ユニットに対する動き補償を行う（Ｓ８０２）。

すなわち、エンコーダ／デコーダは、復号された動きパラメータを用いて、以前にデコードされたピクチャーから現在ユニットの画像を予測する動き補償（motion compensation）を行う。

図９は、本発明が適用できる実施形態であって、動き補償過程を例示する図である。

図９では、現在ピクチャー（current picture）において符号化しようとする現在ブロック（current block）のための動きパラメータは、単方向予測、ＬＩＳＴ０、ＬＩＳＴ０内の２番目のピクチャー（picture）、動きベクトル（−ａ，ｂ）である場合を例示する。

この場合、図９に示すように、現在ブロックは、ＬＩＳＴ０の２番目のピクチャーにおいて現在ブロックと（−ａ，ｂ）だけ離れている位置の値（すなわち、参照ブロック(reference block)のサンプル値）を用いて予測される。

双方向予測の場合は、他の参照リスト（例えば、ＬＩＳＴ１）と参照インデックス、動きベクトル差分値が送信されて、デコーダは、２つの参照ブロックを導出し、これに基づいて現在ブロック値を予測する。

実施形態１

本発明の一実施形態において、クアッドツリー構造にブロック分割が行われる場合、マージモードを用いたインター予測方法を提案する。

クアッドツリー構造にブロックが分割される場合、エンコーダとデコーダは同様にマージ候補の最大個数を満足するまで次のような順序でマージ候補リストを生成（又は、構成）することができる。

１）空間マージ候補構成

２）時間マージ候補構成

３）組み合わせマージ候補構成

４）ゼロ動きベクトル候補構成

ここで、空間マージ候補の一及び時間マージ候補の位置は、以下の図面を参照して説明する。

図１０は、本発明が適用される実施形態であって、空間マージ候補の位置を説明するための図である。

図１０（ａ）に示すように、現在ブロック１００１が２Ｎ×２Ｎブロックである場合、エンコーダ／デコーダは、１番（１）、２番（２）、３番（３）、４番（４）、５番（５）の順序で現在ブロック１００１の周辺ブロックの動き情報を探索し、利用可能な（又は、有効な）動き情報をマージ候補として用いることができる。

図１０（ｂ）及び図１０（ｃ）に示すように、現在ブロック１００２、１００３が２Ｎ×Ｎ、ｎＬ×２Ｎ, ｎＲ×２Ｎ、Ｎ×２Ｎ、２Ｎ×ｎＵ、２Ｎ×ｎＤブロックなどの非正方形ブロックである場合、１番（１）、２番（２）、３番（３）、４番（４）の順序で現在ブロック１００２、１００３の周辺ブロックの動き情報を探索し、利用可能な（又は、有効な）動き情報をマージ候補として用いることができる。

図１１は、本発明が適用される実施形態であって、時間マージ候補の位置を説明するための図である。

図１１に示すように、エンコーダ／デコーダは、現在ピクチャー１１０１の時間候補ピクチャー１１０２内で現在ブロック１１０３の位置に対応する同一位置の（collocated）ブロック１１０４の右下端のブロック又は中央位置のブロックを時間マージ候補として用いることができる。すなわち、同一位置のブロック１１０４の右下端に位置するブロックの動き情報を優先的に考慮し、該当位置に動き情報がない場合、エンコーダ／デコーダは、同一位置のブロック１１０４の中央に位置するブロックの動き情報をマージ候補の動き情報として用いることができる。

時間的類似性を考慮したマージ候補選択方法、すなわち、時間マージ候補はスライスヘッダで使用可否が決定される。もし、時間マージ候補が用いられる場合、エンコーダは、スライス単位で時間マージ候補決定のために用いられる時間候補ピクチャーの参照方向及び参照ピクチャーインテックスをデコーダに送信することができる。この場合、エンコーダ／デコーダは、全てのスライス内で同一のピクチャーを参照して時間マージ候補を構成することができる。

マージ候補の最大個数はスライスヘッダで特定されることができる。もし、スライスヘッダにおいて、マージ候補の最大個数が送信されないと、エンコーダ／デコーダは、５個のマージ候補を用いてリストを構成することができる。ここで、エンコーダ／デコーダも空間マージ候補は最大４個、時間マージ候補は１個を用いてマージ候補リストを生成することができる。

マージ候補の個数が最大個数より大きい場合、最大個数より小さい個数の空間候補と時間候補が維持される。そうでない場合、マージ候補の個数が最大個数になるまで、エンコーダ／デコーダは、現在までマージ候補リストに追加された候補を組み合わせて組み合わせマージ候補（すなわち、組み合わせられた双予測マージ候補(combined bi-predictive merging candidates)）を生成することができる。もし、空間的及び時間的類似性を考慮したマージ候補のみでマージ候補の最大個数が満たされない場合、エンコーダ／デコーダはゼロ動きベクトルをマージ候補として選択することができる。

実施形態２

本発明の一実施形態において、ＱＴＢＴ（Quadtree plus Binarytree）構造にブロック分割が行われる場合、マージモードを用いたインター予測方法を提案する。ＱＴＢＴは、クアッドツリー（quadtree）構造とバイナリツリー（binarytree）構造が結合されたコーディングブロックの分割構造をいう。具体的には、ＱＴＢＴ構造においては画像をＣＴＵ単位でコーディングし、ＣＴＵは先にクアッドツリー（quadtree）形態に分割され、クアッドツリーのリーフノード（leaf node）は追加的にバイナリツリー（binarytree）形態に分割される。

特に、本実施形態において、エンコーダ／デコーダは、マージ候補リストを構成するために前述した実施形態１の方法以外に向上した時間動きベクトル予測子（ＡＴＭＶＰ：Advanced Temporal Motion Vector Predictor）と向上した時間動きベクトル予測子拡張（ＡＴＭＶＰ−ｅｘｔ：Advanced Temporal Motion Vector Predictor-extension）方法を適用することができる。これについては詳細に後述する。

ＱＴＢＴ構造にブロックが分割される場合、エンコーダとデコーダは同様に空間マージ候補、時間マージ候補、ＡＴＭＶＰ、ＡＴＭＶＰ−ｅｘｔ、組み合わせマージ候補、及び／又はゼロ動きベクトル候補を用いてマージ候補リストを生成（又は、構成）することができる。

一実施形態において、エンコーダ／デコーダは、マージ候補の最大個数を満足するまで次の順序でマージ候補リストを生成（又は、構成）することができる。

１）空間マージ候補構成

２）ＡＴＭＶＰ構成

３）ＡＴＭＶＰ−ｅｘｔ構成

４）空間マージ候補追加

５）時間マージ候補構成

６）組み合わせマージ候補構成

７）ゼロ動きベクトル候補構成

ここで、例えば、エンコーダ／デコーダは、まず、前述した図１０において１番（１）、２番（２）、３番（３）、４番（４）位置のブロックに対して有効な動き情報を探索して空間マージ候補を決定した後、ＡＴＭＶＰ、ＡＴＭＶＰ−ｅｘｔを構成することができる。その後、エンコーダ／デコーダは、前述した図１０で５番位置（５）の動き情報を用いて空間マージ候補を追加することができる。

マージ候補の最大個数は、スライスヘッダで特定されることができる。もし、スライスヘッダにおいて、マージ候補の最大個数が送信されないと、エンコーダ／デコーダは、予め決定された個数のマージ候補を用いてリストを構成することができる。好ましくは、前記予め決定された個数は５個〜７個の１つであり得る。

また、エンコーダは、ＡＴＭＶＰ及び／又はＡＴＭＶＰ−ｅｘｔを使用（又は、適用）するか否かをハイレベル（high-level）でデコーダにシグナリングすることができる。例えば、エンコーダは、ＡＴＭＶＰ及び／又はＡＴＭＶＰ−ｅｘｔの使用可否をシーケンス、ピクチャー、スライス単位でデコーダに送信することができる。ＡＴＭＶＰ及びＡＴＭＶＰ−ｅｘｔが使用される場合、それぞれの使用可否によってマージ候補の最大個数が１つずつ追加されることができる。例えば、マージ候補の最大個数が送信されない場合、デコーダはマージ候補の最大個数を５個に設定することができ、ＡＴＭＶＰ及びＡＴＭＶＰ−ｅｘｔが両方とも使用される場合、マージ候補の最大個数を７個に増加させることができる。

または、マージ候補の最大個数が送信されない場合、デコーダは、ＡＴＭＶＰ又はＡＴＭＶＰ−ｅｘｔを使用するか否かに関係なくマージ候補の最大個数を予め決定されている個数に設定して候補を構成することができる。例えば、エンコーダからマージ候補の最大個数が送信されない場合、デコーダは、マージ候補の最大個数を７個に設定し、ＡＴＭＶＰ及びＡＴＭＶＰ−ｅｘｔが使用されない条件でも最大７個のマージ候補を用いてマージ候補リストを構成することができる。

ＡＴＭＶＰは、時間候補ピクチャー（又は、参照ピクチャー）内でマージ候補リストに追加された空間マージ候補の動き情報により特定されるブロック（又は、ブロックの動き情報）を示す。本発明において、ＡＴＭＶＰは、組み合わせ（又は、混合）マージ候補、第１の向上した時間マージ候補などと称されることができる。以下の図面を参照して説明する。

図１２は、本発明が適用される実施形態であって、向上した時間動きベクトル予測子（Advanced Temporal Motion Vector Predictor）を用いて動き情報を誘導する方法を説明するための図である。

図１２に示すように、まず、エンコーダ／デコーダは、マージ候補リストに最初に追加される空間マージ候補の動き情報１２０１を用いて、時間候補ピクチャー内で現在ブロック１２０２の候補ブロック１２０２を探索する。

すなわち、ＡＴＭＶＰ候補ブロック１２０２は、マージ候補リストの１番目の空間マージ候補の動き情報１２０１により特定されることができる。

また、ＡＴＭＶＰ候補ブロック１２０２の動き情報は、サブブロック単位で誘導されることができる。具体的には、エンコーダから受信したマージインデックスがＡＴＭＶＰ候補を示す場合、現在ブロック１２０２の予測ブロックは、前記ＡＴＭＶＰ候補の動き情報をサブブロック（sub-block）単位で利用（又は、誘導）してサブブロック単位で生成されることができる。

次に、ＡＴＭＶＰ−ｅｘｔは、現在ブロックから分割されたサブブロック単位で動き情報の空間的類似性及び時間的類似性を考慮する方法を示す。本発明において、ＡＴＭＶＰ−ｅｘｔは、組み合わせ（又は、混合）マージ候補、第２の向上した時間マージ候補などと称されることができる。以下の図面を参照して説明する。

図１３及び図１４は、本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を用いて動き情報を誘導する方法を説明するための図である。

図１３に示すように、ＡＴＭＶＰ−ｅｘｔが適用される場合、エンコーダ／デコーダは、現在ブロックを複数のサブブロックに分割し、サブブロック単位で動き情報を決定（又は、誘導）することができる。例えば、前記サブブロックは、４×４又は８×８のサイズのブロックであり得る。

エンコーダ／デコーダは、現在サブブロック１３０１の動きベクトル（又は、動き情報）を誘導するために現在サブブロック１３０１に隣接するサブブロック１３０２、１３０３、１３０４、１３０５の動き情報を用いることができる。ここで、現在ブロックを基準に左側１３０２及び上側１３０３に隣接するサブブロックは、既に復号された領域に該当するため、エンコーダ／デコーダは現在ピクチャー内で該当領域の動き情報を用いることができる。それに対して、現在ブロックを基準に下側１３０４及び右側１３０５に隣接するサブブロックの場合は、まだ復号が終了しない領域であるため、エンコーダ／デコーダは時間候補ピクチャー（又は、参照ピクチャー、コロケーテッド(collocated)ピクチャー）内の該当位置の動き情報を用いることができる。

エンコーダ／デコーダは、現在サブブロック１３０１に空間的に隣接する２つのブロック１３０２、１３０３及び時間的に隣接する２つのブロック１３０４、１３０５の動き情報、計４つの動き情報の平均値を現在サブブロック１３０１の動き情報として誘導することができる。

図１４に示すように、現在サブブロック１４０１が現在ブロックの境界に隣接しない場合、エンコーダ／デコーダは、前述した方法で周辺サブブロックの動き情報を用いるが、現在ピクチャー内で現在ブロックの境界外側の動き情報を用いることによりサブブロック間に発生し得る依存性を除去することができる。

すなわち、現在サブブロック１４０１が上側境界に隣接するが、左側境界には隣接しない場合、エンコーダ／デコーダは、現在サブブロック１４０１のすぐ左側のサブブロックの代わりに現在ピクチャー内で現在ブロックの境界に隣接するブロックのうち現在サブブロック１４０１の水平方向に隣接するブロック１４０２を用いることができる。

実施形態３

本発明の一実施形態において、エンコーダ／デコーダは、バイナリツリー構造（binary tree structure）に分割されたブロックにおいてクアッドツリー構造（quad tree structure）に分割されたブロックの隣り合うブロックをマージ候補として用いることができる。本実施形態において、エンコーダ／デコーダは、バイナリツリー構造分割による周辺動き情報の類似性を考慮してマージ候補を決定することができる。

ＱＴＢＴ構造においては前述したように、まず、クアッドツリー構造に分割が行われた後、クアッドツリーのリーフノード（leaf node）ブロック（以下、「クアッドツリーブロック」と称することができる）がバイナリツリー構造に追加分割される。ここで、クアッドツリーブロックからバイナリツリー形態に分割されたブロック間の動き情報の類似性は相対的に低いことがある。以下の図面を参照して説明する。

図１５〜図１８は、ＱＴＢＴ構造において、既存の空間マージ候補位置を用いてマージ候補を構成する場合に発生する問題を説明するための図である。

図１５を参照すると、バイナリツリーに分割されたブロックの空間マージ候補の位置を示す。図１５（ａ）の場合はクアッドツリーブロックが垂直方向に分割された例を示し、図１５（ｂ）の場合はクアッドツリーブロックが垂直方向に分割された後、水平方向にもう一度分割された例を示す。

図１６を参照すると、図１５（ａ）の例示において、図１６（ａ）に示すように空間的予測候補（すなわち、空間マージ候補）として１番位置１６０１が用いられると、２番目のバイナリツリーブロックである現在ブロック１６０２は１番目のバイナリツリーブロックと同一の動き情報を用いるので、クアッドツリーブロックが図１６（ｂ）に示すように分割されるか、又はバイナリツリー分割が行われない可能性が高い。

図１７を参照すると、図１５（ｂ）の例示において、図１７（ａ）に示すように現在ブロック１７０２の空間マージ候補として２番位置１７０１が用いられると、クアッドツリーブロックは図１７（ｂ）に示すように分割される可能性が高い。

図１８を参照すると、図１５（ｂ）の例示において、５番位置１８０１、１８０２を空間候補として用いる場合を仮定して説明する。

空間マージ候補の構成順序によって５番位置まで動き情報を確認して空間マージ候補として構成することは、１番位置の動き情報及び２番位置の動き情報が５番位置の動き情報と同一でないことを意味する。このような動き情報を有する場合、クアッドツリーブロックは、図１８（ｂ）に示すようにクアッドツリー構造に分割される分割フラグのビット割り当ての側面で効率的である。

すなわち、図１５（ｂ）の例示において５番位置１８０１、１８０２のマージ候補の動き情報を用いると、クアッドツリーブロックは図１８（ｂ）に示すように分割される可能性が高い。

以上のように、クアッドツリーブロックからバイナリツリー形態に分割されたブロック間の動き情報の類似性は相対的に低いことがある。それにもかかわらず、既存の方法と同一の位置を用いると、選択確率の低い空間マージ候補がマージ候補リストに含まれる可能性があって圧縮性能が低下するしかない。

従って、本発明においては、上記のような問題を解決するために、バイナリツリー構造に分割されたブロックにおいてクアッドツリー構造に分割されたブロック境界に隣接するブロックをマージ候補として用いる方法を提案する。

ブロック分割構造によって相対的に選択確率がより高いマージ候補を用いてマージ候補リストを生成することにより、予測性能が向上し、画像の圧縮効率が向上する。

また、本発明の実施形態によれば、バイナリツリー構造に分割されたブロックにおいてクアッドツリー構造に分割されたブロックの隣り合うブロックをマージ候補として用いることにより、クアッドツリー構造に分割されたブロック単位で並列化を行うことができる。すなわち、本実施形態によれば、上記のような問題を解決すると共にクアッドツリーブロック単位でマージプロセス（merge Process）を並列化することができる。

図１９は、本発明が適用される実施形態であって、クアッドツリーのリーフノードブロック境界に隣接するブロックを用いて空間マージ候補を構成する方法を説明するための図である。

図１９に示すように、現在ブロック１９０２、１９０２がクアッドツリー構造のリーフノードブロックを示すクアッドツリーブロックからバイナリツリー構造に分割されたブロックである場合、空間マージ候補は前記クアッドツリーブロック境界に隣接するブロックに決定されることができる。具体的には、空間マージ候補は、１番（１）、２番（２）、３番（３）、４番（４）、５番（５）位置のブロック（又は、１番（１）、２番（２）、３番（３）、４番（４）、５番（５）位置のピクセルを含むブロック）であり得る。

エンコーダ／デコーダは、１番（１）、２番（２）、３番（３）、４番（４）、５番（５）位置の動き情報を順次探索して現在ブロック１９０２、１９０２の空間マージ候補を構成することができる。

上記のような位置の空間マージ候補を用いる場合、既存の方法に比べて圧縮性能が向上し、クアッドツリーブロック内のバイナリツリーブロックの動き情報を誘導する過程においてバイナリツリーブロック間の依存性がないため、クアッドツリーブロック単位で並列化が行われることができる。

実施形態４

本発明の一実施形態において、エンコーダ／デコーダは、サブブロック単位で動き情報を誘導するＡＴＭＶＰ又はＡＴＭＶＰ−ｅｘｔ方法を適用するとき、バイナリツリー構造に分割されたブロックにおいてクアッドツリー構造に分割されたブロック境界に隣接するブロックをマージ候補として用いることができる。

本実施形態においては、ＱＴＢＴ構造に適合するようにＡＴＭＶＰを誘導するための空間マージ候補を構成する方法を提案する。

実施形態３で説明したように、空間マージ候補の構成過程においてはＱＴＢＴブロック分割構造によって周辺候補の動き情報の選択確率が低くなるという問題が発生することがある。しかしながら、ＡＴＭＶＰは、周辺候補の動き情報により時間候補ピクチャー内で特定されるブロックの動き情報を用いるので、実施形態３で説明した問題が発生しないことがある。

従って、エンコーダ／デコーダは、従来と同一の位置（すなわち、前述した図１０）の空間候補の動き情報を用いてＡＴＭＶＰを構成することができる。具体的に、現在ブロックがバイナリツリー分割されたブロックである場合、エンコーダ／デコーダは、図１０で説明した位置の空間候補の動き情報を探索して１番目の有効な（又は、利用可能な）動き情報により特定される、時間候補ピクチャー内のブロックの動き情報をサブブロック単位で誘導して現在ブロックの動き情報として決定することができる。

それに対して、エンコーダ／デコーダは、実施形態３で提案した方法との統一性又は複雑度の緩和を考慮して前述した図１９と同一の位置の空間候補の動き情報を用いてＡＴＭＶＰを構成することもできる。具体的には、現在ブロックがバイナリツリー分割されたブロックである場合、エンコーダ／デコーダは、図１９で説明した位置の空間候補の動き情報を探索して１番目の有効な（又は、利用可能な）動き情報により特定される、時間候補ピクチャー内のブロックの動き情報をサブブロック単位で誘導して現在ブロックの動き情報として決定することができる。

図２０は、本発明が適用される実施形態であって、クアッドツリーのリーフノードブロック境界に隣接するブロックを用いて空間マージ候補を構成する方法を説明するための図である。

図２０に示すように、クアッドツリーブロックからバイナリツリー構造に深さ（depth）３まで分割された場合を仮定する。

エンコーダ／デコーダは、クアッドツリーブロック単位の並列化のために図２０（ａ）に示す位置（１番（１）、２番（２）、３番（３）、４番（４）、５番（５））の空間マージ候補を用いてマージ候補リストを構成することができる。

または、エンコーダ／デコーダは、同一のバイナリツリー深さのブロック間の並列化のために図２０（ｂ）に示す位置（１番（１）、２番（２）、３番（３）、４番（４）、５番（５））の空間マージ候補を用いてマージ候補リストを構成することもできる。

エンコーダは、並列化が行われる単位を決定し、決定された並列化単位をハイレベルシンタックス（high-level syntax）によりデコーダに伝送することもできる。例えば、エンコーダは、並列化が行われる単位をシーケンス、ピクチャー、スライス単位でデコーダにシグナリングすることができる。もし、エンコーダから並列化の単位が送信される場合、デコーダは、図２０（ａ）又を図２０（ｂ）に示す空間候補位置を選択的に用いることができる。

実施形態５

本発明の一実施形態においては、ＱＴＢＴ構造を考慮して効率的にＡＴＭＶＰ−ｅｘｔを適用する方法を提案する。

実施形態２で説明したように、ＡＴＭＶＰ−ｅｘｔは、各サブブロック単位で動き情報を誘導する。ＱＴＢＴ構造においては、ブロック構造の多様性が増加するにつれて複雑度が著しく増加するので、並列化の問題が重要な話題として台頭し、並列化実行のときにサブブロックの特性によって周辺候補位置の動き情報の信頼性が低下する問題が発生することがある。

本実施形態においては、上記のような問題を解決するためにＡＴＭＶＰ−ｅｘｔに用いられる空間候補又は時間候補の位置を各サブブロックの現在処理ブロック内での位置によって決定する方法を提案する。

図２１は、本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を用いて動き情報を誘導する方法を説明するための図である。

図２１に示すように、エンコーダ／デコーダは、ブロック境界でない位置の空間候補の代わりに時間候補の動き情報を用いてＡＴＭＶＰ−ｅｘｔ動き情報を決定することができる。

例えば、現在サブブロック２１０１が現在ブロックの水平境界に隣接しない場合、現在サブブロック２１０１の動き情報は、現在ブロックの境界に隣接するブロックのうち現在サブブロック２１０１の垂直方向に隣接するブロック２１０３の動き情報と、時間候補ピクチャーの同一位置の（collocated）ブロック内の現在サブブロックの左側２１０２、下側２１０４、及び右側２１０５の位置のブロックの動き情報とを用いて決定されることができる。

図２２は、本発明が適用される実施形態であって、向上した時間動きベクトル予測子拡張（Advanced Temporal Motion Vector Predictor-extension）を用いて動き情報を誘導する方法を説明するための図である。

図２２に示すように、現在サブブロック２２０１が現在ブロック内の左側境界又は上側境界に隣接しない場合、現在ブロックに隣接する空間候補動きベクトルを用いるが、該当空間候補の動きベクトル２２０２に現在サブブロック２２０１との距離が大きくなるほど相対的に小さいサイズの値を有する加重値を適用することができる。例えば、前記加重値の値は、１より小さいサイズの値を有することができる。

以上、マージモードで候補リストを構成する方法を中心に説明したが、前述した実施形態はＡＭＶＰ（Advanced Motion Vector Prediction）モードでも同様に適用できる。すなわち、マージモードが適用されない場合にＡＭＶＰモードが適用され、この場合、デコーダは、以上で説明した方法を適用してＡＭＶＰ候補リストを生成し、エンコーダから受信した動きベクトル差分値、参照ピクチャーインデックスを用いてインター予測を行うことができる。

また、前述した実施形態は独立的に適用されることもでき、１つ以上の実施形態を組み合わせて適用されることもできる。

図２３は、本発明の一実施形態によるインター予測方法を説明するための図である。

図２３に示すように、説明の便宜のためにデコーダを中心に説明するが、本実施形態によるインター予測方法は、エンコーダとデコーダに同様に適用できる。

デコーダは、現在ブロックの空間マージ候補（spatial merge candidate）及び時間マージ候補（temporal merge candidate）を用いてマージ候補リストを生成する（Ｓ２３０１）。

前述したように、現在ブロックがクアッドツリー構造（quad tree structure）のリーフノードブロック（leaf node block）を示すクアッドツリーブロックからバイナリツリー構造（binary tree structure）に分割されたブロックである場合、前記空間マージ候補は、クアッドツリーブロック境界に隣接するブロックに決定されることができる。

具体的には、前記空間マージ候補は、前記クアッドツリーブロックの左下側境界に隣接するブロック、左上側境界に隣接するブロック、右上側境界に隣接するブロック、上側境界に隣接するブロック、又は左側境界に隣接するブロックの少なくとも１つに決定される。ここで、前記上側境界に隣接するブロックは、前記現在ブロックの左上側境界に隣接するピクセルと垂直方向に隣接するピクセルを含むブロック又は前記現在ブロックの右上側ピクセルと垂直方向に隣接するピクセルを含むブロックであり得る。前記左側境界に隣接するブロックは、前記現在ブロックの左下側ピクセルと水平方向に隣接するピクセルを含むブロックであり得る。

また、前述したように、ステップＳ２３０１は時間候補ピクチャー内で前記空間マージ候補の動き情報により特定されるブロックを示す第１の向上した時間マージ候補（ＡＴＭＶＰ）を前記マージ候補リストに追加するステップを含むことができる。

前記マージインデックスが前記第１の向上した時間マージ候補を示す場合、前記現在ブロックの予測ブロックは、前記第１の向上した時間マージ候補の動き情報をサブブロック（sub-block）単位で用いて生成されることができる。

また、前述したように、ステップＳ２３０１は、第２の向上した時間マージ候補（ＡＴＭＶＰ−ｅｘｔ）を前記マージ候補リストに追加するステップを含むことができる。ここで、前記第２の向上した時間マージ候補の動き情報は、現在ピクチャー内で前記現在ブロックの境界に隣接するブロックの動き情報及び時間候補ピクチャー内で前記現在ブロックと同一位置の（collocated）ブロックの動き情報を用いてサブブロック（sub-block）単位で決定されることができる。また、前記現在ブロックの現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向及び垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの下側及び右側位置のブロックの動き情報を用いて決定される。

図２２で説明したように、前記現在サブブロックとの距離に基づいて前記現在サブブロックの水平方向又は垂直方向に隣接するブロックの動き情報に加重値が適用されることもできる。

図２１で説明したように、前記現在サブブロックが前記現在ブロックの垂直境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの上側、下側、及び右側位置のブロックの動き情報を用いて決定される。また、前記現在サブブロックが前記現在ブロックの水平境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの左側、下側、及び右側位置のブロックの動き情報を用いて決定される。

デコーダは、マージ候補リスト内で特定マージ候補を示すマージインデックス（merge index）を復号（又は、抽出）する（Ｓ２３０２）。

デコーダは、マージインデックスにより示されるマージ候補の動き情報を用いて前記現在ブロックの予測ブロックを生成する（Ｓ２３０３）。

図２４は、本発明の一実施形態によるインター予測部をより具体的に例示する図である。

図２４においては、説明の便宜上のために、インター予測部を１つのブロックとして示したが、イントラ予測部はエンコーダ及び／又はデコーダに含まれる構成として実現されることもできる。

図２４に示すように、インター予測部は、図５〜図２３において提案された機能、過程、及び／又は方法を実現する。具体的に、インター予測部は、マージ候補リスト構成部２４０１、マージインデックス復号部２４０２、及び予測ブロック生成部２４０３を含むことができる。

マージ候補リスト構成部２４０１は、現在ブロックの空間マージ候補（spatial merge candidate）及び時間マージ候補（temporal merge candidate）を用いてマージ候補リストを生成する。

前述したように、現在ブロックがクアッドツリー構造（quad tree structure）のリーフノードブロック（leaf node block）を示すクアッドツリーブロックからバイナリツリー構造（binary tree structure）に分割されたブロックである場合、前記空間マージ候補は、クアッドツリーブロック境界に隣接するブロックに決定される。

具体的に、前記空間マージ候補は、前記クアッドツリーブロックの左下側境界に隣接するブロック、左上側境界に隣接するブロック、右上側境界に隣接するブロック、上側境界に隣接するブロック、又は左側境界に隣接するブロックの少なくとも１つに決定されることができる。ここで、前記上側境界に隣接するブロックは、前記現在ブロックの左上側境界に隣接するピクセルと垂直方向に隣接するピクセルを含むブロック又は前記現在ブロックの右上側ピクセルと垂直方向に隣接するピクセルを含むブロックであり得る。前記左側境界に隣接するブロックは、前記現在ブロックの左下側ピクセルと水平方向に隣接するピクセルを含むブロックであり得る。

また、前述したように、マージ候補リスト構成部２４０１は、時間候補ピクチャー内で前記空間マージ候補の動き情報により特定されるブロックを示す第１の向上した時間マージ候補（ＡＴＭＶＰ）を前記マージ候補リストに追加することができる。

また、前述したように、マージ候補リスト構成部２４０１は、第２の向上した時間マージ候補（ＡＴＭＶＰ−ｅｘｔ）を前記マージ候補リストに追加することができる。ここで、前記第２の向上した時間マージ候補の動き情報は、現在ピクチャー内で前記現在ブロックの境界に隣接するブロックの動き情報及び時間候補ピクチャー内で前記現在ブロックと同一位置の（collocated）ブロックの動き情報を利用してサブブロック（sub-block）単位で決定される。また、前記現在ブロックの現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向及び垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの下側及び右側位置のブロックの動き情報を利用して決定される。

図２１で説明したように、前記現在サブブロックが前記現在ブロックの垂直境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの上側、下側、及び右側位置のブロックの動き情報を利用して決定される。また、前記現在サブブロックが前記現在ブロックの水平境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの左側、下側、及び右側位置のブロックの動き情報を利用して決定される。

マージインデックス復号部２４０２は、マージ候補リスト内で特定マージ候補を示すマージインデックス（merge index）を復号（又は、抽出）する。

予測ブロック生成部２４０３は、マージインデックスにより示されるマージ候補の動き情報を利用して前記現在ブロックの予測ブロックを生成する。

以上で説明された実施形態等は、本発明の構成要素と特徴が所定形態に結合されたものである。各構成要素または特徴は、別の明示的言及がない限り、選択的なものと考慮されなければならない。各構成要素または特徴は、他の構成要素や特徴と結合されなかった形態で実施されることができる。また、一部構成要素等及び／又は特徴を結合して本発明の実施形態を構成することも可能である。本発明の実施形態等で説明される動作の順序は変更されることができる。ある実施形態の一部構成や特徴は、他の実施形態に含まれることができ、または、他の実施形態の対応する構成または特徴と交替されることができる。特許請求の範囲において明示的な引用関係がない請求項等を結合して実施形態を構成したり、出願後の補正により新しい請求項として含め得ることは自明である。

本発明に係る実施形態は、様々な手段、例えば、ハードウェア、ファームウェア（firmware）、ソフトウェア、またはそれらの組み合わせなどにより実現されることができる。ハードウェアによる実現の場合、本発明の一実施形態は、１つまたはそれ以上のＡＳＩＣｓ（application specific integrated circuits）、ＤＳＰｓ（digital signal processors）、ＤＳＰＤｓ（digital signal processing devices）、ＰＬＤｓ（programmable logic devices）、ＦＰＧＡｓ（field programmable gate arrays）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサなどにより実現されることができる。

ファームウェアやソフトウェアによる実現の場合、本発明の一実施形態は、以上で説明された機能または動作を行うモジュール、手順、関数などの形態で実現されることができる。ソフトウェアコードは、メモリに格納されてプロセッサにより駆動されることができる。前記メモリは、前記プロセッサの内部または外部に位置し、既に公知された様々な手段により前記プロセッサとデータを交換することができる。

本発明は、本発明の必須的特徴を逸脱しない範囲で他の特定の形態で具体化され得ることは当業者に自明である。したがって、上述した詳細な説明は、あらゆる面で制限的に解釈されてはならず、例示的なことと考慮されなければならない。本発明の範囲は、添付された請求項の合理的解釈により決定されなければならず、本発明の等価的範囲内でのあらゆる変更は、本発明の範囲に含まれる。

以上、前述した本発明の好ましい実施形態は、例示の目的のために開示されたものであって、当業者であれば、以下に添付された特許請求の範囲に開示された本発明の技術的思想とその技術的範囲内で、様々な他の実施形態の改良、変更、代替、または付加などが可能であろう。

Claims

インター予測（inter prediction）モードベースに画像を処理する方法において、
現在ブロックの空間マージ候補（spatial merge candidate）及び時間マージ候補（temporal merge candidate）を利用してマージ候補リストを生成するステップと、
前記マージ候補リスト内で特定マージ候補を示すマージインデックス（merge index）を復号するステップと、
前記マージインデックスにより示されるマージ候補の動き情報を利用して前記現在ブロックの予測ブロックを生成するステップと、を含み、
前記現在ブロックがクアッドツリー構造（quad tree structure）のリーフノードブロック（leaf node block）を示すクアッドツリーブロックからバイナリツリー構造（binary tree structure）に分割されたブロックである場合、前記空間マージ候補は、前記クアッドツリーブロックの境界に隣接するブロックに決定される、ことを特徴とする、インター予測モードベースの画像処理方法。
前記空間マージ候補は、前記クアッドツリーブロックの左下側境界に隣接するブロック、左上側境界に隣接するブロック、右上側境界に隣接するブロック、上側境界に隣接するブロック、又は左側境界に隣接するブロックの少なくとも１つに決定されることを特徴とする、請求項１に記載のインター予測モードベースの画像処理方法。
前記上側境界に隣接するブロックは、前記現在ブロックの左上側境界に隣接するピクセルと垂直方向に隣接するピクセルを含むブロック又は前記現在ブロックの右上側ピクセルと垂直方向に隣接するピクセルを含むブロックであることを特徴とする、請求項２に記載のインター予測モードベースの画像処理方法。
前記左側境界に隣接するブロックは、前記現在ブロックの左下側ピクセルと水平方向に隣接するピクセルを含むブロックであることを特徴とする、請求項２に記載のインター予測モードベースの画像処理方法。
前記マージ候補リストを生成するステップは、時間候補ピクチャー内で前記空間マージ候補の動き情報により特定されるブロックを示す第１の向上した時間マージ候補を前記マージ候補リストに追加するステップを含み、
前記マージインデックスが前記第１の向上した時間マージ候補を示す場合、前記現在ブロックの予測ブロックは、前記第１の向上した時間マージ候補の動き情報をサブブロック（sub-block）単位で利用して生成されることを特徴とする、請求項１に記載のインター予測モードベースの画像処理方法。
前記マージ候補リストを生成するステップは、第２の向上した時間マージ候補を前記マージ候補リストに追加するステップを含み、
前記第２の向上した時間マージ候補の動き情報は、現在ピクチャー内で前記現在ブロックの境界に隣接するブロックの動き情報及び時間候補ピクチャー内で前記現在ブロックと同一位置の（collocated）ブロックの動き情報を利用してサブブロック（sub-block）単位で決定されることを特徴とする、請求項１に記載のインター予測モードベースの画像処理方法。
前記現在ブロックの現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向及び垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの下側及び右側位置のブロックの動き情報を利用して決定されることを特徴とする、請求項６に記載のインター予測モードベースの画像処理方法。
前記現在サブブロックとの距離に基づいて、前記現在サブブロックの水平方向又は垂直方向に隣接するブロックの動き情報に加重値が適用されることを特徴とする、請求項７に記載のインター予測モードベースの画像処理方法。
前記現在サブブロックが前記現在ブロックの垂直境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの水平方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの上側、下側、及び右側位置のブロックの動き情報を利用して決定されることを特徴とする、請求項６に記載のインター予測モードベースの画像処理方法。
前記現在サブブロックが前記現在ブロックの水平境界に隣接しない場合、前記現在サブブロックの動き情報は、前記現在ブロックの境界に隣接するブロックのうち前記現在サブブロックの垂直方向に隣接するブロックの動き情報と、前記同一位置のブロック内の前記現在サブブロックの左側、下側、及び右側位置のブロックの動き情報を利用して決定されることを特徴とする、請求項６に記載のインター予測モードベースの画像処理方法。
インター予測（inter prediction）モードベースに画像を処理する装置において、
現在ブロックの空間マージ候補（spatial merge candidate）及び時間マージ候補（temporal merge candidate）を利用してマージ候補リストを生成するマージ候補リスト生成部と、
前記マージ候補リスト内で特定マージ候補を示すマージインデックス（merge index）を復号するマージインデックス復号部と、
前記マージインデックスにより示されるマージ候補の動き情報を利用して前記現在ブロックの予測ブロックを生成する予測ブロック生成部と、を含み、
前記現在ブロックがクアッドツリー構造（quad tree structure）のリーフノードブロック（leaf node block）を示すクアッドツリーブロックからバイナリツリー構造（binary tree structure）に分割されたブロックである場合、前記空間マージ候補は、前記クアッドツリーブロックの境界に隣接するブロックに決定される、ことを特徴とする、インター予測モードベースの画像処理装置。