本開示の一態様に係る符号化装置は、処理回路と、メモリとを備え、前記処理回路は、前記メモリを用いて、それぞれ複数の画素からなるブロックごとに、基底を用いて、当該ブロックを、複数の変換係数からなるブロックに変換し、前記複数の変換係数からなるブロックごとに、当該ブロックに対して少なくとも逆変換を行うことによって、複数の画素からなるブロックを再構成し、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、前記2つのブロックの境界に対するフィルタ特性を決定し、決定された前記フィルタ特性を有するデブロッキングフィルタ処理を行う。
互いに隣接する2つのブロックの変換に用いられる基底の組み合わせに応じて、その2つのブロックの境界付近における誤差分布が異なる。例えば、2つのブロックの変換によって、2つのブロックのうちの一方のブロックの境界付近では大きな誤差が生じ、他方のブロックの境界付近では小さい誤差が生じることがある。なお、この誤差は、原画像または入力画像と再構成画像との画素値の差である。このような場合に、その境界に対して対称なフィルタ特性を有するデブロッキングフィルタ処理が行われると、小さい誤差の画素値が、大きい誤差の画素値の影響を大きく受ける可能性がある。つまり、誤差を十分に抑えることができない可能性がある。そこで、本開示の一態様に係る符号化装置では、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、その2つのブロックの境界に対するフィルタ特性が決定される。これにより、例えば、その境界に対して非対称なフィルタ特性を決定することができる。その結果、上述のように2つのブロックの境界付近で誤差に違いがある場合であっても、非対称なフィルタ特性を有するデブロッキングフィルタ処理を行うことによって、その誤差を抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、ブロックの変換に用いられた基底の振幅が大きい位置にある画素ほど、当該画素に対して小さいフィルタ係数を前記フィルタ特性として決定してもよい。
例えば、基底の振幅が大きい位置にある画素ほど、その画素の画素値は大きな誤差を有する可能性が高い。本開示の一態様に係る符号化装置では、その大きな誤差の画素値を有する画素に対して小さいフィルタ係数が決定される。したがって、このようなフィルタ係数を有するデブロッキングフィルタ処理によって、その大きな誤差の画素値が、小さな誤差の画素値に与える影響をより抑えることができる。つまり、誤差を抑える可能性をより高めることができる。
また、前記基底の振幅は、0次の基底の振幅であってもよい。
低次の基底ほど誤差に与える影響は大きい。したがって、0次の基底の振幅が大きい位置にある画素ほど、その画素に対して小さいフィルタ係数が決定されることによって、誤差を抑える可能性をさらに高めることができる。
また、前記2つのブロックは、第1のブロックと、前記第1のブロックの右側または下側にある第2のブロックとからなり、前記処理回路は、前記フィルタ特性の決定では、前記第1のブロックの変換に用いられた基底が第1の基底であり、前記第2のブロックの変換に用いられた基底が第2の基底である場合、前記第1のブロック内の前記境界付近にある画素に対する第1のフィルタ係数と、前記第2のブロック内の前記境界付近にある画素に対する第2のフィルタ係数とをそれぞれ前記フィルタ特性として、前記第1の基底および前記第2の基底に基づいて決定してもよい。例えば、前記処理回路は、前記フィルタ特性の決定では、前記第1の基底および前記第2の基底がDST(Discrete Sine Transforms)-VIIである場合、前記第1のフィルタ係数よりも大きい前記第2のフィルタ係数を前記フィルタ特性として決定してもよい。
第1の基底および第2の基底がDST-VIIである場合、第1のブロックの境界付近では誤差が大きく、第2のブロックの境界付近では誤差が小さい可能性が高い。したがって、このような場合に、第1のフィルタ係数よりも大きい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われることによって、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、前記第1の基底および前記第2の基底がDCT(Discrete Cosine Transforms)-IIである場合、前記第1のフィルタ係数と等しい前記第2のフィルタ係数を前記フィルタ特性として決定してもよい。
第1の基底および前記第2の基底がDCT-IIである場合、第1のブロックの境界付近と、第2のブロックの境界付近とでは誤差が等しい可能性が高い。したがって、このような場合に、第1のフィルタ係数と等しい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われることによって、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、前記第1の基底および前記第2の基底がDST(Discrete Sine Transforms)-VIIであって、前記第2のブロックのサイズが、前記第1のブロックのサイズよりも小さい場合、前記第1のフィルタ係数よりも大きい前記第2のフィルタ係数を前記フィルタ特性として決定し、前記第1のフィルタ係数と前記第2のフィルタ係数との間のフィルタ係数の傾斜は、前記第1のブロックおよび前記第2のブロックのサイズが等しい場合よりも緩やかであってもよい。
第1の基底および第2の基底がDST-VIIであって、第2のブロックのサイズが、第1のブロックのサイズよりも小さい場合、1のブロックの境界付近では誤差が大きく、第2のブロックの境界付近では誤差が中レベルの可能性が高い。つまり、第1のブロックと第2のブロックとの境界付近における誤差分布は緩やかな勾配を有している可能性が高い。
本開示の一態様に係る符号化装置では、このような場合に、第1のフィルタ係数よりも大きい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われる。ここで、決定される第1のフィルタ係数と第2のフィルタ係数との間のフィルタ係数の傾斜は、第1のブロックおよび第2のブロックのサイズが等しい場合よりも緩やかである。したがって、第1のブロックと第2のブロックとの境界付近における誤差分布が緩やかな勾配を有していても、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、さらに、前記第1のブロックおよび前記第2のブロックの基底の組み合わせに基づいて、前記第1のブロックに対する第1の閾値と、前記第2のブロックに対する第2の閾値とを前記フィルタ特性として決定し、前記デブロッキングフィルタ処理では、対象画素の画素値に対して、前記第1のフィルタ係数および前記第2のフィルタ係数を用いた演算を行うことによって、前記対象画素の演算後の画素値を取得し、前記対象画素の演算前の画素値から演算後の画素値への変化量が、前記第1の閾値および前記第2の閾値のうちの前記対象画素が属するブロックの閾値よりも大きいか否かを判定し、前記変化量が前記閾値よりも大きい場合には、前記対象画素の演算後の画素値を、前記対象画素の演算前の画素値と前記閾値との和または差にクリップしてもよい。
これにより、対象画素の演算後の画素値の変化量が閾値よりも大きい場合には、その演算後の画素値は、演算前の画素値と閾値との和または差にクリップされるため、デブロッキングフィルタ処理によって処理対象の画素値が大きく変化してしまうことを抑えることができる。また、第1のブロックに対する第1の閾値と、第2のブロックに対する第2の閾値とは、その第1のブロックおよび第2のブロックの基底の組み合わせに基づいて決定される。したがって、第1のブロックおよび第2のブロックのそれぞれで、基底の振幅が大きい位置にある画素、すなわち誤差が大きい画素に対して、大きい閾値を決定し、基底の振幅が小さい位置にある画素、すなわち誤差が小さい画素に対して、小さい閾値を決定することができる。その結果、デブロッキングフィルタ処理によって、誤差が大きい画素の画素値が大きく変化することを許可し、誤差が小さい画素の画素値が大きく変化することを禁止することができる。したがって、第1のブロックおよび第2のブロックの境界付近の誤差を適切に抑える可能性をさらに高めることができる。
また、本開示の一態様に係る符号化装置は、処理回路と、メモリとを備え、前記処理回路は、前記メモリを用いて、第1のブロックおよび前記第1のブロックと隣接する第2のブロックのブロックサイズに基づいて、前記第1のブロックと前記第2のブロックとの境界に対するフィルタ特性を決定し、決定された前記フィルタ特性を有するデブロッキングフィルタ処理を行う。例えば、前記処理回路は、前記フィルタ特性の決定では、前記第1のブロック内の前記境界付近にある画素に対する第1のフィルタ係数と、前記第2のブロック内の前記境界付近にある画素に対する第2のフィルタ係数とをそれぞれ前記フィルタ特性とし、前記第2のブロックのサイズが、前記第1のブロックのサイズよりも小さい場合、前記第1のフィルタ係数よりも大きい前記第2のフィルタ係数を前記フィルタ特性として決定してもよい。
これにより、ブロックサイズの違いに応じて、例えば、その境界に対して非対称なフィルタ特性を決定することができる。その結果、上述のように2つのブロックの境界付近で誤差に違いがある場合であっても、非対称なフィルタ特性を有するデブロッキングフィルタ処理を行うことによって、その誤差を抑える可能性を高めることができる。
本開示の一態様に係る復号装置は、処理回路と、メモリとを備え、前記処理回路は、前記メモリを用いて、基底を用いた変換によって得られた複数の変換係数からなるブロックごとに、当該ブロックに対して少なくとも逆変換を行うことによって、複数の画素からなるブロックを再構成し、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、前記2つのブロックの境界に対するフィルタ特性を決定し、決定された前記フィルタ特性を有するデブロッキングフィルタ処理を行う。
互いに隣接する2つのブロックの変換に用いられる基底の組み合わせに応じて、その2つのブロックの境界付近における誤差分布が異なる。例えば、2つのブロックの変換によって、2つのブロックのうちの一方のブロックの境界付近では大きな誤差が生じ、他方のブロックの境界付近では小さい誤差が生じることがある。なお、この誤差は、原画像または入力画像と再構成画像との画素値の差である。このような場合に、その境界に対して対称なフィルタ特性を有するデブロッキングフィルタ処理が行われると、小さい誤差の画素値が、大きい誤差の画素値の影響を大きく受ける可能性がある。つまり、誤差を十分に抑えることができない可能性がある。そこで、本開示の一態様に係る復号装置では、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、その2つのブロックの境界に対するフィルタ特性が決定される。これにより、例えば、その境界に対して非対称なフィルタ特性を決定することができる。その結果、上述のように2つのブロックの境界付近で誤差に違いがある場合であっても、非対称なフィルタ特性を有するデブロッキングフィルタ処理を行うことによって、その誤差を抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、ブロックの変換に用いられた基底の振幅が大きい位置にある画素ほど、当該画素に対して小さいフィルタ係数を前記フィルタ特性として決定してもよい。
例えば、基底の振幅が大きい位置にある画素ほど、その画素の画素値は大きな誤差を有する可能性が高い。本開示の一態様に係る復号装置では、その大きな誤差の画素値を有する画素に対して小さいフィルタ係数が決定される。したがって、このようなフィルタ係数を有するデブロッキングフィルタ処理によって、その大きな誤差の画素値が、小さな誤差の画素値に与える影響をより抑えることができる。つまり、誤差を抑える可能性をより高めることができる。
また、前記基底の振幅は、0次の基底の振幅であってもよい。
低次の基底ほど誤差に与える影響は大きい。したがって、0次の基底の振幅が大きい位置にある画素ほど、その画素に対して小さいフィルタ係数が決定されることによって、誤差を抑える可能性をさらに高めることができる。
また、前記2つのブロックは、第1のブロックと、前記第1のブロックの右側または下側にある第2のブロックとからなり、前記処理回路は、前記フィルタ特性の決定では、前記第1のブロックの変換に用いられた基底が第1の基底であり、前記第2のブロックの変換に用いられた基底が第2の基底である場合、前記第1のブロック内の前記境界付近にある画素に対する第1のフィルタ係数と、前記第2のブロック内の前記境界付近にある画素に対する第2のフィルタ係数とをそれぞれ前記フィルタ特性として、前記第1の基底および前記第2の基底に基づいて決定してもよい。例えば、前記処理回路は、前記フィルタ特性の決定では、前記第1の基底および前記第2の基底がDST(Discrete Sine Transforms)-VIIである場合、前記第1のフィルタ係数よりも大きい前記第2のフィルタ係数を前記フィルタ特性として決定してもよい。
第1の基底および第2の基底がDST-VIIである場合、第1のブロックの境界付近では誤差が大きく、第2のブロックの境界付近では誤差が小さい可能性が高い。したがって、このような場合に、第1のフィルタ係数よりも大きい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われることによって、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、前記第1の基底および前記第2の基底がDCT(Discrete Cosine Transforms)-IIである場合、前記第1のフィルタ係数と等しい前記第2のフィルタ係数を前記フィルタ特性として決定してもよい。
第1の基底および前記第2の基底がDCT-IIである場合、第1のブロックの境界付近と、第2のブロックの境界付近とでは誤差が等しい可能性が高い。したがって、このような場合に、第1のフィルタ係数と等しい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われることによって、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、前記第1の基底および前記第2の基底がDST(Discrete Sine Transforms)-VIIであって、前記第2のブロックのサイズが、前記第1のブロックのサイズよりも小さい場合、前記第1のフィルタ係数よりも大きい前記第2のフィルタ係数を前記フィルタ特性として決定し、前記第1のフィルタ係数と前記第2のフィルタ係数との間のフィルタ係数の傾斜は、前記第1のブロックおよび前記第2のブロックのサイズが等しい場合よりも緩やかであってもよい。
第1の基底および第2の基底がDST-VIIであって、第2のブロックのサイズが、第1のブロックのサイズよりも小さい場合、1のブロックの境界付近では誤差が大きく、第2のブロックの境界付近では誤差が中レベルの可能性が高い。つまり、第1のブロックと第2のブロックとの境界付近における誤差分布は緩やかな勾配を有している可能性が高い。
本開示の一態様に係る復号装置では、このような場合に、第1のフィルタ係数よりも大きい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われる。ここで、決定される第1のフィルタ係数と第2のフィルタ係数との間のフィルタ係数の傾斜は、第1のブロックおよび第2のブロックのサイズが等しい場合よりも緩やかである。したがって、第1のブロックと第2のブロックとの境界付近における誤差分布が緩やかな勾配を有していても、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、前記処理回路は、前記フィルタ特性の決定では、さらに、前記第1のブロックおよび前記第2のブロックの基底の組み合わせに基づいて、前記第1のブロックに対する第1の閾値と、前記第2のブロックに対する第2の閾値とを前記フィルタ特性として決定し、前記デブロッキングフィルタ処理では、対象画素の画素値に対して、前記第1のフィルタ係数および前記第2のフィルタ係数を用いた演算を行うことによって、前記対象画素の演算後の画素値を取得し、前記対象画素の演算前の画素値から演算後の画素値への変化量が、前記第1の閾値および前記第2の閾値のうちの前記対象画素が属するブロックの閾値よりも大きいか否かを判定し、前記変化量が前記閾値よりも大きい場合には、前記対象画素の演算後の画素値を、前記対象画素の演算前の画素値と前記閾値との和または差にクリップしてもよい。
これにより、対象画素の演算後の画素値の変化量が閾値よりも大きい場合には、その演算後の画素値は、演算前の画素値と閾値との和または差にクリップされるため、デブロッキングフィルタ処理によって処理対象の画素値が大きく変化してしまうことを抑えることができる。また、第1のブロックに対する第1の閾値と、第2のブロックに対する第2の閾値とは、その第1のブロックおよび第2のブロックの基底の組み合わせに基づいて決定される。したがって、第1のブロックおよび第2のブロックのそれぞれで、基底の振幅が大きい位置にある画素、すなわち誤差が大きい画素に対して、大きい閾値を決定し、基底の振幅が小さい位置にある画素、すなわち誤差が小さい画素に対して、小さい閾値を決定することができる。その結果、デブロッキングフィルタ処理によって、誤差が大きい画素の画素値が大きく変化することを許可し、誤差が小さい画素の画素値が大きく変化することを禁止することができる。したがって、第1のブロックおよび第2のブロックの境界付近の誤差を適切に抑える可能性をさらに高めることができる。
また、本開示の一態様に係る復号装置は、処理回路と、メモリとを備え、前記処理回路は、前記メモリを用いて、第1のブロックおよび前記第1のブロックと隣接する第2のブロックのブロックサイズに基づいて、前記第1のブロックと前記第2のブロックとの境界に対するフィルタ特性を決定し、決定された前記フィルタ特性を有するデブロッキングフィルタ処理を行う。例えば、前記処理回路は、前記フィルタ特性の決定では、前記第1のブロック内の前記境界付近にある画素に対する第1のフィルタ係数と、前記第2のブロック内の前記境界付近にある画素に対する第2のフィルタ係数とをそれぞれ前記フィルタ特性とし、前記第2のブロックのサイズが、前記第1のブロックのサイズよりも小さい場合、前記第1のフィルタ係数よりも大きい前記第2のフィルタ係数を前記フィルタ特性として決定してもよい。
これにより、ブロックサイズの違いに応じて、例えば、その境界に対して非対称なフィルタ特性を決定することができる。その結果、上述のように2つのブロックの境界付近で誤差に違いがある場合であっても、非対称なフィルタ特性を有するデブロッキングフィルタ処理を行うことによって、その誤差を抑える可能性を高めることができる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
まず、後述する本開示の各態様で説明する処理および/または構成を適用可能な符号化装置および復号化装置の一例として、実施の形態1の概要を説明する。ただし、実施の形態1は、本開示の各態様で説明する処理および/または構成を適用可能な符号化装置および復号化装置の一例にすぎず、本開示の各態様で説明する処理および/または構成は、実施の形態1とは異なる符号化装置および復号化装置においても実施可能である。
実施の形態1に対して本開示の各態様で説明する処理および/または構成を適用する場合、例えば以下のいずれかを行ってもよい。
(1)実施の形態1の符号化装置または復号化装置に対して、当該符号化装置または復号化装置を構成する複数の構成要素のうち、本開示の各態様で説明する構成要素に対応する構成要素を、本開示の各態様で説明する構成要素に置き換えること
(2)実施の形態1の符号化装置または復号化装置に対して、当該符号化装置または復号化装置を構成する複数の構成要素のうち一部の構成要素について機能または実施する処理の追加、置き換え、削除などの任意の変更を施した上で、本開示の各態様で説明する構成要素に対応する構成要素を、本開示の各態様で説明する構成要素に置き換えること
(3)実施の形態1の符号化装置または復号化装置が実施する方法に対して、処理の追加、および/または当該方法に含まれる複数の処理のうちの一部の処理について置き換え、削除などの任意の変更を施した上で、本開示の各態様で説明する処理に対応する処理を、本開示の各態様で説明する処理に置き換えること
(4)実施の形態1の符号化装置または復号化装置を構成する複数の構成要素のうちの一部の構成要素を、本開示の各態様で説明する構成要素、本開示の各態様で説明する構成要素が備える機能の一部を備える構成要素、または本開示の各態様で説明する構成要素が実施する処理の一部を実施する構成要素と組み合わせて実施すること
(5)実施の形態1の符号化装置または復号化装置を構成する複数の構成要素のうちの一部の構成要素が備える機能の一部を備える構成要素、または実施の形態1の符号化装置または復号化装置を構成する複数の構成要素のうちの一部の構成要素が実施する処理の一部を実施する構成要素を、本開示の各態様で説明する構成要素、本開示の各態様で説明する構成要素が備える機能の一部を備える構成要素、または本開示の各態様で説明する構成要素が実施する処理の一部を実施する構成要素と組み合わせて実施すること
(6)実施の形態1の符号化装置または復号化装置が実施する方法に対して、当該方法に含まれる複数の処理のうち、本開示の各態様で説明する処理に対応する処理を、本開示の各態様で説明する処理に置き換えること
(7)実施の形態1の符号化装置または復号化装置が実施する方法に含まれる複数の処理のうちの一部の処理を、本開示の各態様で説明する処理と組み合わせて実施すること
なお、本開示の各態様で説明する処理および/または構成の実施の仕方は、上記の例に限定されるものではない。例えば、実施の形態1において開示する動画像/画像符号化装置または動画像/画像復号化装置とは異なる目的で利用される装置において実施されてもよいし、各態様において説明した処理および/または構成を単独で実施してもよい。また、異なる態様において説明した処理および/または構成を組み合わせて実施してもよい。
[符号化装置の概要]
まず、実施の形態1に係る符号化装置の概要を説明する。図1は、実施の形態1に係る符号化装置100の機能構成を示すブロック図である。符号化装置100は、動画像/画像をブロック単位で符号化する動画像/画像符号化装置である。
図1に示すように、符号化装置100は、画像をブロック単位で符号化する装置であって、分割部102と、減算部104と、変換部106と、量子化部108と、エントロピー符号化部110と、逆量子化部112と、逆変換部114と、加算部116と、ブロックメモリ118と、ループフィルタ部120と、フレームメモリ122と、イントラ予測部124と、インター予測部126と、予測制御部128と、を備える。
符号化装置100は、例えば、汎用プロセッサ及びメモリにより実現される。この場合、メモリに格納されたソフトウェアプログラムがプロセッサにより実行されたときに、プロセッサは、分割部102、減算部104、変換部106、量子化部108、エントロピー符号化部110、逆量子化部112、逆変換部114、加算部116、ループフィルタ部120、イントラ予測部124、インター予測部126及び予測制御部128として機能する。また、符号化装置100は、分割部102、減算部104、変換部106、量子化部108、エントロピー符号化部110、逆量子化部112、逆変換部114、加算部116、ループフィルタ部120、イントラ予測部124、インター予測部126及び予測制御部128に対応する専用の1以上の電子回路として実現されてもよい。
以下に、符号化装置100に含まれる各構成要素について説明する。
[分割部]
分割部102は、入力動画像に含まれる各ピクチャを複数のブロックに分割し、各ブロックを減算部104に出力する。例えば、分割部102は、まず、ピクチャを固定サイズ(例えば128x128)のブロックに分割する。この固定サイズのブロックは、符号化ツリーユニット(CTU)と呼ばれることがある。そして、分割部102は、再帰的な四分木(quadtree)及び/又は二分木(binary tree)ブロック分割に基づいて、固定サイズのブロックの各々を可変サイズ(例えば64x64以下)のブロックに分割する。この可変サイズのブロックは、符号化ユニット(CU)、予測ユニット(PU)あるいは変換ユニット(TU)と呼ばれることがある。なお、本実施の形態では、CU、PU及びTUは区別される必要はなく、ピクチャ内の一部又はすべてのブロックがCU、PU、TUの処理単位となってもよい。
図2は、実施の形態1におけるブロック分割の一例を示す図である。図2において、実線は四分木ブロック分割によるブロック境界を表し、破線は二分木ブロック分割によるブロック境界を表す。
ここでは、ブロック10は、128x128画素の正方形ブロック(128x128ブロック)である。この128x128ブロック10は、まず、4つの正方形の64x64ブロックに分割される(四分木ブロック分割)。
左上の64x64ブロックは、さらに2つの矩形の32x64ブロックに垂直に分割され、左の32x64ブロックはさらに2つの矩形の16x64ブロックに垂直に分割される(二分木ブロック分割)。その結果、左上の64x64ブロックは、2つの16x64ブロック11、12と、32x64ブロック13とに分割される。
右上の64x64ブロックは、2つの矩形の64x32ブロック14、15に水平に分割される(二分木ブロック分割)。
左下の64x64ブロックは、4つの正方形の32x32ブロックに分割される(四分木ブロック分割)。4つの32x32ブロックのうち左上のブロック及び右下のブロックはさらに分割される。左上の32x32ブロックは、2つの矩形の16x32ブロックに垂直に分割され、右の16x32ブロックはさらに2つの16x16ブロックに水平に分割される(二分木ブロック分割)。右下の32x32ブロックは、2つの32x16ブロックに水平に分割される(二分木ブロック分割)。その結果、左下の64x64ブロックは、16x32ブロック16と、2つの16x16ブロック17、18と、2つの32x32ブロック19、20と、2つの32x16ブロック21、22とに分割される。
右下の64x64ブロック23は分割されない。
以上のように、図2では、ブロック10は、再帰的な四分木及び二分木ブロック分割に基づいて、13個の可変サイズのブロック11~23に分割される。このような分割は、QTBT(quad-tree plus binary tree)分割と呼ばれることがある。
なお、図2では、1つのブロックが4つ又は2つのブロックに分割されていたが(四分木又は二分木ブロック分割)、分割はこれに限定されない。例えば、1つのブロックが3つのブロックに分割されてもよい(三分木ブロック分割)。このような三分木ブロック分割を含む分割は、MBT(multi type tree)分割と呼ばれることがある。
[減算部]
減算部104は、分割部102によって分割されたブロック単位で原信号(原サンプル)から予測信号(予測サンプル)を減算する。つまり、減算部104は、符号化対象ブロック(以下、カレントブロックという)の予測誤差(残差ともいう)を算出する。そして、減算部104は、算出された予測誤差を変換部106に出力する。
原信号は、符号化装置100の入力信号であり、動画像を構成する各ピクチャの画像を表す信号(例えば輝度(luma)信号及び2つの色差(chroma)信号)である。以下において、画像を表す信号をサンプルともいうこともある。
[変換部]
変換部106は、空間領域の予測誤差を周波数領域の変換係数に変換し、変換係数を量子化部108に出力する。具体的には、変換部106は、例えば空間領域の予測誤差に対して予め定められた離散コサイン変換(DCT)又は離散サイン変換(DST)を行う。
なお、変換部106は、複数の変換タイプの中から適応的に変換タイプを選択し、選択された変換タイプに対応する変換基底関数(transform basis function)を用いて、予測誤差を変換係数に変換してもよい。このような変換は、EMT(explicit multiple core transform)又はAMT(adaptive multiple transform)と呼ばれることがある。
複数の変換タイプは、例えば、DCT-II、DCT-V、DCT-VIII、DST-I及びDST-VIIを含む。図3は、各変換タイプに対応する変換基底関数を示す表である。図3においてNは入力画素の数を示す。これらの複数の変換タイプの中からの変換タイプの選択は、例えば、予測の種類(イントラ予測及びインター予測)に依存してもよいし、イントラ予測モードに依存してもよい。
このようなEMT又はAMTを適用するか否かを示す情報(例えばAMTフラグと呼ばれる)及び選択された変換タイプを示す情報は、CUレベルで信号化される。なお、これらの情報の信号化は、CUレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、ピクチャレベル、スライスレベル、タイルレベル又はCTUレベル)であってもよい。
また、変換部106は、変換係数(変換結果)を再変換してもよい。このような再変換は、AST(adaptive secondary transform)又はNSST(non-separable secondary transform)と呼ばれることがある。例えば、変換部106は、イントラ予測誤差に対応する変換係数のブロックに含まれるサブブロック(例えば4x4サブブロック)ごとに再変換を行う。NSSTを適用するか否かを示す情報及びNSSTに用いられる変換行列に関する情報は、CUレベルで信号化される。なお、これらの情報の信号化は、CUレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、ピクチャレベル、スライスレベル、タイルレベル又はCTUレベル)であってもよい。
ここで、Separableな変換とは、入力の次元の数だけ方向ごとに分離して複数回変換を行う方式であり、Non-Separableな変換とは、入力が多次元であった際に2つ以上の次元をまとめて1次元とみなして、まとめて変換を行う方式である。
例えば、Non-Separableな変換の1例として、入力が4×4のブロックであった場合にはそれを16個の要素を持ったひとつの配列とみなし、その配列に対して16×16の変換行列で変換処理を行うようなものが挙げられる。
また、同様に4×4の入力ブロックを16個の要素を持ったひとつの配列とみなした後に、その配列に対してGivens回転を複数回行うようなもの(Hypercube Givens Transform)もNon-Separableな変換の例である。
[量子化部]
量子化部108は、変換部106から出力された変換係数を量子化する。具体的には、量子化部108は、カレントブロックの変換係数を所定の走査順序で走査し、走査された変換係数に対応する量子化パラメータ(QP)に基づいて当該変換係数を量子化する。そして、量子化部108は、カレントブロックの量子化された変換係数(以下、量子化係数という)をエントロピー符号化部110及び逆量子化部112に出力する。
所定の順序は、変換係数の量子化/逆量子化のための順序である。例えば、所定の走査順序は、周波数の昇順(低周波から高周波の順)又は降順(高周波から低周波の順)で定義される。
量子化パラメータとは、量子化ステップ(量子化幅)を定義するパラメータである。例えば、量子化パラメータの値が増加すれば量子化ステップも増加する。つまり、量子化パラメータの値が増加すれば量子化誤差が増大する。
[エントロピー符号化部]
エントロピー符号化部110は、量子化部108から入力である量子化係数を可変長符号化することにより符号化信号(符号化ビットストリーム)を生成する。具体的には、エントロピー符号化部110は、例えば、量子化係数を二値化し、二値信号を算術符号化する。
[逆量子化部]
逆量子化部112は、量子化部108からの入力である量子化係数を逆量子化する。具体的には、逆量子化部112は、カレントブロックの量子化係数を所定の走査順序で逆量子化する。そして、逆量子化部112は、カレントブロックの逆量子化された変換係数を逆変換部114に出力する。
[逆変換部]
逆変換部114は、逆量子化部112からの入力である変換係数を逆変換することにより予測誤差を復元する。具体的には、逆変換部114は、変換係数に対して、変換部106による変換に対応する逆変換を行うことにより、カレントブロックの予測誤差を復元する。そして、逆変換部114は、復元された予測誤差を加算部116に出力する。
なお、復元された予測誤差は、量子化により情報が失われているので、減算部104が算出した予測誤差と一致しない。すなわち、復元された予測誤差には、量子化誤差が含まれている。
[加算部]
加算部116は、逆変換部114からの入力である予測誤差と予測制御部128からの入力である予測サンプルとを加算することによりカレントブロックを再構成する。そして、加算部116は、再構成されたブロックをブロックメモリ118及びループフィルタ部120に出力する。再構成ブロックは、ローカル復号ブロックと呼ばれることもある。
[ブロックメモリ]
ブロックメモリ118は、イントラ予測で参照されるブロックであって符号化対象ピクチャ(以下、カレントピクチャという)内のブロックを格納するための記憶部である。具体的には、ブロックメモリ118は、加算部116から出力された再構成ブロックを格納する。
[ループフィルタ部]
ループフィルタ部120は、加算部116によって再構成されたブロックにループフィルタを施し、フィルタされた再構成ブロックをフレームメモリ122に出力する。ループフィルタとは、符号化ループ内で用いられるフィルタ(インループフィルタ)であり、例えば、デブロッキング・フィルタ(DF)、サンプルアダプティブオフセット(SAO)及びアダプティブループフィルタ(ALF)などを含む。
ALFでは、符号化歪みを除去するための最小二乗誤差フィルタが適用され、例えばカレントブロック内の2x2サブブロックごとに、局所的な勾配(gradient)の方向及び活性度(activity)に基づいて複数のフィルタの中から選択された1つのフィルタが適用される。
具体的には、まず、サブブロック(例えば2x2サブブロック)が複数のクラス(例えば15又は25クラス)に分類される。サブブロックの分類は、勾配の方向及び活性度に基づいて行われる。例えば、勾配の方向値D(例えば0~2又は0~4)と勾配の活性値A(例えば0~4)とを用いて分類値C(例えばC=5D+A)が算出される。そして、分類値Cに基づいて、サブブロックが複数のクラス(例えば15又は25クラス)に分類される。
勾配の方向値Dは、例えば、複数の方向(例えば水平、垂直及び2つの対角方向)の勾配を比較することにより導出される。また、勾配の活性値Aは、例えば、複数の方向の勾配を加算し、加算結果を量子化することにより導出される。
このような分類の結果に基づいて、複数のフィルタの中からサブブロックのためのフィルタが決定される。
ALFで用いられるフィルタの形状としては例えば円対称形状が利用される。図4A~図4Cは、ALFで用いられるフィルタの形状の複数の例を示す図である。図4Aは、5x5ダイヤモンド形状フィルタを示し、図4Bは、7x7ダイヤモンド形状フィルタを示し、図4Cは、9x9ダイヤモンド形状フィルタを示す。フィルタの形状を示す情報は、ピクチャレベルで信号化される。なお、フィルタの形状を示す情報の信号化は、ピクチャレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、スライスレベル、タイルレベル、CTUレベル又はCUレベル)であってもよい。
ALFのオン/オフは、例えば、ピクチャレベル又はCUレベルで決定される。例えば、輝度についてはCUレベルでALFを適用するか否かが決定され、色差についてはピクチャレベルでALFを適用するか否かが決定される。ALFのオン/オフを示す情報は、ピクチャレベル又はCUレベルで信号化される。なお、ALFのオン/オフを示す情報の信号化は、ピクチャレベル又はCUレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、スライスレベル、タイルレベル又はCTUレベル)であってもよい。
選択可能な複数のフィルタ(例えば15又は25までのフィルタ)の係数セットは、ピクチャレベルで信号化される。なお、係数セットの信号化は、ピクチャレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、スライスレベル、タイルレベル、CTUレベル、CUレベル又はサブブロックレベル)であってもよい。
[フレームメモリ]
フレームメモリ122は、インター予測に用いられる参照ピクチャを格納するための記憶部であり、フレームバッファと呼ばれることもある。具体的には、フレームメモリ122は、ループフィルタ部120によってフィルタされた再構成ブロックを格納する。
[イントラ予測部]
イントラ予測部124は、ブロックメモリ118に格納されたカレントピクチャ内のブロックを参照してカレントブロックのイントラ予測(画面内予測ともいう)を行うことで、予測信号(イントラ予測信号)を生成する。具体的には、イントラ予測部124は、カレントブロックに隣接するブロックのサンプル(例えば輝度値、色差値)を参照してイントラ予測を行うことでイントラ予測信号を生成し、イントラ予測信号を予測制御部128に出力する。
例えば、イントラ予測部124は、予め規定された複数のイントラ予測モードのうちの1つを用いてイントラ予測を行う。複数のイントラ予測モードは、1以上の非方向性予測モードと、複数の方向性予測モードと、を含む。
1以上の非方向性予測モードは、例えばH.265/HEVC(High-Efficiency Video Coding)規格(非特許文献1)で規定されたPlanar予測モード及びDC予測モードを含む。
複数の方向性予測モードは、例えばH.265/HEVC規格で規定された33方向の予測モードを含む。なお、複数の方向性予測モードは、33方向に加えてさらに32方向の予測モード(合計で65個の方向性予測モード)を含んでもよい。図5Aは、イントラ予測における67個のイントラ予測モード(2個の非方向性予測モード及び65個の方向性予測モード)を示す図である。実線矢印は、H.265/HEVC規格で規定された33方向を表し、破線矢印は、追加された32方向を表す。
なお、色差ブロックのイントラ予測において、輝度ブロックが参照されてもよい。つまり、カレントブロックの輝度成分に基づいて、カレントブロックの色差成分が予測されてもよい。このようなイントラ予測は、CCLM(cross-component linear model)予測と呼ばれることがある。このような輝度ブロックを参照する色差ブロックのイントラ予測モード(例えばCCLMモードと呼ばれる)は、色差ブロックのイントラ予測モードの1つとして加えられてもよい。
イントラ予測部124は、水平/垂直方向の参照画素の勾配に基づいてイントラ予測後の画素値を補正してもよい。このような補正をともなうイントラ予測は、PDPC(position dependent intra prediction combination)と呼ばれることがある。PDPCの適用の有無を示す情報(例えばPDPCフラグと呼ばれる)は、例えばCUレベルで信号化される。なお、この情報の信号化は、CUレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、ピクチャレベル、スライスレベル、タイルレベル又はCTUレベル)であってもよい。
[インター予測部]
インター予測部126は、フレームメモリ122に格納された参照ピクチャであってカレントピクチャとは異なる参照ピクチャを参照してカレントブロックのインター予測(画面間予測ともいう)を行うことで、予測信号(インター予測信号)を生成する。インター予測は、カレントブロック又はカレントブロック内のサブブロック(例えば4x4ブロック)の単位で行われる。例えば、インター予測部126は、カレントブロック又はサブブロックについて参照ピクチャ内で動き探索(motion estimation)を行う。そして、インター予測部126は、動き探索により得られた動き情報(例えば動きベクトル)を用いて動き補償を行うことでカレントブロック又はサブブロックのインター予測信号を生成する。そして、インター予測部126は、生成されたインター予測信号を予測制御部128に出力する。
動き補償に用いられた動き情報は信号化される。動きベクトルの信号化には、予測動きベクトル(motion vector predictor)が用いられてもよい。つまり、動きベクトルと予測動きベクトルとの間の差分が信号化されてもよい。
なお、動き探索により得られたカレントブロックの動き情報だけでなく、隣接ブロックの動き情報も用いて、インター予測信号が生成されてもよい。具体的には、動き探索により得られた動き情報に基づく予測信号と、隣接ブロックの動き情報に基づく予測信号と、を重み付け加算することにより、カレントブロック内のサブブロック単位でインター予測信号が生成されてもよい。このようなインター予測(動き補償)は、OBMC(overlapped block motion compensation)と呼ばれることがある。
このようなOBMCモードでは、OBMCのためのサブブロックのサイズを示す情報(例えばOBMCブロックサイズと呼ばれる)は、シーケンスレベルで信号化される。また、OBMCモードを適用するか否かを示す情報(例えばOBMCフラグと呼ばれる)は、CUレベルで信号化される。なお、これらの情報の信号化のレベルは、シーケンスレベル及びCUレベルに限定される必要はなく、他のレベル(例えばピクチャレベル、スライスレベル、タイルレベル、CTUレベル又はサブブロックレベル)であってもよい。
OBMCモードについて、より具体的に説明する。図5B及び図5Cは、OBMC処理による予測画像補正処理の概要を説明するためのフローチャート及び概念図である。
まず、符号化対象ブロックに割り当てられた動きベクトル(MV)を用いて通常の動き補償による予測画像(Pred)を取得する。
次に、符号化済みの左隣接ブロックの動きベクトル(MV_L)を符号化対象ブロックに適用して予測画像(Pred_L)を取得し、前記予測画像とPred_Lとを重みを付けて重ね合わせることで予測画像の1回目の補正を行う。
同様に、符号化済みの上隣接ブロックの動きベクトル(MV_U)を符号化対象ブロックに適用して予測画像(Pred_U)を取得し、前記1回目の補正を行った予測画像とPred_Uとを重みを付けて重ね合わせることで予測画像の2回目の補正を行い、それを最終的な予測画像とする。
なお、ここでは左隣接ブロックと上隣接ブロックを用いた2段階の補正の方法を説明したが、右隣接ブロックや下隣接ブロックを用いて2段階よりも多い回数の補正を行う構成とすることも可能である。
なお、重ね合わせを行う領域はブロック全体の画素領域ではなく、ブロック境界近傍の一部の領域のみであってもよい。
なお、ここでは1枚の参照ピクチャからの予測画像補正処理について説明したが、複数枚の参照ピクチャから予測画像を補正する場合も同様であり、各々の参照ピクチャから補正した予測画像を取得した後に、得られた予測画像をさらに重ね合わせることで最終的な予測画像とする。
なお、前記処理対象ブロックは、予測ブロック単位であっても、予測ブロックをさらに分割したサブブロック単位であってもよい。
OBMC処理を適用するかどうかの判定の方法として、例えば、OBMC処理を適用するかどうかを示す信号であるobmc_flagを用いる方法がある。具体的な一例としては、符号化装置において、符号化対象ブロックが動きの複雑な領域に属しているかどうかを判定し、動きの複雑な領域に属している場合はobmc_flagとして値1を設定してOBMC処理を適用して符号化を行い、動きの複雑な領域に属していない場合はobmc_flagとして値0を設定してOBMC処理を適用せずに符号化を行う。一方、復号化装置では、ストリームに記述されたobmc_flagを復号化するとことで、その値に応じてOBMC処理を適用するかどうかを切替えて復号化を行う。
なお、動き情報は信号化されずに、復号装置側で導出されてもよい。例えば、H.265/HEVC規格で規定されたマージモードが用いられてもよい。また例えば、復号装置側で動き探索を行うことにより動き情報が導出されてもよい。この場合、カレントブロックの画素値を用いずに動き探索が行われる。
ここで、復号装置側で動き探索を行うモードについて説明する。この復号装置側で動き探索を行うモードは、PMMVD(pattern matched motion vector derivation)モード又はFRUC(frame rate up-conversion)モードと呼ばれることがある。
FRUC処理の一例を図5Dに示す。まず、カレントブロックに空間的又は時間的に隣接する符号化済みブロックの動きベクトルを参照して、各々が予測動きベクトルを有する複数の候補のリスト(マージリストと共通であってもよい)が生成される。次に、候補リストに登録されている複数の候補MVの中からベスト候補MVを選択する。例えば、候補リストに含まれる各候補の評価値が算出され、評価値に基づいて1つの候補が選択される。
そして、選択された候補の動きベクトルに基づいて、カレントブロックのための動きベクトルが導出される。具体的には、例えば、選択された候補の動きベクトル(ベスト候補MV)がそのままカレントブロックのための動きベクトルとして導出される。また例えば、選択された候補の動きベクトルに対応する参照ピクチャ内の位置の周辺領域において、パターンマッチングを行うことにより、カレントブロックのための動きベクトルが導出されてもよい。すなわち、ベスト候補MVの周辺の領域に対して同様の方法で探索を行い、さらに評価値が良い値となるMVがあった場合は、ベスト候補MVを前記MVに更新して、それをカレントブロックの最終的なMVとしてもよい。なお、当該処理を実施しない構成とすることも可能である。
サブブロック単位で処理を行う場合も全く同様の処理としてもよい。
なお、評価値は、動きベクトルに対応する参照ピクチャ内の領域と、所定の領域との間のパターンマッチングによって再構成画像の差分値を求めることにより算出される。なお、差分値に加えてそれ以外の情報を用いて評価値を算出してもよい。
パターンマッチングとしては、第1パターンマッチング又は第2パターンマッチングが用いられる。第1パターンマッチング及び第2パターンマッチングは、それぞれ、バイラテラルマッチング(bilateral matching)及びテンプレートマッチング(template matching)と呼ばれることがある。
第1パターンマッチングでは、異なる2つの参照ピクチャ内の2つのブロックであってカレントブロックの動き軌道(motion trajectory)に沿う2つのブロックの間でパターンマッチングが行われる。したがって、第1パターンマッチングでは、上述した候補の評価値の算出のための所定の領域として、カレントブロックの動き軌道に沿う他の参照ピクチャ内の領域が用いられる。
図6は、動き軌道に沿う2つのブロック間でのパターンマッチング(バイラテラルマッチング)の一例を説明するための図である。図6に示すように、第1パターンマッチングでは、カレントブロック(Cur block)の動き軌道に沿う2つのブロックであって異なる2つの参照ピクチャ(Ref0、Ref1)内の2つのブロックのペアの中で最もマッチするペアを探索することにより2つの動きベクトル(MV0、MV1)が導出される。具体的には、カレントブロックに対して、候補MVで指定された第1の符号化済み参照ピクチャ(Ref0)内の指定位置における再構成画像と、前記候補MVを表示時間間隔でスケーリングした対称MVで指定された第2の符号化済み参照ピクチャ(Ref1)内の指定位置における再構成画像との差分を導出し、得られた差分値を用いて評価値を算出する。複数の候補MVの中で最も評価値が良い値となる候補MVを最終MVとして選択するとよい。
連続的な動き軌道の仮定の下では、2つの参照ブロックを指し示す動きベクトル(MV0、MV1)は、カレントピクチャ(Cur Pic)と2つの参照ピクチャ(Ref0、Ref1)との間の時間的な距離(TD0、TD1)に対して比例する。例えば、カレントピクチャが時間的に2つの参照ピクチャの間に位置し、カレントピクチャから2つの参照ピクチャへの時間的な距離が等しい場合、第1パターンマッチングでは、鏡映対称な双方向の動きベクトルが導出される。
第2パターンマッチングでは、カレントピクチャ内のテンプレート(カレントピクチャ内でカレントブロックに隣接するブロック(例えば上及び/又は左隣接ブロック))と参照ピクチャ内のブロックとの間でパターンマッチングが行われる。したがって、第2パターンマッチングでは、上述した候補の評価値の算出のための所定の領域として、カレントピクチャ内のカレントブロックに隣接するブロックが用いられる。
図7は、カレントピクチャ内のテンプレートと参照ピクチャ内のブロックとの間でのパターンマッチング(テンプレートマッチング)の一例を説明するための図である。図7に示すように、第2パターンマッチングでは、カレントピクチャ(Cur Pic)内でカレントブロック(Cur block)に隣接するブロックと最もマッチするブロックを参照ピクチャ(Ref0)内で探索することによりカレントブロックの動きベクトルが導出される。具体的には、カレントブロックに対して、左隣接および上隣接の両方もしくはどちらか一方の符号化済み領域の再構成画像と、候補MVで指定された符号化済み参照ピクチャ(Ref0)内の同等位置における再構成画像との差分を導出し、得られた差分値を用いて評価値を算出し、複数の候補MVの中で最も評価値が良い値となる候補MVをベスト候補MVとして選択するとよい。
このようなFRUCモードを適用するか否かを示す情報(例えばFRUCフラグと呼ばれる)は、CUレベルで信号化される。また、FRUCモードが適用される場合(例えばFRUCフラグが真の場合)、パターンマッチングの方法(第1パターンマッチング又は第2パターンマッチング)を示す情報(例えばFRUCモードフラグと呼ばれる)がCUレベルで信号化される。なお、これらの情報の信号化は、CUレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、ピクチャレベル、スライスレベル、タイルレベル、CTUレベル又はサブブロックレベル)であってもよい。
ここで、等速直線運動を仮定したモデルに基づいて動きベクトルを導出するモードについて説明する。このモードは、BIO(bi-directional optical flow)モードと呼ばれることがある。
図8は、等速直線運動を仮定したモデルを説明するための図である。図8において、(vx,vy)は、速度ベクトルを示し、τ0、τ1は、それぞれ、カレントピクチャ(Cur Pic)と2つの参照ピクチャ(Ref0,Ref1)との間の時間的な距離を示す。(MVx0,MVy0)は、参照ピクチャRef0に対応する動きベクトルを示し、(MVx1、MVy1)は、参照ピクチャRef1に対応する動きベクトルを示す。
このとき速度ベクトル(vx,vy)の等速直線運動の仮定の下では、(MVx0,MVy0)及び(MVx1,MVy1)は、それぞれ、(vxτ0,vyτ0)及び(-vxτ1,-vyτ1)と表され、以下のオプティカルフロー等式(1)が成り立つ。
ここで、I(k)は、動き補償後の参照画像k(k=0,1)の輝度値を示す。このオプティカルフロー等式は、(i)輝度値の時間微分と、(ii)水平方向の速度及び参照画像の空間勾配の水平成分の積と、(iii)垂直方向の速度及び参照画像の空間勾配の垂直成分の積と、の和が、ゼロと等しいことを示す。このオプティカルフロー等式とエルミート補間(Hermite interpolation)との組み合わせに基づいて、マージリスト等から得られるブロック単位の動きベクトルが画素単位で補正される。
なお、等速直線運動を仮定したモデルに基づく動きベクトルの導出とは異なる方法で、復号装置側で動きベクトルが導出されてもよい。例えば、複数の隣接ブロックの動きベクトルに基づいてサブブロック単位で動きベクトルが導出されてもよい。
ここで、複数の隣接ブロックの動きベクトルに基づいてサブブロック単位で動きベクトルを導出するモードについて説明する。このモードは、アフィン動き補償予測(affine motion compensation prediction)モードと呼ばれることがある。
図9Aは、複数の隣接ブロックの動きベクトルに基づくサブブロック単位の動きベクトルの導出を説明するための図である。図9Aにおいて、カレントブロックは、16の4x4サブブロックを含む。ここでは、隣接ブロックの動きベクトルに基づいてカレントブロックの左上角制御ポイントの動きベクトルv0が導出され、隣接サブブロックの動きベクトルに基づいてカレントブロックの右上角制御ポイントの動きベクトルv1が導出される。そして、2つの動きベクトルv0及びv1を用いて、以下の式(2)により、カレントブロック内の各サブブロックの動きベクトル(vx,vy)が導出される。
ここで、x及びyは、それぞれ、サブブロックの水平位置及び垂直位置を示し、wは、予め定められた重み係数を示す。
このようなアフィン動き補償予測モードでは、左上及び右上角制御ポイントの動きベクトルの導出方法が異なるいくつかのモードを含んでもよい。このようなアフィン動き補償予測モードを示す情報(例えばアフィンフラグと呼ばれる)は、CUレベルで信号化される。なお、このアフィン動き補償予測モードを示す情報の信号化は、CUレベルに限定される必要はなく、他のレベル(例えば、シーケンスレベル、ピクチャレベル、スライスレベル、タイルレベル、CTUレベル又はサブブロックレベル)であってもよい。
[予測制御部]
予測制御部128は、イントラ予測信号及びインター予測信号のいずれかを選択し、選択した信号を予測信号として減算部104及び加算部116に出力する。
ここで、マージモードにより符号化対象ピクチャの動きベクトルを導出する例を説明する。図9Bは、マージモードによる動きベクトル導出処理の概要を説明するための図である。
まず、予測MVの候補を登録した予測MVリストを生成する。予測MVの候補としては、符号化対象ブロックの空間的に周辺に位置する複数の符号化済みブロックが持つMVである空間隣接予測MV、符号化済み参照ピクチャにおける符号化対象ブロックの位置を投影した近辺のブロックが持つMVである時間隣接予測MV、空間隣接予測MVと時間隣接予測MVのMV値を組合わせて生成したMVである結合予測MV、および値がゼロのMVであるゼロ予測MV等がある。
次に、予測MVリストに登録されている複数の予測MVの中から1つの予測MVを選択することで、符号化対象ブロックのMVとして決定する。
さらに可変長符号化部では、どの予測MVを選択したかを示す信号であるmerge_idxをストリームに記述して符号化する。
なお、図9Bで説明した予測MVリストに登録する予測MVは一例であり、図中の個数とは異なる個数であったり、図中の予測MVの一部の種類を含まない構成であったり、図中の予測MVの種類以外の予測MVを追加した構成であったりしてもよい。
なお、マージモードにより導出した符号化対象ブロックのMVを用いて、後述するDMVR処理を行うことによって最終的なMVを決定してもよい。
ここで、DMVR処理を用いてMVを決定する例について説明する。
図9Cは、DMVR処理の概要を説明するための概念図である。
まず、処理対象ブロックに設定された最適MVPを候補MVとして、前記候補MVに従って、L0方向の処理済みピクチャである第1参照ピクチャ、およびL1方向の処理済みピクチャである第2参照ピクチャから参照画素をそれぞれ取得し、各参照画素の平均をとることでテンプレートを生成する。
次に、前記テンプレートを用いて、第1参照ピクチャおよび第2参照ピクチャの候補MVの周辺領域をそれぞれ探索し、最もコストが最小となるMVを最終的なMVとして決定する。なお、コスト値はテンプレートの各画素値と探索領域の各画素値との差分値およびMV値等を用いて算出する。
なお、符号化装置および復号化装置では、ここで説明した処理の概要は基本的に共通である。
なお、ここで説明した処理そのものでなくても、候補MVの周辺を探索して最終的なMVを導出することができる処理であれば、他の処理を用いてもよい。
ここで、LIC処理を用いて予測画像を生成するモードについて説明する。
図9Dは、LIC処理による輝度補正処理を用いた予測画像生成方法の概要を説明するための図である。
まず、符号化済みピクチャである参照ピクチャから符号化対象ブロックに対応する参照画像を取得するためのMVを導出する。
次に、符号化対象ブロックに対して、左隣接および上隣接の符号化済み周辺参照領域の輝度画素値と、MVで指定された参照ピクチャ内の同等位置における輝度画素値とを用いて、参照ピクチャと符号化対象ピクチャとで輝度値がどのように変化したかを示す情報を抽出して輝度補正パラメータを算出する。
MVで指定された参照ピクチャ内の参照画像に対して前記輝度補正パラメータを用いて輝度補正処理を行うことで、符号化対象ブロックに対する予測画像を生成する。
なお、図9Dにおける前記周辺参照領域の形状は一例であり、これ以外の形状を用いてもよい。
また、ここでは1枚の参照ピクチャから予測画像を生成する処理について説明したが、複数枚の参照ピクチャから予測画像を生成する場合も同様であり、各々の参照ピクチャから取得した参照画像に同様の方法で輝度補正処理を行ってから予測画像を生成する。
LIC処理を適用するかどうかの判定の方法として、例えば、LIC処理を適用するかどうかを示す信号であるlic_flagを用いる方法がある。具体的な一例としては、符号化装置において、符号化対象ブロックが輝度変化が発生している領域に属しているかどうかを判定し、輝度変化が発生している領域に属している場合はlic_flagとして値1を設定してLIC処理を適用して符号化を行い、輝度変化が発生している領域に属していない場合はlic_flagとして値0を設定してLIC処理を適用せずに符号化を行う。一方、復号化装置では、ストリームに記述されたlic_flagを復号化するとことで、その値に応じてLIC処理を適用するかどうかを切替えて復号化を行う。
LIC処理を適用するかどうかの判定の別の方法として、例えば、周辺ブロックでLIC処理を適用したかどうかに従って判定する方法もある。具体的な一例としては、符号化対象ブロックがマージモードであった場合、マージモード処理におけるMVの導出の際に選択した周辺の符号化済みブロックがLIC処理を適用して符号化したかどうかを判定し、その結果に応じてLIC処理を適用するかどうかを切替えて符号化を行う。なお、この例の場合、復号化における処理も全く同様となる。
[復号装置の概要]
次に、上記の符号化装置100から出力された符号化信号(符号化ビットストリーム)を復号可能な復号装置の概要について説明する。図10は、実施の形態1に係る復号装置200の機能構成を示すブロック図である。復号装置200は、動画像/画像をブロック単位で復号する動画像/画像復号装置である。
図10に示すように、復号装置200は、エントロピー復号部202と、逆量子化部204と、逆変換部206と、加算部208と、ブロックメモリ210と、ループフィルタ部212と、フレームメモリ214と、イントラ予測部216と、インター予測部218と、予測制御部220と、を備える。
復号装置200は、例えば、汎用プロセッサ及びメモリにより実現される。この場合、メモリに格納されたソフトウェアプログラムがプロセッサにより実行されたときに、プロセッサは、エントロピー復号部202、逆量子化部204、逆変換部206、加算部208、ループフィルタ部212、イントラ予測部216、インター予測部218及び予測制御部220として機能する。また、復号装置200は、エントロピー復号部202、逆量子化部204、逆変換部206、加算部208、ループフィルタ部212、イントラ予測部216、インター予測部218及び予測制御部220に対応する専用の1以上の電子回路として実現されてもよい。
以下に、復号装置200に含まれる各構成要素について説明する。
[エントロピー復号部]
エントロピー復号部202は、符号化ビットストリームをエントロピー復号する。具体的には、エントロピー復号部202は、例えば、符号化ビットストリームから二値信号に算術復号する。そして、エントロピー復号部202は、二値信号を多値化(debinarize)する。これにより、エントロピー復号部202は、ブロック単位で量子化係数を逆量子化部204に出力する。
[逆量子化部]
逆量子化部204は、エントロピー復号部202からの入力である復号対象ブロック(以下、カレントブロックという)の量子化係数を逆量子化する。具体的には、逆量子化部204は、カレントブロックの量子化係数の各々について、当該量子化係数に対応する量子化パラメータに基づいて当該量子化係数を逆量子化する。そして、逆量子化部204は、カレントブロックの逆量子化された量子化係数(つまり変換係数)を逆変換部206に出力する。
[逆変換部]
逆変換部206は、逆量子化部204からの入力である変換係数を逆変換することにより予測誤差を復元する。
例えば符号化ビットストリームから読み解かれた情報がEMT又はAMTを適用することを示す場合(例えばAMTフラグが真)、逆変換部206は、読み解かれた変換タイプを示す情報に基づいてカレントブロックの変換係数を逆変換する。
また例えば、符号化ビットストリームから読み解かれた情報がNSSTを適用することを示す場合、逆変換部206は、変換係数に逆再変換を適用する。
[加算部]
加算部208は、逆変換部206からの入力である予測誤差と予測制御部220からの入力である予測サンプルとを加算することによりカレントブロックを再構成する。そして、加算部208は、再構成されたブロックをブロックメモリ210及びループフィルタ部212に出力する。
[ブロックメモリ]
ブロックメモリ210は、イントラ予測で参照されるブロックであって復号対象ピクチャ(以下、カレントピクチャという)内のブロックを格納するための記憶部である。具体的には、ブロックメモリ210は、加算部208から出力された再構成ブロックを格納する。
[ループフィルタ部]
ループフィルタ部212は、加算部208によって再構成されたブロックにループフィルタを施し、フィルタされた再構成ブロックをフレームメモリ214及び表示装置等に出力する。
符号化ビットストリームから読み解かれたALFのオン/オフを示す情報がALFのオンを示す場合、局所的な勾配の方向及び活性度に基づいて複数のフィルタの中から1つのフィルタが選択され、選択されたフィルタが再構成ブロックに適用される。
[フレームメモリ]
フレームメモリ214は、インター予測に用いられる参照ピクチャを格納するための記憶部であり、フレームバッファと呼ばれることもある。具体的には、フレームメモリ214は、ループフィルタ部212によってフィルタされた再構成ブロックを格納する。
[イントラ予測部]
イントラ予測部216は、符号化ビットストリームから読み解かれたイントラ予測モードに基づいて、ブロックメモリ210に格納されたカレントピクチャ内のブロックを参照してイントラ予測を行うことで、予測信号(イントラ予測信号)を生成する。具体的には、イントラ予測部216は、カレントブロックに隣接するブロックのサンプル(例えば輝度値、色差値)を参照してイントラ予測を行うことでイントラ予測信号を生成し、イントラ予測信号を予測制御部220に出力する。
なお、色差ブロックのイントラ予測において輝度ブロックを参照するイントラ予測モードが選択されている場合は、イントラ予測部216は、カレントブロックの輝度成分に基づいて、カレントブロックの色差成分を予測してもよい。
また、符号化ビットストリームから読み解かれた情報がPDPCの適用を示す場合、イントラ予測部216は、水平/垂直方向の参照画素の勾配に基づいてイントラ予測後の画素値を補正する。
[インター予測部]
インター予測部218は、フレームメモリ214に格納された参照ピクチャを参照して、カレントブロックを予測する。予測は、カレントブロック又はカレントブロック内のサブブロック(例えば4x4ブロック)の単位で行われる。例えば、インター予測部218は、符号化ビットストリームから読み解かれた動き情報(例えば動きベクトル)を用いて動き補償を行うことでカレントブロック又はサブブロックのインター予測信号を生成し、インター予測信号を予測制御部220に出力する。
なお、符号化ビットストリームから読み解かれた情報がOBMCモードを適用することを示す場合、インター予測部218は、動き探索により得られたカレントブロックの動き情報だけでなく、隣接ブロックの動き情報も用いて、インター予測信号を生成する。
また、符号化ビットストリームから読み解かれた情報がFRUCモードを適用することを示す場合、インター予測部218は、符号化ストリームから読み解かれたパターンマッチングの方法(バイラテラルマッチング又はテンプレートマッチング)に従って動き探索を行うことにより動き情報を導出する。そして、インター予測部218は、導出された動き情報を用いて動き補償を行う。
また、インター予測部218は、BIOモードが適用される場合に、等速直線運動を仮定したモデルに基づいて動きベクトルを導出する。また、符号化ビットストリームから読み解かれた情報がアフィン動き補償予測モードを適用することを示す場合には、インター予測部218は、複数の隣接ブロックの動きベクトルに基づいてサブブロック単位で動きベクトルを導出する。
[予測制御部]
予測制御部220は、イントラ予測信号及びインター予測信号のいずれかを選択し、選択した信号を予測信号として加算部208に出力する。
[デブロッキングフィルタ処理]
次に、以上のように構成された符号化装置100及び復号装置200において行われるデブロッキングフィルタ処理について図面を参照しながら具体的に説明する。なお、以下では、符号化装置100が備えるループフィルタ部120の動作を主に説明するが、復号装置200が備えるループフィルタ部212の動作をも同様である。
上述したように、符号化装置100は、画像を符号化する際に、イントラ予測部124又はインター予測部126が生成する予測信号を原信号から減算することで予測誤差を算出する。符号化装置100は、予測誤差に対して直交変換処理、及び量子化処理などを施すことで量子化係数を生成する。さらに、符号化装置100は、得られた量子化係数を逆量子化及び逆直交変換することで予測誤差を復元する。ここで、量子化処理は不可逆の処理なので、復元された予測誤差は、変換前の予測誤差に対して誤差(量子化誤差)を有する。
ループフィルタ部120で行われるデブロッキングフィルタ処理は、この量子化誤差を低減するなどの目的で施されるフィルタ処理の一種である。デブロッキングフィルタ処理は、ブロックノイズを除去するためにブロック境界に適用される。なお、以下では、このデブロッキングフィルタ処理を単にフィルタ処理とも記す。
図11は、ループフィルタ部120が実施するデブロッキングフィルタ処理の一例を示すフローチャートである。例えば、図11に示す処理はブロック境界毎に行われる。
まず、ループフィルタ部120は、デブロッキングフィルタ処理の挙動を決定するためにブロック境界強度(Bs)を計算する(S101)。具体的には、ループフィルタ部120は、Bsを、フィルタ対象となるブロックの予測モード又は動きベクトルの性質などを用いて決定する。例えば、境界を挟んだブロックのうち少なくとも片方がイントラ予測ブロックならばBs=2に設定される。また、(1)境界を挟んだブロックのうち少なくとも片方のブロックが優位な直交変換係数を含む、(2)ブロック境界を挟んだ両ブロックの動きベクトルの差分が閾値以上である、及び(3)ブロック境界を挟んだ両ブロックの動きベクトルの本数又は参照画像が異なるという(1)~(3)の条件のうち少なくとも一つが満たされているならばBs=1に設定される。(1)~(3)の条件のどれにも当てはまらなければBs=0に設定される。
次に、ループフィルタ部120は、設定されたBsが第1閾値より大きいかを判定する(S102)。Bsが第1閾値以下である場合(S102でNo)、ループフィルタ部120は、フィルタ処理を行わない(S107)。
一方、設定されたBsが第1閾値より大きい場合(S102でYes)、ループフィルタ部120は、ブロック境界の両側のブロック内の画素値を用いて、境界領域の画素変動dを計算する(S103)。図12を用いてこの処理について説明する。ブロック境界の画素値を図12のように定義すると、ループフィルタ部120は、例えば、d=|p30-2×p20+p10|+|p33-2×p23+p13|+|q30-2×q20+q10|+|q33-2×q23+q13|を計算する。
次に、ループフィルタ部120は、計算されたdが第2閾値より大きいかを判定する(S104)。dが第2閾値以下である場合(S104でNo)、ループフィルタ部120はフィルタ処理を行わない(S107)。なお、第1閾値と第2閾値とは異なる。
計算されたdが第2閾値より大きい場合(S104でYes)、ループフィルタ部120は、フィルタ特性を決定し(S105)、決定したフィルタ特性のフィルタ処理を行う(S106)。例えば(1,2,2,2,1)/8という5タップのフィルタが用いられる。つまり、図12に示すp10に対しては、(1×p30+2×p20+2×p10+2×q10+1×q20)/8の演算が行われる。ここでフィルタ処理の際には、過度な平滑化とならないように変位が一定範囲内に収まるようにクリップ(Clip)処理が行われる。ここで言うクリップ処理とは、例えばクリップ処理の閾値がtcであり、フィルタ前の画素値がqである場合、フィルタ後の画素値はq±tcの範囲しかとることができないようにする閾値処理のことである。
以下、本実施の形態に係るループフィルタ部120によるデブロッキングフィルタ処理において、ブロック境界を挟み非対称なフィルタを適用する例について説明する。
図13は、本実施の形態に係るデブロッキングフィルタ処理の一例を示すフローチャートである。なお、図13に示す処理は、ブロック境界毎に行われてもよいし、1以上の画素を含む単位画素毎に行われてもよい。
まず、ループフィルタ部120は、符号化パラメータを取得し、取得した符号化パラメータを用いて、ブロック境界を挟み非対称なフィルタ特性を決定する(S111)。本開示では、取得した符号化パラメータは、例えば誤差分布を特徴付けているとする。
ここで、フィルタ特性とは、フィルタ係数及びフィルタ処理の制御に用いるパラメータ等である。また、符号化パラメータは、フィルタ特性の決定に用いることのできるパラメータであれば何でもよい。符号化パラメータは、誤差そのものを示す情報であってもよいし、誤差に関連する(例えば誤差の大小関係を左右する)情報又はパラメータであってもよい。
また、以下では、符号化パラメータに基づき、誤差が大きい又は小さいと判定された画素、つまり、誤差が大きい又は小さい可能性が高い画素のことを、単に誤差が大きい又は小さい画素とも記す。
ここで、判定処理をその都度行われる必要はなく、予め定められた、符号化パラメータとフィルタ特性とを関連付けるルールに従って処理が行われてもよい。
なお、統計的に見て誤差の小さい可能性が高い画素であっても、画素ごとに見ると誤差が大きい可能性が高い画素の誤差よりも誤差が大きくなることはあり得る。
次に、ループフィルタ部120は、決定されたフィルタ特性を有するフィルタ処理を実行する(S112)。
ここで、ステップS111で決定されるフィルタ特性は必ず非対称である必要でなく、対称な設計まで可能となっている。なお、以下では、ブロック境界を挟み非対称なフィルタ特性を有するフィルタを非対称フィルタとも呼び、ブロック境界を挟み対称なフィルタ特性を有するフィルタを対称フィルタとも呼ぶ。
具体的には、誤差が小さいと判定された画素は周囲の誤差が大きい画素の影響を受けにくくなるように、誤差が大きいと判定された画素は周囲の誤差が小さい画素の影響を受けやすくなるようにといった2点を考慮してフィルタ特性が決定される。つまり、誤差が大きい画素ほどフィルタ処理の影響が大きくなるようにフィルタ特性が決定される。例えば、誤差が大きい画素ほどフィルタ処理の前後の画素値の変化量が大きくなるようにフィルタ特性が決定される。これにより、誤差の小さい可能性が高い画素については、値が大きく変動することで真値から外れることを防ぐことができる。逆に誤差の大きい可能性が高い画素については、誤差の小さい画素の影響を強く受けて値を変動させることで誤差を低減できる。
なお、以下では、フィルタによる変位を変化させる要素をフィルタの重みと定義する。言い換えると、重みとは、対象画素へのフィルタ処理の影響の度合いを示す。重みを大きくするということは、当該画素へのフィルタ処理の影響が大きくなることを意味する。言い換えると、フィルタ処理後の画素値が他の画素の影響を受けやすくするということである。具体的には、重みを大きくするとは、フィルタ処理の前後の画素値の変化量が大きくなるように、又は、フィルタ処理が行われやすくなるように、フィルタ特性を決定することである。
つまり、ループフィルタ部120は、誤差が大きい画素ほど重みを大きくする。なお、誤差が大きい画素ほど重みを大きくするとは、誤差に基づき、連続的に重みを変更することに限らず、段階的に重みを変更する場合も含む。つまり、第1画素の重みは、第1画素より誤差が大きい第2画素の重みより小さければよい。また、以下でも同様の表現を用いる。
なお、最終的に決定されたフィルタ特性において、誤差が大きい画素ほど重みが大きい、必要はない。つまり、ループフィルタ部120は、例えば、従来の手法により決定された基準となるフィルタ特性を、誤差が大きい画素ほど重みが大きくなる傾向に修正すればよい。
以下、非対称に重みを変更する具体的な複数の手法を説明する。なお、以下に示す手法のいずれかが用いられてもよいし、複数の手法を組み合わせた手法が用いられてもよい。
第1の手法として、ループフィルタ部120は、誤差が大きい画素ほどフィルタ係数を小さくする。例えば、ループフィルタ部120は、誤差が大きい画素のフィルタ係数を小さくし、誤差が小さい画素のフィルタ係数を大きくする。
例えば図12に示す画素p1に行うデブロッキングフィルタ処理の例を説明する。以下では、本手法を適用せず、例えば、従来の手法で決定されたフィルタを基準フィルタと呼ぶ。基準フィルタは、ブロック境界と垂直な5タップのフィルタであり、(p3,p2,p1,q1,q2)にわたって伸びるフィルタであるとする。また、フィルタ係数は(1,2,2,2,1)/8であるとする。また、ブロックPの誤差が大きい可能性が高く、ブロックQの誤差が小さい可能性が高いとする。この場合、誤差の大きいブロックPが、誤差の小さいブロックQの影響を受けやすくなるようにフィルタ係数が設定される。具体的には、誤差の小さい画素に用いられるフィルタ係数が大きく、誤差の大きい画素に用いられるフィルタ係数が小さく設定される。例えば、フィルタ係数として(0.5,1.0,1.0,2.0,1.5)/6が用いられる。
別の例として、誤差の小さい画素のフィルタ係数に0を用いてもよい。例えば、フィルタ係数として(0,0,1,2,2)/5が用いられてもよい。つまり、フィルタタップが変更されてもよい。逆に、現在0となっているフィルタ係数を0以外の値にしてもよい。例えば、フィルタ係数として(1,2,2,2,1,1)/9などが用いられてもよい。つまり、ループフィルタ部120は、誤差が小さい側にフィルタタップを伸ばしてもよい。
なお、基準フィルタは、上記の(1,2,2,2,1)/8のように、対象画素を中心に左右対称なフィルタでなくてもよい。このような場合には、ループフィルタ部120は、そのフィルタをさらに調整する。例えば、Qブロックの左端の画素に用いる基準フィルタのフィルタ係数が(1,2,3,4,5)/15であり、ブロックPの右端の画素に用いる基準フィルタのフィルタ係数が(5,4,3,2,1)/15である。つまり、この場合、ブロック境界を挟んだ画素間で、左右反転したフィルタ係数が用いられる。このようなブロック境界を挟み反転対称なフィルタ特性も「ブロック境界を挟み対称なフィルタ特性」といえる。つまり、ブロック境界を挟み非対称なフィルタ特性とは、ブロック境界を挟み反転対称でないフィルタ特性である。
また、上記と同様に、ブロックPの誤差が大きく、ブロックQの誤差が小さい場合には、ループフィルタ部120は、例えば、ブロックPの右端の画素に用いる基準フィルタのフィルタ係数である(5,4,3,2,1)/15を(2.5,2.0,1.5,2.0,1.0)/9に変更する。
このように、デブロッキングフィルタ処理では、フィルタ係数がブロック境界を挟んで非対称に変化しているフィルタが用いられる。例えば、ループフィルタ部120は、予め定められた基準に従い、ブロック境界を挟み対称なフィルタ特性を有する基準フィルタを決する。ループフィルタ部120は、当該基準フィルタを、ブロック境界を挟み非対称なフィルタ特性を有するように変更する。具体的には、ループフィルタ部120は、基準フィルタのフィルタ係数のうち、誤差の小さい少なくとも一つの画素のフィルタ係数を大きくすること、及び、誤差の大きい少なくとも一つの画素のフィルタ係数を小さくすること、の少なくとも一方を行う。
次に、非対称に重みを変更する第2の手法について説明する。まず、ループフィルタ部120は、基準フィルタを用いたフィルタ演算を行う。次に、ループフィルタ部120は、基準フィルタを用いたフィルタ演算の前後の画素値の変化量である基準変化量Δ0に、ブロック境界を挟んで非対称な重み付けを行う。なお、以下では、区別のため、基準フィルタを用いた処理をフィルタ演算と呼び、フィルタ演算と、その後の補正処理(例えば、非対称な重み付け)とを含む一連の処理をフィルタ処理(デブロッキングフィルタ処理)と呼ぶ。
例えば、ループフィルタ部120は、誤差の小さい画素に対しては、基準変化量Δ0に1より小さい係数を乗算することで、補正後の変化量Δ1を算出する。また、ループフィルタ部120は、誤差の大きい画素に対しては、基準変化量Δ0に1より大きい係数を乗算することで、補正後の変化量Δ1を算出する。次に、ループフィルタ部120は、フィルタ演算前の画素値に、補正後の変化量Δ1を加算することで、フィルタ処理後の画素値を生成する。なお、ループフィルタ部120は、誤差の小さい画素に対する処理と、誤差の大きい画素に対する処理とのうち、一方のみを行ってもよい。
例えば、上記と同様に、ブロックPの誤差が大きく、ブロックQの誤差が小さいとする。この場合、ループフィルタ部120は、誤差の小さいブロックQに含まれる画素に対しては、例えば、基準変化量Δ0を0.8倍することで補正後の変化量Δ1を算出する。また、ループフィルタ部120は、誤差の大きいブロックPに含まれる画素に対しては、例えば、基準変化量Δ0を1.2倍することで補正後の変化量Δ1を算出する。こうすることで、誤差の小さい画素の値の変動を小さくすることができる。また、誤差の大きい画素の値の変動を大きくすることができる。
なお、誤差の小さい画素の基準変化量Δ0に乗算される係数と、誤差の大きい画素の基準変化量Δ0に乗算される係数との比率として、1:1が選ばれる場合があってもよい。この場合、フィルタ特性はブロック境界を挟んで対称となる。
また、ループフィルタ部120は、基準変化量Δ0に乗算される係数を、基準係数に定数を乗算することで算出してもよい。この場合、ループフィルタ部120は、誤差が大きい画素については、誤差が小さい画素よりも大きな定数を用いる。結果として、誤差が大きい画素に対する画素値の変化量が増加し、誤差が小さい可能性が高い画素に対する画素値の変化量が減少する。例えば、ループフィルタ部120は、ブロック境界と隣接した画素に対しては、定数として1.2又は0.8を用い、ブロック境界と隣接する画素から1画素離れた画素に対しては、定数として1.1又は0.9を用いる。また、基準係数は、例えば、(A×(q1-p1)-B×(q2-p2)+C)/Dにより求められる。ここで、A、B、C、Dは定数である。例えば、A=9、B=3、C=8、D=16である。また、p1、p2、q1、q2はブロック境界を挟み図12に示す位置関係の画素の画素値である。
次に、非対称に重みを変更する第3の手法について説明する。ループフィルタ部120は、第2の手法と同様に、基準フィルタのフィルタ係数を用いたフィルタ演算を行う。次に、ループフィルタ部120は、フィルタ演算の後の画素値に、ブロック境界を挟んで非対称なオフセット値を加える。具体的には、ループフィルタ部120は、誤差が大きい画素の値が、誤差が小さい可能性が高い画素の値に近づくとともに、当該誤差の大きい画素の変位が大きくなるように、誤差が大きい画素の画素値に正のオフセット値を加える。また、ループフィルタ部120は、誤差が小さい画素の値が、誤差が大きい画素の値に近づかないようにするとともに、当該誤差の小さい画素の変位が小さくなるように、誤差が小さい画素の画素値に負のオフセットを加える。結果として、誤差が大きい画素に対する画素値の変化量が増加し、誤差が小さい画素に対する画素値の変化量が減少する。なお、ループフィルタ部120は、誤差の小さい画素に対する処理と、誤差の大きい画素に対する処理とのうち、一方のみを行ってもよい。
例えば、ループフィルタ部120は、誤差が大きいブロックに含まれる画素に対しては、基準変化量Δ0の絶対値に正のオフセット値(例えば1)を加算することで補正後の変化量Δ1を算出する。また、ループフィルタ部120は、誤差が小さいブロックに含まれる画素に対しては、基準変化量Δ0の絶対値に負のオフセット値(例えば-1)を加算することで補正後の変化量Δ1を算出する。次に、ループフィルタ部120は、フィルタ演算前の画素値に、補正後の変化量Δ1を加算することで、フィルタ処理後の画素値を生成する。なお、ループフィルタ部120は、変化量にオフセット値を加えるのではなく、フィルタ演算後の画素値にオフセット値を加えてもよい。また、オフセット値はブロック境界を挟んで対称でなくてもよい。
また、ループフィルタ部120は、フィルタタップがブロック境界から複数画素にわたって伸びる場合には、ある特定の画素に対する重みだけを変更してもよいし、全ての画素に対する重みを変更してもよい。また、ループフィルタ部120は、ブロック境界から対象画素までの距離に応じて、重みを変更してもよい。例えば、ループフィルタ部120は、ブロック境界から2画素までにかかるフィルタ係数を非対称にし、それ以降の画素にかかるフィルタ係数を対称にしてもよい。また、フィルタの重みは複数の画素に対して共通であってもよいし、画素毎に設定されてもよい。
次に、非対称に重みを変更する第4の手法について説明する。ループフィルタ部120は、基準フィルタのフィルタ係数を用いたフィルタ演算を行う。次に、ループフィルタ部120は、フィルタ演算の前後の画素値の変化量Δが、基準値であるクリップ幅を超える場合には、変化量Δをクリップ幅にクリップする。ループフィルタ部120は、クリップ幅を、ブロック境界を挟んで非対称に設定する。
具体的には、ループフィルタ部120は、誤差が大きい画素に対するクリップ幅を、誤差が小さい画素のクリップ幅より大きくする。例えば、ループフィルタ部120は、誤差が大きい画素に対するクリップ幅を、誤差が小さい画素のクリップ幅の定数倍にする。クリップ幅を変化させた結果、誤差が小さい画素の値は大きく変化することができなくなる。また、誤差が大きい画素の値は大きく変化することが可能となる。
なお、ループフィルタ部120は、クリップ幅の比を指定するのではなく、クリップ幅の絶対値を調整してもよい。例えば、ループフィルタ部120は、誤差が大きい画素に対するクリップ幅を、予め定められた基準クリップ幅の倍に固定する。ループフィルタ部120は、誤差が大きい画素のクリップ幅と、誤差が小さい画素のクリップ幅との比を1.2:0.8に設定する。具体的には、例えば、基準クリップ幅が10であり、フィルタ演算の前後の変化量Δが12であるとする。この場合、基準クリップ幅がそのまま用いられる場合には、閾値処理により、変化量Δは10に補正される。一方、対象画素が誤差が大きい画素である場合には、例えば、基準クリップ幅が1.5倍される。これにより、クリップ幅は15となるので閾値処理が行われず、変化量Δは12となる。
次に、非対称に重みを変更する第5の手法について説明する。ループフィルタ部120は、フィルタ処理を行うか否かを判定する条件を、ブロック境界を挟んで非対称に設定する。ここで、フィルタ処理を行うか否かを判定する条件とは、例えば、図11に示す第1閾値又は第2閾値である。
具体的には、ループフィルタ部120は、誤差が大きい画素に対しては、フィルタ処理が行われやすくなるように条件を設定し、誤差が小さい画素に対しては、フィルタ処理が行われにくくなるように条件を設定する。例えば、ループフィルタ部120は、誤差が小さい画素に対する閾値を誤差が大きい画素の閾値より高くする。例えば、ループフィルタ部120は、誤差が小さい画素に対する閾値を誤差が大きい画素の閾値の定数倍にする。
また、ループフィルタ部120は、閾値の比を指定するだけで無く、閾値の絶対値を調整してもよい。例えば、ループフィルタ部120は、誤差が小さい画素に対する閾値を予め定められた基準閾値の倍に固定し、誤差が小さい画素の閾値と、誤差が大きい画素の閾値との比を1.2:0.8に設定してもよい。
具体的には、ステップS104における第2閾値の基準閾値が10であり、ブロック内の画素値から計算されたdが12であるとする。第2閾値として基準閾値がそのまま用いられる場合には、フィルタ処理を行うと判定される。一方、対象画素が誤差が小さい画素である場合、例えば、第2閾値として基準閾値を1.5倍した値が用いられる。この場合、第2閾値は、15となり、dよりも大きくなる。これにより、フィルタ処理を行わないと判定される。
また、上記第1~第5の手法で用いた誤差に基づく重みを示す定数等は、符号化装置100及び復号装置200において予め定められた値であってもよいし、可変であってもよい。具体的には、この定数とは、第1の手法におけるフィルタ係数又は基準フィルタのフィルタ係数に乗算される係数、第2の手法における基準変化量Δ0に乗算される係数又は基準係数に乗算される定数、第3の手法におけるオフセット値、第4の手法におけるクリップ幅又は基準クリップ幅に乗算される定数、及び、第5の手法における閾値又は基準閾値に乗算される定数等である。
定数が可変の場合には、当該定数を示す情報が、例えば、シーケンス又はスライス単位のパラメータとしてビットストリームに含まれ、符号化装置100から復号装置200に送信されてもよい。なお、定数を示す情報は、定数そのものを示す情報であってもよいし、基準値との比又は差を示す情報であってもよい。
また、誤差に応じて、係数又は定数を変更する方法として、例えば、リニアに変更する方法、二次関数的に変更する方法、指数関数的に変更する方法、又は、誤差と定数との関係を示すルックアップテーブルを用いる方法等がある。
また、誤差が基準以上の場合、又は、誤差が基準以下の場合には、定数として固定値を用いてもよい。例えば、ループフィルタ部120は、誤差が所定の範囲以下の場合には、変数を第1の値に設定し、誤差が所定の範囲以上の場合には、変数を第2の値に設定し、誤差が所定の範囲内の場合には、誤差に応じて変数を第1の値から第2の値まで連続的に変更してもよい。
また、ループフィルタ部120は、誤差が所定の基準超えた場合には、非対称フィルタを使用せず、対称フィルタ(基準フィルタ)を使用してもよい。
また、ループフィルタ部120は、ルックアップテーブル等を用いる場合において、誤差が大きい場合と小さい場合との両方のテーブルを保持してもよいし、一方のテーブルのみを保持し、当該テーブルの内容から予め定められたルールに従い、他方の定数を算出してもよい。
以上のように、本実施の形態に係る符号化装置100及び復号装置200は、非対称フィルタを用いることで、再構成画像の誤差を低減できるので、符号化効率を向上させることができる。
(実施の形態2)
実施の形態2~実施の形態6では、上述した誤差分布を特徴付ける符号化パラメータの具体例について説明する。本実施の形態では、ループフィルタ部120は、対象画素のブロック内の位置に応じてフィルタ特性を決定する。
図14は、本実施の形態に係るデブロッキングフィルタ処理の一例を示すフローチャートである。まず、ループフィルタ部120は、誤差分布を特徴付ける符号化パラメータとして、対象画素のブロック内の位置を示す情報を取得する。ループフィルタ部120は、当該位置に基づき、ブロック境界を挟み非対称なフィルタ特性を決定する(S121)。
次に、ループフィルタ部120は、決定されたフィルタ特性を有するフィルタ処理を実行する(S122)。
ここで、イントラ予測の参照画素から遠い画素はイントラ予測の参照画素から近い画素よりも誤差が大きい可能性が高い。よって、ループフィルタ部120は、イントラ予測の参照画素に遠い画素ほど当該フィルタ処理の前後の画素値の変化量が大きくなるようにフィルタ特性を決定する。
例えば、H.265/HEVC又はJEMの場合は、図15に示すように、参照画素から近い画素とはブロック内の左上に存在する画素であり、参照画素から近い画素とはブロック内の右下に存在する画素である。よって、ループフィルタ部120は、ブロック内の右下の画素の重みが、左上の画素の重みより大きくなるようにフィルタ特性を決定する。
具体的には、ループフィルタ部120は、イントラ予測の参照画素から遠い画素に対しては、実施の形態1で説明したように、フィルタ処理の影響が大きくなるようにフィルタ特性を決定する。つまり、ループフィルタ部120は、イントラ予測の参照画素から遠い画素の重みを大きくする。ここで、重みを大きくするとは、上述したように、(1)フィルタ係数を小さくする、(2)境界を挟んだ画素(つまりイントラ予測の参照画素から近い画素)のフィルタ係数を大きくする(3)変化量に乗算する係数を大きくする、(4)変化量のオフセット値を大きくする、(5)クリップ幅を大きくする、及び(6)フィルタ処理が実行されやすいように閾値を修正する、のうちの少なくとも一つを実施することである。一方、ループフィルタ部120は、イントラ予測の参照画素から近い画素に対しては、フィルタ処理の影響が小さくなるようにフィルタ特性を決定する。つまり、ループフィルタ部120は、イントラ予測の参照画素から近い画素の重みを小さくする。ここで、重みを小さくするとは、上述したように、(1)フィルタ係数を大きくする、(2)境界を挟んだ画素(つまりイントラ予測の参照画素から近い画素)のフィルタ係数を小さくする、(3)変化量に乗算する係数を小さくする、(4)変化量のオフセット値を小さくする、(5)クリップ幅を小さくする、及び(6)フィルタ処理が実行されにくいように閾値を修正する、のうちの少なくとも一つを実施することである。
なお、イントラ予測が用いられている場合に上記処理を行い、インター予測が用いられているブロックには上記処理を行わなくてもよい。ただし、イントラ予測ブロックの性質がインター予測にも引っ張られることがあるため、インター予測ブロックに対しても上記処理が行われてもよい。
また、ループフィルタ部120は、特定のブロック内の位置を任意に指定して重みを変更してもよい。例えば、ループフィルタ部120は、上記のように、ブロック内の右下の画素の重みを大きくし、ブロック内の左上の画素の重みを小さくしてもよい。なお、ループフィルタ部120は、左上及び右下に限らず、ブロック内の位置を任意を指定して重みを変更してもよい。
また、図15に示すように、左右方向の隣接ブロック境界では、左側のブロックの誤差が大きくなり、右側のブロックの誤差が大きくなる。よって、ループフィルタ部120は、左右方向の隣接ブロック境界に対しては、左側のブロックの重みを大きくし、右側のブロックの重みを小さくしてもよい。
同様に、上下方向の隣接ブロック境界では、上側のブロックの誤差が大きくなり、下側のブロックの誤差が小さくなる。よって、ループフィルタ部120は、上下方向の隣接ブロック境界に対しては、上側のブロックの重みを大きくし、下側のブロックの重みを小さくしてもよい。
また、ループフィルタ部120は、イントラ予測の参照画素からの距離に応じて重みを変化させてもよい。また、ループフィルタ部120は、ブロック境界単位で重みを決めてもよいし、画素単位で重みを決めてもよい。参照画素から遠くなればなるほど誤差が大きくなりやすい。よって、ループフィルタ部120は、参照画素から遠くなればなるほど重みの勾配が急になるようにフィルタ特性を決定する。また、ループフィルタ部120は、ブロックの右辺の上側における重みの勾配が下側における重みの勾配よりもゆるやかになるようにフィルタ特性を決定する。
(実施の形態3)
本実施の形態では、ループフィルタ部120は、直交変換基底に応じてフィルタ特性を決定する。
図16は、本実施の形態に係るデブロッキングフィルタ処理の一例を示すフローチャートである。まず、ループフィルタ部120は、誤差分布を特徴付ける符号化パラメータとして、対象ブロックに用いられた直交変換基底を示す情報を取得する。ループフィルタ部120は、当該直交変換基底に基づき、ブロック境界を挟み非対称なフィルタ特性を決定する(S131)。
次に、ループフィルタ部120は、決定されたフィルタ特性を有するフィルタ処理を実行する(S132)。
符号化装置100は、直交変換を行う際の変換基底である直交変換基底を、複数の候補の中から一つが選択する。複数の候補は、例えば、DCT-II等の0次の変換基底がフラットな基底と、DST-VII等の0次の変換基底がフラットでない基底とを含む。図17は、DCT-IIの変換基底を示す図である。図18は、DCT-VIIの変換基底を示す図である。
DCT-IIの0次基底は、ブロック内の位置によらず一定である。つまり、DCT-IIが用いられている場合には、ブロック内の誤差は一定である。よって、ループフィルタ部120は、ブロック境界を挟んだ両方のブロックがDCT-IIで変換されている場合には、非対称フィルタを用いずに、対称フィルタを用いたフィルタ処理を行う。
一方、DST-VIIの0次基底は、左又は上のブロック境界からの距離が離れるにしたがって値が大きくなる。つまり、左又は上のブロック境界からの距離が離れるにしたがって誤差が大きくなる可能性が高い。よって、ループフィルタ部120は、ブロック境界を挟んだ二つのブロックのうち少なくとも一方がDST-VIIで変換されている場合には、非対称フィルタを用いる。具体的には、ループフィルタ部120は、低次(例えば0次)の基底のブロック内における値が小さい画素ほどフィルタ処理の影響が小さくなるようにフィルタ特性を決定する。
具体的には、ブロック境界を挟んだ両方のブロックがDST-VIIで変換されている場合には、ループフィルタ部120は、ブロック内の右下の画素に対しては、上述した手法により、フィルタ処理の影響が大きくなるようにフィルタ特性を決定する。また、ループフィルタ部120は、ブロック内の左上の画素に対しては、フィルタ処理の影響が大きくなるようにフィルタ特性を決定する。
また、DST-VIIとDCT-IIとが上下に隣接している場合にも、ループフィルタ部120は、ブロック境界に隣接する、DST-VIIが使用された上ブロックの下部の画素へのフィルタの重みが、DCT-IIが使用された下ブロックの上部の画素へのフィルタの重みと比べて大きくなるようにフィルタ特性を決定する。しかしながら、この場合の低次の基底の振幅の差は、DST-VII同士が隣接している場合の低次の基底の振幅の差より小さい。よって、ループフィルタ部120は、この場合の重みの傾斜がDST-VII同士が隣接している場合の重みの傾斜よりも小さくなるようにフィルタ特性を設定する。ループフィルタ部120は、例えば、DCT-IIとDCT-IIが隣接している場合の重みを1:1(対称フィルタ)に設定し、DST-VIIとDST-VIIが隣接している場合の重みを1.3:0.7に設定し、DST-VIIとDCT-IIが隣接している際の重みを1.2:0.8に設定する。
(実施の形態4)
本実施の形態では、ループフィルタ部120は、ブロック境界を挟んだ画素値に応じてフィルタ特性を決定する。
図19は、本実施の形態に係るデブロッキングフィルタ処理の一例を示すフローチャートである。まず、ループフィルタ部120は、誤差分布を特徴付ける符号化パラメータとして、ブロック境界を挟んだブロック内の画素値を示す情報を取得する。ループフィルタ部120は、当該画素値に基づき、ブロック境界を挟み非対称なフィルタ特性を決定する(S141)。
次に、ループフィルタ部120は、決定されたフィルタ特性を有するフィルタ処理を実行する(S142)。
例えば、ループフィルタ部120は、画素値の差d0が大きいほどブロック境界を挟んだフィルタ特性の差を大きくする。具体的には、ループフィルタ部120は、フィルタ処理の影響の差が大きくなるようにフィルタ特性を決定する。例えば、ループフィルタ部120は、d0>(量子化パラメータ)×(定数)が満たされる場合には重みを1.4:0.6に設定し、上記関係が満たされない場合には重みを1.2:0.8に設定する。つまり、ループフィルタ部120は、画素値の差d0と、量子化パラメータに基づく閾値とを比較し、画素値の差d0が閾値より大きい場合、画素値の差d0が閾値より小さい場合より、ブロック境界を挟んだフィルタ特性の差を大きくする。
別の例として、例えばループフィルタ部120は、ブロック境界を挟んだ両ブロック内の画素値の分散の平均値b0が大きいほどブロック境界を挟んだフィルタ特性の差を大きくする。具体的には、ループフィルタ部120は、フィルタ処理の影響の差が大きくなるようにフィルタ特性を決定してもよい。例えば、ループフィルタ部120はb0>(量子化パラメータ)×(定数)が満たされる場合には重みを1.4:0.6に設定し、上記関係が満たされない場合には重みを1.2:0.8に設定する。つまり、ループフィルタ部120は、画素値の分散b0と、量子化パラメータに基づく閾値とを比較し、画素値の分散b0が閾値より大きい場合、画素値の分散b0が閾値より小さい場合より、ブロック境界を挟んだフィルタ特性の差を大きくしてもよい。
なお、隣接するブロックのうち、いずれのブロックの重みを大きくするか、つまり、いずれのブロックの誤差がより大きいかは、上述した実施の形態2又は3の手法、或いは、後述する実施の形態6の手法等により特定できる。つまり、ループフィルタ部120は、所定のルール(例えば、実施の形態2、3又は6の手法)に従い、ブロック境界を挟んで非対称なフィルタ特性を決定する。次に、ループフィルタ部120は、画素値の差d0に基づき、ブロック境界を挟んだフィルタ特性の差が大きくなるように当該決定したフィルタ特性を変更する。つまり、ループフィルタ部120は、誤差が大きい画素の重みと誤差が小さい画素の重みとの比又は差を大きくする。
ここで、画素値の差d0が大きい場合には、ブロック境界と画像内のオブジェクトのエッジとが一致している場合である可能性があるため、このようなケースにおいて、ブロック境界を挟んだフィルタ特性の差を小さくすることで、不要な平滑化が行われることを抑制できる。
なお、ループフィルタ部120は、上記とは逆に、画素値の差d0が大きいほどブロック境界を挟んだフィルタ特性の差を小さくしてもよい。具体的には、ループフィルタ部120は、フィルタ処理の影響の差が小さくくなるようにフィルタ特性を決定する。例えば、ループフィルタ部120は、d0>(量子化パラメータ)×(定数)が満たされる場合には重みを1.2:0.8に設定し、上記関係が満たされない場合には重みを1.4:0.6に設定する。なお、上記関係が満たされる場合に重みが1:1(対称フィルタ)に設定されてもよい。つまり、ループフィルタ部120は、画素値の差d0と、量子化パラメータに基づく閾値とを比較し、画素値の差d0が閾値より大きい場合、画素値の差d0が閾値より小さい場合より、ブロック境界を挟んだフィルタ特性の差を小さくする。
例えば、画素値の差d0が大きいということは、ブロック境界が目立ちやすいということであるため、このようなケースにおいて、ブロック境界を挟んだフィルタ特性の差を小さくすることで、非対称なフィルタにより平滑化が弱まることを抑制できる。
なお、これらの二つの処理は同時に行われてもよい。例えば、ループフィルタ部120は、画素値の差d0が第1閾値未満の場合には第1の重みを用い、画素値の差d0が第1閾値以上第2閾値未満の場合には第1の重みより差の大きい第2の重みを用い、画素値の差d0が第2閾値以上の場合には第2の重みより差の小さい第3の重みを用いてもよい。
また、画素値の差d0は、境界を挟んだ画素値の差分をそのものでもよいし、画素値の差の平均又は分散であってもよい。例えば、画素値の差d0は、(A×(q1-p1)-B×(q2-p2)+C)/Dにより求められる。ここで、A、B、C、Dは定数である。例えば、A=9、B=3、C=8、D=16である。また、p1、p2、q1、q2はブロック境界を挟み図12に示す位置関係の画素の画素値である。
なお、この画素値の差d0及び重みの設定は、画素単位で行われてもよいし、ブロック境界単位で行われてもよいし、複数ブロックを含むブロック群単位(例えばLCU(Largest Coding Unit)単位で行われてもよい。
(実施の形態5)
本実施の形態では、ループフィルタ部120は、イントラ予測方向とブロック境界方向とに応じてフィルタ特性を決定する。
図20は、本実施の形態に係るデブロッキングフィルタ処理の一例を示すフローチャートである。まず、ループフィルタ部120は、誤差分布を特徴付ける符号化パラメータとして、イントラ予測の予測方向とブロック境界との角度を示す情報を取得する。ループフィルタ部120は、当該角度に基づき、ブロック境界を挟み非対称なフィルタ特性を決定する(S151)。
次に、ループフィルタ部120は、決定されたフィルタ特性を有するフィルタ処理を実行する(S152)。
具体的には、ループフィルタ部120は、上記角度が垂直に近いほどブロック境界を挟んだフィルタ特性の差を大きくし、上記角度が水平に近いほどブロック境界を挟んだフィルタ特性の差を小さくする。より具体的には、イントラ予測方向がブロック境界に対して垂直に近い場合は、ブロック境界を挟んだ両側の画素に対するフィルタの重みの差が大きくなり、イントラ予測方向がブロック境界に対して水平に近い場合はブロック境界を挟んだ両側の画素に対するフィルタの重みの差を小さくなるようにフィルタ特性を決定する。図21は、イントラ予測方向とブロック境界の方向との関係に対する重みの例を示す図である。
なお、隣接するブロックのうち、いずれのブロックの重みを大きくするか、つまり、いずれのブロックの誤差がより大きいかは、上述した実施の形態2又は3の手法、或いは、後述する実施の形態6の手法等により特定できる。つまり、ループフィルタ部120は、所定のルール(例えば、実施の形態2、3又は6の手法)に従い、ブロック境界を挟んで非対称なフィルタ特性を決定する。次に、ループフィルタ部120は、イントラ予測方向とブロック境界の方向とに基づき、ブロック境界を挟んだフィルタ特性の差が大きくなるように当該決定したフィルタ特性を変更する。
また、符号化装置100及び復号装置200は、イントラ予測方向を、例えば、イントラ予測モードを用いて特定する。
なお、イントラ予測モードがPlanarモード又はDCモードである場合には、ループフィルタ部120は、ブロック境界の方向を考慮しなくてもよい。例えば、ループフィルタ部120は、イントラ予測モードがPlanarモード又はDCモードである場合には、ブロック境界の方向によらず、予め定められた重み又は重みの差を用いてもよい。または、ループフィルタ部120は、イントラ予測モードがPlanarモード又はDCモードである場合には、対称フィルタを用いてもよい。
(実施の形態6)
本実施の形態では、ループフィルタ部120は、量子化の幅を示す量子化パラメータに応じてフィルタ特性を決定する。
図22は、本実施の形態に係るデブロッキングフィルタ処理の一例を示すフローチャートである。まず、ループフィルタ部120は、誤差分布を特徴付ける符号化パラメータとして、対象ブロックの量子化の際に用いられた量子化パラメータを示す情報を取得する。ループフィルタ部120は、当該量子化パラメータに基づき、ブロック境界を挟み非対称なフィルタ特性を決定する(S161)。
次に、ループフィルタ部120は、決定されたフィルタ特性を有するフィルタ処理を実行する(S162)。
ここで、量子化パラメータが大きいほど、誤差が大きくなる可能性が高い。よって、ループフィルタ部120は、量子化パラメータが大きいほどフィルタ処理の影響が大きくなるようにフィルタ特性を決定する。
図23は、量子化パラメータに対する重みの例を示す図である。図23に示すように、ループフィルタ部120は、ブロック内の左上の画素に対する重みを量子化パラメータの増加にともない増加させる。一方、ループフィルタ部120は、ブロック内の右下の画素に対する、量子化パラメータの増加にともなう重みの増加を小さくする。つまり、ループフィルタ部120は、左上の画素の量子化パラメータの変化に伴うフィルタ処理の影響の変化が、右下の画素の量子化パラメータの変化に伴うフィルタ処理の影響の変化より、大きくなるようにフィルタ特性を決定する。
ここで、ブロック内の左上の画素は、ブロック内の右下の画素に比べて、量子化パラメータの影響を受けやすい。よって、上記のような処理を行うことで、適切に誤差を低減できる。
また、ループフィルタ部120は、境界を挟む二つのブロックの各々に対して、当該ブロックの量子化パラメータに基づき当該ブロックの重みを決定してもよいし、二つのブロックの量子化パラメータの平均値を算出し、当該平均値に基づき二つのブロックの重みを決定してもよい。または、ループフィルタ部120は、一方のブロックの量子化パラメータに基づき、二つのブロックの重みを決定してもよい。例えば、ループフィルタ部120は、上記手法を用いて、一方のブロックの量子化パラメータに基づき、当該一方のブロックの重みを決定する。次に、ループフィルタ部120は、決定された重みに基づき、予め定められたルールに従い、他方のブロックの重みを決定する。
また、ループフィルタ部120は、二つのブロックの量子化パラメータが異なる場合、又は、二つのブロックの量子化パラメータの差が閾値を超える場合、対称フィルタを用いてもよい。
また、図23では、一次関数を用いて重みが設定されているが、一次関数以外の任意の関数、又はテーブルが用いられてもよい。例えば、量子化パラメータと量子化ステップ(量子化幅)との関係を示すカーブが用いられてもよい。
また、ループフィルタ部120は、量子化パラメータが閾値を超える場合には、非対称フィルタを用いず、対称フィルタを用いてもよい。
また、量子化パラメータが小数点精度で記載されている場合には、ループフィルタ部120は、量子化パラメータに四捨五入、切り上げ、又は切捨て等の演算を行い、演算後の量子化パラメータを上記処理に用いてもよい。または、ループフィルタ部120は、小数点単位まで考慮して上記処理を行ってもよい。
以上のように、実施の形態2~6において、誤差を判定する複数の手法について個別に説明したが、これらの手法のうち2以上を組み合わせてもよい。この場合、ループフィルタ部120は、組み合わせた2以上の要素に対して重み付けを行ってもよい。
以下、変形例について説明する。
上記で説明した符号化パラメータの例以外が用いられてもよい。例えば、符号化パラメータは、直交変換の種類(Wavelet、DFT又は重複変換等)、ブロックサイズ(ブロックの幅及び高さ)、動きベクトルの方向、動きベクトルの長さ、又はインター予測に用いられる参照ピクチャの枚数、基準フィルタの特性を示す情報であってもよい。また、それらは組み合わせて用いられてもよい。例えば、ループフィルタ部120は、ブロック境界の長さが16画素以下でかつイントラ予測の参照画素からフィルタ対象画素が近い場合にのみ非対称フィルタを用い、他の場合は対称フィルタを用いてもよい。別の例として、複数のフィルタ候補のうちの所定のいずれかのタイプのフィルタが用いられた場合にのみ非対称処理を行ってもよい。例えば、基準フィルタによる変位が(A×(q1-p1)-B×(q2-p2)+C)/Dにより計算される場合にのみ非対称フィルタを用いてもよい。ここで、A、B、C、Dは定数である。例えば、A=9、B=3、C=8、D=16である。また、p1、p2、q1、q2はブロック境界を挟み図12に示す位置関係の画素の画素値である。
また、ループフィルタ部120は、輝度信号と色差信号とのうち、一方に対して上記処理を行ってもよいし、両方に対して上記処理を行ってもよい。また、ループフィルタ部120は、輝度信号と色差信号とに対して共通の処理を行ってもよいし、異なる処理を行ってもよい。例えば、ループフィルタ部120は、輝度信号と色差信号とに対して異なる重みを用いてもよいし、異なるルールに従い重みを決定してもよい。
また、上記処理で用いられる各種パラメータは、符号化装置100において決定されてもよいし、予め設定された固定値であってもよい。
また、上記処理を行うか、行わないか、又は上記処理の内容は、所定単位で切り替えられてもよい。所定単位とは、例えば、スライス単位、タイル単位、ウェーブフロント分割単位、又はCTU単位である。また、上記処理の内容とは、上記で示した複数の手法のいずれを用いるか、或いは重み等を示すパラメータ、又は、これらを決定するためのパラメータである。
また、ループフィルタ部120は、上記処理を行う領域を、CTUの境界、スライスの境界、又はタイルの境界に限定してもよい。
また、対称フィルタと非対称フィルタとで、フィルタのタップ数は異なってもよい。
また、ループフィルタ部120は、フレーム種別(Iフレーム、Pフレーム、Bフレーム)に応じて、上記処理を行う否か、又は上記処理の内容を変更してもよい。
また、ループフィルタ部120は、前段又は後段の特定の処理が行われたか否かに応じて、上記処理を行うか否かを、又は上記処理の内容を決定してもよい。
また、ループフィルタ部120は、ブロックに用いられる予測モードの種類に応じて異なる処理を行ってもよいし、特定の予測モードが用いられるブロックに対してのみ上記処理を行ってもよい。例えば、ループフィルタ部120は、イントラ予測が用いられるブロックと、インター予測が用いられるブロックと、マージされたブロックとで異なる処理を行ってもよい。
また、符号化装置100は、上記処理を行うか否か、又は上記処理の内容を示すパラメータであるフィルタ情報を符号化してもよい。つまり、符号化装置100は、フィルタ情報を含む符号化ビットストリームを生成してもよい。このフィルタ情報は、輝度信号に上記処理を行うか否かを示す情報、色差信号に上記処理を行うか否かを示す情報、又は、予測モード毎に処理を異ならせるか否かを示す情報等を含んでもよい。
また、復号装置200は、符号化ビットストリームに含まれるフィルタ情報に基づき、上記処理を行ってもよい。例えば、復号装置200は、フィルタ情報に基づき、上記処理を行うか否か、又は、上記処理の内容を決定してもよい。
(実施の形態7)
本実施の形態では、上記実施の形態3と同様、ループフィルタ部120は、直交変換基底に応じてフィルタ特性を決定する。なお、本実施の形態では、上記実施の形態3における構成および処理をより具体的に示し、特に、互いに隣接するブロックのそれぞれの直交変換基底の組み合わせに応じて、フィルタ特性を決定する構成および処理について説明する。また、復号装置200におけるループフィルタ部212は、符号化装置100のループフィルタ部120と同様の構成を有し、そのループフィルタ部120と同様の処理動作を行う。したがって、本実施の形態では、符号化装置100のループフィルタ部120の構成および処理動作について説明し、復号装置200のループフィルタ部212の構成および処理動作の詳細な説明を省略する。
画像の符号化の際に用いられる直交変換には、様々な直交変換基底が用いられている。そのため、誤差分布が空間的に一様ではない場合が生じる。なお、直交変換基底は、変換基底、または単に、基底ともいう。
具体的には、画像の符号化の際では、インター予測またはイントラ予測により生成される予測信号と原信号との残差は、直交変換され、量子化される。これによりデータ量が削減される。量子化は不可逆的な処理であるため、符号化された画像には、符号化前の画像からのずれ、すなわち誤差が発生する。
しかし、符号化で生じる誤差分布は、量子化パラメータが一定であっても、必ずしも空間的に一様にはならない。この誤差分布は、直交変換の基底に依存していると考えられる。
つまり、変換部106は、直交変換を行う際の変換基底を、複数の候補の中から選択する。このとき、0次の変換基底がフラットな基底として、例えば、DCT-IIが選ばれることもあれば、0次の変換基底がフラットでない基底として、例えば、DST-VIIが選ばれることもある。
図24は、基底の一例であるDCT-IIを示す図である。なお、図24におけるグラフの横軸は、1次元空間上の位置を示し、縦軸は、基底の値(すなわち振幅)を示す。ここで、kは、基底の次数を示し、nは、1次元空間上の位置を示し、Nは、直交変換される画素数を示す。なお、1次元空間上の位置nは、水平方向の位置または垂直方向の位置であって、水平方向の左から右に向かって、または垂直方向の上から下に向かって、大きい値を示す。さらに、xnは、位置nにおける画素の画素値(具体的には残差)を示し、Xkは、k次における周波数変換結果、すなわち変換係数を示す。
DCT-IIでは、k=0の場合には、変換係数X0は、以下の式(3)によって示される。
また、DCT-IIでは、1≦k≦N-1の場合には、変換係数Xkは、以下の式(4)によって示される。
図25は、基底の一例であるDST-VIIを示す図である。なお、図25における横軸は、1次元空間上の位置を示し、縦軸は、基底の値(すなわち振幅)を示す。
DST-VIIでは、0≦k≦N-1の場合には、変換係数Xkは、以下の式(5)によって示される。
このように、変換係数は、基本的にΣ(画素値×変換基底)で決定される。また、低次の基底の変換係数の方が、高次の基底の変換係数よりも大きくなりやすい。そのため、仮に0次の基底がフラットでないDST-VIIがブロックに対して変換基底として用いられると、同じだけ変換係数に量子化誤差が乗ったとしても、低次の基底の値(すなわち振幅)に応じて誤差分布に偏りが生じる。つまり、ブロック内において、低次の基底の値が小さな上側または左側の領域では、誤差は小さくなりやすく、逆に、ブロック内において、低次の基底の値が大きな下側または右側の領域では、誤差は大きくなりやすい。
図26は、互いに隣接する4つのブロックの誤差分布と、それらに対するデブロッキングフィルタ処理後の誤差分布とを示す図である。
図26の(a)および(b)の左側に示すように、4つのブロックのそれぞれの直交変換にDST-VIIが用いられた場合には、これらのブロック内の上側または左側の領域では、誤差は小さく、逆に、ブロック内の下側または右側の領域では、誤差は大きい。
このように誤差分布が一様でない場合に、ブロック境界に対して対称なフィルタ特性を有するデブロッキングフィルタ処理を行うと、図26の(a)の右側に示すように、誤差がより大きくなってしまう領域が発生するという課題がある。つまり、誤差が大きい領域と小さい領域とが隣接している際、もともと誤差が小さい画素に余計な誤差を乗せてしまう。
そこで、本実施の形態では、ブロックの直交変換に用いられた基底に基づいて、誤差分布を推定し、その結果に基づいてデブロッキングフィルタ処理を行う。これにより、図26の(b)の左側に示すように、もともと誤差が小さかった画素に誤差を乗せることなく、もともと誤差が大きかった画素におけるその誤差を抑えることができる。
図27は、本実施の形態に係るループフィルタ部120の主要な構成を示すブロック図である。
ループフィルタ部120は、誤差分布推定部1201、フィルタ特性決定部1202、およびフィルタ処理部1203を備える。
誤差分布推定部1201は、誤差関連パラメータに基づいて、誤差分布を推定する。誤差関連パラメータは、誤差の大小関係に影響を与えるパラメータであって、例えば、デブロッキングフィルタ処理されるブロック境界を挟む2つのブロックのそれぞれの直交変換に適用された基底の種別を示す。
フィルタ特性決定部1202は、誤差分布推定部1201によって推定された誤差分布に基づいて、フィルタ特性を決定する。
フィルタ処理部1203は、フィルタ特性決定部1202によって決定されたフィルタ特性を有するデブロッキングフィルタ処理をブロック境界付近に対して行う。
図28は、本実施の形態に係るループフィルタ部120の概略的な処理動作を示すフローチャートである。
まず、誤差分布推定部1201は、誤差関連パラメータを取得する。この誤差関連パラメータは、誤差の大小関係に影響を与えるパラメータであって、言い換えれば、デブロッキングフィルタ処理の対象となる領域における誤差分布を特徴付ける情報である。具体的には、誤差関連パラメータは、デブロッキングフィルタ処理されるブロック境界を挟む2つのブロックの直交変換に適用された基底の種別、すなわち2つのブロックの基底の組み合わせを示す。そして、誤差分布推定部1201は、その誤差関連パラメータに基づいて、デブロッキングフィルタ処理の対象となる領域における誤差分布を推定する(ステップS1201)。具体には、誤差分布推定部1201は、N個に分類されている誤差分布から、その誤差関連パラメータに対応するi(1≦i≦N)番目の誤差分布を選択する。これによって、誤差分布が推定される。
次に、フィルタ特性決定部1202は、その推定された誤差分布に応じたフィルタ特性を決定する(ステップS1202)。つまり、フィルタ特性決定部1202は、N個の誤差分布のそれぞれにフィルタ特性が対応付けられているテーブルを参照する。そして、フィルタ特性決定部1202は、ステップS1201で推定された誤差分布に対応付けられているフィルタ特性をそのテーブルから見つけ出す。これによって、フィルタ特性が決定される。
最後に、フィルタ処理部1203は、入力信号によって示される画像に対して、ステップS1202で決定されたフィルタ特性が反映されたデブロッキングフィルタ処理を実行する(ステップS1203)。なお、入力信号によって示される画像は、例えば、再構成画像である。
本実施の形態では、誤差関連パラメータは、ブロックの変換に用いられた基底の種別を示す。したがって、本実施の形態では、基底に基づいてデブロッキングフィルタ処理を行う。例えば、ループフィルタ部120は、互いに隣接する2つのブロックに対して用いられた直交変換の基底の組み合わせに応じ、デブロッキングフィルタ処理のフィルタ係数および閾値のうちの少なくとも1つをフィルタ特性として決定する。つまり、フィルタ特性は、誤差の大小関係に基づいて設計される。そして、ループフィルタ部120は、その決定されたフィルタ特性を有するデブロッキングフィルタ処理を対象画素に対して行う。
すなわち、本実施の形態における符号化装置100は、例えば、処理回路とメモリとを備える。そして、処理回路は、そのメモリを用いて以下の処理を行う。つまり、処理回路は、それぞれ複数の画素からなるブロックごとに、基底を用いて、当該ブロックを、複数の変換係数からなるブロックに変換する。次に、処理回路は、その複数の変換係数からなるブロックごとに、当該ブロックに対して少なくとも逆変換を行うことによって、複数の画素からなるブロックを再構成する。次に、処理回路は、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、その2つのブロックの境界に対するフィルタ特性を決定する。そして、処理回路は、決定されたフィルタ特性を有するデブロッキングフィルタ処理を行う。
なお、処理回路は、例えば、CPU(Central Processing Unit)またはプロセッサなどからなり、図1に示すループフィルタ部120として機能する。また、メモリは、ブロックメモリ118またはフレームメモリ122であってもよく、その他のメモリであってもよい。
同様に、本実施の形態における復号装置200は、例えば、処理回路と、メモリとを備える。そして、処理回路は、そのメモリを用いて以下の処理を行う。つまり、処理回路は、基底を用いた変換によって得られた複数の変換係数からなるブロックごとに、当該ブロックに対して少なくとも逆変換を行うことによって、複数の画素からなるブロックを再構成する。次に、処理回路は、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、その2つのブロックの境界に対するフィルタ特性を決定する。そして、処理回路は、決定されたフィルタ特性を有するデブロッキングフィルタ処理を行う。
なお、処理回路は、例えば、CPU(Central Processing Unit)またはプロセッサなどからなり、図10に示すループフィルタ部212として機能する。また、メモリは、ブロックメモリ210またはフレームメモリ214であってもよく、その他のメモリであってもよい。
これにより、再構成された互いに隣接する2つのブロックのそれぞれの変換に用いられた基底の組み合わせに基づいて、その2つのブロックの境界に対するフィルタ特性が決定されるため、例えば、その境界に対して非対称なフィルタ特性を決定することができる。その結果、2つのブロックの境界を挟む画素のそれぞれの画素値の誤差に違いがある場合であっても、非対称なフィルタ特性を有するデブロッキングフィルタ処理を行うことによって、その誤差を抑える可能性を高めることができる。
図29は、本実施の形態に係るループフィルタ部120の詳細な構成を示すブロック図である。
ループフィルタ部120は、図27に示す構成と同様、誤差分布推定部1201、フィルタ特性決定部1202およびフィルタ処理部1203を備える。さらに、ループフィルタ部120は、スイッチ1205、1207および1209と、境界判定部1204と、フィルタ判定部1206と、処理判定部1208とを備える。
境界判定部1204は、デブロッキングフィルタ処理される画素(すなわち対象画素)がブロック境界付近に存在しているか否かを判定する。そして、境界判定部1204は、その判定結果をスイッチ1205および処理判定部1208に出力する。
スイッチ1205は、対象画素がブロック境界付近に存在していると境界判定部1204によって判定された場合には、フィルタ処理前の画像を、スイッチ1207に出力する。逆に、スイッチ1205は、境界判定部1204によって対象画素がブロック境界付近に存在していないと判定された場合には、フィルタ処理前の画像をスイッチ1209に出力する。
フィルタ判定部1206は、対象画素の周辺にある少なくとも1つの周辺画素の画素値と、誤差分布推定部1201によって推定された誤差分布とに基づいて、対象画素に対してデブロッキングフィルタ処理を行うか否かを判定する。そして、フィルタ判定部1206は、その判定結果をスイッチ1207および処理判定部1208に出力する。
スイッチ1207は、対象画素にデブロッキングフィルタ処理を行うとフィルタ判定部1206によって判定された場合には、スイッチ1205を介して取得したフィルタ処理前の画像を、フィルタ処理部1203に出力する。逆に、スイッチ1207は、対象画素にデブロッキングフィルタ処理を行わないとフィルタ判定部1206によって判定された場合には、スイッチ1205を介して取得したフィルタ処理前の画像をスイッチ1209に出力する。
フィルタ処理部1203は、スイッチ1205および1207を介してフィルタ処理前の画像を取得した場合には、フィルタ特性決定部1202によって決定されたフィルタ特性を有するデブロッキングフィルタ処理を、対象画素に対して実行する。そして、フィルタ処理部1203は、そのフィルタ処理後の画素をスイッチ1209に出力する。
スイッチ1209は、処理判定部1208による制御に応じて、デブロッキングフィルタ処理されていない画素と、フィルタ処理部1203によってデブロッキングフィルタ処理された画素とを選択的に出力する。
処理判定部1208は、境界判定部1204およびフィルタ判定部1206のそれぞれの判定結果に基づいて、スイッチ1209を制御する。つまり、処理判定部1208は、対象画素がブロック境界付近に存在していると境界判定部1204によって判定され、かつ、対象画素にデブロッキングフィルタ処理を行うとフィルタ判定部1206によって判定された場合には、デブロッキングフィルタ処理された画素をスイッチ1209から出力させる。また、上述の場合以外では、処理判定部1208は、デブロッキングフィルタ処理されていない画素をスイッチ1209から出力させる。このような画素の出力が繰り返し行われることによって、フィルタ処理後の画像がスイッチ1209から出力される。
図30は、ブロック境界に対して対称なフィルタ特性を有するデブロッキングフィルタの例を示す図である。
HEVCのデブロッキングフィルタ処理では、画素値と量子化パラメータを用いて、特性の異なる2つのデブロッキングフィルタ、すなわちストロングフィルタおよびウィークフィルタのうちの何れか1つが選択される。ストロングフィルタでは、図30に示すように、ブロック境界を挟んで画素p0-p2と、画素q0-q2とが存在する場合、画素q0-q2のそれぞれの画素値は、以下の式に示す演算を行うことによって、画素値q’0-q’2に変更される。
q’0=(p1+2×p0+2×q0+2×q1+q2+4)/8
q’1=(p0+q0+q1+q2+2)/4
q’2=(p0+q0+q1+3×q2+2×q3+4)/8
なお、上述の式において、p0-p2およびq0-q2は、画素p0-p2および画素q0-q2のそれぞれの画素値である。また、q3は、画素q2にブロック境界と反対側に隣接する画素q3の画素値である。また、上述の各式の右辺において、デブロッキングフィルタ処理に用いられる各画素の画素値に乗算される係数が、フィルタ係数である。
さらに、HEVCのデブロッキングフィルタ処理では、演算後の画素値が閾値を超えて変化しないように、クリップ処理が行われる。このクリップ処理では、上述の式による演算後の画素値は、量子化パラメータから決定される閾値を用いて、「演算前の画素値±2×閾値」にクリップされる。これにより、過度な平滑化を防ぐことができる。
しかし、このようなデブロッキングフィルタ処理では、画素値の変化は周辺の画素値と量子化パラメータから決定されており、そのフィルタ特性は、ブロック内における誤差分布の非均一性を反映せずに設計されている。したがって、図26の(a)に示すような課題が生じる場合がある。
そこで、本実施の形態におけるループフィルタ部120は、デブロッキングフィルタ処理のフィルタ特性を、ブロック内における誤差分布の非均一性を反映して決定する。具体的には、誤差分布推定部1201は、基底の振幅が大きい位置にある画素ほど、その画素の画素値の誤差が大きいと推定する。次に、フィルタ特性決定部1202は、誤差分布推定部1201によって推定された誤差分布に基づいてフィルタ特性を決定する。ここで、フィルタ特性決定部1202は、フィルタ特性のうちのフィルタ係数を決定するときには、誤差が小さい画素が、周囲の誤差が大きい画素の影響を受けにくくなるように、その誤差が大きい画素に対して、小さいフィルタ係数を決定する。また、フィルタ特性決定部1202は、誤差が大きい画素が、周囲の誤差が小さい画素の影響を受けやすくなるように、その誤差が小さい画素に対して、大きいフィルタ係数を決定する。
すなわち、ループフィルタ部120によって決定されるフィルタ係数または閾値は、必ずしもブロック境界に対して対称である必要はない。ループフィルタ部120は、誤差の大きな対象画素に対してデブロッキングフィルタ処理を行うときには、誤差の小さな画素に対して大きなフィルタ係数を決定する。また、ループフィルタ部120は、ブロック境界を挟む2つの画素のうち、誤差の小さな対象画素に対してデブロッキングフィルタ処理を行うときには、誤差の大きな画素に対して小さなフィルタ係数を決定する。
つまり、本実施の形態では、処理回路は、フィルタ特性の決定では、ブロックの変換に用いられた基底の振幅が大きい位置にある画素ほど、当該画素に対して小さいフィルタ係数をフィルタ特性として決定する。また、上述のように、低次の基底の変換係数の方が、高次の基底の変換係数よりも大きくなりやすい。したがって、上述の基底の振幅は、例えば低次の基底の振幅であって、特に、0次の基底の振幅である。
例えば、基底の振幅が大きい位置にある画素ほど、その画素の画素値は大きな誤差を有する可能性が高い。本実施の形態における符号化装置100では、その大きな誤差の画素値を有する画素に対して小さいフィルタ係数が決定される。したがって、このようなフィルタ係数を有するデブロッキングフィルタ処理によって、その大きな誤差の画素値が、小さな誤差の画素値に与える影響をより抑えることができる。つまり、誤差を抑える可能性をより高めることができる。また、低次の基底ほど誤差に与える影響は大きい。したがって、0次の基底の振幅が大きい位置にある画素ほど、その画素に対して小さいフィルタ係数が決定されることによって、誤差を抑える可能性をさらに高めることができる。
なお、誤差分布推定部1201は、直交変換の基底、ブロックサイズ、前段フィルタの有無、イントラ予測方向、インター予測の参照枚数、および量子化パラメータなどのうちの少なくとも1つを、誤差関連パラメータとして用いてもよい。
図31~図35は、ブロックサイズごとの直交変換の基底の例を示す図である。つまり、これらの図は、ブロックサイズN=32、16、8および4のそれぞれについての直交変換の基底の例を示す。具体的には、図31は、DCT-IIの基底のうちの0次~5次の基底を示し、図32は、DCT-Vの基底のうちの0次~5次の基底を示し、図33は、DCT-VIIIの基底のうちの0次~5次の基底を示す。図34は、DST-Iの基底のうちの0次~5次の基底を示し、図35は、DST-VIIの基底のうちの0次~5次の基底を示す。なお、図31~35における各グラフの横軸は、1次元空間上の位置を示し、縦軸は、基底の値(すなわち振幅)を示す。
誤差分布推定部1201は、図31~図35に示す、DCT-II、DCT-V、DCT-VIII、DST-IおよびDST-VIIなどの基底に基づいて、誤差分布を推定する。このとき、誤差分布推定部1201は、さらに、これらの基底の直交変換が適用されたブロックのサイズ、すなわち画素数Nにも基づいて、誤差分布を推定してもよい。
<DST-VII/DST-VIIの具体例>
図36は、決定されるフィルタ係数の一例を示す図である。
例えば、ループフィルタ部120は、図36に示すように、対象画素p0に対してデブロッキングフィルタ処理を行う。なお、ブロックPとブロックQとは例えば水平方向に隣接し、対象画素p0は、そのブロックPにおいて、ブロックQとの境界(すなわちブロック境界)に近い位置に存在する。
ここで、例えば、ブロックPおよびブロックQのそれぞれは、DST-VIIによって直交変換されたブロックである。このような場合、図35に示すように、ブロック内の上側と左側の領域では、低次(具体的には、0次)の基底の振幅は小さく、そのブロック内の下側と右側の領域では、低次の基底の振幅は大きい。
したがって、ブロックPとブロックQとが水平方向に隣接している場合、左側のブロックPのブロック境界付近、すなわち、そのブロックP内の右側では、低次(具体的には、0次)の基底の振幅は大きい。また、右側のブロックQのブロック境界付近、すなわち、ブロックQ内の左側では、低次の基底の振幅は小さい。
その結果、誤差分布推定部1201は、ブロックP内のブロック境界付近では、大きな誤差を推定し、ブロックQ内のブロック境界付近では、小さい誤差を推定する。これにより、ブロック境界付近の誤差分布が推定される。
フィルタ特性決定部1202は、その推定された誤差分布に基づいて、例えば5タップのデブロッキングフィルタのフィルタ係数を、フィルタ特性として決定する。
なお、5タップのデブロッキングフィルタは、水平方向に配列された5つの画素を用いるデブロッキングフィルタである。画素p0が対象画素である場合、5つの画素は、画素p2、p1、p0、q0、およびq1である。また、基準となる5タップのデブロッキングフィルタのフィルタ係数は、例えば、(1,2,2,2,1)/8である。この基準となるフィルタ係数を用いた演算によって、すなわち、p’0=(1×p2+2×p1+2×p0+2×q0+1×q1)/8によって、対象画素p0の演算後の画素値p’0が算出される。
本実施の形態におけるフィルタ特性決定部1202は、上述のような誤差分布が推定された場合には、上述の基準とは異なるフィルタ係数をフィルタ特性として決定する。具体的には、ブロックP内の誤差が大きいと推定された位置の画素に対して、小さいフィルタ係数を決定し、ブロックQ内の誤差が小さいと推定された位置の画素に対して、大きいフィルタ係数を決定する。より具体的には、図36に示すように、フィルタ特性決定部1202は、ブロックPの対象画素p0に対してデブロッキングフィルタ処理を行うための、画素p2,p1,p0,q0,q1のそれぞれのフィルタ係数を、(0.5, 1.0, 1.0, 2.0, 1.5)/6のように決定する。この場合、ブロックP内の誤差が大きいと推定された位置の画素p0に対して決定されるフィルタ係数は「1.0/6」であり、ブロックQ内の誤差が小さいと推定された位置の画素q0に対して決定されるフィルタ係数は「2.0/6」である。つまり、画素p0のフィルタ係数は、画素q0のフィルタ係数よりも小さく、画素q0のフィルタ係数は、画素p0のフィルタ係数よりも大きい。
その結果、フィルタ処理部1203は、このように決定されたフィルタ係数を用いた演算を行うことによって、すなわち、p’0=(0.5×p2+1.0×p1+1.0×p0+2.0×q0+1.5×q1)/6によって、対象画素p0の演算後の画素値p’0を算出する。この演算後の画素値p’0が、対象画素p0のデブロッキングフィルタ処理後の画素値である。
ここで、本実施の形態におけるフィルタ特性決定部1202は、その推定された誤差分布に基づいて、さらに、クリップ処理の閾値をフィルタ特性として決定してもよい。なお、閾値は、上述の基準値またはクリップ幅である。例えば、フィルタ特性決定部1202は、基底の振幅が大きい位置、すなわち誤差が大きいと推定された位置の画素に対して、大きい閾値を決定する。逆に、フィルタ特性決定部1202は、基底の振幅が小さい位置、すなわち誤差が小さいと推定された位置の画素に対して、小さい閾値を決定する。なお、この基底の振幅は、例えば低次の基底の振幅であり、具体的には0次の基底の振幅である。例えば、基準となる閾値が10である場合、フィルタ特性決定部1202は、ブロックPのブロック境界に近い右側の画素に対しては、12を閾値として決定し、ブロックQのブロック境界に近い左側の画素に対しては、8を閾値として決定する。
フィルタ処理部1203は、対象画素p0に対して閾値が決定された場合、対象画素p0の演算後の画素値p’0に対してクリップ処理を行う。対象画素p0に対して決定される閾値は、例えば12である。そこで、フィルタ処理部1203は、演算前の画素値p0から演算後の画素値p’0への変化量が、閾値12よりも大きい場合には、フィルタ処理部1203は、その演算後の画素値p’0を、画素値(p0+12)または画素値(p0-12)にクリップする。より具体的には、フィルタ処理部1203は、(p0-p’0)>12の場合には、演算後の画素値p’0を(p0-12)にクリップし、(p0-p’0)<-12の場合には、演算後の画素値p’0を(p0+12)にクリップする。これにより、画素値(p0+12)または画素値(p0-12)が、対象画素p0のデブロッキングフィルタ処理後の画素値p’0とされる。一方、その変化量が12以下の場合には、演算後の画素値p’0が、対象画素p0のデブロッキングフィルタ処理後の画素値とされる。
このように、本実施の形態では、2つのブロックは、第1のブロックと、その第1のブロックの右側または下側にある第2のブロックとからなる。処理回路は、フィルタ特性の決定では、第1のブロックの変換に用いられた基底が第1の基底であり、第2のブロックの変換に用いられた基底が第2の基底である場合、第1のブロック内の境界付近にある画素に対する第1のフィルタ係数と、第2のブロック内の境界付近にある画素に対する第2のフィルタ係数とをそれぞれフィルタ特性として、第1の基底および第2の基底に基づいて決定する。具体的には、処理回路は、フィルタ特性の決定では、第1の基底および第2の基底がDST(Discrete Sine Transforms)-VIIである場合、第1のフィルタ係数よりも大きい第2のフィルタ係数をフィルタ特性として決定する。
第1の基底および第2の基底がDST-VIIである場合、第1のブロックの境界付近では誤差が大きく、第2のブロックの境界付近では誤差が小さい可能性が高い。したがって、このような場合に、第1のフィルタ係数よりも大きい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われることによって、その境界付近の誤差を適切に抑える可能性を高めることができる。
また、処理回路は、フィルタ特性の決定では、さらに、第1のブロックおよび第2のブロックの基底の組み合わせに基づいて、第1のブロックに対する第1の閾値と、第2のブロックに対する第2の閾値とをフィルタ特性として決定する。そして、処理回路は、デブロッキングフィルタ処理では、対象画素の画素値に対して、第1のフィルタ係数および第2のフィルタ係数を用いた演算を行うことによって、対象画素の演算後の画素値を取得する。次に、処理回路は、対象画素の演算前の画素値から演算後の画素値への変化量が、第1の閾値および第2の閾値のうちの対象画素が属するブロックの閾値よりも大きいか否かを判定する。そして、処理回路は、変化量が閾値よりも大きい場合には、対象画素の演算後の画素値を、対象画素の演算前の画素値と閾値との和または差にクリップする。
これにより、対象画素の演算後の画素値の変化量が閾値よりも大きい場合には、その演算後の画素値は、演算前の画素値と閾値との和または差にクリップされるため、デブロッキングフィルタ処理によって処理対象の画素値が大きく変化してしまうことを抑えることができる。また、第1のブロックに対する第1の閾値と、第2のブロックに対する第2の閾値とは、その第1のブロックおよび第2のブロックの基底の組み合わせに基づいて決定される。したがって、第1のブロックおよび第2のブロックのそれぞれで、基底の振幅が大きい位置にある画素、すなわち誤差が大きい画素に対して、大きい閾値を決定し、基底の振幅が小さい位置にある画素、すなわち誤差が小さい画素に対して、小さい閾値を決定することができる。その結果、デブロッキングフィルタ処理によって、誤差が大きい画素の画素値が大きく変化することを許可し、誤差が小さい画素の画素値が大きく変化することを禁止することができる。したがって、第1のブロックおよび第2のブロックの境界付近の誤差を適切に抑える可能性をさらに高めることができる。
<DST-VII/DCT-IIの具体例>
図37は、決定されるフィルタ係数の他の例を示す図である。
例えば、ループフィルタ部120は、図36に示す例と同様、図37に示すように、対象画素p0に対してデブロッキングフィルタ処理を行う。
ここで、例えば、ブロックPは、DST-VIIによって直交変換されたブロックであり、ブロックQは、DCT-IIによって直交変換されたブロックである。このような場合、図35に示すように、ブロックP内の上側と左側の領域では、低次(具体的には、0次)の基底の振幅は小さく、そのブロックP内の下側と右側の領域では、低次の基底の振幅は大きい。一方、図31に示すように、ブロックQ内では、低次の基底の振幅は一定であるが、ブロックPの上側と左側の領域における振幅よりも大きく、ブロックPの下側と右側の領域における振幅よりも小さい。すなわち、ブロックQ内では、低次の基底の振幅は、中レベルで一定である。
したがって、ブロックPとブロックQとが水平方向に隣接している場合、左側のブロックPのブロック境界付近、すなわち、そのブロックP内の右側では、低次(具体的には、0次)の基底の振幅は大きい。また、右側のブロックQのブロック境界付近、すなわち、ブロックQ内の左側では、低次の基底の振幅は中レベルである。
その結果、誤差分布推定部1201は、ブロックP内のブロック境界付近では、大きな誤差を推定し、ブロックQ内のブロック境界付近では、中レベルの誤差を推定する。これにより、ブロック境界付近の誤差分布が推定される。つまり、図36に示す例よりも、ブロック境界に垂直な方向に緩やかな誤差変化を示す誤差分布が推定される。
フィルタ特性決定部1202は、その推定された誤差分布に基づいて、例えば5タップのデブロッキングフィルタのフィルタ係数を、フィルタ特性として決定する。つまり、フィルタ特性決定部1202は、ブロックP内の誤差が大きい位置にある対象画素p0が、ブロックQ内の中レベルの誤差を有する画素の影響を受けやすくなるようにフィルタ係数を決定する。また、ブロック境界付近の誤差分布は、ブロック境界に垂直な方向に緩やかな誤差変化を示すため、フィルタ特性決定部1202は、図36に示す例よりも、互いの差分が小さい5つのフィルタ係数を決定する。具体的には、フィルタ特性決定部1202は、ブロックPの対象画素p0に対してデブロッキングフィルタ処理を行うための、画素p2,p1,p0,q0,q1のそれぞれのフィルタ係数を、(0.5, 1.0, 1.5, 1.75, 1.25)/6のように決定する。この場合、ブロックP内の誤差が大きいと推定された位置の画素p0に対して決定されるフィルタ係数は「1.5/6」であり、ブロックQ内の誤差が中レベルと推定された位置の画素q0に対して決定されるフィルタ係数は「1.75/6」である。つまり、画素p0のフィルタ係数は、画素q0のフィルタ係数よりも小さく、画素q0のフィルタ係数は、画素p0のフィルタ係数よりも大きい。また、画素p0のフィルタ係数と、画素q0のフィルタ係数との差分は、図36に示す例の場合よりも小さい。
また、ブロックPとブロックQとが垂直方向に隣接している場合であっても、誤差分布推定部1201は、上述と同様に、誤差分布を推定し、フィルタ特性決定部1202は、その誤差分布に基づいてフィルタ係数を決定する。さらに、フィルタ特性決定部1202は、図36に示す例と同様に、クリップ処理の閾値を決定し、フィルタ処理部1203は、その閾値を用いてクリップ処理を行ってもよい。
<DST-I/DST-Iの具体例>
図38は、決定されるフィルタ係数のさらに他の例を示す図である。
例えば、ループフィルタ部120は、図36および図37に示す例と同様、図38に示すように、対象画素p0に対してデブロッキングフィルタ処理を行う。
ここで、例えば、ブロックPおよびブロックQのそれぞれは、DST-Iによって直交変換されたブロックである。このような場合、図34に示すように、ブロック内の上側と左側の領域における低次(具体的には、0次)の基底の振幅と、ブロック内の下側と右側の領域における低次の基底の振幅とは、等しい。
したがって、ブロックPとブロックQとが水平方向に隣接している場合、ブロックPのブロック境界付近における低次の基底の振幅と、ブロックQのブロック境界付近における低次の基底の振幅とは、等しい。
その結果、誤差分布推定部1201は、ブロックPおよびブロックQのブロック境界付近の誤差分布として、そのブロック境界に対して対称な誤差分布を推定する。
このような場合、フィルタ特性決定部1202は、その誤差分布に基づくフィルタ特性として、上述の基準のフィルタ特性、すなわち、ブロック境界に対して対称なフィルタ特性を決定する。
また、ブロックPおよびブロックQのそれぞれが、DCT-IIによって直交変換されたブロックである場合であっても、上述と同様、ブロックPのブロック境界付近における低次の基底の振幅と、ブロックQのブロック境界付近における低次の基底の振幅とは、等しい。したがって、このような場合であっても、誤差分布推定部1201は、ブロックPおよびブロックQのブロック境界付近の誤差分布として、そのブロック境界に対して対称な誤差分布を推定する。そして、フィルタ特性決定部1202は、その誤差分布に基づくフィルタ特性として、上述の基準のフィルタ特性、すなわち、ブロック境界に対して対称なフィルタ特性を決定する。基準となる5タップのデブロッキングフィルタのフィルタ係数は、例えば、(1,2,2,2,1)/8である。この場合、ブロックP内の画素p0に対して決定されるフィルタ係数は「2/8」であり、ブロックQ内の画素q0に対して決定されるフィルタ係数は「2/8」である。つまり、これらのフィルタ係数は、ブロック境界に対して対称である。
このように、本実施の形態では、第1の基底および第2の基底がDCT(Discrete Cosine Transforms)-IIである場合、第1のフィルタ係数と等しい第2のフィルタ係数をフィルタ特性として決定する。
第1の基底および第2の基底がDCT-IIである場合、第1のブロックの境界付近と、第2のブロックの境界付近とでは誤差が等しい可能性が高い。したがって、このような場合に、第1のフィルタ係数と等しい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われることによって、その境界付近の誤差を適切に抑える可能性を高めることができる。
<ブロックサイズの具体例>
図39は、ブロックサイズと誤差との関係を説明するための図である。なお、ブロックサイズは、ブロック幅またはブロック内の画素数である。具体的には、図39の(a)は、ブロックサイズN=32におけるDST-VIIの0次~5次の基底を示し、図39の(b)は、ブロックサイズN=4におけるDST-VIIの0次~5次の基底を示す。なお、図39における各グラフの横軸は、1次元空間上の位置を示し、縦軸は、基底の値(すなわち振幅)を示す。
ブロック境界における基底の振幅は、直交変換されるブロックの画素数であるブロックサイズに応じて異なる。そこで、本実施の形態における誤差分布推定部1201は、そのブロックサイズにも基づいて、誤差分布を推定する。これにより、決定されるフィルタ係数の精度を向上することができる。
例えば、図39に示すように、DST-VIIで直交変換されたブロックであっても、ブロックサイズN=4の場合と、ブロックサイズN=32の場合とで、ブロック境界における基底の振幅が異なっている。具体的には、ブロックサイズN=32の場合、図39の(a)に示すように、DST-VIIの位置n=32における0次~5次の基底の振幅は、全て1である。なお、n=32の位置は、ブロックサイズN=32のブロック内の右側または下側の端である。一方、ブロックサイズN=4の場合、図39の(b)に示すように、DST-VIIの位置n=4における0次~3次の基底の振幅には、1よりも小さいものがある。なお、n=4の位置は、ブロックサイズN=4のブロック内の右側または下側の端である。
したがって、本実施の形態における誤差分布推定部1201は、DST-VIIで直交変換されたブロックの右側および下側の誤差として、ブロックサイズN=4の場合には、小さい誤差を推定し、ブロックサイズN=32の場合には、それよりも大きい誤差を推定する。
図40は、決定されるフィルタ係数のさらに他の例を示す図である。
例えば、ループフィルタ部120は、図36~図38に示す例と同様、図40に示すように、対象画素p0に対してフィルタ処理を行う。
ここで、例えば、ブロックPは、DST-VIIによって直交変換されたブロックサイズN=32のブロックであり、ブロックQは、DST-VIIによって直交変換されたブロックサイズN=4のブロックである。このような場合、図39の(a)に示すように、ブロックP内の上側と左側の領域では、低次(具体的には、0次)の基底の振幅は小さく、そのブロックP内の下側と右側の領域では、低次の基底の振幅は大きい。一方、図39の(b)に示すように、ブロックQ内の上側と左側の領域では、低次の基底の振幅は中レベルである。
その結果、誤差分布推定部1201は、ブロックP内のブロック境界付近では、大きな誤差を推定し、ブロックQ内のブロック境界付近では、中レベルの誤差を推定する。これにより、ブロック境界付近の誤差分布が推定される。つまり、図36に示す例よりも、ブロック境界に垂直な方向に緩やかな誤差変化を示す誤差分布が推定される。
フィルタ特性決定部1202は、その推定された誤差分布に基づいて、例えば5タップのフィルタのフィルタ係数を、フィルタ特性として決定する。つまり、フィルタ特性決定部1202は、ブロックP内の誤差が大きい対象画素p0が、ブロックQ内の中レベルの誤差を有する画素の影響を受けやすくなるようにフィルタ係数を決定する。また、ブロック境界付近の誤差分布は、ブロック境界に垂直な方向に緩やかな誤差変化を示すため、フィルタ特性決定部1202は、図36に示す例よりも、互いの差分が小さい5つのフィルタ係数を決定する。具体的には、フィルタ特性決定部1202は、ブロックPの対象画素p0に対してデブロッキングフィルタ処理を行うための、画素p2,p1,p0,q0,q1のそれぞれのフィルタ係数を、(0.5, 1.0, 1.5, 1.75, 1.25)/6のように決定する。この場合、ブロックP内の誤差が大きいと推定された位置の画素p0に対して決定されるフィルタ係数は「1.5/6」であり、ブロックQ内の誤差が中レベルと推定された位置の画素q0に対して決定されるフィルタ係数は「1.75/6」である。つまり、画素p0のフィルタ係数は、画素q0のフィルタ係数よりも小さく、画素q0のフィルタ係数は、画素p0のフィルタ係数よりも大きい。また、画素p0のフィルタ係数と、画素q0のフィルタ係数との差分は、図36に示す例の場合よりも小さい。
このように、本実施の形態では、処理回路は、フィルタ特性の決定では、第1の基底および第2の基底がDST(Discrete Sine Transforms)-VIIであって、第2のブロックのサイズが、第1のブロックのサイズよりも小さい場合、第1のフィルタ係数よりも大きい第2のフィルタ係数をフィルタ特性として決定する。この決定された第1のフィルタ係数と第2のフィルタ係数との間のフィルタ係数の傾斜は、第1のブロックおよび第2のブロックのサイズが等しい場合よりも緩やかである。
第1の基底および第2の基底がDST-VIIであって、第2のブロックのサイズが、第1のブロックのサイズよりも小さい場合、第1のブロックの境界付近では誤差が大きく、第2のブロックの境界付近では誤差が中レベルの可能性が高い。つまり、第1のブロックと第2のブロックとの境界付近における誤差分布は緩やかな勾配を有している可能性が高い。
本実施の形態における符号化装置100では、このような場合に、第1のフィルタ係数よりも大きい第2のフィルタ係数が決定され、これらの第1および第2のフィルタ係数を有するデブロッキングフィルタ処理が行われる。ここで、決定される第1のフィルタ係数と第2のフィルタ係数との間のフィルタ係数の傾斜は、第1のブロックおよび第2のブロックのサイズが等しい場合よりも緩やかである。したがって、第1のブロックと第2のブロックとの境界付近における誤差分布が緩やかな勾配を有していても、その境界付近の誤差を適切に抑える可能性を高めることができる。
<変形例1>
上記実施の形態7では、フィルタ処理部1203は、誤差が小さい画素に対してもデブロッキングフィルタ処理を行ったが、誤差が小さい画素に対するデブロッキングフィルタ処理をオフにしてもよい。なお、デブロッキングフィルタ処理をオフにするということは、対象画素に対するフィルタ係数を1に設定し、対象画素以外の画素に対するフィルタ係数をゼロに設定することと等価である。
また、上記実施の形態7では、フィルタ判定部1206とフィルタ特性決定部1202は、誤差分布推定部1201によって推定された誤差分布に基づいて処理を行う。しかし、フィルタ判定部1206は、量子化パラメータのみを用いて、フィルタ処理を行うか否かを判定してもよく、フィルタ特性決定部1202は、量子化パラメータと直交変換の基底とに基づいてフィルタ特性を決定してもよい。
また、本変形例では、輝度信号および色差信号のそれぞれに対してデブロッキングフィルタ処理を行ってもよい。この場合、ループフィルタ部120は、輝度信号のデブロッキングフィルタと色差信号のデブロッキングフィルタとを独立に設計しても、互いに依存するように設計してもよい。例えば、ループフィルタ部120は、輝度信号および色差信号のうちの一方の信号に対してのみ、上記実施の形態7のデブロッキングフィルタ処理を行い、他方の信号に対しては、それ以外のデブロッキングフィルタ処理を行ってもよい。
また、本変形例では、例えばイントラ予測ブロックのみに、上記実施の形態7のデブロッキングフィルタ処理を行ってもよい。あるいは、イントラ予測ブロックとインター予測ブロックの両方に、上記実施の形態7のデブロッキングフィルタ処理を行ってもよい。
また、ループフィルタ部120は、スライス単位、タイル単位、ウェーブフロント分割単位、またはCTU単位で、上記実施の形態7のデブロッキングフィルタ処理のオンとオフとを切り替えてもよい。
また、直交変換後に、更に変換を行うことで、周波数空間における係数の偏りを高め、圧縮効率を高める技術が存在する(例えば、JVETにおけるNon-Separable Secondary Transform)。このときも、ループフィルタ部120は、直交変換の変換基底に基づいてフィルタ特性を決定してもよい。
また、例えば、第1のブロックに対して、1回目および2回目のそれぞれでDST-VIIによる直交変換が行われ、第2のブロックに対して、1回目にDST-VIIによる直交変換が行われ、2回目にDCT-IIによる直交変換が行われることがある。このような場合、ループフィルタ部120は、第1のブロックに対して第2のブロックよりも急な誤差分布を推定する。つまり、第1のブロックの水平方向および垂直方向における誤差分布の傾斜は、第2のブロックの誤差分布の傾斜よりも急である。そして、ループフィルタ部120は、その急な誤差分布に基づいてフィルタ特性を決定する。
また、1回目の変換と2回目の変換とでブロックサイズが異なることがあり得る。このような場合、ループフィルタ部120は、互いに異なる2つのブロックサイズのブロックの少なくとも一方の境界に、デブロッキングフィルタ処理を行う。
また、インター予測ブロックに対して、上記実施の形態7のデブロッキングフィルタ処理を行う場合には、予測方法に応じて、直交変換後の各周波数に対する係数の分布または絶対値が異なることが予想される。この予測方法には、例えば、Uni-pred(1枚参照予測)と、Bi-pred(2枚参照予測)とがある。
したがって、ループフィルタ部120は、予測方法に応じたフィルタ係数を決定してもよい。例えば、ループフィルタ部120は、係数の絶対値が大きい傾向を持つUni-predのブロックに対するフィルタの重みを、Bi-predのブロックに対するフィルタの重みより小さくする。
また、ループフィルタ部120は、マージモードが適用されたブロックに対するフィルタの重みを独自に決定してもよい。例えば、ループフィルタ部120は、マージモードが適用されたブロックに対するフィルタの重みを、マージモード以外の予測が適用されたブロックに対するフィルタの重みよりも大きく、または小さくする。
また、上記実施の形態7におけるデブロッキングフィルタ処理は、処理対象の画像を原画に近づけるだけでなく、従来のデブロッキングフィルタ処理と同様に、ブロック境界を目立ちにくくする。そのため、客観的評価だけでなく主観的な評価にも重きを置くのであれば、ブロックサイズごとにフィルタの特徴を変化させることは有効である。
具体的には、誤差が大きなブロックではブロックノイズが目立つため、ループフィルタ部120は、ブロック境界を挟んだ両側のフィルタ係数、閾値、あるいは、フィルタのタップ数を、誤差が小さなブロックに対するものより大きく設定してもよい。
基本的には、画素値の相関は距離が近い画素間ほど高いため、対象画素のデブロッキングフィルタ処理に、その対象画素から離れた画素を使えば使うほど客観的評価は悪化することが考えられる。しかし、デブロッキングフィルタ処理に用いられる画素が多くなればなるほど主観的にはブロックノイズが目立ちにくくなる。したがって、客観的評価と主観的評価とのトレードオフに基づいて、ループフィルタ部120は、対象画素から離れた画素であっても、デブロッキングフィルタ処理にその画素を用いてもよい。
また、上記実施の形態7では、DCTとDSTなどの基底に応じて誤差分布を推定し、その推定された誤差分布に基づいてフィルタ特性を決定する。しかし、それらの基底の代わりに、KLT(Karhunen-Loeve Transform)、DFT(Discrete Fourier transform)、Wavelet変換、および重複変換など、他の変換手法に応じて誤差分布を推定し、その推定された誤差分布に基づいてフィルタ特性を決定してもよい。
また、上記実施の形態7における符号化装置100は、誤差分布推定部1201を備え、誤差分布を推定するが、この誤差分布推定部1201を備えていなくてもよい。つまり、符号化装置100は、誤差分布を推定することなく、ブロックの変換に用いられた基底から、フィルタ特性を直接的に決定してもよい。
<変形例2>
上記実施の形態7またはその変形例1では、基底の組み合わせに基づいて決定されたフィルタ特性を有するデブロッキングフィルタ処理を行ったが、デブロッキングフィルタ処理以外の他のループフィルタ処理を行ってもよい。
例えば、ループフィルタ部120は、変換に用いられた基底と、対象画素のブロック内の位置とを用いて、SAO(Sample Adaptive Offset)のフィルタ係数を決定してもよい。または、ループフィルタ部120は、3つをパラメータに基づくトライラテラルフィルタ処理を行ってもよい。この3つのパラメータは、例えば、画素値の差と、画素間の距離と、直交変換の基底から推定される誤差分布とからなる。あるいは、ループフィルタ部120は、イントラ処理ループ内に上記実施の形態7またはその変形例1のデブロッキングフィルタ処理を応用したフィルタ処理を行ってもよい。また、ループフィルタ部120は、周囲の画素の情報を元に対象画素の画素値を変化させる必要はなく、誤差分布に応じたオフセットを対象画素ごとに与えてもよい。
また、ループフィルタ部120は、誤差分布を予想できれば、誤差関連パラメータをフィルタ処理ごとに取得する必要はない。例えば、JEM(Joint Exploration Model)4.0のソフトウェアによるイントラ予測ブロックでは、上述のEMTの設計上、ブロックの上側と左側に誤差が乗りにくく、ブロックの下側と右側に誤差が乗りやすい。したがって、ループフィルタ部120は、それを前もって考慮して、JEM4.0のイントラ予測ブロックの上側と左側では、フィルタ強度が弱いデブロッキングフィルタ処理を行ってもよい。
上記実施の形態7またはその変形例1では、フィルタ判定部1206が対象画素に対してデブロッキングフィルタ処理を行うか否かを判定したが、その判定を行うことなく、全てのブロック境界に対してデブロッキングフィルタ処理を行ってもよい。
また、上記実施の形態7またはその変形例1では、ループフィルタ部120は、加算部116から出力される再構成ブロックのブロック境界に対して、基底の組み合わせに基づいて決定されたフィルタ特性を有するデブロッキングフィルタ処理を行う。ここで、例えば、符号化装置100は、ループフィルタ部120と異なるフィルタ部を備えていてもよい。つまり、そのフィルタ部は、再構成ブロックに対してフィルタ処理を行い、ループフィルタ部120は、そのフィルタ部によってフィルタ処理された再構成ブロックのブロック境界に対してデブロッキングフィルタ処理を行う。このような場合、ループフィルタ部120は、基底の組み合わせとともに、そのフィルタ部のフィルタ特性にも基づいて、デブロッキングフィルタ処理のフィルタ特性を決定してもよい。さらに、フィルタ部は、ブロック境界に対して対称なフィルタ特性を有するデブロッキングフィルタ処理を行ってもよい。この場合、フィルタ部に用いられるフィルタ係数は、上記実施の形態7またはその変形例1のループフィルタ部120が符号化装置100に備えられていない場合のフィルタ係数よりも小さく設定される。また、フィルタ部は、ブロック境界に対して対称なフィルタ特性を有するデブロッキングフィルタ処理として、2つのパラメータに基づくバイラテラルフィルタ処理を行ってもよい。2つのパラメータは、例えば、画素値の差と、画素間の距離とからなる。この場合、ループフィルタ部120は、例えば、図36~38および図40に示すフィルタ係数よりも全体的に小さいフィルタ係数を決定してもよい。
また、上記実施の形態7またはその変形例1では、ループフィルタ部120は、ブロック境界に対してデブロッキングフィルタ処理を行うが、ブロック内のブロック境界ではない領域に対してフィルタ処理を行ってもよい。例えば、ループフィルタ部120は、1つのブロック内で、誤差が小さい画素の画素値を用いて、誤差が大きい画素の画素値を変化させてもよい。以下、このようなフィルタ処理を、ブロック内フィルタ処理という。
具体的には、図35に示すように、DST-VIIで直交変換されたブロック内では、上側または左側にある画素の誤差は小さく、下側または右側にある画素の誤差は大きい。したがって、ループフィルタ部120は、ブロック内フィルタ処理を行うことによって、上側または左側にある画素の画素値を用いて、下側または右側にある画素の画素値を変化させる。これにより、誤差を低減する可能性を高めることができる。
図41は、ブロックサイズに応じて異なる基底の勾配を示す図である。なお、図41における各グラフの横軸は、1次元空間上の位置を示し、縦軸は、基底の値(すなわち振幅)を示す。
図41の(a)に示すように、ブロックサイズN=32におけるDST-VIIの0次の基底の振幅は、1次元空間上の位置n=1からn=32までにおいて、約10倍に増加する。一方、ブロックサイズN=4におけるDST-VIIの0次の基底の振幅は、1次元空間上の位置n=1からn=4までにおいて、約3倍に増加する。
したがって、2つのブロックのそれぞれの変換に用いられる基底が同じでも、ブロックサイズが異なれば、ブロック内の基底の勾配は、小さいブロックの方が急であり、大きいブロックの方が緩やかである。
つまり、上述のように、ループフィルタ部120がブロック内フィルタ処理を行う場合には、直交変換の低次の基底の勾配が急なブロック、すなわち、小さいブロックに対して、誤差低減の可能性を高めるという効果を、より発揮することができる。
また、ブロックのブロックサイズが大きい場合であっても、そのブロック内の画素値の相関の距離依存性または方向依存性が弱ければ、ループフィルタ部120がブロック内フィルタ処理を行うことによって、誤差低減の可能性を高めることができる。例えば、イントラ予測の方向は、画素値の相関の距離依存性または方向依存性に影響を与える。距離依存性は、2つの画素間の距離が近いほどそれらの画素の画素値の相関が高まるという性質である。方向依存性は、一方の画素から他方の画素に向かう方向に応じて、これらの画素の画素値の相関が異なるという性質である。そこで、ループフィルタ部120は、イントラ予測の方向に応じたブロック内フィルタ処理を行うことによって、誤差の大きい画素の画素値を変化させてもよい。
[実装例]
図42は、上記各実施の形態に係る符号化装置100の実装例を示すブロック図である。符号化装置100は、処理回路160及びメモリ162を備える。例えば、図1に示された符号化装置100の複数の構成要素は、図42に示された処理回路160及びメモリ162によって実装される。
処理回路160は、情報処理を行う回路であり、メモリ162にアクセス可能な回路である。例えば、処理回路160は、動画像を符号化する専用又は汎用の電子回路である。処理回路160は、CPUのようなプロセッサであってもよい。また、処理回路160は、複数の電子回路の集合体であってもよい。また、例えば、処理回路160は、図1に示された符号化装置100の複数の構成要素のうち、情報を記憶するための構成要素を除く、複数の構成要素の役割を果たしてもよい。
メモリ162は、処理回路160が動画像を符号化するための情報が記憶される汎用又は専用のメモリである。メモリ162は、電子回路であってもよく、処理回路160に接続されていてもよい。また、メモリ162は、処理回路160に含まれていてもよい。また、メモリ162は、複数の電子回路の集合体であってもよい。また、メモリ162は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ162は、不揮発性メモリでもよいし、揮発性メモリでもよい。
例えば、メモリ162には、符号化される動画像が記憶されてもよいし、符号化された動画像に対応するビット列が記憶されてもよい。また、メモリ162には、処理回路160が動画像を符号化するためのプログラムが記憶されていてもよい。
また、例えば、メモリ162は、図1に示された符号化装置100の複数の構成要素のうち、情報を記憶するための構成要素の役割を果たしてもよい。具体的には、メモリ162は、図1に示されたブロックメモリ118及びフレームメモリ122の役割を果たしてもよい。より具体的には、メモリ162には、処理済みサブブロック、処理済みブロック及び処理済みピクチャ等が記憶されてもよい。
なお、符号化装置100において、図1等に示された複数の構成要素の全てが実装されなくてもよいし、上述された複数の処理の全てが行われなくてもよい。図1等に示された複数の構成要素の一部は、他の装置に含まれていてもよいし、上述された複数の処理の一部は、他の装置によって実行されてもよい。そして、符号化装置100において、図1等に示された複数の構成要素のうちの一部が実装され、上述された複数の処理の一部が行われることによって、少ない符号量で動画像が適切に処理され得る。
図43は、上記各実施の形態に係る復号装置200の実装例を示すブロック図である。復号装置200は、処理回路260及びメモリ262を備える。例えば、図10に示された復号装置200の複数の構成要素は、図43に示された処理回路260及びメモリ262によって実装される。
処理回路260は、情報処理を行う回路であり、メモリ262にアクセス可能な回路である。例えば、処理回路260は、動画像を復号する汎用又は専用の電子回路である。処理回路260は、CPUのようなプロセッサであってもよい。また、処理回路260は、複数の電子回路の集合体であってもよい。また、例えば、処理回路260は、図10に示された復号装置200の複数の構成要素のうち、情報を記憶するための構成要素を除く、複数の構成要素の役割を果たしてもよい。
メモリ262は、処理回路260が動画像を復号するための情報が記憶される汎用又は専用のメモリである。メモリ262は、電子回路であってもよく、処理回路260に接続されていてもよい。また、メモリ262は、処理回路260に含まれていてもよい。また、メモリ262は、複数の電子回路の集合体であってもよい。また、メモリ262は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ262は、不揮発性メモリでもよいし、揮発性メモリでもよい。
例えば、メモリ262には、符号化された動画像に対応するビット列が記憶されてもよいし、復号されたビット列に対応する動画像が記憶されてもよい。また、メモリ262には、処理回路260が動画像を復号するためのプログラムが記憶されていてもよい。
また、例えば、メモリ262は、図10に示された復号装置200の複数の構成要素のうち、情報を記憶するための構成要素の役割を果たしてもよい。具体的には、メモリ262は、図10に示されたブロックメモリ210及びフレームメモリ214の役割を果たしてもよい。より具体的には、メモリ262には、処理済みサブブロック、処理済みブロック及び処理済みピクチャ等が記憶されてもよい。
なお、復号装置200において、図10等に示された複数の構成要素の全てが実装されなくてもよいし、上述された複数の処理の全てが行われなくてもよい。図10等に示された複数の構成要素の一部は、他の装置に含まれていてもよいし、上述された複数の処理の一部は、他の装置によって実行されてもよい。そして、復号装置200において、図10等に示された複数の構成要素のうちの一部が実装され、上述された複数の処理の一部が行われることによって、少ない符号量で動画像が適切に処理され得る。
[補足]
上記各実施の形態における符号化装置100及び復号装置200は、それぞれ、画像符号化装置及び画像復号装置として利用されてもよいし、動画像符号化装置及び動画像復号装置として利用されてもよい。あるいは、符号化装置100及び復号装置200は、それぞれ、インター予測装置として利用され得る。すなわち、符号化装置100及び復号装置200は、それぞれ、インター予測部126及びインター予測部218のみに対応していてもよい。
また、上記各実施の形態では、予測ブロックを符号化対象ブロックまたは復号対象ブロックとして符号化または復号したが、符号化対象ブロックまたは復号対象ブロックは、予測ブロックに限らず、サブブロックであってもよいし、他のブロックであってもよい。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
具体的には、符号化装置100及び復号装置200のそれぞれは、処理回路(Processing Circuitry)と、当該処理回路に電気的に接続された、当該処理回路からアクセス可能な記憶装置(Storage)とを備えていてもよい。
処理回路は、専用のハードウェア及びプログラム実行部の少なくとも一方を含み、記憶装置を用いて処理を実行する。また、記憶装置は、処理回路がプログラム実行部を含む場合には、当該プログラム実行部により実行されるソフトウェアプログラムを記憶する。
ここで、上記各実施の形態の符号化装置100又は復号装置200などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、図5B、図5D、図11、図13、図14、図16、図19、図20、図22、および図28のうちの何れかに示すフローチャートにしたがった処理を実行させる。
また、各構成要素は、上述の通り、回路であってもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路であってもよい。また、各構成要素は、汎用的なプロセッサで実現されてもよいし、専用のプロセッサで実現されてもよい。
また、特定の構成要素が実行する処理を別の構成要素が実行してもよい。また、処理を実行する順番が変更されてもよいし、複数の処理が並行して実行されてもよい。また、符号化復号装置が、符号化装置100及び復号装置200を備えていてもよい。
説明に用いられた第1及び第2等の序数は、適宜、付け替えられてもよい。また、構成要素などに対して、序数が新たに与えられてもよいし、取り除かれてもよい。
以上、符号化装置100及び復号装置200の態様について、各実施の形態に基づいて説明したが、符号化装置100及び復号装置200の態様は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、符号化装置100及び復号装置200の態様の範囲内に含まれてもよい。
(実施の形態8)
以上の各実施の形態において、機能ブロックの各々は、通常、MPU及びメモリ等によって実現可能である。また、機能ブロックの各々による処理は、通常、プロセッサなどのプログラム実行部が、ROM等の記録媒体に記録されたソフトウェア(プログラム)を読み出して実行することで実現される。当該ソフトウェアはダウンロード等により配布されてもよいし、半導体メモリなどの記録媒体に記録して配布されてもよい。なお、各機能ブロックをハードウェア(専用回路)によって実現することも、当然、可能である。
また、各実施の形態において説明した処理は、単一の装置(システム)を用いて集中処理することによって実現してもよく、又は、複数の装置を用いて分散処理することによって実現してもよい。また、上記プログラムを実行するプロセッサは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、又は分散処理を行ってもよい。
本開示の態様は、以上の実施例に限定されることなく、種々の変更が可能であり、それらも本開示の態様の範囲内に包含される。
さらにここで、上記各実施の形態で示した動画像符号化方法(画像符号化方法)又は動画像復号化方法(画像復号方法)の応用例とそれを用いたシステムを説明する。当該システムは、画像符号化方法を用いた画像符号化装置、画像復号方法を用いた画像復号装置、及び両方を備える画像符号化復号装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。
[使用例]
図44は、コンテンツ配信サービスを実現するコンテンツ供給システムex100の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ex106、ex107、ex108、ex109、ex110が設置されている。
このコンテンツ供給システムex100では、インターネットex101に、インターネットサービスプロバイダex102又は通信網ex104、及び基地局ex106~ex110を介して、コンピュータex111、ゲーム機ex112、カメラex113、家電ex114、及びスマートフォンex115などの各機器が接続される。当該コンテンツ供給システムex100は、上記のいずれかの要素を組合せて接続するようにしてもよい。固定無線局である基地局ex106~ex110を介さずに、各機器が電話網又は近距離無線等を介して直接的又は間接的に相互に接続されていてもよい。また、ストリーミングサーバex103は、インターネットex101等を介して、コンピュータex111、ゲーム機ex112、カメラex113、家電ex114、及びスマートフォンex115などの各機器と接続される。また、ストリーミングサーバex103は、衛星ex116を介して、飛行機ex117内のホットスポット内の端末等と接続される。
なお、基地局ex106~ex110の代わりに、無線アクセスポイント又はホットスポット等が用いられてもよい。また、ストリーミングサーバex103は、インターネットex101又はインターネットサービスプロバイダex102を介さずに直接通信網ex104と接続されてもよいし、衛星ex116を介さず直接飛行機ex117と接続されてもよい。
カメラex113はデジタルカメラ等の静止画撮影、及び動画撮影が可能な機器である。また、スマートフォンex115は、一般に2G、3G、3.9G、4G、そして今後は5Gと呼ばれる移動通信システムの方式に対応したスマートフォン機、携帯電話機、又はPHS(Personal Handyphone System)等である。
家電ex118は、冷蔵庫、又は家庭用燃料電池コージェネレーションシステムに含まれる機器等である。
コンテンツ供給システムex100では、撮影機能を有する端末が基地局ex106等を通じてストリーミングサーバex103に接続されることで、ライブ配信等が可能になる。ライブ配信では、端末(コンピュータex111、ゲーム機ex112、カメラex113、家電ex114、スマートフォンex115、及び飛行機ex117内の端末等)は、ユーザが当該端末を用いて撮影した静止画又は動画コンテンツに対して上記各実施の形態で説明した符号化処理を行い、符号化により得られた映像データと、映像に対応する音を符号化した音データと多重化し、得られたデータをストリーミングサーバex103に送信する。即ち、各端末は、本開示の一態様に係る画像符号化装置として機能する。
一方、ストリーミングサーバex103は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントは、上記符号化処理されたデータを復号化することが可能な、コンピュータex111、ゲーム機ex112、カメラex113、家電ex114、スマートフォンex115、又は飛行機ex117内の端末等である。配信されたデータを受信した各機器は、受信したデータを復号化処理して再生する。即ち、各機器は、本開示の一態様に係る画像復号装置として機能する。
[分散処理]
また、ストリーミングサーバex103は複数のサーバ又は複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。例えば、ストリーミングサーバex103は、CDN(Contents Delivery Network)により実現され、世界中に分散された多数のエッジサーバとエッジサーバ間をつなぐネットワークによりコンテンツ配信が実現されていてもよい。CDNでは、クライアントに応じて物理的に近いエッジサーバが動的に割り当てられる。そして、当該エッジサーバにコンテンツがキャッシュ及び配信されることで遅延を減らすことができる。また、何らかのエラーが発生した場合又はトラフィックの増加などにより通信状態が変わる場合に複数のエッジサーバで処理を分散したり、他のエッジサーバに配信主体を切り替えたり、障害が生じたネットワークの部分を迂回して配信を続けることができるので、高速かつ安定した配信が実現できる。
また、配信自体の分散処理にとどまらず、撮影したデータの符号化処理を各端末で行ってもよいし、サーバ側で行ってもよいし、互いに分担して行ってもよい。一例として、一般に符号化処理では、処理ループが2度行われる。1度目のループでフレーム又はシーン単位での画像の複雑さ、又は、符号量が検出される。また、2度目のループでは画質を維持して符号化効率を向上させる処理が行われる。例えば、端末が1度目の符号化処理を行い、コンテンツを受け取ったサーバ側が2度目の符号化処理を行うことで、各端末での処理負荷を減らしつつもコンテンツの質と効率を向上させることができる。この場合、ほぼリアルタイムで受信して復号する要求があれば、端末が行った一度目の符号化済みデータを他の端末で受信して再生することもできるので、より柔軟なリアルタイム配信も可能になる。
他の例として、カメラex113等は、画像から特徴量抽出を行い、特徴量に関するデータをメタデータとして圧縮してサーバに送信する。サーバは、例えば特徴量からオブジェクトの重要性を判断して量子化精度を切り替えるなど、画像の意味に応じた圧縮を行う。特徴量データはサーバでの再度の圧縮時の動きベクトル予測の精度及び効率向上に特に有効である。また、端末でVLC(可変長符号化)などの簡易的な符号化を行い、サーバでCABAC(コンテキスト適応型二値算術符号化方式)など処理負荷の大きな符号化を行ってもよい。
さらに他の例として、スタジアム、ショッピングモール、又は工場などにおいては、複数の端末によりほぼ同一のシーンが撮影された複数の映像データが存在する場合がある。この場合には、撮影を行った複数の端末と、必要に応じて撮影をしていない他の端末及びサーバを用いて、例えばGOP(Group of Picture)単位、ピクチャ単位、又はピクチャを分割したタイル単位などで符号化処理をそれぞれ割り当てて分散処理を行う。これにより、遅延を減らし、よりリアルタイム性を実現できる。
また、複数の映像データはほぼ同一シーンであるため、各端末で撮影された映像データを互いに参照し合えるように、サーバで管理及び/又は指示をしてもよい。または、各端末からの符号化済みデータを、サーバが受信し複数のデータ間で参照関係を変更、又はピクチャ自体を補正或いは差し替えて符号化しなおしてもよい。これにより、一つ一つのデータの質と効率を高めたストリームを生成できる。
また、サーバは、映像データの符号化方式を変更するトランスコードを行ったうえで映像データを配信してもよい。例えば、サーバは、MPEG系の符号化方式をVP系に変換してもよいし、H.264をH.265に変換してもよい。
このように、符号化処理は、端末、又は1以上のサーバにより行うことが可能である。よって、以下では、処理を行う主体として「サーバ」又は「端末」等の記載を用いるが、サーバで行われる処理の一部又は全てが端末で行われてもよいし、端末で行われる処理の一部又は全てがサーバで行われてもよい。また、これらに関しては、復号処理についても同様である。
[3D、マルチアングル]
近年では、互いにほぼ同期した複数のカメラex113及び/又はスマートフォンex115などの端末により撮影された異なるシーン、又は、同一シーンを異なるアングルから撮影した画像或いは映像を統合して利用することも増えてきている。各端末で撮影した映像は、別途取得した端末間の相対的な位置関係、又は、映像に含まれる特徴点が一致する領域などに基づいて統合される。
サーバは、2次元の動画像を符号化するだけでなく、動画像のシーン解析などに基づいて自動的に、又は、ユーザが指定した時刻において、静止画を符号化し、受信端末に送信してもよい。サーバは、さらに、撮影端末間の相対的な位置関係を取得できる場合には、2次元の動画像だけでなく、同一シーンが異なるアングルから撮影された映像に基づき、当該シーンの3次元形状を生成できる。なお、サーバは、ポイントクラウドなどにより生成した3次元のデータを別途符号化してもよいし、3次元データを用いて人物又はオブジェクトを認識或いは追跡した結果に基づいて、受信端末に送信する映像を、複数の端末で撮影した映像から選択、又は、再構成して生成してもよい。
このようにして、ユーザは、各撮影端末に対応する各映像を任意に選択してシーンを楽しむこともできるし、複数画像又は映像を用いて再構成された3次元データから任意視点の映像を切り出したコンテンツを楽しむこともできる。さらに、映像と同様に音も複数の相異なるアングルから収音され、サーバは、映像に合わせて特定のアングル又は空間からの音を映像と多重化して送信してもよい。
また、近年ではVirtual Reality(VR)及びAugmented Reality(AR)など、現実世界と仮想世界とを対応付けたコンテンツも普及してきている。VRの画像の場合、サーバは、右目用及び左目用の視点画像をそれぞれ作成し、Multi-View Coding(MVC)などにより各視点映像間で参照を許容する符号化を行ってもよいし、互いに参照せずに別ストリームとして符号化してもよい。別ストリームの復号時には、ユーザの視点に応じて仮想的な3次元空間が再現されるように互いに同期させて再生するとよい。
ARの画像の場合には、サーバは、現実空間のカメラ情報に、仮想空間上の仮想物体情報を、3次元的位置又はユーザの視点の動きに基づいて重畳する。復号装置は、仮想物体情報及び3次元データを取得又は保持し、ユーザの視点の動きに応じて2次元画像を生成し、スムーズにつなげることで重畳データを作成してもよい。または、復号装置は仮想物体情報の依頼に加えてユーザの視点の動きをサーバに送信し、サーバは、サーバに保持される3次元データから受信した視点の動きに合わせて重畳データを作成し、重畳データを符号化して復号装置に配信してもよい。なお、重畳データは、RGB以外に透過度を示すα値を有し、サーバは、3次元データから作成されたオブジェクト以外の部分のα値が0などに設定し、当該部分が透過する状態で、符号化してもよい。もしくは、サーバは、クロマキーのように所定の値のRGB値を背景に設定し、オブジェクト以外の部分は背景色にしたデータを生成してもよい。
同様に配信されたデータの復号処理はクライアントである各端末で行っても、サーバ側で行ってもよいし、互いに分担して行ってもよい。一例として、ある端末が、一旦サーバに受信リクエストを送り、そのリクエストに応じたコンテンツを他の端末で受信し復号処理を行い、ディスプレイを有する装置に復号済みの信号が送信されてもよい。通信可能な端末自体の性能によらず処理を分散して適切なコンテンツを選択することで画質のよいデータを再生することができる。また、他の例として大きなサイズの画像データをTV等で受信しつつ、鑑賞者の個人端末にピクチャが分割されたタイルなど一部の領域が復号されて表示されてもよい。これにより、全体像を共有化しつつ、自身の担当分野又はより詳細に確認したい領域を手元で確認することができる。
また今後は、屋内外にかかわらず近距離、中距離、又は長距離の無線通信が複数使用可能な状況下で、MPEG-DASHなどの配信システム規格を利用して、接続中の通信に対して適切なデータを切り替えながらシームレスにコンテンツを受信することが予想される。これにより、ユーザは、自身の端末のみならず屋内外に設置されたディスプレイなどの復号装置又は表示装置を自由に選択しながらリアルタイムで切り替えられる。また、自身の位置情報などに基づいて、復号する端末及び表示する端末を切り替えながら復号を行うことができる。これにより、目的地への移動中に、表示可能なデバイスが埋め込まれた隣の建物の壁面又は地面の一部に地図情報を表示させながら移動することも可能になる。また、符号化データが受信端末から短時間でアクセスできるサーバにキャッシュされている、又は、コンテンツ・デリバリー・サービスにおけるエッジサーバにコピーされている、などの、ネットワーク上での符号化データへのアクセス容易性に基づいて、受信データのビットレートを切り替えることも可能である。
[スケーラブル符号化]
コンテンツの切り替えに関して、図45に示す、上記各実施の形態で示した動画像符号化方法を応用して圧縮符号化されたスケーラブルなストリームを用いて説明する。サーバは、個別のストリームとして内容は同じで質の異なるストリームを複数有していても構わないが、図示するようにレイヤに分けて符号化を行うことで実現される時間的/空間的スケーラブルなストリームの特徴を活かして、コンテンツを切り替える構成であってもよい。つまり、復号側が性能という内的要因と通信帯域の状態などの外的要因とに応じてどのレイヤまで復号するかを決定することで、復号側は、低解像度のコンテンツと高解像度のコンテンツとを自由に切り替えて復号できる。例えば移動中にスマートフォンex115で視聴していた映像の続きを、帰宅後にインターネットTV等の機器で視聴したい場合には、当該機器は、同じストリームを異なるレイヤまで復号すればよいので、サーバ側の負担を軽減できる。
さらに、上記のように、レイヤ毎にピクチャが符号化されており、ベースレイヤの上位にエンハンスメントレイヤが存在するスケーラビリティを実現する構成以外に、エンハンスメントレイヤが画像の統計情報などに基づくメタ情報を含み、復号側が、メタ情報に基づきベースレイヤのピクチャを超解像することで高画質化したコンテンツを生成してもよい。超解像とは、同一解像度におけるSN比の向上、及び、解像度の拡大のいずれであってもよい。メタ情報は、超解像処理に用いる線形或いは非線形のフィルタ係数を特定するため情報、又は、超解像処理に用いるフィルタ処理、機械学習或いは最小2乗演算におけるパラメータ値を特定する情報などを含む。
または、画像内のオブジェクトなどの意味合いに応じてピクチャがタイル等に分割されており、復号側が、復号するタイルを選択することで一部の領域だけを復号する構成であってもよい。また、オブジェクトの属性(人物、車、ボールなど)と映像内の位置(同一画像における座標位置など)とをメタ情報として格納することで、復号側は、メタ情報に基づいて所望のオブジェクトの位置を特定し、そのオブジェクトを含むタイルを決定できる。例えば、図46に示すように、メタ情報は、HEVCにおけるSEIメッセージなど画素データとは異なるデータ格納構造を用いて格納される。このメタ情報は、例えば、メインオブジェクトの位置、サイズ、又は色彩などを示す。
また、ストリーム、シーケンス又はランダムアクセス単位など、複数のピクチャから構成される単位でメタ情報が格納されてもよい。これにより、復号側は、特定人物が映像内に出現する時刻などが取得でき、ピクチャ単位の情報と合わせることで、オブジェクトが存在するピクチャ、及び、ピクチャ内でのオブジェクトの位置を特定できる。
[Webページの最適化]
図47は、コンピュータex111等におけるwebページの表示画面例を示す図である。図48は、スマートフォンex115等におけるwebページの表示画面例を示す図である。図47及び図48に示すようにwebページが、画像コンテンツへのリンクであるリンク画像を複数含む場合があり、閲覧するデバイスによってその見え方は異なる。画面上に複数のリンク画像が見える場合には、ユーザが明示的にリンク画像を選択するまで、又は画面の中央付近にリンク画像が近付く或いはリンク画像の全体が画面内に入るまでは、表示装置(復号装置)は、リンク画像として各コンテンツが有する静止画又はIピクチャを表示したり、複数の静止画又はIピクチャ等でgifアニメのような映像を表示したり、ベースレイヤのみ受信して映像を復号及び表示したりする。
ユーザによりリンク画像が選択された場合、表示装置は、ベースレイヤを最優先にして復号する。なお、webページを構成するHTMLにスケーラブルなコンテンツであることを示す情報があれば、表示装置は、エンハンスメントレイヤまで復号してもよい。また、リアルタイム性を担保するために、選択される前又は通信帯域が非常に厳しい場合には、表示装置は、前方参照のピクチャ(Iピクチャ、Pピクチャ、前方参照のみのBピクチャ)のみを復号及び表示することで、先頭ピクチャの復号時刻と表示時刻との間の遅延(コンテンツの復号開始から表示開始までの遅延)を低減できる。また、表示装置は、ピクチャの参照関係を敢えて無視して全てのBピクチャ及びPピクチャを前方参照にして粗く復号し、時間が経ち受信したピクチャが増えるにつれて正常の復号を行ってもよい。
[自動走行]
また、車の自動走行又は走行支援のため2次元又は3次元の地図情報などの静止画又は映像データを送受信する場合、受信端末は、1以上のレイヤに属する画像データに加えて、メタ情報として天候又は工事の情報なども受信し、これらを対応付けて復号してもよい。なお、メタ情報は、レイヤに属してもよいし、単に画像データと多重化されてもよい。
この場合、受信端末を含む車、ドローン又は飛行機などが移動するため、受信端末は、当該受信端末の位置情報を受信要求時に送信することで、基地局ex106~ex110を切り替えながらシームレスな受信及び復号を実現できる。また、受信端末は、ユーザの選択、ユーザの状況又は通信帯域の状態に応じて、メタ情報をどの程度受信するか、又は地図情報をどの程度更新していくかを動的に切り替えることが可能になる。
以上のようにして、コンテンツ供給システムex100では、ユーザが送信した符号化された情報をリアルタイムでクライアントが受信して復号し、再生することができる。
[個人コンテンツの配信]
また、コンテンツ供給システムex100では、映像配信業者による高画質で長時間のコンテンツのみならず、個人による低画質で短時間のコンテンツのユニキャスト、又はマルチキャスト配信が可能である。また、このような個人のコンテンツは今後も増加していくと考えられる。個人コンテンツをより優れたコンテンツにするために、サーバは、編集処理を行ってから符号化処理を行ってもよい。これは例えば、以下のような構成で実現できる。
撮影時にリアルタイム又は蓄積して撮影後に、サーバは、原画又は符号化済みデータから撮影エラー、シーン探索、意味の解析、及びオブジェクト検出などの認識処理を行う。そして、サーバは、認識結果に基いて手動又は自動で、ピントずれ又は手ブレなどを補正したり、明度が他のピクチャに比べて低い又は焦点が合っていないシーンなどの重要性の低いシーンを削除したり、オブジェクトのエッジを強調したり、色合いを変化させるなどの編集を行う。サーバは、編集結果に基いて編集後のデータを符号化する。また撮影時刻が長すぎると視聴率が下がることも知られており、サーバは、撮影時間に応じて特定の時間範囲内のコンテンツになるように上記のように重要性が低いシーンのみならず動きが少ないシーンなどを、画像処理結果に基き自動でクリップしてもよい。または、サーバは、シーンの意味解析の結果に基づいてダイジェストを生成して符号化してもよい。
なお、個人コンテンツには、そのままでは著作権、著作者人格権、又は肖像権等の侵害となるものが写り込んでいるケースもあり、共有する範囲が意図した範囲を超えてしまうなど個人にとって不都合な場合もある。よって、例えば、サーバは、画面の周辺部の人の顔、又は家の中などを敢えて焦点が合わない画像に変更して符号化してもよい。また、サーバは、符号化対象画像内に、予め登録した人物とは異なる人物の顔が映っているかどうかを認識し、映っている場合には、顔の部分にモザイクをかけるなどの処理を行ってもよい。または、符号化の前処理又は後処理として、著作権などの観点からユーザが画像を加工したい人物又は背景領域を指定し、サーバは、指定された領域を別の映像に置き換える、又は焦点をぼかすなどの処理を行うことも可能である。人物であれば、動画像において人物をトラッキングしながら、顔の部分の映像を置き換えることができる。
また、データ量の小さい個人コンテンツの視聴はリアルタイム性の要求が強いため、帯域幅にもよるが、復号装置は、まずベースレイヤを最優先で受信して復号及び再生を行う。復号装置は、この間にエンハンスメントレイヤを受信し、再生がループされる場合など2回以上再生される場合に、エンハンスメントレイヤも含めて高画質の映像を再生してもよい。このようにスケーラブルな符号化が行われているストリームであれば、未選択時又は見始めた段階では粗い動画だが、徐々にストリームがスマートになり画像がよくなるような体験を提供することができる。スケーラブル符号化以外にも、1回目に再生される粗いストリームと、1回目の動画を参照して符号化される2回目のストリームとが1つのストリームとして構成されていても同様の体験を提供できる。
[その他の使用例]
また、これらの符号化又は復号処理は、一般的に各端末が有するLSIex500において処理される。LSIex500は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化又は復号用のソフトウェアをコンピュータex111等で読み取り可能な何らかの記録メディア(CD-ROM、フレキシブルディスク、又はハードディスクなど)に組み込み、そのソフトウェアを用いて符号化又は復号処理を行ってもよい。さらに、スマートフォンex115がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データはスマートフォンex115が有するLSIex500で符号化処理されたデータである。
なお、LSIex500は、アプリケーションソフトをダウンロードしてアクティベートする構成であってもよい。この場合、端末は、まず、当該端末がコンテンツの符号化方式に対応しているか、又は、特定サービスの実行能力を有するかを判定する。端末がコンテンツの符号化方式に対応していない場合、又は、特定サービスの実行能力を有さない場合、端末は、コーデック又はアプリケーションソフトをダウンロードし、その後、コンテンツ取得及び再生する。
また、インターネットex101を介したコンテンツ供給システムex100に限らず、デジタル放送用システムにも上記各実施の形態の少なくとも動画像符号化装置(画像符号化装置)又は動画像復号化装置(画像復号装置)のいずれかを組み込むことができる。衛星などを利用して放送用の電波に映像と音が多重化された多重化データを載せて送受信するため、コンテンツ供給システムex100のユニキャストがし易い構成に対してマルチキャスト向きであるという違いがあるが符号化処理及び復号処理に関しては同様の応用が可能である。
[ハードウェア構成]
図49は、スマートフォンex115を示す図である。また、図50は、スマートフォンex115の構成例を示す図である。スマートフォンex115は、基地局ex110との間で電波を送受信するためのアンテナex450と、映像及び静止画を撮ることが可能なカメラ部ex465と、カメラ部ex465で撮像した映像、及びアンテナex450で受信した映像等が復号されたデータを表示する表示部ex458とを備える。スマートフォンex115は、さらに、タッチパネル等である操作部ex466と、音声又は音響を出力するためのスピーカ等である音声出力部ex457と、音声を入力するためのマイク等である音声入力部ex456と、撮影した映像或いは静止画、録音した音声、受信した映像或いは静止画、メール等の符号化されたデータ、又は、復号化されたデータを保存可能なメモリ部ex467と、ユーザを特定し、ネットワークをはじめ各種データへのアクセスの認証をするためのSIMex468とのインタフェース部であるスロット部ex464とを備える。なお、メモリ部ex467の代わりに外付けメモリが用いられてもよい。
また、表示部ex458及び操作部ex466等を統括的に制御する主制御部ex460と、電源回路部ex461、操作入力制御部ex462、映像信号処理部ex455、カメラインタフェース部ex463、ディスプレイ制御部ex459、変調/復調部ex452、多重/分離部ex453、音声信号処理部ex454、スロット部ex464、及びメモリ部ex467とがバスex470を介して接続されている。
電源回路部ex461は、ユーザの操作により電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することによりスマートフォンex115を動作可能な状態に起動する。
スマートフォンex115は、CPU、ROM及びRAM等を有する主制御部ex460の制御に基づいて、通話及データ通信等の処理を行う。通話時は、音声入力部ex456で収音した音声信号を音声信号処理部ex454でデジタル音声信号に変換し、これを変調/復調部ex452でスペクトラム拡散処理し、送信/受信部ex451でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex450を介して送信する。また受信データを増幅して周波数変換処理及びアナログデジタル変換処理を施し、変調/復調部ex452でスペクトラム逆拡散処理し、音声信号処理部ex454でアナログ音声信号に変換した後、これを音声出力部ex457から出力する。データ通信モード時は、本体部の操作部ex466等の操作によってテキスト、静止画、又は映像データが操作入力制御部ex462を介して主制御部ex460に送出され、同様に送受信処理が行われる。データ通信モード時に映像、静止画、又は映像と音声を送信する場合、映像信号処理部ex455は、メモリ部ex467に保存されている映像信号又はカメラ部ex465から入力された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重/分離部ex453に送出する。また、音声信号処理部ex454は、映像又は静止画等をカメラ部ex465で撮像中に音声入力部ex456で収音した音声信号を符号化し、符号化された音声データを多重/分離部ex453に送出する。多重/分離部ex453は、符号化済み映像データと符号化済み音声データを所定の方式で多重化し、変調/復調部(変調/復調回路部)ex452、及び送信/受信部ex451で変調処理及び変換処理を施してアンテナex450を介して送信する。
電子メール又はチャットに添付された映像、又はウェブページ等にリンクされた映像を受信した場合、アンテナex450を介して受信された多重化データを復号するために、多重/分離部ex453は、多重化データを分離することにより、多重化データを映像データのビットストリームと音声データのビットストリームとに分け、同期バスex470を介して符号化された映像データを映像信号処理部ex455に供給するとともに、符号化された音声データを音声信号処理部ex454に供給する。映像信号処理部ex455は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって映像信号を復号し、ディスプレイ制御部ex459を介して表示部ex458から、リンクされた動画像ファイルに含まれる映像又は静止画が表示される。また音声信号処理部ex454は、音声信号を復号し、音声出力部ex457から音声が出力される。なおリアルタイムストリーミングが普及しているため、ユーザの状況によっては音声の再生が社会的にふさわしくない場も起こりえる。そのため、初期値としては、音声信号は再生せず映像データのみを再生する構成の方が望ましい。ユーザが映像データをクリックするなど操作を行った場合にのみ音声を同期して再生してもよい。
またここではスマートフォンex115を例に説明したが、端末としては符号化器及び復号化器を両方持つ送受信型端末の他に、符号化器のみを有する送信端末、及び、復号化器のみを有する受信端末という3通りの実装形式が考えられる。さらに、デジタル放送用システムにおいて、映像データに音声データなどが多重化された多重化データを受信又は送信するとして説明したが、多重化データには、音声データ以外に映像に関連する文字データなどが多重化されてもよいし、多重化データではなく映像データ自体が受信又は送信されてもよい。
なお、CPUを含む主制御部ex460が符号化又は復号処理を制御するとして説明したが、端末はGPUを備えることも多い。よって、CPUとGPUで共通化されたメモリ、又は共通に使用できるようにアドレスが管理されているメモリにより、GPUの性能を活かして広い領域を一括して処理する構成でもよい。これにより符号化時間を短縮でき、リアルタイム性を確保し、低遅延を実現できる。特に動き探索、デブロックフィルタ、SAO(Sample Adaptive Offset)、及び変換・量子化の処理を、CPUではなく、GPUでピクチャなどの単位で一括して行うと効率的である。