JP2017073598A

JP2017073598A - 動画像符号化装置、動画像符号化方法及び動画像符号化用コンピュータプログラム

Info

Publication number: JP2017073598A
Application number: JP2015197610A
Authority: JP
Inventors: 健士郎武内; Kenshiro Takeuchi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-10-05
Filing date: 2015-10-05
Publication date: 2017-04-13
Anticipated expiration: 2035-10-05
Also published as: US20170099494A1; US10104389B2; JP6528635B2

Abstract

【課題】動画像データを下位階層においてロッシ—符号化し、かつ、上位階層においてロスレス符号化する際の符号化効率を向上する動画像符号化装置を提供する。【解決手段】動画像符号化装置は、ピクチャを分割した第１のブロックごとに予測符号化するとともに局所復号ピクチャを生成する第１の符号化部１２と、ピクチャを分割した第２のブロックごとに、局所復号ピクチャまた符号化済みのピクチャなどを参照して生成された予測ブロックとの予測誤差信号をエントロピー符号化する第２の符号化部１３とを有する。第１の符号化部１２は、各第１のブロックについて、所定のサイズを持ち、直交変換の単位となる第１のサブブロックについて、予測ブロックとの予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量に基づいて予測誤差信号を直交変換するか否かを判定し、直交変換しないと判定した第１のサブブロックの予測誤差信号を直接量子化する。【選択図】図１

Description

本発明は、例えば、動画像符号化装置、動画像符号化方法及び動画像符号化用コンピュータプログラムに関する。

動画像データは、一般に非常に大きなデータ量を有する。そのため、動画像データを扱う装置は、動画像データを他の装置へ送信しようとする場合、あるいは、動画像データを記憶装置に記憶しようとする場合、動画像データを符号化することにより圧縮する。代表的な動画像の符号化方式として、Moving Picture Experts Group phase 2（MPEG-2）、MPEG-4、あるいはH.264 MPEG-4 Advanced Video Coding（H.264 MPEG-4 AVC）が広く利用されている。特に、ISO/IECとITU-Tが共同で標準化した、High Efficiency Video Coding(HEVC)は、H.264/MPEG-4 AVCの２倍近い圧縮効率を達成する。

また、H.264またはHEVCでは、スケーラブル符号化という拡張方式が規定される。スケーラブル符号化は、同一の動画像データに対して、品質が異なる複数の符号化データを階層的に生成する符号化方式である。そのため、スケーラブル符号化方式により符号化された動画像データに対して、動画像復号装置は、複数の符号化データの中から、用途に応じた符号化データを選択して復号することで、所望の品質の動画像データを再生できる。なお、ここでいう品質は、空間解像度、時間解像度、及びオリジナルの画像に対する忠実度の少なくとも何れかに関する品質である。また、階層的であるとは、上位の品質を持つ動画像データを符号化する際に、下位の品質を持つ動画像データが参照されることを表す。一般に、各階層の動画像データ間の相関性は高い。そのため、各階層の動画像データを互いに独立に符号化したときの符号化データ量と比較して、各階層の動画像データをスケーラブル符号化したときの符号化データ量は大幅に削減可能である。

動画像データにスケーラブル符号化を適用する際に、符号化効率を向上する技術が提案されている（例えば、非特許文献１を参照）。例えば、非特許文献１に開示された技術では、基本層における符号化パラメータが、基本層のレート歪み特性と、拡張層のレート歪み特性とに基づいて決定される。

Schwarz他、「R-D OPTIMIZED MULTI-LAYER ENCODER CONTROL FOR SVC」、ICIP2007、II-281-284、2007年

H.264またはHEVCなどの符号化方式では、一般に、動画像データに含まれるピクチャは複数のブロックに分割され、各ブロックは、例えば、ラスタスキャン順に符号化される。その際、着目するブロックを符号化する際に、既に符号化された他のピクチャまたは、既に符号化された他のブロックに基づいて予測ブロックが生成される。そして着目するブロックと予測ブロック間の対応画素間の誤差を表す予測誤差信号が生成される。これにより、空間的、あるいは時間的な冗長性が除去される。そして、動画像符号化装置は、各ブロックの予測誤差信号を符号化することで、高い圧縮効率を達成する。

予測誤差信号を符号化する際、動画像符号化装置は、例えば、その予測誤差信号を直交変換することにより直交変換係数を算出し、その直交変換係数を量子化する。そして動画像符号化装置は、量子化された直交変換係数をエントロピー符号化する。このような符号化では、直交変換及び量子化により、誤差が生じるので、一旦符号化された動画像データを復号して得られる動画像データは、オリジナルの動画像データと完全に同一とはならず、情報のロスが生じる。そこで、このような符号化は、ロッシ―な符号化と呼ばれる。

一方、医療用など、用途によっては、符号化された動画像データを復号することで、完全なオリジナルの動画像データが再現されるように、すなわち、情報のロスが生じないように動画像データを符号化することがもとめられることがある。例えば、CTなどの検査装置によって撮影された医用画像には保存義務があるため、情報のロスが生じないように符号化される。このような符号化は、ロスレス符号化と呼ばれる。上記のように、直交変換及び量子化により、情報のロスが生じるので、動画像データをロスレス符号化する動画像符号化装置は、各ブロックの予測誤差信号に対して直交変換及び量子化をおこなわず、その予測誤差信号を直接エントロピー符号化する。

このように、ロスレス符号化が求められる動画像データに対して、スケーラブル符号化を適用する場合、例えば、下位階層では動画像データをロッシ―符号化し、上位階層では動画像データをロスレス符号化することがある。このような場合、上位階層において直交変換及び量子化が行われないことにより、下位階層での直交変換及び量子化による誤差による、階層間予測符号化を適用する際の予測誤差の増加が抑制されずに、上位階層での符号化効率が低下する。このことは、非特許文献１に記載の技術により下位階層の符号化パラメータを決定する場合も同様となる。その結果、全体としての符号化効率は最適化されないことがある。

一つの側面では、本発明は、動画像データを下位階層においてロッシ―符号化し、かつ、上位階層においてロスレス符号化する際の符号化効率を向上する動画像符号化装置を提供することを目的とする。

一つの実施形態によれば、動画像符号化装置が提供される。この動画像符号化装置は、動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、その予測ブロックと第１のブロック間の予測誤差信号を直交変換して得られる直交変換係数または予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、複数の第１のブロックのそれぞれについて、直交変換係数または予測誤差信号に基づいて第１のブロックを復号することで第１の局所復号ピクチャを生成する第１の符号化部と、ピクチャを分割した複数の第２のブロックのそれぞれについて、第１の局所復号ピクチャ、ピクチャよりも前に符号化された他のピクチャ、及び第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、予測ブロックと第２のブロック間の予測誤差信号をエントロピー符号化する第２の符号化部とを有する。
そして第１の符号化部は、複数の第１のブロックのそれぞれについて、第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出する局在度算出部と、複数の第１のブロックのそれぞれにおける第１のサブブロックについて、特徴量に基づいて直交変換を実行するか否かを判定する判定部とを有する。

動画像データを下位階層においてロッシ―符号化し、かつ、上位階層においてロスレス符号化する際の符号化効率を向上できる。

第１の実施形態による動画像符号化装置の概略構成図である。下位階層符号化部の概略構成図である。 HEVCによる、ピクチャの分割の一例を示す図である。（ａ）は、TUの予測誤差信号を直交変換及び量子化してから逆量子化及び逆直交変換して得られる画素の値の変化を表す図である。（ｂ）は、TUの予測誤差信号を直接量子化してから逆量子化して得られる画素の値の変化を表す図である。下位階層符号化処理の動作フローチャートである。上位階層符号化部のブロック図である。動画像符号化処理の動作フローチャートである。第２の実施形態による動画像符号化装置の概略構成図である。中間階層符号化部の概略構成図である。上記の各実施形態または変形例の何れかによる動画像符号化装置として動作するコンピュータの構成図である。

以下、図を参照しつつ、動画像符号化装置について説明する。
この動画像符号化装置は、動画像データに含まれる各ピクチャを、ロッシ―符号化が適用される下位階層と、ロスレス符号化が適用される上位階層とにスケーラブル符号化する。そしてこの動画像符号化装置は、下位階層について、動画像データに含まれるピクチャを分割した各ブロックについて、予測誤差信号に含まれる非ゼロとなる値を持つ画素の局在性を調べ、局在性が高いブロックについては直交変換をスキップする。これにより、この動画像符号化装置は、予測誤差の局在性が高いブロックについて直交変換及び量子化により生じる誤差が局所復号ブロック全体に拡散することを防止して、上位階層の対応ブロックと局所復号ブロック間の相関性の低下を抑制する。これにより、この動画像符号化装置は、上位階層の対応ブロックを階層間予測符号化する際に、予測誤差信号において非ゼロとなる値を持つ画素の数が増えることを抑制し、全体として符号化効率を向上する。

本実施形態では、動画像符号化装置は、HEVCに準拠して動画像データを符号化する。しかし、動画像符号化装置は、スケーラブル符号化及びTransform Skip（直交変換のスキップ）を適用可能な他の符号化規格に準拠して動画像データを符号化してもよい。

また、ピクチャは、フレームまたはフィールドの何れであってもよい。フレームは、動画像データ中の一つの静止画像であり、一方、フィールドは、フレームから奇数行のデータあるいは偶数行のデータのみを取り出すことにより得られる静止画像である。

図１は、第１の実施形態による動画像符号化装置の概略構成図である。動画像符号化装置１は、バッファ１１と、下位階層符号化部１２と、上位階層符号化部１３と、多重化部１４とを有する。

動画像符号化装置１が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは動画像符号化装置１が有するこれらの各部は、その各部に対応する回路が集積された一つまたは複数の集積回路として動画像符号化装置１に実装されてもよい。さらに、動画像符号化装置１が有するこれらの各部は、動画像符号化装置１が有する一つまたは複数のプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

バッファ１１には、動画像データに含まれる各ピクチャが、その再生順序に従って入力される。そしてバッファ１１に蓄積されたピクチャは、動画像符号化装置１全体を制御する制御部（図示せず）により設定されたピクチャの符号化順序に従って順次読み出される。読み出されたピクチャは、下位階層符号化部１２及び上位階層符号化部１３へ入力される。

さらに、バッファ１１には、下位階層符号化部１２により符号化された後に復号されたピクチャである局所復号ピクチャが下位階層符号化部１２により書き込まれる。局所復号ピクチャは、上位階層符号化部１３で参照される。

下位階層符号化部１２は、ピクチャが入力される度に、そのピクチャを符号化する。本実施形態では、下位階層符号化部１２は、上位階層符号化部１３よりも低いデータレートでピクチャを符号化する。また本実施形態では、下位階層符号化部１２は、ピクチャをロッシ―符号化する。

図２は、下位階層符号化部１２の概略構成図である。下位階層符号化部１２は、動き探索部２１と、符号化モード判定部２２と、予測ブロック生成部２３と、予測誤差信号算出部２４と、局在度算出部２５と、スキップ判定部２６と、直交変換部２７と、量子化部２８と、復号部２９と、記憶部３０と、エントロピー符号化部３１とを有する。

動画像符号化装置１が準拠するHEVCでは、動画像データに含まれる各ピクチャは複数の段階で分割される。そこで先ず、HEVCにおける、ピクチャの分割について説明する。

図３は、HEVCによる、ピクチャの分割の一例を示す図である。図３に示されるように、ピクチャ３００は、符号化処理の単位であるCoding Tree Unit(CTU)単位で分割され、各CTU３０１は、ラスタスキャン順に符号化される。CTU３０１のサイズは、64x64〜16x16画素の中から選択できる。

CTU３０１は、さらに、四分木構造で複数のCoding Unit（CU）３０２に分割される。一つのCTU３０１内の各CU３０２は、Zスキャン順に符号化される。CU３０２のサイズは可変であり、そのサイズは、CU分割モード8x8〜64x64画素の中から選択される。CU３０２は、符号化モードであるイントラ予測符号化モードとインター予測符号化モードを選択する単位となる。なお、イントラ予測符号化モードは、符号化対象ピクチャの情報を参照して、符号化対象ピクチャの符号化対象ブロックを予測符号化する符号化モードである。一方、インター予測符号化モードは、符号化対象ピクチャの符号化対象ブロックを、符号化済みの他のピクチャの情報を参照して予測符号化する符号化モードである。

CU３０２は、Prediction Unit（PU）３０３単位またはTransform Unit（TU）３０４単位で個別に処理される。PU３０３は、符号化モードに応じた予測が行われる、予測ブロックの生成単位となる。例えば、PU３０３は、イントラ予測符号化モードでは、予測ブロックの生成の際に参照される画素及び予測ブロックの生成方法を規定する予測モードが適用される単位となる。一方、インター予測符号化モードでは、PU３０３は、動き補償を行う単位となる。PU３０３のサイズは、例えば、イントラ予測符号化モードが適用される場合、2Nx2NとNxN（Nは、CUサイズ/2）から選択可能である。一方、TU３０４は、直交変換の単位であり、TUごとに離散コサイン変換(Discrete Cosine Transform, DCT)あるいは離散サイン変換(Discrete Sine Transform, DST)される。TU３０４のサイズは、4x4画素〜32x32画素の中から選択される。TU３０４は、四分木構造で分割され、Zスキャン順に処理される。

下位階層符号化部１２は、符号化対象のピクチャについて、各CTUをラスタスキャン順に符号化する。そこで、以下では、下位階層符号化部１２の各部について、一つのCTUに対する処理を例として説明する。

動き探索部２１は、符号化対象のピクチャがインター予測符号化モードが適用可能なPピクチャまたはBピクチャである場合、符号化対象CTUについて適用可能なPUごとに動きベクトルを算出する。なお、Pピクチャは、一方向のインター予測符号化モードを適用可能なピクチャであり、Bピクチャは、双方向のインター予測符号化モードを適用可能なピクチャである。なお、符号化対象ピクチャの種別は、例えば、制御部（図示せず）が符号化対象の動画像データに適用するGroup Of Pictures(GOP)の構造及び符号化対象ピクチャのGOP内での位置に基づいて決定される。

動き探索部２１は、符号化対象CTUの着目するPUについて、局所復号ピクチャについての参照可能な領域に対してブロックマッチングを行って、着目するPUと最も一致する参照ブロックを特定する。そして動き探索部２１は、着目するPUと参照ブロック間の移動量を表すベクトルを動きベクトルとして算出する。動き探索部２１は、各PUの動きベクトルを、符号化モード判定部２２へ通知する。

符号化モード判定部２２は、符号化対象CTUを分割するCU、PU及びTUの分割モード及びCUごとに適用される符号化モードを決定する。符号化モード判定部２２は、例えば、図示しない制御部から取得した、符号化対象CTUが含まれる符号化対象のピクチャのタイプを示す情報に基づいて、そのCTUの符号化モードを決定する。符号化対象のピクチャのタイプがイントラ予測符号化モードのみが適用可能なIピクチャであれば、符号化モード判定部２２は、適用される符号化モードとしてイントラ予測符号化モードを選択する。また、符号化対象のピクチャのタイプが、PピクチャまたはBピクチャであれば、符号化モード判定部２２は、例えば、適用される符号化モードとして、インター予測符号化モード及びイントラ予測符号化モードの何れかを選択する。

符号化モード判定部２２は、適用可能な符号化モードについての符号化対象CTUの符号化されたデータ量の評価値である符号化コストをCU単位でそれぞれ算出する。例えば、符号化モード判定部２２は、インター予測符号化モードについては、CTUを分割するCU分割モード、PU分割モード及び動きベクトルの予測ベクトルの生成方法を規定するベクトルモードの組み合わせごとに符号化コストを算出する。なお、符号化モード判定部２２は、ベクトルモードとして、例えば、Adaptive Motion Vector Prediction(AMVP)モード、及び、Mergeモードの何れかを利用できる。

また、イントラ予測符号化モードについては、符号化モード判定部２２は、CTUを分割するCU分割モード、PU分割モード及び予測モードの組み合わせごとに符号化コストを算出する。

符号化モード判定部２２は、符号化コストを算出するために、例えば、着目するPUについて、次式に従って、予測誤差、すなわち画素差分絶対値和SADを算出する。
SAD=Σ|OrgPixel-PredPixel|
ここで、OrgPixelは着目するPUに含まれる画素の値であり、PredPixelは着目するブロックに対応する、符号化コストの算出対象となる符号化モードに従って生成された予測ブロックに含まれる画素の値である。

そして符号化モード判定部２２は、例えば、次式に従って、着目するCUについての符号化コストCostを算出する。
Cost=ΣSAD + λ*B
ここで、ΣSADは、着目するCUに含まれる各PUについて算出されたSADの総和である。またBは、動きベクトル、予測モードを表すフラグなど、予測誤差以外の項目についての符号量の推定値である。そしてλはラグランジュの未定乗数である。

なお、符号化モード判定部２２は、SADの代わりに、着目するPUと予測ブロックとの差分画像をアダマール変換した後の各画素のアダマール係数の絶対値和SATDを算出してもよい。

符号化モード判定部２２は、符号化対象CTUについて、例えば、取り得るCUサイズの中でサイズが大きい方から順に着目するCUを設定する。そして符号化モード判定部２２は、着目するCUについて、イントラ予測符号化モードに関してそのCU内のPU分割モードごとにコストが最小となる予測モードを選択する。また、符号化モード判定部２２は、着目するCUについて、インター予測符号化モードに関してそのCU内のPU分割モードごとにコストが最小となるベクトルモードを選択する。さらに、符号化モード判定部２２は、同サイズのCUごとに、イントラ予測符号化モードとインター予測符号化モードのうちで、符号化コストが小さい方を、そのCUについて適用する符号化モードとして選択する。

さらに、符号化モード判定部２２は、着目するCUを４分割したCUのそれぞれを、次に着目するCUとして、同様の処理を実行して、最小符号化コストを算出する。そして符号化モード判定部２２は、４分割したCUのそれぞれについて算出された、最小符号化コストの総和と、着目するCUについての最小符号化コストよりも小さければ、着目するCUを４分割する。符号化モード判定部２２は、各CUが分割されなくなるまで、上記の処理を繰り返すことで、符号化対象CTUに適用されるCU分割モード及びPU分割モードを決定する。

さらに、符号化モード判定部２２は、上記のようにして決定したCU分割モードに従ったCUごとに、TU分割モードを決定する。その際、符号化モード判定部２２は、適用可能なTU分割モードごとに、次式に従ってRDコストCostを算出する。

ここで、org(i)は、着目するCUに含まれる画素の値であり、ldec(i)は、着目するTU分割モードを用いてそのCUを符号化し、さらに復号して得られる復号画素の値を表す。またbitは、そのCUを着目するTU分割モードを用いて符号化したときの符号量を表す。（１）式の右辺の第一項は、符号化歪みを表し、右辺の第二項は符号量を表す。そのため、RDコストが最小となるTU分割モードでは、符号化歪みと符号量が最適なバランスとなっている。
そこで、符号化モード判定部２２は、RDコストCostが最小となるTU分割モードを選択する。

符号化モード判定部２２は、符号化対象CTUについて選択したCU及びPUの分割モード及び符号化モードの組み合わせを予測ブロック生成部２３に通知し、TU分割モードを予測誤差信号算出部２４へ通知する。また符号化モード判定部２２は、符号化対象CTUについて選択したCU、PU及びTUの分割モード及び符号化モードの組み合わせを記憶部３０に保存する。

予測ブロック生成部２３は、符号化対象CTUについて選択されたCU及びPUの分割モード及び符号化モードの組み合わせに従ってPUごとに予測ブロックを生成する。予測ブロック生成部２３は、例えば、着目するCUがインター予測符号化される場合、そのCU内のPUごとに、記憶部３０から読み出した局所復号ピクチャを、そのPUについて算出された動きベクトルに基づいて動き補償することで予測ブロックを生成する。

また予測ブロック生成部２３は、着目するCUがイントラ予測符号化される場合、そのCU内のPUごとに選択された予測モードに従って参照される、そのPUの周囲の局所復号ブロック内の画素の値に基づいて予測ブロックを生成する。
予測ブロック生成部２３は、生成された予測ブロックを予測誤差信号算出部２４へ渡す。

予測誤差信号算出部２４は、符号化対象CTU内の各画素について、予測ブロック生成部２３により生成された予測ブロックの対応画素との差分演算を実行する。そして予測誤差信号算出部２４は、符号化対象CTU内の各TUについて、その差分演算により得られたTU内の各画素に対応する差分値を、そのTUの予測誤差信号とする。予測誤差信号算出部２４は、符号化対象CTU内の各TUのうち、4x4画素サイズよりも大きいサイズを持つTU、すなわち、Transform Skipが適用されないTUについての予測誤差信号を直交変換部２７へわたす。一方、予測誤差信号算出部２４は、符号化対象CTU内の各TUのうち、4x4画素サイズを持つTU、すなわち、Transform Skipが適用される可能性が有るTUについての予測誤差信号を局在度算出部２５及び量子化部２８へわたす。

局在度算出部２５は、符号化対象CTUにおいて、Transform Skipが適用される可能性の有る、4x4画素サイズを持つTUについて、予測誤差信号に含まれる、非ゼロの値を持つ画素が局在している度合いを表す局在度を算出する。非ゼロの値を持つ画素が局在している場合、予測誤差信号が直交変換及び量子化されることで生じる誤差が逆直交変換によって拡散されるため、そのTUに対応する局所復号ブロックにおいて、元の画素の値と異なる値を持つ画素の数が増える可能性がある。

図４（ａ）は、TUの予測誤差信号を直交変換及び量子化してから逆量子化及び逆直交変換して得られる画素の値の変化を表す図である。一方、図４（ｂ）は、TUの予測誤差信号を直接量子化してから逆量子化して得られる画素の値の変化を表す図である。なお、図４（ａ）及び図４（ｂ）では、簡単化のために、一列の画素の値だけが図示される。また、図４（ａ）及び図４（ｂ）において、横軸は位置を表し、縦軸は画素値を表す。

図４（ａ）の例では、オリジナルの予測誤差信号４００では、非ゼロの値を持つ画素の数は３個である。しかし、予測誤差信号４００に直交変換と量子化を行うことで得られる量子化された直交変換係数４０１では、非ゼロの値を持つ係数が３個よりも多くなる。そのため、３個よりも多い画素において誤差４１１が含まれることになる。さらに、量子化された直交変換係数４０１を逆量子化及び逆直交変換して得られた復号予測誤差信号４０２では、その誤差４１１が複数の画素に拡散する。その結果、この例では、７画素において誤差４１２が含まれている。そのため、復号予測誤差信号４０２と対応する予測ブロックとを加算することで得られる局所復号ブロック（図示せず）においても、誤差が拡散した画素について、元のブロックの画素の値と異なることになる。

一方、図４（ｂ）の例では、オリジナルの予測誤差信号４００は直接量子化されるので、量子化された予測誤差信号４２１では、ゼロの値を持つ画素の値は変化せず、非ゼロの値を持つ画素についてのみ、画素値に誤差４３１が含まれる可能性がある。そのため、量子化された予測誤差信号４２１を逆量子化して得られる復号予測誤差信号４２２でも、誤差４３２が含まれる可能性の有る画素の数は、オリジナルの予測誤差信号４００において非ゼロの値を持つ画素の数以下となる。この例では、オリジナルの予測誤差信号４００において非ゼロの値を持つ画素の数は３個であるため、復号予測誤差信号４２２でも、誤差４３２が含まれる画素の数は３個である。このように、復号予測誤差信号４２２において誤差が含まれる画素の数は、図４（ａ）に示される例における復号予測誤差信号４０２において誤差が含まれる画素の数よりも少ない。

ここで、局所復号ブロックと同位置にある、上位階層のピクチャの着目ブロックを階層間予測符号化する際に、この局所復号ブロックを予測ブロックとして利用することを仮定する。この場合、着目ブロックと局所復号ブロックは、同じピクチャの同じ領域に対応している。そのため、局所復号ブロックに誤差が無ければ、局所復号ブロックと着目ブロック間で全ての画素について画素値が一致し、局所復号ブロックと着目ブロック間の予測誤差信号では全ての画素の値がゼロとなる。しかし、図４（ａ）及び図４（ｂ）に示されるように、復号予測誤差信号において誤差が含まれる画素が存在すると、局所復号ブロックにおいても、その画素に誤差が含まれることになる。その結果、局所復号ブロックと着目ブロック間の予測誤差信号においても、復号予測誤差信号において誤差が含まれる画素の数と同数の非ゼロの値を持つ画素が含まれることになる。本実施形態では、上位階層ではピクチャはロスレス符号化されるので、上位階層では予測誤差信号は直接エントロピー符号化される。そのため、予測誤差信号において非ゼロの値を持つ画素の数が増えるほど、エントロピー符号化して得られるビットストリームが長くなり、符号化効率が低下する。この例では、図４（ａ）における復号予測誤差信号４０２において誤差が含まれる画素の数の方が、図４（ｂ）における復号予測誤差信号４２２において誤差が含まれる画素の数よりも多い。そのため、復号予測誤差信号４２２から算出される局所復号ブロックよりも、復号予測誤差信号４０２から算出される局所復号ブロックを利用する方が、上位階層では符号化効率が低下する。そのため、このような場合には、下位階層のTUに対してTransform Skipを適用することにより増加する符号量よりも、上位階層で削減される符号量の方が多くなり、全体として符号化効率が向上する。

一方、下位階層では、予測誤差信号を直交変換することで得られる直交変換係数では、一般的に、高周波数に対応する係数は比較的小さな値となる。そのため、予測誤差信号を直接量子化するよりも、直交変換係数を量子化した方が、非ゼロの値を持つ画素の数が少なくなる可能性が高い。したがって、下位階層では、予測誤差信号において非ゼロの値を持つ画素の数が多い場合には、予測誤差信号を直交変換し、かつ、量子化して得られる係数をエントロピー符号化した方が、符号化効率が向上する。

そこで、本実施形態では、下位階層符号化部１２は、TUの予測誤差信号において非ゼロの値を持つ画素の局在度が高い場合には、そのTUの予測誤差信号に対してTransform Skipを適用する。すなわち、下位階層符号化部１２は、そのTUの予測誤差信号を直接量子化する。一方、下位階層符号化部１２は、局在度が低い場合には、そのTUに対してTransform Skipを適用しない。

本実施形態では、局在度算出部２５は、着目するTUについての予測誤差信号に基づいて、SAD及びSATDを算出する。そして局在度算出部２５は、次式に従って局在度を表す特徴量Rを算出する。

予測誤差信号において非ゼロの値を持つ画素の数が少ないほど、アダマール係数では、直流成分以外に対応する係数においても非ゼロの値を持つ係数が増える。そのため、局在度が高いほど、特徴量Rは小さい値となる。

局在度算出部２５は、Transform Skipが適用される可能性の有るTUのそれぞれについて、算出した特徴量R及び予測誤差信号をスキップ判定部２６に通知する。

スキップ判定部２６は、符号化対象CTUにおいて、Transform Skipが適用される可能性の有るTUのそれぞれについて、局在度を表す特徴量Rに基づいてTransform Skipを適用するか否かを判定する。

上述したように、予測誤差信号において非ゼロの値を持つ画素の局在度が高いほど、局在度算出部２５により算出された特徴量Rの値は低下する。そこで、スキップ判定部２６は、着目するTUの特徴量Rが所定の閾値以下である場合、そのTUについてTransform Skipを適用すると判定する。一方、着目するTUの特徴量Rが所定の閾値よりも大きい場合、スキップ判定部２６は、そのTUについてTransform Skipを適用しないと判定する。なお、所定の閾値は、例えば、0.4に設定される。

スキップ判定部２６は、Transform Skipを適用すると判定したTUの予測誤差信号を量子化部２８へ出力する。一方、スキップ判定部２６は、Transform Skipを適用しないと判定したTUの予測誤差信号を直交変換部２７へ出力する。

直交変換部２７は、符号化対象CTU内のTransform Skipが適用されない各TUについて、そのTUの予測誤差信号を直交変換することで予測誤差信号の水平方向の周波数成分及び垂直方向の周波数成分を表す直交変換係数を求める。例えば、直交変換部２７は、予測誤差信号に対して、直交変換処理としてDCTを実行することにより、直交変換係数として、DCT係数の組を得る。

直交変換部２７は、Transform Skipが適用されない各TUについての直交変換係数を量子化部２８へわたす。

量子化部２８は、符号化対象CTUにおいて、Transform Skipが適用されないTUごとの直交変換係数を、量子化幅を指定するqp値などを含む量子化パラメータに従って量子化することにより、量子化された直交変換係数を算出する。また、量子化部２８は、Transform Skipが適用されるTUごとの予測誤差信号を量子化パラメータに従って量子化することにより、量子化された予測誤差信号を算出する。なお、以下では、量子化された直交変換係数及び量子化された予測誤差信号を、単に量子化係数と呼ぶことがある。
量子化部２８は、量子化された直交変換係数を復号部２９及びエントロピー符号化部３１へ出力する。

復号部２９は、符号化対象CTU内の各TUの量子化係数から、そのTUよりも後のCUなどを符号化するために参照される局所復号ブロックを生成し、その局所復号ブロックを記憶部３０に記憶する。
そのために、復号部２９は、各TUの量子化された量子化係数を逆量子化することで、量子化前の直交変換係数または予測誤差信号を復元する。

復号部２９は、Transform Skipが適用されていないTUごとに、復元された直交変換係数に対して逆直交変換を行う。例えば、直交変換部２７が直交変換としてDCTを用いている場合、復号部２９は、逆直交変換として逆DCT処理を実行する。これにより、復号部２９は、TUごとに、符号化前の予測誤差信号と同程度の情報を有する予測誤差信号を復元する。なお、Transform Skipが適用されたTUについては、復号部２９は、逆直交変換を行わなくてもよい。

復号部２９は、TUごとに、そのTUの予測ブロックの各画素値に、復元された予測誤差信号を加算することで、局所復号ブロックを生成する。
復号部２９は、局所復号ブロックを生成する度に、その局所復号ブロックを記憶部３０に記憶させる。

さらに、復号部２９は、１枚のピクチャ分の局所復号ブロックを各CTUの符号化順序にしたがって結合することで得られる局所復号ピクチャをバッファ１１に書き込む。

記憶部３０は、復号部２９から受け取った局所復号ブロックを一時的に記憶する。記憶部３０は、動き探索部２１、符号化モード判定部２２及び予測ブロック生成部２３に、局所復号ピクチャまたは局所復号ブロックを供給する。なお、記憶部３０は、符号化対象ピクチャが参照する可能性がある、予め定められた所定枚数分の局所復号ピクチャを記憶し、局所復号ピクチャの枚数がその所定枚数を超えると、符号化順序が古い局所復号ピクチャから順に破棄する。
さらに、記憶部３０は、インター予測符号化された局所復号ブロックのそれぞれについての動きベクトルを記憶する。さらにまた、記憶部３０は、各CTUについて選択したCU、PU及びTUの分割モード及び符号化モードの組み合わせを記憶する。

エントロピー符号化部３１は、符号化対象CTUの各TUの量子化係数及び各PUの動きベクトルの予測誤差信号及びシンタックスなどをエントロピー符号化する。本実施形態では、エントロピー符号化部３１は、エントロピー符号化方式として、Context-based Adaptive Binary Arithmetic Coding(CABAC)といった算術符号化処理を用いる。そしてエントロピー符号化部３１は、エントロピー符号化により得られたビットストリームを所定の順序で結合し、HEVCで規定されるヘッダ情報などを付加することで、符号化された下位階層の動画像データを含む符号化ビットストリームを求める。そしてエントロピー符号化部３１は、符号化ビットストリームを多重化部１４へ出力する。

図５は、下位階層符号化部１２により実行される下位階層符号化処理の動作フローチャートである。下位階層符号化部１２は、CTUごとに以下に示される動作フローチャートに従って下位階層号化処理を実行する。

動き探索部２１は、符号化対象CTU内の適用可能な各PUについて動きベクトルを算出する（ステップＳ１０１）。そして動き探索部２１は、各PUの動きベクトルを符号化モード判定部２２へ通知する。なお、符号化対象CTUが含まれる符号化対象ピクチャがIピクチャである場合には、ステップＳ１０１の処理は省略されてもよい。

符号化モード判定部２２は、符号化対象CTUについて、CU、PU及びTUのそれぞれの分割モード及び適用される符号化モードを決定する（ステップＳ１０２）。そして符号化モード判定部２２は、CU及びPUの分割モード及び適用される符号化モードを予測ブロック生成部２３に通知するとともに、TU分割モードを予測誤差信号算出部２４に通知する。また、符号化モード判定部２２は、CU、PU及びTUのそれぞれの分割モード及び適用される符号化モードを記憶部３０に記憶する。

予測ブロック生成部２３は、決定されたCU及びPUの分割モード及び適用される符号化モードに応じて予測ブロックを生成する（ステップＳ１０３）。そして予測ブロック生成部２３は、生成した予測ブロックを予測誤差信号算出部２４へわたす。

予測誤差信号算出部２４は、符号化対象CTUと予測ブロック間の予測誤差信号を算出する（ステップＳ１０４）。そして予測誤差信号算出部２４は、符号化対象CTUの各TUのうち、4x4画素よりも大きいサイズを持つTU、すなわち、Transform Skipが適用されないTUの予測誤差信号を直交変換部２７へわたす。また、予測誤差信号算出部２４は、4x4画素サイズを持つTU、すなわち、Transform Skipが適用される可能性が有るTUの予測誤差信号を局在度算出部２５へわたす。

局在度算出部２５は、Transform Skipが適用される可能性が有るTUのそれぞれについて、局在度を表す特量量Rを算出する（ステップＳ１０５）。そして局在度算出部２５は、そのTUのそれぞれについて、特徴量R及び予測誤差信号をスキップ判定部２６にわたす。

スキップ判定部２６は、Transform Skipが適用される可能性が有るTUのそれぞれについて、特徴量Rを所定の閾値と比較し、その特徴量Rが所定の閾値以下となるTUについてTransform Skipを適用すると判定する（ステップＳ１０６）。そしてスキップ判定部２６は、Transform Skipを適用するTUの予測誤差信号を量子化部２８へわたし、Transform Skipを適用しないTUの予測誤差信号を直交変換部２７へわたす。

直交変換部２７は、Transform Skipが適用されない各TUの予測誤差信号を直交変換することで、直交変換係数を算出する（ステップＳ１０７）。そして直交変換部２７は、Transform Skipが適用されない各TUの直交変換係数を量子化部２８へわたす。

量子化部２８は、符号化対象CTUの各TUのうち、Transform Skipが適用されないTUについて、直交変換係数を量子化する（ステップＳ１０８）。また、量子化部２８は、符号化対象CTUの各TUのうち、Transform Skipが適用されるTUについて、予測誤差信号を直接量子化する（ステップＳ１０９）。そして量子化部２８は、各TUの量子化された直交変換係数または量子化された予測誤差信号を復号部２９及びエントロピー符号化部３１へ出力する。

復号部２９は、符号化対象CTUの各TUについての量子化された直交変換係数または量子化された予測誤差信号から、そのCTUに対応する局所復号ブロックを生成する（ステップＳ１１０）。そして復号部２９は、局所復号ブロックを記憶部３０に記憶する。

エントロピー符号化部３１は、符号化対象CTUの各TUについての量子化された直交変換係数または量子化された予測誤差信号及び動きベクトルについての予測誤差などをエントロピー符号化する（ステップＳ１１１）。エントロピー符号化部３１は、得られたビットストリームを多重化部１４へ出力する。そして下位階層符号化部１２は、一つのCTUに対する下位階層符号化処理を終了する。

上位階層符号化部１３は、ピクチャが入力される度に、そのピクチャを符号化する。本実施形態では、上位階層符号化部１３は、下位階層符号化部１２よりも高いデータレートでピクチャを符号化する。また本実施形態では、上位階層符号化部１３は、ピクチャをロスレス符号化する。

図６は、上位階層符号化部１３のブロック図である。上位階層符号化部１３は、動き探索部４１と、符号化モード判定部４２と、予測ブロック生成部４３と、予測誤差信号算出部４４と、エントロピー符号化部４５とを有する。

上位階層符号化部１３は、下位階層符号化部１２と同様に、符号化対象のピクチャについて、各CTUをラスタスキャン順に符号化する。そこで、以下では、上位階層符号化部１３の各部について、一つのCTUに対する処理を例として説明する。

動き探索部４１は、下位階層符号化部１２が有する動き探索部２１と同様の処理を実行して、インター予測符号化モードを適用可能なピクチャについての各PUの動きベクトルを算出する。ただし、動き探索部４１は、下位階層符号化部１２により得られた局所復号ピクチャも参照ピクチャの一つとして、動き探索の際に参照してもよい。特に、符号化対象ピクチャを下位階層符号化部１２が一旦符号化してから復号して得られた局所復号ピクチャと、その符号化対象ピクチャ間の相関性は非常に高い。そのため、その局所復号ピクチャから予測ブロックを生成することで、予測誤差信号は非常に小さくなる可能性がある。
動き探索部４１は、各PUの動きベクトルを符号化モード判定部４２へ出力する。

符号化モード判定部４２は、下位階層符号化部１２が有する符号化モード判定部２２と同様の処理を実行して、符号化対象のCTUについて、符号化コストが最小となるように、適用するCU分割モード及びPU分割モードと符号化モードとを決定する。ただし、符号化モード判定部４２は、下位階層符号化部１２により得られた局所復号ピクチャから予測ブロックを生成する場合、すなわち、階層間予測符号化モードが適用される場合の符号化コストも算出する。
符号化モード判定部４２は、符号化対象のCTUについて適用するCU分割モード及びPU分割モードと符号化モードとを予測ブロック生成部４３に通知する。

予測ブロック生成部４３は、下位階層符号化部１２が有する予測ブロック生成部２３と同様の処理を実行して、符号化対象のCTUについて、適用するCU分割モード及びPU分割モードと符号化モードに従ってPUごとに予測ブロックを生成する。そして予測ブロック生成部４３は、生成した予測ブロックを予測誤差信号算出部４４へ出力する。

予測誤差信号算出部４４は、下位階層符号化部１２が有する予測誤差信号算出部２４と同様の処理を実行して、符号化対象のCTUについて予測誤差信号を算出する。本実施形態では、上位階層符号化部１３は、ピクチャをロスレス符号化するので、予測誤差信号に対する直交変換及び量子化を行わない。そのため、予測誤差信号算出部４４は、予測誤差信号をエントロピー符号化部４５へ直接出力する。

エントロピー符号化部４５は、下位階層符号化部１２が有するエントロピー符号化部３１と同様の処理を実行して、符号化対象のCTUの予測誤差信号をエントロピー符号化する。さらに、エントロピー符号化部４５は、CU分割モード、PU分割モード、及び符号化モードを特定するための情報、及び、動きベクトルと予測ベクトル間の予測誤差などをエントロピー符号化する。そしてエントロピー符号化部４５は、エントロピー符号化により得られたビットストリームを所定の順序で結合し、HEVCで規定されるヘッダ情報などを付加することで、符号化された上位階層の動画像データを含む符号化ビットストリームを求める。そしてエントロピー符号化部４５は、符号化ビットストリームを多重化部１４へ出力する。

多重化部１４は、下位階層符号化部１２から出力された下位階層の符号化ビットストリーム及び上位階層符号化部１３から出力された上位階層の符号化ビットストリームを所定の順序で結合する。さらに、多重化部１４は、その結合された符号化ビットストリームにHEVCに従ったヘッダ情報などを付加する。

図７は、動画像符号化装置１による動画像符号化処理の動作フローチャートである。動画像符号化装置１はピクチャごとに、下記の動作フローチャートに従って符号化する。

下位階層符号化部１２は、ピクチャをCTUごとに分割し、CTUごとにロッシ―な下位階層符号化処理を実行することで、そのピクチャを符号化する（ステップＳ２０１）。そして下位階層符号化部１２は、ピクチャの符号化データを含むビットストリームを多重化部１４へ出力するとともに、局所復号ピクチャをバッファ１１に保存する。

上位階層符号化部１３は、ピクチャをCTUごとに分割し、CTUごとにロスレス符号化する（ステップＳ２０２）。そして上位階層符号化部１３は、ピクチャの符号化データを含むビットストリームを多重化部１４へ出力する。

多重化部１４は、下位階層のピクチャの符号化データを含むビットストリームと、上位階層のピクチャの符号化データを含むビットストリームとを多重化する（ステップＳ２０３）。そして多重化部１４は、多重化されたビットストリームを出力する。そして動画像符号化装置１は、動画像符号化処理を終了する。

以上に説明してきたように、動画像データをスケーラブル符号化するこの動画像符号化装置は、下位階層符号化部にて、予測誤差信号に含まれる非ゼロの値を持つ画素の数が少ないTUについては、Transform Skipを適用する。これにより、ロスレス符号化を実行する上位階層符号化部が、そのTUに対応する局所復号ブロックを参照してブロックを階層間予測符号化する際に、予測誤差信号において非ゼロの値を持つ画素の数を抑制する。これにより、この動画像符号化装置は、全体として符号化効率を向上する。

次に、第２の実施形態による動画像符号化装置について説明する。第２の実施形態による動画像符号化装置は、動画像データを３層以上の階層に分けてスケーラブル符号化する。

図８は、第２の実施形態による動画像符号化装置の概略構成図である。動画像符号化装置２は、バッファ１１と、下位階層符号化部１２と、中間階層符号化部１５と、上位階層符号化部１３と、多重化部１４とを有する。

動画像符号化装置２が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは動画像符号化装置２が有するこれらの各部は、その各部に対応する回路が集積された一つまたは複数の集積回路として動画像符号化装置２に実装されてもよい。さらに、動画像符号化装置２が有するこれらの各部は、動画像符号化装置２が有する一つまたは複数のプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

第２の実施形態による動画像符号化装置２は、第１の実施形態による動画像符号化装置１と比較して、中間階層符号化部１５を有する点で異なる。そこで以下では、中間階層符号化部１５及びその関連部分について説明する。

この実施形態では、下位階層符号化部１２は、Transform Skipが適用された各TUについて、そのTUの位置及び範囲を表す情報を、局所復号ピクチャとともにバッファ１１に保存する。

中間階層符号化部１５は、動画像データに含まれる各ピクチャを、下位階層符号化部１２により生成された局所復号ピクチャを参照ピクチャの一つとしてロッシ―符号化する。また、中間階層符号化部１５は、下位階層符号化部１２よりも高いデータレートで各ピクチャを符号化する。すなわち、下位階層符号化部１２による符号化データを復号して得られたピクチャの画質よりも、中間階層符号化部１５による符号化データを復号して得られたピクチャの画質の方が良くなるように、中間階層符号化部１５は各ピクチャを符号化する。

図９は、中間階層符号化部１５の概略構成図である。中間階層符号化部１５は、動き探索部５１と、符号化モード判定部５２と、予測ブロック生成部５３と、予測誤差信号算出部５４と、スキップ判定部５５と、直交変換部５６と、量子化部５７と、復号部５８と、記憶部５９と、エントロピー符号化部６０とを有する。

動き探索部５１は、下位階層符号化部１２が有する動き探索部２１と同様の処理を実行して、符号化対象ピクチャがPピクチャまたはBピクチャである場合、各PUの動きベクトルを算出する。なお、動き探索部５１は、下位階層符号化部１２により生成された、符号化対象ピクチャに対応する局所復号ピクチャも、動き探索の対象とする参照ピクチャの一つとして利用する。

符号化モード判定部５２、予測ブロック生成部５３及び予測誤差信号算出部５４は、それぞれ、下位階層符号化部１２が有する符号化モード判定部２２、予測ブロック生成部２３及び予測誤差信号算出部２４と同様の処理を実行する。そして符号化モード判定部５２は、CTUごとに、符号化コストが最小となるように、適用するCU、PU及びTUの分割モード及び符号化モードを判定する。ただし、符号化モード判定部５２は、下位階層符号化部１２により得られた局所復号ピクチャから予測ブロックを生成する場合、すなわち、階層間予測符号化モードが適用される場合の符号化コストも算出する。また、符号化モード判定部５２は、符号化対象CTUについて、下位階層符号化部１２で同じCTUに対して用いられたCU、PU及びTUの分割モードをそのまま適用してもよい。予測ブロック生成部５３は、CTUごとに、適用するCU及びPUの分割モード及び符号化モードにしたがって予測ブロックを生成する。そして予測誤差信号算出部５４は、CTUごとに、そのCTUに含まれる各TUについて予測誤差信号を算出する。

スキップ判定部５５は、バッファ１１に保存されている、下位階層符号化部１２においてTransform Skipが適用されたTUの位置及び範囲を示す情報を参照する。そしてスキップ判定部５５は、Transform Skipが適用されたTUと少なくとも部分的に重なるTUについて、Transform Skipを適用すると判定する。一方、スキップ判定部５５は、下位階層符号化部１２においてTransform Skipが適用されたTUと重ならないTUについて、Transform Skipを適用しないと判定する。これにより、下位階層符号化部１２において非ゼロの値を持つ画素の局在度が高いTUと少なくとも部分的に重なるTUについて、中間階層符号化部１５も、誤差が拡散することを抑制できる。

スキップ判定部５５は、Transform Skipが適用されるTUについて、予測誤差信号を量子化部５７へ直接出力する。一方、スキップ判定部５５は、Transform Skipが適用されないTUについて、予測誤差信号を直交変換部５６へ出力する。

直交変換部５６は、Transform Skipが適用されない各TUについて、予測誤差信号を直交変換して直交変換係数を算出する。

量子化部５７は、Transform Skipが適用されない各TUについて、直交変換係数を量子化する。また、量子化部５７は、Transform Skipが適用された各TUについて、予測誤差信号を直接量子化する。なお、量子化部５７が実行する量子化処理において用いられる量子化幅は、下位階層符号化部１２の量子化部２８が実行する量子化処理において用いられる量子化幅よりも狭いことが好ましい。これにより、下位階層符号化部１２により符号化されたピクチャを復号して得られたピクチャの画質よりも、中間階層符号化部１５により符号化されたピクチャを復号して得られたピクチャの画質の方が良くなる。

復号部５８は、下位階層符号化部１２が有する復号部２９と同様の処理を実行して、各CTUを復号して、局所復号ブロック及び局所復号ピクチャを求めて記憶部５９に保存する。さらに、復号部５８は、局所復号ピクチャをバッファ１１に保存する。

記憶部５９は、局所復号ブロック、局所復号ピクチャ及び既に符号化されたピクチャなどで用いられた動きベクトルなどを保存する。

エントロピー符号化部６０は、下位階層符号化部１２が有するエントロピー符号化部３１と同様の処理を行って、各TUの量子化係数、動きベクトルなどをエントロピー符号化する。そしてエントロピー符号化部６０は、符号化データを含むビットストリームを多重化部１４へ出力する。

上位階層符号化部１３は、第１の実施形態による上位階層符号化部１３と同様の処理を実行して、各ピクチャをロスレス符号化する。ただし、本実施形態では、上位階層符号化部１３は、階層間予測符号化を適用する際には、中間階層符号化部１５により生成された局所復号ピクチャを参照ピクチャとして利用する。また、上位階層符号化部１３は、階層間予測符号化を適用する際に、下位階層符号化部１２により生成された局所復号ピクチャを参照ピクチャとして利用してもよい。

多重化部１４は、各階層によるピクチャの符号化データを含むビットストリームを多重化する。

第２の実施形態によれば、中間階層符号化部は、下位階層符号化部によりTransform Skipが適用されたTUと少なくとも部分的に重なるTUについてTransform Skipを適用する。そのため、第２の実施形態による動画像符号化装置も、下位階層において非ゼロの値を持つ画素の局在度が高いTUについて、中間階層でも、直交変換及び量子化による誤差の拡散を抑制できる。そのため、この動画像符号化装置は、動画像データが３層にスケーラブル符号化される場合でも、全体として符号化効率を向上できる。

なお、第２の実施形態の変形例によれば、動画像符号化装置は、中間階層符号化部を複数有していてもよい。これにより、動画像データが４層以上にスケーラブル符号化される場合でも、全体として符号化効率を向上できる。

また他の変形例によれば、下位階層符号化部１２は、4x4画素以外のサイズを持つTUについても、局在度を算出し、局在度が所定の閾値以下である場合に、そのTUについてTransform Skipを適用してもよい。この場合、スキップ判定部２６が、局在度を表す特徴量Rとの比較に利用する閾値は、TUのサイズが大きくなるほど大きな値に設定されてもよい。この変形例によれば、下位階層符号化部１２は、4x4画素よりも大きいサイズを持つTUについても、局在度が高い場合に、直交変換及び量子化により誤差が拡散することを抑制できる。
さらに、予測ブロックの生成単位となるブロックと、直交変換の単位となるブロックとは同一であってもよい。

また他の変形例によれば、局在度算出部２５は、Transform Skipが適用される可能性の有る各TUについて、次式に従って局在度を表す特徴量Rを算出してもよい。

ここで、SAFTDは、予測誤差信号を周波数変換して得られる周波数係数の絶対値和である。なお、この場合、全てのTUについて、直交変換部２７が予測誤差信号を、DCTまたはDSTにより直交変換してもよい。そして局在度算出部２５は、直交変換部２７が算出したDCT係数の組またはDST係数の組を利用して、SAFTDを算出してもよい。この場合も、スキップ判定部２６は、局在度が所定の閾値（例えば、0.4）以下となるTUについてTransform Skipを適用すればよい。

さらに他の変形例によれば、局在度算出部２５は、各TUについて、予測誤差信号を直接量子化してから逆量子化することにより画素値が変化する画素の数（以下、便宜上、第１の変化画素数と呼ぶ）をカウントする。さらに、局在度算出部２５は、各TUについて、予測誤差信号を直交変換及び量子化してから逆量子化及び逆直交変換することにより画素値が変化する画素の数（以下、便宜上、第２の変化画素数と呼ぶ）をカウントする。この場合、第１の変化画素数よりも第２の変化画素数の数が多いほど、直交変換及び量子化により誤差が生じる画素の数が増えることになる。そこで局在度算出部２５は、各TUについて、第１の変化画素数と第２の変化画素数の差、または、第１の変化画素数に対する第２の変化画素数の比を、局在度として算出してもよい。

この場合も、スキップ判定部２６は、局在度が所定の閾値以下であるTUについて、Transform Skipを適用すればよい。例えば、局在度が第１の変化画素数から第２の変化画素数を減じた差として算出されている場合、所定の閾値は、例えば、0に設定される。また、局在度が第１の変化画素数に対する第２の変化画素数の比として算出されている場合、所定の閾値は、例えば、1に設定される。

この変形例によれば、スキップ判定部２６は、Transform Skipが適用される場合に誤差が生じる画素の数と、Transform Skipが適用されない場合に誤差が生じる画素の数とを実際に比較した上でTransform Skipを適用するか否かを判定する。そのため、スキップ判定部２６は、Transform Skipを適用するTUをより適切に決定できる。その結果として、動画像符号化装置１は、上位階層符号化部１３による符号化効率をより向上できる。

図１０は、上記の実施形態またはその変形例による動画像符号化装置または動画像復号装置の各部の機能を実現するコンピュータプログラムが動作することにより、動画像符号化装置または動画像復号装置として動作するコンピュータの構成図である。このコンピュータは、例えば、上述した監視システムまたは画像解析システムにおいて利用可能である。

コンピュータ１００は、ユーザインターフェース部１０１と、通信インターフェース部１０２と、記憶部１０３と、記憶媒体アクセス装置１０４と、プロセッサ１０５とを有する。プロセッサ１０５は、ユーザインターフェース部１０１、通信インターフェース部１０２、記憶部１０３及び記憶媒体アクセス装置１０４と、例えば、バスを介して接続される。

ユーザインターフェース部１０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部１０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部１０１は、例えば、ユーザの操作に応じて、符号化する動画像データを選択する操作信号をプロセッサ１０５へ出力する。

通信インターフェース部１０２は、コンピュータ１００を、動画像データを生成する装置、例えば、ビデオカメラと接続するための通信インターフェース及びその制御回路を有してもよい。そのような通信インターフェースは、例えば、Universal Serial Bus（ユニバーサル・シリアル・バス、USB）、あるいはHigh-Definition Multimedia Interface(HDMI)(登録商標)とすることができる。

さらに、通信インターフェース部１０２は、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。

この場合には、通信インターフェース部１０２は、通信ネットワークに接続された他の機器から、符号化する動画像データを取得し、そのデータをプロセッサ１０５へ渡す。また通信インターフェース部１０２は、プロセッサ１０５から受け取った、符号化動画像データを通信ネットワークを介して他の機器へ出力してもよい。

記憶部１０３は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部１０３は、プロセッサ１０５上で実行される、動画像符号化処理を実行するためのコンピュータプログラム及びこれらの処理の途中または結果として生成されるデータを記憶する。

記憶媒体アクセス装置１０４は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０６にアクセスする装置である。記憶媒体アクセス装置１０４は、例えば、記憶媒体１０６に記憶されたプロセッサ１０５上で実行される、動画像符号化処理用のコンピュータプログラムを読み込み、プロセッサ１０５に渡す。

プロセッサ１０５は、例えば、Central Processing Unit(CPU)、Graphics Processing Unit(GPU)及び数値演算プロセッサの少なくとも何れかを含む。そしてプロセッサ１０５は、上記の実施形態または変形例による動画像符号化処理用コンピュータプログラムを実行することにより、スケーラブル符号化された動画像データを含むビットストリームを生成する。そしてプロセッサ１０５は、生成されたビットストリームを記憶部１０３に保存し、または通信インターフェース部１０２を介して他の機器へ出力する。

なお、上記の実施形態または変形例による動画像符号化処理用コンピュータプログラムは、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。ただし、そのような記録媒体には、搬送波は含まれない。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、該予測ブロックと当該第１のブロック間の予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第１のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第１のブロックを復号することで第１の局所復号ピクチャを生成する第１の符号化部と、
前記ピクチャを分割した複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第２のブロック間の予測誤差信号をエントロピー符号化する第２の符号化部と、
を有し、
前記第１の符号化部は、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、前記予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出する局在度算出部と、
前記複数の第１のブロックのそれぞれにおける前記第１のサブブロックについて、前記特徴量に基づいて直交変換を実行するか否かを判定する判定部と、
を有する動画像符号化装置。
（付記２）
前記第１の符号化部は、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる前記サブブロックのうち、前記判定部により直交変換を実行しないと判定された前記第１のサブブロック以外のサブブロックの前記予測誤差信号を直交変換して前記直交変換係数を算出する直交変換部と、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる前記サブブロックのうち、前記判定部により直交変換を実行しないと判定された前記第１のサブブロック以外のサブブロックの前記直交変換係数及び前記判定部により直交変換を実行しないと判定された前記第１のサブブロックの前記予測誤差信号を量子化して前記量子化係数を算出する量子化部と、
をさらに有する動画像符号化装置。
（付記３）
前記局在度算出部は、前記第１のサブブロックにおける前記予測誤差信号をアダマール変換して得られるアダマール係数の絶対値和に対する当該予測誤差信号の絶対値和の比を前記特徴量として算出する、付記１または２に記載の動画像符号化装置。
（付記４）
前記局在度算出部は、前記第１のサブブロックにおける前記予測誤差信号を周波数変換して得られる周波数係数の絶対値和に対する当該予測誤差信号の絶対値和の比を前記特徴量として算出する、付記１または２に記載の動画像符号化装置。
（付記５）
前記判定部は、前記比が所定の閾値以下となる場合に、直交変換を実行しないと判定する、付記３または４に記載の動画像符号化装置。
（付記６）
前記局在度算出部は、前記第１のサブブロックにおける前記予測誤差信号に含まれる非ゼロの値を持つ画素の第１の数と、前記第１のサブブロックにおける前記予測誤差信号を直交変換して得られる前記直交変換係数に含まれる非ゼロの値を持つ係数の第２の数の差または比を前記特徴量として算出する、付記１または２に記載の動画像符号化装置。
（付記７）
前記判定部は、前記特徴量が、前記第１の数よりも前記第２の数の方が多いことを示す場合に直交変換を実行しないと判定する、付記６に記載の動画像符号化装置。
（付記８）
前記ピクチャを複数の第３のブロックに分割し、前記複数の第３のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第３のブロックよりも前に符号化された他の第３のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第３のブロック間の差分演算を行って得られる予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第３のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第３のブロックを復号することで第２の局所復号ピクチャを生成する第３の符号化部をさらに有し、
前記第２の符号化部は、前記複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記第２の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して前記予測ブロックを生成し、
前記第３の符号化部は、
前記複数の第３のブロックのそれぞれについて、当該第３のブロックに含まれる、直交変換の単位となるサブブロックのうち、前記第１の符号化部にて直交変換されていない前記第１のサブブロックと少なくとも一部が重なるサブブロックについて、当該サブブロックの前記予測誤差信号に対する直交変換を実行せずに量子化して前記量子化係数を算出する、付記１〜７の何れかに記載の動画像符号化装置。
（付記９）
動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、該予測ブロックと当該第１のブロック間の予測誤差信号を算出し、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、前記予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出し、
前記複数の第１のブロックのそれぞれにおける前記第１のサブブロックについて、前記特徴量に基づいて直交変換を実行するか否かを判定し、
前記複数の第１のブロックのそれぞれについて、前記判定結果に従って前記予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第１のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第１のブロックを復号することで第１の局所復号ピクチャを生成し、
前記ピクチャを分割した複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第２のブロック間の予測誤差信号をエントロピー符号化する、
ことを含む動画像符号化方法。
（付記１０）
動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、該予測ブロックと当該第１のブロック間の予測誤差信号を算出し、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、前記予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出し、
前記複数の第１のブロックのそれぞれにおける前記第１のサブブロックについて、前記特徴量に基づいて直交変換を実行するか否かを判定し、
前記複数の第１のブロックのそれぞれについて、前記判定結果に従って前記予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第１のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第１のブロックを復号することで第１の局所復号ピクチャを生成し、
前記ピクチャを分割した複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第２のブロック間の予測誤差信号をエントロピー符号化する、
ことをコンピュータに実行させるための動画像符号化用コンピュータプログラム。

１、２動画像符号化装置
１１バッファ
１２下位階層符号化部（第１の符号化部）
１３上位階層符号化部（第２の符号化部）
１４多重化部
１５中間階層符号化部（第３の符号化部）
２１、４１、５１動き探索部
２２、４２、５２符号化モード判定部
２３、４３、５３予測ブロック生成部
２４、４４、５４予測誤差信号算出部
２５局在度算出部
２６、５５スキップ判定部
２７、５６直交変換部
２８、５７量子化部
２９、５８復号部
３０、５９記憶部
３１、６０エントロピー符号化部
１００コンピュータ
１０１ユーザインターフェース部
１０２通信インターフェース部
１０３記憶部
１０４記憶媒体アクセス装置
１０５プロセッサ
１０６記憶媒体

Claims

動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、該予測ブロックと当該第１のブロック間の予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第１のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第１のブロックを復号することで第１の局所復号ピクチャを生成する第１の符号化部と、
前記ピクチャを分割した複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第２のブロック間の予測誤差信号をエントロピー符号化する第２の符号化部と、
を有し、
前記第１の符号化部は、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、前記予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出する局在度算出部と、
前記複数の第１のブロックのそれぞれにおける前記第１のサブブロックについて、前記特徴量に基づいて直交変換を実行するか否かを判定する判定部と、
を有する動画像符号化装置。
前記局在度算出部は、前記第１のサブブロックにおける前記予測誤差信号をアダマール変換して得られるアダマール係数の絶対値和に対する当該予測誤差信号の絶対値和の比を前記特徴量として算出する、請求項１に記載の動画像符号化装置。
前記局在度算出部は、前記第１のサブブロックにおける前記予測誤差信号を周波数変換して得られる周波数係数の絶対値和に対する当該予測誤差信号の絶対値和の比を前記特徴量として算出する、請求項１に記載の動画像符号化装置。
前記判定部は、前記比が所定の閾値以下となる場合に、直交変換を実行しないと判定する、請求項２または３に記載の動画像符号化装置。
前記ピクチャを複数の第３のブロックに分割し、前記複数の第３のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第３のブロックよりも前に符号化された他の第３のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第３のブロック間の差分演算を行って得られる予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第３のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第３のブロックを復号することで第２の局所復号ピクチャを生成する第３の符号化部をさらに有し、
前記第２の符号化部は、前記複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記第２の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して前記予測ブロックを生成し、
前記第３の符号化部は、
前記複数の第３のブロックのそれぞれについて、当該第３のブロックに含まれる、直交変換の単位となるサブブロックのうち、前記第１の符号化部にて直交変換されていない前記第１のサブブロックと少なくとも一部が重なるサブブロックについて、当該サブブロックの前記予測誤差信号に対する直交変換を実行せずに量子化して前記量子化係数を算出する、請求項１〜４の何れか一項に記載の動画像符号化装置。
動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、該予測ブロックと当該第１のブロック間の予測誤差信号を算出し、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、前記予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出し、
前記複数の第１のブロックのそれぞれにおける前記第１のサブブロックについて、前記特徴量に基づいて直交変換を実行するか否かを判定し、
前記複数の第１のブロックのそれぞれについて、前記判定結果に従って前記予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第１のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第１のブロックを復号することで第１の局所復号ピクチャを生成し、
前記ピクチャを分割した複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第２のブロック間の予測誤差信号をエントロピー符号化する、
ことを含む動画像符号化方法。
動画像データに含まれるピクチャを分割した複数の第１のブロックのそれぞれについて、予測ブロックを生成し、該予測ブロックと当該第１のブロック間の予測誤差信号を算出し、
前記複数の第１のブロックのそれぞれについて、当該第１のブロックに含まれる、直交変換の単位となるサブブロックのうち、所定のサイズを持つ第１のサブブロックについて、前記予測誤差信号中で非ゼロの値を持つ画素の局在度合いを表す特徴量を算出し、
前記複数の第１のブロックのそれぞれにおける前記第１のサブブロックについて、前記特徴量に基づいて直交変換を実行するか否かを判定し、
前記複数の第１のブロックのそれぞれについて、前記判定結果に従って前記予測誤差信号を直交変換して得られる直交変換係数または当該予測誤差信号を量子化して得られる量子化係数をエントロピー符号化するとともに、前記複数の第１のブロックのそれぞれについて、前記直交変換係数または前記予測誤差信号に基づいて当該第１のブロックを復号することで第１の局所復号ピクチャを生成し、
前記ピクチャを分割した複数の第２のブロックのそれぞれについて、前記第１の局所復号ピクチャ、前記ピクチャよりも前に符号化された他のピクチャ、及び当該第２のブロックよりも前に符号化された他の第２のブロックの何れかを参照して予測ブロックを生成し、該予測ブロックと当該第２のブロック間の予測誤差信号をエントロピー符号化する、
ことをコンピュータに実行させるための動画像符号化用コンピュータプログラム。