JP2007174568A - 符号化方法 - Google Patents
符号化方法 Download PDFInfo
- Publication number
- JP2007174568A JP2007174568A JP2005372875A JP2005372875A JP2007174568A JP 2007174568 A JP2007174568 A JP 2007174568A JP 2005372875 A JP2005372875 A JP 2005372875A JP 2005372875 A JP2005372875 A JP 2005372875A JP 2007174568 A JP2007174568 A JP 2007174568A
- Authority
- JP
- Japan
- Prior art keywords
- area
- roi
- interactive
- encoding
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
【課題】動画像をインタラクティブROI符号化すると符号量が増え、符号化効率が低下する。
【解決手段】ROI設定部14は、動画フレーム上にインタラクティブROI領域を設定する。画像分割部10は、動画フレームの全体領域をインタラクティブROI領域とそれ以外の非ROI領域とに分割する。画像縮小部12は、インタラクティブROI領域および非ROI領域を縮小して低解像度画像に変換し、基本レイヤ処理ブロック120に与える。基本レイヤ処理ブロック120および拡張レイヤ処理ブロック110は、それぞれ低解像度、高解像度のインタラクティブROI領域をスライス単位で独立に符号化し、空間スケーラビリティをもつ階層的な符号化データを生成する。一方、非ROI領域は、基本レイヤ処理ブロック120のみにより符号化され、空間スケーラビリティをもたない符号化データが生成される。
【選択図】図1
【解決手段】ROI設定部14は、動画フレーム上にインタラクティブROI領域を設定する。画像分割部10は、動画フレームの全体領域をインタラクティブROI領域とそれ以外の非ROI領域とに分割する。画像縮小部12は、インタラクティブROI領域および非ROI領域を縮小して低解像度画像に変換し、基本レイヤ処理ブロック120に与える。基本レイヤ処理ブロック120および拡張レイヤ処理ブロック110は、それぞれ低解像度、高解像度のインタラクティブROI領域をスライス単位で独立に符号化し、空間スケーラビリティをもつ階層的な符号化データを生成する。一方、非ROI領域は、基本レイヤ処理ブロック120のみにより符号化され、空間スケーラビリティをもたない符号化データが生成される。
【選択図】図1
Description
本発明は、動画像を符号化する符号化方法に関する。
ブロードバンドネットワークが急速に発展しており、高品質な動画像を利用したサービスに期待が集まっている。また、DVDなど大容量の記録媒体が利用されており、高画質の画像を楽しむユーザ層が広がっている。動画像を通信回線で伝送したり、記録媒体に蓄積するために不可欠な技術として圧縮符号化がある。動画像圧縮符号化技術の国際標準として、MPEG4の規格やH.264/AVC規格がある。また、1つのストリームで、符号量に応じて、異なる画質(たとえば高画質と低画質)、異なる解像度(たとえば高解像度と低解像度)、異なるフレームレート(たとえば高フレームレートと低フレームレート)の画像の圧縮および伸長を実現することのできる、H.264/AVCの拡張として規格化が進められているSVC(Scalable Video Coding)のような次世代画像圧縮技術がある。
次世代画像圧縮技術であるSVCでは、動画像を複数の異なる解像度、フレームレート、画質で再生することができるように、空間スケーラビリティ、時間スケーラビリティ、SNRスケーラビリティなどの各種スケーラビリティをもたせて動画像を符号化する。これらのスケーラビリティを任意に組み合わせて符号化することも可能であり、SVCのスケーラビリティ機能は柔軟性に富んでいる。
SVCの要求仕様(Requirements)の1つにインタラクティブROI(Interactive Region of Interest;IROI)符号化がある。画像の注目領域(Region of Interest;ROI)を他の領域とは異なる画質で符号化する技術としてROI符号化がある。これに対して、SVCのインタラクティブROI符号化は、動画像の再生時にユーザが画像を見ながら画面上で注目領域の位置やサイズを逐次指定可能であり、注目領域を異なる品質で再生することを可能にするものである。SVCでは動画像を各種のスケーラビリティをもたせて符号化するため、再生時にユーザが指定した注目領域を他の領域とは異なる品質で復号することが可能である。
特許文献1には、エラー耐性を高めるために、映像の符号化に利用されるスライス構造を利用して映像の一部を重複して符号化および復号する方法と装置が開示されている。
特開2004−236337号公報
SVCがH.264/AVCの拡張であることから、H.264/AVCと両立するインタラクティブROI符号化では、動画像再生の際にユーザがどの領域を注目領域として指定するかがわからないため、動画像を構成する各ピクチャにおいて、あらかじめピクチャの全領域にスケーラビリティをもたせて符号化しておく必要があり、動画像の符号量が非常に大きくなり、符号化効率が著しく低下するという問題がある。
本発明はこうした状況に鑑みてなされたもので、その目的は、符号化効率が高いインタラクティブROI符号化が可能な動画像の符号化技術を提供することにある。
上記課題を解決するために、本発明のある態様の符号化方法は、動画像を構成するピクチャを、スケーラビリティをもたせて符号化される領域とスケーラビリティをもたせないで符号化される領域とに分け、前記スケーラビリティをもたせて符号化される領域を特定する情報を前記動画像の符号化データに含める。
「ピクチャ」は、フレーム、フィールド、VOP(Video Object Plane)などを含む符号化の単位である。
スケーラビリティをもたせて符号化することは、たとえば空間解像度、フレームレートおよび画質レベルなどの動画像の再生品質を異ならせて符号化し、複数の再生品質レベルの符号化データを生成すること(「スケーラブル復号」という)を含み、このようにしてスケーラブル符号化された動画像は、任意の再生品質レベルを選択して復号する(スケーラブル復号という)ことができるというスケーラビリティをもつ。空間解像度を異ならせて符号化された動画像は、空間スケーラビリティを有し、フレームレートを異ならせて符号化された動画像は、時間スケーラビリティを有し、画質レベルを異ならせて符号化された動画像は、SNRスケーラビリティを有する。
複数の再生品質レベルの符号化データを階層構造をもたせて多重化してもよく、たとえば下位層の符号化データだけを復号すると、低い再生品質レベルで動画像が再生され、上位層の符号化データを含めて復号すると、高い再生品質レベルで動画像が再生されるように、階層化された符号化データを構成してもよい。
この態様によると、画像の全体領域の一部だけがスケーラブル符号化されるため、動画像の符号量を少なくすることができる。また、スケーラブル符号化された領域を特定する情報が符号化データに含まれるため、復号時に画像内のスケーラブル符号化された領域を識別することができ、識別された領域について、スケーラビリティ機能を利用してスケーラブル復号が可能となる。
前記スケーラビリティをもたせて符号化される領域は、前記動画像の復号の際に当該領域内で部分的な領域を指定してスケーラビリティを利用した画像の再生が可能なように複数の小領域に分割されていてもよく、前記複数の小領域の分割単位を特定する情報を前記動画像の符号化データに含めてもよい。
これによれば、スケーラブル符号化された領域が小領域に分割されており、スケーラブル符号化された領域内で小領域単位で任意に部分的な領域を指定し、その指定した部分領域をスケーラビリティ機能を利用して任意の再生品質レベルで再生することができる。各小領域は他の小領域には依存することなく符号化がなされてもよい。小領域単位で他の小領域を復号することなく、独立してスケーラブル復号が可能となる。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、インタラクティブROI符号化において動画像の符号化効率を向上することができる。
図1は、実施の形態に係る符号化装置100の構成図である。これらの構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされた画像符号化機能のあるプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。
本実施の形態の符号化装置100は、次世代画像圧縮技術であるSVC(Scalable Video Coding)に準拠して、動画像に空間(spatial)スケーラビリティ、時間(temporal)スケーラビリティ、およびSNR(signal to noise ratio)スケーラビリティの少なくとも1つをもたせて符号化する「スケーラブル符号化」を行う。
動画像の符号化には、国際標準化機関であるISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)によって標準化されたMPEG(Moving Picture Experts Group)シリーズの規格(MPEG−1、MPEG−2およびMPEG−4)、電気通信に関する国際標準機関であるITU−T(International Telecommunication Union-Telecommunication Standardization Sector)によって標準化されたH.26xシリーズの規格(H.261、H.262およびH.263)、もしくは両方の標準化機関によって合同で標準化された最新の動画像圧縮符号化標準規格であるH.264/AVC(両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264)に準拠する技術が用いられる。
なお、実施の形態では、動画像の符号化の単位としてフレームを例に挙げて説明するが、符号化の単位はフィールドであってもよい。また、符号化の単位はMPEG−4におけるVOPであってもよい。
符号化装置100は、フレーム単位で動画像の入力を受け取り、動画像をスケーラブル符号化し、動画像の符号化ストリームを出力する。入力された動画フレームはフレームメモリに格納され、符号化に係る各処理部によって読み書きされる。
符号化装置100は、空間スケーラビリティをもたせて動画像を符号化するために拡張レイヤ処理ブロック110と基本レイヤ処理ブロック120を有し、基本レイヤ処理ブロック120において低解像度で動画像を圧縮符号化し、拡張レイヤ処理ブロック110において高解像度で動画像を圧縮符号化する。これにより、階層毎に空間解像度の異なる動画像の符号化データが生成される。
また、符号化装置100は、時間スケーラビリティをもたせて動画像を符号化するために、MCTF(Motion Compensated Temporal Filtering、動き補償時間方向フィルタ)技術を用いる。MCTF技術は、時間軸方向のサブバンド分割に動き補償を組み合わせたものであり、階層的な動き補償を行う。これにより、階層毎にフレームレートが異なる動画像の符号化データが生成される。
また、符号化装置100は、SNRスケーラビリティをもたせて動画像を符号化するために、量子化ステップや量子化により切り捨てる下位ビット数を変えて動画像を圧縮符号化する。これにより、階層毎に画質の異なる動画像の符号化データが生成される。
なお、空間スケーラビリティ、時間スケーラビリティ、およびSNRスケーラビリティは任意に組み合わせてよい。
ROI設定部14は、動画フレーム上にインタラクティブROI領域を設定する。インタラクティブROI領域内では動画像の再生の際に任意にROI領域を設定可能である。
ROI設定部14は、インタラクティブROI領域以外に、インタラクティブでない通常のROI領域を設定することもできる。以下、インタラクティブROI領域と通常ROI領域を総称する場合、単にROI領域と呼ぶ。
ROI設定部14は、ROI領域を指定するための情報(以下、「ROI領域情報」という)を画像分割部10、拡張レイヤ処理ブロック110の可変長符号化部30a、および基本レイヤ処理ブロック120の可変長符号化部30bに与える。
画像分割部10は、ROI設定部14から与えられたROI領域情報にしたがって、入力されたフレームの領域を分割する。ROI設定部14により、ROI領域としてインタラクティブROI領域のみが設定されている場合は、画像の全体領域は、インタラクティブROI領域と、それ以外の領域(以下、「非ROI領域」という)とに分割される。ROI設定部14により、ROI領域としてインタラクティブROI領域と通常ROI領域の両方が設定されている場合は、画像の全体領域は、インタラクティブROI領域、通常ROI領域、および非ROI領域に分割される。
画像分割部10は、分割された各領域の画像データを画像縮小部12に与える。画像縮小部12は、分割された各領域の画像データを縮小し、縮小された各領域の画像データを基本レイヤ処理ブロック120に与える。
基本レイヤ処理ブロック120は、画像縮小部12により低解像度に変換された各領域の画像データを圧縮符号化して多重化部18に出力する。基本レイヤ処理ブロック120に入力される各領域の画像データがインタラクティブROI領域、通常ROI領域、非ROI領域のいずれであるかによって、基本レイヤ処理ブロック120における符号化処理は異なる。
基本レイヤ処理ブロック120は、通常ROI領域を非ROI領域とは異なる空間解像度、フレームレートまたは画質レベル、あるいはこれらの組み合わせで符号化する。たとえば、通常ROI領域を非ROI領域よりも高画質で符号化する場合、通常ROI領域については、量子化の際に、異なる量子化テーブルを用いて、適用される量子化ステップを小さくしたり、量子化により切り捨てる下位ビット数を減らすなどにより、有効ビット数を多めに確保することで非ROI領域よりも高画質で符号化する。
通常ROI領域については、スケーラブル符号化により複数の異なる空間解像度、フレームレートまたは画質レベル、あるいはこれらの組み合わせをもたせてもよく、スケーラブル符号化を行わずに1つの空間解像度、フレームレートまたは画質レベル、あるいはこれらの組み合わせをもたせるだけにしてもよい。
通常ROI領域についてスケーラブル符号化を行わない場合は、基本レイヤ処理ブロック120において時間スケーラブル符号化に関係するMCTF部20bは動作せず、また、拡張レイヤ処理ブロック110を用いた空間スケーラブル符号化も行われないが、通常ROI領域についてスケーラブル符号化を行う場合は、基本レイヤ処理ブロック120のMCTF部20bにより時間スケーラブル符号化が行われたり、拡張レイヤ処理ブロック110により空間スケーラブル符号化が行われたりする。以下では、簡単のため、通常ROI領域についてはスケーラブル符号化が行われないとして各構成の動作を説明している。
非ROI領域についてはスケーラブル符号化を行わないため、基本レイヤ処理ブロック120において時間スケーラブル符号化に関係するMCTF部20bは動作せず、また、拡張レイヤ処理ブロック110を用いた空間スケーラブル符号化も行われない。
インタラクティブROI領域について、時間スケーラブル符号化を行う場合は、基本レイヤ処理ブロック120においてMCTF部20bが動作し、階層毎にフレームレートを異ならせた符号化が行われる。また、インタラクティブROI領域について、空間スケーラビリティ符号化を行う場合は、基本レイヤ処理ブロック120の他に拡張レイヤ処理ブロック110が動作し、階層毎に空間解像度を異ならせた符号化が行われる。また、インタラクティブROI領域について、SNRスケーラブル符号化を行う場合は、量子化ステップや量子化により切り捨てる下位ビット数を変えることにより、階層毎に画質を異ならせた符号化が行われる。
空間スケーラブル符号化を実行するために、画像分割部10は、インタラクティブROI領域の画像データを解像度を落とすことなく、拡張レイヤ処理ブロック110に与える。拡張レイヤ処理ブロック110は、インタラクティブROI領域の高解像度の画像データを圧縮符号化して多重化部18に出力する。
基本レイヤ処理ブロック120の各構成を説明する。基本レイヤ処理ブロック120は、入力される画像の領域がインタラクティブROI領域である場合、インタラクティブROI領域を複数の小領域に分割し、小領域毎に独立した符号化を行う。小領域の一例として、スライスを用いる。スライスは、H.264/AVCにおける符号化の基本単位であり、1フレームを複数のスライスに分割してスライス単位で符号化することが可能である。
基本レイヤ処理ブロック120は、インタラクティブROI領域の場合はスライスに分け、各スライスを他のスライスに依存することなく独立に符号化する。すなわち、各スライスは、他のスライスの画素データや動きベクトル情報を利用することなく、符号化対象スライス内に閉じた情報のみを利用して符号化される。インタラクティブROI領域をスライス単位で独立に符号化するのは、インタラクティブROI領域内でスライス単位で部分的な領域をROI領域として指定して復号することを可能とするためである。
基本レイヤ処理ブロック120は、通常ROI領域、非ROI領域の場合は、インタラクティブROI領域のように注目領域の位置やサイズの任意指定が可能なインタラクティブ性をもたせる必要はないため、基本的にはスライスに分割することなく、通常ROI領域、非ROI領域の全体を1つとして扱って符号化する。もっともインタラクティブ性以外の目的で必要に応じて通常ROI領域、非ROI領域についてもスライスに分割して符号化することはかまわない。
インタラクティブROI領域を時間スケーラブル符号化する場合は、MCTF部20bが動作する。MCTF部20bは、MCTF技術にしたがった動き補償時間フィルタリングを実施する。MCTF部20bは、動画像フレームから動きベクトルを求め、動きベクトルを用いて時間フィルタリングを実施する。時間フィルタリングは、ハール(Haar)ウェーブレット変換を用いて実施され、この結果、各階層に高域フレームと低域フレームとを含むフレームレートの異なる複数の階層に分解される。分解された高域フレームと低域フレームは階層毎にメモリに保持され、動きベクトルも階層毎にメモリに保持される。
MCTF部20bにおける処理が終了すると、すべての階層の高域フレームと最終的な階層の低域フレームは、予測部24bに送られ、すべての階層の動きベクトルは、動き符号化部22bに送られる。
予測部24bは、画像フレームのフレーム内予測を行い、フレーム内予測誤差画像をDCT部26bに与える。DCT部26bは、予測部24bから供給されたフレーム内予測誤差画像を離散コサイン変換(DCT)し、得られたDCT係数を量子化部28bに与える。量子化部28bは、DCT係数を量子化し、可変長符号化部30bに与える。
可変長符号化部30bは、ROI設定部14からROI領域情報を受け取り、量子化部28bから差分画像の量子化されたDCT係数を受け取り、ROI領域情報とDCT係数を可変長符号化し、多重化部18に与える。
インタラクティブROI領域をSNRスケーラブル符号化を行う場合は、複数のビットプレーンの内、切り捨てる下位ビットプレーンの数を変えたり、量子化ステップを変えることで、階層毎に異なる画質の符号化データを生成する。
動き符号化部22bは、MCTF部20bから与えられた動きベクトル情報を符号化し、多重化部18に与える。
インタラクティブROI領域について空間スケーラブル符号化を行うために、基本レイヤ処理ブロック120の動き符号化部22bおよび予測部24bは、それぞれ基本レイヤにおける各フレームの動きベクトルとフレーム内予測誤差画像を拡張レイヤ処理ブロック110の動き符号化部22aおよび内挿処理部32に与える。
次に、拡張レイヤ処理ブロック110の各構成を説明する。拡張レイヤ処理ブロック110は、画像分割部10からインタラクティブROI領域の画像データを受け取り、符号化する。拡張レイヤ処理ブロック110が符号化するインタラクティブROI領域の画像データは、画像縮小部12によって縮小されていない高解像度画像である。
拡張レイヤ処理ブロック110のMCTF部20aは、基本レイヤ処理ブロック120のMCTF部20bと同じ動き補償時間フィルタリングを高解像度のインタラクティブROI領域の画像データに施し、動きベクトル情報を動き符号化部22aに、符号化データを予測部24aに与える。拡張レイヤ処理ブロック110においても、インタラクティブROI領域は複数のスライスに分割されてスライス毎に独立して符号化が行われる。
拡張レイヤ処理ブロック110の動き符号化部22aは、基本レイヤ処理ブロック120の動き符号化部22bから基本レイヤのインタラクティブROI領域の動きベクトルの情報を受け取る。拡張レイヤ処理ブロック110の動き符号化部22aは、拡張レイヤのインタラクティブROI領域の動きベクトル情報と基本レイヤのインタラクティブROI領域の動きベクトル情報との間で差分符号化を行い、階層間で差分符号化された動きベクトル情報を多重化部18に与える。
基本レイヤと拡張レイヤ間で動きベクトル情報を差分符号化する際、基本レイヤにおける動きベクトルを拡張レイヤの解像度に合うように拡大する。たとえば、基本レイヤのインタラクティブROI領域の高さおよび幅がそれぞれ、拡張レイヤのインタラクティブROI領域の高さおよび幅の1/2である場合、基本レイヤのインタラクティブROI領域について得られた動きベクトルを高さ方向、幅方向にそれぞれ2倍する。拡張レイヤ処理ブロック110の動き符号化部22aは、このようにして拡張レイヤの解像度に合わせて拡大された基本レイヤの動きベクトルと、拡張レイヤの動きベクトルとの間で差分を取って符号化する。このように階層間で動きベクトル情報を差分符号化することにより、拡張レイヤのインタラクティブROI領域の動きベクトル情報をそのまま符号化するよりは、動きベクトル情報の符号量を減らすことができる。
内挿処理部32は、基本レイヤ処理ブロック120の予測部24bから基本レイヤのインタラクティブROI領域の予測誤差画像を受け取り、拡張レイヤの解像度に合わせるために画素を内挿する処理を行う。内挿処理部32は、内挿処理が施された基本レイヤの予測誤差画像を拡張レイヤ処理ブロック110の予測部24aに与える。
拡張レイヤ処理ブロック110の予測部24aは、MCTF部20aから与えられた画像フレームをフレーム内予測符号化する。さらに、拡張レイヤ処理ブロック110の予測部24aは、拡張レイヤの予測誤差画像と、拡張レイヤの解像度に合うように内挿された基本レイヤの予測誤差画像との間で差分符号化を行う。階層間で予測誤差画像の差分符号化を行うことにより、符号量を減らすことができる。
拡張レイヤ処理ブロック110のDCT部26a、量子化部28a、および可変長符号化部30aによる処理は、基本レイヤ処理ブロック120のDCT部26b、量子化部28b、および可変長符号化部30bによる処理と同じであり、拡張レイヤにおいて予測誤差画像が圧縮符号化され、多重化部18に渡される。
多重化部18は、基本レイヤ処理ブロック120から与えられる基本レイヤにおける符号化データと、拡張レイヤ処理ブロック110から与えられる拡張レイヤにおける符号化データとを1つにまとめた符号化ストリームを生成して出力する。各レイヤの符号化データには、画像データと動きベクトル情報が含まれる。
通常ROI領域と非ROI領域については、拡張レイヤ処理ブロック110は動作しないため、階層化されていない基本レイヤのみの符号化データが符号化ストリーム内に格納される。一方、インタラクティブROI領域については、基本レイヤの符号化データと拡張レイヤの符号化データを含む階層化された符号化データが符号化ストリーム内に格納される。もっとも通常ROI領域について空間スケーラブル符号化される場合は、通常ROI領域についても基本レイヤの符号化データと拡張レイヤの符号化データを含む階層化された符号化データが符号化ストリーム内に格納されることになる。
なお、本実施の形態では、ROI領域情報を可変長符号化部30a、30bにおいて符号化したが、ROI領域情報は符号化せずに、多重化部18に与えて、符号化ストリームのヘッダに付加するようにしてもよい。
上記では、基本レイヤ処理ブロック120と拡張レイヤ処理ブロック110とを別々に設け、それぞれ基本レイヤの低解像度画像、拡張レイヤの高解像度画像を符号化する構成を説明したが、基本レイヤ処理ブロック120と拡張レイヤ処理ブロック110で共通する構成要素は基本レイヤと拡張レイヤの間で共有してもよい。たとえば、基本レイヤ処理ブロック120の構成だけを設け、基本レイヤ処理ブロック120において基本レイヤの符号化を行い、基本レイヤにおける予測誤差画像と動きベクトル情報をメモリに保持する。次に、メモリに保持された基本レイヤの符号化結果を利用して、拡張レイヤの符号化処理を基本レイヤ処理ブロック120において実行する。このように基本レイヤにおける符号化処理の構成を拡張レイヤに流用すれば、符号化装置100の回路規模を小さくすることができる。
上記の説明では、空間スケーラビリティの階層が基本レイヤと拡張レイヤの2つである場合を説明したが、3以上の空間スケーラビリティの階層をもたせてもよい。その場合は、最下位のレイヤに対しては基本レイヤ処理ブロック120を設け、それ以外のレイヤに対してはレイヤ毎に拡張レイヤ処理ブロック110の構成を設け、下位層に行くほど低解像度の画像を符号化するようにし、下位層から上位層へ予測誤差画像と動きベクトル情報を送り、各レイヤで差分符号化を行うように構成する。あるいは、基本レイヤ処理ブロック120だけを設けて、基本レイヤ処理ブロック120をレイヤ毎に繰り返し利用することにより各レイヤの符号化を逐次的に行うように構成してもよい。
図2(a)、(b)は、動画像フレームの領域内に設定されるインタラクティブROI領域を説明する図である。図2(a)は、動画像のフレームの中央にインタラクティブROI領域(図中のROI1)が設定された例を示す。インタラクティブROI領域以外の領域は非ROI領域(図中のROI0)であり、斜線で示されている。
この例では、インタラクティブROI領域は、縦横に4分割され、16個のスライス00〜15を含む。インタラクティブROI領域内ではスライス単位で独立したスケーラブル符号化がなされているため、動画像の復号の際、インタラクティブROI領域内の任意のスライスを選び、選択したスライスについてスケーラブル符号化されたデータを利用して異なる品質で再生することができる。
たとえば、16個のスライスの内、図2(a)のように4つのスライス05、06、09、10を選択すると、選択された部分だけを、解像度、フレームレート、および画質の少なくとも1つを高くして再生したり、あるいは逆に、解像度、フレームレート、および画質の少なくとも1つを低くして再生する。
インタラクティブROI領域内の指定領域について高画質画像が要求された場合、まず最低画質の画像を得るためにすべてのスライス00〜15について最下位層のみ復号する。次に、ユーザによって指定された領域に対応するスライスのみについて、SNRスケーラビリティの階層を上がりながら復号を繰り返し、ユーザが要求する画質になるまで復号する。
インタラクティブROI領域内の指定領域について拡大画像が要求された場合、まず最低画質の画像を得るためにすべてのスライス00〜15について最下位層のみ復号する。次に、ユーザによって指定された領域に対応するスライスのみについて、空間スケーラビリティの階層を上がりながら復号を繰り返し、ユーザが要求する解像度になるまで復号する。
インタラクティブROI領域内であれば、ROI領域として選択するスライスの箇所や数は任意である。たとえば、図2(b)のように、スライス04、08、09、12、13のように矩形でない注目領域を選択することもできる。また、これとは別にスライス03を注目領域として選択してもよく、注目領域として選択される領域は連続でなくてもよい。
図3(a)、(b)は、動画フレームの領域内にインタラクティブROI領域とは別に通常ROI領域を設定する例を説明する図である。
図3(a)の例では、インタラクティブROI領域(図中のROI1)と通常ROI領域(図中のROI2)が設定されている。それ以外の領域は非ROI領域(図中のROI0)であり、斜線で示されている。
通常ROI領域は、この領域全体で他の領域とは異なる空間解像度、フレームレートまたは画質で符号化されるため、インタラクティブROI領域のように、復号の際に領域を指定して指定された箇所だけを異なる空間解像度、フレームレートまたは画質で再生することはできない。
図3(b)の例では、インタラクティブROI領域(図中のROI1)の周辺部に通常ROI領域(図中のROI2)が設定され、さらに通常ROI領域の外側に非ROI領域(図中のROI0)が設定されている。このように、インタラクティブROI領域と通常ROI領域には領域上の包含関係や重複があってもかまわない。また、インタラクティブROI領域や通常ROI領域はフレーム内に複数設けられてもよい。
インタラクティブROI領域や通常ROI領域などの注目領域は、ユーザが画像上の特定の領域を指定することによって選択されてもよく、画像の中心領域などあらかじめ定まった領域が選択されてもよい。また、人物や文字が映っている領域などの重要領域が注目領域として自動的に抽出されてもよい。また、動画像において特定のオブジェクト等の動きを追跡することによって注目領域がフレーム単位で自動的に選択されてもよい。
なお、注目領域といっても、必ずしも高画質で再生することだけを目的としない。たとえば、プライバシーを保護する目的では、人物の顔が写っている注目領域を低画質で再生することが必要となる。インタラクティブROI符号化や通常のROI符号化は、そのような目的でも用いられる。スケーラブル符号化された画像データを用いて、インタラクティブROI領域内でプライバシー保護の必要のある領域は低解像度、低フレームレート、あるいは低画質で再生することができる。また、プライバシー保護の必要のある領域を通常ROI領域に指定し、あらかじめ他の領域よりは解像度、フレームレートあるいは画質を落として符号化することもできる。
図4(a)、(b)は、符号化装置100により符号化された符号化ストリーム300のデータフォーマットを説明する図である。
図4(a)に示すように、符号化ストリーム300は、ヘッダ部にROI領域情報302とレイヤ情報304が格納され、データ部に符号化されたフレームデータ320が格納されたデータ構造をもつ。ROI領域情報302は、フレームの領域上に設けられたインタラクティブROI領域およびROI領域の領域情報である。レイヤ情報304は、スケーラブル符号化されたインタラクティブROI領域のレイヤ情報であり、レイヤ数や各レイヤにおける解像度、フレームレート、画質などのスケーラブル符号化に関するパラメータが格納される。
図4(b)は、ROI領域情報302のデータフォーマットを説明する図である。ROI領域情報302には、通常ROI領域について、領域の左上隅の画素の座標値306と、領域の縦横の画素数で示される領域サイズ307とが格納され、インタラクティブROI領域について、座標値306と領域サイズ307の他、領域分割数308と再生品質レベル数309が格納される。領域分割数308は、インタラクティブROI領域がスライスに分割された場合の高さ方向、幅方向のスライスの数で示される。再生品質レベル数309は、高品質、中品質、低品質などの再生品質レベルの数である。再生品質は、解像度、フレームレート、および画質の少なくとも1つで規定される。通常ROI領域についてもスケーラブル符号化される場合は、通常ROI領域についてのROI領域情報302にも再生品質レベル数209が格納される。
図5は、符号化されたフレームデータ320のデータ構造を説明する図である。インタラクティブROI領域はスケーラビリティをもたせて階層符号化されている。ここでは空間スケーラビリティをもたせた場合を説明する。インタラクティブROI領域の階層符号化データ326は、3つのレイヤの符号化データをもつ。レイヤ0の符号化データ328のみを用いて復号すると、低解像度の画像I0(符号340)が再生される。レイヤ0の符号化データ328とレイヤ1の符号化データ330を用いて復号すると、中解像度の画像I1(符号342)が再生される。レイヤ0の符号化データ328、レイヤ1の符号化データ330、レイヤ2の符号化データ332のすべてを用いて復号すると、高解像度の画像I2(符号344)が再生される。インタラクティブROI領域は、複数のスライスに分割されてスケーラブル符号化されるため、スライス毎にこのような複数の異なる空間解像度の符号化データからなる階層構造をもつ。
通常ROI領域は、スケーラブル符号化されていない場合、他の領域とは異なる1つの空間解像度、フレームレートまたは画質で符号化されているだけであり、通常ROI領域の符号化データ324は、複数の異なる空間解像度、フレームレートまたは画質の符号化データからなる階層構造をもたない。もっとも通常ROI領域がスケーラブル符号化されている場合は、複数の異なる空間解像度、フレームレートまたは画質の符号化データからなる階層構造をもつことになる。非ROI領域についてはスケーラブル符号化はなされないから、非ROI領域の符号化データ322は階層構造をもたない。動画像の符号化されたフレームデータ320は、非ROI領域の符号化データ322、通常ROI領域の符号化データ324、およびインタラクティブROI領域の階層符号化データ326を合わせたものである。
以上述べたように、本実施の形態の符号化装置100によれば、特定の領域のみをインタラクティブROI符号化するため、画像全体をインタラクティブROI符号化する場合に比べて、符号化効率が向上する。
インタラクティブROI領域内はスライス単位で独立にスケーラブル符号化されているため、任意のスライスを選択して、選択されたスライスだけを他のスライスを復号することなく独立してスケーラブル復号することができる。したがって、選択されたスライスだけを高い再生品質レベルに達するまで再生し、他のスライスを低い再生品質レベルでとどめたり、逆に選択されたスライスだけを低い再生品質レベルにとどめ、他のスライスを高い再生品質レベルに達するまでスケーラブル復号するなど、スケーラビリティを利用してスライス単位で異なる再生品質を実現することができる。
インタラクティブROI領域は複数のスライスに分けて独立に符号化するため、スライスをまたがる領域で差分符号化することができないため符号量が増えるが、インタラクティブROI領域以外ではスライスに分割しないため、差分符号化により符号量を減らすことができる。また、インタラクティブROI領域ではスケーラブル符号化を行うため符号量が増えるが、インタラクティブROI領域以外では原則としてスケーラブル符号化を行わないため、符号量を減らすことができる。このように、インタラクティブROI領域を画像内で限定することにより、インタラクティブROI領域以外の領域については符号量を減らし、画像全体では符号化効率を高めることができる。
また、本実施の形態では、インタラクティブROI領域以外に通常ROI領域も合わせて指定することができるため、ROI領域の形状にバリエーションをもたせ、柔軟性を高めることができる。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
10 画像分割部、 12 画像縮小部、 14 ROI設定部、 18 多重化部、 20a、20b MCTF部、 22a、22b 動き符号化部、 24a、24b 予測部、 26a、26b DCT部、 28a、28b 量子化部、 30a、30b 可変長符号化部、 32 内挿処理部、 100 符号化装置、 110 拡張レイヤ処理ブロック、 120 基本レイヤ処理ブロック。
Claims (5)
- 動画像を構成するピクチャを、スケーラビリティをもたせて符号化される領域とスケーラビリティをもたせないで符号化される領域とに分け、前記スケーラビリティをもたせて符号化される領域を特定する情報を前記動画像の符号化データに含めることを特徴とする符号化方法。
- 前記スケーラビリティをもたせて符号化される領域は、前記動画像の復号の際に当該領域内で部分的な領域を指定してスケーラビリティを利用した画像の再生が可能なように複数の小領域に分割されており、前記複数の小領域の分割単位を特定する情報を前記動画像の符号化データに含めることを特徴とする請求項1に記載の符号化方法。
- 前記スケーラビリティをもたせて符号化される領域については、前記小領域毎に他の小領域には依存することなく符号化がなされることを特徴とする請求項2に記載の符号化方法。
- 前記ピクチャ内に、複数の小領域に分割されることなく一体的に符号化される領域であって、空間解像度、フレームレートおよび画質レベルの少なくとも1つが他の領域とは異なる領域を設け、前記空間解像度、フレームレートおよび画質レベルの少なくとも1つが他の領域とは異なる領域を特定する情報を前記動画像の符号化データに含めることを特徴とする請求項1から3のいずれかに記載の符号化方法。
- 前記スケーラビリティをもたせて符号化される領域は、空間解像度、フレームレートおよび画質レベルの少なくとも1つのスケーラビリティをもたせて符号化されることを特徴とする請求項1から4のいずれかに記載の符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005372875A JP2007174568A (ja) | 2005-12-26 | 2005-12-26 | 符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005372875A JP2007174568A (ja) | 2005-12-26 | 2005-12-26 | 符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007174568A true JP2007174568A (ja) | 2007-07-05 |
Family
ID=38300491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005372875A Pending JP2007174568A (ja) | 2005-12-26 | 2005-12-26 | 符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007174568A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009014230A1 (en) * | 2007-07-20 | 2009-01-29 | Fujifilm Corporation | Image processing apparatus, image processing method, image processing system and program |
WO2009033432A1 (en) * | 2007-09-14 | 2009-03-19 | Huawei Technologies Co., Ltd. | A method and apparatus for video encoding and decoding |
WO2009035012A1 (en) * | 2007-09-10 | 2009-03-19 | Fujifilm Corporation | Image processing apparatus, image processing method, and program |
JP2010177828A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | スケーラブル画像符号化方法、スケーラブル画像符号化装置、スケーラブル画像符号化プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
GB2509954A (en) * | 2013-01-18 | 2014-07-23 | Canon Kk | Displaying a Region of Interest in High Resolution Using an Encapsulated Video Stream |
US8831107B2 (en) | 2007-09-14 | 2014-09-09 | Tsinghua University | Method and device for video coding and decoding |
JP2016529789A (ja) * | 2013-07-15 | 2016-09-23 | ソニー株式会社 | インタラクティビティのための動き制約タイルセットseiメッセージの拡張 |
WO2017138458A1 (ja) * | 2016-02-09 | 2017-08-17 | 株式会社ソニー・インタラクティブエンタテインメント | 映像表示システム |
JP2018520567A (ja) * | 2015-10-13 | 2018-07-26 | メディアテック インコーポレイテッド | バーチャルリアリティビデオの任意ビュー角度及びラインバッファ低減のための部分デコーディング |
KR101926491B1 (ko) * | 2013-06-21 | 2018-12-07 | 한화테크윈 주식회사 | 동영상 전송 방법 |
WO2019176320A1 (ja) * | 2018-03-12 | 2019-09-19 | キヤノン株式会社 | 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、及びプログラム |
KR102067191B1 (ko) * | 2019-06-28 | 2020-02-11 | 배경 | 상세영상 생성장치 |
CN113473138A (zh) * | 2021-06-30 | 2021-10-01 | 杭州海康威视数字技术股份有限公司 | 视频帧编码方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08130733A (ja) * | 1994-10-31 | 1996-05-21 | Sanyo Electric Co Ltd | 動画像処理装置及び方法 |
-
2005
- 2005-12-26 JP JP2005372875A patent/JP2007174568A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08130733A (ja) * | 1994-10-31 | 1996-05-21 | Sanyo Electric Co Ltd | 動画像処理装置及び方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345983B2 (en) | 2007-07-20 | 2013-01-01 | Fujifilm Corporation | Image processing apparatus, image processing method, image processing system and computer readable medium |
WO2009014230A1 (en) * | 2007-07-20 | 2009-01-29 | Fujifilm Corporation | Image processing apparatus, image processing method, image processing system and program |
WO2009035012A1 (en) * | 2007-09-10 | 2009-03-19 | Fujifilm Corporation | Image processing apparatus, image processing method, and program |
US8498483B2 (en) | 2007-09-10 | 2013-07-30 | Fujifilm Corporation | Image processing apparatus, image processing method, and computer readable medium |
US10939112B2 (en) | 2007-09-14 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method and device for video coding and decoding |
WO2009033432A1 (en) * | 2007-09-14 | 2009-03-19 | Huawei Technologies Co., Ltd. | A method and apparatus for video encoding and decoding |
US10432938B2 (en) | 2007-09-14 | 2019-10-01 | Huawei Technologies Co., Ltd. | Method and device for video coding and decoding |
US8831107B2 (en) | 2007-09-14 | 2014-09-09 | Tsinghua University | Method and device for video coding and decoding |
US9769482B2 (en) | 2007-09-14 | 2017-09-19 | Huawei Technologies Co., Ltd. | Method and device for video coding and decoding |
US11659184B2 (en) | 2007-09-14 | 2023-05-23 | Huawei Technologies Co., Ltd. | Method and device for video coding and decoding |
JP2010177828A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | スケーラブル画像符号化方法、スケーラブル画像符号化装置、スケーラブル画像符号化プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
GB2509954B (en) * | 2013-01-18 | 2016-03-23 | Canon Kk | Method of displaying a region of interest in a video stream |
GB2509954A (en) * | 2013-01-18 | 2014-07-23 | Canon Kk | Displaying a Region of Interest in High Resolution Using an Encapsulated Video Stream |
KR101926491B1 (ko) * | 2013-06-21 | 2018-12-07 | 한화테크윈 주식회사 | 동영상 전송 방법 |
US10841592B2 (en) | 2013-07-15 | 2020-11-17 | Sony Corporation | Extensions of motion-constrained tile sets sei message for interactivity |
US10368078B2 (en) | 2013-07-15 | 2019-07-30 | Sony Corporation | Extensions of motion-constrained tile sets SEI message for interactivity |
JP2016529789A (ja) * | 2013-07-15 | 2016-09-23 | ソニー株式会社 | インタラクティビティのための動き制約タイルセットseiメッセージの拡張 |
US11553190B2 (en) | 2013-07-15 | 2023-01-10 | Sony Corporation | Extensions of motion-constrained tile sets SEI message for interactivity |
JP2018520567A (ja) * | 2015-10-13 | 2018-07-26 | メディアテック インコーポレイテッド | バーチャルリアリティビデオの任意ビュー角度及びラインバッファ低減のための部分デコーディング |
JPWO2017138458A1 (ja) * | 2016-02-09 | 2018-09-13 | 株式会社ソニー・インタラクティブエンタテインメント | 映像表示システム |
US10810701B2 (en) | 2016-02-09 | 2020-10-20 | Sony Interactive Entertainment Inc. | Video display system |
WO2017138458A1 (ja) * | 2016-02-09 | 2017-08-17 | 株式会社ソニー・インタラクティブエンタテインメント | 映像表示システム |
US11270410B2 (en) * | 2016-02-09 | 2022-03-08 | Sony Interactive Entertainment Inc. | Video display system |
CN108605148A (zh) * | 2016-02-09 | 2018-09-28 | 索尼互动娱乐股份有限公司 | 视频显示系统 |
WO2019176320A1 (ja) * | 2018-03-12 | 2019-09-19 | キヤノン株式会社 | 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、及びプログラム |
KR102067191B1 (ko) * | 2019-06-28 | 2020-02-11 | 배경 | 상세영상 생성장치 |
CN113473138A (zh) * | 2021-06-30 | 2021-10-01 | 杭州海康威视数字技术股份有限公司 | 视频帧编码方法、装置、电子设备及存储介质 |
CN113473138B (zh) * | 2021-06-30 | 2024-04-05 | 杭州海康威视数字技术股份有限公司 | 视频帧编码方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100888963B1 (ko) | 영상 신호의 스케일러블 인코딩 및 디코딩 방법 | |
KR101003435B1 (ko) | 영상 블록을 디코딩 하는 방법 | |
KR101033548B1 (ko) | 스무딩 예측을 이용한 다계층 기반의 비디오 인코딩 방법,디코딩 방법, 비디오 인코더 및 비디오 디코더 | |
KR100621581B1 (ko) | 기초 계층을 포함하는 비트스트림을 프리디코딩,디코딩하는 방법, 및 장치 | |
KR100679011B1 (ko) | 기초 계층을 이용하는 스케일러블 비디오 코딩 방법 및 장치 | |
JP4703449B2 (ja) | 符号化方法 | |
US20070025444A1 (en) | Coding Method | |
US20060120450A1 (en) | Method and apparatus for multi-layered video encoding and decoding | |
JP3504256B1 (ja) | 動画像符号化方法、動画像復号方法、動画像符号化装置、及び動画像復号装置 | |
JP2007235314A (ja) | 符号化方法 | |
KR20060105408A (ko) | 영상 신호의 스케일러블 인코딩 및 디코딩 방법 | |
KR100703788B1 (ko) | 스무딩 예측을 이용한 다계층 기반의 비디오 인코딩 방법,디코딩 방법, 비디오 인코더 및 비디오 디코더 | |
KR20060043115A (ko) | 베이스 레이어를 이용하는 영상신호의 엔코딩/디코딩 방법및 장치 | |
JP2009533938A (ja) | 多階層基盤のビデオエンコーディング方法および装置 | |
GB2509998A (en) | Providing a prediction mode for image encoding based on a first set of most probable modes (MPMs) and a selected second, restricted number of prediction modes | |
JPH09214970A (ja) | 画像符号変換方式 | |
US20140177721A1 (en) | Method and device for determining residual data for encoding or decoding at least part of an image | |
JP2007266749A (ja) | 符号化方法 | |
JP2007174568A (ja) | 符号化方法 | |
KR20060063613A (ko) | 영상 신호의 스케일러블 인코딩 및 디코딩 방법 | |
JP4660408B2 (ja) | 符号化方法 | |
JP2007081720A (ja) | 符号化方法 | |
JP4209134B2 (ja) | 圧縮ビットストリームをアップサンプリングする方法および装置 | |
JP2007266750A (ja) | 符号化方法 | |
JP3576660B2 (ja) | 画像符号化装置および画像復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100720 |