[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4685849B2 - スケーラブルビデオコーディング及びデコーディング方法、並びにその装置 - Google Patents

スケーラブルビデオコーディング及びデコーディング方法、並びにその装置 Download PDF

Info

Publication number
JP4685849B2
JP4685849B2 JP2007264848A JP2007264848A JP4685849B2 JP 4685849 B2 JP4685849 B2 JP 4685849B2 JP 2007264848 A JP2007264848 A JP 2007264848A JP 2007264848 A JP2007264848 A JP 2007264848A JP 4685849 B2 JP4685849 B2 JP 4685849B2
Authority
JP
Japan
Prior art keywords
frame
temporal
frames
temporal level
coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007264848A
Other languages
English (en)
Other versions
JP2008079326A (ja
Inventor
宇鎭 韓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020040003983A external-priority patent/KR100597402B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2008079326A publication Critical patent/JP2008079326A/ja
Application granted granted Critical
Publication of JP4685849B2 publication Critical patent/JP4685849B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/64Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
    • H04N19/647Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission using significance based coding, e.g. Embedded Zerotrees of Wavelets [EZW] or Set Partitioning in Hierarchical Trees [SPIHT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明はビデオ圧縮に係り、さらに詳細にはコーディング過程での時間的フィルタリング順序とデコーディング過程での逆時間的フィルタリング順序とが相等しいビデオコーディングアルゴリズムに関する。
インターネットを含む情報通信技術が発達するにつれて文字、音声だけでなく画像通信が増加しつつある。既存の文字中心の通信方式では消費者の多様な欲求を満たすには足りなく、したがって、文字、映像、音楽など多様な形態の情報を収容できるマルチメディアサービスが増加しつつある。マルチメディアデータはその量がぼう大で大容量の保存媒体を必要とし、転送時に広い帯域幅を必要とする。例えば、“640*480”の解像度を持つ24ビットのトルーカラーのイメージは、1フレーム当り“640*480*24ビット”の容量、言い換えれば、約7.37メガビットのデータが必要である。これを秒当たり30フレームで転送する場合には221メガビット/秒の帯域幅を必要とし、上映時間90分の映画を保存するためには約1200ギガビットの保存空間を必要とする。したがって、文字、映像、オーディオを含むマルチメディアデータを転送するためには圧縮コーディング技法を使用することが必須である。
データを圧縮する基本的な原理はデータの重複をなくす過程である。イメージで同じ色や客体が反復されるような空間的重複や、動映像フレームで隣接フレームがほとんど変化のない場合や、オーディオで同じ音が反復され続けるような時間的重複、または人間の視覚及び知覚能力が高い周波数に鈍感なことを考慮した心理視覚重複をなくすことによりデータを圧縮できる。データ圧縮は、ソースデータの損失有無と、それぞれのフレームに対する独立的な圧縮如何と、圧縮及び復元に必要な時間の同一如何とによってそれぞれ損失/無損失圧縮、フレーム内/フレーム間圧縮、対称/非対称圧縮に分けられる。その外にも圧縮復元遅延時間が50msを超えない場合にはリアルタイム圧縮に分類し、フレームの解像度が多様な場合にはスケーラブル圧縮に分類する。文字データや医学用データなどの場合には無損失圧縮が利用され、マルチメディアデータの場合には主に損失圧縮が利用される。一方、空間的重複を除去するためにはフレーム内圧縮が利用され、時間的重複を除去するためにはフレーム間圧縮が利用される。
マルチメディアを転送するための転送媒体は媒体別にその性能が異なる。現在使われる転送媒体は、秒当たり数十メガビットのデータを転送できる超高速通信網をはじめとして秒当たり384キロビットの転送速度を持つ移動通信網まで多様な転送速度を持つ。MPEG−1、MPEG−2、H.263またはH.264のような従来のビデオコーディングは、モーション補償予測コーディング法に基づいて時間的重複はモーション補償により除去し、空間的重複は変換コーディングにより除去する。このような方法は良好な圧縮率を持っているが、主アルゴリズムで再帰的接近法を使用していてトルースケーラブルビットストリームのための柔軟性を持っていない。これにより、最近にはウェーブレット基盤のスケーラブルビデオコーディングについての研究が活発である。スケーラブルビデオコーディングはスケーラビリティを持つビデオコーディングを意味する。スケーラビリティとは、圧縮された一つのビットストリームから部分デコーディング、すなわち、多様なビデオを再生できる特性を意味する。スケーラビリティは、ビデオの解像度を調節できる性質を意味する空間的スケーラビリティと、ビデオの画質を調節できる性質を意味する信号対雑音比(Signal to Noise Ratio:SNR)スケーラビリティと、フレームレートを調節できる時間的スケーラビリティと、これらそれぞれを組合わせたものとを含む概念である。
ウェーブレット基盤のスケーラブルビデオコーディングに使われている多くの技術のうち、Ohmにより提案されてChoi及びWoodにより改善されたMCTF(Motion−Compensated Temporal Filtering)は時間的重複性を除去して時間的に柔軟なスケーラブルビデオコーディングのための核心技術である。MCTFではGOP(Group Of Picture)単位でコーディング作業を行うが、現在フレームと基準フレームとの対は動き方向に時間的フィルタリングされる。これについては図1を参照して説明する。
図1は、MCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。
図1でLフレームは、低周波あるいは平均フレームを意味し、Hフレームは高周波あるいは差フレームを意味する。図示されたようにコーディングは、低い時間的レベルにあるフレーム対を先ず時間的フィルタリングして低いレベルのフレームを高いレベルのLフレーム及びHフレームに転換させ、該転換されたLフレーム対は再び時間的フィルタリングしてさらに高い時間的レベルのフレームに転換される。エンコーダは最高レベルのLフレーム一つ及びHフレームを利用してウェーブレット変換を経てビットストリームを生成する。図面で濃い色で表示されたフレームは、ウェーブレット変換の対象となるフレームを意味する。整理すれば、コーディングする制限された時間的レベルの順序は低いレベルのフレームから高いレベルのフレームを演算する。デコーダは、ウェーブレット逆変換を経た後に得られた濃い色のフレームを高いレベルから低いレベルのフレームの順に演算してフレームを復元する。すなわち、時間的レベル3のLフレーム及びHフレームを利用して時間的レベル2のLフレーム2つを復元し、時間的レベルのLフレーム2つ及びHフレーム2つを利用して時間的レベル1のLフレーム4つを復元する。最終的に時間的レベル1のLフレーム4つ及びHフレーム4つを利用してフレーム8つを復元する。元来のMCTF方式のビデオコーディングは柔軟な時間的スケーラビリティを持つが、単方向動き推定及び低い時間的レートでの悪い性能などのいくつかの短所を持っている。これに対する改善方法について多くの研究があったが、その中一つがTuragaとMihaelaにより提案された非拘束MCTF(Unconstrained MCTF;以下、UMCTF)である。これについては図2を参照して説明する。
図2は、従来のUMCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。
UMCTFは、複数の参照フレームと双方向フィルタリングを使用可能にしてさらに一般的なフレーム作業を行えるようにする。またUMCTF構造では、フィルタリングされていないフレーム(Aフレーム)を適切に挿入して非二分的時間的フィルタリングを行うこともできる。フィルタリングされたLフレームの代りにAフレームを使用することによって低い時間的レベルで視覚的な画質がだいぶ改善される。なぜなら、Lフレームの視覚的な画質は不正確な動き推定のために時々相当な性能低下につながることもあるからである。多くの実験結果によれば、フレームアップデート過程を省略したUMCTFが元来のMCTFより優秀な性能を示す。このような理由で、たとえ最も一般的な形態のUMCTFは低域通過フィルタを適応的に選択できるとしても、アップデート過程を省略した特定形態のUMCTFの特定形態が一般的に使われている。
MCTF(またはUMCTF)に基づいたスケーラブルビデオコーディングアルゴリズムで圧縮されたビデオストリームで、デコーディング側では柔軟な時間的スケーラビリティを持つビデオシーケンスを復元できる。例えば、図1(または図2)のデコーディング側では、時間的レベル3のL(またはA)フレームまでのみデコーディングする場合に1/8フレームレートを持つビデオストリームを復元でき、時間的レベル2のL(またはA)フレームまでのみデコーディングする場合に1/4フレームレートを持つビデオストリームを復元でき、時間的レベル1のL(またはA)フレームまでのみデコーディングする場合には1/2フレームレートを持つビデオストリームを復元でき、時間的レベル1のHフレームもいずれもL(またはA)フレームで逆時間的フィルタリングして復元する場合には、元のフレームレートを持つビデオストリームを復元できる。
しかし、従来のMCTF(またはUMCTF)に基づいたスケーラブルビデオコーディングアルゴリズムでビデオを圧縮しようとする時、エンコーディング側では柔軟な時間的スケーラビリティを持たない。図1(または図2)を参照すれば、従来の方式では、エンコーディング側で時間的レベルの低いフレームから始まって時間的レベルの高いフレームの順に時間的フィルタリングするために、エンコーディング側は時間的スケーラビリティを持たない。なぜなら、デコーディング側で、ビデオシーケンスを復元するためのデコーディング過程で逆時間的フィルタリングを行う時に最も高い時間的レベル(時間的レベル3)のL(またはA)フレームを基準に他のフレームを復元するためである。従来の方式では、最も高い時間的レベルのフレームはコーディング過程を全部経た時に得られるため、エンコーディング側では演算能力やその他の理由によって時間的フィルタリングを止めることができない。
このような理由で、エンコーディング側でも時間的スケーラビリティを持つビデオコーディングアルゴリズムが必要である。
なお、特許文献1及び特許文献2には、スケイラブル・ビデオ・エンコーディング(scalable video encoding)に関する技術が開示されている。
国際公開第2002/01881号パンフレット 国際公開第2003/061294号パンフレット
本発明は前述した必要性により案出されたものであり、本発明はエンコーディング側でも時間的スケーラビリティを持つビデオコーディング方法とデコーディング方法及びその装置を提供することをその技術的課題とする。
前記目的を達成するために、本発明によるビデオコーディング方法は、ビデオシーケンスを構成する複数のフレームを入力されて、GOP単位で最も高い時間的レベルを持つフレームから時間的レベル順にフレームの時間的重複を除去する(a)段階と、前記時間的重複が除去されたフレームから変換係数を得て、それを量子化してビットストリームを生成する(b)段階と、を含む。
望ましくは、前記(a)段階で同じ時間的レベルを持つフレームに対しては、フレームインデックスの小さなフレームである時間的に早いフレームからフレームインデックスの大きいフレームである時間的に遅いフレームの順に時間的重複を除去する。
望ましくは、GOPを構成するフレームのうち最も高い時間的レベルを持つフレームは、GOPの最も小さなフレームインデックスを持つフレームである。望ましくは、前記(a)段階で一つのGOPを構成するフレームの時間的重複を除去する時、最も高い時間的レベルを持つ最初のフレームをAフレームと設定し、前記最も高い時間的レベルを持つフレームを除外した前記GOPを構成するフレームに対しては、高い時間的レベルから低い時間的レベル順に、また同じ時間的レベルではフレームインデックスの最も小さなフレームからフレームインデックスが大きくなる順に時間的重複を除去し、前記時間的重複を除去する過程で各フレームが参照できる一つまたはそれ以上のフレームは、自身より時間的レベルが高いか、または自身と同じ時間的レベルを持つフレームのうち自身よりフレームインデックスの大きいフレームである。前記時間的重複を除去する過程で、各フレームが参照するフレームには自身をさらに含むことが望ましい。
前記時間的重複を除去する過程で、各フレームが参照するフレームには、次のGOPに属する自身より時間的レベルの高い一つまたはそれ以上のフレームをさらに含みうる。
前記複数のフレームに対する空間的重複を除去する段階をさらに含み、前記生成するビットストリームには、空間的重複除去及び時間的重複除去の順序に関する情報(重複除去順序)をさらに含むことが望ましい。
前記目的を達成するために、本発明によるビデオエンコーダは、複数のフレームを入力されて、GOP単位で最も高い時間的レベルを持つフレームから時間的レベル順にフレームの時間的重複を除去する時間的変換部と、前記フレームに対する時間的重複を除去した以後に得られる変換係数を量子化する量子化部と、前記量子化された変換係数を利用してビットストリームを生成するビットストリーム生成部と、を含む。
望ましくは、前記時間的変換部は、入力された複数のフレームから動きベクトルを求める動き推定部と、前記動きベクトルを利用して前記入力された複数のフレームに対してGOP単位で時間的フィルタリングを行う時間的フィルタリング部と、を含み、前記時間的フィルタリング部は、GOP単位で時間的フィルタリングを行う時、高い時間的レベルから低い時間的レベル順に、また同じ時間的レベルではフレームインデックスの最も小さなフレームからフレームインデックスが大きくなる順に前記フレームに対して時間的フィルタリングを行い、前記時間的フィルタリング部は、既に時間的フィルタリングされたフレームの元のフレームを参照して各フレームを時間的フィルタリングする。
望ましくは、前記時間的フィルタリング部は、時間的フィルタリング中の各フレームに対する時間的重複を除去する時に参照するフレームの中に時間的フィルタリング中の各フレームをさらに含む。
望ましくは、前記複数のフレームに対する空間的重複を除去する空間的変換部をさらに含み、前記ビットストリーム生成部は、前記変換係数を得るための時間的重複を除去する過程及び空間的重複を除去する過程の順序を示す重複除去順序に関する情報を含んで前記ビットストリームを生成する。
前記目的を達成するために、本発明によるビデオデコーディング方法は、ビットストリームを入力され、それを解釈してコーディングされたフレームに関する情報及び重複除去順序を抽出する(a)段階と、前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る(b)段階と、前記重複除去順序を参照して、前記コーディングされたフレームの重複除去順序の逆順に前記変換係数を逆空間的変換及び逆時間的変換してフレームを復元する(c)段階と、を含む。
望ましくは、前記(a)段階で、前記ビットストリームからGOP毎にコーディングされたフレーム数に関する情報をさらに抽出する。
前記目的を達成するために、本発明によるビデオデコーダは、入力されたビットストリームを解釈して、コーディングされたフレームに関する情報及び重複除去順序を抽出するビットストリーム解釈部と、前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る逆量子化部と、逆空間的変換過程を行う逆空間的変換部と、逆時間的変換過程を行う逆時間的変換部と、を含み、前記重複除去順序を参照して前記コーディングされたフレームの重複除去順序の逆順に前記変換係数に対する逆空間的変換過程及び逆時間的変換過程を行ってフレームを復元する。
前記目的を達成するために、請求項1から請求項7と請求項12及び請求項13のうちのいずれか1項による方法を実行するためのコンピュータ可読プログラムを記録した記録媒体が提供される。
本発明によれば、エンコーディング側でも時間的スケーラビリティを持つビデオコーディングが可能である。また、GOPのあらゆるフレームを全て演算せずに一部のみ演算し終えてもそれをデコーディング側に伝送でき、デコーディング側では伝送された一部フレームに対してもデコーディングを始められるので遅延時間が短縮される。
以下、添付された図面を参照して本発明の望ましい実施例を詳細に説明する。
スケーラブルビデオコーディングアルゴリズムはGOP(Group Of Picture)単位でフレームを圧縮する。GOPのサイズ(GOPを構成するフレームの数)はコーディングアルゴリズムによって別に定めうるが、2(nは自然数)に定めることが望ましい。以下の実施例でGOPは8である場合と説明しているが、これは例示的なものであり、GOPサイズが異なる場合にも本発明の技術的思想を含んでいる場合には本発明の保護範囲に属すると解釈しなければならない。
図3は、本発明の一実施例によるスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程を示す図面である。
図3を参照して、コーディング及びデコーディング過程の時間的分解(時間的フィルタリング)は、いずれも時間的レベルの高い順から時間的レベルの低い順に行われることが分かる。エンコーディング側で、時間的レベルの高いフレームから時間的レベルの低いフレームの順にフレームを時間的分解することは従来技術と差別される本発明の特徴であり、このような本発明によれば、エンコーディング側でも時間的スケーラビリティを達成できる。
コーディング過程についてさらに詳細に説明する。
図面でAフレームは、時間的フィルタリング過程でフィルタリングされていないフレームを意味する。すなわち、Aフレームは予測基盤の時間的フィルタリングが行われていないフレームを意味するといえる。図面でHフレームは、時間的フィルタリングを経たフレームを意味する。Hフレームを構成する各マクロブロックは、参照の対象となるフレーム(以下、参照フレームという)の対応するマクロブロックと比較した差の情報を含んでいる。
まず、時間的レベル3のインデックスが0であるフレーム(以下、0番フレームという)をコーディングする(時間的フィルタリングを行わずに空間的変換過程のみ行ってコーディングする)。そして、バッファにコーディングされていないまま保存されている元の0番フレームを参照して4番フレームを時間的フィルタリングする。時間的フィルタリングされた4番フレームの各ブロックは元の0番フレームの対応するブロックとの差情報を記録している。次いで、時間的レベル2のフレームを時間的フィルタリングする。すなわち、元の0番フレームを参照して2番フレームを時間的フィルタリングし、元の4番フレームを参照して6番フレームを時間的フィルタリングする。同じ方式で、時間的レベル1のフレームを時間的フィルタリングする。すなわち、元の0番、2番、4番、6番フレームを参照してそれぞれ1番、3番、5番、7番フレームを時間的フィルタリングする。時間的フィルタリングされていない0番と時間的フィルタリングされた1番から7番フレーム(濃い色のフレーム)は、空間的変換された後に量子化過程を経て圧縮される。圧縮された情報は、時間的フィルタリング過程で得たモーションベクトルに関する情報と共にその他の必要な情報を付け加えてビットストリーム化され、ビットストリームはデコーディング側へ伝送媒体を通じて伝送される。
デコーディング過程についてさらに詳細に説明する。濃い色のフレームはビットストリームから得られたコーディングされたフレームであり、白色のフレームはデコーディング過程を通じて復元されるフレームを意味する。
まず、時間的レベル3の0番フレームをデコーディングする(逆量子化及び逆空間的変換過程を行って元の0番フレームを復元する)。デコーディングされた元の0番フレームを参照して時間的フィルタリングされた4番フレームを逆時間的フィルタリングし、元の4番フレームを復元する。次いで、時間的レベル2の時間的フィルタリングされたフレームを逆時間的フィルタリングする。復元された元の0番フレームを参照して時間的フィルタリングされた2番フレームを逆時間的フィルタリングし、復元された元の4番フレームを参照して時間的フィルタリングされた6番フレームを逆時間的フィルタリングする。同じ方式で、時間的レベル1の時間的フィルタリングされたフレームを逆時間的フィルタリングする。すなわち、復元された元の0番、2番、4番、6番フレームを参照してそれぞれ時間的フィルタリングされた1番、3番、5番、7番フレームを逆時間的フィルタリングする。
本実施例によれば、既存のMCTF方式のスケーラブルビデオデコーダに互換されるビデオストリームを生成できる。ただし、本実施例によってコーディングされたビットストリームが元のMCTF方式を使用するスケーラブルビデオデコーダと完全に互換されることを意味するものではない。ここで、互換されるということは、既存のMCTF方式でフレーム対を比較して分解した各低周波サブバンドをフレーム対の平均値に更新せず、元のフレームをそのまま時間的フィルタリングされていないままで放置する方式のコーディング方式を使用するMCTF方式によりコーディングされたビデオストリーム復元用デコーダと互換できるということを意味する。
デコーディング側の時間的スケーラビリティをまず説明すると、デコーディング側は、コーディングされたフレームを受信すればまず時間的レベル3の0番フレームを復元できる。ここで、デコーディングを止めればフレームレート1/8のビデオシーケンスを得られる。時間的レベル3の0番フレームを復元してから時間的レベル2の4番フレームを復元したままでデコーディングを止めれば、フレームレート1/4のビデオシーケンスを得られる。同じ方式で、フレームレート1/2及び元のフレームレートを持つビデオシーケンスを得られる。
次に、本発明によるエンコーディング側の時間的スケーラビリティを説明する。エンコーディング側で時間的レベル3の0番フレームをコーディングし、コーディング過程を止めた(GOP単位で止めることを意味する)ままで前記コーディングされた0番フレームをデコーディング側に伝達すれば、デコーディング側ではフレームレート1/8のビデオシーケンスを復元できる。エンコーディング側で時間的レベル3の0番フレームをコーディングしてから4番フレームを時間的フィルタリングしてコーディングした後、コーディング過程を止めたままで前記コーディングされた0番及び4番フレームをデコーディング側に伝達すれば、デコーディング側ではフレームレート1/4のビデオシーケンスを復元できる。同じく、時間的レベル2の2番及び6番フレームを時間的フィルタリングしてコーディングした後、コーディング過程を止めたままで前記コーディングされた0番、2番、4番、6番フレームをデコーディング側に伝達すれば、デコーディング側ではフレームレート1/2のビデオシーケンスを復元できる。すなわち、本発明によれば、リアルタイムコーディングを必要とするアプリケーションにおいて、エンコーディング側でコーディングのための演算能力が足りないか、またはその他の理由のためにGOPのあらゆるフレームに対するリアルタイム演算が足りない場合にも、コーディングアルゴリズムを修正しないCODECで一部フレームに対するコーディングのみを行い、それをデコーディング側に伝達するとしても、デコーディング側では、たとえ低いフレームレートを持つビデオシーケンスでも復元できる。
図4は、本発明の他の実施例によるスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程を示す図面である。
本実施例は、本発明によるビデオコーディングアルゴリズムをUMCTF基盤のスケーラブルビデオコーディング過程に適用した例を示す。
図2に図示されたUMCTF基盤のビデオコーディング過程及びデコーディング過程を図4に図示された本実施例と比較すれば、エンコーディング側のコーディング順序が異なることが分かる。すなわち、エンコーディング側での時間的フィルタリングは、時間的レベルの高いフレームから時間的レベルの低いフレームの順に行われる。これをさらに詳細に説明すれば次の通りである。
まず、時間的レベルが最も高い0番フレームを時間的フィルタリングせずにコーディングする。それから、元の0番フレームを参照して4番フレームを時間的フィルタリングする。次に、時間的レベル2の2番フレームは元の0番及び4番フレームを参照して時間的フィルタリングし、6番フレームは元の4番フレームを参照して時間的フィルタリングする。2つのフレームを参照していずれかのフレームを時間的フィルタリングするということは、いわゆる、両方向予測によって前記フレームを時間的フィルタリングするということを意味する。それから、時間的レベル1の1番フレームは元の0番及び2番フレームを参照して時間的フィルタリングし、3番フレームは元の2番及び4番フレームを参照して時間的フィルタリングし、5番フレームは元の4番及び6番フレームを参照して時間的フィルタリングし、7番フレームは元の6番フレームを参照して時間的フィルタリングする。
デコーディング過程は、図3を通じて説明した方式と同じくコーディング過程と同じ順序で逆時間的フィルタリングしてビデオシーケンスを復元する。
本実施例でも、図3の実施例と同じく、デコーディング側でのみならずエンコーディング側でも時間的スケーラビリティを持つことができる。本実施例では、両方向予測に基づいた時間的フィルタリングを使用するため、本実施例によってビデオ圧縮を行う場合に図3の実施例によってビデオ圧縮を行う場合より優秀な圧縮率を持つことができる。
図5は、図4のコーディング過程(またはデコーダ過程)を階層的に表示した図面である。
図4の実施例は、さらに理解しやすく図5のように階層的に図式化できる。
図示されたように、各時間的レベルのあらゆるフレームはノードとして表現される。そして、参照関係は矢印で表示される。コーディング過程と関連して説明すれば、矢印が出発するノードに該当する元のフレームは、他のフレームを時間的フィルタリングするための参照フレームとなるということを意味し、矢印が到着するノードに該当するフレームは、前記矢印が出発したノードの元のフレームを参照して時間的フィルタリングされた高周波サブバンドを意味する。デコーディング過程と関連して説明すれば、矢印が出発するノードに該当する元のフレームは、他のフレームを逆時間的フィルタリングするための参照フレームとなるということを意味し、矢印が到着するノードに該当するフレームは、矢印が出発したノードの元のフレーム(復元されたフレーム)を参照して逆時間的フィルタリングされて元のフレームに復元される予定の高周波サブバンドを意味する。元のフレームという用語の意味は、エンコーディング側では時間的フィルタリングされる前のフレームを意味するが、デコーディング側ではコーディングされたフレームを逆時間的フィルタリングして復元したフレームを意味する。
図示されたように各時間的レベルには必要なフレームのみ位置できる。例えば、最も高い時間的レベルでは、GOPのフレームのうちのただ一つのフレームが位置することがわかる。本実施例では、0番フレームが最も高い時間的レベルを持つが、これは従来のUMCTFとの互換を考慮したためである。もし、最高の時間的レベルを持つフレームのインデックスが0でない場合ならば、エンコーディング側及びデコーディング側の時間的フィルタリング過程の階層的構造は図5に図示された構造と異なる。本実施例のように、GOPサイズが8である場合に0番フレームを最も高い時間的レベルで時間的フィルタリングされていないAフレームにコーディングし、4番フレームを次の時間的レベルで0番フレームの元のフレームを参照して高周波サブバンドにコーディングする。それから、2番フレームは0番及び4番の元のフレームを参照して高周波サブバンドにコーディングし、6番フレームは4番の元のフレームを使用して高周波サブバンドにコーディングする。同じく、1、3、5、7フレームを0、2、4、6番フレームを利用して高周波サブバンドにコーディングする。
デコーディング過程は0番フレームをまずデコーディングする。それから、復元された0番フレームを参照して4番フレームをデコーディングする。同じ方式で復元された0番及び4番フレームを参照して2番及び6番フレームをデコーディングする。最後に1、3、5、7フレームを、復元された0、2、4、6番フレームを利用してデコーディングする。
エンコーディング側とデコーディング側いずれも時間的レベルの高いフレームからコーディング(またはデコーディング)するので、従来のMCTFまたはUMCTF基盤のスケーラブルビデオコーディングアルゴリズムとは違って本実施例に基づいたスケーラブルビデオコーディングアルゴリズムは、デコーディング側で時間的スケーラビリティを持つだけでなくエンコーディング側でも時間的スケーラビリティを持つことができる。
従来のUMCTFアルゴリズムの場合には、MCTFアルゴリズムとは違って複数の参照フレームを参照してビデオシーケンスを圧縮できた。本発明でもUMCTFのこのような特性を持っているが、複数の参照フレームを参照してビデオシーケンスをエンコーディングし、それをデコーディングしてビデオシーケンスを復元しようとする時、エンコーディング側とデコーディング側の両方で時間的スケーラビリティを維持するための条件について説明する。
F(k)はフレームインデックスがkであるフレームを意味し、T(k)はフレームインデックスがkであるフレームの時間的レベルを意味する。時間的スケーラビリティが成立するためには、いずれかの時間的レベルのフレームをコーディングする時、それより低い時間的レベルを持つフレームを参照してはならない。例えば、4番フレームが2番フレームを参照してはならないが、もし、参照することが許容されるならば、0番及び4番フレームでコーディング過程を止めることができなくなる(すなわち、2番フレームをコーディングして初めて4番フレームをコーディング可能になる)。フレームF(k)が参照できる参照フレームの集合Rは数1により定められる。
ここで、lは参照フレームのインデックスを意味する。
一方、「(T(l)=T(k))and(l<=k)」は、フレームF(k)は時間的フィルタリング過程で自身を参照して時間的フィルタリングを行うこと(イントラモード)を意味するが、これについては後述する。
数1の条件によって、エンコーディング側とデコーディング側両方でスケーラビリティを維持するための条件を整理すれば次の通りである。
<エンコーディング過程>
1.GOPの最初のフレームを、他のフレームを参照しないフレームにエンコーディングする。望ましくは、時間的フィルタリングされていないフレーム(Aフレーム)にコーディングする。
2.それから、次の時間的レベルのフレームに対してモーション推定を行い、数1による参照フレームを参照してコーディングする。同じ時間的レベルを持つ場合には、左側から右側に(フレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順に)コーディング過程を行う。
3.GOPのあらゆるフレームをコーディングし終えるまで2の過程を行ってから、あらゆるフレームに対するコーディングが終わるまでその次のGOPをコーディングする。
<デコーディング過程>
1.GOPの最初のフレームをデコーディングする。
2.次の時間的レベルのフレームを、既にデコーディングされたフレームのうち適当なフレームを参照してデコーディングする。同じ時間的レベルを持つ場合には、左側から右側に(フレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順に)デコーディング過程を行う。
3.GOPのあらゆるフレームをデコーディングし終えるまで2の過程を行ってから、あらゆるフレームに対するデコーディングが終わるまでその次のGOPをデコーディングする。
図6は、エンコーディング側のスケーラビリティを維持しつつコーディング過程中に参照可能なフレームの連結関係を示す図面である。図6は、数1による条件を満足させる参照可能なフレームの連結関係を示している。
図6で、フレームの内部に表示された文字Aは、フレームがイントラコーディングされたこと(他のフレームを参照せず)を表示し、文字Hは、該当フレームが高周波サブバンドであることを表示する。高周波サブバンドは、一つまたはそれ以上のフレームを参照してコーディングされるフレームを意味する。
一方、図6でGOPのサイズが8である場合にフレームの時間的レベルは0、4、(2、6)、(1、3、5、7)順にしたが、これは例示的なものであり、1、5、(3、7)、(0、2、4、6)の場合もエンコーディング側及びデコーディング側の時間的スケーラビリティは全然問題ない。同じく、時間的レベルの順序が2、6、(0、4)、(1、3、5、7)の場合も可能である。すなわち、エンコーディング側及びデコーディング側の時間的スケーラビリティを満足させるように時間的レベルに位置するフレームは、いかなるインデックスのフレームでも構わない。
図6に図示されたように、一つのフレームは多くのフレームを参照してコーディングされうるが、フレームをコーディングするために多重参照フレームを使用する時は、時間的フィルタリングのためのメモリ使用量を増大させ、プロセシング遅延時間を延長させる傾向がある。したがって、本発明の実施例では、いかなるフレームをコーディングするための参照フレームの数も両方向予測のための2つに限定し、以下の説明で各フレームをコーディングするための参照フレームの数は最大2つに限定した。また、各フレームをコーディングするための参照フレームは、参照が可能なフレームの中で時間的距離が最も近いフレームを使用した。これは、実際に大部分のビデオシーケンスにおいて、遠く離れたフレーム間より近いフレーム間の類似性がかなり大きいためである。
前述したが、本実施例を含む以下の説明で、一つのGOP内で最も高い時間的レベルを持つフレームは最も少ないフレームインデックスを持つフレームであると説明するが、これは例示的なものであり、最も高い時間的レベルを持つフレームが他のインデックスを持つフレームである場合もあるという点に留意せねばならない。
図7は、本発明の他の実施例によってコーディング効率を高めるために隣接したGOPのフレームを参照した場合を示す図面である。
図示されたように、本発明によるビデオコーディングアルゴリズムは、MCTFアルゴリズムとは違って複数のフレームを参照してフレームをコーディングできる。コーディングのために参照する参照フレームは必ずしもGOP内に限定されるものではない。すなわち、ビデオ圧縮効率を高めるために他のGOPに属するフレームを参照してフレームをコーディングできるが、これをクロスGOP最適化とする。このようなクロスGOP最適化は従来のUMCTFアルゴリズムの場合にも支援できるが、クロスGOP最適化が可能な理由は、UMCTFや本発明によるコーディングアルゴリズムはいずれも時間的フィルタリングされたLフレーム(低周波サブバンド)の代りに時間的フィルタリングされていないAフレームを使用する構造であるからである。
図6の実施例において、両方向予測で7番フレームを時間的フィルタリングする時は0番、4番、及び6番フレームの元のフレームを参照して時間的フィルタリングする。この時、コーディングされる7番フレームには0番、4番、及び6番参照フレームとの予測エラーが累積される。しかし、図7の実施例のように、7番フレームが次のGOPの0番フレーム(現GOPで計算すれば8番フレーム)の元のフレームを参照するならば、このような予測エラーの累積現象は確実に減少できる。なぜなら、7番フレームは、時間的フィルタリング過程で時間的に最も近いフレームを参照するからである。さらに、参照フレームである次のGOPの0番フレームは、時間的フィルタリングされていないフレーム(イントラコーディングされるフレーム)であるため、7番フレームの質は明確に改善されうる。すなわち、デコーディング側でコーディングされるフレームをデコーディングする時、クロスGOP最適化しない場合には0番フレームをデコーディングして復元し、その復元された0番フレームを参照フレームとして4番フレームを逆時間的フィルタリングして復元し、その復元された4番フレームを参照して7番フレームを逆時間的フィルタリングして復元する。この時、復元過程でのエラー(4番フレームの復元時のエラーと6番フレームの復元時のエラー及び7番フレームの復元時のエラー)が累積される。しかし、クロスGOP最適化を適用した場合に7番フレームを復元する時、既に復元された次のGOPの0番フレーム(8番フレーム)を参照して復元できるが、次のGOPの0番フレームを参照して7番フレームを逆時間的フィルタリングして復元するので、復元過程でのエラーは、次のGOPの0番フレームから7番フレームを復元する時にのみ発生する。図7のような構造の時間的フィルタリング及び逆時間的フィルタリングでフレームに対する演算順序は、0、4、2、1、3、8(次のGOPの0番)、6、5、7の順であることが望ましい。もちろん、演算順序を0、4、8(次のGOPの0番)、2、6、1、3、5、7の順として次のGOPの4、8、2、6、1、3の順でもあり得ると共に、前者の場合には最終遅延時間が3フレーム間隔であるが、後者の場合に最終遅延時間は7フレーム間隔となる。ここで、最終遅延時間とは、コーディング及びデコーディングの演算時間とコーディングされたデータの伝送時間を除いた、アルゴリズム自体に起因して発生する遅延時間を意味する。すなわち、最終遅延時間は、特定のフレームレートのビデオシーケンスを圧縮してデコーディング側に伝達した時、デコーディング側で切れずにビデオ映像を鑑賞可能にするために必要な時間をいう。前者の場合に、0番フレームはビデオ撮影と同時に直ちにコーディングして直ちに伝送でき、1番フレームはビデオ撮影と同時に直ちにコーディングできない。1番フレームをコーディングするためには、順序上まず4番及び2番フレームがコーディングされねばならないので、1番フレームを撮影した以後に2番、3番、4番フレームをいずれも撮影して初めて1番フレームに対するビデオコーディングが可能である。この時、3フレーム間隔の遅延時間が発生する。3番及び4番フレームは直ちにコーディングできる。同じく、後者の場合に1番フレームをコーディングするためには8番フレームが必要なので遅延時間は総7フレーム間隔となる。前者と後者の場合に撮影されたビデオシーケンス入力から復元されたビデオシーケンス出力との時間的関係は表1で整理できる。
一方、4番フレームをコーディングする時、8番GOPを参照することもできるが、この場合にも最終遅延時間は7フレーム間隔となる。なぜなら、1番フレームをコーディングするために8番フレームが必要であるからである。
前記の実施例は、基本的に特定の順序(大体の場合には、時間的レベルの高いフレームから低いフレームの順序)でフレームをデコーディングまたは参照できる、フレームに制限があるデコーディングアルゴリズムと互換されつつもエンコーディング側でスケーラビリティを持つコーディング及びデコーディングアルゴリズムを説明した。
本発明の核心的技術的思想は、従来の多様なデコーディング側と互換できつつもエンコーディング側の時間的スケーラビリティを持つことができるものである。一方、エンコーディング側でスケーラビリティを持ちつつも本発明によれば、最大遅延時間を3フレーム間隔とすることもでき、クロスGOP最適化に支援されてコーディングされた画質を改善することもできる。その他に本発明で支援できる特徴としては、非二分的フレームレートを持つビデオコーディング及びデコーディングと、イントラマクロブロック予測を利用する画質改善などがある。
非二分的フレームレートを持つビデオコーディング及びデコーディングの場合に、既存のUMCTFコーディングアルゴリズムをも支援できる。すなわち、UMCTF基盤のスケーラブルビデオエンコーダでは、ビデオシーケンスを圧縮するに当って近隣のフレームだけでなく離れているフレームを参照して時間的フィルタリングを行うこともできる。例えば、0〜5番フレームで構成されたGOPに対するコーディングにおいて、UMCTFの時間的フィルタリング過程は、0番と3番フレームをAフレームと設定し、1、2、4、5番フレームをHフレームで時間的フィルタリングする。次いで、0番フレームと3番フレームとを比較して0番フレームはAフレームと設定し、3番フレームはHフレームで時間的フィルタリングを行う。本発明の場合には、UMCTFと同じく非二分的フレームレートを持つビデオコーディングが可能であるが、従来のUMCTFと異なる点は、0番フレームをAフレームにコーディングし、3番フレームを0番フレームの元のフレームを参照してHフレームにコーディングしてから、1、2、4、5番フレームをHフレームにコーディングすることである。
イントラマクロブロック予測(以下、イントラ予測という)については図8を参照して説明する。
図8は、順方向予測、逆方向予測、両方向(または加重値のある両方向)予測、及びイントラ予測モードを説明するための図面である。
図8に図示されたように、順方向予測1、逆方向予測2、両方向(または加重値のある両方向)予測3、及びイントラ予測4が支援される。従来は、順方向予測、逆方向予測、及び両方向予測モードがスケーラブルビデオコーディングで既に支援されていたが、圧縮効率を高めるために本実施例では加重値のある両方向予測及びイントラ予測モードを含む。イントラ予測を含んで速い変化があるビデオシーケンスのコーディング効率を改善させた。
まず、インターマクロブロック予測モードの決定について説明する。STARアルゴリズムは双方向予測及びマルチプル参照フレームを許容するために、順方向予測、逆方向予測、及び双方向予測を容易に具現できる。比としてよく知られたHVBSMアルゴリズムを使用することもあるが、本発明の実施例では固定されたブロックサイズモーション推定を使用した。E(k,−1)をk番目の順方向予測での絶対差の和(Sum of Absolute Difference:以下、SAD)とし、B(k,−1)を純方向予測のモーションベクトルを量子化するのに割当てられる総ビットと仮定する。同じく、E(k,+1)をk番目逆方向予測でのSADといい、B(k,+1)を逆方向予測のモーションベクトルを量子化するのに割当てられる総ビットとし、E(k,*)をk番目双方向予測でのSADとし、B(k,*)を双方向予測のモーションベクトルを量子化するのに割当てられる総ビットと仮定する。順方向、逆方向、及び双方向予測モードのためのコストは数2で説明できる。
ここで、C、C、及びCbiはそれぞれ順方向予測、逆方向予測、及び双方向予測モードのためのコストを意味する。
λはラグランジュ係数であるが、モーションとテクスチャー(イメージ)ビット間のバランスを制御するのに使われる。スケーラブルビデオエンコーダで最終ビットレートが分からないので、λは目的アプリケーションで主に使われるビデオシーケンス及びビットレートの特性に対して最適化されねばならない。数2に定義された式により最小コストを計算することによって最も最適化されたインターマクロブロック予測モードを決定できる。
このうち、両方向予測は、あるブロックをコーディングする時、順方向予測での参照ブロックと逆方向予測での参照ブロックとを平均して得た仮想のブロックと、前記コーディングされるブロックとの差を前記コーディングされるブロックに記録してコーディングする。したがって、コーディングされたブロックを復元するためには、エラーに関する情報及び参照対象となるブロックを探すための2つのモーションベクトルを必要とする。
一方、加重値のある両方向予測は、両方向予測とは違って各参照ブロックとコーディングされるブロックとの類似度が相異なるということに基づく。すなわち、加重値のある両方向予測のために、順方向予測での参照ブロックの画素値にPを乗算し、逆方向予測での参照ブロックの画素値に(1−P)を乗算して合せた仮想のブロックを参照ブロックとし、コーディングされるブロックをコーディングする。
次にイントラ予測モード決定について説明する。
いくつかのビデオシーケンスでは、場面は非常に速く変化する。極端な場合に、隣接フレームと全く時間的重複性を持たない一つのフレームを見つけることもある。このような問題を克服するために、MC−EZBC(Motion Compensation−Embedded ZeroBlock Coding)で具現されたコーディング方法は“適応的GOPサイズ特徴”を支援する。適応的GOPサイズ特徴は連結されていないピクセルの数が既定の基準値(全体ピクセルの30%程度)より大きい場合に時間的フィルタリングを中断して該当フレームをLフレームにコーディングする。このような方式を適用する時、コーディング効率は従来のMCTF方式をそのまま適用した場合よりよくなる。しかし、これはフレーム単位で一律的に定められるため、本実施例ではさらに柔軟な方式で標準ハイブリッドエンコーダで使われたイントラマクロブロックモードの概念を導入した。一般的に、オープンループCODECは予測ドリフトのために隣接のマクロブロック情報を使用できない。一方、ハイブリッドCODECはマルチプルイントラ予測モードを使用できる。したがって、本実施例ではイントラ予測モードのためにDC予測を使用する。このモードであるマクロブロックは自身のY、U、及びVコンポーネントのためのDC値によりイントラ予測される。もし、イントラ予測モードのコストが前記の最も良いインター予測モードでのコストより小さな場合ならば、イントラ予測モードを選択する。このような場合において、元来のピクセルとDC値の差をコーディングし、モーションベクトルの代りに3つのDC値の差をコーディングする。イントラ予測モードのコストは数3で定義できる。
ここで、E(k,0)はk番目イントラ予測でのSAD(元来のルミネセンス値とDC値との差のSAD)であり、B(k,0)は3個のDC値をコーディングするための総ビットである。
もし、Cが数3により計算された値より小さな場合ならば、イントラ予測モードにコーディングする。結論的にいえば、もし、モードマクロブロックが単に一つのDC値のセットでイントラ予測モードにコーディングされた場合ならば、Iフレームに変更する。一方、ビデオシーケンスの間で任意の地点を見ようとする時、あるいは自動的にビデオ編集をしようとする時は、ビデオシーケンスにIフレームの数が多い方が良いが、この場合にIフレーム変更による方法は一つの良い方法になりうる。
一方、あらゆるマクロブロックがたとえイントラ予測モードにコーディングされていない場合でも、一定の比率(例えば90%)以上がイントラ予測モードにコーディングされた場合には、Iフレームに転換すれば前記任意の地点を見ようとする場合や自動的にビデオ編集しようとする目的はさらに容易に達成される。
図9は、本発明の他の実施例による時間的フィルタリングでいろいろな予測モードを含むフレーム間連結を示す図面である。
I+Hは、フレームがイントラ予測マクロブロック及びインター予測マクロブロックのいずれもを含んで構成されるということを意味し、Iは予測なしにそのフレーム自体でコーディングされたことを意味する。すなわち、Iフレームは、イントラ予測されたマクロブロックの比率が基準となるいずれかの値より大きい場合、予測なしにそのフレーム自体でコーディングするように転換されたフレームを意味する。一方、GOPの開始フレーム(最も高い時間的レベルを持つフレーム)でイントラ予測が使われることもあるが、本実施例はこれを使用しなかった。これは元来のフレームに基づいたウェーブレット変換ほど効率的でないからである。
図10及び図11はそれぞれ、変化の激しいビデオシーケンスと、変化がほとんどないビデオシーケンスとで色々なモードで予測した場合の例を示す。%は予測モードの比率を意味する。Iはイントラ予測の比率(ただし、GOPの最初のフレームは予測を使用せず)、BIは双方向予測の比率、Fは順方向予測の比率、Bは逆方向予測の比率を意味する。
図10を説明すれば、1番フレームは0番フレームとほぼ類似しているためにFの比率が78%で圧倒的であることが分かり、2番フレームは0番と4番との中間程度(すなわち、0番を明るくしたイメージ)に近いのでBIが87%で圧倒的であることが分かる。4番フレームは他のフレームと完全に異なるのでIに100%コーディングされ、5番フレームは4番とは全く違って6番と類似しているのでBが94%であることが分かる。
図11を説明すれば、全体的にあらゆるフレームが類似していることが分かるが、実際にほぼ類似したフレームの場合にはBIが最も優れた性能を示す。したがって、図11では全体的にBIの比率が高いということが分かる。
図12は、本発明の一実施例によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。
スケーラブルビデオエンコーダは、ビデオシーケンスを構成する複数のフレームを入力されてGOP単位で圧縮してビットストリームを生成する。そのために、スケーラブルビデオエンコーダは、複数のフレームの時間的重複を除去する時間的変換部10と、空間的重複を除去する空間的変換部20と、時間的及び空間的重複が除去されて生成された変換係数を量子化する量子化部30と、量子化された変換係数及びその他の情報を含んでビットストリームを生成するビットストリーム生成部40と、を含む。
時間的変換部10は、フレーム間動きを補償して時間的フィルタリングを行うために、動き推定部12と時間的フィルタリング部14とを含む。
まず動き推定部12は、時間的フィルタリング過程実行中のフレームの各マクロブロックと、それに対応する参照フレームの各マクロブロックとの動きベクトルを求める。動きベクトルに関する情報は時間的フィルタリング部14に提供され、時間的フィルタリング部14は、動きベクトルに関する情報を利用して複数のフレームに対する時間的フィルタリングを行う。本発明で時間的フィルタリングは、時間的レベルの高いフレームから時間的レベルの低いフレームの順に進む。同じ時間的レベルのフレームである場合、フレームインデックスの小さなフレーム(時間的に早いフレーム)からフレームインデックスの大きいフレームの順に進む。GOPを構成するフレームのうち最も高い時間的レベルを持つフレームはフレームインデックスが最も小さなフレームを使用するが、これは例示的なものであり、GOP内の他のフレームを最も時間的レベルの高いフレームとして選択することもできる。
時間的重複が除去されたフレーム、すなわち、時間的フィルタリングされたフレームは空間的変換部20を経て空間的重複が除去される。空間的変換部20は、空間的変換を利用して時間的フィルタリングされたフレームの空間的重複を除去するが、本実施例ではウェーブレット変換を使用する。現在知られたウェーブレット変換は、一つのフレームを4等分し、全体イメージとほぼ類似した1/4面積を持つ縮少されたイメージ(Lイメージ)で前記フレームの1個の4分面を代替し、残りの3個の4分面はLイメージを通じて全体イメージを復元可能にする情報(Hイメージ)で代替する。同じ方式で、Lフレームはまた1/4面積を持つLLイメージ及びLイメージを復元するための情報で代替できる。このようなウェーブレット方式を使用するイメージ圧縮法は、JPEG2000という圧縮方式に適用されている。ウェーブレット変換を通じてフレームの空間的重複を除去でき、またウェーブレット変換は、DCT変換とは違って元のイメージ情報が変換されたイメージに縮少された形に保存されているので、縮少されたイメージを利用して空間的スケーラビリティを持つビデオコーディングを可能にする。しかし、ウェーブレット変換方式は例示的なものであり、空間的スケーラビリティを達成しなくてもよい場合ならば、既存のMPEG−2のような動映像圧縮方式に広く使われるDCT方法を使用することもできる。
時間的フィルタリングされたフレームは空間的変換を経て変換係数となるが、これは量子化部30に伝達されて量子化される。量子化部30は、実数型係数である変換係数を量子化して整数型変換係数に変える。すなわち、量子化を通じてイメージデータを表現するためのビット量を減らすことができるが、本実施例ではエンベデッド量子化方式を通じて変換係数に対する量子化過程を行う。エンベデッド量子化方式を通じて変換係数に対する量子化を行うことによって量子化に必要な情報量を減らすことができ、かつSNRスケーラビリティを得られる。エンベデッドという言葉は、コーディングされたビットストリームが量子化を含むという意味を指称するのに使われる。言い換えれば、圧縮されたデータは視覚的に重要な順序で生成されるか、または視覚的重要度で表示される。実際量子化(または視覚的重要度)レベルは、デコーダや伝送チャンネルで機能できる。もし、伝送帯域幅、保存容量、ディスプレイリソースが許諾されるならば、イメージは損失なしに復元できる。しかし、そうでない場合ならば、イメージは最も制限されたリソースに要求される程度のみ量子化される。現在公知のエンベデッド量子化アルゴリズムは、EZW、SPIHT、EZBC、EBCOTなどがあり、本実施例では公知のアルゴリズムのうちいかなるアルゴリズムを使用しても構わない。
ビットストリーム生成部40は、コーディングされたイメージ情報と、動き推定部12で得た動きベクトルに関する情報(動きベクトルをコーディングして生じたビット)などを含み、ヘッダを付けてビットストリームを生成する。ビットストリームに含められる情報には、一つのGOP内でコーディングされたフレームの数(またはコーディングされた時間的レベル)などがある。これは、エンコーディング側で時間的スケーラビリティを持つため、デコーディング側でいくつかのGOPを構成するフレームが何個かを知っていなければならないからである。
一方、空間的重複を除去する時にウェーブレット変換を使用する場合、元の変換されたフレームに元のイメージに対する形態が残っているが、これにより、DCT基盤の動映像コーディング方法とは違って空間的変換を経て時間的変換をした後に量子化してビットストリームを生成することもある。これについての他の実施例は図13を通じて説明する。
図13は、本発明の他の実施例によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。
本実施例によるスケーラブルビデオエンコーダは、ビデオシーケンスを構成する複数のフレームに対する空間的重複を除去する空間的変換部60と、時間的重複を除去する時間的変換部70と、フレームに対する空間的及び時間的重複を除去して得た変換係数を量子化する量子化部80と、コーディングされたイメージ情報及びその他の情報を含んでビットストリームを生成するビットストリーム生成部90と、を含む。
変換係数という用語と関連して、従来には動映像圧縮で時間的フィルタリングを行った後に空間的変換をする方式が主に利用されたため、変換係数という用語は、主に空間的変換により生成される値を示す。すなわち、変換係数は、DCT変換により生成された場合にDCT係数という用語として使われることもあり、ウェーブレット変換により生成された場合にウェーブレット係数という用語として使われることもある。本発明で変換係数は、フレームに対する空間的及び時間的重複を除去して生成された値であり、量子化(エンベデッド量子化)される前の値を意味する。すなわち、図12の実施例では、従来と同じく変換係数は、空間的変換を経て生成された係数を意味するが、図13の実施例で、変換係数は、時間的変換を経て生成された係数を意味することもあるという点に留意せねばならない。
まず空間的変換部60は、ビデオシーケンスを構成する複数のフレームの空間的重複を除去する。この場合に空間的変換部は、ウェーブレット変換を使用してフレームの空間的重複を除去する。空間的重複が除去されたフレーム、すなわち、空間的変換されたフレームは時間的変換部70に伝達される。
時間的変換部70は、空間的変換されたフレームに対する時間的重複を除去するが、そのために動き推定部72と時間的フィルタリング部74とを含む。本実施例で、時間的変換部70は図12の実施例と同じ方式で動作するが、異なる点は、図12の実施例とは違って入力されるフレームは空間的変換されたフレームであるという点である。また、時間的変換部70は、空間的変換されたフレームに対して時間的重複を除去した後に量子化のための変換係数を作るという点も異なる点であるといえる。
量子化部80は、変換係数を量子化して量子化されたイメージ情報(コーディングされたイメージ情報)を作り、それをビットストリーム生成部90に提供する。量子化は、図12の実施例と同じくエンベデッド量子化して最終的に生成されるビットストリームに対するSNRスケーラビリティを得る。
ビットストリーム生成部90は、コーディングされたイメージ情報及び動きベクトルに関する情報などを含み、ヘッダを付けてビットストリームを生成する。この時にも、図12の実施例と同じく一つのGOP内にコーディングされたフレームの数(またはコーディングされた時間的レベル)に関する情報を含めることができる。
一方、図12のビットストリーム生成部40及び図13のビットストリーム生成部90は、図12の実施例によってビデオシーケンスをコーディングしたか、または図13の実施例によってビデオシーケンスをコーディングしたかをデコーディング側で分かるように、ビットストリームに時間的重複及び空間的重複を除去した順序に関する情報(以下、重複除去順序という)を含むことができる。重複除去順序をビットストリームに含む方式はいろいろな方式が可能である。いずれか一つの方式を基本として定め、他の方式は別途にビットストリームに表示することもできる。例えば、図12の方式が基本的な方式である場合に、図12のスケーラブルビデオエンコーダで生成されたビットストリームには重複除去順序に関する情報を表示せず、図13のスケーラブルビデオエンコーダにより生成されたビットストリームの場合にのみ重複除去順序を含めることができる。一方、重複除去順序に関する情報を図12の方式による場合や図13の方式による場合のいずれにも表示できる。
図12の実施例によるスケーラブルビデオエンコーダ及び、図13の実施例によるスケーラブルビデオエンコーダの機能をいずれも持つスケーラブルビデオエンコーダを具現し、ビデオシーケンスを図12の方式及び図13の方式でコーディングし、かつ比較して高効率のコーディングによるビットストリームを生成することもある。このような場合には、ビットストリームに重複除去順序を含めねばならない。この時、重複除去順序はビデオシーケンス単位で決定することもあり、GOP単位で決定することもある。前者の場合にはビデオシーケンスヘッダに重複除去順序を含まねばならず、後者の場合にはGOPヘッダに重複除去順序を含まねばならない。
前記図12及び図13の実施例はいずれもハードウェアで具現できるが、ソフトウェアモジュールとそれを実行できるコンピュータ能力を持つ装置でも具現できることに留意せねばならない。
図14は、本発明の一実施例によるスケーラブルビデオデコーダの構成を示す機能性ブロック図である。
スケーラブルビデオデコーダは、入力されるビットストリームを解釈してビットストリームに含まれた各構成部分を抽出するビットストリーム解釈部100と、図12の実施例によってコーディングされたイメージを復元する第1デコーディング部200と、図13の実施例によってコーディングされたイメージを復元する第2デコーディング部300と、を含む。
前記第1及び第2デコーディング部はハードウェアで具現されることもあり、ソフトウェアモジュールで具現されることもある。また、ハードウェアあるいはソフトウェアモジュールで具現される時は図4のように別途に具現されることもあるが、統合されて具現されることもある。統合されて具現された場合に、第1及び第2デコーディング部は、ビットストリーム解釈部100で得た重複除去順序によって逆重複除去過程の順序のみ異ならせる。
一方、スケーラブルビデオデコーダは、図14のように相異なる重複除去順序によってコーディングされたイメージをいずれも復元可能に具現されることもあるが、いずれか一つの重複除去順序によってコーディングされたイメージのみを復元可能に具現されることもあることに留意せねばならない。
まずビットストリーム解釈部100は、入力されたビットストリームを解釈してコーディングされたイメージ情報(コーディングされたフレーム)を抽出し、重複除去順序を決定する。重複除去順序が第1デコーディング部200に該当する場合ならば、第1デコーディング部200を通じてビデオシーケンスを復元し、重複除去順序が第2デコーディング部300に該当する場合ならば、第2デコーディング部300を通じてビデオシーケンスを復元する。また、ビットストリーム解釈部100は、ビットストリームを解釈して時間的重複させる時、フレームの時間的フィルタリングを行う順序である限定された時間的レベル順序が分かるが、本実施例では、コーディングモードを決定する遅延時間制御パラメータ値を通じて限定された時間的レベル順序が分かる。コーディングされたイメージ情報からビデオシーケンスを復元する過程については、重複除去順序が第1デコーディング部200に該当する場合をまず説明し、次いで、重複除去順序が第2デコーディング部300に該当する場合を説明する。
第1デコーディング部200に入力されたコーディングされたフレームに関する情報は、逆量子化部210により逆量子化されて変換係数に変わる。変換係数は、逆空間的変換部220により逆空間的変換される。逆空間的変換は、コーディングされたフレームの空間的変換と関連するが、空間的変換方式がウェーブレット変換である場合に逆空間的変換は逆ウェーブレット変換を行い、空間的変換方式がDCT変換である場合には逆DCT変換を行う。逆空間的変換を経て変換係数は時間的フィルタリングされたIフレーム及びHフレームに変換されるが、逆時間的変換部230は、限定された時間的レベル順に逆時間的変換してビデオシーケンスを構成するフレームを復元する。限定された時間的レベル順序は、ビットストリーム解釈部100から入力されたビットストリームを解釈して分かる。逆時間的変換のために、逆時間的フィルタリング部230は、ビットストリームを解釈して得たモーションベクトルを利用する。
第2デコーディング部300に入力された、コーディングされたフレームに関する情報は、逆量子化部310により逆量子化されて変換係数に変わる。変換係数は、逆時間的変換部320により逆時間的変換される。逆時間的変換のためのモーションベクトル及び限定された時間的レベル順序は、ビットストリーム解釈部100がビットストリームを解釈して得た情報から得られる。逆時間的変換を経たコーディングされたイメージ情報は、空間的変換を経たフレーム状態に変換される。空間的変換を経た状態のフレームは、逆空間的変換部330で逆空間的変換されてビデオシーケンスを構成するフレームに復元される。逆空間的変換部330で使われる逆空間的変換は逆ウェーブレット変換方式である。
本発明が属する技術分野で当業者ならば本発明がその技術的思想や必須特徴を変更せずとも他の具体的な形に実施されうるということが理解できるであろう。したがって、前述した実施例はあらゆる面で例示的なものであり、限定的なものと理解してはならない。本発明の範囲は前述した詳細な説明よりは特許請求の範囲によって現れ、特許請求の範囲の意味及び範囲、そしてその均等概念から導かれるあらゆる変更または変形された形が本発明の範囲に含まれると解釈せねばならない。
本発明は、スケーラブルビデオコーディング及びデコーディングのための装置に適用できる。
従来のMCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。 従来のUMCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。 本発明の一実施例によるスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程を示す図面である。 本発明の他の実施例によるスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程を示す図面である。 図4のコーディング過程(またはデコーデコーディング過程)を階層的に表示した図面である。 エンコーディング側のスケーラビリティを維持しつつコーディング過程中に参照可能なフレームの連結関係を示す図面である。 本発明の他の実施例によってコーディング効率を高めるために隣接したGOPのフレームを参照した場合を示す図面である。 本発明の他の実施例によってコーディング効率を高めるために使用する複数の参照モードを説明するための図面である。 複数の参照モードを使用する場合のフレームの階層的構造及び種類を示す図面である。 変化の激しいビデオシーケンスで図9の実施例によってビデオコーディングした場合の例を示す図面である。 変化の少ないビデオシーケンスで図9の実施例によってビデオコーディングした場合の例を示す図面である。 本発明の一実施例によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。 本発明の他の実施例によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。 本発明の一実施例によるスケーラブルビデオデコーダの構成を示す機能性ブロック図である。
符号の説明
10 時間的変換部
12 動き推定部
14 時間的フィルタリング部
20 空間的変換部
30 量子化部
40 ビットストリーム生成部
60 空間的変換部
70 時間的変換部
72 動き推定部
74 時間的フィルタリング部
80 量子化部
90 ビットストリーム生成部
100 ビットストリーム解釈部
200 第1デコーディング部
210 逆量子化部
220 逆空間的変換部
230 逆時間的変換部
300 第2デコーディング部
310 逆量子化部
320 逆時間的変換部
330 逆空間的変換部

Claims (8)

  1. ビデオシーケンスを構成する複数のフレームの入力を受け、フレーム間の重複性を除去して少なくとも3つ以上の時間的レベルを有するフレームを含むビットストリームを生成する方法において、
    コーディングしようとする対象フレームより時間的レベルが高いか、または同じであるフレームのうち一つまたは二つ以上のフレームを参照フレームとして選定する段階と、
    前記選定された参照フレームを利用して前記対象フレームの重複性を除去する段階と、
    前記重複性が除去された除去フレーム及び前記時間的レベルを前記ビットストリームに挿入する段階と、
    前記除去フレームより時間的レベルが低いフレームを、新たにコーディングしようとする対象フレームとして選択する段階とを含み、
    これらの各段階を複数回実行する
    ことを特徴とするビットストリーム生成方法。
  2. 前記時間的レベルは、隣接するフレーム間の時間的距離により定義され、低いフレームレートに対応するフレームほど、より高い時間的レベルを有する
    ことを特徴とする請求項1に記載のビットストリーム生成方法。
  3. 前記対象フレームと時間的レベルの同じフレームを参照フレームとして選定する場合、フレームの時間的順序を示すインデックスが前記対象フレームより小さなフレームを、参照フレームとして選定する
    ことを特徴とする請求項2に記載のビットストリーム生成方法。
  4. 前記フレームのうち最も高い時間的レベルを有するフレームは、フレームの時間的順序を示すインデックスが最も小さいフレームである
    ことを特徴とする請求項2に記載のビットストリーム生成方法。
  5. 時間的重複性が除去され、エンコーディングされた、少なくとも3つ以上の時間的レベルを有する対象フレームを復元するビデオデコーディング方法において、
    入力ビットストリームからフレームの時間的レベルを読取る段階と、
    前記対象フレームより時間的レベルが高いか、または同じであるフレームのうち一つまたは二つ以上のフレームを参照フレームとして選定する段階と、
    前記選定された参照フレームから前記対象フレームを復元する段階と、
    復元されたフレームより時間的レベルが低いフレームを、新たに復元しようとする対象フレームとして選択する段階とを含み、
    これらの各段階を時間的レベルが一番高い対象フレームから順に、時間的レベルが一番低い対象フレームまで実行する
    ことを特徴とするビデオデコーディング方法。
  6. 前記時間的レベルは、隣接するフレーム間の時間的距離により定義され、低いフレームレートに対応するフレームほど、より高い時間的レベルを有する
    ことを特徴とする請求項5に記載のビデオデコーディング方法。
  7. 前記対象フレームと時間的レベルの同じフレームを選定する場合、フレームの時間的順序を示すインデックスが前記対象フレームより小さなフレームを選定することを特徴とする請求項6に記載のビデオデコーディング方法。
  8. 前記フレームのうち最も高い時間的レベルを有するフレームは、フレームの時間的順序を示すインデックスが最も小さいフレームである
    ことを特徴とする請求項6に記載のビデオデコーディング方法。
JP2007264848A 2003-12-01 2007-10-10 スケーラブルビデオコーディング及びデコーディング方法、並びにその装置 Expired - Fee Related JP4685849B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US52582703P 2003-12-01 2003-12-01
US53217903P 2003-12-24 2003-12-24
KR1020040003983A KR100597402B1 (ko) 2003-12-01 2004-01-19 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004344986A Division JP2005168017A (ja) 2003-12-01 2004-11-29 スケーラブルビデオコーディング及びデコーディング方法、並びにその装置

Publications (2)

Publication Number Publication Date
JP2008079326A JP2008079326A (ja) 2008-04-03
JP4685849B2 true JP4685849B2 (ja) 2011-05-18

Family

ID=36616553

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004344986A Withdrawn JP2005168017A (ja) 2003-12-01 2004-11-29 スケーラブルビデオコーディング及びデコーディング方法、並びにその装置
JP2007264848A Expired - Fee Related JP4685849B2 (ja) 2003-12-01 2007-10-10 スケーラブルビデオコーディング及びデコーディング方法、並びにその装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2004344986A Withdrawn JP2005168017A (ja) 2003-12-01 2004-11-29 スケーラブルビデオコーディング及びデコーディング方法、並びにその装置

Country Status (7)

Country Link
EP (1) EP1538567A3 (ja)
JP (2) JP2005168017A (ja)
AU (1) AU2004310917B2 (ja)
BR (1) BRPI0417162A (ja)
CA (1) CA2547628C (ja)
MX (1) MXPA06006117A (ja)
WO (1) WO2005055608A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1917808A1 (en) * 2005-08-26 2008-05-07 Thomson Licensing Trick play using temporal layering
KR100891662B1 (ko) 2005-10-05 2009-04-02 엘지전자 주식회사 비디오 신호 디코딩 및 인코딩 방법
US9602840B2 (en) 2006-02-06 2017-03-21 Thomson Licensing Method and apparatus for adaptive group of pictures (GOP) structure selection
KR101365575B1 (ko) * 2007-02-05 2014-02-25 삼성전자주식회사 인터 예측 부호화, 복호화 방법 및 장치
FR2917262A1 (fr) * 2007-06-05 2008-12-12 Thomson Licensing Sas Dispositif et procede de codage d'un contenu video sous la forme d'un flux scalable.
US8363722B2 (en) 2009-03-31 2013-01-29 Sony Corporation Method and apparatus for hierarchical bi-directional intra-prediction in a video encoder
KR101268391B1 (ko) 2010-12-30 2013-05-28 국방과학연구소 영상 처리 장치 및 그 방법
GB2487200A (en) * 2011-01-12 2012-07-18 Canon Kk Video encoding and decoding with improved error resilience
KR20130116782A (ko) 2012-04-16 2013-10-24 한국전자통신연구원 계층적 비디오 부호화에서의 계층정보 표현방식
WO2014112790A1 (ko) * 2013-01-16 2014-07-24 엘지전자 주식회사 영상 디코딩 방법 및 이를 이용하는 장치
RU2568266C1 (ru) * 2014-06-05 2015-11-20 Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ кодирования и декодирования видеоинформации
KR102476207B1 (ko) * 2015-11-12 2022-12-08 삼성전자주식회사 반도체 장치의 동작 방법 및 반도체 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137131A (ja) * 1991-11-13 1993-06-01 Sony Corp フレーム間動き予測方法
JP2001258004A (ja) * 2000-01-05 2001-09-21 Canon Inc 画像符号化装置及び画像復号装置とその方法
JP2003244694A (ja) * 2002-02-14 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728775B1 (en) * 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
CN1244232C (zh) * 2000-06-30 2006-03-01 皇家菲利浦电子有限公司 用于视频序列压缩的编码方法
EP1461955A2 (en) * 2001-12-28 2004-09-29 Koninklijke Philips Electronics N.V. Video encoding method
US20030202599A1 (en) * 2002-04-29 2003-10-30 Koninklijke Philips Electronics N.V. Scalable wavelet based coding using motion compensated temporal filtering based on multiple reference frames

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137131A (ja) * 1991-11-13 1993-06-01 Sony Corp フレーム間動き予測方法
JP2001258004A (ja) * 2000-01-05 2001-09-21 Canon Inc 画像符号化装置及び画像復号装置とその方法
JP2003244694A (ja) * 2002-02-14 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
JP2008079326A (ja) 2008-04-03
EP1538567A3 (en) 2010-06-02
CA2547628C (en) 2013-03-05
AU2004310917A1 (en) 2005-06-16
BRPI0417162A (pt) 2007-03-06
EP1538567A2 (en) 2005-06-08
JP2005168017A (ja) 2005-06-23
CA2547628A1 (en) 2005-06-16
MXPA06006117A (es) 2006-08-11
AU2004310917B2 (en) 2009-10-01
WO2005055608A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
JP4685849B2 (ja) スケーラブルビデオコーディング及びデコーディング方法、並びにその装置
KR100597402B1 (ko) 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
JP4763548B2 (ja) スケーラブルビデオコーディング及びデコーディング方法と装置
KR100596706B1 (ko) 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
JP4991699B2 (ja) ビデオ信号のスケーラブルなエンコーディング方法およびデコーディング方法
KR100772883B1 (ko) 인트라 bl 모드를 고려한 디블록 필터링 방법, 및 상기방법을 이용하는 다 계층 비디오 인코더/디코더
JP5014989B2 (ja) 基礎階層を利用するフレーム圧縮方法、ビデオコーディング方法、フレーム復元方法、ビデオデコーディング方法、ビデオエンコーダ、ビデオデコーダ、および記録媒体
KR100679035B1 (ko) 인트라 bl 모드를 고려한 디블록 필터링 방법, 및 상기방법을 이용하는 다 계층 비디오 인코더/디코더
JP5524625B2 (ja) インター予測符号化/復号化方法及び装置
KR100834750B1 (ko) 엔코더 단에서 스케일러빌리티를 제공하는 스케일러블비디오 코딩 장치 및 방법
US20060209961A1 (en) Video encoding/decoding method and apparatus using motion prediction between temporal levels
US20050169371A1 (en) Video coding apparatus and method for inserting key frame adaptively
JP2009532979A (ja) 加重平均合を用いてfgs階層をエンコーディングおよびデコーディングする方法および装置
JP2007520150A (ja) スケーラブルビデオコーディング方法およびデコーディング方法とそのための装置
KR20040069209A (ko) 비디오 인코딩 방법
KR20060043051A (ko) 영상 신호의 인코딩 및 디코딩 방법
KR100664930B1 (ko) 시간적 스케일러빌리티를 지원하는 비디오 코딩 방법 및장치
KR101307469B1 (ko) 비디오 인코더, 비디오 디코더, 비디오 인코딩 방법 및 비디오 디코딩 방법
KR100962332B1 (ko) 스케일러블 비디오 인코딩 장치 및 그 방법
KR20060043120A (ko) 영상 신호의 인코딩 및 디코딩 방법
Ding et al. Motion-compensated 3D wavelet video coding based on adaptive temporal lifting filter implementation
WO2006098586A1 (en) Video encoding/decoding method and apparatus using motion prediction between temporal levels

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees