[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4352105B2 - アドバンスドテレビジョンの強化された時相及び解像度の階層化 - Google Patents

アドバンスドテレビジョンの強化された時相及び解像度の階層化 Download PDF

Info

Publication number
JP4352105B2
JP4352105B2 JP2001574651A JP2001574651A JP4352105B2 JP 4352105 B2 JP4352105 B2 JP 4352105B2 JP 2001574651 A JP2001574651 A JP 2001574651A JP 2001574651 A JP2001574651 A JP 2001574651A JP 4352105 B2 JP4352105 B2 JP 4352105B2
Authority
JP
Japan
Prior art keywords
image
frame
resolution
mpeg
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001574651A
Other languages
English (en)
Other versions
JP2003531514A (ja
Inventor
ガリー イー デモス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/545,233 external-priority patent/US6728317B1/en
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2003531514A publication Critical patent/JP2003531514A/ja
Application granted granted Critical
Publication of JP4352105B2 publication Critical patent/JP4352105B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/21Circuitry for suppressing or minimising disturbance, e.g. moiré or halo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0112Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level one of the standards corresponding to a cinematograph film standard
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • H04N7/012Conversion between an interlaced and a progressive signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • H04N7/0132Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter the field or frame frequency of the incoming video signal being multiplied by a positive integer, e.g. for flicker reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Systems (AREA)
  • Studio Devices (AREA)

Description

【0001】
関連出願の相互参照
本願は、1996年1月30日付けで出願された米国特許願第08/594,815号(現在は1998年12月22日付けで発行された米国特許第5,852,565号である)の継続出願であった1998年12月21日付け出願の米国特許願第09/217,151号の継続出願であった1999年11月17日付け出願の米国特許願第09/442,595号の一部継続出願でありその優先権を主張するものである。
【0002】
技術分野
本発明は、電子通信システムに関し、さらに詳しく述べると、圧縮特性、フィルタリング特性及び表示特性を強化された圧縮画像フレームの時相と解像度を階層化(temporal and resolution layering)したアドバンスド電子テレビジョンシステムに関する。
【0003】
背景
米国は、現在、テレビジョンを伝送するのに、NTSC標準を利用している。しかし、このNTSC標準をアドバンスドテレビジョン標準と取替えるという提案がなされている。例えば、米国がディジタル標準精細度フォーマットとアドバンスドテレビジョンフォーマットを、24Hz、30Hz、60Hz及びインタレース化された60Hzの速度(rate)で採用することが提案されている。これらの速度は、既存のNTSCテレビジョンの表示速度60Hz(又は59.94Hz)を引続き利用すること(したがってこの表示速度と両立すること)を意図していることは明らかである。また、「3−2プルダウン(3-2 pulldown)」が、24フレーム/秒(fps)の時相速度を有する映画を提供するときに、60Hzの表示速度で表示することを目的としていることも明らかである。しかし、上記提案は、選択すべき可能なフォーマットのメニューを提供するが、各フォーマットは、単一の解像度とフレーム速度しか符号化し復号しない。これらフォーマットの表示速度又は動き速度(motion rate)は、互いに不可分には関連していないので、一方から他方への変換は困難である。
【0004】
さらに、この提案は、コンピュータ表示器と両立できる決定的な性能を提供していない。これらの提案された画像の動き速度は、今世紀初期にさかのぼる歴史的な速度に基づいている。いきがかりを捨てるならば、これらの速度は選択されることはないであろう。コンピュータ産業界では、表示器は、過去10年間にわたってあらゆる速度を利用できたが、70〜80Hzの範囲の速度が最適であると証明され、72Hzと75Hzが最も普通の速度であった。あいにく、提案された速度の30Hzと60Hzは、72Hz又は75Hzとの有用な相互運用性を欠いており、その結果、時相性能が低下する。
【0005】
その上に、高いフレーム速度で約1000ラインの解像度を有する必要があると要求されているため、インタレースが必要であるが、このような画像が従来の6MHz放送テレビジョンチャネルの利用可能な18〜19メガビット/秒内で圧縮できないという認識に基づいていることが一部の人によって示唆されている。
【0006】
単一の信号フォーマットを採用しなければならないならば、そのフォーマットの中に所望の標準の高精細度の解像度をすべて含んでいることが一層要望されるであろう。しかし、従来の6MHz放送テレビジョンチャネルの帯域幅の制約内で上記のことを行うには、フレーム速度(時相)と解像度(空間)の両者の圧縮と「スケーラビリティ(scalability)」が必要である。このようなスケーラビリティを提供することを特に意図する一つの方法はMPEG−2標準である。MPEG−2標準(及びより新しい標準、例えばMPEG−4)中に詳記されている時相及び空間のスケーラビリティの機能は、米国のアドバンスドテレビジョンの要求を満たすのに充分有効でない。したがって米国のアドバンスドテレビジョンに対する前記提案は、時相(フレーム速度)と空間(解像度)の階層化が無効果であるという前提に基づいているので、個々のフォーマットが必要である。
【0007】
さらに、解像度、画像の明瞭度、符号化効率及び画像生成効率を高めることが望ましい。本発明はこのような性能強化を行う。
【0008】
要約
本発明は、高フレーム速度にて高画質で、1000ライン解像度より優れた画像圧縮を明白に達成する、画像圧縮を行う方法と装置を提供するものである。また本発明は、従来のテレビジョン放送チャネルの利用可能な帯域幅内で、上記解像度にて高フレーム速度で、時相と解像度のスケーラビリティの両者も達成するものである。本発明の方法は、アドバンスドテレビジョンに対して提案されている圧縮比の2倍を超える圧縮比を有効に達成する。さらに階層化圧縮によって、各種の画像強化方法を意のままに利用できるようにする一形態の画像のモジュール化分解が可能になる。
【0009】
画像マテリアル(image material)は好ましくは、72fpsという初期又は一次のフレーム指示速度で捕獲される。次に、MPEG式(例えばMPEG−2、MPEG−4など)のデータストリームが生成し、そのデータ流は次の層を含んでいる。
(1)好ましくはMPEG型Pフレームだけを使用して、符号化されるベース層であって、低解像度(例えば1024×512画素)で低フレーム速度(24又は36Hz)のビットストリームを含む層;
(2)MPEG型Bフレームだけを使用して符号化される任意のベース解像度の時相強化層であって、低解像度(例えば1024×512画素)で高フレーム速度(72Hz)のビットストリームを含む層;
(3)好ましくはMPEG型Pフレームだけを使用して符号化される任意のベース時相の高解像度強化層であって、高解像度(例えば2k×1k画素)で低フレーム速度(24又は36Hz)のビットストリームを含む層;
(4)MPEG型Bフレームだけを使用して符号化される任意の高解像度の時相強化層であって、高解像度(例えば2k×1k画素)で高フレーム速度(72Hz)のビットストリームを含む層。
【0010】
本発明は、現在の提案を超える大きな改良が可能になる多数の重要な技術特性、例えば、多種の解像度とフレーム速度の、単一の階層化された解像度とフレーム速度による置換;6MHzのテレビジョンチャネル内で、高フレーム速度(72Hz)で2メガ画素の画像について1000ラインより優れた解像度を達成するのにインタレースが不要であること;一次フレーム指示速度72fpsを使用することによるコンピュータ表示器との互換性;及びアドバンスドテレビジョンに対する現行の階層化されていないフォーマットの提案よりはるかに高い堅牢性を提供する。なぜならば、「ストレスの多い(stressful)」画像マテリアルに出会うと、利用可能なビットがすべて、低解像度のベース層に割り当てることができるからである。
【0011】
さらに、本発明は、ビデオ品質と圧縮の各種問題点を処理する多くの強化法を提供する。このような強化法を多数、以下に説明するが、これら強化法は大部分、好ましくは、画像の強化及びその画像の圧縮を行うタスクに適用できる一組のツールとして実施される。これらのツールは、所望どおりに、各種の方式でコンテント・デベロッパ(content developer)によって結合して、圧縮されたデータストリーム特に階層化された圧縮データストリームの視覚質と圧縮効率を最適化することができる。
【0012】
このようなツールとしては、改良された画像フィルタリング法、動きベクトルの表現と決定、デ−インタレーシングと雑音低下の強化法、動き解析、画像形成装置の特性決定と修正、強化された3−2プルダウンシステム、生産のためのフレーム速度法、モジュラビット速度法、多層DCT構造、各種長さの符号化の最適化、MPEG−2とMPEG−4用の拡張システム、及び空間強化層用のガイドベクトルがある。
【0013】
一般に、この技術は、以下に特徴がある。
(特徴1) 画像符号化システムのベース層の強化層の製造方法であって、該ベース層をアップフィルタし拡張して拡張ベース領域にし、その拡張ベース領域を囲む追加面積領域を、該拡張ベース領域を均一な中間グレイ画素値でパッドすることでつくり、次に追加の写真情報を提供する強化層をつくる、ことを含んでなり、その強化層が、該拡張ベース領域と一致する面積に対する小範囲の可能な画素値及び該追加の面積領域と一致する面積に対する大範囲の画素値を有する差分写真を含んでいる方法。
【0014】
特徴1は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴2) 強化層を、ベース層を含む写真ストリームの一部として符号化することをさらに含む特徴1に記載の方法。
(特徴3) 強化層を復号することをさらに含む特徴2に記載の方法。
(特徴4) 差分写真が動きベクトルを含み、そしてさらに、その動きベクトルに、追加の面積領域を指さないように強制することを含む特徴1に記載の方法。
(特徴5) マクロブロックに基づいて動きベクトルを決定することを含み、そのマクロブロックが、該拡張ベース領域とその拡張ベース領域を囲む追加面積領域との間の境界を走査しないようにアラインされている特徴4に記載の方法。
(特徴6) ベース層と強化層が、3/2、4/3及び完全ファクター2のうち一つから選択される解像度比を有する特徴1に記載の方法。
(特徴7) 差分写真が強化層の中心に配置されている特徴1に記載の方法。
(特徴8) 差分写真を、強化層に対して画像から画像へ連続的に再配置することをさらに含む特徴1に記載の方法。
【0015】
一般に、この技術は、以下に特徴がある。
(特徴9) 画像符号化システム内でより高い解像度の画像からより低い解像度の画像をつくる方法であって、ダウンサイジングフィルタを、該ダウンサイジングフィルタより高い解像度の原画像に適用することを含み、そのダウンサイジングフィルタが、正の中央ローブ、その正の中央ローブの両側に各々隣接する二つの負のローブ、及び各負のローブに対応して隣接している小さい正のローブを含み、その小さい正のローブが各々、対応する負のローブによって該正の中央ローブから隔てられている方法。
【0016】
特徴9は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴10) ダウンサイジングフィルタの大きさが該小さい正のローブに制限されている特徴9に記載の方法。
(特徴11) 該正の中央ローブ、負のローブ及び小さい正のローブの相対振幅が、接頭sinc関数によって近似される特徴9に記載の方法。
(特徴12) 正の中央ローブの相対振幅が接頭sinc関数によって近似され、そして小さい正のローブと負のローブの相対振幅が、接頭sinc関数の1/2〜2/3と近似される特徴9に記載の方法。
【0017】
一般に、この技術は、以下に特徴がある。
(特徴13) 画像符号化システム内で、復元されたベース画像層又は強化画像層から拡大画像をつくる方法であって、一対のアップサイジングフィルタを、復元されたベース画像層又は強化画像層に適用することを含み、各アップサイジングフィルタが正の中央ローブ及びその中央ローブの両側に各々隣接する二つの負のローブを含み、各アップサイジングフィルタの正の中央ローブのピークが互いに非対称に隔てられている方法。
【0018】
特徴13は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴14) アップサイジングフィルタの大きさが負のローブに制限される特徴13に記載の方法。
(特徴15) 正の中央ローブの相対振幅が接頭sinc関数によって近似され、そして負のローブの相対振幅が、接頭sinc関数によって近似される値より小さい特徴13に記載の方法。
(特徴16) 正の中央ローブの相対振幅が接頭sinc関数によって近似され、そして負のローブの相対振幅が接頭sinc関数の1/2〜2/3と近似される特徴13に記載の方法。
【0019】
一般に、この技術は、以下に特徴がある。
(特徴17) 画像符号化システム内で元の高解像度画像からつくった元の圧縮されていないベース層入力画像から強化ディテール画像をつくる方法であって、ガウスのアップサイジングフィルタを、元の圧縮されていないベース層画像に適用して拡張画像をつくり;該拡張画像を該元の高解像度画像から差し引くことによって差分画像をつくり、次いでその差分画像に重みファクターを掛ける、ことを含む方法。
【0020】
特徴17は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴18) 重みファクターが約4%〜約35%の範囲内にある特徴17に記載の方法。
(特徴19) 符号化システムがMPEG−4の標準に適合し、そして重みファクターが約4%〜約8%の範囲内にある特徴17に記載の方法。
(特徴20) 符号化システムが、MPEG−2の標準に適合し、そして重みファクターが約10%〜約35%の範囲内にある特徴17に記載の方法。
【0021】
一般に、この技術は、以下に特徴がある。
(特徴21) 画像符号化システム内で画質を高める方法であって、デ−グレイニングフィルタ又はノイズ減少フィルタの少なくとも一方を元のディジタル画像に適用して第一処理済画像をつくり、次いで該第一処理済画像を、該画像符号化システム内で符号化して圧縮画像にする、ことを含む方法。
【0022】
特徴21は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴22) 元の画像が非相関ノイズ特性を有する別のカラーチャネル画像を含み、そしてさらに、別個のノイズ減少フィルタを、このような別個のカラーチャネル画像の少なくとも一つに適用することを含む特徴21に記載の方法。
(特徴23) 圧縮された画像を復号して復元された画像にし、次いでその復元された画像に、リ−グレイニングフィルタ又はリ−ノイジングフィルタの少なくとも一方を適用する、ことをさらに含む特徴21に記載の方法。
【0023】
一般に、この技術は、以下に特徴がある。
(特徴24) 画像符号化システム内で画質を高める方法であって、フィールドデ−インタレーサを、一連の画像フィールドの各々に適用して、対応する一連のフィールドフレームをつくり、フィールドフレームデ−インタレーサを、一連の少なくとも三つの逐次フィールドフレームに適用して、対応する一連のデ−インタレース化画像フレームをつくり、次いでその一連のデ−インタレース化画像フレームを画像符号化システム内で符号化して一連の圧縮された画像にする、ことを含む方法。
【0024】
特徴24は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴25) 各画像フィールドがラインを含み、そして該フィールドデ−インタレーサを適用することが、画像フィールドの各ラインを複製し、次いで該画像フィールドの各隣接するペアのラインに対し、かようなペアのラインを平均することによって、かようなペアのラインの間に一つのラインを合成する、ことを含む特徴24に記載の方法。
(特徴26) 該フィールドフレームデ−インタレーサを適用することが、前のフィールドフレーム、現行のフィールドフレーム及び次のフィールドフレームの各々に対し、これらフィールドフレームの重み付け平均として、デ−インタレース化画像フレームを合成することを含む、特徴24に記載の方法。
(特徴27) 該前のフィールドフレーム、現行のフィールドフレーム及び次のフィールドフレームに対する重みがそれぞれ約25%、50%及び25%である特徴26に記載の方法。
(特徴28) 各デ−インタレース化画像フレームと各フィールドフレームが画素値を含み、そしてさらに、各デ−インタレース化画像フレーム及び各対応する現行フィールドフレームの各対応する画素値の間の差をしきい値と比較して差の値をつくりだし、次いで該デ−インタレース化画像フレームに対する各最終画素値として、該差の値が第一しきい値比較範囲内にある場合は現行フィールドフレームから対応する画素値を選び、そして該差の値が第二しきい値比較範囲内にある場合はデ−インタレース化画像フレームから対応する画素値を選ぶ、ことをさらに含む特徴24に記載の方法。
(特徴29) 該しきい値が、約0.1〜0.3の範囲内から選択される特徴24に記載の方法。
(特徴30) 比較する前に、各デ−インタレース化画像フレームと現行フィールドフレームを平滑フィルタリングすることをさらに含む特徴28に記載の方法。
(特徴31) 平滑フィルタリングが、ダウンフィルタリングとこれに続くアップフィルタリングを含む特徴30に記載の方法。
(特徴32) 各デ−インタレース化画像フレームと各フィールドフレームが画素値を含み、そしてさらに、各現行フィールドフレームの重み付け量を、各デ−インタレース化画像フレームの重み付け量に加えることを含む特徴24に記載の方法。
(特徴33) 各現行フィールドフレームの重み付け量が1/3であり、そして各デ−インタレース化画像フレームの重み付け量が2/3である特徴32に記載の方法。
【0025】
一般に、この技術は、以下に特徴がある。
(特徴34) 画像符号化システム内で、非線形信号を表すディジタル画素値を含むビデオ画像の画質を強化する方法であって、該非線形信号を表す各ビデオ画像のディジタル画素値を、線形表現に変換して、線形化画像をつくり、変換関数を、少なくとも一つの線形化画像に適用して、変換された画像をつくり、次いで各変換された画像を、非線形信号を表すディジタル画素値を含むビデオ画像に変換してもどす、ことを含む方法。
【0026】
一般に、この技術は、以下に特徴がある。
(特徴35) ビデオ画像を符号化する方法であって、原画像の水平と垂直の寸法を、それぞれ第一と第二の選択された単分数ファクターによってダウンサイズして、第一中間画像をつくり、その第一ワーキング画像を圧縮ベース層として符号化し、そのベース層を復元し次にその結果を、該選択された単分数ファクターの逆数によってアップサイズして第二中間画像をつくり、該第一中間画像を、該選択された単分数ファクターの逆数によってアップサイズし、次にその結果を原画像から差引き次にその結果に重み付けをして第一中間結果をつくり、該第二中間画像を原画像から差引いて第二中間結果をつくり、該第一中間結果と該第二中間結果を加算して第三中間画像をつくり、次いで該第三中間画像を符号化して強化層をつくることを含む方法。
【0027】
特徴35は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴36) 第三中間画像を、符号化する前にクロッピングとエッジフェザリングを行うことをさらに含む特徴35に記載の方法。
(特徴37) 該第一と第二の単分数ファクターが各々、1/3、1/2、2/3及び3/4のうちの一つから選択される特徴35に記載の方法。
【0028】
一般に、この技術は、以下に特徴がある。
(特徴38) 画像符号化システム内で画質を強化する方法であって、中央値フィルタを、ディジタルビデオ画像の水平画素値に適用し、中央値フィルタを、ディジタルビデオ画像の垂直画素値に適用し、次いで該水平画素値と垂直画素値のフィルタリングの結果を平均して、ノイズを減らしたディジタルビデオ画像をつくる、ことを含む方法。
【0029】
特徴38は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴39) 中央値フィルタを、該ディジタルビデオ画像の対角画素値に適用し、次いで該ノイズを減らしたディジタルビデオ画像の対角画素値をフィルタした結果を平均する、ことをさらに含む特徴38に記載の方法。
【0030】
一般に、この技術は、以下に特徴がある。
(特徴40) 画像符号化システム内で画質を強化する方法であって、時相中央値フィルタを、前のディジタルビデオ画像、現行のディジタルビデオ画像及び次のディジタルビデオ画像の対応する画素値に適用して、ノイズを減らしたディジタルビデオ画像をつくる、ことを含む方法。
【0031】
特徴40は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴41) 各ノイズ減少ディジタルビデオ画像及び各対応する現行ディジタルビデオ画像の各対応する画素値の間の差を、しきい値と比較して、差の値をつくりだし、次いでノイズ減少ディジタルビデオ画像の各最終画素値として、該差の値が第一しきい値比較範囲内にある場合は現行ディジタルビデオ画像から対応する画素値を選び、そして該差の値が第二しきい値比較範囲内にある場合はノイズ減少ディジタルビデオ画像から対応する画素値を選ぶ、ことをさらに含む特徴40に記載の方法。
(特徴42) 該しきい値が約0.1〜約0.3の範囲から選択される特徴41に記載の方法。
【0032】
一般に、この技術は、以下に特徴がある。
(特徴43) 画像符号化システム内で画質を強化する方法であって、水平中央値フィルタを、現行ディジタルビデオ画像の水平画素値に適用し、垂直中央値フィルタを、現行ディジタルビデオ画像の垂直画素値に適用し、時相中央フィルタを、前のディジタルビデオ画像、現行ディジタルビデオ画像及び次のディジタルビデオ画像の対応する画素値に適用し、次いで中央値フィルタを、該水平フィルタ、垂直フィルタ及び時相フィルタ各々が生成した対応する画素値に適用して、ノイズ減少ディジタルビデオ画像をつくる、ことを含む方法。
【0033】
一般に、この技術は、以下に特徴がある。
(特徴44) 画像符号化システム内で画質を強化する方法であって、下記5項目:(1)現行ディジタルビデオ画像、(2)現行ディジタルビデオ画像の水平中央値と垂直中央値の平均値、(3)しきい値処理済時相中央値、(4)該しきい値処理済時相中央値の水平中央値と垂直中央値の平均値、並びに(5)該しきい値処理済時相中央値及び現行ディジタルビデオ画像の水平中央値と垂直中央値の中央値、の線形重み付け合計を含むノイズ減少ディジタルビデオ画像をつくることを含む方法。
【0034】
特徴44は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴45) 該5項目の重みがそれぞれ約50%、15%、10%、10%及び15%である特徴44に記載の方法。
(特徴46) 該5項目の重みがそれぞれ約35%、20%、22.5%、10%及び12.5%である特徴44に記載の方法。
(特徴47) 少なくとも一つの前のディジタルビデオ画像と少なくとも一つの次のディジタルビデオ画像について現行ディジタルビデオ画像の各nxn画素領域に対する動きベクトルを確認し、現行ディジタルビデオ画像の各nxn画素領域、並びに少なくとも一つの前のディジタルビデオ画像及び少なくとも一つの次のディジタルビデオ画像の対応する動きベクトルオフセットnxn画素領域に、中央重み付け時相フィルタを適用して動き補償画像をつくり、次にその動き補償画像を、該ノイズ減少ディジタルビデオ画像に加える、
ことをさらに含む特徴44に記載の方法。
【0035】
一般に、この技術は、以下に特徴がある。
(特徴48) 画像符号化システム内で画質を強化する方法であって、少なくとも一つの前のディジタルビデオ画像と少なくとも一つの次のディジタルビデオ画像について現行ディジタルビデオ画像の各nxn画素領域に対する動きベクトルを確認し、次いで現行ディジタルビデオ画像の各nxn画素領域、並びに少なくとも一つの前のディジタルビデオ画像及び少なくとも一つの次のディジタルビデオ画像の対応する動きベクトルオフセットnxn画素領域に、中央重み付け時相フィルタを適用して動き補償画像をつくる、ことを含む方法。
【0036】
特徴48は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴49) 各ディジタルビデオ画像がデ−インタレース化フィールドフレームである特徴48に記載の方法。
(特徴50) 各ディジタルビデオ画像が3フィールドフレームのデ−インタレース化画像である特徴48に記載の方法。
(特徴51) 各ディジタルビデオ画像が、しきい値処理済の3フィールドフレームデ−インタレース化画像である特徴48に記載の方法。
(特徴52) 該中央重み付け時相フィルタが、該画像の各々に対してそれぞれ約25%、50%及び25%の重みを有する3画像時相フィルタである特徴48に記載の方法。
(特徴53) 該中央重み付け時相フィルタが、該画像の各々に対してそれぞれ約10%、20%、40%、20%及び10%の重みを有する5画像時相フィルタである特徴48に記載の方法。
【0037】
一般に、この技術は、以下に特徴がある。
(特徴54) 画像符号化システム内で画質を強化する方法であって、ノーマルダウンフィルタを画像に適用して、第一中間画像をつくり、ガウスアップフィルタを、該第一中間画像に適用して、第二中間画像をつくり、次に、該第二中間画像の重み付けフラクションを、選択された画像に加えて、高周波数のノイズが減少した画像をつくる、ことを含む方法。
【0038】
特徴54は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴55) 該重み付けフラクションが、該第二中間画像の約5%と10%の間である特徴54に記載の方法。
【0039】
一般に、この技術は、以下に特徴がある。
(特徴56) 画像符号化システム内で画質を強化する方法であって、ダウンフィルタを、ノイズをフィルタされた原解像度画像に適用して、ベース層解像度の第一中間画像をつくり、ノーマルダウンフィルタを、該第一中間画像に適用して、第二中間画像をつくり、ガウスアップフィルタを、該第二中間画像に適用して、第三中間画像をつくり、下記3項目:(1)該第一中間画像、(2)該第一中間画像の水平中央値と垂直中央値の平均値、及び
(3)該第三中間画像、の線形重み付け合計を含むノイズ減少ディジタルビデオ画像をつくる、ことを含む方法。
【0040】
特徴56は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴57) 該3項目の重みがそれぞれ、約70%、22.5%及び7.5%である特徴56に記載の方法。
【0041】
一般に、この技術は、以下に特徴がある。
(特徴58) 1/4画素動き補償を利用して、画像符号化システム内で画質を強化する方法であって、負のローブを有するフィルタを、隣接する第一画素と第二画素の間の中ほどのサブ画素ポイントに適用して、1/2フィルタされた画素値をつくりだし、負のローブを有するフィルタを、該第一画素と第二画素の間の1/4ほどのサブ画素ポイントに適用し、次に、負のローブを有するフィルタを、該第一画素と第二画素の間の3/4ほどのサブ画素ポイントに適用すること、を含む方法。
【0042】
一般に、この技術は、以下に特徴がある。
(特徴59) 負のローブを有するフィルタを、隣接する第一画素と第二画素の間の中ほどのサブ画素ポイントに適用して1/2フィルタされた画素値をつくりだすことを含む、画像符号化システム内で1/2画素動き補償を使用して画質を強化する方法。
【0043】
一般に、この技術は、以下に特徴がある。
(特徴60) 各クロミナンスチャネルを、1/4画素解像度を利用してフィルタすることを含む、画像符号化システム内で、ルミナンスチャネルに対し1/2画素動き補償を利用して画質を高める方法。
【0044】
特徴60は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴61) 負のローブを有するフィルタを、隣接する第一と第二のクロミナンス画素の間の各1/4サブ画素ポイントに適用することをさらに含む特徴60に記載の方法。
【0045】
一般に、この技術は、以下に特徴がある。
(特徴62) 各クロミナンスチャネルを、1/8画素解像度を利用しフィルタすることを含む、画像符号化システム内で、ルミナンスチャネルに対し1/4画素動き補償を利用して画質を強化する方法。
【0046】
特徴62は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴63) 負のローブを有するフィルタを、隣接する第一と第二のクロミナンス画素の間の各1/8サブ画素ポイントに適用することをさらに含む特徴62に記載の方法。
(特徴64) 負のローブを有するフィルタが接頭sincフィルタである特徴58、59、61及び63のいずれか一項に記載の方法。
【0047】
一般に、この技術は、以下に特徴がある。
(特徴65) ビデオ圧縮システムに対する入力画像を生成する電子画像形成システムの出力の特性を決定しその出力を修正する方法であって、該画像形成システムのカラー画素センサタイプの対をつくるため水平と垂直のカラーミスアラインメントを測定し、該画像形成システムのカラー画素センサタイプによって生成したノイズを測定し、該画像形成システムが生成した画像を、ビデオ圧縮システム内で圧縮する前に、該画像内のカラー画素を、該測定された水平と垂直のカラーミスアラインメントによって確認された量によって変換し、次いで測定されたどんなノイズの量に対しても補償する重みを有する重み付けノイズ減少フィルタを該画像に適用する、ことによって修正する、ことを含む方法。
【0048】
一般に、この技術は、以下に特徴がある。
(特徴66) ビデオ圧縮システムに対し入力される画像をつくるフィルムベース画像形成システムの出力の特性を決定しその出力を修正する方法であって、画像のシーケンスを記録するために使用されるフィルムタイプを決定し、このようなフィルムタイプの試験条片を、各種の照明条件下に露出し、該露出された試験条片を、既知のノイズ特性を有する電子画像形成システムによって走査し、このような走査中に電子画像形成システムが生成したノイズを測定し、次いで同じフィルムタイプ上にフィルムベース画像形成システムが生成し次に該試験条片の場合と同じ電子画像システムが走査した画像を、ビデオ圧縮システム内で圧縮する前に、測定されたどのノイズの量に対しても調節された重みを有するノイズ減少フィルタを該画像に適用することによって、修正する、ことを含む方法。
【0049】
一般に、この技術は、以下に特徴がある。
(特徴67) 24fpsのフィルム画像のビデオへの変換を3−2プルダウンを利用して最適化する方法であって、24fpsのフィルム画像をディジタル画像に、このようなディジタル画像の24fpsの記憶、処理または通信を直接行える処理装置だけを使って変換し、このようなディジタル画像すべてを、24fpsフォーマットに、ディジタル画像ソースとして記憶し、3−2プルダウンによるビデオ変換を、決定性フレームカダンスを使用して該ディジタル画像ソースから直接フライ上に実施して、3−2ビデオ画像シーケンスをつくり、その決定性フレームカダンスを、3−2ビデオ画像シーケンスのすべての使用に対して維持し、次に 3−2ビデオ画像シーケンスを使用した後、該決定性フレームカダンスを取り消し、次にその3−2ビデオ画像シーケンスを24fpsディジタル画像に変換してもどし記憶することを含む方法。
【0050】
一般に、この技術は、以下に特徴がある。
(特徴68) 24fpsの移動画像を72fpsの画像ソースから合成する方法であって、該24fpsの移動画像の各画像フレームを、72fps画像ソース由来の三つの連続するフレームから、それらフレームの重み付け平均として合成することを含み、該三つのフレームに対する重みがそれぞれ、[0.1、0.8、0.1]〜[0.25、0.50、0.25]の範囲内にある方法。
【0051】
特徴68は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴69) 該重みが約[0.1667、0.6666、0.1667]である特徴68に記載の方法。
【0052】
一般に、この技術は、以下に特徴がある。
(特徴70) 24fpsの移動画像を120fpsの画像ソースから合成する方法であって、該24fpsの移動画像の各画像フレームを、120fps画像ソース由来の五つの連続するフレームから、それらフレームの重み付け平均として合成することを含み、該五つのフレームに対する重みが約[0.1、0.2、0.4、0.2、0.1]である方法。
【0053】
一般に、この技術は、以下に特徴がある。
(特徴71) 60fpsの移動画像を120fpsの画像ソースから合成する方法であって、該60fpsの移動画像の各画像フレームを、120fps画像ソース由来の三つの連続するフレームから、それらフレームの重み付け平均として合成し、該三つのフレームの重みがそれぞれ[0.1、0.8、0.1]〜[0.25、0.50、0.25]の範囲内にあり、そしてこのような画像フレーム各々を合成するために使用される該三つの連続するフレームに、次の画像フレームを合成するために使用される次の三つの連続するフレームを、一フレームだけオーバーラップさせることを含む方法。
【0054】
一般に、この技術は、以下に特徴がある。
(特徴72) ディジタルビデオ圧縮システム内で符号化ビットを割り当てる方法であって、第一一定数の符号化ビットを正常に割り当てられたビデオ画像の選択されたフレームベースのユニット内で生じる高圧縮ストレスを検出し、その検出されたユニットは高ストレスのユニットであり、該第一一定数の符号化ビットより大きい第二一定数の符号化ビットを割り当てて、該高ストレスユニットの圧縮を改善し、次いで該高ストレスユニットの少なくとも残っている部分を、第二一定数の符号化ビットを使用して圧縮する、ことを含む方法。
【0055】
特徴72は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴73) ビデオ画像の該フレームベースのユニットが、Pフレーム又は写真のグループの範囲のフレームのうち一つを含んでいる特徴72に記載の方法。
(特徴74) 該第二一定数の符号化ビットが、第一一定数の符号化ビットの単純倍数である特徴72に記載の方法。
(特徴75) 高圧縮ストレスの検出が、ビデオ画像の選択されたフレームベースのユニットに対する速度制御量子化スケールファクターパラメータに基づいている特徴72に記載の方法。
(特徴76) 高ストレスユニットをすべて、第二一定数の符号化ビットを使用して圧縮することを含む特徴72に記載の方法。
【0056】
一般に、この技術は、以下に特徴がある。
(特徴77) 圧縮されたディジタルビデオ情報の、復号ビット速度及びバッファシステムを有する復号器による、復号を改良する方法であって、その圧縮されたディジタルビデオ情報が、該復号ビット速度より高いソースビット速度で、ソースから提供され、介在する圧縮されたディジタルビデオ情報を、該ソースから、該バッファシステムの第一部分中に、ソースビット速度でプレロードし、プログラムコンテントで圧縮されたディジタルビデオ情報を、該ソースから、該バッファシステムの第二部分中に、ソースビット速度で同時にプレロードし、該プログラムコンテントで圧縮されたディジタルビデオ情報から、介在する圧縮されたディジタルビデオ情報に、選択的に変更し、次いで該介在する圧縮されたディジタルビデオ情報を復号して、該プログラムコンテントのほぼ瞬間的な変化を支持する、ことを含む方法。
【0057】
一般に、この技術は、以下に特徴がある。
(特徴78) 圧縮されたディジタルビデオ情報の、バッファシステム、平均復号ビット速度及びその平均復号ビット速度より高い少なくとも一つの復号ビット速度を有する復号器による復号を改良する方法であって、その圧縮されたディジタルビデオ情報が、該平均復号ビット速度より高いソースビット速度で、ソースから提供され、増大されたビット速度をモジュールを含む圧縮されたディジタルビデオ情報を、該ソースビット速度で、該バッファシステムの第一部分中にプレロードし、増大されていないビッド速度モジュールを含む圧縮されたディジタルビデオ情報を、該ソースビット速度で、該バッファシステムの第二部分中に同時にプレロードし、次いで該バッファシステムの第二部分のコンテントを、ビデオ画像中に、平均復号ビット速度で復号し、次に該バッファシステムの第一部分のコンテントを、該平均復号ビット速度より高い復号ビット速度で、ビデオ画像中に復号する、ことを含む方法。
【0058】
一般に、この技術は、以下に特徴がある。
(特徴79) 圧縮されたディジタルビデオ情報の、バッファシステム、平均復号ビット速度及びその平均復号ビット速度より高い少なくとも一つの復号ビット速度を有する復号器による復号を改良する方法であって、その圧縮されたディジタルビデオ情報が、該平均復号ビット速度より高いソースビット速度で、ソースから提供され、圧縮された強化層を含む圧縮されたディジタルビデオ情報を、該ソースビット速度で、該バッファシステムの第一部分中にプレロードし、ベース層を含む圧縮されたディジタルビデオ情報を、該ソースビット速度で、該バッファシステムの第二部分中に同時にプレロードし、次いで、該バッファシステムの第二部分のコンテントを、ビデオ画像中に、平均復号ビット速度で復号し、次に、該バッファシステムの第一部分のコンテントを、該平均復号ビット速度より高い復号ビット速度で、ビデオ画像中に復号する、ことを含む方法。
【0059】
一般に、この技術は、以下に特徴がある。
(特徴80) ビデオ画像のベース層及び少なくとも一つの解像度強化層を符号化するため離散的コサイン変換(DCT)を利用して、ビデオ符号化システムの符号化効率を改良する方法であって、各々第一ブロックサイズを有するDCTブロックを使用してベース層を符号化し、次いで、第一ブロックの大きさと大きさが比例するブロックサイズを各々有するDCTブロックを使用して、各解像度強化層を、このような強化層の解像度が該ベース層の解像度に比例するように、符号化する、ことを含む方法。
【0060】
特徴80は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴81) DCTブロックのサブセットを強化層に対して利用することをさらに含み、このようなサブセットが低レベルの強化層又はベース層に対するDCTブロックに対応して、該低レベルの強化層又はベース層に対するかようなDCTブロックの信号/ノイズ比の精度を高める特徴80に記載の方法。
【0061】
一般に、この技術は、以下に特徴がある。
(特徴82) ビデオ画像符号化システム内で、ベース層及び少なくとも一つの解像度強化層に対する動き補償ベクトルを決定する方法であって、ベース層及び各解像度強化層を、このような層内の対応する画素の領域をカバーする大きさのマクロブロックを使用して符号化し、各ベース層及び解像度強化層の各マクロブロックに対し、符号化予測性能及び関連するセットの動きベクトルを指定するのに必要なビットの数の間のバランスを最適化するこのようなマクロブロックに対する動きベクトルサブブロックの数を独立して決定し、次いで関連する独立の動きベクトルのセットを、前記決定された数の動きベクトルサブブロックの各々に対して一つ決定する、ことを含む方法。
【0062】
一般に、この技術は、以下に特徴がある。
(特徴83) ビデオ画像符号化ユニットを圧縮する方法であって、複数の可変長符号化テーブルを、各符号化ユニットに適用し、このような符号化ユニットに対して最適の圧縮を行う可変長符号化テーブルを選択し、その選択された可変長符号化テーブルを適用してかような符号化ユニットを圧縮し、次いでこのような符号化ユニットの各々に対して選択された可変長符号化テーブルを、このような符号化ユニットを復元するため、復号器に対し識別する、ことを含む方法。
【0063】
特徴83は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴84) 該復号化ユニットが、サブフレーム、フレーム又はフレームのグループのうちの一つである特徴83に記載の方法。
【0064】
一般に、この技術は、以下に特徴がある。
(特徴85) ビデオ画像を符号化し復号する方法であって、ビデオ画像を、基本ビデオ圧縮プロセスと強化ビデオ圧縮プロセスに適合する第一データストリーム中に、及び強化ビデオ圧縮プロセスにのみ適合する構造を有する第二データストリーム中に符号化し、基本ビデオ圧縮プロセスにだけ適合する復号システム上に、第一データストリームだけを復号し、次いで第一データストリームと第二データストリームを、強化ビデオ圧縮プロセスに適合する復号システム上で組み合わせて復号する、ことを含む方法。
【0065】
特徴85は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴86) 該基本ビデオ圧縮プロセスと強化ビデオ圧縮プロセスが共通の動き補償離散的コサイン変換構造体を共用している特徴85に記載の方法。
(特徴87) 該基本ビデオ圧縮プロセスがMPEG−2である特徴85に記載の方法。
(特徴88) 該強化ビデオ圧縮プロセスがMPEG−4である特徴87に記載の方法。
【0066】
一般に、この技術は、以下に特徴がある。
(特徴89) 階層化ビデオ圧縮システム内でビデオ画像の動き補償符号化を行う方法であって、符号化ビデオ画像のベース層に対する少なくとも一つのベース層動きベクトルを決定し、各ベース層動きベクトルを、ビデオ情報の少なくとも一つの関連する解像度強化層の解像度までスケールアップし、次いで関連する解像度強化層各々に対し、ベース層動きベクトルのうちの一つに対応する各解像度強化層の動きベクトルの少なくとも一つを決定し、このような一つの対応するベース層動きベクトルを案内ベクトルとして使用して、かような関連する解像度強化層の制限サーチ範囲の中心点を示し、かような解像度強化層動きベクトルを決定する、ことを含む方法。
【0067】
特徴89は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴90) 各強化層に対し、対応する解像度強化層動きベクトルのみを符号化することをさらに含む特徴89に記載の方法。
(特徴91) 各解像度強化層動きベクトルと対応するベース層動きベクトルのベクトル和を利用して、かような解像度強化層動きベクトルと関連する強化層に対して動き補償を行うことをさらに含む特徴89に記載の方法。
【0068】
一般に、この技術は、以下に特徴がある。
(特徴92) ビデオ画像を圧縮する方法であって、初期高解像度画像をダウンフィルタして第一処理済画像をつくり、その初期高解像度画像から第一動きベクトルをつくり出し、該第一処理済画像を圧縮して出力ベース層をつくり、その出力ベース層を復元して第二処理済画像をつくり、その第二処理済画像を拡大して第三処理済画像をつくり、該第一処理済画像を拡大して第四処理済画像をつくり、該第三処理済画像を、該初期高解像度画像から差し引いて第五処理済画像をつくり、該第四処理済画像を、該初期高解像度画像から差し引いて第六処理済画像をつくり、該第六処理済画像の振幅を小さくして第七処理済画像をつくり、該第七処理済画像と該第五処理済画像を加算して第八処理済画像をつくり、該第八処理済画像を、第一動きベクトルを利用して符号化して出力解像度強化層をつくり、該出力強化層を復号して第九処理済画像をつくり、該第九処理済画像と該第三処理済画像を加算して第十処理済画像をつくり、該初期高解像度画像を、該第十処理済画像から差し引いて第十一処理済画像をつくり、該十一処理済画像の振幅を大きくして第十二処理済画像をつくり、別のカラーチャネルを、該十二処理済画像から抽出して一組の第十三処理済画像をつくり、該一組の第十三処理済画像を第一動きベクトルを利用して符号化し、対応する一組の出力カラー解像度強化層をつくり、該一組の出力カラー強化層を復号して一組の第十四処理済画像をつくり、該一組の第十四処理済画像を結合して、第十五処理済画像をつくり、該第十五処理済画像の振幅を小さくして第十六処理済画像をつくり、該第十六処理済画像と該第十処理済画像を加算して第十七処理済画像をつくり、該第十七処理済画像を、該初期高解像度画像から差し引いて第十八処理済画像をつくり、次いで該第十八処理済画像を圧縮して出力最終差分残余画像にすることを含む方法。
【0069】
一般に、この技術は、以下に特徴がある。
(特徴93) ビデオ画像を圧縮する方法であって、ベース層を初期高解像度画像からつくり出し、第一組の動きベクトルを、該初期高解像度画像に基づいて選択された画像からつくり出し、第一差分画像を、該初期高解像度画像と該ベース層からつくり出し、第二差分画像を、初期高解像度画像及び該初期高解像度画像の処理済コピーからつくり出し、次いで解像度強化層を、該第一と第二の差分画像及び該第一組の動きベクトルからつくり出す、ことを含む方法。
【0070】
特徴93は、以下の一つ、或いは2以上の特徴を含んでも良い。
(特徴94) 少なくとも一つのカラー解像度強化層を、少なくととも一つの選択されたカラーに対してつくり出すことをさらに含む特徴93に記載の方法。
(特徴95) 最終差分残余画像をつくり出すことをさらに含む特徴93に記載の方法。
(特徴96) 該最終差分残余画像を符号化することをさらに含む特徴95に記載の方法。
【0071】
本発明の1又は2以上の実施態様の詳細は、添付図面と以下の説明に記載されている。本発明の他の特徴、目的及び利点は、これらの説明と図面及び特許請求の範囲から明らかになるであろう。なお各種図面の同じ参照記号は同じ要素を示す。
【0072】
詳細な説明
この説明全体を通じて示されている好ましい実施態様と実施例は、本発明を限定するものではなく、例示しているとみなすべきである。
【0073】
時相解像度の階層化
時相速度ファミリーの目標
従来技術の問題点を考案した後、本発明を追求中に、将来のディジタルテレビジョンシステムの時相特性を指定するため下記目標を定義した。
・24フレーム/秒フィルムの高解像度レガシイ(high resolution
legacy)の最適プレゼンテーション。
・迅速に移動する画像タイプ例えばスポーツ画像の彩骨な動きの捕獲。
・72Hz又は75Hzで作動するコンピュータコンパチブル表示器のみならず既存のアナログNTSC表示器へのスポーツ画像及び類似の画像の円滑な動きプレゼンテーション。
・余り速くない移動画像、例えばニュースやライブ劇の画像の合理的であるがより効率的な動きの捕獲。
・すべての新しいディジタルタイプの画像の、コンバーターボックスを通じて既存のNTSC表示器への合理的なプレゼンテーション。
・すべての新しいディジタルタイプの画像の、コンピュータコンパチブル表示器への高品質のプレゼンテーション。
・60Hzディジタル標準表示器又は高解像度表示器が市販されたときの、これら表示器に対する同様の合理的な又は高品質のプレゼンテーション。
【0074】
60Hzの表示器と72/75Hzの表示器は、24Hzの映画速度以外のどの速度でも基本的に適合しないので、最良の状態は、72/75Hz又は60Hzが表示速度として除かれた状態であろう。72Hz又は75Hzは、N.I.I.(national Information Infrastructure)とコンピュータのアプリケーションのために必要な速度であるから、60Hzの速度が、基本的に時代遅れであるので、除外するということはずっと将来のことであろう。しかし、放送・テレビジョン設備の産業界には多くの競合する利害関係があり、新しいディジタルテレビジョンインフラストラクチャが60Hz(および30Hz)に基づいていることに対する強い要求がある。このため、テレビジョン、放送及びコンピュータの産業界間で、非常に白熱した論争が起こっている。
【0075】
その上に、インタレースされた60Hzフォーマットに対する、放送及びテレビジョンの産業界のいくつかの利害が強調されて、コンピュータ表示器の要件とのギャップがさらに広がっている。非インタレース化表示は、ディジタルテレビジョンシステムのコンピュータ式アプリケーションに必要であるから、インタレース化信号が表示される場合、デ−インタレーサが必要である。デ−インタレーサはあらゆるこのような受信装置に必要であるから、デ−インタレーサのコストと品質についてのかなりの論争がある。デ−インタレース化に加えてフレーム速度の変換は、さらにコストと品質に強く影響する。例えば、そのNTSC−PAL間のコンバータは引続き非常に費用がかかり、しかも変換性能は、多くの一般タイプのシーンに対しては信頼できない。インタレースの争点は複雑で問題の多い課題なので、時相速度の問題点と争点に取りくむため、本発明を、インタレースなしのディジタルテレビジョンの標準に関連して説明する。
【0076】
最適時相速度の選択
ビートの問題。72Hz又は75Hzの表示器に対する最適のプレゼンテーションは、動き速度が表示速度に等しい(それぞれ72Hz又は75Hz)及びその逆のカメラ画像又はシミュレートされた画像が生成するときに起こる。同様に、60Hz表示器に対する最適の動き忠実度は、60Hzのカメラ画像又はシミュレート画像から得られる。72Hz又は75Hzの生成速度(generation rate)それぞれを60Hz表示器で使用すると、12Hz又は15Hzのビート周波数が生じる。このビートは動き解析を通じて除くことができるが、動き解析は費用がかかりかつ不正確であり、目視可能なアーチファクトと時相エイリアシングを生じることが多い。動き解析を行わないと、該ビート周波数が、知覚される表示速度を支配して、12Hz又は15Hzのビートが、24Hzより正確さの低い動きを提供するようになる。したがって、24Hzは、60Hzと72Hzの間の自然の時相共通標準(natural temporal common denominator)を形成する。75Hzは60Hzと比べてわずかに15Hz高いビートを有しているが、その動きは依然として24Hzほど滑らかではなく、24Hzの速度が25Hzまで増大しないならば、75Hzと24Hzの間にインテグラル・リレーションシップがない(ヨーロッパの50Hzの国々では、映画が25Hzの場合より4%速く上映されることが多い。これを行って、フィルムを75Hz表示器に提示できるようにすることができる)。
【0077】
各受信装置に動き解析がないと、72Hz又は75Hzの表示器での60Hzの動き及び60Hz表示器での75Hz又は72Hzの動きは、24Hzの画像より平滑さが低い。したがって、72/75Hzの動きも60Hzの動きも、72Hz又は75Hzの表示器及び60Hzの表示器の両方を含む異種表示器集団に到達させるのに適していない。
【0078】
3−2プルダウン。テレシネ変換(フィルムからビデオへの変換)プロセス中、「3−2プルダウン」をビデオ効果と組み合わせて使用するため、最適フレーム速度を選択する場合、さらに複雑になる。このような変換中、3−2プルダウンのパターンは、第一フレーム(又はフィールド)を3回繰返し、次いで次のフレームを2回、次いで次のフレームを3回、次いで次のフレームを2回など繰り返す。これは、60Hzで(実際には、NTSCカラーの場合59.94Hz)テレビジョンに24fpsフィルムがどのように提供されるかを示している。すなわち、1秒のフィルム中の12対の2フレームが各々、5回表示され、1秒当り60個の画像を提供する。その3−2プルダウンのパターンを図1に示す。
【0079】
いくつかの推定によって、ビデオ上のすべてのフィルムの1/2以上は、かなりの部分が、59.94Hzのビデオフィールド速度において24fpsフィルムに対して調節がなされた。これらの調節には「パン−アンド−スキャン(pan-and-scan)」、カラー修正及びタイトルスクローリングが含まれている。さらに多くのフィルムは、フレームをドロップさせるか又はシーンの開始と終了をクリップすることによって時間調節されて、計画された所定の放送内にはめこまれる。これらの操作は、59.94Hzと24Hzの動きの両方があるので、3−2プルダウンプロセスを逆転させることができない。このことによって、そのフィルムは、MPEG−2の標準を使用して圧縮することが非常に困難になる。幸いなことに、3−2プルダウンを使用する高解像度ディジタルフィルムの有意なライブラリーがないので、上記問題は、既存のNTSC解像度のマテリアルに限定される。
【0080】
動きブラー。24Hzより高い共通の時相速度を見つける問題点をさらに探究するため、移動画像を捕獲する際の動きブラーについて述べることは有用である。カメラセンサ及び映画フィルムは、各フレームの時間の一部分で移動画像を感知するため開かれている。映画カメラと多くのビデオカメラのこの露出時間は調節可能である。フィルムカメラは、フィルムを前進させる時間が必要であり、通常、360°のうち約210°だけ開くように又は58%デューティサイクルに制限される。CCDセンサを有するビデオカメラは、そのフレーム時間の一部がそのセンサから画像を「読み取る」ために必要なことが多い。これは、フレーム時間を10%から50%まで変えることができる。いくつかのセンサでは、この読み出し時間中、光を遮断するため電子シャッターを使用しなければならない。したがって、CCDセンサの「デューティサイクル」は通常50%から90%まで変化し、いくつかのカメラでは調節することができる。前記光シャッターは、所望により、該デューティサイクルをさらに減らすため、時々、調節することができる。しかし、フィルムとビデオの両方の場合、最も普通のセンサのデューティサイクルの期間は50%である。
【0081】
好ましい速度。この問題を念頭に置いて、72Hz又は75Hzで捕獲された画像シーケンスからいくつかのフレームだけを使用することを考えることができる。二つ、三つ、四つなどのフレームのうち一つのフレームを利用して表1に示す副速度(subrate)を誘導することができる。
【0082】
【表1】
Figure 0004352105
【0083】
15Hzという速度は60Hzと75Hzの間を単一化する(unify)速度である。12Hzの速度は60Hzと72Hzの間を単一化する速度である。しかし、24Hzを超える速度が要求されるとこれらの速度がなくなる。24Hzは一般的でないが、60Hz表示器に提示するため3−2プルダウンを使用することは産業界に受け入れられるようになってきた。したがって最良の候補速度は30Hz、36Hz及び37.5Hzである。30Hzは、75Hzの7.5Hzビート及び72Hzの6Hzビートを有しているので、候補として有用ではない。
【0084】
36Hzと37.5Hzの動き速度は、60Hz及び72/75Hzの表示器に提供されるとき、24Hzマテリアルより平滑な動きの最上の候補になる。これら速度の両者は、24Hzより約50%速くかつ平滑である。37.5Hzの速度は、60Hz又は72Hzとともに使用するのに適切でないので、除いて、所望の時相速度特性を有しているとして36Hzだけを残さねばならない(37.5Hzという動き速度は、テレビジョンに対する60Hz表示速度が62.5Hzまで4%移動できれば使用できる。60Hz未満に利益があると、62.5Hzは好ましくなくなる。新しいテレビジョンシステムに非常に時代遅れの59.94Hzの速度を提案する人さえある。しかし、このような変更をなすべきであれば、本発明の他の側面は37.5Hzの速度に適用できる)。
【0085】
24、36、60及び72Hzの速度は、時相速度のファミリーの候補として残される。72Hz及び60Hzの速度は分布速度としては使用できない。というのは、これら二つの速度間の変換を行うとき、24Hzを上記のように分布速度として使用する場合より、動きはなめらかさが低いからである。仮説によって、発明者らは24Hzより速い速度を探している。したがって36Hzが、マスターとして最良の候補であり、動き捕獲と画像分布速度を単一化して60Hzと72/75Hz表示器に使用される。
【0086】
上記のように、24Hzマテリアル用の3−2プルダウンのパターンは、第一フレーム(又はフィールド)を3回、次いで次のフレームを2回、次いで次のフレームを3回、次いで次のフレームを2回など繰り返す。36Hzを利用するとき、各パターンは、2−1−2パターンで最適に繰り返されなければならない。これは表2に示し、図2に図式的に示してある。
【0087】
【表2】
Figure 0004352105
【0088】
36Hzと60Hzの間のこの関係は、真の36Hzマテリアルにのみ成立する。60Hzマテリアルは、インタレース化されると30Hz中に「蓄積する(store)」ことができるが、36Hzは、動き解析と再構成なしで60Hzから合理的につくることができない。しかし、動きを捕獲するため新しい速度を探している場合、36Hzは、60Hzの上に、24Hzよりわずかに平滑な動きを提供して、実質的により優れた画像動きの平滑さを、72Hz表示器上に提供する。したがって36Hzは、マスターとして最適の速度であり、動きの捕獲と画像分布速度を単一化して60Hzと72Hzの表示器に使用され、かような表示器に提供される24Hzマテリアルより平滑な動きを生じる。
【0089】
36Hzは、上記目的を満たすが適切な唯一の捕獲速度ではない。36Hzは60Hzから簡単には抽出できないので、60Hzは捕獲のために適切な速度を提供しない。しかし、72Hzは、36Hzの分布のための基準として用いられるあらゆる他のフレームとともに捕獲のために使用できる。72Hzマテリアル以外のあらゆる他のフレームの使用に由来する動きブラーは、36Hz捕獲の場合の動きブラーの1/2である。72Hz由来のあらゆる第三フレームの動きブラー出現の試験は、24Hzにおけるスタッカートストロービング(staccato strobing)が好ましくないことを示している。しかし、36Hz表示器に対して72Hz由来のあらゆる他のフレームを利用することは36Hzのネイティブキャプチャー(native capture)に比べて、眼に不快ではない。
【0090】
したがって、36Hzは、72Hzにおけるキャプチャリングによって、72Hz表示器に、非常に円滑な動きを提供する機会を与えるが、72Hzのネイティブキャプチャーマテリアルの代わりのフレームを用いて36Hz分布速度を達成し次に2−1−2プルダウンを利用して60Hz画像をもたらすことによって、24Hzマテリアルより優れた動きを60Hz表示器に提供する。
【0091】
要するに、表3は、本発明による捕獲と分布のために好ましい最適の時相速度を示す。
【0092】
【表3】
Figure 0004352105
【0093】
72Hzカメラからの代替フレームを利用して36Hz分布速度を達成するこの技法が、増大した動きブルーデューティサイクルから利益を得ることができることは注目に値する。36Hzにおいて25%デューティサイクルを生成する、72Hzにおける正常な50%デューティサイクルは、許容可能であることが立証されて、60Hzと72Hzの表示器に対して24Hzを超える有意な改良を示している。しかし、そのデューティサイクルが、75〜90%の範囲内に増大したならば、36Hzの試料は、より一般的な50%デューティサイクルに近づき始める。デューティ速度の増大は、例えば、短いブランキング時間を有し高いデューティサイクルを生成する「補助記憶装置」のCCD構造を利用することによって達成することができる。二重CCD多重化構造を含む他の方法を利用できる。
【0094】
変形MPEG−2圧縮
有効な記憶と分布を行うため、36Hzという好ましい時相速度を有するディジタルソースマテリアル(digital source material)を圧縮しなければならない。本発明の好ましい形態の圧縮は、MPEG−2標準の新規の変形を利用して達成されるが、類似の特性を有する他の圧縮システム(例えばMPEG−4)で利用できる。
【0095】
MPEG−2の基本原理。MPEG−2は、よりコンパクトな符号化データの形態で画像シーケンスを表すのに有効な方法を提供するビデオシンタックスを定義する国際ビデオ圧縮標準である。符号化ビットの言語は「シンタックス」である。例えば、いくつかのトークンが、64個の試料の全ブロックを表すことができる。また、MPEGは復号(再構成)プロセスを説明し、そのプロセスにおいて、符号化ビットが、画像シーケンスの元の「生」フォーマット中にコンパクトに表すことによってマッピングされる。例えば、前記符号化ビット流中のフラグが、以下のビットを離散的コサイン変換(DCT)アルゴリズム又は予報アルゴリズムで復号すべきかどうかの信号を送る。復号化のプロセスを含むこれらのアルゴリズムは、MPEGで定義される意味規則によって調整される。このシンタックスは、空間冗長性、時相冗長性、均一な動き、空間マスキングなどの共通のビデオ特性を活用するのに適用することができる。実際に、MPEG−2はデータフォーマットのみならずプログラム用言語を定義する。MPEG−2復号器は、受信データ流を解析し復号するが、そのデータ流がMPEG−2のシンタックスに従う限り、広範囲の可能なデータ構造や圧縮技法を使用できる。本発明は、MPEG−2標準を利用して時相と解像度のスケーリングを行う新規の手段と方法を工夫することによって上記適応性を利用する。
【0096】
MPEG−2は、イントラフレーム(intraframe)及び圧縮のイントラフレーム法を利用する。大部分のビデオシーンでは、背景が比較的安定して残るが、アクションが前景に起こる。その背景は移動できるがそのシーンの大部分は冗長である。MPEG−2は、I(イントラ用)フレームと呼称される参照フレームをつくることによって、その圧縮を開始する。Iフレームは、他のフレームにかかわりなく圧縮されるので、ビデオ情報の全フレームを含んでいる。Iフレームは、ランダムアクセスのためのデータビットストリームへの入り口点を提供するが、適度に圧縮されるだけである。一般に、Iフレームを表すデータは、ビットストリーム中に10〜15フレーム毎に配置される。その後は、参照Iフレームの間に入るフレームのごく小さい部分だけがブラケッティング(bracketing)Iフレームと異なるので、その差だけが捕獲され、圧縮され次いで記憶される。このような差を得るため、2種のフレームすなわちP(予測のための)フレーム及びB(二方向にインタポレートされる)が利用される。
【0097】
Pフレームは一般に、過去のフレーム(Iフレーム又は先行Pフレーム)を参照して符号化され、そして、一般に、将来のPフレームの基準として使用される。Pフレームはかなり大きい圧縮を受ける。Bフレームの画像は最大の圧縮を提供するが、符号化するために、過去と将来の両方の基準が一般に必要である。2方向フレームは、基準フレームとしては決して使用されない。
【0098】
またPフレーム内のマクロブロックは、フレーム内符号化法を利用して、個々に符号化することができる。また、Bフレーム内のマクロブロックは、フレーム内符号化法、順方向予報符号化法(forward predicted coding)、逆方向予報符号化法もしくはその順方向と逆方向の両方法、又は二方向に補間された予報符号化法を使用して個々に符号化することができる。マクロブロックは、Pフレームの場合は一つの動きベクトルとともにそしてBフレームの場合は1又は2以上の動きベクトルとともに、四つの8×8DCTブロックからなる16×16画素のグルーピングである。
【0099】
符号化を行った後、MPEGのデータビットストリームは、I、P及びBのフレームのシーケンスを含んでいる。一つのシーケンスは、I、P及びBのフレームのほとんどどんなパターンで構成されていてもよい(その配置については、少数の小さい意味の制限がある)。しかし、固定したパターン(例えばIBBPBBPBBPBBPBB)を有することは産業界のプラクチスでは普通のことである。
【0100】
本発明の重要部分として、ベース層、少なくとも一つの任意の時相強化層、及び任意の解像度強化層を含むMPEG−2データ流がつくられる。これら層各々については詳細に説明する。
【0101】
時相スケーラビリティ
ベース層。このベース層は36Hzソースマテリアルを運ぶために使用される。好ましい実施態様では、二つのMPEG−2フレームシーケンスすなわちIBPBPBP又はIPPPPPPのうち一方を、ベース層に使用できる。後者のパターンは、復号器がPフレームを復号するためにのみ必要なので、最も好ましく、24Hzの映画がBフレームなしで復号されたならば、必要なメモリの帯域幅が小さくなる。
【0102】
72Hzの時相強化層。MPEG−2圧縮を利用するとき、Pフレーム距離が一定であれば、36Hzベース層に対するMPEG−2シーケンス中に、Bフレームとして36Hz時相強化層を埋め込むことが可能である。これによって、単一データ流が36Hz表示と72Hz表示を支持することができる。例えば、これら両方の層は、復号されて、コンピュータモニタに対して72Hz信号を生成することができるが、該ベース層だけが復号され、変換されてテレビジョンに対し60Hzの信号を生成することができる。
【0103】
好ましい実施態様では、IPBBBPBBBPBBBP又はIPBPBPBPBというMPEG−2符号化パターンはともに、時相強化Bフレームだけを含む別の流れの中に代替フレームを配置して、36Hzを72Hzにすることができる。これらの符号化パターンはそれぞれ図2と3に示してある。図3に示す2フレームP間隔(2-Frame P spacing)の符号化パターンには、24Hzの映画がBフレームなしで復号されたならば、36Hzの復号器はPフレームしか復号する必要がないので、必要なメモリの帯域幅が小さくなるという追加の利点がある。
【0104】
高解像度画像の実験が、図3に示す2フレームP間隔がほとんどのタイプの画像にとって最適であることを示唆した。すなわち、図3に示す構造は、60Hzと72Hzの両者を支持する最適の時相構造を提供するようであり、一方、最新の72Hzコンピュータコンパチブル表示器に優れた結果を提供する。この構造は、二つのディジタル流すなわちベース層の36Hzのディジタル流と、強化層Bフレームの36Hzのディジタル流に72Hzを達成させる。このことは図4に示し、図4は、36Hzベース層MPEG−2復号器50が単純にPフレームを復号して36Hzの出力を生成し、次いでその出力は、60Hz又は72Hzの表示に直ちに変換できることを示すブロック図である。任意の第二復号器52が単純にBフレームを復号して第二36Hz出力を生成し、次いでその出力は前記ベース層復号器50の前記36Hz出力と結合されると、72Hz出力が生成する(結合方法については以下で考察する)。別の実施態様では、一つの高速MPEG−2復号器50が、ベース層のPフレームと強化層のBフレームの両者を復号することができる。
【0105】
最適のマスターフォーマット。多くの会社が、約11メガ画素/秒で作動するMPEG−2復号チップを製造している。MPEG−2標準は、解像度とフレーム速度についていくつかの「プロファイル」を定義している。これらのプロファイルは、60Hzのようなコンピュータインコンパチブルフォーマットパラメータ、非正方形画素及びインタレースに向かって強くバイアスされているが、多くのチップ製造業者が、「メインプロファイル、メインレベル」で作動する復号器チップを開発中のようである。このプロファイルは、水平解像度が720画素まで、垂直解像度が25Hzまでで576ラインまで及びフレーム速度が30Hzまでで480ラインまでと定義されている。約1.5メガビット/秒〜約10メガビット/秒の広範囲のデータ速度も指定されている。しかし、チップの観点から、重要な問題は画素が復号される速度である。メインレベル・メインプロファイルの画素速度は約10.5メガ画素/秒である。
【0106】
チップ製造業者によって異なるが、大部分のMPEG−2復号器のチップは、実際に、高速支援メモリ(fast support memory)を与えられると、13メガ画素/秒までで作動する。いくつかの復号器チップは20メガ画素/秒以上の高速で作動する。CPUチップが毎年、所定のコストで50%以上の改良がなされるとすると、MPEG−2復号器チップの画素速度に、近い将来、なんらかのフレキシビリティを期待することができる。
【0107】
表4は、いくつかの望ましい解像度とフレーム速度、及びそれらの対応する画素速度を示す。
【0108】
【表4】
Figure 0004352105
【0109】
これらのフォーマットはすべて、少なくとも12.6メガ画素/秒を生成できるMPEG−2復号器チップで利用できる。36Hzフォーマットにおいて非常に望ましい640×480はほぼすべての現行チップによって達成できる。というのはこれらチップの速度が11.1メガ画素/秒であるからである。ワイドスクリーン1024×512画像は、1.5:1のスクイーズを使用して680×512にスクイーズすることができるので、12.5メガ画素/秒を操作できると、36Hzで支持できる。1024×512の非常に望ましい正方形画素のワイドスクリーンテンプレートは、MPEG−2復号器チップが1秒当り約18.9メガ画素を処理できると、36Hzを達成できる。このことは、24Hzと36HzのマテリアルがPフレームでのみ符号化される場合、一層実現可能になり、その結果、Bフレームは、72Hz時相強化層復号器にのみ必要になる。Pフレームのみを利用する復号器は小さいメモリと小さいメモリ帯域幅しか必要としないので、19メガ画素/秒という目標に一層到達可能になる。
【0110】
1024×512解像度のテンプレートは、24fpsにおいて、2.35:1及び1.85:1のアスペクト比のフィルムで使用されることが最も多い。このマテリアルは11.8メガ画素/秒のみ必要であり、大部分の既存のメインレベル−メインプロファイル復号器の限度内で適合しなければならない。
【0111】
24Hz又は36Hzにおけるベース層用の「マスターテンプレート」中のこれらフォーマットのすべてを図6に示す。したがって、本発明は、従来技術と比較して広範囲のアスペクト比と時相解像度を適合させる独特の方法を提供するものである(マスターテンプレートに関するさらなる考察は以下に述べる)。
【0112】
72Hzを生成するBフレームの時相強化層は、上記画素速度の2倍の画素速度でチップを使用するか、又は復号器メモリに対し追加のアクセスをする並列の第二チップを使用することによって復号することができる。本発明によれば、強化層とベース層のデータ流を併合して、代替のBフレームを挿入する方法は少なくとも二つある。第一の方法では、併合は、MPEG−2トランスポート層を使用して、符号器チップに対して不可視的に行うことができる。二つのPID(プログラムID)に対するMPEG−2トランスポートパケットは、ベース層と強化層を含んでいると認識することができるので、それらのストリームコンテントは両者ともに、2倍の速度で作動できる復号器チップ又は適切に配置構成された一対の通常速度の復号器に簡単に送ることができる。第二の方法では、MPEG−2システム由来のトランスポート層の代わりに、MPEG−2データ流の「データ区分(data partitioning)」機能を使用することが可能である。そのデータ区分機能は、Bフレームに、MPEG−2圧縮データ流内の異なるクラスに属しているとマークをつけることができるので、フラグを立てて、時相ベース層速度だけを支持する36Hz復号器に無視させることができる。
【0113】
MPEG−2ビデオ圧縮によって定義される時相スケーラビリティは、本発明の単純なBフレーム区分ほど最適ではない。MPEG−2時相スケーラビリティは、前のPフレーム又はBフレームから順方向にのみ参照されるので、順方向と逆方向の両方に参照される、本願で提案されているBフレーム符号化で得られる効力を欠いている。したがって、時相強化層としてBフレームを単純に使用すると、MPEG−2内で定義されている時相スケーラビリティより、一層単純でかつ有効な時相スケーラビリティが提供される。それにもかかわらず、Bフレームを、時相スケーラビリティの機構として上記のように使用することは、MPEG−2に充分適合している。また、これらBフレームを強化層として、Bフレームに対するデータ区分又は別のPIDによって識別する二つの方法も充分適合している。
【0114】
50/60Hz時相強化層。上記72Hz時相強化層(36Hzの信号を符号化する)に加えて又はこの層の代わりに、60Hz時相強化層(24Hzの信号を符号化する)を、類似の方式で、36Hzベース層に加えることができる。60Hz時相強化層は、既存の60Hzでインタレース化されたビデオマテリアルを符号化するのに特に有用である。
【0115】
大部分の既存60Hzインタレース化マテリアルは、アナログのNTSC、D1又はD2のフォーマット用のビデオテープである。また、少数の日本のHDTV(SMPTE240/260M)もある。このフォーマットで作動するカメラもある。このような60Hzインタレース化フォーマットは既知の方法で処理され、その結果、その信号がデ−インタレース化され、フレーム速度を変換することができる。この処理は、ロボットビジョンと類似の非常に複雑な画像理解法を必要とする。非常に精巧な技法の場合でさえ、時相エイリアシングが一般に、アルゴリズムによる「誤解」をもたらし、時おりアーチファクトを生じる。画像捕獲の一般的な50%デューティサイクルとは、カメラが1/2の時間「見ていない」ことを意味することに留意すべきである。映画における「逆方向ワゴンホイール」は、時相誤解のこの通常のプラクチスが原因の時相エイリアシングの一例である。このようなアーチファクトは、一般にヒトが支援する再構成なしでは除くことができない。したがって、自動的に修正できない場合が常にある。しかし、現在の技法で利用できる動き変換の結果は、ほとんどのマテリアルに対して妥当なものでなければならない。
【0116】
単一の高精細度のカメラ又はテープ機械の価格はかようなコンバータのコストと類似しているであろう。したがって、いくつものカメラやテープ機械を備えたスタジオにおけるこのような変換のコストは適度なものになる。しかし、このような処理を適切に行うことは、現在、ホームとオフィスのプロダクト(home and office products)の予算額(budget)を超えている。したがって、インタレースを除いてそのフレーム速度を、既存マテリアルに対して変換する複雑な処理は、オリジネーションスタジオで達成することが好ましい。これは図5に示してあり、図5は、カメラ60又は他のソース(例えばノンフィルムビデオテープ)62から、36Hz信号(36Hzベース層のみ)及び72Hz信号(36Hzベース層プラス時相強化層からの36Hz)を出力できるデ−インタレーサ機能とフレーム速度変換機能を含むコンバータ64への60Hzインタレース化入力を示すブロック図である。
【0117】
72Hz信号(36Hzベース層プラス時相強化層からの36Hz)を出力する別法として、この変換法は、36Hzベース層上に、デ−インタレースされているが元の60Hz信号を再生する第二のMPEG−2の24Hz時相強化層を生成するように適合させることができる。類似の量子化法を、60Hz時相強化層のBフレームに利用すると、Bフレームの数は少ないので、データ速度は、72Hz時相強化層よりわずかに低いはずである。
【0118】
>60I→36+36=72
>60I→36+24=60
>72→36,72,60
>50I→36,50,72
>60→24,36,72
【0119】
米国で関心をもたれている大多数のマテリアルは低解像度のNTSCである。現在、大部分のホームテレビジョンの大部分のNTSC信号には、かなりの損傷が見られる。さらに視聴者は、テレビジョンにフィルムを提供するために3−2プルダウンを使用する際に固有の時相損傷を受容するようになっている。ほぼすべてのプライムタイムのテレビジョンは、24フレーム/秒のフィルムでつくられる。したがって、スポーツ、ニュース及びその外のビデオオリジナルのショーだけはこの方式で処理する必要がある。これらのショーの36/72Hzフォーマットへの変換に関連するアーチファクトと損失は、信号の高品質デ−インタレース化に関連する改良によっておぎないやすい。
【0120】
60Hz(又は59.94Hz)のフィールドに固有の動きブラーは、72Hzフレームの動きブラーに極めて類似しているはずであることに留意すべきである。したがってベース層と強化層を提供するこの方法は、動きブラーについて、72Hzオリジネーションに類似しているはずである。それで、ほとんどの視聴者は、インタレース化された60HzNTSCマテリアルが、36Hzベース層に時相強化層からの24Hzをプラスして加工されて60Hzで表示されるとき、わずかな改良として気づくことが可能な場合を除いて、前記差に気付かない。しかし新しい72Hzディジタル非インタレース化テレビジョンを買う人は、NTSCを見るときに小さな改良に気付きそして72Hzで捕獲されるか又は生じる新しいマテリアルを見るときに大きな改良に気付く。72Hz表示器に提供される復号化36Hzベース層でさえ、高品質のディジタルNTSCと同じほど良好に見え、インタレースのアーチファクトを、より低いフレーム速度で置換する。
【0121】
上記同じ方法は、既存のPAL50Hzマテリアルを、第二のMPEG−2強化層に変換するのに適用することもできる。PALビデオテープは、このような変化を行う前に、最も適切に低速にされる。ライブのPALは、比較的関連のない速度の50Hz、36Hz及び72Hzを利用して変換を行う必要がある。このようなコンバータユニットは、現在、放送信号のソースにおいて入手できるだけであるから、家庭や事務所における各受信装置では現在実用的でない。
【0122】
解像度のスケーラビリティ
より高い解像度を達成するためベース層上に設けられたMPEG−2を利用する階層化解像度スケーラビリティを利用して、ベース解像度テンプレートを強化することができる。強化を行うと、ベース層で1.5xと2xの解像度を達成できる。2倍の解像度が、3/2と次に4/3を利用し、2ステップで達成することができ、又はそのステップは単一の2倍のステップ(factor-of-two step)でもよい。これを図7に示す。
【0123】
この解像度増強の方法は、独立のMPEG−2ストリームとして解像度強化層をつくり、次いでMPEG−2の圧縮を該強化層に適用することによって達成できる。この方法は、MPEG−2によって定義されて高度に有効ではないことが確かめられている「空間スケーラビリティ」とは異なる。しかし、MPEG−2は、有効な階層化解像度を構築して空間スケーラビリティを提供するすべてのツールをもっている。本発明の好ましい階層化解像度の符号化法を図8に示す。本発明の好ましい復号法を図9に示す。
【0124】
解像度層の符号化。図8では、2k×1kの原画像80が、好ましくは負のローブを有する最適化フィルタ(下記図12の考察参照)を使用して、各次元の解像度が1/2にダウンフィルタされて、1024×512のベース層81が生成する。このベース層81は次に通常のMPEG−2アルゴリズムによって圧縮され、伝送に適したMPEG−2ベース層82が生成する。重要なことであるが、MPEG−2の完全な動き補償はこの圧縮ステップ中に利用することができる。次にその同じ信号は、通常のMPEG−2アルゴリズムを使って、1024×512の画像83に復元される。その1024×512画像83は第一の2k×1kの拡大像84に拡張される(例えば、画素の複製によって、又は好ましくはスプライン・インターポレーションなどの優れたアップフィルタ類又は負のローブを有するフィルタによって、以下の図13Aと13Bの考察参照)。
【0125】
一方、任意のステップとして、前記フィルタされた1024×512のベース層81は第二の2k×1kの拡大層85に拡張される。この第二の2k×1k拡大層85は、元の2k×1kの画像80から減算されて、元の高解像度画像80と元のベース層画像81の間の解像度のトップオクターブ(top octave)を示す画像を生成する。その得られた画像は、鮮鋭度ファクター又は重みが任意に乗算され、次に、元の2k×1k画像80と第二の2k×1k拡大画像85の差に加えられて、中央重み付け2k×1k強化層ソース画像86が生成する。次に、この強化層ソース画像86を、通常のMPEG−2アルゴリズムにしたがって圧縮して、伝送に適した別のMPEG−2解像度強化層87が生成する。重要なことであるが、完全なMPEG−2の動き圧縮をこの圧縮ステップ中に使用できる。
【0126】
解像度の復号。図9において、ベース層82が、通常のMPEG−2のアルゴリズムを使用して、1024×512の画像90に復元される。その1024×512の画像90は第一の2k×1k画像91に拡張される。一方、解像度強化層87は、通常のMPEG−2アルゴリズムを使用して、第二の2k×1k画像92に復元される。次にこの第一2k×1k画像91と第二2k×1k画像92を加算して高解像度の2k×1k画像93が生成する。
【0127】
MPEG−2を超える改良。本質において、強化層は、復号されたベース層を拡張し、元の画像と復号されたベース層の差をテイクし、次に圧縮することによってつくられる。しかし、圧縮された解像度強化層を、復号後、ベース層に任意に加えて、復号器内に高解像度画像をつくることができる。本発明の階層化解像度符号化法は、下記の種々の点で、MPEG−2空間スケーラビリティと異なっている。
・強化層の差分写真(enhancement layer difference
picture)は、それ自身のMPEG−2データ流として、I、B及びPのフレームによって圧縮される。この差は、本願に提案されている解像度スケーラビリティが、MPEG−2空間スケーラビリティが効果がない場合に有効である主な理由を示す。MPEG−2内で定義される空間スケーラビリティは、アッパー層を、アッパー層写真と拡張ベース層の間の差として、もしくは実際の写真の動きを補償されたMPEG−2データ流として又はその両者の組合せとして符号化することができる。しかし、これらの符号化はいずれも有効でない。ベース層との差は、ひとつのIフレームの差とみなすことができ、この差は、本発明の場合のような動きを補償された差分写真と比べて効果がない。また、MPEG−2内に定義されているアッパー層符号化は、アッパー層の完全な符号化と同一であるから効果がない。したがって、本発明の場合のような差分写真の動きを補償された符号化は実質的に一層有効である。
・強化層は独立したMPEG−2データ流であるから、MPEG−2システムのトランスポート層(又は他の類似の機構)を使用して、ベース層と強化層を多重化しなければならない。
・拡張及び解像度低下(ダウン)のフィルタリングは、ガウス関数もしくはスプライン関数、又は負のローブを有するフィルタでもよく(図12参照)、これらはMPEG−2の空間スケーラビリティに規定されている双線形インタポレーションより最適である。
・画像のアスペクト比は、好ましい実施態様の低い層と高い層の間で適合しなければならない。MPEG−2空間スケーラビリティでは、幅及び/又は高さの延長を行うことができる。このような延長は、効率の要件のため、好ましい実施態様では行えない。
・効率の要件及び強化層に使用される極端な大きさの圧縮が原因で、強化層の全領域は符号化されない。強化されない領域は通常境界領域である。したがって、好ましい実施態様の2k×1kの強化層ソース画像86は中央が重み付けされる。好ましい実施態様では、フェージング関数(fading function)(例えば線形重み付け関数)を使用して、強化層を、画像の中央の方に向けて境界の端縁から「フェザー(feather)」させて、画像の突然のトランジションを避ける。さらに、眼がたどるディテールを有する領域を手動で又は自動的に決定する方法を利用して、ディテールを必要とする領域を選択し、そして余分のディテールを必要としない領域を排除することができる。画像全体がベース層のレベルまでディテールを有しているので直像全体が存在している。特に重要な領域だけが強化層から利得を得る。他の基準がなければ、フレームの端縁又は境界は、上記中央重み付けの実施態様のように強化から除外することができる。MPEG−2のパラメータすなわち符号付きの負の整数として使用され、「水平及び垂直のサブサンプリング−ファクター−m&n」値と結合された「下方層−プレディクション−水平及び垂直−オフセット」パラメータを使用して、強化層の長方形の全体の大きさ及び拡張されたベース層内の配置を指定することができる。
・鮮鋭度ファクターを強化層に加えて、量子化中に起こる鮮鋭度の損失をオフセットする。このパラメータは、元の写真の明瞭性と鮮鋭性を復元するためにのみ利用し、画像を強化するために利用しないように注意しなければならない。図8に関連して先に述べたように、鮮鋭度ファクターは、元の高解像度画像80と元のベース層画像81(拡張後)の間の解像度の「高いオクターブ」である。この高オクターブの画像は、高オクターブの解像度の鮮鋭度とディテールを含んでいることに加えて、全くノイズが多い。この画像を加えすぎると、強化層の動きを補償された符号化が不安定になることがある。加えなければならない量は、元の画像のノイズのレベルによって決まる。一般的な重み付け値は0.25である。ノイズの多い画像には、鮮鋭度を決して加えてはならない。そして、ディテールを保持する従来のノイズ抑制法を使用して、圧縮前の強化層に対し元のノイズを抑制することが得策である。
・時相と解像度のスケーラビリティは、ベース層と解像度強化層の両者において36Hzから72Hzへ時相強化を行うためBフレームを利用することによって混合される。このように、復号性能の四つの可能なレベルは、時相スケーラビリティの二つのレベルで利用可能なオプションがあるので、二つの層の解像度スケーラビリティで可能である。
【0128】
これらの差は、MPEG−2の空間スケーラビリティと時相スケーラビリティを超える実質的な改良を示す。しかし、これらの差は、MPEG−2復号器チップと一致しているが、図9に示す解像度強化復号法で拡張と付加を行うには、その復号器に追加の論理が必要である。このような追加の論理は、余り有効でないMPEG−2の空間スケーラビリティによって要求される論理とほぼ同一である。
【0129】
解像度強化層の任意の非MPEG−2符号化。解像度強化層に対して、MPEG−2とは異なる圧縮法を利用することが可能である。さらに、解像度強化層に対して、ベース層に対する圧縮法と同じ圧縮法を使用する必要はない。例えば、差分層(difference layer)が符号化されるとき、動きを補償されたブロックウェーブレット(motion-compensated block wavelet)を利用して、高い効率で、ディテールに合わせて追跡することができる。ウェーブレットを配置するのに最も有効な位置が、差の大きさが変化するため、スクリーンのまわりでジャンプしても、低振幅の強化層内では気付かれないであろう。さらに、全画像をカバーすることは不要である。すなわち、該ウェーブレットを、ディテールの上に配置することだけが必要である。これらウェーブレットは、画像内のディテール領域による案内で配置することができる。また、その配置は、端縁からバイアスさせることもできる。
【0130】
多重解像度強化層。ここで述べるビット速度では、72フレーム/秒の2メガ画素(2048×1024)が18.5メガビット/秒で符号化される場合、ベース層(72fpsにおける1024×512)と単一の解像度強化層だけが成功裡に立証された。しかし、解像度強化層符号化法をさらに改善することから効率がさらに改良されると予想され、多重解像度強化層が可能になるであろう。例えば、512×256のベース層が、四つの層によって、解像度を、1024×512、1536×768及び2048×1024に強化できると考えられる。このことは、24フレーム/秒という映画のフレーム速度での、既存のMPEG−2符号化法で可能である。72フレーム/秒などの高いフレーム速度では、MPEG−2は、解像度強化層を符号化する際、この多数の層を現在、許容するのに充分な効率を提供しない。
【0131】
マスタリングフォーマット
2048×1024の画素又はこれに近い画素のテンプレートを使用して、各種のリリースフォーマットに対する単一のディジタル移動画素マスターフォーマットのソースをつくることができる。図6に示すように、2k×1kのテンプレートは、通常のワイドスクリーンのアスペクト比:1.85:1と2.35:1を有効に支持することができる。また、2k×1kのテンプレートは、1.33:1及びその外のアスペクト比も受け入れることができる。
【0132】
整数(特に2のファクター)及び単分数(3/2及び4/3)が解像度階層化の際の最も有効なステップサイズであるが、任意の比率を利用して、必要な解像度階層化を達成することも可能である。しかし、2048×1024のテンプレート又はそれに近いものを使用すると、高品質のディジタルマスターフォーマットが提供されるだけでなく、NTSCすなわち米国のテレビジョン標準を含む、二つのベース層(1k×512)のファクターから多くの他の便利な解像度を提供することができる。
【0133】
4k×2k、4k×3k又は4k×4kなどのより高い解像度でフィルムを走査することもできる。任意の解像度強化を利用して、これらのより高い解像度を、2k×1kに近い中央マスターフォーマット解像度からつくることができる。フィルムのためのこのような強化層は、画像のディテール、粒子及び他のノイズ源(例えばスキャナノイズ)で構成されている。このようにノイズがあるので、このような非常に高い解像度を得るため強化層に圧縮法を使用するには、MPEG−2タイプの圧縮に代わる圧縮法が必要である。幸いにも、このようなノイズの多い信号を圧縮するのに利用できるが、依然として所望のディテールを画像に維持する他の圧縮法がある。このような圧縮法の一例は、動き補償ウェーブレット又は動き補償フラクタルである。
【0134】
ディジタルマスタリングフォーマットは、既存の映画からつくられる場合そのフィルムのフレーム速度(すなわち24フレーム/秒)でつくらねばならない。3−2プルダウンとインタレースの両者を共用することは、ディジタルフィルムマスターに対しては不適当である。新しいディジタル電子マテリアルとして、60Hzインタレースを使うことは近い将来なくなり、ここで提案される72Hzなどの、コンピュータとよりコンパチブルなフレーム速度によって代替されると考えられる。ディジタル画像マスターは、72Hz、60Hz、36Hz、37.5Hz、75Hz、50Hz又は他のフレーム速度にかかわらず、画像が捕獲されるどんなフレーム速度においてもつくらねばならない。
【0135】
すべての電子リリースフォーマット用の単一ディジタルソース写真フォーマットとしてのマスタリングフォーマットの概念は、PAL、NTSC、レターボックス、パン−アンド−スキャン、HDTVなどのマスターがすべて、フィルムオリジナルから、一般に独立してつくられる既存のプラクチスと異なっている。マスタリングフォーマットを使用すると、フィルムショーとディジタル/電子ショーの両者を、各種の解像度とフォーマットでリリースするために、一度にマスターリングすることが可能になる。
【0136】
結合された解像度強化層と時相強化層
上記のように、時相強化と解像度強化の階層化は結合することができる。時相強化は、Bフレームを復号することによって行われる。また解像度強化層は二つの時相層を有しているのでBフレームを含んでいる。
【0137】
24fpsのフィルムの場合、最も有効でかつ低コストの復号器はPフレームだけを使用できるので、Bフレームの復号操作を省くことによって復号器を単純化するのみならずメモリおよびメモリの帯域幅の両者を最小限にすることができる。したがって、本発明によれば、24fpsの映画の復号及び36fpsのアドバンスドテレビジョンの復号を行うのに、Bフレームの性能なしの復号器を利用できる。次に、図3に示すように、BフレームがPフレーム間に利用されて、72Hzのより高い時相層を得ることができ、そのBフレームは第二復号器によって復号できる。この第二復号器はBフレームだけを復号すればよいので単純化することができる。
【0138】
この階層化は、24と36のfps速度に対して同様にPフレームとIフレームだけを利用できる。解像度が強化された層にも当てはまる。その解像度強化層は、その層内でのBフレームの復号を加えることによって、72Hzの完全時相速度を高い解像度で加えることができる。
【0139】
復号器に対する組み合わされた解像度と時相の拡大縮小可能なオプションを図10に示す。またこの実施例は、本発明の空間時相階層化アドバンスドテレビジョンを達成するための、約18メガビット/秒のデータ流の比率の配分を示す。
【0140】
図10において、ベース層MPEG−2の1024×512画素データ流(好ましい実施態様ではPフレームだけを含んでいる)が基準解像度復号器100に加えられる。Pフレームに対しては、約5メガビット/秒の帯域幅が必要である。基準解像度復号器100は24fps又は36fpsで復号することができる。基準解像度復号器100の出力は、低解像度、低フレーム速度の画像(24Hz又は36Hzの1024×512画素)を含んでいる。
【0141】
同じデータ流からのBフレームが解析され、基準解像度時相強化層復号器102に加えられる。このようなBフレームに対しては約3メガビット/秒の帯域幅が必要である。また、基準解像度復号器100の出力は時相強化層復号器102にも連結される。その時相強化層復号器102は36fpsで復号することができる。時相強化層復号器102の結合された出力は、低解像度でかつ高フレーム速度の画像(72Hzの1024×512の画素)を含んでいる。
【0142】
また図10では、解像度強化層MPEG−2の2k×1k画素データ流(好ましい実施態様ではPフレームだけを含有している)が、基準時相高解像度強化層復号器104に適用される。そのPフレームに対しては約6メガビット/秒の帯域幅が必要である。また基準解像度復号器100の出力は高解像度強化層復号器104にも連結される。その高解像度強化層復号器104は24fps又は36fpsで復号することができる。高解像度強化層復号器104の出力は、高解像度でかつ低フレーム速度の画像(24Hz又は36Hzの2k×1k画素)を含んでいる。
【0143】
同じデータ流からのBフレームが解析され、高解像度時相強化層復号器106に適用される。このようなBフレームに対しては、約4メガビット/秒の帯域幅が必要である。前記光学的解像度強化層復号器104の出力が高解像度時相強化層復号器106に連結される。時相強化層復号器102の出力も高解像度時相強化層復号器106に連結される。高解像度時相強化層復号器106は36fpsで復号できる。高解像度時相強化層復号器106の結合された出力は、高解像度でかつ高フレーム速度の画像(72Hzの2k×1k画素)を含んでいる。
【0144】
この拡大縮小可能な符号化機構によって達成される圧縮比は、非常に高くて優れた圧縮効率を示すことに注目すべきである。図10に示す実施例由来の時相オプションとスケーラビリティオプション各々に対する圧縮比を表5に示す。これらの比率は、24ビット/画素における原始RGB画素に基づいている(通常の4:2:2符号化の16ビット/画素又は通常の4:2:0符号化の12ビット/画素を要因として入れると、圧縮比はそれぞれ、表5に示した値の3/4及び1/2になる)。
【0145】
【表5】
Figure 0004352105
【0146】
これらの高い圧力比は、二つの要因によって可能になる。
(1)高フレーム速度72Hzの画像の高い時相コヒーレンス;
(2)高解像度2k×1kの画像の高い空間コヒーレンス;
(3)画像の重要な部分(例えば中央部分)に解像度ディテールの強化を適用し、余り重要でない部分(例えばフレームの境界には適用しない)。
【0147】
これらの要因は、MPEG−2符号化シンタックスの強さ(strength)を利用することによって、本発明の階層化圧縮法で活用される。これらの強さは、時相スケーラビリティに対して2方向に内挿されたBフレームを含む。また、このMPEG−2シンタックスは、ベース層と強化層の両者に動きベクトルを使用することによって有効な動きを表現する。高いノイズと迅速な画像の変化のいくらかのしきい値まで、MPEG−2は、DCT量子化とともに動き補償によって、強化層内のノイズの代わりに、符号化のディテールにおいて有効である。このしきい値を超えると、データ帯域幅は、ベース層に最もよく配分される。これらのMPEG−2の機構は、本発明にしたがって使用されると、協力して働き、時相と空間の両方を拡大縮小可能である高度に効率的でかつ有効な符号化を行う。
【0148】
CCIR601ディジタルビデオの5メガビット/秒符号化と比較して、表5に示す圧縮比ははるかに高い。その原因の一つは、インタレースが原因でいくらかのコヒーレンスが損失することである。インタレースは、次のフレームとフィールドを予測する性能及び垂直方向に隣接している画素の相関関係に負の影響をする。したがって、ここで述べる圧縮効率の利得の主な部分は、インタレースがないことが原因である。
【0149】
本発明で達成される大きな圧縮比は、各MPEG−2マクロブロックを符号化するのに利用可能なビットの数の釣合いから考えることができる。上記のように、マクロブロックは、Pフレームに対する一つの動きベクトル及びBフレームに対する1又は2以上の動きベクトルを有する、四つの8×8DCTブロックからなる16×16画素のグルーピングである。各層の一マクロブロック当り、利用可能なビットを表6に示す。
【0150】
【表6】
Figure 0004352105
【0151】
各マクロブロックを符号化するためのビットの利用可能な数は、ベース層より強化層の方が少ない。ベース層はできるだけ性質が優れていることが望ましいので、上記のことが適切である。動きベクトルは8ビット程度が必要であり、マクロブロックタイプの符号、及び四つの8×8DCTブロックのすべてに対するDC係数とAC係数に対して10〜25ビットを残す。これはごく少数の「戦略的」AC係数にしか空間を残さない。したがって、各マクロブロックに利用可能な情報の大部分は、統計的に、強化層の前のフレームから出なければならない。
【0152】
強化差分画像(enhancement difference image)で表されるディテールの高オクターブを示すため充分なDC係数とAC係数を符号化するために利用可能なデータ空間が充分にないので、MPEG-2空間スケーラビリティがこれらの圧縮比では役に立たない理由は容易に分かる。この高いオクターブは、第五〜第八の水平AC係数と垂直AC係数で表される。1DCTブロック当り利用可能なビットがごく少数しかない場合、これらの係数には到達できない。
【0153】
ここに述べるシステムは、前の強化差分フレームからの動きを補償された予測を利用することによって、その効力を得る。このことは、時相と解像度(空間)の階層化された符号化に優れた結果をもたらすのに明白に有効である。
【0154】
優雅な縮退。ここで述べる時相スケーリング法と解像度スケーリング法は、2k×1kの原起源を用いて、72フレーム/秒で正常に作動するマテリアルに対して良好に作動する。また、これらの方法は、24fpsで作動するフィルムベースマテリアルに対しても良好に作動する。しかし、高フレーム速度において、非常にノイズの多い画像が符号化されるとき、又は画像流内に多数のショートカットがある場合、その強化層は、有効な符号化を行うために必要なフレーム間のコヒーレンスを失うことがある。典型的なMPEG-2符号器/復号器のバッファフルネス(buffer fullness)/速度制御の機構は量子化器(quantizer)を非常に粗い設定に設定しようとするので、上記損失は容易に検出される。この状態に遭遇すると、該解像度強化層を符号化するのに通常使用されるすべてのビットは、ベース層がストレスの多いマテリアルを符号化するためできるたけ多数のビットを必要とするから、ベース層に割り当てることができる。例えば、72フレーム/秒にてベース層の一フレーム当り約0.5メガ画素と0.33メガ画素の間において、得られる画素速度は24〜36メガ画素/秒である。利用可能なビットをすべてベース層に適用すると、18.5メガビット/秒で一フレーム当り約0.5〜0.67×100万の追加のビットを提供し、このビットは、ストレスの多いマテリアルに対してさえ、非常に良好に符号化するのに充分であろう。
【0155】
より極端な場合、あらゆるフレームがノイズが多い及び/又はカットを起こすあらゆる少数フレームがある場合、ベース層の解像度がそれ以上損失することなく適切に縮退することができる。これは、時相強化層を符号化するBフレームを除くことによって行うことができ、その結果、ベース層のIフレームとPフレームに対して利用可能な帯域幅(ビット)すべてを36fpsで使用することができる。これは、各ベース層フレームに利用可能なデータの量を約1.0と約1.5メガビット/フレームの間に増やす(ベース層の解像度に応じて)。これは、やはり、極端にストレスの多い符号化条件下であっても、ベース層のかなり高い品質の解像度において、36fpsのかなり良好な動き表示(motion rendition)速度を生じる。しかしベース層の量子化器が、約18.5メガビット/秒下、36fpsで粗いレベルでまだ作動している場合、ベース層のフレーム速度は、動的に、24フレーム/秒、18フレーム/秒又は12フレーム/秒にまでも低下させることができ(あらゆるフレームに対し1.5と4メガビットの間が利用可能になる)、最も病的な移動画像のタイプでさえ処理できるであろう。このような環境下でフレーム速度を変える方法は当該技術分野で知られている。
【0156】
米国のアドバンスドテレビジョンに対する現在の提案は、これらの適切な縮退法を許容できないので、本発明のシステムと同じようには、ストレスの多いマテリアル対して良好に機能できない。
【0157】
大部分のMPEG−2符号器では、適応できる量子化レベルは、出力されるバッファフルネスによって制限される。本発明の解像度強化層に関連する高い圧縮比においては、この機構は最適には機能できない。各種の方法を利用して、最も適切な画像領域にデータを最適に割り当てることができる。概念的に最も簡単な方法は、解像度強化層の符号化のプレパス(pre-pass)を実施して、統計データを集め、かつ保存しなければならないディテールをさがし出すことである。前記プレパスから得た結果を利用して、適応性のある量子化を設定し、解像度強化層のディテールの保存を最適化することができる。これらの設定は、画像に対して不均一に、人工的にバイアスすることも可能であり、その結果、画像のディテールは、バイアスされて、主要スクリーン領域に、そしてフレームの端縁のマクロブロックからはなして割り当てられる。
【0158】
既存の復号器はこのような改良を保たずに良好に機能するので、強化層境界を高いフレーム速度で残すことを除いて、これらの調節はどれも不要である。しかし、このようなさらなる改良は、強化層符号器にわずかな追加の努力を行うことによって達成できる。
【0159】
結論
新しい共通の基本時相速度として36Hzを選ぶことが最適のようである。このフレーム速度を使用した実例は、このフレーム速度が、60Hzと72Hzの両方の表示器に対して、24Hzを超える有意な改良を行うことを示している。36Hzの画像は、72Hz画像捕獲からのすべての他のフレームを利用することによってつくることができる。これによって、36Hzのベース層(好ましくはPフレームを使用)と、36Hzの時相強化層(Bフレームを使用)とを結合して72Hzの表示器を達成できる。
【0160】
72Hzの「フューチャールッキング(future-looking)」速度は本発明の方法によって損われることはなく、60HzアナログNTSC表示器に対し移行できる。また、本発明は、考慮中の他の受動エンターテイメントだけ(コンピュータインコンパチブル)の60Hzフォーマットを許容できるならば、他の60Hz表示器へ移行できる。
【0161】
解像度のスケーラビリティは、解像度強化層に対し別のMPEG−2画像データ流を使用することによって達成することができる。解像度スケーラビリティはBフレーム法を利用して、ベース解像度層と強化解像度層の両者に時相スケーラビリティを提供することができる。
【0162】
ここに述べる発明は、多数の非常に望ましい特徴を達成する。解像度スケーラビリティ又は時相スケーラビリティは、地上放送で利用できる約18.5メガビット/秒にて、高精細度の解像度で達成できないと、米国アドバンスドテレビジョンプロセスの関係者が主張している。しかし本発明は、この利用可能なデータ速度内で、時相スケーラビリティと空間解像度スケーラビリティの両者を達成する。
【0163】
また、高フレーム速度の2メガ画素は、利用可能な18.5メガビット/秒のデータ速度ではインタレースを使用することなしで達成することができないと主張されている。しかし、本発明は、空間解像度と時相のスケーラビリティを達成するのみならず、72フレーム/秒で2メガ画素を提供することができる。
【0164】
これらの性能を提供するのに加えて、本発明は、特に、アドバンスドテレビジョンプロセスに対する現在の提案に比べて非常に堅牢でもある。これは、非常にストレスの多い画像マテリアルに遭遇したとき、大部分のビット又はすべてのビットをベース層に割り当てることによって可能になる。このようなストレスの多いマテリアルは、本来、ノイズが多くしかも非常に速く変化する。このような環境で、眼は、解像度の強化層に関連するディテールを見ることができない。前記ビットはベース層に適用されるので、その複製されるフレームは、単一で一定の高解像度を利用する、現在提案されているアドバンスドテレビジョンシステムより実質的に正確である。
【0165】
このように、本発明のシステムのこの側面は、知覚と符号化の効率を最適化し、最高の視感インパクトを与える。このシステムは、多くの人が不可能であると考えてきた解像度とフレーム速度の性能の非常に清浄な画像を提供する。本発明のシステムのこの側面は、現時点までに提案されているアドバンスドテレビジョンフォーマットより性能が優れていると考えられる。この予想される一層優れた性能に加えて、本発明は、時相と解像度の階層化という価値の高い特徴も提供する。
【0166】
上記考察では、その実施例に、MPEG−2を利用したが、本発明のこれらの及び他の側面は、他の圧縮システムを利用して実施することができる。例えば本発明は、MPEG−1、MPEG−2、MPEG−4、H.263などの圧縮システム(ウェイブレットなどの非DCTシステムを含む)のようなI、B、及びPのフレーム又はその均等物を提供する類似の標準によって作動する。
【0167】
階層化圧縮の強化
概要
上記実施態様のいくつかの強化を行って、ビデオ画質と圧縮の各種問題点を処理することができる。以下に、このような強化のいくつかを説明するが、これらの強化は大部分、好ましくは、画像を強化し次いでその画像を圧縮するタスクに適用できる一組のツールとして実施される。これらのツールは、コンテント・デベロッパ(content developer)によって各種の方式で所望どおりに結合されて、圧縮されたデータ流、特に階層化された圧縮データ流の視感画質と圧縮効率を最適化することができる。
【0168】
強化層の動きベクトルとグレイバイアス(gray bias)
解像度強化層を、MPEGタイプ(例えばMPEG−2、MPEG−4又はこれに匹敵するシステム)の圧縮を利用して符号化する通常の方法は、差分写真(difference picture)をグレイバイアスでバイアスする方法である。0=ブラックから255=ホワイトまでの通常の8ビット画素値の範囲内で、中間点の128が、グレイバイアス値として通常使用される。128より低い値は画像間の負の差を表し、そして128を超える値は画像間の正の差を表す(10ビットシステムの場合、グレイは512であり、他のビット範囲では0=ブラックおよび1023=ホワイトなどである)。
【0169】
該差分写真は、拡張され次いで復元されたベース層を、元の高解像度の画像から減算することによって見出される。これら差分写真のシーケンスが、次に正常のMPEGタイプ写真流として作動するフレームのMPEGタイプ差分写真流として符号化される。該グレイバイアス値は、各差分写真が、解像度が改良されるように別の画像(例えば、拡張された復号ベース層)に加えられるときに除かれる。
【0170】
ノイズを減らすのに有益なもう一つのソースは、前と次のフレームからの情報(すなわち時間的中央値、時相中央値)である。以下に述べるように、動き解析は、動く領域に対しては最良の整合を提供する。しかし、動き解析は計算集中的(compute intensive)である。画像の一領域が動いていないか又はゆっくり動いている場合、現行画素からのレッド値(及びグリーン値とブルー値)は、前のフレームと次のフレーム中の同じ画素位置のレッド値でフィルタされた中央値でよい。しかし、有意な動きがあってしかもかような時相フィルタが使用されると、異常なアーチファクトが起こることがある。したがって、しきい値を第一に選んで、このような中央値が、現行画素の値から、選択された大きさを超えて異なっているかどうかを確認することが好ましい。そのしきい値は上記デ−インタレース化のしきい値の場合とほぼ同様にして、下記のようにして計算することができる。
Rdiff=R_現行_画素 マイナス R_時相_中央値
Gdiff=G_現行_画素 マイナス G_時相_中央値
Bdiff=B_現行_画素 マイナス B_時相_中央値
しきい値処理値=abs(Rdiff+Gdiff+Bdiff)+abs(Rdiff)+abs(Gdiff)+abs(Bdiff)
【0171】
上記しきい値処理値を次にしきい値設定値と比較する。典型的なしきい値設定値は0.1〜0.3の範囲内であり、0.2が一般的である。そのしきい値より高ければ、現行値が保持される。そのしきい値より低ければ時間的中央値が使用される。
【0172】
追加の中央値のタイプは、X、Y及び時間的中央値から選択される中央値である。もう一つの中央値のタイプは、時間的中央値を選び、次にそれからのXとYの中央値の等平均値を選択する。
【0173】
各タイプの中央値は問題を起こすことがある。XとYの中央値は画像を不鮮明にし(smear)かつブラー(blur)させるので、画像は「グリーシー(greasy)」に見える。時間的中央値は、時間が経過するにつれて動きを不鮮明にする。各中央値は、問題をもたらししかも各中央値の特性が異なっているので(ある意味では「直交している(orthogonal)」)、各種の中央値を組み合わせることによって最良の結果が得られることが実験によって確認された。
【0174】
特に、中央値の好ましい組合せは、現行画像の各画素に対する値を決定する下記5項目の線形重み付け合計(線形ビデオプロセッシングに関する上記考察参照)である。
現画像の50%(したがって最大のノイズ低下は3db又は1/2である);
XとYの中央値の平均値の15%;
しきい値処理された時間的中央値の10%;
しきい値処理された時間的中央値のXとYの中央値の平均値の10%;
及び3ウェイのX、Y及び時間的中央値の15%。
【0175】
このように、ベース層は、高解像度で強化された画像より狭いか又は短い(又は両方)画像の大きさを表すことができる。その結果、該強化層は、実際の写真を含んでいるのみならず、拡張された復元ベース層(すなわち拡張されたベース領域1102)の大きさに対応するグレイでバイアスされた画像の差分写真を含んでいる。圧縮された強化層は標準のMPEGタイプの写真流として符号化されるので、端縁領域の実際の写真でありそして内部領域が差分写真であることは識別されず、両者符号化されて、フレームの同じ写真流でともにはこばれる。
【0176】
好ましい実施態様では、拡張された復元ベース層の大きさの外側の端縁領域は、通常の高解像度MPEGタイプ符号化流である。上記端縁領域は、高解像度写真の通常のMPEGタイプ符号化に対応する効率を有している。しかし、それは端縁領域であるから、差分写真領域内の動きベクトルは、境界領域(実際の写真情報を含む)を指向しないように拘束しなければならない。また、境界の実写真領域の動きベクトルは、内部差分写真領域を指向しないように拘束しなければならない。このように、境界の実写真領域の符号化と差分写真領域の符号化は当然分離される。
【0177】
上記のことは、原画像のすべての動きベクトルを見つけることによって達成できるが、動きベクトルを、内側の差分画像領域と外側境界の実写真領域の間の境界を横切らないように強制する。マクロブロックの境界が、該内側差分写真領域と外側境界の実写真領域との間の境界に入る場合、上記のことは最高に実施される。その外に、実写真の境界を有する差分写真端縁がマクロブロックの中央領域内にある場合、差分写真領域と実写真境界の間の遷移を達成するため符号化する際に追加のビットを使用する必要がある。したがって、マクロブロックの境界が、内側差分写真領域と外側境界の実写真領域の間の端縁と同じ端縁に存在している場合、最大の効率が得られる。
【0178】
これらのハイブリッド差−プラス−実写真画像−拡張強化層写真を、符号化中の量子化器や速度バッファ制御装置は、境界実写真領域の信号の大きさが、内側差分写真領域のそれより大きいことを識別するため特別に調節する必要があることに留意すべきである。
【0179】
境界実写真領域の大きさについてこの方法を使用する際、トレードオフがある。境界の伸長が小さい場合、全流れに比例するビットの数は小さいが、動きベクトルの数が整合しないのでその小面積の相対効率は低下する。というのは、この整合が該境界領域の端縁から外れているからである。これを調べるもう一つの方法は、辺/面積比(proportion of edge to area)が非常に小さい通常の画像長方形と異なり、境界領域が高い辺/面積比を有していることである。MPEG−2又はMPEG−4などの圧縮によって通常、符号化される、通常のディジタルビデオの典型的な内部長方形写真領域は、フレーム内の領域の大部分が、フレーム端縁の領域を除いて、通常、前のフレーム中に存在しているので、動きベクトルを見つけるとき、高い整合度を有している。例えば、パン上で、写真が現れるスクリーンの方向は、画像が各フレームに対してオフスクリーンから現れるので、一つの端縁に無から写真をつくらせねばならない。しかし、大部分の通常の写真長方形は前のフレームにおいてオンスクリーンであるので、動きベクトルを整合させることが最も多い。
【0180】
しかし、この本発明の境界伸長法を利用すると、該境界領域は、動きを補償する場合、前のフレーム中のオフスクリーンミスマッチ(off-screen mismatch)の比率が非常に高い。というのは、そのスクリーンの外側端縁と差分写真の内側端縁がともに、動きベクトルについて「制御対象外(out-of-bounds)」だからである。このように、効率がいくらか損失することは、ビット/画像面積(又は均等なビット/面積の尺度であるビット/画素もしくはビット/マクロブロック)として考察すると、この方法に固有のものである。したがって、境界領域が比較的小さいとき、この相対的非効率は、許容可能な全ビット速度の充分小さい部分である。境界が比較的大きい場合、同様に、効率が高くなり、その部分はやはり許容可能である。中位の大きさの境界はパン中にいくらか非効率になるが、この非効率は許容可能である。
【0181】
効率をこの技法を使用して回復させることができる一方法は、ベース層解像度/強化層解像度のより単純な比率、例えば3/2、4/3及び特に2という完全ファクター(exact factor)をより狭いベース層に使える方法である。2というファクターを使用すると、特に、ベース層と解像度強化層を使用して全体を符号化する際に有意な効率を得るのに役立つ。
【0182】
また、低解像度の画像はより狭いスクリーンに最も自然に使用できるが、高解像度の画像は、より大きく、幅が広く及び/又は高さが高いスクリーンでより自然に見ることができる。
【0183】
ベース層解像度画像に対して「パン(pan)と走査」を実施するのに対応して、内側差分写真領域を連続的に動かすか又は再配置することも可能である。そのとき、上部境界は動的なリポジション(dynamic re-position)と大きさと形態を有しているであろう。マクロブロックのアラインメントは、連続的パニングで通常失われるが、注意深くより大きな領域内にカット(cut)をアラインさせれば維持できる。しかし、最も単純で最も有効な構造は、完全なマクロブロックの境界上のベース層に対し内側差分写真の固定位置で心合せしたアラインメントである。
【0184】
画像のフィルタリング
ダウンサイジングフィルタとアップサイジングフィルタ
ベース層を高解像度の原写真からつくる際に使用されるダウンサイジングフィルタが、適度な負のローブ、及びこの負のローブに続く非常に小さい第一の正のローブの後で停止する大きさを有していると、最適であることを実験が示している。図12は、好ましいダウンサイジングフィルタの相対的形態、振幅及びロープの極性の線図である。このダウンフィルタは、中央の正のローブ1200、隣りの(挟んでいる)小さい負のローブ1202の対称及び隣りの(挟んでいる)非常に小さい外側の正のローブ1204の対称対の台形にされた中央重み付け関数である。これらローブ1200、1202、1204の絶対振幅は、図12に示す相対極性と相対振幅の不等相関関係が維持される限り、所望どおりに調節することができる。しかし、その相対振幅の優れた第一近似は、接頭sinc関数[sinc(x)=sin(x)/x]で定義される。このようなフィルタは別々に使用することができ、このことは、水平のデータ次元が独立してフィルタされ次にサイズ変更され次いで垂直のデータ次元が同様に処理され、また逆に処理されて、結果は同じであることを意味する。
【0185】
ベース層オリジナルを(ベース層圧縮に対する入力として)、低ノイズ高解像度オリジナル入力からつくるとき、好ましいダウンサイジングフィルタは、正規のsinc関数の振幅を有する第一負ローブを有している。清浄でかつ高解像度の入力画像の場合、この正規接頭sinc関数(normal truncated sinc function)は良好に働く。低解像度(例えば1280×720、1024×768又は1536×768)の場合、及びノイズの多い入力写真の場合、該フィルタの第一負ローブの振幅は小さくした方がより最適である。このような場合の適切な振幅は、接頭sinc関数の負ローブの振幅の約1/2である。第一負ローブの外側の小さい第一正ローブも、一般に正規sinc関数の振幅の1/2〜2/3である。第一負ローブを減らすことの影響は重要な問題点である。なぜならば、外側の小さい正のローブは写真のノイズに寄与しないからである。第一正ローブの外側のさらなる試料は好ましくは切り縮められて、リンギングなどの潜在的アーチファクトを最小限にする。
【0186】
ダウンフィルタのよりマイルドな負のローブ(milder negative lobe)又は完全なsinc関数振幅の負のローブを用いるかどうかの選択は、原画像の解像度とノイズのレベルによって決まる。いくつものタイプのシーンが他のシーンより符号化を行いやすい(主として動きの大きさと特定のショットの変化に関連している)ので、前記選択はいくぶん画像コンテントの関数である。負のローブを減らした「よりマイルドな」ダウンフィルタを使用することによって、ベース層のノイズが減少しかつベース層のより清浄でかつより静かな圧縮が達成され、その結果アーチファクトが少なくなる。
【0187】
また、実験は、最適のアップサイジングフィルタが、中央の正ローブと隣りの小さい負のローブを有しているがそれ以上に正のローブを有していないことも示した。図13Aと13Bは、ファクター2でアップサイズする好ましいアップサイジングフィルタ一対の相対形態、振幅及びローブ極性の線図である。中央の正のローブ1300、1300’は、一対の小さな負のローブ1302、1302’に挟まれている。非対称に配置された正のローブ1304、1304’も必要である。また、これらペアのアップフィルタも、新しくつくられた試料にセンタリングされた接頭sincフィルタと考えられる。例えば、ファクターが2のフィルタとして二つの新しい試料が各原試料に対してつくられる。隣りの小さい負のローブ1302、1302’は、対応するダウンサイジングフィルタ(図12)に使用される場合又は正常画像に対して最適の(サインベースの)アップサイジングフィルタに使う場合より小さい負の振幅をもっている。これはアップサイズされている画像が復元されるからであり、そして圧縮プロセスはスペクトル分布を変える。したがって、より適度の負のローブが、中央の正のローブ1300、1300’以外に追加の正のローブなしで、復元されたベース層をアップサイズするのにより良好に働く。
【0188】
実験は、わずかな負のローブ1302、1302’が、正だけのガウスアップフィルタ又はスプラインアップフィルタよりも良好な階層化の結果を提供することを示した(スプラインアップフィルタは負のローブをもつことがあるが、正だけの形態で使用されることが最も多いことに注目すべきである)。したがって、このアップライジングフィルタは、符号器及び復号器の両者のベース層に使用される。
【0189】
写真ディテールの高オクターブの重み付け
好ましい実施態様では、原非圧縮ベース層入力画像を拡張する信号経路が、上記アップフィルタではなくてガウスアップフィルタを使用する。特に、ガウスアップフィルタは、写真ディテールの「高オクターブ」に使用され、その「高オクターブ」は、拡張された原ベース解像度入力画像(圧縮を利用せず)を、原写真から減算することによって求められる。したがって、この特別のアップフィルタされた拡張に対して負のローブは全く使用されない。
【0190】
上記のように、MPEG−2の場合、この高オクターブ差の信号経路は一般に0.25(すなわち25%)重み付けされ、拡張された復元ベース層に(上記の他のアップフィルタを使用して)、強化層圧縮プロセスに入力として加えられる。しかし、実験は、10%、15%、20%、30%及び35%の重みが、MPEG−2を使う場合、特定の画像に有用であることを示した。他の重みも有用であることが立証できる。MPEG−4の場合、4〜8%のフィルタ重みは、下記の他の改良とともに利用されると最適であることが見出されている。したがって、この重み付けは、符号化システム、符号化/圧縮されるシーン、使用される特定のカメラ(又はフィルム)及び画像の解像度に応じて、調節可能なパラメータとみなすべきである。
【0191】
デ−インタレーシング(de-interlacing)及びノイズ低下の強化
概要
実験は、多くのデ−インタレーシングのアルゴリズムと装置は、ヒトの眼に対応して、フィールドを結合し受容可能な結果をつくることを示した。しかし、圧縮のアルゴリズムはヒトの眼ではないので、デ−インタレースされたフィールドの結合は、このようなアルゴリズムの特性を考慮しなければならない。このような注意深いデ−インタレースされた結合がないと、圧縮プロセスは、高レベルのノイズアーチファクトを生じ、画像の外観をアーチファクトでノイジーにかつビジィ(noisy and busy)にするのみならずビットを浪費する(圧縮を妨害する)。視聴する場合[例えばライン−ダブラー(line-doubler)及びライン−クワドラプラー(quadrupler)で]のデ−インタレーシングと、圧縮に対する入力としてのデ−インタレーシングの差異が下記の技法をもたらした。特に、下記のデ−インタレーシング法は、上記階層化MPEG式、圧縮のみならず単一層非インタレース化MPEG式圧縮に対する入力として有用である。
【0192】
さらにノイズの減少は、ノイズ出現を減らすこと以外に、圧縮アルゴリズムへの入力であるという要求に、同様に整合しなければならない。その目標は、一般に、復元時に、原カメラ又はフィルム粒子のノイズを越えるノイズを一般に再現しないことである。等しいノイズは一般に、圧縮/復元の後、受け入れ可能と考えられる。ノイズが減られて、オリジナルと等しい鮮鋭さと清浄度を有することはボーナス(bonus)である。下記のノイズ減少はこれらの目標を達成する。
【0193】
さらに、通常、光が少ない、例えば高感度フィルムから又は高いカメラ感度の設定で非常にノイズが多いショットの場合、ノイズ減少は、優れた外観の圧縮/復元された画像と見るに耐えないほどノイズの多い画像との差である。圧縮プロセスは、圧縮器に対する許容性(acceptability)のなんらかのしきい値を超えるノイズを大きく増大する。したがって、ノイズをこのしきい値より低く保つために、ノイズ減少のプリプロセッシングを利用することが、許容可能な良質の結果を得るために必要である。
【0194】
デ−グレイニングフィルタ(de-graining
filter)とノイズ減少フィルタ
階層化された符号化又は階層化されていない符号化を行う前にデ−グレイニングフィルタリング及び/又はノイズ減少フィルタリングを適用すると、圧縮システムが実行する性能が改良されるということが実験によって見出された。グレイン又はノイズの多い画像に対し、圧縮を行う前にデ−グレイニング又はノイズ減少を行うと最も効果的であるが、両方の方法は、比較的ノイズが低いが又はグレインが少ない写真に対してさえ適度に利用すると有用である。幾種類もの既知のデ−グレイニングアルゴリズム又はノイズ減少アルゴリズムを適用できる。その例は「コアリング(coring)」、単純隣接中央値フィルタ類及びソフトニングフィルタ類である。
【0195】
ノイズ減少が必要であるかどうかは、原画像がどれほどノイズが多いかによって決定される。インタレース化された原画像の場合、インタレース自体はノイズの一形態であり、そしてその原画像は、下記の複雑なデ−インタレーシングプロセスに加えて追加のノイズ減少フィルタリングが通常必要である。プログレッシングスキャン(インタレースなし)のカメラ又はフィルム画像の場合、ノイズプロセッシングは、ノイズが特定のレベルを超えて存在しているとき、階層化圧縮及び非階層化圧縮を行うのに有効である。
【0196】
異なるタイプのノイズがある。例えば、フィルムからのビデオトランスファーはフィルムグレインノイズを含んでいる。フィルムグレインノイズは、イエロー、シアン及びマゼンタのフィルム色素に結合している銀粒子によって生じる。イエローはレッドとグリーンの両者に影響し、シアンはブルーとグリーンの両者に影響し、そしてマゼンタはレッドとブルーの両者に影響する。レッドはイエロー色素とマゼンタ色素の結晶がオーバーラップした場所に生成する。同様に、グリーンはイエローとシアンのオーバーラップしたものでありそしてブルーはマゼンタとシアンのオーバーラップしたものである。したがって、カラー間のノイズは、カラーのペア間の色素と粒子によって、部分的に相関関係がある。さらに、多数の粒子が三色全体でオーバーラップすると、これら粒子は、画像のプリントのダーク領域で又は画像のライト領域のネガ上で(ネガ上のダーク)オーバーラップするので、追加の色混合が生じる。カラー間のこの相関関係は、フィルムのグレインノイズを減らすのに利用できるが複雑なプロセスである。さらに、多数の異なるフィルムのタイプが使用され、そして各タイプは、粒子の大きさ、形態及び統計的分布状態が異なっている。
【0197】
CCDセンサ及び他の(例えば管)センサカメラがつくるビデオ画像の場合、レッド、グリーン及びブルーのノイズは相関関係がない。この場合、レッド、グリーン及びブルーの記録を別々に処理することが最良である。したがって、レッドのノイズは、グリーンノイズとブルーノイズを、別々に、セルフレッド処理(self-red processing)することによって減らされ、同じ方法がグリーンノイズとブルーノイズに当てはまる。
【0198】
したがって、ノイズの処理は、ノイズ源自体の特性に最良に整合される。コンポジット画像(複数のソースからの)の場合、そのノイズが、画像の異なる部分では特性が異なることがある。この場合、ノイズ処理が必要なとき、汎用ノイズ処理(generic noise processing)が唯一の選択肢である。
【0199】
場合によっては、圧縮された階層化データ流を復号した後、有意義な作用として、「リ−グレイニング(re-graining)」又は「リ−ノイジング(re-noising)」を実行することが有用であることも見出された。というのは、一部のデーグレイン化又はデーノイズ化された画像が、外観が「清浄すぎる」か又は「迫力がなさすぎる(too sterile)」ことがあるからである。リ−グレイニング及び/又はリ−ノイジングは、幾種類もの既知のアルゴリズムのどれでも使用して、復号器で加える比較的容易な作用である。例えば、これは、適切な振幅の低域フィルタされたランダムノイズを加えることによって達成することができる。
【0200】
圧縮する前のデ−インタレーシング
上記のように、非インタレース化表示を最終的に意図している、インタレース化されたソースを圧縮する好ましい方法は、インタレース化されたソースを、圧縮ステップの前にデ−インタレース化するステップを含んでいる。信号を、受信器内で復号した後、デ−インタレースすることは(受信器内で該信号はインタレース化モードで圧縮されている)、圧縮前にデ−インタレース化され次いでインタレース化されていない圧縮信号を送るよりコストがかかりかつ効率が悪い。そのインタレース化されていない圧縮信号は、階層化されているか又は階層化されていなくても(すなわち通常の単一層圧縮でも)よい。
【0201】
インタレース化されたソースの単一フィールドをフィルタし次にそのフィールドを、あたかもインタレース化されていない完全フレームであるように使用すると、劣ったノイズの多い圧縮結果がもたらされることを、実験が示した。したがって、圧縮する前に、単一フィールドのデ−インタレーサを使うのは良い方法ではない。代わりに、実験は、前の、現行の及び次のフィールドフレームそれぞれに対し、[0.25、0.5、0.25]の重みをつけて、フィールド合成フレーム(「フィールド−フレーム」)を使用する3フィールドフレームデ−インタレーサ法が、圧縮に対して優れた入力を提供することを示した。3フィールドフレームの結合を、他の重みを利用して実施して(これらの重みは最適の重みであるが)、圧縮プロセスに対するデ−インタレース化された入力をつくることができる。
【0202】
好ましいデ−インタレースシステムでは、フィールドデ−インタレーサを、全プロセスの第一ステップとして使用してフィールドフレームをつくる。特に各フィールドは、デ−インタレース化されて合成フレームをつくり、その合成フレームには、フレーム中のラインの総数がフィールド中の半数のラインから誘導される。したがって、例えば、インタレース化された1080ラインの画像は偶数と奇数のフィールド当り540ラインを有し、各フィールドは1/60秒を表す。通常、540ラインからなる偶数と奇数のフィールドがインタレース化されて、各フレームに対して1080ラインずつつくる。そのフレームは1/30秒を表す。しかし、好ましい実施態様では、該インタレーサが、各走査線を、指定のフィールド(例えば奇数のフィールド)からの改変なしで、デ−インタレース化された結果のいくらかを保持するバッファに複写する。該フレームのための残りの中間走査線(この実施例では偶数の走査線)は、新しく記憶された各ラインの上方のフィールドラインの1/2及び新しく記憶された各ラインの下方のフィールドラインの1/2を加えることによって合成される。例えば、一フレームに対するライン2の画素値は各々、ライン1及びライン3各々からの対応する画素値を合計した画素値の1/2を含んでいる。中間合成走査線の作成は、フライ(fly)に対してなされるか、又は一フィールドからのすべての走査線がバッファに記憶された後に計算されてもよい。同じプロセスが次のフィールドにも繰り返されるが、そのフィールドのタイプ(すなわち、偶数、奇数)は逆である。
【0203】
図14Aは奇数フィールドデ−インタレーサのブロック図であり、奇数フィールド1400からの奇数ラインが、デ−インタレース化された奇数フィールド1402に単純に複写され、一方、偶数ラインが、原奇数フィールドからの隣接奇数ラインを平均することによってつくられて、デ−インタレース化奇数フィールド1402の偶数ラインが形成されることを示している。同様に図14Bは偶数フィールドデ−インタレーサのブロック図であり、偶数フィールド1404からの偶数ラインが、デ−インタレース化された偶数フィールド1406に単純に複写され、一方、奇数ラインが、原偶数フィールドからの隣接する偶数ラインを平均することによってつくられて、デ−インタレース化偶数1406の奇数ラインが形成されることを示している。この場合は「トップフィールドファースト」に相当し、また「ボトムフィールドファースト」は「偶数」フィールドと考えられることに留意すべきである。
【0204】
次のステップとして、一連のこれらデ−インタレース化フィールドを、3フィールドフレームデ−インタレーサへの入力として使用して最終のデ−インタレース化フレームがつくられる。図15は、各出力フレームの画素が、どのようにして、前のデ−インタレース化フィールド(フィールドフレーム)1502からの対応する画素の25%、現行のフィールドフレーム1504からの対応する画素の50%及び次のフィールドフレーム1506からの対応する画素の25%で構成されているかを示すブロック図である。
【0205】
そのとき、前記新しいデ−インタレース化フレームは、フレーム間のインタレース差のアーチファクトが、該フレームが構成されている3フィールドフレームよりはるかに少ない。しかし、前のフィールドフレームと次のフィールドフレームを、現行のフィールドフレームに加えることによる時相スミアリング(temporal smearing)がある。この時相スミアリングは、特にもたらされるデ−インタレース化の改良の見地から、通常、差し支えない。
【0206】
このデ−インタレース化法は、単一層(階層化されていない)又は階層化された単一層であろうとも、圧縮への入力として非常に有益である。またこのデ−インタレース化法は、提示、視聴又は静止フレームの製作のためのインタレース化ビデオの処理として、圧縮の利用とは独立して有益である。該デ−インタレース化法由来の写真は、インタレースを直接示すか又はデ−インタレース化フィールドを示すより「清浄」に見える。
【0207】
デ−インタレースのしきい値処理
先に考察したデ−インタレース3フィールド合計重み付け[0.25、0.5、0.25]は安定した画像を提供するが、一シーンの動く部分が時々軟調になるか又はエイリアシングアーチファクトを示すことがある。これに対抗するため、[0.25、0.5、0.25]時相フィルタの結果を、中央フィールドフレームだけの対応する画素値に対して比較するしきい値試験を適用できる。中央フィールドフレームの画素値が、3フィールドフレーム時相フィルタ由来の対応する画素の値と、指定のしきい値の大きさを超える差がある場合、中央フィールドフレームの画素値だけが使用される。このように、3フィールドフレーム時相フィルタ由来の画素は、画素値が、単一のデ−インタレース化中央フィールドフレームの対応する画素との差がしきい値の大きさより小さい場合に選択され、そしてその差がしきい値より大きい場合は、中央フィールドフレームの画素値が使用される。これによって、速い動きを、フィールド速度で追跡し、次いで画像のより平滑な部分をフィルタし、3フィールドフレーム時相フィルタで平滑化することができる。この組合せは、最適ではないにしても、圧縮に対する有効な入力であることが証明された。また、画像マテリアルをデ−インタレースすることは[表示と共同のラインダブリング(line doubling in conjunction
with display)と呼称されることもある]、直接視聴のための処理に対し非常に有効でもある。
【0208】
このようにしきい値を決定する好ましい実施態様では、中央(単一)デ−インタレース化フィールドフレーム画像と3フィールドフレームのデ−インタレース化画素から対応するRGBカラー値を求めるために下記式が使用される。
Rdiff=R_単一_フィールド_デ−インタレース化 マイナス R_3_フィールド_デ−インタレース化
Gdiff=G_単一_フィールド_デ−インタレース化 マイナス G_3_フィールド_デ−インタレース化
Bdiff=B_単一_フィールド_デ−インタレース化 マイナス B_3_フィールド_デ−インタレース化
しきい値処理値=abs(Rdiff+Gdiff+Bdiff)+abs(Rdiff)+abs(Gdiff)+abs(Bdiff)
【0209】
次に上記しきい値処理値をしきい値設定値と比較する。典型的なしきい値設定値は0.1〜0.3の範囲内にあり、0.2が最も一般的である。
【0210】
このしきい値からノイズを除くため、3フィールドフレームと単一フィールドフレームのデ−インタレース化写真のスムースフィルタリングを使用した後、それら写真を比較してしきい値処理することができる。このスムースフィルタリングは、ダウンフィルタリング(例えば、好ましくは上記ダウンフィルタを使用して2回ダウンフィルタする)し次にアップフィルタリングする(例えば、ガウスアップフィルタを2回使用する)ことによって達成することができる。この「ダウン−アップ」スムース化フィルタは、単一フィールドフレームデ−インタレース化写真と3フィールドフレームデ−インタレース化写真の両者に適用できる。次に、上記のスムース化された、単一フィールドフレーム写真と3フィールドフレーム写真を比較してしきい値処理値を計算し、次いでしきい値処理を行ってどちらの写真が各最終出力画素のソースであるかを確認することができる。
【0211】
特に、上記しきい値試験は、単一フィールドフレームデ−インタレース化写真か、単一フィールドフレームデ−インタレース化写真の3フィールドフレーム時相フィルタによる結合体を選択するスイッチとして使用される。その結果、この選択によって下記画像がもたらされる。すなわち画素が、その画像が単一フィールドフレーム画像との差が小さい(すなわちしきい値より小さい)領域における3フィールドフレームデ−インタレーサ由来の画素である画像、及び画素が、3フィールドフレームが単一フィールドフレームデ−インタレース化画素(スムース化後)との差が大きかった(すなわちしきい値より大きい)領域における単一フィールドフレーム画像由来の画素である画像がもたらされる。
【0212】
この方法は、単一フィールドファーストモーションディテールを維持し(単一フィールドフレームデ−インタレース化画素にスイッチすることによって)しかもその画像の大きな部分をスムース化する(3フィールドフレームデ−インタレース化時相フィルタ結合にスイッチすることによって)のに有効であることを証明した。
【0213】
単一フィールドフレームデ−インタレース化画像か3フィールドフレームデ−インタレース化画像の選択を行うことに加えて、単一フィールドフレーム画像を少し、3フィールドフレームデ−インタレース化写真に加えて、単一フィールド写真の全画像にわたる即時性をいくらか維持することも有益なことが多い。この即時性は、3フィールドフレームフィルタの時相スムースネスと釣り合いがとられている。一般的なブレンディングは、33.33%(1/3)の単一中央フィールドフレームを66.67%(2/3)の対応する3フィールドフレームスムース化画像に加えることによって新しいフレームをつくるブレンディングである。これは、どちらであっても結果は同じなので、しきい値切換えの前後に行うことができ、スムース化された3フィールドフレーム写真に影響するだけである。これは、原3フィールドフレームの重み「0.25、0.5、0.25」以外の異なる比率の3フィールドフレームを使用することに事実上等しいことに注目すべきである。「0.25、0.5、0.25」の2/3プラス(0、1、0)の1/3を計算すると、[0.1667、0.6666、0.1667]が3フィールドフレームの時相フィルタとして得られる。より重く重み付けられた中央(現行)フィールドフレームは、しきい値の値より低くなったスムース化領域でさえ、追加の即時性を結果にもたらす。この組合せは、シーンの動く部分に対するデ−インタレース化プロセスにおいて時相スムースネスを即時性と釣り合わせるのに有効であることを証明した。
【0214】
線形フィルタの使用
ビデオ写真を含む和(sum)、フィルタ又はマトリックスは、ビデオ内の画素値が非線形信号であることを考慮しなければならない。例えば、HDTVのビデオカーブは係数及びファクターがいくらか変化していてもよいが、一般的な式は国際CCIRXA−11(現在はRec.709と呼ばれている)である。
V=1.0993*L0.45−0.0993 L>0.018051の場合
V=4.5*L L≦0.018051の場合
上記式中、Vはビデオ値であり、そしてLは線形ライトルミナンスである。
【0215】
これらの変化は、しきい値(0.018051)を少し調節し、ファクター(4.5)を少し調節し(例えば4.0)そしてべき指数(0.45)を少し調節する(例えば0.4)。しかし、基本式は同じままである。
【0216】
RGBとYUVの間の変換などのマトリックスオペレーションは線形値を示唆している。MPEGが一般に、ビデオの非線形値を、それらの値があたかも線形であるように使用することから、ルミナンス(luminance)(Y)とカラー値(UとV)の間の漏洩が起こる。この漏洩は圧縮の効率を阻害する。対数表現を、例えばフィルム密度の単位で使用するように使うと、この問題が大きく修正される。各種タイプのMPEG符号化は、信号の非線形アスペクトに対してニュートラルであるが、その効率は、RGBとYUV間のマトリックス変換を利用することによって達成される。YUV(U=R−Y、V=B−Y)は、0.59Gプラス0.29Rプラス0.12Bの線形化合計(又はこれら係数のわずかの変化)として計算されたYを含んでいなければならない。しかし、U(=R−Y)は、ルミナンスに直交している対数空間のR/Yに等しくなる。したがってシェードされたオレンジボール(orange ball)は、対数表現のU(=R−Y)パラメータを変えない。ブライトネスの変化は、完全なディテールが提供される場合、ルミナンスパラメータに完全に表される。
【0217】
線形対対数対ビデオの問題点はフィルタリングに強い影響を与える。注目すべきキーポイントは、小さい信号の変動(例えば10%以下)は、非線形ビデオ信号が、あたかも線形信号であるように処理されるとき、ほぼ修正されることである。これは、スムースビデオ−ツー−フロム−線形変換カーブ(smooth video-to-from-linear conversion curve)に対する区分的線形近似が妥当であるからである。しかし、変動が大きい場合、線形フィルタの方がはるかに有効であり、はるかに良好な画質が得られる。したがって、大きな変動が最適に符号化され、変換され又は他の方法で処理されることになっている場合、線形フィルタを利用できるように、第一に非線形信号を線形信号に変換することが望ましい。
【0218】
それ故、デ−インタレース化は、各フィルタと加算ステップが、フィルタリング又は加算を行う前に、線形値への変換を利用するとき非常に優れている。これは、大きな信号変動が画像の小さなディテールにおけるインタレース化信号に固有なものだからである。その画像信号は、フィルタリングの後、非線形ビデオディジタル表現に変換して戻される。したがって、3フィールドフレーム重み付け(例えば[0.25、0.5、0.25]又は[0.1667、0.6666、0.1667])を、線形化ビデオ信号に実施しなければならない。ノイズとデ−インタレースフィルタリングにおけるパーシャルターム(partial term)の他のフィルタリングと重み付けの和も、計算を行うため線形に変換しなければならない。どのオペレーションが線形処理を保証するかは、信号の変動とフィルタリングのタイプによって決定される。画像のシャープニングは、セルフ−プロポーショナル(self-proportional)であるから、ビデオ又は対数非線形の表現で適切に計算することができる。しかし、マトリックスプロセッシング、空間フィルタリング、重み付け合計及びデ−インタレースプロセッシングは、線形化されたディジタル値を使用して計算しなければならない。
【0219】
単純な一実施例として、上記の単一フィールドフレームデ−インタレーサは、実際のライン各々の上と下のラインを平均することによって、ミッシング代替ライン(missing alternate line)を計算する。この平均操作は、線形で行われると、数字的にかつ視覚的に極めて正しい。したがって、上のラインの0.5倍と下のラインの0.5倍を合計する代わりに、そのディジタル値が第一に線形化され、次に平均され次いで非線形ビデオ表現に再度変換されて戻される。
【0220】
2/3ベース層に基づいた階層化モード
1280×720強化層は864×480ベース層を利用できる(すなわち、強化層とベース層の間の2/3の関係)。図16はこのようなモードのブロック図である。1280×720の原画像1600は、1296×720パッド(pad)され(16の整数倍であるように)次に2/3倍ダウンサイズして864×480画像1602とする(やはり16の整数倍)。そのダウンサイジングは、好ましくは、正規フィルタ(normal filter)又はマイルドな負のローブを有するフィルタを使用する。上記のように、このダウンサイズされた画像1602は、第一符号器1604(例えば、MPEG−2符号器又はMPEG−4符号器)に入力されて、ベース層として直接符号化することができる。
【0221】
強化層を符号化するため、ベース層を3/2倍アップサイズして(拡張し次いでアップフィルタして)1296×720中間フレーム1606にする。上記アップフィルタは好ましくはマイルドな負のローブを有している。この中間フレーム1606は現画像1600から減算される。同時に、864×480画像1602が3/2倍アップフィルタされて(好ましくはガウスフィルタを使用して)1280×720になり次に原画像1600から減算される。その結果に重み付けして(例えば、MPEG−2の場合25%重み付け)、次に、原画像1600から中間フレーム1606を減算した結果に加算される。このようにして得られた合計をクロップ(crop)して大きさを小さくし(例えば1152×688)次に端縁をフェザーして(feather)、プレ圧縮強化層フレーム1608が得られる。このプレ圧縮強化層フレーム1608を、第二符号器1610(例えばMPEG−2又はMPEG−4の符号器)に入力して、強化層として符号化する。
【0222】
18.5メガビット/秒におけるその効率と品質は、この配置構成を利用する「単一」階層化(すなわち非階層化)システムと階層化システムではほぼ同じである。強化層とベース層の間の2/3倍の関係の効率は2倍の場合ほど優れていない。というのは、ベース層と強化層の間のDCT係数は直交性が低い。しかし、この構造は実用的であり、高品質のベース層(より安価に復号する)を提供する利点がある。これは、低解像度が特定の表示器によって提供できるすべてである場合、高解像度写真全体を復号しなければならない(より高いコストで)単一階層化配置構成を超える改良である。
【0223】
また、上記階層化配置構成は、強化サブ領域が調節可能であるという利点もある。したがって、効率は、強化層の大きさ、及びベース層と強化層に割り当てられた全ビット速度のベース層ビット速度/強化層ビット速度の比率を調節することによって制御することができる。上記強化層の大きさとビット速度比率を調節して、特に高いストレス(速い動き又は多数のシーンの変化)下での圧縮性能を最適化することができる。例えば、上記のように、極端のストレス下では、すべてのビットをベース層に割り当てることができる。
【0224】
強化層とベース層の間の好都合な解像度の関係は、1/2、2/3というファクター及び他の単分数(例えば1/3、3/4)の関係である。強化層とベース層の間の関係に対して、スキーズ(squeeze)を適用することも有用である。例えば、2048×1024のソース写真は1536×512のベース層を有していてもよく、そのベース層は、ソース画像に対して3/4の水平関係と1/2の垂直関係を有している。これは最適でないが(2のファクターが水平と垂直の関係の両者に対して最適である)、原理を示している。水平関係と垂直関係の両方に2/3を使用すると、垂直方向に2のファクター及び水平方向に2/3のファクターを利用することによって、いくつかの解像度を改善することができる。あるいは、いくつかの解像度は、垂直方向に2/3のファクターを用い水平方向に1/2のファクターを利用することがより最適である。したがって、1/2、2/3、3/4、1/3などの単分数は、水平と垂直の解像度の関係に独立して適用することができ、関係の多数の可能な組合せを行うことができる。したがって、強化層とベース層及びその入力解像度との関係のみならず、完全入力解像度とベース層の解像度の関係によって、このような分数の関係を使用する場合に完全な融通性が可能になる。このような解像度の関係の特に有用な組合せは、どの標準の一部として採用されても、圧縮「強化モード」番号を割り当てることができる。
【0225】
中央値フィルタ
ノイズを処理するのに最も有用なフィルタは中央値フィルタである。3要素中央値フィルタが、三つのエントリーの順位付けを、単純なソート(simple sort)によって行い、次に中央のエントリーをピック(pick)する。例えば、X(水平)中央値フィルタが、三つの隣接する水平画素のレッド値(又はグリーン値又はブルー値)を調べて、真ん中の値を有する画素をピックする。二つが同じであればその値を選ぶ。同様に、Yフィルタが現行画素の上と下の走査ラインで調べてやはり中央値をピックする。
【0226】
XとYの中央値フィルタの両者を適用することから得た結果を平均して、新しいノイズ減少成分写真をつくることが有用であることが実験で確認された[すなわち、新しい画素は各々、原画像からの対応する画素のXとYの中央値の50%等平均値(50% equal average)である]。
【0227】
XとY(水平と垂直)の中央値に加えて、斜め中央値などの他の中央値を採用することも可能である。しかし、垂直及び水平の画素値は、物理的に、どの特定の画素に対しても最も近い値なので、斜め中央値より、誤差又はひずみを起こす可能性が低い。しかし、このような他の中央値は、垂直と水平の中央値だけを使用することによってノイズを減らすことが困難な場合にはやはり利用することができる。
【0228】
ノイズを減らすのに有益なもう一つのソースは、前と次のフレームからの情報(すなわち時相中央値)である。以下に述べるように、動き解析は、動く領域に対しては最良の整合を提供する。しかし、動き解析は計算集中的(compute intensive)である。画像の一領域が動いていないか又はゆっくり動いている場合、現行画素からのレッド値(及びグリーン値とブルー値)は、前のフレームと次のフレーム中の同じ画素位置のレッド値でフィルタされた中央値でよい。しかし、有意な動きがあってしかもかような時相フィルタが使用されると、異常なアーチファクトが起こることがある。したがって、しきい値を第一に選んで、このような中央値が、現行画素の値から、選択された大きさを超えて異なっているかどうかを確認することが好ましい。そのしきい値は上記デ−インタレース化のしきい値の場合とほぼ同様にして、下記のようにして計算することができる。
Rdiff=R_現行_画素 マイナス R_時相_中央値
Gdiff=G_現行_画素 マイナス G_時相_中央値
Bdiff=B_現行_画素 マイナス B_時相_中央値
しきい値処理値=abs(Rdiff+Gdiff+Bdiff)+abs(Rdiff)+abs(Gdiff)+abs(Bdiff)
【0229】
上記しきい値処理値を次にしきい値設定値と比較する。典型的なしきい値設定値は0.1〜0.3の範囲内であり、0.2が一般的である。そのしきい値より高ければ、現行値が保持される。そのしきい値より低ければ時相中央値が使用される。
【0230】
追加の中央値のタイプは、X、Y及び時相の中央値から選択される中央値である。もう一つの中央値のタイプは、時相中央値を選び、次にそれからのXとYの中央値の等平均値を選択する。
【0231】
各タイプの中央値は問題を起こすことがある。XとYの中央値は画像を不鮮明にし(smear)かつブラー(blur)させるので、画像は「グリーシー(greasy)」に見える。時相中央値は、時間が経過するにつれて動きを不鮮明にする。各中央値は、問題をもたらししかも各中央値の特性が異なっているので(ある意味では「直交している(orthogonal)」)、各種の中央値を組み合わせることによって最良の結果が得られることが実験によって確認された。
【0232】
特に、中央値の好ましい組合せは、現行画像の各画素に対する値を決定する下記5項目の線形重み付け合計(線形ビデオプロセッシングに関する上記考察参照)である。
現画像の50%(したがって最大のノイズ低下は3db又は1/2である);
XとYの中央値の平均値の15%;
しきい値処理された時相中央値の10%;
しきい値処理された時相中央値のXとYの中央値の平均値の10%;
及び3ウェイのX、Y及び時相中央値の15%。
【0233】
時間中央値のこの組合せは、画像と「グリーシー」に又はブラーしているように見せたり、動く物体の時相不鮮明又はディテールの損失を起こすことなく、画像のノイズを減らす合理的な働きをする。これら5項目のもう一つの有用な重み付けはそれぞれ35%、20%、22.5%、10%及び12.5%である。
【0234】
その上に、下記のように、中央重み付け時相フィルタを、動き補償nxn領域に適用することによって、動き補償を適用することが有用である。これら、中央値をフィルタされた画像の結果(前記5項目の)に加えられさらに画像を平滑化することができ、動く画像領域に、より優れた平滑化とディテールが提供される。
【0235】
動き解析
「その場での(in
place)」時相フィルタリング(ゆっくり動くディテールを平滑化するのに優れた働きをする)に加えて、デ−インタレース化とノイズ減少も動き解析を利用して改善することができる。3フィールド又は3フレームの同じ位置に画素を加えることは、静止物体の場合、有効である。しかし、動いている物体の場合、時相の平均/平滑化が望ましい場合、小グループの画素にわたる主だった動きの解析を試みることがより最適であることが多い。例えば、画素のnxnブロック(例えば2×2、3×3、4×4、6×6又は8×8)を使用して、前と次のフィールド又はフレームをサーチし、整合を見つけることができる(同じ方式で、MPEG−2の動きベクトルが、16×16マクロブロックを整合することによって見つけ出される)。最良の整合が1又は2以上の前の及び次のフレーム中に一度見つけられると、「軌道(trajectory)」と「動くミニ写真」を確認できる。インタレース化フィールドの場合、しきい値処理された上記デ−インタレース化プロセスの結果を利用して推測された動くミニ写真を計算することのみならず比較結果を解析することが最良である。このプロセスは、速く動くディテールをゆっくり動くディテールからすでに分離しかつそのゆっくり動くディテールをすでに平滑化しているので、写真の比較と再構成は、個々のデ−インタレース化フィールド以上に適用可能である。
【0236】
動き解析は、好ましくは、現行のしきい値処理されたデ−インタレース化画像のnxnブロックを、前と次の1又は2以上のフレーム中の隣接するすべてのブロックと比較することによって実施される。その比較は、nxnブロックのルミナンス又はRGBの差の絶対値でもよい。一つのフレームは、その動きベクトルがほぼ等しくて逆方向であれば、充分に順方向と逆方向を向いている。しかし、動きベクトルがほぼ等しくて逆方向でない場合は、追加の順方向と逆方向の1又は2以上のフレームが実際の軌道を決定するのに役立てることができる。さらに、異なるインタレース化処理が、順方向と逆方向の「最良推測(best guess)」の動きベクトルの決定に役立てるのに有用である。一つのデ−インタレース化処理は個々のデ−インタレース化フィールドだけを使用する処理であるが、これは小さな動くディテールにエイリアシングとアーチファクトをひどく起こしやすい。もう一つのデ−インタレース化法は、フィールドフレームスムースデ−インタレース化だけを、しきい値処理を行わずに、上記の重み付け[0.25、0.5、0.25]をして使用する方法である。ディテールは平滑化されて時には失われるが、軌道はより正確になることが多い。
【0237】
一旦軌道が見つけられると、「平滑化されたnxnブロック」を、1(又は2以上)の前のフレームと次のフレーム由来の動きベクトルオフセット画素を使用して時間的にフィルタすることによってつくることができる。典型的なフィルタは、3フレームに対してはやはり[0.25、0.5、0.25]又は[0.1667、0.6666、0.1667]であり、そして二つの逆方向と順方向のフレームに対しては恐らく[0.1、0.2、0.4、0.2、0.1]である。中央の重みが小さい他のフィルタも有用であり、特にブロックの大きさが一層小さい(例えば2×2、3×3及び4×4)ものが有用である。フレーム間の整合の信頼性は絶対値の差で示される。大きな最小絶対差を使用して、該フィルタのより大きい中央重みを選択することができる。絶対差の値が小さいことは、良好な整合を示唆しているので、これを利用してより小さい中央重みを選択して、重さ補償ブロックのいくつものフレームの一スパンにわたって平均値をより均一に分布させることができる。
【0238】
これらフィルタの重みは、上記の個々のデ−インタレース化動き補償フィールドフレーム;しきい値処理された3フィールドフレームデ−インタレース化写真;及びしきい値処理されていない3フィールドフレームデ−インタレース化画像に、上記のような[0.25、0.5、0.25]の重み付けで適用することができる。しかし、最良のフィルタ重みは通常、動き補償ブロック線形フィルタリングを、上記しきい値処理された3フィールドフレームの結果に適用することに由来している。これは、しきい値処理された3フィールドフレーム画素が、最も動き反応性が高い[しきい値を超える単一デ−インタレース化フィールドフレームにはジフォールト(default)することによって]のみならず最高に平滑である(平滑領域のエイリアシングを除くことによって)からである。したがって、動き解析から得た動きベクトルは、マルチフレームフィルタ又はマルチデ−インタレース化フィールドフレームフィルタ又は単一デ−インタレース化フィールドフレームフィルタ又はその組合せに対する入力として使用できる。しかし、そのしきい値処理されたマルチフィールドフレームデ−インタレース化画像は、ほとんどの場合、最良のフィルタ入力を形成する。
【0239】
動き解析を利用する場合、速い動きが見出されると(例えば±32画素)、サーチ領域が大きいため、計算費用が高価になる。したがって、専用ハードウェア又はディジタル信号プロセッサ利用コンピュータを用いることによって速度を増大することが最良である。
【0240】
一旦、動きベクトルがそれらの絶対差の測定精度とともに見つけられると、その動きベクトルは、フレーム速度の変換を試みる複雑な方法に利用できる。しかし、遮蔽(occlusion)の問題(他のものをおおいかくすか又は暴露する物体)は、整合を混乱させて、正確にかつ自動的には推測できない。また遮蔽は、通常の画像時相アンダーサンプリング及び画像の固有周波数を有するそのビート(例えば映画の「逆転ワゴンホイール」効果)のような時相エイリアシングも伴う。これらの問題は、既知の演算法によって解明できないことが多いので、今までヒトの手助けを必要としている。したがって、ヒトによる精査や調節は、リアルタイムの自動処理が必要でない場合、オフラインと非リアルタイムのフレーム速度変換及び他の類似の時相のプロセスに利用できる。
【0241】
デ−インタレース化は同じ課題の単純な一形態である。フレーム速度変換の場合と同様に、デ−インタレース化のタスクは、完全に実施することは理論的に不可能である。これは、特に、時相アンダーサンプリング(閉じたシャッター)と不適当な時相サンプルフィルタ(すなわちボックスフィルタ)が原因である。しかし、正しい試料の場合でさえ、遮蔽やインタレースなどのエイリアシングの問題が、正しい結果を得ることが論理的に不可能であることをさらに保証する。このことが見える症例は、該問題に適用される、ここに記載のツールデプス(depth)によって軽減される。病理症例は、リアル画像シーケンス中に常に存在している。その目標は、このようなシーケンスに遭遇したときに病気の悪化の頻度とレベルと減らすことだけである。しかし多くの場合、デ−インタレース化プロセスは、受け入れ可能に完全に自動化することができ、そしてリアルタイムで反復されることなく作動できる。それにしても、手動調節によって利益をうけることが多い多くのパラメータがある。
【0242】
高周波数のフィルタによる平滑化
中央値フィルタリングに加えて、高周波数のディテールを減らしても高周波数ノイズが減少する。しかしこの平滑化は、鮮鋭度とディテールが損失するという犠牲を払って得られる。したがってこのような平滑化はごくわずかの方が一般に有用である。平滑化を起こすフィルタは、デ−インタレース化の場合のしきい値と同様に、通常フィルタ(例えば台形サインフィルタ)でダウンフィルタし次にガウスフィルタでアップフィルタすることによって容易につくることができる。結果は、高周波数写真のディテールを欠いているので平滑化される。このような項目(term)が加えられる場合、その項目は、わずかな量のノイズを減らすためには、ごく少量例えば5〜10%でなければならない。大量になると、ブラー効果が一般にかなり目視可能になる。
【0243】
ベース層のノイズフィルタリング
原画像に対する上記中央値フィルタリングのフィルタパラメータは、画像を捕獲するフィルム粒子又は画像センサのノイズ特性に整合されねばならない。この中央値をフィルタされた画像は、ダウンフィルタされて、ベース層圧縮プロセスへの入力を生成した後、その画像はまだ少量のノイズを含んでいる。このノイズは、別のX−Y中央値フィルタ(XとYの中央値を等しく平均する)プラスごく少量の高周波数平滑化フィルタを組み合わすことによって、さらに減らすことができる。ベース層の各画素に加えられる、これら3項目の好ましいフィルタ重み付けは次の通りである。
原ベース層の70%(中央値をフィルタされた上記原画像からダウンフィルタされた);
XとYの中央値の平均値の22.5%;及び
ダウンアップ平滑化フィルタの7.5%。
【0244】
ベース層のこの少量の追加のフィルタリングは、ノイズを少量減らしかつ安定性を改善して、より優れたMPEG符号化をもたらしかつこのような符号化によって加えられるノイズの量を制限する。
【0245】
MPEG−2とMPEG−4で動き補償を行うため負のローブを有するフィルタ
MPEG−4には、最良の動きベクトルの整合を見つけたとき、マクロブロックをシフトし次にその整合された領域を使って動き補償するための基準フィルタが設けられている。MPEG−4ビデオ符号化は、MPEG−2と同様に、マクロブロックに対し、動きベクトルの1/2画素の解像度を保持する。またMPEG−4は、MPEG−2と異なり、1/4画素の精度を保持する。しかし、MPEG−4の基準装備において使用されるフィルタは最善の水準に次ぐフィルタである。MPEG−2において、画素間の途中点(half-way point)はこれら二つの隣り同士の画素の平均値であり、最善の水準に次ぐボックスフィルタである。MPEG−4において、このフィルタは、1/2画素解像度に用いられる。1/4画素解像度がMPEG−4バージョン2に呼び出されると、負のローブを有するフィルタが途中点に対して使用されるが、この結果を有する次善のボックスフィルタと隣り同士の画素が1/4と3/4の点に使用される。
【0246】
さらに、基準色チャネル(chrominance
channel)(U=R−Y及びV=B−Y)は、MPEG−4下の動き補償ステップでサブ画素解像度を利用しない。ルミナンスチャネル(Y)は1/2又は1/4の画素の解像度を有しているから、1/2解像度の基準色のUとVのチャネルは、ルミナンスの1/2画素に対応して、1/4画素解像度のフィルタを使ってサンプリングしなければならない。1/4画素の解像度がルミナンスに対して選択されるとき、1/8画素の解像度をUとVの基準色に使用しなければならない。
【0247】
ルミナンスに1/4画素の解像度を実行するとき、1/4、1/2及び3/4の画素点をフィルタするのに負のローブの接頭sinc関数を使用することによって(上記のように)、及び1/2画素ポジションをつくるフィルタに対して1/2画素の解像度を実行するとき類似の負のローブを使用することによって、フィルタリングの効果が有意に改善されることを、実験が示した。
【0248】
1/4画素のルミナンス解像度を使用するとき、UとVのクロミナンスに対し1/8画素点をフィルタするため負のローブの接頭sinc関数を使用することによって、及び1/2画素のルミナンス解像度を使用するとき、類似の負ローブフィルタを有する1/4画素解像度フィルタを使用することによって、同様に、フィルタリングの効果が有意に改善される。
【0249】
1/4画素の動きベクトルを接頭sinc動き補償変位フィルタリング(truncated sine motion
compensated displacement filtering)と組み合わせると、写真の画質が大きく改善されることが発見された。特に清浄性が改善され、ノイズとアーチファクトが減少し、そして彩度のディテール(chroma detail)が増大する。
【0250】
これらのフィルタは、MPEG−1、MPEG−2、MPEG−4、又は他の適切な動き補償ブロックベースの画像符号化システムによって、ビデオ画像に適用できる。
【0251】
画像形成装置の特性決定と修正
特定のプログレッシブスキャン(非インタレース化)カメラを扱う際に、特定のカメラに特異的なプレプロセッシングを、圧縮(階層化又は非階層化)の前に適用することが非常に望ましいことが実験で確認された。例えば、一つのカメラのタイプに、レッドとグリーンに対するセンサ間の一画素の1/3及びグリーンとブルーのセンサ間の別の1/3画素(レッドとブルーの間の2/3画素)の機械的水平方向の調整不良(mechanical horizontal misalignment)がある。これによって、小さい垂直ディテールのまわりにカラーフリンジが起こる。これらのカラーフリンジは、原画像では眼に見えないが、圧縮/復元プロセスで、非常によく眼に見えるようになり望ましくないカラーノイズを生成する。この一つのカメラタイプに特異的なプレプロセス(pre-process)がこのカラー変位を修正して、カラーアーチファクトがない圧縮に対する入力をもたらす。したがって、眼に見えないが、カメラやそのセンサの特性のこのような小さいニュアンスは、最終の圧縮され/復元された結果の許容性と品質に対して重要になる。
【0252】
したがって、「眼が見るもの」と、「コンプレッサが見るもの」を識別することが有用である。この識別を有利に利用して、圧縮され/復元された画像の画質を大きく改善するプレプロセッシングステップが発見された。
【0253】
したがって、圧縮/復元システムに対する入力をつくる際に使用される各個々の電子カメラ、各カメラタイプ、各フィルムタイプ及び各個々のフィルムスキャナ及びスキャナタイプは、カラーアラインメント(color alignment)及びノイズ(ビデオカメラとスキャナに対する電子ノイズとフィルムに対する粒子)によって、個々に特性を決定しなければならない。画像がつくられる情報、特定の性質の表及び装置の各部品の特定の設定は原画像によって運ばれ、次いで、圧縮される前にプロプロセッシングで使用されねばならない。
【0254】
例えば、特定のカメラはカラーリアラインメント(color realignment)を必要とすることがある。また特定のカメラは中位のノイズ設定で設定されることもある(必要なノイズプロセッシングの大きさに実質的に影響する)。これらカメラの設定と固有のカメラ特性は、そのカメラからの各ショットにそって補助情報としてはこばれねばならない。次に、この情報を利用して、プレプロセッシングのタイプ及びプレプロセスのためのパラメータの設定を制御することができる。
【0255】
多数のカメラから編集されるかまたは多数のカメラ及び/又はフィルム源から復号される画像の場合、そのプレプロセッシングは、恐らく、このような編集や組合せを行う前に実施すべきである。このようなプレプロセッシングは、画像の質を低下させてはならず、眼に見えないが圧縮の質には大きな影響を与える。
【0256】
特定の圧縮システムに入力すべき画像をつくるために使用される非フィルム画像形成システム(例えば電子カメラとフィルムスキャナ)に対しかような特性決定を実施し使用する一般的な方法は次のとおりである。
(1)解像試験チャートの画像をつくり、次いでカラーペア(例えばRG、RB、GB)によって、好ましくは画素単位で表現して、画素センサの水平と垂直のカラーアラインメント(フィルムの場合は粒子)を測定する。
(2)1又は2以上のモノクロム試験チャートの画像をつくり、次いでセンサが個々に、好ましくはレッド、グリーン及びブルーの画素値として表現されたセットとして(例えばホワイトカード、黒カード、50%と18%のグレイカード並びにレッド、グリーン及びブルーの各基準カードの画像をつくることによる)発生したノイズを測定する。そのノイズが、他のカラーチャネルからの出力の変化及び隣接する画素を比較することによって、相互に関連しているかどうかを決定する。
(3)正確に調整された装置によってつくられた正確な情報を画像とともに選ぶ(例えば電子伝送、機械可続媒体への記憶又は画像に付随するヒト可続データによって)。
(4)画像形成システムからの画像を圧縮プロセスで使用する前に、画素を、カラーによって、等しいオフセット量によって翻訳して、測定されたミスアラインメントを修正する。例えば、レッドセンサがブルーセンサより0.25画素低くミスアラインされていれば、画像中のすべてのレッド画素は、0.25画素だけ上方へシフトさせねばならない。同様に、ノイズの測定量に基づいて、ノイズ減少フィルタの重みを、測定ノイズの量を補償する量だけ調節する(これは、経験で確認し、そして手作業によるか又は計算された参照表に定義する必要がある)。
【0257】
特定の圧縮システム中の入力すべき画像をつくるのに使用されるフィルム画像形成システムに対し、このような特性決定を実施し使用する一般的方法は次の通りである。
(1)フィルムのタイプを決定する(粒子はフィルムのタイプによって変化する)。
(2)そのフィルムを、各種の照明条件下で、1又は2以上のモノクロム試験チャートに露出する(ノイズは一部分、露出の関数である)。
(3)フィルムを通常の速度でフィルムスキャナによって走査し(このフィルムスキャナの特性は上記のようにして測定する)次に発生したノイズをセンサによって、個々にセットとして測定する。そのノイズが相互に関連しているかどうかを決定する。
(4)同タイプのフィルムが露出されて正確に調整されたスキャナで走査されるといつでも、その確認され測定された情報(すなわち、フィルムのタイプ、露出条件、走査特性)を、走査されるフィルム画像とともに運ぶ。
(5)このような画像を圧縮プロセスで使用する前に、ノイズ減少フィルタの重みを、測定されたノイズの量を補償する量だけ調節する(これは、経験で確認し次に手動の又はコンピュータ化された参照表で定義する必要がある;その調節は、少なくとも三つの要因すなわちフィルムのタイプ、露出条件及び走査特性の関数であるから、コンピュータが好ましい)。
【0258】
強化された3−2プルダウンシステム
上記の3−2プルダウン法を利用して、フィルムを60Hzビデオへ転送することは、一般に非常に嫌われているプラクチスである。3−2プルダウン法は、既存のNTSC(及びいくつかの提案されているHDTV)システムに対して、24フレーム/秒が59.94フィールド又は60フィールド/秒に均等に分割しないので使用されている。奇数のフレーム(又は偶数のフレーム)が、二つのインタレース化フィールド上に配置され、そして偶数のフレーム(又は奇数のフレーム)が三つのインタレース化フィールド上に配置される。したがって、五つのフィールド毎に一つのフィールドが重複している。フィルムの一フレームがビデオの五フィールドにマップしている。上記のように、このプロセスは非常に多くの不快な問題を起こす。
【0259】
大部分のビデオプロセッシング装置は、そのプロセスを中間信号に適用するだけである。この場合、時変効果(time-changing effect)が、たとえいくつかの入力フィールドが重複していても、一つのフィールドに対して、次のフィールドとは異なる作用をする。このようなプロセスの後、これらのフィールドはもはや重複せず、またフィールドペアも再結合して原フィルムフレームを回復することができない。そのフィールド速度で起こるこのようなプロセスの例としては、パン−アンド−スキャン(狭い4:3ビデオスクリーンを、ワイドスクリーン画像を水平に横切って移動させて、重要なアクションを示す)、フェードアップ又はフェードダウン、逐次カラー調節、ビデオタイトルオーバーレイスクロールなどがある。さらに、このような信号がフィルムに捕獲され、次にビデオに編集・処理されると、そのフィルムのフレーム処理とそのビデオのフィールド処理が、こみいった方式で強く混ぜ合わされる。このようなビデオ信号(広く存在している)が次に、画像圧縮システムに送られると、そのシステムは一般に、次善的に作動する。
【0260】
今までのところ、フィルム源からの最良の画像圧縮は、そのフィルムの24fps画像が、そのビデオ信号から完全に再抽出できるときだけ(又はより良好なのは、24fps領域を決して残さないときだけ)に起こることを、実験が示した。次に、その圧縮システムは、原フィルムの元の24fpsの速度で、映画(又はフィルムベースのTVショー又はTVコマーシャル)を符号化することができる。これは最も有効な圧縮法である。いくつかの映画オンデマンドシステム(movie-on-demand system)とDVDマスタリングシステムは注意深く3−2プルダウンを利用し次いで非常に制限された方法で編集して、24fpsの原フレームを最終的に抽出し24fpsで圧縮できることを保証する。
【0261】
しかし、このような注意は「開ループ」なので、通常のヒトの誤りによって破られることが多い。編集及びポストプロダクション効果のプロダクションへの適用の複雑なことが、フィールド速度プロセッシングが行われるときに「過誤」をもたらすことが多い。したがって、このようなことが起こる可能性を避けて、かような誤りを避けるためあらゆることを追跡する試みの複雑さを除く好ましい方法は次のとおりである。
(1)可能なときはいつでも、直接の24fpsの記憶、処理又は通信を支持するフィルム処理装置を利用する。
(2)局所記憶のために電子媒体又は高速光学的媒体(例えばハード・ドライブ及び/又はRAM)を使用して、すべてのフィルム画像をそれら固有の24fpsの速度で記憶する。
(3)装置が3−2プルダウンビデオを入力として受け取るときはいつでも、3−2プルダウンを、局所記憶(24fpsで保たれている)から(リアルタイムで)変換されたフライ上につくる。
(4)3−2プルダウン画像を生成し伝える装置の出力を記憶させるとき、フライ上の3−2プルダウンを取り消して再び24fpsで記憶させる。
(5)フィールドでのみ作動しなければならず、そのためフレームが通常のプロセッシング(一つのフレームとして、2及び3のフィールドに対する)で保存できないすべての装置を該システムから除く。
(6)記憶された画像シーケンスに作用するかまたは該シーケンスを編集するすべてのソフトウェアを、その記憶媒体に使用される24fpsモードに整合するように設定する;24fpsの固有モードで作動できないソフトウェアは使用しない。
(7)テレシネが直接の24fps出力を提供しない場合、すべての原画像を決定性カダンス(deterministic cadence)(すなわち常に3と次に2、又は2と次に3)でテレビ放映する(すなわち、フィルムからビデオに変換する)。インタレース化3−2プルダウンがテレシネからのインターフェースの直後に該カダンスを取り消す。
(8)未知の3−2プルダウンカダンスを有するテープを受け取ったならば、そのカダンスはなんらかの方法で見付け出して、記憶される前に除かねばならない。これは、ハードウェア検出システム、ソフトウェア検出システム又は手動/視覚で実施できる。あいにく、ハードウェア検出システムは完全ではないので、手動・視覚による検査が常に必要である(現在のシステムは、フィールドのミスアラインメントを検出しようとしている。黒又は白のフレーム上、又は画像の明るさが一定値のフィールド上のこのようなミスアラインメントは、現在検出することができない。検出可能なミスアラインメントでさえ、いくつかの検出器は、ノイズ又はアルゴリズムの弱さのために失敗する)。
(9)3−2プルダウンを必要とする施設から出力されるテープ記憶はどれも、純粋に、維持されている既知のカダンスに記憶されそしてそのプログラムの全作動時間中妨害されない。
【0262】
3−2プルダウンを入力及び出力として必要とする特定のプロセッシング装置は、上記の方法によって、24fpsのソースからリアルタイムでフライに対しなされたその単一又は複数の入力を得る。そのカダンスは、各入力に対して、標準の方式で常に始まる。その装置の出力のカダンスはそのとき知られているので、その装置の入力としてフライに生成するカダンスと同一でなければならない。そのカダンスは次に、この事前知識(a priori knowledge)によって取り消され次いでそのフレームは記憶媒体の24fpsフォーマット内に保管される。
【0263】
この方法は、リアルタイムの3−2プルダウンの取り消しと3−2プルダウンの合成が必要である。そのカダンスが未知のフォーマットのテープ由来のものでないならば、それらのフレームの24fps性は、かようなフィルムベースのテレシネポストプロダクションシステムによって自動的に保存される。そのシステムは次に、圧縮システム(上記の階層化圧縮プロセスを含む)への最適入力を形成する。
【0264】
このプロセスは、ビデオとHDTVテレシネの施設に広く有用になるであろう。他日、すべての装置が24fps(及び他の速度プログレッシブスキャン)の固有信号の入力、出力、プロセッシング及び記憶モードを受け入れるとき、このような方法はもはや必要ないであろう。しかし、その間に、多くの装置は、フィルム入力で作動する目標機能(targeted function)をたとえもっていても、内外のインターフェース(interface
in and out)のために3−2プルダウンが必要である。この期間中、上記方法は3−2プルダウンの問題点を除くので、フィルムのポストプロダクションとテレシネの効力の必須要素になることができる。
【0265】
フレーム速度の作成方法
24fpsは、映画フィルムの世界中に及ぶ標準を形成しているが、24fpsを使用すると、多くの場合、飛び越しモーションが起こる(次に移動する前に、フレームの反復フラッシュが多数起こるため「スタッター(stutter)」とも呼称される)。ゆっくりした動きをさせるのみならず、より平滑な動きすなわち動く物体のより明瞭な写真を提供するためには(画像を高いフレーム速度で捕獲するが、その画像をより低い速度で遊動させることによって)、より高いフレーム速度が望ましい。上記のように、60fpsという米国におけるビデオ速度(及び放送ビデオの59.94fps)は、24fpsと比較的非互換性である。これは、一つの映画を世界中に放出しようとすると問題を起こす。というのは、50HzPALシステムとSECOMビデオシステムは、60fpsのNTSCビデオ及び60Hz中心USHDTVと比較的非互換性であるからである。
【0266】
米国特許願第09/435,277号(発明の名称が「System And Method For Motion Compensation and Frame Rate Conversion」で1999年11月5日付けで出願され、本願発明の譲受人に譲渡されている)が、例えば60Hzと50Hz間及び60Hzと72Hz間などの困難なフレーム速度の変換を実施できる技法を教示している。これらの技法も、フレーム速度変換に加えてデ−インタレース化を行う。
【0267】
60Hzと50Hz間又は60Hzと72Hz間などの近い高フレーム速度間の変換を行う、上記出願に教示されているフレーム速度変換法を使用したところ非常に成功したが(その結果は全く良好に見える)、演算の費用が高い。しかし、動き解析を使用して行う24Hzと60Hz間の変換は全く困難であることが確認された。24fpsでは、フレームが、特に各フレームの動きのブラーの大きさが異なっている点で(映画「トップガン」からのコックピットのシーンの場合のように)かなり異なっている。これによって、次のフレーム速度の変換のみならず動き分析が、25fpsソースからは困難になる。さらに、動きのブラーを除くことが不可能であり、その結果、たとえ動き解析が高い動きの24fpsのシーンに対して可能であっても、その画像はブレたままであろう(それら画像は、より平滑に移動しスタッターが少ない)。動き分析は画像の整合部分を必要とするので、動きのブラーの大きさが隣接するフレームとは大きく異なるフレームは整合することがほぼ不可能になる。したがって、フィルム(又は電子カメラ)からの24fpsソースマテリアルは、50Hz又は60Hzのビデオへのフレーム速度変換に対して劣った出発点である。
【0268】
これによって、高フレーム速度の電子カメラは、24fpsの電子カメラよりはるかに優れた画像ソースであるという結論になる。しかし、60fpsのビデオから24fpsのフィルムへ変換して戻すことが困難であることを考えれば、72fpsは、終局の24fpsの互換性についてははるかに優れたカメラフレーム速度である。
【0269】
実験は、優れた画質の24fpsで動く画像は、非常に単純な重み付けフレームフィルタを使用することによって、72fpsのフレームから誘導することができる。24fpsの一つのフレームを生じる、72fpsのソースからの三つの連続フレーム(前、現行及び次のフレーム)に対する最良の重み付けは、[0.1667、0.6666、0.1667]の重み付けが中心になっている。しかし、[0.1、0.8、0.1]〜[0.25、0.5、0.25]の範囲内の3フレーム重み付けのセットは良好に働いているようである。中央フレームに重点があり、その中央フレームは、動きのブラーが短いことから、24fpsの動きのスタッターを平滑化する(24fpsの動きのブラーをシミュレートすることによって)のに役立てるため隣接するフレームから必要なブラーをプラスした単一のフレームの明瞭性間のバランスをとるのに役立つ。
【0270】
この重み付けの技法は、すべての場合の約95%でうまく働いて、この単純な重み付け関数に大部分の24fps変換を行わせることができる。これらの場合の残り5%ほどに対しては、米国特許願第09/435,277号に教示されているように動き補償を利用できる。この単純な重み付け法によって、該変換プロセスに対する作業負荷を1/20に減らしたことによって、残留動き補償変換は、必要時に一層実用的になる。
【0271】
また、120fpsソースを、五つの重み付けで使用して、24fpsで類似の結果を達成できることにも注目すべきである。例えば[0.1、0.2、0.4、0.2、0.1]の重み付けを利用できる。また、60fpsはフレームを一つおきにテイクすることによって120fpsから誘導することができるが、より短いオープンシャッター期間が速い動きに顕著である。この間題を軽減するため、オーバーラッピングフィルタも使用することができ(例えば好ましくは[0.1667、0.6666、0.1667]について使用できるが[0.1、0.8、0.1]〜[0.25、0.5、0.25]の範囲内でもよい)、低振幅重み付けフレームを繰り返す。勿論、より高いフレーム速度は、時相試料をより注意深くシェープ(shape)して24fpsなどのフレーム速度を誘導することができる。フレーム速度が非常に高くなると、本発明の譲受け人に譲渡されている米国特許第5,465,119号と同第5,737,027号の技法の適用が始まる。なぜならば、データ転送速度を管理できるように保つため、各フレーム内のデータ速度を下げる方法が必要になるからである。しかし、センサ(例えばアクティブ画素又はCCD)内でのオンチップ並列処理は、必要なオフチップI/O速度を下げる別の手段を提供できる。
【0272】
24fpsが、新しい72fps(などの)フレーム速度フォーマットの経済的実用性のために要望されていると仮定すると、ここで述べられている時相フィルタ重み付け関数(例えば、0.1667、0.6666、0.1667)を使用して、24fpsの画像を監視できることも大切である。これを行うことによって、シーン中のショットの「ブロッキング」(セッティングアップ)をチェックして、24fpsの結果が(72fpsなどのより高い速度のフルレートバージョンに加えて)良好に見えることを保証できる。このように、高フレーム速度捕獲の利点が、24fpsで国際的なフィルムとビデオのリリースを行う性能と完全に統合されている。
【0273】
したがって、特定の選択された高フレーム速度は、既存の24fpsのフィルム及びワールドワイドビデオをリリースする基本施設と上位互換性があるのみならず、将来の高フレーム速度電子画像ソースを創製する最も適切な基礎を形成している。
【0274】
モジュラビット速度
ビット速度を「モジュール化する」ことは、多くのビデオの圧縮アプリケーションに有用である。各種のビット速度システムが、連続的に変化するビット速度を利用して、より多くのビットをより速く変化するショットに適用するこころみをしている。これは、各有用なユニットに異なるビット速度を与えることによって粗い方式で行うことができる。適切なユニットの例としては、ある範囲のフレーム(「写真のグループ」すなわちGOP)又は各Pフレームがある。したがって、例えば、ビット速度はGOP内で一定であってもよい。しかし、(例えば、動き又はシーンの変化が大きいため)高い圧縮ストレスが検出されるGOPの場合、より高い一定のビット速度を利用できる。これは、強化層中のビットすべてを、高ストレスの期間中、ベース層に適用する(一般に次のIフレームでリセットする)上記階層化法と類似している。したがって、より多くのビットをベース層に適用するという概念に加えて、高ストレスの期間中、高品質を得るため、より多くのビットを、単一層圧縮、又はベース層と強化層に(階層化圧縮の場合)適用できる。
【0275】
一般に、低ビット速度は、映画又はライブイベントの時間の90%を扱うことができる。時間の残りの10%に対して、50%又は100%多いビットを使用すると、完全に近い符号化がなされるが、全ビットカウントは5%〜10%しか増加しない。これは、一般に一定のビット速度に符号化しながら(したがって一定のビット速度のモジュール性とプロセッシングの利点を大部分保持して)、特に眼で見える完全な符号化を行うのに非常に有効な方法であることを証明している。
【0276】
このようなより高いビット速度の期間の使用は手動で又は自動的に制御することができる。自動制御は、速度制御量子化スケールファクターを使用して行うことができ、このパラメータは、高ストレスの期間では、(ビット速度が大きく増大しないようにするため)大きくなる。したがって、このような高ストレスが検出され、そして残りのGOPはより高いビット速度で符号化されるべきであるか、あるいはまたGOPは、出発Iフレームで始めてより高いビット速度を利用し再符号化すべきであるという信号を送ることができる。視覚検査を利用して、手動選択を利用し、GOPがより高いビット速度を必要としているというフラグを立てることもできる。
【0277】
GOPが一般に特定の大きさを有していることを利用するためリアルタイム復号を行うことが有益である。またGOPの単純倍数(Simple multiple)(例えば、高いストレスを有するGOPに対するビット数の50%又は100%の増加)を使用することも、前記利点を多く保持する。図17は、より高いビット速度を、圧縮されたデータ流のモジュラ部分に適用する一例の線図である。正常シーン1800、1802を含む写真のグループが、一定速度のビットを割り当てられている。高レベルのストレス(すなわち圧縮プロセスが「正常」シーンと同等に圧縮することが難しい変化)を示すシーンを含むGOP1804が起こると、一層多数のビット(例えば50〜100%の追加)がそのGOPに割り当てられて、そのシーンのより正確な符号化を行うことができる。
【0278】
多くのMPEG−2の装置が一定のビット速度を使用することは注目すべきである。一定のビット速度は、一定ビット速度のトランスポートと記憶の媒体と良好に整合する。放送チャネル、衛星チャネル、ケーブル及びファイバなどのトランスポートシステムはすべて、固定された一定のトータルキャパシティ(total capacity)を有している。また、ディジタル圧縮ビデオテープ記憶システムは一定のテーププレイバック速度を有しているので、一定の記録又はプレイバックのビット速度を生成する。
【0279】
DirecTV/DSS及びDVDなどの他のMPEG−2装置は、ある形態の可変ビット速度割り付け(variable bit rate allocation)を利用する。DirecTV/DSSの場合、その変動性は、現行プログラムのシーンストレス(scene stress)対共通マルチプレックスを共用する隣接TVプログラムのシーンストレスの組み合わせである。そのマルチプレックスは同調された衛星チャネルとトランスポンダに相当し、それは固定トータルビット速度を有している。消費者ビデオDVDの場合、そのディジタル光ディスクの容量は2.5ギガバイトであり、MPEG−2のビット速度が2hrの映画に対して平均4.5メガビット/秒であることが必要である。しかし、その光ディスクは、9メガビット/秒で100%高いピーク読み出し速度の性能を有している。より短い映画の場合、平均速度は充分な9メガビット/秒まで高くしてもよい。2hrの映画の場合、そのビット速度が平均4.5メガビット/秒を達成する方法は、これを超える速度を高いシーンストレスを有するシーン(シーンの動きが高いため変化が大きい)に対して使用するが、一方この平均値より低い速度をシーンストレスが低い(動きが小さいため変化が小さい)間に使用する方法である。
【0280】
MPEG−2とMPEG−4のビット速度は、事実上の復号器バッファの容量のモデリングを組み合わせそして量子化パラメータを変えて、符号器が発するビット速度を減速することによって一定に保持される。あるいは、一定の量子化パラメータは、シーンの「エントロピー」としても知られているシーンの変化とディテールに比例して、数が変化するビットを生成する。一定の量子化パラメータは比較的一定の品質であるが可変のビット速度を生じる。変化する量子化パラメータは、サイズ限定復号器バッファ(size bounded decoder buffer)とともに使用して、どんな変動性も平滑化して一定のビット速度を提供することができる。
【0281】
マルチプレックスの多くのチャネルを共用することは、DirecTVの場合、又はACATS/ATSC19.3メガビット/秒6メガヘルツマルチプレックスの標準精細度の信号の場合と同様に、可変ビット速度を支持できる一方法である。低エントロピーのショウ(トークショウのような)とペアになって高エントロピーのショウ(ホッケーのような速いスポーツ)の統計データは、より大きなエントロピーを有するショウにビットを適用する際に瞬間トレードオフ(instantaneous tradeoff)することができる。一つのショウにおけるゆっくりした期間は、より少数のビットを使用し、同じマルチプレックス内の速く動く同時の別のショウに対しより多くのビットを提供する。
【0282】
これらの可変ビット速度システムは、通常、平均値をほぼ100%超えるところにピークのビット速度を有している。したがって、これらのシステムは、最も高いビット速度で一定ビット速度システムになり、高いシーンストレスが続いている期間利用可能なピークビット速度を限定する。また、いくつものMPEG−2復号器システムの入力ビット速度にも限度があり、このような可変ビット速度システムのピークビット速度にも限度がある。しかしピーク入力ビット速度に対する限度は、復号器が改善されるとこれらの他の限度を充分超えて、徐々に上昇する。
【0283】
これら従来の各ビット速度制御システムの一般概念は、その復号器内に小さなメモリバッファがあり、そのバッファは、移動する画像の一フレーム及び数フレームのほぼ一フラクションを保持しているということである。この復号器のビット速度バッファが考えられた1990年頃には、復号器のこのバッファメモリのコストが、復号器の価格に有意に影響するであろうという懸念があった。しかし、現在は、このバッファのコストは微々たるものであることが確認されている。事実、多数秒分のバッファは現在では微々たるコストである。近い将来、ビット受取メモリバッファは、多数分のビデオ情報をわずかなコストで保持できると推測できる。さらに、ディスクなどの記憶媒体のコストも急速に低下しているが、容量は急速に増大している。したがって、圧縮されたビットストリームを、ディスクなどの記憶メモリシステムにスプールして、多数時間分又は多数日分の記憶容量を得ることも合理的である。これは、現在、市販のハードドライブベースのホームビデオレコーダによって行われている。
【0284】
しかし、ビットが圧縮されたビットバッファで待っている間、時間遅延があるという一つの基本的な問題点が残っている。放送テレビジョンや映画配給の場合、数秒間又は数十秒間の遅延は、進行中のプログラム「tune-in」又は「movie selection」を案内する補助選択ストリーム(auxiliary selection stream)を利用できる限り、又は(例えば映画の)初期スタートが小さい初期バッファによって短くした遅延を利用する場合、視聴するのにほとんど影響がない。しかし、遠隔会議又はライブの対話イベントの場合、遅延を最小限にするため小さい高速度の実行バッファ(running buffer)が必要である。ライブの対話と遠隔会議の用途を除いては、安価な大きいバッファを利用して品質を改善することができる。
【0285】
これらの傾向に照らして、可変及び一定のビット速度の圧縮法の構造は有意に改良することができる。これらの改良点としては以下のものがある。
・復号器バッファモデルにおけるバッファサイズを大きく増大して、可変ビット速度と一定ビット速度の多くの利点を同時に提供すること。
・復号器バッファが満ち始める間、標題への瞬間的な変化を支持するための「インタスティシャル(interstitial)」ショウのタイトルの事前ローディング。
・新しく出発したプログラム又は映画の開始時に部分充填FIFO(先入れ先出し)復号器ビット速度バッファを利用し、次いで該プログラムが開始した後、進行するにつれてバッファフルネス(buffer fullness)(したがって遅延)を徐々に増やすこと。
・平均ビット速度を、高いシーンストレスの期間に増大するため、(上記モジュラビット速度の概念を使用して)増大させたビット速度「モジュール」を、(例えば第二FIFO、メインメモリ又はディスクへのスプーリングを利用して)復号器ビットメモリに事前ロードすること。このような事前ローディングは、一定ビット速度のチャネルで平均ビット速度を超えるのみならず、可変ビット速度のシステム内で最大ビットを超えるビット速度の期間を可能にする。
・本発明の階層化構造において、平均の(又は一定の)ビット速度ストリーム中のビットはすべて、高いシーンストレスを有するシーンの間、ベース層にシャントさせる(shunt)ことができる。しかし、一シーンに対する強化層ビットは、そのシーンに事前ロードすることができ、そして、同期化のためのタイミングメーカーを利用してプレイアウト(play out)させることができる。トランスポート及び/又はプレイバックにおける最大(又は一定の)ビット速度の限度は、この方法を利用する期間(利用可能なバッファスペースの大きさによってのみ限定される)、超えることができるということにやはり留意すべきである。
【0286】
多層DCT構造
可変DCTブロックサイズ
変形波長(transform
wavelength)の高調波アラインメントは、階層化DCT構造にとって基本的なものである。例えば、図18は、二つの解像度層間のDCT高調波の関係を図式で示す。本発明の現在の最適の2層配置構成において、ベース層は、8×8画素のDCTブロックサイズ1900の1、2、3、4、5、6及び7倍の周波数を有する算術高周波シリーズ(arithmetic harmonic series)を使用するDCT係数を利用する。ファクターが2の解像度強化層において、これらベース層の高調波は対応する強化層DCTブロック1902の1/2、1、3/2、2、5/2、3及び7/2の周波数にマップする。その周波数は全体がベース層に保持されているから、1/2項に対するペナルティはないが、残りの項が強化層と部分的にのみハーモナイズする。例えば、ベース層由来のマクロブロックサイズの2、4及び6倍の周波数を強化層由来のマクロブロックサイズの1、2及び3倍の周波数とアラインさせる。これらの項は、追加の精度があたかもベース層のこれら係数に適用されたように、自然の信号/ノイズ比(SNR)の階層化を形成する。ベース層由来の3、5及び7項は、強化層と非調波的(non-harmonic)なので、ベース層だけに対して直交性(orthogonality)を示し、強化層との相乗作用を全く提供しない。強化層の残りの項4、5、6及び7は、強化層が、ベース層とオーバーラップすることなく、画像に提供できる追加のディテールを表す。図19は、三つの解像度層間のDCT高調波の類似の関係を図式で表し、最高の強化層1904を示す。
【0287】
この構造には部分的な直交性と部分的なアラインメントしかないことが分かるであろう。このアラインメントと直交性は一般に有益であるが、該DCT符号化シリーズの位相アラインメントは、二つの(又は三つ以上の)空間解像度層に対して決して最適化されなかった。むしろDCTは、位相搬送画像項(phase-carrying imaginary term)をフーリエ変換級数から除いた、位相特性を利用する一組の直交基底関数(orthogonal basis function)として設計された。そのDCTは、2層空間符号化構造(two-layer spatial coding structure)において符号化を行うのに、明らかに適切であるが、層の直交性と位相の関係のこれらの論点は、三つ又は四つの空間解像度層への階層化された構造の拡張が中心になっている。
【0288】
交差層の直交性を提供するための解決策は、各解像度層に対し異なるDCTブロックサイズを利用する方法である。例えば与えた層の解像度が2倍になれば、そのDCTブロックの大きさは2倍になる。これによって、解像度階層化構造が調波的にアラインされ、層間係数の直交性(inter-layer coefficient orthogonality)が最適であるため、最適の符号化効率が提供される。
【0289】
図20は、異なる解像度層に対する各種のDCTブロックサイズを示す線図である。例えば、4×4画素DCTブロック2000はベース層に使用することができ、8×8画素DCTブロック2002は、上の次の層に使用することができ、16×16画素DCTブロック2004は第三層に使用することができ、そして32×32画素DCTブロック2006は第四層に利用することができる。このように、各層は、完全直交性の追加の調波項を、下の単一又は複数の層に加える。任意に追加の精度(SNRのセンスの)を、先にカバーされた係数項(previously covered coefficient term)に加えることができる。例えば、上記32×32画素ブロック2006中の16×16画素サブセット2008を使用して、16×16画素DCTブロック2004の精度と(SNA改良センスで)高めることができる。
【0290】
動きベクトル
MPEG−2において、動きベクトルに対応するマクロブロックは、16×16画素からなり、四つの8×8DCTブロックとして編成されている。MPEG−4において、各マクロブロックは、任意に、それ自身の動きベクトルを各々がもっているDCTブロックに対応する8×8領域中にさらに細分化することができる。
【0291】
たとえDCTブロックが、各層のサイズが異なっている方が好ましくても、その動き補償マクロブロックはこの構造によって拘束される必要がない。最も単純な構造は、動きがベース層の動きベクトルによって、すべての層に対して指定されるので、各ベース層の動き補償マクロブロックの単一の動きベクトルが、すべてのより高い層にも当てはまり、すべての強化層から動きベクトルをすっかり除く構造である。しかしより効率的な構造は、各層に、独立して、(1)動きベクトルなし(すなわちベース層の動きベクトルを使用する)、(2)ベース層の動きベクトルに対する追加のサブ画素の精度、又は(3)各動き補償マクロブロックを、独立した動きベクトルを各々が有する2個、4個などの数のブロックに分割することを選択させる構造である。MPEG−4内のオーバーラップされたブロックの動きを補償する(OBMC)方法を利用して、動かされている独立したブロックの動き補償間の遷移を平滑化することができる。この説明の他の部分で詳記されているように、サブ画素を配置するため負のローブのフィルタを使うことも、このDCT層構造の動きを補償するのに有益である。
【0292】
したがって、各層における各DCTブロックは、その層にとって最適であるように、動きを補償するために多数の動きベクトルブロックに分割できる。図21は、独立した動きベクトルを確認するため動き補償マクロブロックを分割する例を示す線図である。例えば、ベース層は、4×4画素DCTブロック2100を使用して構築されると、1個(図示してある)から16個もの多数の動きベクトル(各画素に対して一つずつ)を使用できるか又はサブ画素の動きベクトルを利用することさえできる。これに応じて、より高いレベルが各々、そのより大きい対応するDCTブロック2102、2104、2106を適切な場合に分割して、符号化予測品質(したがってセービング(saving)DCT係数ビット)対動きベクトルを指定するのに必要なビット間の最適のバランスが得られる。動きを補償するためのブロックの分割は、動きベクトルを符号化に使用されるビットと、写真予測の改良との間のトレードオフである。
【0293】
本願の他の部分に記載されているように、低い方の層の動きベクトル由来の案内ベクトルを、高い方の層の各動きベクトルを予測するのに使用すると、やはり、符号化の効率と効力が改善される。
【0294】
可変長さ符号化の最適化
MPEG−1、MPEG−2、MPEG−4、H.263などの圧縮システム(ウェーブレットなどのDCTシステムと非DCTシステムを含む)が利用する可変長さの符号(例えばハフマン符号又は算術符号)は、小グループの試験シーケンスについて立証された効率に基づいて選択される。これらの試験シーケンスは、画像のタイプに限定されて、比較的狭い範囲のビット速度、解像度及びフレーム速度だけを表す。さらに、該可変長の符号は、各試験シーケンス及びグループとしての試験シーケンスに関する平均の性能に基づいて選択される。
【0295】
実質的に一層最適の可変長さ符号化システムは、(1)特定の可変長さ符号化テーブルを各フレームに適用し、次に(2)その特定のフレームに対して最も最適の符号を選ぶことによって得ることができることを実験が示した。最適の可変長さ符号のこのような選択は、フレーム(フレームの一部又は領域)より小さいユニット又はいくつものフレームのグループに適用できる。動きベクトル、DCT係数、マクロブロックのタイプなどに使われる可変長さ符号は、各々、与えられたユニット(すなわち、フレーム、サブフレーム又はフレームのグループ)に対し、そのユニットの現行の解像度とビット速度にて、独立して最適化することができる。また、この方法は、本願の別の部分で述べられている空間解像度強化層にも適用できる。
【0296】
可変長さ符号のどのグループを使うべきかという選択は、少数のビットを使って、各フレーム(又はサブパート又はグループ)で運ぶことができる。さらに、カスタム符号化表は、信頼性が高いデータの伝送とプレイバックを利用できるところへ(例えばデータ光ディスク又は光ファイバーネットワークで)ダウンロードすることができる。
【0297】
MPEG−1、MPEG−2、MPEG−4、H.263、DVC−Pro/DVなどの圧縮システムが使用する既存の符号化表は、定義済でかつ静的(pre-defined and static)であることに注目すべきである。したがって本発明のこの側面の適用は上位互換性ではないが、将来の符号化システムと下位互換性であろう。
【0298】
MPEG−2とMPEG−4用の増強システム
現在、MPEG−2を実現できる復号器(MPEG-2 capable decoder)の大きな設置ベースがある。例えば、DVDプレーヤー及びDirecTV衛星受信機はともに、現在、数百万の家庭にある。MPEG−4はMPEG−2と互換性がないので、MPEG−4ビデオ圧縮復号化がMPEG−2を超えて提供できる改良点はまだ利用できない。しかし、MPEG−4とMPEG−2はともに、動きを補償されたDCT圧縮システムであり、共通の基本構造を共用している。MPEG−4のビデオ符号化システムの合成システム(composition system)はMPEG−2とは基本的に異なり、いくつかの他の拡張された特徴がある。この考察では、MPEG−4のフルフレームビデオ符号化の側面だけを考察している。
【0299】
MPEG−4とMPEG−2の間には多数の差があるが、主な差は次のとおりである。
(1)MPEG−4は、16×16マクロブロックを四つの8×8ブロックに、各DCTに対して一つずつ任意に分割することができ、その8×8ブロックは各々独立の動きベクトルを有している。
(2)MPEG−4−Bフレームは、予測の一タイプである「直接」モードをもっている。
(3)MPEG−4−Bフレームは、Bフレームの「I」マクロブロックを支持するMPEG−2と異なり「I」マクロブロックを支持しない。
(4)MPEG−4のDCT係数は、MPEG−2の場合より一層精緻なパターンで符号化することができるが、周知のジグザグパターンがMPEG−2とMPEG−4の両者に共通している。
(5)MPEG−4は10ビットと12ビットの画素深度(pixel depth)を支持するが、MPEG−2は8ビットに限定されている。
(6)MPEG−4は1/4画素の動きベクトルの精度を保持しているが、MPEG−2は1/2画素の精度に限定されている。
【0300】
いくつかのこれらの差、例えばB−フレーム「直接」モードと「I」マクロブロックの差は基本的に互換性がないことを意味している。しかし、これら符号化モード両者は自由に選択され、そして符号器はこれらをどちらも使用しないことを(小さな効率損失で)選択しその結果、この非互換性を除くことができる。同様に、符号器は、DCT係数のためのMPEG−4の符号化パターンを限定して、より優れたMPEG−2の共通の性質を提供できる(やはり小さい効率損失で)。
【0301】
残りの三つの主要項、すなわち8×8四方向(four-way)ブロックスプリット、1/4画素動きベクトル精度及び10ビットと12ビットの画素深度は、MPEG−2がすでに提供している基本構造に対する「増加物(augmentation)」とみなすことができる。
【0302】
本発明のこの側面は、これらの「増加物」を別の構造物として提供できることを利用する。したがって、この増加物は、別々に符号化され、別の増加物ストリームとして、標準のMPEG−2又はMPEG−4のストリームとともに運ぶことができる。また、この技法は、MPEG−1、H.263などの、共通の動き補償DCT構造体を共用するビデオ符号化システムでも使用することができる。図22は、MPEG−2タイプシステムに対する増加システムを示すブロック図である。主圧縮データストリーム2200(図22には動きベクトル、DCT係数、マクロブロックモードビット並びにI、B及びPのフレームを含めて示してある)が、従来のMPEG−2タイプ復号器2202及び並列の強化復号器2204に運ばれる。強化データストリーム2206(1/4画素動きベクトル精度、8×8四方向ブロックスプリット動きベクトル並びに10ビット及び12ビットの画素深度を含めて図示してある)が、同時に、強化復号器2204に運ばれる。強化復号器2204は、二つのデータストリーム2200と2206を組み合わせて、それらを、復号して、強化ビデオ出力を提供する。この構造を使用して、符号化の強化を、どの動き補償DCT圧縮システムにも加えることができる。
【0303】
この構造の使用は、より最適のMPEG−2復号又はより最適の強化信号を行うための復号器によってバイアスすることができる。MPEG−4ビデオ符号化の改良点を加えることによって強化されたこのような復号が、MPEG−2が復号した写真の画質に少し妥協して、最適に強化された写真画質を達成するのに好都合であろうと期待される。
【0304】
例えばMPEG−2ビデオ符号化をMPEG−4で強化する場合、MPEG−2の動きベクトルは、前記四方向スプリット動きベクトルに対する「予測子(predictor)」として使用でき(MPEG−4が四方向スプリットを選択する場合に)、又は非スプリット16×16マクロブロックに対して直接使用できる。1/4画素動きベクトル解像度は、強化データストリーム2206内の精度の追加の1ビットとして符号化する(垂直方向と水平方向)ことができる。余剰画素深度(extra pixel depth)は、逆DCT関数を適用する前に、余剰精度として、DCT係数に符号化することができる。
【0305】
本発明の重要な課題である空間解像度の階層化は、ベース層ができるだけ完全に符号化されると、最も最適に機能する。MPEG−2は不完全な符号化を行い、解像度強化層に劣った性能を生じる。上記増加システムを使用することによって、ベース層は、例えば、上記のMPEG−4の改良点(及び本願に記載の他の改良点)を用いて、ベースを符号化するMPEG−2データストリームを増大することによって改良することができる。得られるベース層は、付随する強化データストリームとともに、より優れた符号化(例えばMPEG−4及び本発明の他の改良方法による)からもたらされた改良ベース層を利用して得られる品質と効率の大部分を有している。得られた改良ベース層には、本発明の他の側面を使用して、又は2以上の解像度強化層を適用できる。
【0306】
本発明の他の改良品、例えば動きを補償するため負のローブを有するより優れたフィルタは、増大された強化復号器によって呼び出すこともでき、MPEG−4などの動き補償圧縮システムが提供する改良点を超える改良点がさらに生じる。
【0307】
空間強化層に対する案内ベクトル
動きベクトルは、本発明によってつくられた各解像度強化層内に割り当てられたビットの大きな部分を含んでいる。ベース層の同じ位置に、対応する動きベクトルを、「案内ベクトル」として使用することによって、強化層の動きベクトルに必要なビットの数を実質的に減らすことが可能であることが確認された。したがってその強化層の動きベクトルは、ベース層からの対応する案内ベクトル中心について小さいサーチ範囲のサーチだけで符号化される。このことは、MPEG−4強化層にとっては特に重要である。なぜならば、各マクロブロックは任意に四つの動きベクトルをもつことができ、かつ動きベクトルの1/4画素解像度を利用できるからである。
【0308】
図23は、ベース層2300からの動きベクトルを案内ベクトルとして解像度強化層2302に使用することを示す線図である。ベース層2300からの動きベクトル2304は、解像度強化層2302のスケールまで拡張した後、強化層2302の動きベクトルを改善するための案内ベクトル2304’として役立つ。したがって、対応する強化層2302の動きベクトル2306を見つけるのに、小さい範囲しかサーチする必要はない。そのプロセスは、ベース層由来のすべての動きベクトルに対して同じである。例えば、MPEG−4では、16×16画素ベース層マクロブロックは、四つの8×8画素動きベクトルブロックに任意に分割できる。次に、対応するファクター2(factor-of-two)の強化層が、案内ベクトルとして、ベース層からの同時に配置されている動きベクトルを利用する。この実施例では、ベース層中の8×8動きベクトルブロックのうちの一つからの動きベクトルが、強化層中の対応する16×16画素マクロブロック内の動きベクトルのサーチを案内する。この16×16ブロックは、すべて同じ対応するベース層動きベクトルを案内ベクトルとして利用して、任意に、四つの8×8動きベクトルブロックにさらに分割することができる。
【0309】
強化層中のこれら小さいサーチ範囲の動きベクトルは、次に、はるかに高い効率で符号化される(すなわち、より小さい強化層動きベクトル2306をコードするのに必要なビットは少ない)。この案内ベクトル法は、MPEG−2、MPEG−4又は他の適切な単一又は複数の動き補償空間解像度強化層に適用できる。
【0310】
強化モード
図24A−24Eは、代表的な専門レベルの強化モードに現れるデータ流の線図である。これらの図は、左欄に写真データ(中間段階を含む)を示し、中央欄にプロセッシングステップを示し、そして右欄に出力を示す。これはここで述べるいくつものプロセッシングステップを結合する方法のほんの一例であることに注目すべきである。より簡単な及びより複雑な異なる結合を配置構成して、異なるレベルの圧縮、アスペクト比及び画像の画質を達成することができる。
【0311】
図24Aは2k×1k画素の初期写真2400を示す。この画像をダウンフィルタして(2402)1k×512画素2404にする。動きベクトル2406を初期写真からつくりファイル2407として出力する。前記1k×512画素画像2404を圧縮/復元して(2408)1k×512復元画像2410にし、次いでその圧縮されたバージョンをベース層2412として、関連する動きベクトルファイル2416とともに出力する。1k×512の復元された画像2410を拡張して(2418)2k×1k画像2420とする。1k×512画像2404を拡張して(2422)、2k×1k画像2424にする。2k×1kの画像2420を、オリジナル画像2400から差し引いて(2428)、2k×1k差分写真2428をつくる。
【0312】
2k×1kの画像2424をオリジナル画像2400から差し引いて(2430)2k×1kの差分写真2432をつくる。2k×1k差分写真2432の振幅を選択した大きさ(例えば0.25倍)に小さくして(2434)、2k×1kの大きさの差分写真2436をつくる。2k×1kの大きさの差分写真2436を2k×1kの差分写真2428に加えて(2438)、2k×1kの組み合わせ差分写真2440をつくる。その組み合わせ差分写真2440を、オリジナルの動きベクトルを使用して符号化/復号し(2442)、次いで符号化された強化層2444を出力し(この実施例ではMPEG−2)、次に2k×1kの復号された強化層2246を出力する。2k×1kの復号された強化層2246を、2k×1kの画像2420に加えて(2448)、2k×1kの再構築したフルベースプラス強化画像2450をつくる。オリジナル画像2400を、2k×1kの再構築されたフルベースプラス強化画像2450から差し引いて(2452)、2k×1k第二層差分写真2454をつくる。2k×1kの第二層差分写真2454の振幅を大きくして(2456)、2k×1kの差分写真2458をつくる。次にレッドチャネル情報2458、グリーンチャネル情報2460及びブルーチャネル情報2462を抽出してそれぞれ、レッド差分画像2464、グリーン差分画像2466及びブルー差分画像2468をつくる。動きベクトルファイル2407を使用して、該レッド差分写真2464からの第二レッド層を符号化/復号して(2470)、レッド第二強化層2472及び復号されたレッド差分画像2474にし;グリーン差分写真2466からの第二グリーン層を符号化/復号して(2476)、グリーン第二強化層2478及び復号されたグリーン差分画像2480にし;次いでブルー差分写真2468からの第二ブルー層を符号化/復号して(2482)、ブルー第二強化層2484及び復号されたブルー差分画像2486にする。前記復号されたレッド差分画像2474、前記復号されたグリーン差分画像2480、及び前記復号されたブルー差分画像2486を、復号されたRGB差分画像2490に連結する(2488)。復号化されたRGB差分画像2490の振幅を小さくして(2492)、第二の復号されたRGB差分画像2494をつくる。その第二の復号されたRGB差分画像2494を、前記2k×1kの再構築されたフルベースプラス強化画像2450に付加して(2496)、2k×1kの再構築された第二強化層画像2498をつくる。その2k×1kの再構築された第二強化層画像2498をオリジナル画像2400から差し引いて(2500)、2k×1kの最終残留画像2502をつくる。この2k×1kの最終残留画像2502を次に、無損失で圧縮して(2504)、別々のレッド、グリーン及びブルーの最終の残留差分画像2506をつくる。
【0313】
コンピュータの使用
本発明はハードウェア又はソフトウェア又は両者の組み合わせで実施することができる。しかし、好ましくは、本発明は、1又は2以上のプログラマブルコンピュータで実行するコンピュータプログラムで実施され、そのプログラマブルコンピュータは各々、少なくとも一つのプロセッサ、データ記憶システム(揮発性及び不揮発性のメモリ及び/又は記憶素子を含む)、入力装置及び出力装置を含んでいる。プログラムコードが入力データに適用されて、ここに記載されている機能を実行して出力情報を生成する。その出力情報は、既知の方式で、1又は2以上の出力装置に加えられる。
【0314】
このようなプログラムは各々、所望のコンピュータ言語(機械言語、アセンブリ言語又は高レベルの手続き型言語、論理言語又はオブジェクト指向プログラミング言語がある)で実行して、コンピュータシステムと通信することができる。いずれにしろ、その言語は翻訳された言語又は解釈された言語でもよい。
【0315】
このようなコンピュータプログラムは、好ましくは、汎用又は専用のプログラマブルコンピュータシステムが読出し可能な記憶媒体又は記憶装置(例えばROM、CDROM又は磁気もしくは光の媒体)に記憶され、その記憶媒体又は記憶装置が該コンピュータによって読み取られると、該コンピュータを設定し(configure)作動させて、ここに記載の手続を実行する。また本発明のシステムは、コンピュータプログラムで構成された、コンピュータが読み取り可能な記憶媒体として提供されると考えることもでき、このように配置構成された記憶媒体は、コンピュータシステムを、特定の予め定義された方式で作動させて、ここに記載の機能を実行する。
【0316】
結論
新規であるとみなされる本発明の異なる側面としては、限定されないが下記の思想を含んでいる。
・世界中で広く使われている既存の24fpsのフィルムやビデオのインフラストラクチャとの互換性を提供するため、高フレーム速度の利益を新しい電子ビデオシステムに与えながら、72fpsをソースフレーム速度として電子カメラに使用すること。
・米国特許願第09/435,277号(発明の名称「System And Method For Motion Compensation and Frame Rate Conversion」、1999年11月5日付け出願)由来の動き補償とフレーム速度変換を行う方法を利用して72fps及び/又は120fpsから60fpsに変換すること。
・[0.1、0.8、0.1]〜[0.25、0.5、0.25]の範囲の重み付けをしたフィルタを使用して行う72fpsから24fpsへの変換及びほぼ[0.1、0.2、0.4、0.2、0.1]の重み付けを利用して行う120fpsから24fpsへの変換。
・[0.1、0.8、0.1]〜[0.25、0.5、0.25]の範囲の重み付けを利用する3フレームのオーバーラッピングセット(1/60のフレーム各々に対するアドバンスド2/120)を使用して行う120fpsから60fpsへの変換。
・米国特許願第09/435,277号(発明の名称「System And Method For Motion Compensation and Frame Rate Conversion」、1999年11月5日付け出願)由来の動き補償とフレーム速度変換を行う方法を利用して、一般に好ましい単純な重み付けが所望の品質より少ない小比率のシーンについて、動きブラーを増大しフレーム速度を72fps(又は他のより高い速度)ソースから24fpsに変換すること。
・より高いフレーム速度(72fps、120fpsなど)を利用してシューティング(shooting)を行いながら、上記重み付け関数によって24fpsの監視を利用すること。
・誘導された24fpsの結果をオリジナルの高フレーム速度とともに同時にリリースすること
・階層化符号化を行う前にデ−グレイニング(de-graining)及び/又はノイズ減少のフィルタリングを行うこと。
・復号を行った後、創造効果としてリ−グレイニング(re-graining)又はリ−ノイジング(re-noising)を行うこと。
・階層化圧縮を行う前にデ−インタレーシングを行うこと。
・単一層及び多重層の圧縮を行う前に3フィールドフレームデ−インタレーサを適用すること
・単一層及び多重層の圧縮を行う前に写真をアップフィルターして写真の解像度を改善すること。
・強化層内のサブ領域の大きさ及びベース層と強化層に割り当てられたビットの相対的比率を調節すること。
・フラクショナル・リレーションシップ(fractional・relationship)が独立して異なるように、垂直と水平の関係を独立して処理すること。
・高圧縮ストレスの期間中、圧縮ユニットに(例えばGOP)に対し高ビット速度を(自動的に、速度制御量子化パラメータの高い値を検出することによって又は手動で制御することによって)与えること。
・圧縮システム及び階層化圧縮システムの自然ユニット(natural unit)がモジュラユニットの増大されたビット速度を利用できる「モジュラ化」ビット速度を使用すること。
・単一又は複数の復元バッファに、増大されたビット速度のモジュラユニットをプレロードして、圧縮システム又は階層化圧縮システムで使用すること。
・一定のビット速度のシステムを、本発明の階層化圧縮システムの1又は2以上の層で使用すること。
・可変ビット速度のシステムを、本発明の階層化圧縮システムの1又は2以上の層で使用すること。
・使用される固定ビット速度のシステムと可変ビットのシステムを組み合わせて、本発明の階層化圧縮システムの各種の層で使用すること。
・解像度を階層化(「空間スケーラビリティ」とも呼称される)の際に使用するため、対応してより大きいDCTブロックサイズと追加のDCT係数を使用すること。例えば与えられた層の解像度が2倍になると、DCTブロックサイズは2倍の大きさになる。これによって、解像度階層化構造が高調波的にアラインされ、層間係数の直交性が最適であるため最適の符号化効率が提供される。
・単位DCTブロック当り多数の動きベクトルを使用して、大きいDCTブロックと小さいDCTブロックが動きベクトルビットと改善された動き補償予測との間のトレードオフを最適化できるようにすること。
・負のローブを有するアップサイジングフィルタとダウンサイジングフィルタ特に接頭sincフィルタを使用すること。
・負のローブを有する動き補償変位フィルタを使用すること。
・比較的に瞬間的なペイシス、例えば各フレーム、フレームの各領域(例えばいくつもの走査ライン又はマクロブロックライン又は各象限)又はあらゆるいくつものフレームで、最適の可変長さコードを選択すること。
・増大ストリームを利用して改良された符号化機能を既存の圧縮システムに加え、新しい強化復号器を使用して画質を改善するのみならず上位互換性を提供すること。
・強化された復号写真を利用して、より高い品質のベース層を提供し解像度階層化を行うこと。
・類似の移動画像符号化システム間で符号化エレメントを共用して改良への道筋のみならず上位互換性を提供すること。
・2タイプの復号器に部分的に共通で該復号器の一方又は他方を選ぶ規定を含んでいる圧縮ビットストリームの生成を、符号化プロセスに考慮すること。
・ベース層動きベクトルを案内ベクトルとして使用して、使用される動きベクトルの範囲を強化層の中心に置くこと。
・上記方法の組み合わせを、強化層に適用すること、又はMPEG−1、MPEG−2、MPEG−4、H.263、DVC−pro/DV、及びウェーブレットベースのシステムを含む他の圧縮システムを改善するために適用すること。
【0317】
本発明のいくつもの実施態様を説明してきた。しかしながら、各種の変形は、本発明の精神と範囲から逸脱することなく行うことができるものである。例えば、好ましい実施態様はMPEG−2又はMPEG−4の符号化法と復号法を利用しているが、本発明は、I、P及び/又はBのフレームと層の均等物を提供するどんな類似の標準とでも作動する。したがって、本発明は、具体的に例示された実施態様で限定されず本願の特許請求の範囲の範囲によってのみ限定されるものである。
【図面の簡単な説明】
【図1】60Hzで表示される24fpsと36fpsのマテリアルに対するプルダウン速度を示すタイミング線図である。
【図2】第一の好ましいMPEG−2符号化パターンである。
【図3】第二の好ましいMPEG−2符号化パターンである。
【図4】本発明の好ましい実施態様による時相層の復号を示すブロック図である。
【図5】36Hzと72Hzのフレームの両者を出力することができるコンバータに対する60Hzインタレース化入力を示すブロック図である。
【図6】24Hz又は36HzのベースMPEG−2層に対する「マスターテンプレート」を示す線図である。
【図7】MPEG−2を利用する階層解像度スケーラビリティを使用して行うベース解像度テンプレートの強化を示す線図である。
【図8】好ましい階層化解像度符号化プロセスを示す線図である。
【図9】好ましい階層化解像度復号プロセスを示す線図である。
【図10】本発明による、復号器に対する解像度と時相のスケーラブルオプションの組み合わせを示すブロック図である。
【図11】グレイ領域と強化を利用して写真のディテールを提供することによって拡張されたベース層の線図である。
【図12】好ましいダウンサイジングフィルタの相対的形態、振幅及びローブ極性の線図である。
【図13A】2のファクターでアップサイジングする好ましいアップサイジングフィルタの一対の相対的形態、振幅及びローブ極性の線図である。
【図13B】2のファクターでアップサイジングする好ましいアップサイジングフィルタの一対の相対的形態、振幅及びローブ極性の線図である。
【図14A】奇数フィールドのデ−インタレーサのブロック図である。
【図14B】偶数フィールドのデ−インタレーサのブロック図である。
【図15】三つのデ−インタレース化フィールドを使用するフレームデ−インタレーサのブロック図である。
【図16】2/3ベース層に基づいた追加の階層化モードのブロック図である。
【図17】より高いビット速度を、圧縮データストリームのモジュラ部分に適用した一実施例の図である。
【図18】二つの解像度層間のDCT高調波の関係を示す図形である。
【図19】三つの解像度層間のDCT高調波の類似した関係を示す図形である。
【図20】多重解像度層にマッチしたDCTブロックサイズの一組を示す線図である。
【図21】独立した動きベクトルを確認するため動き補償マクロブロックを分割する一実施例を示す線図である。
【図22】MPEG−2タイプシステムの増大方式を示すブロック図である。
【図23】ベース層由来の動きベクトルを、解像度強化層のための案内ベクトルとしての使用を示す線図である。
【図24A】プロフェッショナルレベル強化モードの一実施例を示すデータ流れ図である。
【図24B】プロフェッショナルレベル強化モードの一実施例を示すデータ流れ図である。
【図24C】プロフェッショナルレベル強化モードの一実施例を示すデータ流れ図である。
【図24D】プロフェッショナルレベル強化モードの一実施例を示すデータ流れ図である。
【図24E】プロフェッショナルレベル強化モードの一実施例を示すデータ流れ図である。

Claims (2)

  1. 画像符号化システム内で画質を強化する方法であって、
    中央値フィルタを、ディジタルビデオ画像の水平画素値に適用し、
    中央値フィルタを、ディジタルビデオ画像の垂直画素値に適用し、
    前記水平画素値と垂直画素値のフィルタリングの結果を平均し
    下記5項目:
    (1)現在のディジタルビデオ画像、
    (2)前記現在のディジタルビデオ画像の水平中央値と垂直中央値との平均値、
    (3)前記現在のディジタルビデオ画像の画素値とその画素値の時間的中央値との差の値をしきい値と比較して前記差の値が前記しきい値よりも大きい場合に前記現在の画素値となり前記差の値が前記しきい値よりも小さい場合に前記時間的中央値となる、しきい値処理済時間的中央値、
    (4)前記しきい値処理済時間的中央値の水平中央値と垂直中央値との平均値、並びに
    (5)前記しきい値処理済時間的中央値と前記現在のディジタルビデオ画像の水平中央値と垂直中央値との中央値、
    についての重み付けした一次の和をつくり、ノイズを減らしたディジタルビデオ画像をつくる、
    ことを含む方法。
  2. 中央値フィルタを、前記ディジタルビデオ画像の対角画素値に適用し、次いで
    前記ノイズを減らしたディジタルビデオ画像の対角画素値のフィルタリングの結果を平均する、
    ことをさらに含む請求項1に記載の方法。
JP2001574651A 2000-04-07 2001-04-06 アドバンスドテレビジョンの強化された時相及び解像度の階層化 Expired - Fee Related JP4352105B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/545,233 2000-04-07
US09/545,233 US6728317B1 (en) 1996-01-30 2000-04-07 Moving image compression quality enhancement using displacement filters with negative lobes
PCT/US2001/011204 WO2001077871A1 (en) 2000-04-07 2001-04-06 Enhanced temporal and resolution layering in advanced television

Publications (2)

Publication Number Publication Date
JP2003531514A JP2003531514A (ja) 2003-10-21
JP4352105B2 true JP4352105B2 (ja) 2009-10-28

Family

ID=24175400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001574651A Expired - Fee Related JP4352105B2 (ja) 2000-04-07 2001-04-06 アドバンスドテレビジョンの強化された時相及び解像度の階層化

Country Status (5)

Country Link
EP (1) EP1279111A4 (ja)
JP (1) JP4352105B2 (ja)
AU (1) AU2001251386A1 (ja)
CA (1) CA2406459C (ja)
WO (1) WO2001077871A1 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957350B1 (en) 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
US7266150B2 (en) 2001-07-11 2007-09-04 Dolby Laboratories, Inc. Interpolation of video compression frames
JP3596519B2 (ja) * 2001-12-13 2004-12-02 ソニー株式会社 画像信号処理装置及び方法
JP4031390B2 (ja) 2002-04-17 2008-01-09 松下電器産業株式会社 画像変換装置および画像変換方法
JP4031389B2 (ja) * 2002-04-17 2008-01-09 松下電器産業株式会社 画像変換装置および画像変換方法
US7009655B2 (en) 2002-07-23 2006-03-07 Mediostream, Inc. Method and system for direct recording of video information onto a disk medium
AU2003290872A1 (en) 2002-12-03 2004-06-23 Thomson Licensing S.A. Hybrid scalable decoder and method for standard-definition and high-definition video formats on a single-disc
US7899113B2 (en) 2003-04-10 2011-03-01 Thomson Licensing Technique for simulating film grain on encoded video
EP3457359B1 (en) * 2003-05-15 2020-02-26 Dolby International AB Method and apparatus for representing image granularity by one or more parameters
JP4565339B2 (ja) 2003-05-16 2010-10-20 ソニー株式会社 動き補正装置及び方法
KR100612849B1 (ko) 2003-07-18 2006-08-14 삼성전자주식회사 영상 부호화 및 복호화 장치 및 방법
WO2005027045A1 (en) 2003-08-29 2005-03-24 Thomson Licensing S.A. Method and apparatus for modeling film grain patterns in the frequency domain
EP1511320A1 (en) * 2003-09-01 2005-03-02 Matsushita Electric Industrial Co., Ltd. Film grain encoding
WO2005034518A1 (en) 2003-09-23 2005-04-14 Thomson Licensing S.A. Method for simulating film grain by mosaicing pre-computed samples
CA2538832C (en) 2003-09-23 2013-02-12 Thomson Licensing Technique for simulating film grain using frequency filtering
CA2540852C (en) 2003-10-14 2013-07-09 Thomson Licensing Technique for bit-accurate film grain simulation
US7680356B2 (en) 2003-10-14 2010-03-16 Thomson Licensing Technique for bit-accurate comfort noise addition
EP1714477A1 (en) * 2004-02-03 2006-10-25 Koninklijke Philips Electronics N.V. Changing the aspect ratio of images to be displayed on a screen
US8150206B2 (en) 2004-03-30 2012-04-03 Thomson Licensing Method and apparatus for representing image granularity by one or more parameters
FR2872664A1 (fr) 2004-07-01 2006-01-06 Nextream France Sa Dispositif et procede de pre-traitemebnt avant codage d'une sequence d'images video
US20060012719A1 (en) * 2004-07-12 2006-01-19 Nokia Corporation System and method for motion prediction in scalable video coding
US20060028562A1 (en) * 2004-08-09 2006-02-09 Martin Schmitz Fast area-selected filtering for pixel-noise and analog artifacts reduction
CA2584215A1 (en) * 2004-10-18 2006-04-27 Samsung Electronics Co., Ltd. Video coding and decoding methods using interlayer filtering and video encoder and decoder using the same
CN101044511A (zh) 2004-10-18 2007-09-26 汤姆森特许公司 胶片颗粒模拟的方法、装置及系统
FR2876861A1 (fr) * 2004-10-20 2006-04-21 Thomson Licensing Sa Procede de codage d'images video de differents formats non proportionnels
FR2876860A1 (fr) 2004-10-20 2006-04-21 Thomson Licensing Sa Procede de codage hierarchique d'images video
WO2006047138A2 (en) 2004-10-21 2006-05-04 Thomson Licensing Technique for adaptive de-blocking of block-based film grain patterns
PL1812904T3 (pl) 2004-11-16 2012-07-31 Thomson Licensing Sposób symulacji ziarna błony filmowej na podstawie wstępnie obliczonych współczynników transformacji
JP5087405B2 (ja) 2004-11-16 2012-12-05 トムソン ライセンシング 映像システムで使用される疑似乱数発生器のビットアキュレートシードの初期化
BRPI0517828A (pt) 2004-11-16 2008-10-21 Thomson Licensing inserção de mensagens sei de grão de filme para uma simulação exata em bits em um sistema de vìdeo
EP1812905B1 (en) 2004-11-17 2019-07-03 InterDigital VC Holdings, Inc. Bit-accurate film grain simulation method based on pre-computed transformed coefficients
FR2879066B1 (fr) * 2004-12-03 2007-04-06 Thomson Licensing Sa Procede et dispositif de codage hierarchique inter couches
CN101073265B (zh) * 2004-12-03 2012-08-22 汤姆森许可贸易公司 可缩放视频编码方法
KR20070090245A (ko) * 2004-12-13 2007-09-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 스케일러블 화상 인코딩
WO2006082150A2 (en) 2005-02-07 2006-08-10 Thomson Licensing METHOD AND APPARATUS FOR REPLAYING A VIDEO SIGNAL AND ONE OR MORE AUDIO SIGNALS RELATED TO AUDIO/VIDEO DATA THAT ARE BASED ON A 24Hz FRAME FREQUENCY VIDEO SIGNAL
KR101233854B1 (ko) 2005-02-18 2013-02-15 톰슨 라이센싱 저해상도 픽처로부터 고해상도 픽처에 대한 코딩 정보를도출하기 위한 방법 및 이 방법을 구현하는 코딩 및 디코딩장치
US8175168B2 (en) * 2005-03-18 2012-05-08 Sharp Laboratories Of America, Inc. Methods and systems for picture up-sampling
EP1737240A3 (en) * 2005-06-21 2007-03-14 Thomson Licensing Method for scalable image coding or decoding
US8351756B2 (en) 2005-11-29 2013-01-08 Panasonic Corporation Reproduction device
JP5112332B2 (ja) 2006-01-05 2013-01-09 トムソン ライセンシング インターレイヤ動き予測方法
WO2007080477A2 (en) * 2006-01-10 2007-07-19 Nokia Corporation Switched filter up-sampling mechanism for scalable video coding
WO2007107936A2 (en) * 2006-03-23 2007-09-27 Koninklijke Philips Electronics N.V. Coding device and method for scalable encoding of movie containing fields
EP1879399A1 (en) * 2006-07-12 2008-01-16 THOMSON Licensing Method for deriving motion data for high resolution pictures from motion data of low resolution pictures and coding and decoding devices implementing said method
EP2129108A4 (en) * 2006-12-18 2011-10-26 Sony Corp IMAGING DEVICE AND METHOD, RECORDING DEVICE AND METHOD, AND REPRODUCING DEVICE AND METHOD
US10715834B2 (en) 2007-05-10 2020-07-14 Interdigital Vc Holdings, Inc. Film grain simulation based on pre-computed transform coefficients
US10284842B2 (en) * 2013-03-05 2019-05-07 Qualcomm Incorporated Inter-layer reference picture construction for spatial scalability with different aspect ratios
MX2018001771A (es) * 2015-08-19 2018-05-16 Sony Corp Dispositivo de transmision, metodo de transmision, dispositivo de recepcion y metodo de recepcion.
CN113316001B (zh) * 2021-05-25 2023-04-11 上海哔哩哔哩科技有限公司 视频对齐方法及装置
US11587208B2 (en) * 2021-05-26 2023-02-21 Qualcomm Incorporated High quality UI elements with frame extrapolation
CN114697677A (zh) * 2022-03-31 2022-07-01 展讯通信(上海)有限公司 数据压缩方法及装置、计算机可读存储介质、终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2126467A1 (en) * 1993-07-13 1995-01-14 Barin Geoffry Haskell Scalable encoding and decoding of high-resolution progressive video
US5828788A (en) * 1995-06-29 1998-10-27 Thomson Multimedia, S.A. System for processing data in variable segments and with variable data resolution
JP3788823B2 (ja) * 1995-10-27 2006-06-21 株式会社東芝 動画像符号化装置および動画像復号化装置
US5852565A (en) * 1996-01-30 1998-12-22 Demografx Temporal and resolution layering in advanced television

Also Published As

Publication number Publication date
CA2406459A1 (en) 2001-10-18
EP1279111A4 (en) 2005-03-23
AU2001251386A1 (en) 2001-10-23
EP1279111A1 (en) 2003-01-29
CA2406459C (en) 2006-06-06
JP2003531514A (ja) 2003-10-21
WO2001077871A1 (en) 2001-10-18

Similar Documents

Publication Publication Date Title
JP4352105B2 (ja) アドバンスドテレビジョンの強化された時相及び解像度の階層化
US6728317B1 (en) Moving image compression quality enhancement using displacement filters with negative lobes
KR100481572B1 (ko) Atv에서의시간및해상도계층화
JP4294100B2 (ja) 現在のシステムと互換性をもつ態様でテレビジョン信号の送信および受信を行なうための高精細度テレビジョン信号処理
US7280155B2 (en) Method and system for converting interlaced formatted video to progressive scan video
US6862372B2 (en) System for and method of sharpness enhancement using coding information and local spatial features
US10013746B2 (en) High dynamic range video tone mapping
US8755434B2 (en) Method and apparatus for scalably encoding and decoding video signal
US6873657B2 (en) Method of and system for improving temporal consistency in sharpness enhancement for a video signal
US20030206591A1 (en) System for and method of sharpness enhancement for coded digital video
JP2004518337A (ja) ビデオエンハンスメントのために符号化情報に基づく有用メトリックを提供するための装置及び方法
JP2007519354A (ja) 動き補償された時間補間を使用したビデオのデインタレースのための方法及び装置
JP2004515133A (ja) 圧縮符号化されたビデオの伸長
van Rooy The LDK2000 Multistandard Camera, and the Evolution to DTV
Shum et al. Video Compression Techniques

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060329

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060627

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070523

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080116

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20080205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090706

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090706

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees