[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7386977B2 - テンソル積bスプライン予測子 - Google Patents

テンソル積bスプライン予測子 Download PDF

Info

Publication number
JP7386977B2
JP7386977B2 JP2022520205A JP2022520205A JP7386977B2 JP 7386977 B2 JP7386977 B2 JP 7386977B2 JP 2022520205 A JP2022520205 A JP 2022520205A JP 2022520205 A JP2022520205 A JP 2022520205A JP 7386977 B2 JP7386977 B2 JP 7386977B2
Authority
JP
Japan
Prior art keywords
tpb
images
spline
basis functions
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022520205A
Other languages
English (en)
Other versions
JP2022550206A (ja
Inventor
スゥ,グワン-ミーン
カドゥ,ハルシャド
ソーン,チーン
ジェイ. ガドジル,ニーラージ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022550206A publication Critical patent/JP2022550206A/ja
Application granted granted Critical
Publication of JP7386977B2 publication Critical patent/JP7386977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Prostheses (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Color Television Systems (AREA)

Description

関連出願の相互参照
本願は、2019年10月1日に出願された米国仮特許出願第62/908770号及び2019年10月1日に出願された欧州特許出願第19200793.8号の優先権を主張し、該出願のそれぞれは、参照によりその全体が本明細書に組み込まれる。
本開示は概して画像に関する。より具体的には、本開示の一実施形態はテンソル積Bスプライン予測子に関する。
本明細書で用いる「ダイナミックレンジ」(DR)という用語は、例えば最も暗い黒(ダーク)から最も明るい白(ハイライト)までの画像における強度の範囲(例えば、ルミナンス、ルーマ)を知覚するための人間の視覚システム(HVS)の能力に関連し得る。この意味では、DRは「シーン参照」強度に関する。DRは、特定の幅の強度範囲を適切に又はおおよそにレンダリングするディスプレイ装置の能力にも関連し得る。この意味では、DRは「ディスプレイ参照」強度に関する。本明細書の説明のいずれかの時点で特定の意味が格別な重要性を有すると明示的に規定されていない限り、この用語はいずれの意味でも、例えば同義で用いられ得ると推定されるべきである。
本明細書で用いる、高ダイナミックレンジ(HDR)という用語は、人間の視覚システム(HVS)のおよそ14~15桁以上に及ぶDR幅に関する。実際には、人間が強度範囲において同時に知覚する広い範囲を知覚できるDRは、HDRとの関係でいくぶん短縮されていることがある。本明細書で用いる強化ダイナミックレンジ(EDR)又は視覚ダイナミックレンジ(VDR)という用語は、個別に又は互換的にシーン又は画像にわたる光縦横変化を許容して、目の動きを含む人間の視覚システム(HVS)によってシーン又は画像内で知覚可能なDRに関連してもよい。本明細書で用いるように、EDRは、5~6桁の大きさのDRに関し得る。そのため、HDRとの関連では多少狭いが、EDRは広いDR幅を表し、HDRと呼ばれることもある。
実際に、画像は、色空間の1つ以上の色成分(例えば、ルーマY、クロマCb及びCr)を含み、各色成分は画素当たりnビット(例えば、n=8)の精度によって表される。非線形輝度コーディング(例えば、ガンマエンコーディング)を用いて、n≦8(例えば、カラー24ビットJPEG画像)の画像は標準ダイナミックレンジの画像とみなされ、n>8の画像は強化ダイナミックレンジの画像とみなされ得る。
所与のディスプレイのための参照電気光伝達関数(EOTF)は、入力ビデオ信号の明度(例えば、輝度)とディスプレイによって生成されるスクリーン明度(例えば、スクリーン輝度)との間の関係を特徴付ける。例えば、その全体が参照により本願に組み込まれるITU勧告ITU-R BT.1886「HDTVスタジオ制作で用いられるフラットパネルディスプレイのための参照電気光伝達関数(Reference electro-optical transfer function for flat panel displays)」(2011年3月)は、フラットパネルディスプレイのための参照EOTFを定義する。ビデオストリームが与えられた場合、そのEOTFに関する情報は(画像)メタデータとしてビットストリームに埋め込まれ得る。本明細書では、「メタデータ」という用語は、コード化ビットストリームの一部として送信される任意の補助情報に関し、デコーダがデコードされた画像をレンダリングするのを支援する。そのようなメタデータは、本明細書に記載されるように、限定されないが、色空間又は色域情報、参照ディスプレイパラメータ及び補助信号パラメータを含み得る。
本明細書で用いる「PQ」という用語は知覚的な輝度振幅(luminance amplitude)の量子化をいう。人間の視覚システムは、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数及びその刺激を見ている特定の瞬間までに目が適応した輝度レベルに影響される。一部の実施形態では、知覚的量子化器関数は、線形入力グレイレベルを、人間の視覚システムにおけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。例示のPQマッピング関数は、その全体が参照により本願に組み込まれる、SMPTE ST 2084:2014「リファレンスディスプレイをマスタリングする高ダイナミックレンジEOTF(High Dynamic Range EOTF of Mastering Reference Display)」(以下、「SMPTE」という)に記載されている。ここでは、ある固定刺激サイズに対して、それぞれの輝度レベル(即ち、刺激レベル等)について、最高感度の適応レベル及び最高感度の空間周波数(HVSモデルによる)に応じて、その輝度レベルにおける最小可視コントラストステップが選択される。
200~1000cd/m又はニトの輝度をサポートするディスプレイは、EDR(又はHDR)に関して、標準ダイナミックレンジ(SDR)とも呼ばれる、より低いダイナミックレンジ(LDR)を典型的に示す。EDRコンテンツは、より高いダイナミックレンジ(例えば、1000ニト~5000ニト以上)をサポートするEDRディスプレイに表示され得る。そのようなディスプレイは、高輝度能力(例えば、0~10000ニト以上)をサポートする代替的なEOTFを使用して定義され得る。そのようなEOTFの例は、SMPTE2084及び勧告ITU-R BT.2100「制作及び国際番組交換で用いるためのハイダイナミックレンジテレビの画像パラメータ値(Image parameter values for high dynamic range television for use in production and international programme exchange)」(2017年6月)で定義されている。本発明者らがここで理解するように、広範なSDR及びHDRディスプレイ装置の表示能力をサポートするために用いることが可能なビデオコンテンツデータを構成するための改良された技術が望まれている。
本節で説明するアプローチは、追求でき得るアプローチであるが、以前に着想されるか又は追求されたアプローチでは必ずしもない。したがって、別段表示がない限り、本節で説明するいずれかの手法は、単に本節に含まれているという理由のみで先行技術であるとみなすべきではない。同様に、1つ以上のアプローチに関して特定された問題は、別段表示がない限り、本節に基づいて何らかの先行技術で認識されてものと仮定すべきではない。
添付の図面の図において、本発明の一実施形態が限定としてではなく例示として記載され、同様の参照番号は同様の要素を表す。
図1Aは、ビデオ配信パイプラインの例示のプロセスを示す。 図1Bは、TPBクロスチャンネル予測のための例示的な処理ブロックを示す。 図1Cは、TPBベースの生成動作の例示の実施を示す。 図1Dは、TPBベースの生成動作の例示の実施を示す。 図1Eは、TPBクロス積動作の例示の実施を示す。 図1Fは、TPBクロス積動作の例示の実施を示す。 図1Gは、TPB予測を適用するための例示のフローチャートを示す。 図1Hは、TPB予測を適用するための例示のフローチャートを示す。 図2Aは例示のコーデックフレームワークを示す。 図2Bは例示のコーデックフレームワークを示す。 図2Aは例示のコーデックフレームワークを示す。 図3Aは、均一に分布したノットのためのBスプライン基底関数の例示の完全なセットを示す。 図3Bは、均一に分布したノットのためのBスプライン基底関数の例示の完全なセットを示す。 図3Cは、均一に分布したノットのためのBスプライン基底関数の例示の完全なセットを示す。 図3Dは、均一に分布したノットのためのBスプライン基底関数の例示の完全なセットを示す。 図4Aは、例示のプロセスフローを示す。 図4Bは、例示のプロセスフローを示す。 図5は、本明細書で説明するコンピュータ又はコンピューティング装置が実施され得る例示のハードウェアプラットフォームの簡略化したブロック図を示す。
以下の説明では、説明の目的のために、本開示の完全な理解を提供するために、多数の特定の詳細が記載されている。しかしながら、本開示はこれらの具体的な詳細なしに実施され得ることは明らかであろう。他の場合では、本開示を不必要に閉塞、不明瞭化又は曖昧化を避けるために、周知の構造及び装置は、包括的な詳細に記載していない。
概要
本明細書では、テンソル積Bスプライン(TPB)予測子を説明する。本明細書で説明する技術は、ビデオコンテンツ処理パイプラインにおいて予測動作を行い、下流のビデオコンテンツプロセッサが、第1のダイナミックレンジ(例えば、HDR、SDR等)のビデオコンテンツをビデオ信号で運ばれる第2の異なるダイナミックレンジ(例えば、SDR、HDR等)のデコードされたビデオコンテンツから再構成することができるように上流ビデオコンテンツプロセッサを用いてコンポーザーメタデータ(composer metadata)を作成するために用いることができる。一部の動作シナリオでは、コンポーザーメタデータは、単一チャンネルルーマ予測子及び単一の(例えば、可能な入力ルミナンス及びクロミナンス符号語の一部又は全てに適用可能な)多チャンネル多重回帰(MMR)クロマ予測子を用いて作成され得る。単一チャンネルルーマ予測子は、同じ輝度を有するピクセルに対する彩度を制限し得る。単一のMMRは、グローバルマッピングを適用することにより局所的な色の予測を制限する。これらの制限は、再構成又はマッピングされた画像(mapped image)の精度を低下させ、色の精度をより不正確にし、カラーチャート(例えば、表現又は測定される全ての可能な色の一部又は全てを含む)の一部の部分(例えば、鮮やかな色、高度に飽和した色等)について比較的大きな色差を生じさせ得る。例示の単一チャンネルルーマ予測及びMMRクロマ予測動作は、2018年12月18日に出願された米国仮特許出願第62/781185号に記載されており、その内容の全体は、それが本明細書に完全に記載されているかのように参照により本願に組み込まれる。
一部の動作シナリオでは、本明細書で説明するTPB予測子は、下流ビデオコンテンツプロセッサが、より良好な画質及び比較的高い色精度の画像を再構築できるように、上位ビデオコンテンツプロセッサによりコンポーザーメタデータを生成するためにビデオコンテンツ処理パイプラインで用いられ得る。
Bスプラインは、特定の次数の連続性制約(continuity constraint)を有する多項式を用いて、その所与の曲線又はセグメントを近似するための特性を有する。Bスプラインは、単にBスプラインモデルの上にデータフィッティングを行うことにより回帰処理で用いることができる。ビデオ処理における複数の入力変数の比較的高い次元性を捕らえるために、テンソル積Bスプライン(又はTPB)は、複数の入力変数をターゲット値(又は出力変数)に相互に関連付けるマッピング、曲線等の比較的高い次元の近似を得るために、複数のBスプライン関数を共に乗算することによって規定できる。コンポーザーメタデータを生成するための単一チャンネル輝度予測子と単一のMMRとの組み合わせと比較して、TPBを用いてコンポーザーメタデータを生成することは、おそらく異なるダイナミックレンジの異なるカラーグレード間の変換をモデル化するためのより良いツールを提供する。加えて、任意で又は代替的に、本質的に連続曲線を提供する(特定の次数までの連続性を保証する固有の能力による)ためにTPBを用いることができるため、予測、変換及び/又はマッピングの初期生成後の曲線適合動作を回避又は大幅に低減できる。例えば、単一チャンネル輝度予測子に適用される複数の多項式ピースにおける連続性を保証する計算集約的多項式近似アルゴリズムは、本明細書で説明する技術の下で回避できる。
TPB予測は、シーンベースの場合及び線形ベースの場合等の異なるエンコーディングシナリオで用いられ得る。3次元マッピングテーブル(3DMT)技術は、視覚的に知覚可能なカラーアーチファクトを低減するためにTPB予測と共に用いることができる。実験結果は、予測精度がルーマの場合で10~40倍、クロマの場合で1~4倍改善できることを示す。
本明細書で説明する例示の実施形態は、画像再構成のためにTPB予測パラメータを生成及びエンコードすることに関する。テンソル積Bスプライン(TPB)基底関数のセットが決定される。TPB基底関数のセットと共に用いられる選択されたTPB予測パラメータのセットは、1つ以上のマッピングされた画像内の予測画像データをソースカラーグレードの1つ以上のソース画像内のソース画像データから生成するために生成される。選択されたTPB予測パラメータのセットは、1つ以上のマッピングされた画像内の予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することによって生成される。1つ以上の参照画像は、1つ以上のソース画像に対応し、1つ以上のソース画像によって描写されるのと同じ視覚コンテンツを描写する。選択されたTPB予測パラメータのセットは、1つ以上のソース画像内のソース画像データと共に画像メタデータの一部としてビデオ信号にエンコードされる。1つ以上のマッピングされた画像は、ビデオ信号の受信装置で再構成され、レンダリングされる。
本明細書で説明する例示の実施形態は、画像再構成及びレンダリングのためのTPB予測パラメータのデコーディングに関する。第1のカラーグレードの1つ以上の第1の画像がビデオ信号からデコードされる。テンソル積Bスプライン(TPB)基底関数のセットと乗算するための選択されたTPB予測パラメータのセットを含む画像メタデータは、ビデオ信号からデコードされる。選択されたTPB予測パラメータのセットは、上流のビデオコンテンツプロセッサによって生成された。選択されたTPB予測パラメータのセットは、第1のカラーグレードの1つ以上の第1の画像における第1の画像データから1つ以上のマッピングされた画像における予測画像データを生成するために、TPB基底関数のセットと共に用いられる。上流のビデオコンテンツプロセッサは、1つ以上のマッピングされた画像における予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することにより、選択されたTPB予測パラメータのセットを生成した。1つ以上の参照画像は1つ以上の第1の画像に対応し、1つ以上の第1の画像によって描写されるのと同じ視覚コンテンツを描写する。TPB予測パラメータのセットは、1つ以上の第1の画像から1つ以上のマッピングされた画像を生成するためにTPB基底関数のセットと共に用いられる。1つ以上のマッピング画像から導出された1つ以上の表示画像は、表示装置でレンダリングされる。
例示のビデオ配信処理パイプライン
図1Aは、ビデオキャプチャ/生成からHDR又はSDRディスプレイまでの様々な段階を示す、ビデオ配信パイプライン(100)の例示のプロセスを示す。HDRディスプレイの例としては、限定されないが、テレビ、モバイル装置、ホームシアター等と共に動作する画像ディスプレイが挙げられる。SDRディスプレイの例としては、限定されないが、SDRテレビ、モバイル装置、ホームシアターディスプレイ、ヘッドマウントディスプレイ装置、ウェアラブルディスプレイ装置等が挙げられる。
ビデオフレーム(102)は、画像生成ブロック(105)を用いて取り込み又は生成される。ビデオフレーム(102)は、ビデオデータ(107)を提供するために(例えば、デジタルカメラによって)デジタル的に取りこまれ得るか又はコンピュータにより(例えば、コンピュータアニメーション等を用いて)生成され得る。加えて、任意で又は代替的に、ビデオフレーム(102)は、フィルムカメラによりフィルムに取り込まれ得る。フィルムは、ビデオデータ(107)を提供するためにデジタル形式に変換される。一部の実施形態では、ビデオデータ(107)は、ビデオ配信パイプライン(100)における次の処理段階/フェーズに渡される前に、(例えば、人間の入力なしで自動的に、手動で、人間の入力を伴って自動的に)画像のシーケンスに編集又は変換され得る。
次いで、ビデオデータ(107)は、ポストプロダクション編集(115)のためにプロセッサに提供される。ポストプロダクション編集(115)は、ビデオ作成者の創造的な意図に従って画像の特定の外観を得るか又は画質を高めるために、画像の特定の領域における色又は輝度を調整又は修正することを含み得る。これは、時折「カラータイミング」又は「カラーグレーディング」と呼ばれる。HDR画像(117-1)又はSDR(又は比較的狭いダイナミックレンジ)画像(117)(例えば、SDR等)のリリースバージョンを生成するために、他の編集(例えば、シーン選択及びシーケンシング、手動及び/又は自動のシーンカット情報生成、画像クロッピング、コンピュータによって生成された視覚的特殊効果の追加等)がポストプロダクション編集(115)で行われ得る。
一部の実施形態では、ポストプロダクション編集(115)の間に、HDR画像(117-1)は、HDR画像(117-1)に対してポストプロダクション編集操作を行うカラリストによって、高いダイナミックレンジをサポートするリファレンスHDRディスプレイ上で視聴される。
一部の他の実施形態では、ポストプロダクション編集(115)の間に、SDR画像(1117)は、SDR画像(117)に対してポストプロダクション編集操作を行うカラリストによって、標準ダイナミックレンジ(又は比較的狭いダイナミックレンジ)をサポートするリファレンスディスプレイ上で視聴される。
一部の実施形態では、コーディングブロック(120)は、図2A又は図2Bに示すようなコーデックフレームワークを実施し得る。コーディングブロック(120)が、ポストプロダクション編集(115)からHDR画像(117-1)を受信する動作シナリオでは、HDR画像(117-1)は、コーディングブロック(120)によりSDR画像(例えば117)に順方向再整形(forward reshaped)され得る。
SDR画像(117)は、コーディングブロック(120)によって、例えば単層のコード化ビットストリーム(122)に圧縮される。一部の実施形態では、コーディングブロック(120)は、コード化ビットストリーム(122)を生成するために、ATSC、DVB、DVD、Blu-Ray及び他の配信フォーマットにより定義されるもの等のオーディオ及びビデオエンコーダを含み得る。
一部の実施形態では、コード化ビットストリーム(122)は、SDR画像(117)がポストプロダクション編集(115)で生成される際の芸術的意図を保存するSDR画像(117)でエンコードされる。加えて、任意で又は代替的に、一部の実施形態では、コード化ビットストリーム(122)は、(SDR画像(117)に順方向で再整形される)HDR画像(117-1)が、ポストプロダクション編集(115)で生成される際の芸術的意図を保持するSDR画像(117)でエンコードされる。
コーディングブロック(120)は、広範なSDR表示装置(例えば、SDRディスプレイなど)と下位互換性(あるは、非下位互換性)を有するビデオ信号(例えば、8ビットSDRビデオ信号、10ビットSDRビデオ信号等)におけるビデオデータにSDR画像(117)をエンコードし得る。非限定的な例では、SDR画像(117)でエンコードされたビデオ信号は、単層の下位互換(あるいは、非下位互換性)ビデオ信号であり得る。
一部の実施形態では、コード化ビットストリーム(122)は、コーディングブロック(120)によって受信された入力SDR YCbCrビデオ信号と同じビデオ信号形式に準拠するビデオ信号である。例えば、コーディングブロック(120)によって受信される入力SDR YCbCrビデオ信号が8ビットのSDR YCbCrビデオ信号の場合、コーディングブロック(120)によって出力されたコード化ビットストリーム(122)は、限定されないが、コーディングブロック(120)及び/又はポストプロダクションブロック(115)によって生成されたコンポーザーメタデータを含む画像メタデータを有する出力8ビットSDR YCbCrビデオ信号を表し得る。コンポーザーメタデータ(又は逆方向再整形(backward reshaping)マッピング)は、(例えば、複数のターゲット等の)HDRリファレンスディスプレイ上でレンダリングする場合に比較的正確であり得る逆方向再整形画像を生成するために、SDR画像(117)に対して逆方向再整形(例えば、逆トーンマッピング等)を行うために、下流デコーダによって用いることができる。
一部の実施形態では、逆方向再成形画像は、少なくとも部分的にコンポーザーメタデータに基づいて逆トーンマッピングを実施する1つ以上のSDR-HDR変換ツールを用いて、SDR画像(117)(又はそのデコードされたバージョン)から生成され得る。本明細書で用いる逆方向再整形とは、ディスプレイ管理等のさらなる下流処理のために、再量子化された画像が元のEOTFドメイン(例えば、ガンマ又はPQ)又は異なるEOTFドメインに戻るように変換する画像処理動作のことをいう。加えて、任意で又は代替的に、本明細書に記載の再整形(例えば、順方向再整形、逆方向再整形等)は、異なるEOTF、異なる色空間、異なるダイナミックレンジ等の間で変換する画像処理操作をいう。
コード化ビットストリーム(122)は、限定されないが、表示管理(DM)メタデータを含む画像メタデータをさらにエンコードされる。該DMメタデータは、HDRリファレンスディスプレイが(例えば、複数などの)バイス固有のHDRディスプレイ上にレンダリングするための表示画像を生成するため、逆方向再整形画像に表示管理動作を行うために下流のデコーダによって用いることが可能である。
次いで、コード化ビットストリーム(122)は、デコーディング及び再生装置、メディアソース装置、メディアストリーミングクライアント装置、テレビ(例えば、スマートテレビ等)、セットトップボックス、映画館等の受信機へと下流に配信される。受信機(又は下流装置)では、コード化ビットストリーム(122)は、デコード画像182を生成するためにデコーディングブロック(130)によってデコードされる。該デコード画像は、コーディングブロック(120)によって行われる圧縮及びデコーディングブロック(130)によって行われる解凍で生じる量子化エラーを受けるがDR画像(117)と同じであり得る。
SDR画像(117)又はそのデコードされたバージョンによって表される例示のSDRビデオコンテンツは、SDR+ビデオコンテンツ、SDR画像、SDRムービーリリース、SDR+画像、SDRメディアプログラム等であり得るが、必ずしもこれらのみに限定されない。本明細書で用いる「SDR+」という用語は、SDR画像データとメタデータとの組み合わせを意味し、これらが共に組み合わせると、対応する高ダイナミックレンジ(HDR)の画像データを生成することができる。SDR+画像メタデータは逆方向再整形マッピング(例えば、TPB逆方向再整形マッピング等)を生成するためのコンポーザーデータを含み得る。コンポーザーメタデータは、入力SDR画像に適用された場合に、対応するHDR画像が生成される。SDR+画像は、SDR+画像メタデータを無視し、単にSDR画像を表示することが可能なレガシーSDRディスプレイとの下位互換性を可能にする。
SDRビデオコンテンツと共に受信側デバイスに送信される画像メタデータは、本明細書で説明する技術の下で生成される(例えば、自動的に、リアルタイムで、オフライン処理で、等)コンポーザーメタデータを含み得る。一部の実施形態では、ビデオデータ(107)は、コンポーザーメタデータ生成(115)のためのプロセッサに提供される。コンポーザーメタデータ生成(115)は、人とのやり取りをほとんど必要とせずにコンポーザーメタデータを自動的に生成し得る。自動的に生成されたコンポーザーメタデータは、ビデオデータ(107)内のSDR画像から対応する高ダイナミックレンジ(HRD)画像を生成するための逆方向再整形動作を行うために受信装置によって用いることができる。
ビデオコンテンツを広範なディスプレイ装置に利用可能にするための1つ以上の貴重なサービス(valuable services)を提供するためにコンポーザーメタデータ生成(115)を用いることができる。コンポーザーメタデータ生成(115)によって提供される貴重なサービスの1つは、SDR画像で描写されたビデオコンテンツのためのHDR画像が利用できないが、ビデオコンテンツを描写するSDR画像が利用可能な動作シナリオで、上述したようにSDR画像からHDR画像を生成することである。そのため、本明細書で説明する技術は、SDR画像が利用可能なこれらの動作シナリオで、HDRディスプレイのためのHDRビデオコンテンツを生成又は構成するために用いることができる。
コンポーザーメタデータ生成(115)によって提供される別の貴重なサービスは、「カラータイミング」又は「カラーグレーディング」として知られるカラリストの手動操作の一部又は全てに依存することなく、HDRディスプレイのためのHDRビデオコンテンツを(例えば、全体的に、部分的に等)生成することである。
加えて、任意で又は代替的に、画像メタデータ内のDMメタデータは、HDRリファレンス表示装置又は非リファレンスHDR表示装置等の他の表示装置上でレンダリングするために表示画像(例えば、HDR表示画像等)を生成するために、逆方向再整形画像に対して表示管理操作を行うために下流デコーダによって用いることができる。
受信機が標準ダイナミックレンジ又は比較的狭いダイナミックレンジをサポートするSDRディスプレイ140と共に動作する(又は取り付けられる)動作シナリオでは、受信機は、デコードされたSDR画像をターゲットディスプレイ(140)上に直接又は間接的にレンダリングできる。
高ダイナミックレンジ(例えば、400ニト、1000ニト、4000ニト、10000ニト以上等)をサポートするHDRディスプレイ140-1と共に動作する(又はそれに取り付けられる)動作シナリオでは、受信機は、コード化ビットストリーム(122)(内の例えばメタデータコンテナ)からコンポーザーメタデータ(例えば、TPBコンポーザーメタデータ等)を抽出し、(コンポーザーメタデータに基づいてSDR画像を逆方向再整形することによって生成される逆方向再構成画像であり得る)HDR画像(132)を作成するためにコンポーザーメタデータを用いることができる。加えて、受信機は、コード化ビットストリーム(122)からDMメタデータを抽出し、DMメタデータに基づいてHDR画像(132)上にDM演算(135)を適用して、HDR(例えば、非リファレンス等)表示装置(140-1)上にレンダリングするための表示画像(137)を生成し、HDR表示装置(140-1)上に表示画像(137)をレンダリングすることができる。
コーデックフレームワーク
一部の動作シナリオでは、HDR表示装置上へのレンダリングのためにSDRコンテンツを強化するためにSDR+を用いることができる。SDR画像のルーマチャンネル及びクロマチャンネル(又は色空間コンポーネント)は、(マップ)HDR画像の対応するルーマ及びクロマチャンネルを生成するためにコンポーザーメタデータ等の画像メタデータを用いて別々にマッピングされ得る。
なお、しかしながら、様々な実施形態では、本明細書で説明する技術は単層逆表示管理(single layer inverse display management)(SLiDM)又は非SLiDMコーデックフレームワークのために用いられ得る。例えば、本明細書で説明するTPBメタデータ生成、送信及び消費は、SDR又はHDRコンテンツを含む2つ以上のコーディング層を含む多層ビデオ信号と共に用いられ得る。
加えて、任意で又は代替的に、本明細書に記載のTPBメタデータ生成、送信及び消費は、HDR信号等の非SDR(又は非SDR+)ビデオ信号と共に用いられ得る。例えば、再構成されたHDRコンテンツを生成するためにデコードされたSDRコンテンツを逆方向再整形するために受信側装置によって用いられるTPB逆方向再構成メタデータを含める代わりに、HDR信号は、再構成されたSDRコンテンツを生成するために、デコードされたHDRコンテンツを順方向再整形するために受信側装置によって用いられるTPB順方向再整形メタデータを含み得る。
そのため、本明細書で説明する技術は、例示のみを目的として、例示のコーデックフレームワーク又はビデオ信号を用いて説明され得るが、これらの技術は例示のコーデックフレームワーク又はビデオ信号に限定されず、他のコーデックフレームワーク又はビデオ信号を用いて実施され得る。
図2A~図2Cは、例示のコーデックフレームワークを示す。より具体的には、図2Aは、上流ビデオエンコーダ等の1つ以上のコンピューティングプロセッサで実施され得る第1のエンコーダ側コーデックアーキテクチャの例を示し、図2Bは、上流ビデオエンコーダ等の1つ以上のコンピューティングプロセッサで実施され得る第2のエンコーダ側コーデックアーキテクチャの例を示し、図2Cは、下流ビデオデコーダ(例えば、受信機等)等の1つ以上のコンピューティングプロセッサで実施され得るデコーダ側コーデックアーキテクチャの例を示す。
第1のフレームワークでは、図2Aに示すように、SDR画像(117)等の下位互換性SDR画像が、コーデックフレームワークのエンコーダ側の入力として受信される。
限定ではなく例示として、SDRからHDRへの変換ツール等を表し得る逆ダイナミックレンジマッピング(DM)モジュール162が、リファレンスHDRディスプレイ上で見るためにSDR画像(117)をHDR画像148に変換するために用いられる。一部の実施形態では、逆DMモジュールは、逆トーンマッピングツールとも呼ばれ得る。
図2Bに示すように、第2のフレームワークでは、リファレンスHDRディスプレイ等のためのHDR画像(148)がコーデックフレームワークのエンコーダ側の入力として受信される。ここで、「リファレンスHDRディスプレイのためのHDR画像」とは、HDR(リファレンス)ディスプレイ用に具体的にカラーグレーディングされたHDR画像をいう。
限定ではなく例示として、SDRディスプレイ上での視聴のために、HDR画像(148)をSDR画像(117)に変換するためHDRからSDRへの変換ツール等を表し得る順方向再整形モジュール164が用いられる。一部の実施形態では、順方向再整形モジュールはトーンマッピングツールとも呼ばれ得る。
第1及び第2エンコーダ側コーデックアーキテクチャの両方において、画像メタデータ生成器150(例えば、コーディングブロック(120)の一部等)は、SDR画像(117)及びHDR画像(148)の双方を入力として受信し、TPBコンポーザーメタデータ、DMメタデータ等の画像メタデータ152を生成する。HDR(例えば、リファレンス、ターゲット等)ディスプレイのための逆方向再整形画像(132)は、TPBコンポーザーメタデータで規定される逆方向再整形関数/曲線を用いてSDR画像(117)を逆方向再整形することにより生成できる。
一部の実施形態では、逆方向再整形画像(132)は、HDRディスプレイのための生産品質の又は生産品質に近いHDR画像を表す。逆方向再整形画像(132)は、出力HDRビデオ信号160で(例えば、HDMI(登録商標)インターフェイスを介して、ビデオリンクを介して)、HDRディスプレイ装置に出力され、レンダリングされる。これらの実施形態では、受信機はTPBコンポーザのメタデータを読み出し、TPBコンポーザーメタデータに基づいてSDR画像(117)を逆方向再整形することにより再構築されたHDR画像を再構築し、レンダリングすることができる。
第1及び第2エンコーダ側アーキテクチャの両方では、圧縮ブロック142(例えば、図1Aのコーディングブロック(120)の一部等)は、ビデオ信号の単一層144にSDR画像(117)を圧縮/エンコードする。例示のビデオ信号は図1Aのコード化ビットストリーム(122)であり得るが、必ずしもこれのみに限定されない。画像メタデータ生成器(150)によって生成される画像メタデータ(152)(「rpu」と表記される)は、ビデオ信号(例えば、コード化ビットストリーム等)に(例えば、図1Aのコーディングブロック(120)等により)エンコードされ得る。
第1及び第2のエンコーダ側アーキテクチャの両方では、画像メタデータ(152)は、SDR画像がビデオ信号にエンコードされる単一層とは別個にビデオ信号で運ばれ得る。例えば、画像メタデータ(152)は、コード化ビットストリーム内のコンポーネントストリームにエンコードされ、該コンポーネントストリームは、SDR画像(117)がエンコードされる(コード化ビットストリームの)単一層と別個であってもなくてもよい、
第1及び第2のエンコーダ側アーキテクチャの両方では、ビデオ信号内の画像メタデータ(152)におけるTPBコンポーザーメタデータは、下流の受信機がHDRターゲットディスプレイのために、(ビデオ信号にエンコードされた)SDR画像(117)を再構築画像(又は逆方向再整形画像)に逆方向再整形できるように用いることができる。HDRターゲットディスプレイの例としては、HDRリファレンスディスプレイと同様の表示能力を有するHDRターゲットディスプレイ、HDRリファレンスディスプレイとは異なる表示能力を有するHDRターゲットディスプレイ、HDRターゲットディスプレイのためのビデオコンテンツを表示するために、HDRリファレンスディスプレイのための再構築ビデオコンテンツをマッピングする追加のDM動作を伴うHDRターゲットディスプレイ等のいずれかが挙げられるが、必ずしもこれらのみに限定されない。
一部の動作シナリオでは、第1及び第2のエンコーダ側アーキテクチャの両方で、SDRコンテンツは、エンコーダ側のコーデックアーキテクチャを実施する上流エンコーディング装置によって、コード化ビットストリーム(122)等のビデオ信号の単一層にエンコードされ、送信される。SDRコンテンツは、デコーダ側のコーデックアーキテクチャを実施する下流のデコーディング装置(又は受信機)により受信され、ビデオ信号の単一層でデコードされる。TPBコンポーザーメタデータは、受信側装置がSDRコンテンツ及びTPBコンポーザーメタデータに基づいてHDRコンテンツを再構築できるように、SDRコンテンツと共にビデオ信号にエンコードされ且つ送信される。
一部の実施形態では、図2Cに示すように、単一層(144)にSDR画像(117)がエンコードされたビデオ信号及び全体の画像メタデータの一部であるTPB逆方向再整形メタデータ(152)は、第1及び第2のエンコーダ側アーキテクチャのデコーダ側で入力として受信される。
解凍ブロック154(例えば、図1Aのデコーディングブロック(130)の一部)は、ビデオ信号の単一層(144)内の圧縮ビデオデータを解凍/デコードして、デコードされたSDR画像(182)にする。デコードされたSDR画像(182)は、圧縮ブロック(142)及び解凍ブロック(154)で量子化誤差を受けるSDR画像(117)と同じであり得る。デコードされたSDR画像(182)は、SDRディスプレイ装置に、出力SDRビデオ信号156で(HDMI(登録商標)インターフェイスを介して、ビデオリンクを介して等)出力され、レンダリングされ得る。
加えて、逆方向再整形ブロック158は、入力ビデオ信号からTPBコンポーザーメタデータ(又は逆方向再整形メタデータ)等の画像メタデータ(152)を抽出し、画像メタデータ内の抽出されたTPBコンポーザーメタデータに基づいて逆方向再整形機能を構築し、逆方向再整形機能に基づいて、デコードされたSDR画像(117)に逆方向再整形動作を行って、特定のHDRターゲットディスプレイのために逆方向再整形画像(132)(又は再構築HDR画像)を生成する。
一部の実施形態では、逆方向再整形画像は、HDRリファレンスディスプレイのための、生産品質又は生産品質に近いHDR画像を表す。逆方向再整形画像(132)は、HDRリファレンスディスプレイと同様の表示能力を有するHDRディスプレイに、出力HDRビデオ信号160で(例えば、HDMI(登録商標)インターフェイスを介して、ビデオリンクを介して等)に出力され、レンダリングされ得る。そのため、これらの実施形態では、DM機能は、デバイス動作を簡略化し、デバイスコストを低減するために、受信機によって実施されないことがある。
加えて、任意で又は代替的に、一部の実施形態では、DMメタデータは、受信機に、TPBコンポーザーメタデータ及びSDR画像(117)と共に送信され得る。HDRリファレンスディスプレイとは異なる表示能力を有するHDRターゲットディスプレイに特有の表示管理操作が、例えば、HDRターゲットディスプレイ上にレンダリングすべき表示HDR画像を生成するために、画像メタデータ(152)内のDMメタデータに少なくとも部分的に基づいて、逆方向再整形画像(132)に対して行われ得る。
Bスプラインベースの予測
TPB(ベースの)予測は、同じ視覚的な意味内容を描写する異なるカラーグレードの間で又はうちでのマッピング又は変換の選択された動作パラメータを導出するために用いられ得る。本明細書で用いるカラーグレードとは、ビデオ画像の(例えば、リリース、専門的にカラーグレードされた、ユーザ又はビデオ専門家によってカラーグレードされた、再構築された、予測すべき)バージョンを意味し得る。
同じ視覚的な意味内容を描写する2つのカラーグレード間のマッピング又は変換は、順方向再整形マッピング又は変換、逆方向再整形マッピング又は変換等のことをいい得る。例示の再整形動作は、2015年3月20日に出願された米国仮特許出願第62/136402号(米国特許出願公開第2018/0020224号として2018年1月18日に公開)、2018年5月11日に出願された米国仮特許出願第62/670086号に記載されており、それらの内容の全体は、参照により、本明細書に完全に記載されているかのように本願に組み込まれる。
一部の動作シナリオでは、順方向再整形とは、(同じ視覚的な意味内容を描写する)より高いダイナミックレンジのビデオ画像から、同じ又はより低いダイナミックレンジのビデオ画像を生成することをいう。
一部の動作シナリオでは、順方向再整形とは、(同じ視覚的な意味内容を描写する)同一又は異なるダイナミックレンジの入力又はソースビデオ画像から、ダイナミックレンジのエンコードすべきビデオ画像を(例えば、上流のビデオコンテンツプロセッサから下流のビデオコンテンツプロセッサに届けられるアウトビデオ信号内に)生成することをいう。
一部の動作シナリオでは、逆方向再整形とは、(同じ視覚的な意味内容を描写する)比較的低いダイナミックレンジのビデオ画像から、より高いダイナミックレンジのビデオ画像を生成することをいう。
一部の動作シナリオでは、逆方向再形成とは、(同じ視覚的な意味内容を描写する)ダイナミックレンジが同じ又は異なる(例えば、上流のビデオコンテンツプロセッサから下流のビデオコンテンツプロセッサに届けられる受信したビデオ信号にエンコードされた)受信したビデオ画像から、ダイナミックレンジの画像を生成することをいう。
本明細書で説明するTPB予測技術は、順方向再整形マッピング/変換及び/又は逆方向再整形マッピング/変換を表す画像メタデータ又はコンポーザーメタデータを生成するために用いることができる。Bスプラインベースの予測は、テンソル積Bスプラインにより単一の変数(例えば、色空間の単一のカラーチャンネル、色空間の単一の色成分、R、G、Bチャンネルのうちの1つのチャンネル、Y、Cb、Crチャンネルのうちの1つのチャンネル等)だけでなく、複数の変数(例えば、色空間の2つ以上のカラーチャンネル、色空間の2つ以上の色成分、R、G、Bチャンネルのうちの2つ以上のチャンネル、Y、Cb、Crチャンネルのうちの2つ以上のチャンネル)について行われ得る。一部の動作シナリオでは、TPB予測は、SDRからHDR又はHDRからSDRの予測プロセスで実施され得る。
以下の表1は、例示の多項式スプラインを示す。
Figure 0007386977000001
Bスプライン基底関数は、所望の平滑性又は連続性制約を実現するために、ノット(knot)(例えば、隣接する区分的多項式を接続するブレイクポイント等)で滑らかに融合される区分的多項式から構築できる。Bプライン基底関数は、全次数(又は次数)がnの(n+1)の多項式からなり、多項式は(n-1)次の連続性又は微分可能性までノットで連結される。Bスプラインの基底(又は基底関数)の完全なセットを用いて、所与の関数f(z)(例えば、マッピング、曲線等)は、完全なセットにおけるD=T+n-1のBスプライン基底関数(Tはノットの数を表す)を介して以下のように表すことができる。
Figure 0007386977000002
なお、Bスプライン基底関数は、(例えば、T、n+2等)のノットのうちの2つの隣接するノットに基づく間隔でのみ正であるか又はサポートされる。
0(ゼロ)次のBスプライン基底関数は以下のように規定され得る。
Figure 0007386977000003
高次(n次)のBスプライン基底関数は以下のように再帰的に規定され得る。
Figure 0007386977000004
インテリアノット(interior knots)k、k、...、kT-1に加えて、2n外側ノット等のエクステリアノット(exterior knots)は、インテリアノットが分布する範囲である[a,b]の外に置かれ得る。
図3A~図3Dは、均一に分布したノット(又はノット点(knot points))のセットのための0(ゼロ)次~3次Bスプライン基底関数の4つの例示の完全なセットを示す。異なる次数のBスプライン基底関数のさらなる完全なセットは、上記式(3)を用いて再帰的に構築され得る。
インテリアノットの数がT=8ノットであり、2次Bスプライン基底関数の完全なセットが用いられる動作シナリオでは、セット内の基底関数の総数Dは9である。対応する9つの係数{m}のセットは、例えば、ビデオコンテンツを表すために用いられる色空間の輝度チェンネルの単一チャンネル予測のための一次元(1D)マッピング又は曲線を予測又は近似するために用いることができる。
例示のみを目的として、HDRとSDRの間の1Dマッピング又は曲線を予測又は近似するために、9つの2次Bスプライン基底関数の完全なセットが適用される。
SDR画像(例えば、j番目のSDR画像等)及び対応するHDR画像(例えば、SDR画像と同じ視覚的な意味内容を描写するが、ダイナミックレンジが比較的高いj番目のHDR画像等)のそれぞれがP画素を含むものとする。トリプレット(triplets)
[外1]
Figure 0007386977000005
及び
[外2]
Figure 0007386977000006
が、j番目のSDR及びHDR画像におけるi番目の画素についての正規化されたY、C(例えば、Cb等)及びC(例えば、Cr等)の値をそれぞれ表すものとする。ルーマ又は輝度チャンネルについて、
[外3]
Figure 0007386977000007
から
[外4]
Figure 0007386977000008
を予測するために、単一チャンネルのBスプライン予測子が用いられ得る。
特定のノット又はノット点のセットが選択され、
[外5]
Figure 0007386977000009
と表記されるD(=T+n-1)Bスプライン基底関数の完全なセットを構築するために用いられ得る。HDR輝度符号語値
[外3]
Figure 0007386977000010
からのSDR輝度符号語値の単一チャンネル予測
[外6]
Figure 0007386977000011
は、対応する係数
[外7]
Figure 0007386977000012
のセットを用いて以下のように行われ得る。
Figure 0007386977000013
SDR及びHDR画像のそれぞれにP画素があり、全てのP個の予測すべき(又はターゲット)SDR輝度符号語値と仮定すると、対応する係数
[外8]
Figure 0007386977000014
及びBスプライン基底関数
[外9]
Figure 0007386977000015
は、対応する(入力)HDR輝度符号語値
[外10]
Figure 0007386977000016
から(ターゲット)SDR輝度符号語値
[外11]
Figure 0007386977000017
を予測するために、以下のようにマトリクスの形態に集めることができる。
Figure 0007386977000018
ここで、
Figure 0007386977000019
Figure 0007386977000020
Figure 0007386977000021
式(8)の左辺(LHS)はデザインマトリクスを示す。
全てのP個の実際の(例えば、ターゲット、参照等)のSDR符号語値を含むグラウンドトゥルースベクトルを以下のように表す。
Figure 0007386977000022
係数
[外12]
Figure 0007386977000023
の解は、閉形式(closed form)の最小二乗解を介して以下の様に得ることができる。
Figure 0007386977000024
この最小二乗問題を解くために、例えば、Bスプラインマトリクス
[外13]
Figure 0007386977000025
が比較的疎らな(sparse)シナリオを考慮に入れるために、特別な注意が払われ得る。どのような種類の信号又は画素のデータ分布であるかにかかわらず、ノット点が予め選択され得るか又は固定され得る動作シナリオでは、隣接するノット間のノット間隔に画素が存在しないか又は空であり得る。Bスプライン基底関数は比較的小さな間隔でしか正でないか又はサポートされず、間隔の外ではゼロであるため、画素が存在しないかもしれない空の間隔は、
[外13]
Figure 0007386977000026
においていくつかの又は全てのゼロ列(それぞれが全てのゼロを含む)をもたらし得る。そのようなゼロ列は、マトリクス
[外14]
Figure 0007386977000027
の計算を不明瞭にし得るか又は特異性に遭遇し得る。一部の動作シナリオでは、この問題を解決するか又は改善するために、
[外13]
Figure 0007386977000028
において全ゼロであるか又は(例えば、プログラムによって、経験的に又はユーザによって設定された数値閾値と比べて)全てが比較的小さな値の場合、対応する係数
[外8]
Figure 0007386977000029
をゼロに設定され得る。
[外13]
Figure 0007386977000030
における各要素を
[外15]
Figure 0007386977000031
で示し、α番目の列を
[外16]
Figure 0007386977000032
で示す。全てがゼロ値又は全てが比較的小さい値(例えば、列内の合計が数値的閾値を下回る、列内の各マトリクス要素が数値的閾値を下回る等)の列を除外してデザインマトリックスを再構築する例示の手順を以下の表2に示す。
Figure 0007386977000033
一部の動作シナリオでは、上記の式(10)を用いる代わりに、最小二乗問題は、上記表2で得られる
[外17]
Figure 0007386977000034
を用いることにより、以下のように解かれ得る。
Figure 0007386977000035
列の総数Dがcに減らされており、それぞれが全てゼロ又は全て比較的小さい数を有する(D-c)の列を除く新たな列の総数を表すため、式(11)の解は、除外される列に対応する係数又はパラメータを欠き得る。以下の表3に示す例示の手順を用いて、全ての列に対するパラメータ/係数を含むパラメータ/係数ベクトルは、以下のように除外される(D-c)の列を0で充填することにより構築され得る。
Figure 0007386977000036
Figure 0007386977000037
一部の動作シナリオでは、ノット又はノット点の位置は予め選択されているか又は固定されている。なお、しかしながら、様々な実施形態では、ノット又はノット点の位置は(及び/又は総数)は予め選択又は固定であってもなくてもよい。例えば、一部の動作シナリオでは、ノット又はノット点の位置(及び/又は総数)が解の最適性に影響を与え得るため、パラメータ/係数
[外7]
Figure 0007386977000038
と共にノット又はノット点{k}の位置(及び/又は総数)は、全体的な最小化(又は最適化)問題又は解の一部として適応的に決定され得る。
ノット点を適応的に選択することは、ビデオコンテンツの異なるカラーグレード間又はうちのでのマッピング又は変換の性能及び精度をさらに向上させることができるが、均一に分散されたノット点を予め設定するか又は予め選択することは、限定されないが、(1)画像メタデータ内のBスプライン基底関数のノット位置を上流のビデオコンテンツプロセッサが下流のビデオコンテンツプロセッサにシグナリングするか又は送信する必要がなく、画像メタデータを運び且つエンコードするためのビットストリームオーバヘッドが低減されること及び(2)異なるノット点に応答して、デコーダ側で基底関数を再計算する必要がない(さもなければ、フレーム毎に適応的に変更され得る)こと等を含む例示の利点をもたらす。つまり、ノット点が予め設定されているか又は固定されているBスプライン基底関数は、実行時間計算負荷及び/又はハードウェア複雑性を低減するために、ロジックにハードワイヤするか又はデコーダ側のデータストアに記憶できる。
TPBクロスコアチャンネル予測器
一部の動作シナリオでは、単一チャンネル(又は1D)のBスプライン予測子等の単一チャンネル予測子を用いてHDRとSDRとの間(その逆)のマッピングを生成するには、比較的大きな制限があり得る。1DのBスプライン予測子は、他のアプローチ(例えば、累積分布関数又はCDFに基づくアプローチ、最小平均二乗誤差又はMMSEに基づくアプローチ等)と同等の予測性能及び精度を提供し得るが、追加の計算複雑性が伴う可能性がある。ビデオコンテンツの異なるカラーグレードに対するマッピングの問題は、多次元色空間(例えば、RGB、IPT、YDzDx及びYCbCr等の3D色空間、色空間における3つ以上のチャンネル等)にあり、一部の動作シナリオでは1D機能又は予測は制限を受け得る。例えば、HDRとSDR(前後)との間の比較的正確なマッピングは、色変換及び彩度制御等の(カラーグレーディングの専門家によって手動で実行されるものと同様の)クロスカラー動作を含み得る。そのため、1D予測子を用いて、異なる輝度レベルでの色、色相及び彩度の人間の知覚を伴う多次元色空間におけるこのマッピングの問題を解決するのは最適でないかもしれない。
予測性能及び精度を改善するために、ビデオコンテンツの異なるカラーグレード間の局所的及び/又は全体的なクロスカラーチャンネル関係を探索することが可能なTPB予測が本明細書で説明する技術の下で用いられ得る。
クロスチャンネル予測がグローバルマッピングオペレータを表す一部のアプローチとは対照的に、TPBクロスチャンネル予測は、色空間又は色階調の各局所的なパーティションにおけるマッピングを柔軟にモデル化することができ(例えば、全ての符号語又は色等にグローバルマッピングを適用する代わりに、多くの局所的な一次元又は多次元符号語領域のそれぞれに領域固有のマッピングを適用する)、本明細書で説明する技術を実施しない他のアプローチに勝る。
TPBクロスチャンネル予測は、HDRからSDRへの(又はその逆の)輝度又はルーマチャンネルにおける符号語を予測するために適用され得る。前述の色空間Y、C0(又はCb)及びC1(又はCr)の例では、各カラーチャンネル又は次元において、Bスプライン基底関数の完全なセットが独立して提供される。そのため、Y、C0、C1の各カラーチャンネル又は次元について、Bスプラインの基底関数の3つのセット
[外18]
Figure 0007386977000039
[外19]
Figure 0007386977000040
及び
[外20]
Figure 0007386977000041
がそれぞれある。ここで、jはj番目のSDR及びHDR画像を示し、tはルーマ又は輝度Y次元のためのBスプライン基底関数インデックス(Y次元に沿ったノット点のセットを与える)、tc0はクロマ又はクロミナンスC0次元のためのBスプライン基底関数インデックス(C0次元に沿ったノット点のセットが与えらる)を示し、tc1はクロマ又はクロミナンスC1次元のためのBスプライン基底関数インデックス(C1次元に沿ったノット点のセットが与えらる)を示し、iはSDR及びHDR画像のそれぞれのPピクセル間の画素インデックスを示す。
これらのBスプライン基底関数の3つの完全なセット
[外18]
Figure 0007386977000042
[外19]
Figure 0007386977000043
及び
[外20]
Figure 0007386977000044
におけるBスプライン基底関数の総数をそれぞれD 、D 及びD で示す。3次元のそれぞれにおけるノット点の各セットが与えられ、Bスプライン基底関数の3つの完全なセット
[外18]
Figure 0007386977000045
[外19]
Figure 0007386977000046
及び
[外20]
Figure 0007386977000047
における各セットは、上記の式(3)を用いて構築され得る。
輝度及びルーマチャンネルにおける符号語を予測するためのTPB基底関数は、全ての3つのチャンネル又は次元のためのBスプライン基底関数の3つの完全なセット
[外18]
Figure 0007386977000048
[外19]
Figure 0007386977000049
及び
[外20]
Figure 0007386977000050
のベクトル積を取ることにより構築できる。t、tc0とtc1の固有の組み合わせを表す(3D)TPBインデックスを持つTPB基底関数は以下のように与えられ得るか又は計算され得る。
Figure 0007386977000051
HDR輝度及びクロミナンス符号語値
[外3]
Figure 0007386977000052
[外21]
Figure 0007386977000053
及び
[外22]
Figure 0007386977000054
からのSDR輝度符号語値のクロスチャンネル予測
[外6]
Figure 0007386977000055
は対応する係数のセット
[外23]
Figure 0007386977000056
を用いて以下のように行われ得る。
Figure 0007386977000057
ここでは、3DTPBインデックス(t、tc0及びtc1)は、式を簡素化するために1Dインデックス(tとして示される)にベクトル化され得る。以前3DTPBインデックス(t、tc0及びtc1)であったTPB基底関数は以下のように書き換得られ得る。
Figure 0007386977000058
Dy=D ・D ・D とする。式(14)のTBPクロスチャンネル予測は以下のように書き換えられ得る。
Figure 0007386977000059
SDR及びHDR画像のそれぞれにP画素があり、全てのP個の予測すべき(又はターゲット)SDR輝度符号語値と仮定すると、対応する係数
[外24]
Figure 0007386977000060
及びクロスチャンネルTPB関数
[外25]
Figure 0007386977000061
は、対応する(入力)HDR輝度及びクロミナンス符号語値
[外26]
Figure 0007386977000062
から(ターゲット)SDR輝度符号語値
[外11]
Figure 0007386977000063
を予測するために、以下のようにマトリクスの形態に集めることができる。
Figure 0007386977000064
ここで、
Figure 0007386977000065
Figure 0007386977000066
ここで、式(18)のLHSはデザインマトリクスを示す。
係数
[外27]
Figure 0007386977000067
の解は、閉形式における最小二乗解を介して以下のように得ることができる。
Figure 0007386977000068
ここで、
[外13]
Figure 0007386977000069
は式(9)におけるグラウンドトゥルースベクトルを示す。
説明を容易にするために、式(20)はマトリクス及びベクトルを用いて以下のように書き換えられ得る。
Figure 0007386977000070
Figure 0007386977000071
そのため、
Figure 0007386977000072
同様に、TPBクロスチャンネル予測子は、2つのクロマチャンネル又は次元のために構築されて得る。例示として、クロマチャンネルC0及びC1のいずれかをCと表記する。Y、C0及びC1次元にノット点のセットが3つあるとすると、クロマチャンネルC(ここで、CはC0又はC1であり得る)における符号語のTPB予測のために、Y、C0及びC1次元のためにBスプライン基底関数の3つの完全なセット
[外28]
Figure 0007386977000073
[外29]
Figure 0007386977000074
及び
[外30]
Figure 0007386977000075
が構築され得る。Bスプライン基底関数の3つの完全なセットの総数は、D 、D 及びD であり得る。3つの次元にノット点のセットを与えることで、3つの個別の基底関数セット
[外28]
Figure 0007386977000076
[外29]
Figure 0007386977000077
及び
[外30]
Figure 0007386977000078
ができる。
Yチャンネルにおける符号語のTPBクロスチャンネル予測と同様に、クロマチャンネルCについて、TPBクロスチャンネル基底関数は、インデックス付きテンソル要素を用いて以下のように構築され得る。
Figure 0007386977000079
同様に、ここでは、3DTPBインデックス(t、tc0及びtc1)は、式を簡素化するために1Dインデックス(tとして示される)にベクトル化することができる。D=D ・D ・D とする。クロマチャンネルCにおける符号語のためのTPBクロスチャンネル予測は以下のように与えらる。
Figure 0007386977000080
SDR及びHDR画像のそれぞれにP画素があり、全てのP個の予測すべき(又はターゲット)SDRクロミナンス符号語値と仮定すると、対応する係数
[外31]
Figure 0007386977000081
及びクロスチャンネルTPB関数
[外32]
Figure 0007386977000082
は、対応する(入力)HDR輝度及びクロミナンス符号語値
[外26]
Figure 0007386977000083
から(ターゲット)SDR輝度符号語値
[外33]
Figure 0007386977000084
を予測するために、以下のようにマトリクスの形態に集めることができる。
Figure 0007386977000085
ここで、
Figure 0007386977000086
Figure 0007386977000087
ここで、式(27)のLHSはTPB基底マトリクスを表す。
係数
[外34]
Figure 0007386977000088
の解は、閉形式における最小二乗解を介して以下のように得ることができる。
Figure 0007386977000089
説明を容易にするために、式(29)は、以下のようにマトリクス及びベクトルを用いて書き換えられ得る。
Figure 0007386977000090
Figure 0007386977000091
そのため、
Figure 0007386977000092
一部の動作シナリオでは、ノット又はノット点の位置が予め選択されているか又は固定されている。なお、しかしながら、様々な実施形態では、ノット又はノット点の位置(及び/又は総数)は予め選択又は固定されていてもいなくてもよい。例えば、一部の動作シナリオでは、ノット又はノット点の位置(及び/又は総数)が解の最適性に影響を及ぼし得るため、ノット又はノット点{k}の位置(及び/又は総数)は、パラメータ/係数
[外34]
Figure 0007386977000093
と共に、TPBクロスチャンネル予測のための全体的な最小化(又は最適化)の問題又は解の一部として適応的に決定され得る。
ノット点を適応的に選択することは、ビデオコンテンツの異なるカラーグレード間の又はうちの異なるカラーグレード間のマッピング又は変換の性能及び精度をさらに向上させることができ、多次元TPBテンソルで用いられる均一に分散されたノット点を予め設定又は事前選択することは、限定されないが、(1)画像メタデータ内の多次元TPB基底関数で用いられるノット位置を上流のビデオコンテンツプロセッサが下流のビデオコンテンツプロセッサにシグナリングするか又は送信する必要がなく、画像メタデータを運び且つエンコードするためのビットストリームオーバヘッドが低減されること及び(2)異なるノット点に応答して、デコーダ側でBスプライン又はTPB基底関数を再計算する必要がない(さもなければ、フレーム毎に適応的に変更され得る)こと等を含む例示の利点をもたらす。つまり、ノット点が予め設定されているか又は固定されているTPB基底関数は、実行時間計算負荷及び/又はハードウェア複雑性を低減するために、ロジックにハードワイヤするか又はデコーダ側のデータストアに記憶できる。
3つのチャンネル又は次元の全てのそれぞれが同じTPB基底関数を有する動作シナリオでは、異なるチャンネルのSマトリクスは以下のように同じである。
Figure 0007386977000094
デコーダ側では、同じ
[外35]
Figure 0007386977000095
マトリクスが計算され、異なるチャンネル又は次元のために異なるSマトリクスを計算する必要ない。次に、各チャンネルのためのクロスチャンネル予測符号語値は、同じSマトリクスを対応する予測パラメータ/係数で乗じることによって以下のように得ることができる。
Figure 0007386977000096
Figure 0007386977000097
Figure 0007386977000098
別の例では、2つのクロマチャンネルは同じSマトリクスを用いるのに対して、ルーマチャンネルのために異なるSマトリクスが用いられる。例えば、ルーマチャンネルのためのSマトリクスは、クロマチャンネルのためのSマトリクスよりも大きい次元を有する。このような場合、ルーマチャンネルのための予測子係数の数は、ルーマチャンネルのそれぞれのための予測子係数の数よりも大きくなる。
効率的なデコーダアーキテクチャ
エクステリアノット点を含むノット又はノット点が均一に分布する場合、Bスプライン基底関数は打ち切り多項式の線形結合によって表すことができる。n次の打ち切り多項式は次のように定義され得る。
Figure 0007386977000099
チャンネルY、C0及びC1のためのノット点を{k }、{k c0}、{k c1}と表記する。ノット点{k }、{k c0}、{k c1}が均一に分布する場合、2つの連続する(又は隣接する)ノット点毎の距離をそれぞれh、hc0及びhc1と表すことができる。単純にするために、各チャンネルのノット点はそれぞれ{k}及びhで表記され得る。
t番目の一次Bスプライン基底関数は、打ち切り多項式の線形結合によって以下のように構成できる。
Figure 0007386977000100
ここで、
[外36]
Figure 0007386977000101
は、[kt-1t+1]範囲の間で又は2hの間隔でのみ正であるか又サポートされ、そうでなければ、この範囲外ではゼロ(0)である。式(36)に示すように、一次Bスプライン基底関数は、それぞれが入力値(例えば、参照符号語等を近似するターゲット符号語を予測するために用いられる入力又はソース符号語等)とそれぞれのノット点との差で乗算したそれぞれのノット乗算係数(cと表記され、iは、0と2との間の整数を表す)を含む3つの項を含む。例えば、式(36)の第1項の第1のノット乗算係数は
[外37]
Figure 0007386977000102
であり、式(36)の第2項の第2のノット乗算係数は
[外38]
Figure 0007386977000103
であり、式(36)の第3項の第3のノット乗算係数は
[外37]
Figure 0007386977000104
である。
t番目の二次Bスプライン基底関数は、打ち切り多項式の線形結合によって以下のように構成できる。
Figure 0007386977000105
ここで、
[外39]
Figure 0007386977000106
は、[kt-1t+2]範囲の間で又は3hの間隔でのみ正であるか又サポートされ、そうでなければ、この範囲外ではゼロ(0)である。式(37)に示すように、二次Bスプライン基底関数は、それぞれが入力値(例えば、参照符号語等を近似するターゲット符号語を予測するために用いられる入力又はソース符号語等)とそれぞれのノット点との差で乗算したそれぞれのノット乗算係数(cと表記され、iは、0と3との間の整数を表す)を含む4つの項を含む。例えば、式(37)の第1項の第1のノット乗算係数は
[外40]
Figure 0007386977000107
であり、式(37)の第2項の第2のノット乗算係数は―
[外41]
Figure 0007386977000108
であり、式(37)の第3項の第3のノット乗算係数は
[外31]
Figure 0007386977000109
であり、式(37)の第4項の第4のノット乗算係数は
[外40]
Figure 0007386977000110
である。
t番目の三次Bスプライン基底関数は、打ち切り多項式の線形結合によって以下のように構成できる。
Figure 0007386977000111
ここで、
[外42]
Figure 0007386977000112
は、[kt-1t+2]範囲の間で又は4hの間隔でのみ正であるか又サポートされ、そうでなければ、この範囲外ではゼロ(0)である。式(38)に示すように、三次Bスプライン基底関数は、それぞれが入力値(例えば、参照符号語等を近似するターゲット符号語を予測するために用いられる入力又はソース符号語等)とそれぞれのノット点との差で乗算したそれぞれのノット乗算係数(cと表記され、iは、0と4との間の整数を表す)を含む5つの項を含む。例えば、式(38)の第1項の第1のノット乗算係数は
[外43]
Figure 0007386977000113
であり、式(38)の第2項の第2のノット乗算係数は―
[外44]
Figure 0007386977000114
であり、式(38)の第3項の第3のノット乗算係数は
[外45]
Figure 0007386977000115
であり、式(38)の第4項の第4のノット乗算係数は
[外44]
Figure 0007386977000116
であり、式(38)の第5項の第5のノット乗算係数は
[外43]
Figure 0007386977000117
である。
Bスプライン基底関数のためのこれらの多項式を有することにより、エンコーダ、デコーダ、トランスコーダ等のビデオコンテンツプロセッサは、Bスプライン基底関数のために多項式を用い、Bスプライン基底関数を再帰的に得ることを回避することができる。これは、再帰的Bスプライン式を実施することは比較的複雑であり得るため、ハードウェアの実施を簡素化する。再帰式は、計算及び記憶するのに比較的長い時間及び比較的大きなメモリ容量を必要とする可能性も高い。打ち切り多項式は、不均一な(例えば、適応的等)ノット点を有することの柔軟性をトレードすることにより、計算を節約するために用いることができる。
加えて、任意で又は代替的に、n次Bスプライン基底関数
[外46]
Figure 0007386977000118
は、(n+1)h間隔を交差させることにより正である。点xが与えられた場合、(n+1)基底関数のみが、点xをカバーする範囲にわたってサポートを又は正である可能性のある値を含む。その結果、これらの(n+1)基底関数のみが所与の点xのためにアクティブになる。所与の点xは残りの基底関数が非ゼロの範囲外にあるため、所与の点xでは、残りの基底関数はゼロ(0)である。3つのカラーチャンネル又は次元のTPB基底関数を構築するために、全てのBスプライン基底関数ではなく、むしろ(n+1)Bスプライン基底関数のみがアクティブになる。これは、Bスプライン基底関数の(元の)総数(D=D ・D ・D )からの潜在的に多数の乗算を大幅に低減する。
デコーダの実施
図1Bは、1つ以上のコンピュータプロセッサを有するビデオコンテンツプロセッサ(例えば、デコーダ、エンコーダ、トランスコーダ等)で実施され得る、TPBクロスチャンネル予測のための例示の処理ブロックを示す。これらの処理ブロックの一部又は全部は、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせで実施され得る。
ブロック192は、各チャンネル又は次元においてBスプライン基底関数
[外46]
Figure 0007386977000119
を準備し、Yチャンネル又は次元で各基底関数からDの異なる値を出力し、Cbチャンネル又は次元で各基底関数からDcbの異なる値を出力し、Crチャンネル又は次元で各基底関数からDcrの異なる値を出力するTPB基底生成演算を含む。各チャンネル又は次元には(n+1)の非ゼロ値しかないため、非ゼロ信号又は値のみを出力すれば、3チャンネル又は寸法からは3*(n+1)の非ゼロ信号又は値しかない。このブロックにおける動作は、Bスプライン基底関数のノット点が予め設定されているか、固定されているか又は利用可能である限り、ビデオコンテンツ又は画像メタデータが受信されるのを待つことなく、予め設定されいるか、固定されいるか及び/又は予め実行され得る。
ブロック194は、一次元Bスプライン基底関数からのクロス積乗算を行って、以下のようにより高次元のTPB基底関数を構築するTPBクロス積演算を含む。
Figure 0007386977000120
Figure 0007386977000121
各チャンネル又は次元には(n+1)の非ゼロ値があるため、(n+1)の乗算及びブロック194から(n+1)の出力がある。このブロックでの動作は固定され得るが、TPB予測に使用されるインデックス(又は複数のインデックス)は追跡する必要があり得る。
ブロック196は、ブロック194から出力された非ゼロ値を、受信されたビデオ信号でビデオコンテンツと共に届けられた画像メタデータ(例えば、コンポーザーメタデータ)から読み出された予測パラメータ/係数
[外47]
Figure 0007386977000122
で乗算するTPB係数乗算動作を含む。最終予測値
[外6]
Figure 0007386977000123
[外48]
Figure 0007386977000124
及び
[外49]
Figure 0007386977000125
を生成するために、各高次元基底関数を重み付けする(n+1)の乗法と、全ての値を合計する加算があり、以下のようになる。
Figure 0007386977000126
Figure 0007386977000127
ここで、CはC0又はC1のいずれかを表す。
ブロック196における動作は、基底インデックス及びパラメーターインデックスを動的に識別及び/又は割り当て得る。
図1C及び図1Dは、図1Bのブロック192におけるTPB基底生成動作の例の実施を示す。
図1Cは、TPB基底関数出力を表すテンソル積を生成するために用いることができるBスプライン基底関数出力の生成の例示の方程式ベースの実施を示す。一部の動作シナリオでは、図1Cの方程式ベースの実施は、一次~三次Bスプライン基底関数のための式(36)~(38)のいずれかに基づき得る。一部の動作シナリオでは、図1Cの方程式ベースの実施は、一次~三次以外の次数のBスプライン基底関数のための式(36)~(38)と同様の打ち切り多項式に基づき得る。
図1Cに示すように、t番目のBスプライン基底関数(上記式(24)でTPB基底関数を形成するために用いられ得る)の出力値は、入力x(例えば、色空間のチャンネル又は次元における参照符号語を近似するターゲット符号語が少なくとも部分的に基づいて予測される入力又はソース符号語等)及び(例えば、固定等の)ノット点kt,i等のBスプライン基底関数パラメータ及びノット乗算パラメータcを用いて計算することができる。そして、対応するTPB基底関数の出力値はBスプライン基底関数の出力値のテンソル積として生成することができる。
一部の動作シナリオでは、図1Cの方程式ベースの実施は、並列で実行される比較的多数のインスタンス又はスレッドにインスタンス化できる。一部の動作シナリオでは、ハードウェア(例えば、この方程式ベースのアプローチを実施する処理ロジック又はプロセッサ等)が比較的高い周波数で動作する場合、異なる基底関数パラメータをロードすることにより、図1Cの方程式ベースの実施を、例えば単一のスレッド又は比較的少数のスレッドで再利用できる。
図1Dに示すように、各Bスプライン基底関数の出力はローカルレジスタに記憶できる。上述したように、対応する数のBスプライン基底関数からは(n+1)の非ゼロ出力しかない。そのため、与えられた入力値xに対して、(n+1)の基底関数の出力を完了するだけでよい。
選択された(n+1)の非ゼロ出力は、内部ノット点の数が2プラス1のべき乗であれば、最上位ビット又はMSBを用いて素早くインデックス化することができる。次に、2つ(例えば、連続する、隣接する等)の内部ノット点{kt,i}の間の間隔は単純に2のべき乗である。特定の出力及び非ゼロ出力の数は、MSBビットを用いて単純に識別できる。
加えて、任意で又は代替的に、Bスプライン基底関数の出力は、方程式ベースの実施に加えて又はその代わりに、ルックアップテーブルベース(LUT)のものであってもよい。例えば、一部の動作シナリオでは、1D Bスプライン基底関数毎に1D-LUTを構築できる。例えば、いくつかのLUTエントリ(例えば、D +D +D の合計等)の数が各チャンネル又は次元のためにそれぞれ記憶され得る。キャッシュ又はメモリ容量が比較的十分に大きい場合、Dyの基底関数の全てのためのエントリが同時に記憶され得る。なお、均一に分布したノット点により、各チャンネル又は次元に沿ったBスプライン基底関数は、図3A~図3Dに示すBスプライン基底関数のうちの1つを単純にシフトしたバージョンである。この特性は、ハードウェア及びソフトウェア設計の双方及びメモリ容量及び計算の両方において、比較的効率的な解決策を可能にするために利用され得る。Bスプライン関数の出力は、複数のオフセットに基づいて入力にシフト演算を適用することによって生成され得る。結果として、1D-LUTは、全入力値(例えば、信号、符号語等)範囲全体をカバーする代わりに、(n+1)hの間隔をカバーするだけでよく、それにより必要とされるLUTエントリの数を大幅に低減することができる。追加又は実施するための唯一の追加のロジックは、オフセットのシフト演算であり得る。ハードウェア又はプロセッサが比較的高い周波数で動作可能な場合、同じチャンネル又は次元における異なるBスプライン基底関数の出力の生成は、同じ処理ロジックを例えば異なるオフセットと共有できる。
図1E及び図1Fは、図1Bのブロック194におけるTPBクロス積動作の例示の実施を示す。
図1Eは、並列モードにおけるTPBクロス積動作の例を示す。図1Eに示すように、チャンネル又は次元毎に、(n+1)の出力が各チャンネルのBスプライン基底関数から生成される。チャンネル又は次元毎に、ブロック194におけるTPBクロス積動作は、それぞれの(n+1)の出力に対して(n+1)の乗算を行い、乗算(又はテンソル積)の結果をTPBクロス積出力(例えば、式(24)に示されるように)として、例えば出力レジスタに記憶する。次に、TPBクロス積出力は、式(34)を用いて、例えばビデオ信号で受信されるか又はビデオ信号からデコードされた画像メタデータからの予測係数(例えば、
[外50]
Figure 0007386977000128
等)と乗算するために(例えば、エンコーダ生成、上流のビデオコンテンツプロセッサによる生成等)ブロック196に提供される。
図1Fは、シリアル又はシーケンシャルモードにおける例示のTPBクロス積動作を示す。図1Fに示すように、比較的高周波数の処理ロジックでTPBクロス積動作を比較的高速に行うことができる場合、ブロック194におけるTPBクロス積動作とブロック196におけるTPB係数乗算動作とを併合することができる。ハードウェア能力及びフットプリントに応じて、(n+1)の項をN個(Nは正の整数)のグループに分割することができ、N個のグループのそれぞれは、例えば、「for」ループで(n+1)/N回繰り返すことによりTPBクロス積動作及び対応するTPB係数乗算を完了するために自身の乗数を有する。Nは、限定されないが、速度、ダイサイズ、クロック周波数等を含む特定の設計性能ターゲットを実現するためのハードウェア設計パラメータを表す。
図1G及び図1Hは、ビデオコンテンツの参照コードグレード160における参照符号語を近似するTPB予測(例えば、ターゲット、マッピング等)符号語を含むターゲット又はマップカラーグレードを生成するために、TPB予測をビデオコンテンツの入力又はソースカラーグレード158に適用するための例示のフローチャートを示す。ビデオコンテンツの参照コードグレード(160)に近似する入力又はソースコードグレード(158)から予測されるターゲット又はマップカラーグレードを生成するために、図1G及び図1Hのものと同様のフローチャートがエンコーダ側で実施され得る。これらのフローチャートの一部又は全ては、ソフトウェア、ハードウェア、ソフトウェアとハードウェアとの組み合わせ等で実施してもよく、1つ以上のコンピュータプロセッサによって行われてもよい。
単なる例示として、カラーグレード(158)及び(160)は、YCbCr色空間における4:2:0等のサブサンプリング形式でコード化され得る。4:2:0のサブサンプリング形式では、クロマ又はクロミナンス符号語(Cb及びCr)はルーマ又はルミナンス符号語の4分の1サイズである。TPBクロスチャンネル予測等のクロスカラーチャンネル予測を行うために、符号語のサイズ(又は寸法)は、全ての入力又はソースカラーチャンネルに対して整列(例えば、適宜アップサンプリング、適宜ダウンサンプリング等)され得る。
図1Gに示すように、TPBルミナンス予測のために、ソースカラーグレード(158)のクロマ又はクロミナンス符号語(Cb/Cr)が処理ブロック164によりアップサンプリングされ得る。アップサンプリングされたクロマ符号語は、処理ブロック(164)によってTPB輝度予測ブロック166に出力される。アップサンプリングされたクロマ符号語は、参照カラーグレード(160)におけるルーマ又は輝度符号語を近似するマッピングされた又は再整形されたルーマ又は輝度符号語を予測するために、同じサイズ(又は次元)のソースコードグレード(158)のルーマ又は輝度符号語(Y)との組み合わせでTPB輝度予測ブロック(166)によって用いられ得る。
図1Gに示すように、TPBクロマCb予測のために、ソースカラーグレード(158)のルーマ符号語(Y)は、処理ブロック162によってダウンサンプリングされ得る。ダウンサンプリングされたルーマ符号語は、処理ブロック(162)によってTPBクロマCb予測ブロック168に出力される。ダウンサンプリングされたルーマ符号語は、参照カラーグレード(160)におけるクロマCb符号語を近似するマッピングされた又は再整形されたクロマCb符号語を予測するために、同じサイズ(又は次元)のソースコードグレード(158)のクロマ符号語との組み合わせでTPBクロマCb予測ブロック(168)によって用いられ得る。
図1Gに示すように、TPBクロマCr予測のために、ダウンサンプリングされたルーマ符号語は、処理ブロック(162)によってTPBクロマCr予測ブロック170に出力される。ダウンサンプリングされたルーマ符号語は、参照カラーグレード(160)におけるクロマCr符号語を近似するマッピングされた又は再整形されたクロマCr符号語を予測するために、同じサイズ(又は次元)のソースコードグレード(158)のクロマ符号語との組み合わせでTPBクロマCr予測ブロック(170)によって用いられ得る。
一部の動作シナリオでは、図1Hに示すように、ソースカラーグレード(158)の(例えば、処理ブロック162-1及び162-2等で)ダウンサンプリングされたルーマ符号語から導出されたダウンサンプリングされたルーマ符号語のみが、全てのチャンネルのためのTPB予測及びTPB予測パラメータ又は係数を得るために、全体的なTPB予測ブロック172によって用いられる。これは、輝度ダウンサンプリングのみが用いられるため、メモリ消費が大幅に低減される。
一部の動作シナリオでは、エンコーダ側で、TPB予測パラメータ又は係数は、マッピングされたか又は再整形されたルーマ/クロマ符号語間の差を、参照カラーグレード(160)の整列された(例えば、適宜アップサンプリングされたか、適宜ダウンサンプリングされた)ルーマ/クロマ符号語で最小化する解決策として、TPB予測ブロック(例えば、166、168、170、172等)によって生成され得る。TPB予測パラメータ又は係数は、画像メタデータの一部(例えば、コンポーザーメタデータ)として、下流のビデオコンテンツプロセッサへのビデオ信号にエンコードすることができる。
一部の動作シナリオでは、デコーダ側で、TPB予測パラメータ又は係数は、画像メタデータの一部としてビデオ信号から下流の受信装置によってデコードされ得る。ソースカラーグレード(158)のデコードされたバージョンも、ビデオ信号から装置によってデコードされ得る。TPB予測パラメータ又は係数は、参照カラーグレード(160)に密に近似する再構成されたカラーグレードを表すマッピング又は再整形された画像を生成するために装置によって用いられ得る。マッピング又は再整形された画像は、ソースカラーグレード(158)のデコードされたバージョンとは異なるカラーグレードとして、ディスプレイ装置上でレンダリングされ得る。
加えて、任意で又は代替的に、一部の動作シナリオでは、ノット点の総数及びBスプライン次数は、ルーマ及びクロマチャンネルの両方で同じであり、計算をさらに低減できる。例えば、図1Bに示す3段階の実施では、2つの段階、すなわち、TPB基底生成及びTPBクロス積は、3つのチャンネル又は次元の全てで同じである。そのため、チャンネル間での唯一の違いは、単一の段階でのTPB係数乗算に用いられる異なるTPB予測パラメータ/係数である。なお、一部の他の実施形態又は実施では、性能及び/又は精度を実現する上で追加の柔軟性又はトレードオフを提供するために、異なるカラーチャンネルでノットの数が異なり得る。
3DMTベースTPB予測
一部の動作シナリオでは、TPB予測は、3Dマッピングテーブル(3DMT)技術に基づいて生成される符号語ヒストグラム又は分布を用いて実施され得る。
ビデオコンテンツの第1のカラーグレードのHDR画像等の第1の画像(例えば、入力又はソース画像等)からのi番目の画素の第1のルーマ及びクロマ符号語を含む第1の3Dアレイが
[外51]
Figure 0007386977000129
であるとする。ビデオコンテンツの第2のカラーグレードのSDR画像等の第2の画像(第1の画像に対応するか又は第1の画像と同じ視覚的コンテンツを描写する、例えば参照画像等)からのi番目の画素の第2のルーマ及びクロマ符号語を含む第2の3Dアレイが
[外52]
Figure 0007386977000130
であるとする。
第1のカラーグレードの画像コンテンツを表すために用いられる3つのチャンネルのルーマ及びクロマ符号語値(Y、C及びC)は、各チャンネル又はコンポーネントのために固定数の1Dビン(例えば、第1の固定数Qのルーマビン、第2の固定数Qc0のクロマCbビン、第3の固定数Qc1のクロマCbビン等)にそれぞれカウントされるか又は量子化され得る。固定数の(Q×QC0×QC1)3Dビンを有する、ΩQ,v(ここで、Q=[Q,QC0,QC1)と表記される3Dヒストグラムは、第1のカラーグレードの1Dビンを用いて構成され得る。一部の動作シナリオでは、第1のカラーグレードをエンコードするための全ての可能なルーマ及びクロマ符号語値を含む第1の3チャンネルのルーマ及び符号語クロマ空間は、各チャンネルが固定数の1Dビン(例えば、第1の固定数Qのルーマビン、第2の固定数Qc0のクロマCbビン、第3の固定数Qc1のクロマCbビン等)に均一に分割された(Q×QC0×QC1)3Dビンに均一に分割され得る。
そのため、3DヒストグラムΩQ,vは、各3Dビンがそれぞれのビンインデックスq=q,qC0,qC1により指定できるように、合計(Q・QC0・QC1)ビンを含み、ビンは、3Dビンの境界内に入る3チャンネル量子化値を有する(第1のカラーグレードの)第1の画像の画素数のカウントを表すか又は維持する。
加えて、(第2のカラーグレードの、例えば、第1の画像のマッピングされた画像によって近似される参照画像等)第2の画像の各色成分の合計は、3DヒストグラムΩQ,vの各3Dビンで又はために維持され得る。各3Dビンが、第2の画像の画素のルーマ及びクロマ(C及びC)符号語値の合計を含むように(第2の画像の画素は、そのカウントが同じ3Dビンに記憶される第1の画像の画素に対応する)、
[外53]
Figure 0007386977000131
[外54]
Figure 0007386977000132
及び
[外55]
Figure 0007386977000133
がそれぞれ第2の画像ドメインにおける(参照)ルーマ及びクロマ符号語の合計であるとする。
第1及び第2画像のそれぞれはP個の画素を有すると仮定する。第1のカラーグレードの第1の画像の画素のカウントと、第2のカラーグレードの第2の画像の(第1の画像の画素に対応する)画素の符号語値の合計とを有する3Dビンを生成する例示の手順を以下の表4に示す。
Figure 0007386977000134
[外56]
Figure 0007386977000135
が、3DヒストグラムΩQ,vのq番目のSDRビンの中央を表すとする。これらの中央の値は第1のカラーグレードの全ての画像のために固定されており、予め計算することができる。中央の値が近似される対応する参照又はターゲットHDR値は、以下の表5に示す例示の手順を用いて得られ得る。
Figure 0007386977000136
一部の動作シナリオでは、3DヒストグラムΩQ,vにおいて、それぞれ第1のカラーグレードの第1の画像の画素のための画素カウントが非ゼロの3Dビンが特定及び維持される一方で、それぞれ第1のカラーグレードの第1の画像の画素のための画素カウントがゼロの(又は所与の画素カウント閾値を下回る比較的小さい画素カウントの)他の3Dビンの全ては破棄される。q, q, ...qk-1をk個のそのようなビンであるとする
[外57]
Figure 0007386977000137

[外58]
Figure 0007386977000138
の平均値は、以下の表6に示す例示の手順を用いて計算できる。
Figure 0007386977000139
所与の有効なビンインデックス(例えば、画素カウントが非ゼロのビンインデックス等)の場合、第1のカラーグレードの第1の画像の(ビンインデックスを有する3Dビンの中央の値によって表される)マッピングすべきルーマ及びクロマ符号化値と、マッピングされた画像によって近似されるべき第2のカラーグレードの第2の画像の(対応する画素のルーマ及びクロマ符号語値の合計の平均によって表される)参照ルーマ及びクロマ符号語値とを含むマッピング対は以下のように得られ得る。
Figure 0007386977000140
Figure 0007386977000141
3DMT(又はその下で生成された3Dビン)に基づいて、式(41-2)で表される参照値を近似するために、式(41-1)で表される3Dビンの中央の値からのマッピングされた値
[外59]
Figure 0007386977000142
のTPBクロスチャンネル予測は、以下のように行われる。
Figure 0007386977000143
Figure 0007386977000144
TPB予測子パラメータ又は係数
[外60]
Figure 0007386977000145
は、個々の画素ベースの解におけるものと同様の処理を介して得ることができる。設計マトリクス及びターゲットベクトルは、全ての有効な3Dビンについての全てのマッピング対(例えば、上述の式41等)を含むマッピングテーブルから入力値を取ることによって構築できる。
TPBルーマ予測の場合、設計マトリクス及びターゲットベクトルは以下のように構築できる。
Figure 0007386977000146
Figure 0007386977000147
TPBクロマ予測の場合、設計マトリクス及びターゲットベクトルは以下のように構築できる。
Figure 0007386977000148
Figure 0007386977000149
TPB予測パラメータ又は係数の解は、最小二乗解を用いて、以下のように得ることができる。
Figure 0007386977000150
Figure 0007386977000151
3DMTベースのTPB予測技術は、比較的速い計算速度を提供するために用いることができる。各画像対に対する全てのP個の個々の画素からB及びaマトリクスを構築する代わりに、3Dビンに基づくマッピング対を含むマッピングテーブルからのk個のエントリが使用されてもよい。一部の動作シナリオでは、kは(数百万以上の範囲であり得るPよりもはるかに小さい)数千の範囲内に維持されるか、制約されるか又は選択され得る。計算における節約の桁は3であり得る。
加えて、任意で又は代替的に、3DMTベースのTPB予測技術を使用して、同じ画像内の比較的小さな画像領域/エリアを犠牲にして、画像内の比較的大きな画像領域/エリアを有利にするか又は過度に重み付けし得る多数派及び少数派(majority-and-minority)の問題を緩和又は防止するために用いることができる。3Dビンで表される各色の立方体に比較的公平な重みを持たせることにより、色のアーチファクトを低減し、色の精度を高めるのに役立つ。
シーン/セグメント/線形ベースTPB予測
本明細書で説明するTPB予測は、シーンベース、セグメントベース及び/又は線形ベースのエンコーディングアーキテクチャを用いて行われ得る。
シーンベースのアーキテクチャを用いて、ビデオ信号のビデオコンテンツにおいて描写される1つのシーンにF個の画像/フレームがあると仮定すると、このシーン内の全てのフレームからの全てのB及びaは以下のように合計され得る。
Figure 0007386977000152
Figure 0007386977000153
なお、様々な実施形態では、式(49)又は(50)におけるB及びaは、ビデオコンテンツの異なるカラーグレード間のピクセルベースの又は3DMTベースのマッピングデータのいずれかから構築され得る。
Bマトリクスは、全ゼロ(又は個々に又はセット的に閾値を下回る比較的小さな値)を含む列(及び行)を含む、不明瞭な条件にあり得るため、これらの列(及び行)は、例えば、以下の表7に示す例示の手順を用いてBマトリクスから取り除かれ得る。
Figure 0007386977000154
Figure 0007386977000155
同様に、マトリクスaは、マトリクスBから特定され且つ除外される列(及び行)に対応する行を有する不明瞭な条件にあり得るため、マトリクスaにおけるこれらのエントリは取り除かれ得る。マトリクスaにおけるこれらのエントリを特定するための例示の手順は、以下の表8に示される。
Figure 0007386977000156
シーンベースのTPB予測の解は以下の通りである。
Figure 0007386977000157
(Bマトリックスから特定され且つ除外された列/行に対応するものを含む)全てのTPB予測パラメータ又は係数を生成するための例示の手順を以下の表9に示す。
Figure 0007386977000158
一部の実施形態では、このシーンベースのTPB予測方法は、静的TPBマッピングを特定するか又は導出するために、トレーニング画像対を追加するために適用され得る。
加えて、任意で又は代替として、TPB予測を行うためにセグメントベース及び/又は線形ベースのエンコーディングアーキテクチャが用いられ得る。例えば、一部の動作シナリオでは、上述のシーンベースのTPB予測技術で用いたもの同様の技術で、スライディングウィンドウアプローチがセグメント/線形ベースのアーキテクチャで用いられる。シーンベースのTPB予測技術等は、「シーン」をスライディングウィンドウとして又は逆として単に取り扱うことによりスライディングウィンドウで適用することができる。
画像メタデータエンコーディング/デコーディングシンタックス及びセマンティクス
TPB予測パラメータ又は係数を含む画像メタデータをエンコード及び/又はデコードするために、広範なシンタックス及びセマンティクスが用いられ得る。TPBパラメータ又は係数を含む画像メタデータをエンコーディング/デコーディングするための例示のシンタックス及びセマンティクスを以下の表10に示す。
Figure 0007386977000159
表10において、「x」及び「y」は、画像/フレームが分割される画像ブロックの二次元インデックスを表し、「cmp」は、TPBパラメータが関連する色空間成分又はチャンネルの数を表す。
表10におけるコーディングシンタックスで用いられるルーピング変数の一部は、次のように定義される。
Figure 0007386977000160
表10のコーディングシンタックスでエンコード/デコードされる一部の(例えば、インデックスゴロムコード等として差分符号化で表される)要素のセマンティクスは以下のように定義される。
-tpb_num_not_minus1[y][x][cmp][k]は、k番目のチャンネルにおける1を差し引いたノットの数を規定する。
-tpb_order_minus1[y][x][cmp][k]は、1を差し引いたTPB次数を規定する。
-tpb_zero_coef[y][x][cmp][i][j][k]は、係数がゼロかどうかを規定する。
-tpb_int[y][x][cmp][i][j][k]は、coefficient_data_type=0の場合にfp_ tpb_coef[y][x][cmp][i][j][k]の整数部分を規定する。coefficient_data_type=1の場合、tpb_int[y][x][cmp][i][j][k]は存在しない。(例えば、fp_tpb_coef[y][x][cmp][i][j][k]は、coefficient_data_type=0の場合に、mapping_idc[y][x][cmp]に関連する対応するTPB基底関数iの重み係数(例えば、mTPB,y,(opt)、mTPB,C0,(opt)、mTPB,C1,(opt)等)を導出するために用いられ得る。)
-tpb_coef[y][x][cmp][i]は、coefficient_data_type=0の場合に、fp_tpb_coef[y][x][cmp][i][j][k]の分数部分を規定する。coefficient_data_type=1の場合、tpb_coef[y][x][cmp][i][j][k]は、mapping_idc[y][x][cmp]に関連する利得係数又は重み係数を導出するために用いられる。coefficient_data_type=0の場合、tpb_coef[y][x][cmp][i][j][k]シンタックス要素の長さは、coefficient_log2_denomビットである。coefficient_data_type=1の場合、tpb_coef[y][x][cmp][i][j][k]シンタックス要素の長さは32ビットである。mapping_idc[y][x][cmp]に関連する正規化における利得係数又は重み係数の値は以下のように導出される。
・coefficient_data_type=0の場合、重み係数又は利得係数の値は、fp_ tpb_coef[y][x][cmp][i][j][k] =(tpb_int[y][x][cmp][i][j][k] << coefficient_log2_denom) + tpb_coef[y][x][cmp][i][j][k]と等しく、ここで、「<<」はシフト演算を表す。
・coefficient_data_type=1の場合、重み付け係数又は利得係数の値はtpb_coef[y][x][cmp][i][j][k]と等しい。
例示のプロセスフロー
図4Aは、本発明の一実施形態に係る例示のプロセスフローを示す。一部の実施形態では、1つ以上のコンピューティング装置又はコンポーネント(例えば、エンコーディング装置/モジュール、トランスコーディング装置/モジュール、デコーディング装置/モジュール、逆トーンマッピング装置/モジュール、トーンマッピング装置/モジュール、メディア装置/モジュール、逆マッピング生成及びアプリケーションシステム等)がこのプロセスフローを行い得る。ブロック402で、画像処理システムはテンソル積Bスプライン(TPB)基底関数のセットを決定する。
ブロック404では、画像処理システムは、ソースカラーグレードの1つ以上のソース画像におけるソース画像データから1つ以上のマッピングされた画像において予測画像データを生成するために、TPB基底関数のセットと共に用いられるべき選択されたTPB予測パラメータのセットを生成する。選択されたTPB予測パラメータのセットは、1つ以上のマッピングされた画像における予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することにより生成される。1つ以上の参照画像は1つ以上のソース画像に対応し、1つ以上のソース画像によって描写されるものと同じ視覚コンテンツを描写する。
ブロック406では、画像処理システムは、画像メタデータの一部として、1つ以上のソース画像内のソース画像データと共に、選択されたTPB予測パラメータのセットをビデオ信号にエンコードする。
ブロック408では、画像処理システムは、ビデオ信号の受信装置で1つ以上のマッピングされた画像が再構築され、レンダリングされるようにする。
一実施形態では、ソース画像データ又は参照画像データのうちの少なくとも1つは、色空間のサブサンプリング形式で表される。
一実施形態では、1つ以上のソース画像は、メディアプログラム内の視覚シーンを構成する画像、スライディングウィンドウ内で選択される画像、線形セグメント内で選択される画像等のうちの1つを表す。
一実施形態では、TPB基底関数のセットは、Bスプライン基底関数の1つ以上のセットのテンソル積によって生成され、Bスプライン基底関数の1つ以上のセットのうちのBスプライン基底関数の各セットは、色空間の1つ以上のカラーチャンネルのそれぞれのカラーチャンネルに対応する。
一実施形態では、Bスプライン基底関数の1つ以上のセットのうちのBスプライン基底関数の少なくとも1つのセットは、特定の次数の完全なBスプライン基底関数を表す。
一実施形態では、Bスプライン基底関数の1つ以上のセットは、打ち切り多項式及び均一に分布したノット点のセットを用いて生成されるBスプライン基底関数のセットを含む。
一実施形態では、選択されたTPB予測パラメータのセットとTPB基底関数のセットとの組み合わせは、1つ以上のマッピングされた画像における予測画像データを生成するためのクロスチャンネル予測子を表す。
一実施形態では、TPB予測パラメータのセットは複数のマッピング対を用いて生成され、マッピング対のそれぞれは、ソース画像データから生成された1つ以上のソース符号語の第1のアレイと、参照画像データから生成された1つ以上の参照符号語の第2のアレイとを含む。
一実施形態では、複数のマッピング対は、3次元マッピングテーブル(3DMT)に基づいて生成される。
図4Bは、本発明の一実施形態に係る例示のプロセスフローを示す。一部の実施形態では、1つ以上のコンピューティング装置又はコンポーネント(例えば、エンコーディング装置/モジュール、トランスコーディング装置/モジュール、デコーディング装置/モジュール、逆トーンマッピング装置/モジュール、トーンマッピング装置/モジュール、メディア装置/モジュール、予測モデル及び特徴選択システム、逆マッピング生成及びアプリケーションシステム等)がこのプロセスフローを行い得る。ブロック452では、ビデオ復号システムは、ビデオ信号から、第1のカラーグレードの1つ以上の第1の画像をデコードする。
ブロック454では、ビデオデコーディングシステムは、ビデオ信号から、テンソル積Bスプライン基底関数のセットと乗算するための選択されたTPB予測パラメータのセットを含む画像メタデータをデコードする。
選択されたTPB予測パラメータのセットは上流のビデオコンテンツプロセッサによって生成され、選択されたTPB予測パラメータのセットは、第1のカラーグレードの1つ以上の第1の画像における第1の画像データから1つ以上のマッピングされた画像における予測画像データを生成するために、TPB基底関数のセットと共に用いられる。上流のビデオコンテンツプロセッサは、1つ以上のマッピングされた画像における予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することにより、選択されたTPB予測パラメータのセットを生成した。1つ以上の参照画像は、1つ以上の第1の画像に対応し、1つ以上の第1の画像によって描写されるものと同じ視覚コンテンツを描写する。
ブロック456では、ビデオデコーディングシステムは、1つ以上の第1の画像から1つ以上のマッピングされた画像を生成するために、TPB基底関数のセットと共にTPB予測パラメータのセットを用いる。
ブロック458では、ビデオデコーディングシステムは、1つ以上のマッピングされた画像から導出された1つ以上の表示画像をディスプレイ装置でレンダリングさせる。
一実施形態では、ビデオデコーディングシステムは、複数のBスプライン基準関数出力値を生成することと、複数のTPB基準関数出力値を生成するために、複数のBスプライン基準関数出力値にクロス積演算を適用することにより、複数のTPB基準関数出力値のセットを生成することと、ビデオ信号からデコードされたTPB予測パラメータのセットを複数のTPB基準関数出力値のセットで乗算して、予測符号語のセットを生成することとを行うようにさらに構成されている。
一実施形態では、選択されたTPB予測パラメータのセットは、TPB基底関数のセットにおける対応するTPB基底関数について、複数の重み係数のうちのそれぞれの重み係数を保持することをサポートするコーディングシンタックスにおいて、複数の重み係数としてエンコードされる。
一実施形態では、ディスプレイ装置、モバイル装置、セットトップボックス、マルチメディア装置等のコンピューティング装置は、前述の方法のいずれかを行うように構成されている。一実施形態では、装置はプロセッサを含み、前述の方法のいずれかを行うように構成されている。一実施形態では、非一時的コンピュータ読み取り可能記憶媒体は、1つ以上のプロセッサによって実行されると、前述の方法のいずれかを行わせるソフトウェア命令を記憶する。
一実施形態では、コンピューティング装置は、1つ以上のプロセッサと、1つ以上のプロセッサによって実行された場合に前述の方法のいずれかを行わせる命令のセットを記憶する1つ以上の記憶媒体とを含む。
なお、本明細書では別個の実施形態を説明しているが、本明細書で説明する実施形態及び/又は部分的な実施形態の任意の組み合わせは、さらなる実施形態を形成するために組み合わされ得る。
例示のコンピュータシステムの実施
本発明の実施形態は、コンピュータシステム、電子回路及びコンポーネントで構成されるシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、または他の構成可能又はプログラム可能なロジックデバイス(PLD)、離散時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)等の集積回路(IC)及び/又はこれらのシステム、デバイス又はコンポーネントのうちの1つ以上を含む装置を用いて実施することができる。コンピュータ及び/又はICは、本明細書で説明する、拡張されたダイナミックレンジで画像の適応知覚量子化に関する命令を行うか、制御するか又は実行し得る。コンピュータ及び/又はICは、本明細書で説明する適応知覚量子化プロセスに関連する様々なパラメータ又は値のいずれかを計算し得る。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア及びそれらの様々な組み合わせで実施され得る。
本発明の特定の実施はコンピュータプロセッサを含み、コンピュータプロセッサは、該プロセッサに本開示の方法を行わせるソフトウェア命令を実行する。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダ等における1つ以上のプロセッサは、プロセッサにアクセス可能なプログラムメモリ内のソフトウェア命令を実行することにより、上述のHDR画像の適応知覚量子化に関連する方法を実施し得る。本発明の実施形態は、プログラム製品の形態でも提供され得る。プログラム製品は、データプロセッサによって実行された場合に、データプロセッサに本発明の実施形態の方法を実行させる命令を含む一式のコンピュータ読み取り可能信号を運ぶ任意の非一時的媒体を含み得る。本発明の実施形態に係るプログラム製品は多種多様な形態のいずれかであり得る。プログラム製品は、例えば、フロッピーディスケットを含む磁気データ記憶媒体、ハードディスクドライブ、CD-ROM、DVDを含む光データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体等の物理媒体を含み得る。プログラム製品上のコンピュータ読み取り可能信号は、任意で圧縮又は暗号化され得る。
コンポーネント(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路等)が上記で言及されている場合、別段の指示がない限り、そのコンポーネントへの言及(「手段」への言及を含む)は、本発明の説明した例示の実施形態における機能を行う開示した構造と構造的に同等でないコンポーネントを含む、説明したコンポーネントの機能を行う任意のコンポーネント(例えば、機能的に同等の)を含む、当該コンポーネントの等価物を含むものと解釈すべきである。
一実施形態によれば、本明細書で説明する技術は、1つ以上の専用コンピューティング装置によって実施される。専用コンピューティング装置は技術を行うために配線接続されているか又は技術を行うために永続的にプログラムされた1つ以上の特定用途向け集積回路(ASIC)又はフィールドプログラマブルゲートアレイ等のデジタル電子装置を含み得るか又はファームウェア、メモリ、他の記憶装置又は組み合わせのプログラム命令に従って技術を行うようにプログラムされた1つ以上の汎用ハードウェアプロセッサを含み得る。そのような専用コンピューティング装置は、技術を実現するために、カスタムハードワイヤードロジック、ASIC又はFPGAをカスタムプログラミングと組み合わされ得る。専用コンピューティング装置は、デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルドデバイス、ネットワーキングデバイス又は技術を実施するためにハードワイヤード及び/又はプログラムロジックが組み込まれた他の任意の装置であり得る。
例えば、図5は、本発明の一実施形態が実施され得るコンピュータシステム500を示すブロック図である。コンピュータシステム500は、情報を通信するためのバス502又は他の通信メカニズムと、情報を処理するためにバス502に連結されたハードウェアプロセッサ504とを含む。ハードウェアプロセッサ504は、例えば汎用マイクロプロセッサであり得る。
コンピュータシステム500は、プロセッサ504によって実行される情報及び命令を記憶するために、バス502に連結されたランダムアクセスメモリ(RAM)又は他の動的記憶装置等のメインメモリ506も含む。メインメモリ506は、プロセッサ504によって実行される命令の実行の間に一時変数又は他の中間情報を記憶するためにも用いられ得る。そのような命令は、プロセッサ504にアクセス可能な非一時的記憶媒体に記憶された場合、コンピュータシステム500を、命令に指定された動作を実行するようにカスタム化された専用マシンにする。
コンピュータシステム500は、プロセッサ504のための静的情報及び命令を記憶するために、バス502に連結された読み取り専用メモリ(ROM)508又は他の静的記憶装置をさらに含む。磁気ディスク又は光ディスク等の記憶装置510が設けられ、情報及び命令を記憶するためにバス502に連結されている。
コンピュータシステム500は、バス502を介して、コンピュータユーザに情報を表示するために、液晶ディスプレイ等のディスプレイ512に連結され得る。英数字及び他のキーを含む入力装置514は、プロセッサ504に情報及びコマンド選択を通信するためにバス502に連結されている。別のタイプのユーザ入力装置は、プロセッサ504に方向情報及びコマンド選択を通信し、ディスプレイ512上でカーソルの動きを制御するためのマウス、トラックボール又はカーソル方向キー等のカーソル制御装置516である。この入力装置は、典型的には、装置が平面内の位置を指定できるようにする第1の軸(例えば、x)及び第2の軸(例えば、y)の2つの軸において2つの自由度を有する。
コンピュータシステム500は、コンピュータシステムとの組み合わせで、コンピュータシステム500を専用マシンにするか又はプログラムするカスタム化されたハードワイヤードロジック、1つ以上のASIC又はFPGA、ファームウェア及び/又はプログラムロジックを用いて、本明細書に記載の技術を実施し得る。一実施形態によれば、本明細書に記載の技術は、プロセッサ504がメインメモリ506に含まれる1つ以上の命令の1つ以上のシーケンスを実行することに応答して、コンピュータシステム500によって行われる。そのような命令は、記憶装置510等の別の記憶媒体からメインメモリ506に読み出され得る。メインメモリ506に含まれる命令のシーケンスの実行により、プロセッサ504は、本明細書に記載のプロセスステップを行う。代替的な実施形態では、ハードワイヤード回路が、ソフトウェア命令の代わりに又はソフトウェア命令との組み合わせで用いられ得る。
本明細書で用いられる「記憶媒体」という用語は、マシンを特定の態様で動作させるデータ及び/又は命令を記憶する任意の非一時的媒体をいう。そのような記憶媒体は、不揮発性媒体及び/又は揮発性媒体を含み得る。不揮発性媒体は、例えば、記憶装置510等の光ディスク又は磁気ディスクを含む。揮発性媒体は、メインメモリ506等の動的メモリを含む。記憶媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ又は他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学データ記憶媒体、孔のパターンを有する任意の物理媒体、RAM、PROM及びEPROM、FLASH(登録商標)-EPROM、NVRAM、他の任意のメモリチップ又はカートリッジが挙げられる。
記憶媒体は、伝送媒体とは異なるが、伝送媒体と共に用いられ得る。伝送媒体は、記憶媒体間の情報の転送に関与する。例えば、伝送媒体は、バス502を構成するワイヤを含む同軸ケーブル、銅線及び光ファイバを含む。伝送媒体は、無線波及び赤外線データ通信の間に発生されるもの等の音波又は光波の形態をとることもできる。
1つ以上の命令の1つ以上のシーケンスを実行のためにプロセッサ504に運ぶ上で、様々な形態の媒体が関与し得る。例えば、命令は、最初に遠隔コンピュータの磁気ディスク又はソリッドステートドライブ上で保持され得る。遠隔コンピュータは、そのダイナミックメモリに命令をロードし、モデムを用いて電話回線を介して命令を送信することができる。コンピュータシステム500に固有のモデムは電話回線を介してデータを受信し、赤外線送信機を用いてデータを赤外線信号に変換できる。赤外線検出器は、赤外線信号で運ばれたデータを受信でき、適切な回路はバス502上にデータを置くことができる。バス502はデータをメインメモリ506に運び、プロセッサ504はメインメモリ506から命令を取り出して実行する。メインメモリ506によって受信された命令は、任意で、プロセッサ504による実行の前又は後のいずれかで、記憶装置510に記憶され得る。
コンピュータシステム500は、バス502に連結された通信インターフェイス518も含む。通信インターフェイス518は、ローカルネットワーク522に接続されたネットワークリンク520への双方向データ通信連結を提供する。例えば、通信インターフェイス518は、統合サービスデジタルネットワーク(ISDN)カード、ケーブルモデム、衛星モデム又は対応する種類の電話回線にデータ通信接続を提供するモデムであり得る。別の例として、通信インターフェイス518は、互換性のあるLANにデータ通信接続を提供するためのローカルエリアネットワーク(LAN)カードであり得る。無線リンクも実施され得る。そのような実施では、通信インターフェイス518は、様々な種類の情報を表すデジタルデータストリームを運ぶ電気信号、電磁信号又は光信号を送受信する。
ネットワークリンク520は、典型的には、1つ以上のネットワークを介して他のデータ装置にデータ通信を提供する。例えば、ネットワークリンク520は、ローカルネットワーク522を介してホストコンピュータ524に又はインターネットサービスプロバイダ(ISP)526によって運用されるデータ装置に接続を提供し得る。次に、ISP526は、現在一般に「インターネット」528と呼ばれる世界的なパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク522及びインターネット528の双方は、デジタルデータストリームを運ぶ電気信号、電磁信号又は光信号を用いる。コンピュータシステム500への及びからのデジタルデータを運ぶ、様々なネットワークを介した信号及びネットワークリンク520上の及び通信インターフェイス518を介した信号は伝送媒体の例示の形態である。
コンピュータシステム500は、ネットワーク、ネットワークリンク520及び通信インターフェイス518を介して、メッセージを送信し、プログラムコードを含むデータを受信できる。インターネットの例では、サーバ530は、インターネット528、ISP526、ローカルネットワーク522及び通信インターフェイス518を介して、アプリケーションプログラムのための要求されたコードを送信し得る。
受信されたコードは、それが受信されたときに及び/又は後の実行のために記憶装置510若しくは他の不揮発性記憶装置に記憶されたときにプロセッサ504によって実行され得る。
均等物、拡張、代替物及びその他
上記の詳述では、実施ごとに異なり得る数多くの具体的な詳細を参照して、本発明の実施形態を説明してきた。そのため、本発明のクレームされた実施形態の唯一且つ排他的な指標であって、出願人が意図する本発明のクレームされた実施形態は、本願に由来し、後の訂正を含む、クレームが由来する特定の形式の一式のクレームである。そのようなクレームに含まれる用語について本願において明示的に記載される定義は、クレームで用いられる用語の意味に適用されるものとする。したがって、クレームに明示的に記載されていない限定、要素、特性、特徴、利点又は属性は、そのようなクレームの範囲を決して限定すべきではない。したがって、本明細書及び図面は、制限的な意味ではなく例示的な意味で考えられるべきである。
列挙される例示の実施形態
本発明は、限定されないが、本発明の実施形態のいくつかの部分の構造、特徴及び機能を説明する以下の列挙される例示の実施形態(EEE)を含む、本明細書で説明した形態のいずれかで実施され得る。
EEE1
テンソル積Bスプライン(TPB)基底関数のセットを決定することと、
ソースカラーグレードの1つ以上のソース画像におけるソース画像データから1つ以上のマッピングされた画像における予測画像データを生成するために、前記TPB基底関数のセットと共に用いられるべき選択されたTPB予測パラメータのセットを生成することであって、該選択されたTPB予測パラメータのセットは、前記1つ以上のマッピングされた画像における予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することによって生成され、該1つ以上の参照画像は前記1つ以上のソース画像に対応し、前記1つ以上のソース画像によって描写されるものと同じ視覚コンテンツを描写する、ことと、
前記選択されたTPB予測パラメータのセットを、前記1つ以上のソース画像におけるソース画像データと共に画像メタデータの一部としてビデオ信号にエンコードすることと、
前記1つ以上のマッピングされた画像が前記ビデオ信号の受信装置で再構築及びレンダリングされるようにすることと、
を含む方法。
EEE2
前記ソース画像データ又は前記参照画像データの少なくとも1つは、色空間のサブサンプリング形式で表される、EEE1の方法。
EEE3
前記1つ以上のソース画像は、メディアプログラムにおける視覚シーンを構成する画像、スライディングウィンドウ内で選択される画像又は線形セグメント内で選択される画像のうちの1つを表す、EEE1又は2の方法。
EEE4
前記TPB基底関数のセットは、Bスプライン基底関数の1つ以上のセットのテンソル積により生成され、該Bスプライン基底関数の1つ以上のセットの各うちのBスプライン基底関数の各セットは、色空間の1つ以上のカラーチャンネルにおけるそれぞれのカラーチャンネルに対応する、EEE1乃至3のいずれかの方法。
EEE5
前記Bスプライン基底関数の1つ以上のセットのうちのBスプライン基底関数の少なくとも1つのセットは、特定の次数のBスプライン基底関数の完全なセットを表す、EEE4の方法。
EEE6
前記Bスプライン基底関数の1つ以上のセットは、打ち切り多項式及び均一に分布されたノット点のセットを用いて生成されたBスプライン基底関数のセットを含む、EEE4又は5の方法。
EEE7
前記選択されたTPB予測パラメータのセットと前記TPB基底関数のセットとの組み合わせは、前記1つ以上のマッピングされた画像における前記予測画像データを生成するためのクロスチャンネル予測子を表す、EEE1乃至6のいずれかの方法。
EEE8
前記TPB予測パラメータのセットは複数のマッピング対を用いて生成され、該複数のマッピング対のそれぞれは、前記ソース画像データから生成された1つ以上のソース符号語の第1のアレイと、前記参照画像データから生成された1つ以上の参照符号語の第2のアレイとを含む、EEE1乃至7のいずれかの方法。
EEE9
前記複数のマッピング対は、3次元マッピングテーブル(3DMT)に基づいて生成される、EEE8の方法。
EEE10
第1のカラーグレードの1つ以上の第1の画像を、ビデオ信号からデコーディングすることと、
テンソル積Bスプライン(TPB)基底関数のセットと乗算するための選択されたTPB予測パラメータのセットを含む画像メタデータを、前記ビデオ信号からデコーディングすることと、
前記TPB基底関数のセットと共に前記TPB予測パラメータのセットを用いて、前記1つ以上の第1の画像から1つ以上のマッピングされた画像を生成することと、
前記1つ以上のマッピングされた画像から導出された1つ以上の表示画像がディスプレイ装置でレンダリングされるようにすることと、
を含む方法。
EEE11
選択されたTPB予測パラメータのセットは、上流のビデオコンテンツプロセッサによって生成されたものであり、前記選択されたTPB予測パラメータのセットは、第1のカラーグレードの1つ以上の第1の画像における第1の画像データから1つ以上のマッピングされた画像データにおける予測画像データを生成するために、前記TPB基底関数のセットと共に用いられるべきものであり、前記上流のビデオコンテンツプロセッサは、前記1つ以上のマッピングされた画像における予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することにより、前記選択されたTPB予測パラメータのセットを生成し、前記1つ以上の参照画像は、前記1つ以上の第1の画像に対応し、前記1つ以上の第1の画像によって描写されるものと同じ視覚コンテンツを描写する、EEE10の方法。
EEE12
複数のBスプライン基底関数出力値を生成することと、
前記複数のBスプライン基底関数出力値にクロス積演算を適用して複数のTPB基底関数出力値を生成することにより、複数のTPB基底関数出力値のセットを生成することと、
前記ビデオ信号からデコードされた前記TPB予測パラメータのセットを、前記複数のTPB基底関数出力値のセットで乗算して、予測符号語のセットを生成することと、
をさらに含む、EEE10の方法。
EEE13
複数のBスプライン基底関数出力値を生成することは、
複数のBスプライン基底関数における各Bスプライン基底関数について、各Bスプライン基底関数を表すために打ち切り多項式で用いるべきノット点及び対応する倍数因子を決定することと、
前記1つ以上の第1の画像におけるデコードされた符号語を前記打ち切り多項式の入力として用いて、各Bスプライン基底関数のための出力値を生成することと、
を含む、EEE12の方法。
EEE14
前記複数のBスプライン基底関数出力値をローカルレジスタに記憶することと、
前記TPB基底関数における各TPB基底関数について、前記複数のBスプライン基底関数出力値のうちの、色空間の各チャンネルにおける(n+1)の非ゼロBスプライン基底関数出力値を特定することであって、nは、複数のBスプライン基底関数の次数を示す、ことと、
前記(n+1)の非ゼロBスプライン基底関数出力値を入力の一部として用いて、前記1つ以上の第1の画像におけるデコードされた符号語から、各TPB基底関数のための出力値を生成することと、
をさらに含む、EEE12の方法。
EEE15
前記1つ以上の第1の画像における各デコードされた符号語について、前記1つ以上のマッピングされた画像における出力符号語を、
前記出力符号語をゼロに開始すること(initiating)と、
前記TPB基底関数における各TPB基底関数について、
色空間の3つのチャンネルにおける各チャンネルのために(n+1)の非ゼロBスプライン基底関数出力値を生成することにより、(n+1)の非ゼロBスプライン基底関数出力値の3つのセットを生成することであって、nは前記複数のBスプライン基底関数の次数を示す、ことと、
(n+1)の非ゼロBスプライン基底関数出力値の3つのセットにクロス積演算を適用して、前記1つ以上の画像における前記デコードされた符号語からTPB基底関数出力値を生成することと、
前記TPB基底関数出力値を前記TPB予測パラメータのセットにおける対応する予測パラメータで乗算することにより積を生成することと、
前記積を出力符号語に加えることと、
を行うことと、
を行うことにより、生成すること、
をさらに含む、EEE12の方法。
EEE16
前記選択されたTPB予測パラメータのセットはコーディングシンタックスにおいて複数の重み係数としてエンコードされ、該コーディングシンタックスは、前記TPB基底関数のセットにおける対応するTPB基底関数のために、前記複数の重み係数におけるそれぞれの重み係数を運ぶのをサポートする、EEE10乃至15のいずれかの方法。
EEE17
EEE1乃至EEE16に記載の方法のいずれか1つを実行するように構成されたコンピュータシステム。
EEE18
プロセッサを含み、EEE1乃至EEE16に記載の方法のいずれか1つを行うように構成された装置。
EEE19
EEE1乃至EEE16に記載の方法のいずれかに従って方法を実行するためのコンピュータ実行可能命令が記憶された非一時的コンピュータ読み取り可能記憶媒体。

Claims (20)

  1. ソースカラーグレードの1つ以上のソース画像におけるソース画像データから、1つ以上のマッピングされた画像の少なくとも1つのカラーチャンネルの予測画像データを生成するために予測パラメータのセットを生成することであって、該1つ以上のマッピングされた画像は、M個(M>1)のカラーチャンネルを含み、
    前記少なくとも1つのカラーチャンネルのための前記予測パラメータのセットを生成することは、
    Bスプライン基底関数のM個のセットのテンソル積に対応するテンソル積Bスプライン(TPB)基底関数のセットを決定することと、
    前記ソースカラーグレードの前記1つ以上のソース画像における前記ソース画像データから前記1つ以上のマッピングされた画像の前記少なくとも1つのカラーチャンネルの予測画像データを生成するために、前記TPB基底関数のセットと共に用いられるべき選択されたTPB予測パラメータのセットを、前記少なくとも1つのカラーチャンネルのための前記予測パラメータのセットとして生成することであって、該選択されたTPB予測パラメータのセットは、前記1つ以上のマッピングされた画像の前記少なくとも1つのカラーチャンネルの予測画像データと、参照カラーグレードの1つ以上の参照画像における参照画像データとの間の差を最小化することによって生成され、該1つ以上の参照画像は前記1つ以上のソース画像に対応し、前記1つ以上のソース画像によって描写されるものと同じ視覚コンテンツを描写する、ことと、
    を含む、ことと、
    前記選択されたTPB予測パラメータのセットを、前記1つ以上のソース画像におけるソース画像データと共に画像メタデータの一部としてビデオ信号にエンコードし、該ビデオ信号の受信装置で前記1つ以上のマッピングされた画像の再構築及びレンダリングを可能にすることと、
    を含む方法。
  2. 前記TPB基底関数のセットを決定することは、
    前記M個のカラーチャンネルのそれぞれのためにBスプライン基底関数のセットを決定することと、
    前記TPB基底関数のセットを、Bスプライン基底関数のセットのそれぞれのテンソル積として決定することと、
    を含む、請求項1に記載の方法。
  3. 前記ソース画像データ又は前記参照画像データの少なくとも1つは、色空間のサブサンプリング形式で表される、請求項1又は2に記載の方法。
  4. 前記1つ以上のソース画像は、メディアプログラムにおける視覚シーンを構成する画像、スライディングウィンドウ内で選択される画像又は線形セグメント内で選択される画像のうちの1つを表す、請求項1乃至3のいずれかに記載の方法。
  5. 前記Bスプライン基底関数のセットのうちの少なくとも1つは、特定の次数のBスプライン基底関数の完全なセットを表す、請求項1乃至4のいずれかに記載の方法。
  6. 前記Bスプライン基底関数のセットのそれぞれは、均一に分布するノット点のセットを用いて生成される、請求項1乃至5のいずれかに記載の方法。
  7. 前記Bスプライン基底関数のセットのそれぞれは、打ち切り多項式を用いて生成される、請求項1乃至6のいずれかに記載の方法。
  8. 前記M個のカラーチャンネルのそれぞれのために選択されたTPB予測パラメータのセットが生成され、少なくとも2つのカラーチャンネルの前記選択されたTPB予測パラメータのセットは、同じTPB基底関数のセットを用いて生成される、請求項1乃至7のいずれかに記載の方法。
  9. 前記選択されたTPB予測パラメータのセットと前記TPB基底関数のセットとの組み合わせは、前記1つ以上のマッピングされた画像における前記予測画像データを生成するためのクロスチャンネル予測子を表す、請求項1乃至8のいずれかに記載の方法。
  10. 前記TPB予測パラメータのセットは複数のマッピング対を用いて生成され、該複数のマッピング対のそれぞれは、前記ソース画像データから生成された1つ以上のソース符号語の第1のアレイと、前記参照画像データから生成された1つ以上の参照符号語の第2のアレイとを含む、請求項1乃至9のいずれかに記載の方法。
  11. 前記複数のマッピング対は、3次元マッピングテーブル(3DMT)に基づいて生成される、請求項10に記載の方法。
  12. 前記ソース画像の画素のソース符号語は固定数のビンに分割され、該ビンのそれぞれについて、それぞれの前記ビンにおける前記ソース画像の画素に対応する参照画像の画素の参照符号語の平均が計算され、前記第1のアレイは、前記ソース符号語のビンの中心値を含み、前記第2のアレイは、前記参照符号語の対応する計算された平均を含む、請求項10又は11に記載の方法。
  13. 第1のカラーグレードの、M個(M>1)のカラーチャンネルを含む1つ以上の第1の画像を、ビデオ信号からデコーディングすることと、
    Bスプライン基底関数のM個のセットのテンソル積に対応するTPB基底関数のセットにアクセスすることと、
    テンソル積Bスプライン(TPB)基底関数のセットと乗算するための選択されたテンソル積Bスプライン(TPB)予測パラメータのセットを含む画像メタデータを、前記ビデオ信号からデコーディングすることと、
    前記TPB基底関数のセットと共に前記TPB予測パラメータのセットを用いて、前記1つ以上の第1の画像から1つ以上のマッピングされた画像を生成することと、
    前記1つ以上のマッピングされた画像から導出された1つ以上の表示画像がディスプレイ装置でレンダリングされるようにすることと、
    を含む方法。
  14. 複数のBスプライン基底関数出力値を生成することと、
    前記複数のBスプライン基底関数出力値にクロス積演算を適用して複数のTPB基底関数出力値を生成することにより、複数のTPB基底関数出力値のセットを生成することと、
    前記ビデオ信号からデコードされた前記TPB予測パラメータのセットを、前記複数のTPB基底関数出力値のセットで乗算して、予測符号語のセットを生成することと、
    をさらに含む、請求項13に記載の方法。
  15. 複数のBスプライン基底関数出力値を生成することは、
    複数のBスプライン基底関数における各Bスプライン基底関数について、各Bスプライン基底関数を表すために打ち切り多項式で用いるべきノット点及び対応する倍数因子を決定することと、
    前記1つ以上の第1の画像におけるデコードされた符号語を前記打ち切り多項式の入力として用いて、各Bスプライン基底関数のための出力値を生成することと、
    を含む、請求項14に記載の方法。
  16. 前記複数のBスプライン基底関数出力値をローカルレジスタに記憶することと、
    前記TPB基底関数における各TPB基底関数について、前記複数のBスプライン基底関数出力値のうちの、色空間の各チャンネルにおける(n+1)個の非ゼロBスプライン基底関数出力値を特定することであって、nは、前記複数のBスプライン基底関数の次数を示す、ことと、
    前記(n+1)個の非ゼロBスプライン基底関数出力値を入力の一部として用いて、前記1つ以上の第1の画像におけるデコードされた符号語から、各TPB基底関数のための出力値を生成することと、
    をさらに含む、請求項14に記載の方法。
  17. 前記1つ以上の第1の画像における各デコードされた符号語について、前記1つ以上のマッピングされた画像における出力符号語を、
    前記出力符号語をゼロに開始することと、
    前記TPB基底関数における各TPB基底関数について、
    色空間の3つのチャンネルにおける各チャンネルのために(n+1)個の非ゼロBスプライン基底関数出力値を生成することにより、(n+1)個の非ゼロBスプライン基底関数出力値の3つのセットを生成することであって、nは前記複数のBスプライン基底関数の次数を示す、ことと、
    (n+1)個の非ゼロBスプライン基底関数出力値の3つのセットにクロス積演算を適用して、前記1つ以上の画像における前記デコードされた符号語からTPB基底関数出力値を生成することと、
    前記TPB基底関数出力値に前記TPB予測パラメータのセットにおける対応する予測パラメータを乗算することにより積を生成することと、
    前記積を前記出力符号語に加えることと、
    を行うことと、
    を行うことにより、生成すること、
    をさらに含む、請求項14に記載の方法。
  18. 前記選択されたTPB予測パラメータのセットはコーディングシンタックスにおいて複数の重み係数としてエンコードされ、該コーディングシンタックスは、前記TPB基底関数のセットにおける対応するTPB基底関数のために、前記複数の重み係数におけるそれぞれの重み係数を運ぶのをサポートする、請求項13乃至17のいずれかに記載の方法。
  19. プロセッサを含み、請求項1乃至18に記載の方法のいずれか1つを行うように構成された装置。
  20. 請求項1乃至18に記載の方法のいずれかに従って方法を実行するためのコンピュータ実行可能命令が記憶された非一時的コンピュータ読み取り可能記憶媒体。
JP2022520205A 2019-10-01 2020-09-29 テンソル積bスプライン予測子 Active JP7386977B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962908770P 2019-10-01 2019-10-01
US62/908,770 2019-10-01
EP19200793 2019-10-01
EP19200793.8 2019-10-01
PCT/US2020/053172 WO2021067204A1 (en) 2019-10-01 2020-09-29 Tensor-product b-spline predictor

Publications (2)

Publication Number Publication Date
JP2022550206A JP2022550206A (ja) 2022-11-30
JP7386977B2 true JP7386977B2 (ja) 2023-11-27

Family

ID=72802182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022520205A Active JP7386977B2 (ja) 2019-10-01 2020-09-29 テンソル積bスプライン予測子

Country Status (8)

Country Link
US (1) US11962760B2 (ja)
EP (1) EP4038881A1 (ja)
JP (1) JP7386977B2 (ja)
KR (1) KR20220053657A (ja)
CN (1) CN114731426A (ja)
BR (1) BR112022006246A2 (ja)
TW (1) TWI812874B (ja)
WO (1) WO2021067204A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11838531B2 (en) 2019-12-06 2023-12-05 Dolby Laboratories Licensing Corporation Cascade prediction
CN113312821B (zh) * 2021-06-03 2023-01-24 西北工业大学 一种基于b样条密度法的三维自支撑结构拓扑优化设计方法
JP7560701B1 (ja) 2021-09-09 2024-10-02 ドルビー ラボラトリーズ ライセンシング コーポレイション モバイルアプリケーションにおけるhdrビデオについてのテンソル積bスプライン予測
WO2024167857A1 (en) * 2023-02-10 2024-08-15 Dolby Laboratories Licensing Corporation Image compression using tensor-product b-spline representation
WO2024173649A1 (en) * 2023-02-16 2024-08-22 Dolby Laboratories Licensing Corporation Local reshaping using tensor-product b-spline with coordinates wide view video

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524371A (ja) 2006-01-23 2009-06-25 マックス−プランク−ゲゼルシャフト・ツア・フェルデルング・デア・ヴィッセンシャフテン・エー・ファオ 高ダイナミックレンジコーデック
JP2014520414A (ja) 2011-04-14 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数色チャネル多重回帰予測器
JP2015503873A (ja) 2012-01-03 2015-02-02 ドルビー ラボラトリーズ ライセンシング コーポレイション 視覚ダイナミックレンジコード化動作及びパラメータの指定

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU681185B2 (en) * 1993-10-22 1997-08-21 Sony Corporation apparatus and method for recording and reproducing digital video data
US6847737B1 (en) 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
US20050168460A1 (en) 2002-04-04 2005-08-04 Anshuman Razdan Three-dimensional digital library system
KR100819960B1 (ko) 2002-11-06 2008-04-07 지오메트릭 인포매틱스 인코퍼레이티드 등각 구조에 의한 기하학적 표면의 분석 방법
KR101177131B1 (ko) 2003-03-26 2012-08-24 티-스플라인즈, 인크. 국부 정교화를 이용하여 t-스플라인 및 t-nurcc표면을 정의하기 위한 시스템 및 방법
US7346736B1 (en) 2004-12-13 2008-03-18 Sun Microsystems, Inc. Selecting basis functions to form a regression model for cache performance
US20060274070A1 (en) 2005-04-19 2006-12-07 Herman Daniel L Techniques and workflows for computer graphics animation system
US8874477B2 (en) 2005-10-04 2014-10-28 Steven Mark Hoffberg Multifactorial optimization system and method
WO2007100900A2 (en) 2006-02-28 2007-09-07 Ernest Daniel Miller Color management of digital files and images for printing
US9572494B2 (en) 2008-08-12 2017-02-21 New Jersy Institute of Technology Method and apparatus for multi-spectral imaging and analysis of skin lesions and biological tissues
JP5506273B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506272B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
TWI479898B (zh) 2010-08-25 2015-04-01 Dolby Lab Licensing Corp 擴展影像動態範圍
WO2012122426A1 (en) * 2011-03-10 2012-09-13 Dolby Laboratories Licensing Corporation Reference processing for bitdepth and color format scalable video coding
US8903169B1 (en) 2011-09-02 2014-12-02 Adobe Systems Incorporated Automatic adaptation to image processing pipeline
WO2013090120A1 (en) * 2011-12-15 2013-06-20 Dolby Laboratories Licensing Corporation Backwards-compatible delivery of digital cinema content with extended dynamic range
JP2015519016A (ja) 2012-05-14 2015-07-06 ロッサト、ルカ 支持情報に基づく残存量データのエンコードおよび再構成
US10536710B2 (en) * 2012-06-27 2020-01-14 Intel Corporation Cross-layer cross-channel residual prediction
EP3272123B1 (en) * 2015-03-20 2019-06-19 Dolby Laboratories Licensing Corporation Signal reshaping approximation
WO2017044499A1 (en) 2015-09-07 2017-03-16 Sony Interactive Entertainment America Llc Image regularization and retargeting system
CN105389775B (zh) * 2015-10-16 2018-08-17 浙江工业大学 融合图像灰度特征与结构化表示的图像群组配准方法
US10210430B2 (en) 2016-01-26 2019-02-19 Fabula Ai Limited System and a method for learning features on geometric domains
CN107182068A (zh) 2016-03-11 2017-09-19 索尼公司 用于无线通信的装置和方法、参数优化装置和方法
CN108885783B (zh) * 2016-03-23 2022-02-15 杜比实验室特许公司 编码和解码可逆制作质量单层视频信号
EP3437190B1 (en) 2016-03-31 2023-09-06 Cohere Technologies, Inc. Channel acquisition using orthogonal time frequency space modulated pilot signal
WO2018231968A1 (en) * 2017-06-16 2018-12-20 Dolby Laboratories Licensing Corporation Efficient end-to-end single layer inverse display management coding
US10192353B1 (en) 2017-10-10 2019-01-29 8i Limited Multiresolution surface representation and compression
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
US10262451B1 (en) * 2018-04-09 2019-04-16 8i Limited View-dependent color compression
EP3900341A1 (en) 2018-12-18 2021-10-27 Dolby Laboratories Licensing Corporation Machine learning based dynamic composing in enhanced standard dynamic range video (sdr+)

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524371A (ja) 2006-01-23 2009-06-25 マックス−プランク−ゲゼルシャフト・ツア・フェルデルング・デア・ヴィッセンシャフテン・エー・ファオ 高ダイナミックレンジコーデック
US20140086321A1 (en) 2006-01-23 2014-03-27 Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V. High dynamic range codecs
JP2014520414A (ja) 2011-04-14 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数色チャネル多重回帰予測器
JP2015503873A (ja) 2012-01-03 2015-02-02 ドルビー ラボラトリーズ ライセンシング コーポレイション 視覚ダイナミックレンジコード化動作及びパラメータの指定

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Cheung Auyeung 1730 N. First Street San Jose, CA 95112, USA,Color gamut scalable video coding with piecewise linear predictions and shift-offset model[online], JCTVC-N JCTVC-N0271_r1,インターネット<URL:http://phenix.it-sudparis.eu/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N0271-v2.zip>,2013年07月27日,pp.1-6

Also Published As

Publication number Publication date
BR112022006246A2 (pt) 2022-06-21
US11962760B2 (en) 2024-04-16
KR20220053657A (ko) 2022-04-29
US20220408081A1 (en) 2022-12-22
CN114731426A (zh) 2022-07-08
WO2021067204A1 (en) 2021-04-08
EP4038881A1 (en) 2022-08-10
JP2022550206A (ja) 2022-11-30
TWI812874B (zh) 2023-08-21
TW202116072A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109416832B (zh) 高效的基于直方图的亮度外观匹配
JP7386977B2 (ja) テンソル積bスプライン予測子
CN108885783B (zh) 编码和解码可逆制作质量单层视频信号
JP6609056B2 (ja) 高ダイナミックレンジおよび広色域シーケンスの再形成および符号化のためのシステム
KR102380164B1 (ko) 게이밍 및/또는 sdr+ 콘텐츠에 대한 자동 디스플레이 관리 메타데이터 생성
TWI575933B (zh) 階層式視覺動態範圍編碼中之層分解技術
JP6846442B2 (ja) ハイダイナミックレンジ画像のためのクロマ再構成
US10609424B2 (en) Single-layer progressive coding for supporting multi-capability HDR composition
CN105052143A (zh) 对多层vdr译码中的感知量化的视频内容进行编码
JP7443546B2 (ja) 画像処理方法、システム及びコンピュータ・プログラム
EP3306563B1 (en) Inverse luma/chroma mappings with histogram transfer and approximation
WO2020117603A1 (en) Interpolation of reshaping functions
JP2020524446A (ja) 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化
CN114556940A (zh) 视频编解码器中的质量与计算复杂度之间的可调整的折衷
JP7434554B2 (ja) カスケード予測
RU2794137C1 (ru) Предсказатель b-сплайна тензорного произведения
US20240095893A1 (en) Image enhancement via global and local reshaping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220530

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231114

R150 Certificate of patent or registration of utility model

Ref document number: 7386977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150