[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6437096B2 - ビデオ合成 - Google Patents

ビデオ合成 Download PDF

Info

Publication number
JP6437096B2
JP6437096B2 JP2017510316A JP2017510316A JP6437096B2 JP 6437096 B2 JP6437096 B2 JP 6437096B2 JP 2017510316 A JP2017510316 A JP 2017510316A JP 2017510316 A JP2017510316 A JP 2017510316A JP 6437096 B2 JP6437096 B2 JP 6437096B2
Authority
JP
Japan
Prior art keywords
image
video data
data stream
video
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017510316A
Other languages
English (en)
Other versions
JP2017530613A (ja
Inventor
デ ラ フエンテ ヤゴ・シャンチェス
デ ラ フエンテ ヤゴ・シャンチェス
ロベルト・スクピン
トーマス・シェール
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2017530613A publication Critical patent/JP2017530613A/ja
Application granted granted Critical
Publication of JP6437096B2 publication Critical patent/JP6437096B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)

Description

本発明は、1つまたは複数の入力ビデオデータストリームを使用した合成ビデオデータストリームの合成のような、ビデオ合成に関する。
ビデオ会議、ビデオ監視、医療アプリケーション、パノラマストリーミング、広告挿入、ピクチャインピクチャ表示またはビデオオーバーレイのような、いくつかの専用ビデオビットストリームが、同時に復号され、合成された形態でユーザに表示されるいくつかのアプリケーションおよび使用事例が存在する。そのようなアプリケーションの実例として、複数のビデオソースがユーザに提示される交通監視システムがある。そのようなアプリケーションの問題は、多くのデバイスがたった1つのハードウェアビデオ復号器を組み込んでいるか、または、他の様態で計算資源、電力資源および/または他の資源が限られていることである。そのようなデバイスの例は、セットトップボックス(STB)、低コストTVセットまたは電池式モバイルデバイスである。
上記アプリケーションおよび使用事例をそのようなデバイス上で有効化するためには、いくつかの専用ビデオビットストリームを組み込んでいる単一のビデオビットストリームが予め作成されなければならない。そのような単一ビデオビットストリームを達成するために、一般的には、複数の異なるビデオビットストリームが単一のビットストリームへとコード変換される、画素領域ビデオ処理(たとえば、スティッチング、融合または混合のような合成)が適用される。コード変換は、カスケード接続されたビデオ復号器およびビデオ符号化器を使用して実施することができ、これは、入来するビットストリームを復号すること、画素領域において入来するビットストリームから新たなビデオを合成すること、および、新たなビデオを単一のビットストリームへと符号化することを伴う。この方法はまた、非圧縮成領域における処理を含む従来のフルコード変換としても参照され得る。しかしながら、これには多くの欠点がある。第1に、ビデオ情報が繰り返し符号化されることによって、コード化アーティファクトによるさらなる信号品質劣化を招く可能性が高い。第2に、そしてより重要なことに、フルコード変換は、入来するビデオビットストリームおよび出ていくビデオビットストリームが複数回復号および符号化されることによって、計算的に複雑であり、それゆえ、スケーラビリティが低い。
それゆえ、圧縮領域においてビデオスティッチングが実施される別の手法が、[1]において提示されている。[1]の背後にある主要な着想は、符号化器において制約を設定すること、たとえば、画像境界において何らかの動きベクトルおよび動きベクトル予測を無効とすることであり、これによって、混合されるように意図されているすべてのビデオを含む単一のビットストリームを生成するために、種々のビットストリームに適用することができるビットストリーム書き換えプロセスの複雑度を低くすることが可能である。このスティッチング手法は、同様に、フルコード変換よりも計算複雑度が低く、信号品質劣化を招かない。
クラウドサーバインフラストラクチャを使用するビデオ監視システムに関する、そのようなシステムの実例が図23に示されている。見てとれるように、複数のビデオビットストリーム900a〜dが複数の異なる送信機902a〜dによって送信され、クラウド混合器904においてスティッチングされて、単一のビデオビットストリーム906が生成される。
適用されているスティッチングプロセスの背後にある技法のより詳細な説明は、[1]に見出すことができる。
圧縮領域処理は、多くのアプリケーションおよび使用事例に適用することができ、電池寿命および/または実装費用を節約する、より複雑度の低いビデオ処理を可能にする。しかしながら、各アプリケーションの特性が、圧縮領域ビデオ処理に対して、個々の問題を課す。同様に、ビデオ圧縮規格/方式の特性および特徴を利用して、新規のアプリケーションのために低複雑度圧縮領域処理を可能にすることができる。
たとえば、到来するビデオビットストリーム900a〜dから単一のビデオビットストリーム906を合成する方法が、たとえば、合成ビデオビットストリーム906内での到来するビデオビットストリームの再構成、合成ビデオビットストリーム906の画像領域内での特定の入力ビデオビットストリームの空間的変位などのような変化を受けることになる場合、図23の符号化領域スティッチング方式によって十分に対処されない問題が発生する。これらの事例のすべてについて、到来するビデオビットストリームの再構成において、復号/非圧縮領域を介する迂回路を使用することがないように、到来するビデオビットストリーム900a〜900dの個々の画像を互いに時間的に関連付ける時間的動き補償予測が、いかなる時間的動き補償予測も使用せずにイントラピクチャによって表される、到来するビデオビットストリームのランダムアクセスポイントを除いて禁止され、それによって、望ましくないビットレートの瞬間的増大および帯域幅ピークがもたらされることに起因して、図23の合成方式は適切に機能しない。したがって、計算量を一切加えなければ、圧縮領域を出ることなく出力ビデオビットストリーム906の合成を変更する自由度は、いかなる時間的動き補償予測も使用せずに到来するビデオビットストリームのランダムアクセスポイントによって、特定の時点のみにおいて行われるように制限されることになる。しかしながら、到来するビデオビットストリーム900a〜900d内にそのようなランダムアクセスポイントが高い頻度で出現することは、イントラ予測画像において時間予測器がないことに起因してより低い圧縮率を伴う。
[1] Yago Sanchez de la Fuente, Ralf Globisch, Thomas Schierl, and Thomas Wiegand,"Low Complexity Cloud-video-Mixing Using HEVC", Proceedings of IEEE Consumer Communications and Networking Conference, Las Vegas, NV, USA, January 2014. [2] Sullivan, Gary J., et al. "Overview of the high efficiency video coding (HEVC) standard." Circuits and Systems for Video Technology, IEEE Transactions on 22.12 (2012): 1649-1668.
したがって、本発明の目的は、低い計算量において合成ビデオデータストリームの合成の自由度をより高くすることを可能にする、1つまたは複数の入力ビデオデータストリームを使用して合成ビデオデータストリームを合成するための概念を提供することである。
この目的は、添付の独立請求項の主題によって達成される。
本出願の第1の態様によれば、合成ビデオデータストリームは、少なくとも1つの入力ビデオデータストリームを使用して合成され、合成ビデオデータストリームおよび少なくとも1つの入力ビデオデータストリームは、動き補償時間予測を使用して符号化され、ビデオ合成は、少なくとも1つの入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製することにより継承画像の空間部分を充填することによって合成ビデオデータストリームの一連の継承画像を形成するステップであって、空間部分の空間位置は、一連の継承画像の中で、1つの継承画像から次の継承画像へと時間的に変化するステップと、一連の継承画像の継承画像の間で、少なくとも1つの非出力画像を合成ビデオデータストリームへと挿入するステップであって、少なくとも1つの非出力画像は、動き補償時間予測を介して、継承画像のサブセットを参照するステップと、によって実施される。この態様によれば、少なくとも1つの非出力画像を継承画像の間に挿入することによって、計算複雑度の意味において、空間部分の空間位置の時間的変化が軽減される。これを使用すれば、圧縮領域を出る必要性が回避され、少なくとも1つの非出力画像によって、少なくとも1つのビデオデータストリームの画像の間の「誤った参照」を回避することができ、これを使用して、それぞれ空間位置変化の前および後で少なくとも1つの入力ビデオデータストリームの画像を「位置合わせし直す」ことが実現可能である。
本出願のさらなる態様によれば、複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するための概念は、合成ビデオデータストリームになる複数の入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製することによって、複数の入力ビデオデータストリームを多重化して合成ビデオデータストリームの画像の第1の部分にするステップと、動き補償時間予測を介して、合成ビデオデータストリームの第1の部分を参照することによって、照合ビデオによって合成ビデオデータストリームの画像の第2の部分を充填するステップと、を含み、第1の部分は出力されないものとしてシグナリングされ、第2の部分は出力されるものとしてシグナリングされる。第1の態様の着想と一致して、本出願の第2の態様によるビデオ合成は、収集および複製によって充填される合成ビデオデータストリームの一部分と、動き補償時間予測を介して、収集および複製によって得られる合成ビデオデータストリームの他の部分を参照することによって合成的に加えられる別の部分との間で分離する。しかしながら、第2の態様によれば、第2の部分は、実際の収集されるビデオを形成し、出力されるようにシグナリングされる。第1の部分は、動き補償時間予測を使用して合成ビデオデータストリームの第1の部分の特定の下位部分を参照することによって、選択的に合成され得る画像内容に基づき、参照画像内容のある種の容器を単に表している。
したがって、このように1つまたは複数の入力ビデオデータストリームに基づいて実施されるビデオ合成の結果として、ビデオの提示領域にわたって、到来するビデオデータストリームを再構成することが可能であることを必要とせず、または、複数の入力ビデオデータストリームを並行して復号することが可能であることを必要としない、標準的なビデオ復号器によって復号することができる合成ビデオデータストリームがもたらされる。むしろ、このビデオ合成は、コード変換のタスクを仮定し、このコード変換は、1つまたは複数の入力ビデオデータストリームに関して圧縮/符号化領域を出ることを回避し、それによって、計算量を妥当な量のままにする。
本出願の有利な態様は従属請求項の主題である。本出願の好ましい実施形態が、図面に関連して下記に説明される。
一実施形態による、少なくとも1つの入力ビデオデータストリームおよび合成ビデオデータストリームの概略図と共に、ビデオ合成装置の概略ブロック図を示す。 一実施形態による、入力ビデオデータストリームの画像の動き補償サイド情報および予測残差データを収集および複製することによって継承画像の空間部分を充填するプロセスを例示するための、到来するビデオデータストリームの画像と共に、継承画像を示す概略図である。 本出願の実施形態による、非出力画像の空間部分の構築/コード化における可能性を示すための、その空間部分内に、参照画像、非出力置換画像および合成ビデオデータストリームを担持する、継承画像と共に、挿入されている非出力画像を示す概略図である。 その空間部分から、合成ビデオデータストリームの非出力画像の迂回路を介して、以前の参照画像の空間部分を参照する継承画像の概略図である。 ビデオ合成装置を使用し、1つまたは複数のビデオ符号化器70をさらに備えるシステムであって、合成ビデオデータストリームを復号器に出力するものとして示されている、システムの概略図である。 パノラマストリーミングアプリケーションを示す図である。 位置変化に起因して失敗した時間的参照を示す図である。 生成参照画像概念を示す図である。 ビデオ会議のコンテキストにおけるGRPを示す図である。 遠隔制御されている車両からの360度パノラマを示す図である。 一実施形態による、複数の入力ビデオデータストリームおよび合成ビデオデータストリームの概略表現と共に、ビデオ合成装置の概略ブロック図である。 合成ビデオデータストリームの基準点から複製している動き/予測ベクトルを示す破線の矢印と共に、合成ビデオデータストリームの照合ビデオ部分のSLCPを示す概略図である。 バックツーバック参照手法を示す図である。 スティッチング参照手法を示す図である。 非出力手法を使用した複数の異なる空間寸法のスティッチング参照を用いるSLCPの概略図である。 時間的リサンプリングのためのダミー使用を示す図である。 B2B参照を用いるSLCPを示す図である。 スティッチング参照を用いるSLCPを示す図である。 スティッチング参照を用いるSLCPを示す図である。 重み付け予測によるαブレンディングを用いるSLCPを示す図である。 様々な予測ベクトルによるリサンプリングを使用したSLCPを示す図である。 反復リサンプリングのためのマルチステップSLCPの一例を示す図である。 SEIメッセージの形態のそれぞれのシグナリングを例示的に記述した図である。 ここでは交通ビデオ監視を例示的に示す、ビデオ混合のための一般的なシステムアーキテクチャを示す図である。
図1は、本出願の一実施形態によるビデオ合成装置を示す。図1のビデオ合成装置は、本出願の一態様に従ってビデオ合成を実施する。当該態様によれば、非出力画像が合成ビデオデータストリームへと挿入され、それによって、時間的変化の前の空間部分の空間位置を表示する参照画像を、合成ビデオデータストリームを復号する復号器の復号画像バッファ内の時間的変化の後の空間部分の空間位置を表示する参照画像で置換する非出力画像の挿入によって、特定の入力ビデオデータの動き補償サイド情報および予測残差データを収集および複製することによって充填される、空間部分の空間位置の時間的変化が考慮に入れられる。
図1のビデオ合成装置は、全体的に参照符号10を使用して示されており、入力ビデオデータストリーム14を受信するための入力12と、合成ビデオデータストリーム18を出力するための出力16とを備える。合成ビデオデータストリーム18および入力ビデオデータストリーム14は、動き補償時間予測を使用して符号化される。それらは、たとえば、HEVC、VP9を使用して、または、何らかの他のビデオ符号化方式を使用して符号化されてもよい。下記により詳細に概説されるように、ビデオ合成装置10は、低い計算量で、入力ビデオデータストリーム14に関する限り、圧縮/符号化領域内にあるままで合成ビデオデータストリーム18を生成または合成することが可能である。
下記により詳細に概説されるように、図1のビデオ合成装置は、合成ビデオデータストリーム18が復号されると、入力ビデオデータストリーム14によって表されるビデオが、合成ビデオデータストリーム18の画像内でその空間位置を時間的に変化させる空間部分20に表示されるように、合成ビデオデータストリーム18を生成することが可能である。たとえば、入力ビデオデータストリーム14の画像は、n×mサンプル幅のような第1のサイズであり、一方で、合成ビデオデータストリーム18の画像は、N×Mサンプル幅のような、第1のサイズよりも大きい第2のサイズであり、n<Nかつ/またはm<Mであり、n<Nおよびm<Mが図1に示されている。その中に入力ビデオデータストリーム14の内容がある空間部分20は、図1の例によれば、第1のサイズ、すなわちn×m幅であるが、図1の例は、ビデオ合成装置10が、合成ビデオデータストリーム18の空間部分20内に、入力ビデオデータストリーム14の特定の静止空間下位部分のみを描写するように修正することができる。
図1のビデオ合成装置10の動作モードの理解を容易にするために、図1は、入力ビデオデータストリーム14の一連の画像22の例示的な部分を示す。図1に例示的に示されている画像22は、データストリーム14内でのそれらのコード化順序に従って、また実線の矢印24を使用して0〜7の番号を付されている。図1は、動き補償時間予測による画像22の間の相互依存性、すなわち、動き補償時間予測を介して、いずれの画像22がいずれの画像を参照するかを示している。すなわち、矢印24が指す任意の画像22は、それぞれの矢印がそこから始まっている画像の参照画像を表す。たとえば、番号1を有する画像22は、番号2および4を有する画像22の参照画像を表す。動き補償時間予測は、それぞれの動き補償サイド情報によって入力ビデオデータストリーム14内で制御され、これに加えて、入力ビデオデータストリーム14は、動き補償時間予測による予測を補正するための予測残差データを含む。たとえば、動き補償サイド情報は、それぞれの参照画像のブロックの動きベクトルを含み得、予測残差データもまた、たとえば、DCTなどのような空間分解変換を使用する変換符号化を使用してブロックごとに符号化され得、それによって、予測残差データは、たとえば、変換係数を含み得る。各画像22について入力ビデオデータストリーム14内に存在する動き補償サイド情報および予測残差データは、たとえば、例として可変長符号化および/または算術符号化を使用したエントロピー符号化形態で、データストリーム内に存在し得る。特に、特定の画像22の動き補償サイド情報および予測残差データは、たとえば、それぞれの画像22をトラバースする何らかのコード化順序に沿って各画像22がそれへと空間的に分割され得るスライスの1つまたは複数のパケットの形態でデータストリーム14内に存在し得る。
合成ビデオデータストリーム18に関する限り、図1は、図1に示す番号0〜7を有する画像22から構成されている、その中に入力ビデオデータストリーム14の時間的に対応する部分が表示される、この合成ビデオデータストリーム18からの一連の画像26の断片を示す。例示を目的として、図1は、ビデオ合成装置10が、ビデオデータストリーム14の内容が中に表示される空間部分20を、その空間位置に関して、その時間の間に一度変化させることを示しているが、ビデオ合成装置10は、合成ビデオデータストリーム18全体に関しても、その任意の部分系列に関しても、空間部分20の空間位置を一度しか時間的に変化させないようには限定されないことが留意されるべきである。
データストリーム18の画像26内での空間部分20の空間位置の変化における、上記で簡潔に概説されている問題を回避するために、ビデオ合成装置10は以下のように動作する。
その瞬間が図1において矢印28を使用して例示的に示されている、空間部分20の空間位置の変化の前に、ビデオ合成装置10は、単純に入力ビデオデータストリーム14の対応する画像22からのデータを継承することによって、合成ビデオデータストリーム18の画像26を形成する。より正確に言うと、図1の例において、入力ビデオデータストリーム14の図1内に示す最初の3つの画像22は、スペクトル部分20の空間位置の変化28の前であり、したがって、合成ビデオデータストリーム18の最初の3つの画像は「継承画像」であり、そのスペクトル部分20は、ビデオ合成装置10によって、入力ビデオデータストリーム14の動き補償サイド情報および予測残差データを収集および複製することによって充填される。より正確には、合成ビデオデータストリーム18内の番号0’を有する画像26の空間部分20は、たとえば、番号0を有するビデオ14の対応する画像22の動き補償サイド情報および予測残差データを収集および複製することによって充填され、同様に、番号1’を有する画像26の空間部分20は、番号1を有する対応する画像22の動き補償サイド情報および予測残差データを収集および複製することによって充填され、したがって、番号2’を有する画像26の空間部分20は、番号2を有する画像22のそれぞれのデータを使用して充填される。すなわち、各継承画像26の空間部分20は、画像22の画像順序を維持しながら、画像22の関連付けられる空間部分を使用して充填される。
その空間部分20がこのように、入力ビデオデータストリーム14の対応する画像22のそれぞれのデータを収集および複製することによって充填される、合成ビデオデータストリーム18の画像26は、上述したように「継承画像」と呼ばれ、図1において、画像26の、空間部分20の外側の領域内の単純なハッチングを使用して示されている。空間部分20の周囲の領域は、ビデオ合成装置10によって人工的に充填することができ、たとえば、単純に黒色になり得るか、または、何らかの他の静止画像などを示し得る。ビデオ合成装置10において、画像26の、空間部分20の外側の周囲/残りの領域内に、別の入力ビデオデータストリームによって表される別のビデオを示すことも実現可能である。下記にさらに説明される実施形態は、ビデオ合成装置10のそのような拡張の一例を表す。そこで説明されるように、合成ビデオデータストリームの画像内の関連付けられる空間部分を有する2つ以上の入力データストリームが、並列に処理され得る。入力データストリームの空間部分は、たとえば、瞬間28においてそれらの位置を相互に変化させ得る。さらなる詳細については、下記に提示される説明が参照される。
ビデオ合成装置10は、空間部分20の画像26内での空間位置の変化後に一連の継承画像26を形成することによって進行する。したがって、番号5’を有する画像26は継承画像であり、その空間部分20は、番号0’〜2’を有する上述した画像26の空間部分20に対して空間的に変位されており、その空間部分20は、入力ビデオデータストリーム14の番号3を有する画像22の動き補償サイド情報および予測残差データを収集および複製することによって充填され、合成ビデオデータストリーム18の続く番号6’〜9’を有する後続の画像26は、同様に、入力ビデオデータストリーム14の番号4〜7を有する後続の画像22のそれぞれのデータを収集および複製することによって、空間部分20内を充填される。
したがって、示されたように、番号0’、1’、2’、5’〜9’を有する画像26は、入力ビデオデータストリーム14の対応する画像22のそれぞれの動き補償サイド情報および予測残差データの収集および複製を使用し、他の様態で空間部分20以外の外側領域を充填して、充填されている一連の継承画像を形成する。しかしながら、空間部分20の空間位置の変化28に起因して、空間部分20内の合成ビデオデータストリーム18の内容は、瞬間28における空間部分20のシフトまたは変位に起因して瞬間28の後でさらなる基準が一切なければ不正確になる。たとえば、番号5’を有する画像26を参照されたい。この画像26は、番号3を有する対応する画像22のそれぞれの動き補償サイド情報および予測残差データを収集および複製することによって空間部分20内を充填するため、この画像は、動き補償時間予測を介して、さらなる基準が一切なければ、先行する継承画像2’になる、直前の画像を参照する。しかしながら、後者の画像26は、変位した位置に挿入される、番号3を有する画像22の参照画像、すなわち番号2を有する画像22から継承される画像内容を有し、したがって、ビデオ合成装置10は、この問題を以下のように解決する。
特に、図1のビデオ合成装置10は、非出力画像30を、継承画像26の間で合成ビデオデータストリーム18へと挿入し、非出力画像30は、動き補償時間予測を介して、継承画像のサブセットを参照する。
非出力画像が、概説したばかりの誤った参照の問題を克服する方法を示すために、図1は、実線の矢印32を使用して、収集および複製される動き補償サイド情報から結果としてもたらされるものとしての、合成ビデオデータストリーム18の画像26と30との間の相互依存性を示しており、一方で、下記により詳細に説明されるように、ビデオ合成装置10によって人工的に生成される非出力画像30およびそれらの動き補償サイド情報によって加えられる相互依存性は、破線の矢印34を使用して示されている。見てとれるように、ビデオ合成装置10は、瞬間38において非出力画像30を挿入しており、この瞬間において、空間部分20はその空間位置を空間的に変化させている。前述した「問題のある」画像26は、たとえば、画像5’であった。この画像はデータストリーム18の直前の画像を参照していたが、この時点では、これは番号4’を有する非出力画像30である。見てとれるように、ビデオ合成装置10は、1)非出力画像30の空間部分20が、画像5’の空間部分20と同一位置にある空間部分20の新たな位置に位置付けられるように、また、2)番号4’を有する非出力画像30の空間部分20の領域が、動き補償予測を介して、継承画像2’の空間部分20の内容を複製することによって充填されるように、非出力画像30の空間部分20を充填する。そして、後者の継承画像、すなわち、画像2’は、出力画像30がデータストリーム18へと挿入されていないかのように、画像5’の参照画像である。具体的には、番号4’を有する非出力画像30は、継承画像2’の空間部分20の内容を、変化の瞬間28後に有効であるものとして空間部分20の新たな位置へと複製し、したがって、その空間部分20に関する限り、画像2の役割を、画像2の画像3に対する参照画像としての役割に関する限り、仮定する。より正確に言うと、非出力画像4’は、画像2’が画像3の参照画像であったのと同じように、画像5’の参照画像であり、その動き補償サイド情報および予測残差情報データを使用して、継承画像5’の空間部分20が充填される。この時点で、継承画像5’の空間部分20の参照画像内容は、正確な位置にある。これは、データストリーム18の直前の画像、すなわち、番号4’を有する非出力画像内にあり、これは正確な空間位置、すなわち、画像5’の空間位置20に空間的に正確に対応する位置にある。
図1に示すように、ビデオ合成装置10はまた、瞬間28の位置において非出力画像30を挿入し、これは、以前の継承参照画像1’を置換する。すなわち、ビデオ合成装置10は、参照画像1’の、その空間部分20内の画像内容を参照し、それによって複製する動き補償サイド情報を用いて、瞬間28に後続する継承画像26の空間部分20と同一位置にある空間部分20において非出力画像30を充填する。この方策によって、この非出力画像30、すなわち画像3’は、画像4の以前の参照画像であった、参照番号1を有する画像22の画像内容が空間部分20内に充填されるという点において、継承画像6’に対する参照画像としての役割を正確に果たし、その動き補償サイド情報および予測残差データを使用して、継承画像6’の空間部分20が充填される。すなわち、図1のビデオ合成装置10は、瞬間28に後続する入力ビデオデータストリーム14の画像22の参照画像である、瞬間28以前の入力ビデオデータストリーム14内の画像22の間にある参照画像の数だけの非出力画像30を瞬間28に挿入する。言い換えれば、ビデオ合成装置10は、瞬間28において、挿入されなければ、瞬間28に後続するデータストリーム18の継承画像26に対する参照画像を表す、データストリーム18内にある継承画像26の数だけの非出力画像30を挿入する。
ビデオ合成装置10は、入力ビデオデータストリーム14の画像22の動き補償サイド情報および予測残差データの収集および複製の実施において、予め、たとえば、エントロピー符号化領域から構文レベル領域へと戻る。すなわち、合成ビデオデータストリームを形成するために、動き補償サイド情報および予測残差データのエントロピー符号化を実施することによって、空間部分20内でそれぞれの継承画像26を充填するように、このように収集および複製される動き補償サイド情報および予測残差データを使用することによって、画像22の動き補償サイド情報および予測残差データを記述する構文要素を得るために、入力ビデオデータストリーム14の画像22の動き補償サイド情報および予測残差データのエントロピー復号を実施する。入力ビデオデータストリーム14の画像22の動き補償サイド情報および予測残差データは、この方策によって、たとえば、それを使用してそれぞれの画像22がコード化されるコード化順序と比較して、継承画像26内の空間部分20のトラバースにおける異なるコード化順序を考慮に入れるために、空間的に再分類または順序づけし直しさえされ得る。しかしながら、収集および複製を実施するこの方法は、ビデオ合成装置10が動き補償探索を再び実施する必要性を回避するが、一実施形態によれば、ビデオ合成装置10によって、構文要素レベルを介してエントロピー復号/符号化迂回路さえも回避され得る。すなわち、収集および複製は、エントロピーコード化領域にとどまったままで実施され得る。この可能性を示すために、図2が参照される。
図2は、継承画像5’および番号3を有する対応する入力画像22を代表的に示しており、その動き補償サイド情報および予測残差データが、収集および複製によって、画像5’の空間部分20を充填するために使用される。図2はまた、番号3を有する画像22がデータストリーム14内で表される様式をも示す。ラスタ走査順36のような、所定のコード化順序に従って、画像22の内容が1つまたは複数のスライス38の単位でデータストリーム14へと順次コード化される。2つのスライスが図2において例示的に示されている。各スライス38は、たとえば、データストリーム14内で、たとえば、例として画像22の左上隅に対して示されている、画像22内に位置付けられているそれぞれのスライスを示すスライスヘッダ40を備える。
空間部分20に関する限り画像26の内容をコード化するように、エントロピーコード化を使用して符号化される、動き補償サイド情報および予測残差データを含むそれらのペイロード部分42に関する限り、エントロピーコード化領域を実質的に出ることなく合成ビデオデータストリーム18へとスライス38を継承することを可能にするために、ビデオ合成装置は、図2の実施形態にしたがって画像26を、タイル44へと分割し、このタイル分割は、図2において一点鎖線を使用して示されており、たとえば、HEVCにおいて利用可能である。画像26をタイル44へと分割することによって、それを使用して画像26がデータストリーム18内でコード化されるコード化順序が、画像26の空間部分20内で、このコード化順序が、それを使用して画像22がスライス38へとコード化されるコード化順序36と一致するように、誘導される。より正確に言うと、上述したように、画像26は画像22よりも大きい。空間部分20は、画像22と同じサイズである。画像26のタイル44へのタイル分割は、空間部分20がタイル44のうちの1つの正確に一致するように行われる。画像26のコード化順序44は、画像26を、タイル順に次のタイルを進める前に最初に1つのタイル内でトラバースすることによって、タイル順序に従ってタイル44をトラバースするため、画像26のコード化順序は、タイル分割によって修正される。この方策によって、ビデオ合成装置10がスライス38をデータストリーム18へと、すなわち、画像26がデータストリーム18内でそれへとコード化されるアクセスユニット46へと直接的に複製することが実現可能である。これらのスライス38はこのとき、空間部分20を表すそれぞれのタイル44をコード化する。
ビデオ合成装置10が、図2の概念を使用/適用するとき、スライスヘッダ40内で何らかのデータを修正することがあり得る。たとえば、各スライスヘッダ40は、それぞれの画像の左上隅に対する、それぞれのスライスの開始位置(符号化順序36)を示すスライスアドレスを含み得る。したがって、継承画像26内での、すなわち、空間部分20内でのスライスの新たな位置を計上するために、ビデオ合成装置10は、継承画像26の左上隅に対する空間部分20内でのスライスの新たな位置を測定するためにスライスアドレスを変更することができる。
付加的にまたは代替的に、各スライスヘッダ40は、画像順序カウントデータを含んでもよい。画像順序カウントは、それぞれのデータストリーム内で画像を順序づけることができる。上記で示したように、ビデオ合成装置10が非出力画像30を合成ビデオデータストリーム18へと挿入するとき、ビデオ合成装置10は、継承画像26の空間部分20を充填するときにスライスヘッダ40内のそのような画像順序カウントデータを変更することができる。たとえば、図2のスライスヘッダ40は、画像順序カウントとして3を示し得、一方で、データストリーム18内のスライス38のスライスヘッダは、2つの非出力画像30の挿入を計上するために、5を示すことができる。
付加的にまたは代替的に、スライスヘッダ40は、参照画像順序カウント差分値、すなわち、相対的な意味で、現在の画像22の参照画像、すなわち、現在の画像22に先行または後続するx番目の画像を示す値を含んでもよい。図1に関連して説明されている実施形態において、非出力画像30はビデオデータストリーム18内で正確な位置に位置付けられているため、参照画像順序カウント差分値の変更は必要ないが、別の例によれば、ビデオ合成装置10は、スライスヘッダ40内でそのような参照画像順序カウント差分値を変更することができる。
さらに、また付加的にまたは代替的に、スライスヘッダ40は、参照画像順序カウント差分値のセットに対する基準を含んでもよい。そのような基準は、たとえば、入力ビデオデータストリーム14内で搬送されるパラメータセットを参照し得、この参照は、スライス38を使用した空間部分20の充填においてスライスヘッダ40において変更され得る。同様に、パラメータセット自体が、それらを修正することなく、または、修正して、入力ビデオデータストリームから採用され得る。
加えて、付加的にまたは代替的に、スライスヘッダ40が差分コード化量子化パラメータを含むことが実現可能であり得る。すなわち、データストリーム14内で、たとえば、スライスヘッダ40の差分コード化量子化パラメータは、画像22の、または、さらには画像22を含む一連の画像のデータストリーム40内で搬送される量子化パラメータに対してコード化されている差分であり得る。合成ビデオデータストリーム18の構築において、ビデオ合成装置10は、同様に、データストリーム18内の画像26、または、さらには画像26を含む一例の画像に対する特定の量子化パラメータを選択することができ、このパラメータは、たとえば、スライスヘッダ40内の差分コード化量子化パラメータの基礎としての役割を果たす量子化パラメータとは異なり得る。したがって、データストリーム18へと転移されるものとしてスライス38のスライスヘッダ40は、装置10によってデータストリーム18内の他の箇所においてシグナリングされる参照量子化パラメータの変化を計上するために、ビデオ合成装置10によって変更され得る。
図3は、ビデオ合成装置10が非出力画像をどのように人工的に生成し得るかの可能性を示す。特に、図3は、番号4’を有する非出力画像30および番号2’を有する継承画像26、すなわち、非出力画像30が動き補償時間予測を介して置換および参照する継承画像26を代表的に示す。特に、図3は、データストリーム14および18が、動き補償時間予測を使用してブロックベースで符号化される事例を示す。すなわち、それぞれの画像はブロックに分割され、そのうちのいくつかは動き補償時間予測を使用して予測され、これらのブロックの各々について、それ自体の動きベクトルが動き補償サイド情報によって示される。装置10は、非出力画像30の部分20が、並進によって、継承画像26の空間部分20から複製されるように、非出力画像30の空間部分20の動き補償サイド情報を決定する。ここでは、両方の部分20はサイズが同じである。すなわち、非出力画像30の部分20の各サンプルが、非出力画像30の部分20のそれぞれのサンプルと同一位置にある画像26を有する位置に対してまったく同一の動きベクトル50を使用して変位されている、画像26内の対応するサンプルから複製される。しかしながら、すべてのブロック52について動きベクトル50は同じであるため、一実施形態によれば、装置10は、データストリーム14および18の基礎となっている符号化方式によって利用可能である場合に、非出力画像30の部分20の動き補償サイド情報をコード化するために空間予測メカニズムを利用する。その場合、たとえば、動きベクトル50は、非出力画像30の空間部分20のブロック52のうちの1つのみについてデータストリーム18内で明示的にコード化され、一方で、部分20の他のブロック52について、動きベクトルは、空間予測によって採用/予測される。たとえば、動きベクトル50がそのために明示的にコード化されるもの以外のブロック52については、スキップモードが使用され得る。スキップモードの使用は、たとえば、各ブロック52に対して、動きベクトル52が採用または空間的に予測されること、および、それぞれのブロック52について予測残差データが存在しないことをシグナリングする。たとえば、非出力画像30が置換する継承画像26の空間部分20の画像内容を修正せずに複製するために、いかなる非出力画像30の空間部分20についても、予測残差データは装置10によってコード化されない。
図1に戻って参照すると、図1は、図1のビデオ合成装置10が、外部信号60、すなわち、変更を求める外部要求に応答して、空間部分20の空間位置の時間的変化を制御するように構成され得る可能性を示している。その場合、ビデオ合成装置10は、そのような、変更を求める外部要求を即座にかつ明確に実行しなくてもよい。むしろ、ビデオ合成装置10は、要求60を受信すると、任意の他の入力画像22によって、時間的動き補償サイド情報予測を介して参照されない、入力画像のうちの第1の入力画像を判定するために、入力画像22を連続して検査し得る。これを行う理由および詳細を、以下にさらに詳細に記載する。
たとえば、図4を参照されたい。図4は、画像5’に関する、非出力画像4’による画像2’の置換を示す。すなわち、装置10によって挿入されている非出力画像4’は、空間部分の位置の変化の前で有効な空間部分20の位置の画像内容を、空間部分20の新たな位置において非出力画像4’内に挿入されるように複製し、それによって、その空間部分20が入力画像のうちの1つ、すなわち、入力画像3からの収集および複製によって充填されている画像5’が、非出力画像4’の同一位置にある空間部分20から、図4においていくつかの矢印62を使用して示されている、入力画像3の動き補償サイド情報を使用して空間部分20内の画像内容を予測することが可能である。すなわち、入力画像3から収集され、画像5’の空間部分20へと複製されている動き補償サイド情報は、たとえば、空間部分20内でインター予測ブロックあたり1つの動きベクトルをコード化することができる。
図3に関連して既に記述されたとおり、時間予測は、入力画像22の動き補償サイド情報のような、動き補償サイド情報のために消費されることになるビットレートを低減するための、1つの選択肢であり得る。しかしながら、参照画像から画像5’の空間部分20の動き補償サイド情報を時間的に予測することは、現在、以下の理由、すなわち、非出力画像4’が、画像2’の、画像5’に対する参照画像としての機能に関して、画像2’を置換することに起因してエラーをもたらすことになる。これは、画像内容、すなわち、動き補償サイド情報62によって画像5’の空間部分20へと複製される、最終的に再構築される画像内容に関して機能する。しかしながら、図3の記述から明らかなように、非出力画像4’の空間部分20の動き補償サイド情報は、画像2’の空間部分20を、非出力画像4’の空間部分20へと並進的にしか複製しないため、非出力画像4’の空間画像20のデータストリーム内で搬送される動き補償サイド情報は、画像2’の空間部分20についてシグナリングされる動き補償サイド情報と一致しない。すなわち、非出力部分4’の空間部分20の動きベクトルは、空間部分20全体の間で均一な人工動きベクトルに過ぎず、一方で、画像2’の空間部分20についてシグナリングされる動きベクトルは、ビデオシーン内の画像内容の動きを表す。
したがって、本出願の一実施形態によれば、ビデオ合成装置10は、変更を求める外部要求60を、直接的にではなく、その出来事または瞬間に対して過去の継承画像の中からの参照画像の置換が、その出来事または瞬間に対するいかなる後続の入力画像22によっても、誤った時間的動き補償サイド情報予測をもたらさないものであり得る、連続した次の出来事または瞬間との遭遇を受けて実行するように構成されている。たとえば、図1において、画像1’の空間部分20が、入力画像1のそれぞれのデータを収集および複製することによって充填されるべきである時点において、要求60が装置10に到来している状況を想起されたい。装置10は、現在利用可能な参照画像のいずれか、すなわち、瞬間28が画像1の直前にあった場合にそれぞれの非出力画像によって置換されるための候補になる参照画像のいずれかが、動き補償サイド情報を予測するための時間予測に使用されるか否かをチェックすることになる。そうである場合、装置は、空間部分20の空間位置の変更の実行を保留することになる。その後、装置10は、たとえば、入力画像2を同様にチェックすることになる。つまり、装置は、その瞬間における参照画像、すなわち、非出力画像によって置換されることになる候補が、動き補償サイド情報について参照されるか否かをチェックすることになる。図1の事例において、たとえば、画像3が、その画像からいずれの画像も、その時点において置換されるべき参照画像のいずれからも動き補償サイド情報を予測するために時間予測を使用しない、すなわち、そのとき利用可能なすべての参照画像が動き補償サイド情報の時間予測に使用されない第1の入力画像22になり得、したがって、装置10は、入力画像22の画像2と3との間で要求60を実行することになる。
ビデオ合成装置10に対して、要求60が実行され得る可能な時点を効率的にシグナリングする1つの方法、すなわち、それぞれの画像の前に非出力画像30を挿入することによって要求60が実行され得る入力画像を検出する効率的な方法は、1つまたは複数の特定の時間的階層(複数可)の画像が、動き補償サイド情報の時間予測に使用されることにならないことが保証されるように、ビデオ14を生成することである。すなわち、特定の閾値時間階層IDを超えるもののような、特定の時間層ID(複数可)の画像22が、動き補償サイド情報の時間予測を介して、データストリーム14の他の画像22から参照されることを可能にされる間、データストリーム14は、ビデオ合成装置10に、その閾値を上回るもののような、1つまたは複数の特定の時間層ID(複数可)以外の時間階層IDの画像22が、動き補償サイド情報の時間予測における基準として使用されないことを保証されることをシグナリングすることができる。その場合、装置10は、一連の入力画像22内で、要求60の到来時点から、そのコード化時点において、そのコード化時点が適切な切り替え瞬間28であると判明した場合に非出力画像によって置換されるべきである1つまたは複数の現在の参照画像のいずれも、動き補償サイド情報のために参照されることを可能にされる画像を含む時間層IDのものではない、連続した次の瞬間との遭遇を検出することができる。装置は、入力画像の画像範囲時間階層ID、および、到来するデータストリーム14の高レベル構文によって含まれる画像範囲時間階層超過弁別器に基づいてのみ、このチェックを実施することができる。入力画像22の画像範囲時間階層IDは、たとえば、各画像22と個々に関連付けられるアクセスユニットヘッダ内、または、それぞれの入力画像22のスライスのスライスヘッダ40内に含まれ得る。上記の画像範囲時間階層超過弁別器を含む高レベル構文は、具体的なSEIメッセージ構文例に関連して以下に概説するようなデータストリーム14のSEIメッセージ内に含まれ得る。代替的に、装置10は、それぞれの高レベル構文を通じて(コード化効率における損失と関連付けられる)データストリーム14内の時間的動き補償サイド情報予測の完全な欠如を検出し、したがって、画像範囲時間階層IDとは無関係に要求60を実行することができる。さらに代替的に、到来するビデオデータストリーム14が、たとえば、SEIメッセージまたは特別なNALユニットタイプの形態の指示子を含んでもよく、この指示子は、ビットストリーム内での指示子の位置によって、要求60の実行に関する現在の画像の適性を示す。さらに代替的に、画像10は、デフォルトで、事実を明確に検証することなく、データストリーム14内の時間的動き補償サイド情報予測の完全な欠如を予測してもよい。入力ビデオデータストリームは、それに従って、すなわち、それぞれの制約に従って、装置10に与えられる。
人工的に挿入される非出力画像30に関して、そのためのデータレートを低減するために、装置は、1つの特定の瞬間28において挿入される異なる非出力画像30の間、さらには、異なる瞬間において挿入される非出力画像30の間のような、1つの非出力画像30と別の非出力画像30との間で、動き補償サイド情報の時間予測を使用することができることに留意されたい。この方策によって、サイド情報の時間予測の残差しかコード化されないため、非出力画像の空間部分内の他のブロックについての空間的動き補償サイド情報予測のシードを形成する1つの明示的にコード化される動きベクトルをコード化するためのコード化オーバヘッドさえも、低減される。
図5は、合成ビデオデータストリーム16を受信する、ビデオ符号化器70および復号器72を伴うフレームワーク内のビデオ合成装置10を示す。ここで、ビデオ合成装置10は、ビデオ符号化器70とともにシステム74を形成し、その例が、たとえば、1人もしくは複数の顧客に、利用可能な交通カメラビューの合成を提供する交通監視システム、1人もしくは複数の顧客に、パノラマビデオの下位部分を提供するパノラマビデオアプリケーションを実現する仮想現実システム、または、1人もしくは複数の顧客に、第三者の参加者のビューの合成を提供する電話会議システムのような、2つ以上のビデオ符号化器70を使用する実施形態に関連して下記に提示される。
ビデオ合成装置10は、ビデオ符号化器70から入力ビデオデータストリーム14を受信し、上記で概説したように、これを合成ビデオデータストリーム16の画像の空間部分20内に表示する。ビデオ復号器72は、装置10によって出力されるものとしての入力合成ビデオデータストリーム16を復号するだけでよい。復号器72の出力において、表示されるべき再構築された画像シーケンスが出力され、図5においては参照符号76を使用して示されている。内部では、復号器72は、コード化画像バッファ78と、それに後続する復号エンジン80と、またそれに後続する復号画像バッファ82との系列から構成されているものとして例示的に示されている。到来する合成ビデオデータストリーム18が、バッファ78に入る。復号エンジン80は、データストリーム18の画像26および30を連続して復号し、これらの画像の復号の結果を、復号画像バッファ82へと挿入する。矢印84によって示されるように、復号画像バッファ82の出力はまた、復号エンジン80にフィードバックもされ、それによって、バッファ82内の復号画像は、動き補償時間予測に関連して上記ですでに概説したように、後続して復号される画像に対する参照画像としての役割を果たすことができる。
復号画像の出力において、復号器72は、一方における継承画像26と、他方における挿入されている非出力画像30との間で区別する。非出力画像30は、データストリーム18内で、出力されない、すなわち、表示されるビデオ76の一部分ではないものとしてシグナリングされる。たとえば、データストリーム18は、データストリーム18の各画像26および30について、それぞれの画像が出力されるべきか否かをシグナリングするフラグを含み得る。しかしながら、フラグはまた、スライスごとにシグナリングされてもよい。すなわち、非出力画像30に属するすべてのスライスは、表示されるべきではないそれぞれの画像内容をシグナリングする。HEVCにおいては、たとえば、フラグpic_output_flagがこの目的のために使用され得る。入力ビデオデータストリームの画像は、すべて出力画像タイプのものであり得るが、代替的に、これはすでに非出力画像が散在されていてもよいことに留意されたい。
上記では特定的に概説されていないが、ビデオ符号化器70は、当該ビデオコーデック自体によって課される制約に加えて、何らかのコード化制約に従うように構成され得る。たとえば、入力画像22のそれぞれのデータに基づく継承画像26の空間部分20の充填においては、入力画像22の以前の画像境界が、空間部分20の充填後に空間部分20の内部境界になることが明らかになる。しかしながら、この状況の変化は、たとえば、時間的動き補償予測を変化させ得る。すなわち、画像境界を越えて延伸する参照画像の領域を指す動きベクトルが、参照画像の複製された領域の、参照画像の外部にある部分の、外挿のような何らかの特別な処理を呼び出す場合がある。しかしながら、そのような呼び出しは、当該境界がたとえば、それぞれの継承画像26内にあり得るときは、空間部分20の境界において発生しない場合がある。したがって、ビデオ符号化器70は、画像22の境界近傍において、動き補償サイド情報を、動き補償サイド情報が、画像22の境界を越えて延伸する領域において参照画像を複製しない範囲まで制限することができる。加えて、ビデオ符号化器70は、入力画像22の境界に近い、サブピクセル精度を有する動きベクトルに必要とされるサブピクセル補間を回避するように制約され得る。たとえば、入力画像22の領域内でサブピクセル精度のブロックを有する動きベクトルは、輝度または色度サンプル値の補間のために有限インパルス応答フィルタ手順を呼び出し得る。動きベクトルサブピクセル位置が、入力画像22の空間画像境界に空間的に近いとき、フィルタカーネルは、サブピクセルサンプル値の補間において、画像22の境界を越えて延伸する領域と重なり得る。そのような事例において、外挿などのような、前述した特別な画像境界処理が呼び出され得る。入力画像22のそれぞれのデータに基づいて継承画像26の空間部分20を充填すると、入力画像22の画像境界は、空間部分20の充填後に継承画像26の空間部分20の内部境界になり得、そのような呼び出しは発生し得ない。したがって、ビデオ符号化器70は、画像22の境界近傍において、サブピクセル精度動きベクトルの使用を、サブピクセル補間プロセスが、画像22の境界を越えて延伸する参照画像領域を使用しない範囲まで制限することができる。加えて、符号化器70は、入力画像22の空間的境界に空間的に位置するブロックについて、動き補償サイド情報の時間予測を実施するときに、ブロックの動きベクトルが、参照画像内の同一場所にあるブロックに、そのようなブロックが存在する場合に、隣接することを促進することができる。以前に指摘したように、入力画像22のそれぞれのデータに基づいて継承画像26の空間部分20を充填すると、結果として、入力画像22の画像境界は、継承画像26の空間部分20の内部境界になり得る。それゆえ、部分20の内部境界に空間的に近い所与のブロックの動きベクトルサイド情報の時間予測プロセスは、それぞれの同一場所にあるブロックに隣接する参照画像内のブロックにアクセスすることができ、それゆえ、符号化器70にとって利用可能でない場合に予測不一致をもたらすブロックにアクセスすることができる。したがって、ビデオ符号化器70は、画像22の境界近傍において、動き補償サイド情報の時間予測を、予測プロセスが、画像22の境界を越えて延伸する参照画像領域からの情報を使用しない範囲まで制限することができる。同様に、入力画像22の内部境界は、画像26内の画像境界になり得、符号化器70は、それに従って、入力画像22の内部境界に対して動きベクトルサイド情報の時間予測を制限することができる。インループフィルタリングに関して、ビデオ符号化器70は、入力ビデオデータストリームを提供する際にインループフィルタリングを使用するか、または、使用しないように設定することができる。インループフィルタリングが入力データビデオデータストリームにおいて使用されるべきであるとシグナリングされる場合、装置10は、継承画像22の対応する空間部分のインループフィルタリングを採用することができ、入力データビデオデータストリームにおいて使用されるべきではないとシグナリングされる場合、装置10は、継承画像22の対応する空間部分のインループフィルタリングを適用しないことができる。一方、インループフィルタが使用される場合、装置は、インループフィルタリングが継承画像内の空間部分20の境界に交差するように、継承画像22のインループフィルタリングの起動を控える。たとえば、参照画像内容を変化させないように、非出力画像30においては、さらなるインループフィルタリングは装置10によって起動されない。
さらに、複数のビデオ符号化器70を使用する場合、図1において矢印24を使用して示されている時間予測GOP構造ならびに/またはさらなるコード化ツールおよびパラメータに関してこれらのビデオ符号化器70を同期させることが有利であり得る。
さらに、ビデオ符号化器70は、図4に関連して上記で概説したように、データストリーム14の生成において時間的階層コード化概念を使用することができ、時間的階層レベルのサブセットに関して、装置10が結果として空間部分20の空間位置の変化が行われ得る到来するデータストリーム14の画像22を識別することができるように、データストリーム14のそれぞれの高レベル構文を介した、上記で概説した保証シグナリングを使用して装置10に対するこの不使用が保証されることによって、このビデオ符号化器70は、自発的に、時間的動き補償サイド情報予測の使用を控える、すなわち、TMVPのための基準として時間的階層レベルのそれぞれのサブセットの画像を使用することを控える。
図6〜図10に関して記載されている特定の適用シナリオの記述からも明らかになるように、入力ビデオデータストリーム(複数可)14を生成するビデオ符号化器(複数可)70は、それぞれのビデオカメラによってキャプチャされるビデオを符号化するように構成することができ、このビデオ符号化はそれぞれ、オンザフライまたはリアルタイムで行われてもよい。ビデオ符号化器70は、そのようなカメラ内に組み込まれてもよい。装置10は、サーバ内に含まれてもよく、一方で、復号器72は、そのサーバのクライアント内に組み込まれてもよい。一方で、さらに代替的に、装置10はまた、クライアント側でも実装され、それによって、装置10を復号器72の上流に直列接続するだけで、(標準的な)復号器72の、上述した合成自由度を達成する能力が安価に拡張される。下記に説明する実施形態は、たとえば、例として復号器72が参加者のクライアントの一部分であるテレビ会議システムに関する。代替的に、復号器72は、パノラマビデオアレイからパノラマビデオ下位部分を取り出す、ヘッドマウントディスプレイ事例のようなクライアントであってもよく、この合成は、下記により詳細に概説されるように、ビデオ合成装置10によって実施される。ビデオ合成装置10自体は、コンピュータなどの上で動作するソフトウェアの形態で実装されてもよく、一方で、復号器72は、モバイルデバイス上のソフトウェア、ハードウェアまたはプログラマブルハードウェアを使用して実装されてもよい。
図5には示されていないが、ビデオ合成装置10に到達する要求60が、復号側から生じることがあり得る。代替的に、要求60は、監督エンティティのような、何らかの制御点において手動で生成される。
以下において、図1〜図5の実施形態がそれに従って、2つ以上の入力ビデオデータストリームに関して同時に使用される実施形態が説明される。以下の説明において、非出力画像30は、生成参照画像(GRP)と呼ばれる。それらは、複数の入力ビデオデータストリームに関する参照画像を代替する。上述したように、GRPは、出力されず、合成ビデオデータストリームを復号するときに特定の時間的位置において元の参照画像を置換するための標的である、合成ビデオデータストリーム/ビットストリームへと挿入される合成画像である。すでに上記で提示した範疇を超える、GRPに関するさらなる詳細が、いくつかのサンプル応用形態を使用して以下に提示されているが、これらはまた、さらなる応用形態にも適用可能である。特に、そのような詳細は、上記の説明にも個々に転用可能であるものとする。
図6は、タイルベースのパノラマストリーミングアプリケーションを表す。今日、パノラマストリーミングが実現される方法は、クライアント関心領域(ROI)、すなわち、クライアントデバイス上のコンテンツエリアディスプレイを追跡し、パノラマビデオを、所与のクライアントにとってのROIのみを含むビデオへとコード変換する専用サーバを有することによる。このような手法には、スケーラビリティが低いという欠点がある。しかしながら、HEVCによれば、たとえば、ビデオビットストリームを、タイルと呼ばれるより小さい部分に分割することができる。タイルは、複数の異なるタイル間の時間的依存性が除去されるように符号化することができる、画像の小さい矩形の形態のパーティションである[2]。しかしながら、タイルが独立して復号される場合、単一のビデオ復号器を使用することはできず、それゆえ、[1]に示す技法と同様のタイルスティッチング手順が必要とされる。
図6には、クライアントスクリーンの動きを特徴付ける2つの瞬間、すなわち、T=0およびT=1が示されており、T=1は、クライアント側が、提示されているタイルの位置を変化させる双方向ストリーミングの切り替え点を表す。パノラマストリーミングのシナリオにおいて、クライアントは一般的に、ユーザ対話、または、ROI認識のような自動プロセスによって、ROIを経時的に適応的に選択することによって、パノラマにわたってナビゲートする。
これは、パノラマシーケンス全体に対する受信/ダウンロードされるタイルの位置が経時的に変化することを意味する。ストリーミングプロセス中にT=1において受信される(すなわち、以前のT=0においては受信されない)新たな位置にある任意のタイルは、先行する瞬間T<1が復号器にとって参照のために利用可能でないため、このタイルの分解されたビデオ内容におけるランダムアクセスを必要とする。
しかしながら、以前に受信された位置のタイルの第2のセットは、このセット内のタイルの情報がすでに受信されているため、必ずしもランダムアクセスを必要としない。これらのタイルは、図6および図7において斜線を使用して示されている。それらのタイルについて、出力画像内の位置のみが、参照のために利用可能な、すでに復号されているものにおける位置と異なる。したがって、[1]に記載されている技法をそのまま使用することはできない。参照される画像が符号器側で遭遇するものと異なる情報を有することになるため、ビデオ復号器バッファ内の通常の参照フレームからの時間予測は、この第2のタイルセットについては失敗する。
細かい注釈として、図6および図7において、例示のみを目的として、合成ビデオの9タイル分割が選択されていること、および、当然のことながら、何らかの他の分割も使用されてもよいことに留意されたい。タイルは参照符号90を使用して示されている。下記の記載から明らかになるように、合成ビデオデータストリームのタイルは、それぞれの入力ビデオデータストリームが表示され得る空間部分の可能性のある空間位置を表す。図6に示すパノラマアプリケーションのシナリオにおいては、多くの入力ビデオデータストリームが利用可能である。図6の例においては、11×5入力ビデオデータストリーム92が、入力ビデオストリーム92のすべてがパノラマシーンの異なる空間部分をキャプチャするという点において、パノラマビデオシーンをカバーする。空間部分は互いを、たとえば、隙間なく境界し、図6に示すように列および行の配列になるように空間的に分散され、それによって、ビデオ92は、それぞれ列および行に配列されているパノラマシーン部分と関連付けられる。各瞬間において、合成ビデオデータストリームは、その3×3タイル内で、11×5入力ビデオデータストリーム92から3×3部分行列のみを描写する。
図7は、瞬間T=1におけるタイルの新たな位置に起因して、スティッチングされているビデオ、すなわち、図7の94において示されている合成ビデオデータストリーム内で使用される基準が、図7においてブロック96を使用して示されている符号化器側の元の基準と異なっており、図6および図7において破線で示されている、更新されていない部分の時間予測を使用することを不可能にするドリフトがもたらされていることを示す。したがって、受信されており、合成/スティッチングされた出力信号内で新たな位置に再配置さているタイルもランダムアクセスを必要とし、それによって時間予測が不可能になり、受信合成ビットストリームのビットレートがより高くなる。GRPの概念が、この問題を解決する。
図8は、図6および図7に関連する上述した問題を解決するGRP概念を示す。GRPは、後続する画像が、以前に受信されており、図1において28によって示されているストリーミング切り替え点において、および、その後に、合成/スティッチングされたビデオ内で新たな位置に変位されているタイル(すなわち、ビデオの領域)の時間予測を使用することができるように、通常の参照画像の内容の変位を実施する画像である。GRPは、参照のためにのみ使用され、出力されない。
図1〜図5の実施形態がいくつかの入力ビデオデータストリームを使用する事例に適用される、次のアプリケーションの概況に進む前に、前述の実施形態を、図1〜図8を組み合わせることによって簡潔に説明する。特に、図6〜図8に関連して上述した実施形態によれば、たとえば、図5のシステムは、パノラマ部分ビデオ92、すなわち、図6の例示的な実施形態における11×5ごとに1つのビデオ符号化器70を含む。ビデオ合成装置10は、たとえば、3×3の到来するビデオデータストリームの部分配列を、合成ビデオデータストリームへとスティッチングする。部分配列が入力ビデオデータストリーム92の配列にわたって動くときはいつでも、ビデオ合成装置10は、非出力画像またはGRPの挿入を実施し、その瞬間28において挿入されるGRP30は、すでに瞬間28に先行する部分配列の部分であった入力ビデオデータストリームに対応するタイル位置に、人工動き補償サイド情報を含む。部分配列が対角運動をする事例において、これらの数は4であり、一方で水平または垂直運動は、各切り替え瞬間の前および後で6つのデータストリームを共有する。図6の事例において、たとえば、その瞬間の後、すなわち、T=1において部分配列の部分である4つの入力ビデオデータストリームはすでに、その瞬間以前の、すなわち、T=0における部分配列の部分、すなわち、斜線を使用して示されているものになっている。瞬間28において、すなわち、図8における継承画像26の間に挿入される1つまたは複数のGRPは、並進するように、これら4つの入力ビデオデータストリームが以前に位置付けられていたタイルの内容を、これら4つの入力ビデオデータストリームの新たな位置へと複製する。それゆえ、GRP(複数可)は、いくつかの入力ビデオデータストリーム14について、これを並列に実施することができる。このパノラマアプリケーションのシナリオの事例において、人工動き補償サイド情報は、現在表示されている合成ビデオデータストリーム内に残っているすべての入力ビデオデータストリームに対応する空間部分の並進運動をインスタンス化する。次に説明するアプリケーションシナリオにおいては、これは異なり得る。すなわち、GRPの人工的に生成される動き補償サイド情報は、1つの入力ビデオデータストリームに対して並進的なものであり得るが、運動方向は、並列に処理される異なる入力ビデオデータストリームについては異なり得る。
特に、GRP概念は上記図5〜図8に関連するパノラマストリーミングアプリケーションの文脈において説明されたものの、異なる例が図9に関連して下記に提示される。前述したように、GRPは、他のアプリケーション、たとえば、ビデオ会議も可能にする。ビデオ会議システムにおいては、すべての参加者のビデオビットストリームが、概ね同様に単一のビデオビットストリームへと合成/スティッチングされる。話者合成レイアウトが変化すると、たとえば、話者の変化または参加者の変動を通じて、合成において位置を変更した参加者ビデオビットストリームの正確な時間予測を可能にするために、GRPがビットストリームに付加される。そのようなアプリケーションにおいて、それぞれのGRP内の動きベクトルは、GRP全体を通じて、ただし少なくとも、2つの異なる合成がT=0およびT=1について与えられており、かつ、GRPの動きベクトルも示されている図9に示すように、各参加者のビデオビットストリームによってカバーされる領域を除いて、必ずしも一定ではない。したがって、この事例において、各話者について、単一のコード化ユニットが動きベクトル情報を有し、符号化されているその話者について残りのコード化ユニットがスキップされるように、そのレイアウト方式に対応するより多くのスライスまたはタイルが使用され得る。言い換えれば、図9のGRP30は、図3に関連して上記で提示した説明と同様に符号化され得る。すなわち、画像30が、図9の事例においては例示的に3つである、切り替え瞬間28の前および後に存在する入力ビデオデータストリームあたり1つの空間部分20をもたらすように、分割され得る。空間的予測を使用して、これら3つの入力ビデオデータストリームの各々の空間部分の変位が、これら3つの入力ビデオデータストリームの各々について1回のみ、すなわち、それぞれの空間部分内の1ブロックのみについて符号化され得、一方で、それぞれ同じ空間部分内の残りのブロックについて再び各入力ビデオデータストリームの並進運動がシグナリングされることを回避するために、空間予測が使用され得る。
GRP概念のさらなる対象となるアプリケーションは、入力ストリーム14における可変ランダムアクセスレートおよびストリーミング制御を用いた、仮想現実またはテレプレゼンス使用事例に一般的に見出されるヘッドマウントディスプレイに対するパノラマストリーミングである。言及されているアプリケーションにおいて、利用可能なビデオストリームは、カメラ(複数可)位置において360度までの視角をカバーする可能性が高い。同様に、利用可能な視角のビデオのやや大きい部分が、周辺視野を与えるためにユーザに対して同時に提示される。さらに、頭部の動きに起因するパノラマビデオの表示領域の調整が、たとえば、接触ベースの入力システム上よりもはるかに短い間隔および速い速度で行われる可能性が高い。
いくつかの事例において、ビデオストリーム内に明らかに好ましい関心領域(ROI)エリア、たとえば、図10に示すような遠隔制御される車両上での動きの方向などがある。参照ビデオは、たとえ指示されている場合に瞬間的なアクセスを提供するために表示されない場合であっても、復号器側で利用可能である(すなわち、常に復号される)ように意図されているため、その領域の中にある画像領域は、より粗い(またはゼロの)ランダムアクセスレートで符号化することができる。他の視角(周辺視野)は、ビュー方向の突発的な変化に備えるために相対的に精細なランダムアクセスレートをもたらす。このシナリオにおけるスティッチングビデオは常にROIを含み、任意選択的に、周辺領域の部分を含む。その後、提示されているビデオ領域に応じて、前述したようにGRPが生成される。
[1]に概説されている技法と比較して、上記で概説したGRP概念は、いくらかの拡張を含むことができ、以下のリストは、入力ビデオデータストリーム14およびGRPが従い得る制約、および、それらが含み得る特性を詳述する。
時間的動きベクトル予測:画像22のエッジ部分における動きベクトルに関するいくつかの制約のような、それに基づいて入力ビデオデータストリーム14が生成されるいくつかのビットストリーム制約はすでに上述されている。それに加えて、時間的動きベクトル予測(TMVP)、すなわち、動き補償サイド情報の時間予測は、GRPによって置換され得るいかなる画像も、TMVPには使用されないように制約され得る。一般的に、リストされている例示的なアプリケーションにおいて、ROIまたは話者レイアウトをこの時点から前方へと変化させるために使用される切り替え点が定義される。たとえば、階層的予測時間スケーラビリティが使用される場合、切り替え点は、たとえば、時間レベル0画像、または、利用可能な時間層の何らかの他のサブセットの画像として選択され得る。この事例において、時間レベル0を有する画像はTMVPのために選択されない。これは、この画像がGRPへと変化される可能性があり得るためである。 代替的に、TMVPは、予測構造によって決定される画像/時間の量にわたって、切り替え点におけるすべての時間レベルについて無効化されてもよい。GOP構造は、スティッチング画像が同じ値の時間レベル指示子を有し、書き換えプロセスが単純化されるように、ビットストリームにわたって一定に維持され得る。
参照画像セット:受信機/復号器において必要とされるメモリの増大を回避し、必要な復号画像バッファ(DPB)サイズを低減するために、特にいくらかがIスライスおよびいくつかのPまたはBスライスを有するときに、入力ビデオデータストリーム(たとえば、タイル)が同期的に混合/スティッチング/合成されるときに、参照画像セット(RPS)の量およびサイズが最小限に維持され得るように、入力ビデオデータストリームが全体的に同じ予測構造を使用することが好ましい。たとえば、1つの入力ビデオデータストリームのHEVC IDRまたはCRAが、合成ビデオデータストリーム内のIスライスを有する後続画像に変換されるとき、一貫したRPSが選択され得、Iスライスタイルが混合/スティッチングされるタイルのRPSに一致する空でないRPSが選択され得、Iスライスのみを基準として使用する後続するスライスについて、(他のタイルに対して)首尾一貫したRPSが指示され得、Iスライスを固有の参照画像として識別する構文構造、参照画像リストおよび画像インデックスのための構文構造が、スライスに付加されなければならない。
画像順序カウント(POC):GRP30の挿入/追加は、入力画像22および他方における対応する継承画像26のPOC値を比較するときにさらなるPOC値を変化させる装置10によって達成することができる。GRPのPOC差は、置換される元の画像と同じままであり、これは、DRB内のすべての画像の最大のPOC差+1以上である、POCデルタを定義することによって達成することができる。このPOCデルタは、GRPが、DPB内の置換される画像のPCにこれを加えることによって、POCを計算するために使用される。最後のIDRからのすべてのPOCデルタの合計が、スライスヘッダから導出されるPCO値に加算され得る。加えて、さらなる高レベル構文構造が適合を必要とし得、たとえば、HEVCを使用する事例において、VPS内のvui_poc_proportional_to_timing_flagが出力ストリームにおいてゼロにされ得る。
インループフィルタ:加えて、予測を通じて空間的に再配置されるときに(矢印34)、元の入力ビデオストリーム画像22の修正に起因する、GRP(複数可)30に後続する画像の予測ドリフトを回避するために、HEVCにおけるデブロッキングおよびサンプル適応的オフセットフィルタのような、GRP30におけるインループフィルタが、たとえば、PPS内で無効化されるべきである。すなわち、ビデオ符号化器70によって実施されるインループフィルタリングに加わる、いかなる追加のインループフィルタフィルタリングも、GRP30に適用され得ない。
タイルおよびスライス:データの挿入量を低減するために、装置10は、タイルおよびスライスを通じたGRPの構造化を、不要なシグナリングオーバヘッドを導入するものとしては最小限に維持し得る。しかしながら、スティッチング画像または任意の他の画像と同様のタイル/スライス設定は、必要とされる/好ましい実施態様、すなわち、ソースビデオごとのものである。
出力信号化:上述したように、合成ビデオデータストリームの根底にあるビデオコーデックは、GRPの出力特性の信号化を可能にする。すなわち、そのGRPは出力されず、たとえば、HEVCスライスヘッダ内のoutput_flagを通じて、参照のためにのみ使用される。スライスヘッダ内のそのような構文要素の存在は、スライス参照においてその存在をそのPPSにシグナリングする追加のPPSを必要とし得る。
パラメータセット挿入:GRPは必ずしも、それらのそれぞれのパラメータセット内でシグナリングされるすべての特性をストリームの他の画像と共有するとは限らない。それゆえ、GRPが参照するために、追加のパラメータセットが出力ビットストリームへと挿入されることが好ましい場合がある。
GRP NALユニット(複数可):可能な最大サイズのコード化ユニット(CU)またはブロックを使用することによってGRPを符号化することが、可能な限り少ないビットを生成するために好ましい。図3に関連して概説されているように、画像の必要な変位、すなわち、どれだけのピクセル数が移動されるか、および、いずれの方向にそれぞれのタイル(複数可)が移動されるかを示す、第1のCUまたはブロックが符号化され得る。残りのCUまたはブロックは、それぞれの空間部分のすべてのCUについて同じであるため、それらのCUまたはブロックはスキップモードなどで符号化される。しかしながら、入力ストリームのCUサイズまたは画像領域ごとの個々の動きが、よりCUサイズをより小さくするように動機付け得る。GRPスライスは、新たなRPS、または、必要とされる場合に、置換される画像を参照のために必要とされないものとしてマークする、SPS内のRPSに対するインデックスを含み得る。後者は、画像がGRPによって置換され、さらなるGRPが含められると、DPBメモリ要件を低く抑えるために、さらなるGRPのRPSに元の画像に対する参照が含まれないことを意味する。
SPS一貫性:IDRは、以前のアクティブなSPSとは異なる値を有する新たなSPSを起動し得る。しかしながら、異なるビットストリームを単一のビットストリームへとともにスティッチングすることを可能にするためには、異なるストリームのSPSが一貫していることが要件である。IDRを後続する画像のIスライスに書き換え、他の非Iスライスとスティッチングするためには、これは、先行するアクティブなSPSのものとは異なる構文要素を有するSPSを起動してはならない。
上記の説明に関連して、たとえば、スライスデータまたはスライスペイロード区画42の形態のGRP30が、挿入のために事前に符号化され得ることに留意されたい。すなわち、装置10は、想定されている入力データストリーム構成に一致するそのような事前符号化GRP30のセットを有し得る。このように、そのようなGRPは、それらのスライスペイロード内容が、画像寸法、変位またはタイル構造のような高レベルパラメータのみに依存するため、合成ビデオデータストリーム18へと挿入することができる。これによって、たとえば、例としてH.264/AVCまたはHEVCコード化内容のコンテキスト適応的2値算術符号化(CABAC)エンジンのような、実際のエントロピー符号化器を用いない実施態様が可能である。
上記で外接した実施形態の中には、いくつかの入力ビデオデータストリームを1つの合成ビデオデータストリームへと合成する実施形態があった。以下においては、わずかに異なる概念を使用して、合成ビデオデータストリームの、または、複数の入力ビデオデータストリームの合成を達成する実施形態が説明される。図11は、複数104の入力ビデオデータストリーム1051、1052...105Nを受信するための入力102と、合成ビデオデータストリーム108を出力するための出力106とを有する装置100を示す。入力ビデオデータストリームのインデックスは、以下の説明において除外されることがある。入力ビデオデータストリーム105および合成ビデオデータストリーム108は、動き補償時間予測を使用して符号化される。
以下に、より詳細に概説するように、図11のビデオ合成装置100は、画像数が合成ビデオデータストリーム100の及ぶ空間的寸法空間へと拡大されていることと引き換えに、図1〜図10に関連して上述した実施形態と比較して増大した合成自由度で、到来する入力ビデオデータストリーム105からビデオを合成することが可能である。一般的には、図11のビデオ合成装置100は、合成ビデオデータストリーム100の参照部分内に出力されるべきではない入力ビデオデータストリーム105を「隠し」、一方で、ビデオ合成装置100によって、合成によって生成される、合成ビデオデータストリームのさらなる部分は、動き補償時間予測を介して参照部分から様々な領域を参照することによって、照合ビデオを合成する。合成によって生成される内容の後者の部分は、合成ビデオデータストリーム100の、復号側で実際に出力されるべき部分である。
すなわち、図11の概念によれば、単一の復号器へと供給されると、複数の入力ビデオデータストリーム/ビットストリーム105の空間構成を生成する単一の出力ビデオデータストリーム/ビットストリーム108を作成するために、いくつかの入力ビデオデータストリーム105が装置100によって圧縮領域において処理される。図12は、出力ビットストリーム108を復号することによって達成される、意図される構成110を合成するために、1つの入力ビットストリーム(ストリーム1)1051の内容が、別の入力ビットストリーム(ストリーム2)1052の部分と重ね合わされる第1の例示的な使用事例を示す。下記により詳細に概説されるように、この目的のために、出力データストリーム108は、入力ビデオデータストリーム1051および1052のビデオ内容を担持する参照部分112と、動き補償時間予測を介して、参照部分112を参照する、実際に出力されるべき合成部分とを備える。図12において、異なるハッチングを掛けられた矢印が、入力ビデオデータストリーム105からの使用されている参照領域を示している。すなわち、この矢印は、部分114において合成ビデオ内容を作成するための予測ベクトルを示すものとする。より多くの詳細が下記に提示される。
図11に戻って参照すると、ビデオ合成装置100は、複数104の入力ビデオデータストリーム105の動き補償サイド情報および予測残差データを収集および複製して第1の部分112にすることによって、複数の入力ビデオデータストリーム105を、合成ビデオデータストリーム108の画像116の参照部分112へと多重化する。合成ビデオデータストリーム108の画像116の第2の部分114は、動き補償時間予測を介して、参照部分112を参照することによって、合成によって生成される照合ビデオで充填される。参照部分はデータストリーム108内で出力されないものとしてシグナリングされる一方で、第2の部分114は、出力されるものとしてシグナリングされる。
下記により詳細に概説するように、入力ビデオデータストリーム105を参照部分112へと多重化する方法については、いくつかの可能性がある。特定の入力ビデオデータストリーム105iによって搬送される「ビデオ量(video amount)」は、たとえば、tiのような1秒あたりの画像の数のni×mi倍のような、それぞれの入力ビデオデータストリーム105iの画像118あたりのサンプルの数を示すものとし、さらに、1秒あたりの画像の数のno×mo倍のような、照合ビデオの画像あたりのサンプルの数としての、第2の部分114の「ビデオ量」を示すものとし、このとき、照合ビデオデータストリーム108は、たとえば、1秒あたり少なくともno×mo×to+Σni×mi×ti個のサンプルを含む。ビデオ入力データストリームの間の画像サイズ変動の結果として、図15に関連して説明されるように、ダミーデータ充填領域が最小サイズに加わることになり得る。入力ビデオデータストリーム105が参照部分112へとどのように「隠される」または多重化され得るかについて、様々な方法が存在する。この目的のために、たとえば、参照部分112は、非出力画像、および/または、切り取られるべき合成ビデオデータストリーム108の出力画像の画像領域を含み得る。より多くの詳細が以下において説明される。
すなわち、図11の概念は、多重化を通じて新たな単一の出力ビットストリーム108の部分112を作成するために、いくつかの入力ビットストリーム105を使用する。単一の瞬間において出力されるべき構成を形成するように意図されている入力ビットストリーム105の画像118またはその部分は、以下において、参照画像セット内の画像(PSR)として参照される。
図13および図14に関連して、入力ビットストリーム105を参照部分112へと多重化するための2つの代替形態が、以下においてより詳細に説明される。第1の代替形態は、図13に関連して提示および例示される。図13は、2つの入力ビデオデータストリーム105が両方ともGOP構造を参照するIPPPを使用する例を示すが、これは図13において例示のみを目的として選択されている。図13の例示的な2つの入力ビデオデータストリーム1051および1052は、時分割多重化を使用して、合成ビデオデータストリーム108の画像116の少なくともサブセットの空間的に静止した空間部分118へと多重化される。すなわち、図13の事例において、画像118は、図13に示すように、データストリーム108の一対の連続した画像116が、その空間的に静止した空間部分119を、両方とも同じ瞬間において合成ビデオを形成するように意図されており、たとえば、2つの入力ビデオデータストリーム1051および1052において同じ瞬間に属する、入力データストリーム1051の1つの画像118、および、他の入力ビデオデータストリーム1052の1つの画像118で充填されるように、データストリーム108の像116の少なくともサブセットを充填するために、1つおきに使用される。たとえば、入力ビデオデータストリーム1051の画像118は、入力ビデオデータストリーム1052の画像118と同じサイズであり得、すなわち、n1=n2かつm1=m2であり、それによって、合成ビデオデータストリーム108の画像116の少なくともサブセット内の同じサイズのそれぞれの空間的に静止した空間部分119は、これらの入力ビデオデータストリーム105のそれぞれの画像118の動き補償サイド情報および予測残差データを収集および複製することによって充填される。図13にはこのように示されているが、他方では、入力ビデオデータストリーム1051および1052の画像118はサイズが異なってもよい。したがって、出力ビデオデータストリームの参照部分112において、入力ビデオデータストリーム1051および1052の画像118は、以下においてバックツーバック(B2B)と呼ばれる様式で互いに後続する。すなわち、特定の瞬間において構成を形成するように意図されている画像は、個別のPOC値を有する個々の画像として合成ビデオデータストリーム内で互いに後続する。出力ビデオデータストリーム108において、入力ビデオデータストリーム1051および1052の画像118が時間的に交互配置になることに起因して、装置10は、画像118の内容が利用される画像116のPOC値の変化を計上するために、入力ビデオデータストリーム1051および1052の画像118のスライスにおけるスライスヘッダにおいて、参照画像順序カウント差分値または参照画像順序カウント差分値のセットに対する参照を補正することができる。
たとえば、図13において、入力ビデオデータストリーム1051の2つの画像が、データストリーム108の出力画像116の部分119を充填するために使用されるものとして示されている。元の入力ビデオデータストリーム1051のIPPP参照構造によって、これらの画像のうちの第1の画像は、矢印120を使用して示されているように、これらの画像のうちの第2の画像の参照画像を形成する。合成ビデオデータストリーム108においてこの参照を維持するために、装置10は、入力ビデオデータストリーム1051内の対応する画像は、たとえば、画像116の左上隅の小さい数字「1」および「2」によって示されているものとしてのPOC差1を有していたが、空間部分119がそれぞれの入力画像118で充填されている出力ビデオデータストリーム108の出力ビデオデータストリームの画像116の間のPOC差は、この時点で2、すなわち、3−1のPOCを有するという事実を計上することができる。同じことが、参照符号122を用いて示されているように、入力ビデオデータストリーム1052の画像間の時間予測122に関しても同様である。
したがって、装置10による、POCおよびRPSのような高レベル構文情報に対する調整が実施され得るが、ビデオ符号化器による入力ビデオデータストリーム1051〜105Nの生成における自由度は、図1〜図10に関連して上述した実施形態と比較して増大し得る。たとえば、図13のバックツーバック手法はタイルを使用した入力画像118のスティッチングを伴わないため、符号化器−復号器の不整合はが生じないこともある。
入力ビデオデータストリーム105の画像118の画像内容を合成ビデオデータストリーム108の参照部分112へと多重化する第2の可能性が、図14に示されている。ここでは、入力ビデオデータストリーム105の画像118を、データストリーム108へと多重化するために、空間分割多重化が使用される。入力ビデオデータストリーム1051および1052は、合成ビデオデータストリーム108の画像116の異なるタイル122および124を占める。特に、図14は、図13の事例におけるものと同じ参照構造の例示的な使用状況を示す。ここで、PSRは、[1]において記載されているように、かつ/または、図6〜図10に関連して上述したように、ともにスティッチングされる。ここで、図13と比較すると、出力ビットストリームの画像サイズ、すなわち、画像116のサイズは、スティッチングPSRの空間寸法に応じて、個々の入力ビットストリームと比較して増大している。すなわち、図14の事例において、装置10は、たとえば、1つの画像116を第1のタイル122内で、第1の入力ビデオデータストリーム1051の画像118で充填し、同じ画像116の別のタイル124を、ビデオデータストリーム1052の時間的に整列した画像118で充填し、他の画像116も同様に充填する。たとえば、合成ビデオデータストリーム108の次の画像116は、タイル122においては入力ビデオデータストリーム1051の次の画像118を使用して、および、タイル124においては入力ビデオデータストリーム1052の時間的に整列した画像118を使用して、図1〜図13に関連して上記ですでに概説した収集および複製手法を使用して充填される。したがって、異なる入力ビデオデータストリーム115の時間的に整列した画像118が、合成ビデオデータストリーム108の1つの画像116の異なるタイルへと利用され、したがって、ビデオデータストリーム108内で、図14に示されている入力ビデオデータストリーム1051および1052の第1の画像118についてはt(1)において、および、これらの入力ビデオデータストリーム1051および1052の第2の画像についてはt(2)について示されている1つの共通のPOC値と関連付けられる。下記により詳細に説明するような、第2の部分114がデータストリーム108に付加される方法に応じて、装置10は、合成ビデオデータストリーム108における参照画像順序カウント差分値および/または参照画像順序カウント差分値のセットに対する参照を、入力ビデオデータストリーム105に対して補正してもよく、または、補正しなくてもよい。たとえば、下記により詳細に説明するように、照合ビデオ部分114が、合成ビデオデータストリーム108内で参照部分112に空間的に付着するように搬送されることがあり得、その事例において、合成ビデオデータストリーム108は、たとえば、時間予測120および122について参照する相対POC差が同じままであるように、入力ビデオデータストリーム105を使用して充填されるタイル122および124を有するものを超える任意の画像16を含まないようにすることができる。照合ビデオ部分114が合成ビデオデータストリーム108へと挿入される結果として、図14には示されていない、追加の画像116が合成ビデオデータストリーム108へと挿入される場合、装置10は、画像順序カウント値、参照画像順序カウント差分値、または、参照画像順序カウント差分値のセットに対する参照のような高レベル構文構造を、それに従って補正することができる。
したがって、図14の事例において、参照部分112は、図14に示すように、たとえば、入力ビデオデータストリームの画像118が等しいサイズn×mであるとき、参照部分112に属する、合成ビデオデータストリーム108の画像116から空間的に、たとえば、2×n×m個のサンプルを消費する。
異なる入力ビデオデータストリーム105の画像118が同じサイズであるという後者の仮定は、必ずしも満たされる必要はない。両方の事例において、異なる入力ビデオデータストリーム105の画像118は、異なるサイズであってもよい。その事例において、合成ビデオデータストリーム108の何らかの領域は、図15に関連して以下に説明するように、ダミー内容で充填され得る。
図15は、図12で行われたように照合ビデオを形成する方法を概略的に示すが、ここでは、入力ビデオデータストリーム1052の画像118が、入力ビデオデータストリーム1051の画像よりも小さいサイズである事例を示す。図14に関連して上記で提示されているスティッチング参照手法では、この結果として、たとえば、第1の入力ビデオデータストリーム1051の画像のサイズがn1×m1であり、第2の入力ビデオデータストリーム1052のサイズがn2×m2であると仮定すると、参照部分112は、参照部分112に属する限り、出力データストリーム108の画像116あたり(n1+n2)×m1個のサンプルを空間的に消費することになる。その事例においては、参照部分112の各画像116内の矩形領域が、たとえば、ダミー情報130で充填され得る。当然のことながら、入力ビデオデータストリーム1051および1052の画像は、代替的に、図14および図15に例示的に示すような水平方向の代わりに、互いに対して垂直方向にスティッチングされてもよい。図13に関連して上記で例示したばかりのB2B手法に転換すること、これは、たとえば、空間部分119が入力ビデオデータストリーム1052の画像118で充填されている合成ビデオデータストリームの各画像116が、ダミーデータで充填された(n1×m1)−(n2×m2)サンプルの充填されていない分画を有することを意味し得る。たとえば、入力ビデオデータストリーム1051および1052の画像118はすべて、静止空間部分119の左上隅に位置合わせされ得、それによって、充填されるべきダミー部分は、部分119の底部および右手側に沿ってL字形状になり得る。
合成ビデオデータストリーム108の照合ビデオ部分114のサイズが、図15内の第1の入力ビデオデータストリーム1051および第2の入力ビデオデータストリーム1052の画像のうちの大きい方のサイズと一致していることを図15が示している事実は、例示のみを目的として選択されているに過ぎない。
したがって、図15は、入力ビデオデータストリームが、復号されるときに任意の内容を有し、照合ビデオ部分またはSLCP114による参照には使用されないダミースライスを伴い得ることを示している。ダミースライスは、B2B手法においてすべての入力ビットストリーム105の空間画像寸法を整列させるか、または、図15に見てとれるように、必要な場合に少なくとも1つの画像寸法を整列させることによってスティッチングを可能にするかのいずれかのために使用され得る。
例示のみを目的として、以下の説明のすべてはスティッチング参照手法を利用するが、これらの以下の説明のすべては代替的にまた、B2B手法を使用して実施されてもよいことに留意されたい。
図15は、空間寸法に関する入力ビデオデータストリーム間の差に対処する方法の可能性を示しているが、図16は、装置10が、異なるフレームレートの入力ビデオデータストリーム105に対処する可能性を示している。異なるフレームレートの入力ビットストリーム105は、装置10によって、より低いフレームレートの入力ビットストリーム105を、すべての入力ビットストリーム105の間で見られる最大のフレームレートにリサンプリングすることによって、参照部分112へと多重化することができる。合成ビデオデータストリーム108内でフレームレートを整合させるための1つの方法は、参照に使用されないダミースライスを選択的に付加し、図16に示すものと同じ、複数の連続するSLCP内の参照画像(領域)を使用することであり、ここで、入力ビデオデータストリーム1052のフレームレートは例示的に、入力ビデオデータストリーム1051のフレームレートの半分であり、SLCPは、利用可能な最も高いフレームレート、すなわち、入力ビデオデータストリーム1051のフレームレートにおいて作成される。同様に、SLCPのフレームレートは、たとえば、これらのフレームレートのより高い入力ビデオデータストリーム(複数可)の何らかの参照画像を合成のために使用しないことによって、入力ビデオデータストリームの間で最大のフレームレートよりも低くなり得る。
RPSは、PSRによって必要とされる参照が、すべての多重化ストリームにとって必要なすべての参照画像を含むように、装置10によって、設定されるべきである。同じ瞬間に属する参照が共通のPOCを共有しないB2B手法について、これによって必然的に、各それぞれのRPSのサイズの増大がもたらされる。スティッチング参照手法について、かつ、RPSが(実際のRPSおよびRPSに対する参照に関して)整合されるとき、サイズまたは量の増大は最小になる。
直接的な実施態様は、たとえば、参照画像および/またはSLCP画像のスライスヘッダにおいて新たなRPSをシグナリングすることであり得るが、これはシグナリングオーバヘッドをもたらす場合がある。しかしながら、プロセスが、その後送信することなくエンドデバイス上で実行されるときは、これは無視できる。このプロセスが、エンドデバイスから離れたクラウドサーバのような遠隔エンティティ上で実行され、その後、エンドエバ椅子に送信されるとき、パラメータセット内のRPSを、シグナリングオーバヘッドを最小限に抑えるために適切であるように調整することが有益であり得る。
各瞬間のそれぞれのPSRをもたらすように、参照のための入力ストリーム104が出力ビデオデータストリーム108の参照部分へと融合/多重化された後、B2Bまたはスティッチング参照画像部分112に対する時間予測参照による構成を包含する追加のSLCPスライスデータが生成され、部分114としてデータストリーム108に付加される。この合成SLCPは、復号器による出力および/またはエンドユーザへの表示のために意図されている。SLCPは、サンプル予測を通じて画像内容の構成を作成するための、PSR内のピクセル位置を指摘する、予測/動きベクトルのような、動き補償サイド情報から構成され得る。
装置10が、画像順序カウント−空間アクセス−空間において参照部分112に対して位置114を位置決めするための様々な可能性が存在し、それらのいくつかは、図17、図18aおよび図18bに関連して下記に提示されている。
出力ビットストリーム108におけるSLCPの位置は、適用される参照/多重化手法に応じて選択することができる。図13に関連して上記で提示されているB2B参照手法について、たとえば、SLCPスライスデータは、入力画像118がそれへと多重化されている出力ビットストリーム108の画像116とは別のPOCを有する個々の画像の形態で、出力ビットストリーム108へと多重化され得る。特に、この事例において、部分114は、図13に示す参照画像内に散在している出力画像を含み、出力画像は、時間的に、参照されるPSRの後に配置されている。これは、図17において例示的に示されており、図17は、その限りにおいて、図13に示すようなB2B手法を、部分114によって拡張している。
すなわち、図17によれば、装置10は、ビットストリーム108の参照部分112を形成するように、時分割多重化によって、到来する入力ビデオビットストリーム1051および1052の画像118を、合成ビデオビットストリーム108のそれぞれの画像116へと多重化し、これらの画像の間に、動き補償時間予測130を介して参照部分112を形成する画像116を参照するデータで充填されているさらなる画像116を散在させる。図17の例において、部分114に属する画像116の領域全体が、表示/出力されるのに専用にされ得る。代替的に、その下位部分のみが、出力されるのに専用にされてもよく、残りの部分は切り取られる。特に、装置10は、1つの瞬間に属し、それゆえ、参照画像のセットを形成する参照部分112の画像116が互いに直に連続し、部分114の一部分である画像116が、入力ビデオデータストリーム105の画像または等しい瞬間から収集および複製することによって充填されている参照部分112のそのような画像116の間に散在するように、画像116を、互いに時間的に位置合わせされるように、参照部分112に属する画像116の間に配置することができる。すでに上記で示したように、部分114に属する画像116のフレームレートは、入力ビデオビットストリーム105の画像のフレームレートと同じであってもよい。図17の事例において、出力データストリーム108の画像116は、装置10によって、ビットストリーム108の非出力画像であるとして示され、一方で、部分114を形成する画像116は、出力画像、すなわち、復号側において出力されるべき画像にシグナリングされる。時分割多重化を使用して入力画像118で充填されることによって参照部分112を形成する画像116の間に、部分114に属する画像116を配置することによって、部分114に属する画像116が挿入されない場合と比較してPOC増大率がより高くなることを、図17は示しており、この事実は、装置10によって、時間予測参照の管理、すなわち、参照画像順序カウント差分値およびスライスヘッダならびに/または参照画像順序カウント差分値のセットに対する参照の修正において適切に対処されることが簡潔に留意される。より正確には、装置10は、たとえば、それぞれの入力ビデオストリーム105のそれぞれの入力画像118が図2の記載に対応するようにコード化されている1つまたは複数のスライスを利用し、一方で同時に、同じ入力ビデオビットストリームの画像が多重化されている画像116のPOC差の変化を計上するように、スライスヘッダ40を改良することによって、参照部分112に属するデータストリーム108の各画像116を充填することができる。参照部分112に属する画像116は、ちょうど概説したように、出力されない。それらは、非出力画像である。照合ビデオは、部分114に属する出力画像116によって定義される。装置10は、単純に、部分114に属する画像116の種々の領域についての動き補償サイド情報をコード化することによって、照合ビデオを形成することが可能である。
図12および図15において、たとえば、部分114、すなわち、SLCPの一部分である画像116が、複数の領域であって、各々において時間的動きベクトルがそれぞれの領域にわたって一定であるが、時間的動き補償サイド情報は個々の領域の間で異なる領域へと分割されることが示されている。図17において、たとえば、部分114に属する画像116の部分領域132は、例として、出力ビットストリームPOC1を有する入力ビデオデータストリーム1051に属するPSR116から、等しいサイズのそれぞれの部分を並進的に複製する動き補償サイド情報を使用してコード化され、一方で、このSLCP116の残りの領域134は、他の入力ビデオビットストリーム1052のPSR116から、同じサイズおよび形状のそれぞれの部分を、たとえば、並進的に複製する動き補償サイド情報を使用してコード化される。図17に示されていない次の瞬間のSLCP116は、同じ動き補償サイド情報ならびに領域132および134への分割を使用して、または、異なる設定を使用してコード化されてもよい。たとえば、連続するSLCPの同じコード化の使用を想起されたい。さらに、領域134のうちの1つがゼロ動きベクトルを使用する、すなわち、単純に、それぞれの入力ビデオデータストリームの同一位置にある部分を空間的に複製することを想起されたい。その事例において、そのような合成ビデオデータストリームは、結果として、入力ビデオデータストリームのうちの1つの提示/表示をもたらし、ここで、別の入力ビデオデータストリームが、入力ビデオデータストリームの特定の領域において提示または重ね合わされている。この例は、図12および図14に示されている。PSRの画像内容の並進的複製を使用する事例において、装置10は、図3に関連して上述したように、たとえば、それぞれの領域132および134の第1のブロックに後続する任意のブロックについて、空間予測および/またはスキップモードを使用して、SLCP116の領域132および134をコード化することができる。装置10は、さらに、予測残差データを使用してSLCPをコード化することができ、画像コード化などを使用して、PSRにおいて時間的に予測される、領域132および134以外のさらなる領域をコード化することができる。
図14および図16において上記で概説したように、入力ビデオデータストリームを多重化するためにスティッチング参照手法を使用するとき、SLCPビットストリーム位置、すなわち、合成ビデオビットストリーム108の位置114の位置決定について、いくつかの可能性が存在し、2つの可能性が図18aおよび図18bに示されている。図18bは、図16においてすでに上記で示されている可能性を示す。すなわち、入力ビデオデータストリーム105が、装置10によって、各入力ビデオデータストリームについて1つのタイルを有する第1の画像116まで、ともに空間的にスティッチングされ、SLCPがそれらの間に散在され、動き補償予測を使用して、スティッチングされた参照画像に基づいて合成される。SLCP116は、様々な入力ビデオビットストリームの空間的スティッチングに対応する増大したサイズを有するが、SLCPの一部分の切り取りを使用することで、表示されるべき画像のサイズ、しいては、装置10によってこのように定義される照合ビデオのサイズを小さくすることができる。
このように、図18bは、部分114に属する画像116と、参照部分112に属する画像とを時間的に交互配置するが、図18aによれば、SLCP、すなわち、照合ビデオ部分114は、合成ビデオビットストリーム108の画像116に空間的に付着される。SLCPの画像内容を合成するために使用される時間的動き補償予測によって、部分114によって定義される照合ビデオ、すなわち、SLCPと、入力ビデオデータストリーム105の参照される内容との間に時間的遅延がもたらされることに留意されたい。
したがって、図18aの事例において、装置10は、入力ビデオデータストリーム105あたり1つのタイル、および、部分114を搬送するためのさらなる追加のタイルを含むように、合成ビデオデータストリーム108の画像116を合成することができる。入力ビデオデータストリームのうちの1つまたは複数がすでに複数のタイルに分割されている場合、入力ビデオデータストリームのタイルあたり1つのタイルが、合成ビデオデータストリーム108内に存在し得る。一方における入力ビデオデータストリーム105と、他方におけるSLCPとの間で異なるフレームレートを使用するとき、タイルのうちのいくつかはダミーデータで充填され得、これは、いずれがより低いフレームレートを有するかにかかわらず、入力ビデオデータストリームおよびSLCPのいずれかに当てはまる。
したがって、図18aおよび図18bは、SLCPスライスデータが、装置10によって、たとえば、参照されるPSRに後続する個別のPOC値を有する個々の画像の形態で挿入され得るか、または、SLCPが、参照されるPSRに後続するPSRのデータとスティッチングされ得ることを示している。
スティッチング参照手法を使用するとき、SLCPは、切り取って、想定されている出力画像サイズ、たとえば、個々の入力ストリームのうちの1つの画像サイズに戻すことができる。
図17〜図18bを要約すると、装置100は、以下のように機能することができる。
図17によれば、装置100は、入力データストリームnのインデックスiの画像
の動き補償サイド情報および予測残差データを収集および複製することによって、合成ビデオデータストリームの画像
、0<n≦N(Nは、入力ビデオデータストリームの数であり、Kは、同じインデックスiのN個の画像
ごとに装置100によって挿入される画像、すなわち、中間部分の中間画像または照合ビデオ(または出力)部分に属する画像の数である)を充填し、動き補償時間予測を介して、合成ビデオデータストリームの画像
、0<k≦K(kは、挿入画像の系列をインデックス付けする)から、系列k>1(ある場合)の画像について、任意選択的に、画像
の「参照される総領域」を形成する画像
を付加的に含む合成ビデオデータストリームの画像
のうちの1つまたは複数を参照することによって、照合ビデオを合成する。パラメータKは、図17に示すようなものであってもよいが、より高いSLCPフレームレートを可能にするために、K個の系列は、出力部分114を形成する出力画像の2つ以上の系列を含んでもよく、または、以降に概説するような多段参照手法を達成するために、K個の系列は、中間画像の少なくとも1つの系列および出力画像の少なくとも1つの少なくとも1つの系列を含んでもよい。
代替的に、図18aによれば、装置100は、それぞれ、入力ビデオデータストリームnの画像
の動き補償サイド情報を収集および複製することによって、合成ビデオデータストリームの画像
のN個のタイルTnを充填し、動き補償時間予測を介して、合成ビデオデータストリームの画像
から、系列k>1(ある場合)の画像について、任意選択的に、画像
の「参照される総領域」を形成する画像
を付加的に含む、画像
のタイルT1...TNのうちの1つまたは複数を参照することによって、照合ビデオを合成する。パラメータKは、図18aに示すようなものであってもよいが、より高いSLCPフレームレートを可能にするために、K個の系列はまた、出力部分114を形成する出力画像の2つ以上の系列を含んでもよく、または、以降に概説するような多段参照手法を達成するために、K個の系列は、中間画像の少なくとも1つの系列および出力画像の少なくとも1つの少なくとも1つの系列を含んでもよい。
代替的に、装置10は、入力ビデオデータストリームnの画像
の動き補償サイド情報および予測残差データを収集および複製することによって、合成ビデオデータストリームの画像
のタイルTNを充填し、動き補償時間予測を介して、合成ビデオデータストリームの画像
のタイルTN+1から、画像
のタイルTN+1の「参照される総領域」を形成する、合成ビデオデータストリームの画像
のタイルT1...TNを参照することによって、照合ビデオを合成する。上記でk>1によって示されている事例と同様に、下記により詳細に説明するような多段予測のために、すなわち、合成ビデオデータストリームの中間部分を形成するために、画像
あたり2つ以上のタイルが挿入され得る。
照合ビデオを合成する過程における参照は、装置100によって、合成ビデオデータストリームのそれぞれの画像またはタイルの出力領域Aを、J個の領域Ajへと分割することによって実施することができ、これらの領域Aj、0<j≦J、の少なくともサブセットの各領域は、下記にさらに説明するように、拡大または縮小効果を達成するように、(「参照される総領域」からの参照画像が関連付けられている)1つまたは複数の一定の動きベクトルの集合m(Aj)、すなわち、Aj内のすべてのブロックpおよびqについてm(p)=m(q)、を使用して、または、水平寸法および/または垂直寸法に沿って漸進的に変化する1つまたは複数の動きベクトルの集合、すなわち、Aj内のすべての隣接するブロックpおよびqについて|m(p)−m(q)|<閾値、を使用して、それぞれの「参照される総領域」からの1つまたは2つ(またはさらにはそれ以上)の部分を参照する。したがって、「参照される総領域」からの空間下位部分は、第1の事例においては、並進的に複製され、第2の事例においては、ブロック内という意味では並進的に、ただし、ブロック間という意味では拡大および/または縮小様式で複製され得る。領域Ajの少なくともサブセットの領域は、時間的にコード化されたブロックから合成され得る。「出力領域」をコード化するために、動き補償サイド情報をコード化するために利用可能な、可能な最小のブロックサイズが、漸進的に変化する事例のために選択され得る。領域の少なくともサブセットは、それらの輪郭および数に関して、それぞれ画像
の系列、画像
および画像
のタイルTN+1について時間的に一定であり得、または、系列(iによってインデックス付けされている)に沿って変化し得る。出力領域は、それぞれ画像
の系列の画像領域、画像
の画像領域、または、画像
のタイルTN+1のタイル領域と一致し得、その一部分であり得、残りは切り取られる。ゼロ動きベクトルを有する1つの領域があり得る。説明されているように、領域Ajのうちの1つまたは複数は、現在の領域Ajを含む現在の画像の上流にある、合成ビデオデータストリームのΔPl番目の画像である画像
を参照する動きベクトルを示す、2つ以上の動きベクトルから成る集合m(Aj)、すなわち、m(Aj)={(m1,ΔP1),...,(mM,ΔPM)}、ml(0<l<M)、を有し得る。動きベクトルが2つである、すなわち、M=2である事例において、これは、双予測と呼ばれる場合がある。各動きベクトルについて、動き補償サイド情報はまた、「Ajを得るためにαlによって重み付けされている相対的に変位された位置mlにおける
の複製の合計」による動き補償予測をもたらす、予測/重み付け係数αlをも含むことができる。この方策によって、2つ以上の入力ビデオデータストリームの間の重なりが、領域Ajにおいて達成され得る。Ajの出力領域の系列において重みαlを経時的に漸進的に変化させることによって、2つの入力ビデオデータストリームの間の混合を達成することができる。
説明したばかりの領域の部分集合の重なり合っている部分または外部に、その中で照合ビデオ部分114が予測残差データを使用してコード化される「出力領域」の空間部分があり得る。そのような空間部分へと、動かない画像、サービスロゴなどのような特別な内容がコード化され得る。動き補償領域Ajの外部の領域において、照合ビデオ部分114の出力領域をコード化するためのビット消費を低減するための空間予測モードを使用することができる。したがって、出力領域内に純粋なイントラコード化領域があり得る。
照合ビデオ部分114の出力領域をコード化するためのデータレートを低減するために、装置100は、動き補償サイド情報の、すなわち、照合ビデオ部分114の連続する画像の間の、すなわち、それぞれ、画像
の系列の連続する画像の間、画像
の系列の連続する画像の間、画像
の系列のTN+1の連続する画像の間の時間予測を使用し得る。
収集および複製による充填は、装置100によって、図3に関連して上記で概説したように実施することができる。装置100は、たとえば、付加的に、入力ビデオデータストリームの複製画像から合成ビデオデータストリームのそれぞれのタイルまたは画像へのスライスの転送、ならびに、たとえば、図15に関連して上述したようにダミーデータを収集および複製することによって合成ビデオデータストリームのそれぞれのタイルまたは画像内に充填されない残りの領域の充填において、スライスヘッダにおける参照画像への参照を改良する。
付加的に、図17の事例において、装置10は、画像
が非出力画像であり、一方、画像
が出力画像または中間画像であることをシグナリングしてもよく、k=Kである画像は、出力画像であり得る。図18aの事例において、装置10は、画像
が非出力画像であり、一方、画像
が出力画像または中間画像であることをシグナリングすることができ、k=Kである画像が出力画像であり得、図18bの事例において、装置10は、合成ビデオデータストリームのすべての画像が出力画像であることをシグナリングすることができるが、タイルTN+1を除くすべてが、合成ビデオデータストリームの表示/再生において切り取られるべきであることをシグナリングする。後者の切り取りシグナリングはまた、図18aに関連する装置10にも適用され得る。画像
の間の出力画像からの一部分のみが、合成ビデオデータストリームの出力の生成に使用され得、すなわち、出力画像の他の部分は切り取られ得る。
次に図21に関連して概説するように、ビデオ合成装置は、動き補償時間予測を介して、合成ビデオデータストリームの参照部分112を参照することによって、合成ビデオデータストリームの画像の中間部分を充填するように構成することができ、合成ビデオデータストリームの画像の部分108を形成する照合ビデオは、動き補償時間予測を介して、中間部分を介して間接的に合成ビデオデータストリームの第1の部分を参照することによって、照合ビデオで充填される。たとえば、すでに言及したタイルT1〜TN+1に加えて、タイルTN+2のような他のタイルが、装置100によって、合成ビデオデータストリームの画像
のタイルTN+1と同様に、合成ビデオデータストリームの画像
のタイルT1...TNのうちの1つまたは複数を参照する合成ビデオデータストリームの画像
のTN+2を介して間接的に、合成ビデオデータストリームの画像
のタイルT1...TNのうちの1つまたは複数を参照して生成され得る。
すなわち、部分114のSLCPのみが復号器によって出力および/または表示されるべきであり、一方で、PSRはSLCP、および、存在する場合、合成ビデオデータストリームの中間部分によって参照のためにのみ使用され、出力されないため、入力ビデオデータストリーム105および合成ビデオデータストリーム108の基礎を成す、適用されるコーデックは、出力されない参照のために利用可能な画像の概念をサポートすべきであり、または、任意の同等なメカニズムが、たとえば、システム層に適用されるべきである。代替的に、H.264/AVCのような、この特徴を欠くコーデックについて、たとえば、代わりにスティッチング参照手法を使用することができ、参照されるPSRに後続するSLCPおよびPSRのデータが、上述したように、単一の画像へとスティッチングされ得る。
部分114のSLCPのみが復号によって出力されるように意図されているため、提示されている手法のいずれかおよびそれらの組み合わせによって、PSRの画像内容を除去するか、または、上述したように個々の画像として搬送された復号SLCPの空間寸法を調整するかのいずれかのために、復号器によって出力されるべき復号画像を切り取ることが望ましい場合がある。
様々な態様が、タイルまたはスライスによってSLCPを構築するよう動機付ける。第1に、SLCPは、それによって、各SLCPについて、すなわち、少なくともその空間部分が部分114に属する各画像について、並列復号インフラストラクチャの新たな初期化が必要とされない、スティッチング参照画像の構造の入力ストリームのうちの1つまたは複数において利用されるタイル/スライス構造に従い得る。第2に、SLCPスライスデータの効率的な圧縮が、等しい、同様のまたは関連する予測ベクトルの領域を単一のタイルおよび/またはスライスへと効率的に符号化することができるような、予測ベクトルの分布に従うタイルまたはスライス構造を動機付け得る。
結果としてのSLCP(部分的または完全な)のために2つの入力ビデオ(同じく部分的または完全な)を混合することが所望され得る使用事例がある。それぞれの「参照される総領域」」から2つの部分を参照するものとして前述されている例示的な使用事例が、圧縮領域においてビデオ内容の上にグラフィカルユーザーインターフェース(GUI)を重ね合わせる仮想セットトップボックスアプリケーションによって図19に与えられている。この例によって、入力ストリーム1は、合成のための別の入力ストリーム2の形態のGUIと重ね合わされる。
図19内の構成における下側の破線矩形は、以下において、アルファブレンド領域として参照される。SLCPのアルファブレンド領域に対する所望の効果を生成するために、重み付け予測手順が利用される。アルファブレンド領域内のサンプル値は、各々が個々の重みを有する、複数の参照画像(B2B参照手法を使用するとき)、または、単一参照画像の複数の空間領域(スティッチング参照手法を使用するとき)から予測される。GUIオーバレイおよびチャネル、局またはサービスロゴのように、同じまたは様々な入力ストリームから、いくつかのアルファブレンド領域をSLCP内で組み合わせることが可能である。
運動ベクトルを漸進的に変化させることのような、前述したSLCPのさらなる特徴が、画像内画像アプリケーションに基づいて図20に示されている。この概念は、合成のための入力ストリーム画像内容の空間的リサイズを組み込む。これは、可能なもっと小さいコード化ユニットおよび/または予測ユニットブロック粒度において予測ベクトルを与えることによって達成される。予測ベクトル座標は、標的入力ビットストリームをリサンプリングするために、SLCP内のそれぞれの領域をトラバースする過程において調整される。復号SLCPにおける結果は、それぞれの入力ビットストリーム画像内容の一部分または全体の空間的に異なる表現である。
SLCP内のリサンプリングされている領域の各サンプル位置(すなわち、コード化ユニットおよび/または予測ユニット)について、入力画像の複数の(たとえば、隣接する)コード化ユニットおよび/または予測ユニットからの重み付け予測が、それぞれのリンサンプリングされている画像領域の品質を向上させるために適用され得る。
一般的に、入力ビットストリームの画像に対する差を導入しないために、デブロッキングフィルタのようなインループフィルタによるSLCPの処理は回避されるべきである。しかしながら、リサンプリング手順によって導入される可能性のある品質劣化を低減するために、HEVCにおけるデブロッキングフィルタまたはSAOフィルタのような追加のインループフィルタが、適合するように、SLCP全体またはサブサンプリングされた領域に対して使用され得る。
何らかの状況下では、単一の出力ビットストリームにおける入力ビットストリームからの所望の構成の作成は、いくつかの予測ステップ、すなわち、出力ビットストリームに付加されるべきいくつかの追加の非出力画像を必要とする場合がある。中間画像が、PSRおよび/または先行して生成されている中間画像を使用して、これらの中間画像および/またはさらには初期PSRのうちの1つまたは複数を参照するSLCPにおいて最終的な所望の構成が作成され得るまで予測されるが、SLCPのみが、出力されるように意図されている。
そのような状況の第1の例は、反復サブサンプリングであり、ここでは、合成ビデオデータストリームの第1の中間部分、すなわち、入力ビットストリーム画像内容が、重み付け双予測を使用して水平方向において空間的にサブサンプリングされ、第2のステップにおいて、この中間画像の内容が、再び重み付け双予測を使用して垂直方向において空間的にサブサンプリングされ、図21に示すように、最終的なSLCP構成が、出力されるものとして作成される。
そのような状況の別の例は、アルファブレンド効果を生成するためのVP9における結合予測の使用、および、結果もたらされる中間画像を、出力されるべきSLCPのための参照として使用することである。
以前の節が示しているように、多くのアプリケーションおよび使用事例を、それに従ってSLCPの予測ベクトルを調整することによって実施することができる。一般的なビデオ内容を合成することとは別のさらなる例は、個々の文字を描写する入力ビットストリーム画像領域に対する正確な予測ベクトルを使用してSLCP内でメッセージを合成するために、アルファベットの文字またはそれらの集合を入力ビットストリーム(複数可)の画像内容として提供することである。
すべての与えられている例は、特定の参照構造を利用しているが、提示されている概念は、より多くの参照構造に適用可能である。説明されているSLCP概念は同様に、3つ以上の入力ビデオビットストリームの処理も可能にすることに言及することも重要である。
GRPの場合のように、SLCPスライスデータは、任意のビットストリームへと挿入するために事前に符号化することができる。これは、それらの内容が、画像寸法および変位のような、高レベルパラメータのみに依存するためである。
図1〜図10のビデオ合成装置に関連してすでに上述したように、図11〜図21に関連して上述したビデオ合成装置100は、図5に示すようなシステム内で使用されてもよい。しかしながら、ここでは、複数のビデオ符号化器が、上述したように、図11〜図21に関連して説明されているように、入力ビデオデータストリームの生成においてより多くの自由度を有することができる。要求60は、装置100によって、SLCPの変更、すなわち、参照入力ビデオデータストリームの最終照合ビデオへの合成を求める要求として処理することができる。この要求は、同じく装置100を備えるサーバの復号器またはオペレータを含むクライアントに由来し得る。
説明されているようなSLCPを介したスティッチング、GRPの挿入および/または合成に必要である符号化制約が満たされていることの帯域内または帯域外シグナリングは、システムが、入来するストリームが上述したようにさらなる処理のためにスティッチングされ得ることをネゴシエートおよび/または検出することを可能にする。それゆえ、たとえば、RTPストリーミングのためのSDPまたはDASHベースのストリーミングのためのMPDなどにおけるシグナリングを、上述したように使用することができる。図22は、SEIメッセージの形態のそれぞれのシグナリングを例示的に記述している。
composition_enabled_typeは、現在のビットストリームが合成ビットストリームの部分ビットストリームまたは部分(タイル/スライス)である場合に、出力ビットストリームの合成に使用するために、現在のビットストリームに適用することができる合成(処理)の種類を示す。0に等しい値を有するcomposition_enabled_typeは、現在のビットストリームが、[1]に記載されているように、IDRアラインメントによって[1]に記載されている制約を満たす他のビットストリームとスティッチングすることができることを示す。1に等しい値を有するcomposition_enabled_typeは、[1]に記載されているように、現在のビットストリームが、[1]に記載されている制約を満たす他のビットストリームとスティッチングすることができるが、IDR画像が、後続する画像のIスライスに変換され得、非Iスライスと融合され得ることを示す。すなわち、1に等しい値を有するcomposition_enabled_typeは、IDRまたはIRAPが、仮にパラメータセットのアクティブ化が行われる場合に、以前にアクティブであったSPSとは異なる値を有するSPSをアクティブ化しないことを示す。加えて、2の値を有するcomposition_enabled_typeは、TVMPがさらに制限されること、および、max_temporial_id_ plus1_TMVP_disabled以下のtemporal_id_ plus1を有する画像が、TMVPのための参照として使用されないことを示す。
max_temporal_id_plus1_TMVP_disabledは、TMVPのための参照として使用されるべきではない画像のtemporal_id_ plus1の上限値を示す。
提案されているSEIメッセージとともに、既存のSEIを、ビットストリーム処理をより容易にするネゴシエーションのために使用することができる。一例が、structure_of_pictures_infoのSEIであり、このSEIにおいて複数の異なるビットストリームのGOPが要約され、このSEIは、GRP挿入のための切り替え点を識別するために使用することができる。それについて、リストRefPicSetStCurrBefore、RefPicSetStCurrAfter、またはRefPicSetLtCurrを復号するインスタンスにおいて、言い換えれば復号器参照画像バッファが、max_temporal_id_plus1_TMVP_disabled−1以下のTemporalIDを有する画像のみを含む任意の画像が、GRP挿入のための切り替え点としての役割を果たすことができる。
代替的に、入力データストリーム内のSEIメッセージが、GRPの挿入のための切り替え点としての役割を果たすことができる画像をシグナリングするために使用されてもよい。この特定のSEIのビットストリームが発生すると、復号順序において後続する画像のTMVPのための参照として使用される画像は、RefPicSetStCurrBefore、RefPicSetStCurrAfter、またはRefPicSetLtCurr内に含まれてはいないはずである。
さらに代替的に、NALユニットタイプインジケータ値が、STSA NALユニットシグナリングと同様に、上記の制約に関するシグナリングのために使用されてもよい。この特定のNALユニットタイプインジケータ値の画像Aのビットストリームが発生すると、復号順序において後続し、画像Aを含む画像のTMVPのための参照として使用される画像は、RefPicSetStCurrBefore、RefPicSetStCurrAfter、またはRefPicSetLtCurr内に含まれてはいないはずである。
同様に、SDPもしくはMPDまたは任意の他の形態のシグナリングメカニズムが、この情報を帯域外で搬送するための、提案されているSEIと同等のシグナリングを含み得る。
いくつかの態様が装置の文脈において説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラム可能コンピュータまたは電子回路のようなハードウェア装置によって(またはそれを使用して)実行されてもよい。いくつかの実施形態において、最も重要な方法ステップのうちの何らかの1つまたは複数は、そのような装置によって実行されてもよい。
特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実施することができる。実施態様は、それぞれの方法が実施されるように、プログラム可能なコンピュータシステムと協働する(または協働することが可能である)、電子可読制御信号を記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、DVD、Blue−Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ可読であり得る。
本発明によるいくつかの実施形態は、本明細書において説明されている方法のうちの1つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有する、データキャリアを含む。
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの1つを実施するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
他の実施形態は、機械可読キャリア上に記憶されている、本明細書において説明されている方法のうちの1つを実施するためのコンピュータプログラムを含む。
すなわち、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムがコンピュータ上で動作すると、本明細書において説明されている方法のうちの1つを実施するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、それゆえ、本明細書において説明されている方法のうちの1つを実施するためのコンピュータプログラムを記録されて含む、データキャリア(またはデジタル記憶媒体もしくはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は一般的に、有形かつ/または非一時的である。
本発明の方法のさらなる実施形態は、それゆえ、本明細書において説明されている方法のうちの1つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえば、インターネットを介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書において説明されている方法のうちの1つを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能論理デバイスを含む。
さらなる実施形態は、本明細書において説明されている方法のうちの1つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書において説明されている方法のうちの1つを実施するためのコンピュータプログラムを(たとえば、電子的にまたは光学的に)受信機へと転送するように構成されている装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、たとえば、コンピュータプログラムを受信機へと転送するためのファイルサーバを含んでもよい。
いくつかの実施形態において、プログラム可能論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が、本明細書において説明されている方法の機能の一部またはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書において説明されている方法のうちの1つを実施するために、マイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。
上述した実施形態は、本発明の原理の例示に過ぎない。本明細書において説明されている構成および詳細の修正及び変更が当業者には諒解されることは理解されたい。それゆえ、添付の特許請求項の範囲によってのみ限定されることが意図されており、本明細書において実施形態の記述および説明によって提示されている特定の詳細によって限定されることは意図されていない。

Claims (45)

  1. 少なくとも1つの入力ビデオデータストリーム(14)を使用して合成ビデオデータストリーム(18)を合成するように構成されているビデオ合成装置(10)であって、前記合成ビデオデータストリーム(18)および前記少なくとも1つの入力ビデオデータストリーム(14)は、動き補償時間予測を使用して符号化され、前記ビデオ合成装置は、
    前記少なくとも1つの入力ビデオデータストリーム(14)の動き補償サイド情報および予測残差データを収集および複製することによって継承画像(26)の空間部分を充填することによって、前記合成ビデオデータストリーム(18)の一連の前記継承画像(26)を形成するステップであって、前記空間部分の空間位置は、前記一連の継承画像の中で、1つの継承画像から次の継承画像へと時間的に変化するステップと、
    前記一連の継承画像の前記継承画像の間で、少なくとも1つの非出力画像(30)を前記合成ビデオデータストリーム(18)へと挿入するステップであって、前記少なくとも1つの非出力画像は、動き補償時間予測を介して、前記継承画像のサブセットを参照するステップと、によって、前記合成ビデオデータストリーム(18)を合成するように構成されている、ビデオ合成装置(10)。
  2. 前記ビデオ合成装置(10)は、前記1つまたは複数の非出力画像の各々が動き補償時間予測を介して、その前記収集および複製によって前記瞬間に後続する前記継承画像のいずれかの前記空間部分が充填される動き補償サイド情報によって参照される、前記瞬間に先行する前記継承画像の間で参照画像を置換するように、前記空間部分が空間的に変化する瞬間において1つまたは複数の非出力画像(30)を挿入するように構成されている、請求項1に記載のビデオ合成装置。
  3. 前記ビデオ合成装置は、各非出力画像が、動き補償時間予測を介して、前記空間部分が前記瞬間においてそこへと変化する、前記空間部分に空間的に対応する空間部分において、それぞれの前記非出力画像によって置換される前記参照画像の前記空間部分を参照するように、前記1つまたは複数の非出力画像(30)を挿入するように構成されている、請求項2に記載のビデオ合成装置。
  4. 前記ビデオ合成装置は、前記空間部分が第1の前記継承画像から、前記一連の継承画像内で前記第1の前記継承画像に直に後続する第2の前記継承画像へと変化する前記瞬間において、動き補償時間予測を介して、その前記収集および複製によって前記第2の前記継承画像を含め前記第2の前記継承画像に後続する前記継承画像のいずれかの前記空間部分が充填される動き補償サイド情報によって参照される、前記第1の前記継承画像を含め前記第1の前記継承画像に先行する前記継承画像の間の参照画像の数だけの非出力画像を挿入するように構成されている、請求項2または3に記載のビデオ合成装置。
  5. 前記ビデオ合成装置は、前記一連の継承画像がタイルへと空間的に分割されるように、および、各タイルが、関連付けられる前記入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製することによって、それぞれの前記タイルと関連付けられる、前記複数の入力ビデオデータストリームのうちの1つから形成されるように、前記少なくとも1つの入力ビデオデータストリームを含む、複数の入力ビデオデータストリームを一連の第1の画像へと多重化するように構成されており、前記空間部分は、前記少なくとも1つの入力ビデオデータストリームが関連連付けられる前記タイルによって画定され、前記空間部分の前記空間位置は、一方における前記タイルと、他方における前記複数の入力ビデオデータストリームとの間の前記関連の時間的変化に応答して、前記一連の継承画像における1つの継承画像から次の継承画像へと時間的に変化する、請求項1〜4のいずれか一項に記載のビデオ合成装置。
  6. 前記ビデオ合成装置は、一方における前記タイルと、他方における前記複数の入力ビデオデータストリームとの間の関連が変化する瞬間において、非出力画像を挿入するように構成されており、前記非出力画像は、それぞれの変化の前の、前記複数の入力ビデオデータストリームのうちの所定の入力ビデオデータストリームと関連付けられるタイルの画像領域を、前記変化の後の、前記所定の入力ビデオデータストリームと関連付けられるタイルの画像領域へと移動させる、動き補償サイド情報を含む、請求項5に記載のビデオ合成装置。
  7. 前記ビデオ合成装置は、変化を求める外部要求に応答した前記空間部分の時間的変化の前記空間位置の時間的変化を制御するように構成されている、請求項1〜6のいずれか一項に記載のビデオ合成装置。
  8. 前記継承画像の各々の前記空間部分が、前記少なくとも1つの入力ビデオデータストリームの一連の入力画像のうちの正確に1つの動き補償サイド情報および予測残差データを収集および複製することによって充填されるように、前記継承画像の前記空間部分を充填することによって、前記合成ビデオデータストリームの前記一連の継承画像を形成するように構成されている、請求項1〜のいずれか一項に記載のビデオ合成装置。
  9. 前記ビデオ合成装置は、参照画像の現在のセットのいずれもが、時間的動き補償サイド情報予測を介して、いずれの後続する入力画像によっても参照されない、前記一連の入力画像のうちの連続的な次の入力画像に遭遇すると、変化を求める外部要求を実行するように構成されている、請求項に記載のビデオ合成装置。
  10. 前記ビデオ合成装置は、1つまたは複数の時間階層レベルIDについて、それぞれの前記1つまたは複数の時間階層レベルIDの入力画像が、時間的動き補償サイド情報予測を介して、いずれの他の前記入力によっても参照されないことを保証する、前記少なくとも1つの入力ビデオデータストリームの高レベル構文によって含まれる、前記入力画像の画像範囲時間階層IDおよび画像範囲時間階層ID超過弁別器に基づいて、参照画像のセットのいずれもが、時間的動き補償サイド情報予測を介して、いずれの後続する入力画像によっても参照されない、前記一連の入力画像のうちの連続的な次の入力画像との前記遭遇を検出するように構成されている、請求項に記載のビデオ合成装置。
  11. 前記動き補償サイド情報および前記予測残差データはエントロピー符号化され、前記収集および複製することは、エントロピー復号することなく実施される、請求項1〜10のいずれか一項に記載のビデオ合成装置。
  12. 前記合成ビデオデータストリームの前記一連の継承画像を前記形成することは、前記少なくとも1つの入力ビデオデータストリームのスライスを、前記スライスのペイロードデータは変更されないままにして、スライスヘッダ内のデータは補正されるように、収集および複製することを含む、請求項1〜11のいずれか一項に記載のビデオ合成装置。
  13. 前記スライスヘッダ内の前記データは、スライスアドレス、および/または、画像順序カウントデータ、および/または、参照画像順序カウント差分値、および/または、参照画像順序カウント差分値のセットに対する参照、および/または、別様にコード化されている量子化パラメータを含む、請求項12に記載のビデオ合成装置。
  14. 前記少なくとも1つの非出力画像に、予測残差データがない、請求項1〜13のいずれか一項に記載のビデオ合成装置。
  15. 前記ビデオ合成装置は、前記少なくとも1つの非出力画像が、動き補償時間予測を介して、前記少なくとも1つの入力ビデオデータストリームの一連の入力画像のうちのある入力画像の空間部分が並進によって前記少なくとも1つの非出力画像の空間部分へと複製されるように、前記継承画像の前記サブセットを参照するように、前記少なくとも1つの非出力画像を挿入するように構成されている、請求項1〜14のいずれか一項に記載のビデオ合成装置。
  16. 前記合成ビデオデータストリームおよび前記少なくとも1つの入力ビデオデータストリームは、動き補償時間予測をブロック粒度が細かくなるように使用して符号化され、前記ビデオ合成装置は、前記少なくとも1つの非出力画像の空間部分が、その動きベクトルが互いに等しいいくつかのブロックから構成され、前記いくつかのブロックのうちの1つのみについては前記合成ビデオデータストリーム内で、前記いくつかのブロックの、前記1つのブロック以外のブロックについては空間予測を使用してコード化されるように構成されている、請求項15に記載のビデオ合成装置。
  17. 前記ビデオ合成装置は、前記1つのブロック以外の任意のブロックが、隣接するブロックからの予測残差データの欠如および動き補償サイド情報の利用をシグナリングするスキップモードを使用してコード化されるように構成されている、請求項16に記載のビデオ合成装置。
  18. 前記ビデオ合成装置は、前記少なくとも1つのビデオ入力データストリームのパラメータセットに基づいて、前記合成ビデオデータストリームの新たなパラメータセットを構築するように構成されている、請求項1〜17のいずれか一項に記載のビデオ合成装置。
  19. 複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するように構成されているビデオ合成装置であって、前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測を使用して符号化され、前記ビデオ合成装置は、
    前記複数の入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製して前記合成ビデオデータストリームの第1の部分にすることによって、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの画像の前記第1の部分へと多重化するステップと、
    動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の第2の部分を、照合ビデオで充填するステップと、によって、前記合成ビデオデータストリームを合成するように構成されており、
    前記第1の部分は出力されないものとしてシグナリングされ、前記第2の部分は出力されるものとしてシグナリングされる、ビデオ合成装置。
  20. 前記第1の部分は、非出力画像および/または前記合成ビデオデータストリームの出力画像の切り取られる画像領域を含む、請求項19に記載のビデオ合成装置。
  21. 前記ビデオ合成装置は、前記複数の入力ビデオデータストリームの少なくともサブセットの時間的に交互配置になった画像を使用して、前記合成ビデオデータストリームの前記画像の少なくともサブセットの空間的に静止した画像部分を充填することによる時分割多重化を使用して、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの画像の前記第1の部分へと多重化するように構成されている、請求項19または20に記載のビデオ合成装置。
  22. 前記合成ビデオデータストリームの前記画像の前記サブセットは、前記合成ビデオデータストリームの前記第1の部分を形成し、前記合成ビデオデータストリームの前記画像の前記サブセットの前記画像は、前記合成ビデオデータストリームの前記第2の部分を形成する、前記合成ビデオデータストリームの出力画像と交互配置になっている非出力画像である、請求項21に記載のビデオ合成装置。
  23. 前記ビデオ合成装置は、前記複数の入力ビデオデータストリームの少なくともサブセットを使用して、前記合成ビデオデータストリームの画像がそれへと空間的に分割されているタイルを並列に充填することによる空間分割多重化を使用して、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの前記第1の部分へと多重化するように構成されている、請求項19または20に記載のビデオ合成装置。
  24. 前記合成ビデオデータストリームの前記画像は、前記合成ビデオデータストリームの前記第2の部分を形成する追加のタイルを有し、前記合成ビデオデータストリームの前記画像がそれへと空間的に分割されている前記タイルは、前記合成ビデオデータストリームの前記第1の部分を形成し、切り取られる、請求項23に記載のビデオ合成装置。
  25. 前記ビデオ合成装置は、前記複数の入力ビデオデータストリームの前記少なくともサブセットによって並列に充填されている前記タイルへと分割されている、前記合成ビデオデータストリームの前記画像の間にさらなる画像を挿入することによって、前記第2の部分を形成するように構成されている、請求項23に記載のビデオ合成装置。
  26. 前記第1の部分の画像の空間部分が前記第2の部分の画像の空間部分へと複製されるように、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第2の部分を、前記照合ビデオで充填するように構成されている、請求項1925のいずれか一項に記載のビデオ合成装置。
  27. 前記第1の部分の画像の前記空間部分が前記第2の部分の画像の空間部分へと並進的に複製されるように、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第2の部分を、前記照合ビデオで充填するように構成されている、請求項26に記載のビデオ合成装置。
  28. 前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測をブロック粒度が細かくなるように使用して符号化され、前記ビデオ合成装置は、前記第1の部分の画像の前記空間部分が、ブロック内という意味においては並進的に、ただし、ブロック間という意味においては拡大および/または縮小するように、前記第2の部分の画像の空間部分へと複製されるように、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第2の部分を、前記照合ビデオで充填するように構成されている、請求項26に記載のビデオ合成装置。
  29. 前記合成ビデオデータストリームおよび前記少なくとも1つの入力ビデオデータストリームは、動き補償時間予測をブロック粒度が細かくなるように使用して符号化され、前記ビデオ合成装置は、前記第2の部分の画像の空間部分がそれぞれ、その動きベクトルが互いに等しいいくつかのブロックから構成され、前記いくつかのブロックのうちの1つのみについては前記合成ビデオデータストリーム内で、前記いくつかのブロックの、前記1つのブロック以外の各ブロックについては空間予測を使用してコード化されるように構成されている、請求項26に記載のビデオ合成装置。
  30. 前記ビデオ合成装置は、各空間部分について、前記1つのブロック以外の、それぞれの前記空間部分の前記いくつかのブロックのうちの任意のブロックが、隣接するブロックからの予測残差データの欠如および動き補償サイド情報の利用をシグナリングするスキップモードを使用してコード化されるように構成されている、請求項29に記載のビデオ合成装置。
  31. 部分的にイントラコード化のみを使用して、前記合成ビデオデータストリームの前記画像の前記第2の部分を前記照合ビデオで充填するように構成されている、請求項1930のいずれか一項に記載のビデオ合成装置。
  32. 前記ビデオ合成装置は、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の中間部分を充填するように構成されており、前記合成ビデオデータストリームの前記画像の前記第2の部分は、動き補償時間予測を介して、前記中間部分を介して間接的に前記合成ビデオデータストリームの前記第1の部分を参照することによって、照合ビデオで充填される、請求項1931のいずれか一項に記載のビデオ合成装置。
  33. 前記動き補償サイド情報および前記予測残差データはエントロピー符号化され、前記収集および複製することは、エントロピー復号することなく実施される、請求項1932のいずれか一項に記載のビデオ合成装置。
  34. 前記収集および複製は、前記ビデオ入力データストリームのスライスのペイロードデータは変更されないままにして、スライスヘッダ内のデータは補正されるように実施される、請求項1933のいずれか一項に記載のビデオ合成装置。
  35. 前記スライスヘッダ内の前記データは、スライスアドレス、および/または、画像順序カウントデータ、および/または、参照画像順序カウント差分値、および/または、参照画像順序カウント差分値のセットに対する参照、および/または、別様にコード化されている量子化パラメータを含む、請求項34に記載のビデオ合成装置。
  36. 前記ビデオ合成装置は、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分の2つの部分の間の重み付け双予測を使用して前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第2の部分を、前記照合ビデオデータストリームで充填するように構成されている、請求項1935のいずれか一項に記載のビデオ合成装置。
  37. システム(74)であって、
    少なくとも1つの入力ビデオデータストリームを提供するように構成されている少なくとも1つのビデオ符号化器(70)と、
    請求項1〜19のいずれか一項に記載の、前記少なくとも1つの入力ビデオデータストリームを使用して合成ビデオデータストリームを合成するように構成されているビデオ合成装置(10)であって、前記合成ビデオデータストリームおよび前記少なくとも1つの入力ビデオデータストリームは、動き補償時間予測を使用して符号化される、ビデオ合成装置(10)と、を備えている、システム(74)。
  38. 前記少なくとも1つのビデオ符号化器(70)は、前記少なくとも1つの入力ビデオデータストリームの画像が、前記少なくとも1つの入力ビデオデータストリームの所定の静止空間領域の境界を越える部分において、前記少なくとも1つの入力ビデオデータストリームの先行する画像を、動き補償時間予測を介してしないように、前記少なくとも1つの入力ビデオデータストリームの動き補償サイド情報を制約して、前記少なくとも1つの入力ビデオデータストリームを提供するように構成されている、請求項37に記載のシステム。
  39. 前記システムは、前記少なくとも1つのビデオ符号化器を含む複数のビデオ符号化器を備え、前記少なくとも1つのビデオ符号化器は、前記複数のビデオ符号化器の間で同期されている時間予測GOP構造を使用して前記少なくとも1つの入力ビデオデータストリームを提供するように構成されている、請求項37または38に記載のシステム。
  40. 前記少なくとも1つのビデオ符号化器は、
    時間階層的符号化および時間的動き補償サイド情報予測を使用して前記少なくとも1つの入力ビデオデータストリームを提供し、
    画像範囲時間階層IDが前記少なくとも1つの入力ビデオデータストリームの画像の各々と関連付けられるように、前記少なくとも1つの入力ビデオデータストリームを提供し、
    それぞれの1つまたは複数の時間階層レベルIDの画像が参照されない1つまたは複数の時間階層レベルIDについて、前記時間的動き補償サイド情報予測を、前記それぞれの1つまたは複数の時間階層レベルIDの画像が、時間的動き補償サイド情報予測を介して、いかなる他の入力画像によっても参照されない範囲まで制限し、
    1つまたは複数の時間階層レベルIDについて、前記それぞれの1つまたは複数の時間階層レベルIDの入力画像が、時間的動き補償サイド情報予測を介して、いかなる他の入力画像によっても参照されないことを保証する、画像範囲時間階層ID超過弁別器を有する前記少なくとも1つの入力ビデオデータストリームの高レベル構文を提供するように構成されている、請求項3739のいずれか一項に記載のシステム。
  41. システムであって、
    各々が複数の入力ビデオデータストリームのうちのそれぞれの1つの入力ビデオデータストリームを提供するように構成されている複数のビデオ符号化器と、
    請求項20〜37のいずれか一項に記載の、前記複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するように構成されているビデオ合成装置であって、前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測を使用して符号化される、ビデオ合成装置と、を備えているシステム。
  42. 前記複数のビデオ符号化器は、前記複数のビデオ符号化器の間で同期されている時間予測GOP構造を使用して前記複数の入力ビデオデータストリームを提供するように構成されている、請求項41に記載のシステム。
  43. 少なくとも1つの入力ビデオデータストリーム(14)を使用して合成ビデオデータストリーム(18)を合成するためのビデオ合成方法(10)であって、前記合成ビデオデータストリーム(18)および前記少なくとも1つの入力ビデオデータストリーム(14)は、動き補償時間予測を使用して符号化され、前記ビデオ合成方法は、
    前記少なくとも1つの入力ビデオデータストリーム(14)の動き補償サイド情報および予測残差データを収集および複製することにより継承画像(26)の空間部分を充填することによって、前記合成ビデオデータストリーム(18)の一連の前記継承画像(26)を形成するステップであって、前記空間部分の空間位置は、前記一連の継承画像の中で、1つの継承画像から次の継承画像へと時間的に変化するステップと、
    前記一連の継承画像の前記継承画像の間で、非出力画像(30)を前記合成ビデオデータストリーム(18)へと挿入するステップであって、前記非出力画像は、動き補償時間予測を介して、前記継承画像のサブセットを参照するステップと、を含むビデオ合成方法(10)。
  44. 複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するためのビデオ合成方法であって、前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測を使用して符号化され、前記ビデオ合成方法は、
    前記複数の入力ビデオデータストリーム動き補償サイド情報および予測残差データを収集および複製して前記合成ビデオデータストリームの第1の部分にすることによって、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの画像の前記第1の部分へと多重化するステップと、
    動き補償時間予測を介して、前記合成ビデオデータストリームの前記第1の部分を参照することによって、前記合成ビデオデータストリームの前記画像の第2の部分を、照合ビデオで充填するステップと、を含み、
    前記第1の部分は出力されないものとしてシグナリングされ、前記第2の部分は出力されるものとしてシグナリングされる、ビデオ合成方法
  45. コンピュータ上で動作するとき、請求項43または44に記載の方法を実施するためのプログラムコードを有する、コンピュータプログラム。
JP2017510316A 2014-08-20 2014-08-20 ビデオ合成 Active JP6437096B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/067757 WO2016026526A2 (en) 2014-08-20 2014-08-20 Video composition

Publications (2)

Publication Number Publication Date
JP2017530613A JP2017530613A (ja) 2017-10-12
JP6437096B2 true JP6437096B2 (ja) 2018-12-12

Family

ID=51392247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017510316A Active JP6437096B2 (ja) 2014-08-20 2014-08-20 ビデオ合成

Country Status (6)

Country Link
US (1) US10425652B2 (ja)
EP (1) EP3183878B1 (ja)
JP (1) JP6437096B2 (ja)
KR (1) KR102037158B1 (ja)
CN (2) CN112511837B (ja)
WO (1) WO2016026526A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12028552B2 (en) 2019-09-03 2024-07-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Configurable NAL and slice code point mechanism for stream merging

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180486A1 (en) 2015-05-12 2016-11-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Composite scalable video streaming
JP6362116B2 (ja) * 2016-11-30 2018-07-25 キヤノン株式会社 表示装置及びその制御方法、プログラム、記憶媒体
JP6922215B2 (ja) * 2016-12-27 2021-08-18 富士通株式会社 動画像符号化装置
US20200112710A1 (en) * 2017-03-17 2020-04-09 Lg Electronics Inc. Method and device for transmitting and receiving 360-degree video on basis of quality
KR102318816B1 (ko) * 2017-03-20 2021-10-28 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 고급 비디오 데이터 스트림 추출 및 다중 해상도 비디오 송신
EP3673665A4 (en) * 2017-08-24 2021-03-10 Nokia Technologies Oy APPARATUS, PROCESS AND COMPUTER PROGRAM FOR OMNIDIRECTIONAL VIDEO
GB2570879B (en) * 2018-02-06 2022-08-17 Advanced Risc Mach Ltd Encoding data arrays
US11202088B2 (en) 2018-03-15 2021-12-14 Sony Corporation Image processing apparatus and method
EP3576413A1 (en) * 2018-05-31 2019-12-04 InterDigital CE Patent Holdings Encoder and method for encoding a tile-based immersive video
US11570400B2 (en) * 2018-06-13 2023-01-31 Analog Devices, Inc. Systems and methods for asymmetric image splitter clock generation
CN116405721A (zh) * 2018-06-13 2023-07-07 马克西姆综合产品公司 用于不对称图像分离器时钟生成的系统和方法
CN112640455B (zh) 2018-06-21 2024-06-14 瑞典爱立信有限公司 视频编码中具有子图块的图块分区
WO2019243541A2 (en) 2018-06-21 2019-12-26 Telefonaktiebolaget Lm Ericsson (Publ) Flexible tile partitions
EP3811624A1 (en) * 2018-06-21 2021-04-28 Telefonaktiebolaget LM Ericsson (publ) Tile shuffling for 360 degree video decoding
EP3591972A1 (en) * 2018-07-02 2020-01-08 Axis AB Method and system for encoding video with overlay
CN108810417A (zh) * 2018-07-04 2018-11-13 深圳市歌美迪电子技术发展有限公司 一种图像处理方法、机构及后视镜
CN110832868A (zh) 2018-08-31 2020-02-21 深圳市大疆创新科技有限公司 编码方法、解码方法、编码设备和解码设备
KR102154407B1 (ko) * 2018-11-15 2020-09-09 한국전자기술연구원 타일 기반 스트리밍을 위한 모션 제한 av1 영상 부호화 방법 및 장치
EP3868095A4 (en) * 2018-11-26 2021-12-15 Huawei Technologies Co., Ltd. APPARATUS AND METHOD FOR DERIVATING A CHROMINANCE QUANTIFICATION PARAMETER
CN118714302A (zh) 2019-02-01 2024-09-27 弗劳恩霍夫应用研究促进协会 允许按照子画面或区域随机接入的视频编解码器以及使用该视频编解码器的视频合成概念
CN116233436A (zh) * 2019-06-20 2023-06-06 腾讯美国有限责任公司 视频解码方法、设备和计算机可读存储介质
CN114009032A (zh) * 2019-06-21 2022-02-01 瑞典爱立信有限公司 视频编码层上切换指示
CN112533022A (zh) * 2019-08-30 2021-03-19 中兴通讯股份有限公司 云化机顶盒透明度叠加方法、云化机顶盒及存储介质
KR20220161426A (ko) * 2020-03-30 2022-12-06 엘지전자 주식회사 Dpb 파라미터의 개수 정보를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 컴퓨터 판독 가능한 기록 매체
US20230222754A1 (en) * 2022-01-07 2023-07-13 Sony Interactive Entertainment Inc. Interactive video playback techniques to enable high fidelity magnification
CN115589453A (zh) * 2022-09-27 2023-01-10 维沃移动通信有限公司 视频处理方法、装置、电子设备及存储介质
EP4387228A1 (en) * 2022-12-15 2024-06-19 Axis AB Method and device for combining image data from two or more encoded image frames

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879252B2 (ja) * 1998-05-22 2007-02-07 ソニー株式会社 編集方法および編集装置
AU1910800A (en) * 1998-11-09 2000-05-29 Broadcom Corporation Graphics display system
US6901110B1 (en) * 2000-03-10 2005-05-31 Obvious Technology Systems and methods for tracking objects in video sequences
JP2003299103A (ja) * 2002-03-29 2003-10-17 Toshiba Corp 動画像符号化方法と装置及び動画像復号化方法と装置
US20050008240A1 (en) * 2003-05-02 2005-01-13 Ashish Banerji Stitching of video for continuous presence multipoint video conferencing
US7599565B2 (en) * 2004-03-10 2009-10-06 Nokia Corporation Method and device for transform-domain video editing
DE102004059993B4 (de) * 2004-10-15 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer codierten Videosequenz unter Verwendung einer Zwischen-Schicht-Bewegungsdaten-Prädiktion sowie Computerprogramm und computerlesbares Medium
US8004542B2 (en) * 2005-01-17 2011-08-23 Kabushiki Kaisha Toshiba Video composition apparatus, video composition method and video composition program
CN101427573B (zh) * 2006-02-16 2013-07-03 维德约股份有限公司 用于可缩放视频编码比特流的稀疏化的系统和方法
US8773494B2 (en) * 2006-08-29 2014-07-08 Microsoft Corporation Techniques for managing visual compositions for a multimedia conference call
JP2008066851A (ja) * 2006-09-05 2008-03-21 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びに、プログラム
US8948243B2 (en) * 2010-03-31 2015-02-03 Mitsubishi Electric Corporation Image encoding device, image decoding device, image encoding method, and image decoding method
JP2013055587A (ja) * 2011-09-06 2013-03-21 Sony Corp 画像処理装置、画像処理方法、および画像処理システム
KR20240027889A (ko) * 2011-11-11 2024-03-04 지이 비디오 컴프레션, 엘엘씨 깊이-맵 추정 및 업데이트를 사용한 효율적인 멀티-뷰 코딩
US9288506B2 (en) * 2012-01-05 2016-03-15 Qualcomm Incorporated Signaling view synthesis prediction support in 3D video coding
US9674534B2 (en) * 2012-01-19 2017-06-06 Samsung Electronics Co., Ltd. Method and apparatus for encoding multi-view video prediction capable of view switching, and method and apparatus for decoding multi-view video prediction capable of view switching
EP2839660B1 (en) * 2012-04-16 2020-10-07 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US9838685B2 (en) * 2012-06-15 2017-12-05 Google Technology Holdings LLC Method and apparatus for efficient slice header processing
CN104429079B (zh) * 2012-07-09 2016-08-24 三菱电机株式会社 利用运动矢量预测列表处理用于视图合成的多视图视频的方法和系统
US10375405B2 (en) * 2012-10-05 2019-08-06 Qualcomm Incorporated Motion field upsampling for scalable coding based on high efficiency video coding
US9948915B2 (en) * 2013-07-24 2018-04-17 Qualcomm Incorporated Sub-PU motion prediction for texture and depth coding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12028552B2 (en) 2019-09-03 2024-07-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Configurable NAL and slice code point mechanism for stream merging

Also Published As

Publication number Publication date
CN112511837B (zh) 2024-08-30
JP2017530613A (ja) 2017-10-12
EP3183878B1 (en) 2019-11-13
US10425652B2 (en) 2019-09-24
CN106797495B (zh) 2020-12-22
CN112511837A (zh) 2021-03-16
WO2016026526A2 (en) 2016-02-25
KR102037158B1 (ko) 2019-11-26
WO2016026526A3 (en) 2016-07-14
EP3183878A2 (en) 2017-06-28
KR20170044169A (ko) 2017-04-24
CN106797495A (zh) 2017-05-31
US20170163994A1 (en) 2017-06-08

Similar Documents

Publication Publication Date Title
JP6437096B2 (ja) ビデオ合成
US20230308639A1 (en) Apparatus, a Method and a Computer Program for Video Coding and Decoding
US12088847B2 (en) Apparatus, a method and a computer program for video encoding and decoding
JP6556868B2 (ja) ビデオストリーミング装置、ビデオストリーム、ビデオストリーミング方法、及び、コンピュータプログラム
US8755434B2 (en) Method and apparatus for scalably encoding and decoding video signal
US12101511B2 (en) Subpicture layout and partial output with layers
US8660180B2 (en) Method and apparatus for scalably encoding and decoding video signal
CN113796080A (zh) 用于以子图片发信号通知输出层集的方法
WO2020141260A1 (en) An apparatus, a method and a computer program for video coding and decoding
US11388437B2 (en) View-position and angle dependent processing of point cloud data
JP2022514513A (ja) タイル及びサブ画像の分割
US20230013085A1 (en) Region-wise scalability with adaptive resolution change
CN112153391A (zh) 视频编码的方法、装置、电子设备及存储介质
CN111953996A (zh) 视频解码的方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181113

R150 Certificate of patent or registration of utility model

Ref document number: 6437096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250