JP6437096B2

JP6437096B2 - ビデオ合成

Info

Publication number: JP6437096B2
Application number: JP2017510316A
Authority: JP
Inventors: デラフエンテヤゴ・シャンチェス; ロベルト・スクピン; トーマス・シェール
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2018-12-12
Anticipated expiration: 2034-08-20
Also published as: CN112511837B; JP2017530613A; EP3183878B1; US10425652B2; CN106797495B; CN112511837A; WO2016026526A2; KR102037158B1; WO2016026526A3; EP3183878A2; KR20170044169A; CN106797495A; US20170163994A1

Description

本発明は、１つまたは複数の入力ビデオデータストリームを使用した合成ビデオデータストリームの合成のような、ビデオ合成に関する。

ビデオ会議、ビデオ監視、医療アプリケーション、パノラマストリーミング、広告挿入、ピクチャインピクチャ表示またはビデオオーバーレイのような、いくつかの専用ビデオビットストリームが、同時に復号され、合成された形態でユーザに表示されるいくつかのアプリケーションおよび使用事例が存在する。そのようなアプリケーションの実例として、複数のビデオソースがユーザに提示される交通監視システムがある。そのようなアプリケーションの問題は、多くのデバイスがたった１つのハードウェアビデオ復号器を組み込んでいるか、または、他の様態で計算資源、電力資源および／または他の資源が限られていることである。そのようなデバイスの例は、セットトップボックス（ＳＴＢ）、低コストＴＶセットまたは電池式モバイルデバイスである。

上記アプリケーションおよび使用事例をそのようなデバイス上で有効化するためには、いくつかの専用ビデオビットストリームを組み込んでいる単一のビデオビットストリームが予め作成されなければならない。そのような単一ビデオビットストリームを達成するために、一般的には、複数の異なるビデオビットストリームが単一のビットストリームへとコード変換される、画素領域ビデオ処理（たとえば、スティッチング、融合または混合のような合成）が適用される。コード変換は、カスケード接続されたビデオ復号器およびビデオ符号化器を使用して実施することができ、これは、入来するビットストリームを復号すること、画素領域において入来するビットストリームから新たなビデオを合成すること、および、新たなビデオを単一のビットストリームへと符号化することを伴う。この方法はまた、非圧縮成領域における処理を含む従来のフルコード変換としても参照され得る。しかしながら、これには多くの欠点がある。第１に、ビデオ情報が繰り返し符号化されることによって、コード化アーティファクトによるさらなる信号品質劣化を招く可能性が高い。第２に、そしてより重要なことに、フルコード変換は、入来するビデオビットストリームおよび出ていくビデオビットストリームが複数回復号および符号化されることによって、計算的に複雑であり、それゆえ、スケーラビリティが低い。

それゆえ、圧縮領域においてビデオスティッチングが実施される別の手法が、［１］において提示されている。［１］の背後にある主要な着想は、符号化器において制約を設定すること、たとえば、画像境界において何らかの動きベクトルおよび動きベクトル予測を無効とすることであり、これによって、混合されるように意図されているすべてのビデオを含む単一のビットストリームを生成するために、種々のビットストリームに適用することができるビットストリーム書き換えプロセスの複雑度を低くすることが可能である。このスティッチング手法は、同様に、フルコード変換よりも計算複雑度が低く、信号品質劣化を招かない。

クラウドサーバインフラストラクチャを使用するビデオ監視システムに関する、そのようなシステムの実例が図２３に示されている。見てとれるように、複数のビデオビットストリーム９００ａ〜ｄが複数の異なる送信機９０２ａ〜ｄによって送信され、クラウド混合器９０４においてスティッチングされて、単一のビデオビットストリーム９０６が生成される。

適用されているスティッチングプロセスの背後にある技法のより詳細な説明は、［１］に見出すことができる。

圧縮領域処理は、多くのアプリケーションおよび使用事例に適用することができ、電池寿命および／または実装費用を節約する、より複雑度の低いビデオ処理を可能にする。しかしながら、各アプリケーションの特性が、圧縮領域ビデオ処理に対して、個々の問題を課す。同様に、ビデオ圧縮規格／方式の特性および特徴を利用して、新規のアプリケーションのために低複雑度圧縮領域処理を可能にすることができる。

たとえば、到来するビデオビットストリーム９００ａ〜ｄから単一のビデオビットストリーム９０６を合成する方法が、たとえば、合成ビデオビットストリーム９０６内での到来するビデオビットストリームの再構成、合成ビデオビットストリーム９０６の画像領域内での特定の入力ビデオビットストリームの空間的変位などのような変化を受けることになる場合、図２３の符号化領域スティッチング方式によって十分に対処されない問題が発生する。これらの事例のすべてについて、到来するビデオビットストリームの再構成において、復号／非圧縮領域を介する迂回路を使用することがないように、到来するビデオビットストリーム９００ａ〜９００ｄの個々の画像を互いに時間的に関連付ける時間的動き補償予測が、いかなる時間的動き補償予測も使用せずにイントラピクチャによって表される、到来するビデオビットストリームのランダムアクセスポイントを除いて禁止され、それによって、望ましくないビットレートの瞬間的増大および帯域幅ピークがもたらされることに起因して、図２３の合成方式は適切に機能しない。したがって、計算量を一切加えなければ、圧縮領域を出ることなく出力ビデオビットストリーム９０６の合成を変更する自由度は、いかなる時間的動き補償予測も使用せずに到来するビデオビットストリームのランダムアクセスポイントによって、特定の時点のみにおいて行われるように制限されることになる。しかしながら、到来するビデオビットストリーム９００ａ〜９００ｄ内にそのようなランダムアクセスポイントが高い頻度で出現することは、イントラ予測画像において時間予測器がないことに起因してより低い圧縮率を伴う。

[1] Yago Sanchez de la Fuente, Ralf Globisch, Thomas Schierl, and Thomas Wiegand,"Low Complexity Cloud-video-Mixing Using HEVC", Proceedings of IEEE Consumer Communications and Networking Conference, Las Vegas, NV, USA, January 2014. [2] Sullivan, Gary J., et al. "Overview of the high efficiency video coding (HEVC) standard." Circuits and Systems for Video Technology, IEEE Transactions on 22.12 (2012): 1649-1668.

したがって、本発明の目的は、低い計算量において合成ビデオデータストリームの合成の自由度をより高くすることを可能にする、１つまたは複数の入力ビデオデータストリームを使用して合成ビデオデータストリームを合成するための概念を提供することである。

この目的は、添付の独立請求項の主題によって達成される。

本出願の第１の態様によれば、合成ビデオデータストリームは、少なくとも１つの入力ビデオデータストリームを使用して合成され、合成ビデオデータストリームおよび少なくとも１つの入力ビデオデータストリームは、動き補償時間予測を使用して符号化され、ビデオ合成は、少なくとも１つの入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製することにより継承画像の空間部分を充填することによって合成ビデオデータストリームの一連の継承画像を形成するステップであって、空間部分の空間位置は、一連の継承画像の中で、１つの継承画像から次の継承画像へと時間的に変化するステップと、一連の継承画像の継承画像の間で、少なくとも１つの非出力画像を合成ビデオデータストリームへと挿入するステップであって、少なくとも１つの非出力画像は、動き補償時間予測を介して、継承画像のサブセットを参照するステップと、によって実施される。この態様によれば、少なくとも１つの非出力画像を継承画像の間に挿入することによって、計算複雑度の意味において、空間部分の空間位置の時間的変化が軽減される。これを使用すれば、圧縮領域を出る必要性が回避され、少なくとも１つの非出力画像によって、少なくとも１つのビデオデータストリームの画像の間の「誤った参照」を回避することができ、これを使用して、それぞれ空間位置変化の前および後で少なくとも１つの入力ビデオデータストリームの画像を「位置合わせし直す」ことが実現可能である。

本出願のさらなる態様によれば、複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するための概念は、合成ビデオデータストリームになる複数の入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製することによって、複数の入力ビデオデータストリームを多重化して合成ビデオデータストリームの画像の第１の部分にするステップと、動き補償時間予測を介して、合成ビデオデータストリームの第１の部分を参照することによって、照合ビデオによって合成ビデオデータストリームの画像の第２の部分を充填するステップと、を含み、第１の部分は出力されないものとしてシグナリングされ、第２の部分は出力されるものとしてシグナリングされる。第１の態様の着想と一致して、本出願の第２の態様によるビデオ合成は、収集および複製によって充填される合成ビデオデータストリームの一部分と、動き補償時間予測を介して、収集および複製によって得られる合成ビデオデータストリームの他の部分を参照することによって合成的に加えられる別の部分との間で分離する。しかしながら、第２の態様によれば、第２の部分は、実際の収集されるビデオを形成し、出力されるようにシグナリングされる。第１の部分は、動き補償時間予測を使用して合成ビデオデータストリームの第１の部分の特定の下位部分を参照することによって、選択的に合成され得る画像内容に基づき、参照画像内容のある種の容器を単に表している。

したがって、このように１つまたは複数の入力ビデオデータストリームに基づいて実施されるビデオ合成の結果として、ビデオの提示領域にわたって、到来するビデオデータストリームを再構成することが可能であることを必要とせず、または、複数の入力ビデオデータストリームを並行して復号することが可能であることを必要としない、標準的なビデオ復号器によって復号することができる合成ビデオデータストリームがもたらされる。むしろ、このビデオ合成は、コード変換のタスクを仮定し、このコード変換は、１つまたは複数の入力ビデオデータストリームに関して圧縮／符号化領域を出ることを回避し、それによって、計算量を妥当な量のままにする。

本出願の有利な態様は従属請求項の主題である。本出願の好ましい実施形態が、図面に関連して下記に説明される。

一実施形態による、少なくとも１つの入力ビデオデータストリームおよび合成ビデオデータストリームの概略図と共に、ビデオ合成装置の概略ブロック図を示す。一実施形態による、入力ビデオデータストリームの画像の動き補償サイド情報および予測残差データを収集および複製することによって継承画像の空間部分を充填するプロセスを例示するための、到来するビデオデータストリームの画像と共に、継承画像を示す概略図である。本出願の実施形態による、非出力画像の空間部分の構築／コード化における可能性を示すための、その空間部分内に、参照画像、非出力置換画像および合成ビデオデータストリームを担持する、継承画像と共に、挿入されている非出力画像を示す概略図である。その空間部分から、合成ビデオデータストリームの非出力画像の迂回路を介して、以前の参照画像の空間部分を参照する継承画像の概略図である。ビデオ合成装置を使用し、１つまたは複数のビデオ符号化器７０をさらに備えるシステムであって、合成ビデオデータストリームを復号器に出力するものとして示されている、システムの概略図である。パノラマストリーミングアプリケーションを示す図である。位置変化に起因して失敗した時間的参照を示す図である。生成参照画像概念を示す図である。ビデオ会議のコンテキストにおけるＧＲＰを示す図である。遠隔制御されている車両からの３６０度パノラマを示す図である。一実施形態による、複数の入力ビデオデータストリームおよび合成ビデオデータストリームの概略表現と共に、ビデオ合成装置の概略ブロック図である。合成ビデオデータストリームの基準点から複製している動き／予測ベクトルを示す破線の矢印と共に、合成ビデオデータストリームの照合ビデオ部分のＳＬＣＰを示す概略図である。バックツーバック参照手法を示す図である。スティッチング参照手法を示す図である。非出力手法を使用した複数の異なる空間寸法のスティッチング参照を用いるＳＬＣＰの概略図である。時間的リサンプリングのためのダミー使用を示す図である。Ｂ２Ｂ参照を用いるＳＬＣＰを示す図である。スティッチング参照を用いるＳＬＣＰを示す図である。スティッチング参照を用いるＳＬＣＰを示す図である。重み付け予測によるαブレンディングを用いるＳＬＣＰを示す図である。様々な予測ベクトルによるリサンプリングを使用したＳＬＣＰを示す図である。反復リサンプリングのためのマルチステップＳＬＣＰの一例を示す図である。ＳＥＩメッセージの形態のそれぞれのシグナリングを例示的に記述した図である。ここでは交通ビデオ監視を例示的に示す、ビデオ混合のための一般的なシステムアーキテクチャを示す図である。

図１は、本出願の一実施形態によるビデオ合成装置を示す。図１のビデオ合成装置は、本出願の一態様に従ってビデオ合成を実施する。当該態様によれば、非出力画像が合成ビデオデータストリームへと挿入され、それによって、時間的変化の前の空間部分の空間位置を表示する参照画像を、合成ビデオデータストリームを復号する復号器の復号画像バッファ内の時間的変化の後の空間部分の空間位置を表示する参照画像で置換する非出力画像の挿入によって、特定の入力ビデオデータの動き補償サイド情報および予測残差データを収集および複製することによって充填される、空間部分の空間位置の時間的変化が考慮に入れられる。

図１のビデオ合成装置は、全体的に参照符号１０を使用して示されており、入力ビデオデータストリーム１４を受信するための入力１２と、合成ビデオデータストリーム１８を出力するための出力１６とを備える。合成ビデオデータストリーム１８および入力ビデオデータストリーム１４は、動き補償時間予測を使用して符号化される。それらは、たとえば、ＨＥＶＣ、ＶＰ９を使用して、または、何らかの他のビデオ符号化方式を使用して符号化されてもよい。下記により詳細に概説されるように、ビデオ合成装置１０は、低い計算量で、入力ビデオデータストリーム１４に関する限り、圧縮／符号化領域内にあるままで合成ビデオデータストリーム１８を生成または合成することが可能である。

下記により詳細に概説されるように、図１のビデオ合成装置は、合成ビデオデータストリーム１８が復号されると、入力ビデオデータストリーム１４によって表されるビデオが、合成ビデオデータストリーム１８の画像内でその空間位置を時間的に変化させる空間部分２０に表示されるように、合成ビデオデータストリーム１８を生成することが可能である。たとえば、入力ビデオデータストリーム１４の画像は、ｎ×ｍサンプル幅のような第１のサイズであり、一方で、合成ビデオデータストリーム１８の画像は、Ｎ×Ｍサンプル幅のような、第１のサイズよりも大きい第２のサイズであり、ｎ＜Ｎかつ／またはｍ＜Ｍであり、ｎ＜Ｎおよびｍ＜Ｍが図１に示されている。その中に入力ビデオデータストリーム１４の内容がある空間部分２０は、図１の例によれば、第１のサイズ、すなわちｎ×ｍ幅であるが、図１の例は、ビデオ合成装置１０が、合成ビデオデータストリーム１８の空間部分２０内に、入力ビデオデータストリーム１４の特定の静止空間下位部分のみを描写するように修正することができる。

図１のビデオ合成装置１０の動作モードの理解を容易にするために、図１は、入力ビデオデータストリーム１４の一連の画像２２の例示的な部分を示す。図１に例示的に示されている画像２２は、データストリーム１４内でのそれらのコード化順序に従って、また実線の矢印２４を使用して０〜７の番号を付されている。図１は、動き補償時間予測による画像２２の間の相互依存性、すなわち、動き補償時間予測を介して、いずれの画像２２がいずれの画像を参照するかを示している。すなわち、矢印２４が指す任意の画像２２は、それぞれの矢印がそこから始まっている画像の参照画像を表す。たとえば、番号１を有する画像２２は、番号２および４を有する画像２２の参照画像を表す。動き補償時間予測は、それぞれの動き補償サイド情報によって入力ビデオデータストリーム１４内で制御され、これに加えて、入力ビデオデータストリーム１４は、動き補償時間予測による予測を補正するための予測残差データを含む。たとえば、動き補償サイド情報は、それぞれの参照画像のブロックの動きベクトルを含み得、予測残差データもまた、たとえば、ＤＣＴなどのような空間分解変換を使用する変換符号化を使用してブロックごとに符号化され得、それによって、予測残差データは、たとえば、変換係数を含み得る。各画像２２について入力ビデオデータストリーム１４内に存在する動き補償サイド情報および予測残差データは、たとえば、例として可変長符号化および／または算術符号化を使用したエントロピー符号化形態で、データストリーム内に存在し得る。特に、特定の画像２２の動き補償サイド情報および予測残差データは、たとえば、それぞれの画像２２をトラバースする何らかのコード化順序に沿って各画像２２がそれへと空間的に分割され得るスライスの１つまたは複数のパケットの形態でデータストリーム１４内に存在し得る。

合成ビデオデータストリーム１８に関する限り、図１は、図１に示す番号０〜７を有する画像２２から構成されている、その中に入力ビデオデータストリーム１４の時間的に対応する部分が表示される、この合成ビデオデータストリーム１８からの一連の画像２６の断片を示す。例示を目的として、図１は、ビデオ合成装置１０が、ビデオデータストリーム１４の内容が中に表示される空間部分２０を、その空間位置に関して、その時間の間に一度変化させることを示しているが、ビデオ合成装置１０は、合成ビデオデータストリーム１８全体に関しても、その任意の部分系列に関しても、空間部分２０の空間位置を一度しか時間的に変化させないようには限定されないことが留意されるべきである。

データストリーム１８の画像２６内での空間部分２０の空間位置の変化における、上記で簡潔に概説されている問題を回避するために、ビデオ合成装置１０は以下のように動作する。

その瞬間が図１において矢印２８を使用して例示的に示されている、空間部分２０の空間位置の変化の前に、ビデオ合成装置１０は、単純に入力ビデオデータストリーム１４の対応する画像２２からのデータを継承することによって、合成ビデオデータストリーム１８の画像２６を形成する。より正確に言うと、図１の例において、入力ビデオデータストリーム１４の図１内に示す最初の３つの画像２２は、スペクトル部分２０の空間位置の変化２８の前であり、したがって、合成ビデオデータストリーム１８の最初の３つの画像は「継承画像」であり、そのスペクトル部分２０は、ビデオ合成装置１０によって、入力ビデオデータストリーム１４の動き補償サイド情報および予測残差データを収集および複製することによって充填される。より正確には、合成ビデオデータストリーム１８内の番号０’を有する画像２６の空間部分２０は、たとえば、番号０を有するビデオ１４の対応する画像２２の動き補償サイド情報および予測残差データを収集および複製することによって充填され、同様に、番号１’を有する画像２６の空間部分２０は、番号１を有する対応する画像２２の動き補償サイド情報および予測残差データを収集および複製することによって充填され、したがって、番号２’を有する画像２６の空間部分２０は、番号２を有する画像２２のそれぞれのデータを使用して充填される。すなわち、各継承画像２６の空間部分２０は、画像２２の画像順序を維持しながら、画像２２の関連付けられる空間部分を使用して充填される。

その空間部分２０がこのように、入力ビデオデータストリーム１４の対応する画像２２のそれぞれのデータを収集および複製することによって充填される、合成ビデオデータストリーム１８の画像２６は、上述したように「継承画像」と呼ばれ、図１において、画像２６の、空間部分２０の外側の領域内の単純なハッチングを使用して示されている。空間部分２０の周囲の領域は、ビデオ合成装置１０によって人工的に充填することができ、たとえば、単純に黒色になり得るか、または、何らかの他の静止画像などを示し得る。ビデオ合成装置１０において、画像２６の、空間部分２０の外側の周囲／残りの領域内に、別の入力ビデオデータストリームによって表される別のビデオを示すことも実現可能である。下記にさらに説明される実施形態は、ビデオ合成装置１０のそのような拡張の一例を表す。そこで説明されるように、合成ビデオデータストリームの画像内の関連付けられる空間部分を有する２つ以上の入力データストリームが、並列に処理され得る。入力データストリームの空間部分は、たとえば、瞬間２８においてそれらの位置を相互に変化させ得る。さらなる詳細については、下記に提示される説明が参照される。

ビデオ合成装置１０は、空間部分２０の画像２６内での空間位置の変化後に一連の継承画像２６を形成することによって進行する。したがって、番号５’を有する画像２６は継承画像であり、その空間部分２０は、番号０’〜２’を有する上述した画像２６の空間部分２０に対して空間的に変位されており、その空間部分２０は、入力ビデオデータストリーム１４の番号３を有する画像２２の動き補償サイド情報および予測残差データを収集および複製することによって充填され、合成ビデオデータストリーム１８の続く番号６’〜９’を有する後続の画像２６は、同様に、入力ビデオデータストリーム１４の番号４〜７を有する後続の画像２２のそれぞれのデータを収集および複製することによって、空間部分２０内を充填される。

したがって、示されたように、番号０’、１’、２’、５’〜９’を有する画像２６は、入力ビデオデータストリーム１４の対応する画像２２のそれぞれの動き補償サイド情報および予測残差データの収集および複製を使用し、他の様態で空間部分２０以外の外側領域を充填して、充填されている一連の継承画像を形成する。しかしながら、空間部分２０の空間位置の変化２８に起因して、空間部分２０内の合成ビデオデータストリーム１８の内容は、瞬間２８における空間部分２０のシフトまたは変位に起因して瞬間２８の後でさらなる基準が一切なければ不正確になる。たとえば、番号５’を有する画像２６を参照されたい。この画像２６は、番号３を有する対応する画像２２のそれぞれの動き補償サイド情報および予測残差データを収集および複製することによって空間部分２０内を充填するため、この画像は、動き補償時間予測を介して、さらなる基準が一切なければ、先行する継承画像２’になる、直前の画像を参照する。しかしながら、後者の画像２６は、変位した位置に挿入される、番号３を有する画像２２の参照画像、すなわち番号２を有する画像２２から継承される画像内容を有し、したがって、ビデオ合成装置１０は、この問題を以下のように解決する。

特に、図１のビデオ合成装置１０は、非出力画像３０を、継承画像２６の間で合成ビデオデータストリーム１８へと挿入し、非出力画像３０は、動き補償時間予測を介して、継承画像のサブセットを参照する。

非出力画像が、概説したばかりの誤った参照の問題を克服する方法を示すために、図１は、実線の矢印３２を使用して、収集および複製される動き補償サイド情報から結果としてもたらされるものとしての、合成ビデオデータストリーム１８の画像２６と３０との間の相互依存性を示しており、一方で、下記により詳細に説明されるように、ビデオ合成装置１０によって人工的に生成される非出力画像３０およびそれらの動き補償サイド情報によって加えられる相互依存性は、破線の矢印３４を使用して示されている。見てとれるように、ビデオ合成装置１０は、瞬間３８において非出力画像３０を挿入しており、この瞬間において、空間部分２０はその空間位置を空間的に変化させている。前述した「問題のある」画像２６は、たとえば、画像５’であった。この画像はデータストリーム１８の直前の画像を参照していたが、この時点では、これは番号４’を有する非出力画像３０である。見てとれるように、ビデオ合成装置１０は、１）非出力画像３０の空間部分２０が、画像５’の空間部分２０と同一位置にある空間部分２０の新たな位置に位置付けられるように、また、２）番号４’を有する非出力画像３０の空間部分２０の領域が、動き補償予測を介して、継承画像２’の空間部分２０の内容を複製することによって充填されるように、非出力画像３０の空間部分２０を充填する。そして、後者の継承画像、すなわち、画像２’は、出力画像３０がデータストリーム１８へと挿入されていないかのように、画像５’の参照画像である。具体的には、番号４’を有する非出力画像３０は、継承画像２’の空間部分２０の内容を、変化の瞬間２８後に有効であるものとして空間部分２０の新たな位置へと複製し、したがって、その空間部分２０に関する限り、画像２の役割を、画像２の画像３に対する参照画像としての役割に関する限り、仮定する。より正確に言うと、非出力画像４’は、画像２’が画像３の参照画像であったのと同じように、画像５’の参照画像であり、その動き補償サイド情報および予測残差情報データを使用して、継承画像５’の空間部分２０が充填される。この時点で、継承画像５’の空間部分２０の参照画像内容は、正確な位置にある。これは、データストリーム１８の直前の画像、すなわち、番号４’を有する非出力画像内にあり、これは正確な空間位置、すなわち、画像５’の空間位置２０に空間的に正確に対応する位置にある。

図１に示すように、ビデオ合成装置１０はまた、瞬間２８の位置において非出力画像３０を挿入し、これは、以前の継承参照画像１’を置換する。すなわち、ビデオ合成装置１０は、参照画像１’の、その空間部分２０内の画像内容を参照し、それによって複製する動き補償サイド情報を用いて、瞬間２８に後続する継承画像２６の空間部分２０と同一位置にある空間部分２０において非出力画像３０を充填する。この方策によって、この非出力画像３０、すなわち画像３’は、画像４の以前の参照画像であった、参照番号１を有する画像２２の画像内容が空間部分２０内に充填されるという点において、継承画像６’に対する参照画像としての役割を正確に果たし、その動き補償サイド情報および予測残差データを使用して、継承画像６’の空間部分２０が充填される。すなわち、図１のビデオ合成装置１０は、瞬間２８に後続する入力ビデオデータストリーム１４の画像２２の参照画像である、瞬間２８以前の入力ビデオデータストリーム１４内の画像２２の間にある参照画像の数だけの非出力画像３０を瞬間２８に挿入する。言い換えれば、ビデオ合成装置１０は、瞬間２８において、挿入されなければ、瞬間２８に後続するデータストリーム１８の継承画像２６に対する参照画像を表す、データストリーム１８内にある継承画像２６の数だけの非出力画像３０を挿入する。

ビデオ合成装置１０は、入力ビデオデータストリーム１４の画像２２の動き補償サイド情報および予測残差データの収集および複製の実施において、予め、たとえば、エントロピー符号化領域から構文レベル領域へと戻る。すなわち、合成ビデオデータストリームを形成するために、動き補償サイド情報および予測残差データのエントロピー符号化を実施することによって、空間部分２０内でそれぞれの継承画像２６を充填するように、このように収集および複製される動き補償サイド情報および予測残差データを使用することによって、画像２２の動き補償サイド情報および予測残差データを記述する構文要素を得るために、入力ビデオデータストリーム１４の画像２２の動き補償サイド情報および予測残差データのエントロピー復号を実施する。入力ビデオデータストリーム１４の画像２２の動き補償サイド情報および予測残差データは、この方策によって、たとえば、それを使用してそれぞれの画像２２がコード化されるコード化順序と比較して、継承画像２６内の空間部分２０のトラバースにおける異なるコード化順序を考慮に入れるために、空間的に再分類または順序づけし直しさえされ得る。しかしながら、収集および複製を実施するこの方法は、ビデオ合成装置１０が動き補償探索を再び実施する必要性を回避するが、一実施形態によれば、ビデオ合成装置１０によって、構文要素レベルを介してエントロピー復号／符号化迂回路さえも回避され得る。すなわち、収集および複製は、エントロピーコード化領域にとどまったままで実施され得る。この可能性を示すために、図２が参照される。

図２は、継承画像５’および番号３を有する対応する入力画像２２を代表的に示しており、その動き補償サイド情報および予測残差データが、収集および複製によって、画像５’の空間部分２０を充填するために使用される。図２はまた、番号３を有する画像２２がデータストリーム１４内で表される様式をも示す。ラスタ走査順３６のような、所定のコード化順序に従って、画像２２の内容が１つまたは複数のスライス３８の単位でデータストリーム１４へと順次コード化される。２つのスライスが図２において例示的に示されている。各スライス３８は、たとえば、データストリーム１４内で、たとえば、例として画像２２の左上隅に対して示されている、画像２２内に位置付けられているそれぞれのスライスを示すスライスヘッダ４０を備える。

空間部分２０に関する限り画像２６の内容をコード化するように、エントロピーコード化を使用して符号化される、動き補償サイド情報および予測残差データを含むそれらのペイロード部分４２に関する限り、エントロピーコード化領域を実質的に出ることなく合成ビデオデータストリーム１８へとスライス３８を継承することを可能にするために、ビデオ合成装置は、図２の実施形態にしたがって画像２６を、タイル４４へと分割し、このタイル分割は、図２において一点鎖線を使用して示されており、たとえば、ＨＥＶＣにおいて利用可能である。画像２６をタイル４４へと分割することによって、それを使用して画像２６がデータストリーム１８内でコード化されるコード化順序が、画像２６の空間部分２０内で、このコード化順序が、それを使用して画像２２がスライス３８へとコード化されるコード化順序３６と一致するように、誘導される。より正確に言うと、上述したように、画像２６は画像２２よりも大きい。空間部分２０は、画像２２と同じサイズである。画像２６のタイル４４へのタイル分割は、空間部分２０がタイル４４のうちの１つの正確に一致するように行われる。画像２６のコード化順序４４は、画像２６を、タイル順に次のタイルを進める前に最初に１つのタイル内でトラバースすることによって、タイル順序に従ってタイル４４をトラバースするため、画像２６のコード化順序は、タイル分割によって修正される。この方策によって、ビデオ合成装置１０がスライス３８をデータストリーム１８へと、すなわち、画像２６がデータストリーム１８内でそれへとコード化されるアクセスユニット４６へと直接的に複製することが実現可能である。これらのスライス３８はこのとき、空間部分２０を表すそれぞれのタイル４４をコード化する。

ビデオ合成装置１０が、図２の概念を使用／適用するとき、スライスヘッダ４０内で何らかのデータを修正することがあり得る。たとえば、各スライスヘッダ４０は、それぞれの画像の左上隅に対する、それぞれのスライスの開始位置（符号化順序３６）を示すスライスアドレスを含み得る。したがって、継承画像２６内での、すなわち、空間部分２０内でのスライスの新たな位置を計上するために、ビデオ合成装置１０は、継承画像２６の左上隅に対する空間部分２０内でのスライスの新たな位置を測定するためにスライスアドレスを変更することができる。

付加的にまたは代替的に、各スライスヘッダ４０は、画像順序カウントデータを含んでもよい。画像順序カウントは、それぞれのデータストリーム内で画像を順序づけることができる。上記で示したように、ビデオ合成装置１０が非出力画像３０を合成ビデオデータストリーム１８へと挿入するとき、ビデオ合成装置１０は、継承画像２６の空間部分２０を充填するときにスライスヘッダ４０内のそのような画像順序カウントデータを変更することができる。たとえば、図２のスライスヘッダ４０は、画像順序カウントとして３を示し得、一方で、データストリーム１８内のスライス３８のスライスヘッダは、２つの非出力画像３０の挿入を計上するために、５を示すことができる。

付加的にまたは代替的に、スライスヘッダ４０は、参照画像順序カウント差分値、すなわち、相対的な意味で、現在の画像２２の参照画像、すなわち、現在の画像２２に先行または後続するｘ番目の画像を示す値を含んでもよい。図１に関連して説明されている実施形態において、非出力画像３０はビデオデータストリーム１８内で正確な位置に位置付けられているため、参照画像順序カウント差分値の変更は必要ないが、別の例によれば、ビデオ合成装置１０は、スライスヘッダ４０内でそのような参照画像順序カウント差分値を変更することができる。

さらに、また付加的にまたは代替的に、スライスヘッダ４０は、参照画像順序カウント差分値のセットに対する基準を含んでもよい。そのような基準は、たとえば、入力ビデオデータストリーム１４内で搬送されるパラメータセットを参照し得、この参照は、スライス３８を使用した空間部分２０の充填においてスライスヘッダ４０において変更され得る。同様に、パラメータセット自体が、それらを修正することなく、または、修正して、入力ビデオデータストリームから採用され得る。

加えて、付加的にまたは代替的に、スライスヘッダ４０が差分コード化量子化パラメータを含むことが実現可能であり得る。すなわち、データストリーム１４内で、たとえば、スライスヘッダ４０の差分コード化量子化パラメータは、画像２２の、または、さらには画像２２を含む一連の画像のデータストリーム４０内で搬送される量子化パラメータに対してコード化されている差分であり得る。合成ビデオデータストリーム１８の構築において、ビデオ合成装置１０は、同様に、データストリーム１８内の画像２６、または、さらには画像２６を含む一例の画像に対する特定の量子化パラメータを選択することができ、このパラメータは、たとえば、スライスヘッダ４０内の差分コード化量子化パラメータの基礎としての役割を果たす量子化パラメータとは異なり得る。したがって、データストリーム１８へと転移されるものとしてスライス３８のスライスヘッダ４０は、装置１０によってデータストリーム１８内の他の箇所においてシグナリングされる参照量子化パラメータの変化を計上するために、ビデオ合成装置１０によって変更され得る。

図３は、ビデオ合成装置１０が非出力画像をどのように人工的に生成し得るかの可能性を示す。特に、図３は、番号４’を有する非出力画像３０および番号２’を有する継承画像２６、すなわち、非出力画像３０が動き補償時間予測を介して置換および参照する継承画像２６を代表的に示す。特に、図３は、データストリーム１４および１８が、動き補償時間予測を使用してブロックベースで符号化される事例を示す。すなわち、それぞれの画像はブロックに分割され、そのうちのいくつかは動き補償時間予測を使用して予測され、これらのブロックの各々について、それ自体の動きベクトルが動き補償サイド情報によって示される。装置１０は、非出力画像３０の部分２０が、並進によって、継承画像２６の空間部分２０から複製されるように、非出力画像３０の空間部分２０の動き補償サイド情報を決定する。ここでは、両方の部分２０はサイズが同じである。すなわち、非出力画像３０の部分２０の各サンプルが、非出力画像３０の部分２０のそれぞれのサンプルと同一位置にある画像２６を有する位置に対してまったく同一の動きベクトル５０を使用して変位されている、画像２６内の対応するサンプルから複製される。しかしながら、すべてのブロック５２について動きベクトル５０は同じであるため、一実施形態によれば、装置１０は、データストリーム１４および１８の基礎となっている符号化方式によって利用可能である場合に、非出力画像３０の部分２０の動き補償サイド情報をコード化するために空間予測メカニズムを利用する。その場合、たとえば、動きベクトル５０は、非出力画像３０の空間部分２０のブロック５２のうちの１つのみについてデータストリーム１８内で明示的にコード化され、一方で、部分２０の他のブロック５２について、動きベクトルは、空間予測によって採用／予測される。たとえば、動きベクトル５０がそのために明示的にコード化されるもの以外のブロック５２については、スキップモードが使用され得る。スキップモードの使用は、たとえば、各ブロック５２に対して、動きベクトル５２が採用または空間的に予測されること、および、それぞれのブロック５２について予測残差データが存在しないことをシグナリングする。たとえば、非出力画像３０が置換する継承画像２６の空間部分２０の画像内容を修正せずに複製するために、いかなる非出力画像３０の空間部分２０についても、予測残差データは装置１０によってコード化されない。

図１に戻って参照すると、図１は、図１のビデオ合成装置１０が、外部信号６０、すなわち、変更を求める外部要求に応答して、空間部分２０の空間位置の時間的変化を制御するように構成され得る可能性を示している。その場合、ビデオ合成装置１０は、そのような、変更を求める外部要求を即座にかつ明確に実行しなくてもよい。むしろ、ビデオ合成装置１０は、要求６０を受信すると、任意の他の入力画像２２によって、時間的動き補償サイド情報予測を介して参照されない、入力画像のうちの第１の入力画像を判定するために、入力画像２２を連続して検査し得る。これを行う理由および詳細を、以下にさらに詳細に記載する。

たとえば、図４を参照されたい。図４は、画像５’に関する、非出力画像４’による画像２’の置換を示す。すなわち、装置１０によって挿入されている非出力画像４’は、空間部分の位置の変化の前で有効な空間部分２０の位置の画像内容を、空間部分２０の新たな位置において非出力画像４’内に挿入されるように複製し、それによって、その空間部分２０が入力画像のうちの１つ、すなわち、入力画像３からの収集および複製によって充填されている画像５’が、非出力画像４’の同一位置にある空間部分２０から、図４においていくつかの矢印６２を使用して示されている、入力画像３の動き補償サイド情報を使用して空間部分２０内の画像内容を予測することが可能である。すなわち、入力画像３から収集され、画像５’の空間部分２０へと複製されている動き補償サイド情報は、たとえば、空間部分２０内でインター予測ブロックあたり１つの動きベクトルをコード化することができる。

図３に関連して既に記述されたとおり、時間予測は、入力画像２２の動き補償サイド情報のような、動き補償サイド情報のために消費されることになるビットレートを低減するための、１つの選択肢であり得る。しかしながら、参照画像から画像５’の空間部分２０の動き補償サイド情報を時間的に予測することは、現在、以下の理由、すなわち、非出力画像４’が、画像２’の、画像５’に対する参照画像としての機能に関して、画像２’を置換することに起因してエラーをもたらすことになる。これは、画像内容、すなわち、動き補償サイド情報６２によって画像５’の空間部分２０へと複製される、最終的に再構築される画像内容に関して機能する。しかしながら、図３の記述から明らかなように、非出力画像４’の空間部分２０の動き補償サイド情報は、画像２’の空間部分２０を、非出力画像４’の空間部分２０へと並進的にしか複製しないため、非出力画像４’の空間画像２０のデータストリーム内で搬送される動き補償サイド情報は、画像２’の空間部分２０についてシグナリングされる動き補償サイド情報と一致しない。すなわち、非出力部分４’の空間部分２０の動きベクトルは、空間部分２０全体の間で均一な人工動きベクトルに過ぎず、一方で、画像２’の空間部分２０についてシグナリングされる動きベクトルは、ビデオシーン内の画像内容の動きを表す。

したがって、本出願の一実施形態によれば、ビデオ合成装置１０は、変更を求める外部要求６０を、直接的にではなく、その出来事または瞬間に対して過去の継承画像の中からの参照画像の置換が、その出来事または瞬間に対するいかなる後続の入力画像２２によっても、誤った時間的動き補償サイド情報予測をもたらさないものであり得る、連続した次の出来事または瞬間との遭遇を受けて実行するように構成されている。たとえば、図１において、画像１’の空間部分２０が、入力画像１のそれぞれのデータを収集および複製することによって充填されるべきである時点において、要求６０が装置１０に到来している状況を想起されたい。装置１０は、現在利用可能な参照画像のいずれか、すなわち、瞬間２８が画像１の直前にあった場合にそれぞれの非出力画像によって置換されるための候補になる参照画像のいずれかが、動き補償サイド情報を予測するための時間予測に使用されるか否かをチェックすることになる。そうである場合、装置は、空間部分２０の空間位置の変更の実行を保留することになる。その後、装置１０は、たとえば、入力画像２を同様にチェックすることになる。つまり、装置は、その瞬間における参照画像、すなわち、非出力画像によって置換されることになる候補が、動き補償サイド情報について参照されるか否かをチェックすることになる。図１の事例において、たとえば、画像３が、その画像からいずれの画像も、その時点において置換されるべき参照画像のいずれからも動き補償サイド情報を予測するために時間予測を使用しない、すなわち、そのとき利用可能なすべての参照画像が動き補償サイド情報の時間予測に使用されない第１の入力画像２２になり得、したがって、装置１０は、入力画像２２の画像２と３との間で要求６０を実行することになる。

ビデオ合成装置１０に対して、要求６０が実行され得る可能な時点を効率的にシグナリングする１つの方法、すなわち、それぞれの画像の前に非出力画像３０を挿入することによって要求６０が実行され得る入力画像を検出する効率的な方法は、１つまたは複数の特定の時間的階層（複数可）の画像が、動き補償サイド情報の時間予測に使用されることにならないことが保証されるように、ビデオ１４を生成することである。すなわち、特定の閾値時間階層ＩＤを超えるもののような、特定の時間層ＩＤ（複数可）の画像２２が、動き補償サイド情報の時間予測を介して、データストリーム１４の他の画像２２から参照されることを可能にされる間、データストリーム１４は、ビデオ合成装置１０に、その閾値を上回るもののような、１つまたは複数の特定の時間層ＩＤ（複数可）以外の時間階層ＩＤの画像２２が、動き補償サイド情報の時間予測における基準として使用されないことを保証されることをシグナリングすることができる。その場合、装置１０は、一連の入力画像２２内で、要求６０の到来時点から、そのコード化時点において、そのコード化時点が適切な切り替え瞬間２８であると判明した場合に非出力画像によって置換されるべきである１つまたは複数の現在の参照画像のいずれも、動き補償サイド情報のために参照されることを可能にされる画像を含む時間層ＩＤのものではない、連続した次の瞬間との遭遇を検出することができる。装置は、入力画像の画像範囲時間階層ＩＤ、および、到来するデータストリーム１４の高レベル構文によって含まれる画像範囲時間階層超過弁別器に基づいてのみ、このチェックを実施することができる。入力画像２２の画像範囲時間階層ＩＤは、たとえば、各画像２２と個々に関連付けられるアクセスユニットヘッダ内、または、それぞれの入力画像２２のスライスのスライスヘッダ４０内に含まれ得る。上記の画像範囲時間階層超過弁別器を含む高レベル構文は、具体的なＳＥＩメッセージ構文例に関連して以下に概説するようなデータストリーム１４のＳＥＩメッセージ内に含まれ得る。代替的に、装置１０は、それぞれの高レベル構文を通じて（コード化効率における損失と関連付けられる）データストリーム１４内の時間的動き補償サイド情報予測の完全な欠如を検出し、したがって、画像範囲時間階層ＩＤとは無関係に要求６０を実行することができる。さらに代替的に、到来するビデオデータストリーム１４が、たとえば、ＳＥＩメッセージまたは特別なＮＡＬユニットタイプの形態の指示子を含んでもよく、この指示子は、ビットストリーム内での指示子の位置によって、要求６０の実行に関する現在の画像の適性を示す。さらに代替的に、画像１０は、デフォルトで、事実を明確に検証することなく、データストリーム１４内の時間的動き補償サイド情報予測の完全な欠如を予測してもよい。入力ビデオデータストリームは、それに従って、すなわち、それぞれの制約に従って、装置１０に与えられる。

人工的に挿入される非出力画像３０に関して、そのためのデータレートを低減するために、装置は、１つの特定の瞬間２８において挿入される異なる非出力画像３０の間、さらには、異なる瞬間において挿入される非出力画像３０の間のような、１つの非出力画像３０と別の非出力画像３０との間で、動き補償サイド情報の時間予測を使用することができることに留意されたい。この方策によって、サイド情報の時間予測の残差しかコード化されないため、非出力画像の空間部分内の他のブロックについての空間的動き補償サイド情報予測のシードを形成する１つの明示的にコード化される動きベクトルをコード化するためのコード化オーバヘッドさえも、低減される。

図５は、合成ビデオデータストリーム１６を受信する、ビデオ符号化器７０および復号器７２を伴うフレームワーク内のビデオ合成装置１０を示す。ここで、ビデオ合成装置１０は、ビデオ符号化器７０とともにシステム７４を形成し、その例が、たとえば、１人もしくは複数の顧客に、利用可能な交通カメラビューの合成を提供する交通監視システム、１人もしくは複数の顧客に、パノラマビデオの下位部分を提供するパノラマビデオアプリケーションを実現する仮想現実システム、または、１人もしくは複数の顧客に、第三者の参加者のビューの合成を提供する電話会議システムのような、２つ以上のビデオ符号化器７０を使用する実施形態に関連して下記に提示される。

ビデオ合成装置１０は、ビデオ符号化器７０から入力ビデオデータストリーム１４を受信し、上記で概説したように、これを合成ビデオデータストリーム１６の画像の空間部分２０内に表示する。ビデオ復号器７２は、装置１０によって出力されるものとしての入力合成ビデオデータストリーム１６を復号するだけでよい。復号器７２の出力において、表示されるべき再構築された画像シーケンスが出力され、図５においては参照符号７６を使用して示されている。内部では、復号器７２は、コード化画像バッファ７８と、それに後続する復号エンジン８０と、またそれに後続する復号画像バッファ８２との系列から構成されているものとして例示的に示されている。到来する合成ビデオデータストリーム１８が、バッファ７８に入る。復号エンジン８０は、データストリーム１８の画像２６および３０を連続して復号し、これらの画像の復号の結果を、復号画像バッファ８２へと挿入する。矢印８４によって示されるように、復号画像バッファ８２の出力はまた、復号エンジン８０にフィードバックもされ、それによって、バッファ８２内の復号画像は、動き補償時間予測に関連して上記ですでに概説したように、後続して復号される画像に対する参照画像としての役割を果たすことができる。

復号画像の出力において、復号器７２は、一方における継承画像２６と、他方における挿入されている非出力画像３０との間で区別する。非出力画像３０は、データストリーム１８内で、出力されない、すなわち、表示されるビデオ７６の一部分ではないものとしてシグナリングされる。たとえば、データストリーム１８は、データストリーム１８の各画像２６および３０について、それぞれの画像が出力されるべきか否かをシグナリングするフラグを含み得る。しかしながら、フラグはまた、スライスごとにシグナリングされてもよい。すなわち、非出力画像３０に属するすべてのスライスは、表示されるべきではないそれぞれの画像内容をシグナリングする。ＨＥＶＣにおいては、たとえば、フラグｐｉｃ＿ｏｕｔｐｕｔ＿ｆｌａｇがこの目的のために使用され得る。入力ビデオデータストリームの画像は、すべて出力画像タイプのものであり得るが、代替的に、これはすでに非出力画像が散在されていてもよいことに留意されたい。

上記では特定的に概説されていないが、ビデオ符号化器７０は、当該ビデオコーデック自体によって課される制約に加えて、何らかのコード化制約に従うように構成され得る。たとえば、入力画像２２のそれぞれのデータに基づく継承画像２６の空間部分２０の充填においては、入力画像２２の以前の画像境界が、空間部分２０の充填後に空間部分２０の内部境界になることが明らかになる。しかしながら、この状況の変化は、たとえば、時間的動き補償予測を変化させ得る。すなわち、画像境界を越えて延伸する参照画像の領域を指す動きベクトルが、参照画像の複製された領域の、参照画像の外部にある部分の、外挿のような何らかの特別な処理を呼び出す場合がある。しかしながら、そのような呼び出しは、当該境界がたとえば、それぞれの継承画像２６内にあり得るときは、空間部分２０の境界において発生しない場合がある。したがって、ビデオ符号化器７０は、画像２２の境界近傍において、動き補償サイド情報を、動き補償サイド情報が、画像２２の境界を越えて延伸する領域において参照画像を複製しない範囲まで制限することができる。加えて、ビデオ符号化器７０は、入力画像２２の境界に近い、サブピクセル精度を有する動きベクトルに必要とされるサブピクセル補間を回避するように制約され得る。たとえば、入力画像２２の領域内でサブピクセル精度のブロックを有する動きベクトルは、輝度または色度サンプル値の補間のために有限インパルス応答フィルタ手順を呼び出し得る。動きベクトルサブピクセル位置が、入力画像２２の空間画像境界に空間的に近いとき、フィルタカーネルは、サブピクセルサンプル値の補間において、画像２２の境界を越えて延伸する領域と重なり得る。そのような事例において、外挿などのような、前述した特別な画像境界処理が呼び出され得る。入力画像２２のそれぞれのデータに基づいて継承画像２６の空間部分２０を充填すると、入力画像２２の画像境界は、空間部分２０の充填後に継承画像２６の空間部分２０の内部境界になり得、そのような呼び出しは発生し得ない。したがって、ビデオ符号化器７０は、画像２２の境界近傍において、サブピクセル精度動きベクトルの使用を、サブピクセル補間プロセスが、画像２２の境界を越えて延伸する参照画像領域を使用しない範囲まで制限することができる。加えて、符号化器７０は、入力画像２２の空間的境界に空間的に位置するブロックについて、動き補償サイド情報の時間予測を実施するときに、ブロックの動きベクトルが、参照画像内の同一場所にあるブロックに、そのようなブロックが存在する場合に、隣接することを促進することができる。以前に指摘したように、入力画像２２のそれぞれのデータに基づいて継承画像２６の空間部分２０を充填すると、結果として、入力画像２２の画像境界は、継承画像２６の空間部分２０の内部境界になり得る。それゆえ、部分２０の内部境界に空間的に近い所与のブロックの動きベクトルサイド情報の時間予測プロセスは、それぞれの同一場所にあるブロックに隣接する参照画像内のブロックにアクセスすることができ、それゆえ、符号化器７０にとって利用可能でない場合に予測不一致をもたらすブロックにアクセスすることができる。したがって、ビデオ符号化器７０は、画像２２の境界近傍において、動き補償サイド情報の時間予測を、予測プロセスが、画像２２の境界を越えて延伸する参照画像領域からの情報を使用しない範囲まで制限することができる。同様に、入力画像２２の内部境界は、画像２６内の画像境界になり得、符号化器７０は、それに従って、入力画像２２の内部境界に対して動きベクトルサイド情報の時間予測を制限することができる。インループフィルタリングに関して、ビデオ符号化器７０は、入力ビデオデータストリームを提供する際にインループフィルタリングを使用するか、または、使用しないように設定することができる。インループフィルタリングが入力データビデオデータストリームにおいて使用されるべきであるとシグナリングされる場合、装置１０は、継承画像２２の対応する空間部分のインループフィルタリングを採用することができ、入力データビデオデータストリームにおいて使用されるべきではないとシグナリングされる場合、装置１０は、継承画像２２の対応する空間部分のインループフィルタリングを適用しないことができる。一方、インループフィルタが使用される場合、装置は、インループフィルタリングが継承画像内の空間部分２０の境界に交差するように、継承画像２２のインループフィルタリングの起動を控える。たとえば、参照画像内容を変化させないように、非出力画像３０においては、さらなるインループフィルタリングは装置１０によって起動されない。

さらに、複数のビデオ符号化器７０を使用する場合、図１において矢印２４を使用して示されている時間予測ＧＯＰ構造ならびに／またはさらなるコード化ツールおよびパラメータに関してこれらのビデオ符号化器７０を同期させることが有利であり得る。

さらに、ビデオ符号化器７０は、図４に関連して上記で概説したように、データストリーム１４の生成において時間的階層コード化概念を使用することができ、時間的階層レベルのサブセットに関して、装置１０が結果として空間部分２０の空間位置の変化が行われ得る到来するデータストリーム１４の画像２２を識別することができるように、データストリーム１４のそれぞれの高レベル構文を介した、上記で概説した保証シグナリングを使用して装置１０に対するこの不使用が保証されることによって、このビデオ符号化器７０は、自発的に、時間的動き補償サイド情報予測の使用を控える、すなわち、ＴＭＶＰのための基準として時間的階層レベルのそれぞれのサブセットの画像を使用することを控える。

図６〜図１０に関して記載されている特定の適用シナリオの記述からも明らかになるように、入力ビデオデータストリーム（複数可）１４を生成するビデオ符号化器（複数可）７０は、それぞれのビデオカメラによってキャプチャされるビデオを符号化するように構成することができ、このビデオ符号化はそれぞれ、オンザフライまたはリアルタイムで行われてもよい。ビデオ符号化器７０は、そのようなカメラ内に組み込まれてもよい。装置１０は、サーバ内に含まれてもよく、一方で、復号器７２は、そのサーバのクライアント内に組み込まれてもよい。一方で、さらに代替的に、装置１０はまた、クライアント側でも実装され、それによって、装置１０を復号器７２の上流に直列接続するだけで、（標準的な）復号器７２の、上述した合成自由度を達成する能力が安価に拡張される。下記に説明する実施形態は、たとえば、例として復号器７２が参加者のクライアントの一部分であるテレビ会議システムに関する。代替的に、復号器７２は、パノラマビデオアレイからパノラマビデオ下位部分を取り出す、ヘッドマウントディスプレイ事例のようなクライアントであってもよく、この合成は、下記により詳細に概説されるように、ビデオ合成装置１０によって実施される。ビデオ合成装置１０自体は、コンピュータなどの上で動作するソフトウェアの形態で実装されてもよく、一方で、復号器７２は、モバイルデバイス上のソフトウェア、ハードウェアまたはプログラマブルハードウェアを使用して実装されてもよい。

図５には示されていないが、ビデオ合成装置１０に到達する要求６０が、復号側から生じることがあり得る。代替的に、要求６０は、監督エンティティのような、何らかの制御点において手動で生成される。

以下において、図１〜図５の実施形態がそれに従って、２つ以上の入力ビデオデータストリームに関して同時に使用される実施形態が説明される。以下の説明において、非出力画像３０は、生成参照画像（ＧＲＰ）と呼ばれる。それらは、複数の入力ビデオデータストリームに関する参照画像を代替する。上述したように、ＧＲＰは、出力されず、合成ビデオデータストリームを復号するときに特定の時間的位置において元の参照画像を置換するための標的である、合成ビデオデータストリーム／ビットストリームへと挿入される合成画像である。すでに上記で提示した範疇を超える、ＧＲＰに関するさらなる詳細が、いくつかのサンプル応用形態を使用して以下に提示されているが、これらはまた、さらなる応用形態にも適用可能である。特に、そのような詳細は、上記の説明にも個々に転用可能であるものとする。

図６は、タイルベースのパノラマストリーミングアプリケーションを表す。今日、パノラマストリーミングが実現される方法は、クライアント関心領域（ＲＯＩ）、すなわち、クライアントデバイス上のコンテンツエリアディスプレイを追跡し、パノラマビデオを、所与のクライアントにとってのＲＯＩのみを含むビデオへとコード変換する専用サーバを有することによる。このような手法には、スケーラビリティが低いという欠点がある。しかしながら、ＨＥＶＣによれば、たとえば、ビデオビットストリームを、タイルと呼ばれるより小さい部分に分割することができる。タイルは、複数の異なるタイル間の時間的依存性が除去されるように符号化することができる、画像の小さい矩形の形態のパーティションである［２］。しかしながら、タイルが独立して復号される場合、単一のビデオ復号器を使用することはできず、それゆえ、［１］に示す技法と同様のタイルスティッチング手順が必要とされる。

図６には、クライアントスクリーンの動きを特徴付ける２つの瞬間、すなわち、Ｔ＝０およびＴ＝１が示されており、Ｔ＝１は、クライアント側が、提示されているタイルの位置を変化させる双方向ストリーミングの切り替え点を表す。パノラマストリーミングのシナリオにおいて、クライアントは一般的に、ユーザ対話、または、ＲＯＩ認識のような自動プロセスによって、ＲＯＩを経時的に適応的に選択することによって、パノラマにわたってナビゲートする。

これは、パノラマシーケンス全体に対する受信／ダウンロードされるタイルの位置が経時的に変化することを意味する。ストリーミングプロセス中にＴ＝１において受信される（すなわち、以前のＴ＝０においては受信されない）新たな位置にある任意のタイルは、先行する瞬間Ｔ＜１が復号器にとって参照のために利用可能でないため、このタイルの分解されたビデオ内容におけるランダムアクセスを必要とする。

しかしながら、以前に受信された位置のタイルの第２のセットは、このセット内のタイルの情報がすでに受信されているため、必ずしもランダムアクセスを必要としない。これらのタイルは、図６および図７において斜線を使用して示されている。それらのタイルについて、出力画像内の位置のみが、参照のために利用可能な、すでに復号されているものにおける位置と異なる。したがって、［１］に記載されている技法をそのまま使用することはできない。参照される画像が符号器側で遭遇するものと異なる情報を有することになるため、ビデオ復号器バッファ内の通常の参照フレームからの時間予測は、この第２のタイルセットについては失敗する。

細かい注釈として、図６および図７において、例示のみを目的として、合成ビデオの９タイル分割が選択されていること、および、当然のことながら、何らかの他の分割も使用されてもよいことに留意されたい。タイルは参照符号９０を使用して示されている。下記の記載から明らかになるように、合成ビデオデータストリームのタイルは、それぞれの入力ビデオデータストリームが表示され得る空間部分の可能性のある空間位置を表す。図６に示すパノラマアプリケーションのシナリオにおいては、多くの入力ビデオデータストリームが利用可能である。図６の例においては、１１×５入力ビデオデータストリーム９２が、入力ビデオストリーム９２のすべてがパノラマシーンの異なる空間部分をキャプチャするという点において、パノラマビデオシーンをカバーする。空間部分は互いを、たとえば、隙間なく境界し、図６に示すように列および行の配列になるように空間的に分散され、それによって、ビデオ９２は、それぞれ列および行に配列されているパノラマシーン部分と関連付けられる。各瞬間において、合成ビデオデータストリームは、その３×３タイル内で、１１×５入力ビデオデータストリーム９２から３×３部分行列のみを描写する。

図７は、瞬間Ｔ＝１におけるタイルの新たな位置に起因して、スティッチングされているビデオ、すなわち、図７の９４において示されている合成ビデオデータストリーム内で使用される基準が、図７においてブロック９６を使用して示されている符号化器側の元の基準と異なっており、図６および図７において破線で示されている、更新されていない部分の時間予測を使用することを不可能にするドリフトがもたらされていることを示す。したがって、受信されており、合成／スティッチングされた出力信号内で新たな位置に再配置さているタイルもランダムアクセスを必要とし、それによって時間予測が不可能になり、受信合成ビットストリームのビットレートがより高くなる。ＧＲＰの概念が、この問題を解決する。

図８は、図６および図７に関連する上述した問題を解決するＧＲＰ概念を示す。ＧＲＰは、後続する画像が、以前に受信されており、図１において２８によって示されているストリーミング切り替え点において、および、その後に、合成／スティッチングされたビデオ内で新たな位置に変位されているタイル（すなわち、ビデオの領域）の時間予測を使用することができるように、通常の参照画像の内容の変位を実施する画像である。ＧＲＰは、参照のためにのみ使用され、出力されない。

図１〜図５の実施形態がいくつかの入力ビデオデータストリームを使用する事例に適用される、次のアプリケーションの概況に進む前に、前述の実施形態を、図１〜図８を組み合わせることによって簡潔に説明する。特に、図６〜図８に関連して上述した実施形態によれば、たとえば、図５のシステムは、パノラマ部分ビデオ９２、すなわち、図６の例示的な実施形態における１１×５ごとに１つのビデオ符号化器７０を含む。ビデオ合成装置１０は、たとえば、３×３の到来するビデオデータストリームの部分配列を、合成ビデオデータストリームへとスティッチングする。部分配列が入力ビデオデータストリーム９２の配列にわたって動くときはいつでも、ビデオ合成装置１０は、非出力画像またはＧＲＰの挿入を実施し、その瞬間２８において挿入されるＧＲＰ３０は、すでに瞬間２８に先行する部分配列の部分であった入力ビデオデータストリームに対応するタイル位置に、人工動き補償サイド情報を含む。部分配列が対角運動をする事例において、これらの数は４であり、一方で水平または垂直運動は、各切り替え瞬間の前および後で６つのデータストリームを共有する。図６の事例において、たとえば、その瞬間の後、すなわち、Ｔ＝１において部分配列の部分である４つの入力ビデオデータストリームはすでに、その瞬間以前の、すなわち、Ｔ＝０における部分配列の部分、すなわち、斜線を使用して示されているものになっている。瞬間２８において、すなわち、図８における継承画像２６の間に挿入される１つまたは複数のＧＲＰは、並進するように、これら４つの入力ビデオデータストリームが以前に位置付けられていたタイルの内容を、これら４つの入力ビデオデータストリームの新たな位置へと複製する。それゆえ、ＧＲＰ（複数可）は、いくつかの入力ビデオデータストリーム１４について、これを並列に実施することができる。このパノラマアプリケーションのシナリオの事例において、人工動き補償サイド情報は、現在表示されている合成ビデオデータストリーム内に残っているすべての入力ビデオデータストリームに対応する空間部分の並進運動をインスタンス化する。次に説明するアプリケーションシナリオにおいては、これは異なり得る。すなわち、ＧＲＰの人工的に生成される動き補償サイド情報は、１つの入力ビデオデータストリームに対して並進的なものであり得るが、運動方向は、並列に処理される異なる入力ビデオデータストリームについては異なり得る。

特に、ＧＲＰ概念は上記図５〜図８に関連するパノラマストリーミングアプリケーションの文脈において説明されたものの、異なる例が図９に関連して下記に提示される。前述したように、ＧＲＰは、他のアプリケーション、たとえば、ビデオ会議も可能にする。ビデオ会議システムにおいては、すべての参加者のビデオビットストリームが、概ね同様に単一のビデオビットストリームへと合成／スティッチングされる。話者合成レイアウトが変化すると、たとえば、話者の変化または参加者の変動を通じて、合成において位置を変更した参加者ビデオビットストリームの正確な時間予測を可能にするために、ＧＲＰがビットストリームに付加される。そのようなアプリケーションにおいて、それぞれのＧＲＰ内の動きベクトルは、ＧＲＰ全体を通じて、ただし少なくとも、２つの異なる合成がＴ＝０およびＴ＝１について与えられており、かつ、ＧＲＰの動きベクトルも示されている図９に示すように、各参加者のビデオビットストリームによってカバーされる領域を除いて、必ずしも一定ではない。したがって、この事例において、各話者について、単一のコード化ユニットが動きベクトル情報を有し、符号化されているその話者について残りのコード化ユニットがスキップされるように、そのレイアウト方式に対応するより多くのスライスまたはタイルが使用され得る。言い換えれば、図９のＧＲＰ３０は、図３に関連して上記で提示した説明と同様に符号化され得る。すなわち、画像３０が、図９の事例においては例示的に３つである、切り替え瞬間２８の前および後に存在する入力ビデオデータストリームあたり１つの空間部分２０をもたらすように、分割され得る。空間的予測を使用して、これら３つの入力ビデオデータストリームの各々の空間部分の変位が、これら３つの入力ビデオデータストリームの各々について１回のみ、すなわち、それぞれの空間部分内の１ブロックのみについて符号化され得、一方で、それぞれ同じ空間部分内の残りのブロックについて再び各入力ビデオデータストリームの並進運動がシグナリングされることを回避するために、空間予測が使用され得る。

ＧＲＰ概念のさらなる対象となるアプリケーションは、入力ストリーム１４における可変ランダムアクセスレートおよびストリーミング制御を用いた、仮想現実またはテレプレゼンス使用事例に一般的に見出されるヘッドマウントディスプレイに対するパノラマストリーミングである。言及されているアプリケーションにおいて、利用可能なビデオストリームは、カメラ（複数可）位置において３６０度までの視角をカバーする可能性が高い。同様に、利用可能な視角のビデオのやや大きい部分が、周辺視野を与えるためにユーザに対して同時に提示される。さらに、頭部の動きに起因するパノラマビデオの表示領域の調整が、たとえば、接触ベースの入力システム上よりもはるかに短い間隔および速い速度で行われる可能性が高い。

いくつかの事例において、ビデオストリーム内に明らかに好ましい関心領域（ＲＯＩ）エリア、たとえば、図１０に示すような遠隔制御される車両上での動きの方向などがある。参照ビデオは、たとえ指示されている場合に瞬間的なアクセスを提供するために表示されない場合であっても、復号器側で利用可能である（すなわち、常に復号される）ように意図されているため、その領域の中にある画像領域は、より粗い（またはゼロの）ランダムアクセスレートで符号化することができる。他の視角（周辺視野）は、ビュー方向の突発的な変化に備えるために相対的に精細なランダムアクセスレートをもたらす。このシナリオにおけるスティッチングビデオは常にＲＯＩを含み、任意選択的に、周辺領域の部分を含む。その後、提示されているビデオ領域に応じて、前述したようにＧＲＰが生成される。

［１］に概説されている技法と比較して、上記で概説したＧＲＰ概念は、いくらかの拡張を含むことができ、以下のリストは、入力ビデオデータストリーム１４およびＧＲＰが従い得る制約、および、それらが含み得る特性を詳述する。

時間的動きベクトル予測：画像２２のエッジ部分における動きベクトルに関するいくつかの制約のような、それに基づいて入力ビデオデータストリーム１４が生成されるいくつかのビットストリーム制約はすでに上述されている。それに加えて、時間的動きベクトル予測（ＴＭＶＰ）、すなわち、動き補償サイド情報の時間予測は、ＧＲＰによって置換され得るいかなる画像も、ＴＭＶＰには使用されないように制約され得る。一般的に、リストされている例示的なアプリケーションにおいて、ＲＯＩまたは話者レイアウトをこの時点から前方へと変化させるために使用される切り替え点が定義される。たとえば、階層的予測時間スケーラビリティが使用される場合、切り替え点は、たとえば、時間レベル０画像、または、利用可能な時間層の何らかの他のサブセットの画像として選択され得る。この事例において、時間レベル０を有する画像はＴＭＶＰのために選択されない。これは、この画像がＧＲＰへと変化される可能性があり得るためである。代替的に、ＴＭＶＰは、予測構造によって決定される画像／時間の量にわたって、切り替え点におけるすべての時間レベルについて無効化されてもよい。ＧＯＰ構造は、スティッチング画像が同じ値の時間レベル指示子を有し、書き換えプロセスが単純化されるように、ビットストリームにわたって一定に維持され得る。

参照画像セット：受信機／復号器において必要とされるメモリの増大を回避し、必要な復号画像バッファ（ＤＰＢ）サイズを低減するために、特にいくらかがＩスライスおよびいくつかのＰまたはＢスライスを有するときに、入力ビデオデータストリーム（たとえば、タイル）が同期的に混合／スティッチング／合成されるときに、参照画像セット（ＲＰＳ）の量およびサイズが最小限に維持され得るように、入力ビデオデータストリームが全体的に同じ予測構造を使用することが好ましい。たとえば、１つの入力ビデオデータストリームのＨＥＶＣＩＤＲまたはＣＲＡが、合成ビデオデータストリーム内のＩスライスを有する後続画像に変換されるとき、一貫したＲＰＳが選択され得、Ｉスライスタイルが混合／スティッチングされるタイルのＲＰＳに一致する空でないＲＰＳが選択され得、Ｉスライスのみを基準として使用する後続するスライスについて、（他のタイルに対して）首尾一貫したＲＰＳが指示され得、Ｉスライスを固有の参照画像として識別する構文構造、参照画像リストおよび画像インデックスのための構文構造が、スライスに付加されなければならない。

画像順序カウント（ＰＯＣ）：ＧＲＰ３０の挿入／追加は、入力画像２２および他方における対応する継承画像２６のＰＯＣ値を比較するときにさらなるＰＯＣ値を変化させる装置１０によって達成することができる。ＧＲＰのＰＯＣ差は、置換される元の画像と同じままであり、これは、ＤＲＢ内のすべての画像の最大のＰＯＣ差＋１以上である、ＰＯＣデルタを定義することによって達成することができる。このＰＯＣデルタは、ＧＲＰが、ＤＰＢ内の置換される画像のＰＣにこれを加えることによって、ＰＯＣを計算するために使用される。最後のＩＤＲからのすべてのＰＯＣデルタの合計が、スライスヘッダから導出されるＰＣＯ値に加算され得る。加えて、さらなる高レベル構文構造が適合を必要とし得、たとえば、ＨＥＶＣを使用する事例において、ＶＰＳ内のｖｕｉ＿ｐｏｃ＿ｐｒｏｐｏｒｔｉｏｎａｌ＿ｔｏ＿ｔｉｍｉｎｇ＿ｆｌａｇが出力ストリームにおいてゼロにされ得る。

インループフィルタ：加えて、予測を通じて空間的に再配置されるときに（矢印３４）、元の入力ビデオストリーム画像２２の修正に起因する、ＧＲＰ（複数可）３０に後続する画像の予測ドリフトを回避するために、ＨＥＶＣにおけるデブロッキングおよびサンプル適応的オフセットフィルタのような、ＧＲＰ３０におけるインループフィルタが、たとえば、ＰＰＳ内で無効化されるべきである。すなわち、ビデオ符号化器７０によって実施されるインループフィルタリングに加わる、いかなる追加のインループフィルタフィルタリングも、ＧＲＰ３０に適用され得ない。

タイルおよびスライス：データの挿入量を低減するために、装置１０は、タイルおよびスライスを通じたＧＲＰの構造化を、不要なシグナリングオーバヘッドを導入するものとしては最小限に維持し得る。しかしながら、スティッチング画像または任意の他の画像と同様のタイル／スライス設定は、必要とされる／好ましい実施態様、すなわち、ソースビデオごとのものである。

出力信号化：上述したように、合成ビデオデータストリームの根底にあるビデオコーデックは、ＧＲＰの出力特性の信号化を可能にする。すなわち、そのＧＲＰは出力されず、たとえば、ＨＥＶＣスライスヘッダ内のｏｕｔｐｕｔ＿ｆｌａｇを通じて、参照のためにのみ使用される。スライスヘッダ内のそのような構文要素の存在は、スライス参照においてその存在をそのＰＰＳにシグナリングする追加のＰＰＳを必要とし得る。

パラメータセット挿入：ＧＲＰは必ずしも、それらのそれぞれのパラメータセット内でシグナリングされるすべての特性をストリームの他の画像と共有するとは限らない。それゆえ、ＧＲＰが参照するために、追加のパラメータセットが出力ビットストリームへと挿入されることが好ましい場合がある。

ＧＲＰＮＡＬユニット（複数可）：可能な最大サイズのコード化ユニット（ＣＵ）またはブロックを使用することによってＧＲＰを符号化することが、可能な限り少ないビットを生成するために好ましい。図３に関連して概説されているように、画像の必要な変位、すなわち、どれだけのピクセル数が移動されるか、および、いずれの方向にそれぞれのタイル（複数可）が移動されるかを示す、第１のＣＵまたはブロックが符号化され得る。残りのＣＵまたはブロックは、それぞれの空間部分のすべてのＣＵについて同じであるため、それらのＣＵまたはブロックはスキップモードなどで符号化される。しかしながら、入力ストリームのＣＵサイズまたは画像領域ごとの個々の動きが、よりＣＵサイズをより小さくするように動機付け得る。ＧＲＰスライスは、新たなＲＰＳ、または、必要とされる場合に、置換される画像を参照のために必要とされないものとしてマークする、ＳＰＳ内のＲＰＳに対するインデックスを含み得る。後者は、画像がＧＲＰによって置換され、さらなるＧＲＰが含められると、ＤＰＢメモリ要件を低く抑えるために、さらなるＧＲＰのＲＰＳに元の画像に対する参照が含まれないことを意味する。

ＳＰＳ一貫性：ＩＤＲは、以前のアクティブなＳＰＳとは異なる値を有する新たなＳＰＳを起動し得る。しかしながら、異なるビットストリームを単一のビットストリームへとともにスティッチングすることを可能にするためには、異なるストリームのＳＰＳが一貫していることが要件である。ＩＤＲを後続する画像のＩスライスに書き換え、他の非Ｉスライスとスティッチングするためには、これは、先行するアクティブなＳＰＳのものとは異なる構文要素を有するＳＰＳを起動してはならない。

上記の説明に関連して、たとえば、スライスデータまたはスライスペイロード区画４２の形態のＧＲＰ３０が、挿入のために事前に符号化され得ることに留意されたい。すなわち、装置１０は、想定されている入力データストリーム構成に一致するそのような事前符号化ＧＲＰ３０のセットを有し得る。このように、そのようなＧＲＰは、それらのスライスペイロード内容が、画像寸法、変位またはタイル構造のような高レベルパラメータのみに依存するため、合成ビデオデータストリーム１８へと挿入することができる。これによって、たとえば、例としてＨ．２６４／ＡＶＣまたはＨＥＶＣコード化内容のコンテキスト適応的２値算術符号化（ＣＡＢＡＣ）エンジンのような、実際のエントロピー符号化器を用いない実施態様が可能である。

上記で外接した実施形態の中には、いくつかの入力ビデオデータストリームを１つの合成ビデオデータストリームへと合成する実施形態があった。以下においては、わずかに異なる概念を使用して、合成ビデオデータストリームの、または、複数の入力ビデオデータストリームの合成を達成する実施形態が説明される。図１１は、複数１０４の入力ビデオデータストリーム１０５₁、１０５₂．．．１０５_Nを受信するための入力１０２と、合成ビデオデータストリーム１０８を出力するための出力１０６とを有する装置１００を示す。入力ビデオデータストリームのインデックスは、以下の説明において除外されることがある。入力ビデオデータストリーム１０５および合成ビデオデータストリーム１０８は、動き補償時間予測を使用して符号化される。

以下に、より詳細に概説するように、図１１のビデオ合成装置１００は、画像数が合成ビデオデータストリーム１００の及ぶ空間的寸法空間へと拡大されていることと引き換えに、図１〜図１０に関連して上述した実施形態と比較して増大した合成自由度で、到来する入力ビデオデータストリーム１０５からビデオを合成することが可能である。一般的には、図１１のビデオ合成装置１００は、合成ビデオデータストリーム１００の参照部分内に出力されるべきではない入力ビデオデータストリーム１０５を「隠し」、一方で、ビデオ合成装置１００によって、合成によって生成される、合成ビデオデータストリームのさらなる部分は、動き補償時間予測を介して参照部分から様々な領域を参照することによって、照合ビデオを合成する。合成によって生成される内容の後者の部分は、合成ビデオデータストリーム１００の、復号側で実際に出力されるべき部分である。

すなわち、図１１の概念によれば、単一の復号器へと供給されると、複数の入力ビデオデータストリーム／ビットストリーム１０５の空間構成を生成する単一の出力ビデオデータストリーム／ビットストリーム１０８を作成するために、いくつかの入力ビデオデータストリーム１０５が装置１００によって圧縮領域において処理される。図１２は、出力ビットストリーム１０８を復号することによって達成される、意図される構成１１０を合成するために、１つの入力ビットストリーム（ストリーム１）１０５₁の内容が、別の入力ビットストリーム（ストリーム２）１０５₂の部分と重ね合わされる第１の例示的な使用事例を示す。下記により詳細に概説されるように、この目的のために、出力データストリーム１０８は、入力ビデオデータストリーム１０５₁および１０５₂のビデオ内容を担持する参照部分１１２と、動き補償時間予測を介して、参照部分１１２を参照する、実際に出力されるべき合成部分とを備える。図１２において、異なるハッチングを掛けられた矢印が、入力ビデオデータストリーム１０５からの使用されている参照領域を示している。すなわち、この矢印は、部分１１４において合成ビデオ内容を作成するための予測ベクトルを示すものとする。より多くの詳細が下記に提示される。

図１１に戻って参照すると、ビデオ合成装置１００は、複数１０４の入力ビデオデータストリーム１０５の動き補償サイド情報および予測残差データを収集および複製して第１の部分１１２にすることによって、複数の入力ビデオデータストリーム１０５を、合成ビデオデータストリーム１０８の画像１１６の参照部分１１２へと多重化する。合成ビデオデータストリーム１０８の画像１１６の第２の部分１１４は、動き補償時間予測を介して、参照部分１１２を参照することによって、合成によって生成される照合ビデオで充填される。参照部分はデータストリーム１０８内で出力されないものとしてシグナリングされる一方で、第２の部分１１４は、出力されるものとしてシグナリングされる。

下記により詳細に概説するように、入力ビデオデータストリーム１０５を参照部分１１２へと多重化する方法については、いくつかの可能性がある。特定の入力ビデオデータストリーム１０５_iによって搬送される「ビデオ量（ｖｉｄｅｏａｍｏｕｎｔ）」は、たとえば、ｔ_iのような１秒あたりの画像の数のｎ_i×ｍ_i倍のような、それぞれの入力ビデオデータストリーム１０５_iの画像１１８あたりのサンプルの数を示すものとし、さらに、１秒あたりの画像の数のｎ_o×ｍ_o倍のような、照合ビデオの画像あたりのサンプルの数としての、第２の部分１１４の「ビデオ量」を示すものとし、このとき、照合ビデオデータストリーム１０８は、たとえば、１秒あたり少なくともｎ_o×ｍ_o×ｔ_o＋Σｎ_i×ｍ_i×ｔ_i個のサンプルを含む。ビデオ入力データストリームの間の画像サイズ変動の結果として、図１５に関連して説明されるように、ダミーデータ充填領域が最小サイズに加わることになり得る。入力ビデオデータストリーム１０５が参照部分１１２へとどのように「隠される」または多重化され得るかについて、様々な方法が存在する。この目的のために、たとえば、参照部分１１２は、非出力画像、および／または、切り取られるべき合成ビデオデータストリーム１０８の出力画像の画像領域を含み得る。より多くの詳細が以下において説明される。

すなわち、図１１の概念は、多重化を通じて新たな単一の出力ビットストリーム１０８の部分１１２を作成するために、いくつかの入力ビットストリーム１０５を使用する。単一の瞬間において出力されるべき構成を形成するように意図されている入力ビットストリーム１０５の画像１１８またはその部分は、以下において、参照画像セット内の画像（ＰＳＲ）として参照される。

図１３および図１４に関連して、入力ビットストリーム１０５を参照部分１１２へと多重化するための２つの代替形態が、以下においてより詳細に説明される。第１の代替形態は、図１３に関連して提示および例示される。図１３は、２つの入力ビデオデータストリーム１０５が両方ともＧＯＰ構造を参照するＩＰＰＰを使用する例を示すが、これは図１３において例示のみを目的として選択されている。図１３の例示的な２つの入力ビデオデータストリーム１０５₁および１０５₂は、時分割多重化を使用して、合成ビデオデータストリーム１０８の画像１１６の少なくともサブセットの空間的に静止した空間部分１１８へと多重化される。すなわち、図１３の事例において、画像１１８は、図１３に示すように、データストリーム１０８の一対の連続した画像１１６が、その空間的に静止した空間部分１１９を、両方とも同じ瞬間において合成ビデオを形成するように意図されており、たとえば、２つの入力ビデオデータストリーム１０５₁および１０５₂において同じ瞬間に属する、入力データストリーム１０５₁の１つの画像１１８、および、他の入力ビデオデータストリーム１０５₂の１つの画像１１８で充填されるように、データストリーム１０８の像１１６の少なくともサブセットを充填するために、１つおきに使用される。たとえば、入力ビデオデータストリーム１０５₁の画像１１８は、入力ビデオデータストリーム１０５₂の画像１１８と同じサイズであり得、すなわち、ｎ₁＝ｎ₂かつｍ₁＝ｍ₂であり、それによって、合成ビデオデータストリーム１０８の画像１１６の少なくともサブセット内の同じサイズのそれぞれの空間的に静止した空間部分１１９は、これらの入力ビデオデータストリーム１０５のそれぞれの画像１１８の動き補償サイド情報および予測残差データを収集および複製することによって充填される。図１３にはこのように示されているが、他方では、入力ビデオデータストリーム１０５₁および１０５₂の画像１１８はサイズが異なってもよい。したがって、出力ビデオデータストリームの参照部分１１２において、入力ビデオデータストリーム１０５₁および１０５₂の画像１１８は、以下においてバックツーバック（Ｂ２Ｂ）と呼ばれる様式で互いに後続する。すなわち、特定の瞬間において構成を形成するように意図されている画像は、個別のＰＯＣ値を有する個々の画像として合成ビデオデータストリーム内で互いに後続する。出力ビデオデータストリーム１０８において、入力ビデオデータストリーム１０５₁および１０５₂の画像１１８が時間的に交互配置になることに起因して、装置１０は、画像１１８の内容が利用される画像１１６のＰＯＣ値の変化を計上するために、入力ビデオデータストリーム１０５₁および１０５₂の画像１１８のスライスにおけるスライスヘッダにおいて、参照画像順序カウント差分値または参照画像順序カウント差分値のセットに対する参照を補正することができる。

たとえば、図１３において、入力ビデオデータストリーム１０５₁の２つの画像が、データストリーム１０８の出力画像１１６の部分１１９を充填するために使用されるものとして示されている。元の入力ビデオデータストリーム１０５₁のＩＰＰＰ参照構造によって、これらの画像のうちの第１の画像は、矢印１２０を使用して示されているように、これらの画像のうちの第２の画像の参照画像を形成する。合成ビデオデータストリーム１０８においてこの参照を維持するために、装置１０は、入力ビデオデータストリーム１０５₁内の対応する画像は、たとえば、画像１１６の左上隅の小さい数字「１」および「２」によって示されているものとしてのＰＯＣ差１を有していたが、空間部分１１９がそれぞれの入力画像１１８で充填されている出力ビデオデータストリーム１０８の出力ビデオデータストリームの画像１１６の間のＰＯＣ差は、この時点で２、すなわち、３−１のＰＯＣを有するという事実を計上することができる。同じことが、参照符号１２２を用いて示されているように、入力ビデオデータストリーム１０５₂の画像間の時間予測１２２に関しても同様である。

したがって、装置１０による、ＰＯＣおよびＲＰＳのような高レベル構文情報に対する調整が実施され得るが、ビデオ符号化器による入力ビデオデータストリーム１０５₁〜１０５_Nの生成における自由度は、図１〜図１０に関連して上述した実施形態と比較して増大し得る。たとえば、図１３のバックツーバック手法はタイルを使用した入力画像１１８のスティッチングを伴わないため、符号化器−復号器の不整合はが生じないこともある。

入力ビデオデータストリーム１０５の画像１１８の画像内容を合成ビデオデータストリーム１０８の参照部分１１２へと多重化する第２の可能性が、図１４に示されている。ここでは、入力ビデオデータストリーム１０５の画像１１８を、データストリーム１０８へと多重化するために、空間分割多重化が使用される。入力ビデオデータストリーム１０５₁および１０５₂は、合成ビデオデータストリーム１０８の画像１１６の異なるタイル１２２および１２４を占める。特に、図１４は、図１３の事例におけるものと同じ参照構造の例示的な使用状況を示す。ここで、ＰＳＲは、［１］において記載されているように、かつ／または、図６〜図１０に関連して上述したように、ともにスティッチングされる。ここで、図１３と比較すると、出力ビットストリームの画像サイズ、すなわち、画像１１６のサイズは、スティッチングＰＳＲの空間寸法に応じて、個々の入力ビットストリームと比較して増大している。すなわち、図１４の事例において、装置１０は、たとえば、１つの画像１１６を第１のタイル１２２内で、第１の入力ビデオデータストリーム１０５₁の画像１１８で充填し、同じ画像１１６の別のタイル１２４を、ビデオデータストリーム１０５₂の時間的に整列した画像１１８で充填し、他の画像１１６も同様に充填する。たとえば、合成ビデオデータストリーム１０８の次の画像１１６は、タイル１２２においては入力ビデオデータストリーム１０５₁の次の画像１１８を使用して、および、タイル１２４においては入力ビデオデータストリーム１０５₂の時間的に整列した画像１１８を使用して、図１〜図１３に関連して上記ですでに概説した収集および複製手法を使用して充填される。したがって、異なる入力ビデオデータストリーム１１５の時間的に整列した画像１１８が、合成ビデオデータストリーム１０８の１つの画像１１６の異なるタイルへと利用され、したがって、ビデオデータストリーム１０８内で、図１４に示されている入力ビデオデータストリーム１０５₁および１０５₂の第１の画像１１８についてはｔ（１）において、および、これらの入力ビデオデータストリーム１０５₁および１０５₂の第２の画像についてはｔ（２）について示されている１つの共通のＰＯＣ値と関連付けられる。下記により詳細に説明するような、第２の部分１１４がデータストリーム１０８に付加される方法に応じて、装置１０は、合成ビデオデータストリーム１０８における参照画像順序カウント差分値および／または参照画像順序カウント差分値のセットに対する参照を、入力ビデオデータストリーム１０５に対して補正してもよく、または、補正しなくてもよい。たとえば、下記により詳細に説明するように、照合ビデオ部分１１４が、合成ビデオデータストリーム１０８内で参照部分１１２に空間的に付着するように搬送されることがあり得、その事例において、合成ビデオデータストリーム１０８は、たとえば、時間予測１２０および１２２について参照する相対ＰＯＣ差が同じままであるように、入力ビデオデータストリーム１０５を使用して充填されるタイル１２２および１２４を有するものを超える任意の画像１６を含まないようにすることができる。照合ビデオ部分１１４が合成ビデオデータストリーム１０８へと挿入される結果として、図１４には示されていない、追加の画像１１６が合成ビデオデータストリーム１０８へと挿入される場合、装置１０は、画像順序カウント値、参照画像順序カウント差分値、または、参照画像順序カウント差分値のセットに対する参照のような高レベル構文構造を、それに従って補正することができる。

したがって、図１４の事例において、参照部分１１２は、図１４に示すように、たとえば、入力ビデオデータストリームの画像１１８が等しいサイズｎ×ｍであるとき、参照部分１１２に属する、合成ビデオデータストリーム１０８の画像１１６から空間的に、たとえば、２×ｎ×ｍ個のサンプルを消費する。

異なる入力ビデオデータストリーム１０５の画像１１８が同じサイズであるという後者の仮定は、必ずしも満たされる必要はない。両方の事例において、異なる入力ビデオデータストリーム１０５の画像１１８は、異なるサイズであってもよい。その事例において、合成ビデオデータストリーム１０８の何らかの領域は、図１５に関連して以下に説明するように、ダミー内容で充填され得る。

図１５は、図１２で行われたように照合ビデオを形成する方法を概略的に示すが、ここでは、入力ビデオデータストリーム１０５₂の画像１１８が、入力ビデオデータストリーム１０５₁の画像よりも小さいサイズである事例を示す。図１４に関連して上記で提示されているスティッチング参照手法では、この結果として、たとえば、第１の入力ビデオデータストリーム１０５₁の画像のサイズがｎ₁×ｍ₁であり、第２の入力ビデオデータストリーム１０５₂のサイズがｎ₂×ｍ₂であると仮定すると、参照部分１１２は、参照部分１１２に属する限り、出力データストリーム１０８の画像１１６あたり（ｎ₁＋ｎ₂）×ｍ₁個のサンプルを空間的に消費することになる。その事例においては、参照部分１１２の各画像１１６内の矩形領域が、たとえば、ダミー情報１３０で充填され得る。当然のことながら、入力ビデオデータストリーム１０５₁および１０５₂の画像は、代替的に、図１４および図１５に例示的に示すような水平方向の代わりに、互いに対して垂直方向にスティッチングされてもよい。図１３に関連して上記で例示したばかりのＢ２Ｂ手法に転換すること、これは、たとえば、空間部分１１９が入力ビデオデータストリーム１０５₂の画像１１８で充填されている合成ビデオデータストリームの各画像１１６が、ダミーデータで充填された（ｎ₁×ｍ₁）−（ｎ₂×ｍ₂）サンプルの充填されていない分画を有することを意味し得る。たとえば、入力ビデオデータストリーム１０５₁および１０５₂の画像１１８はすべて、静止空間部分１１９の左上隅に位置合わせされ得、それによって、充填されるべきダミー部分は、部分１１９の底部および右手側に沿ってＬ字形状になり得る。

合成ビデオデータストリーム１０８の照合ビデオ部分１１４のサイズが、図１５内の第１の入力ビデオデータストリーム１０５₁および第２の入力ビデオデータストリーム１０５₂の画像のうちの大きい方のサイズと一致していることを図１５が示している事実は、例示のみを目的として選択されているに過ぎない。

したがって、図１５は、入力ビデオデータストリームが、復号されるときに任意の内容を有し、照合ビデオ部分またはＳＬＣＰ１１４による参照には使用されないダミースライスを伴い得ることを示している。ダミースライスは、Ｂ２Ｂ手法においてすべての入力ビットストリーム１０５の空間画像寸法を整列させるか、または、図１５に見てとれるように、必要な場合に少なくとも１つの画像寸法を整列させることによってスティッチングを可能にするかのいずれかのために使用され得る。

例示のみを目的として、以下の説明のすべてはスティッチング参照手法を利用するが、これらの以下の説明のすべては代替的にまた、Ｂ２Ｂ手法を使用して実施されてもよいことに留意されたい。

図１５は、空間寸法に関する入力ビデオデータストリーム間の差に対処する方法の可能性を示しているが、図１６は、装置１０が、異なるフレームレートの入力ビデオデータストリーム１０５に対処する可能性を示している。異なるフレームレートの入力ビットストリーム１０５は、装置１０によって、より低いフレームレートの入力ビットストリーム１０５を、すべての入力ビットストリーム１０５の間で見られる最大のフレームレートにリサンプリングすることによって、参照部分１１２へと多重化することができる。合成ビデオデータストリーム１０８内でフレームレートを整合させるための１つの方法は、参照に使用されないダミースライスを選択的に付加し、図１６に示すものと同じ、複数の連続するＳＬＣＰ内の参照画像（領域）を使用することであり、ここで、入力ビデオデータストリーム１０５₂のフレームレートは例示的に、入力ビデオデータストリーム１０５₁のフレームレートの半分であり、ＳＬＣＰは、利用可能な最も高いフレームレート、すなわち、入力ビデオデータストリーム１０５₁のフレームレートにおいて作成される。同様に、ＳＬＣＰのフレームレートは、たとえば、これらのフレームレートのより高い入力ビデオデータストリーム（複数可）の何らかの参照画像を合成のために使用しないことによって、入力ビデオデータストリームの間で最大のフレームレートよりも低くなり得る。

ＲＰＳは、ＰＳＲによって必要とされる参照が、すべての多重化ストリームにとって必要なすべての参照画像を含むように、装置１０によって、設定されるべきである。同じ瞬間に属する参照が共通のＰＯＣを共有しないＢ２Ｂ手法について、これによって必然的に、各それぞれのＲＰＳのサイズの増大がもたらされる。スティッチング参照手法について、かつ、ＲＰＳが（実際のＲＰＳおよびＲＰＳに対する参照に関して）整合されるとき、サイズまたは量の増大は最小になる。

直接的な実施態様は、たとえば、参照画像および／またはＳＬＣＰ画像のスライスヘッダにおいて新たなＲＰＳをシグナリングすることであり得るが、これはシグナリングオーバヘッドをもたらす場合がある。しかしながら、プロセスが、その後送信することなくエンドデバイス上で実行されるときは、これは無視できる。このプロセスが、エンドデバイスから離れたクラウドサーバのような遠隔エンティティ上で実行され、その後、エンドエバ椅子に送信されるとき、パラメータセット内のＲＰＳを、シグナリングオーバヘッドを最小限に抑えるために適切であるように調整することが有益であり得る。

各瞬間のそれぞれのＰＳＲをもたらすように、参照のための入力ストリーム１０４が出力ビデオデータストリーム１０８の参照部分へと融合／多重化された後、Ｂ２Ｂまたはスティッチング参照画像部分１１２に対する時間予測参照による構成を包含する追加のＳＬＣＰスライスデータが生成され、部分１１４としてデータストリーム１０８に付加される。この合成ＳＬＣＰは、復号器による出力および／またはエンドユーザへの表示のために意図されている。ＳＬＣＰは、サンプル予測を通じて画像内容の構成を作成するための、ＰＳＲ内のピクセル位置を指摘する、予測／動きベクトルのような、動き補償サイド情報から構成され得る。

装置１０が、画像順序カウント−空間アクセス−空間において参照部分１１２に対して位置１１４を位置決めするための様々な可能性が存在し、それらのいくつかは、図１７、図１８ａおよび図１８ｂに関連して下記に提示されている。
出力ビットストリーム１０８におけるＳＬＣＰの位置は、適用される参照／多重化手法に応じて選択することができる。図１３に関連して上記で提示されているＢ２Ｂ参照手法について、たとえば、ＳＬＣＰスライスデータは、入力画像１１８がそれへと多重化されている出力ビットストリーム１０８の画像１１６とは別のＰＯＣを有する個々の画像の形態で、出力ビットストリーム１０８へと多重化され得る。特に、この事例において、部分１１４は、図１３に示す参照画像内に散在している出力画像を含み、出力画像は、時間的に、参照されるＰＳＲの後に配置されている。これは、図１７において例示的に示されており、図１７は、その限りにおいて、図１３に示すようなＢ２Ｂ手法を、部分１１４によって拡張している。

すなわち、図１７によれば、装置１０は、ビットストリーム１０８の参照部分１１２を形成するように、時分割多重化によって、到来する入力ビデオビットストリーム１０５₁および１０５₂の画像１１８を、合成ビデオビットストリーム１０８のそれぞれの画像１１６へと多重化し、これらの画像の間に、動き補償時間予測１３０を介して参照部分１１２を形成する画像１１６を参照するデータで充填されているさらなる画像１１６を散在させる。図１７の例において、部分１１４に属する画像１１６の領域全体が、表示／出力されるのに専用にされ得る。代替的に、その下位部分のみが、出力されるのに専用にされてもよく、残りの部分は切り取られる。特に、装置１０は、１つの瞬間に属し、それゆえ、参照画像のセットを形成する参照部分１１２の画像１１６が互いに直に連続し、部分１１４の一部分である画像１１６が、入力ビデオデータストリーム１０５の画像または等しい瞬間から収集および複製することによって充填されている参照部分１１２のそのような画像１１６の間に散在するように、画像１１６を、互いに時間的に位置合わせされるように、参照部分１１２に属する画像１１６の間に配置することができる。すでに上記で示したように、部分１１４に属する画像１１６のフレームレートは、入力ビデオビットストリーム１０５の画像のフレームレートと同じであってもよい。図１７の事例において、出力データストリーム１０８の画像１１６は、装置１０によって、ビットストリーム１０８の非出力画像であるとして示され、一方で、部分１１４を形成する画像１１６は、出力画像、すなわち、復号側において出力されるべき画像にシグナリングされる。時分割多重化を使用して入力画像１１８で充填されることによって参照部分１１２を形成する画像１１６の間に、部分１１４に属する画像１１６を配置することによって、部分１１４に属する画像１１６が挿入されない場合と比較してＰＯＣ増大率がより高くなることを、図１７は示しており、この事実は、装置１０によって、時間予測参照の管理、すなわち、参照画像順序カウント差分値およびスライスヘッダならびに／または参照画像順序カウント差分値のセットに対する参照の修正において適切に対処されることが簡潔に留意される。より正確には、装置１０は、たとえば、それぞれの入力ビデオストリーム１０５のそれぞれの入力画像１１８が図２の記載に対応するようにコード化されている１つまたは複数のスライスを利用し、一方で同時に、同じ入力ビデオビットストリームの画像が多重化されている画像１１６のＰＯＣ差の変化を計上するように、スライスヘッダ４０を改良することによって、参照部分１１２に属するデータストリーム１０８の各画像１１６を充填することができる。参照部分１１２に属する画像１１６は、ちょうど概説したように、出力されない。それらは、非出力画像である。照合ビデオは、部分１１４に属する出力画像１１６によって定義される。装置１０は、単純に、部分１１４に属する画像１１６の種々の領域についての動き補償サイド情報をコード化することによって、照合ビデオを形成することが可能である。

図１２および図１５において、たとえば、部分１１４、すなわち、ＳＬＣＰの一部分である画像１１６が、複数の領域であって、各々において時間的動きベクトルがそれぞれの領域にわたって一定であるが、時間的動き補償サイド情報は個々の領域の間で異なる領域へと分割されることが示されている。図１７において、たとえば、部分１１４に属する画像１１６の部分領域１３２は、例として、出力ビットストリームＰＯＣ１を有する入力ビデオデータストリーム１０５₁に属するＰＳＲ１１６から、等しいサイズのそれぞれの部分を並進的に複製する動き補償サイド情報を使用してコード化され、一方で、このＳＬＣＰ１１６の残りの領域１３４は、他の入力ビデオビットストリーム１０５₂のＰＳＲ１１６から、同じサイズおよび形状のそれぞれの部分を、たとえば、並進的に複製する動き補償サイド情報を使用してコード化される。図１７に示されていない次の瞬間のＳＬＣＰ１１６は、同じ動き補償サイド情報ならびに領域１３２および１３４への分割を使用して、または、異なる設定を使用してコード化されてもよい。たとえば、連続するＳＬＣＰの同じコード化の使用を想起されたい。さらに、領域１３４のうちの１つがゼロ動きベクトルを使用する、すなわち、単純に、それぞれの入力ビデオデータストリームの同一位置にある部分を空間的に複製することを想起されたい。その事例において、そのような合成ビデオデータストリームは、結果として、入力ビデオデータストリームのうちの１つの提示／表示をもたらし、ここで、別の入力ビデオデータストリームが、入力ビデオデータストリームの特定の領域において提示または重ね合わされている。この例は、図１２および図１４に示されている。ＰＳＲの画像内容の並進的複製を使用する事例において、装置１０は、図３に関連して上述したように、たとえば、それぞれの領域１３２および１３４の第１のブロックに後続する任意のブロックについて、空間予測および／またはスキップモードを使用して、ＳＬＣＰ１１６の領域１３２および１３４をコード化することができる。装置１０は、さらに、予測残差データを使用してＳＬＣＰをコード化することができ、画像コード化などを使用して、ＰＳＲにおいて時間的に予測される、領域１３２および１３４以外のさらなる領域をコード化することができる。

図１４および図１６において上記で概説したように、入力ビデオデータストリームを多重化するためにスティッチング参照手法を使用するとき、ＳＬＣＰビットストリーム位置、すなわち、合成ビデオビットストリーム１０８の位置１１４の位置決定について、いくつかの可能性が存在し、２つの可能性が図１８ａおよび図１８ｂに示されている。図１８ｂは、図１６においてすでに上記で示されている可能性を示す。すなわち、入力ビデオデータストリーム１０５が、装置１０によって、各入力ビデオデータストリームについて１つのタイルを有する第１の画像１１６まで、ともに空間的にスティッチングされ、ＳＬＣＰがそれらの間に散在され、動き補償予測を使用して、スティッチングされた参照画像に基づいて合成される。ＳＬＣＰ１１６は、様々な入力ビデオビットストリームの空間的スティッチングに対応する増大したサイズを有するが、ＳＬＣＰの一部分の切り取りを使用することで、表示されるべき画像のサイズ、しいては、装置１０によってこのように定義される照合ビデオのサイズを小さくすることができる。

このように、図１８ｂは、部分１１４に属する画像１１６と、参照部分１１２に属する画像とを時間的に交互配置するが、図１８ａによれば、ＳＬＣＰ、すなわち、照合ビデオ部分１１４は、合成ビデオビットストリーム１０８の画像１１６に空間的に付着される。ＳＬＣＰの画像内容を合成するために使用される時間的動き補償予測によって、部分１１４によって定義される照合ビデオ、すなわち、ＳＬＣＰと、入力ビデオデータストリーム１０５の参照される内容との間に時間的遅延がもたらされることに留意されたい。

したがって、図１８ａの事例において、装置１０は、入力ビデオデータストリーム１０５あたり１つのタイル、および、部分１１４を搬送するためのさらなる追加のタイルを含むように、合成ビデオデータストリーム１０８の画像１１６を合成することができる。入力ビデオデータストリームのうちの１つまたは複数がすでに複数のタイルに分割されている場合、入力ビデオデータストリームのタイルあたり１つのタイルが、合成ビデオデータストリーム１０８内に存在し得る。一方における入力ビデオデータストリーム１０５と、他方におけるＳＬＣＰとの間で異なるフレームレートを使用するとき、タイルのうちのいくつかはダミーデータで充填され得、これは、いずれがより低いフレームレートを有するかにかかわらず、入力ビデオデータストリームおよびＳＬＣＰのいずれかに当てはまる。

したがって、図１８ａおよび図１８ｂは、ＳＬＣＰスライスデータが、装置１０によって、たとえば、参照されるＰＳＲに後続する個別のＰＯＣ値を有する個々の画像の形態で挿入され得るか、または、ＳＬＣＰが、参照されるＰＳＲに後続するＰＳＲのデータとスティッチングされ得ることを示している。

スティッチング参照手法を使用するとき、ＳＬＣＰは、切り取って、想定されている出力画像サイズ、たとえば、個々の入力ストリームのうちの１つの画像サイズに戻すことができる。

図１７〜図１８ｂを要約すると、装置１００は、以下のように機能することができる。

図１７によれば、装置１００は、入力データストリームｎのインデックスｉの画像
の動き補償サイド情報および予測残差データを収集および複製することによって、合成ビデオデータストリームの画像
、０＜ｎ≦Ｎ（Ｎは、入力ビデオデータストリームの数であり、Ｋは、同じインデックスｉのＮ個の画像
ごとに装置１００によって挿入される画像、すなわち、中間部分の中間画像または照合ビデオ（または出力）部分に属する画像の数である）を充填し、動き補償時間予測を介して、合成ビデオデータストリームの画像
、０＜ｋ≦Ｋ（ｋは、挿入画像の系列をインデックス付けする）から、系列ｋ＞１（ある場合）の画像について、任意選択的に、画像
の「参照される総領域」を形成する画像
を付加的に含む合成ビデオデータストリームの画像
のうちの１つまたは複数を参照することによって、照合ビデオを合成する。パラメータＫは、図１７に示すようなものであってもよいが、より高いＳＬＣＰフレームレートを可能にするために、Ｋ個の系列は、出力部分１１４を形成する出力画像の２つ以上の系列を含んでもよく、または、以降に概説するような多段参照手法を達成するために、Ｋ個の系列は、中間画像の少なくとも１つの系列および出力画像の少なくとも１つの少なくとも１つの系列を含んでもよい。

代替的に、図１８ａによれば、装置１００は、それぞれ、入力ビデオデータストリームｎの画像
の動き補償サイド情報を収集および複製することによって、合成ビデオデータストリームの画像
のＮ個のタイルＴ_nを充填し、動き補償時間予測を介して、合成ビデオデータストリームの画像
から、系列ｋ＞１（ある場合）の画像について、任意選択的に、画像
の「参照される総領域」を形成する画像
を付加的に含む、画像
のタイルＴ₁．．．Ｔ_Nのうちの１つまたは複数を参照することによって、照合ビデオを合成する。パラメータＫは、図１８ａに示すようなものであってもよいが、より高いＳＬＣＰフレームレートを可能にするために、Ｋ個の系列はまた、出力部分１１４を形成する出力画像の２つ以上の系列を含んでもよく、または、以降に概説するような多段参照手法を達成するために、Ｋ個の系列は、中間画像の少なくとも１つの系列および出力画像の少なくとも１つの少なくとも１つの系列を含んでもよい。

代替的に、装置１０は、入力ビデオデータストリームｎの画像
の動き補償サイド情報および予測残差データを収集および複製することによって、合成ビデオデータストリームの画像
のタイルＴ_Nを充填し、動き補償時間予測を介して、合成ビデオデータストリームの画像
のタイルＴ_N+1から、画像
のタイルＴ_N+1の「参照される総領域」を形成する、合成ビデオデータストリームの画像
のタイルＴ₁．．．Ｔ_Nを参照することによって、照合ビデオを合成する。上記でｋ＞１によって示されている事例と同様に、下記により詳細に説明するような多段予測のために、すなわち、合成ビデオデータストリームの中間部分を形成するために、画像
あたり２つ以上のタイルが挿入され得る。

照合ビデオを合成する過程における参照は、装置１００によって、合成ビデオデータストリームのそれぞれの画像またはタイルの出力領域Ａを、Ｊ個の領域Ａ_jへと分割することによって実施することができ、これらの領域Ａ_j、０＜ｊ≦Ｊ、の少なくともサブセットの各領域は、下記にさらに説明するように、拡大または縮小効果を達成するように、（「参照される総領域」からの参照画像が関連付けられている）１つまたは複数の一定の動きベクトルの集合ｍ（Ａ_j）、すなわち、Ａ_j内のすべてのブロックｐおよびｑについてｍ（ｐ）＝ｍ（ｑ）、を使用して、または、水平寸法および／または垂直寸法に沿って漸進的に変化する１つまたは複数の動きベクトルの集合、すなわち、Ａ_j内のすべての隣接するブロックｐおよびｑについて｜ｍ（ｐ）−ｍ（ｑ）｜＜閾値、を使用して、それぞれの「参照される総領域」からの１つまたは２つ（またはさらにはそれ以上）の部分を参照する。したがって、「参照される総領域」からの空間下位部分は、第１の事例においては、並進的に複製され、第２の事例においては、ブロック内という意味では並進的に、ただし、ブロック間という意味では拡大および／または縮小様式で複製され得る。領域Ａ_jの少なくともサブセットの領域は、時間的にコード化されたブロックから合成され得る。「出力領域」をコード化するために、動き補償サイド情報をコード化するために利用可能な、可能な最小のブロックサイズが、漸進的に変化する事例のために選択され得る。領域の少なくともサブセットは、それらの輪郭および数に関して、それぞれ画像
の系列、画像
および画像
のタイルＴ_N+1について時間的に一定であり得、または、系列（ｉによってインデックス付けされている）に沿って変化し得る。出力領域は、それぞれ画像
の系列の画像領域、画像
の画像領域、または、画像
のタイルＴ_N+1のタイル領域と一致し得、その一部分であり得、残りは切り取られる。ゼロ動きベクトルを有する１つの領域があり得る。説明されているように、領域Ａ_jのうちの１つまたは複数は、現在の領域Ａ_jを含む現在の画像の上流にある、合成ビデオデータストリームのΔＰ_l番目の画像である画像
を参照する動きベクトルを示す、２つ以上の動きベクトルから成る集合ｍ（Ａ_j）、すなわち、ｍ（Ａ_j）＝｛（ｍ₁，ΔＰ₁），．．．，（ｍ_M，ΔＰ_M）｝、ｍ_l（０＜ｌ＜Ｍ）、を有し得る。動きベクトルが２つである、すなわち、Ｍ＝２である事例において、これは、双予測と呼ばれる場合がある。各動きベクトルについて、動き補償サイド情報はまた、「Ａ_jを得るためにα_lによって重み付けされている相対的に変位された位置ｍ_lにおける
の複製の合計」による動き補償予測をもたらす、予測／重み付け係数α_lをも含むことができる。この方策によって、２つ以上の入力ビデオデータストリームの間の重なりが、領域Ａ_jにおいて達成され得る。Ａ_jの出力領域の系列において重みα_lを経時的に漸進的に変化させることによって、２つの入力ビデオデータストリームの間の混合を達成することができる。

説明したばかりの領域の部分集合の重なり合っている部分または外部に、その中で照合ビデオ部分１１４が予測残差データを使用してコード化される「出力領域」の空間部分があり得る。そのような空間部分へと、動かない画像、サービスロゴなどのような特別な内容がコード化され得る。動き補償領域Ａ_jの外部の領域において、照合ビデオ部分１１４の出力領域をコード化するためのビット消費を低減するための空間予測モードを使用することができる。したがって、出力領域内に純粋なイントラコード化領域があり得る。

照合ビデオ部分１１４の出力領域をコード化するためのデータレートを低減するために、装置１００は、動き補償サイド情報の、すなわち、照合ビデオ部分１１４の連続する画像の間の、すなわち、それぞれ、画像
の系列の連続する画像の間、画像
の系列の連続する画像の間、画像
の系列のＴ_N+1の連続する画像の間の時間予測を使用し得る。

収集および複製による充填は、装置１００によって、図３に関連して上記で概説したように実施することができる。装置１００は、たとえば、付加的に、入力ビデオデータストリームの複製画像から合成ビデオデータストリームのそれぞれのタイルまたは画像へのスライスの転送、ならびに、たとえば、図１５に関連して上述したようにダミーデータを収集および複製することによって合成ビデオデータストリームのそれぞれのタイルまたは画像内に充填されない残りの領域の充填において、スライスヘッダにおける参照画像への参照を改良する。

付加的に、図１７の事例において、装置１０は、画像
が非出力画像であり、一方、画像
が出力画像または中間画像であることをシグナリングしてもよく、ｋ＝Ｋである画像は、出力画像であり得る。図１８ａの事例において、装置１０は、画像
が非出力画像であり、一方、画像
が出力画像または中間画像であることをシグナリングすることができ、ｋ＝Ｋである画像が出力画像であり得、図１８ｂの事例において、装置１０は、合成ビデオデータストリームのすべての画像が出力画像であることをシグナリングすることができるが、タイルＴ_N+1を除くすべてが、合成ビデオデータストリームの表示／再生において切り取られるべきであることをシグナリングする。後者の切り取りシグナリングはまた、図１８ａに関連する装置１０にも適用され得る。画像
の間の出力画像からの一部分のみが、合成ビデオデータストリームの出力の生成に使用され得、すなわち、出力画像の他の部分は切り取られ得る。

次に図２１に関連して概説するように、ビデオ合成装置は、動き補償時間予測を介して、合成ビデオデータストリームの参照部分１１２を参照することによって、合成ビデオデータストリームの画像の中間部分を充填するように構成することができ、合成ビデオデータストリームの画像の部分１０８を形成する照合ビデオは、動き補償時間予測を介して、中間部分を介して間接的に合成ビデオデータストリームの第１の部分を参照することによって、照合ビデオで充填される。たとえば、すでに言及したタイルＴ₁〜Ｔ_N+1に加えて、タイルＴ_N+2のような他のタイルが、装置１００によって、合成ビデオデータストリームの画像
のタイルＴ_N+1と同様に、合成ビデオデータストリームの画像
のタイルＴ₁．．．Ｔ_Nのうちの１つまたは複数を参照する合成ビデオデータストリームの画像
のＴ_N+2を介して間接的に、合成ビデオデータストリームの画像
のタイルＴ₁．．．Ｔ_Nのうちの１つまたは複数を参照して生成され得る。

すなわち、部分１１４のＳＬＣＰのみが復号器によって出力および／または表示されるべきであり、一方で、ＰＳＲはＳＬＣＰ、および、存在する場合、合成ビデオデータストリームの中間部分によって参照のためにのみ使用され、出力されないため、入力ビデオデータストリーム１０５および合成ビデオデータストリーム１０８の基礎を成す、適用されるコーデックは、出力されない参照のために利用可能な画像の概念をサポートすべきであり、または、任意の同等なメカニズムが、たとえば、システム層に適用されるべきである。代替的に、Ｈ．２６４／ＡＶＣのような、この特徴を欠くコーデックについて、たとえば、代わりにスティッチング参照手法を使用することができ、参照されるＰＳＲに後続するＳＬＣＰおよびＰＳＲのデータが、上述したように、単一の画像へとスティッチングされ得る。

部分１１４のＳＬＣＰのみが復号によって出力されるように意図されているため、提示されている手法のいずれかおよびそれらの組み合わせによって、ＰＳＲの画像内容を除去するか、または、上述したように個々の画像として搬送された復号ＳＬＣＰの空間寸法を調整するかのいずれかのために、復号器によって出力されるべき復号画像を切り取ることが望ましい場合がある。

様々な態様が、タイルまたはスライスによってＳＬＣＰを構築するよう動機付ける。第１に、ＳＬＣＰは、それによって、各ＳＬＣＰについて、すなわち、少なくともその空間部分が部分１１４に属する各画像について、並列復号インフラストラクチャの新たな初期化が必要とされない、スティッチング参照画像の構造の入力ストリームのうちの１つまたは複数において利用されるタイル／スライス構造に従い得る。第２に、ＳＬＣＰスライスデータの効率的な圧縮が、等しい、同様のまたは関連する予測ベクトルの領域を単一のタイルおよび／またはスライスへと効率的に符号化することができるような、予測ベクトルの分布に従うタイルまたはスライス構造を動機付け得る。

結果としてのＳＬＣＰ（部分的または完全な）のために２つの入力ビデオ（同じく部分的または完全な）を混合することが所望され得る使用事例がある。それぞれの「参照される総領域」」から２つの部分を参照するものとして前述されている例示的な使用事例が、圧縮領域においてビデオ内容の上にグラフィカルユーザーインターフェース（ＧＵＩ）を重ね合わせる仮想セットトップボックスアプリケーションによって図１９に与えられている。この例によって、入力ストリーム１は、合成のための別の入力ストリーム２の形態のＧＵＩと重ね合わされる。

図１９内の構成における下側の破線矩形は、以下において、アルファブレンド領域として参照される。ＳＬＣＰのアルファブレンド領域に対する所望の効果を生成するために、重み付け予測手順が利用される。アルファブレンド領域内のサンプル値は、各々が個々の重みを有する、複数の参照画像（Ｂ２Ｂ参照手法を使用するとき）、または、単一参照画像の複数の空間領域（スティッチング参照手法を使用するとき）から予測される。ＧＵＩオーバレイおよびチャネル、局またはサービスロゴのように、同じまたは様々な入力ストリームから、いくつかのアルファブレンド領域をＳＬＣＰ内で組み合わせることが可能である。

運動ベクトルを漸進的に変化させることのような、前述したＳＬＣＰのさらなる特徴が、画像内画像アプリケーションに基づいて図２０に示されている。この概念は、合成のための入力ストリーム画像内容の空間的リサイズを組み込む。これは、可能なもっと小さいコード化ユニットおよび／または予測ユニットブロック粒度において予測ベクトルを与えることによって達成される。予測ベクトル座標は、標的入力ビットストリームをリサンプリングするために、ＳＬＣＰ内のそれぞれの領域をトラバースする過程において調整される。復号ＳＬＣＰにおける結果は、それぞれの入力ビットストリーム画像内容の一部分または全体の空間的に異なる表現である。

ＳＬＣＰ内のリサンプリングされている領域の各サンプル位置（すなわち、コード化ユニットおよび／または予測ユニット）について、入力画像の複数の（たとえば、隣接する）コード化ユニットおよび／または予測ユニットからの重み付け予測が、それぞれのリンサンプリングされている画像領域の品質を向上させるために適用され得る。

一般的に、入力ビットストリームの画像に対する差を導入しないために、デブロッキングフィルタのようなインループフィルタによるＳＬＣＰの処理は回避されるべきである。しかしながら、リサンプリング手順によって導入される可能性のある品質劣化を低減するために、ＨＥＶＣにおけるデブロッキングフィルタまたはＳＡＯフィルタのような追加のインループフィルタが、適合するように、ＳＬＣＰ全体またはサブサンプリングされた領域に対して使用され得る。

何らかの状況下では、単一の出力ビットストリームにおける入力ビットストリームからの所望の構成の作成は、いくつかの予測ステップ、すなわち、出力ビットストリームに付加されるべきいくつかの追加の非出力画像を必要とする場合がある。中間画像が、ＰＳＲおよび／または先行して生成されている中間画像を使用して、これらの中間画像および／またはさらには初期ＰＳＲのうちの１つまたは複数を参照するＳＬＣＰにおいて最終的な所望の構成が作成され得るまで予測されるが、ＳＬＣＰのみが、出力されるように意図されている。

そのような状況の第１の例は、反復サブサンプリングであり、ここでは、合成ビデオデータストリームの第１の中間部分、すなわち、入力ビットストリーム画像内容が、重み付け双予測を使用して水平方向において空間的にサブサンプリングされ、第２のステップにおいて、この中間画像の内容が、再び重み付け双予測を使用して垂直方向において空間的にサブサンプリングされ、図２１に示すように、最終的なＳＬＣＰ構成が、出力されるものとして作成される。

そのような状況の別の例は、アルファブレンド効果を生成するためのＶＰ９における結合予測の使用、および、結果もたらされる中間画像を、出力されるべきＳＬＣＰのための参照として使用することである。

以前の節が示しているように、多くのアプリケーションおよび使用事例を、それに従ってＳＬＣＰの予測ベクトルを調整することによって実施することができる。一般的なビデオ内容を合成することとは別のさらなる例は、個々の文字を描写する入力ビットストリーム画像領域に対する正確な予測ベクトルを使用してＳＬＣＰ内でメッセージを合成するために、アルファベットの文字またはそれらの集合を入力ビットストリーム（複数可）の画像内容として提供することである。

すべての与えられている例は、特定の参照構造を利用しているが、提示されている概念は、より多くの参照構造に適用可能である。説明されているＳＬＣＰ概念は同様に、３つ以上の入力ビデオビットストリームの処理も可能にすることに言及することも重要である。

ＧＲＰの場合のように、ＳＬＣＰスライスデータは、任意のビットストリームへと挿入するために事前に符号化することができる。これは、それらの内容が、画像寸法および変位のような、高レベルパラメータのみに依存するためである。

図１〜図１０のビデオ合成装置に関連してすでに上述したように、図１１〜図２１に関連して上述したビデオ合成装置１００は、図５に示すようなシステム内で使用されてもよい。しかしながら、ここでは、複数のビデオ符号化器が、上述したように、図１１〜図２１に関連して説明されているように、入力ビデオデータストリームの生成においてより多くの自由度を有することができる。要求６０は、装置１００によって、ＳＬＣＰの変更、すなわち、参照入力ビデオデータストリームの最終照合ビデオへの合成を求める要求として処理することができる。この要求は、同じく装置１００を備えるサーバの復号器またはオペレータを含むクライアントに由来し得る。

説明されているようなＳＬＣＰを介したスティッチング、ＧＲＰの挿入および／または合成に必要である符号化制約が満たされていることの帯域内または帯域外シグナリングは、システムが、入来するストリームが上述したようにさらなる処理のためにスティッチングされ得ることをネゴシエートおよび／または検出することを可能にする。それゆえ、たとえば、ＲＴＰストリーミングのためのＳＤＰまたはＤＡＳＨベースのストリーミングのためのＭＰＤなどにおけるシグナリングを、上述したように使用することができる。図２２は、ＳＥＩメッセージの形態のそれぞれのシグナリングを例示的に記述している。

ｃｏｍｐｏｓｉｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｔｙｐｅは、現在のビットストリームが合成ビットストリームの部分ビットストリームまたは部分（タイル／スライス）である場合に、出力ビットストリームの合成に使用するために、現在のビットストリームに適用することができる合成（処理）の種類を示す。０に等しい値を有するｃｏｍｐｏｓｉｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｔｙｐｅは、現在のビットストリームが、［１］に記載されているように、ＩＤＲアラインメントによって［１］に記載されている制約を満たす他のビットストリームとスティッチングすることができることを示す。１に等しい値を有するｃｏｍｐｏｓｉｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｔｙｐｅは、［１］に記載されているように、現在のビットストリームが、［１］に記載されている制約を満たす他のビットストリームとスティッチングすることができるが、ＩＤＲ画像が、後続する画像のＩスライスに変換され得、非Ｉスライスと融合され得ることを示す。すなわち、１に等しい値を有するｃｏｍｐｏｓｉｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｔｙｐｅは、ＩＤＲまたはＩＲＡＰが、仮にパラメータセットのアクティブ化が行われる場合に、以前にアクティブであったＳＰＳとは異なる値を有するＳＰＳをアクティブ化しないことを示す。加えて、２の値を有するｃｏｍｐｏｓｉｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｔｙｐｅは、ＴＶＭＰがさらに制限されること、および、ｍａｘ＿ｔｅｍｐｏｒｉａｌ＿ｉｄ＿ｐｌｕｓ１＿ＴＭＶＰ＿ｄｉｓａｂｌｅｄ以下のｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１を有する画像が、ＴＭＶＰのための参照として使用されないことを示す。

ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１＿ＴＭＶＰ＿ｄｉｓａｂｌｅｄは、ＴＭＶＰのための参照として使用されるべきではない画像のｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１の上限値を示す。

提案されているＳＥＩメッセージとともに、既存のＳＥＩを、ビットストリーム処理をより容易にするネゴシエーションのために使用することができる。一例が、ｓｔｒｕｃｔｕｒｅ＿ｏｆ＿ｐｉｃｔｕｒｅｓ＿ｉｎｆｏのＳＥＩであり、このＳＥＩにおいて複数の異なるビットストリームのＧＯＰが要約され、このＳＥＩは、ＧＲＰ挿入のための切り替え点を識別するために使用することができる。それについて、リストＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ、またはＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒを復号するインスタンスにおいて、言い換えれば復号器参照画像バッファが、ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１＿ＴＭＶＰ＿ｄｉｓａｂｌｅｄ−１以下のＴｅｍｐｏｒａｌＩＤを有する画像のみを含む任意の画像が、ＧＲＰ挿入のための切り替え点としての役割を果たすことができる。

代替的に、入力データストリーム内のＳＥＩメッセージが、ＧＲＰの挿入のための切り替え点としての役割を果たすことができる画像をシグナリングするために使用されてもよい。この特定のＳＥＩのビットストリームが発生すると、復号順序において後続する画像のＴＭＶＰのための参照として使用される画像は、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ、またはＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ内に含まれてはいないはずである。

さらに代替的に、ＮＡＬユニットタイプインジケータ値が、ＳＴＳＡＮＡＬユニットシグナリングと同様に、上記の制約に関するシグナリングのために使用されてもよい。この特定のＮＡＬユニットタイプインジケータ値の画像Ａのビットストリームが発生すると、復号順序において後続し、画像Ａを含む画像のＴＭＶＰのための参照として使用される画像は、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ、またはＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ内に含まれてはいないはずである。

同様に、ＳＤＰもしくはＭＰＤまたは任意の他の形態のシグナリングメカニズムが、この情報を帯域外で搬送するための、提案されているＳＥＩと同等のシグナリングを含み得る。

いくつかの態様が装置の文脈において説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラム可能コンピュータまたは電子回路のようなハードウェア装置によって（またはそれを使用して）実行されてもよい。いくつかの実施形態において、最も重要な方法ステップのうちの何らかの１つまたは複数は、そのような装置によって実行されてもよい。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実施することができる。実施態様は、それぞれの方法が実施されるように、プログラム可能なコンピュータシステムと協働する（または協働することが可能である）、電子可読制御信号を記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、ＤＶＤ、Ｂｌｕｅ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書において説明されている方法のうちの１つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有する、データキャリアを含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの１つを実施するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。

他の実施形態は、機械可読キャリア上に記憶されている、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを含む。

すなわち、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムがコンピュータ上で動作すると、本明細書において説明されている方法のうちの１つを実施するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、それゆえ、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを記録されて含む、データキャリア（またはデジタル記憶媒体もしくはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は一般的に、有形かつ／または非一時的である。

本発明の方法のさらなる実施形態は、それゆえ、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえば、インターネットを介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書において説明されている方法のうちの１つを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能論理デバイスを含む。

さらなる実施形態は、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを（たとえば、電子的にまたは光学的に）受信機へと転送するように構成されている装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、たとえば、コンピュータプログラムを受信機へと転送するためのファイルサーバを含んでもよい。

いくつかの実施形態において、プログラム可能論理デバイス（たとえば、フィールドプログラマブルゲートアレイ）が、本明細書において説明されている方法の機能の一部またはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書において説明されている方法のうちの１つを実施するために、マイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。

上述した実施形態は、本発明の原理の例示に過ぎない。本明細書において説明されている構成および詳細の修正及び変更が当業者には諒解されることは理解されたい。それゆえ、添付の特許請求項の範囲によってのみ限定されることが意図されており、本明細書において実施形態の記述および説明によって提示されている特定の詳細によって限定されることは意図されていない。

Claims

少なくとも１つの入力ビデオデータストリーム（１４）を使用して合成ビデオデータストリーム（１８）を合成するように構成されているビデオ合成装置（１０）であって、前記合成ビデオデータストリーム（１８）および前記少なくとも１つの入力ビデオデータストリーム（１４）は、動き補償時間予測を使用して符号化され、前記ビデオ合成装置は、
前記少なくとも１つの入力ビデオデータストリーム（１４）の動き補償サイド情報および予測残差データを収集および複製することによって継承画像（２６）の空間部分を充填することによって、前記合成ビデオデータストリーム（１８）の一連の前記継承画像（２６）を形成するステップであって、前記空間部分の空間位置は、前記一連の継承画像の中で、１つの継承画像から次の継承画像へと時間的に変化するステップと、
前記一連の継承画像の前記継承画像の間で、少なくとも１つの非出力画像（３０）を前記合成ビデオデータストリーム（１８）へと挿入するステップであって、前記少なくとも１つの非出力画像は、動き補償時間予測を介して、前記継承画像のサブセットを参照するステップと、によって、前記合成ビデオデータストリーム（１８）を合成するように構成されている、ビデオ合成装置（１０）。
前記ビデオ合成装置（１０）は、前記１つまたは複数の非出力画像の各々が動き補償時間予測を介して、その前記収集および複製によって前記瞬間に後続する前記継承画像のいずれかの前記空間部分が充填される動き補償サイド情報によって参照される、前記瞬間に先行する前記継承画像の間で参照画像を置換するように、前記空間部分が空間的に変化する瞬間において１つまたは複数の非出力画像（３０）を挿入するように構成されている、請求項１に記載のビデオ合成装置。
前記ビデオ合成装置は、各非出力画像が、動き補償時間予測を介して、前記空間部分が前記瞬間においてそこへと変化する、前記空間部分に空間的に対応する空間部分において、それぞれの前記非出力画像によって置換される前記参照画像の前記空間部分を参照するように、前記１つまたは複数の非出力画像（３０）を挿入するように構成されている、請求項２に記載のビデオ合成装置。
前記ビデオ合成装置は、前記空間部分が第１の前記継承画像から、前記一連の継承画像内で前記第１の前記継承画像に直に後続する第２の前記継承画像へと変化する前記瞬間において、動き補償時間予測を介して、その前記収集および複製によって前記第２の前記継承画像を含め前記第２の前記継承画像に後続する前記継承画像のいずれかの前記空間部分が充填される動き補償サイド情報によって参照される、前記第１の前記継承画像を含め前記第１の前記継承画像に先行する前記継承画像の間の参照画像の数だけの非出力画像を挿入するように構成されている、請求項２または３に記載のビデオ合成装置。
前記ビデオ合成装置は、前記一連の継承画像がタイルへと空間的に分割されるように、および、各タイルが、関連付けられる前記入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製することによって、それぞれの前記タイルと関連付けられる、前記複数の入力ビデオデータストリームのうちの１つから形成されるように、前記少なくとも１つの入力ビデオデータストリームを含む、複数の入力ビデオデータストリームを一連の第１の画像へと多重化するように構成されており、前記空間部分は、前記少なくとも１つの入力ビデオデータストリームが関連連付けられる前記タイルによって画定され、前記空間部分の前記空間位置は、一方における前記タイルと、他方における前記複数の入力ビデオデータストリームとの間の前記関連の時間的変化に応答して、前記一連の継承画像における１つの継承画像から次の継承画像へと時間的に変化する、請求項１〜４のいずれか一項に記載のビデオ合成装置。
前記ビデオ合成装置は、一方における前記タイルと、他方における前記複数の入力ビデオデータストリームとの間の関連が変化する瞬間において、非出力画像を挿入するように構成されており、前記非出力画像は、それぞれの変化の前の、前記複数の入力ビデオデータストリームのうちの所定の入力ビデオデータストリームと関連付けられるタイルの画像領域を、前記変化の後の、前記所定の入力ビデオデータストリームと関連付けられるタイルの画像領域へと移動させる、動き補償サイド情報を含む、請求項５に記載のビデオ合成装置。
前記ビデオ合成装置は、変化を求める外部要求に応答した前記空間部分の時間的変化の前記空間位置の時間的変化を制御するように構成されている、請求項１〜６のいずれか一項に記載のビデオ合成装置。
前記継承画像の各々の前記空間部分が、前記少なくとも１つの入力ビデオデータストリームの一連の入力画像のうちの正確に１つの動き補償サイド情報および予測残差データを収集および複製することによって充填されるように、前記継承画像の前記空間部分を充填することによって、前記合成ビデオデータストリームの前記一連の継承画像を形成するように構成されている、請求項１〜７のいずれか一項に記載のビデオ合成装置。
前記ビデオ合成装置は、参照画像の現在のセットのいずれもが、時間的動き補償サイド情報予測を介して、いずれの後続する入力画像によっても参照されない、前記一連の入力画像のうちの連続的な次の入力画像に遭遇すると、変化を求める外部要求を実行するように構成されている、請求項８に記載のビデオ合成装置。
前記ビデオ合成装置は、１つまたは複数の時間階層レベルＩＤについて、それぞれの前記１つまたは複数の時間階層レベルＩＤの入力画像が、時間的動き補償サイド情報予測を介して、いずれの他の前記入力によっても参照されないことを保証する、前記少なくとも１つの入力ビデオデータストリームの高レベル構文によって含まれる、前記入力画像の画像範囲時間階層ＩＤおよび画像範囲時間階層ＩＤ超過弁別器に基づいて、参照画像のセットのいずれもが、時間的動き補償サイド情報予測を介して、いずれの後続する入力画像によっても参照されない、前記一連の入力画像のうちの連続的な次の入力画像との前記遭遇を検出するように構成されている、請求項９に記載のビデオ合成装置。
前記動き補償サイド情報および前記予測残差データはエントロピー符号化され、前記収集および複製することは、エントロピー復号することなく実施される、請求項１〜１０のいずれか一項に記載のビデオ合成装置。
前記合成ビデオデータストリームの前記一連の継承画像を前記形成することは、前記少なくとも１つの入力ビデオデータストリームのスライスを、前記スライスのペイロードデータは変更されないままにして、スライスヘッダ内のデータは補正されるように、収集および複製することを含む、請求項１〜１１のいずれか一項に記載のビデオ合成装置。
前記スライスヘッダ内の前記データは、スライスアドレス、および／または、画像順序カウントデータ、および／または、参照画像順序カウント差分値、および／または、参照画像順序カウント差分値のセットに対する参照、および／または、別様にコード化されている量子化パラメータを含む、請求項１２に記載のビデオ合成装置。
前記少なくとも１つの非出力画像に、予測残差データがない、請求項１〜１３のいずれか一項に記載のビデオ合成装置。
前記ビデオ合成装置は、前記少なくとも１つの非出力画像が、動き補償時間予測を介して、前記少なくとも１つの入力ビデオデータストリームの一連の入力画像のうちのある入力画像の空間部分が並進によって前記少なくとも１つの非出力画像の空間部分へと複製されるように、前記継承画像の前記サブセットを参照するように、前記少なくとも１つの非出力画像を挿入するように構成されている、請求項１〜１４のいずれか一項に記載のビデオ合成装置。
前記合成ビデオデータストリームおよび前記少なくとも１つの入力ビデオデータストリームは、動き補償時間予測をブロック粒度が細かくなるように使用して符号化され、前記ビデオ合成装置は、前記少なくとも１つの非出力画像の空間部分が、その動きベクトルが互いに等しいいくつかのブロックから構成され、前記いくつかのブロックのうちの１つのみについては前記合成ビデオデータストリーム内で、前記いくつかのブロックの、前記１つのブロック以外のブロックについては空間予測を使用してコード化されるように構成されている、請求項１５に記載のビデオ合成装置。
前記ビデオ合成装置は、前記１つのブロック以外の任意のブロックが、隣接するブロックからの予測残差データの欠如および動き補償サイド情報の利用をシグナリングするスキップモードを使用してコード化されるように構成されている、請求項１６に記載のビデオ合成装置。
前記ビデオ合成装置は、前記少なくとも１つのビデオ入力データストリームのパラメータセットに基づいて、前記合成ビデオデータストリームの新たなパラメータセットを構築するように構成されている、請求項１〜１７のいずれか一項に記載のビデオ合成装置。
複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するように構成されているビデオ合成装置であって、前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測を使用して符号化され、前記ビデオ合成装置は、
前記複数の入力ビデオデータストリームの動き補償サイド情報および予測残差データを収集および複製して前記合成ビデオデータストリームの第１の部分にすることによって、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの画像の前記第１の部分へと多重化するステップと、
動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の第２の部分を、照合ビデオで充填するステップと、によって、前記合成ビデオデータストリームを合成するように構成されており、
前記第１の部分は出力されないものとしてシグナリングされ、前記第２の部分は出力されるものとしてシグナリングされる、ビデオ合成装置。
前記第１の部分は、非出力画像および／または前記合成ビデオデータストリームの出力画像の切り取られる画像領域を含む、請求項１９に記載のビデオ合成装置。
前記ビデオ合成装置は、前記複数の入力ビデオデータストリームの少なくともサブセットの時間的に交互配置になった画像を使用して、前記合成ビデオデータストリームの前記画像の少なくともサブセットの空間的に静止した画像部分を充填することによる時分割多重化を使用して、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの画像の前記第１の部分へと多重化するように構成されている、請求項１９または２０に記載のビデオ合成装置。
前記合成ビデオデータストリームの前記画像の前記サブセットは、前記合成ビデオデータストリームの前記第１の部分を形成し、前記合成ビデオデータストリームの前記画像の前記サブセットの前記画像は、前記合成ビデオデータストリームの前記第２の部分を形成する、前記合成ビデオデータストリームの出力画像と交互配置になっている非出力画像である、請求項２１に記載のビデオ合成装置。
前記ビデオ合成装置は、前記複数の入力ビデオデータストリームの少なくともサブセットを使用して、前記合成ビデオデータストリームの画像がそれへと空間的に分割されているタイルを並列に充填することによる空間分割多重化を使用して、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの前記第１の部分へと多重化するように構成されている、請求項１９または２０に記載のビデオ合成装置。
前記合成ビデオデータストリームの前記画像は、前記合成ビデオデータストリームの前記第２の部分を形成する追加のタイルを有し、前記合成ビデオデータストリームの前記画像がそれへと空間的に分割されている前記タイルは、前記合成ビデオデータストリームの前記第１の部分を形成し、切り取られる、請求項２３に記載のビデオ合成装置。
前記ビデオ合成装置は、前記複数の入力ビデオデータストリームの前記少なくともサブセットによって並列に充填されている前記タイルへと分割されている、前記合成ビデオデータストリームの前記画像の間にさらなる画像を挿入することによって、前記第２の部分を形成するように構成されている、請求項２３に記載のビデオ合成装置。
前記第１の部分の画像の空間部分が前記第２の部分の画像の空間部分へと複製されるように、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第２の部分を、前記照合ビデオで充填するように構成されている、請求項１９〜２５のいずれか一項に記載のビデオ合成装置。
前記第１の部分の画像の前記空間部分が前記第２の部分の画像の空間部分へと並進的に複製されるように、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第２の部分を、前記照合ビデオで充填するように構成されている、請求項２６に記載のビデオ合成装置。
前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測をブロック粒度が細かくなるように使用して符号化され、前記ビデオ合成装置は、前記第１の部分の画像の前記空間部分が、ブロック内という意味においては並進的に、ただし、ブロック間という意味においては拡大および／または縮小するように、前記第２の部分の画像の空間部分へと複製されるように、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第２の部分を、前記照合ビデオで充填するように構成されている、請求項２６に記載のビデオ合成装置。
前記合成ビデオデータストリームおよび前記少なくとも１つの入力ビデオデータストリームは、動き補償時間予測をブロック粒度が細かくなるように使用して符号化され、前記ビデオ合成装置は、前記第２の部分の画像の空間部分がそれぞれ、その動きベクトルが互いに等しいいくつかのブロックから構成され、前記いくつかのブロックのうちの１つのみについては前記合成ビデオデータストリーム内で、前記いくつかのブロックの、前記１つのブロック以外の各ブロックについては空間予測を使用してコード化されるように構成されている、請求項２６に記載のビデオ合成装置。
前記ビデオ合成装置は、各空間部分について、前記１つのブロック以外の、それぞれの前記空間部分の前記いくつかのブロックのうちの任意のブロックが、隣接するブロックからの予測残差データの欠如および動き補償サイド情報の利用をシグナリングするスキップモードを使用してコード化されるように構成されている、請求項２９に記載のビデオ合成装置。
部分的にイントラコード化のみを使用して、前記合成ビデオデータストリームの前記画像の前記第２の部分を前記照合ビデオで充填するように構成されている、請求項１９〜３０のいずれか一項に記載のビデオ合成装置。
前記ビデオ合成装置は、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の中間部分を充填するように構成されており、前記合成ビデオデータストリームの前記画像の前記第２の部分は、動き補償時間予測を介して、前記中間部分を介して間接的に前記合成ビデオデータストリームの前記第１の部分を参照することによって、照合ビデオで充填される、請求項１９〜３１のいずれか一項に記載のビデオ合成装置。
前記動き補償サイド情報および前記予測残差データはエントロピー符号化され、前記収集および複製することは、エントロピー復号することなく実施される、請求項１９〜３２のいずれか一項に記載のビデオ合成装置。
前記収集および複製は、前記ビデオ入力データストリームのスライスのペイロードデータは変更されないままにして、スライスヘッダ内のデータは補正されるように実施される、請求項１９〜３３のいずれか一項に記載のビデオ合成装置。
前記スライスヘッダ内の前記データは、スライスアドレス、および／または、画像順序カウントデータ、および／または、参照画像順序カウント差分値、および／または、参照画像順序カウント差分値のセットに対する参照、および／または、別様にコード化されている量子化パラメータを含む、請求項３４に記載のビデオ合成装置。
前記ビデオ合成装置は、動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分の２つの部分の間の重み付け双予測を使用して前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の前記第２の部分を、前記照合ビデオデータストリームで充填するように構成されている、請求項１９〜３５のいずれか一項に記載のビデオ合成装置。
システム（７４）であって、
少なくとも１つの入力ビデオデータストリームを提供するように構成されている少なくとも１つのビデオ符号化器（７０）と、
請求項１〜１９のいずれか一項に記載の、前記少なくとも１つの入力ビデオデータストリームを使用して合成ビデオデータストリームを合成するように構成されているビデオ合成装置（１０）であって、前記合成ビデオデータストリームおよび前記少なくとも１つの入力ビデオデータストリームは、動き補償時間予測を使用して符号化される、ビデオ合成装置（１０）と、を備えている、システム（７４）。
前記少なくとも１つのビデオ符号化器（７０）は、前記少なくとも１つの入力ビデオデータストリームの画像が、前記少なくとも１つの入力ビデオデータストリームの所定の静止空間領域の境界を越える部分において、前記少なくとも１つの入力ビデオデータストリームの先行する画像を、動き補償時間予測を介してしないように、前記少なくとも１つの入力ビデオデータストリームの動き補償サイド情報を制約して、前記少なくとも１つの入力ビデオデータストリームを提供するように構成されている、請求項３７に記載のシステム。
前記システムは、前記少なくとも１つのビデオ符号化器を含む複数のビデオ符号化器を備え、前記少なくとも１つのビデオ符号化器は、前記複数のビデオ符号化器の間で同期されている時間予測ＧＯＰ構造を使用して前記少なくとも１つの入力ビデオデータストリームを提供するように構成されている、請求項３７または３８に記載のシステム。
前記少なくとも１つのビデオ符号化器は、
時間階層的符号化および時間的動き補償サイド情報予測を使用して前記少なくとも１つの入力ビデオデータストリームを提供し、
画像範囲時間階層ＩＤが前記少なくとも１つの入力ビデオデータストリームの画像の各々と関連付けられるように、前記少なくとも１つの入力ビデオデータストリームを提供し、
それぞれの１つまたは複数の時間階層レベルＩＤの画像が参照されない１つまたは複数の時間階層レベルＩＤについて、前記時間的動き補償サイド情報予測を、前記それぞれの１つまたは複数の時間階層レベルＩＤの画像が、時間的動き補償サイド情報予測を介して、いかなる他の入力画像によっても参照されない範囲まで制限し、
１つまたは複数の時間階層レベルＩＤについて、前記それぞれの１つまたは複数の時間階層レベルＩＤの入力画像が、時間的動き補償サイド情報予測を介して、いかなる他の入力画像によっても参照されないことを保証する、画像範囲時間階層ＩＤ超過弁別器を有する前記少なくとも１つの入力ビデオデータストリームの高レベル構文を提供するように構成されている、請求項３７〜３９のいずれか一項に記載のシステム。
システムであって、
各々が複数の入力ビデオデータストリームのうちのそれぞれの１つの入力ビデオデータストリームを提供するように構成されている複数のビデオ符号化器と、
請求項２０〜３７のいずれか一項に記載の、前記複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するように構成されているビデオ合成装置であって、前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測を使用して符号化される、ビデオ合成装置と、を備えているシステム。
前記複数のビデオ符号化器は、前記複数のビデオ符号化器の間で同期されている時間予測ＧＯＰ構造を使用して前記複数の入力ビデオデータストリームを提供するように構成されている、請求項４１に記載のシステム。
少なくとも１つの入力ビデオデータストリーム（１４）を使用して合成ビデオデータストリーム（１８）を合成するためのビデオ合成方法（１０）であって、前記合成ビデオデータストリーム（１８）および前記少なくとも１つの入力ビデオデータストリーム（１４）は、動き補償時間予測を使用して符号化され、前記ビデオ合成方法は、
前記少なくとも１つの入力ビデオデータストリーム（１４）の動き補償サイド情報および予測残差データを収集および複製することにより継承画像（２６）の空間部分を充填することによって、前記合成ビデオデータストリーム（１８）の一連の前記継承画像（２６）を形成するステップであって、前記空間部分の空間位置は、前記一連の継承画像の中で、１つの継承画像から次の継承画像へと時間的に変化するステップと、
前記一連の継承画像の前記継承画像の間で、非出力画像（３０）を前記合成ビデオデータストリーム（１８）へと挿入するステップであって、前記非出力画像は、動き補償時間予測を介して、前記継承画像のサブセットを参照するステップと、を含むビデオ合成方法（１０）。
複数の入力ビデオデータストリームから合成ビデオデータストリームを合成するためのビデオ合成方法であって、前記合成ビデオデータストリームおよび前記複数の入力ビデオデータストリームは、動き補償時間予測を使用して符号化され、前記ビデオ合成方法は、
前記複数の入力ビデオデータストリーム動き補償サイド情報および予測残差データを収集および複製して前記合成ビデオデータストリームの第１の部分にすることによって、前記複数の入力ビデオデータストリームを、前記合成ビデオデータストリームの画像の前記第１の部分へと多重化するステップと、
動き補償時間予測を介して、前記合成ビデオデータストリームの前記第１の部分を参照することによって、前記合成ビデオデータストリームの前記画像の第２の部分を、照合ビデオで充填するステップと、を含み、
前記第１の部分は出力されないものとしてシグナリングされ、前記第２の部分は出力されるものとしてシグナリングされる、ビデオ合成方法。
コンピュータ上で動作するとき、請求項４３または４４に記載の方法を実施するためのプログラムコードを有する、コンピュータプログラム。