JP2021502033A - ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム - Google Patents
ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム Download PDFInfo
- Publication number
- JP2021502033A JP2021502033A JP2020524625A JP2020524625A JP2021502033A JP 2021502033 A JP2021502033 A JP 2021502033A JP 2020524625 A JP2020524625 A JP 2020524625A JP 2020524625 A JP2020524625 A JP 2020524625A JP 2021502033 A JP2021502033 A JP 2021502033A
- Authority
- JP
- Japan
- Prior art keywords
- representation
- information
- parameterization
- map
- depth map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013139 quantization Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims description 86
- 238000013507 mapping Methods 0.000 claims description 44
- 238000005070 sampling Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000002068 genetic effect Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 229920001690 polydopamine Polymers 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 101100478890 Caenorhabditis elegans smo-1 gene Proteins 0.000 description 1
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/529—Depth or shape recovery from texture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/65—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Processing Or Creating Images (AREA)
Abstract
3D表現を表すデータを視点範囲に従って符号化/復号することは、3D表現の部分に関連付けられる深度マップを、部分に関連付けられる少なくとも1つの2Dパラメータ化を表すパラメータ、および部分の1つの点に関連付けられるデータに従って生成することと、パラメータおよびデータに従って、部分に関連付けられるテクスチャマップを生成することと、を含むことができ、深度マップおよび/またはテクスチャマップ内の量子化パラメータの変化を表す情報は、3D表現の注目領域に従って取得することができる。【選択図】図13
Description
1.技術分野
本開示は、ボリュメトリック(volumetric)ビデオコンテンツの領域に関する。本開示はまた、ボリュメトリックコンテンツを表すデータを符号化および/またはフォーマットする状況、例えばモバイルデバイスまたはヘッドマウントディスプレイのようなエンドユーザデバイスでレンダリングを行う状況におけるものであることを理解されたい。
本開示は、ボリュメトリック(volumetric)ビデオコンテンツの領域に関する。本開示はまた、ボリュメトリックコンテンツを表すデータを符号化および/またはフォーマットする状況、例えばモバイルデバイスまたはヘッドマウントディスプレイのようなエンドユーザデバイスでレンダリングを行う状況におけるものであることを理解されたい。
2.背景技術
この節では、読者に技術分野の様々な態様を紹介することが意図されており、これらの態様は、以下に説明および/または特許請求する本開示の様々な態様に関連することができる。本考察は、読者に背景情報を提供して本発明の様々な態様をより良好に理解するのを容易にするのに役立つと考えられる。したがって、これらの記述は、この観点から読み取られるべきであり、先行技術を容認したものとして読み取られるべきではないということが理解されるべきである。
この節では、読者に技術分野の様々な態様を紹介することが意図されており、これらの態様は、以下に説明および/または特許請求する本開示の様々な態様に関連することができる。本考察は、読者に背景情報を提供して本発明の様々な態様をより良好に理解するのを容易にするのに役立つと考えられる。したがって、これらの記述は、この観点から読み取られるべきであり、先行技術を容認したものとして読み取られるべきではないということが理解されるべきである。
近年、利用可能な広視野コンテンツ(最大360°)が増えてきている。このようなコンテンツは、ユーザがコンテンツを、ヘッドマウントディスプレイ、スマートグラス、PCスクリーン、タブレット、スマートフォンなどのような没入型表示デバイスで見ることにより全部を目で見るということができない可能性がある。これは、所定の瞬間に、ユーザがコンテンツの部分のみをビューしている可能性があることを意味している。しかしながら、ユーザは通常、頭部の移動、マウスの移動、タッチスクリーン、音声などのような様々な手段によりコンテンツ内を誘導され得る。通常、このコンテンツを符号化および復号することが望ましい。
360°フラットビデオとも呼ばれる没入型ビデオによりユーザは、ユーザ自身の周りのあらゆるものを、ユーザの頭部を注視点の周りに回転させることにより見ることを可能にする。回転により、3自由度(3DoF)の体験のみが可能になる。3DoFビデオが、最初の全方向ビデオ体験のために、例えばヘッドマウントディスプレイデバイス(HMD)を使用して十分である場合でも、3DoFビデオは、例えば視差を体験することにより、より多くの自由度を期待するビューアをすぐにイライラさせてしまう可能性がある。さらに、3DoFはまた、ユーザがユーザの頭部を回転させるだけでなく、ユーザの頭部を3つの方向に並進移動させ、並進移動が3DoFビデオ体験では再現されることがないので、めまいを引き起こす可能性もある。
広視野コンテンツは、とりわけ、3次元コンピュータグラフィックイメージシーン(3D CGIシーン)、ポイントクラウド、または没入型ビデオとすることができる。多くの条件を使用して、このような没入型ビデオ:例えば、仮想現実(VR)ビデオ、360ビデオ、パノラマビデオ、4π立体視ビデオ、没入型ビデオ、全方向性ビデオ、または広視野ビデオを設計することができる。
ボリュメトリックビデオ(6自由度(6DoF)ビデオとしても知られている)は、3DoFビデオの代替である。6DoFビデオを見る場合、回転の他に、ユーザは、ユーザの頭部を、およびユーザの身体さえも、見つめているコンテンツ内で並進移動させることもでき、視差を体験し、ボリュームさえも体験することもできる。このようなビデオは、没入感およびシーンの奥行き感をかなり深めることができ、着実な視覚的フィードバックを頭部の並進移動中に与えることによりめまいを防止することもできる。コンテンツを専用センサにより作成して、注目シーンのカラーおよび奥行きを同時に記録することが可能になる。写真測量技術と組み合わせたカラーカメラのリグの使用は、このような記録を実行する一般的な方法である。
3DoFビデオは、テクスチャ画像(例えば、緯度/経度投影マッピングまたは正距円筒投影マッピングに従って符号化される球面画像)のマッピング解除から得られる画像列を含むが、6DoFビデオフレームには、幾つかの視点からの情報が埋め込まれる。これらのビデオフレームは、3次元撮影から得られる一時的な一連のポイントクラウドであると考えられる。2種類のボリュメトリックビデオは、ビューイング状態に依存すると考えられ得る。第1の種類(すなわち、全6DoF)が、ビデオコンテンツ内の完全に自由な誘導を可能にするのに対し、第2の種類(別名、3DoF+)は、ユーザビューイング空間を限定されたボリュームに制限して、頭部の限定された並進移動、および視差体験を可能にする。この第2の状況は、着座視聴者の自由誘導状態と受動ビューイング状態間の貴重なトレードオフである。
没入状況におけるユーザ体験を向上させるが、レンダラーに転送されるデータの量は非常に重要であり、問題となり得る。
3.発明の概要
本明細書における「one embodiment(1つの実施形態)」、「an embodiment(所定の実施形態)」、「an example embodiment(例示的な実施形態)」、「a particular embodiment(具体的実施形態)」への言及は、説明される実施形態が、具体的特徴、構造、または特性を含むことができるが、全ての実施形態が、特定の特徴、構造、または特性を必ずしも含む必要がある訳ではないことを示している。さらに、そのような語句は、同じ実施形態を必ずしも指している訳ではない。さらに、具体的特徴、構造、または特性が所定の実施形態に関連して説明される場合、明示的に説明されているかどうかに関係なく、このような特徴、構造、または特性に他の実施形態に関連して影響を与えることは、当業者の知識の範囲内であると考えられる。
本明細書における「one embodiment(1つの実施形態)」、「an embodiment(所定の実施形態)」、「an example embodiment(例示的な実施形態)」、「a particular embodiment(具体的実施形態)」への言及は、説明される実施形態が、具体的特徴、構造、または特性を含むことができるが、全ての実施形態が、特定の特徴、構造、または特性を必ずしも含む必要がある訳ではないことを示している。さらに、そのような語句は、同じ実施形態を必ずしも指している訳ではない。さらに、具体的特徴、構造、または特性が所定の実施形態に関連して説明される場合、明示的に説明されているかどうかに関係なく、このような特徴、構造、または特性に他の実施形態に関連して影響を与えることは、当業者の知識の範囲内であると考えられる。
本開示は、シーンの3D表現を表すデータをビットストリームに符号化する方法に関し、3D表現は、視点範囲に従っており、方法は、
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成することであって、少なくとも1つの2次元パラメータ化は、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行われることと、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成することと、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得することと、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化することと、を含む。
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成することであって、少なくとも1つの2次元パラメータ化は、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行われることと、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成することと、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得することと、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化することと、を含む。
本開示はまた、シーンの3D表現を表すデータをビットストリームに符号化するように構成されたデバイスに関するものであり、3D表現は、視点範囲に従っており、デバイスは、少なくとも1つのプロセッサに関連付けられるメモリを含み、少なくとも1つのプロセッサは、
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータ、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成し、少なくとも1つの2次元パラメータ化は、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行われ、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成し、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得し、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化するように構成される。
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータ、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成し、少なくとも1つの2次元パラメータ化は、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行われ、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成し、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得し、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化するように構成される。
本開示は、シーンの3D表現を表すデータをビットストリームに符号化するように構成されたデバイスに関するものであり、この3D表現は、視点範囲に従っており、デバイスは、
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータ、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成し、少なくとも1つの2次元パラメータ化は、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行われるように構成された生成装置と、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成するように構成された生成装置と、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得するように構成されたインターフェースと、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化するように構成された符号化器と、を含む。
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータ、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成し、少なくとも1つの2次元パラメータ化は、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行われるように構成された生成装置と、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成するように構成された生成装置と、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得するように構成されたインターフェースと、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化するように構成された符号化器と、を含む。
本開示はまた、シーンの3D表現を表すデータをビットストリームに符号化するように構成されたデバイスに関するものであり、この3D表現は、視点範囲に従っており、デバイスは、
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータ、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成し、少なくとも1つの2次元パラメータ化を、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行う手段と、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成する手段と、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得する手段と、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化する手段と、を含む。
−3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを、少なくとも1つの部分に関連付けられる少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータ、および少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って生成し、少なくとも1つの2次元パラメータ化を、少なくとも1つの点に関連付けられる幾何学的情報、および視点範囲に関連付けられる姿勢情報に応じて行う手段と、
−少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータに従って生成する手段と、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報を取得する手段と、
−少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータをビットストリームの第3シンタックス要素に符号化し、第1情報をビットストリームの第4シンタックス要素に符号化し、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化する手段と、を含む。
本開示は、シーンの3D表現を表すデータをビットストリームから復号する方法に関するものであり、この3D表現は、視点範囲に従っており、方法は、
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号することと、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号することと、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号することと、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定することと、を含む。
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号することと、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号することと、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号することと、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定することと、を含む。
本開示は、シーンの3D表現を表すデータをビットストリームから復号するように構成されたデバイスに関するものであり、この3D表現は、視点範囲に従っており、デバイスは、少なくとも1つのプロセッサに関連付けられるメモリを含み、少なくとも1つのプロセッサは、
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号し、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号し、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号し、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定するように構成される。
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号し、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号し、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号し、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定するように構成される。
本開示は、シーンの3D表現を表すデータをビットストリームから復号するように構成されたデバイスに関するものであり、この3D表現は、視点範囲に従っており、デバイスは、
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号するように構成された復号器と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号するように構成された復号器と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号するように構成された復号器と、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定するように構成されたプロセッサと、を含む。
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号するように構成された復号器と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号するように構成された復号器と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号するように構成された復号器と、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定するように構成されたプロセッサと、を含む。
本開示は、シーンの3D表現を表すデータをビットストリームから復号するように構成されたデバイスに関するものであり、この3D表現は、視点範囲に従っており、デバイスは、
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号する手段と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号する手段と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号する手段と、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定する手段と、を含む。
−ビットストリームから、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを復号する手段と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータを復号する手段と、
−ビットストリームから、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータを復号する手段と、
−3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、少なくとも1つのテクスチャマップを表すデータ、少なくとも1つの深度マップを表すデータ、ビットストリームから取得され、少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報、ならびにビットストリームから取得され、少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報から決定する手段と、を含む。
具体的特徴によれば、少なくとも1つの深度マップおよび/または当該少なくとも1つのテクスチャマップは、第1情報に従って符号化される。
特定の特徴によれば、第1情報は、少なくとも1つの注目領域に関連付けられる予測誤差に対応する。
別の特徴によれば、第1情報は、少なくとも1つの2Dパラメータ化のサンプリングを表す情報に対応し、第1サンプリングレベルは、少なくとも1つの注目領域に関連付けられる2Dパラメータ化の少なくとも1つのエリアに適用され、第2サンプリングレベルは、2Dパラメータ化の他のエリアに適用される。
本開示はまた、シーンの3D表現を表すデータを伝達するビットストリームに関するものであり、この3D表現は、視点範囲に従っており、データは、
−3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータであって、パラメータが、少なくとも1つの部分の少なくとも1つの点に関連付けられる幾何学的情報に従って、かつ視点範囲に関連付けられる姿勢情報に従って取得される、少なくとも1つのパラメータと、
−少なくとも1つの部分に関連付けられ、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータから決定される少なくとも1つのテクスチャマップを表すデータと、
−3D表現の少なくとも1つの部分に関連付けられ、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータから決定される少なくとも1つの深度マップを表すデータと、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報と、
−少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報と、を含む。
−3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータであって、パラメータが、少なくとも1つの部分の少なくとも1つの点に関連付けられる幾何学的情報に従って、かつ視点範囲に関連付けられる姿勢情報に従って取得される、少なくとも1つのパラメータと、
−少なくとも1つの部分に関連付けられ、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータから決定される少なくとも1つのテクスチャマップを表すデータと、
−3D表現の少なくとも1つの部分に関連付けられ、少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータから決定される少なくとも1つの深度マップを表すデータと、
−3D表現の注目領域に従った少なくとも1つの深度マップおよび/または少なくとも1つのテクスチャマップ内の量子化パラメータの変化を表す第1情報と、
−少なくとも1つの2次元パラメータ化と対応する少なくとも1つの深度マップおよび少なくとも1つのテクスチャマップとの間のマッピングを表す第2情報と、を含む。
本開示はまた、シーンの3D表現を表すデータを符号化または復号する方法のステップを、このプログラムをコンピュータで実行すると実行するプログラムコード命令を含むコンピュータプログラム製品に関する。
本開示はまた、プロセッサに、シーンの3D表現を表すデータを符号化または復号する少なくとも上記の方法を実行させる命令を格納する(非一時的な)プロセッサ可読媒体に関する。
4.図面の簡単な説明
以下の説明を読み取ると、本開示が、より良好に理解され、他の特定の特徴および利点が明らかになり、この説明は、添付の図面を参照している。
以下の説明を読み取ると、本開示が、より良好に理解され、他の特定の特徴および利点が明らかになり、この説明は、添付の図面を参照している。
5.発明を実施するための形態
ここで、主題について、同様の参照番号が、本明細書全体を通して同様の要素を指すために使用される図面を参照して説明される。以下の説明では、説明目的で、多くの特定の詳細が記載されて、主題の完全な理解が得られるようにしている。しかしながら、主題の実施形態は、これらの特定の詳細を用いることなく実施することができることは明らかであり得る。
ここで、主題について、同様の参照番号が、本明細書全体を通して同様の要素を指すために使用される図面を参照して説明される。以下の説明では、説明目的で、多くの特定の詳細が記載されて、主題の完全な理解が得られるようにしている。しかしながら、主題の実施形態は、これらの特定の詳細を用いることなく実施することができることは明らかであり得る。
本説明は、本開示の原理を例示している。このように、当業者であれば、本明細書に明示的には記載されていない、または示されていないが、本開示の原理を具体化する様々な構成を考案することができることを理解できるであろう。
本開示の非限定的な実施形態によれば、ボリュメトリックビデオ(3DoF+または6DoFビデオとも呼ばれる)の画像をビットストリームに符号化する方法およびデバイスが開示される。ボリュメトリックビデオの画像をビットストリームから復号する方法およびデバイスがさらに開示される。ボリュメトリックビデオの1つ以上の画像を符号化するビットストリームのシンタックスの例がさらに開示される。
第1の態様によれば、本原理は、シーンの3D表現を表すデータ(没入ビデオとも呼ばれる全方向性コンテンツで表される)をビットストリームに符号化する方法(および、符号化するように構成されたデバイス)の第1の具体的実施形態を参照して説明される。その目的を達成するために、1つ以上の2Dパラメータ化が、3D表現の場合に可能になり、2Dパラメータ化は、例えばシーンの3D表現の2D画素表現または3D表現の部分の2D画素表現に対応する。深度マップ(高さマップとも呼ばれる)およびテクスチャマップ(カラーマップとも呼ばれる)は、各部分に関連付けられる2Dパラメータ化を記述した1つ以上のパラメータを使用して、3D表現の各部分を決定し、かつ関連付けられる。3D表現(または、3D表現の部分に)に関連付けられる深度マップは、3D表現に(3D表現の部分にそれぞれ)含まれる要素群(例えば、点群)に関連付けられる奥行き情報または距離情報を含む。3D表現(または、3D表現の部分に)に関連付けられるテクスチャマップは、3D表現に(3D表現の部分にそれぞれ)含まれる要素群(例えば、点群)に関連付けられるテクスチャ情報(例えば、RGB値)を含む。奥行き情報、および/またはテクスチャ情報を符号化するために使用される量子化ステップは、深度マップおよび/またはテクスチャマップ内で、深度マップおよび/またはテクスチャマップに関連付けられる3D表現の部分が、注目領域を含んでいるかどうかに応じて変化することができる。ビットストリームは、2Dパラメータ化(群)のパラメータ、深度マップ(群)を表すデータ、テクスチャマップ(群)を表すデータ、量子化ステップ(群)の変化に関する情報、および各2Dパラメータ化を、その2Dパラメータ化に関連付けられる深度マップおよびテクスチャマップにリンクさせるマッピング情報を組み合わせる、および/または符号化することにより生成することができる。
復号器/レンダリングされる側では、3D表現(例えば、ポイントクラウドまたはメッシュ)は、ストリームから、2Dパラメータ化のパラメータ、および量子化ステップの変化に関連する情報に関連付けられる深度マップおよびテクスチャマップを復号/抽出することにより再構成することができ、3Dシーンの1つ以上の画像は、3D表現からレンダリングすることができる。
複数の2Dパラメータ化を、オブジェクトをテクスチャ情報および奥行き情報で表す基準として使用することにより、シーンを表すために必要なデータの量を、ポイントクラウドまたは3Dメッシュを用いた表現と比較して減らすことができるとともに、オブジェクトを複雑なトポロジーを用いて最適な詳細レベルで表すことが可能になる。量子化ステップを存在する注目領域(群)に従って変化させることにより、注目領域(群)の良好な表現を維持しながら送信されるデータの量を減らすことがさらに可能になる。
図1は、本原理の非限定的な具体的実施形態によるボリュメトリックコンテンツ10(没入型コンテンツまたは全方向性コンテンツとも呼ばれる)の例を示している。図1は、幾つかのオブジェクトの面表現を含む3次元シーンを表す画像を示している。シーンは、任意の好適な技術を使用して撮影されている可能性がある。例えば、シーンは、コンピュータグラフィックスイメージ(CGI)ツールを使用して生成されている可能性がある。シーンは、カラー画像取得デバイスおよび奥行き画像取得デバイスにより撮影されている可能性がある。このような場合、取得デバイス(例えば、カメラ)から見えないオブジェクトの部分は、シーン中に表されていない可能性がある。図1に示す例示的なシーンは、家、2人の人物、および井戸を含む。図1のキューブ11は、ユーザが3Dシーンをビュー空間から観察している可能性があるビュー空間を示している。
ボリュメトリックコンテンツ10を視覚化するために使用される表示デバイスは、例えばユーザの頭部に装着される、またはヘルメットの部分として装着される、HMD(ヘッドマウントディスプレイ)である。HMDは、1つ以上のディスプレイ画面(例えば、LCD(液晶ディスプレイ)、OLED(有機発光ダイオード)、またはLCOS(液晶オンシリコン))と、HMDの位置の変化(群)を測定するように構成されるセンサ(群)、例えば現実世界の1軸、2軸、または3軸(ピッチ軸、ヨー軸、および/またはロール軸)のジャイロスコープまたはIMU(慣性測定ユニット)と、を備えるので有利である。HMDの測定位置に対応するボリュメトリックコンテンツ10の部分は、現実世界のHMDに関連付けられる視点と、ボリュメトリックコンテンツ10に関連付けられる仮想カメラの視点との間の関係を確立させる特定の関数で決定されるので有利である。HMDのディスプレイ画面(群)に表示されるビデオコンテンツの部分をHMDの測定位置に従って制御すると、HMDを装着しているユーザは、HMDのディスプレイ画面(群)に関連付けられる視野よりも大きい没入型コンテンツを閲覧することができる。例えば、HMDにより提供される視野が110°に等しい場合(例えば、ヨー軸回りの)、および没入型コンテンツが180°のコンテンツを提供する場合、HMDを装着しているユーザは、ユーザの頭部を右または左に回転させて、HMDにより提供される視野の外部のビデオコンテンツの部分を見ることができる。別の例によれば、没入型システムは、没入型コンテンツが部屋の壁に投影されるCAVE(Cave Automatic Virtual Environment:洞窟自動仮想環境)システムである。CAVEの壁は、例えばリアプロジェクションスクリーンまたはフラットパネルディスプレイにより構成される。このように、ユーザは、ユーザの目で部屋の異なる壁を凝視しながら閲覧することができる。CAVEシステムは、ユーザの画像を取得して、これらの画像のビデオ処理によりユーザの注視方向を決定するカメラを備えるので有利である。変形例によれば、ユーザの凝視または姿勢は、追跡システム、例えば赤外線追跡システムで決定され、ユーザは、赤外線センサを装着している。別の変形例によれば、没入型システムは、触覚ディスプレイ画面を備えるタブレットであり、ユーザはコンテンツを、コンテンツを1本以上の指で触覚ディスプレイ画面上を摺動してスクロールすることにより閲覧している。
ボリュメトリックコンテンツ10は、例えば2π、2.5π、3π、または4π立体コンテンツとすることができる。
図2Aおよび図2Bは、ボリュメトリックコンテンツ10を取得するために使用することができるライトフィールド取得デバイスの例を示している。より具体的には、図2Aおよび図2Bは各々、本原理の2つの具体的実施形態によるカメラアレイ2A、2B(カメラアレイ群とも呼ばれる)を示している。
カメラアレイ2Aは、pがマイクロレンズの数に対応する整数である幾つかのマイクロレンズ201、202〜20pを含むレンズアレイ20またはマイクロレンズアレイと、1つ、または幾つかのセンサアレイ21と、を備える。カメラアレイ2Aはメインレンズを含まない。レンズアレイ20は、マイクロレンズアレイと一般的に命名されている微小デバイスとすることができる。1個のセンサを備えるカメラアレイは、メインレンズの焦点距離が無限であるプレノプティックカメラの特殊な場合であると考えることができる。フォトセンサの数がマイクロレンズの数に等しい、すなわち1つのフォトセンサが1つのマイクロレンズに光学的に関連付けられる具体的構成によれば、カメラアレイ20は、正方形構成(図2Aに示すような)または五点形構成、例えば円筒面上の非平坦構成のような近接離間される複数の個々のカメラ(例えば、マイクロカメラ)の構成として見ることができる。
カメラアレイ2Bは、各カメラがレンズおよびフォトセンサレイを含む個々のカメラのリグに対応する。カメラは、例えば数センチメートル以下、または5cm、7cm、または10cmに等しい距離だけ離間される。
このようなカメラアレイ2Aまたは2Bで取得されるライトフィールドデータ(所謂ライトフィールド画像を形成する)は、シーンの複数のビューに対応する、すなわちレンズレットアレイとフォトセンサアレイとの間の距離がマイクロレンズ焦点距離に等しいプレノプティックカメラに対応するタイプ1.0のプレノプティックカメラのようなプレノプティックカメラ、またはその他には、タイプ2.0のプレノプティックカメラ(集光プレノプティックカメラとも呼ばれる)で取得される生画像を逆多重化してデモザイク処理することにより取得することができる最終ビューに対応する。カメラアレイ2Bのカメラは、任意の既知の方法に従って較正される、すなわちカメラの内部パラメータおよび外部パラメータが既知である。
ライトフィールド取得デバイスで取得される異なるビューにより、没入型コンテンツまたは没入型コンテンツの少なくとも1つの部分を、例えば奥行きを視差に基づいて計算することができるアルゴリズムを使用して取得することができる。当然のことながら、没入型コンテンツは、ライトフィールド取得デバイスとは異なる取得デバイスで取得する、例えば深度センサ(例えば、MicrosoftのKinectのような赤外線発信器/受光器またはレーザ発信器)に関連付けられるカメラで取得することができる。
図3は、ボリュメトリックコンテンツ10で表されるシーンのオブジェクト、またはオブジェクトの部分の2つの異なる表現を示している。図3の例によれば、オブジェクトは、例えばシーン内を移動している人物であり、オブジェクトの部分は、図3に示す頭部に対応している。
オブジェクトの部分の第1の3D表現30はポイントクラウドである。ポイントクラウドは、オブジェクトを表す、例えばオブジェクトの外面または外部形状を表す大きなポイント集合に対応している。ポイントクラウドは、ベクトル系の構造として見ることができ、各点は、その座標(例えば、3次元座標XYZ、または所定の視点からの奥行き/距離)と、成分とも呼ばれる1つ以上の属性と、を有する。成分の例は、異なるカラー空間で、例えばRGB(赤、緑、および青)またはYUV(Yはルマ成分であり、UVは、2つのクロミナンス成分である)で表現することができるカラー成分である。ポイントクラウドは、所定の視点から見たときの、または視点範囲で見たときのオブジェクトの表現である。ポイントクラウドは、異なる方法で取得することができる、例えば、
●図2のカメラアレイのように、カメラのリグで撮影される実オブジェクトを撮影して、深度アクティブセンシングデバイスで任意に補完することにより、
●モデリングツールの仮想カメラのリグで撮影される仮想/合成オブジェクトを撮影することにより、
●実オブジェクトおよび仮想オブジェクトの両方を混合することにより取得することができる。
●図2のカメラアレイのように、カメラのリグで撮影される実オブジェクトを撮影して、深度アクティブセンシングデバイスで任意に補完することにより、
●モデリングツールの仮想カメラのリグで撮影される仮想/合成オブジェクトを撮影することにより、
●実オブジェクトおよび仮想オブジェクトの両方を混合することにより取得することができる。
変形例によれば、3D表現は3Dメッシュ表現に対応し、第1の表現に示される点群はメッシュを形成するメッシュ要素(例えば三角形)の頂点に対応する。
第1の場合では(実オブジェクトを撮影することによる)、カメラ集合が、異なるビュー(異なる視点)に対応する画像集合または画像列(ビデオ)を生成する。奥行き情報−各カメラ中心からオブジェクト表面までの距離を意味する−は、深度アクティブセンシングデバイスにより、例えば赤外線範囲で、構造化された光分析または飛行時間に基づいて、もしくは視差アルゴリズムに基づいて取得される。両方の場合では、全てのカメラを内部較正および外部較正する必要がある。視差アルゴリズムは、通常は1次元ラインに沿って行われる、修正後のカメラ画像ペアの類似した視覚的特徴の検索により構成され、画素列の差分がより大きくなると、この特徴の表面により近づくようになる。カメラアレイの場合では、グローバル奥行き情報は、複数のピア視差情報を組み合わせて複数のカメラペアの利点を生かすことにより取得することができるので、信号対雑音比を向上させることができる。
第2の場合(合成オブジェクト)では、モデリングツールが奥行き情報を直接供給する。
オブジェクトの部分の第2表現31は、ポイントクラウド(または、3Dメッシュ)表現30から取得することができ、第2表現は面表現に対応している。ポイントクラウドを処理してポイントクラウドの表面を計算することができる。その目的のために、ポイントクラウドの所定のポイントについて、この所定の点の隣接点を使用して、この所定の点の局所面の法線を計算し、この所定の点に関連付けられる面要素は法線から導出されている。このプロセスは、表面を取得するために全ての点について繰り返される。表面をポイントクラウドから再構成する方法は、例えば最新技術レポート、2014年に記載されているMatthew Bergerらによる「State of the Art in Surface Reconstruction from Point Clouds(表面をポイントクラウドから再構成する最新技術)」に記載されている。変形例によれば、ポイントクラウドの所定の点に関連付けられる面要素は、スプラットレンダリング(splat rendering)をこの所定の点に適用することにより取得される。オブジェクトの表面(オブジェクトの暗黙的な表面または外面とも呼ばれる)は、ポイントクラウドの点群に関連付けられるスプラット(例えば、楕円体)の全てをブレンドすることにより取得される。
具体的実施形態では、ポイントクラウドは、ポイントクラウド全体のオブジェクトではなくオブジェクトの部分的なビューのみを表し、これは、オブジェクトが、例えば映画シーンのレンダリング側でどのように見えると考えられるかということに対応する。例えば、フラットカメラアレイに対向している人物を撮影すると、ポイントクラウドがリグの側でのみ生成される。人物の後ろも存在することがなく、オブジェクトは、オブジェクト自体で閉じていないので、このオブジェクトの幾何学的特徴は、リグの方向に向いた表面の全ての集合である(各局所面の法線と、取得デバイスに戻る光線との間の角度は、例えば90°未満である)。
図4は、本原理の具体的実施形態によるカメラ4001、4002、4003、および4004で取得されているシーンのオブジェクトの表現40の3D部分に関連付けられる2Dパラメータ化41、42、および43を示している。カメラ4001〜4004は、例えば図2Bのリグのカメラ群の幾つかのカメラに対応する。オブジェクトは、図3の例31におけるように、その表面40で表されるが、図3の例30におけるように、ポイントクラウド自体で表されるようにしてもよい。各2Dパラメータ化は、オブジェクトの表現の3D部分に関連付けられ、各3D部分は、ポイントクラウドの1つ以上のポイントを含むボリュームに対応している。各2Dパラメータ化は、取得デバイスの姿勢情報を考慮に入れることにより決定されて、当該各2Dパラメータ化に関連付けられる3D部分に含まれるポイントクラウドの最大数のポイント(取得デバイスの視点範囲により生成される)が閲覧されるようにする。2Dパラメータ化が、関連付けられた3D部分の点群の線形透視投影で可能になる場合、決定された視点は、各2Dパラメータ化に関連付けられ、各視点は、シーンを取得するために使用される視点範囲に対応する視点範囲内に含まれる。2Dパラメータ化41は、視点401に関連付けられ、2Dパラメータ化42は、視点402に関連付けられ、2Dパラメータ化43は、視点403に関連付けられる。図4から分かるように、視点401〜403の各視点は、取得デバイスの視点範囲の左限界4001および右限界4004にそれぞれ対応する視点4001と視点4002との間に位置付けられる。ポイントクラウドは、決定された限定視点範囲から取得され、ポイントクラウドの3D部分の2D表現(すなわち、2Dパラメータ化)は全て、ポイントクラウドを取得するために使用される決定された限定視点範囲内に位置付けられる視点から見られる。各2Dパラメータ化は、その2Dパラメータ化が関連付けられるポイントクラウドの3D部分の2D表現である。同じ3D部分は、1つの、または幾つかの2Dパラメータ化で、例えば2つ、3つ、または3つよりも多くの2Dパラメータ化で表すことができる。上に説明したように、ポイントクラウドの1つの所定の3D部分に関連付けられる2Dパラメータ化は、ポイントクラウドの所定の3D部分の2次元で閲覧して所定の3D部分、すなわち複数のサンプルを含むこの所定の3D部分のコンテンツの2D表現(すなわち、点(群))をサンプリングすることが可能になることに対応し、サンプルの数は、適用されるサンプリングレートに依存する。2Dパラメータ化は、様々な方法で可能になり、例えば以下の方法のいずれか1つの方法を実現することにより可能になる:
−ポイントクラウドの3D部分の点群を視点に関連付けられる平面に線形透視投影することであって、線形透視投影を表すパラメータが仮想カメラの位置、空間サンプリングレート、および2次元の視野を含むことと、
−ポイントクラウドの3D部分の点群を表面に正射投影することであって、正射投影を表すパラメータが、投影面の幾何学構造(形状、サイズ、および方位)および空間サンプリングレートを含むことと、
−次元削減の数値演算に対応するLLE(Locally−Linear Embedding:局所線形埋め込み法)をここで適用して3Dから2Dへのコンバート/トランスフォームを行うことであって、LLEを表すパラメータが変換係数を含むことと、を含む方法のいずれか1つの方法を実行することにより可能になる。
−ポイントクラウドの3D部分の点群を視点に関連付けられる平面に線形透視投影することであって、線形透視投影を表すパラメータが仮想カメラの位置、空間サンプリングレート、および2次元の視野を含むことと、
−ポイントクラウドの3D部分の点群を表面に正射投影することであって、正射投影を表すパラメータが、投影面の幾何学構造(形状、サイズ、および方位)および空間サンプリングレートを含むことと、
−次元削減の数値演算に対応するLLE(Locally−Linear Embedding:局所線形埋め込み法)をここで適用して3Dから2Dへのコンバート/トランスフォームを行うことであって、LLEを表すパラメータが変換係数を含むことと、を含む方法のいずれか1つの方法を実行することにより可能になる。
2Dパラメータ化41、42、および43は、限られた数のパラメータで表すことができ、例えば1つ以上のパラメトリック方程式で定義することができる。ポイントクラウドの所定の3D部分に関連付けられる2Dパラメータ化は、所定の3D部分の幾何学的特徴(例えば、3D部分内に位置付けられる点群から取得される所定の3D部分の極点群、および/または所定の3D部分に含まれるオブジェクトの部分の外面の要素に関連付けられる法線情報)および取得デバイス(群)の姿勢情報(例えば、2Dパラメータ化の向きを設定するための)を考慮に入れることにより決定される。3D部分の幾何学的特徴および姿勢情報を考慮すると、3D部分に対向する空間に位置付けられる2Dパラメータ化、すなわち取得デバイスとポイントクラウドとの間に位置付けられる2Dパラメータ化を可能にすることができる。
図4から分かるように、2Dパラメータ化41、42、および43は互いに重なり合う可能性があり、重なり合いは、例えば2Dパラメータ化が関連付けられる3D部分の重なり合いに起因する。
3D部分を取得するために、ポイントクラウドを異なる方法に従って分割することができる。例えば、ポイントクラウドは、図8A〜図8Dの例に従って分割することができる。図8Aの非限定的な例によれば、ポイントクラウドが占有する3D空間81(例えば、半球)は、球座標系(r、θ、φ)に従って、すなわち半球の半径に対応し、かつ角度「θ」および「φ」に対応する距離「r」に従って分割され、各寸法「r」、「θ」、および「φ」は均等に分割されている。変形例によれば、寸法「r」、「θ」、および/または「φ」のうちの1つ以上の寸法は、変化することができる、例えば3D部分の奥行きは、寸法「r」とともに変化することができる。変形例によれば、各3D部分のサイズは、ポイントクラウドの点群を3D部分に均一に分布させるように決定され、3D点群のサイズは、ポイントクラウドが占有する空間の異なる領域の点群の局所密度に依存する。図8Bの例では、ポイントクラウドが占有する3D空間82(例えば、半球)は、球座標系(r、θ、φ)に従ってジグザグに分割される。図8Aおよび図8Bの例では、3D部分はビューカメラ錐台ボリュームとして見ることができる。図8Cの非限定的な例によれば、ポイントクラウドが占有する3D空間83(例えば、ポイントクラウドを区切るボックスに対応する平行六面体)は、デカルト座標系(x、y、z)に従って、すなわち3Dデカルト基準座標系の3次元に従って分割される。各3D部分は、立方体または直方体の形態を有することができる。各3D部分は、同じサイズを有することができるか、または3D部分は、例えば点群を全ての3D部分に均一に分布させるために異なるサイズとすることができる。図8Dは、図8Cの分割の変形例を示しており、平行六面体は、ポイントクラウドが占有する3D空間84内でジグザグに分布している。図8A、図8B、図8C、および図8Dに示されていない場合でも、ポイントクラウドの分割から得られる3D部分は互いに部分的に重なり合う可能性があり、ポイントクラウドの空間の幾つかの部分が幾つかの3D部分に属する可能性があることを意味している。ポイントクラウドの分割は固定することができる、または経時的に変化することができる。例えば、ポイントクラウドの分割は、GOP(グループオブピクチャ)から別のGOPに変化させることができる。MPEG−DASH(Dynamic Adaptive Streaming over HTTP:HTTP経由のダイナミックアダプティブストリーミング)の状況において適用される場合、分割はセグメントごとに変化することができ、ISOBMFF規格の座標系では、このセグメントはISOBMFFセグメントとすることができる。
図5は、本原理の非限定的な例によるフレームiに関する、およびフレームiよりも時間的に後に位置付けられるフレームjに関するポイントクラウドの3D部分との深度マップおよびテクスチャマップの関連付けを示している。オブジェクト5(図5の例の人物)を表す3Dポイントクラウドは、灰色の濃淡で示されている。オブジェクト5の分割51は、図8Aの例に対応する、すなわち隣接する3D部分の間で部分的に重なり合う球座標系に従った分割に対応する。明瞭性を期して、ポイントクラウドおよびポイントクラウドの分割は、θおよびφのみに従って2Dで表される。分割から得られる3D部分は、行列状に並べた正方形5100、5110、51mnで示されており、「m」は行インデックスに対応し、「n」は列インデックスに対応する。例えば、参照番号5100は、インデックス「0」の行に属し、かつインデックス「1」の列に属する正方形を指し、参照番号5110は、インデックス「1」の行に属し、かつインデックス「0」の列に属する正方形を指している。1つの深度マップは、ポイントクラウド5の各3D部分に関連付けられる。同じように、1つのテクスチャマップは、ポイントクラウド5の各3D部分に関連付けられる。
所定の3D部分、例えば3D部分5110に関連付けられる深度マップは、所定の3D部分5110に関連付けられる2Dパラメータ化のパラメータを使用することにより取得され、深度マップ5320は、3D部分5320に関連付けられる2Dパラメータ化のパラメータを使用することにより取得される。例えば、2Dパラメータ化が線形透視投影に対応する場合、2Dパラメータ化を表すパラメータは、視点の位置(すなわち、仮想カメラの位置)であり(これは、例えば3D部分に含まれるポイントクラウドの点群に関連付けられる法線から取得することができる)、水平視野および垂直視野である。深度マップに格納されることになる奥行き情報は、直線透視の場合の仮想カメラの位置、または正射投影の場合の2D投影面と、直線透視の場合の視点を起点として、または正射投影の場合の投影面に直交して、3D部分に含まれるポイントクラウドの点群で終了する光線に沿って3D部分に含まれるポイントクラウドの点群との間の距離に対応し、例えば実空間の点の座標、および視点の座標(線形透視投影の場合)を認識する。オブジェクトがポイントクラウドの点群から取得されるオブジェクトの暗黙的な表面で表される場合、深度マップに格納されることになる距離は、一方における光線と2Dパラメータ化表面との交差部と、他方における光線と暗黙的な表面との交差部との間の距離に対応する。奥行き情報の数は、サンプリング間隔に依存する2Dパラメータ化表面の解像度に依存する可能性がある。深度マップは、例えばスプラットレンダリング技法を適用することにより取得される、すなわち1つの点に関連付けられる深度値は、この点に関連付けられる2Dパラメータ化表面のサンプルに割り当てられ(このサンプルは、使用される2Dパラメータ化のタイプに依存する、例えば線形透視投影、正射投影、またはLLE)、さらに交差サンプルに隣接して位置付けられるサンプル(これらのサンプルはスプラットを形成する)に割り当てられる。変形例によれば、深度マップは、光線追跡技法を適用することにより、すなわち光線を2Dパラメータ化表面のサンプルから発射して、所定のサンプルに、この所定のサンプルから発射される光線が交差する点(または、光線に最も近い点)に関連付けられる深度値に対応する深度値を割り当てることにより取得される。
奥行き情報の符号化は、第1パッチアトラス53の深度マップごとに変化する可能性がある。例えば、所定の深度マップに関する奥行き情報の符号化は、所定の深度マップに関連付けられる3D部分の深度値範囲および/または3D部分に含まれる点群の数に適合させることができる。例えば、3D部分に関して計算される最小深度値および最大深度値に応じて、対応する深度マップの奥行き情報の符号化は、これらの最小値と最大値との差に適合するように決定される。差が小さい場合、奥行き情報は、例えば8ビットまたは10ビットで符号化することができ、差が大きい場合、奥行き情報は、例えば12ビット、14ビット、またはより多くのビットで符号化することができる。符号化を深度マップごとに変化させることにより、ビットレート符号化を最適化することができる。変形例によれば、奥行き情報は、最小深度値と最大深度値との差がどのようなものであっても、同じビット深度(例えば、8、10、12、または14ビット)で3Dマップごとに符号化されるが、最小値および最大値を考慮することにより符号化される。このような変形例により、差が小さい場合の量子化ステップを小さくすることができ、奥行き情報の符号化に関連付けられる量子化ノイズを低減することができる。
同じように、所定の3D部分に関連付けられるテクスチャマップは、所定の3D部分に関連付けられる2Dパラメータ化のパラメータを使用することにより取得される。所定の3D部分に含まれるポイントクラウドの点群から取り出されるカラー情報、または視点から放出される光線が交差するオブジェクトの暗黙的な表面から取り出されるカラー情報は、2Dパラメータ化表面のサンプルに関連付けられてカラーマップを形成する。深度マップに関しては、カラーマップは、例えばスプラットレンダリング技法を適用することにより取得される、すなわち1つの点に関連付けられるカラー値(群)は、この点に関連付けられる2Dパラメータ化表面のサンプルに割り当てられ(このサンプルは、使用される2Dパラメータ化のタイプ、例えば線形透視投影、正射投影、またはLLEに依存する)、さらに交差サンプルに隣接して位置付けられるサンプル(これらのサンプルはスプラットを形成する)に割り当てられる。変形例によれば、テクスチャマップは、光線追跡技法を適用することにより、すなわち光線を2Dパラメータ化表面のサンプルから発射して、所定のサンプルに、この所定のサンプルから発射される光線が交差する点(または、光線に最も近い点)に関連付けられるカラー値に対応するカラー値を割り当てることにより取得される。奥行き情報に関しては、所定のカラーマップに関するカラー情報の符号化は、所定のカラーマップに関連付けられる3D部分のカラー値範囲に、および/または3D部分に含まれる点の数に適合させることができる。例えば、3D部分に関して計算される最小カラー値および最大カラー値に応じて、対応するカラーマップのカラー情報の符号化は、これらの最小値と最大値との差に適合するように決定される。差が小さい場合、テクスチャ/カラー情報は、例えば8または10ビットで符号化することができ、差が大きい場合、テクスチャ/カラー情報は、例えば12ビット、14ビット、またはより多くのビットで符号化することができる。符号化をカラーマップごとに変化させることにより、ビットレート符号化を最適化することができる。変形例によれば、カラー情報は、最小カラー値と最大カラー値との差がどのようなものであっても、同じビット深度(例えば、8、10、12、または14ビット)でテクスチャマップごとに符号化されるが、最小値および最大値を考慮することにより符号化される。このような変形例により、差が小さい場合の量子化ステップを小さくして、ポイントクラウドで表されるオブジェクトのHDR(ハイダイナミックレンジ)表現を取得するために使用することができるより高いカラーダイナミックレンジまたはより高いルミナンスレンジを可能にする。
取得された深度マップ集合は、第1パッチアトラス53に、決定された構成、またはランダムな構成に従って、例えば行および列の行列状に並べることができ、第1パッチアトラス53のパッチは、1つの深度マップに対応する。例えば、パッチ531は、3D部分5110に関連付けられる深度マップである。
同じように、取得されたテクスチャマップ集合を第2パッチアトラス54に、例えば第1パッチアトラス53の深度マップと同じ構成に従って並べる。
第1マッピング情報を生成して2Dパラメータ化と、関連付けられる深度マップおよびテクスチャマップとの接続を、それぞれ第1および第2パッチアトラスに保存することができる。第1マッピング情報は、例えば:
{2Dパラメータ化のパラメータ;深度マップID;テクスチャマップID}の形式とすることができ、
深度マップIDは、整数値とするか、または深度マップが属する列インデックスUおよび行インデックスVを第1パッチアトラスのパッチ行列に含む一対の値とすることができ、テクスチャマップIDは、整数値とするか、またはテクスチャマップが属する列インデックスU’および行インデックスV’を第2パッチアトラスのパッチ行列に含む一対の値とすることができる。
{2Dパラメータ化のパラメータ;深度マップID;テクスチャマップID}の形式とすることができ、
深度マップIDは、整数値とするか、または深度マップが属する列インデックスUおよび行インデックスVを第1パッチアトラスのパッチ行列に含む一対の値とすることができ、テクスチャマップIDは、整数値とするか、またはテクスチャマップが属する列インデックスU’および行インデックスV’を第2パッチアトラスのパッチ行列に含む一対の値とすることができる。
深度マップおよびテクスチャマップを第1パッチアトラスおよび第2パッチアトラスと同じ構成に従って並べる場合、深度マップIDおよびテクスチャマップIDは同じであり、第1マッピング情報は、例えば:
{2Dパラメータ化のパラメータ;深度マップIDおよびテクスチャマップID}の形式とすることができ、
「depth and texture maps ID(深度マップIDおよびテクスチャマップID)」は、第1パッチアトラスの深度マップおよび第2マップアトラスのカラーマップの両方を、深度マップおよびテクスチャマップの両方に関連付けられる同じ整数値、または深度マップおよびテクスチャマップが属する一対の列インデックス値Uおよび行インデックス値Vのいずれかにより、それぞれ第1パッチアトラスおよび第2パッチアトラスに特定する。
{2Dパラメータ化のパラメータ;深度マップIDおよびテクスチャマップID}の形式とすることができ、
「depth and texture maps ID(深度マップIDおよびテクスチャマップID)」は、第1パッチアトラスの深度マップおよび第2マップアトラスのカラーマップの両方を、深度マップおよびテクスチャマップの両方に関連付けられる同じ整数値、または深度マップおよびテクスチャマップが属する一対の列インデックス値Uおよび行インデックス値Vのいずれかにより、それぞれ第1パッチアトラスおよび第2パッチアトラスに特定する。
同じマッピング情報は、2Dパラメータ化ごとに、および関連付けられる深度マップおよびテクスチャマップごとに生成される。このような第1マッピング情報からポイントクラウドを、対応する深度マップおよびテクスチャマップとの2Dパラメータ化の関連付けを確立することにより再構成することができる。2Dパラメータ化が投影である場合、ポイントクラウドは、関連付けられる深度マップに含まれる奥行き情報、および関連付けられるテクスチャマップのテクスチャ/カラー情報を逆投影する(逆投影を実行する)ことにより再構成することができる。次に、第1マッピング情報はマッピング情報リストに対応する:
{2Dパラメータ化のパラメータ;深度マップIDおよびテクスチャマップID}i、
i=1〜nの場合、nは2Dパラメータ化の数である。
{2Dパラメータ化のパラメータ;深度マップIDおよびテクスチャマップID}i、
i=1〜nの場合、nは2Dパラメータ化の数である。
第1パッチアトラス53および第2パッチアトラスは、同じ解像度の画像、すなわちK列およびL行の行列状に並べた同じ数の画素を有する画像として見ることができ、KおよびLは整数である。各パッチ(第1パッチアトラス53の深度マップまたは第2パッチアトラス54のテクスチャマップのいずれかに対応する)は、第1パッチアトラス53または第2パッチアトラスのいずれかを表す画像の画素部分集合を含む。
任意の変形例によれば、第2マッピング情報は、第1パッチアトラス53または第2パッチアトラス54のいずれかを表す画像の画素に関連付けることができ、第2マッピング情報は、第1パッチアトラス53を表す画像、および第2パッチアトラス54を表す画像に共通であるので有利であり、解像度は両方の画像に関して同じであり、同じ2Dパラメータ化を指すパッチは、第1および第2パッチアトラスの両方の同じ構成に従って編成される。第2マッピング情報は、第1パッチアトラス(または、第2パッチアトラス)を表す画像の各画素または各画素グループが、どの2Dパラメータ化を指しているか、またはどの2Dパラメータ化に関連付けられるかを示している。その目的を達成するために、識別情報が各2Dパラメータ化(例えば、2Dパラメータ化ごとに異なる整数値)に関連付けられる。第2マッピング情報は、例えば行および列に並べたセル群のマップの形式とすることができ、各セルは、画像の画素または画素グループに対応し、対応する2Dパラメータ化の識別情報を含む。別の例によれば、第2マッピング情報は、例えば以下の形式のリストに対応する:
第1/第2パッチアトラスを表す画像の画素ごとの、または画素グループごとの{3D部分識別情報;画素/画素グループ識別情報}。
第1/第2パッチアトラスを表す画像の画素ごとの、または画素グループごとの{3D部分識別情報;画素/画素グループ識別情報}。
第2マッピング情報から、復号器/レンダリングされる側における情報の復号を、画像の画素ごとに行われる必要がある各3D部分に関連付けられる識別情報の取り出しを容易にすることにより高速化することができる。復号器の通常の実施態様は、画像の画素ごとのこの取り出しをGPU(グラフィックプロセッシングユニット)で並行して実行する必要があり、リストの閲覧を回避する必要がある。この任意の変形例によれば、この第2マッピング情報は、通常、解像度がカラーおよび奥行き画像よりも低い画像であり、各画素は、画素/点が属する各3D部分に関連付けられる識別情報を直接与える。
オブジェクト5の分割は、経時的に変化する可能性があり、例えばGOPから別の次のGOPで異なる可能性がある、またはオブジェクト5のトポロジーの変化が変化している場合に異なる可能性がある、またはqフレームごとに異なる可能性があり、qは1以上の整数である。分割におけるこのような変化は、図5にフレームjで示されている。フレームjにおけるオブジェクト5の分割52は、フレームiにおける同じオブジェクト5の分割51とは異なっている。図5の例では、フレームjにおけるオブジェクト5のトポロジーは、フレームiにおけるオブジェクト5のトポロジーとは異なっている。フレームjは、例えばフレームiを含むGOPよりも時間的に後のGOPに属することができる。3D部分に関連付けられる深度マップと、対応する2Dパラメータ化と、を含む第1パッチアトラス55は、フレームiに関して説明したように、分割から得られ、3D部分に含まれる点群の幾何学構造(例えば、座標)を表すデータから得られる3D部分に関連付けられる2Dパラメータ化を表すパラメータを使用して取得される。分割52から得られる3D部分の数は、分割51から得られる3D部分の数よりも少ないので、第1パッチアトラス55の深度マップの数は、第1パッチアトラス53に含まれる深度マップの数よりも少ない。同じように、3D部分に関連付けられるテクスチャマップと、対応する2Dパラメータ化と、を含む第2パッチアトラス56は、フレームiに関して説明したように、分割52から得られ、3D部分に含まれる点群の幾何学構造(例えば、座標)を表すデータから得られる3D部分に関連付けられる2Dパラメータ化を表すパラメータを使用して取得される。分割52から得られる3D部分の数は、分割51から得られる3D部分の数よりも少ないので、第2パッチアトラス56のテクスチャマップの数は、第2パッチアトラス54に含まれる深度マップの数よりも少ない。
図6は、オブジェクト5を表す3D表現(例えば、ポイントクラウド)の3D部分に関連付けられる第1または第2パッチアトラスの追加の非限定的な例を示している。図6は、例えば図5の分割51に対応するポイントクラウドの第1分割61、および同じポイントクラウドの第2分割62を示している。第1パッチアトラス63は、第1分割61から生成され、第1パッチアトラス63は、分割61から得られる3D部分に関連付けられる2Dパラメータ化から取得される深度マップを含む。第2パッチアトラス64は、第1分割61から生成され、第2パッチアトラス64は、分割61から得られる3D部分に関連付けられる2Dパラメータ化から取得されるテクスチャマップを含む。
第2分割62は、第1分割61の3D部分群の幾つかの3D部分が、第2分割62の単一の3D部分にグループ化されているという意味で第1分割61とは異なっている。例えば、人物の胴を表す第1分割61の6つの3D部分をグループ化して、1つの3D部分622を第2分割62に形成している。同じように、人物の肩および腕の部分を表す第1分割61の4つの3D部分をグループ化して、1つの3D部分621を第2分割62に形成している。3D部分は、例えば3D部分に含まれるポイントクラウドの点群に関連付けられる幾何学的特徴に従ってグループ化される。例えば、これらの3D部分の各3D部分に含まれる点群から取得される暗黙的な表面が同様のトポロジーを有する、例えば互いに接近する法線、および/または互いに接近して関連付けられる深度値範囲を有する場合、3D部分をグループ化して合成することができる。
第1パッチアトラス65は、第2分割62から生成され、第1パッチアトラス65は、第2分割62から得られる3D部分に関連付けられる2Dパラメータ化から取得される深度マップを含む。図6に示すように、第1パッチアトラス65の深度マップの形状および数は、第1パッチアトラス63の深度マップの形状および数とは異なっている。3D部分621、622の2Dパラメータ化に関連付けられる深度マップ651、652の幾つかは、第1パッチアトラス63の対応する深度マップと比較してサイズが異なっている。同じように、第2パッチアトラス66は、第2分割62から生成され、第2パッチアトラス66は、第2分割62から得られる3D部分に関連付けられる2Dパラメータ化から取得されるテクスチャマップを含む。第2パッチアトラス66のカラーマップの数は、第1分割61の3D部分をグループ化して第2分割62を取得した後の第2パッチアトラス64のカラーマップの数よりも少ない。このグループ化により、パッチの数を減らすことができるので、シャープな境界および高空間周波数情報の数を減らすことができる。これを減らすことにより、テクスチャマップおよび深度マップの圧縮ビットレートを下げることができる。
追加の例によれば、単一の2Dパラメータ化は、オブジェクト5全体に関連付けることができ、単一の深度マップおよび単一のテクスチャマップは、オブジェクト5全体に関して生成することができる。
図7は、本原理の非限定的な例による第1および第2パッチアトラスを、オブジェクト5を表すポイントクラウドの3D部分から生成することを示している。
オブジェクト5を表すポイントクラウドは、複数の3D部分、例えば50、100、1000、またはそれよりも多くの3D部分に分割され、これらの3D部分のうちの3つの3D部分が図7に示されている、すなわち3D部分71、72、および73が示されており、3D部分71は、人物の頭部の部分を表すポイントクラウドの点群を含み、3D部分72は、人物の脇の下を表すポイントクラウドの点群を含み、3D部分73は、人物の手を表すポイントクラウドの点群を含む。各3D部分または3D部分の構成部分の1つ以上の2Dパラメータ化を生成して、各3D部分を2次元で表す。例えば、2Dパラメータ化701は、3D部分71に関して可能になり、2Dパラメータ化702は3D部分72に関して可能になり、2つの異なる2Dパラメータ化703および704は、3D部分73に関して可能になる。2Dパラメータ化は、3D部分ごとに変化する可能性がある。例えば、3D部分71に関連付けられる2Dパラメータ化701が線形透視投影であるのに対し、3D部分72に関連付けられる2Dパラメータ化702はLLEであり、3D部分73に関連付けられる2Dパラメータ化703および704はともに、異なる視点に従った正射投影である。2Dパラメータ化を可能にするために使用される全ての視点は、オブジェクト5の画像を取得するために、かつ関連付けられるポイントクラウドを取得するために使用される取得デバイスの視点範囲内に位置付けられるように選択される。変形例によれば、全ての3D部分に関連付けられる全ての2Dパラメータ化は、同じタイプであり、例えば線形透視投影または正射投影である。変形例によれば、異なる2Dパラメータ化を同じ3D部分に関して使用することができる。可能になった2Dパラメータ化に関連付けられる深度マップを収集した第1パッチアトラス74は、図5および図6に関して説明した通りに生成される。第1パッチアトラスは、深度マップの中でもとりわけ、2Dパラメータ化701に関連付けられる深度マップ741、2Dパラメータ化702に関連付けられる深度マップ742、2Dパラメータ化703に関連付けられる深度マップ743、および2Dパラメータ化704に関連付けられる深度マップ744を含む。可能になった2Dパラメータ化に関連付けられるテクスチャマップを収集した第2パッチアトラス75は、図5および図6に関して説明した通りに生成される。
3D部分ごとの2Dパラメータ化の選択は、例えば最適化プロセスに基づいて行われて、例えば第1および第2パッチアトラスのマップの数を減らす、および/または3Dから2Dへの変換プロセス中に失われる3D部分の点群を最小限に抑える。
各深度マップまたはテクスチャマップは、第1パッチアトラスおよび第2パッチアトラスに対する詰め込みプロセスを容易にする矩形形状を有するので有利である。
第1パッチアトラスおよび第2パッチアトラスそれぞれの深度マップおよびテクスチャマップは、復号器側で破棄されることになる境界で分離されて、シャープな視覚的境界で発生する圧縮アーティファクトを取り除く。ポイントクラウドを再生成するために復号器側で深度マップおよびテクスチャマップの取り出しを行うための正確な部分の情報、例えば深度マップ/テクスチャマップの幅および高さは、例えばスパンを、線形透視投影または正射透視投影の場合の画素で表現される投影面の2次元で与えるパラメータのような2Dパラメータ化のパラメータ群の幾つかのパラメータにより供給される。
図9および図10は、本原理の非限定的な実施形態によるシーンの3D表現または3D表現の部分に関連付けられる2Dパラメータ化の空間サンプリングの適応化を示している。
図9は、例えば2Dパラメータ化41、42、または43の1つに対応する2Dパラメータ化90の例を示している。2Dパラメータ化は、2Dパラメータ化90に対応するシーンの3D表現の部分に含まれる注目領域に各々対応する2つの注目領域901を含む。3D表現の注目領域(群)は、例えば当業者には既知の任意のオブジェクトレベルの顕著性検出手法を適用することにより決定される。1人以上の人物を含むシーンに適用される場合、オブジェクトレベルの顕著性検出手法は、人物(群)の顔(群)が注目オブジェクトであることを考慮した顔検出手法とすることができる。オブジェクトレベルの顕著性検出手法は、例えば図2Aおよび図2Bの取得デバイスで取得される3Dシーンの画像に適用することができる。2Dパラメータ化90の空間サンプリングは、2Dパラメータ化の他のエリアに割り当てるよりも多くのサンプル(例えば、画素)を、注目領域901を含む2Dパラメータ化のエリアに割り当てるように適合させることができる。その目的を達成するために、グリッド生成手法(例えば、J.E.CASTILLO、J.S.OTTOによる「A Practical Guide to Direct Optimization for Planar Grid−Generation(平面グリッド生成の直接最適化の実用ガイド)」に記載されているように)を使用して、2Dパラメータ化90のサンプリングを2Dパラメータ化において検出される注目領域または注目点に応じて適応させることができる。グリッド生成アルゴリズムは、例えばサンプリングマッピング演算子SMO91と呼ばれるパラメータ集合で記述することができる。SMO91を2Dパラメータ化90に適用することにより、出力2Dパラメータ化92が可能になる。注目領域921の表現が占有する空間は、出力2Dパラメータ化92においては、入力2Dパラメータ化90において注目領域901が占有する空間よりも大きい。入力2Dパラメータ化90および出力2Dパラメータ化92の両方におけるサンプル(画素)の総数を考慮すると、注目領域に割り当てられるサンプル(画素)の数は、入力2Dパラメータ化におけるよりも出力2Dパラメータ化において多いのに対し、他のエリア(注目点を含まない)921に割り当てられるサンプル(画素)の数は、入力2Dパラメータ化90におけるよりも出力2Dパラメータ化92において少ない。
図10は、2Dパラメータ化90に対応することができ、出力2Dパラメータ化92、およびサンプリングマッピング演算子SMO91の逆数に対応するサンプリングマッピング演算子SMO−1101に由来して行われる画像100の再構成を示している。2Dパラメータ化92を表すデータ(すなわち、2Dパラメータ化を形成するサンプル/画素に関連付けられるデータ、例えば2Dパラメータ化に関連付けられる深度マップまたはテクスチャマップに格納されているデータ)は、SMO91と一緒にネットワークを介して、例えばビットストリームで、2Dパラメータ化100を表すデータを復号および生成するように構成された復号器に送信されている可能性がある。
サンプリングマッピング演算子を生成する方法の例は、2017年5月4日に出願された欧州特許出願第EP17305504.7号に記載されている。
図11は、本原理の非限定的な実施形態による図3の3D表現30、31のような3Dシーンの3D表現を表すデータを符号化および復号する第1方式を示している。以下に、単一の2Dパラメータ化に関連付けられる単一の深度マップおよび単一のテクスチャマップに関して説明される。当然のことながら、同じ処理が複数の2Dパラメータ化および関連付けられる深度マップおよびテクスチャマップに適用される。
図11は、深度マップおよびテクスチャマップをビットストリームに符号化するように構成される符号化器111、および深度マップおよびテクスチャマップを符号化器111で取得されるビットストリームから復号するように構成された復号器112を示している。符号化器111は、深度マップおよびテクスチャマップのブロックを符号化するときにどの量子化ステップを使用することができるかを決定するように適合させる。量子化ステップは、例えばモジュール1111において、関連付けられる深度マップおよびテクスチャマップを取得するために使用される3D表現の部分内の注目領域(ROI)(群)の位置を含む顕著性マップから決定することができる。顕著性マップは、例えば3D表現の考慮対象部分から取得されるROIマスクを、深度マップおよびテクスチャマップに関連付けられる2Dパラメータ化に投影することにより取得される。QPマップ(量子化パラメータマップ)は、顕著性マップから導出することができ、QPマップは、例えばどの量子化ステップ値を、各ブロック(深度マップおよびテクスチャマップの)を符号化するために使用する必要があるかを示している。例えば、第1量子化パラメータ値(例えば、0に近い微小値)は、ROIを含む2Dパラメータ化のエリア(または、深度マップおよびテクスチャマップのエリアと同等の)に属する画素ブロックに使用することができ、第2量子化パラメータ値(第1量子化パラメータ値よりも大きい)は、ROIを含まない2Dパラメータ化のエリア(または、深度マップおよびテクスチャマップのエリアと同等の)に属する画素ブロックに使用することができる。ROIを小さな量子化パラメータで符号化することにより、3D表現を符号化ビットストリームから再構成するときに、より良好な精度および品質を取得することができる。
量子化パラメータを使用して量子化ステップ(QS)を、例えば以下の法則:
QS=K.2QP/6
に従って定義することができ、式中、Kは、画素ブロックのサイズに依存するパラメータであり、QPは0〜51の間で変化することができる。
QS=K.2QP/6
に従って定義することができ、式中、Kは、画素ブロックのサイズに依存するパラメータであり、QPは0〜51の間で変化することができる。
奥行き情報符号化器1112は、深度マップをモジュール1111から取得されるQPマップに従って符号化する、すなわちROIに含まれる深度マップの画素ブロックに関連付けられる量子化パラメータ、およびROIを含まないエリアに含まれる深度マップの画素ブロックに関連付けられる量子化パラメータを使用することにより符号化する。深度マップのデータは、例えばビットストリームの最初のシンタックス要素に、決定されたフォーマットに従って、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に従って符号化される、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に従って符号化される。異なる画素ブロックを符号化するために使用される異なる量子化パラメータに関する情報(例えば、QPは、ROIにおいて0に等しく、QPは、他の画素ブロックの場合に12に等しい)は、ビットストリームに、深度マップの符号化データで符号化される。
テクスチャ情報符号化器1113は、テクスチャマップを、モジュール1111から取得されるQPマップに従って符号化する、すなわちROIに含まれるテクスチャマップの画素ブロックに関連付けられる量子化パラメータ、およびROIを含まないエリアに含まれるテクスチャマップの画素ブロックに関連付けられる量子化パラメータを使用することにより符号化する。テクスチャマップのデータは、例えばビットストリームの第2シンタックス要素に、決定されたフォーマットに従って符号化される、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に従って符号化される、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に従って符号化される。異なる画素ブロックを符号化するために使用される異なる量子化パラメータに関する情報(例えば、QPは、ROIにおいて0に等しく、QPは、他の画素ブロックの場合に25に等しい)は、ビットストリームに、テクスチャマップの符号化データで符号化される。
変形例によれば、QPマップは、ビットストリームの第3シンタックス要素に符号化される。この変形例によれば、深度マップおよびテクスチャマップの異なる画素ブロックを符号化するために使用される異なる量子化パラメータに関する情報は、この情報が復号器112により第3シンタックス要素から取り出されるので、第1および第2シンタックス要素に符号化されることがない。
別の任意の変形例によれば、深度マップおよびテクスチャマップのサンプリンググリッドは、ROI(図9および図10に関して説明される)にモジュール114において、モジュール113によりROIマスクから取得されるSMOを使用して適合させる/マッピングさせる。この変形例によれば、モジュール113および114は、符号化器111に組み込まれる機能モジュールとすることができる。この変形例によれば、QPカートグラフィ(地図作成)もまた、奥行き情報符号化器およびテクスチャ情報符号化器に送信される前に、深度マップおよびテクスチャマップのサンプリングに適合させる/マッピングさせる。
第1、第2、および第3シンタックス要素を含むビットストリームが生成される。ビットストリームは、2Dパラメータ化(深度マップおよびテクスチャマップをシーンの3D表現から取得するために使用される)を表す1つ以上のパラメータと、2Dパラメータ化と深度マップおよびテクスチャマップとの間のマッピングを表す情報と、をさらに含む。
取得されるビットストリームは、ネットワーク(例えば、LAN(ローカルエリアネットワーク)またはWLAN(ワイヤレスローカルエリアネットワーク)を介して、および/またはインターネットネットワークを介して、例えば復号器112に送信することができる。
復号器112は、第1シンタックス要素に符号化される深度データを復号するように適合させた奥行き情報復号器1121と、第2シンタックス要素に符号化されるテクスチャデータを復号するように適合させたテクスチャ情報復号器1122と、を備える。深度マップおよびテクスチャマップの画素ブロックは、これらのブロックの各ブロックに関連付けられる量子化パラメータを使用して復号される(例えば、QPは、画素ブロックがROIに含まれる場合に0に等しく、QPは、他の画素ブロックの場合に12に等しい)。復号器1121および1122は、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に準拠している、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に準拠している。
深度マップおよびテクスチャマップのサンプリンググリッドをROIマスクに従って適合させている場合、逆サンプリング演算子SMO−1がビットストリームから復号され、復号された深度マップおよびテクスチャマップに、例えばモジュール115において適用され、モジュール115は、シーンの3D表現を再構成するために復号器112に組み込むことができる、または組み込まなくてもよい。
図12は、本原理の非限定的な実施形態による図3の3D表現30、31のような3Dシーンの3D表現を表すデータを符号化および復号する第2方式を示している。以下に、単一の2Dパラメータ化に関連付けられる単一の深度マップおよび単一のテクスチャマップに関して説明される。当然のことながら、同じ処理が複数の2Dパラメータ化、および関連付けられる深度マップおよびテクスチャマップに適用される。
図12は、深度マップおよびテクスチャマップをビットストリームに符号化するように構成される符号化器121、および深度マップおよびテクスチャマップを符号化器121で取得されるビットストリームから復号するように構成された復号器122を示している。符号化器121は、テクスチャマップを符号化するように適合させたテクスチャ情報符号化器1211を含む。テクスチャマップのデータは、例えばビットストリームの第2シンタックス要素に、決定されたフォーマットに従って符号化される、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に従って符号化される、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に従って符号化される。
符号化テクスチャデータは、符号化器121に含まれるテクスチャ情報復号器1212に送信され、テクスチャ情報復号器1212は、復号器122に含まれるテクスチャ情報復号器1221と同じである。テクスチャ情報復号器1212は、H.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に準拠している、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に準拠している。テクスチャ情報復号器1212は、符号化器1211で符号化されたテクスチャデータを第2シンタックス要素に復号する。ROI検出器1213を実現して、テクスチャ情報復号器1212で復号されたテクスチャデータを処理して復号されたテクスチャマップ内の注目領域(群)の位置を検出し、復号したROIマスクは、例えば生成されている。復号したROIマスクを、テクスチャマップから生成される(符号化前に)ROIマスクと比較して、ROIマスクの予測誤差を取得する。ROIマスクの予測誤差は、例えばビットストリームの第3シンタックス要素に符号化される。
符号化器121は、深度マップのデータを、ROIマスクに従って符号化する、すなわち異なる量子化パラメータで異なる画素ブロックを、画素ブロックがROIに属するかどうかに応じて符号化することにより符号化するように適合させた奥行き情報符号化器1214をさらに含む。深度マップは、ビットストリームの第1シンタックス要素に符号化される。第1シンタックス要素は、データを符号化するために使用される量子化ステップに関する情報を含まない符号化深度マップを表す符号化データのみを含む。
第1、第2、および第3シンタックス要素を含むビットストリームが生成される。ビットストリームは、2Dパラメータ化(深度マップおよびテクスチャマップをシーンの3D表現から取得するために使用される)を表す1つ以上のパラメータと、2Dパラメータ化と深度マップおよびテクスチャマップとの間のマッピングを表す情報と、をさらに含む。
取得されたビットストリームは、ネットワーク(例えば、LAN(ローカルエリアネットワーク)またはWLAN(ワイヤレスローカルエリアネットワーク))を介して、および/またはインターネットネットワークを介して、例えば復号器122に送信することができる。
復号器122は、第2シンタックス要素に符号化されたテクスチャデータを復号するように適合させた復号器1221と、第1シンタックス要素に符号化された深度データを復号するように適合させた奥行き情報復号器1223と、を含む。深度マップの画素ブロックは、復号テクスチャマップに適用されるROI検出器1222から取得されるROIマスクと組み合わされる第3シンタックス要素に符号化された予測誤差から取得される量子化パラメータを使用して復号される。復号器1221および1222は、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に準拠している、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に準拠している。
図12の符号化/復号方式は、ビットストリームで送信される量子化パラメータを記述するデータの量を最適化する、すなわち減らすことを可能にする。予測誤差のみが符号化され、ビットストリーム内で転送される。
第2方式は、テクスチャ情報復号器で復号されるテクスチャデータに適用されるROI検出器の例に基づいて説明されており、ROIマスクの予測誤差は、深度データを復号するために使用されている。同じ方式は、ROI検出器を奥行き情報復号器で復号される深度データに適用することにより適用することができ、ROIマスクの予測誤差は、テクスチャデータを復号するために使用されている。
任意の変形例によれば、テクスチャ情報符号化器1211は、テクスチャデータをROIマスクに従って符号化する、すなわちテクスチャマップの画素ブロックがROIに属するかどうかに応じて変化する量子化パラメータに従って符号化する。この変形例によれば、量子化パラメータは、テクスチャデータと一緒に符号化することができ、テクスチャ情報復号器1221が、それに応じて符号化テクスチャデータを復号することができる。
図13は、本原理の非限定的な実施形態による図3の3D表現30、31のような3Dシーンの3D表現を表すデータを符号化および復号する第3方式を示している。以下に、単一の2Dパラメータ化に関連付けられる単一の深度マップおよび単一のテクスチャマップに関して説明される。当然のことながら、同じ処理が複数の2Dパラメータ化および関連付けられる深度マップおよびテクスチャマップに適用される。
図13は、深度マップおよびテクスチャマップをビットストリームに符号化するように構成される符号化器131、および深度マップおよびテクスチャマップを符号化器131で取得されるビットストリームから復号するように構成された復号器132を示している。深度マップおよびテクスチャマップはまず、SMOに従って符号化されてサンプリンググリッドをROIマスクに適合133させる。符号化器131は、どの量子化パラメータを使用して深度マップおよびテクスチャマップのブロックを符号化することができるかを決定するように適合させたモジュール1311を含む。量子化パラメータは、深度マップおよびテクスチャマップのサンプリンググリッドをROIに従って適合させるために使用されているSMOから決定することができる。例えば、SMOから、サンプリンググリッドが深度マップまたはテクスチャマップのエリアにおいてより高密度であると決定される場合、このエリアはROIに対応していると推定することができる。逆に、SMOから、サンプリングレベルが普通であると、または粗いと決定される場合、このエリアは、ROIを全く含んでいない深度マップまたはテクスチャマップのエリアに対応していると推定することができる。次に、QPマップは、深度マップおよびテクスチャマップに適用される適応サンプリングを表すパラメータSMOのモジュール1311から取得することができる。QPマップは、例えばどの量子化ステップ値を使用して各ブロック(深度マップおよびテクスチャマップの)を符号化する必要があるかを示している。例えば、第1量子化パラメータ値(例えば、0に近い微小値)は、ROIを含む2Dパラメータ化のエリア(または、深度マップおよびテクスチャマップのエリアと同等のエリア)に属する画素ブロックに使用することができ、第2量子化パラメータ値(第1量子化パラメータ値よりも大きい)は、ROIを含まない2Dパラメータ化のエリア(または、深度マップおよびテクスチャマップのエリアと同等のエリア)に属する画素ブロックに使用することができる。例えば、ROIに含まれる画素ブロックが、0に等しいQPで符号化することができるのに対し、ROIに含まれない画素ブロックは、奥行きの場合に12に等しく、テクスチャの場合に25に等しいQPで符号化することができる。ROIを微小量子化パラメータ値で符号化することにより、3D表現を符号化ビットストリームから再構成する場合に、より良好な精度および品質を取得することができる。
奥行き情報符号化器1312は、深度マップを、モジュール1311から取得されるQPマップに従って符号化する、すなわちROIに含まれる深度マップの画素ブロックに関連付けられる量子化パラメータ、およびROIを含まないエリアに含まれる深度マップの画素ブロックに関連付けられる量子化パラメータを使用することにより符号化する。深度マップのデータは、例えばビットストリームの第1シンタックス要素に、決定されたフォーマットに従って符号化される、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に従って符号化される、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に従って符号化される。
テクスチャ情報符号化器1313は、テクスチャマップを、モジュール1311から取得されるQPマップに従って符号化する、すなわちROIに含まれるテクスチャマップの画素ブロックに関連付けられる量子化パラメータ、およびROIを含まないエリアに含まれるテクスチャマップの画素ブロックに関連付けられる量子化パラメータを使用することにより符号化する。テクスチャマップのデータは、例えばビットストリームの第2シンタックス要素に、決定されたフォーマットに従って符号化される、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に従って符号化される、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に従って符号化される。
第1および第2シンタックス要素を含むビットストリームが生成される。ビットストリームは、深度マップおよびテクスチャマップに適用される適応サンプリングを表すパラメータSMOを含む第3シンタックス要素をさらに含む。別の例によれば、第3シンタックス要素は、逆パラメータSMO−1を含み、これらのパラメータは、適応サンプリングマッピングで取得されている深度マップおよびテクスチャマップを逆投影することを可能にする。ビットストリームは、2Dパラメータ化(深度マップおよびテクスチャマップをシーンの3D表現から取得するために使用される)を表す1つ以上のパラメータと、2Dパラメータ化と深度マップおよびテクスチャマップとの間のマッピングを表す情報と、をさらに含む。
取得されたビットストリームは、ネットワーク(例えば、LAN(ローカルエリアネットワーク)またはWLAN(ワイヤレスローカルエリアネットワーク))を介して、および/またはインターネットネットワークを介して、例えば復号器132に送信することができる。
復号器132は、第1シンタックス要素に符号化された深度データを復号するように適合させた奥行き情報復号器1321と、第2シンタックス要素に符号化されたテクスチャデータを復号するように適合させたテクスチャ情報復号器1322と、を含む。復号器132は、QPマップを第3シンタックス要素に含まれるパラメータから生成するように構成されたモジュール1321をさらに含み、モジュール1321は、例えばモジュール1311と同じである。深度マップおよびテクスチャマップの画素ブロックは、QPマップに含まれ、これらのブロックの各ブロックに関連付けられる量子化パラメータを使用して復号される(例えば、QPは、画素ブロックがROIに含まれる場合に0に等しく、QPは、他の画素ブロックの場合の奥行き、およびテクスチャのそれぞれに関して12および25に等しい)。復号器1321および1322は、例えばH.264/MPEG−4 AVC:「Advanced video coding for generic audiovisual Services(汎用オーディオビジュアルサービスの最新ビデオ符号化)」、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、ITU−T H.264勧告、2014年2月のITUのTelecommunication Standardization Sector(電気通信標準化セクター)に準拠している、またはHEVC/H265:「ITUのITU−T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR(電気通信標準化セクター)(10/2014)、SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS(オーディオビジュアルマルチメディアシステム)、Infrastructure of audiovisual services(オーディオビジュアルサービスのインフラストラクチャ)−Coding of moving video(動画の符号化)、High efficiency video coding(高効率のビデオ符号化)、ITU−T H.265勧告」に準拠している。
次に、復号された深度マップおよびテクスチャマップは、マッピング解除パラメータSMO−1を使用してマッピング解除135されて、深度マップおよびテクスチャマップに関連付けられるシーンの3D表現を生成することができる。
第3符号化/復号方式により、ビットストリームに符号化されてビットストリームで送信されるデータの量を減らすことができる。実際、深度マップおよびテクスチャマップ内の量子化ステップの変化を記述する追加情報を符号化する必要はないが、この情報が、深度マップおよびテクスチャマップに適用される適応サンプリングマッピングを記述するパラメータSMOまたはSMO−1から導出されるからである。
QPマップは、多くの方法で取得することができる。例えば、QPマップは、マッピング解除適応サンプリング関数から簡単に導出することができる。符号化ブロックごとに、マッピング解除後の隣接点の間の平均距離を計算することができ、距離がより小さくなると、サンプリング密度がより高くなるので、ブロックがROI内に含まれる確率がより高くなる(この場合、パラメトリック表面のサンプリング密度が増加している)。符号化器および復号器は、サンプリング密度範囲をQP値にマッピングして、どの量子化パラメータをサンプリング密度ごとに使用する必要があるかを決定するLUT(ルックアップテーブル)を必要とするだけである。符号化器および復号器のメモリに格納することができるこのテーブルを送信する必要はない。変形例によれば、テーブルはビットストリームに符号化されて、ビットストリームで送信される。
図14は、図18および/または図19に関連して説明される方法を実現するように構成することができるデバイス14の例示的なアーキテクチャを示している。デバイス14は、図11、図12、図13の符号化器111、121、131または復号器112、122、132となるように構成することができる。
デバイス14は、データおよびアドレスバス141により互いにリンクされる以下の要素:
−例えばDSP(または、デジタルシグナルプロセッサ)であるマイクロプロセッサ142(または、CPU)、
−ROM(または、リードオンリーメモリ)143、
−RAM(または、ランダムアクセスメモリ)144、
−ストレージインターフェース145、
−アプリケーションから送信されるデータを受信するI/Oインターフェース146、および
−電源、例えばバッテリを含む。
−例えばDSP(または、デジタルシグナルプロセッサ)であるマイクロプロセッサ142(または、CPU)、
−ROM(または、リードオンリーメモリ)143、
−RAM(または、ランダムアクセスメモリ)144、
−ストレージインターフェース145、
−アプリケーションから送信されるデータを受信するI/Oインターフェース146、および
−電源、例えばバッテリを含む。
1つの例によれば、電源はデバイスの外部にある。上記メモリの各メモリでは、本明細書において使用される単語「register(レジスタ)」は、小容量のエリア(幾つかのビット)または非常に大きなエリア(例えば、プログラム全体または大量の受信データまたは復号データ)に対応することができる。ROM143は、少なくとも1つのプログラムおよびパラメータ群を含む。ROM143は、本原理による技法を実行するアルゴリズムおよび命令を格納することができる。オンに切り替わると、CPU142は、RAMのプログラムをアップロードして、対応する命令を実行する。
RAM144は、レジスタに、CPU142により実行され、デバイス140がオンに切り替わった後にアップロードされるプログラムを含み、入力データをレジスタに含み、方法の異なる状態の中間データをレジスタに含み、方法を実行するために使用される他の変数をレジスタに含む。
本明細書において説明される実施態様は、例えば方法またはプロセス、装置、コンピュータプログラム製品、データストリーム、または信号で実現することができる。単一形態の実施態様の状況でしか説明されていない(例えば、方法またはデバイスとしてのみ説明されている)場合でも、説明される特徴の実施態様は、他の形態(例えば、プログラム)で実現されてもよい。装置は、例えば適切なハードウェア、ソフトウェア、およびファームウェアで実現することができる。これらの方法は、例えば装置で実現することができ、例えばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む処理デバイスを広く指すプロセッサで実現することができる。プロセッサは、通信デバイスも含み、例えばコンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタンス(「PDA」)、およびエンドユーザ間の情報の伝達を容易にする他のデバイスも含む。
符号化手段または符号化器111、121、131の例によれば、3次元シーン10はソースから取得される。例えば、ソースは:
−ローカルメモリ(143または144)、例えばビデオメモリまたはRAM(または、ランダムアクセスメモリ)、フラッシュメモリ、ROM(または、リードオンリーメモリ)、ハードディスク、
−ストレージインターフェース(145)、例えば大容量ストレージ、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、
−通信インターフェース(146)、例えば有線インターフェース(例えば、バスインターフェース、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース)またはワイヤレスインターフェース(IEEE 802.11インターフェースまたはBluetooth(登録商標)インターフェースのような)、および
−ユーザによるデータ入力を可能にするグラフィカルユーザインターフェースのようなユーザインターフェースを含む集合に属する。
−ローカルメモリ(143または144)、例えばビデオメモリまたはRAM(または、ランダムアクセスメモリ)、フラッシュメモリ、ROM(または、リードオンリーメモリ)、ハードディスク、
−ストレージインターフェース(145)、例えば大容量ストレージ、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、
−通信インターフェース(146)、例えば有線インターフェース(例えば、バスインターフェース、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース)またはワイヤレスインターフェース(IEEE 802.11インターフェースまたはBluetooth(登録商標)インターフェースのような)、および
−ユーザによるデータ入力を可能にするグラフィカルユーザインターフェースのようなユーザインターフェースを含む集合に属する。
復号手段または復号器(群)112、122、132の例によれば、ストリームは宛先に送信される、具体的には、宛先は:
−ローカルメモリ(143または144)、例えばビデオメモリまたはRAM、フラッシュメモリ、ハードディスク、
−ストレージインターフェース(145)、例えば大容量ストレージ、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、および
−通信インターフェース(146)、例えば有線インターフェース(例えば、バスインターフェース(例えば、USB(または、ユニバーサルシリアルバス)))、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース、HDMI(高精細マルチメディアインターフェース)(登録商標)インターフェース)またはワイヤレスインターフェース(IEEE 802.11インターフェース、WiFi(登録商標)またはBluetooth(登録商標)インターフェースのような)を含む集合に属する。
−ローカルメモリ(143または144)、例えばビデオメモリまたはRAM、フラッシュメモリ、ハードディスク、
−ストレージインターフェース(145)、例えば大容量ストレージ、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、および
−通信インターフェース(146)、例えば有線インターフェース(例えば、バスインターフェース(例えば、USB(または、ユニバーサルシリアルバス)))、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース、HDMI(高精細マルチメディアインターフェース)(登録商標)インターフェース)またはワイヤレスインターフェース(IEEE 802.11インターフェース、WiFi(登録商標)またはBluetooth(登録商標)インターフェースのような)を含む集合に属する。
符号化手段または符号化器の例によれば、ボリュメトリックシーンを表すデータを含むビットストリームが宛先に送信される。1つの例として、ビットストリームは、ローカルメモリまたはリモートのメモリ、例えばビデオメモリまたはRAM、ハードディスクに格納される。変形例では、ビットストリームは、ストレージインターフェース、例えば大容量ストレージ、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェースに送信される、および/または通信インターフェース、例えばポイントツーポイントリンク、通信バス、ポイントツーマルチポイントリンク、または放送ネットワークとのインターフェースを介して送信される。
復号手段または復号器またはレンダラーの例によれば、ビットストリームはソースから取得される。例えば、ビットストリームは、ローカルメモリ、例えばビデオメモリ、RAM、ROM、フラッシュメモリ、またはハードディスクから読み取られる。変形例では、ビットストリームは、ストレージインターフェース、例えば大容量ストレージ、RAM、ROM、フラッシュメモリ、光ディスク、または磁気サポートとのインターフェースから受信される、および/または通信インターフェース、例えばポイントツーポイントリンク、バス、ポイントツーマルチポイントリンク、または放送ネットワークとのインターフェースから受信される。
例によれば、デバイス14は、図17および/または図18に関連して説明される方法を実現するように構成され:
−モバイルデバイス、
−通信デバイス、
−ゲームデバイス、
−タブレット(または、タブレットコンピュータ)、
−ラップトップ、
−静止画カメラ、
−ビデオカメラ、
−符号化チップ、
サーバ(例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ、またはウェブサーバ)を含む集合に属する。
−モバイルデバイス、
−通信デバイス、
−ゲームデバイス、
−タブレット(または、タブレットコンピュータ)、
−ラップトップ、
−静止画カメラ、
−ビデオカメラ、
−符号化チップ、
サーバ(例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ、またはウェブサーバ)を含む集合に属する。
図15に示す例によれば、通信ネットワークNET150を介した2つのリモートデバイス(装置14のタイプの)151と152との間の送信状況では、デバイス151は、図11、図12、図13、および/または図17に関連して説明されるデータを符号化する方法を実現するように構成される手段を含み、デバイス152は、図11、図12、図13、および/または図18に関連して説明される符号化方法を実行するように構成される手段を含む。
1つの例によれば、ネットワーク150は、静止画または動画を関連するオーディオ情報と一緒にデバイス151からデバイス152を含む復号デバイス/レンダリングデバイスに放送するように適合させたLANまたはWLANネットワークである。
追加の例によれば、ネットワークは、符号化されたポイントクラウド(群)をデバイス151からデバイス152を含む復号デバイスに放送するように適合させた放送ネットワークである。
デバイス151により送信されるようにした信号が、ビットストリーム16を伝送する。
図16は、データがパケット中継伝送プロトコルを介して送信される場合のこのような信号のシンタックスの1つの実施形態の例を示している。図16は、ボリュメトリックコンテンツストリームの例示的な構造16を示している。構造は、個別のシンタックス要素のストリームを編成するコンテナで構成される。
この構造は、ストリームの全てのシンタックス要素に共通するデータ集合であるヘッダー部161を含むことができる。例えば、ヘッダー部は、シンタックス要素に関するメタデータを含み、シンタックス要素群の各シンタックス要素の性質および役割を記述している。
構造は、シンタックス要素162〜166を含むペイロードを含むことができる。第1シンタックス要素162は、例えば2Dパラメータ化を定義するパラメータに関連する。第2シンタックス要素163は、例えば深度マップ(群)を表すデータに関連する。第3シンタックス要素164は、例えばテクスチャマップ(群)を表すデータに関連する。第4シンタックス要素165は、例えば量子化パラメータまたは量子化ステップに関する情報に関連する。第5シンタックス要素166は、例えば2Dパラメータ化と対応する深度マップおよびテクスチャマップとの間のマッピングに関する情報に関連する。
説明目的の場合、ISOBMFFファイルフォーマット規格の状況では、テクスチャマップ、深度マップ、およびメタデータは通常、タイプ「moov」のボックスのISOBMFFトラックで参照され、テクスチャマップデータおよび深度マップデータ自体がタイプ「mdat」のメディアデータボックスに埋め込まれる。
図17は、本原理の非限定的な実施形態によるシーンの3D表現、例えば3Dシーン10を表すデータを符号化する方法を示している。この方法は、例えば符号化器111、121、131、および/またはデバイス14で実現することができる。デバイス14の異なるパラメータは更新することができる。3D表現は、例えばソースから取得することができ、1つ以上の視点は、3Dシーンの空間内に決定することができ、投影マッピング(群)に関連付けられるパラメータは初期化することができる。
第1操作171では、1つ以上の深度マップを生成し、各深度マップはシーンの3D表現の部分に関連付けられる。深度マップは各々、3D表現の1つの部分に各々関連付けられる2Dパラメータ化のパラメータ(群)から生成され、2Dパラメータ化の関連付け先の3D表現の部分に含まれる点群に関連付けられる幾何学的情報から生成される。各深度マップは、例えば第1パッチアトラスのパッチに対応することができ、3D表現の1つの部分の1つの2Dパラメータ化に関連付けられる。3D表現の部分に関連付けられる2Dパラメータ化は、当該部分に含まれる点群に関連付けられる幾何学データから取得される暗黙的な3D表面の2D画素/サンプル表現であり、シーンの空間内の2Dパラメータ化の位置、および2Dパラメータ化に関連付けられる視点の位置は、3D表現が視点範囲で見られる場合の視点範囲に関連付けられる姿勢情報に従っている。2Dパラメータ化は、3D表現で表されるシーンの表面と視点範囲との間にあるように位置付けられる、すなわち2Dパラメータ化で取得される2D表面が、2D表面の関連付け先の部分に対向するように位置付けられる。1つ以上の2Dパラメータ化を、部分ごとに生成するか、または3D表現のみの1個の部分の構成部分ごとに生成する。変形例によれば、単一の2Dパラメータ化を、3D表現全体に関して生成する。データが深度マップの画素に関連付けられる場合、このデータは、距離情報または奥行き情報に対応する。
第2操作172では、1つ以上のテクスチャマップを生成し、各テクスチャマップは、シーンの3D表現の部分に関連付けられる。テクスチャマップは、3D表現の1つの部分に各々関連付けられる2Dパラメータ化のパラメータから生成され、2Dパラメータ化の関連付け先の3D表現の部分に含まれる点群に関連付けられるテクスチャ情報/カラー情報から生成される。各テクスチャマップは、例えば第2パッチアトラスのパッチに対応することができ、3D表現の1つの部分の1つの2Dパラメータ化に関連付けられる。テクスチャマップの画素に関連付けられるデータは、カラー(例えば、赤、緑、青、またはシアン、マゼンタ、イエロー、ブラック)情報に対応することができる。
第3操作173では、深度マップおよび/またはテクスチャマップを符号化するために使用される量子化ステップの変化を表す第1情報を取得する、例えばストレージデバイスから取り出す、または図11、図12、および/または図13に関して説明される通りに決定する。量子化ステップは、深度マップ内および/またはテクスチャマップ内で3D表現の対応する部分に含まれる注目領域(群)に従って変化することができる。
第4操作では、少なくとも1つの深度マップをビットストリームの第1シンタックス要素に符号化し、少なくとも1つのテクスチャマップをビットストリームの第2シンタックス要素に符号化し、少なくとも1つのパラメータを第3シンタックス要素に符号化し、第1情報を第4シンタックス要素に符号化し、2Dパラメータ化(群)と対応する深度マップ(群)およびテクスチャマップ(群)との間のマッピングを表す第2情報をビットストリームの第5シンタックス要素に符号化する。
図18は、本原理の非限定的な実施形態によるシーン、例えば3Dシーン10の3D表現を表すデータを復号する方法を示している。この方法は、例えば復号器112、122、132、および/またはデバイス14で実現することができる。
第1操作181では、3D表現の少なくとも1つの部分の少なくとも1つの2次元パラメータ化を表す少なくとも1つのパラメータを受信ビットストリームから復号する。
第2操作182では、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つのテクスチャマップを表すデータをビットストリームから復号する。
第3操作183では、3D表現の少なくとも1つの部分に関連付けられる少なくとも1つの深度マップを表すデータをビットストリームから復号する。
第4操作174では、当該3D表現の少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、少なくとも1つのパラメータ、テクスチャマップ(群)を表すデータ、深度マップ(群)を表すデータ、ビットストリームから取得され、深度マップ(群)および/またはテクスチャマップ(群)内の量子化ステップの変化を表す第1情報、ならびにビットストリームから取得され、2Dパラメータ化(群)と対応する深度マップおよびテクスチャマップとの間のマッピングを表す第2情報から決定する。
当然のことながら、本開示は、これまで説明してきた実施形態に限定されない。
具体的には、本開示は、3Dシーンを表すデータを符号化/復号する方法およびデバイスに限定されないだけでなく、符号化データを含むビットストリームを生成する方法、およびこの方法を実現する任意のデバイス、特に少なくとも1つのCPUおよび/または少なくとも1つのGPUを含む任意のデバイスに拡張することもできる。
本開示はまた、ビットストリームの復号データからレンダリングされる画像を表示する方法(および、画像を表示するように構成されるデバイス)に関する。
本開示はまた、ビットストリームを送信および/または受信する方法(および、送信および/または受信するように構成されるデバイス)に関する。
本明細書において説明される実施態様は、例えば方法またはプロセス、装置、コンピュータプログラム製品、データストリーム、または信号で実現することができる。単一の形態の実施態様の状況でのみ説明される(例えば、方法またはデバイスとしてのみ説明される)場合でも、説明される特徴の実施態様は、他の形態(例えば、プログラム)で実現することもできる。装置は、例えば適切なハードウェア、ソフトウェア、およびファームウェアで実現することができる。例えば、これらの方法は、例えばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む処理デバイスを広く指す、例えばプロセッサのような装置で実現することができる。プロセッサは、例えばスマートフォン、タブレット、コンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタント(「PDA」)、およびエンドユーザ間の情報の伝達を容易にする他のデバイスのような通信デバイスも含む。
本明細書において説明される様々なプロセスおよび特徴の実施態様は、多種多様な異なる機器または用途において具体化することができる、具体的には、例えばデータ符号化、データ復号、ビュー生成、テクスチャ処理、および他の画像処理、ならびに関連するテクスチャ情報および/または奥行き情報に関連付けられる機器または用途において具体化することができる。このような機器の例は、符号化器、復号器、復号器からの出力を処理するポストプロセッサ、入力を符号化器に供給するプリプロセッサ、ビデオ符号化器、ビデオ復号器、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、および他の通信デバイスを含む。明らかである必要があるが、機器は、可搬式とすることができ、移動車両にさえ搭載することができる。
また、方法は、プロセッサにより実行される命令で実現することができ、このような命令(および/または、実施態様により生成されるデータ値)は、例えば集積回路、ソフトウェア担体のようなプロセッサ可読媒体に格納する、または例えば、ハードディスク、コンパクトディスケット(「CD」)、光ディスク(例えば、デジタル多用途ディスク(digital versatile disc)またはデジタルビデオディスク(digital video disc)と表記される場合が多いDVDのような)、ランダムアクセスメモリ(「RAM」)、またはリードオンリーメモリ(「ROM」)のような他のストレージデバイスに格納することができる。命令は、プロセッサ可読媒体に有形に具体化されるアプリケーションプログラムを形成することができる。命令は、例えばハードウェア、ファームウェア、ソフトウェア、または組み合わせで行うことができる。命令は、例えばオペレーティングシステム、個別アプリケーション、またはこれらの2つの組み合わせに見出すことができる。したがって、プロセッサは、例えばプロセスを実行するように構成されたデバイス、およびプロセスを実行する命令を有するプロセッサ可読媒体(ストレージデバイスのような)を含むデバイスの両方として特徴付けることができる。さらに、プロセッサ可読媒体は、命令の他に、または命令の代わりに、実施態様により生成されるデータ値を格納することができる。
当業者には明らかであるように、実施態様は、情報を伝達するようにフォーマットされる多種多様な信号を生成することができ、この情報は、例えば格納または送信することができる。情報は、例えば方法を実行する命令、または説明される実施態様のうちの1つにより生成されたデータを含むことができる。例えば、信号は、データとして、説明される実施形態のシンタックスを書き込む、または読み出すルールを伝達するようにフォーマットすることができる、またはデータとして、説明される実施形態より記述された実際のシンタックス値を伝達するようにフォーマットすることができる。このような信号は、例えば電磁波としてフォーマットする(例えば、スペクトルの無線周波数部分を使用して)ことができる、またはベースバンド信号としてフォーマットすることができる。フォーマットすることは、例えばデータストリームを符号化することと、搬送波を符号化データストリームで変調することと、を含むことができる。信号が伝達する情報は、例えばアナログ情報またはデジタル情報とすることができる。信号は、既知の如く、多種多様な異なる有線リンクまたは無線リンクを介して送信することができる。信号は、プロセッサ可読媒体に格納することができる。
多数の実施態様が説明されている。それにもかかわらず、様々な変更を行うことができることを理解されたい。例えば、異なる実施態様の要素は、他の実施態様を生成するために組み合わせる、補足する、変更する、または削除することができる。また、当業者であれば、他の構造およびプロセスは、開示される構造およびプロセスに替えて用いることができ、結果として得られる実施態様が、少なくとも実質的に同じ機能(群)を、少なくとも実質的に同じ方法(群)で実行して、開示される実施態様と少なくとも実質的に同じ結果(群)を達成することを理解するであろう。したがって、これらの実施態様および他の実施態様は、本出願により想到される。
Claims (15)
- シーンの3D表現を表すデータをビットストリームに符号化する方法であって、前記3D表現は視点範囲に従っており、前記方法は、
−前記3D表現の少なくとも1つの部分に関連付けられる深度マップを、前記少なくとも1つの部分に関連付けられる2次元パラメータ化を表す少なくとも1つのパラメータおよび前記少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って決定することであって、前記少なくとも1つの2次元パラメータ化は、前記少なくとも1つの点に関連付けられる幾何学的情報、および前記視点範囲に関連付けられる姿勢情報に応じていることと、
−前記少なくとも1つの部分に関連付けられるテクスチャマップを前記少なくとも1つの部分に含まれる前記少なくとも1つの点に関連付けられる前記少なくとも1つのパラメータおよびデータに従って決定することと、
−前記深度マップおよび/または前記テクスチャマップ内の量子化パラメータの変化を表す第1情報を、前記3D表現の注目領域に従って取得することと、
−前記ビットストリームに、前記深度マップ、前記テクスチャマップ、前記少なくとも1つのパラメータ、前記第1情報、および前記2次元パラメータ化と、対応する深度マップおよびテクスチャマップとの間のマッピングを表す第2情報を符号化することと、を含む、方法。 - シーンの3D表現を表すデータをビットストリームに符号化するように構成されるデバイスであって、前記3D表現は視点範囲に従っており、前記デバイスは、少なくとも1つのプロセッサに関連付けられるメモリを含み、前記少なくとも1つのプロセッサは、
−前記3D表現の少なくとも1つの部分に関連付けられる深度マップを、前記少なくとも1つの部分に関連付けられる2次元パラメータ化を表す少なくとも1つのパラメータおよび前記少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータに従って決定し、前記2次元パラメータ化は、前記少なくとも1つの点に関連付けられる幾何学的情報、および前記視点範囲に関連付けられる姿勢情報に応じており、
−前記少なくとも1つの部分に関連付けられるテクスチャマップを前記少なくとも1つの部分に含まれる前記少なくとも1つの点に関連付けられる前記少なくとも1つのパラメータおよびデータに従って決定し、
−前記深度マップおよび/または前記テクスチャマップ内の量子化パラメータの変化を表す第1情報を、前記3D表現の注目領域に従って取得し、
−前記ビットストリームに、前記深度マップ、前記テクスチャマップ、前記少なくとも1つのパラメータ、前記第1情報、および前記2次元パラメータ化と、対応する深度マップおよびテクスチャマップとの間のマッピングを表す第2情報を符号化するように構成される、デバイス。 - 前記深度マップおよび/または前記テクスチャマップは、前記第1情報に従って符号化される、請求項1に記載の方法または請求項2に記載のデバイス。
- 前記第1情報は、前記少なくとも1つの注目領域に関連付けられる予測誤差に対応する、請求項1に記載の方法または請求項2に記載のデバイス。
- 前記第1情報は、前記2Dパラメータ化のサンプリングを表す情報に対応しており、第1サンプリングレベルは、前記少なくとも1つの注目領域に関連付けられる前記2Dパラメータ化の少なくとも1つのエリアに適用され、第2サンプリングレベルは、前記2Dパラメータ化の他のエリアに適用される、請求項1もしくは3に記載の方法または請求項2もしくは3に記載のデバイス。
- シーンの3D表現を表すデータを伝達するストリームであって、前記3D表現は視点範囲に従っており、前記データは、
−前記3D表現の少なくとも1つの部分の2次元パラメータ化を表す少なくとも1つのパラメータであって、前記少なくとも1つのパラメータが、前記少なくとも1つの部分の少なくとも1つの点に関連付けられる幾何学的特徴および前記視点範囲に関連付けられる姿勢情報に従って取得される、前記少なくとも1つのパラメータと、
−前記少なくとも1つの部分に関連付けられ、前記少なくとも1つの部分に含まれる前記少なくとも1つの点に関連付けられる前記少なくとも1つのパラメータおよびデータから決定されるテクスチャマップを表すデータと、
−前記3D表現の前記少なくとも1つの部分に関連付けられ、前記少なくとも1つの部分に含まれる前記少なくとも1つの点に関連付けられる少なくとも1つのパラメータおよびデータから決定される深度マップを表すデータと、
−前記3D表現の注目領域に従った前記深度マップおよび/または前記テクスチャマップ内の量子化パラメータの変化を表す第1情報と、
−前記2次元パラメータ化と、対応する深度マップおよびテクスチャマップとの間のマッピングを表す第2情報と、を含む、ストリーム。 - 前記深度マップおよび/または前記テクスチャマップを表す前記データは、前記第1情報に従って符号化される、請求項6に記載のストリーム。
- 前記第1情報は、前記注目領域に関連付けられる予測誤差に対応する、請求項6に記載のストリーム。
- 前記第1情報は、前記2Dパラメータ化のサンプリングを表す情報に対応しており、第1サンプリングレベルは、前記注目領域に関連付けられる前記2Dパラメータ化の少なくとも1つのエリアに適用され、第2サンプリングレベルは、前記2Dパラメータ化の他のエリアに適用される、請求項6または7に記載のストリーム。
- シーンの3D表現を表すデータをビットストリームから復号する方法であって、前記3D表現は視点範囲に従っており、前記方法は、
−前記ビットストリームから、前記3D表現の少なくとも1つの部分の2次元パラメータ化を表す少なくとも1つのパラメータを復号することと、
−前記ビットストリームから、3D表現の前記少なくとも1つの部分に関連付けられるテクスチャマップを表すデータを復号することと、
−前記ビットストリームから、前記3D表現の前記少なくとも1つの部分の深度マップを表すデータを復号することと、
−前記3D表現の前記少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、前記少なくとも1つのパラメータ、前記テクスチャマップを表す前記データ、前記深度マップを表す前記データ、前記ビットストリームから取得され、前記深度マップおよび/または前記テクスチャマップ内の量子化パラメータの変化を表す第1情報、および前記ビットストリームから取得され、前記2次元パラメータ化と、対応する深度マップおよびテクスチャマップとの間のマッピングを表す第2情報から決定することと、を含む、方法。 - シーンの3D表現を表すデータをビットストリームから復号するように構成されるデバイスであって、前記3D表現は視点範囲に従っており、前記デバイスは、少なくとも1つのプロセッサに関連付けられるメモリを含み、前記少なくとも1つのプロセッサは、
−前記ビットストリームから、前記3D表現の少なくとも1つの部分の2次元パラメータ化を表す少なくとも1つのパラメータを復号し、
−前記ビットストリームから、前記3D表現の前記少なくとも1つの部分に関連付けられるテクスチャマップを表すデータを復号し、
−前記ビットストリームから、前記3D表現の前記少なくとも1つの部分に関連付けられる深度マップを表すデータを復号し、
−前記3D表現の前記少なくとも1つの部分に含まれる少なくとも1つの点に関連付けられるデータを、前記少なくとも1つのパラメータから決定し、前記テクスチャマップを表す前記データ、前記深度マップを表す前記データ、前記ビットストリームから取得され、前記深度マップおよび/または前記テクスチャマップ内の量子化パラメータの変化を表す第1情報、および前記ビットストリームから取得され、前記2次元パラメータ化と、対応する深度マップおよびテクスチャマップとの間のマッピングを表す第2情報から決定するように構成される、デバイス。 - 前記深度マップおよび/または前記テクスチャマップは、前記第1情報に従って復号される、請求項10に記載の方法または請求項11に記載のデバイス。
- 前記第1情報は、前記少なくとも1つの注目領域に関連付けられる予測誤差に対応する、請求項10に記載の方法または請求項11に記載のデバイス。
- 前記第1情報は、前記2Dパラメータ化のサンプリングを表す情報に対応しており、第1サンプリングレベルは、前記注目領域に関連付けられる前記2Dパラメータ化の少なくとも1つのエリアに適用され、第2サンプリングレベルは、前記2Dパラメータ化の他のエリアに適用される、請求項10もしくは12に記載の方法または請求項11もしくは12に記載のデバイス。
- プロセッサに、少なくとも請求項1に記載の方法のステップおよび/または少なくとも請求項10に記載の方法のステップを実行させる命令を格納する非一時的なプロセッサ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17306538.4A EP3481067A1 (en) | 2017-11-07 | 2017-11-07 | Method, apparatus and stream for encoding/decoding volumetric video |
EP17306538.4 | 2017-11-07 | ||
PCT/US2018/057035 WO2019094184A1 (en) | 2017-11-07 | 2018-10-23 | Method, apparatus and stream for encoding/decoding volumetric video |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021502033A true JP2021502033A (ja) | 2021-01-21 |
JP2021502033A5 JP2021502033A5 (ja) | 2021-11-25 |
Family
ID=60409248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020524625A Withdrawn JP2021502033A (ja) | 2017-11-07 | 2018-10-23 | ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210176496A1 (ja) |
EP (2) | EP3481067A1 (ja) |
JP (1) | JP2021502033A (ja) |
CN (1) | CN111557094A (ja) |
MX (1) | MX2020004720A (ja) |
WO (1) | WO2019094184A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022259632A1 (ja) * | 2021-06-10 | 2022-12-15 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
JP7583171B2 (ja) | 2021-09-07 | 2024-11-13 | テンセント・アメリカ・エルエルシー | メッシュ展開のための方法、装置及びプログラム |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11956478B2 (en) * | 2019-01-09 | 2024-04-09 | Tencent America LLC | Method and apparatus for point cloud chunking for improved patch packing and coding efficiency |
WO2020230710A1 (ja) * | 2019-05-10 | 2020-11-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 |
CN114009054B (zh) * | 2019-06-28 | 2024-08-09 | 索尼集团公司 | 信息处理装置和方法、再现处理装置和方法 |
US11432009B2 (en) * | 2019-07-02 | 2022-08-30 | Intel Corporation | Techniques for encoding and decoding immersive video |
WO2021034338A1 (en) * | 2019-08-16 | 2021-02-25 | Google Llc | Face-based frame packing for video calls |
US20230043987A1 (en) * | 2019-12-13 | 2023-02-09 | Sony Group Corporation | Image processing apparatus and method |
US20230179797A1 (en) * | 2020-03-25 | 2023-06-08 | Sony Group Corporation | Image processing apparatus and method |
US12069302B2 (en) * | 2020-04-13 | 2024-08-20 | Intel Corporation | Texture based immersive video coding |
US11838485B2 (en) * | 2020-04-16 | 2023-12-05 | Electronics And Telecommunications Research Institute | Method for processing immersive video and method for producing immersive video |
US20230196700A1 (en) * | 2020-05-26 | 2023-06-22 | Sony Group Corporation | Image processing apparatus and image processing method |
US11924428B2 (en) | 2020-06-24 | 2024-03-05 | Qualcomm Incorporated | Scale factor for quantization parameter values in geometry-based point cloud compression |
US20230388542A1 (en) * | 2020-10-08 | 2023-11-30 | Interdigital Ce Patent Holdings, Sas | A method and apparatus for adapting a volumetric video to client devices |
US12067753B2 (en) | 2021-08-16 | 2024-08-20 | Tencent America LLC | 2D UV atlas sampling based methods for dynamic mesh compression |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103181171B (zh) * | 2010-11-04 | 2016-08-03 | 皇家飞利浦电子股份有限公司 | 深度指示图的产生 |
CN104885450B (zh) * | 2012-12-27 | 2017-09-08 | 日本电信电话株式会社 | 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序 |
-
2017
- 2017-11-07 EP EP17306538.4A patent/EP3481067A1/en not_active Withdrawn
-
2018
- 2018-10-23 MX MX2020004720A patent/MX2020004720A/es unknown
- 2018-10-23 WO PCT/US2018/057035 patent/WO2019094184A1/en unknown
- 2018-10-23 US US16/761,612 patent/US20210176496A1/en not_active Abandoned
- 2018-10-23 CN CN201880085164.5A patent/CN111557094A/zh active Pending
- 2018-10-23 JP JP2020524625A patent/JP2021502033A/ja not_active Withdrawn
- 2018-10-23 EP EP18793548.1A patent/EP3707901A1/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022259632A1 (ja) * | 2021-06-10 | 2022-12-15 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
JP7583171B2 (ja) | 2021-09-07 | 2024-11-13 | テンセント・アメリカ・エルエルシー | メッシュ展開のための方法、装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019094184A1 (en) | 2019-05-16 |
EP3707901A1 (en) | 2020-09-16 |
CN111557094A (zh) | 2020-08-18 |
EP3481067A1 (en) | 2019-05-08 |
US20210176496A1 (en) | 2021-06-10 |
MX2020004720A (es) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7241018B2 (ja) | 没入型ビデオフォーマットのための方法、装置、及びストリーム | |
CN111615715B (zh) | 编码/解码体积视频的方法、装置和流 | |
JP2021502033A (ja) | ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム | |
EP3249922A1 (en) | Method, apparatus and stream for immersive video format | |
US11647177B2 (en) | Method, apparatus and stream for volumetric video format | |
EP3562159A1 (en) | Method, apparatus and stream for volumetric video format | |
US20190251735A1 (en) | Method, apparatus and stream for immersive video format | |
WO2019191202A1 (en) | Method, apparatus and stream for volumetric video format |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211015 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211015 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20211019 |