JP2021182650A

JP2021182650A - 画像処理装置および方法

Info

Publication number: JP2021182650A
Application number: JP2018136928A
Authority: JP
Inventors: 毅加藤; Takeshi Kato; 智隈; Satoshi Kuma; 央二中神; Hisaji Nakagami; 幸司矢野; Koji Yano
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2021-11-25
Also published as: US20210168394A1; WO2020017359A1; CN112425175A; US11356690B2

Abstract

【課題】より容易により適切なレンダリングを行うことができるようにする。【解決手段】３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化して、その符号化データを生成し、その生成された符号化データとそのポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを生成する。本開示は、例えば、画像処理装置、電子機器、画像処理方法、またはプログラム等に適用することができる。【選択図】図２

Description

本開示は、画像処理装置および方法に関し、特に、より容易により適切なレンダリングを行うことができるようにした画像処理装置および方法に関する。

従来、例えばポイントクラウド（Point cloud）のような３次元構造を表す３Ｄデータの符号化方法として、例えばOctree等のような、ボクセル（Voxel）を用いた符号化があった（例えば非特許文献１参照）。

近年、その他の符号化方法として、例えば、ポイントクラウドの位置と色情報それぞれを、小領域毎に２次元平面に投影し、２次元画像用の符号化方法で符号化するアプローチ（以下、ビデオベースドアプローチ（Video-based approach）とも称する）が提案されている（例えば、非特許文献２乃至非特許文献４参照）。

このように符号化される３Ｄデータは、ビットストリームとして伝送され、復号後、その３次元構造を任意の位置および向きのカメラで撮影したようにレンダリングされて２次元画像に変換されて表示されたり記憶されたりした。

R. Mekuria, Student Member IEEE, K. Blom, P. Cesar., Member, IEEE, "Design, Implementation and Evaluation of a Point Cloud Codec for Tele-Immersive Video",tcsvt_paper_submitted_february.pdf Tim Golla and Reinhard Klein, "Real-time Point Cloud Compression ," IEEE, 2015 K. Mammou, "Video-based and Hierarchical Approaches Point Cloud Compression" , MPEG m41649, Oct. 2017 K. Mammou,"PCC Test Model Category 2 v0," N17248 MPEG output document, October 2017

しかしながら、この方法の場合、復号した３Ｄデータをレンダリングする際、カメラのパラメータをどのような値に設定するのが適切であるかを把握することができず、適切なレンダリングを行うことが困難であった。

本開示は、このような状況に鑑みてなされたものであり、より容易により適切なレンダリングを行うことができるようにするものである。

本技術の一側面の画像処理装置は、３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化して、符号化データを生成する符号化部と、前記符号化部により生成された前記符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを生成する生成部とを備える画像処理装置である。

本技術の一側面の画像処理方法は、３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化して、符号化データを生成し、生成された前記符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを生成する画像処理方法である。

本技術の他の側面の画像処理装置は、３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化した符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを復号して、前記ポイントクラウドを再構築し、前記メタデータを抽出する復号部と、前記復号部により抽出された前記メタデータを用いて、前記復号部により再構築された前記ポイントクラウドをレンダリングするレンダリング部とを備える画像処理装置である。

本技術の他の側面の画像処理方法は、３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化した符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを復号して、前記ポイントクラウドを再構築し、前記メタデータを抽出し、抽出された前記メタデータを用いて、再構築された前記ポイントクラウドをレンダリングする画像処理方法である。

本技術の一側面の画像処理装置および方法においては、３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像が符号化されて、符号化データが生成され、その生成された符号化データとそのポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームが生成される。

本技術の他の側面の画像処理装置および方法においては、３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像が符号化された符号化データとそのポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームが復号されて、そのポイントクラウドが再構築され、そのメタデータが抽出され、その抽出されたメタデータが用いられて、その再構築されたポイントクラウドがレンダリングされる。

本開示によれば、画像を処理することができる。特に、より容易により適切なレンダリングを行うことができる。

３Ｄデータのレンダリングの例を示す図である。本技術を適用したメタデータの例を示す図である。カメラパラメータの例を説明する図である。カメラパラメータインデックスの例を説明する図である。 Social Zoneの例を説明する図である。 Friendship Zoneの例を説明する図である。 Intimate Zoneの例を説明する図である。レンダリングの例を説明する図である。カメラパラメータカテゴリインデックスの例を説明する図である。バウンディングボックスの例を説明する図である。バウンディングボックスの例を説明する図である。メタデータの更新タイミングの例を説明する図である。符号化装置の主な構成例を示すブロック図である。符号化処理の流れの例を説明するフローチャートである。ポイントクラウド符号化処理の流れの例を説明するフローチャートである。再生装置の主な構成例を示すブロック図である。復号部の主な構成例を示すブロック図である。再生処理の流れの例を説明するフローチャートである。ポイントクラウド復号処理の流れの例を説明するフローチャートである。再生装置の主な構成例を示すブロック図である。再生処理の流れの例を説明するフローチャートである。コンピュータの主な構成例を示すブロック図である。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．レンダリング用カメラパラメータのシグナル
２．第１の実施の形態（符号化装置）
３．第２の実施の形態（再生装置）
４．第３の実施の形態（再生装置）
５．付記

＜１．レンダリング用カメラパラメータのシグナル＞
＜技術内容・技術用語をサポートする文献等＞
本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。

非特許文献１：（上述）
非特許文献２：（上述）
非特許文献３：（上述）
非特許文献４：（上述）
非特許文献５：TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU（International Telecommunication Union）, "Advanced video coding for generic audiovisual services", H.264, 04/2017
非特許文献６：TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU（International Telecommunication Union）, "High efficiency video coding", H.265, 12/2016
非特許文献７：Jianle Chen, Elena Alshina, Gary J. Sullivan, Jens-Rainer, Jill Boyce, "Algorithm Description of Joint Exploration Test Model 4", JVET-G1001_v1, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 7th Meeting: Torino, IT, 13-21 July 2017

つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献６に記載されているQuad-Tree Block Structure、非特許文献７に記載されているQTBT（Quad Tree Plus Binary Tree） Block Structureが実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、特許請求の範囲のサポート要件を満たすものとする。また、例えば、パース（Parsing）、シンタックス（Syntax）、セマンティクス（Semantics）等の技術用語についても同様に、実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、特許請求の範囲のサポート要件を満たすものとする。

＜ポイントクラウド＞
従来、点群の位置情報や属性情報等により３次元構造を表すポイントクラウドや、頂点、エッジ、面で構成され、多角形表現を使用して３次元形状を定義するメッシュ等の３Ｄデータが存在した。

例えばポイントクラウドの場合、立体構造物（３次元形状のオブジェクト）を多数の点の集合（点群）として表現する。つまり、ポイントクラウドのデータは、この点群の各点の位置情報や属性情報（例えば色等）により構成される。したがってデータ構造が比較的単純であるとともに、十分に多くの点を用いることにより任意の立体構造物を十分な精度で表現することができる。

＜ビデオベースドアプローチの概要＞
このようなポイントクラウドの位置と色情報それぞれを、小領域毎に２次元平面に投影して２次元画像化し、その２次元画像を２次元画像用の符号化方法で符号化するビデオベースドアプローチ（Video-based approach）が提案されている。

このビデオベースドアプローチでは、入力されたポイントクラウド（Point cloud）が複数のセグメンテーション（領域とも称する）に分割され、領域毎に２次元平面に投影される。なお、ポイントクラウドの位置毎のデータ（すなわち、各ポイントのデータ）は、上述のように位置情報（Geometry（Depthとも称する））と属性情報（Texture）とにより構成され、それぞれ、領域毎に２次元平面に投影される。

そして、この２次元平面に投影された各セグメンテーション（パッチとも称する）は、２次元画像に配置され、例えば、AVC（Advanced Video Coding）やHEVC（High Efficiency Video Coding）等といった、２次元平面画像用の符号化方式により符号化される。

＜レンダリングにおける画質＞
このように符号化される３Ｄデータは、ビットストリームとして伝送され、復号後、その３次元構造を任意の位置および向きのカメラで撮影したようにレンダリングされて２次元画像に変換されて表示されたり記憶されたりした。なお、この３Ｄデータがレンダリングされた２次元画像は、符号化の際の２次元画像（パッチを配置した２次元画像）とは異なる画像である。

３Ｄデータがレンダリングされた２次元画像の主観的画質は、３Ｄデータのレンダリング対象のオブジェクトと、レンダリング用のカメラの距離や投影方法等の影響を受ける。またエンコーダによって生じた圧縮歪の見え方も同様である。

しかしながら、ストリーム作成者がエンコード時に品質を確認した条件（３Ｄオブジェクトとカメラの距離や投影方法等）がわからないと、ストリーム利用者が適切なレンダリングをすることが困難であった。

例えば、ポイントクラウドは３次元形状のオブジェクトを点群として表現するため、その点群の密度はオブジェクトの見え方に大きな影響を及ぼす。例えば各点を識別することができない程点群が十分に密な状態であれば、その点群はオブジェクト（３次元形状）として見えるが、各点を識別することができる程点群が疎であると、その点群がオブジェクト（３次元形状）として見えにくくなるおそれがある。

そして点群の主観的な密度（見え方）は、点群（立体形状）と視点との距離に応じて変化する。例えば、視点が点群から離れるほど点群は密に見え、視点が点群に近づくほど点群は疎に見える。

また、一般的に、３Ｄデータのレンダリング手法として、カメラで撮像するように（すなわち、撮像画像のような画像を生成するように）レンダリングを行う方法がある。このような手法の場合、そのカメラ（レンダリング用のカメラとも称する）は、図１に示される例のように、任意の位置や向きとすることができる。図１に示される画像１１乃至画像１５は、それぞれ、カメラがポイントクラウドのオブジェクト１０を撮像するようにレンダリングした２次元画像の例である。このように、レンダリング用のカメラの位置や向きは自由に設定することができる。

つまり、ポイントクラウドがレンダリングされた２次元画像の主観的画質は、レンダリング用のカメラの位置（特に、カメラとオブジェクト（点群）との距離）に影響される可能性がある。換言するに、レンダリング用カメラの適切な位置（または範囲）は、ポイントクラウドの点群の密度に応じて定まる。その他の３Ｄデータの場合も同様であり、レンダリング用カメラの適切な位置（または範囲）は、その３Ｄデータの構造に応じて定まる。

しかしながら、従来の方法の場合、そのような情報は提供されないので、レンダリングを行うストリーム利用者が、そのような適切なカメラの位置を把握することは困難であった。

例えば、図１において、画像１２の方が、画像１１よりもカメラからオブジェクト１０までの距離が短く、オブジェクト１０の主観的画質が低減する可能性がある。しかしながら、従来の方法では、ストリーム利用者は、画像１１のカメラ位置が適切であるのか、画像１２のカメラ位置が適切であるのかを、レンダリング結果を確認せずに把握することが困難であった。

例えば、一般的にストリーム作成者は、ストリームを作成する際に３Ｄデータをレンダリングした２次元画像の品質確認を行うが、その場合、上述のような３Ｄデータの構造に応じた（例えばポイントクラウドの点群の密度に応じた）適切なカメラ位置が想定され、その位置でのレンダリング結果について品質確認が行われる。しかしながら、従来の方法の場合、そのような情報はストリーム利用者には提供されないため、ストリーム作成者がどのようなカメラ位置を想定しているかを把握することが困難であった。

また、例えば、ストリーム作成者が推奨するカメラ位置やカメラ移動軌跡等をストリーム利用者に提供することも困難であった。

したがって、ストリーム利用者が、復号した３Ｄデータをレンダリングする際、カメラのパラメータをどのような値に設定するのが適切であるかを把握することができず、適切なレンダリングを行うことが困難であった。

＜カメラに関する情報のシグナル＞
そこで、３Ｄデータ（例えば、３次元形状のオブジェクトを点群として表現するポイントクラウド）のレンダリング用のカメラに関する情報を、その３Ｄデータに関連付けて復号側に提供するようにする。例えば、そのカメラに関する情報を、３Ｄデータ（例えばポイントクラウド）をレンダリングする際に用いるメタデータとして３Ｄデータのビットストリームに含めて、復号側に伝送するようにしてもよい。

このようにすることにより、復号側においてそのカメラに関する情報を取得することができる。そして、このカメラに関する情報を利用することにより、より容易により適切なレンダリングを行うことができる。

＜カメラに関する情報＞
＜カメラパラメータインデックス＞
カメラに関する情報は、３Ｄデータのレンダリング用のカメラに関するものであれば、どのような情報であってもよい。例えば、図２の表２１に示されるような各種情報を含んでいてもよい。

例えば、表２１の上から１番目の行（項目名の行を除く）のように、カメラに関する情報が、定義済みのカメラパラメータ（レンダリング用のカメラに対する条件が予め設定されたカメラパラメータ）を示すインデックスであるカメラパラメータインデックス（Camera Parameter Index）を含むようにしてもよい。

カメラパラメータは、３Ｄデータのレンダリング用のカメラに関するパラメータである。具体的には、どのようなパラメータであってもよい。例えば、図３のＡに示されるシンタックス３１のように、このカメラパラメータに、カメラの位置を示すx,y,z座標（camera_pos_x, camera_pos_y, camera_pos_z）、つまり、図３のＢのカメラの位置座標（camera_pos）３２が含まれるようにしてもよい。

また、このカメラパラメータに、カメラの注視点の位置を示すx,y,z座標（center_pos_x, center_pos_y, center_pos_z）、つまり、図３のＢのカメラの注視点座標（center_pos）３３が含まれるようにしてもよい。なお、カメラの注視点の代わりに、図３のＢに示される、カメラの位置座標（camera_pos）３２からカメラの注視点座標（center_pos）３３に向かうベクトル３４がカメラパラメータに含まれるようにしてもよい。これらのパラメータはカメラの方向（向き）を示すパラメータである。

また、このカメラパラメータに、カメラの上方向を示すベクトル（camera_up_x, camera_up_y, camera_up_z）、つまり、図３のＢのカメラの上方向を示すベクトル（camera_up）３５が含まれるようにしてもよい。

なお、これらの、カメラの注視点座標３３（ベクトル３４）やカメラの上方向を示すベクトル３５は、カメラの姿勢を示すパラメータでもある。

また、このカメラパラメータに、カメラの投影方法、つまり、レンダリング方法を示すパラメータが含まれるようにしてもよい。例えば、このカメラの投影方法を示すパラメータとして、透視投影であるか否かを示すパラメータ（PerspectiveProjection）が含まれるようにしてもよい。また、例えば、このカメラの投影方法を示すパラメータとして、平行投影であるか否かを示すパラメータが含まれるようにしてもよい。さらに、このカメラの投影方法を示すパラメータとして、透視投影であるかまたは平行投影であるかを示すパラメータが含まれるようにしてもよい。

また、このカメラパラメータに、カメラの画角を示すパラメータ（fov（Field Of View））が含まれるようにしてもよい。

カメラパラメータインデックス（Camera Parameter Index）は、定義済みのカメラパラメータを示すものであれば、どのようなカメラパラメータを示すものであってもよいし、どのような値のインデックスであってもよい。

例えば、図４の表４１に示されるように、カメラパラメータインデックスが、定義済みの撮影のシチュエーション（カメラの位置、向き、姿勢等）を示すようにしてもよい。つまり、カメラパラメータインデックスを指定することにより、その値に応じたシチュエーションを実現するカメラパラメータが指定されるようにしてもよい。

図４の表４１の例の場合、インデックス「０」は、「Social Zone」と称するシチュエーションを示し、インデックス「１」は、「Friendship Zone」と称するシチュエーションを示し、インデックス「２」は、「Intimate Zone」と称するシチュエーションを示す。

「Social Zone」は、同表に示されるように、カメラが、３Ｄオブジェクトからの距離２ｍ、地上から1.4ｍの場所に位置し、水平方向から１０度下を向く状態を示す。つまり、このシチュエーションが指定されると、図５に示されるように、カメラの位置座標（camera_pos）３２は、オブジェクト１０から2000mm離れた、地上から1400mmの位置に設定される。また、ベクトル３４は、水平方向から１０度下の方向に設定される（10°face down）。

「Friendship Zone」は、同表に示されるように、カメラが、３Ｄオブジェクトからの距離１ｍ、地上から1.4ｍの場所に位置し、水平方向から１０度下を向く状態を示す。つまり、このシチュエーションが指定されると、図６に示されるように、カメラの位置座標（camera_pos）３２は、オブジェクト１０から1000mm離れた、地上から1400mmの位置に設定される。また、ベクトル３４は、水平方向から１０度下の方向に設定される（10°face down）。

「Intimate Zone」は、同表に示されるように、カメラが、３Ｄオブジェクトからの距離0.5ｍ、地上から1.4ｍの場所に位置し、水平方向を向く状態を示す。つまり、このシチュエーションが指定されると、図７に示されるように、カメラの位置座標（camera_pos）３２は、オブジェクト１０から500mm離れた、地上から1400mmの位置に設定される。また、ベクトル３４は、水平方向に設定される（0°）。

このようなシチュエーション（の各カメラパラメータ）とカメラパラメータインデックスとの対応関係が例えば規格等により予め規定されており、符号化側および復号側においてその関係が予め把握されている。したがって、符号化側においても復号側においても、カメラパラメータインデックス（Camera Parameter Index）を指定するだけで、容易に、上述のようなシチュエーションを実現するカメラパラメータを指定することができる。

なお、カメラパラメータインデックスにより指定されるカメラパラメータは任意であり、上述の例に限定されない。また、カメラパラメータインデックスにより指定されるシチュエーションは任意であり、上述の例に限定されない。さらに、予め規定されるカメラパラメータインデックスの数は任意であり、上述の例に限定されず、２以下であってもよいし、４以上であってもよい。また、カメラパラメータインデックスの値は任意であり、上述の例（０乃至２）に限定されない。

レンダリングの際に、このようなカメラパラメータインデックスにより指定されるカメラパラメータをセットすることにより、カメラパラメータインデックスが指定するシチュエーションのレンダリングを行うことができる。

例えば、カメラパラメータインデックス「０」に基づいてカメラパラメータをセットすると、「Social Zone」でのレンダリングを行うことができ、図８のＡに示されるような画像５１が得られる。この場合、カメラ位置がオブジェクト１０から比較的遠いので、画像５１には、オブジェクト１０の全体（全身）が収まっている。

例えば、カメラパラメータインデックス「２」に基づいてカメラパラメータをセットすると、「Intimate Zone」でのレンダリングを行うことができ、図８のＢに示されるような画像５２が得られる。この場合、カメラ位置がオブジェクト１０から比較的近いので、画像５２には、オブジェクト１０の一部（上半身）のみが収まっている。

このようにインデックスで指定されるシチュエーションの画像が得られる。

例えば、符号化側において、シーケンス作成者（ストリーム作成者）が、符号化の際の品質確認により、十分な品質（主観的画質）の画像が得られるシチュエーションを選択し、そのシチュエーションを示すカメラパラメータインデックスを設定し、カメラに関する情報としてビットストリームに含めて復号側に伝送する。このようにすることにより、復号側において、シーケンス利用者（ストリーム利用者）が、そのカメラパラメータインデックスを用いて、容易に、十分な品質（主観的画質）の画像が得られるシチュエーションによるレンダリングを行うことができる。

例えば、シーケンス作成者は、このカメラパラメータインデックスを用いることにより、推奨するシチュエーションや、品質が許容されるシチュエーションを、より容易に復号側に通知することができる。換言するに、シーケンス利用者は、シーケンス作成者が指定するそれらのシチュエーションを、より容易に把握することができる。

つまり、このカメラパラメータインデックスを符号化側から復号側に伝送することにより、シーケンス作成者が、適切なシチュエーション（カメラの位置や向き等）を指定することができ、シーケンス利用者は、その適切なシチュエーション（品質が保証されているシチュエーション）をより容易に把握することができる。したがって、より容易により適切なレンダリングを行うことができる。

なお、カメラパラメータインデックスを用いることにより、複数のカメラパラメータを指定することができるので、各カメラパラメータを個別に指定する情報を伝送する場合よりも、符号化効率の低減を抑制することができる。また、シーケンス作成者は、このカメラパラメータインデックスにより指定されるシチュエーションで品質確認を行えば良いので、各カメラパラメータの値をどのようにするかの検討が不要になる等、より容易に品質確認を行うことができる。また、品質確認において、このカメラパラメータインデックスにより指定されるシチュエーションを適用することにより、シーケンスによらず、シチュエーションを共通化することができる。つまり、複数のシーケンスに対して同一条件での品質評価を行うことができる。

なお、符号化側から復号側に伝送するカメラパラメータインデックスの数は任意であり、単数であってもよいし、複数であってもよい。

＜カメラパラメータカテゴリインデックス＞
また、カメラに関する情報は、例えば、図２の表２１の上から２番目の行（項目名の行を除く）のように、レンダリング用のカメラの目的を識別するインデックスであるカメラパラメータカテゴリインデックス（Camera Parameter Category Index）を含むようにしてもよい。つまり、カメラパラメータカテゴリインデックスは、その値によって、設定されたカメラパラメータが実現するカメラのシチュエーションの目的を指定する。

このカメラパラメータカテゴリインデックスが指定するカメラの目的は任意である。つまり、カメラパラメータカテゴリインデックスがカメラのどのような目的を指定するようにしてもよい。図９にカメラパラメータカテゴリインデックスの例を示す。

図９の表６１の例の場合、インデックス「０」は、カメラの目的が、エンコード時の品質確認であることを示す。つまり、そのカメラのシチュエーションは、符号化の際の品質確認において利用されたシチュエーションであることが示される。換言するに、そのカメラのシチュエーションは、品質が確認されたシチュエーション（品質が保証されたシチュエーション）である。

また、インデックス「１」は、カメラの目的が、推奨アングルであることを示す。つまり、そのカメラのシチュエーションは、シーケンス作成者（符号化側）により推奨されるシチュエーション（すなわちアングル）であることが示される。例えば、最初のフレーム（1st Frame）に対してこのような値がセットされる。

さらに、インデックス「２」は、カメラの目的が、推奨カメラパス（推奨するカメラの移動軌跡）であることを示す。つまり、設定されたカメラの動きが、シーケンス作成者（符号化側）により推奨されるカメラの移動軌跡であることが示される。

このようなカメラの目的とカメラパラメータカテゴリインデックスとの対応関係が例えば規格等により予め規定されており、符号化側および復号側においてその関係が予め把握されている。したがって、符号化側においては、カメラパラメータカテゴリインデックス（Camera Parameter Category Index）を指定するだけで、容易に、上述のようなカメラの目的を指定することができる。また、復号側においては、そのカメラパラメータカテゴリインデックスに基づいて、容易に、上述のようなカメラの目的を把握することができる。

なお、カメラパラメータカテゴリインデックスにより指定されるカメラの目的は任意であり、上述の例に限定されない。また、予め規定されるカメラパラメータカテゴリインデックスの数は任意であり、上述の例に限定されず、２以下であってもよいし、４以上であってもよい。さらに、カメラパラメータカテゴリインデックスの値は任意であり、上述の例（０乃至２）に限定されない。

例えば、レンダリングの際に、このようなカメラパラメータカテゴリインデックスに基づいて、設定されたカメラの目的を容易に把握することができる。したがって、そのカメラパラメータをレンダリングに適用するか否かを、より容易かつ適切に判断することができる。

例えば、品質が保証されたカメラでレンダリングを行う場合、カメラパラメータカテゴリインデックスが「０」のカメラパラメータを適用すればよい。また、例えば、シーケンス作成者が推奨するアングルでレンダリングを行う場合、カメラパラメータカテゴリインデックスが「１」のカメラパラメータを適用すればよい。さらに、例えば、シーケンス作成者が推奨するカメラの移動軌跡でレンダリングを行う場合、カメラパラメータカテゴリインデックスが「２」のカメラパラメータを適用すればよい。

このようにすることにより、復号側において、シーケンス利用者（ストリーム利用者）は、容易に、カメラの目的を確認したうえでそのカメラパラメータを利用することができる。したがって、より容易により適切なレンダリングを行うことができる。

なお、符号化側において、シーケンス作成者（ストリーム作成者）は、このカメラパラメータカテゴリインデックスを用いることにより、カメラの目的を復号側により容易に通知することができる。

なお、符号化側から復号側に伝送するカメラパラメータカテゴリインデックスの数は任意であり、単数であってもよいし、複数であってもよい。

＜変換レート＞
また、カメラに関する情報は、例えば、図２の表２１の上から３番目の行（項目名の行を除く）のように、３Ｄデータ（例えばポイントクラウド）がレンダリングされた２次元画像におけるスケールと現実世界のスケールとの変換レート（frame to world scale）を含むようにしてもよい。

一般的に、３Ｄデータやレンダリング後の画像におけるスケール（縮尺）は、現実世界におけるスケール（縮尺）と異なるようにすることが可能である。したがって、それらのスケール間の変換レートを設定し、利用することにより、例えば、現実世界のスケール（Real scale）を用いたカメラパラメータの設定が可能になる。

例えば、符号化側において、カメラパラメータを現実世界のスケールで設定し、上述の変換レートを設定し、それらをカメラに関する情報として伝送する。このようにすることにより、復号側において、現実世界のスケールで設定されたカメラパラメータを、その変換レートを用いて、より容易に、レンダリング後の画像におけるスケールに変換することができる。したがって、復号側においては、現実世界のスケールで設定されたカメラパラメータをより容易に適用することができる。また、符号化側においては、レンダリング後の画像におけるスケールを考慮する必要が無く、カメラパラメータの設定をより容易に行うことができる。

なお、符号化側から復号側に伝送する変換レートの数は任意であり、単数であってもよいし、複数であってもよい。例えば、互いに異なる複数のレートを伝送することができるようにしてもよい。

＜バウンディングボックス＞
また、カメラに関する情報は、例えば、図２の表２１の上から４番目の行（項目名の行を除く）のように、バウンディングボックス（Bounding box）を基準として設定されるカメラパラメータを含むようにしてもよい。

バウンディングボックス（Bounding box）は、符号化対象の位置情報を正規化するための情報であり、符号化対象の３Ｄデータのオブジェクトを取り囲むように形成される領域である。このバウンディングボックスの形状は任意である。例えば、直方体形状であってもよい。

カメラの位置や方向等を示すカメラパラメータを設定する場合、そのカメラパラメータの基準となる位置を設定する必要がある。例えば、カメラの被写体となるオブジェクトを基準とすることが考えられる。しかしながら、オブジェクトは移動する場合もあり、そのようなオブジェクトを基準とすることが困難であることもあり得る。そこで、バウンディングボックスをカメラパラメータの基準とするようにする。

ところで、バウンディングボックスの設定方法はフレキシブルであり、例えば、動くオブジェクトに対して、各フレーム（所定の時間毎）におけるオブジェクトを取り囲むように設定することもできるし、全ての時刻におけるオブジェクトを取り囲むように設定することもできる。

そこで、例えば、図１０に示されるように、動くオブジェクト１０の先頭フレームにおける位置を取り囲むように設定したバウンディングボックス７１を基準としてカメラパラメータ（カメラの位置座標３２やベクトル３４等）を設定するようにしてもよい。

また、例えば、図１１に示されるように、シーケンス全体または所定の期間内におけるオブジェクト１０の全位置（オブジェクト１０の移動範囲）を取り囲むように設定したバウンディングボックス７２を基準としてカメラパラメータ（カメラの位置座標３２やベクトル３４等）を設定するようにしてもよい。図１１の例の場合、オブジェクト１０は、点線矢印８１のように、オブジェクト１０−１の位置からオブジェクト１０−２の位置に移動し、さらに、点線矢印８２のように、オブジェクト１０−２の位置からオブジェクト１０−３の位置に移動している。バウンディングボックス７２は、これらの全ての位置のオブジェクトを取り囲むように設定されている。

以上のようにバウンディングボックスを基準としてカメラパラメータを設定することにより、動くオブジェクト１０に対して、その動きによらず、より容易にカメラパラメータを設定することができる。

なお、カメラパラメータの基準位置は、バウンディングボックスに対して任意の位置であるようにしてもよい。例えば、バウンディングボックス内の所定位置（例えば中心等）をカメラパラメータの基準位置としてもよいし、バウンディングボックスの内外の境界上の所定位置をカメラパラメータの基準位置としてもよいし、バウンディングボックス外の所定位置をカメラパラメータの基準位置としてもよい。

例えば、バウンディングボックス内における所定の時刻のオブジェクト１０の位置をカメラパラメータの基準位置としてもよい。また、例えば、バウンディングボックス内における動くオブジェクト１０の全時刻の位置の重心をカメラパラメータの基準位置としてもよい。

なお、バウンディングボックスに関する情報は、具体的には任意であり、バウンディングボックスに関するものであればどのような情報を含むようにしてもよい。例えば、バウンディングボックスの位置、大きさ、形状、対象時刻範囲等の情報を含むようにしてもよい。

このようなバウンディングボックスに関する情報を、符号化側から復号側に伝送することにより、復号側においても、より容易に、そのバウンディングボックスを基準として設定されるカメラパラメータについて、符号化側と同様の解釈をすることができる。

＜カメラパラメータ＞
また、カメラに関する情報は、例えば、図２の表２１の上から５番目の行（項目名の行を除く）のように、カメラパラメータ（Camera Parameter）を含むようにしてもよい。＜カメラパラメータインデックス＞において上述したようにカメラパラメータは、３Ｄデータのレンダリング用のカメラに関するパラメータであり、具体的には、どのようなパラメータであってもよい。例えば、カメラの位置座標（camera_pos）３２、カメラの注視点座標（center_pos）３３、ベクトル３４、カメラの上方向を示すベクトル３５、カメラの投影方法、カメラの画角を示すパラメータ等であってもよいし、これら以外のパラメータであってもよい。

つまり、インデックスを用いずに、直接的に、カメラパラメータを設定するようにしてもよい。また、上述したカメラパラメータインデックスと併用し、カメラパラメータインデックスに応じて設定されるカメラパラメータの一部の値の更新に用いるようにしてもよい。さらに、カメラパラメータインデックスでは設定されないその他のカメラパラメータを追加的に設定するようにしてもよい。なお、設定可能なカメラパラメータの数は任意であり、単数であってもよいし、複数であってもよい。

以上のようにカメラパラメータを直接的に設定可能とすることにより、インデックスを用いる場合に比べて、カメラパラメータの設定の自由度を向上させることができる。また、このカメラパラメータを符号化側から復号側に伝送することにより、復号側において、より自由に設定されたカメラパラメータをレンダリングに適用することができる。したがって、より容易により適切なレンダリングを行うことができる。

＜カメラパス＞
また、カメラに関する情報は、例えば、図２の表２１の上から６番目の行（項目名の行を除く）のように、レンダリング用のカメラの移動軌跡に関する情報を含むようにしてもよい。例えば、レンダリング用のカメラの移動軌跡に関する情報として、そのレンダリング用のカメラの移動軌跡を示すカメラ起動軌跡パラメータ（Camera Path）を含むようにしてもよい。

カメラ移動軌跡パラメータ（Camera Path）は、レンダリング用のカメラを動かしてその位置や向き等を変える場合に、その移動の軌跡を示すパラメータである。このような情報を符号化側から復号側に伝送することにより、例えば、シーケンス作成者がお勧めのカメラワークを復号側に提供することができる。また、復号側においては、このように伝送された情報を用いて、そのお勧めのカメラワークを再現するようにレンダリングした画像をより容易に生成することができる。なお、この軌跡が示すカメラの移動は、連続的な移動であってもよいし、離散的な移動であってもよい。

＜オブジェクトパス＞
また、カメラに関する情報は、例えば、図２の表２１の上から７番目の行（項目名の行を除く）のように、そのカメラの被写体となるオブジェクトの移動軌跡に関する情報を含むようにしてもよい。例えば、オブジェクトの移動軌跡に関する情報として、そのオブジェクトの移動軌跡を示すオブジェクト起動軌跡パラメータ（Object Path）を含むようにしてもよい。

＜バウンディングボックス＞において上述したように、３Ｄデータのオブジェクトは、移動したり向きを変えたり変形したり拡大したり縮小したり、様々な運動や変形を行うことができる。オブジェクト移動軌跡パラメータ（Object Path）は、そのようなオブジェクトの運動や変形の軌跡を示すパラメータである。このような情報を符号化側から復号側に伝送することにより、例えば、復号側においては、オブジェクトの運動や変形をより容易に把握することができる。したがって、例えば、より容易に、レンダリング用のカメラのより適切なカメラワーク（オブジェクトの運動や変形により適したカメラワーク）を設定することができる。なお、この軌跡が示すオブジェクトの移動は、連続的な移動であってもよいし、離散的な移動であってもよい。

＜メタデータ＞
上述の３Ｄデータのレンダリング用のカメラに関する情報は、例えば、メタデータとして、３Ｄデータを投影した２次元平面画像の符号化データを含むビットストリームに付加するようにしてもよい。

その場合、例えば、図１２のＡに示されるように、３Ｄデータを投影した２次元平面画像をフレーム画像とする動画像の先頭フレームのメタデータとして（例えば、ピクチャパラメータセットとして）、ビットストリームに付加するようにしてもよい。例えば、図１２のＡにおいて、３Ｄデータのレンダリング用のカメラに関する情報は、動画像の先頭フレーム（frame#0）のメタデータ９１（ピクチャパラメータセット）として、ビットストリームに付加される。

また、例えば、図１２のＢに示されるように、３Ｄデータを投影した２次元平面画像をフレーム画像とする動画像の任意のフレームにおいて、メタデータ９１が更新されるようにしてもよい。例えば、図１２のＢにおいて、３Ｄデータのレンダリング用のカメラに関する情報は、動画像の先頭フレーム（frame#0）のメタデータ９１−１と、５番目のフレーム（frame#4）のメタデータ９１−２として、ビットストリームに付加される。

＜２．第１の実施の形態＞
＜符号化装置＞
次に、以上のようなカメラに関する情報の伝送を実現する構成について説明する。図１３は、本技術を適用した画像処理装置の一態様である符号化装置の構成の一例を示すブロック図である。図１３に示される符号化装置１００は、ポイントクラウドのような３Ｄデータを２次元平面に投影して２次元画像用の符号化方法により符号化を行う装置（ビデオベースドアプローチを適用した符号化装置）である。

なお、図１３においては、処理部やデータの流れ等の主なものを示しており、図１３に示されるものが全てとは限らない。つまり、符号化装置１００において、図１３においてブロックとして示されていない処理部が存在したり、図１３において矢印等として示されていない処理やデータの流れが存在したりしてもよい。これは、符号化装置１００内の処理部等を説明する他の図においても同様である。

図１３に示されるように符号化装置１００は、パッチ分解部１１１、パッキング部１１２、補助パッチ情報圧縮部１１３、ビデオ符号化部１１４、ビデオ符号化部１１５、OMap符号化部１１６、入力部１２１、パラメータ記憶部１２２、メタデータ生成部１２３、およびマルチプレクサ１３１を有する。

パッチ分解部１１１は、３Ｄデータの分解に関する処理を行う。例えば、パッチ分解部１１１は、符号化装置１００に入力される、３次元構造を表す３Ｄデータ（例えばポイントクラウド（Point Cloud））を取得する。また、パッチ分解部１１１は、取得したそのポイントクラウドを複数のセグメンテーションに分解し、そのセグメンテーション毎にポイントクラウドを２次元平面に投影し、位置情報のパッチや属性情報のパッチを生成する。パッチ分解部１１１は、生成した各パッチに関する情報をパッキング部１１２に供給する。また、パッチ分解部１１１は、その分解に関する情報である補助パッチ情報を、補助パッチ情報圧縮部１１３に供給する。

パッキング部１１２は、データのパッキングに関する処理を行う。例えば、パッキング部１１２は、パッチ分解部１１１からポイントの位置を示す位置情報（Geometry）のパッチに関する情報や、その位置情報に付加される色情報等の属性情報（Texture）のパッチに関する情報を取得する。

また、パッキング部１１２は、取得した各パッチを２次元画像に配置してビデオフレームとしてパッキングする。例えば、パッキング部１１２は、位置情報のパッチを２次元画像に配置して、位置情報のビデオフレーム（ジオメトリビデオフレームとも称する）としてパッキングする。また、例えば、パッキング部１１２は、属性情報のパッチを２次元画像に配置して、属性情報のビデオフレーム（カラービデオフレームとも称する）としてパッキングする。

また、パッキング部１１２は、これらのビデオフレームに対応するオキュパンシーマップを生成する。さらに、パッキング部１１２は、カラービデオフレームに対してDilation処理を行う。

パッキング部１１２は、このように生成したジオメトリビデオフレームをビデオ符号化部１１４に供給する。また、パッキング部１１２は、このように生成したカラービデオフレオームをビデオ符号化部１１５に供給する。さらに、パッキング部１１２は、このように生成したオキュパンシーマップをOMap符号化部１１６に供給する。また、パッキング部１１２は、このようなパッキングに関する制御情報をマルチプレクサ１３１に供給する。

補助パッチ情報圧縮部１１３は、補助パッチ情報の圧縮に関する処理を行う。例えば、補助パッチ情報圧縮部１１３は、パッチ分解部１１１から供給されるデータを取得する。補助パッチ情報圧縮部１１３は、取得したデータに含まれる補助パッチ情報を符号化（圧縮）する。補助パッチ情報圧縮部１１３は、得られた補助パッチ情報の符号化データをマルチプレクサ１３１に供給する。

ビデオ符号化部１１４は、位置情報（Geometry）のビデオフレームの符号化に関する処理を行う。例えば、ビデオ符号化部１１４は、パッキング部１１２から供給されるジオメトリビデオフレームを取得する。また、ビデオ符号化部１１４は、その取得したジオメトリビデオフレームを、例えばAVCやHEVC等の任意の２次元画像用の符号化方法により符号化する。ビデオ符号化部１１４は、その符号化により得られた符号化データ（ジオメトリビデオフレームの符号化データ）をマルチプレクサ１３１に供給する。

ビデオ符号化部１１５は、属性情報（Texture）のビデオフレームの符号化に関する処理を行う。例えば、ビデオ符号化部１１５は、パッキング部１１２から供給されるカラービデオフレームを取得する。また、ビデオ符号化部１１５は、その取得したカラービデオフレームを、例えばAVCやHEVC等の任意の２次元画像用の符号化方法により符号化する。ビデオ符号化部１１５は、その符号化により得られた符号化データ（カラービデオフレームの符号化データ）をマルチプレクサ１３１に供給する。

OMap符号化部１１６は、オキュパンシーマップの符号化に関する処理を行う。例えば、OMap符号化部１１６は、パッキング部１１２から供給されるオキュパンシーマップを取得する。また、OMap符号化部１１６は、その取得したオキュパンシーマップを、例えば算術符号化等の任意の符号化方法により符号化する。OMap符号化部１１６は、その符号化により得られた符号化データ（オキュパンシーマップの符号化データ）をマルチプレクサ１３１に供給する。

入力部１２１は、任意の入力デバイスを有し、符号化装置１００の外部からの入力の受け付けに関する処理を行う。例えば、入力部１２１は、ユーザ（ストリーム作成者等）による、３Ｄデータのレンダリング用のカメラに関するカメラパラメータの入力操作を受け付ける。例えば、入力部１２１は、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報を受け付ける。入力部１２１は、その受け付けたカメラパラメータを、３Ｄデータのレンダリング用のカメラに関する情報として、パラメータ記憶部１２２に供給し、記憶させる。

パラメータ記憶部１２２は、例えばハードディスクや半導体メモリ等の任意の記憶媒体を有し、パラメータ（３Ｄデータのレンダリング用のカメラに関する情報）の記憶に関する処理を行う。例えば、パラメータ記憶部１２２は、入力部１２１から供給されるパラメータを取得し、それを記憶媒体に記憶する。

また、例えば、パラメータ記憶部１２２は、所定のタイミングにおいて、記憶しているパラメータを、メタデータ生成部１２３に供給する。さらに、例えば、パラメータ記憶部１２２は、メタデータ生成部１２３から要求されたパラメータを、その記憶媒体より読み出し、メタデータ生成部１２３に供給する。

メタデータ生成部１２３は、３Ｄデータをレンダリングする際に用いるメタデータの生成に関する処理を行う。例えば、メタデータ生成部１２３は、パラメータ記憶部１２２に対してパラメータを要求し、それを取得する。また、例えば、メタデータ生成部１２３は、パラメータ記憶部１２２から供給されるパラメータを取得する。さらに、例えば、メタデータ生成部１２３は、３Ｄデータをレンダリングする際に用いるメタデータとして、その取得したパラメータを含むメタデータを生成し、それをマルチプレクサ１３１に供給する。つまり、メタデータ生成部１２３は、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報（３Ｄデータのレンダリング用のカメラに関する情報）を含むメタデータを生成する。

マルチプレクサ１３１は、ビットストリームの生成（情報の多重化）に関する処理を行う。例えば、マルチプレクサ１３１は、補助パッチ情報圧縮部１１３から供給される補助パッチ情報の符号化データを取得する。また、マルチプレクサ１３１は、パッキング部１１２から供給されるパッキングに関する制御情報を取得する。さらに、マルチプレクサ１３１は、ビデオ符号化部１１４から供給されるジオメトリビデオフレームの符号化データを取得する。また、マルチプレクサ１３１は、ビデオ符号化部１１５から供給されるカラービデオフレームの符号化データを取得する。さらに、マルチプレクサ１３１は、OMap符号化部１１６から供給されるオキュパンシーマップの符号化データを取得する。また、マルチプレクサ１３１は、メタデータ生成部１２３から供給されるメタデータを取得する。

マルチプレクサ１３１は、取得したそれらの情報を多重化して、ビットストリーム（Bitstream）を生成する。つまり、マルチプレクサ１３１は、３Ｄデータを投影した２次元平面画像の符号化データと、その符号化データに対応するメタデータとを含むビットストリームを生成する。

上述したように、このメタデータは、３Ｄデータをレンダリングする際に用いるメタデータであり、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報（３Ｄデータのレンダリング用のカメラに関する情報）を含む。したがって、符号化装置１００は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。したがって、符号化装置１００は、復号側においてより容易により適切なレンダリングを行うことができるようにすることができる。

＜符号化処理の流れ＞
次に、符号化装置１００により実行される符号化処理の流れの例を、図１４のフローチャートを参照して説明する。

符号化処理が開始されると、符号化装置１００の入力部１２１は、ステップＳ１０１において、パラメータ（３Ｄデータのレンダリング用のカメラに関する情報）の入力を受け付ける。

ステップＳ１０２において、パラメータ記憶部１２２は、ステップＳ１２１において受け付けたパラメータを記憶する。

ステップＳ１０３において、メタデータ生成部１２３は、処理対象フレーム（カレントフレームとも称する）のメタデータを生成するか否かを判定する。メタデータを生成すると判定された場合、処理はステップＳ１０４に進む。

ステップＳ１０４において、メタデータ生成部１２３は、３Ｄデータをレンダリングする際に用いるメタデータを生成する。具体的には、メタデータ生成部１２３は、ステップＳ１０２において記憶されたパラメータ（すなわち、３Ｄデータのレンダリング用のカメラに関する情報）を含むメタデータを生成する。つまり、メタデータ生成部１２３は、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報を含むメタデータを生成する。

ステップＳ１０４の処理が終了すると処理はステップＳ１０５に進む。また、ステップＳ１０３において、処理対象フレームに対応するメタデータを生成しないと判定された場合、ステップＳ１０４の処理がスキップ（省略）され、処理はステップＳ１０５に進む。

ステップＳ１０５において、パッチ分解部１１１乃至OMap符号化部１１６、並びに、マルチプレクサ１３１は、ポイントクラウド符号化処理を実行し、ポイントクラウドを符号化して、その符号化データとステップＳ１０４の処理において生成されたメタデータとを含む、ビットストリームを生成する。

ステップＳ１０６において、符号化装置１００は、全てのフレームを処理したか否かを判定する。未処理のフレームが存在すると判定された場合、処理はステップＳ１０３に戻り、新たな処理対象フレームについて、それ以降の処理を繰り返す。このようにステップＳ１０３乃至ステップＳ１０６の処理を繰り返し、ステップＳ１０６において全てのフレームを処理したと判定された場合、符号化処理が終了する。

＜ポイントクラウド符号化処理の流れ＞
次に、図１４のステップＳ１０５において実行されるポイントクラウド符号化処理の流れの例を、図１５のフローチャートを参照して説明する。

ポイントクラウド符号化処理が開始されると、符号化装置１００のパッチ分解部１１１は、ステップＳ１２１において、入力されたポイントクラウドを２次元平面に投影し、パッチに分解する。また、パッチ分解部１１１は、その分解についての補助パッチ情報を生成する。

ステップＳ１２２において、補助パッチ情報圧縮部１１３は、ステップＳ１２１において生成された補助パッチ情報を圧縮（符号化）する。

ステップＳ１２３において、パッキング部１１２は、ステップＳ１２１において生成された位置情報や属性情報の各パッチを２次元画像に配置してビデオフレームとしてパッキングする。また、パッキング部１１２は、オキュパンシーマップを生成する。さらに、パッキング部１１２は、カラービデオフレームに対してDilation処理を行う。また、パッキング部１１２は、このようなパッキングに関する制御情報を生成する。

ステップＳ１２４において、ビデオ符号化部１１４は、ステップＳ１２３において生成されたジオメトリビデオフレームを、２次元画像用の符号化方法により符号化する。

ステップＳ１２５において、ビデオ符号化部１１５は、ステップＳ１２３において生成されたカラービデオフレームを、２次元画像用の符号化方法により符号化する。

ステップＳ１２６において、OMap符号化部１１６は、ステップＳ１２３において生成されたオキュパンシーマップを、所定の符号化方法により符号化する。

ステップＳ１２７において、マルチプレクサ１３１は、メタデータが存在するか否かを判定する。図１４のステップＳ１０４においてメタデータが生成されており、存在すると判定された場合、処理はステップＳ１２８に進む。

ステップＳ１２８において、マルチプレクサ１３１は、ステップＳ１２４乃至ステップＳ１２６のそれぞれにおいて生成された符号化データと、図１４のステップＳ１０４において生成されたメタデータとを多重化し、それらを含むビットストリームを生成する。つまり、メタデータ生成部１２３は、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報をメタデータとして含むビットストリームを生成する。ステップＳ１２８の処理が終了すると、処理はステップＳ１３０に進む。

また、ステップＳ１２７において、図１４のステップＳ１０４の処理がスキップ（省略）され、メタデータが存在しないと判定された場合、処理はステップＳ１２９に進む。

ステップＳ１２９において、マルチプレクサ１３１は、ステップＳ１２４乃至ステップＳ１２６のそれぞれにおいて生成された符号化データを多重化し、それらを含むビットストリームを生成する。ステップＳ１２９の処理が終了すると、処理はステップＳ１３０に進む。

ステップＳ１３０において、マルチプレクサ１３１は、ステップＳ１２８またはステップＳ１２９において生成したビットストリームを符号化装置１００の外部に出力する。

ステップＳ１３０の処理が終了すると、ポイントクラウド符号化処理が終了し、処理は図１４に戻る。

以上のように各処理を実行することにより、符号化装置１００は、３Ｄデータのレンダリング用のカメラに関する情報をメタデータとして含む、３Ｄデータのビットストリームを生成することができる。したがって、符号化装置１００は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。したがって、符号化装置１００は、復号側において、より容易により適切なレンダリングを行うことができるようにすることができる。

＜３．第２の実施の形態＞
＜再生装置＞
図１６は、本技術を適用した画像処理装置の一態様である再生装置の構成の一例を示すブロック図である。図１６に示される再生装置２００は、ポイントクラウドのような３Ｄデータが２次元平面に投影されて符号化された符号化データを２次元画像用の復号方法により復号し、３Ｄデータを再構築し、その３Ｄデータを再生する装置（ビデオベースドアプローチを適用した再生装置）である。例えば、再生装置２００は、符号化装置１００（図１３）が３Ｄデータを符号化して生成したビットストリームを復号し、復号データを用いてその３Ｄデータを再構築し、再構築した３Ｄデータをレンダリングして画像を生成し、その画像を表示したり、記憶したりする。

なお、図１６においては、処理部やデータの流れ等の主なものを示しており、図１６に示されるものが全てとは限らない。つまり、再生装置２００において、図１６においてブロックとして示されていない処理部が存在したり、図１６において矢印等として示されていない処理やデータの流れが存在したりしてもよい。これは、再生装置２００内の処理部等を説明する他の図においても同様である。

図１６に示されるように再生装置２００は、復号部２１１、カメラ制御部２１２、レンダリング部２１３、表示部２１４、および記憶部２１５を有する。

復号部２１１は、ビットストリームの復号に関する処理を行う。例えば、復号部２１１は、再生装置２００の外部から入力されるビットストリームを取得する。このビットストリームは、例えば、符号化装置１００（図１３）により生成されたビットストリームであり、３Ｄデータの符号化データを含み、さらに、その３Ｄデータのレンダリング用のカメラに関する情報をメタデータとして含む。復号部２１１は、ビデオベースドアプローチを適用した復号部であり、このようなビットストリームを２次元画像用の復号方法により復号し、３Ｄデータを再構築し、３Ｄデータをレンダリングする際に用いるメタデータを抽出する。復号部２１１は、抽出したメタデータをカメラ制御部２１２に供給する。また、復号部２１１は、再構築した３Ｄデータ（例えばポイントクラウド）をレンダリング部２１３に供給する。

カメラ制御部２１２は、レンダリング用のカメラの制御に関する処理を行う。例えば、カメラ制御部２１２は、復号部２１１から供給されるメタデータに含まれるカメラに関する情報に基づいて、レンダリング用のカメラを制御する。例えば、カメラ制御部２１２は、そのカメラに関する情報に基づいてレンダリング用カメラのカメラパラメータを制御することにより、そのカメラの位置や向き等を制御する。カメラ制御部２１２は、その制御情報をレンダリング部２１３に供給する。

レンダリング部２１３は、カメラ制御部２１２により制御されるカメラを用いて、復号部２１１から供給される３Ｄデータ（ポイントクラウド）のレンダリングを行う。つまり、レンダリング部２１３は、カメラ制御部２１２によりメタデータ（＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報）に基づいて設定されたカメラパラメータを用いてレンダリングを行い、２Ｄ画像を生成する。レンダリング部２１３は、その生成された２Ｄ画像を表示部２１４および記憶部２１５に供給する。

表示部２１４は、例えば液晶ディスプレイ等のような任意の表示デバイスを有し、表示に関する処理を行う。例えば、表示部２１４は、レンダリング部２１３から供給される２Ｄ画像を取得する。そして、表示部２１４は、その２Ｄ画像を表示デバイスに表示させる。つまり、表示部２１４は、２Ｄ画像を出力する。

記憶部２１５は、例えばハードディスクや半導体メモリ等のような任意の記憶媒体を有し、記憶に関する処理を行う。例えば、記憶部２１５は、レンダリング部２１３から供給される２Ｄ画像を取得する。そして、記憶部２１５は、その２Ｄ画像を記憶媒体に記憶させる。つまり、記憶部２１５は、２Ｄ画像を出力する。

したがって、再生装置２００は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。つまり、再生装置２００は、より容易により適切なレンダリングを行うことができる。

＜復号部＞
図１７は、図１６の復号部２１１の主な構成例を示すブロック図である。図１７に示されるように、復号部２１１は、デマルチプレクサ２３１、補助パッチ情報復号部２３２、ビデオ復号部２３３、ビデオ復号部２３４、OMap復号部２３５、アンパッキング部２３６、および３Ｄ再構築部２３７を有する。

デマルチプレクサ２３１は、データの逆多重化に関する処理を行う。例えば、デマルチプレクサ２３１は、復号部２１１に入力されるビットストリームを取得する。このビットストリームは、例えば、符号化装置１００より供給される。デマルチプレクサ２３１は、このビットストリームを逆多重化し、補助パッチ情報の符号化データを抽出し、それを補助パッチ情報復号部２３２に供給する。また、デマルチプレクサ２３１は、逆多重化により、ビットストリームから、ジオメトリビデオフレームの符号化データを抽出し、それをビデオ復号部２３３に供給する。さらに、デマルチプレクサ２３１は、逆多重化により、ビットストリームから、カラービデオフレームの符号化データを抽出し、それをビデオ復号部２３４に供給する。また、デマルチプレクサ２３１は、逆多重化により、ビットストリームから、オキュパンシーマップの符号化データを抽出し、それをOMap復号部２３５に供給する。さらに、デマルチプレクサ２３１は、逆多重化により、ビットストリームから、パッキングに関する制御情報を抽出し、それをアンパッキング部２３６に供給する（図示せず）。

また、デマルチプレクサ２３１は、ビットストリームから、そのビットストリームに含まれるメタデータを抽出する。このメタデータは、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報（３Ｄデータのレンダリング用のカメラに関する情報）を含む。デマルチプレクサ２３１は、そのメタデータをカメラ制御部２１２（図１６）に供給する。

補助パッチ情報復号部２３２は、補助パッチ情報の符号化データの復号に関する処理を行う。例えば、補助パッチ情報復号部２３２は、デマルチプレクサ２３１から供給される３補助パッチ情報の符号化データを取得する。また、補助パッチ情報復号部２３２は、その取得したデータに含まれる補助パッチ情報の符号化データを復号（伸長）する。補助パッチ情報復号部２３２は、復号して得られた補助パッチ情報を３Ｄ再構築部２３７に供給する。

ビデオ復号部２３３は、ジオメトリビデオフレームの符号化データの復号に関する処理を行う。例えば、ビデオ復号部２３３は、デマルチプレクサ２３１から供給されるジオメトリビデオフレームの符号化データを取得する。ビデオ復号部２３３は、そのジオメトリビデオフレームの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号する。ビデオ復号部２３３は、その復号して得られたジオメトリビデオフレームを、アンパッキング部２３６に供給する。

ビデオ復号部２３４は、カラービデオフレームの符号化データの復号に関する処理を行う。例えば、ビデオ復号部２３４は、デマルチプレクサ２３１から供給されるカラービデオフレームの符号化データを取得する。ビデオ復号部２３４は、そのカラービデオフレームの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号する。ビデオ復号部２３４は、その復号して得られたカラービデオフレームを、アンパッキング部２３６に供給する。

OMap復号部２３５は、オキュパンシーマップの符号化データの復号に関する処理を行う。例えば、OMap復号部２３５は、デマルチプレクサ２３１から供給されるオキュパンシーマップの符号化データを取得する。OMap復号部２３５は、そのオキュパンシーマップの符号化データを、その符号化方式に対応する任意の復号方法により復号する。OMap復号部２３５は、その復号して得られたオキュパンシーマップを、アンパッキング部２３６に供給する。

アンパッキング部２３６は、アンパッキングに関する処理を行う。例えば、アンパッキング部２３６は、ビデオ復号部２３３からジオメトリビデオフレームを取得し、ビデオ復号部２３４からカラービデオフレームを取得し、OMap復号部２３５からオキュパンシーマップを取得する。また、アンパッキング部２３６は、パッキングに関する制御情報に基づいて、ジオメトリビデオフレームやカラービデオフレームをアンパッキングする。アンパッキング部２３６は、アンパッキングして得られた位置情報（Geometry）のデータ（ジオメトリパッチ等）や属性情報（Texture）のデータ（テクスチャパッチ等）、並びにオキュパンシーマップ等を、３Ｄ再構築部２３７に供給する。

３Ｄ再構築部２３７は、ポイントクラウドの再構築に関する処理を行う。例えば、３Ｄ再構築部２３７は、補助パッチ情報復号部２３２から供給される補助パッチ情報、並びに、アンパッキング部２３６から供給される位置情報（Geometry）のデータ（ジオメトリパッチ等）、属性情報（Texture）のデータ（テクスチャパッチ等）、およびオキュパンシーマップ等に基づいて、ポイントクラウドを再構築する。

３Ｄ再構築部２３７は、再構築したポイントクラウドを復号部２１１の外部のレンダリング部２１３（図１６）に供給する。

このような構成とすることにより、復号部２１１は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。つまり、復号部２１１は、ビットストリームを復号し、符号化側から伝送されたメタデータを抽出することができる。さらに、復号部２１１は、３Ｄデータの符号化データを復号し、３Ｄデータを再構築することができる。

＜再生処理の流れ＞
次に、この再生装置２００により実行される再生処理の流れの例を、図１９のフローチャートを参照して説明する。

再生処理が開始されると、カメラ制御部２１２は、ステップＳ２０１において、カメラパラメータを初期化する。

ステップＳ２０２において、復号部２１１は、ポイントクラウド復号処理を実行し、ビットストリームを１フレーム分復号する。

ステップＳ２０３において、カメラ制御部２１２は、処理対象フレームに対応するメタデータが存在するか否かを判定する。つまり、カメラ制御部２１２は、ステップＳ２０２の処理によりメタデータが抽出されたか否かを判定する。メタデータが存在すると判定された場合、処理はステップＳ２０４に進む。

ステップＳ２０４において、カメラ制御部２１２は、そのメタデータを解析してカメラパラメータを更新する。ステップＳ２０４の処理が終了すると、処理はステップＳ２０５に進む。また、ステップＳ２０３において、メタデータが存在しないと判定された場合、ステップＳ２０４の処理がスキップ（省略）されて、処理はステップＳ２０５に進む。

ステップＳ２０５において、レンダリング部２１３は、ステップＳ２０２の処理により得られるポイントクラウドを、ステップＳ２０４において更新されたカメラパラメータ、または、ステップＳ２０４において更新されなかったカメラパラメータを用いてレンダリングし、２Ｄ画像を生成する。

ステップＳ２０６において、表示部２１４は、ステップＳ２０５において生成された２Ｄ画像を表示する。また、ステップＳ２０７において、記憶部２１５は、ステップＳ２０５において生成された２Ｄ画像を記憶する。

ステップＳ２０８において、復号部２１１は、全てのフレームを処理したか否かを判定する。未処理のフレームが存在すると判定された場合、処理はステップＳ２０２に戻り、新たな処理対象フレームについて、それ以降の処理が繰り返される。また、ステップＳ２０８において、全てのフレームを処理したと判定された場合、再生処理が終了する。

＜ポイントクラウド復号処理の流れ＞
次に、図１８のステップＳ２０２において実行されるポイントクラウド復号処理の流れの例を、図１９のフローチャートを参照して説明する。

ポイントクラウド復号処理が開始されると、デマルチプレクサ２３１は、ステップＳ２２１において、ビットストリームを逆多重化する。その際、デマルチプレクサ２３１は、そのビットストリームに含まれるメタデータ（カメラに関する情報）を抽出する。

ステップＳ２２２において、補助パッチ情報復号部２３２は、ステップＳ２２１においてビットストリームから抽出された補助パッチ情報を復号する。

ステップＳ２２３において、ビデオ復号部２３３は、ステップＳ２２１においてビットストリームから抽出されたジオメトリビデオフレーム（位置情報のビデオフレーム）の符号化データを復号する。

ステップＳ２２４において、ビデオ復号部２３４は、ステップＳ２２１においてビットストリームから抽出されたカラービデオフレーム（属性情報のビデオフレーム）の符号化データを復号する。

ステップＳ２２５において、OMap復号部２３５は、ステップＳ２２１においてビットストリームから抽出されたオキュパンシーマップの符号化データを復号する。

ステップＳ２２６において、アンパッキング部２３６は、アンパッキングする。例えば、アンパッキング部２３６は、ステップＳ２２３において符号化データが復号されて得られたジオメトリビデオフレームをアンパッキングし、ジオメトリパッチを生成する。また、アンパッキング部２３６は、ステップＳ２２４において符号化データが復号されて得られたカラービデオフレームをアンパッキングし、テクスチャパッチを生成する。さらに、アンパッキング部２３６は、ステップＳ２２５において符号化データが復号されて得られたオキュパンシーマップをアンパッキングし、ジオメトリパッチやテクスチャパッチに対応するオキュパンシーマップを抽出する。

ステップＳ２２７において、３Ｄ再構築部２３７は、ステップＳ２２２において得られた補助パッチ情報、並びに、ステップＳ２２３乃至ステップＳ２２５において得られたジオメトリパッチ、テクスチャパッチ、およびオキュパンシーマップ等に基づいて、ポイントクラウド（各点群モデル）を再構築する。

ステップＳ２２７の処理が終了すると復号処理が終了する。

以上のように各処理を実行することにより、再生装置２００は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。つまり、再生装置２００は、より容易により適切なレンダリングを行うことができる。

＜４．第３の実施の形態＞
＜再生装置＞
図２０は、本技術を適用した画像処理装置の一態様である再生装置の構成の一例を示すブロック図である。図２０に示される再生装置３００は、再生装置２００と同様、ポイントクラウドのような３Ｄデータが２次元平面に投影されて符号化された符号化データを２次元画像用の復号方法により復号し、３Ｄデータを再構築し、その３Ｄデータを再生する装置（ビデオベースドアプローチを適用した再生装置）である。例えば、再生装置３００は、符号化装置１００（図１３）が３Ｄデータを符号化して生成したビットストリームを復号し、復号データを用いてその３Ｄデータを再構築し、再構築した３Ｄデータをレンダリングして画像を生成し、その画像を表示したり、記憶したりする。

ただし、再生装置３００は、カメラパラメータの設定を受け付け、符号化側から伝送されるメタデータ（カメラに関する情報）は、設定されたカメラの位置や方向等が適切であるか否かの判定に用いられる。

なお、図２０においては、処理部やデータの流れ等の主なものを示しており、図２０に示されるものが全てとは限らない。つまり、再生装置３００において、図２０においてブロックとして示されていない処理部が存在したり、図２０において矢印等として示されていない処理やデータの流れが存在したりしてもよい。これは、再生装置３００内の処理部等を説明する他の図においても同様である。

図２０に示されるように再生装置３００は、入力部３１１、復号部３１２、カメラ監視部３１３、カメラ制御部３１４、レンダリング部３１５、表示部３１６、および記憶部３１７を有する。

入力部３１１は、任意の入力デバイスを有し、再生装置３００の外部からの入力の受け付けに関する処理を行う。例えば、入力部３１１は、ユーザ（ストリーム利用者等）による、３Ｄデータのレンダリング用のカメラに関するカメラパラメータの入力操作を受け付ける。例えば、入力部３１１は、＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報を受け付ける。入力部３１１は、その受け付けたカメラパラメータを、カメラ制御部３１４に供給する。

復号部３１２は、復号部２１１と同様の処理部であり、ビットストリームの復号に関する処理を行う。例えば、復号部３１２は、再生装置２００の外部から入力されるビットストリームを取得する。このビットストリームは、例えば、符号化装置１００（図１３）により生成されたビットストリームであり、３Ｄデータの符号化データを含み、さらに、その３Ｄデータのレンダリング用のカメラに関する情報をメタデータとして含む。復号部３１２は、復号部２１１と同様、ビデオベースドアプローチを適用した復号部であり、このようなビットストリームを２次元画像用の復号方法により復号し、３Ｄデータを再構築し、メタデータを抽出する。復号部３１２は、抽出したメタデータをカメラ監視部３１３に供給する。また、復号部３１２は、再構築した３Ｄデータ（例えばポイントクラウド）をレンダリング部３１５に供給する。なお、復号部３１２の構成は、復号部２１１の場合（図１７）と同様であるので、その説明を省略する。

カメラ監視部３１３は、カメラの位置や向きを監視（モニタリング）する。例えば、カメラ監視部３１３は、復号部３１２から供給されるメタデータに基づいて、入力部３１１を介してユーザ等により設定されたカメラパラメータの値が適切であるか否かをモニタリングする。例えば、カメラ監視部３１３は、ユーザ等により設定されたカメラパラメータの値が、品質確認済みの範囲内であるか否かをモニタリングする。そして、カメラ監視部３１３は、そのカメラパラメータの値が不適切であると判定された場合、表示部３１６を制御して、エラー通知を行う。

カメラ制御部３１４は、レンダリング用のカメラの制御に関する処理を行う。例えば、カメラ制御部３１４は、入力部３１１から供給されるカメラパラメータ（カメラに関する情報）に基づいて、レンダリング用のカメラを制御する。例えば、カメラ制御部３１４は、そのカメラに関する情報に基づいてレンダリング用カメラのカメラパラメータを制御することにより、そのカメラの位置や向き等を制御する。なお、カメラ制御部３１４は、カメラ監視部３１３により、値が適切であると判定された場合、その制御情報をレンダリング部３１５に供給する。

レンダリング部３１５は、レンダリング部２１３と同様、カメラ制御部３１４により制御されるカメラを用いて、復号部３１２から供給される３Ｄデータ（ポイントクラウド）のレンダリングを行う。つまり、レンダリング部３１５は、カメラ制御部３１４から供給されるカメラパラメータ（＜１．レンダリング用カメラパラメータのシグナル＞において図２の表２１等を参照して説明したような各種情報）を用いてレンダリングを行い、２Ｄ画像を生成する。レンダリング部３１５は、その生成された２Ｄ画像を表示部３１６および記憶部３１７に供給する。

表示部３１６は、表示部２１４と同様、例えば液晶ディスプレイ等のような任意の表示デバイスを有し、表示に関する処理を行う。例えば、表示部３１６は、レンダリング部３１５から供給される２Ｄ画像を取得する。そして、表示部３１６は、その２Ｄ画像を表示デバイスに表示させる。つまり、表示部３１６は、２Ｄ画像を出力する。また、表示部３１６は、カメラ監視部３１３に制御されてエラー通知の画像を表示する。

記憶部３１７は、例えばハードディスクや半導体メモリ等のような任意の記憶媒体を有し、記憶に関する処理を行う。例えば、記憶部３１７は、レンダリング部３１５から供給される２Ｄ画像を取得する。そして、記憶部３１７は、その２Ｄ画像を記憶媒体に記憶させる。つまり、記憶部３１７は、２Ｄ画像を出力する。

したがって、再生装置３００は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。つまり、再生装置３００は、より容易により適切なレンダリングを行うことができる。

＜再生処理の流れ＞
次に、この再生装置３００により実行される再生処理の流れの例を、図２１のフローチャートを参照して説明する。

再生処理が開始されると、カメラ制御部３１４は、ステップＳ３０１において、カメラパラメータを初期化する。

ステップＳ３０２において、入力部３１１は、カメラ設定が入力されたか否かを判定する。入力されたと判定された場合、処理はステップＳ３０３に進む。ステップＳ３０３において、カメラ制御部３１４は、入力されたカメラ設定に基づいてカメラパラメータを仮設定する。そしてステップＳ３０３の処理が終了すると処理はステップＳ３０４に進む。なお、ステップＳ３０２においてカメラ設定が入力されてないと判定された場合、ステップＳ３０３の処理はスキップ（省略）され、処理はステップＳ３０４に進む。

ステップＳ３０４において、復号部３１２は、ポイントクラウド復号処理を実行し、ビットストリームを１フレーム分復号する。なお、この場合のポイントクラウド復号処理の流れは、図１９のフローチャートを参照して説明した場合と同様であるのでその説明は省略する。

ステップＳ３０５において、カメラ監視部３１３は、処理対象フレームに対応するメタデータが存在するか否かを判定する。つまり、カメラ監視部３１３は、ステップＳ３０４の処理によりメタデータが抽出されたか否かを判定する。メタデータが存在すると判定された場合、処理はステップＳ３０６に進む。

ステップＳ３０６において、カメラ監視部３１３は、存在が確認されたメタデータに基づいて、カメラ位置を確認する。ステップＳ３０６の処理が終了すると、処理はステップＳ３０７に進む。また、ステップＳ３０５において、メタデータが存在しないと判定された場合、ステップＳ３０６の処理がスキップ（省略）されて、処理はステップＳ３０７に進む。

ステップＳ３０７において、カメラ監視部３１３は、現在のカメラとオブジェクトとの距離が品質確認済みの範囲内であるか否かを判定する。品質確認済みの範囲内であると判定された場合、処理はステップＳ３０８に進む。

ステップＳ３０８において、カメラ制御部３１４は、入力部３１１において受け付けられた入力に応じてカメラパラメータを更新する。ステップＳ３０９において、レンダリング部３１５は、ステップＳ３０８において更新したカメラパラメータに基づいてポイントクラウドをレンダリングし、２Ｄ画像を生成する。

ステップＳ３１０において、表示部３１６は、ステップＳ３０９において生成された２Ｄ画像を表示する。また、ステップＳ３１１において、記憶部３１７は、ステップＳ３０９において生成された２Ｄ画像を記憶する。

ステップＳ３１１の処理が終了すると、処理はステップＳ３１３に進む。また、ステップＳ３０７において、カメラとオブジェクトとの距離が品質確認済み範囲外であると判定された場合、処理はステップＳ３１２に進む。この場合、レンダリング後の２Ｄ画像の主観的画質が低減するおそれがあるので、レンダリングが省略される。そしてステップＳ３１２において、カメラ監視部３１３は、その旨をユーザに通知するエラー通知の画像を表示部３１６に表示させる。ステップＳ３１２の処理が終了すると、処理はステップＳ３１３に進む。

ステップＳ３１３において、カメラ監視部３１３は、再生処理を終了するか否かを判定する。終了しないと判定された場合、処理はステップＳ３０２に戻り、新たな処理対象フレームに対してそれ以降の処理が繰り返される。また、ステップＳ３１３において、全てのフレームを処理し、未処理のフレームが存在せず、終了すると判定された場合、再生処理が終了する。

以上のように各処理を実行することにより、再生装置３００は、＜１．レンダリング用カメラパラメータのシグナル＞において上述したような効果を得ることができる。つまり、再生装置３００は、より容易により適切なレンダリングを行うことができる。

＜５．付記＞
＜コンピュータ＞
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。

図２２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

図２２に示されるコンピュータ９００において、CPU（Central Processing Unit）９０１、ROM（Read Only Memory）９０２、RAM（Random Access Memory）９０３は、バス９０４を介して相互に接続されている。

バス９０４にはまた、入出力インタフェース９１０も接続されている。入出力インタフェース９１０には、入力部９１１、出力部９１２、記憶部９１３、通信部９１４、およびドライブ９１５が接続されている。

入力部９１１は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部９１２は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部９１３は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部９１４は、例えば、ネットワークインタフェースよりなる。ドライブ９１５は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア９２１を駆動する。

以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９１３に記憶されているプログラムを、入出力インタフェース９１０およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。RAM９０３にはまた、CPU９０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

コンピュータ（CPU９０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９２１に記録して適用することができる。その場合、プログラムは、リムーバブルメディア９２１をドライブ９１５に装着することにより、入出力インタフェース９１０を介して、記憶部９１３にインストールすることができる。

また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部９１４で受信し、記憶部９１３にインストールすることができる。

その他、このプログラムは、ROM９０２や記憶部９１３に、あらかじめインストールしておくこともできる。

＜本技術の適用対象＞
以上においては、ポイントクラウドデータの符号化・復号に本技術を適用する場合について説明したが、本技術は、これらの例に限らず、任意の規格の３Ｄデータの符号化・復号に対して適用することができる。つまり、上述した本技術と矛盾しない限り、符号化・復号方式等の各種処理、並びに、３Ｄデータやメタデータ等の各種データの仕様は任意である。また、本技術と矛盾しない限り、上述した一部の処理や仕様を省略してもよい。

本技術は、任意の構成に適用することができる。例えば、本技術は、衛星放送、ケーブルＴＶなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機（例えばテレビジョン受像機や携帯電話機）、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置（例えばハードディスクレコーダやカメラ）などの、様々な電子機器に適用され得る。

また、例えば、本技術は、システムLSI（Large Scale Integration）等としてのプロセッサ（例えばビデオプロセッサ）、複数のプロセッサ等を用いるモジュール（例えばビデオモジュール）、複数のモジュール等を用いるユニット（例えばビデオユニット）、または、ユニットにさらにその他の機能を付加したセット（例えばビデオセット）等、装置の一部の構成として実施することもできる。

また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV（Audio Visual）機器、携帯型情報処理端末、IoT（Internet of Things）デバイス等の任意の端末に対して、画像（動画像）に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。

なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

＜本技術を適用可能な分野・用途＞
本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。

＜その他＞
なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の２状態を識別する際に用いる情報だけでなく、３以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の２値であってもよいし、３値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、１bitでも複数bitでもよい。また、識別情報（フラグも含む）は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。

また、符号化データ（ビットストリーム）に関する各種情報（メタデータ等）は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る（リンクさせ得る）ようにすることを意味する。つまり、互いに関連付けられたデータは、１つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の記録媒体（または同一の記録媒体の別の記録エリア）に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、１フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。

なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを１つのデータにまとめるといった、複数の物を１つにまとめることを意味し、上述の「関連付ける」の１つの方法を意味する。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

また、例えば、１つのフローチャートの各ステップを、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、１つのステップに複数の処理が含まれる場合、その複数の処理を、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

１００符号化装置，１１１パッチ分解部，１１２パッキング部，１１３補助パッチ情報圧縮部，１１４ビデオ符号化部，１１５ビデオ符号化部，１１６ OMap符号化部，１２１入力部，１２２パラメータ記憶部，１２３メタデータ生成部，１３１マルチプレクサ，２００再生装置，２１１復号部，２１２カメラ制御部，２１３レンダリング部，２１４表示部，２１５記憶部，２３１デマルチプレクサ，２３２補助パッチ情報復号部，２３３ビデオ復号部，２３４ビデオ復号部，２３５ OMap復号部，２３６アンパッキング部，２３７３Ｄ再構築部，３００再生装置，３１１入力部，３１２復号部，３１３カメラ監視部，３１４カメラ制御部，３１５レンダリング部，３１６表示部，３１７記憶部

Claims

３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化して、符号化データを生成する符号化部と、
前記符号化部により生成された前記符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを生成する生成部と
を備える画像処理装置。
前記メタデータは、レンダリング用のカメラに対する条件が予め設定されたカメラパラメータを識別するインデックスを含む
請求項１に記載の画像処理装置。
前記カメラパラメータは、前記カメラの位置を示すパラメータを含む
請求項２に記載の画像処理装置。
前記カメラパラメータは、前記カメラの方向を示すパラメータを含む
請求項２に記載の画像処理装置。
前記カメラパラメータは、前記カメラの上方向を示すパラメータを含む
請求項２に記載の画像処理装置。
前記カメラパラメータは、前記カメラの投影方法を示すパラメータを含む
請求項２に記載の画像処理装置。
前記カメラパラメータは、前記カメラの画角を示すパラメータを含む
請求項２に記載の画像処理装置。
前記メタデータは、レンダリング用のカメラの目的を識別するインデックスを含む
請求項１に記載の画像処理装置。
前記目的は、符号化時の品質確認を含む
請求項８に記載の画像処理装置。
前記目的は、推奨する前記カメラの向きを含む
請求項８に記載の画像処理装置。
前記目的は、推奨する前記カメラの移動軌跡を含む
請求項８に記載の画像処理装置。
前記メタデータは、前記ポイントクラウドがレンダリングされた画像におけるスケールと現実世界のスケールとの変換レートを含む
請求項１に記載の画像処理装置。
前記メタデータは、バウンディングボックスを基準として設定されるカメラパラメータを含む
請求項１に記載の画像処理装置。
前記メタデータは、レンダリング用のカメラの移動軌跡を示すカメラ移動軌跡パラメータを含む
請求項１に記載の画像処理装置。
前記メタデータは、前記オブジェクトの移動軌跡を示すオブジェクト移動軌跡パラメータを含む
請求項１に記載の画像処理装置。
３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化して、符号化データを生成し、
生成された前記符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを生成する
画像処理方法。
３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化した符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを復号して、前記ポイントクラウドを再構築し、前記メタデータを抽出する復号部と、
前記復号部により抽出された前記メタデータを用いて、前記復号部により再構築された前記ポイントクラウドをレンダリングするレンダリング部と
を備える画像処理装置。
前記メタデータに基づいて、前記ポイントクラウドをレンダリングする際に用いるカメラパラメータを制御する制御部をさらに備え、
前記レンダリング部は、前記制御部により制御された前記カメラパラメータを用いて前記ポイントクラウドをレンダリングする
請求項１７に記載の画像処理装置。
外部からの入力に基づいて前記ポイントクラウドをレンダリングする際に用いるカメラパラメータを制御する制御部と、
前記メタデータに基づいて、前記カメラパラメータが品質確認済みの範囲内であるかをモニタリングするモニタリング部と
をさらに備え、
前記レンダリング部は、前記モニタリング部により前記カメラパラメータが品質確認済みの範囲内であると判定された場合、前記制御部により制御された前記カメラパラメータを用いて前記ポイントクラウドをレンダリングする
請求項１７に記載の画像処理装置。
３次元形状のオブジェクトを点群として表現するポイントクラウドに対する位置と属性情報とが２次元平面上に投影された２次元平面画像を符号化した符号化データと前記ポイントクラウドをレンダリングする際に用いるメタデータとを含むビットストリームを復号して、前記ポイントクラウドを再構築し、前記メタデータを抽出し、
抽出された前記メタデータを用いて、再構築された前記ポイントクラウドをレンダリングする
画像処理方法。