JP7393092B2 - Virtual viewpoint image generation device, method and program - Google Patents
Virtual viewpoint image generation device, method and program Download PDFInfo
- Publication number
- JP7393092B2 JP7393092B2 JP2020142813A JP2020142813A JP7393092B2 JP 7393092 B2 JP7393092 B2 JP 7393092B2 JP 2020142813 A JP2020142813 A JP 2020142813A JP 2020142813 A JP2020142813 A JP 2020142813A JP 7393092 B2 JP7393092 B2 JP 7393092B2
- Authority
- JP
- Japan
- Prior art keywords
- camera
- model
- virtual viewpoint
- boundary
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000013507 mapping Methods 0.000 claims description 31
- 230000000007 visual effect Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 18
- 238000009877 rendering Methods 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 101150052583 CALM1 gene Proteins 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Description
本発明は、被写体の3Dモデルを生成し、その仮想視点映像を合成する際に、引きカメラと寄りカメラとが混在する環境でも違和感の無い高品質の仮想視点映像を提供できる仮想視点映像生成装置、方法およびプログラムに関する。 The present invention provides a virtual viewpoint video generation device that can provide a high-quality virtual viewpoint video that does not feel strange even in an environment where a pulling camera and a closer camera coexist when generating a 3D model of a subject and synthesizing the virtual viewpoint video. , relating to methods and programs.
自由視点(仮想視点)映像技術は、複数台のカメラ映像を取得し、カメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献1が開示する視体積交差法に基づく3Dモデルベースの自由視点映像生成手法が存在する。
Free viewpoint (virtual viewpoint) video technology is a technology that acquires video images from multiple cameras and enables video viewing from any viewpoint, including a viewpoint where no camera is present. As one method for realizing a free-viewpoint video, there is a 3D model-based free-viewpoint video generation method based on a visual volume intersection method disclosed in Non-Patent
視体積交差法は、図9に示すように各カメラ映像から被写体の部分だけを抽出した2値のシルエット画像を3D空間に投影し、その積集合となる部分のみを3DCGのモデルとして残すことによって3Dモデルを生成する手法である。 The visual volume intersection method, as shown in Figure 9, projects a binary silhouette image into 3D space by extracting only the object part from each camera image, and leaves only the part that becomes the intersection set as a 3DCG model. This is a method for generating 3D models.
視体積交差法は、特許文献1が開示するフルモデル方式自由視点(3Dモデルの形状を忠実に表現する方式)や、非特許文献2が開示するビルボード方式自由視点(3Dモデルをビルボードと呼ばれる板の形状で制作し、近いカメラからのテクスチャをビルボードにマッピングする方式)を実現する上での基礎技術として利用されている。
The visual volume intersection method uses the full model free viewpoint method (a method that faithfully represents the shape of a 3D model) disclosed in
非特許文献1が開示する自由視点制作では、まず自由視点映像を制作したい3D空間を立方体の格子で区切ったボクセルグリッドで埋め尽くす。次いで、各ボクセルグリッドの3次元位置を各カメラのシルエット画像上に逆投影し、対応する位置のシルエット画像を参照する。そして、多くのカメラでシルエットが白(被写体が存在する)と判定されたボクセルグリッドがモデル化される。
In the free viewpoint production disclosed in Non-Patent
このような自由視点映像は、リアルタイムでインタラクティブに任意の視点からスポーツを視聴して楽しむような用途や、任意の視点の映像を作り出せるという特徴を利用して、決定されたカメラワークに基づいて臨場感のあるリプレイ動画を作ることなどを目的に利用されてきた。 This type of free-viewpoint video can be used for applications such as watching and enjoying sports interactively in real time from any viewpoint, and by taking advantage of its ability to create video from any viewpoint, it can be used to create realistic scenes based on determined camera work. It has been used for purposes such as creating impressive replay videos.
自由視点映像の制作ではカメラの配置が重要となる。例えば、大きく被写体に寄ったカメラがある場合には引きカメラの画角をスタートに当該寄りカメラをゴールとするようなカメラワークを作ることで、徐々に被写体に近付いていくようなワークを高い鮮明度を持ったテクスチャで実現することが可能である。 Camera placement is important when producing free-viewpoint videos. For example, if you have a camera that is very close to the subject, you can create a camera work that starts from the angle of view of the pulled camera and uses the close camera as the goal. It is possible to achieve this with a texture with a certain degree of precision.
カメラが被写体に近ければ近いほど鮮明なテクスチャが得られる一方、カメラが被写体に近づくほどカメラに映り込むスタジアム上の領域が小さくなってしまう。特に、特定のカメラだけが大きく被写体に近づいているようなケースでは、寄りカメラの画角範囲外にある被写体が3Dモデル形成されずに消失してしまう。 The closer the camera is to the subject, the sharper the texture will be obtained, but the closer the camera is to the subject, the smaller the area on the stadium that will be reflected by the camera. In particular, in a case where only a specific camera is moving very close to the subject, the subject that is outside the field of view of the closer camera will disappear without being formed into a 3D model.
図10は、全てのカメラが引きカメラの場合[同図(a)]と寄りカメラを一つ含む場合[同図(b)]との積集合の形成される範囲を比較した図であり、同図(b)では同図(a)に比べて積集合の範囲が小さくなり、寄りカメラの画角範囲外にある被写体の3Dモデルが形成されずに消失し得ることが解る。 FIG. 10 is a diagram comparing the range in which the intersection set is formed when all cameras are pulling cameras [Figure 10(a)] and when one moving camera is included [Figure 10(b)]. In the figure (b), the range of the intersection set is smaller than in the figure (a), and it can be seen that the 3D model of the object outside the field of view of the closer camera may disappear without being formed.
このような技術課題は、カメラがN台ある環境でN-1台から見えている部分は3Dモデル化するなど、3Dモデル生成に関するカメラ台数の閾値を変更することで解決できる。 These technical issues can be solved by changing the threshold for the number of cameras involved in 3D model generation, such as creating a 3D model for the part that is visible from N-1 cameras in an environment with N cameras.
あるいは、本発明の発明者等が発明して既に特許出願(特許文献2)したように、寄りカメラおよび引きカメラの各カメラ映像を用いて視体積交差法により被写体の3Dボクセルモデルを生成する際、図11に示すように、寄りカメラの画角範囲外には被写体が存在するものとして処理する一方、引きカメラでは被写体が存在しないものとして処理することで3Dモデルの消失を防ぐようにしても良い。 Alternatively, as the inventors of the present invention have invented and already applied for a patent (Patent Document 2), when a 3D voxel model of the subject is generated by the visual volume intersection method using the camera images of the approaching camera and the retracting camera. , As shown in Figure 11, even if the 3D model is prevented from disappearing by processing the object as if it exists outside the viewing angle range of the closer camera, and processing it as if the object does not exist with the pull camera. good.
一方、上記の各手法を駆使することで引きカメラと寄りカメラとが混在する環境で3Dモデルを生成できたとしても、寄りカメラに写っている被写体は寄りカメラから、引きカメラにしか映っていない被写体は引きカメラから、それぞれマッピングするようなレンダリングプロセスが必要になる。 On the other hand, even if it is possible to generate a 3D model in an environment where a pulling camera and a closer camera coexist by making full use of each of the above methods, the subject that is photographed by the closer camera will only be seen from the closer camera and only by the pulling camera. A rendering process is required to map each subject from the camera.
加えて、寄りカメラと引きカメラとの画角境界に存在する被写体に対して各カメラからテクスチャをマッピングすると、図12に示したように、各カメラの解像度の差やマッピングするカメラの違いが原因で画角境界に切れ目がはっきりと目立ってしまい、視聴品質に違和感が生まれるという課題があった。 In addition, when textures are mapped from each camera to an object that exists at the field of view boundary between the closer camera and the closer camera, as shown in Figure 12, the difference in the resolution of each camera and the difference in the cameras being mapped cause problems. However, there was a problem in that the break at the border of the viewing angle was clearly noticeable, creating an unnatural feeling in the viewing quality.
本発明の目的は、引きカメラと寄りカメラとが混在する環境で制作した3Dモデルにテクスチャをマッピングして仮想視点映像を生成する際に、3Dモデルごとに寄りカメラの画角境界との位置関係に応じて、引きカメラおよび寄りカメラの一方のみからマッピングことで、画角境界に切れ目を生じさせない仮想視点映像生成装置、方法およびプログラムを提供することにある。 An object of the present invention is to map textures to a 3D model created in an environment where a pulling camera and a leaning camera coexist to generate a virtual viewpoint image, and to determine the positional relationship with the viewing angle boundary of the leaning camera for each 3D model. An object of the present invention is to provide a virtual viewpoint video generation device, method, and program that do not create a break in the field angle boundary by performing mapping from only one of a pulling camera and a closer camera.
上記の目的を達成するために、本発明は、被写体を複数の視点で撮影したカメラ映像に基づいて仮想視点映像を生成する仮想視点映像生成装置において、以下の構成を具備した点に特徴がある。 In order to achieve the above object, the present invention provides a virtual viewpoint video generation device that generates a virtual viewpoint video based on camera images taken of a subject from a plurality of viewpoints, and is characterized in that it includes the following configuration. .
(1) 寄りカメラおよび引きカメラの各カメラ映像に基づいて3Dモデルを生成する手段と、被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する手段と、3Dモデルに対して各カメラ映像からテクスチャをマッピングする手段とを具備し、マッピングする手段は、画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングするようにした。 (1) A means for generating a 3D model based on each camera image of a closer camera and a closer camera, a means for determining whether or not a 3D model of a subject exists on the field of view boundary of a close camera, and a means for generating a 3D model The mapping means includes a means for mapping a texture from each camera image, and the mapping means includes a means for mapping a texture from the camera image of the pulling camera, including a 3D model existing on the field of view boundary, from the camera image of the pulling camera. mapped.
(2) 判定する手段は、3Dモデルを内包する3Dバウンディングボックスが寄りカメラの画角境界上に存在するか否かを判定するようにした。 (2) The determining means is to determine whether or not the 3D bounding box containing the 3D model exists on the field of view boundary of the camera.
(3) 3Dモデルを生成する手段は、寄りカメラおよび引きカメラの各カメラ映像に基づく視体積交差法を採用し、被写体のシルエットに基づいて低解像ボクセルモデルを構築する手段と、被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築する手段とを具備し、判定する手段は、3Dモデルごとにその低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定するようにした。 (3) The means for generating a 3D model employs the visual volume intersection method based on camera images from the approaching camera and the retracting camera, and a means for constructing a low-resolution voxel model based on the silhouette of the subject; means for constructing a high-resolution voxel model in the region of the low-resolution voxel model based on the 3D model; It was decided whether or not to do so.
(4) 3Dモデルがポリゴンモデルであると、3Dモデルの各ポリゴンが各カメラから可視/不可視のいずれであるかを記録したオクルージョン情報を生成する一方、画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、マッピングする手段は、各ポリゴンに当該ポリゴンが可視のカメラからテクスチャをマッピングするようにした。 (4) If the 3D model is a polygon model, occlusion information is generated that records whether each polygon of the 3D model is visible or invisible from each camera, and occlusion information is generated that records whether each polygon of the 3D model is visible or invisible from each camera. The means for rewriting and mapping the occlusion information of the closer camera to the invisible one is to map a texture to each polygon from a camera that makes the polygon visible.
(1) 本発明の仮想視点映像生成装置は、寄りカメラの画角境界上に存在する3Dモデルに対しては、寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャマッピングを行うようにしたので、一つの3Dモデルに寄りカメラおよび引きカメラの双方からテクスチャがマッピングされることで生じ得る品質低下を防止できるようになる。 (1) The virtual viewpoint image generation device of the present invention performs texture mapping on a 3D model that exists on the field of view boundary of the close camera from the camera image of the pull camera, including within the field of view of the close camera. By doing this, we can prevent the quality degradation that can occur when textures are mapped from both the local camera and the pull camera to a single 3D model.
(2) 被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを、当該3Dモデルを内包する3Dバウンディングボックスが寄りカメラの画角境界上に存在するか否かに基づいて判定するので、3Dバウンディングボックスの8頂点全てが寄りカメラの画角範囲内あるいは8頂点全てが寄りカメラの画角範囲外であれば画角境界上に存在しないと判定できる。したがって、非常に高速な判定が可能になる。 (2) Determine whether the 3D model of the subject exists on the field of view boundary of the close camera based on whether the 3D bounding box containing the 3D model exists on the field of view boundary of the close camera. Therefore, if all eight vertices of the 3D bounding box are within the view angle range of the closer camera, or if all eight vertices are outside the view angle range of the closer camera, it can be determined that the 3D bounding box does not exist on the view angle boundary. Therefore, very fast determination is possible.
(3) 被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを、低解像ボクセルモデルの時点で判定を行うようにしたので、高解像ボクセルモデル生成の結果を待たずに並列して境界判定を行うことが可能となり、高速に処理を動作させることができるようになる。 (3) Whether or not the 3D model of the subject exists on the field of view boundary of the camera is determined at the time of the low-resolution voxel model, so there is no need to wait for the results of high-resolution voxel model generation. It becomes possible to perform boundary determination in parallel with the above, and it becomes possible to perform processing at high speed.
(4) 画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替えるようにしたので、境界判定の結果を参照することなくオクルージョン情報を参照するのみで適正なカメラ映像からテクスチャをマッピングできるようになる。 (4) The occlusion information of the closer camera regarding the polygons of the 3D model existing on the boundary of the view angle is rewritten to be invisible, so you can obtain an appropriate camera image by simply referring to the occlusion information without referring to the boundary determination result. You can now map textures from
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の第1実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、3Dモデル制作サーバ10およびレンダリングサーバ20を主要な構成としている。ここではスポーツシーンをN台のカメラCam1~CamNで撮影し、その一部が寄りカメラ、残りが引きカメラである場合を例にして説明する。
Embodiments of the present invention will be described in detail below with reference to the drawings. FIG. 1 is a functional block diagram showing the configuration of the main parts of a virtual viewpoint
このような仮想視点映像生成装置1は、汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
Such a virtual viewpoint
3Dモデル制作サーバ10は、シルエット画像取得部101、3Dモデル生成部102および境界判定部103を含み、被写体ごとに3Dモデルを生成してレンダリングサーバ20へ提供する。更に、3Dモデルごとに寄りカメラの画角境界との位置関係を判定し、判定結果をレンダリングサーバ20へ提供する。
The 3D
シルエット画像取得部101は、寄りカメラおよび引きカメラの各カメラ映像から視体積交差法による3Dモデル生成に用いるシルエット画像をシルエット画像データベース30から取得する。視体積交差法により3Dモデルを生成するためには3台以上のカメラからシルエット画像を取得することが望ましい。
The silhouette
シルエット画像は3Dモデルを生成する被写体領域を白(=1)、それ以外の領域を黒(=0)で表した2値のマスク画像の形式で与えられる。このようなシルエット画像の生成には、非特許文献5に開示された背景差分法に代表される任意の既存手法を利用できる。 The silhouette image is given in the form of a binary mask image in which the subject area for which the 3D model is generated is represented in white (=1), and the other areas are represented in black (=0). Any existing method, such as the background subtraction method disclosed in Non-Patent Document 5, can be used to generate such a silhouette image.
3Dモデル生成部102は、シルエット画像取得部101が取得したシルエット画像および別途に与えられるカメラ分類情報に基づいて、N枚のシルエット画像を用いた視体積交差法により被写体の3Dボクセルモデルを計算する。ここで、カメラ分類情報とは各カメラが寄りカメラおよび引きカメラのいずれであるかを識別する情報である。
The 3D
視体積交差法は、N枚のシルエット画像を3次元ワールド座標に投影した際の視錐体の共通部分を視体積(Visual Hull)VH(I)として獲得するものであり、次式(1)で示される。ここで、集合Iは各カメラのシルエット画像の集合であり、Viはi番目のカメラから得られるシルエット画像から計算される視錐体である。 The visual volume intersection method obtains the common part of the visual cone when N silhouette images are projected onto the 3D world coordinates as the visual volume (Visual Hull) VH(I), and is expressed by the following formula (1). It is indicated by. Here, set I is a set of silhouette images of each camera, and Vi is a viewing cone calculated from the silhouette images obtained from the i-th camera.
こうして生成されたボクセルモデルは、ボクセルのままで扱われてもよいが、マーチンキューブ法などに基づいてポリゴンモデルに変換されてもよい。ここではポリゴンモデルに変換されるものとして説明を続ける。 The voxel model generated in this manner may be treated as voxels, or may be converted into a polygon model based on the Martin Cube method or the like. Here, the explanation will be continued assuming that it is converted to a polygon model.
境界判定部103は、3Dモデル生成部102が生成した3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する。本実施形態では、図2に示したように独立した各3Dモデルの塊を内包する3Dバウンディングボックスを定義し、当該3Dバウンディングボックス単位で3Dモデルが画角境界上に存在するか否かを判定する。
The
3Dバウンディングボックスを対象とした判定では、その8頂点全てが寄りカメラの画角範囲内あるいは8頂点全てが寄りカメラの画角範囲外であれば、当該3Dバウンディングボックスは画角境界上に存在しないと判定する。バウンディングボックス単位での判定によれば8頂点のチェックで済むため非常に高速な判定が可能になる。 When determining a 3D bounding box, if all 8 vertices are within the field of view of the camera or all 8 vertices are outside the field of view of the camera, the 3D bounding box does not exist on the field of view boundary. It is determined that If the determination is made on a bounding box basis, only 8 vertices need to be checked, making it possible to perform extremely fast determination.
一方、3Dバウンディングボックスは3Dモデルの形状と厳密には同一ではない。このため内包された3Dモデルは寄りカメラの画角内に収まっているにも関わらず3Dバウンディングボックスの頂点だけが寄りカメラの画角外に漏れていると境界判定にミスが発生し得る。 On the other hand, the 3D bounding box is not exactly the same as the shape of the 3D model. Therefore, even though the included 3D model is within the field of view of the close camera, if only the vertices of the 3D bounding box leak outside the field of view of the close camera, errors may occur in boundary determination.
精度面を考慮すれば3Dバウンディングボックス単位ではなく、3Dバウンディングボックスに内包されているボクセルモデルを使って判定することが望ましい。例えば、ボクセルモデル内の全てのボクセルの中心点を寄りカメラ方向に逆投影し、寄りカメラの画角内に収まる中心点と収まらない中心点とが存在すれば、この被写体は境界領域に存在するものとして判定を行う。境界判定の結果は、寄りカメラが複数台であれば被写体数×寄りカメラ数だけ計算されてもよい。 Considering accuracy, it is desirable to use a voxel model included in a 3D bounding box to make a determination, rather than using a 3D bounding box unit. For example, if the center points of all voxels in the voxel model are back-projected in the direction of the closer camera, and there are center points that fall within the field of view of the closer camera and center points that do not, then this object exists in the boundary area. Judgment is made as a matter of fact. If there are multiple closer cameras, the boundary determination result may be calculated by the number of subjects x the number of closer cameras.
レンダリングサーバ20は、3Dモデル制作サーバ10が制作した被写体3Dモデルの形状情報と各カメラ映像(テクスチャ)とを用いて仮想視点から見た合成映像をレンダリングする。本実施例では、フルモデルでの自由視点レンダリングを行う。
The
なお、レンダリングサーバ20は3Dモデル制作サーバ10と同一の計算機上に構成されても良いし、別々のサーバで構成しても良い。一般に、3Dモデルは特定のフレームに対して1回計算されればよいのでハイエンドなPCなどで高速に計算を行って保存しておき、この3Dモデルを、レンダリング機能を備えた仮想視点視聴端末に配信するように構成することで、ハイエンドなPC1台と低スペック端末も含む多端末への映像配信を実現することができる。
Note that the
レンダリングサーバ20において、仮想視点選択部201は、作業者による視点選択操作を検知して仮想視点pvの位置および向きを取得する。境界依存マッピング部202は、仮想視点pvおよび境界判定の結果に基づいて、3Dモデルの各ポリゴンへ各カメラ映像からテクスチャをマッピングする。仮想視点映像出力部203は、レンダリングされた合成映像を仮想視点映像として出力する。
In the
図3は、境界依存マッピング部202によるテクスチャのマッピング方法を模式的に示した図である。画角境界を跨がずに寄りカメラの画角内に収まっていると判定された3Dモデルに対しては、寄りカメラのカメラ映像から抽出したテクスチャのみがマッピングされる。また、画角境界を跨がずに引きカメラの画角内に収まっていると判定された3Dモデルに対しては、引きカメラのカメラ映像から抽出したテクスチャのみがマッピングされる。
FIG. 3 is a diagram schematically showing a texture mapping method by the boundary-
なお、画角境界を跨がずに引きカメラの画角内に収まっていると判定された3Dモデルのうち寄りカメラの画角内にも収まっている3Dモデルに対しては、寄りカメラのみからテクスチャがマッピングされるようにしても良い。 In addition, for 3D models that are determined to be within the field of view of the camera without straddling the field of view boundary, those 3D models that are also within the field of view of the camera will be automatically The texture may be mapped.
これに対して、寄りカメラの画角境界上にあると判定された3Dモデルに対しては、寄りカメラの画角内に収まっている領域も含めて引きカメラのカメラ映像から抽出したテクスチャのみがマッピングされる。これにより画角境界上の3Dモデルに対して、寄りカメラおよび引きカメラの双方のテクスチャがマッピングされることにより生じ得る映像品質の劣化(図12)を防止できるようになる。 On the other hand, for a 3D model that is determined to be on the field of view boundary of the close camera, only the texture extracted from the camera image of the pull camera, including the area within the field of view of the close camera, is displayed. mapped. This makes it possible to prevent the deterioration of video quality (Fig. 12) that may occur due to the textures of both the closer camera and the closer camera being mapped to the 3D model on the field-of-view boundary.
なお、上記の第1実施形態ではカメラ分類情報が別途に与えられるものとして説明したが、本発明はこれのみに限定されるものではなく、図4に示した第2実施形態のように、カメラパラメータに基づいてカメラ分類情報を出力するカメラ分類部104を設け、ズーム操作等により変化する焦点距離に応じて適応的に分類結果が変化するようにしても良い。 Although the first embodiment described above has been described on the assumption that camera classification information is provided separately, the present invention is not limited to this, and as in the second embodiment shown in FIG. A camera classification unit 104 that outputs camera classification information based on parameters may be provided so that the classification result changes adaptively in accordance with the focal length that changes due to a zoom operation or the like.
カメラ分類部104は、次式(2)で与えられるカメラパラメータを利用することでN台のカメラを寄りカメラまたは引きカメラに自動で分類する。 The camera classification unit 104 automatically classifies the N cameras as close cameras or close cameras by using camera parameters given by the following equation (2).
カメラパラメータは、ワールド座標上の点(X, Y, Z)をカメラ映像上の2Dの点(u, v)に変換するために用いられ、r11~r33はカメラの向きを示す回転行列、t1~t3はカメラの位置を表す並進行列であり、二つを合わせてカメラの外部パラメータと呼ばれる。 Camera parameters are used to convert a point (X, Y, Z) on the world coordinates to a 2D point (u, v) on the camera image, and r 11 to r 33 are rotation matrices that indicate the camera orientation. , t 1 to t 3 are translation matrices representing the camera position, and together they are called the camera's extrinsic parameters.
fx,fyはズーム具合を示すピクセル単位の焦点距離、cx,cyは画像の主点であり、通常は画像中心となることが多い。この焦点距離や主点などのパラメータはカメラの内部パラメータと呼ばれる(カメラのレンズによって画像上に生じる歪に関するパラメータを含むことも多いが、ここでは簡単のため省略する)。 f x and f y are focal lengths in pixel units that indicate the degree of zooming, and c x and c y are principal points of the image, which are usually the center of the image. Parameters such as the focal length and principal point are called internal parameters of the camera (which often includes parameters related to distortion caused on the image by the camera lens, but are omitted here for simplicity).
sは[u, v, 1]とするためのスケーリングに用いる変数である。このカメラパラメータは事前に非特許文献4が開示する技術を使って計算できる。実際に入力されるカメラパラメータの例を図5に示す。 s is a variable used for scaling to [u, v, 1]. These camera parameters can be calculated in advance using the technique disclosed in Non-Patent Document 4. Figure 5 shows an example of camera parameters that are actually input.
ここで、fx,fyはズーム具合を示すピクセル単位の焦点距離であるから、この値が大きいカメラは大きくズームされている可能性が高い。よって、カメラ分類部104はfxおよびfyをチェックすることで自動的に寄りカメラを分類できる。 Here, f x and f y are focal lengths in pixel units that indicate the degree of zooming, so a camera with a large value is likely to have been zoomed greatly. Therefore, the camera classification unit 104 can automatically classify close cameras by checking f x and f y .
寄りカメラへの分類数は1台に限定されず、fx,fyが一定の値より大きい数台(≦N台)のカメラを全て寄りカメラへ分類しても良いし、fx,fyが大きい方からN1台(≦N台)を寄りカメラに分類しても良い。さらに、fx,fyが大きい方から優先的に全カメラ台数のL%(Lは0~100の任意の定数)のカメラを寄りカメラに分類しても良い。さらにはfx,fyではなく外部パラメータから計算されるカメラの位置に基づいて分類が行われるようにしても良い。 The number of cameras classified as closer cameras is not limited to one; several cameras (≦N cameras) with f x , f y larger than a certain value may all be classified as closer cameras, or f x , f N1 units (≦N units) from the side with the largest y may be classified as closer cameras. Furthermore, cameras with L% (L is an arbitrary constant from 0 to 100) of the total number of cameras may be classified as closer cameras, preferentially starting from the one with larger f x and f y . Furthermore, classification may be performed based on the camera position calculated from external parameters instead of f x and f y .
あるいは、前のフレームで制作した被写体3Dモデルや、事前に用意されたゴールポストなどの汎用3Dモデルが各カメラに映りこむサイズを計測することで各カメラを分類しても良い。例えば、寄りカメラを含めた全カメラが捉える領域に、事前に用意された3Dモデルを配置し、この3Dモデルをカメラ方向に逆投影したときに現れるシルエットの大きさに基づいて分類することができる。 Alternatively, each camera may be classified by measuring the size of a 3D model of a subject created in the previous frame or a general-purpose 3D model prepared in advance, such as a goal post, reflected in each camera. For example, a 3D model prepared in advance can be placed in the area captured by all cameras, including the close-up camera, and the 3D model can be classified based on the size of the silhouette that appears when this 3D model is back-projected toward the camera. .
図6は、本発明の第3実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態は、3Dモデル生成部102が低解像ボクセルモデル生成部102aおよび高解像ボクセルモデル生成部102bを具備し、低解像ボクセルモデルに基づいて境界判定が行われるようにした点に特徴がある。
FIG. 6 is a functional block diagram showing the configuration of the main parts of the virtual viewpoint
低解像ボクセルモデル生成部102aは、単位ボクセルサイズがMの粗いボクセルグリッドを対象にボクセルモデルを生成する。単位ボクセルサイズMは高解像ボクセル生成部102bにおける単位ボクセルサイズLよりも大きな値であり、例えばM=5cmなどに設定される。本実施形態では、3Dモデル生成の対象範囲(例えば、スポーツ映像なら当該スポーツが行われるフィールド等)に単位ボクセルサイズMでボクセルグリッドを配置しておき、このボクセルグリッドを対象に3Dモデルを形成するか否かを視体積交差法に基づき判定する。
The low-resolution voxel
次いで、形成された粗いボクセルモデルを対象に、連結しているボクセルは同一の被写体であるとみなす作業を繰り返すことで粗いボクセルモデルの塊ごとにラベリング処理が行われる。 Next, for the formed coarse voxel model, labeling processing is performed for each chunk of the coarse voxel model by repeating a process in which connected voxels are considered to be the same subject.
次いで、こうして得られた塊に対して、それを内包するような形で3Dバウンディングボックスを定義し、この3Dバウンディングボックスの内部のみに単位ボクセルサイズLのボクセルグリッドを生成し、上記と同様にして細かいボクセル生成を行う。このような2段階のボクセル生成手法は非特許文献3に開示されている。前記境界判定部103は、低解像ボクセルモデル生成部102aが生成した3Dバウンディングボックス単位で境界判定を行う。
Next, define a 3D bounding box for the mass obtained in this way so as to include it, generate a voxel grid of unit voxel size L only inside this 3D bounding box, and do the same as above. Performs detailed voxel generation. Such a two-step voxel generation method is disclosed in Non-Patent Document 3. The
このように、低解像ボクセルモデルの時点で判定を行うようにすれば、高解像ボクセルモデル生成の結果を待たずに並列して境界判定を行うことができるため、高速に処理を動作させることができる。ただし、本発明は高解像ボクセルモデルに基づいて境界判定を行うことを妨げるものはない。 In this way, if the judgment is made at the time of the low-resolution voxel model, the boundary judgment can be made in parallel without waiting for the results of high-resolution voxel model generation, which speeds up the processing. be able to. However, there is nothing in the present invention that prevents boundary determination based on a high-resolution voxel model.
このように、高解像ボクセルモデルを用いて境界判定を行えば、低解像ボクセルモデルを用いる場合よりも精緻なモデル形状が得られることから、境界判定をより正確に実施できるようになる。 In this way, if boundary determination is performed using a high-resolution voxel model, a more precise model shape can be obtained than when a low-resolution voxel model is used, so that boundary determination can be performed more accurately.
図7は、本発明の第4実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、第3実施形態と同一の符号は同一または同等部分を表しているので、その説明は省略する。
FIG. 7 is a functional block diagram showing the configuration of the main parts of the virtual viewpoint
本実施形態は、3Dモデル制作サーバ10がオクルージョン情報生成部105を具備し、前記境界判定部103による判定結果に基づいてオクルージョン情報を書き替え、レンダリングサーバ20の境界依存マッピング部202が書き替え後のオクルージョン情報に基づいてテクスチャのマッピングを行うようにした点に特徴がある。
In this embodiment, the 3D
オクルージョン情報生成部105は、3Dモデルの各頂点を可視のカメラと不可視のカメラとに分別するオクルージョン情報を生成する。本実施形態のようにN台のカメラが存在する環境では、3Dモデルの頂点ごとにN個のオクルージョン情報が計算され、可視のカメラには「1」、不可視のカメラには「0」などの情報が記録される。
The occlusion
サッカーの競技シーンで選手が二人重なり、あるカメラ映像において選手Aが選手Bを覆い隠す場合、選手Bの3Dモデルに選手Aのテクスチャが映り込まないようにテクスチャをマッピングする必要がある。このような場合、選手Bの3Dモデルの遮蔽される部分の頂点に関しては、当該カメラに関するオクルージョン情報が「不可視」として記録されている。このオクルージョン情報は、例えば特許文献1のようなデプスマップを用いた手法等を用いて計算される。
In a soccer competition scene, when two players overlap and player A covers player B in a certain camera image, it is necessary to map the texture so that player A's texture is not reflected in player B's 3D model. In such a case, the occlusion information regarding the camera is recorded as "invisible" for the vertices of the occluded portion of player B's 3D model. This occlusion information is calculated using, for example, a method using a depth map as disclosed in
前記境界依存マッピング部202は、境界判別の結果に応じて仮想視点近傍の2台のカメラ(c1, c2)を選択し、これらのカメラ映像を3Dモデルのポリゴンgにマッピングする。すなわち、マッピング対象の3Dモデルが画角境界上になく、その全てが寄りカメラの画角内に収まっていれば、寄りカメラを対象に仮想視点近傍の2台のカメラが選択される。これに対して、マッピング対象の3Dモデルが画角境界上にあるか、あるいはその全てが引きカメラの画角内に収まっていれば、引きカメラを対象に仮想視点近傍の2台のカメラが選択される。
The boundary-
なお、本実施形態ではその前処理として、あるポリゴンgを構成する3頂点のオクルージョン情報を用いて当該ポリゴンの可視判定を行う(3頂点は3Dモデルが三角ポリゴンで形成される場合であり、実際にはそれぞれのポリゴンを構成する頂点数に依存する)。 In addition, in this embodiment, as preprocessing, the visibility of a certain polygon g is determined using occlusion information of the three vertices that make up the polygon (the three vertices are when the 3D model is formed of triangular polygons, and in reality depends on the number of vertices that make up each polygon).
例えば、カメラc_1に対するポリゴンgの可視判定フラグをg_(c_1 )と表現する場合、ポリゴンgを構成する3頂点すべてが可視であればg_(c_1 )は可視、3頂点のうちいずれかでも不可視であればg_(c_1 )は不可視と設定する。本実施形態では、このようなカメラごとのポリゴンの可視判定の結果に応じて、以下のようにテクスチャマッピングを行う。 For example, if the visibility determination flag of polygon g for camera c_1 is expressed as g_(c_1 ), if all three vertices of polygon g are visible, g_(c_1 ) is visible, and if any of the three vertices is invisible. If so, g_(c_1 ) is set as invisible. In this embodiment, texture mapping is performed as follows according to the result of polygon visibility determination for each camera.
ケース1:ポリゴンgに関するカメラc1,c2の可視判定フラグgc1,gc2がいずれも「可視」の場合
次式(3)に基づいてアルファブレンドによるマッピングを行う。
Case 1: When visibility determination flags g c1 and g c2 of cameras c 1 and c 2 regarding polygon g are both “visible” Mapping by alpha blending is performed based on the following equation (3).
ここで、texturec1(g),texturec2(g)はポリゴンgがカメラc1,c2において対応するカメラ映像領域を示し、texture(g)は当該ポリゴンにマッピングされるテクスチャを示す。アルファブレンドの比率aは仮想視点pvと各カメラ位置p_(c_1 ), p_(c_2 )との距離(アングル)の比に応じて算出される。 Here, texture c1 (g) and texture c2 (g) indicate camera image areas to which polygon g corresponds in cameras c 1 and c 2 , and texture (g) indicates a texture mapped to the polygon. The alpha blend ratio a is calculated according to the ratio of the distance (angle) between the virtual viewpoint p v and each camera position p_(c_1 ), p_(c_2 ).
ケース2:可視判定フラグgc1,gc2の一方のみが可視の場合
ポリゴンgを可視であるカメラのテクスチャのみを用いてレンダリングを行う。すなわち上式(3)において、可視であるカメラのtexture_(c_i )に対応する比率aの値を1とする。あるいは仮想視点p_vからみて次に近い第3のカメラc_3を不可視である一方のカメラの代わりに参照し、ケース1の場合と同様に上式(3)に基づくアルファブレンドによりマッピングを行う。
Case 2: When only one of visibility determination flags g c1 and g c2 is visible Rendering is performed using only the texture of the camera that makes polygon g visible. That is, in the above equation (3), the value of the ratio a corresponding to the visible camera texture_(c_i) is set to 1. Alternatively, the third camera c_3, which is next closest to the virtual viewpoint p_v, is referred to instead of the invisible one camera, and mapping is performed by alpha blending based on the above equation (3) as in
ケース3:可視判定フラグgc1,gc2のいずれもが不可視の場合
仮想視点pv近傍(一般には、アングルが近いもの)の他のカメラを選択することを、少なくとも一方の可視判定フラグが可視となるまで繰り返し、各カメラ映像の参照画素位置のテクスチャを、ケース1の場合と同様に上式(3)に基づくアルファブレンドによりポリゴンgにマッピングする。
Case 3: When both visibility determination flags g c1 and g c2 are invisible At least one of the visibility determination flags indicates that another camera near the virtual viewpoint p v (generally, one with a close angle) is to be selected. Repeatedly until , the texture at the reference pixel position of each camera image is mapped onto the polygon g by alpha blending based on the above equation (3), as in
なお、上記の実施形態では初期参照する近傍カメラ台数を2台としているが、ユーザ設定により変更してもよい。その際は、初期参照カメラ台数bに応じて、上式(1)はb台のカメラの線形和(重みの総和が1)とする拡張が行われる。また、すべてのカメラにおいて不可視となったポリゴンについてはテクスチャをマッピングしない。 Note that in the above embodiment, the number of nearby cameras to be initially referred to is two, but this may be changed by user settings. In that case, according to the number of initial reference cameras b, the above equation (1) is expanded to a linear sum of b cameras (total sum of weights is 1). Also, textures are not mapped for polygons that are invisible to all cameras.
ここで、本実施形態では前記境界依存マッピング部202がオクルージョン情報を参照するのみでオクルージョンおよび境界条件に基づいて適正なカメラ映像からテクスチャをマッピングできるように、オクルージョン情報が前記境界判定部103の判定結果に応じて書き替えられるようにしている。
Here, in this embodiment, the occlusion information is determined by the
図8は、オクルージョン情報の書き換え例を示した図であり、ここでは寄りカメラの可視/不可視(遮蔽)が最下位ビットに割り当てられており、境界上に位置する3Dモデルを構成する各ポリゴンについては、各頂点が可視/不可視(遮蔽)のいずれであるかを問わず、常に遮蔽状態を示す「0」に書き換えられている。 Figure 8 is a diagram showing an example of rewriting occlusion information. Here, the visibility/invisibility (occlusion) of the closer camera is assigned to the least significant bit, and for each polygon that makes up the 3D model located on the boundary. is always rewritten to "0" indicating a shielded state, regardless of whether each vertex is visible or invisible (shielded).
なお、上記の各実施形態では3Dモデル生成部102が寄りカメラおよび引きカメラの各カメラ映像に基づくシルエット画像を用いた視体積交差法により3Dモデルを生成するものとして説明した。しかしながら、本発明はこれのみに限定されるものではなく、デプスセンサベースで生成した3Dモデル(非特許文献6)やニューラルネットワークベースで生成した3Dモデル(非特許文献7)へのテクスチャマッピングにも適用できる。
In each of the above embodiments, the 3D
非特許文献6では、Kinect(登録商標)のように物体までの距離を取得可能なデプスセンサを用いることで物体の3D形状が取得される。複数台のKinect(登録商標)を組み合わせれば360度から高精度の形状取得が可能になる。なお、Kinect(登録商標)にはデプスセンサの他にRGBカメラも付属するので、テクスチャマッピングにはKinect(登録商標)のRGBカメラを利用できる。すなわち、形状のみをデプスセンサで取得し、テクスチャマッピングには通常のカメラを利用できる。 In Non-Patent Document 6, the 3D shape of an object is acquired by using a depth sensor that can acquire the distance to the object, such as Kinect (registered trademark). By combining multiple Kinects (registered trademark), it is possible to obtain highly accurate shapes from 360 degrees. In addition, Kinect (registered trademark) comes with an RGB camera in addition to a depth sensor, so the RGB camera of Kinect (registered trademark) can be used for texture mapping. In other words, only the shape can be acquired with a depth sensor, and a normal camera can be used for texture mapping.
非特許文献7には、単眼または複数カメラから3Dモデル形状をニューラルネットワークで推定する手法が開示されている。 Non-Patent Document 7 discloses a method of estimating the shape of a 3D model using a neural network using a single camera or multiple cameras.
1…仮想視点映像生成装置,10…3Dモデル制作サーバ,20…レンダリングサーバ,101…シルエット画像取得部,102…3Dモデル生成部,102a…低解像ボクセルモデル生成部,102b…高解像ボクセルモデル生成部,103…境界判定部,104…カメラ分類部,105…オクルージョン情報生成部,201…仮想視点選択部,202…境界依存マッピング部,203…仮想視点映像出力部 1...Virtual viewpoint video generation device, 10...3D model production server, 20...Rendering server, 101...Silhouette image acquisition section, 102...3D model generation section, 102a...Low resolution voxel model generation section, 102b...High resolution voxel Model generation section, 103... Boundary determination section, 104... Camera classification section, 105... Occlusion information generation section, 201... Virtual viewpoint selection section, 202... Boundary dependent mapping section, 203... Virtual viewpoint video output section
Claims (12)
寄りカメラおよび引きカメラの各カメラ映像に基づいて3Dモデルを生成する手段と、
被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する手段と、
前記3Dモデルに対して各カメラ映像からテクスチャをマッピングする手段とを具備し、
前記判定する手段は、前記3Dモデルを内包する3Dバウンディングボックスの全ての頂点が寄りカメラの画角範囲内または寄りカメラの画角範囲外である3Dモデル以外の3Dモデルを寄りカメラの画角境界上に存在するものと判定し、
前記マッピングする手段は、寄りカメラの画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングすることを特徴とする仮想視点映像生成装置。 In a virtual viewpoint video generation device that generates a virtual viewpoint video based on camera images taken of a subject from multiple viewpoints,
means for generating a 3D model based on each camera image of the approaching camera and the pulling camera;
means for determining whether or not the 3D model of the subject exists on the field of view boundary of the camera;
means for mapping a texture from each camera image to the 3D model,
The determining means includes a 3D model other than a 3D model in which all vertices of a 3D bounding box containing the 3D model are within the viewing angle range of the approaching camera or outside the viewing angle range of the approaching camera. It is determined that it exists above the
The virtual viewpoint image generation is characterized in that the mapping means maps a texture from the camera image of the pulling camera, including the area within the viewing angle of the closer camera, for a 3D model existing on the field angle boundary of the closer camera. Device.
被写体のシルエットに基づいて低解像ボクセルモデルを構築する手段と、
被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築する手段とを具備し、
前記判定する手段は、3Dモデルごとに、その低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項1に記載の仮想視点映像生成装置。 The means for generating the 3D model generates the 3D model by a visual volume intersection method based on camera images of the approaching camera and the pulling camera,
means for constructing a low resolution voxel model based on a silhouette of a subject;
means for constructing a high-resolution voxel model in the region of the low-resolution voxel model based on a silhouette of the subject;
The virtual viewpoint video generation device according to claim 1 , wherein the determining means determines for each 3D model whether or not the low-resolution voxel model exists on a field-of-view boundary of a close-up camera. .
前記3Dモデルの各ポリゴンが各カメラから可視/不可視のいずれであるかを記録したオクルージョン情報を生成する手段を具備し、
前記オクルージョン情報を生成する手段は、前記画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、
前記マッピングする手段は、各ポリゴンに当該ポリゴンが可視のカメラからテクスチャをマッピングすることを特徴とする請求項1ないし3のいずれかに記載の仮想視点映像生成装置。 the 3D model is a polygon model,
comprising means for generating occlusion information recording whether each polygon of the 3D model is visible or invisible from each camera;
The means for generating occlusion information rewrites occlusion information of a closer camera regarding polygons of the 3D model existing on the view angle boundary to invisible,
4. The virtual viewpoint video generation device according to claim 1 , wherein the mapping means maps a texture to each polygon from a camera that makes the polygon visible.
前記判定する手段は、前記分類の結果に基づいて被写体の各3Dモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項1ないし4のいずれかに記載の仮想視点映像生成装置。 comprising means for classifying each camera as a closer camera or a closer camera;
5. The determining means determines whether or not each 3D model of the object exists on a view angle boundary of a close-up camera based on the classification result. virtual viewpoint image generation device.
寄りカメラおよび引きカメラの各カメラ映像に基づいて被写体の3Dモデルを生成し、
被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定し、
前記3Dモデルに対して各カメラ映像からテクスチャをマッピングし、
前記判定する際に、前記3Dモデルを内包する3Dバウンディングボックスの全ての頂点が寄りカメラの画角範囲内または寄りカメラの画角範囲外である3Dモデル以外の3Dモデルを寄りカメラの画角境界上に存在するものと判定し、
前記テクスチャをマッピングする際に、寄りカメラの画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングすることを特徴とする仮想視点映像生成方法。 In a virtual viewpoint video generation method in which a computer generates a virtual viewpoint video based on camera images taken of a subject from multiple viewpoints,
Generates a 3D model of the subject based on camera images from the approaching camera and pulling camera,
Determine whether the 3D model of the subject exists on the field of view boundary of the camera,
Mapping the texture from each camera image to the 3D model,
When making the above determination, all vertices of the 3D bounding box containing the 3D model are within the field of view range of the camera or outside the field of view of the camera. It is determined that it exists above the
A virtual viewpoint characterized in that, when mapping the texture, for a 3D model that exists on the field angle boundary of the close camera, texture is mapped from the camera image of the pull camera including the area within the view angle of the close camera. Video generation method.
被写体のシルエットに基づいて低解像ボクセルモデルを構築し、
被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築し、
3Dモデルごとに、その低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項7に記載の仮想視点映像生成方法。 The 3D model is generated by a visual volume intersection method based on camera images of a approaching camera and a pulling camera,
Build a low-resolution voxel model based on the subject's silhouette,
Build a high-resolution voxel model in the area of the low-resolution voxel model based on the silhouette of the subject,
8. The virtual viewpoint image generation method according to claim 7 , further comprising determining, for each 3D model, whether or not the low-resolution voxel model exists on the field-of-view boundary of the close-up camera.
前記3Dモデルの各ポリゴンが各カメラから可視/不可視のいずれであるかを記録したオクルージョン情報を生成し、
前記画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、
各ポリゴンにテクスチャをマッピングする際に、当該ポリゴンが可視のカメラからテクスチャをマッピングすることを特徴とする請求項7または8に記載の仮想視点映像生成方法。 the 3D model is a polygon model,
Generate occlusion information that records whether each polygon of the 3D model is visible or invisible from each camera,
Rewrite the occlusion information of the closer camera regarding polygons of the 3D model existing on the field of view boundary to invisible,
9. The virtual viewpoint video generation method according to claim 7 , wherein when mapping the texture to each polygon, the texture is mapped from a camera that makes the polygon visible.
寄りカメラおよび引きカメラの各カメラ映像に基づいて被写体の3Dモデルを生成する手順と、
被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する手順と、
前記3Dモデルに対して各カメラ映像からテクスチャをマッピングする手順とをコンピュータに実行させ、
前記判定する手順では、前記3Dモデルを内包する3Dバウンディングボックスの全ての頂点が寄りカメラの画角範囲内または寄りカメラの画角範囲外である3Dモデル以外の3Dモデルを寄りカメラの画角境界上に存在するものと判定し、
前記マッピングする手順では、寄りカメラの画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングすることを特徴とする仮想視点映像生成プログラム。 In a virtual viewpoint video generation program that generates a virtual viewpoint video based on camera images taken of a subject from multiple viewpoints,
A procedure for generating a 3D model of a subject based on camera images from a close camera and a pull camera;
a step of determining whether the 3D model of the subject exists on the field of view boundary of the camera;
causing a computer to execute a procedure of mapping textures from each camera image to the 3D model,
In the step of determining, all 3D models other than 3D models in which all vertices of the 3D bounding box containing the 3D model are within the field of view range of the camera or outside the field of view of the camera are located at the field of view boundary of the camera. It is determined that it exists above the
In the mapping step, a texture is mapped from the camera image of the pulling camera to the 3D model existing on the field of view boundary of the closer camera, including the area within the view angle of the closer camera. program.
被写体のシルエットに基づいて低解像ボクセルモデルを構築する手順と、
被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築する手順とを含み、
前記判定する手順は、3Dモデルごとに、その低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項10に記載の仮想視点映像生成プログラム。 The procedure for generating the 3D model includes generating a 3D model by a visual volume intersection method based on camera images of a closer camera and a puller camera,
steps for constructing a low-resolution voxel model based on a subject's silhouette;
constructing a high-resolution voxel model in the region of the low-resolution voxel model based on a silhouette of the subject;
11. The virtual viewpoint video generation program according to claim 10 , wherein the determining step determines, for each 3D model, whether or not the low-resolution voxel model exists on a view angle boundary of a close camera. .
前記3Dモデルの各ポリゴンが各カメラから可視/不可視のいずれであるかを記録したオクルージョン情報を生成する手順を含み、
前記オクルージョン情報を生成する手順は、前記画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、
前記マッピングする手順は、各ポリゴンに当該ポリゴンが可視のカメラからテクスチャをマッピングすることを特徴とする請求項10または11に記載の仮想視点映像生成プログラム。 the 3D model is a polygon model,
A step of generating occlusion information recording whether each polygon of the 3D model is visible or invisible from each camera,
The procedure for generating the occlusion information includes rewriting the occlusion information of the closer camera regarding polygons of the 3D model existing on the view angle boundary to invisible;
12. The virtual viewpoint video generation program according to claim 10 , wherein in the mapping step, a texture is mapped to each polygon from a camera that makes the polygon visible.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020142813A JP7393092B2 (en) | 2020-08-26 | 2020-08-26 | Virtual viewpoint image generation device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020142813A JP7393092B2 (en) | 2020-08-26 | 2020-08-26 | Virtual viewpoint image generation device, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022038354A JP2022038354A (en) | 2022-03-10 |
JP7393092B2 true JP7393092B2 (en) | 2023-12-06 |
Family
ID=80499008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020142813A Active JP7393092B2 (en) | 2020-08-26 | 2020-08-26 | Virtual viewpoint image generation device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7393092B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008191072A (en) | 2007-02-07 | 2008-08-21 | Nippon Telegr & Teleph Corp <Ntt> | Three-dimensional shape restoration method, three-dimensional shape restoring device, three-dimensional shape restoration program implemented with the method, and recording medium with the program stored |
JP2012185772A (en) | 2011-03-08 | 2012-09-27 | Kddi Corp | Method and program for enhancing accuracy of composited picture quality of free viewpoint picture using non-fixed zoom camera |
JP2018133059A (en) | 2017-02-17 | 2018-08-23 | キヤノン株式会社 | Information processing apparatus and method of generating three-dimensional model |
JP2020091534A (en) | 2018-12-03 | 2020-06-11 | キヤノン株式会社 | Image processing device, generating method of three=dimensional shape data and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7236287B2 (en) * | 2019-02-15 | 2023-03-09 | 三協立山株式会社 | Fittings |
-
2020
- 2020-08-26 JP JP2020142813A patent/JP7393092B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008191072A (en) | 2007-02-07 | 2008-08-21 | Nippon Telegr & Teleph Corp <Ntt> | Three-dimensional shape restoration method, three-dimensional shape restoring device, three-dimensional shape restoration program implemented with the method, and recording medium with the program stored |
JP2012185772A (en) | 2011-03-08 | 2012-09-27 | Kddi Corp | Method and program for enhancing accuracy of composited picture quality of free viewpoint picture using non-fixed zoom camera |
JP2018133059A (en) | 2017-02-17 | 2018-08-23 | キヤノン株式会社 | Information processing apparatus and method of generating three-dimensional model |
JP2020091534A (en) | 2018-12-03 | 2020-06-11 | キヤノン株式会社 | Image processing device, generating method of three=dimensional shape data and program |
Also Published As
Publication number | Publication date |
---|---|
JP2022038354A (en) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10096157B2 (en) | Generation of three-dimensional imagery from a two-dimensional image using a depth map | |
EP0930585B1 (en) | Image processing apparatus | |
Pagés et al. | Affordable content creation for free-viewpoint video and VR/AR applications | |
US11348267B2 (en) | Method and apparatus for generating a three-dimensional model | |
US9117310B2 (en) | Virtual camera system | |
US6717586B2 (en) | Apparatus, method, program code, and storage medium for image processing | |
EP1465115A2 (en) | Method and apparatus for generating a desired view of a scene from a selected viewpoint | |
KR20070119018A (en) | Automatic scene modeling for the 3d camera and 3d video | |
US6317139B1 (en) | Method and apparatus for rendering 3-D surfaces from 2-D filtered silhouettes | |
JP3855053B2 (en) | Image processing apparatus, image processing method, and image processing program | |
Kilner et al. | A comparative study of free-viewpoint video techniques for sports events | |
JP7236403B2 (en) | Free-viewpoint video generation method, device, and program | |
JP2021128592A (en) | Image processing device, image processing method, learned model generation method, and program | |
GB2458305A (en) | Providing a volumetric representation of an object | |
JP7328942B2 (en) | 3D model generation device and virtual viewpoint video generation device, method and program | |
JP7393092B2 (en) | Virtual viewpoint image generation device, method and program | |
JP7405702B2 (en) | Virtual viewpoint rendering device, method and program | |
Inamoto et al. | Fly through view video generation of soccer scene | |
KR100466587B1 (en) | Method of Extrating Camera Information for Authoring Tools of Synthetic Contents | |
JP7319939B2 (en) | Free-viewpoint video generation method, device, and program | |
JP7390265B2 (en) | Virtual viewpoint video rendering device, method and program | |
JP7456959B2 (en) | 3D model generation device, method and program | |
JP7465234B2 (en) | 3D model generation device, method and program | |
Bai et al. | Close-up View synthesis by Interpolating Optical Flow | |
JP2004227095A (en) | Texture map formation method, program for texture map formation, and texture map formation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7393092 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |