JP2019016164A - Learning data generation device, estimation device, estimation method, and computer program - Google Patents
Learning data generation device, estimation device, estimation method, and computer program Download PDFInfo
- Publication number
- JP2019016164A JP2019016164A JP2017133070A JP2017133070A JP2019016164A JP 2019016164 A JP2019016164 A JP 2019016164A JP 2017133070 A JP2017133070 A JP 2017133070A JP 2017133070 A JP2017133070 A JP 2017133070A JP 2019016164 A JP2019016164 A JP 2019016164A
- Authority
- JP
- Japan
- Prior art keywords
- dimensional
- information
- unit
- learning
- shape information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、学習データ生成装置、推定装置、推定方法及びコンピュータプログラムに関する。 The present invention relates to a learning data generation device, an estimation device, an estimation method, and a computer program.
人物の関節の動きを計測する技術を応用することによって、映画などに登場する人を模したコンピュータグラフィックスのキャラクターに生き生きとした動作を付与することができる。そのため、人物の関節の動きを計測する技術は、コンテンツ全体の品質向上を実現するために必要不可欠な技術である。また、上記のようなエンタテインメントの分野以外にも、人物の関節の動きを計測する技術は、様々な分野で用いられている。例えば、医療の分野においては、患者の容体を把握するための情報として重要である。 By applying a technique for measuring the movement of a person's joints, it is possible to give a lively action to a computer graphics character that imitates a person appearing in a movie or the like. Therefore, a technique for measuring the movement of a person's joint is an indispensable technique for improving the quality of the entire content. In addition to the entertainment field as described above, techniques for measuring the movement of a person's joints are used in various fields. For example, in the medical field, it is important as information for grasping the patient's condition.
以下、被写体の三次元モデルの各関節に付与された番号を「関節部位情報」という。以下、被写体の三次元モデルの各関節の位置を示す情報を「関節位置情報」という。以下、関節部位情報及び関節位置情報から成る情報を「関節情報」という。 Hereinafter, the number assigned to each joint of the three-dimensional model of the subject is referred to as “joint part information”. Hereinafter, information indicating the position of each joint of the three-dimensional model of the subject is referred to as “joint position information”. Hereinafter, information including joint part information and joint position information is referred to as “joint information”.
上述したように、関節情報は様々な分野で重要な情報である。しかし、関節情報の取得には多大な手間が伴う。関節情報の取得技術としてモーションキャプチャを用いたデータ取得技術がある。モーションキャプチャでは、計測する対象の人物に専用のスーツを着てもらう必要があり、事前に空間のキャリブレーションを行う必要もあり、と煩雑な作業が必要となる。そのほかの技術に関しても、特殊な機器を必要とするものであったり、限定的な環境でしか利用できなかったりと、様々な問題を抱えている。 As described above, joint information is important information in various fields. However, acquiring joint information involves a great deal of labor. There is a data acquisition technique using motion capture as a technique for acquiring joint information. In motion capture, it is necessary to have a person to be measured wear a special suit, and it is necessary to calibrate the space in advance, which requires complicated work. Other technologies also have various problems, such as those that require special equipment and can only be used in limited environments.
このような問題に対し、ディープラーニングを用いて、画像に撮像された被写体の関節位置をロバストに推定する技術が近年発表された(非特許文献1参照)。この技術では、画像内に複数の人物が存在していたとしても、ロバストな推定が可能である。 In recent years, a technique for robustly estimating the joint position of a subject captured in an image using deep learning has been announced (see Non-Patent Document 1). With this technique, even if there are a plurality of persons in the image, robust estimation is possible.
しかしながら、従来の方法では、推定される関節情報は、画像上の二次元の関節位置のみである。そのため、アニメーション生成などに用いる関節情報としては不十分であった。一方で、三次元の関節情報をディープラーニング等の機械学習を用いて推定しようとすると、三次元の関節情報を含む学習データを多量に予め取得する必要があり、困難を伴っていた。 However, in the conventional method, the estimated joint information is only the two-dimensional joint position on the image. Therefore, it is insufficient as joint information used for animation generation. On the other hand, when trying to estimate three-dimensional joint information using machine learning such as deep learning, it is necessary to obtain a large amount of learning data including three-dimensional joint information in advance, which is difficult.
上記事情に鑑み、本発明は、三次元の関節情報を含む複数の学習データをより容易に生成することが可能である学習データ生成装置、推定装置、推定方法及びコンピュータプログラムを提供することを目的としている。 In view of the above circumstances, an object of the present invention is to provide a learning data generation device, an estimation device, an estimation method, and a computer program that can more easily generate a plurality of learning data including three-dimensional joint information. It is said.
本発明の一態様は、関節を有する被写体の三次元モデルを表すコンピュータグラフィックスの画像である三次元モデル画像を前記三次元モデルの周囲に定められた視点ごとに取得し、前記三次元モデル画像にレンダリング処理を施すことによって前記三次元モデルのシルエット画像を前記視点ごとに生成するシルエット画像レンダリング部と、カメラパラメータを前記視点ごとに取得するカメラパラメータ部と、各視点の前記カメラパラメータに基づいて、各視点の前記シルエット画像から、前記三次元モデルの三次元の形状情報を復元する形状情報復元部と、前記三次元モデルの三次元の形状情報のボクセル空間と同じボクセル空間に、前記三次元モデルの三次元の関節情報を生成する関節情報ボクセル化部とを備える学習データ生成装置である。 According to one aspect of the present invention, a 3D model image, which is a computer graphics image representing a 3D model of a subject having a joint, is acquired for each viewpoint defined around the 3D model, and the 3D model image is acquired. Based on the camera parameters for each viewpoint, a silhouette image rendering unit that generates a silhouette image of the three-dimensional model for each viewpoint by performing rendering processing, a camera parameter unit that acquires camera parameters for each viewpoint, and A three-dimensional shape information restoring unit that restores the three-dimensional shape information of the three-dimensional model from the silhouette image of each viewpoint, and the three-dimensional shape information in the same voxel space as the three-dimensional shape information of the three-dimensional model. A learning data generation device comprising a joint information voxelization unit for generating three-dimensional joint information of a model A.
本発明の一態様は、上記の学習データ生成装置であって、前記形状情報に応じて前記関節情報を出力するディープニューラルネットワークのパラメータを学習する学習部を更に備え、前記ディープニューラルネットワークの出力層は、前記関節情報によって表される前記関節の個数に応じた個数のチャネルを有する。 One aspect of the present invention is the learning data generation device described above, further including a learning unit that learns parameters of a deep neural network that outputs the joint information according to the shape information, and an output layer of the deep neural network Has a number of channels corresponding to the number of joints represented by the joint information.
本発明の一態様は、上記の学習データ生成装置によって生成された三次元モデルの三次元の形状情報に応じて前記三次元モデルの三次元の関節情報を出力するよう学習されたディープニューラルネットワークを用いて、前記三次元モデルに関する被写体の三次元の形状情報を前記ディープニューラルネットワークの入力とすることによって、前記三次元モデルに関する被写体の三次元の関節情報を推定する解析部を備える推定装置である。 According to one aspect of the present invention, there is provided a deep neural network that is trained to output three-dimensional joint information of the three-dimensional model according to the three-dimensional shape information of the three-dimensional model generated by the learning data generation device. The estimation apparatus includes an analysis unit that estimates the three-dimensional joint information of the subject related to the three-dimensional model by using the three-dimensional shape information of the subject related to the three-dimensional model as an input of the deep neural network. .
本発明の一態様は、上記の学習データ生成装置であって、前記形状情報に応じて前記関節情報を出力するディープニューラルネットワークのパラメータを学習する学習部を更に備え、前記学習部は、複数の前記形状情報をまとめることによって前記形状情報のセットを生成し、前記形状情報のセットをディープニューラルネットワークのパラメータの学習に用いるか否かを予め定められた条件に基づいて判定する。 One aspect of the present invention is the learning data generation device described above, further including a learning unit that learns parameters of a deep neural network that outputs the joint information according to the shape information, and the learning unit includes a plurality of learning units. The shape information set is generated by combining the shape information, and whether or not the shape information set is used for learning of parameters of the deep neural network is determined based on a predetermined condition.
本発明の一態様は、上記の推定装置であって、前記形状情報に応じて前記関節情報を出力するディープニューラルネットワークの構成及びパラメータを記憶する記憶部を更に備え、前記ディープニューラルネットワークのパラメータは、複数の前記形状情報をまとめることによって生成された前記形状情報のセットのうち、予め定められた条件を満たした前記形状情報のセットを用いた学習結果に基づくパラメータである。 One aspect of the present invention is the above estimation apparatus, further comprising a storage unit that stores a configuration and parameters of a deep neural network that outputs the joint information according to the shape information, and the parameters of the deep neural network are A parameter based on a learning result using the set of shape information that satisfies a predetermined condition among the set of shape information generated by collecting a plurality of pieces of the shape information.
本発明の一態様は、推定装置が実行する推定方法であって、上記の学習データ生成装置によって生成された三次元モデルの三次元の形状情報に応じて前記三次元モデルの三次元の関節情報を出力するよう学習されたディープニューラルネットワークを用いて、前記三次元モデルに関する被写体の三次元の関節情報を推定するステップを有する推定方法である。 One aspect of the present invention is an estimation method executed by an estimation device, and the three-dimensional joint information of the three-dimensional model according to the three-dimensional shape information of the three-dimensional model generated by the learning data generation device. Is estimated using a deep neural network learned to output the three-dimensional joint information of the subject related to the three-dimensional model.
本発明の一態様は、コンピュータを、上記の学習データ生成装置として機能させるためのコンピュータプログラムである。 One embodiment of the present invention is a computer program for causing a computer to function as the learning data generation device.
本発明の一態様は、コンピュータを、上記の推定装置として機能させるためのコンピュータプログラムである。 One embodiment of the present invention is a computer program for causing a computer to function as the above estimation device.
本発明により、三次元の関節情報を含む複数の学習データをより容易に生成することが可能である。 According to the present invention, it is possible to more easily generate a plurality of learning data including three-dimensional joint information.
本発明の実施形態について、図面を参照して詳細に説明する。
(第1実施形態)
以下では、被写体は、関節を有する生物又は物体であり、例えば、人物、動物、昆虫、ロボット等である。以下では、被写体は、一例として人物である。
Embodiments of the present invention will be described in detail with reference to the drawings.
(First embodiment)
In the following, the subject is a living organism or object having a joint, such as a person, an animal, an insect, or a robot. In the following, the subject is a person as an example.
図1は、推定システム1aの構成の例を示す図である。推定システム1aは、推定装置10を備えるシステムである。推定装置10は、被写体の三次元の関節位置を推定する情報処理装置である。推定装置10は、例えば、サーバ装置、パーソナルコンピュータ装置、タブレット端末、スマートフォン端末等である。推定装置10は、例えば、分散配置された複数の情報処理装置によって推定処理を実行してもよい。推定装置10は、学習装置11と、入力データ生成部14と、解析部15とを備える。
FIG. 1 is a diagram illustrating an example of the configuration of the estimation system 1a. The estimation system 1a is a system including the
学習装置11は、学習データ生成部12と、学習部13とを備える。学習データ生成部12は、学習装置11とは異なる学習データ生成装置に備えられてもよい。この場合、学習データ生成装置によって生成された学習データは、ネットワークや記憶媒体などを介して学習装置11に与えられてもよい。学習データ生成装置としての学習データ生成部12は、学習部13を備えてもよい。推定装置10は、学習装置11と別体でもよい。すなわち、推定システム1aは、推定装置10と学習装置11とを別体で備えてもよい。
The
推定装置10は、記憶部を更に備えてもよい。記憶部は、例えば、磁気ハードディスク装置や半導体記憶装置等の不揮発性の記録媒体(非一時的な記録媒体)を有する記憶装置である。記憶部は、機械学習に関する各種データと、画像と、コンピュータプログラムとを記憶してもよい。機械学習に関する各種データとは、例えば、アルゴリズムを表すデータ、ディープニューラルネットワーク(DNN: Deep Neural Network)の構成及びパラメータを表すデータである。
The
各機能部の一部又は全部は、例えば、CPU(Central Processing Unit)等のプロセッサが、所定の記憶部に記憶されたコンピュータプログラムを実行することにより実現される。各機能部の一部又は全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。 Part or all of each functional unit is realized by, for example, a processor such as a CPU (Central Processing Unit) executing a computer program stored in a predetermined storage unit. Part or all of each functional unit may be realized by using hardware such as LSI (Large Scale Integration) or ASIC (Application Specific Integrated Circuit).
学習データ生成部12(学習データ生成装置)は、機械学習に用いられる学習データを生成する。学習データ生成部12によって生成された学習データは、ディープニューラルネットワーク以外の機械学習にも用いられることができる。被写体の三次元モデルを表す画像である三次元モデル画像は、コンピュータグラフィックスで事前に生成されている。学習データ生成部12は、関節情報が付与された三次元モデル画像を取得する。学習データ生成部12は、三次元モデルの周囲の複数のカメラ(多視点)から撮像された三次元モデルのシルエット画像(以下「多視点モデルシルエット画像」という。)を、コンピュータグラフィックスである三次元モデル画像から生成する。
The learning data generation unit 12 (learning data generation device) generates learning data used for machine learning. The learning data generated by the learning
以下では、被写体の関節(関節部位情報)の個数は、一例として16個である。例えば、指先の三次元の関節情報が推定される場合、被写体の関節の個数は増加される。また、ディープニューラルネットワークの出力層のチャネル数は、被写体の関節の個数に応じて増加される。 In the following, the number of joints (joint part information) of the subject is 16 as an example. For example, when the three-dimensional joint information of the fingertip is estimated, the number of joints of the subject is increased. Also, the number of channels in the output layer of the deep neural network is increased according to the number of joints of the subject.
学習データ生成部12は、カメラパラメータを多視点モデルシルエット画像ごとに取得する。学習データ生成部12は、複数の視点について三次元モデル画像にレンダリング処理を施すことによって、多視点モデルシルエット画像を生成する。学習データ生成部12は、各視点のカメラパラメータに基づいて、多視点モデルシルエット画像から、三次元モデルの三次元の形状情報(ボクセル形状情報)を復元する。すなわち、学習データ生成部12は、各視点のカメラパラメータと多視点モデルシルエット画像とに基づいて、三次元モデルの三次元の形状情報を復元する。三次元モデルの三次元の形状情報は、2値情報を含む。三次元モデルの三次元の形状情報の数値は、三次元モデルの形状部分では1であり、三次元モデルの形状部分以外では0である。学習データ生成部12は、三次元モデルの三次元の形状情報を、機械学習に用いられる学習データ(学習用教師データ)として学習部13に出力する。
The learning
学習データ生成部12は、関節情報が付与された三次元モデル画像から、関節情報を抽出する。学習データ生成部12は、三次元モデルの三次元の形状情報と同様のボクセル空間で、関節情報をボクセル化する。すなわち、学習データ生成部12は、三次元モデルの三次元の形状情報の復元時と同じボクセル空間で、三次元モデルの三次元の関節情報(ボクセル関節情報)を生成する。
The learning
複数の学習データを学習データ生成部12が生成する場合、学習データ生成部12は、コンピュータグラフィックスで生成された被写体の三次元の形状を変化させて、三次元モデルの三次元の形状情報を変更する。複数の学習データを学習データ生成部12が生成する場合、学習データ生成部12は、形状情報が異なる複数の三次元モデルに、同様のボクセル化処理を施す。
When the learning
学習部13は、学習データを用いて機械学習を実行する。学習部13は、推定処理を推定装置10が実行するごとに機械学習を実行する必要はない。例えば、学習部13は、推定処理を推定装置10が実行する前に機械学習を完了してもよい。
The
学習部13は、ディープニューラルネットワークに限らず、例えば、遺伝的プログラミングやクラスタリング等の機械学習を実行してもよい。第1実施形態では、学習部13は、機械学習の一例として、ディープニューラルネットワークの学習処理を実行する。ディープニューラルネットワークの入力は、三次元モデルの三次元の形状情報である。ディープニューラルネットワークの出力は、三次元の関節情報である。ディープニューラルネットワークの出力チャネルは、三次元の関節情報を構成する関節部位情報に対応付けられている。
The
複数の学習データを学習データ生成部12が生成した場合、学習部13は、学習データ生成部12によって生成された複数の学習データに基づいて、ディープニューラルネットワークのパラメータを学習する。学習部13は、学習済みディープニューラルネットワークの構成及びパラメータを表す情報を、解析部15に出力する。
When the learning
以下、被写体の周囲の複数のカメラ(多視点)から被写体が撮像された実写画像を「多視点実写画像」という。入力データ生成部14は、関節情報が推定される対象としての被写体が撮像されている多視点実写画像を取得する。入力データ生成部14は、多視点実写画像のカメラパラメータを取得する。
Hereinafter, a real image obtained by imaging a subject from a plurality of cameras (multi-viewpoints) around the subject is referred to as a “multi-view real image”. The input
入力データ生成部14は、学習データ生成部12が多視点モデル画像に施したボクセル化処理と同様のボクセル化処理を多視点実写画像に施すことによって、実写の被写体の三次元の形状情報を復元する。被写体の三次元の形状情報は、2値情報を含む。被写体の三次元の形状情報の数値は、三次元モデルの形状部分では1であり、三次元モデルの形状部分以外では0である。
The input
解析部15は、学習済みディープニューラルネットワークのパラメータを、学習部13から取得する。解析部15は、入力データ生成部14によって復元された被写体の三次元の形状情報を、学習済みディープニューラルネットワークの入力とする。解析部15は、被写体の三次元の関節位置情報を、学習済みディープニューラルネットワークのチャネルごとの出力とする。これによって、解析部15は、被写体の三次元の関節情報を推定することができる。
The
次に、各機能部の詳細を説明する。
図2は、学習データ生成部12の構成の例を示す図である。学習データ生成部12は、シルエット画像レンダリング部121と、カメラパラメータ出力部122と、形状情報復元部123と、関節情報出力部124と、関節情報ボクセル化部125とを備える。
Next, details of each functional unit will be described.
FIG. 2 is a diagram illustrating an example of the configuration of the learning
シルエット画像レンダリング部121は、関節情報が付与された三次元モデル画像を、視点(カメラの位置)ごとに取得する。シルエット画像レンダリング部121は、複数の視点について三次元モデル画像にレンダリング処理を施すことによって、被写体の三次元モデルのシルエット画像を視点ごとに生成する。すなわち、シルエット画像レンダリング部121は、複数の視点について三次元モデル画像にレンダリング処理を施すことによって、多視点モデルシルエット画像を生成する。複数の視点は、形状情報の推定の用途に合わせて定められる。複数の視点は、例えば被写体の全周囲の各視点である。被写体を撮像する複数のカメラの位置(視点)が定まっている場合、複数のカメラの向きは固定されてもよい。シルエット画像レンダリング部121は、多視点モデルシルエット画像を、形状情報復元部123に出力する。
The silhouette
カメラパラメータ出力部122(カメラパラメータ部)は、関節情報が付与された三次元モデル画像からカメラパラメータを抽出することによって、カメラパラメータを視点ごとに取得する。すなわち、カメラパラメータ出力部122は、カメラパラメータを多視点モデルシルエット画像ごとに取得する。カメラパラメータ出力部122は、多視点モデルシルエット画像のカメラパラメータを、視点ごとに形状情報復元部123に出力する。
The camera parameter output unit 122 (camera parameter unit) acquires camera parameters for each viewpoint by extracting camera parameters from the three-dimensional model image to which the joint information is added. That is, the camera
形状情報復元部123は、各視点のカメラパラメータに基づいて、多視点モデルシルエット画像から、三次元モデルの三次元の形状情報を復元する。すなわち、形状情報復元部123は、各視点のカメラパラメータと多視点モデルシルエット画像とに基づいて、三次元モデルの三次元の形状情報を復元する。形状情報の復元処理の方法は、特定の方法に限定されないが、例えば視体積交差法である。復元される形状情報のボクセル空間の範囲と、復元される形状情報のボクセル空間におけるボクセルの体積と、復元される形状情報のボクセル空間におけるボクセルの解像度との各種パラメータは、任意に定められる。形状情報復元部123は、三次元モデルの三次元の形状情報を、学習部13に出力する。
The shape
関節情報出力部124は、関節情報が付与された三次元モデル画像を取得する。関節情報出力部124は、関節情報が付与された三次元モデル画像から、三次元の関節情報を抽出する。関節情報を構成する関節位置情報を表現する座標系は、例えば、xyz軸を用いたワールド座標系である。関節情報出力部124は、三次元の関節情報を関節情報ボクセル化部125に出力する。
The joint
関節情報ボクセル化部125は、三次元モデルの三次元の形状情報と同様のボクセル空間で、関節情報をボクセル化する。すなわち、関節情報ボクセル化部125は、三次元モデルの三次元の形状情報の復元時と同じボクセル空間で、三次元モデルの三次元の関節情報を生成する。各関節位置情報に付与された関節部位情報である番号は、任意の順序又は規則で各関節位置情報に付与されてもよい。例えば、関節部位情報である番号は、各関節位置情報に付与された1〜16の連続値でもよい。関節情報ボクセル化部125は、三次元モデルの三次元の関節情報(三次元モデルのボクセル化された関節情報)を、学習部13に出力する。
The joint
図3は、学習部13の構成の例を示す図である。学習部13は、ボクセルセット生成部131と、ボクセルセット判定部132と、ネットワーク構築部133と、パラメータ学習部134とを備える。
FIG. 3 is a diagram illustrating an example of the configuration of the
ボクセルセット生成部131は、複数の三次元モデルの三次元の形状情報を、形状情報復元部123から取得する。ボクセルセット生成部131は、複数の三次元モデルの三次元の形状情報をまとめることで、三次元モデルの三次元の形状情報のセット(以下「形状情報ボクセルセット」という。)を生成する。すなわち、ボクセルセット生成部131は、複数の三次元モデルの三次元の形状情報をボクセルセット化する。ボクセルセット生成部131は、三次元モデルの三次元の形状情報をボクセルセット化する場合、形状情報ボクセルセット同士の空間位置が重複してもよいし、形状情報ボクセルセット同士の空間位置が重複しないように、いずれかの形状情報ボクセルセットの空間位置を移動させてもよい。
The voxel set
ボクセルセット生成部131は、複数の三次元モデルの三次元の関節情報を、関節情報ボクセル化部125から取得する。ボクセルセット生成部131は、複数の三次元モデルの三次元の関節情報をまとめることで、三次元モデルの三次元の関節情報のセット(以下「関節情報ボクセルセット」という。)を生成する。すなわち、ボクセルセット生成部131は、複数の三次元モデルの三次元の関節情報をボクセルセット化する。ボクセルセット生成部131は、三次元モデルの三次元の関節情報をボクセルセット化する場合、関節情報ボクセルセット同士が重複してもよいし、関節情報ボクセルセット同士が重複しないように、いずれかの関節情報ボクセルセットの空間位置を移動させてもよい。
The voxel set
ボクセルセット生成部131は、空間位置が同一である形状情報ボクセルセット及び関節情報ボクセルセットを対応付ける。空間位置が同一である形状情報ボクセルセット及び関節情報ボクセルセットの各種パラメータには、同一のパラメータが定められる。例えば、以下では、ディープニューラルネットワークで一貫した学習処理を行うために、形状情報ボクセルセット及び関節情報ボクセルセットの立方体の空間の一辺の長さは、2の指数乗の一例である8に定められる。なお、ボクセルセットの空間の一辺の長さは、特定の長さに限定されない。
The voxel set
ボクセルセット判定部132は、ディープニューラルネットワークのパラメータの学習に使用するボクセルセットを選択する。ボクセルセット判定部132は、ディープニューラルネットワークのパラメータの学習に使用する形状情報ボクセルセットであるか否かを、予め定められた条件に基づいて形状情報ボクセルセットごとに判定する。例えば、ボクセルセット判定部132は、形状情報ボクセルセットについて、三次元モデルの形状部分の空間が形状情報ボクセルセットの全体の空間に対して所定割合以上であるか否かを判定する。すなわち、ボクセルセット判定部132は、数値が1であるボクセルの個数が形状情報ボクセルセットの全体におけるボクセルの個数に対して所定割合以上である形状情報ボクセルセットを、ディープニューラルネットワークのパラメータの学習に用いるボクセルセットであると判定する。所定割合は、例えば、3分の1である。
The voxel set
ボクセルセット判定部132は、ディープニューラルネットワークのパラメータの学習に使用する関節情報ボクセルセットであるか否かを、関節情報ボクセルセットごとに判定する。ボクセルセット判定部132は、パラメータの学習に用いる形状情報ボクセルセットに対応付けられた関節情報ボクセルセットを、ディープニューラルネットワークのパラメータの学習に用いる関節情報ボクセルセットであると判定する。
The voxel
ディープラーニングの学習には、大量の学習データと膨大な処理時間とが必要である。このため従来では、グラフィックス・プロセッシング・ユニット(GPU: Graphics Processing Unit)を用いた、ディープラーニングの高速な学習処理を試みる場合がある。本実施形態では、学習処理の対象は三次元のデータである。このため、GPUは、二次元のデータの学習処理よりもはるかに大量の学習データを扱うことになる。入力された大量の学習データをそのままの状態でディープニューラルネットワークの学習に用いた場合、GPUのメモリは不足する可能性が高い。そこで、ボクセルセット判定部132は、学習処理の対象をボクセルセット化して、学習に必要なボクセルセットのみを選択的にパラメータ学習部134に学習させる。これによって、学習部13は、メモリの節約及び高速処理化が可能となる。
Deep learning requires a large amount of learning data and a huge amount of processing time. For this reason, conventionally, there is a case where high-speed learning processing of deep learning using a graphics processing unit (GPU) is tried. In the present embodiment, the target of the learning process is three-dimensional data. For this reason, the GPU handles much larger amount of learning data than the learning process of two-dimensional data. When a large amount of input learning data is used as it is for deep neural network learning, there is a high possibility that the GPU memory is insufficient. Therefore, the voxel set
また、学習部13が形状情報を三次元のデータとして扱うため、ボクセルセットにおいて形状情報が存在しない領域がボクセルセットの空間全体に占める割合は非常に大きい。すなわち、ボクセルセットにおいて形状情報として意味を持たない領域がボクセルセットの空間全体に占める割合は非常に大きい。このため、ボクセルセットにおいて形状情報として意味を持たない領域は、形状情報として意味を持つ領域と同様にディープニューラルネットワークのパラメータの学習に使用された場合には、パラメータの学習結果に影響を強く与えてしまうことになる。したがって、形状情報として意味を持たない領域を学習部13がディープニューラルネットワークのパラメータの学習に使用することは、パラメータの学習結果の精度に多大な悪影響を及ぼすこととなる。
In addition, since the
学習部13は、三次元モデルの三次元の形状情報をボクセルセット化してから、三次元モデルの三次元の形状情報として意味を持たない領域をパラメータの学習対象から除外するので、パラメータの学習結果の精度を向上させることができる。なお、学習部13は、loss計算をする際に、形状情報として意味を持たない領域の関節部位情報(ラベル)の重み付けを非常に小さな値に設定してもよい。
Since the
図4は、ディープニューラルネットワークの構成の例を示す図である。ネットワーク構築部133は、ディープニューラルネットワークを構築する。ディープニューラルネットワークの入力は、カーネルサイズ「8×8×8」でチャネル数が1chの情報を持つ形状情報ボクセルセットである。ディープニューラルネットワークの入力の形状情報ボクセルセットは、ボクセルセット判定部132によって学習に使用すると判定された形状情報ボクセルセットである。
FIG. 4 is a diagram illustrating an example of the configuration of a deep neural network. The
ディープニューラルネットワークは、入力の形状情報ボクセルセットに対して、カーネルサイズ「3×3×3」のフィルタを用いた「convolution」処理(畳み込み処理)と、カーネルサイズ「2×2×2」でストライド幅が2であるプーリング処理とを、10chのチャネル数で実行する。活性化関数は、例えば、ReLU(Rectified Linear Unit function)である(図4の上段の「Conv1」)。 The deep neural network uses a "convolution" process (convolution process) using a filter with a kernel size of "3x3x3" and a stride with a kernel size of "2x2x2" for the input shape information voxel set A pooling process with a width of 2 is executed with the number of channels of 10 ch. The activation function is, for example, ReLU (Rectified Linear Unit function) (“Conv1” in the upper part of FIG. 4).
ディープニューラルネットワークは、チャネル数を20chに変更して、同様に「convolution」処理を実行する(「Conv2」)。また、ネットワーク構築部133は、チャネル数を16chに変更して、同様に「convolution」処理を実行する(「Conv3」)。更に、ネットワーク構築部133は、カーネルサイズ「3×3×3」のフィルタを用いた「deconvolution」処理を、16chのチャネル数で3回実行する(「DeConv1」〜「DeConv3」)。
The deep neural network changes the number of channels to 20 ch, and similarly executes “convolution” processing (“Conv2”). In addition, the
ディープニューラルネットワークは、カーネルサイズが縮小された三次元の形状情報を、元のカーネルサイズの三次元の形状情報に復元する。ネットワーク構築部133は、カーネルサイズ「1×1×1」のフィルタを用いた「convolution」処理を、16chのチャネル数で実行する(図4の下段の「Conv1」)。
The deep neural network restores the three-dimensional shape information with the kernel size reduced to the original three-dimensional shape information with the kernel size. The
ディープニューラルネットワークは、チャネル方向に「softmax」処理を施した結果である数値を、チャネルごとに出力する。ディープニューラルネットワークの出力は、入力の形状情報ボクセルセットに対応する関節情報ボクセルセットである。ディープニューラルネットワークは、関節部位情報に対応するチャネルから、関節部位情報に対応する関節位置情報を出力する。 The deep neural network outputs a numerical value that is a result of performing the “softmax” process in the channel direction for each channel. The output of the deep neural network is a joint information voxel set corresponding to the input shape information voxel set. The deep neural network outputs joint position information corresponding to joint part information from a channel corresponding to joint part information.
出力の関節情報ボクセルセットのカーネルサイズは、入力の形状情報ボクセルセットのカーネルサイズと同様に「8×8×8」である。ディープニューラルネットワークの出力層のチャネル数は、推定される関節部位の個数と、推定される関節部位のいずれにも付与されてない関節部位情報の個数とが加算された結果を表す個数である。ここでは、ディープニューラルネットワークの出力層のチャネル数は、推定される関節部位の個数(関節部位情報の個数)を表す16chに1chを加算した17chである。1個のボクセルの各チャネルに含まれる値は、そのチャネルに対応付けられた関節位置情報がそのボクセルと一致する確率を表す。最適化手法は、例えば、「Adam」である。学習率は、例えば、10−4である。 The kernel size of the output joint information voxel set is “8 × 8 × 8” similarly to the kernel size of the input shape information voxel set. The number of channels in the output layer of the deep neural network is a number representing the result of adding the estimated number of joint sites and the number of joint site information not assigned to any of the estimated joint sites. Here, the number of channels in the output layer of the deep neural network is 17 ch obtained by adding 1 ch to 16 ch representing the estimated number of joint parts (number of joint part information). The value included in each channel of one voxel represents the probability that the joint position information associated with that channel matches that voxel. The optimization method is, for example, “Adam”. The learning rate is, for example, 10 −4 .
最適化手法の種類は、各種パラメータとして任意に定められてもよい。カーネルサイズ、ストライド幅、活性化関数の種類、学習率等である各種パラメータは、任意の値又は関数に定められてもよい。ただし、入力の形状情報ボクセルセットと出力の関節情報ボクセルセットとでボクセル解像度が同一となるように、各種パラメータは定められる。 The type of optimization method may be arbitrarily determined as various parameters. Various parameters such as kernel size, stride width, type of activation function, learning rate, and the like may be set to arbitrary values or functions. However, various parameters are determined so that the input shape information voxel set and the output joint information voxel set have the same voxel resolution.
図3に戻り、学習部13の構成の例の説明を続ける。パラメータ学習部134は、学習に使用すると判定された形状情報ボクセルセットを、ボクセルセット判定部132から取得する。パラメータ学習部134は、学習に使用すると判定された関節情報ボクセルセットを、ボクセルセット判定部132から取得する。パラメータ学習部134は、構築されたディープニューラルネットワークの構成を表す情報を、ネットワーク構築部133から取得する。パラメータ学習部134は、構築されたディープニューラルネットワークを用いて、ディープニューラルネットワークのパラメータを学習する。
Returning to FIG. 3, the description of the configuration example of the
パラメータ学習部134は、ディープニューラルネットワークの初期パラメータを、例えば、ディープラーニング用ライブラリ「chainer」において定められたパラメータとする。パラメータ学習部134は、ネットワーク構築部133によって構築されたディープニューラルネットワークを用いて、例えば、1万回の反復学習を実行する。初期パラメータ及び反復回数は、任意に予め定められる。パラメータ学習部134は、学習済みディープニューラルネットワークの構成及びパラメータを表す情報を、解析部15に出力する。
The
このようにして、パラメータ学習部134は、被写体の三次元の関節位置情報を多視点実写画像から推定するためのディープニューラルネットワークのパラメータを定めることができる。また、パラメータ学習部134は、三次元の形状情報に「convolution」処理及びプーリング処理を繰り返し施すので、被写体の三次元の関節位置情報を多視点実写画像から推定することが可能となる。
In this way, the
図5は、入力データ生成部14の構成の例を示す図である。入力データ生成部14は、シルエット生成部141と、形状情報生成部142とを備える。シルエット生成部141は、関節情報が推定される対象としての被写体が撮像された多視点実写画像を取得する。多視点実写画像は、どのような方式のカメラで被写体が撮影された画像でもよいが、例えば、カラーカメラで被写体が撮像された画像である。入力データ生成部14は、多視点実写画像をハードディスクドライブ等の記録媒体から取得してもよい。
FIG. 5 is a diagram illustrating an example of the configuration of the input
シルエット生成部141は、多視点実写画像から被写体領域を抽出することによって、多視点の被写体のシルエット画像(以下「多視点被写体シルエット画像」という。)を生成する。シルエット生成部141は、多視点被写体シルエット画像を任意の手法を用いて生成してもよいが、例えば、背景差分又はグラフカットの手法で多視点被写体シルエット画像を生成する。
The
形状情報生成部142は、各視点のカメラパラメータに基づいて、多視点被写体シルエット画像から、被写体の三次元の形状情報を復元する。すなわち、形状情報生成部142は、各視点のカメラパラメータと多視点被写体シルエット画像とに基づいて、被写体の三次元の形状情報を復元する。形状情報生成部142は、学習データ生成部12の形状情報復元部123が実行した処理と同様の処理を実行することで、多視点被写体シルエット画像から、被写体の三次元の形状情報を復元する。例えば、形状情報生成部142は、形状情報復元部123が使用した各種パラメータと同一のパラメータを使用して、多視点被写体シルエット画像から、被写体の三次元の形状情報を復元する。形状情報生成部142は、被写体の三次元の形状情報を、解析部15に出力する。
The shape
図6は、解析部15の構成の例を示す図である。解析部15は、被写体の三次元の形状情報を、形状情報生成部142から取得する。解析部15は、学習済みディープニューラルネットワークの構成及びパラメータを表す情報を、パラメータ学習部134から取得する。解析部15は、被写体の三次元の形状情報を学習済みディープニューラルネットワークの入力とすることによって、被写体の三次元の形状情報から被写体の関節位置情報を推定する。
FIG. 6 is a diagram illustrating an example of the configuration of the
解析部15は、ディープニューラルネットワークの出力層のチャネルに対応付けられた関節部位情報を関節位置情報に付与することによって、被写体の三次元の関節情報を生成する。これによって、解析部15は、各視点のカメラパラメータに基づいて、多視点被写体シルエット画像から被写体の三次元の関節情報を推定することが可能となる。解析部15は、被写体の三次元の関節情報を外部装置に出力する。外部装置が記録媒体である場合、解析部15は、被写体の三次元の関節情報を外部装置に記録してもよい。
The
次に、推定装置10の動作の例を説明する。
図7は、推定装置10の動作の例を示すフローチャートである。推定装置10は、多視点モデルシルエット画像を生成する(ステップS101)。推定装置10は、各視点のカメラパラメータに基づいて、多視点モデルシルエット画像から、三次元モデルの三次元の形状情報を復元する(ステップS102)。推定装置10は、三次元モデルの三次元の形状情報と三次元モデルの三次元の関節情報とに基づいて、ディープニューラルネットワークのパラメータを定める(ステップS103)。
Next, an example of the operation of the
FIG. 7 is a flowchart illustrating an example of the operation of the
推定装置10は、多視点被写体シルエット画像から、被写体の三次元の形状情報を復元する(ステップS104)。推定装置10は、被写体の三次元の形状情報を学習済みディープニューラルネットワークの入力とすることによって、被写体の三次元の関節情報を推定する(ステップS105)。推定装置10は、被写体の三次元の関節情報を外部装置に出力及び記録する(ステップS106)。
The
図8は、学習データ生成部12の動作の例を示すフローチャートである。学習データ生成部12は、関節情報が付与された三次元モデル画像を、視点ごとに取得する(ステップS201)。学習データ生成部12は、視点ごとの三次元モデル画像から多視点モデルシルエット画像を生成し、多視点モデルシルエット画像とカメラパラメータとを出力する(ステップS202)。
FIG. 8 is a flowchart illustrating an example of the operation of the learning
学習データ生成部12は、カメラパラメータに基づいて、多視点モデルシルエット画像から、三次元モデルの三次元の形状情報を復元する(ステップS203)。学習データ生成部12は、三次元モデルの三次元の形状情報と三次元モデルの三次元の関節情報とを、学習部13に出力する(ステップS204)。
The learning
図9は、学習部13の動作の例を示すフローチャートである。学習部13は、形状情報ボクセルセットと関節情報ボクセルセットとを生成する(ステップS301)。学習部13は、学習に用いるボクセルセットであるか否かを、ボクセルセットごとに判定する(ステップS302)。学習部13は、形状情報ボクセルセットを入力とし、関節情報ボクセルセットを出力とするディープニューラルネットワークを構築する(ステップS303)。学習部13は、ディープニューラルネットワークのパラメータを学習する(ステップS304)。
FIG. 9 is a flowchart illustrating an example of the operation of the
図10は、入力データ生成部14の動作の例を示すフローチャートである。入力データ生成部14は、被写体が撮像された多視点実写画像を取得する(ステップS401)。入力データ生成部14は、多視点実写画像から多視点被写体シルエット画像を生成する(ステップS402)。入力データ生成部14は、各視点のカメラパラメータに基づいて、多視点被写体シルエット画像から、被写体の三次元の形状情報を復元する(ステップS403)。入力データ生成部14は、被写体の三次元の形状情報を、解析部15に出力する(ステップS404)。
FIG. 10 is a flowchart illustrating an example of the operation of the input
図11は、解析部15の動作の例を示すフローチャートである。解析部15は、学習済みディープニューラルネットワークを用いて、被写体の三次元の形状情報から被写体の三次元の関節情報を推定する(ステップS501)。解析部15は、被写体の三次元の関節情報を、外部装置に出力及び記録する(ステップS502)。
FIG. 11 is a flowchart illustrating an example of the operation of the
以上のように、第1実施形態の学習データ生成装置としての学習データ生成部12は、シルエット画像レンダリング部121と、カメラパラメータ出力部122と、形状情報復元部123と、関節情報ボクセル化部125とを備える。シルエット画像レンダリング部121は、三次元モデル画像を三次元モデルの周囲に定められた視点ごとに取得する。シルエット画像レンダリング部121は、三次元モデル画像にレンダリング処理を施すことによって、多視点モデルシルエット画像を視点ごとに生成する。カメラパラメータ出力部122は、カメラパラメータを視点ごとに取得する。形状情報復元部123は、各視点のカメラパラメータに基づいて、多視点モデルシルエット画像から、三次元モデルの三次元の形状情報を復元する。関節情報ボクセル化部125は、三次元モデルの三次元の形状情報のボクセル空間と同じボクセル空間に、三次元モデルの三次元の関節情報を生成する。これによって、第1実施形態の学習データ生成装置としての学習データ生成部12は、三次元の関節情報を含む複数の学習データをより容易に生成することが可能である。
As described above, the learning
第1実施形態の学習データ生成装置としての学習データ生成部12は、学習部13を更に備えてもよい。学習部13は、三次元の形状情報に応じて三次元の関節情報を出力するディープニューラルネットワークのパラメータを学習する。ディープニューラルネットワークの出力層は、三次元の関節情報によって表される関節の個数に応じた個数のチャネルを有する。学習部13は、複数の三次元の形状情報をまとめることによって、形状情報ボクセルセットを生成する。学習部13は、形状情報ボクセルセットをディープニューラルネットワークのパラメータの学習に用いるか否かを、予め定められた条件に基づいて判定する。
The learning
第1実施形態の学習装置11は、コンピュータグラフィックスの画像に基づいて学習データを生成する。これによって、第1実施形態の学習装置11は、大量の学習データを容易に生成することが可能である。第1実施形態の学習装置11は、大量の学習データを容易に拡張することができる。第1実施形態の学習装置11は、関節情報が付与されている画像を取得するので、関節情報を画像から取得する手間を削減することが可能である。
The
(第2実施形態)
第2実施形態では、機械学習に関する各種データを推定装置10が記憶する点が、第1実施形態と相違する。第2実施形態では、第1実施形態との相違点についてのみ説明する。
(Second Embodiment)
The second embodiment is different from the first embodiment in that the
図12は、推定システム1bの構成の例を示す図である。推定システム1bは、推定装置10を備える。推定システム1bにおいて推定装置10が三次元の関節情報の推定処理のみを実行する場合、推定システム1bは、学習装置11を備えていなくてもよい。すなわち、推定システム1bにおいて推定装置10が推定処理のみを実行する場合、学習装置11は機械学習を実行しなくてもよい。推定システム1aにおいて学習装置11が機械学習を実行する場合には、推定システム1bは、学習装置11を備える。
FIG. 12 is a diagram illustrating an example of the configuration of the estimation system 1b. The estimation system 1 b includes an
学習装置11は、学習データ生成部12と、学習部13とを備える。学習データ生成部12は、学習装置11とは異なる学習データ生成装置に備えられてもよい。この場合、学習データ生成装置によって生成された学習データは、ネットワークや記憶媒体などを介して学習装置11に与えられてもよい。学習データ生成装置としての学習データ生成部12は、学習部13を更に備えてもよい。
The
学習部13は、学習データを用いて機械学習を実行する。学習部13は、ディープニューラルネットワークに限らず、例えば、遺伝的プログラミングやクラスタリング等の機械学習を実行してもよい。学習部13は、機械学習に関する各種データを、通信回線又は記録媒体等を介して推定装置10に記録する。機械学習に関する各種データとは、例えば、アルゴリズムを表すデータ、学習済みディープニューラルネットワークの構成及びパラメータを表すデータである。
The
推定装置10は、入力データ生成部14と、解析部15と、記憶部16とを備える。記憶部16は、学習部13によって生成された機械学習に関する各種データを記憶する。解析部15は、学習済みディープニューラルネットワークのパラメータを、記憶部16から取得する。学習済みディープニューラルネットワークのパラメータは、形状情報ボクセルセットのうち、予め定められた条件を満たした形状情報ボクセルセットを用いた学習結果に基づくパラメータである。予め定められた条件とは、例えば、三次元モデルの形状部分の空間が形状情報ボクセルセットの全体の空間に対して所定割合以上であるという条件である。
The
以上のように、第2実施形態の推定装置10は、解析部15を備える。解析部15は、学習装置11によって生成された三次元モデルの三次元の形状情報に応じて三次元モデルの三次元の関節情報を出力するよう学習されたディープニューラルネットワークを用いて、被写体の三次元の関節情報を推定する。これによって、第2実施形態の推定装置10は、被写体の三次元の関節位置を精度良く推定することが可能である。また、第2実施形態の学習データ生成装置としての学習データ生成部12は、三次元の関節情報を含む複数の学習データをより容易に生成することが可能である。
As described above, the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1a,1b…推定システム、10…推定装置、11…学習装置、12…学習データ生成部、13…学習部、14…入力データ生成部、15…解析部、16…記憶部、121…シルエット画像レンダリング部、122…カメラパラメータ出力部、123…形状情報復元部、124…関節情報出力部、125…関節情報ボクセル化部、131…ボクセルセット生成部、132…ボクセルセット判定部、133…ネットワーク構築部、134…パラメータ学習部、141…シルエット生成部、142…形状情報生成部
DESCRIPTION OF SYMBOLS 1a, 1b ... Estimation system, 10 ... Estimation apparatus, 11 ... Learning apparatus, 12 ... Learning data generation part, 13 ... Learning part, 14 ... Input data generation part, 15 ... Analysis part, 16 ... Memory | storage part, 121 ... Silhouette
Claims (8)
カメラパラメータを前記視点ごとに取得するカメラパラメータ部と、
各視点の前記カメラパラメータに基づいて、各視点の前記シルエット画像から、前記三次元モデルの三次元の形状情報を復元する形状情報復元部と、
前記三次元モデルの三次元の形状情報のボクセル空間と同じボクセル空間に、前記三次元モデルの三次元の関節情報を生成する関節情報ボクセル化部と
を備える学習データ生成装置。 By obtaining a three-dimensional model image, which is a computer graphics image representing a three-dimensional model of a subject having a joint, for each viewpoint determined around the three-dimensional model, and performing rendering processing on the three-dimensional model image A silhouette image rendering unit for generating a silhouette image of the three-dimensional model for each viewpoint;
A camera parameter section for acquiring camera parameters for each viewpoint;
Based on the camera parameters of each viewpoint, a shape information restoration unit that restores the three-dimensional shape information of the three-dimensional model from the silhouette image of each viewpoint;
A learning data generation device comprising: a joint information voxelization unit that generates three-dimensional joint information of the three-dimensional model in the same voxel space as the three-dimensional shape information voxel space of the three-dimensional model.
前記ディープニューラルネットワークの出力層は、前記関節情報によって表される前記関節の個数に応じた個数のチャネルを有する、請求項1に記載の学習データ生成装置。 A learning unit that learns parameters of a deep neural network that outputs the joint information according to the shape information;
The learning data generation apparatus according to claim 1, wherein an output layer of the deep neural network includes a number of channels corresponding to the number of the joints represented by the joint information.
を備える推定装置。 A deep neural network trained to output the three-dimensional joint information of the three-dimensional model according to the three-dimensional shape information of the three-dimensional model generated by the learning data generating device according to claim 1 or 2. An estimation apparatus comprising: an analysis unit that estimates the three-dimensional joint information of the subject related to the three-dimensional model by using the three-dimensional shape information of the subject related to the three-dimensional model as an input of the deep neural network.
前記学習部は、複数の前記形状情報をまとめることによって前記形状情報のセットを生成し、前記形状情報のセットをディープニューラルネットワークのパラメータの学習に用いるか否かを予め定められた条件に基づいて判定する、請求項1に記載の学習データ生成装置。 A learning unit that learns parameters of a deep neural network that outputs the joint information according to the shape information;
The learning unit generates the set of shape information by collecting a plurality of the shape information, and whether to use the set of shape information for deep neural network parameter learning based on a predetermined condition The learning data generation device according to claim 1, wherein the determination is made.
前記ディープニューラルネットワークのパラメータは、複数の前記形状情報をまとめることによって生成された前記形状情報のセットのうち、予め定められた条件を満たした前記形状情報のセットを用いた学習結果に基づくパラメータである、請求項3に記載の推定装置。 A storage unit for storing a configuration and parameters of a deep neural network that outputs the joint information according to the shape information;
The parameter of the deep neural network is a parameter based on a learning result using the set of shape information that satisfies a predetermined condition among the set of shape information generated by collecting a plurality of the shape information. The estimation device according to claim 3.
請求項1又は請求項2に記載の学習データ生成装置によって生成された三次元モデルの三次元の形状情報に応じて前記三次元モデルの三次元の関節情報を出力するよう学習されたディープニューラルネットワークを用いて、前記三次元モデルに関する被写体の三次元の関節情報を推定するステップを有する推定方法。 An estimation method executed by an estimation device,
A deep neural network trained to output the three-dimensional joint information of the three-dimensional model according to the three-dimensional shape information of the three-dimensional model generated by the learning data generating device according to claim 1 or 2. An estimation method comprising a step of estimating three-dimensional joint information of a subject related to the three-dimensional model using
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017133070A JP2019016164A (en) | 2017-07-06 | 2017-07-06 | Learning data generation device, estimation device, estimation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017133070A JP2019016164A (en) | 2017-07-06 | 2017-07-06 | Learning data generation device, estimation device, estimation method, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019016164A true JP2019016164A (en) | 2019-01-31 |
Family
ID=65358510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017133070A Pending JP2019016164A (en) | 2017-07-06 | 2017-07-06 | Learning data generation device, estimation device, estimation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019016164A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021039424A (en) * | 2019-08-30 | 2021-03-11 | キヤノン株式会社 | Image processing system, image processing method and program |
JP2021527877A (en) * | 2019-01-31 | 2021-10-14 | 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. | 3D human body posture information detection method and devices, electronic devices, storage media |
CN114241473A (en) * | 2020-09-07 | 2022-03-25 | 柯镂虚拟时尚股份有限公司 | Method and device for estimating physical property parameters of fabric |
CN114391156A (en) * | 2019-09-20 | 2022-04-22 | 索尼互动娱乐股份有限公司 | Information processing apparatus, information processing method, and program |
KR102395123B1 (en) * | 2020-11-18 | 2022-05-09 | 한국과학기술원 | Bare-hand depth inpainting method for tracking of hand interacting with object and the system thereof |
-
2017
- 2017-07-06 JP JP2017133070A patent/JP2019016164A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021527877A (en) * | 2019-01-31 | 2021-10-14 | 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. | 3D human body posture information detection method and devices, electronic devices, storage media |
JP2021039424A (en) * | 2019-08-30 | 2021-03-11 | キヤノン株式会社 | Image processing system, image processing method and program |
JP7387339B2 (en) | 2019-08-30 | 2023-11-28 | キヤノン株式会社 | Image processing system, image processing method, and program |
CN114391156A (en) * | 2019-09-20 | 2022-04-22 | 索尼互动娱乐股份有限公司 | Information processing apparatus, information processing method, and program |
CN114241473A (en) * | 2020-09-07 | 2022-03-25 | 柯镂虚拟时尚股份有限公司 | Method and device for estimating physical property parameters of fabric |
KR102395123B1 (en) * | 2020-11-18 | 2022-05-09 | 한국과학기술원 | Bare-hand depth inpainting method for tracking of hand interacting with object and the system thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108369643B (en) | Method and system for 3D hand skeleton tracking | |
Ammirato et al. | A dataset for developing and benchmarking active vision | |
JP7448679B2 (en) | Image processing method and device | |
JP2018129007A (en) | Learning data generation apparatus, learning apparatus, estimation apparatus, learning data generation method, and computer program | |
WO2023071964A1 (en) | Data processing method and apparatus, and electronic device and computer-readable storage medium | |
JP2019016164A (en) | Learning data generation device, estimation device, estimation method, and computer program | |
JP5555207B2 (en) | 3D posture estimation apparatus, 3D posture estimation method, and program | |
JP2023518584A (en) | 3D HUMAN MODEL CONSTRUCTION METHOD AND ELECTRONIC DEVICE | |
JP7335370B2 (en) | Computer-implemented method, data processing apparatus and computer program for generating 3D pose estimation data | |
JP2024522287A (en) | 3D human body reconstruction method, apparatus, device and storage medium | |
JP7452698B2 (en) | Reinforcement learning model for labeling spatial relationships between images | |
Ranjan et al. | Learning human optical flow | |
CN113449696B (en) | Attitude estimation method and device, computer equipment and storage medium | |
JP2016099982A (en) | Behavior recognition device, behaviour learning device, method, and program | |
JP2014085933A (en) | Three-dimensional posture estimation apparatus, three-dimensional posture estimation method, and program | |
WO2018190805A1 (en) | Depth image pose search with a bootstrapped-created database | |
JP4938748B2 (en) | Image recognition apparatus and program | |
JP2010211732A (en) | Object recognition device and method | |
KR20100138658A (en) | Data processing apparatus and method | |
JP2023109570A (en) | Information processing device, learning device, image recognition device, information processing method, learning method, and image recognition method | |
CN110910478B (en) | GIF map generation method and device, electronic equipment and storage medium | |
CN115984943B (en) | Facial expression capturing and model training method, device, equipment, medium and product | |
CN111105489A (en) | Data synthesis method and apparatus, storage medium, and electronic apparatus | |
CN111531546A (en) | Robot pose estimation method, device, equipment and storage medium | |
Abdulali et al. | Sample selection of multi-trial data for data-driven haptic texture modeling |