WO2021039642A1 - 3次元再構成装置、方法及びプログラム - Google Patents
3次元再構成装置、方法及びプログラム Download PDFInfo
- Publication number
- WO2021039642A1 WO2021039642A1 PCT/JP2020/031666 JP2020031666W WO2021039642A1 WO 2021039642 A1 WO2021039642 A1 WO 2021039642A1 JP 2020031666 W JP2020031666 W JP 2020031666W WO 2021039642 A1 WO2021039642 A1 WO 2021039642A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- position information
- dimensional
- dimensional position
- human body
- image
- Prior art date
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B69/00—Training appliances or apparatus for special sports
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
Definitions
- the present invention is a program for making a computer function as a three-dimensional reconstruction device.
- (C) is a state in which the left hand is raised to the height of the head
- (d) is a captured image diagram showing a state in which the left hand is raised upward. It is explanatory drawing which visualized and showed, for example, a skeleton image using the three-dimensional position information (position, the joint angle) estimated from each joint position corresponding to FIGS. 4A to 4D.
- FIG. 1 is a block diagram showing an embodiment of a three-dimensional reconstruction device according to the present invention.
- the three-dimensional reconstruction device 1 includes a control unit 10 and a storage unit 20, and is configured to be able to receive image information captured by the camera 30 by wire or wirelessly.
- the control unit 10 acquires time-series two-dimensional position information at a plurality of specific parts of the operating human body from the image data captured from the camera 30, and further, from this two-dimensional position information, in the real space where the human body is located. That is, the process of reconstructing by estimating the three-dimensional correspondence information is executed. Details will be described later.
- FIG. 2 is a diagram for explaining the projection relationship between the two-dimensional image of the human body captured by the camera 30 and the three-dimensional position of the person in the real space.
- the camera 30 is on the front side (lower right side of the figure), and the person H is located behind the camera 30.
- a two-dimensional image pickup screen 300 in which the human body image h is captured is acquired by the image pickup element in the camera 30. Seen from the camera 30, the person H and the human body image h are in a projection relationship.
- the motion database stored in the motion database storage unit 22 is time-series three-dimensional position information for each of a plurality of predetermined specific parts, for example, joint parts, during the movement of the human body.
- the joint site may be the whole body, and may be only a part of the body, for example, the upper body, depending on the intended use.
- the time-series three-dimensional position information of the movement of the human body can be acquired in advance in association with each body part by various methods. For example, it is measured by using a position or movement sensor such as an optical motion capture or an IMU sensor. Is possible.
- the position information stored in the motion database storage unit 22 is preferably captured for each of a plurality of types of motions, that is, motion patterns (statistical models).
- the motion database includes at least three-dimensional position information (pt) of a time series at a joint site.
- the subscript t is time.
- the motion database stored in the motion database storage unit 22 is sequentially added and the statistical model is updated so that the estimation accuracy is improved.
- the control unit 10 is typically composed of a computer having a built-in CPU (processor), and in addition to the camera 30 and the storage unit 20, an operation unit 11 that gives various instructions such as an imaging instruction and a processing program execution instruction, and an image.
- the display unit 12 to be displayed is connected. The display unit 12 is used when the reconstructed result is visualized and displayed (see FIG. 5).
- the control unit 10 reads the processing program from the processing program storage unit 21 into the main memory (not shown) and executes the image acquisition unit 101, the two-dimensional position information acquisition unit 102, the estimation unit 103, and the output unit. It functions as 104 and the display image creation unit 105.
- the two-dimensional position information acquisition unit 102 performs a process of detecting the two-dimensional position information of each joint part from the acquired two-dimensional image of the human body.
- Various methods for detecting the two-dimensional position information associated with the joint site can be considered, and for example, machine learning, deep learning, image recognition processing, or the like may be used.
- a method Open Pose: skeleton detection algorithm with a monocular camera
- skeleton Sk skeleton
- FIG. 4 (a) to 4 (d) are diagrams showing the processing of calculating the joint and skeletal positions of the human body in two dimensions during the imaged motion, and as illustrated as represented by FIG. 4 (a), are shown.
- the two-dimensional position information acquisition unit 102 extracts at least the position information of the joint positions q of all or predetermined positions from the human body image.
- the estimation unit 103 From the time-series two-dimensional position information of each joint position detected by the two-dimensional position information acquisition unit 102, the estimation unit 103 performs the (optimal) body movement that most closely matches one of the movement patterns as follows. Estimate a certain 3D position information.
- the point f (p) mapped on the screen 300 by the perspective projection conversion function f is set to the position q.
- Finding a matching position p see FIG. 2.
- the degree of similarity with the body movement shown by the statistical model ⁇ stored in the movement database storage unit 22 is introduced.
- a process of finding a body movement that matches the movement in the image (see FIG. 2) is performed while being as similar as possible to any of the body movements stored in the movement database storage unit 22.
- the objective function ⁇ shown in Equation 1 can be adopted and formulated as a problem for minimizing the objective function ⁇ .
- ⁇ is a statistical model of body movement stored in the motion database storage unit 32
- ⁇ ) is body movement (three-dimensional position information) from the model ⁇ .
- P 1 , ..., Pl is the probability of being generated.
- w1 and w2 are weight parameters and are positive constants.
- the estimation unit 103 executes the equation 2 to calculate the three-dimensional position information as a new candidate, the calculated three-dimensional position information is applied to the equation 1 to obtain the calculated value of the objective function.
- the motion candidate is also determined, and as the motion candidate is determined, the three-dimensional position information is determined more accurately.
- the estimation accuracy of the candidates and the three-dimensional position information is gradually improved through repeated calculations.
- the optimized three-dimensional position information of the joint portion here, the three-dimensional position information p and the joint angle ⁇ in each three-dimensional position information p are calculated by kinematic calculation.
- the estimation unit 103 further uses a Jacobian matrix that correlates the position change of the body part in the three-dimensional space with the position change in the image, and a Jacobian matrix that correlates the change of the generalized coordinates of the whole body with the position change of the body part. And calculate the update amount.
- the renewal amount means the amount of change in the joint angle.
- the renewal amount is added to the joint angle ⁇ t (k) obtained in the kth iterative calculation to obtain the joint angle ⁇ t (k + 1) after the k + 1th iterative calculation.
- Equation (3) of Equation 2 indicates the amount of update. By changing the joint angle, the position will also change.
- FIG. 3 is a flowchart showing an example of the three-dimensional reconstruction process executed by the processor.
- the image capture unit 101 captures a moving image of the human body to be measured, for example, a two-dimensional image captured by the camera 30, or a two-dimensional image stored in an external or internal memory (step S1). ..
- the two-dimensional position information acquisition unit 102 performs a process of detecting the two-dimensional position information of each joint part from the acquired two-dimensional image of the human body (step S3).
- step S5 the motion database and the number 1 stored in the motion database storage unit 22 are applied to the two-dimensional position information of the joint position detected by the two-dimensional position information acquisition unit 102, and the obtained motion patterns are sequentially switched.
- 3D position information that is the (optimal) (optimal) body movement that best matches one of the movement patterns by repeating the operation of estimating the 3D position information and finding the body movement that minimizes the objective function ⁇ . Is estimated as a candidate.
- the estimation unit 103 uses the estimated three-dimensional position information to set the generalized coordinates (joint angle) ⁇ 1, ..., ⁇ T of the body movement that minimizes the objective function ⁇ , for example, by using the steepest descent method. Calculate (Equation 2). By repeating this process, the optimized three-dimensional position information of the joint portion, here, the three-dimensional position information p and the joint angle ⁇ are estimated.
- the estimation unit 103 uses a Jacobian matrix that correlates the position change of the body part in the three-dimensional space with the position change in the image, and a Jacobian matrix that correlates the change of the generalized coordinates of the whole body with the position change of the body part. To calculate the update amount (step S7).
- the output unit 104 outputs the three-dimensional position information calculated by the estimation unit 103 to the storage unit 20, and is changed to the display image by the display image creation unit 105 and output to the display unit 12 (step S9). ..
- FIGS. 4 and 5 show the captured whole body movement and the reconstructed (restored) three-dimensional whole body movement.
- FIG. 4 is a diagram showing a process of identifying the joint position of the human body in two dimensions in the captured image.
- FIG. 4A shows a state in which both hands are located downward
- FIG. 4B shows a state in which the left hand is raised to the front.
- (C) is a state in which the left hand is raised to the height of the head
- (d) is a state in which the left hand is raised upward.
- 5 (a) to 5 (d) are explanatory views shown by visualizing, for example, a skeleton image using three-dimensional coordinates estimated from each joint position corresponding to FIGS. 4 (a) to 4 (d). Is.
- the estimation unit 103 reconstructs the three-dimensional motion data from the two-dimensional motion data by searching for a motion that matches the position of the body part in the image and is similar to the whole body motion of the motion database. It has been (restored). Then, as illustrated in FIG. 5D, the three-dimensional position is defined by calculating the joint and the joint angle (pi, ⁇ i) shown in the skeleton image at all the point joint sites. Through experiments using the OpenPose algorithm, it was confirmed that whole body movement can be appropriately estimated from the body feature points in the image.
- the present invention includes the following embodiments.
- the joint part is used as a specific part of the human body, but the present invention is not limited to this, and is applied to parts related to the movement of the human body, for example, the positions of the neck, spine, and waist, and their flexion and rotation. can do.
- the three-dimensional reconstruction apparatus has a database that stores three-dimensional position information of a plurality of specific parts of the human body during operation and a monocular camera during operation.
- the position information acquisition means for acquiring one or time-series two-dimensional position information regarding the part corresponding to the specific part from the dimensional human body image and the three-dimensional position information in the database with reference to the three-dimensional position information. It is preferable to provide an estimation means for estimating the corresponding three-dimensional position information from the acquired two-dimensional position information regarding the part corresponding to the specific part of the human body.
- the three-dimensional reconstruction method includes a storage step of storing time-series three-dimensional position information of a plurality of specific parts of the human body during operation as a database, and a two-dimensional image captured by a monocular camera during operation. Acquired by the position information acquisition step with reference to the position information acquisition step of acquiring one or time-series two-dimensional position information regarding the part corresponding to the specific part from the human body image of the above and the three-dimensional position information of the database. It is preferable to include an estimation step for estimating the corresponding three-dimensional position information from the two-dimensional position information regarding the part corresponding to the specific part of the human body.
- the present invention is a program for making a computer function as a three-dimensional reconstruction device.
- the database stores three-dimensional position information of a time series of a plurality of specific parts of the human body during operation. Then, when a two-dimensional human body image captured by a monocular camera is captured during operation without wearing anything on the body, the position information acquisition means is used to obtain one or a time-series two-dimensional image of the part corresponding to the specific part. The position information is acquired, the estimation means refers to the three-dimensional position information in the database, and the two-dimensional position information regarding the part corresponding to the specific part of the human body acquired by the position information acquisition means corresponds to the corresponding part. Three-dimensional position information is estimated.
- Estimating a three-dimensional position from the coordinate values of each specific part of the body in an image captured by a monocular camera is a defective setting problem in which innumerable solutions exist, but the present invention relates to how to move the body.
- the present invention relates to how to move the body.
- the database is characterized in that the three-dimensional position information is stored for each operation pattern. According to this configuration, it is possible to improve the accuracy of reconstruction by providing various patterns.
- the specific site is a joint site of the human body. According to this configuration, it is possible to accurately describe information on the posture and orientation of the human body.
- the estimation means is the similarity between the candidate three-dimensional position information and the three-dimensional position information of each operation pattern stored in the database, and the candidate three-dimensional position information of the monocular camera.
- the first operation that applies the candidate 3D position information to the objective function that expresses the consistency between the 2D imaging surface and the 2D position that has a projection relationship, and the gradient method are applied to the 3D position information. It is preferable to execute a second operation for obtaining three-dimensional position information when the objective function is minimized by sequentially changing the above.
- the second operation in order to obtain the three-dimensional position information when the objective function is minimized, the three-dimensional position information is sequentially changed by applying the gradient method.
- three-dimensional position information (at least one of a specific part and a joint angle) in the motion pattern when the objective function is minimized by the gradient method is extracted. This makes it possible to always describe the three-dimensional coordinates of a specific part in terms of position and joint angle even if the orientation and posture of the human body change.
- the present invention includes a storage unit that stores the three-dimensional position information calculated by the estimation means. According to this configuration, it is possible to read from the storage unit and reconstruct it without performing a series of processes each time.
- the present invention includes an image display processing means that visualizes the three-dimensional position information calculated by the estimation means and outputs it to the image display unit. According to this configuration, the movement of a specific part can be easily grasped through the image by looking at the visualized image.
- the image display processing means creates a three-dimensional character connecting each joint portion by using the three-dimensional position information calculated by the estimation means, and outputs the three-dimensional character to the image display unit. According to this configuration, stereoscopic display is possible by a simple method.
- Control unit 101 Image acquisition unit 102 2D position information acquisition unit 103 Estimator unit 104 Output unit 105 Display image creation unit 12 Display unit 20 Storage unit 21 Program storage unit 22 Motion database storage unit 30 ... Camera
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Dentistry (AREA)
- Heart & Thoracic Surgery (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physical Education & Sports Medicine (AREA)
- Pathology (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Image Analysis (AREA)
Abstract
3次元再構成装置(1)は、動作中における人体の複数の関節部位の時系列の3次元位置情報を記憶する動きデータベース記憶部(22)と、動作中に単眼カメラ(30)で撮像された2次元の人体画像から関節部位に関する時系列の2次元位置情報を取得する2次元位置情報取得部(102)と、データベース記憶部(22)に記憶された3次元位置情報を参照して、2次元位置情報取得部(102)によって取得された人体の関節部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定部(103)とを備える。これにより、単眼のカメラで撮像した人体画像中の身体部位の2次元位置情報から3次元位置情報をより高精度で推定する。
Description
本発明は、単眼のカメラで撮像された人体の各部位に関する2次元位置情報を3次元に再構成する技術に関する。
従来、人間の全身運動を計測する技術として、光学式モーションキャプチャを適用する方式や、加速度センサを内蔵したIMU(inertial measurement unit)センサを利用した方式が広く知られている。
特許文献1には、被験者の身体各部位に体動センサを装着して当該各部位の動きを計測し、計測結果から運動の周期、角速度変化特性を解析して、複雑な体動を瞬時に理解できるように表示・出力する装置が提案されている。体動センサは、3軸加速度計及び3軸ジャイロスコープを搭載したものである。
また、非特許文献1には、カメラ画像に収められた人間の動きを詳細に解析する場合に、シルエットを利用することによって3次元空間で身体運動を復元する技術が提案されている。
W. Takano and Y. Nakamura. Actiondatabase for categorization and inferring human poses from video sequence. Roboticsand Autonomous Systems, 70:116{125, 2015.
しかしながら、従来の光学式モーションキャプチャでは人体の計測対象部位にそれぞれマーカを装着し、これらのマーカを複数台のカメラを配備して撮像する必要があり、マーカの人体への装着、複数台のカメラの配置及び撮像動作が必要となり、コスト面及び計測作業が大掛かりとなる。また、マーカを付けた被験者の動きのみしか計測することができないため、更に複数台のカメラを配置可能な屋内が運動空間となるため、計測対象の動きは限定的にならざるを得ない。さらに、身体に複数の体動センサを装着する場合も同様に装置が大掛かりとなり、また計測対象の動きは限定的にならざるを得ない。
本発明は、上記に鑑みてなされたもので、簡易な構成でありながら、単眼のカメラで撮像した人体画像中の身体部位の2次元位置情報から3次元位置情報をより高精度で推定することができる3次元再構成装置、方法及びプログラムを提供するものである。
本発明に係る3次元再構成装置は、動作中における人体の複数の特定部位の時系列の3次元位置情報を記憶するデータベースと、動作中に単眼カメラで撮像された2次元の人体画像から前記特定部位に対応する部位に関する1又は時系列の2次元位置情報を取得する位置情報取得手段と、前記データベースの前記3次元位置情報を参照して、前記位置情報取得手段によって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定手段とを備えたものである。
また、本発明に係る3次元再構成方法は、動作中における人体の複数の特定部位の時系列の3次元位置情報をデータベースとして記憶する記憶ステップと、動作中に単眼カメラで撮像された2次元の人体画像から前記特定部位に対応する部位に関する1又は時系列の2次元位置情報を取得する位置情報取得ステップと、前記データベースの前記3次元位置情報を参照して、前記位置情報取得ステップによって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定ステップとを備えたものである。
また、本発明は、コンピュータを3次元再構成装置として機能させるためのプログラムである。
これらの発明によれば、データベースに、動作中における人体の複数の特定部位の時系列の3次元位置情報が記憶される。そして、身体に何も装着しない状態で、動作中に単眼カメラで撮像された2次元の人体画像が取り込まれると、位置情報取得手段によって前記特定部位に対応する部位に関する1又は時系列の2次元位置情報が取得され、推定手段によって、前記データベースの前記3次元位置情報を参照して、前記位置情報取得手段によって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報が推定される。単眼のカメラで撮像された画像中における身体の各特定部位の座標値から3次元位置を推定することは、無数の解が存在する不良設定問題であるが、本発明により、体の動かし方に関する知識をデータベースを介して参照することによって、画像中の動きを満足する無数の解の中から、3次元空間中の自然な身体運動を最適に推定可能となる。
本発明によれば、簡易な構成でありながら、単眼のカメラで撮像した人体画像中の身体部位の2次元位置情報から3次元位置情報をより高精度で推定することができる。
図1は、本発明に係る3次元再構成装置の一実施形態を示すブロック図である。3次元再構成装置1は、制御部10及び記憶部20を備え、カメラ30で撮像された画像情報を有線又は無線で受信可能に構成されている。
カメラ30は、撮像面に撮像素子が配置され、撮影する画像をデジタルデータで取得するデジタルカメラである。カメラ30は、単眼型の、いわゆる2次元(2D)カメラの他、連続的に撮像して時系列の画像データが取得可能な連写型乃至ビデオカメラであってもよい。また、市販のカメラの他、スマートフォンやパソコンに搭載のカメラであってもよい。また、カメラ30から制御部10へ出力される画像データがリアルタイムのデータの他、一旦保管された画像データであってもよい。従って、カメラ30の他、カメラで撮像した過去の2次元画像データを事後的に出力可能に記憶した画像データベースであってもよい。画像データベースは、ネットワーク上のサーバ上に保管されたデータでもよい。本実施形態では、カメラ30は、動作中の人体を撮像する目的に使用される。撮像された人体の動き画像情報は制御部10に出力される。
制御部10は、カメラ30から取り込んだ画像データから動作中の人体の複数の特定部位における時系列の2次元位置情報を取得し、さらに、この2次元位置情報から、人体が位置する実空間内の、すなわち3次元の対応情報を推定することで再構成する処理を実行する。詳細は後述する。
記憶部20は、処理途中の情報を一時的に記憶するワークエリアの他、制御部10が実行する処理プログラムを記憶する処理プログラム記憶部21を有する。また、記憶部20は、2次元位置情報を3次元位置情報に推定変換する際の知識となる動作データベースを記憶する動きデータベース記憶部22を有する。動作データベースについては後述する。
図2は、カメラ30で撮像された人体の2次元画像と、当該人物の実空間上の3次元位置との投影関係を説明する図である。図2において、手前側(図の右側下方)にカメラ30があり、その後方に人物Hが位置している。この状態でカメラ30により撮像が行われると、カメラ30内の撮像素子には、人体画像hが写った2次元の撮像画面300が取得される。カメラ30から見て、人物Hと人体画像hとは投影関係にある。一方、撮像画面300上の人体画像hの特定部位、例えば、右手首(関節)部位qに対応する3次元空間上の位置pは、図中、太い破線上において無数の候補として存在し得る。すなわち、1台のカメラ画像中における各身体部位の座標値から3次元位置を一意に求めることはできず、無数の解が存在することとなる。
そこで、予め人体全身の動き方に関する知識を動きデータベースとして準備し、これを参照することによって、画像中の動きを満足する無数の解の中から、3次元空間中の自然(最適)な身体運動を探索(推定)する。
動きデータベース記憶部22に格納される動きデータベースは、人体の動作中における、所定の複数の特定部位、例えば関節部位毎の時系列の3次元位置情報である。関節部位は全身を対象としてもよく、用途に応じて身体一部、例えば上半身のみの場合もあり得る。人体の動きの時系列の3次元位置情報は、種々の方法で各身体部位と関連付けて予め取得可能であり、例えば光学的モーションキャプチャやIMUセンサなどの位置、動きセンサを利用して計測することが可能である。動きデータベース記憶部22に格納される位置情報は、複数種の動作、すなわち動作パターン(統計モデル)毎に取り込むのが好ましい。動作パターンとしては人間の基本的な動作の種類、例えば「歩く」、「走る」、「ジャンプ」、…等が考えられ、さらに他の多くのパターンを含めることができる。本実施形態では、動きデータベースとして、少なくとも関節部位における時系列の3次元位置情報(pt)を含んでいる。なお、添え字tは時間である。また、動きデータベース記憶部22に格納される動きデータベースは順次追加するようにし、推定精度が向上するように統計モデルを更新することが好ましい。
制御部10は、典型的にはCPU(プロセッサ)を内蔵したコンピュータで構成され、カメラ30、記憶部20の他に、撮像指示、処理プログラム実行指示等の各種指示を行う操作部11、画像を表示する表示部12が接続されている。表示部12は、再構成された結果を可視化して表示する(図5参照)場合に用いられる。
制御部10は、処理プログラムが処理プログラム記憶部21から図略の主メモリに読み出されて実行されることで、画像取込部101、2次元位置情報取得部102、推定部103、出力部104及び表示画像作成部105として機能する。
画像取込部101は、カメラ30で撮像された、あるいは他の画像データベースからの時系列の2次元画像を有線あるいは無線で受信し、前記したワークエリアに取り込むものである。
2次元位置情報取得部102は、取得した人体の2次元画像中から各関節部位の2次元位置情報を検出する処理を行う。関節部位と関連付けられた2次元位置情報の検出の方法は種々考えられ、例えば機械学習、深層学習あるいは画像認識処理等を利用してもよい。ここでは、前者の学習方法において、画像あるいは動画像から特徴点(関節位置q:ノード)及び特徴方向(骨格Sk:スケルトン)を抽出する手法(Open Pose:単眼カメラでのスケルトン検出アルゴリズム)が例示される。図4(a)~(d)は、撮像された動作中の人体の2次元での関節、骨格位置を算出する処理を示す図で、図4(a)に代表して例示するように、2次元位置情報取得部102は、人体画像から、すべての乃至予め定めた箇所の関節位置qの位置情報を少なくとも抽出する。
推定部103は、2次元位置情報取得部102で検出された各関節位置の時系列の2次元位置情報から、以下のようにしていずれかの動作パターンに最も整合する(最適の)身体動作である3次元位置情報を推定する。
より具体的には、カメラ画像中における身体部位の位置qから3次元空間での位置pを推定する計算は、透視投影変換関数fによって画面300中に写像した点f(p)が位置qに一致する位置pを見つけることである(図2参照)。しかし、これを満足する位置pは無数に存在する。そこで、新たな基準(知識)として、動きデータベース記憶部22に記憶されている統計モデルλで示す身体動作との類似度を導入する。動きデータベース記憶部22に蓄積されている身体動作のいずれかにできる限り類似しながら、画像中での動きとも整合する(図2参照)身体動作を見つける処理を行う。本実施形態では、数1に示す目的関数Φを採用し、この目的関数Φを最小化する問題として定式化することができる。
ここで、λは、動きデータベース記憶部32に格納された身体動作の統計モデルであり、P(p1,・・・,pl|λ)は、そのモデルλから身体動作(3次元位置情報)p1,・・・,plが生成される確率である。例えばモデルλの動きデータベースと設定した身体動作pとが近いほど、確率が高いとしてより大きな値が生成される。この第2項で示す確率が高いほど、動きデータベース(知識)の動きとの類似性が高いことになる。また、w1,w2は重みパラメータで、正の定数である。
推定部103は、候補となる3次元位置情報と動きデータベース記憶部32に記憶された各動作パターンの3次元位置情報との類似度、及び前記候補となる3次元位置情報であって前記単眼カメラの2次元撮像面と投影関係となる2次元位置との整合度を表す目的関数Φに、前記候補となる3次元位置情報を適用する第1の演算と、前記3次元位置情報を順次変更しつつ、その3次元位置情報を勾配法に適用することにより前記目的関数が最小となるときの、動作パターンにおける3次元位置情報を得る第2の演算(勾配法を適用することによって前記3次元位置情報を順次変更して、前記目的関数が最小となるときの、動作パターンにおける3次元位置情報を得る第2の演算)とを実行する。
より具体的には、処理手順としては、例えば、動作パターンの統計モデルλについて、まず初期値p1,・・・,plを設定し、第2項の発生確率を算出すると共に、この値を第1項に設定して投影関係の整合を算出する(値が小さいほど整合が高い)。これによって、目的関数Φの値が算出される(第1の演算)。以降、次の候補となる3次元位置情報が推定される。
推定部103は、推定された3次元位置情報pを用いて、目的関数Φを最小化する身体動作の一般化座標(関節角)θ1,・・・,θTを、勾配法のうち、例えば数2で示すような最急降下法に適用して計算する(第2の演算)。なお、最急降下法は、関数の傾き(一階微分)のみから、関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つである。なお、式中、αは正の定数パラメータである。
推定部103は、数2を実行して、新たな候補となる3次元位置情報を算出すると、算出した3次元位置情報を数1に適用して目的関数の算出値を得る。
かかる数1と数2の処理が交互にk回数繰り返されて3次元位置情報が推定されるにつれて動作の候補も定まり、動作の候補が定まるにつれて3次元位置情報がより正確に定まるように動作の候補と3次元位置情報の推定精度が繰り返し計算を経て徐々に向上する。ここでは、関節部位の最適化された3次元位置情報、ここでは3次元位置情報pと各3次元位置情報pにおける関節角θとが運動学計算によって算出される。3次元位置情報pと関節角θとを各関節部位について取得することで、可視化された人体画像の向き乃至姿勢が変えられた場合でも、各関節部位の動きを立体的な位置に正確に経時的に表示させることが可能となる。
推定部103は、さらに、3次元空間中の身体部位の位置変化と画像中の位置変化を関係づけるヤコビ行列、および全身の一般化座標の変化と身体部位の位置変化を関係づけるヤコビ行列を用いて更新量を計算する。なお、ここでは、更新量とは関節角の変更量をいう。k回目の繰り返し計算で求まっている関節角θt
(k)に更新量を足し合わせて、k+1回目の繰り返し計算後の関節角θt
(k+1)を求める。数2の式(3)が更新量を指している。関節角を変更することによって位置も変化することになる。
出力部104は、推定部103によって算出された3次元位置情報を記憶部20に出力し、また、表示部12に出力する。
表示画像作成部105は、計測結果を表示部12に可視化して出力する場合、表示画像を作成して表示部12に導き、例えば図5に示すスケルトン画像の態様で表示を行う。例えば、3次元空間に図5で示すスケルトン画像乃至はポリゴンマッピングされた人体画像を登場させて(立体市表示させて)、動作を行わせることで高い視認性が得られる。
図3は、プロセッサが実行する3次元再構成処理の一例を示すフローチャートである。
まず、画像取込部101は、計測対象となる人体の動作中の画像、例えばカメラ30で撮像された2次元画像、又は外部あるいは内部メモリに格納されている2次元画像を取り込む(ステップS1)。
次いで、2次元位置情報取得部102は、取得した人体の2次元画像中から各関節部位の2次元位置情報を検出する処理を行う(ステップS3)。
続いて、推定部103は、ステップS5を実行する。ステップS5では、2次元位置情報取得部102で検出された関節位置の2次元位置情報に、動きデータベース記憶部22に記憶されている動きデータベース及び数1を適用して、順次得動作パターンを切り替えて3次元位置情報を推定し、目的関数Φを最小にする身体動作を求める演算を繰り返して、いずれかの動作パターンに最も整合する(数1)(最適の)身体動作である3次元位置情報を候補として推定する。
また、推定部103は、推定された3次元位置情報を用いて、目的関数Φを最小化する身体動作の一般化座標(関節角)θ1,・・・,θTを例えば最急降下法を用いて計算する(数2)。かかる処理を繰り返すことで、関節部位の最適化された3次元位置情報、ここでは3次元位置情報pと関節角θが推定される。
また、推定部103は、3次元空間中の身体部位の位置変化と画像中の位置変化を関係づけるヤコビ行列、および全身の一般化座標の変化と身体部位の位置変化を関係づけるヤコビ行列を用いて更新量を計算する(ステップS7)。
そして、出力部104は、推定部103によって算出された3次元位置情報を記憶部20に出力し、また、表示画像作成部105で表示画像に変更されて表示部12に出力する(ステップS9)。
図4及び図5は、撮像した全身動作と再構成(復元)された3次元の全身の動きを表している。図4は、撮影画像中の人体の2次元での関節位置を特定する処理を示す図で、(a)は両手が下方に位置している状態、(b)は左手が前方まで上がった状態、(c)は左手が頭の高さまで挙がった状態、(d)は左手が上方に達した状態を示す図である。図5(a)~(d)は、図4(a)~(d)に対応する各関節位置から推定して算出された3次元座標を用いて例えばスケルトン画像で可視化して示した説明図である。
図5に示すように、右手を挙げる動作の画像情報から適切に3次元の全身運動が復元されている。より詳細には推定部103で、画像中の身体部位の位置と整合し、かつ動きデータベースの身体の全身動作と類似した動作を探索することによって、2次元運動データから3次元運動データが再構成(復元)されている。そして、図5(d)に例示するように、スケルトン画像で示す関節と関節角(pi、θi)が全ての点関節部位で算出されることにより3次元位置が定義される。Open Poseアルゴリズムを利用した実験によって、画像中の身体特徴点から全身運動を適切に推定することができることを確認した。
なお、本発明は以下の実施形態を含む。
(1)単眼カメラ(ビデオカメラ)で撮像されたサッカーや野球などのスポーツ映像から3次元動作を復元することで、選手の動きに関して立体的な映像を作成し、動作の巧拙の分析などに有益となる。なお、自己のスポーツ映像に対する場合、自己の巧拙を細かく分析でき、効率的なトレーニングが可能となる。
(2)ゲームその他のエンターテインメントコンテンツの分野において、人体(例えば自己を含む)の動きの映像を利用してリアルタイム的に立体的なCGキャラクタをゲームに登場させて、ロールプレイングゲームを実現することができる。なお、ゲーム以外への適用では、リアルタイム処理でなくてもよい。
(3)歩行障害などの運動機能に支障がある患者の動きを簡単に計測して医師、理学療法士等にフィードバックすることで、治療乃至治癒状況の診断に有益となる。
(4)工場現場での匠の動きを計測して3次元動作として取得し、例えばアーカイブ化することが可能となる。
(5)本実施形態では、人体の特定部位として関節部位としたが、これに限定されず、人体の動きに関連する部位、例えば首、脊椎、腰の位置、それらの屈曲、回転等に適用することができる。
(6)光学式モーションキャプチャシステムを導入している事業に追加的に導入することが可能である。
以上説明したように、本発明に係る3次元再構成装置は、動作中における人体の複数の特定部位の時系列の3次元位置情報を記憶するデータベースと、動作中に単眼カメラで撮像された2次元の人体画像から前記特定部位に対応する部位に関する1又は時系列の2次元位置情報を取得する位置情報取得手段と、前記データベースの前記3次元位置情報を参照して、前記位置情報取得手段によって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定手段とを備えることが好ましい。
また、本発明に係る3次元再構成方法は、動作中における人体の複数の特定部位の時系列の3次元位置情報をデータベースとして記憶する記憶ステップと、動作中に単眼カメラで撮像された2次元の人体画像から前記特定部位に対応する部位に関する1又は時系列の2次元位置情報を取得する位置情報取得ステップと、前記データベースの前記3次元位置情報を参照して、前記位置情報取得ステップによって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定ステップとを備えることが好ましい。
また、本発明は、コンピュータを3次元再構成装置として機能させるためのプログラムである。
これらの発明によれば、データベースに、動作中における人体の複数の特定部位の時系列の3次元位置情報が記憶される。そして、身体に何も装着しない状態で、動作中に単眼カメラで撮像された2次元の人体画像が取り込まれると、位置情報取得手段によって前記特定部位に対応する部位に関する1又は時系列の2次元位置情報が取得され、推定手段によって、前記データベースの前記3次元位置情報を参照して、前記位置情報取得手段によって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報が推定される。単眼のカメラで撮像された画像中における身体の各特定部位の座標値から3次元位置を推定することは、無数の解が存在する不良設定問題であるが、本発明により、体の動かし方に関する知識をデータベースを介して参照することによって、画像中の動きを満足する無数の解の中から、3次元空間中の自然な身体運動を最適に推定可能となる。
また、前記データベースは、前記3次元位置情報を動作パターン毎に記憶することを特徴とすることが好ましい。この構成によれば、種々のパターンを備えることで、再構成の精度を高めることが可能となる。
また、前記特定部位は、人体の関節部位であることを特徴とすることが好ましい。この構成によれば、人体の姿勢、向きに関する情報を精度良く記述することが可能となる。
また、前記推定手段は、候補となる3次元位置情報と前記データベースに記憶された各動作パターンの3次元位置情報との類似度、及び前記候補となる3次元位置情報であって前記単眼カメラの2次元撮像面と投影関係となる2次元位置との整合度を表す目的関数に、前記候補となる3次元位置情報を適用する第1の演算と、勾配法を適用して前記3次元位置情報を順次変更することによって前記目的関数が最小となるときの3次元位置情報を得る第2の演算とを実行することを特徴とすることが好ましい。ここに、第2の演算は、前記目的関数が最小となるときの3次元位置情報を得るため、勾配法を適用することによって前記3次元位置情報を順次変更するものである。かかる構成によれば、勾配法によって目的関数を最小化させるときの、動作パターンにおける3次元位置情報(特定部位、関節角の少なくとも一方)が抽出される。これによって、人体の向き、姿勢が変わっても特定部位の3次元座標を常に位置及び関節角で記述することが可能となる。
また、本発明は、前記推定手段で算出された3次元位置情報を記憶する記憶部を備えることが好ましい。この構成によれば、その都度、一連の処理をすることなく、記憶部から読み出して再構成することが可能となる。
また、本発明は、前記推定手段で算出された3次元位置情報を可視化して画像表示部に出力する画像表示処理手段を備えることが好ましい。この構成によれば、可視化された画像を見ることで特定部位の動きをイメージを通して容易に把握することができる。
また、前記画像表示処理手段は、前記推定手段で算出された3次元位置情報を用いて、各関節部位を繋ぐ3次元キャラクタを作成し、前記画像表示部に出力することが好ましい。この構成によれば、簡易な方法で立体視表示が可能となる。
1 3次元再構成装置
10 制御部
101 画像取込部
102 2次元位置情報取得部
103 推定部
104 出力部
105 表示画像作成部
12 表示部
20 記憶部
21 プログラム記憶部
22 動きデータベース記憶部
30…カメラ
10 制御部
101 画像取込部
102 2次元位置情報取得部
103 推定部
104 出力部
105 表示画像作成部
12 表示部
20 記憶部
21 プログラム記憶部
22 動きデータベース記憶部
30…カメラ
Claims (9)
- 動作中における人体の複数の特定部位の時系列の3次元位置情報を記憶するデータベースと、
動作中に単眼カメラで撮像された2次元の人体画像から前記特定部位に対応する部位に関する1又は時系列の2次元位置情報を取得する位置情報取得手段と、
前記データベースの前記3次元位置情報を参照して、前記位置情報取得手段によって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定手段とを備えた3次元再構成装置。 - 前記データベースは、前記3次元位置情報を動作パターン毎に記憶することを特徴とする請求項1に記載の3次元再構成装置。
- 前記特定部位は、人体の関節部位であることを特徴とする請求項1又は2に記載の3次元再構成装置。
- 前記推定手段は、
候補となる3次元位置情報と前記データベースに記憶された各動作パターンの3次元位置情報との類似度、及び前記候補となる3次元位置情報であって前記単眼カメラの2次元撮像面と投影関係となる2次元位置との整合度を表す目的関数に、前記候補となる3次元位置情報を適用する第1の演算と、
勾配法を適用して前記3次元位置情報を順次変更することによって前記目的関数が最小となるときの3次元位置情報を得る第2の演算とを実行することを特徴とする請求項1に記載の3次元再構成装置。 - 前記推定手段で算出された3次元位置情報を記憶する記憶部を備える請求項1~4のいずれかに記載の3次元再構成装置。
- 前記推定手段で算出された3次元位置情報を可視化して画像表示部に出力する画像表示処理手段を備える請求項1~5のいずれかに記載の3次元再構成装置。
- 前記画像表示処理手段は、前記推定手段で算出された3次元位置情報を用いて、各関節部位を繋ぐ3次元キャラクタを作成し、前記画像表示部に出力する請求項6に記載の3次元再構成装置。
- 動作中における人体の複数の特定部位の時系列の3次元位置情報をデータベースとして記憶する記憶ステップと、
動作中に単眼カメラで撮像された2次元の人体画像から前記特定部位に対応する部位に関する1又は時系列の2次元位置情報を取得する位置情報取得ステップと、
前記データベースの前記3次元位置情報を参照して、前記位置情報取得ステップによって取得された人体の前記特定部位に対応する部位に関する2次元位置情報から、対応する3次元位置情報を推定する推定ステップとを備えた3次元再構成方法。 - コンピュータを、請求項1~7のいずれかに記載の3次元再構成装置として機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-157640 | 2019-08-30 | ||
JP2019157640 | 2019-08-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021039642A1 true WO2021039642A1 (ja) | 2021-03-04 |
Family
ID=74683564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/031666 WO2021039642A1 (ja) | 2019-08-30 | 2020-08-21 | 3次元再構成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2021039642A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023276735A1 (ja) * | 2021-06-30 | 2023-01-05 | パナソニックIpマネジメント株式会社 | 気流制御システム、及び、気流制御方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011258158A (ja) * | 2010-06-11 | 2011-12-22 | Namco Bandai Games Inc | プログラム、情報記憶媒体及び画像生成システム |
JP2012083955A (ja) * | 2010-10-12 | 2012-04-26 | Nippon Telegr & Teleph Corp <Ntt> | 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム |
-
2020
- 2020-08-21 WO PCT/JP2020/031666 patent/WO2021039642A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011258158A (ja) * | 2010-06-11 | 2011-12-22 | Namco Bandai Games Inc | プログラム、情報記憶媒体及び画像生成システム |
JP2012083955A (ja) * | 2010-10-12 | 2012-04-26 | Nippon Telegr & Teleph Corp <Ntt> | 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
ONISHI KATSUNORI ET AL.: "3D Human pose estimation from monocular image by model fitting in eigen space", THE MEETING ON IMAGE RECOGNITION AND UNDERSTANDING (MIRU2010), 2010 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023276735A1 (ja) * | 2021-06-30 | 2023-01-05 | パナソニックIpマネジメント株式会社 | 気流制御システム、及び、気流制御方法 |
EP4365501A4 (en) * | 2021-06-30 | 2024-10-23 | Panasonic Ip Man Co Ltd | AIRFLOW CONTROL SYSTEM AND AIRFLOW CONTROL METHOD |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020054442A1 (ja) | 関節位置の取得方法及び装置、動作の取得方法及び装置 | |
CN112861598B (zh) | 用于人体模型估计的系统和方法 | |
US20230008567A1 (en) | Real-time system for generating 4d spatio-temporal model of a real world environment | |
EP2973417B1 (en) | A method and system for three-dimensional imaging | |
Zhang et al. | Leveraging depth cameras and wearable pressure sensors for full-body kinematics and dynamics capture | |
JP6369811B2 (ja) | 歩行解析システムおよび歩行解析プログラム | |
JP6776882B2 (ja) | 運動解析装置、方法及びプログラム | |
WO2017210654A2 (en) | Methods and devices for assessing a captured motion | |
EP3966834A1 (en) | Scoring metric for physical activity performance and training | |
KR20200134502A (ko) | 이미지 인식을 통한 3차원 인체 관절 각도 예측 방법 및 시스템 | |
Kuryło et al. | Machine vision system measuring the trajectory of upper limb motion applying the matlab software | |
CN111401340A (zh) | 目标对象的运动检测方法和装置 | |
WO2021039642A1 (ja) | 3次元再構成装置、方法及びプログラム | |
JP2002063579A (ja) | 画像解析装置及びその方法 | |
WO2018207388A1 (ja) | モーションキャプチャに関するプログラム、装置および方法 | |
Jatesiktat et al. | Anatomical-Marker-Driven 3D Markerless Human Motion Capture | |
US11922576B2 (en) | System and method for mapping the skin | |
CN116503540A (zh) | 基于稀疏传感器的人体动作捕捉、定位和环境建图方法 | |
JP6375328B2 (ja) | 手指病態評価装置 | |
JP2014117409A (ja) | 身体関節位置の計測方法および装置 | |
WO2023162223A1 (ja) | 学習プログラム、生成プログラム、学習方法および生成方法 | |
WO2023163104A1 (ja) | 関節角度学習推測システム、関節角度学習システム、関節角度推測装置、関節角度学習方法、およびコンピュータプログラム | |
JP2006227932A (ja) | 二次元画像からの三次元解析方法とそれを実行するシステム | |
JP7499345B2 (ja) | 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉 | |
WO2024219429A1 (ja) | 運動評価装置、運動評価方法、及び運動評価プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20856335 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20856335 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |