JP6228239B2 - A method for registering data using a set of primitives - Google Patents
A method for registering data using a set of primitives Download PDFInfo
- Publication number
- JP6228239B2 JP6228239B2 JP2015561464A JP2015561464A JP6228239B2 JP 6228239 B2 JP6228239 B2 JP 6228239B2 JP 2015561464 A JP2015561464 A JP 2015561464A JP 2015561464 A JP2015561464 A JP 2015561464A JP 6228239 B2 JP6228239 B2 JP 6228239B2
- Authority
- JP
- Japan
- Prior art keywords
- primitives
- coordinate system
- point
- frame
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 61
- 230000003287 optical effect Effects 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000004441 surface measurement Methods 0.000 description 14
- 238000005259 measurement Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Studio Devices (AREA)
Description
本発明は、包括的にはコンピュータービジョンに関し、より詳細にはカメラの姿勢を推定することに関する。 The present invention relates generally to computer vision, and more particularly to estimating camera pose.
カメラの姿勢を追跡し、その間同時にシーンの3D構造を再構成するシステム及び方法が、拡張現実(AR:augmented reality)視覚化、ロボットナビゲーション、シーンモデリング及びコンピュータービジョンアプリケーションにおいて広く用いられている。そのようなプロセスは、一般的に、Simultaneous Localization and Mapping(SLAM)と呼ばれる。リアルタイムSLAMシステムは、2次元(2D:two−dimensional)画像を取得する従来のカメラ、3次元(3D:three−dimensional)ポイントクラウド(3D点の組)を取得する奥行きカメラ、又は2D画像及び3Dポイントクラウドの双方を取得する、Kinect(登録商標)等の赤、緑、青及び奥行き(RGB−D:red,green,blue and depth)カメラを用いることができる。追跡は、カメラの予測される動きを用いてカメラの姿勢を連続的に推定するプロセスを指し、位置再特定は、追跡失敗から回復するための、何らかの特徴ベースの大域レジストレーションを用いるプロセスを指す。 Systems and methods for tracking camera poses and simultaneously reconstructing the 3D structure of a scene are widely used in augmented reality (AR) visualization, robot navigation, scene modeling, and computer vision applications. Such a process is commonly referred to as Simulaneous Localization and Mapping (SLAM). A real-time SLAM system is a conventional camera that acquires two-dimensional (2D) images, a depth camera that acquires a three-dimensional (3D) point cloud (a set of 3D points), or 2D images and 3D. Red, green, blue and depth (RGB-D: red, green, blue and depth) cameras such as Kinect (registered trademark), which acquire both point clouds, can be used. Tracking refers to the process of continuously estimating camera poses using predicted camera motion, and relocation refers to the process of using some feature-based global registration to recover from tracking failure. .
2Dカメラを用いるSLAMシステムは、テクスチャが存在するシーンの場合、概して成功するが、テクスチャが欠けている領域の場合、失敗する可能性が高い。奥行きカメラを用いるシステムは、Iterative−Closest Point(ICP)法を利用して、曲面及び奥行き境界等のシーン内の幾何学的変動に頼る。しかしながら、ICPベースのシステムは、平坦なシーン等、幾何学的変動が小さいときに多くの場合に失敗する。RGB−Dカメラを用いるシステムは、テクスチャ及び幾何学的特徴の双方を利用することができるが、依然として別個のテクスチャを必要とする。 SLAM systems using 2D cameras are generally successful for scenes where textures are present, but are more likely to fail for areas lacking textures. A system using a depth camera relies on an iterative-closest point (ICP) method to rely on geometrical variations in the scene such as curved surfaces and depth boundaries. However, ICP-based systems often fail when geometric variations are small, such as flat scenes. A system using an RGB-D camera can take advantage of both texture and geometric features, but still requires a separate texture.
多くの方法は、単一の部屋よりも大きな3Dモデルを再構築する際の難点に明確に対処していない。これらの方法をより大きなシーンに拡張するために、より良好なメモリ管理技法が必要とされる。一方、メモリ制限のみが課題ではない。通常、部屋の規模のシーンは、テクスチャ特徴及び幾何学的特徴の双方を有する多くのオブジェクトを有する。より大きなシーンに拡張するためには、限られたテクスチャ及び不十分な幾何学的変動を有する、廊下等の領域においてカメラ姿勢を追跡する必要がある。 Many methods do not explicitly address the difficulties in reconstructing a 3D model that is larger than a single room. In order to extend these methods to larger scenes, better memory management techniques are needed. On the other hand, memory limitation is not the only problem. Typically, room-scale scenes have many objects that have both texture and geometric features. To extend to larger scenes, it is necessary to track the camera pose in areas such as corridors that have limited texture and insufficient geometric variation.
カメラ追跡
3Dセンサーを用いて3Dポイントクラウドを取得するシステムは、いくつかの3D対応を所与として、追跡問題をレジストレーション問題に帰着する。ICP方法は、カメラ動き予測によって与えられた初期姿勢推定値から開始して、点対点又は点対面の対応を反復的に突き止める。ICPは、走査マッチングとしても知られる、モバイルロボティクスにおけるライン走査3Dセンサーのために広く用いられ、完全な3Dポイントクラウドを生成する奥行きカメラ及び3Dセンサーのためにも広く用いられている。特許文献1は、Kinect(登録商標)カメラの姿勢追跡のために、ICP方法を用いた点対面の対応を用いる。マップの表現はボクセルの組である。各ボクセルは、最近傍表面点への距離のためのトランケートされた符号付き距離関数を表す。その方法は、3Dポイントクラウドから面を抽出するのではなく、ローカル近傍を用いて3D点の法線を求めることによって点対面の対応が確立される。そのようなICPベースの方法は、正確なレジストレーションの場合にシーンが十分な幾何学的変動を有することを必要とする。
Camera Tracking A system that uses a 3D sensor to acquire a 3D point cloud reduces the tracking problem to a registration problem given a number of 3D correspondences. The ICP method starts with an initial pose estimate given by camera motion prediction and iteratively locates point-to-point or point-to-face correspondences. ICP is widely used for line-scanning 3D sensors in mobile robotics, also known as scan matching, and is also widely used for depth cameras and 3D sensors that generate complete 3D point clouds. Patent Document 1 uses point-to-face correspondence using the ICP method for tracking the posture of a Kinect (registered trademark) camera. A map representation is a set of voxels. Each voxel represents a truncated signed distance function for the distance to the nearest surface point. The method does not extract a surface from a 3D point cloud, but establishes a point-to-face correspondence by obtaining a normal of a 3D point using a local neighborhood. Such ICP-based methods require that the scene have sufficient geometric variation in the case of accurate registration.
別の方法は、RGB画像から特徴を抽出し、記述子ベースの点マッチングを実行して、点対点の対応を求め、カメラ姿勢を推定する。カメラ姿勢は次に、ICP方法を用いて精緻化される。その方法は、シーン内のテクスチャ(RGB)特徴及び幾何学的(奥行き)特徴を用いる。しかし、点特徴のみを用いてテクスチャのない領域及び繰り返しのテクスチャを有する領域を扱うことは依然として問題がある。 Another method extracts features from the RGB image and performs descriptor-based point matching to determine point-to-point correspondence and estimate camera pose. The camera pose is then refined using the ICP method. The method uses texture (RGB) and geometric (depth) features in the scene. However, it is still problematic to handle regions without texture and regions with repetitive textures using only point features.
平面を用いたSLAM
いくつかのSLAMシステムにおいて面特徴が用いられている。カメラ姿勢を求めるために、法線がR3にまたがる少なくとも3つの面が必要とされる。このため、面のみを用いることによって、特に、視野(FOV:field of view)又はセンサー範囲がKinect(登録商標)におけるように小さいとき、多くの縮退問題が生じる。大きなFOVのライン走査3Dセンサー及び小さな視野(FOV)の奥行きカメラの組み合わせによって、更なるシステムコストを伴うが縮退を回避することができる。
SLAM using a plane
Surface features are used in some SLAM systems. In order to determine the camera pose, at least three surfaces whose normals span R 3 are required. For this reason, the use of only surfaces creates many degeneracy problems, especially when the field of view (FOV) or sensor range is as small as in Kinect®. The combination of a large FOV line scan 3D sensor and a small field of view (FOV) depth camera can avoid degeneracy with additional system cost.
関連出願に記載されている方法は、これらのプリミティブのうちの1つを用いる方法において一般的な失敗モードを回避するために点及び面の双方を用いる、点−面SLAM(point−plane SLAM)を用いる。そのシステムは、カメラ動き予測を一切用いない。代わりに、そのシステムは、点及び面の対応を大域的に突き止めることによって、全てのフレームについて位置再特定を行う。結果として、そのシステムは、毎秒約3フレームしか処理することができず、記述子ベースの点マッチングに起因して幾つかの繰り返しテクスチャを有するシーンで失敗する。 The method described in the related application is a point-plane SLAM that uses both points and planes to avoid common failure modes in methods that use one of these primitives. Is used. The system does not use any camera motion prediction. Instead, the system repositions every frame by globally locating point and face correspondences. As a result, the system can only process about 3 frames per second and fails on scenes with several repetitive textures due to descriptor-based point matching.
関連特許出願において記載されている方法は、点対点及び面対面の双方の対応を用いて様々な座標系における3Dデータレジストレーションも表す。 The method described in the related patent application also represents 3D data registration in various coordinate systems using both point-to-point and face-to-face correspondences.
人工構造物を含む屋内シーン及び屋外シーンでは、平面が支配的である。本発明の実施形態は、点及び面をプリミティブ特徴として用いるRGB−Dカメラを追跡するシステム及び方法を提供する。本方法は、面を当てはめることによって、3Dセンサーに一般的な奥行きデータにおけるノイズを暗黙的に処理する。追跡方法は、ハンドヘルド又はロボット搭載のRGB−Dカメラを用いてリアルタイムSimultaneous Localization and Mapping(SLAM)システムを実証する位置再特定及びバンドル調整プロセスによってサポートされる。 In an indoor scene and an outdoor scene including an artificial structure, a plane is dominant. Embodiments of the present invention provide systems and methods for tracking RGB-D cameras that use points and faces as primitive features. The method implicitly handles noise in depth data common to 3D sensors by fitting a surface. The tracking method is supported by a relocation and bundle adjustment process that demonstrates a real-time Simulaneous Localization and Mapping (SLAM) system using a handheld or robotic RGB-D camera.
本発明の目的は、レジストレーション失敗を引き起こす縮退問題を最小にしながら、高速で正確なレジストレーションを可能にすることである。本方法は、カメラ動き予測を用いて点及び面の対応を突き止め、予測及び補正のフレームワークに基づく追跡器を提供する。本方法は、点及び面の双方を用いる位置再特定及びバンドル調整プロセスを組み込むことにより、追跡失敗から回復し、カメラ姿勢推定を連続的に精緻化する。 It is an object of the present invention to enable fast and accurate registration while minimizing the degeneracy problem that causes registration failure. The method uses camera motion prediction to locate point and surface correspondences and provides a tracker based on a prediction and correction framework. The method recovers from tracking failure and incorporates a continuous refinement of camera pose estimation by incorporating a relocation and bundle adjustment process using both points and faces.
特に、本方法は、3次元のデータにおける点及び面を含むプリミティブの組を用いてデータをレジストレーションする。第1に、本方法は、第1の座標系内のデータからプリミティブの第1の組を選択する。プリミティブの第1の組は、少なくとも3つのプリミティブを含み、少なくとも1つの面を含む。 In particular, the method registers data using a set of primitives that include points and faces in three-dimensional data . First, the method selects a first set of primitives from data in the first coordinate system. The first set of primitives includes at least three primitives and includes at least one face.
第1の座標系から第2の座標系への変換が予測される。この変換は、カメラモーションモデルを用いて予測される。プリミティブの第1の組が予測された変換を用いて第2の座標系に変換される。第2の座標系に変換されたプリミティブの第1の組に従ってプリミティブの第2の組が求められる。 A transformation from the first coordinate system to the second coordinate system is predicted. This conversion is predicted using a camera motion model. The first set of primitives is transformed into the second coordinate system using the predicted transformation. A second set of primitives is determined according to the first set of primitives converted to the second coordinate system.
次に、第1の座標系におけるプリミティブの第1の組及び第2の座標系におけるプリミティブの第2の組を用いて、第2の座標系が第1の座標系にレジストレーションされる。レジストレーションすることは、Simultaneous Localization and Mapping(SLAM)に用いられる。このレジストレーションを用いて、データを取得するカメラの姿勢を追跡することができる。 The second coordinate system is then registered with the first coordinate system using the first set of primitives in the first coordinate system and the second set of primitives in the second coordinate system. Registering is used for Simulative Localization and Mapping (SLAM). This registration can be used to track the attitude of the camera that acquires the data.
本発明の実施形態は、カメラの姿勢を追跡するシステム及び方法を提供する。本方法は、より高速な対応検索及びレジストレーションのためにカメラ動き予測を用いることによって、関連の米国特許出願第13/539060号に記載されている実施形態を拡張する。本発明では、現在のフレームとマップとの間に確立される点対点及び面対面の対応を用いる。マップは、大域座標系において以前にレジストレーションされたフレームからの点及び面を含む。ここで、本発明の焦点は、カメラ動き予測を用いて面対面の対応を確立すること、並びに混合した事例では点対点及び面対面の双方の対応を確立することである。 Embodiments of the present invention provide a system and method for tracking the posture of a camera. The method extends the embodiments described in the related US patent application Ser. No. 13 / 539,060 by using camera motion prediction for faster correspondence search and registration. The present invention uses point-to-point and face-to-face correspondence established between the current frame and the map. The map includes points and faces from previously registered frames in the global coordinate system. Here, the focus of the present invention is to establish a face-to-face correspondence using camera motion prediction and to establish both point-to-point and face-to-face correspondence in the mixed case.
システム概観
好ましいシステムでは、RGB−Dカメラ102はKinect(登録商標)又はASUS(登録商標)Xtion PRO LIVEであり、一連のフレーム101を必要とする。本発明ではキーフレームベースのSLAMシステムを用い、キーフレームとして幾つかの代表的なフレームを選択し、マップ内の単一の大域座標系内にレジストレーションされたキーフレームを記憶する。点のみを用いる従来技術のSLAMと対照的に、本発明ではシステムの全てのプロセスにおいて点及び面をプリミティブとして用いる。各フレーム内の点及び面は測定値と呼ばれ、キーフレームからの測定値はランドマークとしてマップに記憶される。
System Overview In a preferred system, the RGB-
マップを所与として、予測及び補正フレームワークを用いて現在のフレームの姿勢を推定する。カメラの姿勢を予測し、姿勢を用いて点測定値及び面測定値と点ランドマーク及び面ランドマークとの間の対応を求め、次にこれらを用いてカメラ姿勢が求められる。 Given a map, estimate the current frame pose using a prediction and correction framework. The camera posture is predicted, and the correspondence between the point measurement value and the surface measurement value and the point landmark and the surface landmark is obtained using the posture, and then the camera posture is obtained using these.
追跡は、誤った又は不十分な対応に起因して失敗する場合がある。本発明では、所定の数の連続追跡失敗後に位置再特定を行う。ここでは、現在のフレームとマップとの間の点及び面の大域対応検索を用いる。点及び面を用いたバンドル調整も適用し、マップ内のランドマークを非同期に精緻化する。 Tracking may fail due to incorrect or insufficient responses. In the present invention, position re-specification is performed after a predetermined number of continuous tracking failures. Here, a global correspondence search of points and surfaces between the current frame and the map is used. Bundle adjustment using points and faces is also applied to refine the landmarks in the map asynchronously.
方法概観
図1に示すように、現在のフレーム101は、シーン103の赤、緑、青及び奥行き(RGB−D)カメラ102によって取得される(110)。フレームを取得するときのカメラの姿勢が予測され(120)、これを用いて、フレームとマップ194との間の点及び面の対応が突き止められる(130)。点及び面の対応は、RANdom SAmple Consensus(RANSAC)フレームワーク140において、フレームをマップにレジストレーションするのに用いられる。レジストレーションが失敗した場合(150)、連続した失敗の数をカウントし(154)、偽(F)である場合、次のフレームに続き、そうではなく真(T)である場合、カメラ動き予測を用いることなく大域レジストレーション方法を用いてカメラを位置再特定する(158)。
Method Overview As shown in FIG. 1, a current frame 101 is acquired 110 by a red, green, blue and depth (RGB-D)
RANSACレジストレーションが成功すると、RANSACフレームワークにおいて推定された姿勢160がフレームの姿勢として用いられる。次に、現在のフレームがキーフレームであるか否かを判断し(170)、偽である場合、ステップ110において次のフレームに進む。そうでない場合、現在のフレーム内で追加の点及び面を抽出し(180)、マップ194を更新し(190)、次のフレームに進む。マップはバンドル調整を用いて非同期で精緻化される(198)。
If the RANSAC registration is successful, the
ステップは、当該技術分野において既知のメモリ及び入/出力インターフェースに接続されたプロセッサにおいて実行することができる。 The steps can be performed in a processor connected to memory and input / output interfaces known in the art.
カメラ姿勢追跡
上記で述べたように、本発明による追跡は、点及び面の双方を含む特徴を用いる。追跡は、予測及び補正方式に基づき、これは以下のように要約することができる。フレームごとに、カメラモーションモデルを用いて姿勢を予測する。予測姿勢に基づいて、マップ内の点ランドマーク及び面ランドマークに対応するフレーム内の点測定値及び面測定値を突き止める。点及び面の対応を用いてRANSACベースのレジストレーションを行う。姿勢がマップ内に現在記憶されているいずれのキーフレームの姿勢とも異なる場合、追加の点測定値及び面測定値を抽出し、新たなキーフレームとしてフレームをマップに追加する。
Camera Pose Tracking As described above, tracking according to the present invention uses features that include both points and surfaces. The tracking is based on a prediction and correction scheme, which can be summarized as follows: For each frame, the camera motion model is used to predict the posture. Based on the predicted posture, the point measurement value and the surface measurement value in the frame corresponding to the point landmark and the surface landmark in the map are determined. RANSAC-based registration is performed using point and surface correspondence. If the posture is different from the posture of any key frame currently stored in the map, additional point measurement values and surface measurement values are extracted and the frame is added to the map as a new key frame.
カメラ動き予測
k番目のフレームの姿勢を以下のように表す。
一定速度推定を用いることによって、k番目のフレームの姿勢
点及び面の対応の突き止め
図2に示すように、予測姿勢
点対応:pi=(xi,yi,zi,l)Tが、等質ベクトルとして表されるマップ内のi番目の点ランドマーク210を表すものとする。現在のフレームにおけるpiの2D画像投影220が以下のように予測される。
面対応:従来技術のように、各フレームにおいて、他のフレームと独立して時間がかかる面抽出手順を行う代わりに、本発明では、予測姿勢を利用して面を抽出する。これによって、面測定抽出がより高速となり、面対応ももたらされる。 Surface correspondence: Instead of performing a time-consuming surface extraction procedure in each frame independently of other frames as in the prior art, in the present invention, a surface is extracted using a predicted posture. This makes surface measurement extraction faster and also provides surface correspondence.
πj=(aj,bj,cj,dj)Tがマップ内のj番目の面ランドマーク240の面方程式を表すものとする。面ランドマーク及び対応する測定値は、画像内に幾つかの重複領域を有すると仮定する。そのような対応する面測定値を突き止めるために、j番目の面ランドマークのインライアから幾つかの基準点250、qj,r(r=1,...,N)をランダムに選択し、基準点をk番目のフレームに255として変換する。
また、πjをk番目のフレームに245として変換する。
面
ランドマーク選択
マップ内の全てのランドマークを用いて上記のプロセスを実行することは非効率的である可能性がある。したがって、現在のフレームに最も近い単一のキーフレーム内に現れるランドマークを用いる。最も近いキーフレームは、追跡プロセスの前に、前のフレームTk−1の姿勢を用いることによって選択される。
Landmark Selection Performing the above process with all landmarks in the map can be inefficient. Therefore, the landmark that appears in a single key frame closest to the current frame is used. The closest key frame is selected by using the pose of the previous frame T k−1 before the tracking process.
RANSACレジストレーション
予測ベースの対応探索は、点対点及び面対面の対応の候補を提供する。これらの候補は外れ値を含む場合がある。このため、RANSACベースのレジストレーションを行ってインライアを求め、カメラ姿勢を求める。姿勢を明確に求めるために、少なくとも3つの対応を必要とする。このため、対応の候補が3つ未満である場合、即座に追跡失敗であると判断する。また、正確なカメラ追跡のために、僅かな数の対応候補しかないとき、追跡失敗であると判断する。
RANSAC Registration Prediction-based correspondence search provides point-to-point and face-to-face candidate correspondences. These candidates may include outliers. Therefore, RANSAC-based registration is performed to obtain an inlier and a camera posture is obtained. In order to determine the posture clearly, at least three actions are required. For this reason, if there are fewer than three corresponding candidates, it is immediately determined that tracking has failed. Further, for accurate camera tracking, when there are only a few corresponding candidates, it is determined that tracking has failed.
十分な数の候補が存在する場合、閉形式で混合した対応を用いてレジストレーション問題を解く。手順は、点対応よりも面対応を優先する。なぜなら、面の数は通常、点の数よりもはるかに小さく、面は、多くの点からのサポートに起因してノイズがより少ないためである。RANSACが十分な数のインライア、例えば全ての点測定値及び面測定値の数のうちの40%を突き止める場合、追跡は成功とみなされる。本方法により、k番目のフレームの補正された姿勢Tkが得られる。 If there are a sufficient number of candidates, solve the registration problem using a closed-form mixed correspondence. The procedure gives priority to face correspondence over point correspondence. This is because the number of faces is usually much smaller than the number of points and the faces are less noisy due to support from many points. Tracking is considered successful if RANSAC locates a sufficient number of inliers, eg, 40% of the number of all point and surface measurements. With this method, the corrected posture T k of the k th frame is obtained.
マップ更新
推定姿勢Tkがマップ内の任意の既存のキーフレームの姿勢と十分異なる場合、k番目のフレームをキーフレームであると判断する。この条件をチェックするために、例えば、並進における100mmの閾値及び回転における5度の閾値を用いることができる。新たなキーフレームのために、RANSACベースのレジストレーションにおけるインライアとして突き止められた点及び面の測定値は、対応するランドマークに関連付けられる一方、外れ値として突き止められた点及び面の測定値は廃棄される。次に、このフレーム内に新たに現れる追加の点及び面の測定値を抽出する。追加の点測定値は、いかなる既存の点測定値にも近くないピクセルに対し、Scale−Invariant Feature Transform(SIFT)及びSpeeded Up Robust Features(SURF)等のキーポイント検出器を用いて抽出される。追加の面測定値は、任意の既存の面測定値のインライアでないピクセルに対しRANSACベースの面当てはめを用いることによって抽出される。追加の点測定値及び面測定値は、新たなランドマークとしてマップに加えられる。さらに、フレーム内の全ての点測定値について、SIFT及びSURF等の特徴記述子を抽出し、これらが位置再特定に用いられる。
Map Update If the estimated posture T k is sufficiently different from the posture of any existing key frame in the map, it is determined that the k th frame is a key frame. In order to check this condition, for example, a threshold of 100 mm for translation and a threshold of 5 degrees for rotation can be used. Due to the new keyframe, the point and surface measurements located as inliers in the RANSAC-based registration are associated with the corresponding landmarks, while the point and face measurements located as outliers are discarded. Is done. Next, additional point and surface measurements that newly appear in this frame are extracted. Additional point measurements are extracted for pixels that are not close to any existing point measurements using keypoint detectors such as Scale-Invariant Feature Transform (SIFT) and Speeded Up Robust Features (SURF). Additional surface measurements are extracted by using RANSAC-based surface fitting for non-inlier pixels of any existing surface measurement. Additional point and surface measurements are added to the map as new landmarks. Furthermore, feature descriptors such as SIFT and SURF are extracted for all point measurements in the frame, and these are used for position re-specification.
Claims (14)
第1の座標系における前記データからプリミティブの第1の組を選択するステップであって、前記プリミティブの第1の組は、少なくとも3つのプリミティブを含み、少なくとも1つの面を含む、ステップと、
前記第1の座標系から第2の座標系への変換を予測するステップであって、前記変換は、カメラモーションモデルを用いて予測される、ステップと、
前記予測された変換を用いて、前記プリミティブの第1の組を前記第2の座標系に変換するステップと、
前記第2の座標系に変換された前記プリミティブの第1の組に従ってプリミティブの第2の組を求めるステップと、
互いに対応する前記第1の座標系における前記プリミティブの第1の組と前記第2の座標系における前記プリミティブの第2の組とを用いて、前記第2の座標系を前記第1の座標系にレジストレーションするステップと、を含み、
前記レジストレーションすることは、Simultaneous Localization and Mapping(SLAM)に用いられ、前記ステップはプロセッサにおいて実行され、
前記プリミティブの第2の組を求めるステップは、
前記第2の座標系に変換された前記第1の座標系における前記プリミティブの姿勢を、第2の座標系における前記プリミティブの予測姿勢として利用する、プリミティブの組を用いてデータをレジストレーションする方法。 A method of registering data using a set of primitives, wherein the data has three dimensions (3D), the primitives include points and faces in the data in three dimensions, the method comprising:
Selecting a first set of primitives from the data in a first coordinate system, the first set of primitives including at least three primitives and including at least one surface;
Predicting a transformation from the first coordinate system to a second coordinate system, wherein the transformation is predicted using a camera motion model;
Transforming the first set of primitives into the second coordinate system using the predicted transform;
Determining a second set of primitives according to the first set of primitives converted to the second coordinate system;
Using the first set of primitives in the first coordinate system and the second set of primitives in the second coordinate system corresponding to each other, the second coordinate system is converted to the first coordinate system. And registering with
The registering is used for Simulaneous Localization and Mapping (SLAM), and the steps are performed in a processor ;
Determining the second set of primitives comprises:
A method of registering data using a set of primitives, wherein the posture of the primitive in the first coordinate system converted to the second coordinate system is used as the predicted posture of the primitive in the second coordinate system. .
前記キーフレームをマップに記憶することであって、前記キーフレームは前記点及び前記面を含み、前記点及び前記面は前記マップ内にランドマークとして記憶されることと、
を更に含む、請求項6に記載の方法。 Selecting a set of frames as key frames from the frame sequence;
Storing the key frame in a map, wherein the key frame includes the point and the surface, and the point and the surface are stored as landmarks in the map;
The method of claim 6 , further comprising:
前記レジストレーションすることに従って、フレームごとに前記カメラの前記姿勢を求めて前記カメラを追跡することと、
を更に含む、請求項7に記載の方法。 Predicting the camera posture for each frame;
Tracking the camera for the posture of the camera for each frame according to the registration;
The method of claim 7 , further comprising:
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/921,296 | 2013-06-19 | ||
US13/921,296 US9420265B2 (en) | 2012-06-29 | 2013-06-19 | Tracking poses of 3D camera using points and planes |
PCT/JP2014/065026 WO2014203743A1 (en) | 2013-06-19 | 2014-05-30 | Method for registering data using set of primitives |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016527574A JP2016527574A (en) | 2016-09-08 |
JP6228239B2 true JP6228239B2 (en) | 2017-11-08 |
Family
ID=50979838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015561464A Active JP6228239B2 (en) | 2013-06-19 | 2014-05-30 | A method for registering data using a set of primitives |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP6228239B2 (en) |
CN (1) | CN105339981B (en) |
DE (1) | DE112014002943T5 (en) |
WO (1) | WO2014203743A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6775969B2 (en) * | 2016-02-29 | 2020-10-28 | キヤノン株式会社 | Information processing equipment, information processing methods, and programs |
CA3032812A1 (en) | 2016-08-04 | 2018-02-08 | Reification Inc. | Methods for simultaneous localization and mapping (slam) and related apparatus and systems |
CN106780601B (en) * | 2016-12-01 | 2020-03-27 | 北京未动科技有限公司 | Spatial position tracking method and device and intelligent equipment |
EP3333538B1 (en) * | 2016-12-07 | 2020-09-09 | Hexagon Technology Center GmbH | Scanner vis |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4985516B2 (en) * | 2008-03-27 | 2012-07-25 | ソニー株式会社 | Information processing apparatus, information processing method, and computer program |
JP5310285B2 (en) * | 2009-06-12 | 2013-10-09 | 日産自動車株式会社 | Self-position estimation apparatus and self-position estimation method |
JP5580164B2 (en) * | 2010-10-18 | 2014-08-27 | 株式会社トプコン | Optical information processing apparatus, optical information processing method, optical information processing system, and optical information processing program |
US8711206B2 (en) * | 2011-01-31 | 2014-04-29 | Microsoft Corporation | Mobile camera localization using depth maps |
CN103123727B (en) * | 2011-11-21 | 2015-12-09 | 联想(北京)有限公司 | Instant location and map constructing method and equipment |
-
2014
- 2014-05-30 WO PCT/JP2014/065026 patent/WO2014203743A1/en active Application Filing
- 2014-05-30 DE DE112014002943.2T patent/DE112014002943T5/en active Pending
- 2014-05-30 CN CN201480034631.3A patent/CN105339981B/en active Active
- 2014-05-30 JP JP2015561464A patent/JP6228239B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN105339981B (en) | 2019-04-12 |
WO2014203743A1 (en) | 2014-12-24 |
CN105339981A (en) | 2016-02-17 |
DE112014002943T5 (en) | 2016-03-10 |
JP2016527574A (en) | 2016-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9420265B2 (en) | Tracking poses of 3D camera using points and planes | |
JP7173772B2 (en) | Video processing method and apparatus using depth value estimation | |
CN110568447B (en) | Visual positioning method, device and computer readable medium | |
JP6430064B2 (en) | Method and system for aligning data | |
US20030012410A1 (en) | Tracking and pose estimation for augmented reality using real features | |
KR20180087947A (en) | Modeling method and modeling apparatus using 3d point cloud | |
KR100855657B1 (en) | System for estimating self-position of the mobile robot using monocular zoom-camara and method therefor | |
Vidas et al. | Real-time mobile 3D temperature mapping | |
Ataer-Cansizoglu et al. | Tracking an RGB-D camera using points and planes | |
GB2580691A (en) | Depth estimation | |
WO2013112749A1 (en) | 3d body modeling, from a single or multiple 3d cameras, in the presence of motion | |
CN104715479A (en) | Scene reproduction detection method based on augmented virtuality | |
US11082633B2 (en) | Method of estimating the speed of displacement of a camera | |
JP2011008687A (en) | Image processor | |
JP5439277B2 (en) | Position / orientation measuring apparatus and position / orientation measuring program | |
CN111062966B (en) | Method for optimizing camera tracking based on L-M algorithm and polynomial interpolation | |
JP6228239B2 (en) | A method for registering data using a set of primitives | |
TWI599987B (en) | System and method for combining point clouds | |
JP6817742B2 (en) | Information processing device and its control method | |
JP3668769B2 (en) | Method for calculating position / orientation of target object and method for calculating position / orientation of observation camera | |
JP6922348B2 (en) | Information processing equipment, methods, and programs | |
CN110310325B (en) | Virtual measurement method, electronic device and computer readable storage medium | |
JP2006113832A (en) | Stereoscopic image processor and program | |
Pollok et al. | A visual SLAM-based approach for calibration of distributed camera networks | |
KR101896183B1 (en) | 3-d straight lines detection method for camera motion estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170823 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20170831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6228239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |