[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6228239B2 - A method for registering data using a set of primitives - Google Patents

A method for registering data using a set of primitives Download PDF

Info

Publication number
JP6228239B2
JP6228239B2 JP2015561464A JP2015561464A JP6228239B2 JP 6228239 B2 JP6228239 B2 JP 6228239B2 JP 2015561464 A JP2015561464 A JP 2015561464A JP 2015561464 A JP2015561464 A JP 2015561464A JP 6228239 B2 JP6228239 B2 JP 6228239B2
Authority
JP
Japan
Prior art keywords
primitives
coordinate system
point
frame
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015561464A
Other languages
Japanese (ja)
Other versions
JP2016527574A (en
Inventor
田口 裕一
裕一 田口
アテア−カンシゾグル、エスラ
ラマリンガム、スリクマール
ガラース、タイラー・ダブリュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/921,296 external-priority patent/US9420265B2/en
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2016527574A publication Critical patent/JP2016527574A/en
Application granted granted Critical
Publication of JP6228239B2 publication Critical patent/JP6228239B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)

Description

本発明は、包括的にはコンピュータービジョンに関し、より詳細にはカメラの姿勢を推定することに関する。   The present invention relates generally to computer vision, and more particularly to estimating camera pose.

カメラの姿勢を追跡し、その間同時にシーンの3D構造を再構成するシステム及び方法が、拡張現実(AR:augmented reality)視覚化、ロボットナビゲーション、シーンモデリング及びコンピュータービジョンアプリケーションにおいて広く用いられている。そのようなプロセスは、一般的に、Simultaneous Localization and Mapping(SLAM)と呼ばれる。リアルタイムSLAMシステムは、2次元(2D:two−dimensional)画像を取得する従来のカメラ、3次元(3D:three−dimensional)ポイントクラウド(3D点の組)を取得する奥行きカメラ、又は2D画像及び3Dポイントクラウドの双方を取得する、Kinect(登録商標)等の赤、緑、青及び奥行き(RGB−D:red,green,blue and depth)カメラを用いることができる。追跡は、カメラの予測される動きを用いてカメラの姿勢を連続的に推定するプロセスを指し、位置再特定は、追跡失敗から回復するための、何らかの特徴ベースの大域レジストレーションを用いるプロセスを指す。   Systems and methods for tracking camera poses and simultaneously reconstructing the 3D structure of a scene are widely used in augmented reality (AR) visualization, robot navigation, scene modeling, and computer vision applications. Such a process is commonly referred to as Simulaneous Localization and Mapping (SLAM). A real-time SLAM system is a conventional camera that acquires two-dimensional (2D) images, a depth camera that acquires a three-dimensional (3D) point cloud (a set of 3D points), or 2D images and 3D. Red, green, blue and depth (RGB-D: red, green, blue and depth) cameras such as Kinect (registered trademark), which acquire both point clouds, can be used. Tracking refers to the process of continuously estimating camera poses using predicted camera motion, and relocation refers to the process of using some feature-based global registration to recover from tracking failure. .

2Dカメラを用いるSLAMシステムは、テクスチャが存在するシーンの場合、概して成功するが、テクスチャが欠けている領域の場合、失敗する可能性が高い。奥行きカメラを用いるシステムは、Iterative−Closest Point(ICP)法を利用して、曲面及び奥行き境界等のシーン内の幾何学的変動に頼る。しかしながら、ICPベースのシステムは、平坦なシーン等、幾何学的変動が小さいときに多くの場合に失敗する。RGB−Dカメラを用いるシステムは、テクスチャ及び幾何学的特徴の双方を利用することができるが、依然として別個のテクスチャを必要とする。   SLAM systems using 2D cameras are generally successful for scenes where textures are present, but are more likely to fail for areas lacking textures. A system using a depth camera relies on an iterative-closest point (ICP) method to rely on geometrical variations in the scene such as curved surfaces and depth boundaries. However, ICP-based systems often fail when geometric variations are small, such as flat scenes. A system using an RGB-D camera can take advantage of both texture and geometric features, but still requires a separate texture.

多くの方法は、単一の部屋よりも大きな3Dモデルを再構築する際の難点に明確に対処していない。これらの方法をより大きなシーンに拡張するために、より良好なメモリ管理技法が必要とされる。一方、メモリ制限のみが課題ではない。通常、部屋の規模のシーンは、テクスチャ特徴及び幾何学的特徴の双方を有する多くのオブジェクトを有する。より大きなシーンに拡張するためには、限られたテクスチャ及び不十分な幾何学的変動を有する、廊下等の領域においてカメラ姿勢を追跡する必要がある。   Many methods do not explicitly address the difficulties in reconstructing a 3D model that is larger than a single room. In order to extend these methods to larger scenes, better memory management techniques are needed. On the other hand, memory limitation is not the only problem. Typically, room-scale scenes have many objects that have both texture and geometric features. To extend to larger scenes, it is necessary to track the camera pose in areas such as corridors that have limited texture and insufficient geometric variation.

カメラ追跡
3Dセンサーを用いて3Dポイントクラウドを取得するシステムは、いくつかの3D対応を所与として、追跡問題をレジストレーション問題に帰着する。ICP方法は、カメラ動き予測によって与えられた初期姿勢推定値から開始して、点対点又は点対面の対応を反復的に突き止める。ICPは、走査マッチングとしても知られる、モバイルロボティクスにおけるライン走査3Dセンサーのために広く用いられ、完全な3Dポイントクラウドを生成する奥行きカメラ及び3Dセンサーのためにも広く用いられている。特許文献1は、Kinect(登録商標)カメラの姿勢追跡のために、ICP方法を用いた点対面の対応を用いる。マップの表現はボクセルの組である。各ボクセルは、最近傍表面点への距離のためのトランケートされた符号付き距離関数を表す。その方法は、3Dポイントクラウドから面を抽出するのではなく、ローカル近傍を用いて3D点の法線を求めることによって点対面の対応が確立される。そのようなICPベースの方法は、正確なレジストレーションの場合にシーンが十分な幾何学的変動を有することを必要とする。
Camera Tracking A system that uses a 3D sensor to acquire a 3D point cloud reduces the tracking problem to a registration problem given a number of 3D correspondences. The ICP method starts with an initial pose estimate given by camera motion prediction and iteratively locates point-to-point or point-to-face correspondences. ICP is widely used for line-scanning 3D sensors in mobile robotics, also known as scan matching, and is also widely used for depth cameras and 3D sensors that generate complete 3D point clouds. Patent Document 1 uses point-to-face correspondence using the ICP method for tracking the posture of a Kinect (registered trademark) camera. A map representation is a set of voxels. Each voxel represents a truncated signed distance function for the distance to the nearest surface point. The method does not extract a surface from a 3D point cloud, but establishes a point-to-face correspondence by obtaining a normal of a 3D point using a local neighborhood. Such ICP-based methods require that the scene have sufficient geometric variation in the case of accurate registration.

別の方法は、RGB画像から特徴を抽出し、記述子ベースの点マッチングを実行して、点対点の対応を求め、カメラ姿勢を推定する。カメラ姿勢は次に、ICP方法を用いて精緻化される。その方法は、シーン内のテクスチャ(RGB)特徴及び幾何学的(奥行き)特徴を用いる。しかし、点特徴のみを用いてテクスチャのない領域及び繰り返しのテクスチャを有する領域を扱うことは依然として問題がある。   Another method extracts features from the RGB image and performs descriptor-based point matching to determine point-to-point correspondence and estimate camera pose. The camera pose is then refined using the ICP method. The method uses texture (RGB) and geometric (depth) features in the scene. However, it is still problematic to handle regions without texture and regions with repetitive textures using only point features.

平面を用いたSLAM
いくつかのSLAMシステムにおいて面特徴が用いられている。カメラ姿勢を求めるために、法線がRにまたがる少なくとも3つの面が必要とされる。このため、面のみを用いることによって、特に、視野(FOV:field of view)又はセンサー範囲がKinect(登録商標)におけるように小さいとき、多くの縮退問題が生じる。大きなFOVのライン走査3Dセンサー及び小さな視野(FOV)の奥行きカメラの組み合わせによって、更なるシステムコストを伴うが縮退を回避することができる。
SLAM using a plane
Surface features are used in some SLAM systems. In order to determine the camera pose, at least three surfaces whose normals span R 3 are required. For this reason, the use of only surfaces creates many degeneracy problems, especially when the field of view (FOV) or sensor range is as small as in Kinect®. The combination of a large FOV line scan 3D sensor and a small field of view (FOV) depth camera can avoid degeneracy with additional system cost.

米国特許出願公開第2012/0194516号明細書US Patent Application Publication No. 2012/0194516

関連出願に記載されている方法は、これらのプリミティブのうちの1つを用いる方法において一般的な失敗モードを回避するために点及び面の双方を用いる、点−面SLAM(point−plane SLAM)を用いる。そのシステムは、カメラ動き予測を一切用いない。代わりに、そのシステムは、点及び面の対応を大域的に突き止めることによって、全てのフレームについて位置再特定を行う。結果として、そのシステムは、毎秒約3フレームしか処理することができず、記述子ベースの点マッチングに起因して幾つかの繰り返しテクスチャを有するシーンで失敗する。   The method described in the related application is a point-plane SLAM that uses both points and planes to avoid common failure modes in methods that use one of these primitives. Is used. The system does not use any camera motion prediction. Instead, the system repositions every frame by globally locating point and face correspondences. As a result, the system can only process about 3 frames per second and fails on scenes with several repetitive textures due to descriptor-based point matching.

関連特許出願において記載されている方法は、点対点及び面対面の双方の対応を用いて様々な座標系における3Dデータレジストレーションも表す。   The method described in the related patent application also represents 3D data registration in various coordinate systems using both point-to-point and face-to-face correspondences.

人工構造物を含む屋内シーン及び屋外シーンでは、平面が支配的である。本発明の実施形態は、点及び面をプリミティブ特徴として用いるRGB−Dカメラを追跡するシステム及び方法を提供する。本方法は、面を当てはめることによって、3Dセンサーに一般的な奥行きデータにおけるノイズを暗黙的に処理する。追跡方法は、ハンドヘルド又はロボット搭載のRGB−Dカメラを用いてリアルタイムSimultaneous Localization and Mapping(SLAM)システムを実証する位置再特定及びバンドル調整プロセスによってサポートされる。   In an indoor scene and an outdoor scene including an artificial structure, a plane is dominant. Embodiments of the present invention provide systems and methods for tracking RGB-D cameras that use points and faces as primitive features. The method implicitly handles noise in depth data common to 3D sensors by fitting a surface. The tracking method is supported by a relocation and bundle adjustment process that demonstrates a real-time Simulaneous Localization and Mapping (SLAM) system using a handheld or robotic RGB-D camera.

本発明の目的は、レジストレーション失敗を引き起こす縮退問題を最小にしながら、高速で正確なレジストレーションを可能にすることである。本方法は、カメラ動き予測を用いて点及び面の対応を突き止め、予測及び補正のフレームワークに基づく追跡器を提供する。本方法は、点及び面の双方を用いる位置再特定及びバンドル調整プロセスを組み込むことにより、追跡失敗から回復し、カメラ姿勢推定を連続的に精緻化する。   It is an object of the present invention to enable fast and accurate registration while minimizing the degeneracy problem that causes registration failure. The method uses camera motion prediction to locate point and surface correspondences and provides a tracker based on a prediction and correction framework. The method recovers from tracking failure and incorporates a continuous refinement of camera pose estimation by incorporating a relocation and bundle adjustment process using both points and faces.

特に、本方法は、3次元のデータにおける点及び面を含むプリミティブの組を用いてデータをレジストレーションする。第1に、本方法は、第1の座標系内のデータからプリミティブの第1の組を選択する。プリミティブの第1の組は、少なくとも3つのプリミティブを含み、少なくとも1つの面を含む。 In particular, the method registers data using a set of primitives that include points and faces in three-dimensional data . First, the method selects a first set of primitives from data in the first coordinate system. The first set of primitives includes at least three primitives and includes at least one face.

第1の座標系から第2の座標系への変換が予測される。この変換は、カメラモーションモデルを用いて予測される。プリミティブの第1の組が予測された変換を用いて第2の座標系に変換される。第2の座標系に変換されたプリミティブの第1の組に従ってプリミティブの第2の組が求められる。 A transformation from the first coordinate system to the second coordinate system is predicted. This conversion is predicted using a camera motion model. The first set of primitives is transformed into the second coordinate system using the predicted transformation. A second set of primitives is determined according to the first set of primitives converted to the second coordinate system.

次に、第1の座標系におけるプリミティブの第1の組及び第2の座標系におけるプリミティブの第2の組を用いて、第2の座標系が第1の座標系にレジストレーションされる。レジストレーションすることは、Simultaneous Localization and Mapping(SLAM)に用いられる。このレジストレーションを用いて、データを取得するカメラの姿勢を追跡することができる。 The second coordinate system is then registered with the first coordinate system using the first set of primitives in the first coordinate system and the second set of primitives in the second coordinate system. Registering is used for Simulative Localization and Mapping (SLAM). This registration can be used to track the attitude of the camera that acquires the data.

本発明の実施形態による、カメラの姿勢を追跡する方法の流れ図である。3 is a flow diagram of a method for tracking the posture of a camera according to an embodiment of the present invention. 本発明の実施形態による、カメラの予測姿勢を用いて現在のフレームとマップとの間の点対点及び面対面の対応を確立する手順の概略図である。FIG. 6 is a schematic diagram of a procedure for establishing point-to-point and face-to-face correspondence between a current frame and a map using a camera's predicted pose according to an embodiment of the present invention.

本発明の実施形態は、カメラの姿勢を追跡するシステム及び方法を提供する。本方法は、より高速な対応検索及びレジストレーションのためにカメラ動き予測を用いることによって、関連の米国特許出願第13/539060号に記載されている実施形態を拡張する。本発明では、現在のフレームとマップとの間に確立される点対点及び面対面の対応を用いる。マップは、大域座標系において以前にレジストレーションされたフレームからの点及び面を含む。ここで、本発明の焦点は、カメラ動き予測を用いて面対面の対応を確立すること、並びに混合した事例では点対点及び面対面の双方の対応を確立することである。   Embodiments of the present invention provide a system and method for tracking the posture of a camera. The method extends the embodiments described in the related US patent application Ser. No. 13 / 539,060 by using camera motion prediction for faster correspondence search and registration. The present invention uses point-to-point and face-to-face correspondence established between the current frame and the map. The map includes points and faces from previously registered frames in the global coordinate system. Here, the focus of the present invention is to establish a face-to-face correspondence using camera motion prediction and to establish both point-to-point and face-to-face correspondence in the mixed case.

システム概観
好ましいシステムでは、RGB−Dカメラ102はKinect(登録商標)又はASUS(登録商標)Xtion PRO LIVEであり、一連のフレーム101を必要とする。本発明ではキーフレームベースのSLAMシステムを用い、キーフレームとして幾つかの代表的なフレームを選択し、マップ内の単一の大域座標系内にレジストレーションされたキーフレームを記憶する。点のみを用いる従来技術のSLAMと対照的に、本発明ではシステムの全てのプロセスにおいて点及び面をプリミティブとして用いる。各フレーム内の点及び面は測定値と呼ばれ、キーフレームからの測定値はランドマークとしてマップに記憶される。
System Overview In a preferred system, the RGB-D camera 102 is a Kinect® or ASUS® Xtion PRO LIVE and requires a series of frames 101. The present invention uses a key frame based SLAM system to select several representative frames as key frames and store the registered key frames in a single global coordinate system in the map. In contrast to prior art SLAM, which uses only points, the present invention uses points and faces as primitives in all processes of the system. The points and planes in each frame are called measured values, and the measured values from the key frame are stored in the map as landmarks.

マップを所与として、予測及び補正フレームワークを用いて現在のフレームの姿勢を推定する。カメラの姿勢を予測し、姿勢を用いて点測定値及び面測定値と点ランドマーク及び面ランドマークとの間の対応を求め、次にこれらを用いてカメラ姿勢が求められる。   Given a map, estimate the current frame pose using a prediction and correction framework. The camera posture is predicted, and the correspondence between the point measurement value and the surface measurement value and the point landmark and the surface landmark is obtained using the posture, and then the camera posture is obtained using these.

追跡は、誤った又は不十分な対応に起因して失敗する場合がある。本発明では、所定の数の連続追跡失敗後に位置再特定を行う。ここでは、現在のフレームとマップとの間の点及び面の大域対応検索を用いる。点及び面を用いたバンドル調整も適用し、マップ内のランドマークを非同期に精緻化する。   Tracking may fail due to incorrect or insufficient responses. In the present invention, position re-specification is performed after a predetermined number of continuous tracking failures. Here, a global correspondence search of points and surfaces between the current frame and the map is used. Bundle adjustment using points and faces is also applied to refine the landmarks in the map asynchronously.

方法概観
図1に示すように、現在のフレーム101は、シーン103の赤、緑、青及び奥行き(RGB−D)カメラ102によって取得される(110)。フレームを取得するときのカメラの姿勢が予測され(120)、これを用いて、フレームとマップ194との間の点及び面の対応が突き止められる(130)。点及び面の対応は、RANdom SAmple Consensus(RANSAC)フレームワーク140において、フレームをマップにレジストレーションするのに用いられる。レジストレーションが失敗した場合(150)、連続した失敗の数をカウントし(154)、偽(F)である場合、次のフレームに続き、そうではなく真(T)である場合、カメラ動き予測を用いることなく大域レジストレーション方法を用いてカメラを位置再特定する(158)。
Method Overview As shown in FIG. 1, a current frame 101 is acquired 110 by a red, green, blue and depth (RGB-D) camera 102 of a scene 103. The posture of the camera when acquiring the frame is predicted (120) and used to locate the point and surface correspondence between the frame and the map 194 (130). Point and face correspondence is used in the RANdom Sample Consensus (RANSAC) framework 140 to register a frame to a map. If registration failed (150), count the number of consecutive failures (154), if false (F), continue to next frame, otherwise true (T), camera motion prediction The camera is re-positioned using the global registration method without using (158).

RANSACレジストレーションが成功すると、RANSACフレームワークにおいて推定された姿勢160がフレームの姿勢として用いられる。次に、現在のフレームがキーフレームであるか否かを判断し(170)、偽である場合、ステップ110において次のフレームに進む。そうでない場合、現在のフレーム内で追加の点及び面を抽出し(180)、マップ194を更新し(190)、次のフレームに進む。マップはバンドル調整を用いて非同期で精緻化される(198)。   If the RANSAC registration is successful, the posture 160 estimated in the RANSAC framework is used as the frame posture. Next, it is determined whether or not the current frame is a key frame (170). If false, the process proceeds to the next frame in step 110. Otherwise, extract additional points and faces in the current frame (180), update the map 194 (190), and go to the next frame. The map is refined asynchronously using bundle adjustment (198).

ステップは、当該技術分野において既知のメモリ及び入/出力インターフェースに接続されたプロセッサにおいて実行することができる。   The steps can be performed in a processor connected to memory and input / output interfaces known in the art.

カメラ姿勢追跡
上記で述べたように、本発明による追跡は、点及び面の双方を含む特徴を用いる。追跡は、予測及び補正方式に基づき、これは以下のように要約することができる。フレームごとに、カメラモーションモデルを用いて姿勢を予測する。予測姿勢に基づいて、マップ内の点ランドマーク及び面ランドマークに対応するフレーム内の点測定値及び面測定値を突き止める。点及び面の対応を用いてRANSACベースのレジストレーションを行う。姿勢がマップ内に現在記憶されているいずれのキーフレームの姿勢とも異なる場合、追加の点測定値及び面測定値を抽出し、新たなキーフレームとしてフレームをマップに追加する。
Camera Pose Tracking As described above, tracking according to the present invention uses features that include both points and surfaces. The tracking is based on a prediction and correction scheme, which can be summarized as follows: For each frame, the camera motion model is used to predict the posture. Based on the predicted posture, the point measurement value and the surface measurement value in the frame corresponding to the point landmark and the surface landmark in the map are determined. RANSAC-based registration is performed using point and surface correspondence. If the posture is different from the posture of any key frame currently stored in the map, additional point measurement values and surface measurement values are extracted and the frame is added to the map as a new key frame.

カメラ動き予測
k番目のフレームの姿勢を以下のように表す。

Figure 0006228239
ここで、R及びtはそれぞれ、回転行列及び並進ベクトルを表す。第1のフレームを用いてマップの座標系を定義する。このため、Tは恒等行列であり、Tはマップに対するk番目のフレームの姿勢を表す。 Camera Motion Prediction The posture of the kth frame is expressed as follows.
Figure 0006228239
Here, R k and t k represent a rotation matrix and a translation vector, respectively. The first frame is used to define the map coordinate system. Therefore, T 1 is an identity matrix, and T k represents the posture of the kth frame with respect to the map.

一定速度推定を用いることによって、k番目のフレームの姿勢

Figure 0006228239
を予測する。ΔTが、(k−1)番目のフレームと(k−2)番目のフレームとの間の以前に推定された動き、すなわちΔT=Tk−1k−2 −1を示すものとする。このとき、k番目のフレームの姿勢を、
Figure 0006228239
として予測する。 The posture of the kth frame by using constant velocity estimation
Figure 0006228239
Predict. Let ΔT denote the previously estimated motion between the (k−1) th frame and the (k−2) th frame, ie ΔT = T k−1 T k−2 −1 . At this time, the posture of the kth frame is
Figure 0006228239
To predict.

点及び面の対応の突き止め
図2に示すように、予測姿勢

Figure 0006228239
を用いてマップ内のランドマークに対応するk番目のフレームの点測定値及び面測定値を突き止める。現在のフレームの予測姿勢201を所与として、マップ202内の点ランドマーク及び面ランドマークと現在のフレーム203内の点測定値及び面測定値との間の対応を突き止める。まず、マップ内のランドマークを、予測姿勢を用いて現在のフレームに変換する。次に、全ての点について、現在のフレーム内の予測ピクセル位置からのオプティカルフロー手順を用いた局所探索を実行する。全ての面について、まず、予測面のパラメーターを突き止める。次に、予測面上の基準点の組を検討し、予測面上に位置する各基準点から接続されたピクセルを突き止める。最大数の接続ピクセルを有する基準点が選択され、全ての接続されたピクセルを用いて面パラメーターが精緻化される。 Ascertain the correspondence between points and surfaces
Figure 0006228239
Is used to locate the point measurement and the surface measurement of the kth frame corresponding to the landmark in the map. Given the predicted pose 201 of the current frame, locate the correspondence between the point landmarks and surface landmarks in the map 202 and the point and surface measurements in the current frame 203. First, the landmark in the map is converted to the current frame using the predicted posture. Next, a local search using an optical flow procedure from the predicted pixel position in the current frame is performed for all points. For all surfaces, first determine the parameters of the prediction surface. Next, a set of reference points on the prediction plane is examined, and pixels connected from each reference point located on the prediction plane are identified. A reference point with the maximum number of connected pixels is selected and the surface parameters are refined using all connected pixels.

点対応:p=(x,y,z,l)が、等質ベクトルとして表されるマップ内のi番目の点ランドマーク210を表すものとする。現在のフレームにおけるpの2D画像投影220が以下のように予測される。

Figure 0006228239
ここで、
Figure 0006228239
はk番目のフレームの座標系に変換された3D点であり、関数FP(・)は、内部カメラ較正パラメーターを用いて画像面上への3D点の順方向投影を求める。初期位置
Figure 0006228239
から開始して、ルーカス−カナデのオプティカルフロー法を用いることによって対応する点測定値を突き止める。
Figure 0006228239
を、求められたオプティカルフローベクトル230とする。このとき、対応する点測定値
Figure 0006228239
は、以下となる。
Figure 0006228239
ここで、関数BP(・)は、2D画像ピクセルを3D光線に後方投影し、D(・)はピクセルの奥行き値を指す。オプティカルフローベクトルが求められないか、又はピクセルロケーション
Figure 0006228239
が無効な奥行き値を有する場合、特徴は失われたものとみなされる。 Point correspondence: p i = (x i , y i , z i , l) Let T denote the i th point landmark 210 in the map represented as a homogeneous vector. 2D image projection 220 of p i in the current frame is predicted as follows.
Figure 0006228239
here,
Figure 0006228239
Is the 3D point converted to the coordinate system of the kth frame, and the function FP (•) determines the forward projection of the 3D point onto the image plane using internal camera calibration parameters. Initial position
Figure 0006228239
Starting from, locate the corresponding point measurement by using the Lucas-Kanade optical flow method.
Figure 0006228239
Is the obtained optical flow vector 230. At this time, the corresponding point measurement value
Figure 0006228239
Is as follows.
Figure 0006228239
Here, the function BP (•) projects a 2D image pixel back to a 3D ray, and D (•) refers to the depth value of the pixel. Optical flow vector not found or pixel location
Figure 0006228239
If has an invalid depth value, the feature is considered lost.

面対応:従来技術のように、各フレームにおいて、他のフレームと独立して時間がかかる面抽出手順を行う代わりに、本発明では、予測姿勢を利用して面を抽出する。これによって、面測定抽出がより高速となり、面対応ももたらされる。   Surface correspondence: Instead of performing a time-consuming surface extraction procedure in each frame independently of other frames as in the prior art, in the present invention, a surface is extracted using a predicted posture. This makes surface measurement extraction faster and also provides surface correspondence.

π=(a,b,c,dがマップ内のj番目の面ランドマーク240の面方程式を表すものとする。面ランドマーク及び対応する測定値は、画像内に幾つかの重複領域を有すると仮定する。そのような対応する面測定値を突き止めるために、j番目の面ランドマークのインライアから幾つかの基準点250、qj,r(r=1,...,N)をランダムに選択し、基準点をk番目のフレームに255として変換する。

Figure 0006228239
π j = (a j , b j , c j , d j ) Let T denote the surface equation of the jth surface landmark 240 in the map. Assume that the surface landmarks and corresponding measurements have several overlapping areas in the image. In order to locate such a corresponding surface measurement, several reference points 250, q j, r (r = 1,..., N) are randomly selected from the inlier of the jth surface landmark, The reference point is converted to 255 in the kth frame.
Figure 0006228239

また、πをk番目のフレームに245として変換する。

Figure 0006228239
Also, π j is converted as 245 into the kth frame.
Figure 0006228239


Figure 0006228239
上にある各変換された基準点
Figure 0006228239
から接続されたピクセル260を突き止め、最大のインライアを有するピクセルを選択する。インライアを用いて面方程式を精緻化し、結果として対応する面測定値
Figure 0006228239
が得られる。インライアの数が閾値未満である場合、面ランドマークは失われたものと宣言される。例えば、N=5個の基準点と、面におけるインライアを求めるのに点対面の距離について50mmの閾値と、インライアの最大数の閾値として9000とを用いる。 surface
Figure 0006228239
Each transformed reference point above
Figure 0006228239
Locate the connected pixel 260 and select the pixel with the largest inlier. Refine the surface equation using inliers and, as a result, the corresponding surface measurements
Figure 0006228239
Is obtained. If the number of inliers is less than the threshold, the face landmark is declared lost. For example, N = 5 reference points, a threshold of 50 mm for the point-to-face distance to determine the inliers in the plane, and 9000 as the threshold for the maximum number of inliers.

ランドマーク選択
マップ内の全てのランドマークを用いて上記のプロセスを実行することは非効率的である可能性がある。したがって、現在のフレームに最も近い単一のキーフレーム内に現れるランドマークを用いる。最も近いキーフレームは、追跡プロセスの前に、前のフレームTk−1の姿勢を用いることによって選択される。
Landmark Selection Performing the above process with all landmarks in the map can be inefficient. Therefore, the landmark that appears in a single key frame closest to the current frame is used. The closest key frame is selected by using the pose of the previous frame T k−1 before the tracking process.

RANSACレジストレーション
予測ベースの対応探索は、点対点及び面対面の対応の候補を提供する。これらの候補は外れ値を含む場合がある。このため、RANSACベースのレジストレーションを行ってインライアを求め、カメラ姿勢を求める。姿勢を明確に求めるために、少なくとも3つの対応を必要とする。このため、対応の候補が3つ未満である場合、即座に追跡失敗であると判断する。また、正確なカメラ追跡のために、僅かな数の対応候補しかないとき、追跡失敗であると判断する。
RANSAC Registration Prediction-based correspondence search provides point-to-point and face-to-face candidate correspondences. These candidates may include outliers. Therefore, RANSAC-based registration is performed to obtain an inlier and a camera posture is obtained. In order to determine the posture clearly, at least three actions are required. For this reason, if there are fewer than three corresponding candidates, it is immediately determined that tracking has failed. Further, for accurate camera tracking, when there are only a few corresponding candidates, it is determined that tracking has failed.

十分な数の候補が存在する場合、閉形式で混合した対応を用いてレジストレーション問題を解く。手順は、点対応よりも面対応を優先する。なぜなら、面の数は通常、点の数よりもはるかに小さく、面は、多くの点からのサポートに起因してノイズがより少ないためである。RANSACが十分な数のインライア、例えば全ての点測定値及び面測定値の数のうちの40%を突き止める場合、追跡は成功とみなされる。本方法により、k番目のフレームの補正された姿勢Tが得られる。 If there are a sufficient number of candidates, solve the registration problem using a closed-form mixed correspondence. The procedure gives priority to face correspondence over point correspondence. This is because the number of faces is usually much smaller than the number of points and the faces are less noisy due to support from many points. Tracking is considered successful if RANSAC locates a sufficient number of inliers, eg, 40% of the number of all point and surface measurements. With this method, the corrected posture T k of the k th frame is obtained.

マップ更新
推定姿勢Tがマップ内の任意の既存のキーフレームの姿勢と十分異なる場合、k番目のフレームをキーフレームであると判断する。この条件をチェックするために、例えば、並進における100mmの閾値及び回転における5度の閾値を用いることができる。新たなキーフレームのために、RANSACベースのレジストレーションにおけるインライアとして突き止められた点及び面の測定値は、対応するランドマークに関連付けられる一方、外れ値として突き止められた点及び面の測定値は廃棄される。次に、このフレーム内に新たに現れる追加の点及び面の測定値を抽出する。追加の点測定値は、いかなる既存の点測定値にも近くないピクセルに対し、Scale−Invariant Feature Transform(SIFT)及びSpeeded Up Robust Features(SURF)等のキーポイント検出器を用いて抽出される。追加の面測定値は、任意の既存の面測定値のインライアでないピクセルに対しRANSACベースの面当てはめを用いることによって抽出される。追加の点測定値及び面測定値は、新たなランドマークとしてマップに加えられる。さらに、フレーム内の全ての点測定値について、SIFT及びSURF等の特徴記述子を抽出し、これらが位置再特定に用いられる。
Map Update If the estimated posture T k is sufficiently different from the posture of any existing key frame in the map, it is determined that the k th frame is a key frame. In order to check this condition, for example, a threshold of 100 mm for translation and a threshold of 5 degrees for rotation can be used. Due to the new keyframe, the point and surface measurements located as inliers in the RANSAC-based registration are associated with the corresponding landmarks, while the point and face measurements located as outliers are discarded. Is done. Next, additional point and surface measurements that newly appear in this frame are extracted. Additional point measurements are extracted for pixels that are not close to any existing point measurements using keypoint detectors such as Scale-Invariant Feature Transform (SIFT) and Speeded Up Robust Features (SURF). Additional surface measurements are extracted by using RANSAC-based surface fitting for non-inlier pixels of any existing surface measurement. Additional point and surface measurements are added to the map as new landmarks. Furthermore, feature descriptors such as SIFT and SURF are extracted for all point measurements in the frame, and these are used for position re-specification.

Claims (14)

プリミティブの組を用いてデータをレジストレーションする方法であって、前記データは3次元(3D)を有し、前記プリミティブは3次元の前記データにおける点及び面を含み、前記方法は、
第1の座標系における前記データからプリミティブの第1の組を選択するステップであって、前記プリミティブの第1の組は、少なくとも3つのプリミティブを含み、少なくとも1つの面を含む、ステップと、
前記第1の座標系から第2の座標系への変換を予測するステップであって、前記変換は、カメラモーションモデルを用いて予測される、ステップと、
前記予測された変換を用いて、前記プリミティブの第1の組を前記第2の座標系に変換するステップと、
前記第2の座標系に変換された前記プリミティブの第1の組に従ってプリミティブの第2の組を求めるステップと、
互いに対応する前記第1の座標系における前記プリミティブの第1の組と前記第2の座標系における前記プリミティブの第2の組とを用いて、前記第2の座標系を前記第1の座標系にレジストレーションするステップと、を含み、
前記レジストレーションすることは、Simultaneous Localization and Mapping(SLAM)に用いられ、前記ステップはプロセッサにおいて実行され
前記プリミティブの第2の組を求めるステップは、
前記第2の座標系に変換された前記第1の座標系における前記プリミティブの姿勢を、第2の座標系における前記プリミティブの予測姿勢として利用する、プリミティブの組を用いてデータをレジストレーションする方法。
A method of registering data using a set of primitives, wherein the data has three dimensions (3D), the primitives include points and faces in the data in three dimensions, the method comprising:
Selecting a first set of primitives from the data in a first coordinate system, the first set of primitives including at least three primitives and including at least one surface;
Predicting a transformation from the first coordinate system to a second coordinate system, wherein the transformation is predicted using a camera motion model;
Transforming the first set of primitives into the second coordinate system using the predicted transform;
Determining a second set of primitives according to the first set of primitives converted to the second coordinate system;
Using the first set of primitives in the first coordinate system and the second set of primitives in the second coordinate system corresponding to each other, the second coordinate system is converted to the first coordinate system. And registering with
The registering is used for Simulaneous Localization and Mapping (SLAM), and the steps are performed in a processor ;
Determining the second set of primitives comprises:
A method of registering data using a set of primitives, wherein the posture of the primitive in the first coordinate system converted to the second coordinate system is used as the predicted posture of the primitive in the second coordinate system. .
前記プリミティブの第1の組は、前記第1の座標系における少なくとも1つの点及び少なくとも1つの面を含み、前記プリミティブの第2の組は、前記第2の座標系における少なくとも1つの点及び少なくとも1つの面を含む、請求項1に記載の方法。   The first set of primitives includes at least one point and at least one surface in the first coordinate system, and the second set of primitives includes at least one point in the second coordinate system and at least The method of claim 1, comprising one surface. 前記データは移動可能なカメラによって取得される、請求項1に記載の方法。   The method of claim 1, wherein the data is acquired by a movable camera. 前記データはテクスチャ及び奥行きを含む、請求項1に記載の方法。   The method of claim 1, wherein the data includes texture and depth. 前記レジストレーションすることは、RANdom SAmple Consensus(RANSAC)を用いる、請求項1に記載の方法。   The method of claim 1, wherein the registration uses a RANdom Sample Consensus (RANSAC). 前記データは、カメラによって取得されるフレームシーケンスの形態をとる、請求項1に記載の方法。   The method of claim 1, wherein the data takes the form of a frame sequence acquired by a camera. 前記フレームシーケンスからキーフレームとしてフレームの組を選択することと、
前記キーフレームをマップに記憶することであって、前記キーフレームは前記点及び前記面を含み、前記点及び前記面は前記マップ内にランドマークとして記憶されることと、
を更に含む、請求項に記載の方法。
Selecting a set of frames as key frames from the frame sequence;
Storing the key frame in a map, wherein the key frame includes the point and the surface, and the point and the surface are stored as landmarks in the map;
The method of claim 6 , further comprising:
フレームごとにカメラの姿勢を予測することと、
前記レジストレーションすることに従って、フレームごとに前記カメラの前記姿勢を求めて前記カメラを追跡することと、
を更に含む、請求項に記載の方法。
Predicting the camera posture for each frame;
Tracking the camera for the posture of the camera for each frame according to the registration;
The method of claim 7 , further comprising:
前記レジストレーションすることはリアルタイムで行われる、請求項1に記載の方法。   The method of claim 1, wherein the registration is performed in real time. 前記点及び前記面を用いてバンドル調整を適用し、前記マップ内の前記ランドマークを精緻化することを更に含む、請求項に記載の方法。 The method of claim 7 , further comprising applying a bundle adjustment using the points and the surface to refine the landmarks in the map. k番目のフレームの前記姿勢は、
Figure 0006228239
であり、ここで、Rk及びtkはそれぞれ、回転行列及び並進ベクトルを表す、請求項に記載の方法。
The posture of the kth frame is
Figure 0006228239
, And the wherein each Rk and tk represents the rotation matrix and the translation vector The method of claim 8.
前記予測することは一定の速度推定を用いる、請求項に記載の方法。 The method of claim 8 , wherein the predicting uses a constant velocity estimate. オプティカルフロー手順を用いて前記フレーム内の前記点を突き止める、請求項に記載の方法。 The method of claim 6 , wherein the point in the frame is located using an optical flow procedure. 前記面の対応は、前記点の対応よりも優先される、請求項1に記載の方法。   The method of claim 1, wherein the correspondence of the surface takes precedence over the correspondence of the points.
JP2015561464A 2013-06-19 2014-05-30 A method for registering data using a set of primitives Active JP6228239B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/921,296 2013-06-19
US13/921,296 US9420265B2 (en) 2012-06-29 2013-06-19 Tracking poses of 3D camera using points and planes
PCT/JP2014/065026 WO2014203743A1 (en) 2013-06-19 2014-05-30 Method for registering data using set of primitives

Publications (2)

Publication Number Publication Date
JP2016527574A JP2016527574A (en) 2016-09-08
JP6228239B2 true JP6228239B2 (en) 2017-11-08

Family

ID=50979838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015561464A Active JP6228239B2 (en) 2013-06-19 2014-05-30 A method for registering data using a set of primitives

Country Status (4)

Country Link
JP (1) JP6228239B2 (en)
CN (1) CN105339981B (en)
DE (1) DE112014002943T5 (en)
WO (1) WO2014203743A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6775969B2 (en) * 2016-02-29 2020-10-28 キヤノン株式会社 Information processing equipment, information processing methods, and programs
CA3032812A1 (en) 2016-08-04 2018-02-08 Reification Inc. Methods for simultaneous localization and mapping (slam) and related apparatus and systems
CN106780601B (en) * 2016-12-01 2020-03-27 北京未动科技有限公司 Spatial position tracking method and device and intelligent equipment
EP3333538B1 (en) * 2016-12-07 2020-09-09 Hexagon Technology Center GmbH Scanner vis

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4985516B2 (en) * 2008-03-27 2012-07-25 ソニー株式会社 Information processing apparatus, information processing method, and computer program
JP5310285B2 (en) * 2009-06-12 2013-10-09 日産自動車株式会社 Self-position estimation apparatus and self-position estimation method
JP5580164B2 (en) * 2010-10-18 2014-08-27 株式会社トプコン Optical information processing apparatus, optical information processing method, optical information processing system, and optical information processing program
US8711206B2 (en) * 2011-01-31 2014-04-29 Microsoft Corporation Mobile camera localization using depth maps
CN103123727B (en) * 2011-11-21 2015-12-09 联想(北京)有限公司 Instant location and map constructing method and equipment

Also Published As

Publication number Publication date
CN105339981B (en) 2019-04-12
WO2014203743A1 (en) 2014-12-24
CN105339981A (en) 2016-02-17
DE112014002943T5 (en) 2016-03-10
JP2016527574A (en) 2016-09-08

Similar Documents

Publication Publication Date Title
US9420265B2 (en) Tracking poses of 3D camera using points and planes
JP7173772B2 (en) Video processing method and apparatus using depth value estimation
CN110568447B (en) Visual positioning method, device and computer readable medium
JP6430064B2 (en) Method and system for aligning data
US20030012410A1 (en) Tracking and pose estimation for augmented reality using real features
KR20180087947A (en) Modeling method and modeling apparatus using 3d point cloud
KR100855657B1 (en) System for estimating self-position of the mobile robot using monocular zoom-camara and method therefor
Vidas et al. Real-time mobile 3D temperature mapping
Ataer-Cansizoglu et al. Tracking an RGB-D camera using points and planes
GB2580691A (en) Depth estimation
WO2013112749A1 (en) 3d body modeling, from a single or multiple 3d cameras, in the presence of motion
CN104715479A (en) Scene reproduction detection method based on augmented virtuality
US11082633B2 (en) Method of estimating the speed of displacement of a camera
JP2011008687A (en) Image processor
JP5439277B2 (en) Position / orientation measuring apparatus and position / orientation measuring program
CN111062966B (en) Method for optimizing camera tracking based on L-M algorithm and polynomial interpolation
JP6228239B2 (en) A method for registering data using a set of primitives
TWI599987B (en) System and method for combining point clouds
JP6817742B2 (en) Information processing device and its control method
JP3668769B2 (en) Method for calculating position / orientation of target object and method for calculating position / orientation of observation camera
JP6922348B2 (en) Information processing equipment, methods, and programs
CN110310325B (en) Virtual measurement method, electronic device and computer readable storage medium
JP2006113832A (en) Stereoscopic image processor and program
Pollok et al. A visual SLAM-based approach for calibration of distributed camera networks
KR101896183B1 (en) 3-d straight lines detection method for camera motion estimation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170823

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171012

R150 Certificate of patent or registration of utility model

Ref document number: 6228239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250