CN109658449B - 一种基于rgb-d图像的室内场景三维重建方法 - Google Patents
一种基于rgb-d图像的室内场景三维重建方法 Download PDFInfo
- Publication number
- CN109658449B CN109658449B CN201811466786.0A CN201811466786A CN109658449B CN 109658449 B CN109658449 B CN 109658449B CN 201811466786 A CN201811466786 A CN 201811466786A CN 109658449 B CN109658449 B CN 109658449B
- Authority
- CN
- China
- Prior art keywords
- image
- current frame
- frame
- pose
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 5
- 238000009825 accumulation Methods 0.000 abstract description 4
- 238000003709 image segmentation Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000005286 illumination Methods 0.000 abstract description 2
- 230000008439 repair process Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 239000012780 transparent material Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于RGB‑D图像的室内场景三维重建方法,利用语义分割结果修复深度图像空洞,为三维重建提供物体轮廓与类别信息,根据先验知识获取到物体的形状和外观,从而为三维重建提供更加精确的数据。三维重建为语义分割提供三维空间信息,解决二维图像分割中存在的物体交叠、受光照影响等导致的误分割。使用多层次的相机位姿估计,稀疏的特征匹配提供粗略的估计位姿,再通过密集的几何、光度优化方法,得到精确相机位姿,为重建模型提供更加精确的相机位姿。在重建过程中,对每帧进行局部优化,同时加入关键帧机制,建立全局优化与闭环检测,将关键帧像素对应的空间点建立约束,有效抑制误差累积,进一步优化相机位姿,提高重建结果的精度。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于RGB-D图像的室内场景三维重建方法。
背景技术
深度相机Kinect的原理为红外发射器发射红外线,照射到物体表面,形成随机的反射散斑,进而被深度传感器接收,再由系统芯片运算生成深度图像。对于透明材质、纹理缺失的平面,红外线无法反射形成散斑或者效果较差,从而得到的深度图像带有空洞。目前,大多研究工作采用双边滤波方法对深度图像进行简单预处理。
现有技术中,基于RGB-D图像的三维重建主要包括:Newcombe等人通过预处理的深度图像直接计算得到空间点的三维坐标,再用迭代最近点方法估计相邻帧相机运动,用立方体网格模型存储重建点云。但是,该方法固定了重建场景大小,对于大场景无法适用,同时重建结果精度不高。Thomas Whelan提出的改进算法Kintinuous和Niebner等人提出的基于体素哈希的模型表示方法,解决了显存消耗和计算消耗的问题。但是,这两个方法无法应对丢失情况,对于长时间大范围的重建容易发生漂移,精度不高。
然而,上述方法均存在重建精度不高、无法解决深度图像空洞导致的误分割的缺陷。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术重建精度不高、无法解决深度图像空洞导致的误分割的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种基于RGB-D图像的室内场景三维重建方法,该方法包括以下步骤:
S1.连续采集室内场景的D图像和RGB图像,同时选取关键帧,建立关键帧数据库;
S2.对当前帧RGB图像进行语义分割,得到当前帧语义分割结果和当前帧像素分类结果;
S3.利用所述当前帧语义分割结果,修复当前帧D图像的空洞,得到当前帧修复后D图像;
S4.根据当前帧修复后D图像,计算当前帧相机位姿,根据当前帧相机位姿,将当前帧三维点云融合到已重建好的三维点云中;
S5.根据当前帧相机位姿,将重建后的三维点云反投影为当前帧RGB-D图像,执行相机位姿的局部优化,根据优化后位姿对三维点云进行更新,并将当前帧与关键帧数据库中关键帧进行匹配,若匹配成功,则进入步骤S6,否则,进入步骤S7;
S6.对当前帧进行闭环检测,闭环检测成功时,更新相机位姿,根据更新的相机位姿对三维点云进行更新;
S7.确立当前帧是否为关键帧,如果是,确定为关键帧,加入关键帧数据库,进入步骤S8,否则,直接进入步骤S9;
S8.基于关键帧执行相机位姿的全局优化,根据优化后位姿对三维点云进行更新;
S9.将所述当前帧像素分类结果融合到更新后的三维点云中,得到重建后的室内场景。
具体地,关键帧的选取方式为:当图像帧与上一关键帧视差大于阈值并且匹配点数少于设定数量时,将其确立为关键帧。
具体地,基于CNN和CRF进行语义分割。
具体地,步骤S3具体包括以下子步骤:
S301.根据语义分割结果获取物体类别与物体轮廓;
S302.利用物体类别与物体轮廓信息,提取D图像空洞对应物体区域;
S303.平面拟合D图像空洞对应物体表面;
S304.重投影填充空洞区域。
具体地,步骤S4具体包括以下子步骤:
S401.根据修复后D图像,利用稀疏特征点匹配得到粗略的相机位姿;
S402.在所述粗略的相机位姿基础上,通过几何误差与光度误差最小化,得到精确的相机位姿;
S403.将当前帧三维点云融合到已重建好的三维点云中。
具体地,闭环检测时,当前图像帧与历史图像帧的相似度如果达到相似度阈值,则可认为产生回环。
具体地,二进制编码块之间的相似度由汉明距离决定,相似度计算公式如下:
将两幅图像A和B所有对应二进制编码块的相似度值累加就可以得到图像的相似度,计算公式如下:
第二方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的室内场景三维重建方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明利用语义分割结果修复深度图像空洞,语义分割可以为三维重建提供物体轮廓与类别信息,根据先验知识获取到物体的形状和外观,从而帮助优化三维重建的粗糙模型结果,为三维重建提供更加精确的数据。三维重建可以为语义分割提供三维空间信息,解决二维图像分割中存在的物体交叠、受光照影响等导致的误分割技术问题。
2.本发明使用多层次的相机位姿估计,稀疏的特征匹配提供粗略的估计位姿,再通过密集的几何、光度优化方法,得到精确相机位姿,为重建模型提供更加精确的相机位姿;在重建过程中,对每帧进行局部优化,同时加入关键帧机制,建立全局优化与闭环检测,将关键帧像素对应的空间点建立约束,有效抑制误差累积,进一步优化相机位姿,提高重建结果的精度。
附图说明
图1为本发明实施例提供的一种基于RGB-D图像的室内场景三维重建方法流程图;
图2为本发明实施例提供的透明材质深度图像空洞示意图;
图3为本发明实施例提供的线性摄像机投影模型示意图;
图4为本发明实施例提供的几何误差示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先,对本发明中用到的一些术语进行解释。
RGB-D图像:包括彩色图像(RGB图像)和深度图像。通常,彩色图像和深度图像是配准的,因而像素点之间具有一对一的对应关系。
深度图像:Depth Image,深度图,下文简称为D图像,包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。它的每个像素值是传感器距离物体的实际距离。
三维点云:将深度图的每个像素投影到对应的三维坐标向量中,以此形成三维点云。
反投影:是根据重建的三维点云得到深度图像
重投影:保持摄像机投影中心不变,通过改变焦距和成像平面的方向,将实际获取的景物图像重新投影到另一个图像平面上,从而达到改变图像几何特性的目的。
如图1所示,一种基于RGB-D图像的室内场景三维重建方法,该方法包括以下步骤:
S1.连续采集室内场景的D图像和RGB图像,同时选取关键帧,建立关键帧数据库;
S2.对当前帧RGB图像进行语义分割,得到当前帧语义分割结果和当前帧像素分类结果;
S3.利用所述当前帧语义分割结果,修复当前帧D图像的空洞,得到当前帧修复后D图像;
S4.根据当前帧修复后D图像,计算当前帧相机位姿,根据当前帧相机位姿,将当前帧三维点云融合到已重建好的三维点云中;
S5.根据当前帧相机位姿,将重建后的三维点云反投影为当前帧RGB-D图像,执行相机位姿的局部优化,根据优化后位姿对三维点云进行更新,并将当前帧与关键帧数据库中关键帧进行匹配,若匹配成功,则进入步骤S6,否则,进入步骤S7;
S6.对当前帧进行闭环检测,闭环检测成功时,更新相机位姿,根据更新的相机位姿对三维点云进行更新;
S7.确立当前帧是否为关键帧,如果是,确定为关键帧,加入关键帧数据库,进入步骤S8,否则,直接进入步骤S9;
S8.基于关键帧执行相机位姿的全局优化,根据优化后位姿对三维点云进行更新;
S9.将所述当前帧像素分类结果融合到更新后的三维点云中,得到重建后的室内场景。
步骤S1.连续采集室内场景的D图像和RGB图像,同时选取关键帧,建立关键帧数据库。
2010年微软公司发布消费级深度相机Kinect,该相机可以实时获取场景RGB图像和D图像,而基于深度图像可以直接计算空间点的三维坐标,重建模型精度更高。对于快速运动、透明材质物体,深度图像精度较低,甚至出现空洞。因此,在采集室内场景图像时,相机运动速度不宜过快。深度图像空洞直接影响室内场景重建结果精度,后面将对此进行修复。
采集的同时构建了一个关键帧数据库,为全局优化和闭环检测提供依据。关键帧是指在图像序列中具有代表性、与已有帧具有一定差异的图像帧。当图像帧与上一关键帧视差大于阈值并且匹配点数少于设定数量时,将其确立为关键帧。本发明实施例中阈值为0.8,设定数量为500。
步骤S2.对当前帧RGB图像进行语义分割,得到当前帧语义分割结果和当前帧像素分类结果。
图像分割技术将图像划分为多个区域,每个区域之间具有一定的差异。从语义分割结果可提取两种信息:物体轮廓与物体类别。
本发明实施例中数据集为DA-RNN,图像数据集中的各帧RGB-D图像分辨率为640×480像素,均带有标定分割结果,共包括14个RGB-D图像序列,11427幅图像。其中,12个图像序列用于训练,2个图像序列用测试,验证集从训练图像中随机抽取。场景中的标定物体包括:瓷碗、棒球帽、麦片盒、马克杯、咖啡桌、办公椅、罐装苏打水、沙发、桌子,其他物体均视为背景,包括背景在内的总类别数为10。
任意语义分割算法都可以,本发明优选CNN+CRF。使用语义数据集训练CNN(Convolutional Neural Network,卷积神经网络)模型,得到训练好的语义分割模型。在语义分割模型的输出端加入CRF(Condition Random Field,条件随机场),用于对CNN网络模型得到的初步图像分割结果进行优化。CRF构建无向图模型,优化图像边缘,得到更加精确的物体分割结果。将该模型融合到三维重建模型中,实时生成三维点云的同时,得到图像语义分割结果,将像素类别信息映射到三维点云上,得到语义点云。
步骤S3.利用所述当前帧语义分割结果,修复当前帧D图像的空洞,得到当前帧修复后D图像。
受限于深度设备精度,以及室内环境中物体纹理缺失等因素的影响,尤其是透明材质,获取到的D图像存在空洞或缺失。如图2所示,深度图像空洞是指透明物体对应区域深度值与背景深度值一样,发生错误,其原因是深度相机红外线测距过程中,发生透射,导致测量深度值发生错误。三维重建过程中点云三维坐标的计算直接依赖于D图像,若像素深度值丢失,直接影响三维点云结果,因此,对D图像的修复十分重要。
首先,根据线性摄像机模型计算D图像像素点的三维坐标,反投影为三维点云,在三维空间中拟合平面,然后重投影得到D图像,填充深度值丢失的像素。如图3所示,线性摄像机模型是指通过透视投影建立的真实世界中三维点与相机成像平面二维像素点之间的对应关系,建立了四个坐标系,包括:世界坐标系、相机坐标系、图像坐标系、像素坐标系。
线性摄像机投影模型如下公式所示,该公式建立了三维空间中点与二维图像中像素点之间的坐标变换关系。其中,u,v为像素坐标点,zc为该点在相机坐标系中的z坐标,xw,yw,zw为该点在世界坐标系中对应的坐标,u0,v0为相机光心在图像平面的位置坐标,f为相机焦距,dx,dy分别表示在图像坐标系下x方向和y方向移动一个像素的距离,R为旋转矩阵,t为平移向量。
由深度图像可以得到某一像素点的像素坐标(u,v)和深度值d,深度值对应为相机坐标系z坐标zc。在获取相机参数(f,dx,dy,u0,v0)之后,初始化R,t为单位矩阵即可得到该像素点对应的世界坐标系三维点坐标(xw,yw,zw),左右像素点对应三维点坐标组合到一起构成三维点云。
通过语义分割结果获取图像中物体类别与轮廓信息,利用该信息对D图像进行修复,提取物体区域,根据其类别及先验知识可以得到物体表面的几何形状,在三维空间中拟合平面,重投影填充D图像对应的空洞区域。另一方面,利用该信息对三维重建模型中的物体进行优化调整,提高精度。相比通过滤波修复深度图像空洞的方法,本专利提出的方法更具针对性地对空洞进行修复,不会影响周围区域,且修复精度更高。
S301.根据语义分割结果获取物体类别与物体轮廓;
S302.利用物体类别与物体轮廓信息,提取D图像空洞对应物体区域;
S303.平面拟合D图像空洞对应物体表面;
S304.重投影填充空洞区域。
平面拟合的是深度值丢失的物体区域表面。重投影就是由三维空间拟合的三维平面投影为二维图像去填充深度图像对应的空洞区域。
步骤S4.根据当前帧修复后D图像,计算当前帧相机位姿,根据当前帧相机位姿,将当前帧三维点云融合到已重建好的三维点云中。
相机位姿用来描述机器人移动变换。每帧图像中的像素点都可以通过相机内参计算得到三维坐标,而这个三维坐标是相对于当前相机坐标系而言的。机器人不断移动,每个时刻对应一个相机坐标系,需要把每帧的三维空间点转换到同一个世界坐标系中,才能形成统一的重建点云。相机位姿估计是计算相邻两帧之间相机的变换,三维重建系统中,使用相机位姿来描述每一时刻采集设备所处的位置和朝向,作为机器人的定位数据。以第一帧作为参考世界坐标系,则随后的图像帧都可以通过估计的位姿变换到世界坐标系中。
相机位姿估计的目的是估算相邻帧图像间相机的运动,即相机位姿,包括相机位置和变换。本系统融合稀疏特征点法,最小化点到平面距离与光度误差,来估算相机位姿。
S401.根据修复后D图像,利用稀疏特征点匹配得到粗略的相机位姿。
S402.在所述粗略的相机位姿基础上,通过几何误差与光度误差最小化,得到精确的相机位姿。
根据前一帧估计的相机位姿,对当前重建好的三维点云反投影,得到前一帧深度图像,作为相邻帧。联合当前帧修复后D图像和前一帧D图像,估计当前帧相机位姿。具体为:首先提取D图像帧稀疏特征点,与相邻帧进行特征点匹配,构建最优化问题,最小化匹配点对应三维空间距离,计算粗略位姿。然后在该粗略位姿基础上,通过点到平面距离和像素值差异,得到相机的精确位姿。通过相机位姿估计得到的变换矩阵。
稀疏特征点的优化目标是最小化匹配点之间的欧氏距离,如图4所示,几何误差是当前帧对应的三维点(源点)到已重建好的三维点(目标点)的切平面之间的距离。
S403.将当前帧三维点云融合到已重建好的三维点云中。
其中,w,w′为权重系数。
步骤S5.根据当前帧相机位姿,将重建后的三维点云反投影为当前帧RGB-D图像,执行相机位姿的局部优化,根据优化后位姿对三维点云进行更新,并将当前帧与关键帧数据库中关键帧进行匹配,若匹配成功,则进入步骤S6,否则,进入步骤S7。
按照当前帧位姿,反投影重建点云,得到D图像。按照重建时间先后顺序,将重建点云划分为活跃和不活跃两部分。较早重建的点为不活跃点,经过优化,属于比较精确的点,较新重建的点为活跃点,属于待优化点。具体地,重建时间早于t时刻的为不活跃点,晚于t时刻的为活跃点。对这两部分点数据进行约束,优化得到新的位姿。局部优化在每帧进行,因而可以使三维重建结果一直保持较高的精度。
图像匹配操作首先对图像进行像素RGB-D四通道编码,再通过计算编码之间汉明距离得到图像相似度。基于像素编码的方法。对于RGB-D图像,共4个通道,记为c∈{R,G,B,D},像素位置x处对应特定通道的像素值记为Ic(x),给定阈值τ,将像素值与τ比较,编码为二进制位0或1,记为编码f,计算公式如下:
步骤S6.对当前帧进行闭环检测,闭环检测成功时,更新相机位姿,根据更新的相机位姿对三维点云进行更新。
如果不进行闭环检测,最终重建模型会出现无法闭合的情况。因此,首先需要检测出可能产生回环的地方,然后进行优化。闭环检测是一种检测机器人是否到达先前到达过的位置的机制。对于当前帧,如果与关键帧数据库中某一关键帧相似度超过一定阈值,那么判定闭环产生。此时,对当前帧与匹配关键帧进行约束,优化当前帧位姿,从而使先后到达的同一位置保持一致。当触发闭环条件时,当前帧与关键帧数据库进行查找匹配,找到最相近的关键帧,恢复当前帧的位姿,从而将发生漂移的模型恢复到正常状态。将当前帧深度图像与匹配图像建立约束关系,估计位姿变换,进而将当前帧及相邻帧相机位姿变换为匹配帧相机位姿。
k时刻,机器人移动到某一位置,需要将当前图像帧与历史图像帧进行对比,也就是相似度计算,如果达到相似度阈值,则可认为产生回环。本发明实施例中相似度阈值为0.75。
二进制编码块之间的相似度由汉明距离决定,相似度计算公式如下:
将两幅图像A和B所有对应二进制编码块的相似度值累加就可以得到图像的相似度,计算公式如下:
步骤S7.确立当前帧是否为关键帧,如果是,确定为关键帧,加入关键帧数据库,进入步骤S8,否则,直接进入步骤S9。
当图像帧与上一关键帧视差大于一定阈值并且匹配点数少于一定数量时,将其确立为关键帧。判断当前帧与前一关键帧点距离和法矢变换是否超过一定阈值,以及匹配点数是否低于一定阈值,如果满足,则确立为关键帧。
步骤S8.基于关键帧执行相机位姿的全局优化,根据优化后位姿对三维点云进行更新。
三维重建过程中每帧都以前一帧为参考进行位姿估计,这个误差会传递到下一帧,不断累积,导致最终重建误差较大。针对误差累积问题,采用基于关键帧的全局优化来解决。将这些关键帧的位姿与对应重建好的三维点建立非线性优化模型,即基于关键帧的全局优化,优化位姿与三维点云坐标,提高重建结果精度。每当新的帧成为关键帧,执行一次全局优化操作。全局优化将所有关键帧的相机位姿、三维点坐标及其数据关联构建成一个图优化问题。
在k时刻,机器人相机位姿为xk,通过相机设备得到一个观测值而由估计的相机位姿,重投影得到的观测值为zk=h(xk),其中h为观测函数。由于误差的存在,这两个观测值不可能一致,于是就产生了误差,如公式所示。
根据位姿与路标之间的关系,构造目标函数如公式所示。
其中,Ω为权值矩阵,表征每个位姿边的重要程度。该目标函数实际是一个最小二乘问题,最小化误差累加和求解相机位姿。将上式利用一阶泰勒公式展开,再用高斯牛顿方法求解即可得到最终结果。
点云指三维重建得到的三维点转换到同一坐标系下构成的集合。每帧图像计算三维点坐标,通过相机位姿估计得到的变换矩阵将点坐标转换到同一世界坐标系中,与原先点按权值融合。每个三维点除了位置信息,还有语义信息,保存所属类别概率,按照贝叶斯策略进行更新。
步骤S9.将所述当前帧像素分类结果融合到更新后的三维点云中,得到重建后的室内场景。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种基于RGB-D图像的室内场景三维重建方法,其特征在于,该方法包括以下步骤:
S1.连续采集室内场景的D图像和RGB图像,同时选取关键帧,建立关键帧数据库;
S2.对当前帧RGB图像进行语义分割,得到当前帧语义分割结果和当前帧像素分类结果;
S3.利用所述当前帧语义分割结果,修复当前帧D图像的空洞,得到当前帧修复后D图像;
S4.根据当前帧修复后D图像,计算当前帧相机位姿,根据当前帧相机位姿,将当前帧三维点云融合到已重建好的三维点云中;
S5.根据当前帧相机位姿,将重建后的三维点云反投影为当前帧RGB-D图像,执行相机位姿的局部优化,根据优化后位姿对三维点云进行更新,并将当前帧与关键帧数据库中关键帧进行匹配,若匹配成功,则进入步骤S6,否则,进入步骤S7;
S6.对当前帧进行闭环检测,闭环检测成功时,更新相机位姿,根据更新的相机位姿对三维点云进行更新;
S7.确立当前帧是否为关键帧,如果是,确定为关键帧,加入关键帧数据库,进入步骤S8,否则,直接进入步骤S9;
S8.基于关键帧执行相机位姿的全局优化,根据优化后位姿对三维点云进行更新;
S9.将所述当前帧像素分类结果融合到更新后的三维点云中,得到重建后的室内场景;
步骤S3具体包括以下子步骤:
S301.根据语义分割结果获取物体类别与物体轮廓;
S302.利用物体类别与物体轮廓信息,提取D图像空洞对应物体区域;
S303.平面拟合D图像空洞对应物体表面;
S304.重投影填充空洞区域。
2.如权利要求1所述的室内场景三维重建方法,其特征在于,关键帧的选取方式为:
当图像帧与上一关键帧视差大于阈值并且匹配点数少于设定数量时,将其确立为关键帧。
3.如权利要求1所述的室内场景三维重建方法,其特征在于,基于CNN和CRF进行语义分割。
4.如权利要求1所述的室内场景三维重建方法,其特征在于,步骤S4具体包括以下子步骤:
S401.根据修复后D图像,利用稀疏特征点匹配得到粗略的相机位姿;
S402.在所述粗略的相机位姿基础上,通过几何误差与光度误差最小化,得到精确的相机位姿;
S403.将当前帧三维点云融合到已重建好的三维点云中。
5.如权利要求1所述的室内场景三维重建方法,其特征在于,闭环检测时,当前图像帧与历史图像帧的相似度如果达到相似度阈值,则认为产生回环。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的室内场景三维重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466786.0A CN109658449B (zh) | 2018-12-03 | 2018-12-03 | 一种基于rgb-d图像的室内场景三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466786.0A CN109658449B (zh) | 2018-12-03 | 2018-12-03 | 一种基于rgb-d图像的室内场景三维重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109658449A CN109658449A (zh) | 2019-04-19 |
CN109658449B true CN109658449B (zh) | 2020-07-10 |
Family
ID=66112296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811466786.0A Expired - Fee Related CN109658449B (zh) | 2018-12-03 | 2018-12-03 | 一种基于rgb-d图像的室内场景三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109658449B (zh) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885671B2 (en) | 2019-04-17 | 2021-01-05 | XRSpace CO., LTD. | Method, apparatus, and non-transitory computer-readable medium for interactive image processing using depth engine and digital signal processor |
US11039118B2 (en) | 2019-04-17 | 2021-06-15 | XRSpace CO., LTD. | Interactive image processing system using infrared cameras |
CN110189399B (zh) * | 2019-04-26 | 2021-04-27 | 浙江大学 | 一种室内三维布局重建的方法及系统 |
TWI696981B (zh) * | 2019-04-26 | 2020-06-21 | 未來市股份有限公司 | 使用紅外線攝影機的互動影像處理系統 |
CN111860050B (zh) * | 2019-04-27 | 2024-07-02 | 北京初速度科技有限公司 | 一种基于图像帧的回环检测方法及装置、车载终端 |
CN110188809B (zh) * | 2019-05-22 | 2021-04-06 | 浙江大学 | 一种基于图像分块的回环检测方法 |
CN110148099B (zh) * | 2019-05-29 | 2021-09-10 | 北京百度网讯科技有限公司 | 投影关系的修正方法及装置、电子设备、计算机可读介质 |
CN110189373A (zh) * | 2019-05-30 | 2019-08-30 | 四川长虹电器股份有限公司 | 一种基于视觉语义信息的快速重定位方法及装置 |
CN110335314A (zh) * | 2019-06-24 | 2019-10-15 | 华中科技大学 | 基于目标物体的二维图像预测目标物体实时位姿的方法 |
CN110335319B (zh) * | 2019-06-26 | 2022-03-18 | 华中科技大学 | 一种语义驱动的相机定位与地图重建方法和系统 |
CN110276317B (zh) * | 2019-06-26 | 2022-02-22 | Oppo广东移动通信有限公司 | 一种物体尺寸检测方法、物体尺寸检测装置及移动终端 |
CN110349213B (zh) * | 2019-06-28 | 2023-12-12 | Oppo广东移动通信有限公司 | 基于深度信息的位姿确定方法、装置、介质与电子设备 |
CN110322511B (zh) * | 2019-06-28 | 2021-03-26 | 华中科技大学 | 一种基于物体和平面特征的语义slam方法和系统 |
CN110335224B (zh) * | 2019-07-05 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN110298873A (zh) * | 2019-07-05 | 2019-10-01 | 青岛中科智保科技有限公司 | 三维地图的构建方法、构建装置、机器人及可读存储介质 |
CN110298921B (zh) * | 2019-07-05 | 2023-07-07 | 青岛中科智保科技有限公司 | 具有人物语义信息的三维地图的构建方法以及处理设备 |
CN112215940B (zh) * | 2019-07-11 | 2024-01-19 | 台达电子工业股份有限公司 | 场景模型的建构系统及其建构方法 |
CN112465988A (zh) * | 2019-09-09 | 2021-03-09 | 苹果公司 | 具有实例检测的对象检测以及一般场景理解 |
CN110766716B (zh) * | 2019-09-10 | 2022-03-29 | 中国科学院深圳先进技术研究院 | 一种空间未知运动目标的信息获取方法及系统 |
CN110766785B (zh) * | 2019-09-17 | 2023-05-05 | 武汉大学 | 一种地下管道实时定位与三维重建装置及方法 |
CN110738667A (zh) * | 2019-09-25 | 2020-01-31 | 北京影谱科技股份有限公司 | 一种基于动态场景的rgb-d slam方法和系统 |
CN110675418B (zh) * | 2019-09-26 | 2023-04-18 | 深圳市唯特视科技有限公司 | 一种基于ds证据理论的目标轨迹优化方法 |
CN112698315B (zh) * | 2019-10-23 | 2024-04-09 | 浙江菜鸟供应链管理有限公司 | 移动设备定位系统、方法及设备 |
CN110827305B (zh) * | 2019-10-30 | 2021-06-08 | 中山大学 | 面向动态环境的语义分割与视觉slam紧耦合方法 |
CN111079545A (zh) * | 2019-11-21 | 2020-04-28 | 上海工程技术大学 | 一种基于图像修复的三维目标检测方法和系统 |
CN111009005A (zh) * | 2019-11-27 | 2020-04-14 | 天津大学 | 几何信息与光度信息相结合的场景分类点云粗配准方法 |
WO2021120052A1 (en) * | 2019-12-18 | 2021-06-24 | Huawei Technologies Co., Ltd. | 3d reconstruction from an insufficient number of images |
CN111199579B (zh) | 2020-01-02 | 2023-01-24 | 腾讯科技(深圳)有限公司 | 一种目标物的三维模型构建方法、装置、设备及介质 |
CN111311615A (zh) * | 2020-02-11 | 2020-06-19 | 香港光云科技有限公司 | 基于ToF的场景分割方法及系统、存储介质及电子设备 |
CN111311662B (zh) * | 2020-02-12 | 2023-05-09 | 清华大学深圳国际研究生院 | 一种实时重建三维场景的方法及装置 |
CN111337898B (zh) * | 2020-02-19 | 2022-10-14 | 北京百度网讯科技有限公司 | 激光点云的处理方法、装置、设备及存储介质 |
CN111340939B (zh) * | 2020-02-21 | 2023-04-18 | 广东工业大学 | 一种室内三维语义地图构建方法 |
CN113362382B (zh) * | 2020-03-04 | 2024-09-20 | 华为技术有限公司 | 三维重建方法和三维重建装置 |
CN111476894A (zh) * | 2020-05-14 | 2020-07-31 | 小狗电器互联网科技(北京)股份有限公司 | 三维语义地图构建方法、装置、存储介质及电子设备 |
CN112001926B (zh) * | 2020-07-04 | 2024-04-09 | 西安电子科技大学 | 基于多维语义映射rgbd多相机标定方法、系统及应用 |
CN111739080A (zh) * | 2020-07-23 | 2020-10-02 | 成都艾尔帕思科技有限公司 | 多台深度相机共同构建3d空间及3d物体的方法 |
CN111950404A (zh) * | 2020-07-29 | 2020-11-17 | 南京大学 | 一种基于深度学习视频监督的单图像三维重建方法 |
CN111862162B (zh) * | 2020-07-31 | 2021-06-11 | 湖北亿咖通科技有限公司 | 回环检测方法及系统、可读存储介质、电子设备 |
CN111951397B (zh) * | 2020-08-07 | 2022-06-24 | 清华大学 | 一种多机协同构建三维点云地图的方法、装置和存储介质 |
CN112017188B (zh) * | 2020-09-09 | 2024-04-09 | 上海航天控制技术研究所 | 一种空间非合作目标语义识别与重构方法 |
CN114199243B (zh) * | 2020-09-18 | 2024-05-24 | 浙江舜宇智能光学技术有限公司 | 用于机器人的位姿估计和运动规划方法、装置和机器人 |
CN112419512B (zh) * | 2020-10-13 | 2022-09-13 | 南昌大学 | 一种基于语义信息的空中三维模型修复系统及方法 |
CN112242008B (zh) * | 2020-10-17 | 2021-09-07 | 郑州西亚斯学院 | 一种用于透明容器的ar交互视觉感知方法及系统 |
CN112284291A (zh) * | 2020-10-22 | 2021-01-29 | 华中科技大学鄂州工业技术研究院 | 一种可获取物理纹理的三维扫描方法及装置 |
CN112258633B (zh) * | 2020-10-23 | 2023-02-28 | 华中科技大学鄂州工业技术研究院 | 一种基于slam技术的场景高精度重建方法及装置 |
CN112991515B (zh) * | 2021-02-26 | 2022-08-19 | 山东英信计算机技术有限公司 | 一种三维重建方法、装置及相关设备 |
CN113160102A (zh) * | 2021-04-25 | 2021-07-23 | 北京华捷艾米科技有限公司 | 三维场景重建的方法、装置、设备和存储介质 |
CN113240723A (zh) * | 2021-05-18 | 2021-08-10 | 中德(珠海)人工智能研究院有限公司 | 一种单目深度估计方法、装置以及深度评估设备 |
CN115810038A (zh) * | 2021-06-04 | 2023-03-17 | 深圳积木易搭科技技术有限公司 | 一种三维图像匹配优化方法、介质和系统 |
CN113379898B (zh) * | 2021-06-17 | 2022-11-11 | 西安理工大学 | 一种基于语义分割的三维室内场景重建方法 |
CN113763559B (zh) * | 2021-07-01 | 2024-04-09 | 清华大学 | 一种拟合深度图像的几何运动细节重建方法 |
CN113837243B (zh) * | 2021-09-03 | 2024-05-24 | 重庆邮电大学 | 基于边缘信息的rgb-d相机动态视觉里程计方法 |
CN113902846B (zh) * | 2021-10-11 | 2024-04-12 | 岱悟智能科技(上海)有限公司 | 一种基于单目深度相机和里程传感器的室内三维建模方法 |
CN114419246A (zh) * | 2021-12-10 | 2022-04-29 | 上海航天控制技术研究所 | 一种空间目标即时稠密重建方法 |
CN113920254B (zh) * | 2021-12-15 | 2022-03-22 | 深圳市其域创新科技有限公司 | 一种基于单目rgb的室内三维重建方法及其系统 |
CN114708321B (zh) * | 2022-01-12 | 2024-06-21 | 北京航空航天大学 | 一种基于语义的相机位姿估计方法及系统 |
CN114526745B (zh) * | 2022-02-18 | 2024-04-12 | 太原市威格传世汽车科技有限责任公司 | 一种紧耦合激光雷达和惯性里程计的建图方法及系统 |
CN114429495B (zh) * | 2022-03-14 | 2022-08-30 | 荣耀终端有限公司 | 一种三维场景的重建方法和电子设备 |
CN115205461B (zh) * | 2022-07-15 | 2023-11-14 | 小米汽车科技有限公司 | 场景重建方法、装置、可读存储介质及车辆 |
CN115115551B (zh) * | 2022-07-26 | 2024-03-29 | 北京计算机技术及应用研究所 | 一种基于卷积字典的视差图修复方法 |
CN116704111B (zh) * | 2022-12-08 | 2024-08-27 | 荣耀终端有限公司 | 图像处理方法和设备 |
CN116152417B (zh) * | 2023-04-19 | 2023-06-23 | 北京天图万境科技有限公司 | 一种多视点类透视空间拟合与渲染的方法和装置 |
CN117057086B (zh) * | 2023-06-19 | 2024-10-15 | 成都国星宇航科技股份有限公司 | 基于目标识别与模型匹配的三维重建方法、装置及设备 |
CN117330081B (zh) * | 2023-11-08 | 2024-05-10 | 广东拓普视科技有限公司 | 一种基于机器人的感知导航装置及其方法 |
CN118195907B (zh) * | 2024-05-15 | 2024-07-12 | 国网四川省电力公司电力应急中心 | 一种无人机集群置信传播协同定位方法 |
CN118537566B (zh) * | 2024-07-26 | 2024-10-08 | 成都航维智芯科技有限公司 | 3d点云分割方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105856230A (zh) * | 2016-05-06 | 2016-08-17 | 简燕梅 | 一种可提高机器人位姿一致性的orb关键帧闭环检测slam方法 |
CN106875437A (zh) * | 2016-12-27 | 2017-06-20 | 北京航空航天大学 | 一种面向rgbd三维重建的关键帧提取方法 |
CN107622244A (zh) * | 2017-09-25 | 2018-01-23 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
EP3349176A1 (en) * | 2017-01-17 | 2018-07-18 | Facebook, Inc. | Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality |
CN108303099A (zh) * | 2018-06-14 | 2018-07-20 | 江苏中科院智能科学技术应用研究院 | 基于三维视觉slam的无人机室内自主导航方法 |
CN108364344A (zh) * | 2018-02-08 | 2018-08-03 | 重庆邮电大学 | 一种基于回环测试的单目实时三维重建方法 |
CN108537848A (zh) * | 2018-04-19 | 2018-09-14 | 北京工业大学 | 一种面向室内场景重建的两级位姿优化估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755433B2 (en) * | 2014-08-29 | 2020-08-25 | Toyota Motor Europe | Method and system for scanning an object using an RGB-D sensor |
-
2018
- 2018-12-03 CN CN201811466786.0A patent/CN109658449B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105856230A (zh) * | 2016-05-06 | 2016-08-17 | 简燕梅 | 一种可提高机器人位姿一致性的orb关键帧闭环检测slam方法 |
CN106875437A (zh) * | 2016-12-27 | 2017-06-20 | 北京航空航天大学 | 一种面向rgbd三维重建的关键帧提取方法 |
EP3349176A1 (en) * | 2017-01-17 | 2018-07-18 | Facebook, Inc. | Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality |
CN107622244A (zh) * | 2017-09-25 | 2018-01-23 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN108364344A (zh) * | 2018-02-08 | 2018-08-03 | 重庆邮电大学 | 一种基于回环测试的单目实时三维重建方法 |
CN108537848A (zh) * | 2018-04-19 | 2018-09-14 | 北京工业大学 | 一种面向室内场景重建的两级位姿优化估计方法 |
CN108303099A (zh) * | 2018-06-14 | 2018-07-20 | 江苏中科院智能科学技术应用研究院 | 基于三维视觉slam的无人机室内自主导航方法 |
Non-Patent Citations (1)
Title |
---|
《Semantic Reconstruction: Reconstruction of Semantically Segmented 3D Meshes via Volumetric Semantic Fusion》;Junho Jeon Jinwoong Jung Jungeon Kim Seungyong Lee;《Computer Graphics Forum》;20181024;第37卷(第7期);25-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN109658449A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109658449B (zh) | 一种基于rgb-d图像的室内场景三维重建方法 | |
CN114782691B (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN110945565B (zh) | 利用概率面元地图的密集视觉slam | |
CN106940704B (zh) | 一种基于栅格地图的定位方法及装置 | |
Gallup et al. | Piecewise planar and non-planar stereo for urban scene reconstruction | |
Zhu et al. | Spatial-temporal fusion for high accuracy depth maps using dynamic MRFs | |
Pfeiffer et al. | Exploiting the power of stereo confidences | |
CN109377513B (zh) | 一种针对两视图的全局三维人体姿态可信估计方法 | |
CN113256698B (zh) | 一种具有深度预测的单目3d重建方法 | |
CN104820991B (zh) | 一种基于代价矩阵的多重软约束立体匹配方法 | |
KR20180088788A (ko) | 다중-방향성 카메라를 이용한 공간 매핑 | |
CN104517289B (zh) | 一种基于混合摄像机的室内场景定位方法 | |
CN109087323A (zh) | 一种基于精细cad模型的图像车辆三维姿态估计方法 | |
Yuan et al. | 3D reconstruction of background and objects moving on ground plane viewed from a moving camera | |
CN107610219A (zh) | 一种三维场景重构中几何线索感知的像素级点云稠密化方法 | |
KR101766823B1 (ko) | 불규칙한 조도 변화에 강건한 영상 기반 주행거리 측정 시스템 및 방법 | |
CN113920270B (zh) | 一种基于多视角全景的布局重建方法及其系统 | |
Furukawa et al. | One-shot entire shape acquisition method using multiple projectors and cameras | |
CN111198563B (zh) | 一种用于足式机器人动态运动的地形识别方法及系统 | |
US20240282051A1 (en) | Multiresolution truncated neural radiance fields | |
Buck et al. | Capturing uncertainty in monocular depth estimation: Towards fuzzy voxel maps | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
CN110782506B (zh) | 一种利用红外相机和深度相机融合构建栅格地图的方法 | |
CN114935316A (zh) | 基于光学跟踪与单目视觉的标准深度图像生成方法 | |
KR102181832B1 (ko) | 4d 영상 복원 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200710 Termination date: 20201203 |