CN113095371B - 一种面向三维重建的特征点匹配方法及系统 - Google Patents
一种面向三维重建的特征点匹配方法及系统 Download PDFInfo
- Publication number
- CN113095371B CN113095371B CN202110301050.3A CN202110301050A CN113095371B CN 113095371 B CN113095371 B CN 113095371B CN 202110301050 A CN202110301050 A CN 202110301050A CN 113095371 B CN113095371 B CN 113095371B
- Authority
- CN
- China
- Prior art keywords
- matching
- feature
- points
- pair
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012216 screening Methods 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 10
- 238000005286 illumination Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005498 polishing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向三维重建的特征点匹配方法及系统。本发明的特征点匹配方法步骤包括:1)输入待匹配的两视图图像或者多视图图像;对输入的每一图像执行特征点检测及语义特征提取,得到每幅图像对应的特征描述子;2)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选;3)采用RANSAC方法对步骤2)处理后保留的匹配对进行进一步的筛选,并得到最终的匹配对。本发明能够提升三维重建出的三维模型/场景的精度和质量。
Description
技术领域
本发明属于计算机图形图像处理、虚拟现实、软件技术领域,涉及一种面向三维重建的特征点匹配方法及系统。
背景技术
特征点匹配是基于多图像的三维重建系统中的重要环节,特征点匹配的质量对系统后续其他环节影响很大。面对不断增长的大规模三维场景的重建应用需求以及日益复杂的三维重建场景,对于特征点匹配质量的要求也越来越高,因此设计更加鲁棒的特征点方法服务于三维重建系统十分有意义。
在三维重建应用中,为了得到三维场景的完整信息,经常需要对不同视角的图像进行特征点匹配。当出现视角变化较大的情况(也叫宽基线问题)时,SIFT、SURF等特征点往往表现欠佳,因为这类特征点在设计时没有考虑仿射变换不变性的问题。除了常见的视角变化、光照变化以外,还有很多困难场景的例子:城市高层建筑重复出现的纹理结构(比如窗户屋顶)、季节变换带来的地面景观巨大变化(比如雪前雪后)、图像中后期加入的噪声干扰(比如日期水印)、图像中移动的物体对背景的遮挡干扰(比如行人车辆)等。还有一些场景综合了以上多种情形,比如利用航拍图像进行三维重建时为了保证模型的完整度,需要利用地面视角拍摄的图像对航拍模型进行细节补充。而当对航拍-地面图像进行特征点匹配时,除了有较大的视角差异以外,可能同时存在光照差异、尺度差异等情况,因此很难找到合适的方法实现目标。此外,误匹配筛选是特征点匹配最后环节,对于匹配准确性有重大的影响。
经典的特征点匹配流程包括:在原始图像上检测特征点、生成特征描述子(向量)、特征点匹配(对特征描述向量进行匹配)、对错误匹配对进行筛选(RANSAC)。
在特征点匹配环节,传统的方法通常需要对错误匹配进行筛除。在经典流程中使用SIFT等特征具备良好的旋转不变性、尺度不变性,同时在匹配过程中采用ratio test和RANSAC很好地筛掉了错误的匹配点。尽管经典流程已经适用于大部分常见的场景,但是还远远谈不上完美,对于现实中很多复杂的场景(光照条件变化、视角差异较大、重复纹理等)依然无能为力。在复杂场景下的特征点匹配结果通常包含大量的错误匹配,需要更加鲁棒的匹配对筛选方法。RANSAC作为一个标准方法,也有了许多的改进,DSAC(E.Brachmann,A.Krull,S.Nowozin,J.Shotton,F.Michel,S.Gumhold,and C.Rother.DSAC:Differentiable RANSAC for Camera Localization.arXiv,2016.)是RANSAC的可微版本,但是不太适合两视图场景。(Kwang Moo Yi,Eduard Trulls,Yuki Ono,Vincent Lepetit,Mathieu Salzmann,and Pascal Fua.Learning to find good correspondences.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018.)首次提出了用深度神经网络进行匹配对筛选,通过和RANSAC结合,尽管特征点匹配的准确率可以得到很大提升,但是依然存在准确性不足的问题。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种面向三维重建的特征点匹配方法及系统。
本发明的技术方案为:
一种面向三维重建的特征点匹配方法,其步骤包括:
1)输入待匹配的两视图图像或者多视图图像;对输入的每一图像执行特征点检测及语义特征提取,得到每幅图像对应的特征描述子;
2)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选;
3)采用RANSAC方法对步骤2)处理后保留的匹配对进行进一步的筛选,并得到最终的匹配对。
进一步的,得到所述特征描述子的方法为:
1-1)利用高斯差分金字塔从输入图像中检测并提取出亚像素级别的特征点及其主方向;
1-2)训练一个L2-Net网络,用于将特征点所对应的局部图像区域映射成特征向量;
1-3)采用FCN语义特征提取网络,从输入图像中提取具有高层语义信息的特征向量;
1-4)将步骤1-1)所得特征向量与步骤1-3)所得特征向量进行融合,得到具备多尺度上下文信息的特征描述子。
进一步的,首先建立高斯图像金字塔并对高斯图像金字塔上相邻层图像相减得到所述高斯差分金字塔;然后根据所述高斯差分金字塔上的极值位置确定特征点的位置。
进一步的,确定特征点的位置的方法为:将高斯差分金字塔中每层图像上每个像素点的值与其邻接的像素值进行比较,得到图像尺度空间维度和位置空间维度上的极值;然后用曲线函数对所得极值进行拟合得到特征点的位置。
进一步的,所述匹配对筛选网络包括multi-KNN模块、由12个残差神经网络模块依次连接构成的网络基础架构和输出层,所述匹配对筛选网络对待配对图像的特征点进行筛选的方法为:
2-1)对于输入的两张图像中的N对匹配特征点的集合M={m1,m2,...,mN},所述multi-KNN模块对每一对匹配特征点(x1,y1,x2,y2),计算向量(x1,y1,u,v)间的欧氏距离,并利用kd树来寻找K近邻,其中u=x2-x1,v=y2-y1;(x1,y1)与(x2,y2)分别是第一幅图像与第二幅图像中的特征点位置;然后将不同K近邻结果结合,得到一个特征融合向量并输入到所述网络基础架构;
2-2)所述网络基础架构根据所述特征融合向量对匹配特征点进行分类,输出N对匹配特征点的权重向量w=(w1,w2,...,wN),当第i对匹配点的权重wi=0时,代表第i对匹配点是错误匹配;
2-2)所述输出层根据权重向量w得到正确匹配对的集合Minlier。
进一步的,训练所述匹配对筛选网络的损失函数为Loss=Losscls+λLossgeo;其中, 为所述匹配对筛选网络根据集合M中的匹配对以及权重向量w预测得到的本质矩阵,E为本质矩阵的真实值;S是与二元交叉熵H结合使用的Logistic函数,yi∈{0,1}是第i匹配对的真实值标签,αi是用来平衡第i对匹配特征点的权值,oi是第i对匹配特征点的分类结果。
进一步的,K取值为{1,4,8,12}。
一种面向三维重建的特征点匹配系统,其特征在于,包括特征提取模块、匹配对筛选网络和匹配对确定模块;其中,
所述特征提取模块,用于对输入的每一图像执行特征点检测及语义特征提取,得到每幅图像对应的特征描述子;
所述匹配对筛选网络,用于对待配对图像的特征点进行匹配和筛选;
匹配对确定模块,用于采用RANSAC方法对所述匹配对筛选网络处理后保留的匹配对进行进一步的筛选,并得到最终的匹配对。
一种三维模型重建方法,其特征在于,基于上述方法得到的多张多视图图像的匹配对作为三维模型重建系统的输入,进行三维模型重建,得到重建后的三维模型。
与现有技术相比,本发明的积极效果为:
本发明设计了新型的基于深度神经网络的更加鲁棒的特征点匹配方法。针对实际的基于多视图图像的三维重建系统,本方法可以代替传统特征点匹配方法并且本发明中的特征点匹配、筛选方法具有更高的精度和鲁棒性,因此能够提升三维重建出的三维模型/场景的精度和质量,因为三维重建严重依赖于特征点定位精准度。本方法对于所拍摄场景中光照、视角变化等困难条件也具有良好的适用性。本方法中所设计的一个通用的匹配对筛选网络,对初始匹配对进行分类并输出正确的匹配结果,可以适用于与各种特征点提取方法结合使用。利用深度学习进行误匹配筛选具有很大的价值,通过和传统RANSAC方法结合,可以给整个特征点匹配流程带来更大收益。
附图说明
图1为本发明面向三维重建系统的特征点匹配筛选网络的流程图;
图2为语义特征点网络流程图;
图3为高斯差分金字塔(DOG)构建过程图;
图4为L2-Net采用的网络结构示意图;
图5为结合局部邻域信息的匹配对筛选网络图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本方法的基本流程如图1所示:
1)输入待匹配的两视图图像或者多视图图像;
2)对输入图像执行特征点检测及语义特征提取,每幅图像都得到1×128大小的特征描述子;(该步骤细节见第1节);
3)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选;(该步骤细节见第2节);
4)采用RANSAC方法对步骤3)处理后保留的匹配对进行进一步的筛选,并得到最终的匹配对;(该步骤细节见第3节);
利用上述步骤,得到多张多视图图像的匹配对作为三维重建系统的输入,并执行三维重建系统则可得到重建后的三维模型。(该步骤不是本系统的核心内容,具体的三维重建方法不做讨论)。
1.特征点检测及语义特征提取
针对三维重建系统,所检测的特征点需要具有亚像素级别的定位准确性,同时需要鲁棒的特征描述。因此,本发明设计的语义特征点网络应用到三维重建系统中,必须解决特征点定位精准度的问题。传统方法在特征点检测阶段定位更加精确,而深度学习可以结合高层语义信息得到更加鲁棒的特征描述子。所以本发明将两者的优势进行结合,设计了如图2所示的语义特征点网络来进行单张图像的特征点的检测及语义特征点提取。
1)利用高斯差分金字塔(DOG)从输入图像中检测并提取出亚像素级别的特征点,以及特征点的主方向;(1.1部分)
2)训练一个L2-Net网络将特征点所对应的局部图像区域(patch)映射成128维的特征向量;(1.2部分)
3)采用FCN语义特征提取网络,从输入图像中提取具有高层语义信息的128维特征向量;(1.3部分)
4)将两个128维向量(1×128)进行融合,这样就得到了具备多尺度上下文信息的特征描述子。
上述语义特征点网络兼具特征点定位准确性和特征鲁棒性。
1.1DOG
本发明构建高斯差分金字塔(Difference of Gaussian,简称DOG),在计算上就是对高斯图像金字塔上相邻层图像相减,如图3所示。
特征点的位置就是由高斯差分金字塔上的极值位置构成。为了寻找极值点,将高斯差分金字塔中每层图像上每个像素点的值和它上下左右邻接的26个像素进行比较,得到图像尺度空间维度和位置空间维度上的极值。同时,为了得到更为鲁棒的结果,还需要去除边缘响应。除此以外,由于像素点之间是离散的,得到的局部极值点并非真正的极值点,真正的极值点可能在“亚像素”的位置上,所以最后用曲线函数拟合得到特征点的精确位置。
通过尺度空间检测的特征点已经具备了一定的尺度不变性,为了使特征点面对旋转变化同样具备不变性,需要给每个特征点指定一个方向。具体方法就是统计以每一个特征点为中心,一定半径的邻域内的像素梯度信息,得到的梯度方向峰值就是特征点的主方向。
1.2L2-Net神经网络
采用L2-Net网络(Yurun Tian,Bin Fan,Fuchao Wu,et al.L2-Net:Deeplearning of discriminative patch descriptor in euclidean space.In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2017,6.)(如图4所示)实现单个特征点局部patch到128维描述子向量的映射。输入的patch大小一般为32×32,也就是实现了把32×32图像patch转换为128维的特征向量的功能。
1.3FCN语义特征提取
从输入的一整张原始图像出发,通过FCN语义特征提取网络,提取出整张图像逐像素的语义信息。
全卷积神经网络FCN(J.Long,E.Shelhamer,and T.Darrell.Fullyconvolutional networks for semantic segmentation.In CVPR,2015.):将卷积神经网络CNN最后阶段的全连接层全部替换成了卷积层。在初始阶段,FCN先对输入的图片(大小为H×W×C,其中H和W为图片的长和宽,而C是图片的通道数,输入图片的通道是RGB三维信息)进行常规的卷积和池化操作,使得特征图的长宽越来越小,而通道数越来越高,直至特征图的大小达到一定的程度(比如h=H/16,w=W/16,c=1024),此时特征图中每个像素都有足够的感受野包含邻域图像中的语义信息,同时长宽不至于太小影响最后的分割效果。在最后阶段,FCN则使用上采样操作将变小的特征图还原为原图大小(H×W×C),并通过原图大小的卷积核输出逐像素的语义类别预测结果。
通过对上述的语义分类图不断地进行3×3的卷积,并使用最大值池化层进行下采样,可以得到不同尺度的特征图,最后输出的Fdesc是一个长宽为H×W维度为128的3D张量,每个特征点也是128维的向量。
2.结合局部邻域信息的匹配对筛选网络
两个特征向量所表示的特征点之间的匹配方式有很多,最基本的有根据欧氏距离进行匹配,根据向量之间夹角的余弦值进行匹配。具体到两张图的所有特征点匹配问题,为了匹配图像I1和I2,我们可以采用最近邻的方式,即根据I1中的特征描述子生成一个kd-tree,然后针对I2中每一个待匹配特征点在kd-tree中查找其最邻近的值,从而完成整个图像之间的匹配,并得到匹配点的集合。上述方法皆为特征点匹配的经典方法。
为了得到良好的匹配结果,匹配对筛选是十分重要的步骤。由于光照、视角条件的变化以及场景中重复出现的纹理,错误的匹配通常是无法避免的。在经典的特征点匹配流程中,广泛采用RANSAC算法对错误匹配对进行筛除。给定初始匹配对集合,RANSAC通过估计几何模型对匹配进行一致性检验,最终输出符合条件的内点。然而面对很多复杂的情况,RANSAC也无法给出较好的结果。
2.1匹配对筛选神经网络基本原理
本发明将匹配对筛选看作一个特殊的点云分割问题。点云分割中的点主要由其空间坐标(x,y,z)来表示,针对不规则分布的空间点云,寻找特定的局部特征和分布规律,最终输出每个空间点的语义类别。如果将特征点匹配集合中的每一对匹配特征点(x1,y1,x2,y2)也看作一个特殊的四维点,其中x1,y1与x2,y2分别是第一幅图像与第二幅图像中的特征点位置,那么整个匹配对集合也可以看作不规则分布的点云。这样匹配对筛选过程就和点云分割一样,通过寻找特定的几何分布规律和局部特征,最终输出每个匹配点的类别——正确匹配/错误匹配。
本发明将所设计的神经网络简称为PointNet-CN。它在类似PointNet网络结构的基础上加入了上下文正则化模块(ContextNormalization,简称CN)。该网络输入初始匹配对集合,通过网络对每个匹配对进行分类,输出[0,1)范围内的值,其中取值为0代表该匹配对是错误匹配。匹配点的运动(u,v)被定义为第二幅图像中的特征点位置相对第一幅图像的偏移,即u=x2-x1,v=y2-y1,和计算机视觉中光流的概念有点相似。局部邻域内匹配点的运动应该是规律性的。
综合上述分析,本发明设计了可以结合局部邻域信息的匹配对筛选网络。输入两张图像中N对原始匹配的集合:
利用匹配对筛选网络对M进行分类,网络最后一层的输出为o。最后输出N对匹配的权重向量w:
o=fCNN(M) (4.2)
w=tanh(ReLU(o)),w=(w1,w2,...,wN) (4.3)其中wi∈[0,1),当wi=0时代表第i对匹配点是错误匹配,这样就可以得到正确匹配对的集合Minlier∈M。
2.2网络结构
PointNet-CN网络的整体网络结构如图5所示,其中multi-KNN是本发明设计的结合邻域信息的模块。
K近邻是寻找邻近点最常见的方法。在匹配对筛选问题中,针对每一对匹配特征点(x1,y1,x2,y2),本发明计算向量(x1,y1,u,v)间的欧氏距离,并利用kd树(kd-tree)来寻找K近邻,其中u=x2-x1,v=y2-y1是前面提到的匹配点坐标偏移。之所以采用u,v是为了更好地挖掘匹配点局部邻域信息一致性,也就是说邻域内的点不仅要在空间上相邻,也要在运动趋势上相近。
K大小的选择是K近邻中的关键。在实际测试中,如果K太小则难以获取足够的邻域信息,K太大会导致邻域内包含错误的信息。因此本发明设计了multi-KNN模块,将K={1,4,8,12}邻域信息结合到一起,其中K=1是为了强调原始输入信息的重要性。具体到网络细节,对于N对匹配特征点,输入的是N×1×4向量,其中4代表构成匹配对的2个特征点,每个特征点的坐标是一个2维向量,所以构成4维向量。每对匹配结合K近邻信息后,获得N×K×4向量,再通过卷积层映射成N×1×32向量。最后再将不同K近邻结果结合,输出N×1×128向量。
网络的基础架构部分由12个残差神经网络模块组成,通过对特征进行整合实现匹配对的分类。每个模块由CN层,BN与ReLU层,以及卷积层组成。其中CN是上下文正则化模块(Context Normalization,简称CN)(Kwang Moo Yi,Eduard Trulls,Yuki Ono,VincentLepetit,Mathieu Salzmann,and Pascal Fua.Learning to find goodcorrespondences.In Proceedings of the IEEE Conference on ComputerVision andPattern Recognition,2018.),在不同匹配对之间计算方差、均值进行规范化,从而建立彼此之间的联系。其他层都是卷积神经网络中常见的操作层。最后网络输出N×1的权重向量,以此确定正确匹配集合Minlier。
2.3损失函数
基于求解基础矩阵或本质矩阵的八点法。给定匹配对集合M中的8对特征匹配,可以根据对极约束构建线性方程组,本质矩阵E就可以由该方程求解得到。为了更好地应用在深度学习中,采用加权八点法(Kwang Moo Yi,Eduard Trulls,Yuki Ono,VincentLepetit,MathieuSalzmann.and Pascal Fua.Learning to find goodcorrespondences.In Proceedings of the IEEE Conference on ComputerVision andPattern Recognition,2018.),可以根据M中更多的匹配对以及网络输出的权重向量w得到预测的本质矩阵如公式4.4所示。这样就可以用端到端的方式对本质矩阵进行回归预测了,而且由于考虑了M中每个匹配对的贡献,所以加权八点法面对错误匹配是比较鲁棒的。
另一方面,针对网络输出的结果o,本发明可以定义分类损失函数,如公式4.6所示。其中S是与二元交叉熵H结合使用的Logistic函数,yi∈{0,1}是第i对匹配的真实值标签(yi=1代表正确匹配),αi是用来平衡第i个匹配对的权值,oi是第i个匹配对的分类结果。
最后,本发明的网络可以综合分类损失函数和几何损失函数进行训练,如公式4.7所示。
Loss=Losscls+λLossgeo (4.7)
2.4网络训练
针对光照、视角条件复杂的室外场景,本发明采用YFCC100M数据集(B.Thomee,D.Shamma,G.Friedland,B.Elizalde,K.Ni,D.Poland,D.Borth,and L.Li.YFCC100M:theNew Data in Multimedia Research.In CACM,2016.)作为训练数据集。YFCC100M包含1亿张可公开访问的互联网图片,并被后续工作整理成72个适用于三维重建的子集,每个子集包含从不同视角拍摄的同一个旅游地标场景的图片。本发明使用其中68个场景作为训练数据集,并按照0.6/0.2/0.2的比例划分为训练集/验证集/测试集,剩下的4个场景用于评测网络的实际泛化能力。为了在每个场景中选择有效的图像对,本发明随机抽取两幅图像,并检查它们在稀疏重建模型中是否有足够数量的重叠3D点。最后,本发明使用(J.Heinly,J.Schoenberger,E.Dunn,and J.-M.Frahm.Reconstructing the World in Six Days.InCVPR,2015.)提供的相机姿态和稀疏重建模型来生成图像对之间特征点匹配的真实值(ground truth)。
训练时输入的匹配数目N=2000,是由SIFT得到的匹配对。而在实际使用中网络输入的匹配数目N可以取任意值。本发明采用Adam优化器对Loss进行优化。初始学习率设为10-4,网络训练框架采用PyTorch。为了网络更好地收敛,几何损失函数Lossgeo的权重λ先设置为0,经过20k轮迭代之后,再将λ设置为0.1完成剩下的训练过程。
3.RANSAC
在得到了经过初步筛选的特征匹配点对的集合M0,但是由于实际的图像中可能色彩纹理比较丰富,因此有很多相似的特征点被错误的匹配,所以M0中还有部分误匹配存在,同时也有部分正确的匹配没有包含在M0中。对于没有包含在M0中的匹配对,本发明没有办法找回,但是可以对于M0中的误匹配,本发明可以想办法将它们找出。
对匹配点进行筛选,保留正确稳定的匹配点对,对于后续的其他环节非常重要,比如三维重建中误匹配对于重建质量影响就很大。RANSAC(Martin A.Fischler,RobertC.Bones.Random sample consensus:a paradigm for model fitting withapplications to image analysis and automated cartography[J].Commun.ACM.1981,24(6):381-395.)的思想是,对原始数据进行N次抽样,用每次抽样的数据样本去估计一个符合样本的模型,如果抽样次数N足够大的话,总会有某一次抽样的数据样本中不包含错误值,那么这次抽样估计的模型则是最符合整体数据的模型,再用该正确的模型对其他数据进行筛选,即可以找到所有的正确数据。RANSAC是一个算法框架,可以应用于很多场合,关键在于需要估计的模型该如何选择。在特征点匹配问题中,通常用对极几何中的基础矩阵F和单应矩阵H作为模型。用RANSAC进行匹配点对筛选的问题,利用基础矩阵F作为模型的RANSAC算法步骤如下:
(1)输入经过初步筛选后的特征匹配点对集合M0;
(2)根据自适应方法对M0进行N次随机抽样;
(3)用8对特征匹配点对计算基础矩阵F,得到两幅图像几何关系;
(4)对于其他的特征点对(p1,p2),根据上一步求得的几何模型可以得到p1在图像I2中的极线,计算p2极线的距离d,如果d小于一定的阈值则视为正确匹配;
(5)选择具有最大内点数的F,输出符合该几何一致性约束的匹配对M1。
从M0到M1,本发明加入了几何一致性约束剔除了部分误匹配,对于后续的三维重建等效果有着较大的提升。
本发明针对三维重建的语义特征点匹配筛选网络兼具定位准确性和特征鲁棒性,在三维重建数据集中相比之前有了较大的提升,可以代替传统特征点算法应用在实际系统中。
本发明首先单独对比RANSAC算法与本发明的匹配对筛选网络,两者均输入原始特征点匹配,且不加任何后处理。如果不加ratio test对原始特征点匹配进行预处理,RANSAC算法的效果非常差。尽管匹配对筛选网络输出也有一些错误匹配,但是总体准确性要更高。
本发明接着对比完整的匹配对筛选流程,传统方法是ratio test和RANSAC的组合,本发明深度学习方法是匹配对筛选网络和RANSAC组合。在完整的匹配对筛选流程中,两者表现都比较好,其中传统方法经过筛选得到28对匹配,本发明的深度学习方法得到65对匹配。由此可见,在匹配准确性都比较高的前提下,本发明的方法可以保留更多的正确匹配。
本发明先在单一目标场景的数据集进行测试,这是三维重建中最常见的场景之一。通常是对单一目标(小物体,雕像,建筑等)从各个角度进行拍摄,包含一定的视角、光照变化,能够比较直观地反映三维重建系统的能力。为了说明情况,本发明主要选取一些比较困难的重建场景进行对比测试。
对于雕像场景,拍摄方式主要是环绕拍摄。第一组场景包含16张图像,其中利用SIFT特征点的方法恢复了其中9个相机,稀疏点数量为1626,而本发明的方法恢复了所有16个相机,稀疏点数量为3699。第二组场景包含28张图像,其中利用SIFT特征点的方法恢复了其中22个相机,稀疏点数量为4891,而本发明的方法恢复了所有28个相机,稀疏点数量为7423。第三组场景包含44张图像,其中利用SIFT特征点的方法恢复了39个相机,稀疏点数量为10423,而本发明的方法恢复了41个相机,稀疏点数量为16477。总的来说对于一些困难的重建场景,本发明的方法可以注册更多的图像,从而使得最后得到的点云模型更加完整。
如果场景分别来自于室内和室外,且包含光照和视角差异较大的情况。传统SIFT特征点方法和本发明的方法都恢复出了大部分的相机,但是传统方法得到的点云模型出现了交错重叠的错误情况,而本发明的方法得到的点云模型则是完整一体的。由此可见,更加鲁棒的特征点匹配,可以更好地面对场景中光照和视角变化。
对于纹理复杂的场景。传统的SIFT特征点面对重复的纹理结构,出现了很多错误的匹配,导致最后的稀疏重建完全失败。而本发明的方法对于复杂纹理也有一定的鲁棒性,可以得到相对完整的点云模型。
对于路径规划良好的航拍场景,图片之间重叠面积较大,传统方法表现也比较好,但是本发明的方法得到的匹配点相对更加密集。对于重叠面积较小,视角差异较大的场景,本发明的方法比传统方法更加鲁棒一些。
由上述结果可知,通过结合传统方法的定位准确性和深度学习方法的鲁棒性,将语义特征点网络应用到三维重建任务,并在三维重建数据集中取得很好的效果。对于单一目标场景的重建任务,尤其是比较困难的场景,本发明的方法主要有以下两点优势:一是可以注册更多的图像,从而使最后得到的点云模型更加完整;二是可以更好地面对场景中光照和视角变化,对于重复纹理也有一定的鲁棒性。对于航拍场景的重建任务,当场景中同时存在俯视视角和倾斜视角时,本发明的方法面对这种较大的视角变化更为鲁棒,最后得到的点云模型兼具完整性和良好细节。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
Claims (8)
1.一种面向三维重建的特征点匹配方法,其步骤包括:
1)输入待匹配的两视图图像或者多视图图像;对输入的每一图像执行特征点检测及语义特征提取,得到每幅图像对应的特征描述子;
2)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选;其中,所述匹配对筛选网络包括multi-KNN模块、由12个残差神经网络模块依次连接构成的网络基础架构和输出层,所述匹配对筛选网络对待配对图像的特征点进行筛选的方法为:2-1)对于输入的两张图像中的N对匹配特征点的集合M={m1,m2,…,mN},所述multi-KNN模块对每一对匹配特征点(x1,y1,x2,y2),计算向量(x1,y1,u,v)间的欧氏距离,并利用kd树来寻找K近邻,其中u=x2-x1,v=y2-y1;(x1,y1)与(x2,y2)分别是第一幅图像与第二幅图像中的特征点位置;然后将不同K近邻结果结合,得到一个特征融合向量并输入到所述网络基础架构;2-2)所述网络基础架构根据所述特征融合向量对匹配特征点进行分类,输出N对匹配特征点的权重向量w=(w1,w2,…,wN),当第i对匹配点的权重wi=0时,代表第i对匹配点是错误匹配;2-3)所述输出层根据权重向量w得到正确匹配对的集合Minlier;
3)采用RANSAC方法对步骤2)处理后保留的匹配对进行进一步的筛选,并得到最终的匹配对。
2.如权利要求1所述的方法,其特征在于,得到所述特征描述子的方法为:
1-1)利用高斯差分金字塔从输入图像中检测并提取出亚像素级别的特征点及其主方向;
1-2)训练一个L2-Net网络,用于将特征点所对应的局部图像区域映射成特征向量;
1-3)采用FCN语义特征提取网络,从输入图像中提取具有高层语义信息的特征向量;
1-4)将步骤1-1)所得特征向量与步骤1-3)所得特征向量进行融合,得到具备多尺度上下文信息的特征描述子。
3.如权利要求2所述的方法,其特征在于,首先建立高斯图像金字塔并对高斯图像金字塔上相邻层图像相减得到所述高斯差分金字塔;然后根据所述高斯差分金字塔上的极值位置确定特征点的位置。
4.如权利要求3所述的方法,其特征在于,确定特征点的位置的方法为:将高斯差分金字塔中每层图像上每个像素点的值与其邻接的像素值进行比较,得到图像尺度空间维度和位置空间维度上的极值;然后用曲线函数对所得极值进行拟合得到特征点的位置。
6.如权利要求1所述的方法,其特征在于,K取值为{1,4,8,12}。
7.一种面向三维重建的特征点匹配系统,其特征在于,包括特征提取模块、匹配对筛选网络和匹配对确定模块;其中,
所述特征提取模块,用于对输入的每一图像执行特征点检测及语义特征提取,得到每幅图像对应的特征描述子;
所述匹配对筛选网络,用于对待配对图像的特征点进行匹配和筛选;其中,所述匹配对筛选网络包括multi-KNN模块、由12个残差神经网络模块依次连接构成的网络基础架构和输出层,所述匹配对筛选网络对待配对图像的特征点进行筛选的方法为:2-1)对于输入的两张图像中的N对匹配特征点的集合M={m1,m2,…,mN},所述multi-KNN模块对每一对匹配特征点(x1,y1,x2,y2),计算向量(x1,y1,u,v)间的欧氏距离,并利用kd树来寻找K近邻,其中u=x2-x1,v=y2-y1;(x1,y1)与(x2,y2)分别是第一幅图像与第二幅图像中的特征点位置;然后将不同K近邻结果结合,得到一个特征融合向量并输入到所述网络基础架构;2-2)所述网络基础架构根据所述特征融合向量对匹配特征点进行分类,输出N对匹配特征点的权重向量w=(w1,w2,…,wN),当第i对匹配点的权重wi=0时,代表第i对匹配点是错误匹配;2-3)所述输出层根据权重向量w得到正确匹配对的集合Minlier;
匹配对确定模块,用于采用RANSAC方法对所述匹配对筛选网络处理后保留的匹配对进行进一步的筛选,并得到最终的匹配对。
8.一种三维模型重建方法,其特征在于,基于权利要求1所述方法得到的多张多视图图像的匹配对作为三维模型重建系统的输入,进行三维模型重建,得到重建后的三维模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301050.3A CN113095371B (zh) | 2021-03-22 | 2021-03-22 | 一种面向三维重建的特征点匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301050.3A CN113095371B (zh) | 2021-03-22 | 2021-03-22 | 一种面向三维重建的特征点匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095371A CN113095371A (zh) | 2021-07-09 |
CN113095371B true CN113095371B (zh) | 2023-01-17 |
Family
ID=76668896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110301050.3A Active CN113095371B (zh) | 2021-03-22 | 2021-03-22 | 一种面向三维重建的特征点匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095371B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723969A (zh) * | 2022-03-31 | 2022-07-08 | 福建农林大学 | 基于多尺度稀疏语义动态图的高质量特征匹配选择方法 |
CN114998773B (zh) * | 2022-08-08 | 2023-02-17 | 四川腾盾科技有限公司 | 适用于无人机系统航拍图像的特征误匹配剔除方法及系统 |
CN116563583B (zh) * | 2023-07-07 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 一种图像匹配的方法、地图信息的更新方法以及相关装置 |
CN117253156B (zh) * | 2023-11-17 | 2024-03-29 | 深圳元戎启行科技有限公司 | 基于图像分割的特征描述提取方法、装置、终端及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722731A (zh) * | 2012-05-28 | 2012-10-10 | 南京航空航天大学 | 一种基于改进sift算法的高效图像匹配方法 |
CN108416801A (zh) * | 2018-02-28 | 2018-08-17 | 哈尔滨工程大学 | 一种面向立体视觉三维重建的Har-SURF-RAN特征点匹配方法 |
CN111709980A (zh) * | 2020-06-10 | 2020-09-25 | 北京理工大学 | 基于深度学习的多尺度图像配准方法和装置 |
CN112308128A (zh) * | 2020-10-28 | 2021-02-02 | 闽江学院 | 一种基于注意力机制神经网络的图像匹配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7382897B2 (en) * | 2004-04-27 | 2008-06-03 | Microsoft Corporation | Multi-image feature matching using multi-scale oriented patches |
-
2021
- 2021-03-22 CN CN202110301050.3A patent/CN113095371B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722731A (zh) * | 2012-05-28 | 2012-10-10 | 南京航空航天大学 | 一种基于改进sift算法的高效图像匹配方法 |
CN108416801A (zh) * | 2018-02-28 | 2018-08-17 | 哈尔滨工程大学 | 一种面向立体视觉三维重建的Har-SURF-RAN特征点匹配方法 |
CN111709980A (zh) * | 2020-06-10 | 2020-09-25 | 北京理工大学 | 基于深度学习的多尺度图像配准方法和装置 |
CN112308128A (zh) * | 2020-10-28 | 2021-02-02 | 闽江学院 | 一种基于注意力机制神经网络的图像匹配方法 |
Non-Patent Citations (3)
Title |
---|
Tobias Plötz etc..Neural Nearest Neighbors Networks.《arXiv:1810.12575v1》.2018,全文. * |
杨雨薇等.一种改进的SIFT图像检测与特征匹配算法.《云南大学学报(自然科学版)》.2017,(第03期),全文. * |
殷锡亮等.基于RBF的视觉定位图像局部特征匹配算法.《移动通信》.2018,(第08期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113095371A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095371B (zh) | 一种面向三维重建的特征点匹配方法及系统 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN111311666B (zh) | 一种融合边缘特征和深度学习的单目视觉里程计方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN113159043B (zh) | 基于语义信息的特征点匹配方法及系统 | |
Wang et al. | Multi-scenes image stitching based on autonomous driving | |
CN108280411A (zh) | 一种具有空间变换能力的行人搜索方法 | |
Košecka | Detecting changes in images of street scenes | |
CN113610905B (zh) | 基于子图像匹配的深度学习遥感图像配准方法及应用 | |
CN110378995B (zh) | 一种利用投射特征进行三维空间建模的方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
Kim et al. | Unpaired cross-spectral pedestrian detection via adversarial feature learning | |
Zhang et al. | Boosting transferability of physical attack against detectors by redistributing separable attention | |
Chen et al. | Colorization of infrared images based on feature fusion and contrastive learning | |
CN115202477A (zh) | 基于异构孪生网络的ar观景互动方法及系统 | |
CN113011359A (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
Li et al. | Efficient properties-based learning for mismatch removal | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
Cui et al. | 3D reconstruction with spherical cameras | |
Lyra et al. | Development of an efficient 3D reconstruction solution from permissive open-source code | |
Xu et al. | A two-stage progressive shadow removal network | |
Karpur et al. | Lfm-3d: Learnable feature matching across wide baselines using 3d signals | |
CN113763474A (zh) | 一种基于场景几何约束的室内单目深度估算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |