CN115131245A - 一种基于注意力机制的点云补全方法 - Google Patents
一种基于注意力机制的点云补全方法 Download PDFInfo
- Publication number
- CN115131245A CN115131245A CN202210772125.0A CN202210772125A CN115131245A CN 115131245 A CN115131245 A CN 115131245A CN 202210772125 A CN202210772125 A CN 202210772125A CN 115131245 A CN115131245 A CN 115131245A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- module
- output
- matrix
- incomplete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 241001479434 Agfa Species 0.000 claims abstract 5
- 230000002776 aggregation Effects 0.000 claims description 83
- 238000004220 aggregation Methods 0.000 claims description 83
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 7
- 102100028162 ATP-binding cassette sub-family C member 3 Human genes 0.000 claims description 6
- 101000986633 Homo sapiens ATP-binding cassette sub-family C member 3 Proteins 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000013441 quality evaluation Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims 1
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000007670 refining Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于注意力机制的点云补全方法,首先获取点云补全算法所需的数据集,将残缺点云送入编码器提取得到残缺点云的特征向量,再将特征向量送入解码器中,生成完整的点云;用生成点云和真实点云之间的倒角距离对生成的点云进行质量评估,作为损失函数指导更新神经网络参数;最后将实际扫描的点云数据送入训练好的编码器和解码器,生成完整的点云。本发明引入AGFA模块对已有几何结构进行特征提取,保证了补全后的点云形状的真实性和更好的细节结构,采用CGFA模块,在生成点云阶段,可以更好的参考前置粗略点云的特征,在低分辨率点云的基础上生成更高质量的高分辨率点云,补全后点云表面光滑,噪声点较少,符合真实点云的分布。
Description
技术领域
本发明涉及一种三维点云数据的形状补全方法,特别是用注意力机制对残缺的点云形状进行补全的方法。
背景技术
在自动驾驶、机器人、遥感和医疗等领域,3D数据有着越来越重要的应用。随着数据采集技术的快速发展,人们对于3D传感器有着更为广泛的使用,其中包括各种类型的3D扫描仪、激光雷达和RGB-D相机(如Kinect、RealSense和Apple Depth相机)。三维数据通常可以用深度图像(depth images)、点云(point clouds)、网格(mesh)和体素(volumetricgrid)等数据格式表示。其中点云凭借其能保持三维空间原有几何信息的优势,成为许多三维场景理解任务(目标分类、目标检测、目标分割等)的首选数据格式。然而,由于3D传感器视角和分辨率的限制以及干扰物的遮挡等原因,获取的点云往往是高度稀疏且残缺的点云,造成物体几何和语义信息的丢失,影响后续点云场景识别与理解工作的效果。因此,从残缺的点云中重构出完整的点云,即点云补全,如图1(a)、(b)所示,在实际应用中具有十分重要的意义。
传统的三维形状补全工作主要有几何规律补全和模板匹配补全两种方法(刘心溥,马燕新等.嵌入Transformer结构的多尺度点云补全[J].中国图象图形学报,2022,27(02):538-549)。几何规律补全方法中,Zhao等人利用平滑插值算法来补全三维形状中的缺失部分("A robust hole-filling algorithm for triangular mesh."Visual Computer23,987–997.2007,doi:10.1007/s00371-007-0167-y)。Mitra等人识别输入形状中的对称轴和重复结构("Symmetry in 3d geometry:Extraction and applications."inComputer Graphics Forum,32:1-23.2013,doi:10.1111/cgf.12010),以便利用对称性和重复性规律进行形状补全。模板匹配补全方法中,Li等人通过将输入形状与形状数据库中的模型进行匹配以实现补全操作("Database-Assisted Object Retrieval for Real-Time 3D Reconstruction."Computer Graphics Forum,34(2):435-446.2015,doi:10.1111/cgf.12573)。这些传统形状补全方法要求输入必须是尽量完整的,即对形状的残缺度有一个较高的下限要求,并且对新物体和环境噪声的鲁棒性较差。
近年来,随着神经网络技术的发展和计算机算力的提升,基于深度学习技术的点云补全算法开始涌现,其主要分为基于体素网格的方法、基于点的多层感知机的方法和基于图卷积的方法三类。
体素是体积像素(volume pixel)的简称,概念上类似于二维空间的最小单位——像素。体积像素一如其名,是数字数据于三维空间分区上的最小单位,应用于三维成像、科学数据与医学视频等领域。将点云数据分割成一个个体素,使得更方便在点云数据上应用三维卷积(3D-CNN)操作。GRNet(Gridding Residual Network)就是基于体素网格的点云补全方法的代表(Xie H Z,Yao H X,:Gridding residual network for dense point cloudcompletion[C]//Proceedings of European Conference on Computer Vision.2020)。在体素化层,其首先使用插值函数对点所在的三维网格单元的八个顶点进行加权,测量点云的几何关系,然后,利用三维卷积操作学习点云形状和空间特征,从而允许网络补全不完整点云的缺失部分。在反体素化层,其通过将每个3D网格单元替换为坐标为网格单元八个顶点的加权和的新点,将输出3D网格转换为完整点云。虽然其网络引入了三维卷积操作,提取了点云的细节特征,但是体素化的过程带来了较大的计算开销,限制了更高分辨率点云的生成,不利于点云补全算法的实用化。
基于点的多层感知机的方法开创者是PointNet网络,其直接将点云作为输入,使用多个全连接网络(MLP:Multilayer Perceptron)独立地逐点学习点云特征,并在最后使用最大值池化操作提取全局特征。由于最大值函数属于对称函数,所以PointNet较好地应对了点云排列的置换不变性问题。Wentao Yuan等人提出的点补全网络(PCN:PointCompletion Network)是应用PointNet思想的首批算法之一(W.Yuan,T.Khot,"PCN:PointCompletion Network,"2018International Conference on 3D Vision(3DV),2018,pp.728-737,doi:10.1109/3DV.2018.00088)。PCN直接对原始点云进行操作,而不需要任何点云数据的结构假设先验信息。其采用编解码网络的设计,在编码器端,PCN采用串联的两层PointNet结构提取残缺点云的特征信息,在解码器端,PCN采用先粗略后精细的点云补全模式,先由全连接层生成粗略点云,后经流形拟合操作生成精细化点云。虽然PointNet网络首次直接在点云层面上使用神经网络算法,提升了计算效率,但是其只考虑了全局结构特征,而忽略了点云的局部细节特征,并且最大值池化函数造成了一定的信息损失,制约了算法的效能。
图神经网络是近期新兴的神经网络算法,其点和边的拓扑结构自然地可以适用在点云和其邻域结构中。DGCNN是点云中运用图神经网络的代表工作(Wang,Yue;Sun,.Dynamic Graph CNN for Learning on Point Clouds[J].ACM Transactions onGraphics,2019,Vol.38(5):146),其网络结构和PointNet的相似,只是对其中的提取特征的结构修改为了边卷积(EdgeConv),在特征维度根据欧氏距离选取点云的邻域来进行特征聚合,解决了PointNet所没有的处理局部特征的问题。但是其没有摆脱欧氏距离的限制,难以对点云的邻域进行充分的查询,限制了点云局部特征提取的能力。
发明内容
本发明的目的是提供一种基于注意力机制的点云补全方法。
本发明提出的一种基于注意力机制的点云补全算法,分为训练和实施两个阶段。训练阶段包括四个部分,分别是获取点云补全数据集、提取残缺点云特征向量、生成完整点云和生成点云质量评估。实施阶段包括三个部分,分别是获取实际扫描的点云数据、提取残缺点云特征向量和生成完整点云。
训练阶段:首先获取点云补全算法所需的数据集,包含有若干个点云对(残缺/完整)。然后将残缺点云送入编码器提取得到残缺点云的特征向量。再将获取的特征向量送入解码器中,生成完整的点云。最后对生成的点云进行质量评估,计算生成点云和真实点云之间的倒角距离,作为损失函数指导更新算法中的神经网络参数,直到生成点云的质量符合要求或者达到最大训练轮次。
实施阶段:首先获取实际扫描的点云数据,通常来说扫描的点云数据是残缺的,将此残缺点云送入在训练阶段已经训练好的算法中,通过提取残缺点云的特征向量,进而最终生成完整的点云。
编码器提取得到残缺点云的特征向量,包括:1获取点云补全数据集
本发明提出的算法所用的数据集为点补全网络公开的数据集,可在互联网上公开下载。
2提取残缺点云特征向量
在获取到残缺点云数据Pin后,将其送入编码器中,编码器的结构依次为位置编码模块、4个串联的自适应全局特征聚合模块和一个最大值池化模块,位置编码模块由两个串联的多层感知器MLP层组成,用以提升点云的特征维度。位置编码模块的输出送入自适应全局特征聚合模块(AGFA:Adaptive global feature augmentation module),自适应全局特征聚合模块共有四个,为串联结构,用于提取和聚合残缺点云的特征信息,最后一个自适应全局特征聚合模块4的输出结果分为二路,一路送入生成完整点云模块做后续处理,作为交叉全局特征聚合模块的一个输入,另一路经过最大值池化操作后得到残缺点云特征向量f,残缺点云特征向量f用公式表达如下:
f=Max-pool(AGFA(4)(MLP(Pin)))
式中的Max-pool代表最大值池化操作,上标的(4)代表迭代通过4个串联的AGFA模块。
所述的自适应全局特征聚合模块的结构为,将位置编码模块的第二个多层感知器MLP的输出作为“值”矩阵和“键”矩阵,同时将位置编码模块的第二个多层感知器MLP的输出的下采样作为“查询”矩阵,将“值”矩阵、“键”矩阵和“查询”矩阵一起送入多头注意力模块1中,该多头注意力模块1由Pytorch深度学习工具包实现。然后将多头注意力模块1的输出结果与“查询”矩阵组成跨越连接,跨越连接后的输出经过归一化,送入多层感知器MLP2,该多层感知器MLP2输出与归一化的输出再次构成第二次跨越连接,将第二次跨越连接的输出结果取代上次位置编码模块的第二个多层感知器MLP的输出,重复这一过程3次后得到聚合特征矩阵。将聚合特征矩阵送入平均值池化和多层感知器求得通道注意力权重矩阵,通道注意力权重矩阵与聚合特征矩阵相乘得到自适应全局特征聚合模块的输出,即残缺点云特征向量。
解码器为生成完整点云,包括以下过程:3生成完整点云
在得到残缺点云特征向量后,将其送入解码器,解码器的结构依次为粗略点云生成模块、点云精细化模块1和点云精细化模块2,解码器的输出为最终的完整点云Pout。
所述的粗略点云生成模块中,将残缺点云特征向量依次通过多层感知器和反卷积层聚合几何特征,将反卷积层输出和自适应全局特征聚合模块4的输出一起送入交叉全局特征聚合模块1(CGFA:Cross global feature augmentation module),其中的交叉全局特征聚合模块1的结构为,将反卷积层输出作为“值”矩阵,“键”矩阵和“查询”矩阵,送入多头注意力模块2中,该多头注意力模块2由Pytorch深度学习工具包实现。然后将多头注意力模块2输出结果与“查询”矩阵组成跨越连接跨越连接后的输出经过归一化操作,送入多层感知器MLP3,多层感知器MLP3输出与归一化输出再次构成第二次跨越连接,将第二次跨越连接的输出结果取代反卷积层输出,然后重复3次该过程得到聚合特征矩阵。随后将聚合特征矩阵送入平均值池化和多层感知器MLP4,求得通道注意力权重矩阵,通道注意力权重矩阵与聚合特征矩阵相乘得到交叉全局特征聚合模块的输出,将交叉全局特征聚合模块的输出结果送入多层感知器MLP5,并与原始的残缺点云按照点数并联在一起,即两个点云融合成一个点云,再经下采样操作得到粗略点云Pcoarse。交叉全局特征聚合模块1的输出还作为送往点云精细化模块的交叉全局特征聚合模块2做前置模块输入。
其中的点云精细化模块,将得到的粗略点云和得到的残缺点云特征向量分别送入多层感知器,两个多层感知器的输出并联,并联后的输出和交叉全局特征聚合模块1输出一起送入交叉全局特征聚合模块2中,交叉全局特征聚合模块2与交叉全局特征聚合模块1的结构完全相同,其输出再与粗略点云的多层感知器输出结果并联后,送入多层感知器MLP6进行特征融合,多层感知器MLP6特征融合后的输出与粗略点云构成跨层连接,输出精细点云。
点云精细化模块可以串联二个或者二个以上。
4生成点云的质量评估
本发明采用倒角距离来计算生成点云和真实点云之间的差异,以作为损失函数指导更新训练阶段第二和第三部分算法中的神经网络参数,直到达到最大训练轮次。
损失函数的计算公式如下:
L=dCD(Pcoarse,GTcoarse)+dCD(Pmid,GTmid)+dCD(Pout,GTout)
其中Pcoarse、Pmid和Pout分别对应生成的粗略点云和两个更高分辨率的精细点云(具体分辨率根据任务而定),GTcoarse、GTmid和GTout为数据集中真实点云分别按照与生成点云相同点数降采样的结果,本发明所有降采样操作均采用最远点采样操作。
倒角距离的计算公式如下:
其中P和Q代表两个点云,p和q分别是P点云和Q点云中的点。
在实施阶段,首先获取实际扫描的点云数据,将残缺点云的点数下采样,再将残缺点云送入已经在训练阶段训练好的算法模型中,得到输出补全后的完整点云。
由于自适应全局特征聚合模块AGFA的引入,使得本发明在补全点云的同时,更加注重对已有几何结构进行特征提取,保证了补全后的点云形状的真实性,补全到了更好的细节结构,采用交叉全局特征聚合模块CGFA,使得算法在生成点云阶段,可以更好的参考前置粗略点云的特征,在低分辨率点云的基础上生成更高质量的高分辨率点云,使得补全后的点云结果表面更加光滑,噪声点较少;本算法中通道注意力权重的提取,使得补全后的点云密度更加均匀,更加符合真实点云的分布。
附图说明
图1从残缺的点云中重构出完整的点云示意图,其中(a)为补全前,(b)补全后;
图2为本发明算法训练阶段流程图;
图3为本发明算法实施阶段流程图;
图4为本发明提取残缺点云特征向量流程图;
图5为本发明自适应全局特征聚合模块结构图;
图6为本发明生成完整点云流程图;
图7为本发明粗略点云生成模块结构图;
图8为本发明点云精细化模块结构图;
图9为本发明交叉全局特征聚合模块结构图;
图10为本发明所提算法与现有算法的点云补全效果可视化对比图。其中(a)为残缺点云图示例,(b)为示例现在有算法得到的点云图,(c)为示例本发明算法得到的点云图,(d)为示例真实的点云图。
具体实施方式
为了更清楚地说明本发明,下面结合附图对本发明做进一步的详细描述,下面描述中的附图仅仅是本发明的具体实施例,不构成对本发明的限制。
本发明分为训练和实施两个阶段。训练阶段包括四个部分,分别是获取点云补全数据集、提取残缺点云特征向量、生成完整点云和生成点云质量评估,流程如图2所示。实施阶段包括三个部分,分别是获取实际扫描的点云数据、提取残缺点云特征向量和生成完整点云。流程如图3所示。
本发明包括以下具体过程:
1获取点云补全数据集
本发明提出的算法所用的数据集为点补全网络公开的数据集,可在互联网上公开下载。
2提取残缺点云特征向量
提取残缺点云特征向量的流程如图4所示。
在获取到残缺点云数据Pin(尺寸为2048,3)后,将其送入编码器中,编码器的结构依次为位置编码模块、4个串联的自适应全局特征聚合模块和一个最大值池化模块,位置编码模块由两个串联的多层感知器MLP层组成。位置编码模块的输出送入自适应全局特征聚合模块(AGFA:Adaptive global feature augmentation module),自适应全局特征聚合模块共有四个,为串联结构,用于提取和聚合残缺点云的特征信息,最后一个自适应全局特征聚合模块4的输出结果分为二路,一路送入生成完整点云模块做后续处理,作为交叉全局特征聚合模块的一个输入,另一路经过最大值池化操作后得到残缺点云特征向量f(尺寸为1×512),残缺点云特征向量f用公式表达如下:
f=Max-pool(AGFA(4)(MLP(Pin)))
式中的Max-pool代表最大值池化操作,上标的(4)代表迭代通过4个串联的AGFA模块。
自适应全局特征聚合模块的结构如图5所示,将位置编码模块的第二个多层感知器MLP的输出作为“值”矩阵和“键”矩阵,同时将位置编码模块的第二个多层感知器MLP的输出的下采样作为“查询”矩阵,将“值”矩阵、“键”矩阵和“查询”矩阵一起送入多头注意力模块1中,该多头注意力模块1由Pytorch深度学习工具包实现。然后将多头注意力模块1的输出结果与“查询”矩阵组成跨越连接,跨越连接后的输出经过归一化,送入多层感知器MLP2,该多层感知器MLP2输出与归一化的输出再次构成第二次跨越连接,将第二次跨越连接的输出结果取代上次位置编码模块的第二个多层感知器MLP的输出,重复这一过程3次后得到聚合特征矩阵。将聚合特征矩阵送入平均值池化和多层感知器求得通道注意力权重矩阵,通道注意力权重矩阵与聚合特征矩阵相乘得到自适应全局特征聚合模块的输出,即残缺点云特征向量。
3生成完整点云
生成完整点云的流程如图6所示,在得到残缺点云特征向量后,将其送入解码器,解码器的结构依次为粗略点云生成模块、点云精细化模块1和点云精细化模块2,解码器的输出为最终的完整点云Pout(尺寸为16384,3)。
其中的粗略点云生成模块结构如图7所示,将残缺点云特征向量依次通过多层感知器和反卷积层聚合几何特征,将反卷积层输出和自适应全局特征聚合模块4的输出一起送入交叉全局特征聚合模块1(CGFA:Cross global feature augmentation module),其中的交叉全局特征聚合模块1的结构为,将反卷积层输出作为“值”矩阵,“键”矩阵和“查询”矩阵,送入多头注意力模块2中,该多头注意力模块2由Pytorch深度学习工具包实现。然后将多头注意力模块2输出结果与“查询”矩阵组成跨越连接跨越连接后的输出经过归一化操作,送入多层感知器MLP3,多层感知器MLP3输出与归一化输出再次构成第二次跨越连接,将第二次跨越连接的输出结果取代上次反卷积层输出,重复3次该过程得到聚合特征矩阵。随后将聚合特征矩阵送入平均值池化和多层感知器MLP4,求得通道注意力权重矩阵,通道注意力权重矩阵与聚合特征矩阵相乘得到交叉全局特征聚合模块的输出。然后将交叉全局特征聚合模块的输出结果送入多层感知器MLP5,并与原始的残缺点云按照点数并联在一起,即两个点云融合成一个点云,再经下采样操作得到粗略点云Pcoarse(尺寸为512,3)。交叉全局特征聚合模块1的输出还作为送往点云精细化模块的交叉全局特征聚合模块2做前置模块输入。
其中的点云精细化模块结构如图8所示,将得到的粗略点云和得到的残缺点云特征向量分别送入多层感知器,两个多层感知器的输出并联,并联后的输出和交叉全局特征聚合模块1输出一起送入交叉全局特征聚合模块2中,交叉全局特征聚合模块2与交叉全局特征聚合模块1的结构完全相同,其输出再与粗略点云的多层感知器输出结果并联后,送入多层感知器MLP6进行特征融合,多层感知器MLP6特征融合后的输出与粗略点云构成跨层连接,输出精细点云。图9为交叉全局特征聚合模块结构图。
点云精细化模块可以串联二个或者二个以上。
本实施例在训练的含有两个点云精细化模块,其输出的精细点云的尺寸分别为Pmid(2048,3)和Pout(16384,3)。
4生成点云的质量评估
本发明采用倒角距离来计算生成点云和真实点云之间的差异,以作为损失函数指导更新训练阶段中的MLP神经网络参数,直到达到精度要求或者最大训练轮次。
损失函数的计算公式如下:
L=dCD(Pcoarse,GTcoarse)+dCD(Pmid,GTmid)+dCD(Pout,GTout)
其中Pcoarse、Pmid和Pout分别对应生成的粗略点云和两个更高分辨率的精细点云(具体分辨率根据任务而定),GTcoarse、GTmid和GTout为数据集中真实点云分别按照与生成点云相同点数降采样的结果,本发明所有降采样操作均采用最远点采样操作。
倒角距离的计算公式如下:
其中P和Q代表两个点云,p和q分别是P点云和Q点云中的点。
经过300轮训练后,本发明所提算法和现有最优算法的定量和可视化比较结果分别如下表1和图10所示,比较的结果采用类别平均倒角距离来衡量,倒角距离越小,算法补全效果越好。
表1 本发明所提算法与现有算法的点云补全效果定量对比(×10-3)
算法 | 平均值 | 飞机 | 橱柜 | 汽车 | 椅子 | 台灯 | 沙发 | 桌子 | 轮船 |
现有算法 | 7.21 | 4.29 | 9.16 | 8.08 | 7.89 | 6.07 | 9.23 | 6.55 | 6.40 |
本发明算法 | 6.76 | 3.89 | 9.03 | 7.68 | 7.18 | 5.52 | 8.72 | 6.18 | 5.91 |
在图10中可以看出本发明所提算法的优势:1.由于自适应全局特征聚合模块AGFA的引入,使得算法在补全点云的同时,更加注重对已有几何结构进行特征提取,保证了补全后的点云形状的真实性。比如飞机的发动机、椅子靠背的两端凸起的结构以及台灯的灯罩,都补全到了更好的细节结构。2.由于交叉全局特征聚合模块CGFA的引入,使得算法在生成点云阶段,可以更好的参考前置粗略点云的特征,在低分辨率点云的基础上生成更高质量的高分辨率点云,使得补全后的点云结果表面更加光滑,噪声点较少。3.本算法中通道注意力权重的提取,使得补全后的点云密度更加均匀,更加符合真实点云的分布。
在实施阶段,首先要获取实际扫描的点云数据,可以用深度相机或者激光雷达等三维扫描设备,然后转换为点云格式,并将残缺点云的点数下采样到与算法输入相同的点数。然后将残缺点云送入已经在训练阶段训练好的算法模型中,继而可以输出补全后的完整点云。
Claims (5)
1.一种基于注意力机制的点云补全方法,其特征在于包括两个阶段:
1)训练阶段:首先获取点云补全算法所需的数据集,包含有若干个残缺和完整的点云对,将残缺点云送入编码器提取得到残缺点云的特征向量,然后将特征向量送入解码器中,生成完整的点云;对生成的点云进行质量评估,计算生成点云和真实点云之间的倒角距离,作为损失函数指导更新编码器和解码器中的神经网络参数;
2)实施阶段:获取实际扫描的点云数据,将点云数据送入在训练阶段已经训练好的编码器和解码器中,通过提取残缺点云的特征向量,生成完整的点云。
2.如权利要求1所述的一种基于注意力机制的点云补全方法,其特征在于:
所述的编码器为生成残缺点云特征向量:
在获取到残缺点云数据Pin后,将其送入编码器中,编码器的结构依次为位置编码模块、3个串联的自适应全局特征聚合模块和一个最大值池化模块,位置编码模块由两个串联的多层感知器MLP层组成,位置编码模块的第二个多层感知器MLP层输出送入自适应全局特征聚合模块AGFA,自适应全局特征聚合模块共有四个,组成串联结构,最后一个自适应全局特征聚合模块4的输出结果分为二路,一路作为交叉全局特征聚合模块1的一个输入,另一路经过最大值池化操作后得到残缺点云特征向量f,残缺点云特征向量f用公式表达如下:
f=Max-pool(AGFA(4)(MLP(Pin)))
式中的Max-pool代表最大值池化操作,上标(4)代表迭代通过4个串联的AGFA模块。
3.如权利要求2所述的一种基于注意力机制的点云补全方法,其特征在于:
所述的自适应全局特征聚合模块AGFA的结构为,将位置编码模块的第二个多层感知器MLP的输出作为“值”矩阵和“键”矩阵,同时将位置编码模块的第二个多层感知器MLP的输出的下采样作为“查询”矩阵,将“值”矩阵、“键”矩阵和“查询”矩阵一起送入多头注意力模块1中,多头注意力模块1由Pytorch深度学习工具包实现;然后将多头注意力模块1的输出结果与“查询”矩阵组成跨越连接,跨越连接后的输出经过归一化,送入多层感知器MLP2,多层感知器MLP2输出与归一化的输出再次构成第二次跨越连接,将第二次跨越连接的输出结果取代上次位置编码模块的第二个多层感知器MLP的输出,重复这一过程3次后得到聚合特征矩阵;将聚合特征矩阵送入平均值池化和多层感知器,求得通道注意力权重矩阵,通道注意力权重矩阵与聚合特征矩阵相乘得到自适应全局特征聚合模块的输出,随后将自适应全局特征聚合模块的输出送入最大值池化层,经最大值池化后,得到残缺点云特征向量f。
4.如权利要求1所述的一种基于注意力机制的点云补全方法,其特征在于:
所述的解码器为生成完整点云:
在得到残缺点云特征向量后,将其送入解码器,解码器的结构依次为粗略点云生成模块、点云精细化模块1和点云精细化模块2,解码器的输出为最终的完整点云Pout;
所述的粗略点云生成模块中,将残缺点云特征向量依次通过多层感知器和反卷积层聚合几何特征,将反卷积层输出和自适应全局特征聚合模块4的输出一起送入交叉全局特征聚合模块1,其中的交叉全局特征聚合模块1的结构为,将反卷积层输出作为“值”矩阵,“键”矩阵和“查询”矩阵,送入多头注意力模块2中,头注意力模块2由Pytorch深度学习工具包实现;再将多头注意力模块2输出结果与“查询”矩阵组成跨越连接,跨越连接后的输出经过归一化操作,送入多层感知器MLP3,多层感知器MLP3输出与归一化输出再次构成第二次跨越连接,将第二次跨越连接的输出结果取代反卷积层输出,然后重复3次该过程得到聚合特征矩阵;将聚合特征矩阵送入平均值池化和多层感知器MLP4,求得通道注意力权重矩阵,通道注意力权重矩阵与聚合特征矩阵相乘得到交叉全局特征聚合模块的输出;将交叉全局特征聚合模块的输出结果送入多层感知器MLP5,多层感知器MLP5的输出与原始的残缺点云按照点数并联在一起,即两个点云融合成一个点云,再经下采样操作得到粗略点云Pcoarse;交叉全局特征聚合模块1的输出还作为送往点云精细化模块的交叉全局特征聚合模块2做前置模块输入;
所述的点云精细化模块,将得到的粗略点云和得到的残缺点云特征向量分别送入多层感知器,两个多层感知器的输出并联,并联后的输出和交叉全局特征聚合模块1输出一起送入交叉全局特征聚合模块2中,交叉全局特征聚合模块2与交叉全局特征聚合模块1的结构完全相同,其输出再与粗略点云的多层感知器输出结果并联后,送入多层感知器MLP6进行特征融合,多层感知器MLP6特征融合后的输出与粗略点云构成跨层连接,输出精细点云,点云精细化模块2的结构与点云精细化模块1结构完全相同。
5.如权利要求1所述的一种基于注意力机制的点云补全方法,其特征在于:
所述的生成点云的质量评估,采用倒角距离来计算生成点云和真实点云之间的差异,为损失函数指导更新训练阶段编码器和解码器中的神经网络参数,直到达到最大训练轮次;
损失函数的计算公式如下:
L=dCD(Pcoarse,GTcoarse)+dCD(Pmid,GTmid)+dCD(Pout,GTout)
其中Pcoarse、Pmid和Pout分别对应生成的粗略点云和两个精细点云,GTcoarse、GTmid和GTout为数据集中真实点云分别按照与生成点云相同点数降采样的结果;
倒角距离的计算公式如下:
其中P和Q代表两个点云,p和q分别是P点云和Q点云中的点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210772125.0A CN115131245A (zh) | 2022-06-30 | 2022-06-30 | 一种基于注意力机制的点云补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210772125.0A CN115131245A (zh) | 2022-06-30 | 2022-06-30 | 一种基于注意力机制的点云补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115131245A true CN115131245A (zh) | 2022-09-30 |
Family
ID=83382920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210772125.0A Pending CN115131245A (zh) | 2022-06-30 | 2022-06-30 | 一种基于注意力机制的点云补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131245A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496881A (zh) * | 2022-10-19 | 2022-12-20 | 南京航空航天大学深圳研究院 | 单目图像辅助的大型飞机点云补全方法 |
CN118505909A (zh) * | 2024-07-17 | 2024-08-16 | 浙江大学 | 一种草图辅助的残缺点云补全方法及系统 |
CN118521839A (zh) * | 2024-07-24 | 2024-08-20 | 国网山东省电力公司微山县供电公司 | 基于色彩分布和神经网络的光伏板缺陷分类方法及系统 |
-
2022
- 2022-06-30 CN CN202210772125.0A patent/CN115131245A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496881A (zh) * | 2022-10-19 | 2022-12-20 | 南京航空航天大学深圳研究院 | 单目图像辅助的大型飞机点云补全方法 |
CN115496881B (zh) * | 2022-10-19 | 2023-09-22 | 南京航空航天大学深圳研究院 | 单目图像辅助的大型飞机点云补全方法 |
CN118505909A (zh) * | 2024-07-17 | 2024-08-16 | 浙江大学 | 一种草图辅助的残缺点云补全方法及系统 |
CN118521839A (zh) * | 2024-07-24 | 2024-08-20 | 国网山东省电力公司微山县供电公司 | 基于色彩分布和神经网络的光伏板缺陷分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Graph signal processing for geometric data and beyond: Theory and applications | |
CN112529015B (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
WO2021232687A1 (zh) | 一种基于深度学习的点云上采样方法 | |
CN115131245A (zh) | 一种基于注意力机制的点云补全方法 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN112396703A (zh) | 一种单图像三维点云模型重建方法 | |
Tang et al. | Skeletonnet: A topology-preserving solution for learning mesh reconstruction of object surfaces from rgb images | |
Cheng et al. | Dense point cloud completion based on generative adversarial network | |
CN114708380A (zh) | 一种基于融合多视角特征与深度学习的三维重建方法 | |
CN116958420A (zh) | 一种数字人教师三维人脸的高精度建模方法 | |
CN113096239A (zh) | 一种基于深度学习的三维点云重建方法 | |
CN112489198A (zh) | 一种基于对抗学习的三维重建系统及其方法 | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
CN117115359A (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
CN111860668B (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
Li et al. | DPG-Net: Densely progressive-growing network for point cloud completion | |
CN117635488A (zh) | 一种结合通道剪枝和通道注意力的轻量型点云补全方法 | |
CN110675381A (zh) | 一种基于串行结构网络的本征图像分解方法 | |
CN117576303A (zh) | 三维图像生成方法、装置、设备及存储介质 | |
CN117994508A (zh) | 一种基于语义分割的NeRF的三维目标对象模型重建方法 | |
Xiao et al. | Multi-dimensional graph interactional network for progressive point cloud completion | |
CN116681844A (zh) | 一种基于亚米级立体像对卫星影像的建筑物白膜构建方法 | |
CN113807233B (zh) | 基于高次项参考曲面学习的点云特征提取方法、分类方法和分割方法 | |
Wan et al. | IAN: Instance-Augmented Net for 3D Instance Segmentation | |
Lin et al. | Handwriting Curve Interpolation Using Gradient Graph Laplacian Regularizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |