CN118505909A - 一种草图辅助的残缺点云补全方法及系统 - Google Patents
一种草图辅助的残缺点云补全方法及系统 Download PDFInfo
- Publication number
- CN118505909A CN118505909A CN202410957907.0A CN202410957907A CN118505909A CN 118505909 A CN118505909 A CN 118505909A CN 202410957907 A CN202410957907 A CN 202410957907A CN 118505909 A CN118505909 A CN 118505909A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- sketch
- features
- point
- incomplete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000001502 supplementing effect Effects 0.000 claims abstract 3
- 239000013598 vector Substances 0.000 claims description 68
- 238000005070 sampling Methods 0.000 claims description 33
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000000295 complement effect Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种草图辅助的残缺点云补全方法及系统,该方法是使用辅助草图作为引导,将扫描获取的点云数据和交互绘制的草图相结合,在局部潜在空间中有效地结合点云与草图两种模态的信息,输出几何信息更为完整的三维点云数据。本发明选择使用弱监督设置,辅助草图通过在完整的点云上使用可微渲染器来测量图像空间中的保真度,来为训练的过程提供监督信号,并通过草图信息和残缺点云的信息实现多模态的信息融合,能够生成更可靠的、更符合用户意图的完整点云。
Description
技术领域
本发明涉及于计算机视觉技术、三维点云模型补全技术领域,尤其涉及一种草图辅助的残缺点云补全方法及系统。
背景技术
3D数据被用于许多不同的领域,包括自动驾驶、机器人等。点云具有非常均匀的结构,避免了组成的不规则性和复杂性。但是在实际应用中,由于物体的遮挡、目标表面材料反射率的差异以及视觉传感器分辨率和视角的限制,所采集到的点云数据往往是不完整的。由此产生的几何和语义信息缺失将影响后续的3D任务,因此用残缺的数据来补全完整的点云,恢复其原始形状,对下游任务具有重要的意义。
多年来,研究人员尝试了很多方法来解决深度学习领域这个问题。早期对点云补全的尝试试图通过体素化和三维卷积将成熟的方法从2D补全任务迁移到3D点云。这样的计算成本很高,直到Pointnet和Pointnet++的出现,才让直接处理三维坐标成为基于点云的三维分析的主流,逐渐依靠编码器解码器的架构来补全残缺的点云。
然而,现有的点云补全方法大都基于单模态信息,使用形状先验直接推断残缺点,由于单模态残缺点云信息有限,补全点云时存在较大的不确定性,其次点云数据固有的稀疏性导致很难区分模型本身的空白部分和残缺部分。而人类非常擅长理解二维和三维模型,并通过视觉概念判断点云的残缺部分,草图是一种方便快捷、容易获取的表达交互意图的媒介,通过用户绘制的草图可以很好得实现残缺部分信息的补充。因此,我们设计了一种能够实现多模态输入的草图辅助点云补全的方法。
发明内容
本发明的目的在于针对现有技术的不足,提供一种草图辅助的残缺点云补全方法,旨在改善当前单模态点云模型,使用形状先验直接推断残缺点的不足。用户以草图为媒介表达补全意图,网络从草图中获取缺失点云的关键信息,通过有效的跨模态和跨层融合的架构,实现残缺点云的补全。
本发明的目的是通过以下技术方案来实现的:一种草图辅助的残缺点云补全方法,包括以下步骤:
(2)将残缺点云和草图分别输入到不同模态的编码器中,提取两种模态的编码特征,即草图特征和点云特征;
(3)将步骤(2)获得的两种模态的编码特征进行融合;
(4)学习重建一个完整点云,使用同时保持全局和局部特征的解码器对融合之后的特征进行解码,完成点云补全。
进一步地,所述步骤(1)具体为,获取用户的草图输入,草图可通过用户手绘进行采集;实时显示当前残缺点云模型的视图,用户能够在视图上对希望补全的残缺点云直接进行草图轮廓绘制。
进一步地,所述步骤(2)具体为,根据数据形式的不同,将残缺点云输入到DGCNN编码器中,手绘草图输入到ResNet编码器中进行特征提取。
具体地,所述特征提取是利用了两个特定于不同模态的特征提取器,一个用于捕获草图的局部特征,总结为像素Ns,一个用于捕获点云的局部特征,总结为点Nx;使用ResNet作为草图的编码器来提取特征,使得网络有较快的收敛速度,同时能保证特征的提取;将部分点云输入表示为,草图的输入表示为,完整的点云表示为,要进行的点云补全就是要给定残缺的点云和草图来预测一个完整的点云;点云编码器从部分形状X中提取特征,保持其局部性,采用DGCNN框架,该框架是由一系列图卷积层,通过交错池化操作来组成的,以此减少点云的基数;;
其中,为经过编码的特征,通过一个点和周围邻近点来构造一个局部图,并提取出图中每一条边的卷积,然后通过加权平均的方法,得到中心点的特征;其中□代表了通道对称的聚合操作,hΘ为非线性的可学习函数,其结果作为中点的特征;通过池化操作,不仅能够扩大接收域,包含更多的全局信息,同时降低后续融合两种模态融合的交叉注意力操作的复杂性;将草图编码为,将残缺的点云编码为。
进一步地,所述步骤(3)具体为,将由编码器编码得到的草图特征和点云特征通过交叉注意力机制和自注意机制进行融合。
进一步地,所述通过交叉注意力机制和自注意机制进行融合,具体为:通过注意力机制用于寻找点云区域和草图区域特征之间的对应关系,从两种模态中收集到局部信息,将其融合起来,所述注意力机制的架构的注意力层中使用的是Transformer的多头注意力机制;
(6.1)在使用交叉注意力机制的过程中,将残缺点云特征投影形成查询向量,将草图特征投影形成关键向量和值向量,有三个向量之后,注意力机制对通过特征提取器提取到相关联区域的残缺点云特征和草图特征进行融合,实现不同模态输入之间的特征融合;
通过获取的点云特征和权重向量的乘积得到点云的查询向量,通过获取的草图特征和权重向量的乘积分别得到草图的关键向量和值向量;在已有三个向量的基础上再使用softmax归一化,将特征进行融合;
(6.2)框架中使用交叉注意力融合之后,加入自注意力层,实现对具有全局接受域的特征进行排列不变变换,以便对草图中未正确采集的数据进行校正;自注意力层的原理与(6.1)中相同,只是输入的特征不同,自注意层采用相同的混合特征进行向量的运算;
(6.3)框架使用交叉注意力层和自注意层相结合的方式来完成整个特征的融合,实现两种模态数据的特征融合;在整个融合模块的末尾,使用一个特殊的交叉注意力层,合并了融合模块末尾和开头的信息,使得高级特征交叉参与低级特征的融合。
具体地,所述步骤(6.1)中实现不同模态输入之间的特征融合;其特征融合表达式如下:
;
;
其中,HX和HS分别为点云的编码特征向量,W为权重矩阵,分别为查询向量、关键向量和值向量;为关键向量的转置,为查询向量的维度,为点云编码数据的查询向量;为点云编码数据的关键向量;为点云编码数据的值向量;和分别为查询向量、关键向量和值向量的权重矩阵。
具体地,所述解码器估计需要补全点的位置,通过最远点采样的方式采集的点,将两者融合起来,让框架关注点云缺失的部分;使用最远点采样的方式对样本的均匀采样,最远点采样的初始点选择为随机的点并确保每次的采样结果不同,最远点采样的距离形式选择使用欧氏距离来衡量多维空间中两个点的绝对距离;
通过解码器对特征域进行上采样,执行特征融合允许更高级的特征进行融合;具体的操作由基于注意力机制来实现,其编码器提供的特征为,每个Kn分支为;
;
;
其中,每个分支都有不同权重的多层感知机,将特征投影到Kn子空间,并为重采样过程生成自注意力权重,是三维空间的投影矩阵,最终,将所有解码器分支的输出与最远点采样的部分进行串接,生成完整的点云;
;
其中为预测的完整点云;
采用最远点采样,将FPS采样点和解码器估计的点融合起来,既保持已有部分点云的保真度,让框架只关注缺失部分的点云;根据需要也通过调整采样点和估计点的混合比例,灵活补全整个系统;损失函数使用生成形状与真值形状之间的L1倒角距离进行监督训练;
;
其中第一项求和运算代表中任一点到的最小距离之和,第二项求和运算则代表中任一点到的最小距离之和;该距离大,则说明两组点云的区别大,且距离与补全效果呈负相关;实际上输入的草图包含点云相关的补充信息,能够完成辅助点云进行补全。
具体地,所述最远点采样的距离形式选择使用欧氏距离;其欧式距离表达式如下:
;
所述欧氏距离为基本的距离度量,衡量多维空间中两个点的绝对距离,计算两个点之间的距离,其中是的第i个坐标。
本发明还提供了一种草图辅助的残缺点云补全系统,该系统包括以下模块:
信息采集模块:在已有残缺的点云的基础上,获取用户的草图输入,交互补充残缺点云的轮廓信息;
特征采集模块:将残缺点云和草图分别输入到不同模态的编码器中,提取两种模态的编码特征,即草图特征和点云特征;
特征融合模块:将特征采集模块获得的两种模态的编码特征进行融合;
点云补全模块:学习重建一个完整点云,使用同时保持全局和局部特征的解码器对融合之后的特征进行解码,完成点云补全。
本发明的有益效果如下:
相较于现有的单模态残缺点云的补全方法,这些方法只能依靠形状先验进行补全,无法按照用户的心意实现指定、精确的补全;而本发明通过对用户草图分析,获取全局结构信息,通过草图信息和残缺点云的信息实现多模态的信息融合,生成更可靠的、更符合用户意图的完整点云。
附图说明
图1是本发明提供的点云补全方法流程图;
图2是本发明提供的点云补全方法网络框图;
图3是本发明提供的点云补全方法结构框图;
图4是本发明的交叉注意力示意图;
图5是本发明的点云补全效果图-飞机类图;
图6是本发明的点云补全效果图-汽车类图。
具体实施方式
下面根据附图详细说明本发明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明提供了一种草图辅助的残缺点云补全方法。
如图1所示,本发明包括以下模块:
(1)在已有残缺的点云的基础上,获取用户的草图输入,交互补充残缺点云的轮廓信息;
(2)将残缺点云和草图分别输入到不同模态的编码器中,提取两种模态的编码特征,即草图特征和点云特征;
(3)将步骤(2)获得的两种模态的编码特征进行融合;
(4)学习重建一个完整点云,使用同时保持全局和局部特征的解码器对融合之后的特征进行解码,完成点云补全。
S1、如图2所示获取用户的草图输入,草图可通过用户手绘进行采集,实时获取当前残缺点云模型视图,并在视图上对希望补全的残缺点云直接进行草图轮廓绘制。
S2、如图3所示,根据数据格式的不同,将残缺点云输入到DGCNN网络框架的编码器中,手绘草图输入到ResNet网络框架的编码器中进行特征提取。
S21、两个特定于不同模态的特征提取器,一个用于捕获草图的局部特征,总结为少量的像素,一个用于捕获点云的局部特征,总结为少量的点;使用ResNet作为草图的编码器来提取特征,使得网络有较快的收敛速度,同时能保证特征提取的效果;
S22、将部分点云输入表示为,草图的输入表示为,完整的点云表示为,我们要进行的点云补全就是要给定残缺的点云和草图来预测一个完整的点云;点云编码器从部分形状X中提取特征,保持一定程度的局部性,采用DGCNN框架,该框架是由一系列图卷积层,通过交错池化操作来组成的,以此减少点云的基数; (1)
其中,为经过编码的特征,通过一个点和周围邻近点来构造一个局部图的方法,提取出图中每一条边的卷积,然后通过加权平均的方法,得到中心点的特征;其中□代表了逐渠道的对称操作,hΘ为非线性的可学习函数。
S23、其结果作为中点的特征;通过池化操作,不仅可以扩大接收域, 包含更多的全局信息,同时也可以降低后续融合两种模态融合的交叉注意力操作的复杂性;将草图编码为,将残缺的点云编码为。
S3、如图4所示,将已经获取的特征进行融合,具体为,将由编码器编码得到的草图特征和点云特征通过交叉注意力机制和自注意机制进行融合;
基于注意力机制的融合模块,从两种模态中收集到了局部信息,需要将其融合起来,注意力机制很适合寻找点云区域和草图区域特征之间的对应关系,因此在特征融合的模块中使用注意力机制,在架构的注意力层中使用Transformer的多头注意力机制;
S31、在使用交叉注意力机制的过程中,将残缺点云特征投影形成查询张量,将草图特征投影形成关键向量和值向量,有三个向量之后,注意力机制对通过特征提取器提取到相关联区域的残缺点云特征和草图特征进行融合,实现不同模态输入之间的特征融合;
(2)
(3)
其中,HX和HS分别为点云的编码特征向量,W为权重矩阵,分别为查询向量、关键向量和值向量;为关键向量的转置,为查询向量的维度,为点云编码数据的查询向量;为为点云编码数据的关键向量;为点云编码数据的值向量;和分别为查询向量、关键向量和值向量的权重矩阵。
S32、通过获取的点云特征和权重向量的乘积得到点云的查询向量,通过获取的草图特征和权重向量的乘积分别得到草图的关键向量和值向量;在已有三个向量的基础上再使用softmax归一化,将特征进行融合;
S33、框架中使用交叉注意力融合之后,加入自注意力层,实现对具有全局接受域的特征进行排列不变变换,以便对草图中未正确采集的数据进行校正;自注意力层的原理与式(2)和式(3)中相同,只是输入的特征不同,自注意层采用相同的混合特征进行向量的运算;
S34、框架使用交叉注意力层和自注意层相结合的方式来完成整个特征的融合,实现两种模态数据的特征融合;在整个序列的末尾,使用一个特殊的交叉注意力层,合并了序列末尾和开头的信息,使得高级特征可以交叉参加低级特征的融合,在决定所需抽象级别时具有更好的灵活性。
S4、对特征进行解码,采用联合特征嵌入,并学习重建一个完整点云,同时保持全局和局部特征的解码器。
S41、编码器估计一些点的位置,通过最远点采样的方式连接到输入部分点云的采样版本,只估计点云缺失的部分;使用最远点采样的方式,保证对样本的均匀采样,最远点采样的初始点选择为随机的点,这样可以确保每次的采样结果不同,最远点采样的距离形式选择使用欧氏距离来衡量多维空间中两个点的绝对距离;其表达式如下:
(4)
所述欧氏距离为基本的距离度量,衡量多维空间中两个点的绝对距离,计算两个点之间的距离,其中是的第i个坐标。
S42、通过解码器对特征域进行上采样,执行特征融合的潜在空间会更局部,以降低复杂性并允许更高级的特征进行融合;具体的操作可以基于注意力机制来实现,其编码器提供的特征为,每个Kn分支为;
(5)
(6)
其中,每个分支都有不同权重的多层感知机,将特征投影到Kn子空间,并为重采样过程生成自注意力权重,是三维空间的投影矩阵,最终,将所有解码器分支的输出与最远点采样的部分进行串接,生成完整的点云;
S43、最终,将所有解码器分支的输出与最远点采样的部分进行串接,生成完整的点云;补全的结果如图5、图6所示;
(7)
其中为预测的完整点云;
FPS为最远点采样,可以将FPS采样点和解码器估计的点连接起来,这样可以保持已有部分点云的保真度,实现只对残缺部分进行估计的方案;根据需要也可以调整采样点和估计点的混合比例,提高整个系统补全的灵活性;损失函数使用生成形状与真值形状之间的L1倒角距离进行监督训练;
(8)
其中第一项求和运算代表中任一点到的最小距离之和,第二项求和运算则代表中任一点到的最小距离之和;该距离较大,则说明两组点云的区别较大,如果距离较小,则说明补全效果较好;多模态补全的问题是弱监督学习的一种解决方案,实际上,作为输入的草图包含点云相关的补充信息,可以很好的辅助点云进行补全。
本发明还提供了一种草图辅助的残缺点云补全系统,该系统包括以下模块:
信息采集模块:在已有残缺的点云的基础上,获取用户的草图输入,交互补充残缺点云的轮廓信息;
特征采集模块:将残缺点云和草图分别输入到不同模态的编码器中,提取两种模态的编码特征,即草图特征和点云特征;
特征融合模块:将特征采集模块获得的两种模态的编码特征进行融合;
点云补全模块:学习重建一个完整点云,同时保持全局和局部特征的解码器,对融合之后的特征进行解码,完成点云补全。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种草图辅助的残缺点云补全方法,其特征在于,包括以下步骤:
(1)在已有残缺的点云的基础上,获取用户的草图输入,交互补充残缺点云的轮廓信息;
(2)将残缺点云和草图分别输入到不同模态的编码器中,提取两种模态的编码特征,即草图特征和点云特征;
(3)将步骤(2)获得的两种模态的编码特征进行融合;
(4)学习重建一个完整点云,使用同时保持全局和局部特征的解码器对融合之后的特征进行解码,完成点云补全。
2.根据权利要求1所述的一种草图辅助的残缺点云补全方法,其特征在于,所述步骤(1)具体为,获取用户的草图输入,草图可通过用户手绘进行采集;实时显示当前残缺点云模型的视图,用户能够在视图上对希望补全的残缺点云直接进行草图轮廓绘制。
3.根据权利要求1所述的一种草图辅助的残缺点云补全方法,其特征在于,所述步骤(2)具体为,根据数据形式的不同,将残缺点云输入到DGCNN编码器中,手绘草图输入到ResNet编码器中进行特征提取。
4.根据权利要求3所述的一种草图辅助的残缺点云补全方法,其特征在于,所述特征提取是利用了两个特定于不同模态的特征提取器,一个用于捕获草图的局部特征,总结为像素Ns,一个用于捕获点云的局部特征,总结为点Nx;使用ResNet作为草图的编码器来提取特征,使得网络有较快的收敛速度,同时能保证特征的提取;将部分点云输入表示为,草图的输入表示为,完整的点云表示为,要进行的点云补全就是要给定残缺的点云和草图来预测一个完整的点云;点云编码器从部分形状X中提取特征,保持其局部性,采用DGCNN框架,该框架是由一系列图卷积层,通过交错池化操作来组成的,以此减少点云的基数;;
其中,为经过编码的特征,通过一个点和周围邻近点来构造一个局部图,并提取出图中每一条边的卷积,然后通过加权平均的方法,得到中心点的特征;其中□代表了通道对称的聚合操作,hΘ为非线性的可学习函数,其结果作为中点的特征;通过池化操作,不仅能够扩大接收域,包含更多的全局信息,同时降低后续融合两种模态融合的交叉注意力操作的复杂性;将草图编码为,将残缺的点云编码为。
5.根据权利要求1所述的一种草图辅助的残缺点云补全方法,其特征在于,所述步骤(3)具体为,将由编码器编码得到的草图特征和点云特征通过交叉注意力机制和自注意机制进行融合。
6.根据权利要求5所述的一种草图辅助的残缺点云补全方法,其特征在于,所述通过交叉注意力机制和自注意机制进行融合,具体为:通过注意力机制用于寻找点云区域和草图区域特征之间的对应关系,从两种模态中收集到局部信息,将其融合起来,所述注意力机制的架构的注意力层中使用的是Transformer的多头注意力机制;
(6.1)在使用交叉注意力机制的过程中,将残缺点云特征投影形成查询向量,将草图特征投影形成关键向量和值向量,有三个向量之后,注意力机制对通过特征提取器提取到相关联区域的残缺点云特征和草图特征进行融合,实现不同模态输入之间的特征融合;
通过获取的点云特征和权重向量的乘积得到点云的查询向量,通过获取的草图特征和权重向量的乘积分别得到草图的关键向量和值向量;在已有三个向量的基础上再使用softmax归一化,将特征进行融合;
(6.2)框架中使用交叉注意力融合之后,加入自注意力层,实现对具有全局接受域的特征进行排列不变变换,以便对草图中未正确采集的数据进行校正;自注意力层的原理与(6.1)中相同,只是输入的特征不同,自注意层采用相同的混合特征进行向量的运算;
(6.3)框架使用交叉注意力层和自注意层相结合的方式来完成整个特征的融合,实现两种模态数据的特征融合;在整个融合模块的末尾,使用一个特殊的交叉注意力层,合并了融合模块末尾和开头的信息,使得高级特征交叉参与低级特征的融合。
7.根据权利要求6所述的一种草图辅助的残缺点云补全方法,其特征在于,所述步骤(6.1)中实现不同模态输入之间的特征融合;其特征融合表达式如下:
;
;
其中,HX和HS分别为点云的编码特征向量,W为权重矩阵,分别为查询向量、关键向量和值向量;为关键向量的转置,为查询向量的维度,为点云编码数据的查询向量;为点云编码数据的关键向量;为点云编码数据的值向量;和分别为查询向量、关键向量和值向量的权重矩阵。
8.根据权利要求7所述的一种草图辅助的残缺点云补全方法,其特征在于,所述解码器估计需要补全点的位置,通过最远点采样的方式采集的点,将两者融合起来,让框架关注点云缺失的部分;使用最远点采样的方式对样本的均匀采样,最远点采样的初始点选择为随机的点并确保每次的采样结果不同,最远点采样的距离形式选择使用欧氏距离来衡量多维空间中两个点的绝对距离;
通过解码器对特征域进行上采样,执行特征融合允许更高级的特征进行融合;具体的操作由基于注意力机制来实现,其编码器提供的特征为,每个Kn分支为;
;
;
其中,每个分支都有不同权重的多层感知机,将特征投影到Kn子空间,并为重采样过程生成自注意力权重,是三维空间的投影矩阵,最终,将所有解码器分支的输出与最远点采样的部分进行串接,生成完整的点云;
;
其中为预测的完整点云;
采用最远点采样,将FPS采样点和解码器估计的点融合起来,既保持已有部分点云的保真度,让框架只关注缺失部分的点云;根据需要也通过调整采样点和估计点的混合比例,灵活补全整个系统;损失函数使用生成形状与真值形状之间的L1倒角距离进行监督训练;
;
其中第一项求和运算代表中任一点到的最小距离之和,第二项求和运算则代表中任一点到的最小距离之和;该距离大,则说明两组点云的区别大,且距离与补全效果呈负相关;实际上输入的草图包含点云相关的补充信息,能够完成辅助点云进行补全。
9.根据权利要求8所述的一种草图辅助的残缺点云补全方法,其特征在于,所述最远点采样的距离形式选择使用欧氏距离;其欧式距离表达式如下:
;
所述欧氏距离为基本的距离度量,衡量多维空间中两个点的绝对距离,计算两个点之间的距离,其中是的第i个坐标。
10.一种草图辅助的残缺点云补全系统,其特征在于,该系统包括以下模块:
信息采集模块:在已有残缺的点云的基础上,获取用户的草图输入,交互补充残缺点云的轮廓信息;
特征采集模块:将残缺点云和草图分别输入到不同模态的编码器中,提取两种模态的编码特征,即草图特征和点云特征;
特征融合模块:将特征采集模块获得的两种模态的编码特征进行融合;
点云补全模块:学习重建一个完整点云,使用同时保持全局和局部特征的解码器对融合之后的特征进行解码,完成点云补全。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410957907.0A CN118505909B (zh) | 2024-07-17 | 2024-07-17 | 一种草图辅助的残缺点云补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410957907.0A CN118505909B (zh) | 2024-07-17 | 2024-07-17 | 一种草图辅助的残缺点云补全方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118505909A true CN118505909A (zh) | 2024-08-16 |
CN118505909B CN118505909B (zh) | 2024-10-11 |
Family
ID=92246876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410957907.0A Active CN118505909B (zh) | 2024-07-17 | 2024-07-17 | 一种草图辅助的残缺点云补全方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118505909B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160327A (zh) * | 2021-04-09 | 2021-07-23 | 上海智蕙林医疗科技有限公司 | 一种点云补全的实现方法和系统 |
CN113160068A (zh) * | 2021-02-23 | 2021-07-23 | 清华大学 | 基于图像的点云补全方法及系统 |
CN115131245A (zh) * | 2022-06-30 | 2022-09-30 | 中国人民解放军国防科技大学 | 一种基于注意力机制的点云补全方法 |
CN115619685A (zh) * | 2022-11-08 | 2023-01-17 | 广州大学 | 一种用于图像修复的追踪结构的Transformer方法 |
CN116503825A (zh) * | 2023-04-07 | 2023-07-28 | 清华大学深圳国际研究生院 | 自动驾驶场景下基于图像与点云融合的语义场景补全方法 |
WO2023241097A1 (zh) * | 2022-06-16 | 2023-12-21 | 山东海量信息技术研究院 | 一种语义实例重建方法、装置、设备及介质 |
CN117274764A (zh) * | 2023-11-22 | 2023-12-22 | 南京邮电大学 | 一种多模态特征融合的三维点云补全方法 |
-
2024
- 2024-07-17 CN CN202410957907.0A patent/CN118505909B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160068A (zh) * | 2021-02-23 | 2021-07-23 | 清华大学 | 基于图像的点云补全方法及系统 |
CN113160327A (zh) * | 2021-04-09 | 2021-07-23 | 上海智蕙林医疗科技有限公司 | 一种点云补全的实现方法和系统 |
WO2023241097A1 (zh) * | 2022-06-16 | 2023-12-21 | 山东海量信息技术研究院 | 一种语义实例重建方法、装置、设备及介质 |
CN115131245A (zh) * | 2022-06-30 | 2022-09-30 | 中国人民解放军国防科技大学 | 一种基于注意力机制的点云补全方法 |
CN115619685A (zh) * | 2022-11-08 | 2023-01-17 | 广州大学 | 一种用于图像修复的追踪结构的Transformer方法 |
CN116503825A (zh) * | 2023-04-07 | 2023-07-28 | 清华大学深圳国际研究生院 | 自动驾驶场景下基于图像与点云融合的语义场景补全方法 |
CN117274764A (zh) * | 2023-11-22 | 2023-12-22 | 南京邮电大学 | 一种多模态特征融合的三维点云补全方法 |
Non-Patent Citations (3)
Title |
---|
LONG YANG: "点云模型的形状可控几何补全", THE VISUAL COMPUTER, 6 February 2016 (2016-02-06) * |
孙嘉徽;: "虚拟现实技术的三维图像重建系统", 现代电子技术, no. 09, 1 May 2020 (2020-05-01) * |
贝子勒;赵杰煜;: "一种基于深度学习的点云修复模型", 无线通信技术, no. 02, 15 June 2020 (2020-06-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN118505909B (zh) | 2024-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
CN111340867B (zh) | 图像帧的深度估计方法、装置、电子设备及存储介质 | |
CN112767554B (zh) | 一种点云补全方法、装置、设备及存储介质 | |
CN114863573B (zh) | 一种基于单目rgb-d图像的类别级6d姿态估计方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
Tu et al. | Consistent 3d hand reconstruction in video via self-supervised learning | |
CN112750198B (zh) | 一种基于非刚性点云的稠密对应预测方法 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN112562001B (zh) | 一种物体6d位姿估计方法、装置、设备及介质 | |
CN114429555A (zh) | 由粗到细的图像稠密匹配方法、系统、设备及存储介质 | |
CN111724443A (zh) | 基于生成式对抗网络的统一场景视觉定位方法 | |
Wang et al. | Adversarial learning for joint optimization of depth and ego-motion | |
Li et al. | Latent distribution-based 3D hand pose estimation from monocular RGB images | |
CN117315169A (zh) | 基于深度学习多视密集匹配的实景三维模型重建方法和系统 | |
Yan et al. | Efficient implicit neural reconstruction using lidar | |
CN117745944A (zh) | 预训练模型确定方法、装置、设备以及存储介质 | |
CN113763539B (zh) | 一种基于图像和三维输入的隐式函数三维重建方法 | |
Xiao et al. | Instance-aware monocular 3D semantic scene completion | |
Ye et al. | Online adaptation for implicit object tracking and shape reconstruction in the wild | |
CN116993926B (zh) | 单视图人体三维重建方法 | |
CN118505909B (zh) | 一种草图辅助的残缺点云补全方法及系统 | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
CN117834839A (zh) | 基于移动终端的多视角3d智能成像测量系统 | |
Farooq et al. | A review of monocular depth estimation methods based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |