CN114937153B - 弱纹理环境下基于神经网络的视觉特征处理系统及方法 - Google Patents
弱纹理环境下基于神经网络的视觉特征处理系统及方法 Download PDFInfo
- Publication number
- CN114937153B CN114937153B CN202210663043.2A CN202210663043A CN114937153B CN 114937153 B CN114937153 B CN 114937153B CN 202210663043 A CN202210663043 A CN 202210663043A CN 114937153 B CN114937153 B CN 114937153B
- Authority
- CN
- China
- Prior art keywords
- original image
- branch
- detector
- descriptor
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 47
- 230000000007 visual effect Effects 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 title claims description 28
- 238000012549 training Methods 0.000 claims description 41
- 230000009466 transformation Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000004927 fusion Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种弱纹理环境下基于神经网络的视觉特征处理系统及方法,所述处理系统包括:主干网络、检测器分支及描述器分支,所述检测器分支与所述描述器分支为孪生网络的对称子分支;所述主干网络将原始图像进行卷积处理,输出所述原始图像的深层特征图;第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率;第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合,所述描述器分支输出描述子图,所述描述子图用于表征所述原始图像中各个点的描述子形态。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种弱纹理环境下基于神经网络的视觉特征处理系统及方法。
背景技术
近年来,人工智能蓬勃发展,全球自动化格局日渐成型,计算机视觉作为核心感知技术之一,创造了可观的社会、经济与学术价值,其社会应用深度、广度不断加强,安防、医学、农林、制造等产业逐步进入视觉智能时代,计算机视觉已然成为智慧革新中不可或缺的先驱技术。特征信息在实现视觉赋能的技术进程中至关重要,是计算系统理解、辨识图像的关键标志。研究人员基于图形学提出丰富的特征设计方案,兼顾区分度与可重复性的特征信息为图像检索、图像拼接、VSLAM、三维重构等视觉任务提供了良好的运算基元,其中,VSLAM方案赋予无人机、无人车等智能体自我定位与环境感知能力,是推进智能无人化建设的重要技术驱动。然而,基于几何的传统图像特征过度依赖图像质量,天然地对于成像环境变化十分敏感,面向如图1所示常见的弱纹理恶劣场景时会引起特征质量退化,造成特征算法失效,导致VSLAM等任务崩溃。特征处理技术在抵抗环境干扰、应对设备噪声、适应运动变化方面依然存在显著缺陷,科技创新和产品孵化工作对鲁棒、精准的特征提取、描述算法提出愈发迫切的需求。针对弱纹理环境下的视觉定位与建图任务,已有的解决方案有如下几种:
方案1:Yi K M等,LIFT:Learned Invariant Feature Transform[J]。该方案利用运动结构恢复方法构造监督信号以弥补数据缺失,并在统一框架下实现了三个子任务网络(检测器、方向估计器及描述器)的交互联接与End-to-End同步学习。然而,LIFT模型中子网络间未能形成计算共享关系,导致LIFT特征难以满足实时应用需求。
方案2:Detone D等,SuperPoint:Self-Supervised Interest Point Detectionand Description[J]。该方案采取孪生神经网络设计,基本实现了检测网络与描述网络间的计算共享,这使其在实时性方面具有卓越表现,Superpoint方案中采用自标注方法获取训练样本,利用标注器和单应变换对原始图像完成伪真值标注,得益于单应变换机制,Superpoint网络能够输出更为密集、可重复性更强的图像特征。然而,然而该工作采用隐式方法建模空间特性,效果上并不理想。
方案3:Dusmanu M等,A trainable cnn for joint description and detectionof local features[C]。该方案提出了同步检测与描述的概念,在时间维度上打破了“先检测,后描述”的传统模式,其网络输出中同时包含特征位置得分与描述子信息,D2-Net真正意义上实现了检测器与描述器的完全融合,在网络效率层面取得了优良效果。然而,D2-Net在特征精度方面表现欠佳。
发明内容
有鉴于此,本发明提供了一种弱纹理环境下基于神经网络的视觉特征处理系统及方法,能够解决现有的弱纹理环境下,如何降低弱纹理场景对特征提取及描述过程的干扰的技术问题。
为了解决上述技术问题,本发明是这样实现的。
一种弱纹理环境下基于神经网络的视觉特征处理系统,包括:
主干网络、检测器分支及描述器分支,所述检测器分支与所述描述器分支为孪生网络的对称子分支;
所述主干网络用于接收输入的原始图像,并将所述原始图像进行卷积处理,输出所述原始图像的深层特征图;所述主干网络包括多个级连的卷积层,其中,所述主干网络浅层卷积后得到的浅层特征图被同时输入第一空间模块与第二空间模块;所述第一空间模块及所述第二空间模块分别用于空间不变性还原;
所述检测器分支包括多个级连的卷积层,所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率;
所述描述器分支包括多个级连的卷积层,所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合,所述描述器分支输出描述子图,所述描述子图用于表征所述原始图像中各个点的描述子形态。
优选地,所述检测器分支用于接收所述主干网络输出的所述原始图像的深层特征图,所述检测器分支包括多个级连的卷积层,其中,所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率;
所述描述器分支用于接收所述主干网络输出的所述原始图像的深层特征图,所述描述器分支包括多个级连的卷积层,其中,所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合,所述描述器分支输出描述子图,所述描述子图用于表征所述原始图像中各个点的描述子形态。
优选地,所述检测器分支在训练过程中采用信息量损失函数,以8×8邻域作为一个基础单元划分所述原始图像,得到基础单元网格,假设网格内共计HC×WC个基础单元,每一个基础单元表示为xhw,真实场景数据集内真值数据标签集合记为Y,所述检测器分支具体损失函数为:
其中,HC为基础单元网格的总行数,WC为基础单元网格的总列数,h为基础单元网格的行索引,w为基础单元网格的列索引,y为一个基础单元中角点所在的像素位置,lp对角点所在像素位置处的网络预测值进行归一化并取负对数,xhwy为一个基础单元中角点所在像素位置处的网络预测值,xhwk为一个基础单元中任一像素位置处的网络预测值,k为通道编号。
优选地,所述描述器分支在训练过程中采用hinge-loss函数,具体形式为:
原始图像对应的描述子图:D,单应变换:H,原始图像经过单应变换后得到的变形后图像对应的描述子图:D′
原始图像对应的描述子:dhw,变形后图像对应的描述子:d′h′w′
原始图像内8×8邻域中心像素坐标:phw
变形后图像内8×8邻域中心像素坐标:p′h′w′
判断对应关系:
ld(dhw,d′h′w′,s)
=λd*s*max(0,mp-dhw Td′h′w′)+(1-s)*max(0,dhw Td′h′w′-mn)
其中,为描述器损失函数,Hphw为原始图像内8×8邻域中心像素经过单应变换后的坐标,λd为权重参数,s为对应关系判断参数,mp为正向边缘参数,dhw T为dhw的转置;h为原始图像对应的基础单元网格的行索引,w为原始图像对应的基础单元网格的列索引,h′为变形后图像对应的基础单元网格的行索引,w′为变形后图像对应的基础单元网格的列索引,mn为负向边缘参数。
进一步地,所述第一空间模块及所述第二空间模块均包括多个卷积网络、一个网格生成器、一个采样网络及一个采样器;所述空间模块接收主干网络中的浅层特征图作为输入,通过所述多个卷积网络的卷积操作,得到六自由度仿射变换矩阵,将得到的六自由度仿射变换矩阵输入网格生成器,所述网络生成器进行网格生成,得到采样网格,所述采样器依照采样网格对主干网络中的浅层特征图进行像素采样得到空间转换特征图。
进一步地,所述处理系统的训练为五阶段训练,第一阶段,对训练样本数据集进行数据增强操作,随后利用该训练样本数据集单独对所述检测器分支进行训练;第二阶段,利用第一阶段训练得到的检测器分支,对真实场景数据集进行标注,获得真实场景下的特征标注数据集;第三阶段,将第一阶段中训练得到所述检测器分支的权重参数全部清空,利用第二阶段所得特征标注数据集单独对所述检测器分支进行再次训练;第四阶段,利用第三阶段所得检测器分支对所述真实场景数据集进行重新标注,得到二次标注数据集;第五阶段,清空所述检测器分支和所述描述器分支的权重,利用所述二次标注数据集对所述检测器分支及所述描述器分支进行联合训练。
本发明所提供的一种弱纹理环境下基于神经网络的视觉特征处理方法,所述方法包括:
步骤S1:获取原始图像;
步骤S2:将所述原始图像输入所述处理系统;
步骤S3:所述处理系统对原始图像进行特征检测与描述,得到所述原始图像的角点和对应描述子;
步骤S4:基于所述原始图像的角点和描述子,能够在弱纹理环境下完成图像拼接、视觉定位与场景识别。
有益效果:
本发明充分发挥深度学习方法优势,通过数据驱动方式引导网络关注纹理信息丰富的场景区域,并通过针对性地添加空间处理模块以增强网络整体的空间稳定性与敏感性。本发明中,空间模块通过跳层连接方式接入孪生部分,在尽力保证图像深层特征真实性的前提下扩展网络模型的空间适应能力。
具有以下技术效果:
(1)本发明提出了一种基于神经网络的视觉特征处理系统以降低弱纹理场景对于视觉特征处理工作的不利影响,采用数据驱动方法打破了传统特征算法受到的几何规则约束,在确保实时性的同时进一步提升了图像信息利用率。
(2)本发明引入空间转换器模块,并将转换得到的空间转换特征图与原始特征图进行级联叠加,这一处理方法显式建模了图像的空间特性,相较于先前工作中的隐式建模方法具有更为出色的表现。
(3)本发明采用自监督标注方法完成训练,解决了人工标注的主观误差和样本缺失问题,,进一步提高数据利用率,充分开发网络结构潜力,最大程度降低了场景局限性对特征网络带来的损害,对增强深度学习技术在特征提取与描述问题中的实际应用价值具有显著意义。
(4)本发明通过孪生神经网络架构与自监督标注训练策略,摆脱了特征提取过程中几何规则带来的强约束,使网络具备出色的鲁棒性、灵活性与场景适应性,从而降低外部环境干扰与算法复杂度。
(5)本发明的处理系统是一种孪生架构,采用特征处理算法,建立起集特征提取、描述于一体的标准系统,并以图3所示结构对空间模块进行了显式建模,从而保证所提取场景特征的特异性与空间质量。
附图说明
图1为弱纹理场景示意图;
图2为本发明提供的弱纹理环境下基于神经网络的视觉特征处理系统架构示意图;
图3为本发明提供的空间模块架构示意图;
图4(A)-图4(B)为本发明提供的合成数据集示意图;
图5为本发明使用的真实场景数据集示意图;
图6(A)-图6(B)为本发明提供的检测器输出结果示意图。
具体实施方式
下面结合附图和实施例,对本发明进行详细描述。
如图2-图3所示,本发明提出了一种弱纹理环境下基于神经网络的视觉特征处理系统,所述处理系统包括:
主干网络、检测器分支及描述器分支,所述检测器分支与所述描述器分支为孪生网络的对称子分支;
所述主干网络用于接收输入的原始图像,并将所述原始图像进行卷积处理,输出所述原始图像的深层特征图;所述主干网络包括多个级连的卷积层,其中,所述主干网络浅层卷积后得到的浅层特征图被同时输入第一空间模块与第二空间模块;所述第一空间模块及所述第二空间模块分别用于空间不变性还原;
所述检测器分支包括多个级连的卷积层,所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率;
所述描述器分支包括多个级连的卷积层,所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合,所述描述器分支输出描述子图,所述描述子图用于表征所述原始图像中各个点的描述子形态。
所述浅层卷积是指图像只经过了部分卷积层的处理,并未达到深层的程度。
进一步地,所述检测器分支用于接收所述主干网络输出的所述原始图像的深层特征图,所述检测器分支包括多个级连的卷积层,其中,所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率;
所述描述器分支用于接收所述主干网络输出的所述原始图像的深层特征图,所述描述器分支包括多个级连的卷积层,其中,所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合,所述描述器分支输出描述子图,所述描述子图用于表征所述原始图像中各个点的描述子形态。
图像特征是诸多计算机视觉任务的基本运算单元,是计算机理解图像内容的关键信息,借助卷积神经网络在广阔感知域下对深层图像特征的强大提取能力,基于深度学习的特征处理算法能够摆脱几何规则约束并弱化外部环境干扰,因此,在读入场景图像后,首先通过所述主干网络内设置的多重卷积层对原始图像进行卷积编码,完成深层特征提取工作,同时,将所述主干网络中的浅层特征图输入空间模块,即空间转换器,进行空间信息编码,得到空间转换特征图outSpatial-Transformer,深层特征提取与空间编码的主要目的都在于为后续特征检测和描述任务提供数据基础。
深层特征提取步骤:
out11=ReLu(conv_11(raw_image))
out12=Maxpool(ReLu(conv_12(out11)))
out21=ReLu(conv_21(out12))
out22=Maxpool(ReLu(conv_22(out21)))
out31=ReLu(conv_31(out22))
out32=Maxpool(ReLu(conv_32(out31)))
out41=ReLu(conv_41(out32))
out42=ReLu(conv_42(out41))
所述主干网络的结构如下表1所示。
表1
所述检测器分支由多个卷积层组成,在所述检测器分支的第一层卷积层接收所述深层特征图,在第一卷积层输出位置接收所述空间转换特征图,并进行第一卷积层输出与所述空间转换特征图的融合,所述融合包括将所述检测器分支中第一卷积层输出特征图和空间转换特征图沿通道维度进行级连。所述空间转换特征图是描述空间变换的特征图。所述检测器分支的第一卷积层为处理所述检测器分支的输入的首个卷积层。
由于原始图像数据中像素体量庞大,因此,为保障算法实时性,需要在检测器分支对特征检测过程进行数量控制,本发明中,采取8邻域方法进行特征检测,在8×8邻域内采用非极大值抑制确保特征信息的唯一性,所述检测器分支采取卷积方法将融合后得到的级联特征图压缩至65通道,随后对65通道内的数据进行归一化处理,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率。具体地,65个通道中,有64个通道内的数值表征8×8邻域内64个像素位置处为特征点的概率,另1个通道内的数值表征8×8邻域内无特征存在的概率。所述检测器分支的输出结果如图6(A)-图6(B)所示。
所述检测器分支在训练过程中采用信息量损失函数,以8×8邻域作为一个基础单元划分所述原始图像,得到基础单元网格,假设网格内共计HC×WC个基础单元,每一个基础单元表示为xhw,真实场景数据集内真值数据标签集合记为Y,所述检测器分支具体损失函数为:
其中,HC为基础单元网格的总行数,WC为基础单元网格的总列数,h为基础单元网格的行索引,w为基础单元网格的列索引,y为一个基础单元中角点所在的像素位置,lp对角点所在像素位置处的网络预测值进行归一化并取负对数,xhwy为一个基础单元中角点所在像素位置处的网络预测值,xhwk为一个基础单元中任一像素位置处的网络预测值,k为通道编号。
检测器分支各卷积层的输出为:
outdect_1=ReLu(conv_dect_1(out42))
outdect_3=ReLu(conv_dect_2(outdect_2))
outdect_final=Softmax(outdect_3)
所述检测器分支网络结构如下表2所示。
表2
所述描述器分支由多个卷积层组成,在所述描述器分支的第一层卷积层接收所述深层特征图,在第一卷积层输出位置接收所述空间转换特征图,并进行第一卷积层输出与所述空间转换特征图的融合,所述融合包括将所述描述器分支中第一卷积层输出特征图和空间特征图沿通道维度进行级连。所述描述器分支的第一卷积层为处理所述描述器分支的输入的首个卷积层。
出于实时性考虑,描述器分支同样以HC×WC个基础单元作为运算基元,逐单元开展特征描述工作,采用256位描述子对特征点进行表征,为增强特征描述工作的细致程度与稠密性,本发明以8×8邻域内的中心点作为位置参考,对检测所得特征点进行像素级别的描述子插值计算,进一步提升特征描述精度。
作为特征点的识别标志,描述子最为重要的属性便是其个体特异性,清晰可辨的特征描述子对特征匹配和识别工作具有重要意义,是准确完成视觉定位、图像拼接、场景重建等计算机视觉任务的重要保障,为此,所述描述器分支在训练过程中采用hinge-loss函数,具体形式为:
原始图像对应的描述子图:D,单应变换:H,原始图像经过单应变换后得到的变形后图像对应的描述子图:D′
原始图像对应的描述子:dhw,变形后图像对应的描述子:d′h′w′
原始图像内8×8邻域中心像素坐标:phw
变形后图像内8×8邻域中心像素坐标:p′h′w′
判断对应关系:
ld(dhw,d′h′w′,s)
=λd*s*max(0,mp-dhw Td′h′w′)+(1-s)*max(0,dhw Td′h′w′-mn)
其中,λd,mp和mn为损失函数内经验阈值,λd的设立旨在平衡positive pairs(s=1的点对)和negative pairs(s=0的点对)的损失项大小,确保网络参数沿着正确方向协调下降,而mp和mn的设立旨在控制网络学习进程,防止网络过度学习造成的过拟合现象,确保网络参数收敛至恰当的值域范围。s为对应关系判断参数,mp为正向边缘参数,dhw T为dhw的转置;h为原始图像对应的基础单元网格的行索引,w为原始图像对应的基础单元网格的列索引,h′为变形后图像对应的基础单元网格的行索引,w′为变形后图像对应的基础单元网格的列索引,mn为负向边缘参数。
描述器分支输出为:
outdescriptor_1=ReLu(conv_descriptor_1(out42))
outdescriptor_3=ReLu(conv_descriptor-2(outdescriptor_2))
outdescriptor_final=Normalize(outdescriptor_3)
所述描述器分支网络结构如表3所示。
表3
本发明中,检测器分支中,级联特征图经过通道压缩后进行特征位置评分,进而确定8×8邻域内特征位置,描述器分支中,级联特征图沿通道维度被压缩为256位描述子,后续以8×8邻域中心像素坐标为位置基准进行描述子插值,提升描述子精度与特异性。
进一步地,如图3所示,所述空间模块包括多个卷积网络、一个网格生成器、一个采样网络及一个采样器;所述空间模块接收主干网络中的浅层特征图作为输入,通过所述多个卷积网络的卷积操作,得到六自由度仿射变换矩阵,将得到的六自由度仿射变换矩阵输入网格生成器,所述网络生成器进行网格生成,得到采样网格,所述采样器依照采样网格对主干网络中的浅层特征图进行像素采样得到空间转换特征图。
进一步地,所述处理系统的训练为五阶段训练,由包含基础几何图案的合成数据集作为训练样本,第一阶段,对训练样本数据集进行数据增强操作,随后利用该训练样本数据集单独对所述检测器分支进行训练;第二阶段,利用第一阶段训练得到的检测器分支,对真实场景数据集进行标注,获得真实场景下的特征标注数据集;第三阶段,将第一阶段中训练得到所述检测器分支的权重参数全部清空,利用第二阶段所得特征标注数据集单独对所述检测器分支进行再次训练;第四阶段,利用第三阶段所得检测器分支对所述真实场景数据集进行重新标注,得到二次标注数据集;第五阶段,清空所述检测器分支和所述描述器分支的权重,利用所述二次标注数据集对所述检测器分支及所述描述器分支进行联合训练,最终得到稳定的处理系统。
本发明的处理系统整体采用孪生架构设计,在结构上层次鲜明地划分为前端主干网络与后端检测器分支、描述器分支,原始图像输入到主干网络(Backbone)部分,主干网络对原始输入图像进行图像卷积处理,输出深层特征图,深层特征图将作为共享信息同时递交至检测器分支与描述器分支进行不同任务。同时,所述主干网络外接空间处理模块,将主干网络的浅层特征图单独分离并传递给空间处理模块,所述空间处理模块起到空间变换器(Spatial Transformer)的作用,经由空间处理模块处理后,得到空间信息,进而将空间信息编码到特征信息中,获得空间转换特征图。检测器分支与描述器分支为孪生模块,分别用于特征位置检测与特征描述任务,在孪生架构中,主干网络输出的深层特征图分别被输入检测器分支与描述器分支中,与所述空间转换特征图进行级联,在损失函数的引导下,处理系统内的权重参数不断更新迭代以获得更为精准的特征位置和描述子信息,处理系统输出端,所述的检测器与描述器分支分别输出65通道的角点概率图和256通道的描述子图。
本发明中为防止人工标注数据带来的主观干扰,采用自监督方式完成训练,训练环节共设置4大阶段,第一阶段中利用程序自主合成包含基础几何图案(多边形、线条、星型……)的合成数据集,如图4(A)-图4(B)所示,并对该数据集进行对比度调整、噪声添加、运动模糊、亮度调整等数据增强操作,随后利用该数据集单独对网络检测器分支进行初步训练;第二阶段中,利用第一阶段初步训练所得检测器分支,对真实场景数据集(图5)进行标注,获得真实场景下的特征标注数据集;第三阶段中,将第一阶段中训练得到的权重参数全部清空,利用第二阶段所得真实场景数据集单独对网络检测器分支进行初步训练;第四阶段中,利用第三阶段所得检测器对真实场景数据集进行重新标注,二次标注的目的在于进一步精化数据集质量,为最终阶段的训练提供基础;第五阶段中,再次清空权重,利用第四阶段中标注所得的高质量数据集对整个网络结构(检测器+描述器)进行联合训练,最终得到完备可靠的特征处理网络。
本发明针对弱纹理下视觉特征提取与描述系统(Visual Simultaneouslocalization and mapping,VSLAM)特征监测不稳定和描述子重复性差的问题,提出了一种基于深度学习技术的孪生特征处理网络,该系统对高频出现弱纹理区域的挑战性场景具有强适应能力且表现鲁棒,系统整体框架可划分为前端主体骨架(Backbone)和后端检测器、描述器。主干网络中设置有多层卷积神经网络用以提取图像深层特征,同时在主体骨架中程外接空间转换器模块用以显式编码空间信息,增强特征信息的空间稳定性与灵敏度,图像深层特征图与空间转换特征图在后端分支中进行级联叠加,为网络输出层提供丰富数据。特征检测器和描述器分支中,特征图以8×8邻域为基本单元进行划分,级联特征图分别被压缩至65通道和256通道,检测器分支中采用概率评分策略以确定8×8邻域内的特征位置(第65通道数值表征邻域内无特征概率),而描述器分支中则采取256位描述子对特征信息进行标记。为克服人工标注特征带来的主观误差,本发明中采用自监督标注方式构造数据标签,同时将训练过程细致划分为五大阶段以提高数据质量并增强网络精度,有效解决了样本稀少的数据困境。通过本发明所提出的视觉特征处理系统,视觉定位、场景重建、图像拼接等多项计算机视觉任务在弱纹理环境中得以持续稳定进行,缓解了特征缺失与算法崩溃等原有弊端。本发明在实现功能增强的同时最大程度保证了系统实时性,在检测器层面,8×8邻域的设有效控制了特征检测数量,在描述器分支,为进一步提高特征描述的特异性而不损伤算法实时性,本发明中以8×8邻域中心像素坐标为位置基准进行描述子插值计算,经试验测试,在典型弱纹理场景下本文系统与现有主流特征算法相比更加有效、鲁棒,具备较高的实际应用价值及出众潜力。
本发明还提供了一种弱纹理环境下基于神经网络的视觉特征处理方法,所述方法基于如前所述的处理系统,所述处理方法包括以下步骤:
步骤S1:获取原始图像;
步骤S2:将所述原始图像输入所述处理系统;
步骤S3:所述处理系统对原始图像进行特征检测与描述,得到所述原始图像的角点和对应描述子;
步骤S4:基于所述原始图像的角点和描述子,能够在弱纹理环境下完成图像拼接、视觉定位与场景识别。
以上的具体实施例仅描述了本发明的设计原理,该描述中的部件形状,名称可以不同,不受限制。所以,本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换;而这些修改和替换未脱离本发明创造宗旨和技术方案,均应属于本发明的保护范围。
Claims (6)
1.一种弱纹理环境下基于神经网络的视觉特征处理系统,其特征在于,所述处理系统包括:
主干网络、检测器分支及描述器分支,所述检测器分支与所述描述器分支为孪生网络的对称子分支;
所述主干网络用于接收输入的原始图像,并将所述原始图像进行卷积处理,输出所述原始图像的深层特征图;所述主干网络包括多个级连的卷积层,其中,所述主干网络浅层卷积后得到的浅层特征图被同时输入第一空间模块与第二空间模块;所述第一空间模块及所述第二空间模块分别用于空间不变性还原;
所述检测器分支包括多个级连的卷积层,所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合,所述检测器分支输出角点概率图,所述角点概率图用于表征所述原始图像中各个点是角点的概率;
所述描述器分支包括多个级连的卷积层,所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合,所述描述器分支输出描述子图,所述描述子图用于表征所述原始图像中各个点的描述子形态;
所述检测器分支用于接收所述主干网络输出的所述原始图像的深层特征图;
所述描述器分支用于接收所述主干网络输出的所述原始图像的深层特征图。
2.如权利要求1所述的系统,其特征在于,所述检测器分支在训练过程中采用信息量损失函数,以8×8邻域作为一个基础单元划分所述原始图像,得到基础单元网格,假设网格内共计HC×WC个基础单元,每一个基础单元表示为xhw,真实场景数据集内真值数据标签集合记为Y,所述检测器分支具体损失函数为:
其中,HC为基础单元网格的总行数,WC为基础单元网格的总列数,h为基础单元网格的行索引,w为基础单元网格的列索引,y为一个基础单元中角点所在的像素位置,lp对角点所在像素位置处的网络预测值进行归一化并取负对数,xhwy为一个基础单元中角点所在像素位置处的网络预测值,xhwk为一个基础单元中任一像素位置处的网络预测值,k为通道编号。
3.如权利要求2所述的系统,其特征在于,所述描述器分支在训练过程中采用hinge-loss函数,具体形式为:
原始图像对应的描述子图:D,单应变换:H,原始图像经过单应变换后得到的变形后图像对应的描述子图:D′
原始图像对应的描述子:dhw,变形后图像对应的描述子:d′h′w′
原始图像内8×8邻域中心像素坐标:phw
变形后图像内8×8邻域中心像素坐标:p′h′w′
判断对应关系:
ld(dhw,d′h′w′,s)=λd*s*max(0,mp-dhw Td′h′w′)+(1-s)*max(0,dhw Td′h′w′-mn)
4.如权利要求1所述的系统,其特征在于,所述第一空间模块及所述第二空间模块均包括多个卷积网络、一个网格生成器、一个采样网络及一个采样器;所述空间模块接收主干网络中的浅层特征图作为输入,通过所述多个卷积网络的卷积操作,得到六自由度仿射变换矩阵,将得到的六自由度仿射变换矩阵输入网格生成器,所述网络生成器进行网格生成,得到采样网格,所述采样器依照采样网格对主干网络中的浅层特征图进行像素采样得到空间转换特征图。
5.如权利要求1所述的系统,其特征在于,所述处理系统的训练为五阶段训练,第一阶段,对训练样本数据集进行数据增强操作,随后利用该训练样本数据集单独对所述检测器分支进行训练;第二阶段,利用第一阶段训练得到的检测器分支,对真实场景数据集进行标注,获得真实场景下的特征标注数据集;第三阶段,将第一阶段中训练得到所述检测器分支的权重参数全部清空,利用第二阶段所得特征标注数据集单独对所述检测器分支进行再次训练;第四阶段,利用第三阶段所得检测器分支对所述真实场景数据集进行重新标注,得到二次标注数据集;第五阶段,清空所述检测器分支和所述描述器分支的权重,利用所述二次标注数据集对所述检测器分支及所述描述器分支进行联合训练。
6.一种弱纹理环境下基于神经网络的视觉特征处理方法,基于如权利要求1-5中任一项所述的处理系统,其特征在于,所述方法包括以下步骤:
步骤S1:获取原始图像;
步骤S2:将所述原始图像输入所述处理系统;
步骤S3:所述处理系统对原始图像进行特征检测与描述,得到所述原始图像的角点和对应描述子;
步骤S4:基于所述原始图像的角点和描述子,能够在弱纹理环境下完成图像拼接、视觉定位与场景识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663043.2A CN114937153B (zh) | 2022-06-07 | 2022-06-07 | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663043.2A CN114937153B (zh) | 2022-06-07 | 2022-06-07 | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114937153A CN114937153A (zh) | 2022-08-23 |
CN114937153B true CN114937153B (zh) | 2023-06-30 |
Family
ID=82867108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210663043.2A Active CN114937153B (zh) | 2022-06-07 | 2022-06-07 | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937153B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710467B (zh) * | 2024-02-06 | 2024-05-28 | 天津云圣智能科技有限责任公司 | 无人机定位方法、设备及飞行器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861988A (zh) * | 2021-03-04 | 2021-05-28 | 西南科技大学 | 一种基于注意力图神经网络的特征匹配方法 |
CN113066129A (zh) * | 2021-04-12 | 2021-07-02 | 北京理工大学 | 基于动态环境下的目标检测的视觉定位与建图系统 |
CN113610905A (zh) * | 2021-08-02 | 2021-11-05 | 北京航空航天大学 | 基于子图像匹配的深度学习遥感图像配准方法及应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768432B (zh) * | 2020-06-30 | 2022-06-10 | 中国科学院自动化研究所 | 基于孪生深度神经网络的动目标分割方法及系统 |
CN113988269A (zh) * | 2021-11-05 | 2022-01-28 | 南通大学 | 一种基于改进孪生网络的回环检测及优化方法 |
-
2022
- 2022-06-07 CN CN202210663043.2A patent/CN114937153B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861988A (zh) * | 2021-03-04 | 2021-05-28 | 西南科技大学 | 一种基于注意力图神经网络的特征匹配方法 |
CN113066129A (zh) * | 2021-04-12 | 2021-07-02 | 北京理工大学 | 基于动态环境下的目标检测的视觉定位与建图系统 |
CN113610905A (zh) * | 2021-08-02 | 2021-11-05 | 北京航空航天大学 | 基于子图像匹配的深度学习遥感图像配准方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN114937153A (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN113177560A (zh) | 一种普适性轻量级深度学习车辆检测方法 | |
Fu et al. | Complementarity-aware Local-global Feature Fusion Network for Building Extraction in Remote Sensing Images | |
CN112560865B (zh) | 一种室外大场景下点云的语义分割方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN117132997B (zh) | 一种基于多头注意力机制和知识图谱的手写表格识别方法 | |
CN117011380A (zh) | 一种目标物体的6d位姿估计方法 | |
CN116912804A (zh) | 一种高效的无锚框3-d目标检测及跟踪方法及模型 | |
CN114861761A (zh) | 一种基于孪生网络特征与几何验证的回环检测方法 | |
Wang et al. | Accurate real-time ship target detection using Yolov4 | |
CN113901928A (zh) | 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统 | |
CN114937153B (zh) | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 | |
CN111488856A (zh) | 一种基于正交引导学习的多模态2d及3d人脸表情识别 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
Xiao et al. | Road extraction from point clouds of open-pit mine using LPFE-Net | |
CN118015671A (zh) | 一种可利用无标签视频训练的人脸关键点检测方法 | |
CN111860361A (zh) | 一种绿色通道货物扫描图像夹带自动识别器及识别方法 | |
CN115035377B (zh) | 基于双流编码和交互解码的显著性检测网络系统 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN114140524B (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
CN114863103A (zh) | 一种无人潜航器识别方法、设备和存储介质 | |
CN118644784B (zh) | 一种融合注意力机制的多尺度特征聚合点云建筑物提取方法 | |
CN117274723B (zh) | 一种用于输电巡检的目标识别方法、系统、介质及设备 | |
Liang et al. | GCC-YOLOv7: accelerate printed circuit board small target detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |