CN114937153B

CN114937153B - 弱纹理环境下基于神经网络的视觉特征处理系统及方法

Info

Publication number: CN114937153B
Application number: CN202210663043.2A
Authority: CN
Inventors: 方浩; 胡家瑞; 王奥博; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-06-30
Anticipated expiration: 2042-06-07
Also published as: CN114937153A

Abstract

本发明公开了一种弱纹理环境下基于神经网络的视觉特征处理系统及方法，所述处理系统包括：主干网络、检测器分支及描述器分支，所述检测器分支与所述描述器分支为孪生网络的对称子分支；所述主干网络将原始图像进行卷积处理，输出所述原始图像的深层特征图；第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合，所述检测器分支输出角点概率图，所述角点概率图用于表征所述原始图像中各个点是角点的概率；第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合，所述描述器分支输出描述子图，所述描述子图用于表征所述原始图像中各个点的描述子形态。

Description

弱纹理环境下基于神经网络的视觉特征处理系统及方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种弱纹理环境下基于神经网络的视觉特征处理系统及方法。

背景技术

近年来，人工智能蓬勃发展，全球自动化格局日渐成型，计算机视觉作为核心感知技术之一，创造了可观的社会、经济与学术价值，其社会应用深度、广度不断加强，安防、医学、农林、制造等产业逐步进入视觉智能时代，计算机视觉已然成为智慧革新中不可或缺的先驱技术。特征信息在实现视觉赋能的技术进程中至关重要，是计算系统理解、辨识图像的关键标志。研究人员基于图形学提出丰富的特征设计方案，兼顾区分度与可重复性的特征信息为图像检索、图像拼接、VSLAM、三维重构等视觉任务提供了良好的运算基元，其中，VSLAM方案赋予无人机、无人车等智能体自我定位与环境感知能力，是推进智能无人化建设的重要技术驱动。然而，基于几何的传统图像特征过度依赖图像质量，天然地对于成像环境变化十分敏感，面向如图1所示常见的弱纹理恶劣场景时会引起特征质量退化，造成特征算法失效，导致VSLAM等任务崩溃。特征处理技术在抵抗环境干扰、应对设备噪声、适应运动变化方面依然存在显著缺陷，科技创新和产品孵化工作对鲁棒、精准的特征提取、描述算法提出愈发迫切的需求。针对弱纹理环境下的视觉定位与建图任务，已有的解决方案有如下几种：

方案1：Yi K M等，LIFT:Learned Invariant Feature Transform[J]。该方案利用运动结构恢复方法构造监督信号以弥补数据缺失，并在统一框架下实现了三个子任务网络(检测器、方向估计器及描述器)的交互联接与End-to-End同步学习。然而，LIFT模型中子网络间未能形成计算共享关系，导致LIFT特征难以满足实时应用需求。

方案2：Detone D等，SuperPoint:Self-Supervised Interest Point Detectionand Description[J]。该方案采取孪生神经网络设计，基本实现了检测网络与描述网络间的计算共享，这使其在实时性方面具有卓越表现，Superpoint方案中采用自标注方法获取训练样本，利用标注器和单应变换对原始图像完成伪真值标注，得益于单应变换机制，Superpoint网络能够输出更为密集、可重复性更强的图像特征。然而，然而该工作采用隐式方法建模空间特性，效果上并不理想。

方案3：Dusmanu M等，A trainable cnn for joint description and detectionof local features[C]。该方案提出了同步检测与描述的概念，在时间维度上打破了“先检测，后描述”的传统模式，其网络输出中同时包含特征位置得分与描述子信息，D2-Net真正意义上实现了检测器与描述器的完全融合，在网络效率层面取得了优良效果。然而，D2-Net在特征精度方面表现欠佳。

发明内容

有鉴于此，本发明提供了一种弱纹理环境下基于神经网络的视觉特征处理系统及方法，能够解决现有的弱纹理环境下，如何降低弱纹理场景对特征提取及描述过程的干扰的技术问题。

为了解决上述技术问题，本发明是这样实现的。

一种弱纹理环境下基于神经网络的视觉特征处理系统，包括：

主干网络、检测器分支及描述器分支，所述检测器分支与所述描述器分支为孪生网络的对称子分支；

所述主干网络用于接收输入的原始图像，并将所述原始图像进行卷积处理，输出所述原始图像的深层特征图；所述主干网络包括多个级连的卷积层，其中，所述主干网络浅层卷积后得到的浅层特征图被同时输入第一空间模块与第二空间模块；所述第一空间模块及所述第二空间模块分别用于空间不变性还原；

所述检测器分支包括多个级连的卷积层，所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合，所述检测器分支输出角点概率图，所述角点概率图用于表征所述原始图像中各个点是角点的概率；

所述描述器分支包括多个级连的卷积层，所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合，所述描述器分支输出描述子图，所述描述子图用于表征所述原始图像中各个点的描述子形态。

优选地，所述检测器分支用于接收所述主干网络输出的所述原始图像的深层特征图，所述检测器分支包括多个级连的卷积层，其中，所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合，所述检测器分支输出角点概率图，所述角点概率图用于表征所述原始图像中各个点是角点的概率；

所述描述器分支用于接收所述主干网络输出的所述原始图像的深层特征图，所述描述器分支包括多个级连的卷积层，其中，所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合，所述描述器分支输出描述子图，所述描述子图用于表征所述原始图像中各个点的描述子形态。

优选地，所述检测器分支在训练过程中采用信息量损失函数，以8×8邻域作为一个基础单元划分所述原始图像，得到基础单元网格，假设网格内共计H_C×W_C个基础单元，每一个基础单元表示为x_hw，真实场景数据集内真值数据标签集合记为Y，所述检测器分支具体损失函数为：

其中，H_C为基础单元网格的总行数，W_C为基础单元网格的总列数，h为基础单元网格的行索引，w为基础单元网格的列索引，y为一个基础单元中角点所在的像素位置，l_p对角点所在像素位置处的网络预测值进行归一化并取负对数，x_hwy为一个基础单元中角点所在像素位置处的网络预测值，x_hwk为一个基础单元中任一像素位置处的网络预测值，k为通道编号。

优选地，所述描述器分支在训练过程中采用hinge-loss函数，具体形式为：

原始图像对应的描述子图：D，单应变换：H，原始图像经过单应变换后得到的变形后图像对应的描述子图：D′

原始图像对应的描述子：d_hw，变形后图像对应的描述子：d′_h′w′

原始图像内8×8邻域中心像素坐标：p_hw

变形后图像内8×8邻域中心像素坐标：p′_h′w′

判断对应关系：

l_d(d_hw，d′_h′w′，s)

＝λ_d*s*max(0，m_p-d_hw ^Td′_h′w′)+(1-s)*max(0，d_hw ^Td′_h′w′-m_n)

其中，

为描述器损失函数，Hp_hw为原始图像内8×8邻域中心像素经过单应变换后的坐标，λ_d为权重参数，s为对应关系判断参数，m_p为正向边缘参数，d_hw ^T为d_hw的转置；h为原始图像对应的基础单元网格的行索引，w为原始图像对应的基础单元网格的列索引，h′为变形后图像对应的基础单元网格的行索引，w′为变形后图像对应的基础单元网格的列索引，m_n为负向边缘参数。

进一步地，所述第一空间模块及所述第二空间模块均包括多个卷积网络、一个网格生成器、一个采样网络及一个采样器；所述空间模块接收主干网络中的浅层特征图作为输入，通过所述多个卷积网络的卷积操作，得到六自由度仿射变换矩阵，将得到的六自由度仿射变换矩阵输入网格生成器，所述网络生成器进行网格生成，得到采样网格，所述采样器依照采样网格对主干网络中的浅层特征图进行像素采样得到空间转换特征图。

进一步地，所述处理系统的训练为五阶段训练，第一阶段，对训练样本数据集进行数据增强操作，随后利用该训练样本数据集单独对所述检测器分支进行训练；第二阶段，利用第一阶段训练得到的检测器分支，对真实场景数据集进行标注，获得真实场景下的特征标注数据集；第三阶段，将第一阶段中训练得到所述检测器分支的权重参数全部清空，利用第二阶段所得特征标注数据集单独对所述检测器分支进行再次训练；第四阶段，利用第三阶段所得检测器分支对所述真实场景数据集进行重新标注，得到二次标注数据集；第五阶段，清空所述检测器分支和所述描述器分支的权重，利用所述二次标注数据集对所述检测器分支及所述描述器分支进行联合训练。

本发明所提供的一种弱纹理环境下基于神经网络的视觉特征处理方法，所述方法包括：

步骤S1：获取原始图像；

步骤S2：将所述原始图像输入所述处理系统；

步骤S3：所述处理系统对原始图像进行特征检测与描述，得到所述原始图像的角点和对应描述子；

步骤S4：基于所述原始图像的角点和描述子，能够在弱纹理环境下完成图像拼接、视觉定位与场景识别。

有益效果：

本发明充分发挥深度学习方法优势，通过数据驱动方式引导网络关注纹理信息丰富的场景区域，并通过针对性地添加空间处理模块以增强网络整体的空间稳定性与敏感性。本发明中，空间模块通过跳层连接方式接入孪生部分，在尽力保证图像深层特征真实性的前提下扩展网络模型的空间适应能力。

具有以下技术效果：

(1)本发明提出了一种基于神经网络的视觉特征处理系统以降低弱纹理场景对于视觉特征处理工作的不利影响，采用数据驱动方法打破了传统特征算法受到的几何规则约束，在确保实时性的同时进一步提升了图像信息利用率。

(2)本发明引入空间转换器模块，并将转换得到的空间转换特征图与原始特征图进行级联叠加，这一处理方法显式建模了图像的空间特性，相较于先前工作中的隐式建模方法具有更为出色的表现。

(3)本发明采用自监督标注方法完成训练，解决了人工标注的主观误差和样本缺失问题，，进一步提高数据利用率，充分开发网络结构潜力，最大程度降低了场景局限性对特征网络带来的损害，对增强深度学习技术在特征提取与描述问题中的实际应用价值具有显著意义。

(4)本发明通过孪生神经网络架构与自监督标注训练策略，摆脱了特征提取过程中几何规则带来的强约束，使网络具备出色的鲁棒性、灵活性与场景适应性，从而降低外部环境干扰与算法复杂度。

(5)本发明的处理系统是一种孪生架构，采用特征处理算法，建立起集特征提取、描述于一体的标准系统，并以图3所示结构对空间模块进行了显式建模，从而保证所提取场景特征的特异性与空间质量。

附图说明

图1为弱纹理场景示意图；

图2为本发明提供的弱纹理环境下基于神经网络的视觉特征处理系统架构示意图；

图3为本发明提供的空间模块架构示意图；

图4(A)-图4(B)为本发明提供的合成数据集示意图；

图5为本发明使用的真实场景数据集示意图；

图6(A)-图6(B)为本发明提供的检测器输出结果示意图。

具体实施方式

下面结合附图和实施例，对本发明进行详细描述。

如图2-图3所示，本发明提出了一种弱纹理环境下基于神经网络的视觉特征处理系统，所述处理系统包括：

所述浅层卷积是指图像只经过了部分卷积层的处理，并未达到深层的程度。

进一步地，所述检测器分支用于接收所述主干网络输出的所述原始图像的深层特征图，所述检测器分支包括多个级连的卷积层，其中，所述第一空间模块的输出与所述检测器分支中第一卷积层的输出相融合，所述检测器分支输出角点概率图，所述角点概率图用于表征所述原始图像中各个点是角点的概率；

图像特征是诸多计算机视觉任务的基本运算单元，是计算机理解图像内容的关键信息，借助卷积神经网络在广阔感知域下对深层图像特征的强大提取能力，基于深度学习的特征处理算法能够摆脱几何规则约束并弱化外部环境干扰，因此，在读入场景图像后，首先通过所述主干网络内设置的多重卷积层对原始图像进行卷积编码，完成深层特征提取工作，同时，将所述主干网络中的浅层特征图输入空间模块，即空间转换器，进行空间信息编码，得到空间转换特征图out_{Spatial-Transformer}，深层特征提取与空间编码的主要目的都在于为后续特征检测和描述任务提供数据基础。

深层特征提取步骤：

out₁₁＝ReLu(conv_11(raw_image))

out₁₂＝Maxpool(ReLu(conv_12(out₁₁)))

out₂₁＝ReLu(conv_21(out₁₂))

out₂₂＝Maxpool(ReLu(conv_22(out₂₁)))

out₃₁＝ReLu(conv_31(out₂₂))

out₃₂＝Maxpool(ReLu(conv_32(out₃₁)))

out₄₁＝ReLu(conv_41(out₃₂))

out₄₂＝ReLu(conv_42(out₄₁))

所述主干网络的结构如下表1所示。

表1

所述检测器分支由多个卷积层组成，在所述检测器分支的第一层卷积层接收所述深层特征图，在第一卷积层输出位置接收所述空间转换特征图，并进行第一卷积层输出与所述空间转换特征图的融合，所述融合包括将所述检测器分支中第一卷积层输出特征图和空间转换特征图沿通道维度进行级连。所述空间转换特征图是描述空间变换的特征图。所述检测器分支的第一卷积层为处理所述检测器分支的输入的首个卷积层。

由于原始图像数据中像素体量庞大，因此，为保障算法实时性，需要在检测器分支对特征检测过程进行数量控制，本发明中，采取8邻域方法进行特征检测，在8×8邻域内采用非极大值抑制确保特征信息的唯一性，所述检测器分支采取卷积方法将融合后得到的级联特征图压缩至65通道，随后对65通道内的数据进行归一化处理，所述检测器分支输出角点概率图，所述角点概率图用于表征所述原始图像中各个点是角点的概率。具体地，65个通道中，有64个通道内的数值表征8×8邻域内64个像素位置处为特征点的概率，另1个通道内的数值表征8×8邻域内无特征存在的概率。所述检测器分支的输出结果如图6(A)-图6(B)所示。

所述检测器分支在训练过程中采用信息量损失函数，以8×8邻域作为一个基础单元划分所述原始图像，得到基础单元网格，假设网格内共计H_C×W_C个基础单元，每一个基础单元表示为x_hw，真实场景数据集内真值数据标签集合记为Y，所述检测器分支具体损失函数为：

检测器分支各卷积层的输出为：

out_{dect_1}＝ReLu(conv_dect_1(out₄₂))

级联叠加：

out_{dect_3}＝ReLu(conv_dect_2(out_{dect_2}))

out_{dect_final}＝Softmax(out_{dect_3})

所述检测器分支网络结构如下表2所示。

表2

所述描述器分支由多个卷积层组成，在所述描述器分支的第一层卷积层接收所述深层特征图，在第一卷积层输出位置接收所述空间转换特征图，并进行第一卷积层输出与所述空间转换特征图的融合，所述融合包括将所述描述器分支中第一卷积层输出特征图和空间特征图沿通道维度进行级连。所述描述器分支的第一卷积层为处理所述描述器分支的输入的首个卷积层。

出于实时性考虑，描述器分支同样以H_C×W_C个基础单元作为运算基元，逐单元开展特征描述工作，采用256位描述子对特征点进行表征，为增强特征描述工作的细致程度与稠密性，本发明以8×8邻域内的中心点作为位置参考，对检测所得特征点进行像素级别的描述子插值计算，进一步提升特征描述精度。

作为特征点的识别标志，描述子最为重要的属性便是其个体特异性，清晰可辨的特征描述子对特征匹配和识别工作具有重要意义，是准确完成视觉定位、图像拼接、场景重建等计算机视觉任务的重要保障，为此，所述描述器分支在训练过程中采用hinge-loss函数，具体形式为：

原始图像内8×8邻域中心像素坐标：p_hw

变形后图像内8×8邻域中心像素坐标：p′_h′w′

判断对应关系：

l_d(d_hw，d′_h′w′，s)

其中，λ_d，m_p和m_n为损失函数内经验阈值，λ_d的设立旨在平衡positive pairs(s＝1的点对)和negative pairs(s＝0的点对)的损失项大小，确保网络参数沿着正确方向协调下降，而m_p和m_n的设立旨在控制网络学习进程，防止网络过度学习造成的过拟合现象，确保网络参数收敛至恰当的值域范围。s为对应关系判断参数，m_p为正向边缘参数，d_hw ^T为d_hw的转置；h为原始图像对应的基础单元网格的行索引，w为原始图像对应的基础单元网格的列索引，h′为变形后图像对应的基础单元网格的行索引，w′为变形后图像对应的基础单元网格的列索引，m_n为负向边缘参数。

描述器分支输出为：

out_{descriptor_1}＝ReLu(conv_descriptor_1(out₄₂))

级联叠加：

out_{descriptor_3}＝ReLu(conv_descriptor-2(out_{descriptor_2}))

out_{descriptor_final}＝Normalize(out_{descriptor_3})

所述描述器分支网络结构如表3所示。

表3

本发明中，检测器分支中，级联特征图经过通道压缩后进行特征位置评分，进而确定8×8邻域内特征位置，描述器分支中，级联特征图沿通道维度被压缩为256位描述子，后续以8×8邻域中心像素坐标为位置基准进行描述子插值，提升描述子精度与特异性。

进一步地，如图3所示，所述空间模块包括多个卷积网络、一个网格生成器、一个采样网络及一个采样器；所述空间模块接收主干网络中的浅层特征图作为输入，通过所述多个卷积网络的卷积操作，得到六自由度仿射变换矩阵，将得到的六自由度仿射变换矩阵输入网格生成器，所述网络生成器进行网格生成，得到采样网格，所述采样器依照采样网格对主干网络中的浅层特征图进行像素采样得到空间转换特征图。

进一步地，所述处理系统的训练为五阶段训练，由包含基础几何图案的合成数据集作为训练样本，第一阶段，对训练样本数据集进行数据增强操作，随后利用该训练样本数据集单独对所述检测器分支进行训练；第二阶段，利用第一阶段训练得到的检测器分支，对真实场景数据集进行标注，获得真实场景下的特征标注数据集；第三阶段，将第一阶段中训练得到所述检测器分支的权重参数全部清空，利用第二阶段所得特征标注数据集单独对所述检测器分支进行再次训练；第四阶段，利用第三阶段所得检测器分支对所述真实场景数据集进行重新标注，得到二次标注数据集；第五阶段，清空所述检测器分支和所述描述器分支的权重，利用所述二次标注数据集对所述检测器分支及所述描述器分支进行联合训练，最终得到稳定的处理系统。

本发明的处理系统整体采用孪生架构设计，在结构上层次鲜明地划分为前端主干网络与后端检测器分支、描述器分支，原始图像输入到主干网络(Backbone)部分，主干网络对原始输入图像进行图像卷积处理，输出深层特征图，深层特征图将作为共享信息同时递交至检测器分支与描述器分支进行不同任务。同时，所述主干网络外接空间处理模块，将主干网络的浅层特征图单独分离并传递给空间处理模块，所述空间处理模块起到空间变换器(Spatial Transformer)的作用，经由空间处理模块处理后，得到空间信息，进而将空间信息编码到特征信息中，获得空间转换特征图。检测器分支与描述器分支为孪生模块，分别用于特征位置检测与特征描述任务，在孪生架构中，主干网络输出的深层特征图分别被输入检测器分支与描述器分支中，与所述空间转换特征图进行级联，在损失函数的引导下，处理系统内的权重参数不断更新迭代以获得更为精准的特征位置和描述子信息，处理系统输出端，所述的检测器与描述器分支分别输出65通道的角点概率图和256通道的描述子图。

本发明中为防止人工标注数据带来的主观干扰，采用自监督方式完成训练，训练环节共设置4大阶段，第一阶段中利用程序自主合成包含基础几何图案(多边形、线条、星型……)的合成数据集，如图4(A)-图4(B)所示，并对该数据集进行对比度调整、噪声添加、运动模糊、亮度调整等数据增强操作，随后利用该数据集单独对网络检测器分支进行初步训练；第二阶段中，利用第一阶段初步训练所得检测器分支，对真实场景数据集(图5)进行标注，获得真实场景下的特征标注数据集；第三阶段中，将第一阶段中训练得到的权重参数全部清空，利用第二阶段所得真实场景数据集单独对网络检测器分支进行初步训练；第四阶段中，利用第三阶段所得检测器对真实场景数据集进行重新标注，二次标注的目的在于进一步精化数据集质量，为最终阶段的训练提供基础；第五阶段中，再次清空权重，利用第四阶段中标注所得的高质量数据集对整个网络结构(检测器+描述器)进行联合训练，最终得到完备可靠的特征处理网络。

本发明针对弱纹理下视觉特征提取与描述系统(Visual Simultaneouslocalization and mapping，VSLAM)特征监测不稳定和描述子重复性差的问题，提出了一种基于深度学习技术的孪生特征处理网络，该系统对高频出现弱纹理区域的挑战性场景具有强适应能力且表现鲁棒，系统整体框架可划分为前端主体骨架(Backbone)和后端检测器、描述器。主干网络中设置有多层卷积神经网络用以提取图像深层特征，同时在主体骨架中程外接空间转换器模块用以显式编码空间信息，增强特征信息的空间稳定性与灵敏度，图像深层特征图与空间转换特征图在后端分支中进行级联叠加，为网络输出层提供丰富数据。特征检测器和描述器分支中，特征图以8×8邻域为基本单元进行划分，级联特征图分别被压缩至65通道和256通道，检测器分支中采用概率评分策略以确定8×8邻域内的特征位置(第65通道数值表征邻域内无特征概率)，而描述器分支中则采取256位描述子对特征信息进行标记。为克服人工标注特征带来的主观误差，本发明中采用自监督标注方式构造数据标签，同时将训练过程细致划分为五大阶段以提高数据质量并增强网络精度，有效解决了样本稀少的数据困境。通过本发明所提出的视觉特征处理系统，视觉定位、场景重建、图像拼接等多项计算机视觉任务在弱纹理环境中得以持续稳定进行，缓解了特征缺失与算法崩溃等原有弊端。本发明在实现功能增强的同时最大程度保证了系统实时性，在检测器层面，8×8邻域的设有效控制了特征检测数量，在描述器分支，为进一步提高特征描述的特异性而不损伤算法实时性，本发明中以8×8邻域中心像素坐标为位置基准进行描述子插值计算，经试验测试，在典型弱纹理场景下本文系统与现有主流特征算法相比更加有效、鲁棒，具备较高的实际应用价值及出众潜力。

本发明还提供了一种弱纹理环境下基于神经网络的视觉特征处理方法，所述方法基于如前所述的处理系统，所述处理方法包括以下步骤：

步骤S1：获取原始图像；

步骤S2：将所述原始图像输入所述处理系统；

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。

Claims

1.一种弱纹理环境下基于神经网络的视觉特征处理系统，其特征在于，所述处理系统包括：

所述描述器分支包括多个级连的卷积层，所述第二空间模块的输出与所述描述器分支中第一卷积层的输出相融合，所述描述器分支输出描述子图，所述描述子图用于表征所述原始图像中各个点的描述子形态；

所述检测器分支用于接收所述主干网络输出的所述原始图像的深层特征图；

所述描述器分支用于接收所述主干网络输出的所述原始图像的深层特征图。

2.如权利要求1所述的系统，其特征在于，所述检测器分支在训练过程中采用信息量损失函数，以8×8邻域作为一个基础单元划分所述原始图像，得到基础单元网格，假设网格内共计H_C×W_C个基础单元，每一个基础单元表示为x_hw，真实场景数据集内真值数据标签集合记为Y，所述检测器分支具体损失函数为：

3.如权利要求2所述的系统，其特征在于，所述描述器分支在训练过程中采用hinge-loss函数，具体形式为：

原始图像内8×8邻域中心像素坐标：p_hw

变形后图像内8×8邻域中心像素坐标：p′_h′w′

判断对应关系：

l_d(d_hw，d′_h′w′，s)＝λ_d*s*max(0，m_p-d_hw ^Td′_h′w′)+(1-s)*max(0，d_hw ^Td′_h′w′-m_n)

其中，

4.如权利要求1所述的系统，其特征在于，所述第一空间模块及所述第二空间模块均包括多个卷积网络、一个网格生成器、一个采样网络及一个采样器；所述空间模块接收主干网络中的浅层特征图作为输入，通过所述多个卷积网络的卷积操作，得到六自由度仿射变换矩阵，将得到的六自由度仿射变换矩阵输入网格生成器，所述网络生成器进行网格生成，得到采样网格，所述采样器依照采样网格对主干网络中的浅层特征图进行像素采样得到空间转换特征图。

5.如权利要求1所述的系统，其特征在于，所述处理系统的训练为五阶段训练，第一阶段，对训练样本数据集进行数据增强操作，随后利用该训练样本数据集单独对所述检测器分支进行训练；第二阶段，利用第一阶段训练得到的检测器分支，对真实场景数据集进行标注，获得真实场景下的特征标注数据集；第三阶段，将第一阶段中训练得到所述检测器分支的权重参数全部清空，利用第二阶段所得特征标注数据集单独对所述检测器分支进行再次训练；第四阶段，利用第三阶段所得检测器分支对所述真实场景数据集进行重新标注，得到二次标注数据集；第五阶段，清空所述检测器分支和所述描述器分支的权重，利用所述二次标注数据集对所述检测器分支及所述描述器分支进行联合训练。

6.一种弱纹理环境下基于神经网络的视觉特征处理方法，基于如权利要求1-5中任一项所述的处理系统，其特征在于，所述方法包括以下步骤：

步骤S1：获取原始图像；

步骤S2：将所述原始图像输入所述处理系统；