CN113837199B

CN113837199B - 一种基于跨层残差双路金字塔网络的图像特征提取方法

Info

Publication number: CN113837199B
Application number: CN202111002973.5A
Authority: CN
Inventors: 胡杰; 谢礼浩; 安永鹏; 熊宗权; 徐文才
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2024-01-09
Anticipated expiration: 2041-08-30
Also published as: CN113837199A

Abstract

本发明公开了一种基于跨层残差双路金字塔网络的图像特征提取方法，将原始RGB彩色图像输入残差网络ResNet50中进行初步特征提取，得到自底向上的特征金字塔网络DTFPN；实现基于残差网络ResNet50的跨层残差网络；经特征金字塔网络FPN处理后得到输出的特征图P1”’、P2”’、P3”’、P4”’、P5”’。本发明进一步减轻残差网络ResNet50网络退化问题并混合利用不同层级的特征进一步抽取深层特征来显著增强残差网络ResNet50的特征提取能力。解决特征金字塔网络(FPN)中高层特征缺失低层细节纹理信息这一缺陷，实现各层特征图信息的高效融合。

Description

一种基于跨层残差双路金字塔网络的图像特征提取方法

技术领域

本发明涉及计算机视觉、人工智能与模式识别等领域，具体涉及一种基于跨层残差双路金字塔网络的图像特征提取方法。

背景技术

随着人工智能的发展，卷积神经网络成为提取图像特征的主要方法，著名的特征提取网络有李网络5(LeNet5)、亚历克斯网络(AlexNet)、视觉几何组(Visual GeometryGroup，VGG)、谷歌网络(GoogleNet)、残差网络(ResNet)等。

李网络5(LeNet5)诞生于1994年，是最早的卷积神经网络之一，并且推动了深度学习的发展。它由两个卷积层，两个池化层，以及两个全连接层组成，卷积都采用卷积核大小为5x5的卷积核、步距为1，均采用最大池化下采样。

亚历克斯网络(AlexNet)曾在2012年获得图像网络(ImageNet)比赛冠军，其可以说是李网络(LeNet)的一种更深更宽的版本，它包含了6亿3000万个连接，6000万个参数和65万个神经元，拥有5个卷积层，其中3个卷积层后面连接了最大池化层，最后还有3个全连接层。亚历克斯网络(AlexNet)以显著的优势赢得了图像网络大规模视觉识别挑战(ImageNet Large Scale Visual Recognition Challenge，ILSVRC)比赛的冠军，五次预测均错误(top-5)的错误率从之前的25.8％降低至16.4。亚历克斯网络(AlexNet)的主要技术点在于：(1)使用修正线性单元(Rectified linear unit，ReLU)作为卷积神经网络(CNN)的激活函数，解决了逻辑斯谛函数(sigmoid)在网络较深时的梯度弥散问题。(2)训练时使用了随机丢弃(Dropout)随机忽略一部分神经元，以避免模型过拟合。(3)在卷积神经网络(CNN)中使用重叠的最大池化，步长小于池化核，这样输出之间会有重叠和覆盖，提升了特征的丰富性。此前卷积神经网络(CNN)普遍使用平均池化，亚历克斯网络(AlexNet)全部使用最大池化，避免平均池化的模糊性效果。(4)使用数据增强，减轻过拟合，提高模型泛化能力。

视觉几何组(VGG)是第一个在各个卷积层使用更小的3x3卷积核，并把他们组合作为一个卷积序列进行处理的网络，它的特点就是连续卷积计算多，计算量巨大。视觉几何组(VGG)的巨大进展是通过依次采用多个3x3卷积，能够模拟出更大的感受野的效果。视觉几何组(VGG)的模型表明深度有利于分类准确率的提升，并且一个比较重要的思想是卷积可代替全连接。整体参数达1亿4千万，主要在于第一个全连接层，用卷积代替后，参数量下降且无精度损失。

谷歌网络(GoogleNet)——第一个“开端”(Inception)架构首次出现在图像网络大规模视觉识别挑战(ImageNet Large Scale Visual Recognition Challenge，ILSVRC)2014的比赛中就以较大优势取得了第一名。那届比赛中的“开端网络”(Inception Net)通常被称为“开端V1”(Inception V1)，它最大的特点是控制了计算量和参数量的同时，获得了非常好的分类性能——五次预测均错误(top-5)错误率6.67％，只有亚历克斯网络(AlexNet)的一半不到。“开端V1”(Inception V1)有22层深，比亚历克斯网络(AlexNet)的8层或者视觉几何组(VGG)网络的19层还要更深。但其计算量只有15亿次浮点运算，同时只有500万的参数量，仅为亚历克斯网络(AlexNet)参数量(6000万)的1/12，却可以达到远胜于亚历克斯网络(AlexNet)的准确率，可以说是非常优秀并且非常实用的模型。在“开端V1”(Inception V1)的基础上又陆续推出了V2、V3、V4版本。

残差网络ResNet在2015年被提出，在图像网络(ImageNet)比赛分类任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在残差网络ResNet50或者残差网络ResNet101的基础上完成的。残差网络ResNet提出残差结构并使用批归一化(BatchNormalization)方法有效的解决了深层网络梯度消失或梯度爆炸以及网络退化问题，这使得超深层残差网络ResNet网络较之前的特征提取网络性能大幅提升，在图像检测、图像分类、图像分割等领域取得了优异的成绩。

特征金字塔网络(FPN)构架了一个可以进行端到端训练的特征金字塔网络，它将特征提取网络提取到的高层特征下采样后与低层特征进行融合，丰富低层特征的语义信息。对于小目标而言，特征金字塔网络(FPN)增加了特征映射的分辨率，即在更大的特征图上操作以获取更多有关于小目标的信息。

受残差网络ResNet启发，残差网络模块输出的特征图依然可以做残差连接形成跨层残差网络模块(跨越原残差网络模块中多个残差层)，即假设某残差网络模块的输入为x，期望输出为H(x),如果我们直接将输入x传到输出作为初始结果，那么该层残差网络模块需要学习的目标就是F(x)＝H(x)-x，相当于将该残差网络模块的学习目标改变了，而学习F(x)要比学习H(x)容易的多。这样对ResNet结构再次优化形成跨层残差网络，以此能进一步减轻残差网络ResNet网络退化问题并混合利用不同层级的特征进一步抽取深层特征。对于特征金字塔网络(FPN)而言，其将高层特征融合到低层特征中，虽然可以极大地丰富低层特征的信息，但是对高层特征却没有改善，高层特征同样需要补充低层特征纹理信息，这就导致特征融合不够充分，网络性能受限。

发明内容：

为了克服上述背景技术的缺陷，本发明提供一种基于跨层残差双路金字塔网络的图像特征提取方法，在与原网络特征提取速度相当的前提下实现两个目标：(1)进一步减轻残差网络ResNet50网络退化问题并混合利用不同层级的特征进一步抽取深层特征来显著增强残差网络ResNet50的特征提取能力。(2)解决特征金字塔网络(FPN)中高层特征缺失低层细节纹理信息这一缺陷，实现各层特征图信息的高效融合。

为了解决上述技术问题本发明的所采用的技术方案为：

一种基于跨层残差双路金字塔网络的图像特征提取方法，包括：

步骤S1，将原始RGB彩色图像输入残差网络ResNet50中进行初步特征提取，残差网络ResNet50的conv1卷积网络模块1输出特征图P0，残差网络ResNet50的conv2_x残差网络模块2输出特征图P1、P1’，P1＝P1’，残差网络ResNet50的conv3_x残差网络模块3输出特征图P2，残差网络ResNet50的conv4_x残差网络模块4输出特征图P3，残差网络ResNet50的conv5_x残差网络模块5输出特征图P4；

步骤S2，对特征图P1’下采样再与特征图P2融合得到特征图P2’，对特征图P2’下采样再与特征图P3融合得到特征图P3’，对特征图P3’下采样再与特征图P4融合得到特征图P4’，得到自底向上的特征金字塔网络DTFPN；

步骤S3，特征图P1’、P2、P2’及其中间网络构成跨层残差网络模块(跨越残差网络ResNet50的残差网络模块中多个残差层)；特征图P2’、P3、P3’及其中间网络构成跨层残差网络模块；特征图P3’、P4、P4’及其中间网络构成跨层残差网络模块；实现基于残差网络ResNet50的跨层残差网络；

步骤S4，将特征图P1’、P2’、P3’、P4’输入给特征金字塔网络FPN，与特征金字塔网络FPN建立起跨层残差双路金字塔网络；特征图P1’、P2’、P3’、P4’经特征金字塔网络FPN处理后得到输出的特征图P1”’、P2”’、P3”’、P4”’、P5”’。

较佳地，步骤1中，特征图Pi(i＝0,1,2,3)的宽和高是特征图Pi+1的1/2，特征图Pi的通道数是特征图Pi+1的通道数的2倍。

较佳地，步骤2包括：

S2.1，对特征图P1’采用卷积核大小为1x1、步距为2的下采样操作，使其宽和高缩小1/2，通道数增加1倍；将特征图P1’下采样之后的特征图输入修正线性单元调整特征图数据的分布，将调整后得到的特征图与特征图P2相加得到特征图P2’；

S2.2、对特征图P2’采用卷积核大小为1x1、步距为2的下采样操作，使其宽和高缩小1/2，通道数增加1倍；接着将特征图P2’下采样之后的特征图输入修正线性单元调整特征图数据的分布，将调整后得到的特征图与特征图P3相加得到特征图P3’；

S2.3、对特征图P3’采用卷积核大小为1x1、步距为2的下采样操作，使其宽和高缩小1/2，通道数增加1倍；接着将特征图P3’下采样之后的特征图输入修正线性单元调整特征图数据的分布，将调整后得到的特征图与特征图P4相加得到特征图P4’。

较佳地，步骤3中特征图P1、P2’、P3’分别经步骤S1中残差网络ResNet50的conv3_x残差网络模块3、conv4_x残差网络模块4、conv5_x残差网络模块5计算得到特征图P2、P3、P4。

较佳地，步骤3跨层残差网络模块是指跨越残差网络ResNet50的残差网络模块中多个残差层。

本发明的有益效果在于：

(1)本发明基于残差网络ResNet50各残差网络模块输出的特征图搭建自底向上的特征金字塔网络(Down to Top Feature Pyramid Network，DTFPN)，实现低层纹理细节信息对高层特征图信息的补充，有效解决了特征金字塔网络(Feature Pyramid Network,FPN)中高层特征缺失低层细节纹理信息这一缺陷，实现各层特征图信息的高效融合。

(2)在(1)中自底向上的特征金字塔网络(DTFPN)的基础上，搭建基于残差网络ResNet50的跨层残差网络(Cross-layer ResNet50)，以此进一步减轻残差网络ResNet50网络退化问题并混合利用不同层级的特征进一步抽取深层特征，显著增强了残差网络ResNet50的特征提取能力。

将本发明应用在目标检测领域，相比基于特征提取网络ResNet50-FPN的更快速的基于区域的卷积神经网络(Faster Region-based Convolution Neural Networks,Faster_R-CNN)，基于本发明提出的跨层残差双路金字塔网络(Cross-layer residual Bi-FPN)的更快速的基于区域的卷积神经网络(Faster Region-based Convolution NeuralNetworks,Faster_R-CNN)在凯特(KITTY)数据集上的目标检测平均准确率AP(0.5-0.95)提升了3.8％，但网络推理速度几乎保持不变。

附图说明

图1为本发明实施例技术方案的总体网络框架图；

图2为本发明实施例中自底向上的特征金字塔网络(Down to Top FeaturePyramid Network,DTFPN)的细节结构示意图；

图3为本发明实施例中跨层残差网络(Cross-layer ResNet50)的跨层残差结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

本发明提出了一种基于跨层残差双路金字塔网络(Cross-layer residual Bi-FPN)的图像特征提取方法，该网络包括基于残差网络ResNet50自行设计的跨层残差网络(Cross-layer ResNet50)和特征金字塔网络(FPN)，其中跨层残差网络(Cross-layerResNet50)包含全新的自底向上的特征金字塔网络(Down to Top Feature PyramidNetwork，DTFPN)。本发明的实现分为如下步骤：S1、定义原始图像经残差网络ResNet50骨架网络中卷积网络模块1(conv1)、残差网络模块模块2(conv2_x)、残差网络模块3(conv3_x)、残差网络模块4(conv4_x)、残差网络模块5(conv5_x)输出的特征图分别为P0、P1、P1’(P1＝P1’)、P2、P3、P4。S2、该步骤的输入为步骤S1输出的特征图P1’、P2、P3、P4，对特征图P1’下采样并与特征图P2融合得到特征图P2’，对特征图P2’下采样并与特征图P3融合得到特征图P3’，对特征图P3’下采样并与特征图P4融合得到特征图P4’，由此构建出自底向上的特征金字塔网络(DTFPN)，该步骤输出特征图P1’、P2’、P3’、P4’。S3、该步骤的输入为步骤S1输出的特征图P1和步骤S2输出的特征图P2’、P3’。特征图P1、P2’、P3’分别经残差网络ResNet50中残差网络模块3(conv3_x)、残差网络模块4(conv4_x)、残差网络模块5(conv5_x)计算得到特征图P2、P3、P4，所以有特征图P1’、P2、P2’及其中间网络构成跨层残差网络模块(跨越残差网络ResNet50的残差网络模块中多个残差层)，特征图P2’、P3、P3’及其中间网络构成跨层残差网络模块,特征图P3’、P4、P4’及其中间网络构成跨层残差网络模块，由此实现跨层残差网络(Cross-layer ResNet50)。S4、该步骤的输入为步骤S2输出的特征图P1’、P2’、P3’、P4’。将特征图P1’、P2’、P3’、P4’输入给特征金字塔网络(FPN)，与特征金字塔网络(FPN)建立起跨层残差双路金字塔网络(Cross-layer residual Bi-FPN)。特征图P1’、P2’、P3’、P4’经特征金字塔网络(FPN)处理后输出特征图P1”’、P2”’、P3”’、P4”’、P5”’。本发明通过设计新的自底向上的特征金字塔网络和跨层残差结构，形成了新的特征提取网络，在与原网络特征提取速度相当的前提下进一步减轻了残差网络ResNet50网络退化问题并混合利用不同层级的特征进一步抽取深层特征，解决了特征金字塔网络(FPN)中高层特征缺失低层细节信息这一缺陷，实现了各层特征图信息的高效融合。该发明应用到在图像目标检测和语义分割等任务上表现出色。

附图一为本实施例技术方案的总体网络框架图，该网络包括基于残差网络ResNet50自行设计的跨层残差网络(Cross-layer ResNet50)和特征金字塔网络(FeaturePyramid Network,FPN)，其中跨层残差网络(Cross-layer ResNet50)包含全新的自底向上的特征金字塔网络(Down to Top Feature Pyramid Network,DTFPN)。构建跨层残差双路金字塔网络(Cross-layer residual Bi-FPN)，该网络包括基于残差网络ResNet50自行设计的跨层残差网络(Cross-layer ResNet50)和特征金字塔网络(Feature PyramidNetwork,FPN)，其中跨层残差网络(Cross-layer ResNet50)包含全新的自底向上的特征金字塔网络(Down to Top Feature Pyramid Network，DTFPN)。搭建整个特征提取网络的详细步骤如下：

S1、如附表一所示，残差网络ResNet50特征提取部分由卷积网络模块1(conv1)、残差网络模块模块2(conv2_x)、残差网络模块3(conv3_x)、残差网络模块4(conv4_x)、残差网络模块5(conv5_x)构成，“conv2_x”及之后每个残差网络模块均由多个残差层结构组成。将原始RGB彩色图像输入残差网络ResNet50中进行初步特征提取，定义“conv1”、“conv2_x”、“conv3_x”、“conv4_x”、“conv5_x”分别输出特征图P0、P1、P1’(P1＝P1’)、P2、P3、P4。其中特征图Pi(i＝0,1,2,3)的宽和高是特征图Pi+1的1/2，而特征图Pi的通道数是特征图Pi+1的通道数的2倍。

附表一本实例中残差网络resnet50特征提取部分的网络架构

S2、该步骤的输入为步骤S1输出的特征图P1’、P2、P3、P4。对特征图P1’下采样再与特征图P2融合得到特征图P2’，对特征图P2’下采样再与特征图P3融合得到特征图P3’，对特征图P3’下采样再与特征图P4融合得到特征图P4’，由此构建出自底向上的特征金字塔网络(DTFPN)。该步骤的输出为特征图P1’、P2’、P3’、P4’。下采样与融合的细节如附图三所示，下面结合附图三进一步阐述：

S2.1、该步骤的输入为步骤S1输出的特征图P1’、P2。对特征图P1’采用卷积核大小为1x1、步距为2的下采样操作，使其宽和高缩小1/2，通道数增加1倍，这一步保证特征图P1’下采样之后与特征图P2大小相同。接着将特征图P1’下采样之后的特征图输入修正线性单元(Rectified linear unit，ReLU)调整特征图数据的分布，将输出的特征图与特征图P2相加得到特征图P2’。该步骤输出特征图P2’。

S2.2、该步骤的输入为步骤S1输出的特征图P3和步骤S2.1输出的特征图P2’。对特征图P2’采用卷积核大小为1x1、步距为2的下采样操作，使其宽和高缩小1/2，通道数增加1倍，这一步保证特征图P2’下采样之后与特征图P3大小相同。接着将特征图P2’下采样之后的特征图输入修正线性单元(Rectified linear unit，ReLU)调整特征图数据的分布，将输出的特征图与特征图P3相加得到特征图P3’。该步骤输出特征图P3’。

S2.3、该步骤的输入为步骤S1输出的特征图P4和步骤S2.2输出的特征图P3’。对特征图P3’采用卷积核大小为1x1、步距为2的下采样操作，使其宽和高缩小1/2，通道数增加1倍，这一步保证特征图P3’下采样之后与特征图P4大小相同。接着将特征图P3’下采样之后的特征图输入修正线性单元(Rectified linear unit，ReLU)调整特征图数据的分布，将输出的特征图与特征图P4相加得到特征图P4’。该步骤输出特征图P4’。

S3、该步骤的输入为步骤S1输出的特征图P1和步骤S2输出的特征图P2’、P3’。特征图P1、P2’、P3’分别经步骤S1中残差网络ResNet50的残差网络模块3(conv3_x)、残差网络模块4(conv4_x)、残差网络模块5(conv5_x)计算得到特征图P2、P3、P4。如附图三所示，所以有特征图P1’、P2、P2’及其中间网络构成跨层残差网络模块(跨越残差网络ResNet50的残差网络模块中多个残差层)，特征图P2’、P3、P3’及其中间网络构成跨层残差网络模块,特征图P3’、P4、P4’及其中间网络构成跨层残差网络模块，由此实现基于残差网络ResNet50的跨层残差网络(Cross-layer ResNet50)。

S4、该步骤的输入为步骤S2输出的特征图P1’、P2’、P3’、P4’。将特征图P1’、P2’、P3’、P4’输入给特征金字塔网络(FPN)，与特征金字塔网络(FPN)建立起跨层残差双路金字塔网络(Cross-layer residual Bi-FPN)。特征图P1’、P2’、P3’、P4’经特征金字塔网络(FPN)处理后输出特征图P1”’、P2”’、P3”’、P4”’、P5”’，由此完成原始图像输入跨层残差双路金字塔网络(Cross-layer residual Bi-FPN)提取特征图的所有步骤。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于跨层残差双路金字塔网络的图像特征提取方法，其特征在于，包括：

步骤S1，将原始RGB彩色图像输入残差网络ResNet50中进行初步特征提取，所述残差网络ResNet50的conv1卷积网络模块1输出特征图P0，所述残差网络ResNet50的conv2_x残差网络模块2输出特征图P1、P1’，P1＝P1’，所述残差网络ResNet50的conv3_x残差网络模块3输出特征图P2，所述残差网络ResNet50的conv4_x残差网络模块4输出特征图P3，所述残差网络ResNet50的conv5_x残差网络模块5输出特征图P4；

步骤S3，特征图P1’、P2、P2’及其中间网络构成跨层残差网络模块，所述中间网络构成跨层残差网络模块为跨越残差网络ResNet50的残差网络模块中多个残差层；特征图P2’、P3、P3’及其中间网络构成跨层残差网络模块，该步骤的输入为步骤S1输出的特征图P1’和步骤S2输出的特征图P2’、P3’，特征图P1’、P2’、P3’分别经步骤S1中残差网络ResNet50的残差网络模块3、残差网络模块4、残差网络模块5计算得到特征图P2、P3、P4；特征图P3’、P4、P4’及其中间网络构成跨层残差网络模块；实现基于残差网络ResNet50的跨层残差网络；

2.根据权利要求1所述的一种基于跨层残差双路金字塔网络的图像特征提取方法，其特征在于：所述步骤S1中，特征图Pi的宽和高是特征图Pi+1的1/2，特征图Pi的通道数是特征图Pi+1的通道数的2倍，其中i＝0,1,2,3。

3.根据权利要求1所述的一种基于跨层残差双路金字塔网络的图像特征提取方法，其特征在于，所述步骤S2包括：