CN110322509B

CN110322509B - 基于层级类激活图的目标定位方法、系统及计算机设备

Info

Publication number: CN110322509B
Application number: CN201910559655.5A
Authority: CN
Inventors: 李鸿健; 程卓; 曾祥燕; 段小林; 汪美琦
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-11-12
Anticipated expiration: 2039-06-26
Also published as: CN110322509A

Abstract

本发明涉及深度学习领域和物体检测领域，本发明公开了基于层级类激活图的目标定位方法、系统及计算机设备，该方法构建了一个层级模型，在卷积层后面采用全局平均池化层或金字塔池化层来替代传统的全连接层，以避免在全连接层丢失图像结构信息。该方法在低层中的多个卷积层采集相应的特征信息，从而获得层级类激活图。本发明的层级类激活图不仅仅是从最后一层采集特征图，而是在低层中的多个卷积层中进行采集，从而减少低层图像信息的丢失，提高了图像定位能力。

Description

基于层级类激活图的目标定位方法、系统及计算机设备

技术领域

本发明涉及深度学习领域和物体检测领域，具体是使用深度学习技术实现物体检测下的目标定位；具体为一种基于层级类激活图的目标定位方法。

背景技术

近年来，随着深度学习技术的快速崛起，图像领域下对物体检测的研究已经取得了很重要的进展。其中最流行的物体检测算法可分为两种类型：(1)两步法，即先通过CNN网络结构产生一系列稀疏的候选框，然后对这些候选框进行分类处理。(2)一步法，类似于SSD思想，在图像不同位置采用不同尺度的长宽比对图像进行密集抽样，利用CNN提取特征，直接进行分类。其中物体检测下的目标定位主要是，从图像或者视频中把我们所关注的目标与背景分开。对于目标定位任务的方法分为弱监督方法和强监督方法。

弱监督目标定位方法和强监督方法不同，弱监督方法只需要图像级的标注，不需要人为标注目标的位置信息、大小信息，如边界框等。这样可以降低人类的工作量，同时也降低了计算量。由于有边界框的数据集是少数的，更多的数据集只有图像级的标注，所以相对于强监督方法，弱监督方法适用性更广。

目前很多研究者都选择使用弱监督方法，但在实验过程中，他们发现使用卷积神经网络(CNN)的卷积层可以直接定位目标，然而经过全连接层后却会导致目标定位能力缺失。为了增强目标定位的能力，很多人提出使用全卷积层的网络结构，如网络中的网络(NIN)和全卷积网络(FCN)的提出，以避免使用全连接层来最小化参数的数量，同时还能保持高性能。

针对之前使用的网络结构，很多人选择在最顶层卷积层中提取feature map，进行池化操作，以保留空间特性。如oquab等用自适应卷积层和全局最大池化替代卷积网络中的全连接部分，增强了卷积网络在弱监督中的定位能力。但这种方法只能定位一个点，且所用的评价方法是作者自己定义的，不能通用。在此基础上Zhou等用一层1024个通道的3*3卷积层和全局平均池化代替全连接层。与oquab等的方法相比定位能力有很大的提升，但只能定位到目标的一部分。该方法只从卷积网络的最顶层提取特征信息，对于小物体背景过多的情况，相对会缺失低层的信息。Zhiqiang等在zhou等方法的基础上，用空间金字塔池化替代全局平均池化，使定位能力进一步提高。综合上面的方法存在一个问题，它们都是从卷积层的最顶层提取特征信息，会造成底层信息缺失，定位准确率相对降低。

发明内容

基于现有技术存在的问题，本发明针对在目标定位中因底层信息缺失造成定位能力不准确这一缺点，对基础卷积网络进行了一些修改。分别在卷积层4-3、卷积层4-4、卷积层5-3、卷积层5-4等后面添加一层1024个通道的3*3卷积层，并把a1与a2的padding设为0，提出一种新型的层级网络结构。并从不同层级的特征图得出层级类激活图，提出了一种新型的类激活图，以弥补相对低层信息的缺失，从而提高定位能力。

本发明的一种基于层级类激活图的目标定位方法，所述方法包括将待预测图像即输入图像输入卷积层级结构，并提取出待预测图像的层级特征，生成待预测图像的层级类激活图，保留层级类激活图中的部分值，并生成能预测出待预测图像中待测目标的边界框；根据该边界框从而输出待预测图像的定位后的目标位置；边界框也即目标的位置，在目标定位或目标检测任务中，本领域普通技术人员应该清楚，最后目标的的位置是用边界框表示的。

其中，层级类激活图的生成包括以下步骤：

S1、构建待预测图像的卷积层级结构，包括在VGG19网络结构中的卷积层4-3、卷积层4-4、卷积层5-3、卷积层5-4后面分别添加一层自定义卷积层；

S2、设置S1中所添加自定义卷积层的步长和padding；

S3、将S2中卷积层4-3、卷积层4-4各自对应的自定义卷积层按照通道进行叠加得到第一叠加层；将卷积层5-3、卷积层5-4各自对应的自定义卷积层按照通道进行叠加得到第二叠加层；

S4、将第一叠加层和第二叠加层进行池化分别得到TA_n和TB_n；

S5、把TA_n和TB_n送入到线性层中，求得分类的得分Sc；

S6、根据分类得分Sc，使用softmax函数和交叉熵损失函数对卷积网络训练，得到权重

和

S7、分别求出第一叠加层和第二叠加层的显著图I_A和I_B，使用线性二插值法将其放大至输入图像一致后，将两个显著图相加，得到层级类激活图；保留其大于最大激活值的20％的部分，用于生成预测的边界框。

进一步的，所述步骤S2中，卷积层4-3和卷积层4-4后的自定义卷积层步长均设为1，其padding均设为0；卷积层5-3、卷积层5-4后的自定义卷积层步长均设为1，其padding均设为1。

进一步的，分类的得分的计算公式包括：

其中，P_c表示待测目标为c类的概率；S_c表示待测目标为c类的得分；

表示第一叠加层中c类的权重；

表示第二叠加层中c类的权重，n表示特征图的张数。

进一步的，第一叠加层和第二叠加层的显著图的单元值的计算公式依次表示为：

其中，n表示特征图的张数；

表示第一叠加层中c类的权重；

表示第二叠加层中c类的权重；F_Akn(x，y)表示在第一叠加层中第n张特征图的第(x，y)单元；F_Bkn(x，y)表示在第二叠加层中第n张特征图的第(x，y)单元。

进一步的，将第一叠加层和第二叠加层使用线性二插值法放大致输入图像一致后相加，得到层级类激活图I，保留I的大于最大激活值20％的部分生成预测框。其中得到层级类激活图I的公式为：

I＝I_A+I_B。

本发明还提出了一种基于层级类激活图的目标定位系统，所述系统包括：

图像获取模块，用于获取待预测图像；

层级特征提取模块，用于提取出待预测图像中的层级特征；

层级类激活图构建模块，用于将层级特征构建出层级类激活图；

预测边界框计算模块，用于根据层级类激活图预测出待预测图像中待测目标的边界框；

其中，所述层级特征提取模块包括VGG19网络结构、自定义卷积层单元、叠加层单元以及池化层单元；所述自定义卷积层单元对VGG19网络结构的卷积层4-3、卷积层4-4、卷积层5-3、卷积层5-4后面分别添加一层自定义卷积层；所述叠加层单元分别将4-3、卷积层4-4各自对应的自定义卷积层输出的特征图按照通道进行叠加以及将卷积层5-3、卷积层5-4各自对应的自定义卷积层输出的特征图按照通道进行叠加；所述池化层单元用于将叠加层单元处理后的特征图进行池化；

所述层级类激活图构建模块包括分类得分计算单元、分类函数计算单元、损失函数单元、显著图叠加单元以及激活计算单元；所述分类得分计算单元用于计算池化层单元输出结果的分类得分；所述分类函数计算单元与所述损失函数单元用于对卷积神经网络的训练；所述显著图叠加单元用于将叠加层输出的显著图进行叠加；所述激活计算单元用于计算出层级类激活图的最大激活值，并将大于最大激活值20％的部分生成预测的边界框。

进一步的，一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序；所述处理器执行所述程序时用于实现所述的目标定位方法。

本发明的有益效果：

1.本发明能够从相对底层的卷积层提取信息，可以弥补相对底层信息的缺失。

2.本发明可在多个数据集上进行测试，且其目标定位能力显著。

3.本发明中每张输入图像只需要进行一次前向传播，减少了运算复杂度，节约了时间成本。

4.本发明可用于细粒度的分类、目标追踪等等任务。

附图说明

图1为本发明中层级类激活图的生成过程图；

图2为本发明的方法流程图；

图3为本发明的特征提取图；

图4为本发明的基于类激活图的层级结构图；

图5为本发明的层级类激活图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

本发明的一种基于层级类激活图的目标定位方法，所述方法包括将待预测图像输入到卷积层级结构中，并提取出待预测图像的层级特征，生成待预测图像的层级类激活图；保留层级类激活图中的部分值，并生成能预测出待测目标的边界框；

其中，如图1所示，层级类激活图的生成包括以下步骤：

S2、设置S1中所添加自定义卷积层的步长和padding；

S4、将第一叠加层和第二叠加层进行池化分别得到TA_n和TB_n；

S5、把TA_n和TB_n送入到线性层中，求得分类的得分Sc；

和

S7、分别求出第一叠加层和第二叠加层的显著图，使用线性二插值法将其放大至输入图像一致后，将两个重要性相加，得到层级类激活图；保留其大于最大激活值的20％的部分，用于生成预测的边界框。

实施例2

本实施例给出本发明的另一实施例，该实施例中，输入待测图像到模型中，计算损失函数，直至损失函数收敛，则训练好模型，否则使用梯度下降算法更新各个参数继续输入到模型中进行训练；当模型训练好后，输入待测图像，提取出卷积层4-3、卷积层4-4、卷积层5-3、卷积层5-4的特征图，根据公式(5)确定出分类的显著图I_A和I_B；并将这两个显著图进行叠加得到层级类激活图；保留激活图中部分值，本实施例中，选择大于最大激活值20％的值进行保留；将其用于生成预测的边界框。

其中，损失函数可采用本领域普通技术人员所熟知的几类损失函数，例如交叉熵损失函数、铰链损失函数、指数损失函数等等。

具体的，

如图3所示，本发明中输入待预测图像后，在VGG的卷积层的第四部分和卷积层的第五部分分别进行特征提取；分别对提取后的特征进行最大池化或者金字塔池化，形成获得层级类激活图，保留层级类激活图中部分值，输出分类后的结果，从而确定出待测图像的目标定位。

由于VGG网络结构中每个部分都包含多个卷积层。比如VGG19网络结构中的第四个部分包含conv4-1、conv4-2、conv4-3、conv4-4。本发明中优选第四部分和第五部分进行处理。

如图4所示，本实施例以VGG19net为基础网络，在卷积层4-3、卷积层4-4、卷积层5-3、卷积层5-4后面分别添加一层1024通道的3*3卷积层，并依次命名为卷积层a1、卷积层a2、卷积层b1、卷积层b2。设置卷积层a1、卷积层a2的步长为1、padding为0；设置卷积层b1、卷积层b2的步长为1、padding为1。将卷积层a1和a2、b1和b2按通道进行叠加分别得到A、B的公式为(1)

A和B的尺寸大小不相同，所以要分别进行池化。这里我们以全局平均池化为例，空间金字塔平均池化与此类似。对A进行全局平均池化利用公式(2)

F_kn(x，y)表示在A中第n张特征图的第(x，y)单元，N_A是A中每张特征图的单元个数。B也进行同样的池化操作。

然后把得到的TA_n和TB_n传送到线性层及softmax函数中，如公式(3)和公式(4)所示。

和

是c类的权重。S_c是待预测图像为c类的得分。接着，公式5展示了对于在A中(x，y)单元对于分类的显著图I_A。对于B也有类似的I_B。

如图5所示，使用线性二插值法把I_A和I_B放大到和输入图像一样大的尺寸后，把I_A和I_B相加，得到层级类激活图，公式(6)所示。

I＝I_A+I_B (6)

最后保留层级类激活图I的大于最大激活值的20％的部分，用于生成预测的边界框；图5中的预测框可以用于预测出待预测图像中待测目标的位置。

实施例4

本实施例给出本发明中目标定位系统的相关说明；

图像获取模块，用于获取待预测图像；

层级特征提取模块，用于提取出待预测图像中的层级特征；

实施例5

本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序；所述处理器执行所述程序时用于实现所述的目标定位方法。

以上所述实施例的各技术特征可以进行任意的组合，为了避免赘述，本发明中目标定位方法、系统以及计算机设备的特征可以相互引用。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。