CN115761393B

CN115761393B - 一种基于模板在线学习的无锚目标跟踪方法

Info

Publication number: CN115761393B
Application number: CN202211274975.4A
Authority: CN
Inventors: 张弘; 宋剑波; 杨一帆; 李岩; 袁丁
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2024-07-23
Anticipated expiration: 2042-10-18
Also published as: CN115761393A

Abstract

本发明涉及一种基于模板在线学习的无锚目标跟踪方法，包含特征提取模块、新型无锚三分支网络模块以及模板在线学习模块。其中特征提取模块使用ResNet50特征提取网络提取深度特征；新型无锚三分支网络模块包含分类分支、偏移分支和尺度分支，用于精确预测目标当前位置和尺度；模板在线学习模块综合使用轮廓检测网络和目标检测网络进行实时准确的目标模板更新。相比于现有技术，本发明提出的目标跟踪算法具有更高的跟踪精度，同时保证了算法的实时性。

Description

一种基于模板在线学习的无锚目标跟踪方法

技术领域

本发明涉及计算机视觉、深度学习和智能化视频图像处理等领域。具体涉及一种基于模板在线学习的无锚目标跟踪方法，主要针对视频图像中目标由于形变、旋转等原因造成跟踪模板出现退化，进而造成目标跟踪出现漂移和丢失的问题，以及传统有锚跟踪算法泛化能力差的问题。

背景技术

目标跟踪作为当前计算机视觉领域研究的重点问题之一，已经广泛的应用于视频监控、无人驾驶、航空航天及军工等领域。目标跟踪旨在给定初始帧目标位置及大小标注的情况下，通过提取各种特征学习其初始外观特征，在视频的后续帧中预测该目标的最新位置及大小。经过多年来的不断探索，目标跟踪算法已经取得了很大的发展，但其仍面临着许多亟待解决的难题，如目标形变、旋转及模板退化等问题。

当前目标跟踪算法以基于孪生网络的算法为一大主要发展方向，而原始的基于孪生网络的目标跟踪仅采用初始帧中的目标作为跟踪模板来对后续帧中的目标位置和大小进行预测。在这种跟踪策略下，当目标发生较大的形变或者旋转时，其特征信息会发生显著变化，导致跟踪模板的有用信息大幅减少，无法与后续帧的中的目标进行匹配，由此会造成目标跟踪漂移甚至目标丢失。后续的部分算法引入了模板更新机制，但无法做到自适应判断何时进行模板更新，固定的模板更新周期会导致在诸如目标遮挡这类问题时将错误的目标当作模板进行更新，进而造成更严重的跟踪模板退化。同时，逐帧的模板更新会造成计算量激增，影响算法实时性。

此外，现有的目标跟踪算法多采用有锚算法，此种方法把目标的位置和大小限制在了预设的几个范围之内，由于其过多的依赖现有的先验知识(如尺度/长宽比)，因此其泛化能力较差，无法应对种类繁多的跟踪目标。

综上，现有技术缺少对跟踪模板的有效更新，且多使用有锚算法，造成算法的鲁棒性不够强、泛化能力较差。本发明算法是一种包含分类分支、偏移分支和尺度分支的三分支无锚目标跟踪孪生网络模型，同时本算法包含一种全新的基于轮廓检测网络和目标检测网络的跟踪模板自适应更新机制。用于实现模板的在线学习。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于模板在线学习的无锚目标跟踪方法，一方面提出了一种新型的自适应模板更新的方法实现模板的在线学习，充分利用后续帧的目标特征信息来更新既有模板特征信息，保持模板在整个跟踪过程中的可用性和准确性，同时在最大程度上保证模板更新操作不影响跟踪的实时性；另一方面，本发明所提出的目标跟踪网络为一种基于新型三分支网络的无锚算法，解决了有锚算法泛化能力差，适用范围窄的问题，具有更高的鲁棒性和稳定性。

本发明的技术解决方案：一种基于模板在线学习的无锚目标跟踪方法，包括如下步骤：

步骤1：对已完成标注的单目标跟踪数据集(COCO数据集、YOUTUBE-BB数据集、DET数据集、VID数据集和GOT10K数据集)进行裁剪操作，并将裁剪后的单目标跟踪数据集组合成用于训练的“模板图-搜索图”的图像对形式，模板图大小为127×127，其为该帧图像中标注出的待跟踪目标区域，搜索图大小为255×255，其为包括待跟踪目标在内的一个大的搜索区域，对下述步骤2设计的网络模型进行训练的目的是让本发明所述方法实现在搜索图中匹配到模板图中的待跟踪目标的功能，最后按照7:3的比例将裁剪后的数据集划分为训练集和测试集；

步骤2：构建基于模板在线学习的无锚目标跟踪网络模型，所述模型为包含分类分支、偏移分支和尺度分支的三分支无锚目标跟踪孪生网络模型，三个分支实现目标当前准确位置和尺度的估计，具体构建步骤如下：

首先是深度特征提取过程，对“模板图-搜索图”的图像对分别提取模板深度特征图和搜索深度特征图，分别用于表征模板图和搜索图的图像特征；接着再将模板深度特征图和搜索深度特征图一同分别送入分类分支、偏移分支和尺度分支中；在分类分支、偏移分支和尺度分支中，均先对模板深度特征图和搜索深度特征图进行一层卷积操作，然后将卷积操作后的两幅特征图进行深度互相关运算得到特征响应图，特征响应图上每一个像素的值对应了模板图中与搜索图等大的一个对应区域出现跟踪目标的概率，再对特征响应图分别进行分类、偏移回归和尺度回归操作，其中分类分支实现目标及背景的二分类，用于确定当前目标的中心位置，此时的位置估计精确度并不高且不具有尺度估计功能，因此接下来需要偏移分支和尺度分支的进一步精细化计算；偏移分支采用无锚的方式计算目标位置的位移偏差，消除由于提取深度特征时造成的目标位置偏差；尺度分支采用无锚的方式估计目标的大小尺寸；

步骤3：设置步骤2所述无锚目标跟踪网络模型训练的相关参数，所述相关参数包括最大迭代次数、学习率和批处理尺寸；基于步骤1中训练集进行训练，并保存训练得到的所述无锚目标跟踪网络模型及相关参数；

步骤4：根据步骤3中得到的无锚目标跟踪网络模型及相关参数对步骤1中的测试集进行测试，根据测试准确率对步骤2中构建的基于模板在线学习的无锚目标跟踪网络模型及相关参数进行调整，并重新进行训练；

步骤5：重复步骤3和步骤4，直到得到测试准确率不再提高，得到最终的无锚目标跟踪网络模型及相关参数；

步骤6：在步骤5得到的无锚目标跟踪网络模型及相关参数的基础上，在对目标持续跟踪的过程中进行在线学习，采用一种基于轮廓检测网络和目标检测网络的模板图在线学习机制，完成跟踪图的在线持续更新，实现基于模板在线学习的无锚目标跟踪。

以上步骤1-步骤6构建了基于模板在线学习的无锚目标跟踪方法的完整结构，在实际跟踪过程中，给定第一帧图像中目标的位置和尺度，本方法将输出后续帧中目标的位置和尺度。

进一步，所述步骤2中，深度特征提取过程，对“模板图-搜索图”的图像对分别提取模板深度特征图和搜索深度特征图具体实现为：将使用ResNet50提取到的第3层特征图和第5层特征图进行融合，融合时采用一种基于多层感知机的特征注意力机制，分别对模板图和搜索图提取，获得加权融合特征，两层特征图融合的方式使得提取得到的深度特征兼有语义信息和空间信息。

进一步，所述一种基于多层感知机的特征注意力机制具体为：首先将提取到的第3层特征图和第5层特征图分别进行全局池化，然后经过多层感知机确定通道权重，将通道权重与特征相乘得到模板深度特征图和搜索深度特征图。

进一步，所述步骤2中，分类分支包含如下操作：对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；最后对上述两个特征向量进行相关操作得到17×17×2大小的响应图，通过对响应图中目标与背景的分类操作，确定目标当前位置。

进一步，所述偏移分支包含如下操作：对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；再将这两个特征向量分别接入空间注意力模块，利用得到的权重为特征图逐通道重新分配权重；最后对上述两个重新分配权重的特征向量进行相关操作得到响应图，对响应图进行回归运算即得到消除由于卷积步幅stride造成的跟踪位置偏差所需要的偏移量。

进一步，所述尺度分支包含如下操作：对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；接着将这两个特征向量分别接入空间注意力模块，利用得到的权重为特征图逐通道重新分配权重；最后对上述两个重新分配权重的特征向量进行相关操作得到响应图，对响应图进行回归运算即得到预测目标的最新尺度大小。

进一步，所述步骤6中，所述一种基于轮廓检测网络和目标检测网络的模板图在线学习机制具体步骤如下：

(1)计算每帧图像跟踪响应图的平均峰值相关能量即APCE值，当APCE值小于预设阈值时认定此时跟踪状态发生变化，模板图已不再准确，需要进行下述步骤进行模板更新；

(2)利用优化的VGG-19网络作为主干网络提取目标的边缘轮廓特征，同时引入Refinement模块对目标的边缘轮廓进行细化，以生成清晰准确的目标轮廓；

(3)利用YOLOv3目标检测网络对目标进行检测，并采用空洞卷积的方式扩展感受野，提升对小目标，即分辨率小于16×16的目标的检测能力；

(4)若步骤(3)未能检测到当前目标，认定此时出现目标遮挡，虽然同样会造成APCE值下降，但此时模板并未发生改变，因此不进行模板更新；当APCE值降至阈值以下且步骤(3)能够完整检测到目标时，认定此时目标状态发生改变，应进行模板图更新，此时综合利用步骤(2)和(3)检测得到的最新目标位置重新确定模板图，并将当前的模板以图线性迭代的方式进行更新，得到反映当前目标最新状态的模板图。

本发明与现有设计相比具有如下优点和创新点：

(1)本发明提出了一种包含分类分支、偏移分支和尺度分支的三分支无锚目标跟踪孪生网络模型。通过三分支的结果互补，精确地确定了目标当前的位置和尺度大小。与现有的有锚目标跟踪算法相比，本发明提出的无锚算法没有过多依赖先验知识(如尺度/长宽比)，因此其泛化能力更强，适用范围更广。

(2)本发明提出了一种基于轮廓检测网络和目标检测网络的跟踪模板自适应更新机制。现有算法多半始终使用第一帧目标作为跟踪模板，缺乏模板的更新机制，最终导致目标由于外观或形状发生改变而造成跟踪漂移问题；部分算法具有模板更新机制，但无法做到自适应判断何时进行模板更新，固定的模板更新周期会导致在诸如目标遮挡这类问题时将错误的目标当作模板进行更新，进而造成更严重的跟踪模板退化。本发明的自适应模板更新机制通过APCE判据和目标检测网络综合判定此时目标确是因为形变或旋转而造成的跟踪响应下降，在此种情况下综合使用轮廓和目标检测网络重新确定目标模板并更新。

(3)本发明在提出的用于自适应模板更新的轮廓检测网络中，优化了原始VGG-19网络，使检测性能达到最佳，并引入Refinement模块对轮廓进行细化，以生成清晰准确的目标轮廓。

附图说明

图1为本发明的一种基于模板在线学习的无锚目标跟踪方法整体结构图；

图2为本发明中特征提取模块所用ResNet50主干网络结构图；

图3为本发明空间注意力模块示意图；

图4为本发明所提出的自适应模板更新模块结构图；

图5为自适应模板更新模块中所用空洞卷积的原理解析图；

图6为本发明所提算法在几个公开测试集上的跟踪效果。

具体实施方式

为了更清楚的说明本发明的目的、技术方案和优点，下面结合附图对本发明的具体实施方式做进一步说明。

如图1所示，本发明的一种基于模板在线学习的无锚目标跟踪方法整体结构图，整体上其由一个用于提取特征的孪生网络、三个平行的分支(分类分支、偏移分支和尺度分支)以及自适应模板更新模块组成。本网络模型的具体实现方法如下所述。

(1)对已完成标注的单目标跟踪数据集(COCO数据集、YOUTUBE-BB数据集、DET数据集、VID数据集和GOT10K数据集)进行裁剪操作，并将裁剪后的单目标跟踪数据集组合成用于训练的“模板图-搜索图”的图像对形式，最后按照7:3的比例将其划分为训练集和测试集。其中，裁剪的方式为：以目标所在区域为中心裁剪出一个矩形图像，该矩形图像的长宽分别为目标矩形框大小的矩形框超出原视频边界的部分用像素平均值进行填充，最后将该矩形图像缩放到127×127，以此构成初始模板图像；以目标所在区域为中心裁剪出一个矩形图像，该矩形图像的长宽分别为目标矩形框大小的矩形框超出原视频边界的部分用像素平均值进行填充，最后将该矩形图像缩放到255×255，以此构成初始搜索图像。将上述裁剪好的一组初始模板图像和初始搜索图像组成一个“模板图-搜索图”图像对，送入本发明提出的一种基于模板在线学习的无锚目标跟踪方法网络模型中。

(2)构建基于模板在线学习的无锚目标跟踪网络模型。如图1所示，本网络模型主要包含三部分：位于结构图左侧的用于提取深度特征的特征提取网络模块，右侧的用于目标位置和尺度预测的无锚三分支网络模块，以及结构图上方的用于模板在线学习的自适应模板更新模块。

特征提取网络模块用于对模板图和搜索图提取深度特征，该特征提取网络选用ResNet50作为主干网络，ResNet50网络结构如附图2所示，利用ResNet50主干网络对模板图提取6×6×256大小的特征向量，对搜索图提取22×22×256大小的特征向量。特征提取的过程中，本发明将卷积层3和卷积层5的特征图进行融合，使提取到的特征兼有较强的语义信息和空间信息。为应对不同卷积层显著性及视觉模式的相异性，本发明提出一种基于多层感知机的特征注意力机制获得加权融合特征，具体的，首先将提取到的第3层特征图和第5层特征图分别进行全局池化，然后经过多层感知机确定通道权重，将通道权重与特征相乘得到模板深度特征图和搜索深度特征图。

无锚三分支网络模块包含分类分支、偏移分支和尺度分支，综合三分支预测结果得到目标的最新预测位置及尺度，具体的：

a)分类分支。实现目标及背景的二分类，以此确定目标跟踪框的中心位置。该分支对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；最后对上述两个特征向量进行相关操作得到17×17×2大小的响应图，通过对响应图中目标与背景的分类操作，确定目标当前位置。设Y∈R^W×H×3为上述分类分支的响应图，W和H分别为响应图的宽和高。假设是第k帧响应图上点(x_i,y_j)处的响应值，代表此处为跟踪目标的中心，代表此处为背景。分类标签Y用于表示各种前景对象，因此真值关键点的设计将服从二维正态分布，跟踪框的中心为其平均值。根据3σ准则，当X服从正态分布，则X偏离平均值超过3个标准差的概率最大为5％，因此本发明设定标签的标准差为宽和高的Y由下式确定，其中μ₁和μ₂分别表示X和Y的均值，和表示X和Y的方差。

响应值随样本与实例重叠面积的增加而增大，因此跟踪框边缘附近的分数应该低于中心部分。损失函数采用交叉熵损失的改进形式focal loss，

其中，α和β是focal loss的超参数，N为一轮训练中的帧数，Y_xyk为当前单位预测概率大小。本发明设定α＝3，β＝5。

b)偏移分支。采用无锚的方式计算跟踪框的位移偏差，用于消除由于stride造成的跟踪位置偏差。该分支对模板图特征向量使用3×3×512的卷积核进行卷积操作得到4×4×(2×256)的特征向量；对搜索图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；接着将这两个特征向量分别接入空间注意力模块，利用得到的权重为特征图逐通道重新分配权重，具体的空间注意力记忆力机制示意图如附图3所示，将原始特征图分别进行全局最大池化和全局平均池化，接着将这两种池化的结果连接成一个两通道特征图，然后利用卷积核对其进行卷积操作，使得两通道特征图可以映射到同一特征空间中，以获得的矩阵为输入的特征图逐像素位置重新分配权重；最后对上述两个特征向量进行回归操作得到响应图，响应峰值即为消除由于stride造成的跟踪位置偏差所需要的偏移量。由于输入样本大小、实例大小和输出响应图大小分别为127×127、255×255和17×17，网络的stride为8，为消除由于stride造成的跟踪位置偏差，需要为响应图上的每一点添加位置偏移量，位置偏移量可表示为其中k表示第k帧图像的响应图，i表示该帧响应图上的第i个点，n表示响应图上的总点数，其可进一步表示为：

其中x_k和y_k为实际偏移量，和为预测偏移量，偏移分支使用L1损失L_offset进行训练。

c)尺度分支。采用无锚的方式估计目标的大小尺寸。该分支对模板图特征向量使用3×3×512的卷积核进行卷积操作得到4×4×(2×256)的特征向量；对搜索图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；接着将这两个特征向量送入与b)相同结构的注意力模块中进行处理；最后对上述两个特征向量进行回归操作得到响应图，响应峰值即为预测目标的最新尺度大小。预测目标的尺度相当于回归每帧中目标的尺度S_k＝(x_k2-x_k1,y_k2-y_k1)，设x_k2-x_k1＝α_k，y_k2-y_k1＝β_k，为了确保估计值落在正值范围内，使用α_k和β_k可以将尺度表示为：

尺度分支使用L1损失L_scale进行训练，

其中，α_k和β_k为x和y方向实际的尺度，和为其对应的预测值。

自适应模板更新模块用于在图像由于形变、旋转而造成目标跟踪模板有效性下降时，自适应更新模板，其网络结构图如附图4所示。本网络结构包含两个分支，第一分支实现轮廓检测、第二分支实现目标检测，综合使用这两个分支实现模板的自适应更新。具体实现步骤如下：

a)模板更新入口判断。计算每帧图像跟踪响应图的APCE值，当其小于预设阈值时认定此时跟踪状态发生变化，跟踪模板已不再准确，进入模板更新流程。

b)轮廓检测。附图4所示第一分支即为本发明轮廓检测网络模型，本网络结构以VGG-19网络作为主干网络提取目标的边缘轮廓特征，对于输入图像首先经过两个3×3×64的卷积层和一个最大池化层，接着经过两个3×3×128的卷积层和一个最大池化层，接着经过两个3×3×256的卷积层和一个最大池化层，接着经过四个3×3×512的卷积层和一个最大池化层，接着再经过四个3×3×256的卷积层和一个最大池化层，在这之后本发明对原VGG-19网络末端进行了修改，以此使之用于提取边缘，具体修改内容包括：首先移除原VGG-19网络末端的3个全连接层；接着为了获得最佳检测性能，本发明在VGG-19网络末端添加了连续的3个3×3卷积核，步长为一个像素；最后，考虑到本发明为了减少无用的背景信息而使用了更深层的特征，这势必会受到厚边界问题影响，为此本发明添加了Refinement模块对轮廓进行细化，以生成清晰准确的目标轮廓。

c)目标检测。图4所示第二分支即为本发明目标检测网络模型，本网络结构以YOLOv3网络为基础进行搭建，在多数跟踪任务中目标尺度都较小，为了提升模板更新时对小目标的检测能力，本发明引入了空洞卷积来扩展感受野，提升网络对小目标的感知能力。其原理解析图如附图5所示，图5中的(a)为标准3×3卷积，(b)为扩张率为2的3×3卷积，其具有扩大感受野，捕获多尺度上下文信息的作用。

d)模板更新。若目标检测网络未能检测到当前目标，认定此时出现目标遮挡，虽然同样会造成APCE值下降，但此时模板并未发生改变，因此不进行模板更新；当APCE值降至阈值以下且能够完整检测到目标时，认定此时目标状态发生改变，应进行模板更新。此时综合利用轮廓检测和目标检测的结果重新确定目标模板并更新。

(3)根据(2)构建的网络模型，设置模型训练的相关参数。本发明设定最大迭代次数为100，学习率为0.001，批处理尺寸为32，完整网络框架的损失可以定义为：

loss＝L_cls+λ_offsetL_offset+λ_scaleL_scale

其中，λ_offset和λ_scale为平衡这三个损失的两个超参数，本发明设定，λ_offset＝0.15、λ_scale＝5。根据上述设定在(1)中划分的训练集上开始训练，并保存训练得到的网络模型及参数。

(4)根据(2)和(3)中得到的网络模型及参数对(1)中划分的测试集进行测试，根据测试准确率对步骤二和步骤三中构建的网络模型及相关参数和方法进行调整，并重新进行训练。

(5)重复(2)、(3)、(4)直到得到测试准确率较高且满足具体需求的网络模型及参数。

图6为本发明提出的一种基于模板在线学习的无锚目标跟踪方法在几个公开测试集上的测试效果。图6中(a)，目标快速运动，运动过程中目标外观发生了非常大的变化，由于本发明算法中的模板在线学习机制，使得目标外观在不断发生变化的过程中保持着跟踪模板的不断更新；图6中(b)，目标尺度由大及小发生了很大变化，由于本发明算法的无锚三分支结构中包含尺度分支，可以敏锐感知到跟踪目标的尺度变化，及时调整跟踪框大小；图6中的(c)，目标接连发生尺度变化、旋转、遮挡和快速移动等问题，由于本发明算法的模板在线学习功能以及无锚三分支结构可对跟踪目标进行精细化位置和尺度预测，因此可实现全程准确跟踪；图6中的(d)目标发生连续的旋转以及大幅的形变，本发明同样实现了全程稳定的跟踪。从定量角度看，本发明的跟踪成功率指标为72.3％，相比于有锚且无模板在线学习的典型算法SiamRPN提升8.6％，SiamRPN++提升2.7％；相比于有锚且有模板在线学习的典型算法Ocean提升3.9％。

Claims

1.一种基于模板在线学习的无锚目标跟踪方法，其特征在于，包括如下步骤：

步骤1：对已完成标注的单目标跟踪数据集COCO数据集、YOUTUBE-BB数据集、DET数据集、VID数据集和GOT10K数据集进行裁剪操作，并将裁剪后的单目标跟踪数据集组合成用于训练的“模板图-搜索图”的图像对形式，模板图大小为127×127，其为图像中标注出的待跟踪目标区域，搜索图大小为255×255，其为包括待跟踪目标在内的一个大的搜索区域，最后按照7:3的比例将裁剪后的数据集划分为训练集和测试集；

首先是深度特征提取过程，对“模板图-搜索图”的图像对分别提取模板深度特征图和搜索深度特征图，分别用于表征模板图和搜索图的图像特征；接着再将模板深度特征图和搜索深度特征图一同分别送入分类分支、偏移分支和尺度分支中；在分类分支、偏移分支和尺度分支中，均先对模板深度特征图和搜索深度特征图进行一层卷积操作，然后将卷积操作后的两幅特征图进行深度互相关运算得到特征响应图，特征响应图上每一个像素的值对应了模板图中与搜索图等大的一个对应区域出现跟踪目标的概率，再对特征响应图分别进行分类、偏移回归和尺度回归操作，其中分类分支实现目标及背景的二分类，用于确定当前目标的中心位置；偏移分支采用无锚的方式计算目标位置的位移偏差，消除由于提取深度特征时造成的目标位置偏差；尺度分支采用无锚的方式估计目标的大小尺寸；

步骤6：在步骤5得到的无锚目标跟踪网络模型及相关参数的基础上，在对目标持续跟踪的过程中进行在线学习，采用一种基于轮廓检测网络和目标检测网络的模板图在线学习机制，完成跟踪图的在线持续更新，实现基于模板在线学习的无锚目标跟踪；

所述步骤6中，一种基于轮廓检测网络和目标检测网络的模板图在线学习机制具体步骤如下：

（1）计算每帧图像跟踪响应图的平均峰值相关能量即APCE值，当APCE值小于预设阈值时认定此时跟踪状态发生变化，模板图已不再准确，需要通过下述步骤（2）-（4）进行模板更新；

（2）利用优化的VGG-19网络作为主干网络提取目标的边缘轮廓特征，同时引入Refinement模块对目标的边缘轮廓进行细化，以生成清晰准确的目标轮廓；

（3）利用YOLOv3目标检测网络对目标进行检测，并采用空洞卷积的方式扩展感受野；

（4）若步骤（3）未能检测到当前目标，认定此时出现目标遮挡，虽然同样会造成APCE值下降，但此时模板并未发生改变，因此不进行模板更新；当APCE值降至阈值以下且步骤（3）能够完整检测到目标时，认定此时目标状态发生改变，应进行模板图更新，此时综合利用步骤（2）和（3）检测得到的最新目标位置重新确定模板图，并将当前的模板以图线性迭代的方式进行更新，得到反映当前目标最新状态的模板图。

2.根据权利要求1所述的基于模板在线学习的无锚目标跟踪方法，其特征在于：所述步骤2中，深度特征提取过程，对“模板图-搜索图”的图像对分别提取模板深度特征图和搜索深度特征图，具体实现为：将使用ResNet50提取到的第3层特征图和第5层特征图进行融合，融合时采用一种基于多层感知机的特征注意力机制，获得加权融合特征，两层特征图融合的方式使得提取得到的深度特征兼有语义信息和空间信息；

所述一种基于多层感知机的特征注意力机制具体为：首先将提取到的第3层特征图和第5层特征图分别进行全局池化，然后经过多层感知机确定通道权重，将通道权重与特征相乘得到模板深度特征图和搜索深度特征图。

3.根据权利要求1所述的基于模板在线学习的无锚目标跟踪方法，其特征在于，所述步骤2中，分类分支包含如下操作：对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；最后对上述两个特征向量进行相关操作得到17×17×2大小的响应图，通过对响应图中目标与背景的分类操作，确定目标当前位置。

4.根据权利要求1所述的基于模板在线学习的无锚目标跟踪方法，其特征在于，所述偏移分支包含如下操作：对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；再将这两个特征向量分别接入空间注意力模块，利用得到的权重为特征图逐通道重新分配权重；最后对上述两个重新分配权重的特征向量进行相关操作得到响应图，对响应图进行回归运算即得到消除由于卷积步幅stride造成的跟踪位置偏差所需要的偏移量。

5.根据权利要求1所述的基于模板在线学习的无锚目标跟踪方法，其特征在于：所述尺度分支包含如下操作：对模板深度特征图使用3×3×512的卷积核进行卷积操作得到4×4×512的特征向量；对搜索深度特征图采用3×3×256的卷积核进行卷积操作得到20×20×256的特征向量；接着将这两个特征向量分别接入空间注意力模块，利用得到的权重为特征图逐通道重新分配权重；最后对上述两个重新分配权重的特征向量进行相关操作得到响应图，对响应图进行回归运算即得到预测目标的最新尺度大小。