CN114155273B

CN114155273B - 一种结合历史轨迹信息的视频图像单目标跟踪方法

Info

Publication number: CN114155273B
Application number: CN202111221441.0A
Authority: CN
Inventors: 杨兆龙; 庞惠民; 夏永清
Original assignee: Zhejiang Dali Technology Co ltd
Current assignee: Zhejiang Dali Technology Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2024-06-04
Anticipated expiration: 2041-10-20
Also published as: CN114155273A

Abstract

本发明涉及一种结合历史轨迹信息的视频图像单目标跟踪方法：将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层，得到模板图像特征图和搜索图像特征图；将模板图像特征图和搜索图像特征图均先后送入训练好的卷积神经网络分类层和回归层，得模板图像的分类特征图和回归特征图、搜索图像的分类特征图和回归特征图；对模板图像和搜索图像的分类特征和回归特征图进行互相关操作，得到模板图像与搜索图像的分类层响应图和回归层响应图；对模板图像与搜索图像的分类层响应图进行最大池化操作；找到与前一帧搜索图像中目标的预测坐标以及前M帧搜索图像中目标的历史轨迹最近似的预测坐标值，作为当前帧搜索图像中目标的最终预测坐标值。

Description

一种结合历史轨迹信息的视频图像单目标跟踪方法

技术领域

本发明涉及一种结合历史轨迹信息的单目标跟踪方法，涉及到孪生神经网络和历史轨迹信息的单目标跟踪方法，属于图像处理与计算机视觉领域，

背景技术

计算机视觉是专门研究如何让计算机像人那样能够“看”到的学科，是指利用摄像机和电脑代替人眼的作用，使机器能够看到类似人脑那样对目标实现提取、识别、跟踪等功能。

目标跟踪是通过分析视频图片序列，对检测出的各个候选目标区域实施匹配，定位出这些目标在视频序列中的坐标。简单的说，就是在序列图像中为目标进行定位。目标跟踪算法的研究是计算机视觉领域的热点，在虚拟现实、人机交互、智能监控、增强现实、机器感知等场景中有着重要的研究与应用价值。

单场景下的目标跟踪问题主要研究对单个目标的连续跟踪，即在单摄像机拍摄的视频序列中只跟踪一个具体目标。这方面的研究围绕以下两个基本问题展开：第一，目标表观建模，也有人称之为目标匹配问题。它根据目标的表观特征数据来建立相应的表观模型，是算法最重要的模块。表观特征建立的好坏直接影响到跟踪的准确性和鲁棒性，常采用的特征有轮廓、颜色、纹理等。第二、跟踪策略。在目标跟踪过程中，要是为了寻找最佳位置而直接匹配对场景中的所有内容，这无疑会增加大量冗余信息，导致运算量大、速度慢等缺点。通过先验知识来缩小搜索范围会取得有效效果，代表性方法有隐马尔可夫模型、卡尔曼滤波、均值漂移算法、粒子滤波等。

目标跟踪算法可以分为两类：判别式跟踪和生成式跟踪。生成式跟踪算法不考虑背景信息直接为目标进行建模的算法，通过学习建立一个模型来表示目标，然后使用此模型直接与目标类别进行匹配，以达到跟踪的目的。判别式方法将跟踪问题建模为一个二元分类问题，用以找到区分目标物体和背景的决策边界，最大化地将目标区域与非目标区域区分开来。近年来，深度学习算法迅速成为研究热点，并在计算机视觉领域取得了良好的效果。而基于孪生神经网络的深度学习方法在单目标跟踪领域有着举足轻重的作用，SiamFC是典型的孪生神经网络应用于单目标跟踪的算法，具体来说就是该结构有两个输入，一个是作为基准的模板，另一个则是要选择的候选样本。而在单目标跟踪任务中，作为基准的模板则是我们要跟踪的对象，通常选取的是视频序列第一帧中的目标对象，而候选样本则是之后每一帧中的图像搜索区域，而孪生网络要做的就是找到之后每一帧中与第一帧中的范本最相似的候选区域，即为这一帧中的目标，这样我们就可以实现对一个目标的跟踪。深度学习方法显著提高了跟踪器的跟踪速度和精度。SiamFC等基于孪生网络的方法虽然可以在高性能运算设备上满足实时性的要求，但是此方法在目标跟踪时没有考虑目标历史轨迹信息，当场景中出现和目标相同物体且距离较近时容易产生目标跟丢现象，降低了跟踪算法的精度。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供一种结合历史轨迹信息的单目标跟踪方法，以解决当场景中出现相同或相似目标时，产生跟踪目标丢失的现象。

本发明解决技术问题的方案是：一种结合历史轨迹信息的视频图像单目标跟踪方法，该方法包括如下步骤：

S1、获取模板图像和当前帧搜索图像；

S2、将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层，得到模板图像特征图和搜索图像特征图；

S3、将模板图像特征图和搜索图像特征图均先后送入训练好的卷积神经网络分类层和回归层，得模板图像的分类特征图和回归特征图、搜索图像的分类特征图和回归特征图；

S4、对模板图像的分类特征图和搜索图像的分类特征图进行互相关操作，得到模板图像与搜索图像的分类层响应图；对模板图像的回归特征图和搜索图像的回归特征图进行互相关操作，得到模板图像与搜索图像的回归层响应图；

S5、对模板图像与搜索图像的分类层响应图进行最大池化操作；

S6、取出池化之后的分类层响应图中响应值从高到低前N个特征点，并计算这N个特征点对应的回归层输出，根据回归层输出得到当前帧搜索图像中目标的N个预测坐标值；

S7、如果当前帧为视频图像的前M帧，则将分类层响应图中最大响应值对应的预测坐标值，作为当前帧搜索图像中目标的最终预测坐标值记录；如果当前帧为视频图像的第M帧以及之后的帧，则进入步骤S8；

S8、从N个预测坐标值中，找到与前一帧搜索图像中目标的预测坐标以及前M帧搜索图像中目标的历史轨迹最近似的预测坐标值，作为当前帧搜索图像中目标的最终预测坐标值，M,N≥2。

优选地，所述步骤S4中的互相关操作如下：

F(z,x)＝z*x+b

其中，b为偏差，*表示卷积操作，Z为模板图像的分类层回归层特征图或者回归层特征图，x为搜索图像的分类层回归层特征图或者回归层特征图，F 为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。

优选地，所述训练好的卷积神经网络特征提取层为Alexnet网络。

优选地，所述步骤S5池化操作前后特征图的维度一致。

优选地，所述步骤S8的具体步骤如下：

S8.1、获取前M帧搜索图像中目标的历史轨迹坐标{[x_i,y_i],i＝1～M}，(x_i,y_i) 表示当前帧之前第i帧搜索图像中目标的预测坐标值；

S8.2、计算目标的历史轨迹方向信息,所述目标的历史轨迹方向信息包括当前帧之前第i+1帧目标位置到第i帧目标位置的方向信息o_i，i＝1～M；

S8.3、获取N个预测坐标值(a_j,b_j)，j＝1～N；

S8.4、计算各预测坐标值与前一帧搜索图像中目标的预测坐标的偏差：

d_j＝(a_j-x₁,b_j-y₁),j＝1～N；

S8.5、计算各预测坐标值与目标历史轨迹的相似度；

S8.6、选取相似度最小的S_j对应的预测坐标点作为最终的输出

优选地，所述步骤S8.5第j个预测坐标值与目标历史轨迹的相似度的具体计算公式如下：

S_j＝s_j,1+s_j,2

其中，s_j,1为s_j的第一分量，s_j,2为s_j的第一分量；λ为权重参数，通常设置为1。

优选地，所述分类层在训练时，采用二元交叉熵函数作为损失函数。

优选地，所述回归层在训练时，采用smoothL1作为损失函数。

本发明与现有技术相比的有益效果是：

(1)、本发明当图片中出现相似目标时，由于考虑了历史轨迹信息和当前预测距离信息，可以更好的检测定位目标，提高目标跟踪的精度。

(2)、本发明针对被跟踪目标被遮挡情况具有一定的鲁棒性。

附图说明

图1为本发明实施例网络结构图；

图2本发明的结合历史轨迹信息的单目标跟踪流程图。

具体实施方式

以下结合附图和具体实施方式对本发明提出的结合历史轨迹信息的单目标跟踪方法作进一步说明。根据下面说明和权利要求书，本发明的优点和特征将更加清楚。

如图1和图2所示，本发明提供了一种结合历史轨迹信息的视频图像单目标跟踪方法，该方法包括如下步骤：

S1、获取模板图像和当前帧搜索图像；

所述训练好的卷积神经网络特征提取层为Alexnet网络。

互相关操作如下：

F(z,x)＝z*x+b

S5、对模板图像与搜索图像的分类层响应图进行最大池化操作；池化操作前后特征图的维度一致；

S6、从取出池化之后的分类层响应图中响应值从高到低前N个特征点，并计算这N个特征点对应的回归层输出，根据回归层输出得到当前帧搜索图像中目标的N个预测坐标值；

具体步骤如下：

S8.3、获取N个预测坐标值(a_j,b_j)，j＝1～N；

d_j＝(a_j-x₁,b_j-y₁),j＝1～N；

S8.5、计算各预测坐标值与目标历史轨迹的相似度；第j个预测坐标值与目标历史轨迹的相似度的具体计算公式如下：

S_j＝s_j,1+s_j,2

S8.6、选取相似度最小的S_j对应的预测坐标点作为最终的输出

实施例：

本发明某一具体实施例中，使用图像分类领域的Alexnet的通用网络作为骨架构建Siamese卷积神经网络，所述Siamese卷积神经网络包括特征提取层、分类层和回归层。采用单目标跟踪领域常用数据集ILVSRC2015以及自主实际拍摄和标注的800条视频作为训练数据，对Siamese卷积神经网络模型进行训练。模型训练过程要点如下：

要点1、对视频中的图像进行尺寸归一化及数据增强处理。

从视频中的第一帧图像中得到目标框(x_min,y_min,w,h)，其中x_min和y_min分别表示真实框左上角的点位置坐标，w和h分别表示目标框的宽和高。然后对于每一帧图像，以目标框的中心点为中心，裁取127*127大小的图片作为模板图像，裁取255*255大小的图片作为搜索图像。如果模板图像或搜索图像在原图像中不够裁剪时，将不足的部分按照RGB通道的均值进行填充。

对搜索图像进行数据增强操作包括对模板图像进行旋转、添加噪声、色彩抖动等。

要点2、搭建网络模型

参考图2，本发明使用的网络结构包括特征提取层、分类层和回归层。

该单目标跟踪网络有两路完全相同的特征提取层，两路特征提取层共享参数。即单目标跟踪网络分为搜索分支和模板分支；其中模板分支输入模板图像，例如127*127*3的模板图像，127*127表示输入图像分辨率，3表示输入图像的通道数，通常为RGB图像。搜索分支输入搜索图像，例如输入255*255*3 大小的图像。

特征提取层的两个分支网络都是基于Alexnet的卷积神经网络，网络结构和参数完全相同，均包含依次连接的第一卷积层Conv1、第一池化层Pool1、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第五卷积层Conv5。具体参数为：Conv1的卷积核大小为11×11，步长为2，输出通道数为96；Pool1 的卷积核大小为3×3，步长为2，输出通道数为96；Pool2的卷积核大小为3×3，步长为2，输出通道数为256；Conv3和Conv4的卷积核大小均为3×3，步长均为1，输出通道数均为192；Conv5的卷积和大小为3×3，步长为1，输出通道数为128。

在分类层，首先使用卷积核大小为3*3，输出通道数为256，然后紧接着是卷积核1*1大小的卷积，输出通道数是128。

在回归层，首先使用卷积核大小为3*3，输出通道数为256，然后紧接着是卷积核1*1大小的卷积，输出通道数是128。

相关运算过程为：以输入127*127*3的模板图像和输入255*255*3的搜索图像为例，分别得到6*6*128的模板图像分类特征图和23*23*128的搜索图像分类特征图，然后以6*6*128为卷积核，以23*23*128为输入特征图，设置步长s＝1，pad＝0进行卷积，输出17*17*1大小的分类层响应图。

相关运算过程为：以输入127*127*3的模板图像和输入255*255*3的搜索图像为例，分别得到6*6*128的模板图像回归特征图和23*23*128的搜索图像回归特征图，然后以6*6*128为卷积核，以23*23*128为输入特征图，设置步长s＝1，pad＝0进行卷积，输出17*17*1大小的特征图。最后使用1*1的卷积，输出通道数是4，得到17*17*4的回归层响应图。

要点3、损失函数

在分类层，本发明使用二元交叉熵函数作为损失函数。在正负样本设定时，将分类层映射回原图时落入真实目标框的样本点设为正样本，其它设置为负样本。

在回归层，得到17*17*4的特征图，其中回归分数即每个样本的位置回归值，分别表示到目标框的距离。损失函数采用smoothL1损失函数。

最终的loss如下：

loss＝φ_cls+λ₂φ_reg

loss是分类损失和回归损失的总和，λ₂表示超参数，设置为0.5，控制回归损失函数的权重。

本实施例中，建立好特征层、分类层和回归层之后，采用本发明提供的视频图像单目标跟踪方法中，步骤S5采用3*3的最大池化层。

如果当前处理帧位于前5帧，则根据分类层最大响应点计算目标位置。并记录当前预测的目标位置。当处理帧大于5帧时，则结合历史轨迹信息预测新的目标位置。具体如下：

取出分类层前4个最大值响应点，并计算这四个值对应回归层的输出。因此得到四个不同的预测坐标，这个四个预测坐标和上一帧的跟踪目标以及历史轨迹计算得到最近似的预测坐标作为最终的输出。

步骤S6中，取出池化之后的分类层响应图中响应值从高到底前4个特征点，并计算这4个特征点对应的回归层响应图中的坐标，从而得到当前帧搜索图像中目标的4个预测坐标值；

步骤S7中、如果当前帧为视频图像的前5帧，则将分类层响应图中最大响应值对应的预测坐标值，作为当前帧搜索图像中目标的最终预测坐标值记录；如果当前帧为视频图像的第5帧以及之后的帧，则进入步骤S8；

步骤S8中、从4个预测坐标值中，找到与前一帧搜索图像中目标的预测坐标以及前5帧搜索图像中目标的历史轨迹最近似的预测坐标值，作为当前帧搜索图像中目标的最终预测坐标值。

具体步骤如下：

S8.1、获取前M帧搜索图像中目标的历史轨迹坐标

{(x₅,y₅),(x₄,y₄),(x₃,y₃),(x₂,y₂),(x₁,y₁)}，表示当前帧之前第i帧搜索图像中目标的预测坐标值；

以N等于5为例，具体为：

o₄＝(x₄-x₅,y₄-y₅)

o₃＝(x₃-x₄,y₃-y₄)

o₂＝(x₂-x₃,y₂-y₃)

o₁＝(x₁-x₂,y₁-y₂)

S8.3、获取4个预测坐标值(a_j,b_j)，j＝1～N；

d_j＝(a_j-x₁,b_j-y₁),j＝1～4；

S_j＝s_j,1+s_j,2

S8.6、选取相似度最小的S_j对应的预测坐标点作为最终的输出

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种结合历史轨迹信息的视频图像单目标跟踪方法，其特征在于包括如下步骤：

S1、获取模板图像和当前帧搜索图像；

S8、从N个预测坐标值中，找到与前一帧搜索图像中目标的预测坐标以及前M帧搜索图像中目标的历史轨迹最近似的预测坐标值，作为当前帧搜索图像中目标的最终预测坐标值，M,N≥2；

所述步骤S8的具体步骤如下：

S8.1、获取前M帧搜索图像中目标的历史轨迹坐标{[x_i,y_i],i＝1～M}，(x_i,y_i)表示当前帧之前第i帧搜索图像中目标的预测坐标值；

S8.3、获取N个预测坐标值(a_j,b_j)，j＝1～N；

d_j＝(a_j-x₁,b_j-y₁),j＝1～N；

S8.5、计算各预测坐标值与目标历史轨迹的相似度；

第j个预测坐标值与目标历史轨迹的相似度的具体计算公式如下：

S_j＝s_j,1+s_j,2

其中，s_j,1为s_j的第一分量，s_j,2为s_j的第二分量；λ为权重参数，设置为1；

S8.6、选取相似度最小的S_j对应的预测坐标点作为最终的输出。

2.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述步骤S4中的互相关操作如下：

F(z,x)＝z*x+b

其中，b为偏差，*表示卷积操作，z为模板图像的分类层回归层特征图或者回归层特征图，x为搜索图像的分类层回归层特征图或者回归层特征图，F为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。

3.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述训练好的卷积神经网络特征提取层为Alexnet网络。

4.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述步骤S5池化操作前后特征图的维度一致。

5.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述分类层在训练时，采用二元交叉熵函数作为损失函数。

6.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述回归层在训练时，采用smoothL1作为损失函数。