CN111582349B

CN111582349B - 一种基于YOLOv3和核相关滤波改进的目标跟踪算法

Info

Publication number: CN111582349B
Application number: CN202010360262.4A
Authority: CN
Inventors: 李良福; 宋睿; 冯建云
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-03-28
Anticipated expiration: 2040-04-30
Also published as: CN111582349A

Abstract

本发明属于目标跟踪技术领域，具体涉及一种基于YOLOv3和核相关滤波改进的目标跟踪算法，包括步骤一：通过加权整合目标运动信息和表观信息，以及采用K邻域搜索，对YOLOv3网络模型进行改进，再使用迁移学习的训练方法训练改进后的目标检测模型；步骤二：对核相关滤波进行改进；步骤三：将步骤一改进后的YOLOv3网络模型与步骤二构建的快速核相关滤波器相联合，得到新的目标跟踪算法YO3‑FKCF。本发明经验证后，改进后的目标检测算法既保证了实时性，又提高了复杂场景中对多目标和弱小目标检测的准确率，并且最终得到的目标跟踪算法能够对多目标和弱小目标的进行准确并实时的跟踪，鲁棒性也有所提升。

Description

一种基于YOLOv3和核相关滤波改进的目标跟踪算法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种基于YOLOv3和核相关滤波改进的目标跟踪算法，该算法主要针对运动中的多目标和弱小目标进行检测跟踪。

背景技术

目标检测跟踪是近年来计算机视觉领域中备受关注的前沿方向，它从包含运动目标的图像序列中检测、识别并跟踪目标，并对其行为进行理解和描述。

随着现代信息处理技术的发展，目标检测跟踪在智能视频监控、机器人视觉导航及医学诊断等领域具有重要意义，具有广泛的应用前景和潜在的经济价值已成为一项极为重要和基本的技术。然而，由于景物的多样性和复杂性，在具体工程应用中对多目标和弱小目标进行检测跟踪的问题仍没有有效解决。

近几年来，基于深度学习的目标检测方法得到了很大的突破，其主要的方法可以分为两类。一类是基于区域推荐的目标检测方法，该方法的处理过程一般为首先使用区域推荐产生候选目标，随后使用卷积神经网络进行处理；具有代表性的方法有RCNN、FastRCNN、FasterRCNN、MaskRCNN等。该方法的精度较高，但是不能满足实时应用的需求。另一类是基于回归方法的目标检测算法，该方法的处理思想为将检测问题作为回归问题处理，直接预测目标位置与类别；具有代表性的算法有YOLO、SSD、YOLOv2、YOLOv3等，该类方法的速度快，但是相对而言精度偏低。

有鉴于此，本发明人提出了一种基于YOLOv3和核相关滤波改进的目标跟踪算法，以解决针对运动中的多目标和弱小目标不易进行检测跟踪的问题。

发明内容

为了解决现有技术中存在的上述问题，一种基于YOLOv3和核相关滤波改进的目标跟踪算法，本发明通过对YOLOv3网络模型进行和核相关滤波进行改进，最后将两者联合，以实现对运动中的多目标和弱小目标进行检测跟踪的目的。

本发明要解决的技术问题通过以下技术方案实现：本发明提供一种基于YOLOv3和核相关滤波改进的目标跟踪算法，包括以下步骤：

步骤一：对YOLOv3网络模型进行改进

1)采用级联匹配思想，对马氏距离(Mahalanobis)和最小余弦距离进行加权，整合目标运动信息和表观信息；

2)采用K邻域搜索方法，并以K为阈值，筛选掉在K邻域搜索框以外的候选目标框，提高YOLOv3网络模型对目标物体检测的成功率；

步骤二：对核相关滤波进行改进

在核相关滤波基础上采用了基于标准主成分分析的自适应维度下降策略，构建快速核相关滤波器，在保留有用信息的同时，大幅削减了特征维数，减少了所需计算量；

步骤三：得到YO3-FKCF目标跟踪算法

将步骤一改进后的YOLOv3网络模型目标检测算法与步骤二构建的快速核相关滤波器相联合，最终得到新的目标跟踪算法YO3-FKCF，用于对多目标和弱小目标进行检测跟踪。

进一步地，所述步骤一中1)具体过程为：

首先，采用马氏距离法，通过测量远离平均轨迹位置的标准偏差来考虑目标状态估计的不确定性，使用如公式(1)计算预测状态和新到达测量值之间的马氏距离：

其中，(y_j,S_i)表示第i条轨迹分布到测量空间的投影，λ表示第j条边界框的检测；

然后，考虑到目标在图像空间中的问题，采用更具说服性的余弦距离，对于每个边界框检测d_j，使用||r_j||＝1计算出外观描述符，与此同时，维护每个轨迹的最后L_k＝100个相关外观描述符

在测量外观空间中，第i个轨迹和第k个检测之间的最小余弦距离公式(2)为：

最后，上述两个指标分别提供了指派问题的不同方面，一方面，利用马氏距离预测运动后目标可能的位置信息；另一方面，利用最小余弦距离来估计目标表观信息，弥补了遮挡情况下运动信息的不足，二者相辅相成，加权整合表示如公式(3)所示：

θ(i,j)＝λd_马氏(i,j)+(1-λ)d_余弦(i,j) (3)。

进一步地，所述步骤一中2)具体过程为：在目标跟踪领域，通常认为目标在相邻两帧序列图上的相对位移不是很大，在此基础之上，采用了一种K邻域搜索方法，以提高YOLOv3网络模型检测算法在选定区域的物体检测成功率；

K邻域搜索是把上一帧中检测到的目标矩形区域作为基础矩阵，将下一帧的搜索矩阵区域设置到该基础矩形周围，同时要求这两个矩阵区域的中心点坐标位置重合，并且满足相应的比例，如公式(4)所示：

其中，W_搜索、W_基础分别表示矩形搜索区域和前一帧目标矩形区域的宽度，H_搜索、H_基础分别表示这两者的高度。

4.根据权利要求3所述的一种基于YOLOv3和核相关滤波改进的目标跟踪算法，其特征在于：所述步骤二具体过程为：假设训练样本为x_t，在它的每个像素n处都包含一个d维的特征向量x_t(n)∈R^d，维度下降技术的核心是构建一个大小为

的投影矩阵M_t，其中

表示压缩后的特征维数，η为学习率，位移模板更新如公式(5)所示：

u_t＝(1-η)u_t-1+ηx_t (5)

通过最小化位移模板u_t的重建误差来获取投影矩阵M_t如公式(6)所示：

其中，n涵盖了模板u_t的所有元素，当

和M_t满足正交约束时u_t重建误差最小，此时，M_t利用公式(7)作矩阵的特征值分解：

投影矩阵M_t由对应于C_t的

个最大特征值的特征向量组成；

通过使用压缩的样本

和压缩的位移模板

来获取测试样本z_t的响应图，如公式(8)所示：

其中，F^-1是离散傅里叶逆变换，

表示元素乘积，

是核函数k的输出，

是上一帧中的更新的系数；

最后，通过压缩的训练样本

来更新系数

如公式(9)所示：

其中，

是控制过拟合的正则化参数。

进一步地，将所述步骤一改进后的YOLOv3网络模型目标检测算法与步骤二构建的快速核相关滤波器相联合，得到目标跟踪算法YO3-FKCF，YO3-FKCF目标跟踪算法具体步骤如下：

步骤1：在待跟踪序列中，取其第一帧图像，手动获取待跟踪目标并将其设置为目标模板；

步骤2：根据前一帧中的跟踪目标坐标位置，生成邻域搜索图，然后再把搜索图中目标运动信息和表观信息进行加权整合，从而得到对应检测结果；

步骤3：根据类别标签过滤当前检测结果，得到同一类别的目标候选框，如果没有同类的候选目标，则把上一帧的跟踪目标坐标作为当前帧的跟踪结果；

步骤4：利用公式(9)计算最终响应图，选择最大值得到当前目标位置并确定目标；

步骤:5：将加权整合得到的公式(3)的结果与τ值(τ值设定为0.67进行比较，为避免模板更新过于迅速，设定5作为帧差条件，将当前匹配目标所在帧数和上一目标模板所在帧数的差值与设定帧差5进行比较，当同时满足大于以上两个条件时，则更新模板，同时跳至步骤2；如果不满足，则不更新模板。

进一步地，所述阈值K取值为3。

进一步地，对所述步骤一改进后的YOLOv3网络模型，使用迁移学习的训练方法训练，得到实用模型，用于提高复杂场景中对多目标和弱小目标检测的准确率。

与现有技术相比，本发明具有如下有益效果：

本发明通过加权整合目标运动信息和表观信息，再加上采用K邻域搜索，改进了YOLOv3网络模型目标检测算法，再使用迁移学习的训练方法训练改进后的目标检测模型，得到实用模型，提高了复杂场景中对多目标和弱小目标检测的准确率；在核相关滤波基础上采用了基于标准主成分分析的自适应维度下降策略，构建快速核相关滤波器，在保留有用信息的同时大大降低时间复杂度，保证跟踪过程中实时性；最后，将改进后的YOLOv3网络模型与构建的快速核相关滤波器相联合，得到新的YO3-FKCF目标跟踪算法，实验结果表明，改进后的目标检测算法既保证了实时性，又在对多目标和弱小目标的检测精度上提高了5.71％，并且最终得到的目标跟踪算法在对多目标和弱小目标的跟踪过程中也有较高的精度、鲁棒性及实时性。

附图说明

图1为本发明目标跟踪算法的步骤图；

图2为本发明K邻域搜索方法示意图；

图3本发明实验同一图片不同K值的筛选结果图；

图4本发明实验实际场景下采集的部分图；

图5本发明实验扩增图；

图6本发明实用模型训练过程示意图；

图7本发明实验改进前后YOLOv3算法效果对比图；

图8是本发明实验11种目标跟踪算法效果对比图。

具体实施方式

为使本发明所解决的技术问题、技术方案及有益效果更加清晰，以下结合附图及实施例，对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明，详细说明如下。

发明人通过大量实验论证，做出了本发明一种基于YOLOv3和核相关滤波改进的目标跟踪算法，本发明解决了针对运动中的多目标和弱小目标不易进行检测跟踪的问题，提高了对多目标和弱小目标检测的准确率，且该算法在对多目标和弱小目标的跟踪过程中也有较高的精度、鲁棒性及实时性。

以下结合实施例和附图对本发明作进一步的详细描述。

实施例：如附图1所示，一种基于YOLOv3和核相关滤波改进的目标跟踪算法，其包括以下步骤：

步骤一：对YOLOv3网络模型进行改进

1)采用级联匹配思想，对马氏距离(Mahalanobis)和最小余弦距离进行加权，整合目标运动信息和表观信息，用以提升对运动目标的检测准确率。

具体过程为：首先，采用马氏距离法，通过测量远离平均轨迹位置的标准偏差来考虑目标状态估计的不确定性，使用如公式(1)计算预测状态和新到达测量值之间的马氏距离：

θ(i,j)＝λd_马氏(i,j)+(1-λ)d_余弦(i,j) (3)。

2)采用K邻域搜索方法，并以K为阈值，筛选掉在K邻域搜索框以外的候选目标框，提高YOLOv3网络模型对多目标和弱小目标物体检测的成功率；

具体过程为：在目标跟踪领域，通常认为目标在相邻两帧序列图上的相对位移不是很大，在此基础之上，采用了一种K邻域搜索方法，以提高YOLOv3网络模型检测算法在选定区域的物体检测成功率；

如图2所示，椭圆代表待检测的目标对象，虚线框为前一帧的基础目标框，实线框为当前帧的K邻域搜索矩阵框。

采用K邻域搜索方法不仅可以提高YOLOv3网络模型对目标物体检测的成功率，还能以K为阈值，筛选掉在K邻域搜索框以外的候选目标框，当K取不同值时，同一图像筛选结果各不相同。实验结果如图3(纵坐标表示时间)所示，可以看出当K＝3和K＝5时筛选差距不大，但K＝5时，耗时较长，所以一般取K＝3进行邻域搜索。

步骤二：对核相关滤波进行改进

鉴于相关滤波的高效率和优异的性能，引入一种特征维度下降策略来提升所提跟踪器的效率，称之为快速核相关滤波器。

核相关滤波跟踪器的计算代价主要以快速傅里叶变换导向，随着特征维数的增加，快速傅里叶变换的计算量呈线性比例增加，为此，采用了基于标准主成分分析的自适应维度下降策略，在保留有用信息的同时，大幅削减了特征维数，减少了所需计算量。

具体过程为：假设训练样本为x_t，在它的每个像素n处都包含一个d维的特征向量x_t(n)∈R^d，维度下降技术的核心是构建一个大小为

的投影矩阵M_t，其中

u_t＝(1-η)u_t-1+ηx_t (5)

其中，n涵盖了模板u_t的所有元素，当

投影矩阵M_t由对应于C_t的

个最大特征值的特征向量组成；

通过使用压缩的样本

和压缩的位移模板

来获取测试样本z_t的响应图，如公式(8)所示：

其中，F^-1是离散傅里叶逆变换，

表示元素乘积，

是核函数k的输出，

是上一帧中的更新的系数；

最后，通过压缩的训练样本

来更新系数

如公式(9)所示：

其中，

是控制过拟合的正则化参数。

步骤三：得到YO3-FKCF目标跟踪算法

YO3-FKCF目标跟踪算法具体步骤如下：

步骤2：根据前一帧中的跟踪目标坐标位置，生成K邻域搜索图，然后再把搜索图中目标运动信息和表观信息进行加权整合，从而得到对应检测结果；

步骤:5：将加权整合得到的公式(3)的结果与τ值进行比较(根据先验知识一般将τ值设定为0.6-0.7，本发明τ值取0.67)，为避免模板更新过于迅速，设定5作为帧差条件，将当前匹配目标所在帧数和上一目标模板所在帧数的差值与设定帧差5进行比较，当同时满足大于以上两个条件时，则更新模板，同时跳至步骤2；如果不满足，则不更新模板。。

为了验证上述方法的效果，进行了以下相关实验，具体如下：

一、实验条件：具体的运行操作环境分为两部分：硬件部分和软件部分；(1)硬件部分：图像采集装置采用美国Apple公司的iphone8手机自带相机，计算机硬件采用Inter(R)Core(TM)i5-6600中央处理器，主频为3.31GHZ，主机内存为8G，硬盘大小为1024G。GPU采用GTX1080，内存8G；(2)软件环境：软件开发环境为Ubuntu16.04，深度学习框架采用Python3.6、TensorFlow。

二、数据集与网络的训练

(1)数据集的建立与标记

YOLOv3网络模型使用前需要实际场景下大量标记后样本图像训练模型参数。本次实验一共采集样本图像4500张，部分样本图像如图4所示；通过图像拼接技术，每隔8帧进行拼接，既弱小化了目标，又有助于样本图像扩增，扩增的图像如图5所示。

数据集标记是指借助工具手动在每张样本图像上用矩形框标记待检测目标的位置和类别，并以xml或json格式将标记数据保存的过程。标记数据集的目的是为基于神经网络类的目标检测模型训练时提供标准，模型通过计算预测值与标定值的误差，自动调整模型参数，使目标检测模型的预测结果不断贴近真实结果，实现准确高效的目标检测任务。本实验采用labelImg软件标记样本图像，VoTT软件标记视频。

(2)YOLOv3网络模型训练

YOLOv3目标检测模型有数百万的参数，需要通过大量的样本训练，若仅利用实际采集到的图像样本重新训练YOLOv3网络模型，不仅网络不具备良好的泛化能力，而且还容易产生过拟合现象，因此借助迁移学习方法训练YOLOv3网络模型，迁移学习训练方法是指在原有的预训练模型基础上进行训练，保留原有模型前N层所有参数，结合实际场景下的数据集重新训练后面M层参数，最终得到实用模型，训练过程如图6所示:

一次迭代的定义是将全部样本图像训练一遍，采用自适应矩估计优化迭代参数，总的迭代次数设置为一百次，其中前五十次学习率参数为千分之一，五十次迭代以后，学习率更改为万分之一，且如果三次迭代内检测误差无变化，学习率继续减少到原学习率的0.1倍。

三、实验结果分析比较

(1)改进前后目标检测算法效果对比

如图7所示，第一个场景是俯视且较远距离拍摄，相对整幅图像来汽车所占比例较小；第二个是斜拍，角度由远到近，图像中汽车外观变化由小变大；场景三从侧面倾斜向下拍摄，由于车辆涉水，车身下半身被水遮挡，再加上拍摄角度问题出现汽车轮廓出现一大一小情况，分别使用改进前后的YOLOv3网络模型对上述三个场景进行目标检测，可视化结果如图7所示：

从视觉的直观感受看来，改进后的目标检测算法虽然也存在漏检情况，相对改进前明显改善，而且对弱小目标的检测准确率更高，对目标遮挡情况也有更好的鲁棒性。定量分析如下表1所示：

表1改进前后YOLOv3算法准确性、实时性对比

根据表1数据可得，改进后的算法比改进前的算法平均准确率高出5.71％，在检测速度方面，虽降低了10％，但是也完全达到实时性要求。

(2)YO3-FKCF目标跟踪算法结果对比

如图8所示，将YO3-FKCF与Staple、SAMF、LCT、MEEM、TGPR、DSST、KCF、DLT、STC、fDSST共计11种目标跟踪算法在OTB2015数据集上进行定性和定量比较，结果如下：

第一组Car24序列涉及到尺度变化和光照变化，在第2700帧LCT和STC跟踪器完全无法进行有效跟踪，在跟踪过程中，第1700帧SAMF跟踪器开始偏离目标的正确位置，TGPR跟踪器也开始不适应光照突然变化情况，其余七个跟踪器在所有帧上稳定地跟踪目标，从图中能明显看出，本发明YO3-FKCF跟踪器的预测框大小与目标最为接近，其平均重叠率高达91.2％，成绩最好。

第二组Surfer序列是一个人在海上冲浪，要求对人脸进行跟踪，整个序列包含多个挑战性因素，例如尺度变化、运动模糊和低分辨率，STC跟踪器从头到尾都会经历较大的漂移，不能很好地处理这些挑战，KCF、DSST和Staple跟踪器对低分辨率不敏感，鲁棒性较差，在第152帧出现漂移，TGPR跟踪器也在第152帧丢失目标，与上述跟踪器不同，LCT、fDSST、SAMF、MEEM和本发明目标跟踪算法均能实现持续跟踪目标，但在处理耗时上，LCT、SAMF、MEEM不佳。

第三组carscale序列主要验证的是尺度变化各大跟踪器的影响，从上图可以看出Staple、fDSST和本发明目标跟踪算法对此有较高的鲁棒性，对于第四组jogging，目标在行进过程中会出现被灯柱完全遮挡再出现现象，本发明目标跟踪算法成功在目标穿过障碍物并重新出现后再次捕获目标，说明本发明目标跟踪算法一定程度上能够克服目标遮挡带来的影响。

最后一组序列是人在树荫下行走，影响跟踪效果的主要因素是光照变化，在第72帧，人处于树荫之下时TGPR、DLT、STC在跟踪时已经偏离，MEEM、DSST、SAMF无法很好的应对尺度变化带来的影响，如上图第100帧和第128帧所示。本发明目标跟踪算法和其余五种目标跟踪算法性能较好，并取得了较高的精度。

下表2是对上述11种目标跟踪算法平均帧率的对比，平均帧率S的计算方式如公式(10)所示：

其中，T表示运行时间，N表示序列总帧数。

表2-11种跟踪算法平均帧率的对比

从上表可以看出，在运行速度上本发明目标跟踪算法排名第6，但是完全满足实时性的需要。

本发明提供一种基于YOLOv3和核相关滤波改进的目标跟踪算法，本发明采用加权整合目标运动信息和表观信息方法改进YOLOv3网络模型，再联合快速核相关滤波得到YO3-FKCF目标跟踪算法。对改进前后的目标检测算法进行3组实验，与近年常见的10种目标跟踪算法进行5组对比实验，从定性和定量两个角度出发分析，最终结果表明，改进后的目标检测算法既保证了实时性，又在多目标和弱小目标的检测精度有所提升，并且最终得到的目标跟踪算法在多目标和弱小目标的跟踪过程中跟踪目标准确，鲁棒性、实时性都很理想。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。