CN112085765A

CN112085765A - 结合粒子滤波及度量学习的视频目标跟踪方法

Info

Publication number: CN112085765A
Application number: CN202010967549.3A
Authority: CN
Inventors: 王洪雁; 张莉彬; 袁海; 张鼎卓; 周贺; 薛喜扬
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-15
Anticipated expiration: 2040-09-15
Also published as: CN112085765B

Abstract

结合粒子滤波及度量学习的视频目标跟踪方法，属于目标跟踪领域，所提方法首先离线训练可有效获取目标高层抽象特征的卷积神经网络；而后，基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差，并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵；再者，基于所得最优候选目标预测值计算重构误差以构建目标观测模型；最后，引入短时与长期稳定更新相结合的更新策略，并基于粒子滤波跟踪框架实现目标有效跟踪，本发明具有较高目标跟踪精度及较好鲁棒性。

Description

结合粒子滤波及度量学习的视频目标跟踪方法

技术领域

本发明属于目标跟踪领域，具体涉及一种结合粒子滤波及度量学习的目标跟踪方法。

背景技术

作为计算机视觉领域的研究热点，视觉跟踪基于可见光以及红外等媒介持续感知感兴趣，是计算机视觉领域的研究热点之一，在视频监控、自动驾驶、人机交互等方面具有广泛应用。近年来，众多高效且鲁棒的视觉跟踪算法相继被提出，大大促进了目标视觉跟踪的实用化进程。然而，由于实际场景的复杂性，跟踪过程中存在诸如光照变化、尺寸变化、目标遮挡等大量干扰及不确定因素，从而导致跟踪性能显著下降。因此，如何提高复杂场景下目标跟踪算法精度及鲁棒性仍是视觉跟踪领域的研究难点之一。

针对复杂场景下目标视觉跟踪性能下降问题，Wang N等人首次提出深度学习跟踪(Deep Learning Tracking,DLT)算法，其基于堆叠降噪自编码器(Stacked DenoisingAutoencoder,SDAE)进行无监督训练以获得目标深层特征，而后于解码器后增加分类层以区分目标背景进而实现目标跟踪。然而，由于自编码器仅可提取浅层特征，无法获取具有本质属性的高层特征，因而表达能力有限，从而使得目标背景区分能力较差，进而导致跟踪性能提升有限。针对此问题，基于卷积神经网络(Convolutional Neural Network,CNN)可高效且鲁棒提取目标深层特征的特点，Wang L等首先分析CNN中每层输出特征，而后构建特征筛选网络并实现匹配跟踪。需要注意的是，相关匹配方法虽具有较好的目标识别及鲁棒性能，但跟踪开始之前此方法需对视频序列预训练以提升跟踪精度从而使得计算复杂度显著上升进而导致算法实时性较差。为改善目标跟踪实时性，HELD D等提出一种基于回归网络的通用目标跟踪方法(Generic Object Tracking Using Regression Networks,GOTURN)以离线训练CNN网络，其将上一帧目标预测信息与当前帧搜索区域同时输入CNN网络以回归当前帧目标位置，算法实时性能较好，可达100帧/秒。然而，该算法对相似目标较为敏感，且对噪声及遮挡等干扰鲁棒性较差。基于此，Mozhdehi R等构造一种基于深度卷积神经网络与粒子滤波的视觉跟踪框架(Hierarchical Convolutional Feature Tracker,HCFT)，其集成深度卷积网络良好的特征提取特性以及粒子滤波复杂场景下优异的目标跟踪能力以提升遮挡及噪声等复杂场景下目标跟踪性能。然而，值得注意的是，上述跟踪系统中目标背景可分性较差，因而复杂背景下跟踪器易发生漂移。针对此问题，Hu J等提出基于深度度量学习(Deep Metric Learning,DML)的跟踪模型，其基于前馈神经网络结构学习分层非线性距离度量标准以改善目标背景区分性能，从而将深度网络所得最匹配模板的候选者确定为真实目标。然而，该模型虽然可提升目标背景的可分性，但由于没有考虑遮挡、变形、光照等不利因素使得跟踪精度改善有限。

发明内容

针对复杂环境下由于光照变化、目标形变、部分遮挡等因素导致目标跟踪性能显著下降的问题，本发明提出一种结合粒子滤波及度量学习的视频目标跟踪方法，包括如下步骤：

步骤1：离线训练获得目标高层抽象特征的卷积神经网络；

步骤2：基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差，并通过梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵；

步骤3：基于最优候选目标预测值计算重构误差，并通过粒子滤波构建目标观测模型，获取目标状态最优估计；

步骤4：引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。

本发明与现有技术相比具有以下优点：本发明所提算法在复杂环境下进行目标跟踪具有较高的目标跟踪精度和鲁棒性。且由定性分析可以观察到，所提算法在部分遮挡、光照变化、目标形变等复杂场景下具有较强鲁棒性；基于定量分析可知，相较于对比算法，多数测试序列场景下，所提算法平均中心误差较低，平均重叠率较高，这是因为所提模型考虑候选目标模板之间相关性，提高了复杂场景下算法跟踪稳健性；核回归距离度量衡量粒子相似性，从而提升了跟踪有效性；目标模板局部结构化表示改善了噪声及遮挡场景下所提算法的鲁棒性及跟踪精度。

附图说明

图1为本发明实现的流程图。

图2为本发明中CNN网络结构。

图3为六种不同的跟踪算法跟踪结果图。

图4为不同跟踪方法的跟踪成功率曲线图。

图5为不同跟踪方法的跟踪整体精度图。

具体实施方式

下面结合附图和具体实施例对本发明的实现步骤做进一步详细描述：本发明提出一种基于粒子滤波与度量学习的目标跟踪方法。所提方法首先离线训练可有效获取目标高层抽象特征的卷积神经网络；而后，基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差，并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵；再者，基于所得最优候选目标预测值计算重构误差以构建目标观测模型；最后，引入短时与长期稳定更新相结合的更新策略，并基于粒子滤波跟踪框架实现目标有效跟踪。实验结果表明，与现有主流跟踪算法相比，复杂环境下所提方法具有较高目标跟踪精度及较好鲁棒性。实现本发明的基本思路是，首先离线训练可有效获取目标高层抽象特征的卷积神经网络；而后，基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差，并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵；再者，基于所得最优候选目标预测值计算重构误差并利用粒子滤波技术构建目标观测模型；最后，引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。具体步骤包含如下：

1离线训练可有效获得目标高层抽象特征的卷积神经网络

本发明基于具有卓越分类能力的深度卷积网络AlexNet构造视频跟踪特征深度提取模型。该模型输入图片规格为227*227像素；为有效保留图像局部特征，权衡欠拟合以及过拟合。

网络第一层卷积核尺寸设置为11*11*96，步长为4，卷积核个数为64以提取视频序列各类深层特征；权衡计算复杂度及特征抽取，第一卷积层后接具有3卷积核的卷积层；设置第五卷积层中卷积核尺寸为3*3*256，步长为1，提取图像中目标背景样本作为后续度量学习样本；在第一、二和五卷积层后衔接尺寸为3*3，步长为2的池化层。

需要注意的是，由于最大池化法较平均池化法可更好地提取纹理信息，本发明采用最大池化方法以降低计算复杂度、提升模型稳健性并保留关键信息；第五卷积层后衔接三个全连接层以充分融合样本信息；基于全连接层所得融合特征，分类层SoftMax函数对其分类以区分目标背景；卷积层激活函数均采用ReLU函数，且于卷积层后增加归一化层以降低过拟合。所提深度特征提取模型基于给定运动目标视频序列离线训练AlexNet网络，以提升其泛化能力进而改善目标跟踪性能。网络结构如图2所示。

2基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差，并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵。

基于训练样本集x＝(x₁,x₂,...,x_n)∈R^B×N核回归度量学习以将训练样本数据映射至高可分性空间从而获取表征目标特征差异的距离度量，即：

其中，x_i,x_j∈R^B×N为样本，B为训练样本特征维度，N为样本数量，D_A(x_i,x_j)为样本x_i和x_j之间的马氏距离，||·||²表示样本间距离平方，M∈R^B×B为度量矩阵，其为半正定矩阵。由于直接学习度量矩阵M需要在优化过程中明确半正定约束，计算效率较低。为了降低计算复杂度，可对其实施Cholesky分解，即M＝A^TA，A∈R^b×B可视为从原始特征空间R^B到新度量空间R^b的映射矩阵，其中b＜＜B，则可得：

D_A(x_i,x_j)＝||A(x_i-x_j)||²＝(x_i-x_j)^TA^TA(x_i-x_j) (2)

核回归中样本x_i的目标估计值

可通过邻近样本加权平均获得，即：

其中，c为样本x_i的邻近数，y＝(y₁,y₂,...,y_n)∈{0,1}为样本x_n对应类别标签，K_ij为x_i与临近样本x_j之间高斯核距离函数，表征二者之间相似性，其可表示为：

其中，δ为正则化常量，仿真实验中设置δ²＝1。

本发明采用累积二次回归误差表征训练样本集平方误差L，并最小化此误差以获得最优映射矩阵A，即：

不难发现，问题(5)为关于优化变量A的非线性问题，较难直接获得闭式解。相较于其他优化方法，梯度下降法只需估计一阶导数，计算复杂度较小、优化结果较好。基于此，本文采用梯度下降方法求解上述问题。基于链式法则，问题(5)中目标函数关于变量A的导数可表示为：

基于式(3)，

可表示为：

基于式(4)，

可表示为：

其中，

通过式(2)求解，即：

将式(7)-(9)代入式(6)，可得：

基于上式，基于梯度下降法迭代更新映射矩阵A，即：

其中，ρ为学习速率，仿真实验中取值为0.001，f为迭代次数。将上式所得最优映射矩阵A代入M＝A^TA则可求得最优度量矩阵M。实验中，映射矩阵A初始值可设为单位矩阵，为防止陷入局部最小值，可多次随机初始化。

3基于所得最优候选目标预测值计算重构误差并利用粒子滤波技术构建目标观测模型，从而估计目标最优状态。

(1)粒子滤波框架

实给定观测图像X_1:r＝{x₁,x₂,…,x_r}及其对应状态H_1:r＝{h₁,h₂,…,h_r}，可基于粒子滤波递归估计目标最优状态，即：

其中，∝为正比算子，

为观测模型，表征状态

下图像x_r出现概率，

为在第r帧中第i个候选粒子对应状态值。

给定1到r帧的观测结果X_1:r，基于贝叶斯推理框架递归推导上式以获得当前帧中最优目标状态，可得：

其中，

为相邻状态间运动模型，表示连续两帧间目标状态相关性。最优目标状态

可基于如下最大后验估计获得：

设时刻r下目标状态向量为h_r＝{h_rx,h_ry,sc_r,θ_r,φ_r,σ_r}，其中h_rx,h_ry,sc_r,θ_r,φ_r,σ_r为六自由度仿射变换参数，分别表示水平位移、垂直位移、旋转角度、水平尺度因子、扭曲角和宽高比例。假设状态变量相互独立且服从高斯分布，则相邻帧间目标运动模型可构建如下：

其中，

表示

服从均值为h_r-1、方差为∑的高斯分布，∑为对角协方差矩阵，其元素为仿射参数方差。

由于候选目标仅在最临近帧中更新估计，当运动模型

固定时，最优候选目标可直接基于观测模型

选择，因此，本发明基于候选目标重构误差构造观测模型

(2)基于所得最优候选目标预测值计算重构误差并构建目标观测模型

设m个候选目标Y＝[Y₁,Y₂,…,Y_m]可由包含w个模板的模板集T＝[t₁,t₂,…,t_w]表示。为避免局部变化导致模板更新精度降低，将每个模板分割为W个局部块，则模板集的第g个局部块可表示为：T^g＝t_1g,t_2g,…,t_wg]∈R^b×w，其中，t_ig,i＝1,2,…,w为第i个模板的第g个局部块。类似地，将每个候选目标Y_g分割为W个局部块{y_g|g＝1,2,…,W}∈R^b×1，利用特征映射A对每个y_g进行核回归距离度量，则可得如下关于候选目标度量系数的最小化问题：

其中，z_g∈R^w×1为模板局部块g对应系数向量，λ为惩罚参数，||·||₂为

范数，||·||₁为

范数。

上述问题中，第一项为候选目标局部重构误差。在进行局部重构误差度量时，由于复杂跟踪环境中出现的多数干扰特征对度量模型贡献较小，且干扰特征过多会出现维数“爆炸”现象，从而造成度量精度降低，因此上述模型采用稀疏表示寻找能最好表示候选目标与模板局部块间特征的最优稀疏表示系数，使候选目标与模板局部块间误差最小。但在复杂环境下进行目标跟踪时，干扰信息会影响稀疏性及准确性，基于此，引入正则化约束项来平衡稀疏性和候选目标与模板局部块间误差，因此采用稀疏理论构建式(16)第二项为度量系数正则化约束项。

由于上述优化问题可视为W个优化问题的累加，且各优化变量相互独立，由此，可将此问题拆分为W个子优化问题，即：

基于上式(17)模型，可通过加速近端梯度(Accelerated Proximal Gradient,APG)算法实现高效求解。

APG算法主要思路：通过迭代更新

和向量v^(k)以求解最优系数向量z_g。每次迭代分两步进行：(1)保持v^(k)不变，更新

(2)线性组合

和

更新向量v^(k)。由此，可预先估计当前v^(k)和时间参数ξ，时间参数ξ表示如下：

ξ＝v^(k)-2β(A^TT^g)^T(A^TT^gv^(k)-A^Ty_g) (18)

其中，β为梯度下降步长，仿真实验中设置为0.01。为方便求解

构建如下软阈值函数：

其中，

通过APG算法优化

最终解析解为：

其中，

为软阈值算子，可定义为：

为更新v^(k+1)，线性组合

和

即：

其中，α_k通常设定为

k≥1；当k＝0时，α₀＝1；初始化v⁽⁰⁾及

为全零向量。当目标函数下降值小于预先设定阈值

时，则APG算法满足收敛条件，算法迭代终止。

综合上述表达，对应候选目标重构误差可表示如下：

基于式(24)计算所有候选目标的重构误差{ε₁,ε₂,…,ε_m}，则候选目标Y_g的似然模型

构建为：

其中，Γ是归一化因子，γ为控制高斯核的参数，本发明实验取0.01。

将式(24)所得

带入式(12)即可获取目标状态最优估计，从而实现目标有效跟踪。

4引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪

实际跟踪过程中，保持目标模板不变无法有效跟踪复杂场景下多变的目标，因而模板更新一直是在线目标跟踪的热点问题。若从首帧开始基于固定模板实施跟踪，则光照变化、背景杂波或部分遮挡等因素导致跟踪器无法较好地捕捉目标；反之，若快速更新模板，每次更新都会引入误差，则随着时间流逝误差逐渐累积从而导致跟踪器偏离目标。针对上述问题，本发明引入短时与长期稳定更新相结合的在线跟踪策略以更新目标模板。

模板初始化：首先确定目标首帧所处位置，而后基于所提跟踪方法获得前n帧跟踪结果并归一化，最后将其组合为模板集T＝[t₁,t₂,…,t_n]∈R^b×n。

模板动态更新：模板与跟踪结果相似性可表示为ψ＝[ψ₁,ψ₂,…,ψ_n]，设阈值为η，则跟踪结果与第u个模板相似性ψ_u可表示为：

式中，

为第r帧跟踪结果，相似度值ψ_u越大表明跟踪结果与模板越相似。

设最大相似度为Λ，其可表示为：

Λ＝maxψ_u (26)

将其与阈值η比较，若最大相似度Λ＞η，表明本次跟踪结果与某目标模板相似度最大，则更新对应模板；反之，不做更新。仿真实验中阈值取值为η＝0.7。

基于以上所述，具体更新方案可表述如下：

短时更新：为提高目标状态估计性能，对首帧后续各帧，若最大相似度Λ＞η，表明该模板与某目标相似度最大，为提高后续各帧的跟踪准确度，可用本跟踪结果替换对应模板，并保存跟踪所得目标状态；反之，则表明相邻帧变化较大，此时不更新模板。

长期稳定更新：连续多帧所得最大相似度值Λ＜η，导致无法及时更新模板，此时连续多帧的最大相似度均小于给定阈值，从而加大多帧累积误差，针对此类情况，可于跟踪过程中每隔10帧更新模板。由于起始帧目标始终真实，所提更新策略须包含首模板以增强跟踪鲁棒性。

综上所述：本发明所提结合粒子滤波与度量学习的目标跟踪算法可表述为：

(1)初始化CNN网络，粒子初始权重均设为1/N；

(2)首帧内采集目标背景样本，并通过式(11)实施MLKR以获得最优映射矩阵A及对应距离度量矩阵M；

(3)基于CNN和度量学习区分目标背景，并计算每个粒子置信度(权重)；

(4)基于式(16)设定候选目标度量系数z_g初始值；

(5)利用APG方法求解问题式(17)以求解z_g；

(6)重复步骤(5)，直到满足收敛条件；

(7)基于式(21)求解z_g，并基于式(23)、式(24)和式(12)获取目标状态最优估计，并实施在线跟踪；

(8)获得跟踪结果，基于式(25)、(26)计算本次跟踪最大相似度；

(9)若跟踪最大相似度大于阈值，则用本帧跟踪结果更新模板；反之，不做更新；

(10)若跟踪最大相似度持续小于阈值，为防止跟踪累计误差过大，可每隔10帧更新目标模板；

(11)判断是否跟踪至最后一帧，若没有，重复步骤(3)～(10)；反之，结束跟踪，获得最终跟踪结果并保存所得目标框。

本发明针对复杂环境下由于光照变化、目标形变、部分遮挡等因素导致目标跟踪性能显著下降的问题，提出一种基于粒子滤波与度量学习的目标跟踪方法。所提方法首先离线训练CNN网络以提升网络特征提取及泛化能力，并基于训练所得CNN网络获取目标高层抽象特征；其次，由于核回归度量学习方法(Metric Learning Kernel Regression，MLKR)相较于邻域分量分析(Neighborhood Components Analysis,NCA)以及大边距最近邻度量学习(Large Margin Nearest Neighbor Metric Learning,LMNNML)等具有较好的正负样本区分能力，对目标背景样本构建MLKR以获取表征最优候选目标的度量矩阵；而后，基于所得最优候选目标预测值计算重构误差以构建目标观测模型；最后，基于短时与长期稳定更新结合的更新策略在线更新模板以降低遮挡、形变等不利因素影响从而实现基于粒子滤波框架的目标有效跟踪。仿真实验表明，与现有主流算法相比，复杂场景下所提方法具有较高目标跟踪精度及较好鲁棒性。

本发明的效果可通过以下仿真进一步说明：

仿真条件：硬件环境如下：Intel Core(TM)i5-4258 CPU，主频2.4GHz，内存8GB，实验软件测试环境为：Python3.7、MATLAB 2017a以及开源深度学习框架Caffe。采用的实验数据集为OTB数据集。仿真条件设置如下：首帧所提取正负样本数分别为100和400，后续各帧正负样本数分别为30和120以更新目标模板。权衡算法跟踪精确性及计算复杂度，若粒子数过多，将显著增加算法计算量，反之，若粒子数过少，则可能无法获取最优目标状态，基于此，每帧跟踪粒子数设置为600，粒子权重初始化为1/600。本文使用的CNN网络，采用深度学习框架Caffe，网络权值更新采用梯度下降法，设置局部区域归一化参数α＝0.0001,τ＝0.75，以起到“侧抑制”作用，增强网络提取复杂环境信息的泛化能力；学习率设置为0.001，训练周期为300，以最大程度减少“过拟合”现象发生。其中，本发明采用平均跟踪重叠率和平均中心位置误差定量分析所提方法的跟踪性能。平均中心位置误差为真实目标位置(x₀,y₀)与算法所得目标位置(x₁,y₁)之间距离误差，可表示为：

平均跟踪重叠率表示如下：

仿真内容：

仿真1：定性分析：图3为6种跟踪算法的结果对比。MotorRolling视频序列包含快速运动、背景杂波和光照变化等挑战性因素，在第52及64帧，目标由空中下降到地面，背景明显变化，DFT和TLD出现跟踪漂移或跟踪目标框与真实目标大小不符现象，而所提算法始终可以较好地跟踪目标，其可归因于本文算法考虑背景杂波及快速运动影响并对目标与背景样本进行误差学习，从而实现运动目标精确估计。Jogging序列中跟踪目标存在明显遮挡，所提算法与TLD可定位目标并有效跟踪，其余四种算法出现跟踪丢失现象，表明部分遮挡条件下所提方法亦具有较好的跟踪效果。Boy序列中目标快速运动，同时出现比例变化和旋转等其他因素干扰，401帧之后CT算法出现跟踪漂移现象，原因在于其泛化能力较差，无法较好适应显著外观变化，而本文算法始终可以精确跟踪。Skating1序列属于较为复杂的跟踪场景，其中目标背景对比度较低，且存在较强光照变化。此场景下，目标分辨率较低，CT、DFT及TLD均出现目标丢失情况，其源于目标背景相似性较大，对比算法对相似目标背景无法有效区分，而本文算法通过长短时结合的在线更新策略及时更新目标模板，从而可有效区分目标背景进而实现稳定跟踪。由于Matrix序列光照变化较大，对比算法均出现跟踪丢失现象，所提算法仍可较好地锁定目标，这是由于本文算法基于MLKR精准度量目标背景距离，并有效判别每帧跟踪结果以确保最优候选目标得以选择。快速运动导致运动模糊情况下，Bird2序列中目标外观尺度同时发生较大变化，Struck以及DFT无法准确估计目标尺度从而导致跟踪失败，而所提算法可自适应目标尺度变化因而可在目标尺度变化条件下仍可锁定目标。Tiger2序列出现严重遮挡以及强背景杂波，五种对比算法均发生不同程度漂移或跟踪框与真实目标尺度不符，本文算法仍能稳定跟踪目标，且具有较高跟踪精度及鲁棒性，此可归因为所提算法通过引入重构误差构建似然模型且采用局部化模板方法以解决目标遮挡和背景杂波，表明其具有较强鲁棒性。

仿真2：定量分析：表1和2分别为不同算法在每个视频序列的平均跟踪重叠率与平均中心位置误差。其中，加粗字体表示跟踪性能最优值，下划线为跟踪效果次优值。跟踪重叠率越大，平均中心位置误差越小表示跟踪效果越好。由表1、2可知，7种不同测试序列中所提算法相较于对比跟踪算法均有较好的跟踪效果。其可归因于所提算法采用MLKR并引入误差项构建似然模型降低相似目标与背景之间的敏感度。与现有主流跟踪器相比，所提跟踪器在遮挡或噪声等序列上表现较为出色，主要原因可表述如下：

(1)所提模型考虑候选目标模板之间相关性，提高了复杂场景下算法跟踪稳健性；

(2)核回归距离度量衡量粒子相似性，从而提升了跟踪有效性；

(3)目标模板局部结构化表示改善了噪声及遮挡场景下所提算法的鲁棒性及跟踪精度。

表1不同跟踪方法的平均重叠率

表2不同跟踪方法的平均中心位置误差

图4为不同跟踪方法的跟踪成功率曲线图；图5为不同跟踪方法的跟踪整体精度图；成功率曲线图表示将重合率大于给定阈值的视频帧作为成功跟踪帧，当阈值从0变化到1时，记录成功跟踪的帧数占视频总帧数的比率；整体精度图表示中心位置误差在距离阈值范围内(例如0到50像素)成功帧数与总帧数的百分比。由图4可知，多数视频序列中，所提算法目标跟踪成功率高于对比算法；Skating1序列中，所提算法相较于CT成功率偏低，然而整体跟踪精度仍优于CT算法，且其他视频序列中所提算法整体跟踪精度亦优于对比算法。由此可知，复杂场景下所提算法整体性能优于对比方法，且具有较好的鲁棒性。

仿真3：不同跟踪方法在各个测试序列下的平均运行速度：为验证所提算法跟踪时效性，本发明采用每秒运行帧数(frame per second,FPS)衡量算法速度(算法运行50次，平均所得FPS作为评估指标)，不同测试序列中各算法所得FPS如表3所示。由表3可知，所提算法速度高于CNN-PF、Struck及DFT，逊于CT及TLD，然而，正如前文所述，不同测试序列中所提算法跟踪性能整体优于对比算法。需要注意的是，基于粒子滤波的跟踪算法计算复杂度通常正比于候选粒子数量，因此，可通过先验或时间序列信息自适应调整粒子数量以降低复杂度，从而较好地均衡跟踪性能以及实时性。

表3不同跟踪方法在各个测试序列下的平均运行速度：帧/秒

综上所述，本发明提出一种融合度量学习与粒子滤波的目标跟踪算法。所提方法通过CNN网络提取视频序列中正负样本，并基于MLKR对其度量学习以获得表征最优候选目标的度量矩阵；而后基于所得最优候选目标预测值计算重构误差以构建目标观测模型；最后，基于短时及长期稳定更新相结合的更新策略更新目标模板以改善算法鲁棒性。基于OTB数据集中所选包含遮挡、运动模糊、光照变化、比例变化以及背景杂波等复杂因素的七个视频测试序列，通过与CNN-PF、Struck、CT、TLD以及DFT等五种主流跟踪器对比验证了所提算法的有效性。由定性分析可以观察到，所提算法在部分遮挡、光照变化、目标形变等复杂场景下具有较强鲁棒性；基于定量分析可知，相较于对比算法，多数测试序列场景下，所提算法平均中心误差较低，平均重叠率较高，从而表明所提算法整体跟踪性能较优。由此，本发明所提算法可以为工程应用中在复杂环境下进行目标跟踪提供坚实的理论与实现依据。

Claims

1.一种结合粒子滤波及度量学习的视频目标跟踪方法，其特征在于：包括如下步骤：

步骤1：离线训练获得目标高层抽象特征的卷积神经网络；

2.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法，其特征在于：步骤1通过深度卷积网络AlexNet构造视频跟踪特征深度提取模型，深度特征提取模型输入图片规格为227*227像素，网络第一层卷积核尺寸设置为11*11*96，步长为4，卷积核个数为64，第一卷积层后接具有3卷积核的卷积层，设置第五卷积层中卷积核尺寸为3*3*256、步长为1，提取图像中目标背景样本作为后续度量学习样本，在第一、二和五卷积层后衔接尺寸为3*3、步长为2的池化层，第五卷积层后衔接三个全连接层，基于全连接层取得融合特征，分类层通过SoftMax函数分类以区分目标背景，卷积层激活函数均采用ReLU函数，且卷积层后具有归一化层，视频跟踪特征深度提取模型基于给定运动目标视频序列离线训练AlexNet网络，得到目标高层抽象特征的卷积神经网络。

3.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法，其特征在于：步骤2具体包括如下步骤:

通过训练样本集x＝(x₁,x₂,...,x_n)∈R^B×N核回归度量学习，将训练样本数据映射至高可分性空间，获取表征目标特征差异的距离度量：

其中，x_i,x_j∈R^B×N为样本，B为训练样本特征维度，N为样本数量，D_A(x_i,x_j)为样本x_i和x_j之间的马氏距离，||·||²表示样本间距离平方，M∈R^B×B为度量矩阵，M＝A^TA，A∈R^b×B视为从原始特征空间R^B到新度量空间R^b的映射矩阵，其中b＜＜B，则：

D_A(x_i,x_j)＝||A(x_i-x_j)||²＝(x_i-x_j)^TA^TA(x_i-x_j) (2)

核回归中样本x_i的目标估计值

通过邻近样本加权平均获得：

其中，c为样本x_i的邻近数，y＝(y₁,y₂,...,y_n)∈{0,1}为样本x_n对应类别标签，K_ij为x_i与临近样本x_j之间高斯核距离函数，表征二者之间相似性表示为：

其中，δ为正则化常量；

采用累积二次回归误差表征训练样本集平方误差L，并最小化误差L获得最优映射矩阵A：

采用梯度下降方法求解，基于链式法则，问题(5)中目标函数关于变量A的导数表示为：

表示为：

表示为：

其中

得：

基于梯度下降法迭代更新映射矩阵A：

其中，ρ为学习速率，f为迭代次数，将所得最优映射矩阵A代入M＝A^TA，求得最优度量矩阵M。

4.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法，其特征在于：步骤3具体包括如下步骤：

设m个候选目标Y＝[Y₁,Y₂,…,Y_m]由包含w个模板的模板集T＝[t₁,t₂,…,t_w]表示，将每个模板分割为W个局部块，则模板集的第g个局部块表示为：T^g＝[t_1g,t_2g,…,t_wg]∈R^b×w，其中，t_ig,i＝1,2,…,w为第i个模板的第g个局部块；将每个候选目标Y_g分割为W个局部块{y_g|g＝1,2,…,W}∈R^b×1，利用特征映射A对每个y_g进行核回归距离度量，则得如下关于候选目标度量系数的最小化问题：

其中，z_g∈R^w×1为模板局部块g对应系数向量，λ为惩罚参数，||·||₂为l₂范数，||·||₁为l₁范数；

优化问题视为W个优化问题的累加，且各优化变量相互独立，将优化问题拆分为W个子优化问题：

通过加速近端梯度算法实现高效求解，对应候选目标重构误差表示如下：

基于式(14)计算所有候选目标的重构误差{ε₁,ε₂,…,ε_m}，则候选目标Y_g的似然模型

构建为：

其中，Γ是归一化因子，γ为控制高斯核的参数；

将式(15)所得

带入式(16)获取目标状态最优估计；

实给定观测图像X_1:r＝{x₁,x₂,…,x_r}及其对应状态H_1:r＝{h₁,h₂,…,h_r}，基于粒子滤波递归估计目标最优状态：

其中，∝为正比算子，

为观测模型，表征状态

下图像x_r出现概率，

为在第r帧中第i个候选粒子对应状态值；

给定1到r帧的观测结果X_1:r，基于贝叶斯推理框架递归推导式(12)获得当前帧中最优目标状态，得：

其中，

为相邻状态间运动模型，表示连续两帧间目标状态相关性；

最优目标状态

基于如下最大后验估计获得：

设时刻r下目标状态向量为h_r＝{h_rx,h_ry,sc_r,θ_r,φ_r,σ_r}，其中h_rx,h_ry,sc_r,θ_r,φ_r,σ_r为六自由度仿射变换参数，分别表示水平位移、垂直位移、旋转角度、水平尺度因子、扭曲角和宽高比例，假设状态变量相互独立且服从高斯分布，相邻帧间目标运动模型构建如下：