CN112085765A - 结合粒子滤波及度量学习的视频目标跟踪方法 - Google Patents
结合粒子滤波及度量学习的视频目标跟踪方法 Download PDFInfo
- Publication number
- CN112085765A CN112085765A CN202010967549.3A CN202010967549A CN112085765A CN 112085765 A CN112085765 A CN 112085765A CN 202010967549 A CN202010967549 A CN 202010967549A CN 112085765 A CN112085765 A CN 112085765A
- Authority
- CN
- China
- Prior art keywords
- target
- tracking
- template
- sample
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000002245 particle Substances 0.000 title claims abstract description 39
- 238000001914 filtration Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000005259 measurement Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000011478 gradient descent method Methods 0.000 claims abstract description 12
- 230000007774 longterm Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 16
- 238000004088 simulation Methods 0.000 description 12
- 238000005286 illumination Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004451 qualitative analysis Methods 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
结合粒子滤波及度量学习的视频目标跟踪方法,属于目标跟踪领域,所提方法首先离线训练可有效获取目标高层抽象特征的卷积神经网络;而后,基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;再者,基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,引入短时与长期稳定更新相结合的更新策略,并基于粒子滤波跟踪框架实现目标有效跟踪,本发明具有较高目标跟踪精度及较好鲁棒性。
Description
技术领域
本发明属于目标跟踪领域,具体涉及一种结合粒子滤波及度量学习的目标跟踪方法。
背景技术
作为计算机视觉领域的研究热点,视觉跟踪基于可见光以及红外等媒介持续感知感兴趣,是计算机视觉领域的研究热点之一,在视频监控、自动驾驶、人机交互等方面具有广泛应用。近年来,众多高效且鲁棒的视觉跟踪算法相继被提出,大大促进了目标视觉跟踪的实用化进程。然而,由于实际场景的复杂性,跟踪过程中存在诸如光照变化、尺寸变化、目标遮挡等大量干扰及不确定因素,从而导致跟踪性能显著下降。因此,如何提高复杂场景下目标跟踪算法精度及鲁棒性仍是视觉跟踪领域的研究难点之一。
针对复杂场景下目标视觉跟踪性能下降问题,Wang N等人首次提出深度学习跟踪(Deep Learning Tracking,DLT)算法,其基于堆叠降噪自编码器(Stacked DenoisingAutoencoder,SDAE)进行无监督训练以获得目标深层特征,而后于解码器后增加分类层以区分目标背景进而实现目标跟踪。然而,由于自编码器仅可提取浅层特征,无法获取具有本质属性的高层特征,因而表达能力有限,从而使得目标背景区分能力较差,进而导致跟踪性能提升有限。针对此问题,基于卷积神经网络(Convolutional Neural Network,CNN)可高效且鲁棒提取目标深层特征的特点,Wang L等首先分析CNN中每层输出特征,而后构建特征筛选网络并实现匹配跟踪。需要注意的是,相关匹配方法虽具有较好的目标识别及鲁棒性能,但跟踪开始之前此方法需对视频序列预训练以提升跟踪精度从而使得计算复杂度显著上升进而导致算法实时性较差。为改善目标跟踪实时性,HELD D等提出一种基于回归网络的通用目标跟踪方法(Generic Object Tracking Using Regression Networks,GOTURN)以离线训练CNN网络,其将上一帧目标预测信息与当前帧搜索区域同时输入CNN网络以回归当前帧目标位置,算法实时性能较好,可达100帧/秒。然而,该算法对相似目标较为敏感,且对噪声及遮挡等干扰鲁棒性较差。基于此,Mozhdehi R等构造一种基于深度卷积神经网络与粒子滤波的视觉跟踪框架(Hierarchical Convolutional Feature Tracker,HCFT),其集成深度卷积网络良好的特征提取特性以及粒子滤波复杂场景下优异的目标跟踪能力以提升遮挡及噪声等复杂场景下目标跟踪性能。然而,值得注意的是,上述跟踪系统中目标背景可分性较差,因而复杂背景下跟踪器易发生漂移。针对此问题,Hu J等提出基于深度度量学习(Deep Metric Learning,DML)的跟踪模型,其基于前馈神经网络结构学习分层非线性距离度量标准以改善目标背景区分性能,从而将深度网络所得最匹配模板的候选者确定为真实目标。然而,该模型虽然可提升目标背景的可分性,但由于没有考虑遮挡、变形、光照等不利因素使得跟踪精度改善有限。
发明内容
针对复杂环境下由于光照变化、目标形变、部分遮挡等因素导致目标跟踪性能显著下降的问题,本发明提出一种结合粒子滤波及度量学习的视频目标跟踪方法,包括如下步骤:
步骤1:离线训练获得目标高层抽象特征的卷积神经网络;
步骤2:基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并通过梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;
步骤3:基于最优候选目标预测值计算重构误差,并通过粒子滤波构建目标观测模型,获取目标状态最优估计;
步骤4:引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。
本发明与现有技术相比具有以下优点:本发明所提算法在复杂环境下进行目标跟踪具有较高的目标跟踪精度和鲁棒性。且由定性分析可以观察到,所提算法在部分遮挡、光照变化、目标形变等复杂场景下具有较强鲁棒性;基于定量分析可知,相较于对比算法,多数测试序列场景下,所提算法平均中心误差较低,平均重叠率较高,这是因为所提模型考虑候选目标模板之间相关性,提高了复杂场景下算法跟踪稳健性;核回归距离度量衡量粒子相似性,从而提升了跟踪有效性;目标模板局部结构化表示改善了噪声及遮挡场景下所提算法的鲁棒性及跟踪精度。
附图说明
图1为本发明实现的流程图。
图2为本发明中CNN网络结构。
图3为六种不同的跟踪算法跟踪结果图。
图4为不同跟踪方法的跟踪成功率曲线图。
图5为不同跟踪方法的跟踪整体精度图。
具体实施方式
下面结合附图和具体实施例对本发明的实现步骤做进一步详细描述:本发明提出一种基于粒子滤波与度量学习的目标跟踪方法。所提方法首先离线训练可有效获取目标高层抽象特征的卷积神经网络;而后,基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;再者,基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,引入短时与长期稳定更新相结合的更新策略,并基于粒子滤波跟踪框架实现目标有效跟踪。实验结果表明,与现有主流跟踪算法相比,复杂环境下所提方法具有较高目标跟踪精度及较好鲁棒性。实现本发明的基本思路是,首先离线训练可有效获取目标高层抽象特征的卷积神经网络;而后,基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;再者,基于所得最优候选目标预测值计算重构误差并利用粒子滤波技术构建目标观测模型;最后,引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。具体步骤包含如下:
1离线训练可有效获得目标高层抽象特征的卷积神经网络
本发明基于具有卓越分类能力的深度卷积网络AlexNet构造视频跟踪特征深度提取模型。该模型输入图片规格为227*227像素;为有效保留图像局部特征,权衡欠拟合以及过拟合。
网络第一层卷积核尺寸设置为11*11*96,步长为4,卷积核个数为64以提取视频序列各类深层特征;权衡计算复杂度及特征抽取,第一卷积层后接具有3卷积核的卷积层;设置第五卷积层中卷积核尺寸为3*3*256,步长为1,提取图像中目标背景样本作为后续度量学习样本;在第一、二和五卷积层后衔接尺寸为3*3,步长为2的池化层。
需要注意的是,由于最大池化法较平均池化法可更好地提取纹理信息,本发明采用最大池化方法以降低计算复杂度、提升模型稳健性并保留关键信息;第五卷积层后衔接三个全连接层以充分融合样本信息;基于全连接层所得融合特征,分类层SoftMax函数对其分类以区分目标背景;卷积层激活函数均采用ReLU函数,且于卷积层后增加归一化层以降低过拟合。所提深度特征提取模型基于给定运动目标视频序列离线训练AlexNet网络,以提升其泛化能力进而改善目标跟踪性能。网络结构如图2所示。
2基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵。
基于训练样本集x=(x1,x2,...,xn)∈RB×N核回归度量学习以将训练样本数据映射至高可分性空间从而获取表征目标特征差异的距离度量,即:
其中,xi,xj∈RB×N为样本,B为训练样本特征维度,N为样本数量,DA(xi,xj)为样本xi和xj之间的马氏距离,||·||2表示样本间距离平方,M∈RB×B为度量矩阵,其为半正定矩阵。由于直接学习度量矩阵M需要在优化过程中明确半正定约束,计算效率较低。为了降低计算复杂度,可对其实施Cholesky分解,即M=ATA,A∈Rb×B可视为从原始特征空间RB到新度量空间Rb的映射矩阵,其中b<<B,则可得:
DA(xi,xj)=||A(xi-xj)||2=(xi-xj)TATA(xi-xj) (2)
其中,c为样本xi的邻近数,y=(y1,y2,...,yn)∈{0,1}为样本xn对应类别标签,Kij为xi与临近样本xj之间高斯核距离函数,表征二者之间相似性,其可表示为:
其中,δ为正则化常量,仿真实验中设置δ2=1。
本发明采用累积二次回归误差表征训练样本集平方误差L,并最小化此误差以获得最优映射矩阵A,即:
不难发现,问题(5)为关于优化变量A的非线性问题,较难直接获得闭式解。相较于其他优化方法,梯度下降法只需估计一阶导数,计算复杂度较小、优化结果较好。基于此,本文采用梯度下降方法求解上述问题。基于链式法则,问题(5)中目标函数关于变量A的导数可表示为:
将式(7)-(9)代入式(6),可得:
基于上式,基于梯度下降法迭代更新映射矩阵A,即:
其中,ρ为学习速率,仿真实验中取值为0.001,f为迭代次数。将上式所得最优映射矩阵A代入M=ATA则可求得最优度量矩阵M。实验中,映射矩阵A初始值可设为单位矩阵,为防止陷入局部最小值,可多次随机初始化。
3基于所得最优候选目标预测值计算重构误差并利用粒子滤波技术构建目标观测模型,从而估计目标最优状态。
(1)粒子滤波框架
实给定观测图像X1:r={x1,x2,…,xr}及其对应状态H1:r={h1,h2,…,hr},可基于粒子滤波递归估计目标最优状态,即:
给定1到r帧的观测结果X1:r,基于贝叶斯推理框架递归推导上式以获得当前帧中最优目标状态,可得:
设时刻r下目标状态向量为hr={hrx,hry,scr,θr,φr,σr},其中hrx,hry,scr,θr,φr,σr为六自由度仿射变换参数,分别表示水平位移、垂直位移、旋转角度、水平尺度因子、扭曲角和宽高比例。假设状态变量相互独立且服从高斯分布,则相邻帧间目标运动模型可构建如下:
(2)基于所得最优候选目标预测值计算重构误差并构建目标观测模型
设m个候选目标Y=[Y1,Y2,…,Ym]可由包含w个模板的模板集T=[t1,t2,…,tw]表示。为避免局部变化导致模板更新精度降低,将每个模板分割为W个局部块,则模板集的第g个局部块可表示为:Tg=t1g,t2g,…,twg]∈Rb×w,其中,tig,i=1,2,…,w为第i个模板的第g个局部块。类似地,将每个候选目标Yg分割为W个局部块{yg|g=1,2,…,W}∈Rb×1,利用特征映射A对每个yg进行核回归距离度量,则可得如下关于候选目标度量系数的最小化问题:
上述问题中,第一项为候选目标局部重构误差。在进行局部重构误差度量时,由于复杂跟踪环境中出现的多数干扰特征对度量模型贡献较小,且干扰特征过多会出现维数“爆炸”现象,从而造成度量精度降低,因此上述模型采用稀疏表示寻找能最好表示候选目标与模板局部块间特征的最优稀疏表示系数,使候选目标与模板局部块间误差最小。但在复杂环境下进行目标跟踪时,干扰信息会影响稀疏性及准确性,基于此,引入正则化约束项来平衡稀疏性和候选目标与模板局部块间误差,因此采用稀疏理论构建式(16)第二项为度量系数正则化约束项。
由于上述优化问题可视为W个优化问题的累加,且各优化变量相互独立,由此,可将此问题拆分为W个子优化问题,即:
基于上式(17)模型,可通过加速近端梯度(Accelerated Proximal Gradient,APG)算法实现高效求解。
APG算法主要思路:通过迭代更新和向量v(k)以求解最优系数向量zg。每次迭代分两步进行:(1)保持v(k)不变,更新(2)线性组合和更新向量v(k)。由此,可预先估计当前v(k)和时间参数ξ,时间参数ξ表示如下:
ξ=v(k)-2β(ATTg)T(ATTgv(k)-ATyg) (18)
综合上述表达,对应候选目标重构误差可表示如下:
其中,Γ是归一化因子,γ为控制高斯核的参数,本发明实验取0.01。
4引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪
实际跟踪过程中,保持目标模板不变无法有效跟踪复杂场景下多变的目标,因而模板更新一直是在线目标跟踪的热点问题。若从首帧开始基于固定模板实施跟踪,则光照变化、背景杂波或部分遮挡等因素导致跟踪器无法较好地捕捉目标;反之,若快速更新模板,每次更新都会引入误差,则随着时间流逝误差逐渐累积从而导致跟踪器偏离目标。针对上述问题,本发明引入短时与长期稳定更新相结合的在线跟踪策略以更新目标模板。
模板初始化:首先确定目标首帧所处位置,而后基于所提跟踪方法获得前n帧跟踪结果并归一化,最后将其组合为模板集T=[t1,t2,…,tn]∈Rb×n。
模板动态更新:模板与跟踪结果相似性可表示为ψ=[ψ1,ψ2,…,ψn],设阈值为η,则跟踪结果与第u个模板相似性ψu可表示为:
设最大相似度为Λ,其可表示为:
Λ=maxψu (26)
将其与阈值η比较,若最大相似度Λ>η,表明本次跟踪结果与某目标模板相似度最大,则更新对应模板;反之,不做更新。仿真实验中阈值取值为η=0.7。
基于以上所述,具体更新方案可表述如下:
短时更新:为提高目标状态估计性能,对首帧后续各帧,若最大相似度Λ>η,表明该模板与某目标相似度最大,为提高后续各帧的跟踪准确度,可用本跟踪结果替换对应模板,并保存跟踪所得目标状态;反之,则表明相邻帧变化较大,此时不更新模板。
长期稳定更新:连续多帧所得最大相似度值Λ<η,导致无法及时更新模板,此时连续多帧的最大相似度均小于给定阈值,从而加大多帧累积误差,针对此类情况,可于跟踪过程中每隔10帧更新模板。由于起始帧目标始终真实,所提更新策略须包含首模板以增强跟踪鲁棒性。
综上所述:本发明所提结合粒子滤波与度量学习的目标跟踪算法可表述为:
(1)初始化CNN网络,粒子初始权重均设为1/N;
(2)首帧内采集目标背景样本,并通过式(11)实施MLKR以获得最优映射矩阵A及对应距离度量矩阵M;
(3)基于CNN和度量学习区分目标背景,并计算每个粒子置信度(权重);
(4)基于式(16)设定候选目标度量系数zg初始值;
(5)利用APG方法求解问题式(17)以求解zg;
(6)重复步骤(5),直到满足收敛条件;
(7)基于式(21)求解zg,并基于式(23)、式(24)和式(12)获取目标状态最优估计,并实施在线跟踪;
(8)获得跟踪结果,基于式(25)、(26)计算本次跟踪最大相似度;
(9)若跟踪最大相似度大于阈值,则用本帧跟踪结果更新模板;反之,不做更新;
(10)若跟踪最大相似度持续小于阈值,为防止跟踪累计误差过大,可每隔10帧更新目标模板;
(11)判断是否跟踪至最后一帧,若没有,重复步骤(3)~(10);反之,结束跟踪,获得最终跟踪结果并保存所得目标框。
本发明针对复杂环境下由于光照变化、目标形变、部分遮挡等因素导致目标跟踪性能显著下降的问题,提出一种基于粒子滤波与度量学习的目标跟踪方法。所提方法首先离线训练CNN网络以提升网络特征提取及泛化能力,并基于训练所得CNN网络获取目标高层抽象特征;其次,由于核回归度量学习方法(Metric Learning Kernel Regression,MLKR)相较于邻域分量分析(Neighborhood Components Analysis,NCA)以及大边距最近邻度量学习(Large Margin Nearest Neighbor Metric Learning,LMNNML)等具有较好的正负样本区分能力,对目标背景样本构建MLKR以获取表征最优候选目标的度量矩阵;而后,基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,基于短时与长期稳定更新结合的更新策略在线更新模板以降低遮挡、形变等不利因素影响从而实现基于粒子滤波框架的目标有效跟踪。仿真实验表明,与现有主流算法相比,复杂场景下所提方法具有较高目标跟踪精度及较好鲁棒性。
本发明的效果可通过以下仿真进一步说明:
仿真条件:硬件环境如下:Intel Core(TM)i5-4258 CPU,主频2.4GHz,内存8GB,实验软件测试环境为:Python3.7、MATLAB 2017a以及开源深度学习框架Caffe。采用的实验数据集为OTB数据集。仿真条件设置如下:首帧所提取正负样本数分别为100和400,后续各帧正负样本数分别为30和120以更新目标模板。权衡算法跟踪精确性及计算复杂度,若粒子数过多,将显著增加算法计算量,反之,若粒子数过少,则可能无法获取最优目标状态,基于此,每帧跟踪粒子数设置为600,粒子权重初始化为1/600。本文使用的CNN网络,采用深度学习框架Caffe,网络权值更新采用梯度下降法,设置局部区域归一化参数α=0.0001,τ=0.75,以起到“侧抑制”作用,增强网络提取复杂环境信息的泛化能力;学习率设置为0.001,训练周期为300,以最大程度减少“过拟合”现象发生。其中,本发明采用平均跟踪重叠率和平均中心位置误差定量分析所提方法的跟踪性能。平均中心位置误差为真实目标位置(x0,y0)与算法所得目标位置(x1,y1)之间距离误差,可表示为:
平均跟踪重叠率表示如下:
仿真内容:
仿真1:定性分析:图3为6种跟踪算法的结果对比。MotorRolling视频序列包含快速运动、背景杂波和光照变化等挑战性因素,在第52及64帧,目标由空中下降到地面,背景明显变化,DFT和TLD出现跟踪漂移或跟踪目标框与真实目标大小不符现象,而所提算法始终可以较好地跟踪目标,其可归因于本文算法考虑背景杂波及快速运动影响并对目标与背景样本进行误差学习,从而实现运动目标精确估计。Jogging序列中跟踪目标存在明显遮挡,所提算法与TLD可定位目标并有效跟踪,其余四种算法出现跟踪丢失现象,表明部分遮挡条件下所提方法亦具有较好的跟踪效果。Boy序列中目标快速运动,同时出现比例变化和旋转等其他因素干扰,401帧之后CT算法出现跟踪漂移现象,原因在于其泛化能力较差,无法较好适应显著外观变化,而本文算法始终可以精确跟踪。Skating1序列属于较为复杂的跟踪场景,其中目标背景对比度较低,且存在较强光照变化。此场景下,目标分辨率较低,CT、DFT及TLD均出现目标丢失情况,其源于目标背景相似性较大,对比算法对相似目标背景无法有效区分,而本文算法通过长短时结合的在线更新策略及时更新目标模板,从而可有效区分目标背景进而实现稳定跟踪。由于Matrix序列光照变化较大,对比算法均出现跟踪丢失现象,所提算法仍可较好地锁定目标,这是由于本文算法基于MLKR精准度量目标背景距离,并有效判别每帧跟踪结果以确保最优候选目标得以选择。快速运动导致运动模糊情况下,Bird2序列中目标外观尺度同时发生较大变化,Struck以及DFT无法准确估计目标尺度从而导致跟踪失败,而所提算法可自适应目标尺度变化因而可在目标尺度变化条件下仍可锁定目标。Tiger2序列出现严重遮挡以及强背景杂波,五种对比算法均发生不同程度漂移或跟踪框与真实目标尺度不符,本文算法仍能稳定跟踪目标,且具有较高跟踪精度及鲁棒性,此可归因为所提算法通过引入重构误差构建似然模型且采用局部化模板方法以解决目标遮挡和背景杂波,表明其具有较强鲁棒性。
仿真2:定量分析:表1和2分别为不同算法在每个视频序列的平均跟踪重叠率与平均中心位置误差。其中,加粗字体表示跟踪性能最优值,下划线为跟踪效果次优值。跟踪重叠率越大,平均中心位置误差越小表示跟踪效果越好。由表1、2可知,7种不同测试序列中所提算法相较于对比跟踪算法均有较好的跟踪效果。其可归因于所提算法采用MLKR并引入误差项构建似然模型降低相似目标与背景之间的敏感度。与现有主流跟踪器相比,所提跟踪器在遮挡或噪声等序列上表现较为出色,主要原因可表述如下:
(1)所提模型考虑候选目标模板之间相关性,提高了复杂场景下算法跟踪稳健性;
(2)核回归距离度量衡量粒子相似性,从而提升了跟踪有效性;
(3)目标模板局部结构化表示改善了噪声及遮挡场景下所提算法的鲁棒性及跟踪精度。
表1不同跟踪方法的平均重叠率
表2不同跟踪方法的平均中心位置误差
图4为不同跟踪方法的跟踪成功率曲线图;图5为不同跟踪方法的跟踪整体精度图;成功率曲线图表示将重合率大于给定阈值的视频帧作为成功跟踪帧,当阈值从0变化到1时,记录成功跟踪的帧数占视频总帧数的比率;整体精度图表示中心位置误差在距离阈值范围内(例如0到50像素)成功帧数与总帧数的百分比。由图4可知,多数视频序列中,所提算法目标跟踪成功率高于对比算法;Skating1序列中,所提算法相较于CT成功率偏低,然而整体跟踪精度仍优于CT算法,且其他视频序列中所提算法整体跟踪精度亦优于对比算法。由此可知,复杂场景下所提算法整体性能优于对比方法,且具有较好的鲁棒性。
仿真3:不同跟踪方法在各个测试序列下的平均运行速度:为验证所提算法跟踪时效性,本发明采用每秒运行帧数(frame per second,FPS)衡量算法速度(算法运行50次,平均所得FPS作为评估指标),不同测试序列中各算法所得FPS如表3所示。由表3可知,所提算法速度高于CNN-PF、Struck及DFT,逊于CT及TLD,然而,正如前文所述,不同测试序列中所提算法跟踪性能整体优于对比算法。需要注意的是,基于粒子滤波的跟踪算法计算复杂度通常正比于候选粒子数量,因此,可通过先验或时间序列信息自适应调整粒子数量以降低复杂度,从而较好地均衡跟踪性能以及实时性。
表3不同跟踪方法在各个测试序列下的平均运行速度:帧/秒
综上所述,本发明提出一种融合度量学习与粒子滤波的目标跟踪算法。所提方法通过CNN网络提取视频序列中正负样本,并基于MLKR对其度量学习以获得表征最优候选目标的度量矩阵;而后基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,基于短时及长期稳定更新相结合的更新策略更新目标模板以改善算法鲁棒性。基于OTB数据集中所选包含遮挡、运动模糊、光照变化、比例变化以及背景杂波等复杂因素的七个视频测试序列,通过与CNN-PF、Struck、CT、TLD以及DFT等五种主流跟踪器对比验证了所提算法的有效性。由定性分析可以观察到,所提算法在部分遮挡、光照变化、目标形变等复杂场景下具有较强鲁棒性;基于定量分析可知,相较于对比算法,多数测试序列场景下,所提算法平均中心误差较低,平均重叠率较高,从而表明所提算法整体跟踪性能较优。由此,本发明所提算法可以为工程应用中在复杂环境下进行目标跟踪提供坚实的理论与实现依据。
Claims (5)
1.一种结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:包括如下步骤:
步骤1:离线训练获得目标高层抽象特征的卷积神经网络;
步骤2:基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并通过梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;
步骤3:基于最优候选目标预测值计算重构误差,并通过粒子滤波构建目标观测模型,获取目标状态最优估计;
步骤4:引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。
2.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤1通过深度卷积网络AlexNet构造视频跟踪特征深度提取模型,深度特征提取模型输入图片规格为227*227像素,网络第一层卷积核尺寸设置为11*11*96,步长为4,卷积核个数为64,第一卷积层后接具有3卷积核的卷积层,设置第五卷积层中卷积核尺寸为3*3*256、步长为1,提取图像中目标背景样本作为后续度量学习样本,在第一、二和五卷积层后衔接尺寸为3*3、步长为2的池化层,第五卷积层后衔接三个全连接层,基于全连接层取得融合特征,分类层通过SoftMax函数分类以区分目标背景,卷积层激活函数均采用ReLU函数,且卷积层后具有归一化层,视频跟踪特征深度提取模型基于给定运动目标视频序列离线训练AlexNet网络,得到目标高层抽象特征的卷积神经网络。
3.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤2具体包括如下步骤:
通过训练样本集x=(x1,x2,...,xn)∈RB×N核回归度量学习,将训练样本数据映射至高可分性空间,获取表征目标特征差异的距离度量:
其中,xi,xj∈RB×N为样本,B为训练样本特征维度,N为样本数量,DA(xi,xj)为样本xi和xj之间的马氏距离,||·||2表示样本间距离平方,M∈RB×B为度量矩阵,M=ATA,A∈Rb×B视为从原始特征空间RB到新度量空间Rb的映射矩阵,其中b<<B,则:
DA(xi,xj)=||A(xi-xj)||2=(xi-xj)TATA(xi-xj) (2)
其中,c为样本xi的邻近数,y=(y1,y2,...,yn)∈{0,1}为样本xn对应类别标签,Kij为xi与临近样本xj之间高斯核距离函数,表征二者之间相似性表示为:
其中,δ为正则化常量;
采用累积二次回归误差表征训练样本集平方误差L,并最小化误差L获得最优映射矩阵A:
采用梯度下降方法求解,基于链式法则,问题(5)中目标函数关于变量A的导数表示为:
其中
得:
基于梯度下降法迭代更新映射矩阵A:
其中,ρ为学习速率,f为迭代次数,将所得最优映射矩阵A代入M=ATA,求得最优度量矩阵M。
4.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤3具体包括如下步骤:
设m个候选目标Y=[Y1,Y2,…,Ym]由包含w个模板的模板集T=[t1,t2,…,tw]表示,将每个模板分割为W个局部块,则模板集的第g个局部块表示为:Tg=[t1g,t2g,…,twg]∈Rb×w,其中,tig,i=1,2,…,w为第i个模板的第g个局部块;将每个候选目标Yg分割为W个局部块{yg|g=1,2,…,W}∈Rb×1,利用特征映射A对每个yg进行核回归距离度量,则得如下关于候选目标度量系数的最小化问题:
其中,zg∈Rw×1为模板局部块g对应系数向量,λ为惩罚参数,||·||2为l2范数,||·||1为l1范数;
优化问题视为W个优化问题的累加,且各优化变量相互独立,将优化问题拆分为W个子优化问题:
通过加速近端梯度算法实现高效求解,对应候选目标重构误差表示如下:
其中,Γ是归一化因子,γ为控制高斯核的参数;
实给定观测图像X1:r={x1,x2,…,xr}及其对应状态H1:r={h1,h2,…,hr},基于粒子滤波递归估计目标最优状态:
给定1到r帧的观测结果X1:r,基于贝叶斯推理框架递归推导式(12)获得当前帧中最优目标状态,得:
设时刻r下目标状态向量为hr={hrx,hry,scr,θr,φr,σr},其中hrx,hry,scr,θr,φr,σr为六自由度仿射变换参数,分别表示水平位移、垂直位移、旋转角度、水平尺度因子、扭曲角和宽高比例,假设状态变量相互独立且服从高斯分布,相邻帧间目标运动模型构建如下:
5.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤4具体包括如下步骤:
模板初始化:首先确定目标首帧所处位置,而后基于所提跟踪方法获得前n帧跟踪结果并归一化,最后将其组合为模板集T=[t1,t2,…,tn]∈Rb×n;
模板动态更新:模板与跟踪结果相似性可表示为ψ=[ψ1,ψ2,…,ψn],设阈值为η,则跟踪结果与第u个模板相似性ψu表示为:
设最大相似度为Λ,其表示为:
Λ=maxψu (21)
将最大相似度为Λ与阈值η比较,若最大相似度Λ>η,表明本次跟踪结果与某目标模板相似度最大,则更新对应模板;反之,不做更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010967549.3A CN112085765B (zh) | 2020-09-15 | 2020-09-15 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010967549.3A CN112085765B (zh) | 2020-09-15 | 2020-09-15 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085765A true CN112085765A (zh) | 2020-12-15 |
CN112085765B CN112085765B (zh) | 2024-05-31 |
Family
ID=73736281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010967549.3A Active CN112085765B (zh) | 2020-09-15 | 2020-09-15 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085765B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989953A (zh) * | 2021-02-20 | 2021-06-18 | 西安理工大学 | 一种基于度量学习的目标遮挡检测与跟踪方法 |
CN113128605A (zh) * | 2021-04-23 | 2021-07-16 | 浙江理工大学 | 基于粒子滤波及深度距离度量学习的目标跟踪方法 |
CN113160271A (zh) * | 2021-03-15 | 2021-07-23 | 华侨大学 | 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法 |
CN114216463A (zh) * | 2021-11-04 | 2022-03-22 | 国家电网有限公司 | 一种路径优化目标定位方法及装置、存储介质、无人设备 |
CN114638862A (zh) * | 2022-03-24 | 2022-06-17 | 清华大学深圳国际研究生院 | 一种视觉跟踪方法及跟踪装置 |
CN117911724A (zh) * | 2024-03-20 | 2024-04-19 | 江西软件职业技术大学 | 一种目标跟踪方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345762A (zh) * | 2013-06-19 | 2013-10-09 | 无锡引域智能机器人有限公司 | 基于流形学习的贝叶斯视觉跟踪方法 |
CN104200226A (zh) * | 2014-09-01 | 2014-12-10 | 西安电子科技大学 | 基于机器学习的粒子滤波目标跟踪方法 |
CN104463912A (zh) * | 2014-12-16 | 2015-03-25 | 武汉大学 | 一种基于簇相似的多尺度目标跟踪方法 |
CN104616324A (zh) * | 2015-03-06 | 2015-05-13 | 厦门大学 | 基于自适应表观模型和点-集距离度量学习的目标跟踪方法 |
CN107103616A (zh) * | 2017-04-27 | 2017-08-29 | 中国科学院长春光学精密机械与物理研究所 | 一种目标跟踪方法及系统 |
US20170263005A1 (en) * | 2016-03-10 | 2017-09-14 | Sony Corporation | Method for moving object detection by a kalman filter-based approach |
CN108734151A (zh) * | 2018-06-14 | 2018-11-02 | 厦门大学 | 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法 |
CN109102521A (zh) * | 2018-06-22 | 2018-12-28 | 南京信息工程大学 | 一种基于并行注意力相关滤波的视频目标跟踪方法 |
CN109584270A (zh) * | 2018-11-13 | 2019-04-05 | 大连大学 | 基于判别字典学习的视觉跟踪方法 |
-
2020
- 2020-09-15 CN CN202010967549.3A patent/CN112085765B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345762A (zh) * | 2013-06-19 | 2013-10-09 | 无锡引域智能机器人有限公司 | 基于流形学习的贝叶斯视觉跟踪方法 |
CN104200226A (zh) * | 2014-09-01 | 2014-12-10 | 西安电子科技大学 | 基于机器学习的粒子滤波目标跟踪方法 |
CN104463912A (zh) * | 2014-12-16 | 2015-03-25 | 武汉大学 | 一种基于簇相似的多尺度目标跟踪方法 |
CN104616324A (zh) * | 2015-03-06 | 2015-05-13 | 厦门大学 | 基于自适应表观模型和点-集距离度量学习的目标跟踪方法 |
US20170263005A1 (en) * | 2016-03-10 | 2017-09-14 | Sony Corporation | Method for moving object detection by a kalman filter-based approach |
CN107103616A (zh) * | 2017-04-27 | 2017-08-29 | 中国科学院长春光学精密机械与物理研究所 | 一种目标跟踪方法及系统 |
CN108734151A (zh) * | 2018-06-14 | 2018-11-02 | 厦门大学 | 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法 |
CN109102521A (zh) * | 2018-06-22 | 2018-12-28 | 南京信息工程大学 | 一种基于并行注意力相关滤波的视频目标跟踪方法 |
CN109584270A (zh) * | 2018-11-13 | 2019-04-05 | 大连大学 | 基于判别字典学习的视觉跟踪方法 |
Non-Patent Citations (2)
Title |
---|
JUNLIN HU: "《Deep Metric Learning for Visual Tracking》", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 26, no. 11, pages 1 - 13 * |
RONGQING HUANG: "《Kernel Regression with Sparse Metric Learning》", 《ARXIV:1712.09001V1》, pages 1 - 44 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989953A (zh) * | 2021-02-20 | 2021-06-18 | 西安理工大学 | 一种基于度量学习的目标遮挡检测与跟踪方法 |
CN112989953B (zh) * | 2021-02-20 | 2024-02-13 | 西安理工大学 | 一种基于度量学习的目标遮挡检测与跟踪方法 |
CN113160271A (zh) * | 2021-03-15 | 2021-07-23 | 华侨大学 | 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法 |
CN113160271B (zh) * | 2021-03-15 | 2023-10-31 | 华侨大学 | 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法 |
CN113128605A (zh) * | 2021-04-23 | 2021-07-16 | 浙江理工大学 | 基于粒子滤波及深度距离度量学习的目标跟踪方法 |
CN114216463A (zh) * | 2021-11-04 | 2022-03-22 | 国家电网有限公司 | 一种路径优化目标定位方法及装置、存储介质、无人设备 |
CN114216463B (zh) * | 2021-11-04 | 2024-05-28 | 国家电网有限公司 | 一种路径优化目标定位方法及装置、存储介质、无人设备 |
CN114638862A (zh) * | 2022-03-24 | 2022-06-17 | 清华大学深圳国际研究生院 | 一种视觉跟踪方法及跟踪装置 |
CN117911724A (zh) * | 2024-03-20 | 2024-04-19 | 江西软件职业技术大学 | 一种目标跟踪方法 |
CN117911724B (zh) * | 2024-03-20 | 2024-06-04 | 江西软件职业技术大学 | 一种目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112085765B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085765B (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN110070074B (zh) | 一种构建行人检测模型的方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN111582349B (zh) | 一种基于YOLOv3和核相关滤波改进的目标跟踪算法 | |
Xue et al. | Low-rank approximation and multiple sparse constraint modeling for infrared low-flying fixed-wing UAV detection | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN113327272B (zh) | 一种基于相关滤波的鲁棒性长时跟踪方法 | |
CN108038515A (zh) | 无监督多目标检测跟踪方法及其存储装置与摄像装置 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN113449658A (zh) | 基于空域、频域、时域的夜间视频序列显著性检测方法 | |
CN107368802B (zh) | 基于kcf和人脑记忆机制的运动目标跟踪方法 | |
CN110458022A (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
CN108921872B (zh) | 一种适用于长程跟踪的鲁棒性视觉目标跟踪方法 | |
Chen et al. | Single‐Object Tracking Algorithm Based on Two‐Step Spatiotemporal Deep Feature Fusion in a Complex Surveillance Scenario | |
CN108257148B (zh) | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 | |
CN108280845B (zh) | 一种针对复杂背景的尺度自适应目标跟踪方法 | |
Guangjing et al. | Research on static image recognition of sports based on machine learning | |
CN115984325A (zh) | 一种靶向寻量时空正则化的目标跟踪方法 | |
CN115457079A (zh) | 一种用于目标人物的跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |