CN108520530A - 基于长短时记忆网络的目标跟踪方法 - Google Patents
基于长短时记忆网络的目标跟踪方法 Download PDFInfo
- Publication number
- CN108520530A CN108520530A CN201810323668.8A CN201810323668A CN108520530A CN 108520530 A CN108520530 A CN 108520530A CN 201810323668 A CN201810323668 A CN 201810323668A CN 108520530 A CN108520530 A CN 108520530A
- Authority
- CN
- China
- Prior art keywords
- target
- long
- network
- short
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 230000015654 memory Effects 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000006403 short-term memory Effects 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 abstract 2
- 230000006978 adaptation Effects 0.000 abstract 1
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
基于长短时记忆网络的目标跟踪方法,涉及计算机视觉技术。首先采用基于相似性学习的快速匹配方法对候选目标状态进行预估计,筛选出高质量的候选目标状态,然后将这些高质量的目标状态用长短时记忆网络进行分类。所用的长短时记忆网络包括用于提取特征的卷积层和用于分类的长短时记忆层。卷积层在大规模图像数据集ILSVRC15上离线训练而得,规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得,充分利用了输入视频序列包含的时间相关性,具有良好的适应目标形态和动作变化的能力。速度显著提高,将一种可以适应目标变化的长短时记忆网络运用于目标跟踪。
Description
技术领域
本发明涉及计算机视觉技术,具体涉及一种基于长短时记忆网络的目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域中一个极具挑战性的研究热点,在视频监控,人机交互和无人驾驶等领域都具有广泛的应用。目标跟踪的定义是给定视频序列初始帧中目标位置,在接下来的视频序列中自动地给出目标所在的位置。目标跟踪处于视频内容分析研究的中间层次,它获取视频中目标的位置与运动信息,为进一步的语义层分析(动作识别、场景识别)提供基础。目标跟踪任务的难点在于处理视频中的各种视觉信息和运动信息,包括目标本身的信息和周围环境的信息,特别是对于一些包含遮挡、光照变化、形变等挑战性难题的场景。
目标跟踪的研究在近几年发展迅速,经典方法包括基于稀疏表示(sparserepresentation)的方法,基于结构化支持向量机(structured SVM)的方法和基于相关滤波(correlation filter)的方法等。近几年,深度学习在计算机视觉领域取得了巨大成功,越来越多基于深度学习的目标跟踪方法出现。与采用手工提取特征(hand-draftedfeature)的传统方法不同,基于深度学习的目标跟踪方法利用卷积神经网络(Convolutional Neural Network)来表达视觉特征,在跟踪的精度上取得了令人瞩目的突破。这些基于卷积神经网络的目标跟踪方法大致可以分为两类:一类是基于分类的方法,另一类是基于匹配的方法。基于分类的目标跟踪方法把目标跟踪视为一个而分类问题,它们训练一个分类器将目标与背景区分开来。虽然这些方法达到了相当高的跟踪精度,但是大量的特征提取和复杂的在线更新使这些方法的速度变得很慢。此外,一些高精度的分类方法,例如MDNet(H.Nam and B.Han,“Learning multi-domain convolutional neuralnetworks for visual tracking,”in CVPR,2016.),在目标跟踪的数据集上训练和测试,存在过拟合的问题。基于匹配的目标跟踪方法,例如SiameseFC(L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.S.Torr,“Fully-convolutionalsiamese networks for object tracking,”in ECCV Workshop,2016.),将候选的目标状态与目标模板匹配,不需要在线更新。这些方法的特点是速度快,能够实时运行。然而,由于基于匹配的目标跟踪方法没有利用背景信息,又缺乏在线适应性,这些方法在一些复杂的场景中往往会发生跟踪漂移或失败。
上述基于卷积神经网络的目标跟踪方法大都是在视频序列的每一帧单独实施目标检测,而没有利用视频序列之间的时间相关性。近年来,循环神经网络(RecurrentNeural Network)凭借其捕捉时间相关性和处理序列数据的能力获得了计算机视觉领域的广泛关注,一些目标跟踪方法也开始使用循环神经网络。长短时记忆(Long Short-TermMemory)网络就是一种特殊的循环神经网络,它不仅能够记忆历史输入信息,还具有遗忘机制,能够处理长时间的序列信息。2015年,Gan等人(Q.Gan,Q.Guo,Z.Zhang,andK.Cho,“Firststeptoward model-free,anonymous object tracking with recurrent neuralnetworks,”CoRR,vol.abs/1511.06425,2015.)训练循环神经网络来预测目标位置。类似地,Kahou等人(S.E.Kahou,V.Michalski,and R.Memisevic,“RATM:recurrent attentivetracking model,”CoRR,vol.abs/1510.08660,2015.)训练基于关注机制的循环神经网络应用于目标跟踪。但是,这两种基于循环神经网络的目标跟踪方法只能跟踪一些简单的数据集,如MNIST数字。Fan等人(H.Fan and H.Ling,“SANet:Structure-aware network forvisual tracking,”in CVPR Workshop,2017.)将循环神经网络与卷积神经网络的特征图融合,以对目标自身的结构进行建模。这种方法精度很高,但是繁重的计算使其速度低于1帧/秒,难以应用于实际。最近,Gordon等人(D.Gordon,A.Farhadi,and D.Fox,“Re3:Real-time recurrent regression networks for object tracking,”CoRR,vol.abs/1705.06368,2017.)提出一种实时的循环回归网络(Re3)。Re3离线训练了一个用于回归的长短时记忆网络,使其学习目标形态和动作的变化。因为这种方法没有进行在线更新,所以它的速度很快。但是,由于离线训练所用视频包含的目标千差万别,这种方法很难学习到一个通用的模型来描述所有目标形态和动作的变化。因此,Re3的跟踪精度并不理想。
发明内容
本发明的目的在于提供基于长短时记忆网络的目标跟踪方法。
本发明包括以下步骤:
1)用第一帧的目标状态x1初始化长短时记忆(Long Short Term-Memory)网络,所述网络的结构由用于提取图像特征的卷积层(convolutional layers)和用于分类的长短时记忆层(LSTM layers)组成;在目标跟踪过程中,长短时记忆的网络状态记忆了目标形态和动作的变化,并在网络自身的前向传播(forward pass)过程中随目标变化而更新网络参数;
2)从输入视频的第一帧中采取样本集S1放入长短时记忆网络,用基于时间的反向传播(Back Propagation Trough Time)算法训练初始化后的长短时记忆网络;为了契合目标跟踪的任务,在第一帧训练网络和随后的更新网络过程中,用上一时刻的网络状态(对于第一帧来说,用初始化后的网络状态)和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络,网络输出2个数值,分别对应为所输入目标状态成为正样本的概率和成为负样本的概率,网络每个时刻都输出当前帧跟踪的结果,反向传播的损失直接来源于分类的结果,使得训练过程能快速收敛;
3)对输入视频的第t帧,使用基于相似性学习的匹配方法对搜索区域(searchregion)进行预估计,得到置信图其中,搜索区域位于上一帧所估计的目标位置周围,置信图反映了搜索区域中每个目标候选状态与目标模板的相似性,采用基于全卷积孪生网络(Fully-convolutional Siamese Network)的快速匹配方法作为计算相似性,大大减少对无关目标状态的冗余计算,提高效率;
4)从置信图中挑选N个候选目标状态
5)将步骤4)中所述N个候选目标状态放入长短时记忆网络,并根据上一时刻的网络状态对进行评估,得到这些候选目标状态作为正样本的概率并找出概率最大的候选目标状态,作为最佳目标状态完成当前帧的目标跟踪,确定最佳目标状态的步骤写成如下公式:
6)将当前帧评估出的最佳目标状态所对应的网络状态作为当前时刻的最佳网络状态用于下一帧的目标跟踪;
7)如果最佳目标状态成为正样本的概率大于预设的阈值参数θ,从当前帧采取样本集St,用St更新长短时记忆网络,重复步骤3)~7)步骤,直至视频结束。
在步骤1)中,所述卷积层在大规模图像数据集上完成离线训练,起到提取图像高层语义特征的作用,网络的长短时记忆层则在目标跟踪的过程中在线学习,从而更充分地利用输入视频包含的信息。
在步骤2)中,所述从输入视频的第一帧中采取样本集S1放入长短时记忆网络的具体方法为:
(1)在第一帧标注的矩形框周围分别以高斯分布和均匀分布采取正样本和负样本,得到样本集S1;
(2)将样本集S1放入长短时记忆网络采用基于时间的反向传播算法进行训练,长短时记忆网络的前向传播(forward pass)计算公式如下:
ht=ot⊙φ(ct)
其中,ft,it和ot分别为t时刻长短时记忆单元中的遗忘门,输入门和输出门参数;ct和ht分别为长短时记忆单元的输入,状态和输出;⊙和φ分别为点乘运算和激活函数;
(3)长短时记忆网络的反向传播(backward pass)计算公式如下:
其中,是训练的损失函数,ε和δ为公式中定义的导数,反向传播的损失直接来源于分类的结果,使得训练过程能快速收敛。
在步骤3)中,所述使用基于相似性学习的匹配方法对搜索区域(searchregion)进行预估计的具体方法可为:筛选高质量的候选目标状态进行分类,减少对密集采样中无关候选目标状态的计算,提高传统基于检测的跟踪(tracking-by-detection)框架的效率。
在步骤5)中,所述将步骤4)中所述N个候选目标状态放入长短时记忆网络的具体方法可为:
(1)将这N个候选目标状态放入卷积层提取高层语义特征,得到它们的特征向量,卷积层是在大规模图像数据集ILSVRC15上离线训练而得到的,规避对目标跟踪数据集过拟合的风险;
(2)将提取出的特征向量放入长短时记忆层,长短时记忆层将根据上一时刻的网络状态对这些特征向量分类,输出候选目标状态成为正样本和负样本的概率;
(3)找出成为正样本概率最大的候选目标状态,作为最佳目标状态完成当前帧的目标跟踪,确定最佳目标状态的公式如下:
所述目标状态对应于搜索区域中的一个图像块(image patch)。
在步骤6)中,所述网络状态记忆了目标的形态和动作变化并且随网络前向传播不断更新,由于长短时记忆网络本身的这种循环结构,在跟踪过程中能够利用视频图像序列的时间相关性,从而获得对目标形态变化的适应性和精确定位目标的能力。
在步骤7)中,所述从当前帧采取样本集St可用难分样本挖掘(hard negativemining)的方法从当前帧采取样本集St;
所述用难分样本挖掘的方法是从当前帧采取样本集St来更新长短时记忆网络,具体方法可为:
(1)直接从置信图中挑选高分的负样本作为难分样本,不需要重新采集或评估难分样本,提高了网络更新的速度。
(2)在所评估出的最佳目标状态周围以高斯分布采取正样本,用正样本和难分负样本作为当前帧的样本集St更新长短时记忆网络。
本发明首先采用基于相似性学习的快速匹配方法对候选目标状态进行预估计,筛选出高质量的候选目标状态,然后将这些高质量的目标状态用长短时记忆网络进行分类。本发明所用的长短时记忆网络包括用于提取特征的卷积层和用于分类的长短时记忆层。卷积层在大规模图像数据集ILSVRC15上离线训练而得,规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得,充分利用了输入视频序列包含的时间相关性,具有良好的适应目标形态和动作变化的能力。
与传统的基于检测的深度学习跟踪方法相比,本发明速度显著提高,将一种可以适应目标变化的长短时记忆网络运用于目标跟踪。网络中的卷积层在大规模图像数据集ILSVRC15(O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein et al.,“Imagenet large scale visualrecognition challenge,”IJCV,vol.115,no.3,pp.211–252,2015.)上离线训练而得,规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得,用于对卷积层所提取的图像特征进行分类,充分利用了输入视频序列包含的时间相关性和背景信息。由于长短时记忆层的递归结构,它能够记忆目标形态和动作的变化,忽略干扰信息。而且,递归参数也在网络前向传播过程中自动更新。
附图说明
图1为本发明实施例的跟踪框架示意图。
图2为本发明与其它几种目标跟踪方法在OTB-2013数据集上对比的精度图。在图2中,标记1为OA-LSTM(ours)[0.830],标记2为DLSSVM(2016)[0.829],标记3为SiamFC(2016)[0.809],标记4为CFNet(2017)[0.807],标记5为Staple(2016)[0.793],标记6为SAMF(2014)[0.785],标记7为KCF(2015)[0.740],标记8为DSST(2014)[0.740],标记9为CNT(2016)[0.723],标记10为Struck(2011)[0.656]。其中,OA-LSTM为本发明所提出的方法。
图3为本发明与其它几种目标跟踪方法在OTB-2015数据集上对比的精度图。在图3中,标记1为OA-LSTM(ours)[0.796],标记2为Staple(2016)[0.784],标记3为SiamFC(2016)[0.771],标记4为DLSSVM(2016)[0.763],标记5为SAMF(2014)[0.751],标记6为CFNet(2017)[0.748,标记7为KCF(2015)[0.696],标记8为DSST(2014)[0.680],标记9为Struck(2011)[0.640],标记10为CNT(2016)[0.572]。
图4为本发明与两种变形版本OA-FF(前馈型网络,不含长短时记忆层),OA-LSTM-PS(不含候选目标状态预估计策略)在OTB-2013数据集上对比的精度图。图例表示对应方法的速度(帧/秒)。在图4中,标记1为OA-LSTM(11.5fps)[0.830],标记2为OA-LSTM-PS(2.7fps)[0.794],标记3为OA-FF(13.2fps)[0.742]。
图5为本发明与两种变形版本OA-FF(前馈型网络,不含长短时记忆层),OA-LSTM-PS(不含候选目标状态预估计策略)在OTB-2015数据集上对比的精度图。图例表示对应方法的速度(帧/秒)。在图5中,标记1为OA-LSTM(11.5fps)[0.796],标记2为OA-LSTM-PS(2.7fps)[0.778],标记3为OA-FF(13.2fps)[0.699]。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1~5,本发明实施例包括以下步骤:
1)用第一帧的目标状态x1初始化长短时记忆(Long Short Term-Memory)网络。本发明所提出的网络结构由用于提取图像特征的卷积层(convolutional layers)和用于分类的长短时记忆层(LSTM layers)组成。在目标跟踪过程中,长短时记忆的网络状态记忆了目标形态和动作的变化,并在网络自身的前向传播(forward pass)过程中随目标变化而更新网络参数。
2)从输入视频的第一帧中采取样本集S1放入长短时记忆网络,用基于时间的反向传播(Back Propagation Trough Time)算法训练初始化后的长短时记忆网络。为了契合目标跟踪的任务,在第一帧训练网络和随后的更新网络过程中,用上一时刻的网络状态(对于第一帧来说,用初始化后的网络状态)和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络,网络输出2个数值,分别对应为所输入目标状态成为正样本的概率和成为负样本的概率。这样一来,网络每个时刻都输出当前帧跟踪的结果,反向传播的损失直接来源于分类的结果,使得训练过程能快速收敛。
3)对输入视频的第t帧,使用基于相似性学习的匹配方法对搜索区域(searchregion)进行预估计,得到置信图其中,搜索区域位于上一帧所估计的目标位置周围,置信图反映了搜索区域中每个目标候选状态与目标模板的相似性。本发明采用基于全卷积孪生网络(Fully-convolutional Siamese Network)的快速匹配方法作为计算相似性,大大减少了对无关目标状态的冗余计算,提高了本发明的效率。
4)从置信图中挑选N个高质量的候选目标状态每个目标状态对应于搜索区域中的一个图像块(image patch)。
5)将这N个候选目标状态放入长短时记忆网络,并根据上一时刻的网络状态对进行评估,得到这些候选目标状态作为正样本的概率并找出概率最大的候选目标状态,作为最佳目标状态完成当前帧的目标跟踪。确定最佳目标状态的步骤可以写成如下公式:
6)将当前帧评估出的最佳目标状态所对应的网络状态作为当前时刻的最佳网络状态用于下一帧的目标跟踪。
7)如果最佳目标状态成为正样本的概率大于预设的阈值参数θ,用难分样本挖掘(hard negative mining)的方法从当前帧采取样本集St,用St更新长短时记忆网络。重复上述3)~7)步骤,直至视频结束。
表1为本发明与其它几种目标跟踪方法在TC-128数据集上对比的精度,AUC(AreaUnder the Curve)和速度(帧/秒)。
表1
其中,*表示GPU速度,其它的表示CPU速度。
Claims (8)
1.基于长短时记忆网络的目标跟踪方法,其特征在于包括以下步骤:
1)用第一帧的目标状态x1初始化长短时记忆网络,所述网络的结构由用于提取图像特征的卷积层和用于分类的长短时记忆层组成;在目标跟踪过程中,长短时记忆的网络状态记忆了目标形态和动作的变化,并在网络自身的前向传播过程中随目标变化而更新网络参数;
2)从输入视频的第一帧中采取样本集S1放入长短时记忆网络,用基于时间的反向传播算法训练初始化后的长短时记忆网络;为了契合目标跟踪的任务,在第一帧训练网络和随后的更新网络过程中,用上一时刻的网络状态和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络,网络输出2个数值,分别对应为所输入目标状态成为正样本的概率和成为负样本的概率,网络每个时刻都输出当前帧跟踪的结果,反向传播的损失直接来源于分类的结果,使得训练过程收敛;
3)对输入视频的第t帧,使用基于相似性学习的匹配方法对搜索区域进行预估计,得到置信图其中,搜索区域位于上一帧所估计的目标位置周围,置信图反映了搜索区域中每个目标候选状态与目标模板的相似性,采用基于全卷积孪生网络的快速匹配方法作为计算相似性;
4)从置信图中挑选N个候选目标状态
5)将步骤4)中所述N个候选目标状态放入长短时记忆网络,并根据上一时刻的网络状态对进行评估,得到这些候选目标状态作为正样本的概率并找出概率最大的候选目标状态,作为最佳目标状态完成当前帧的目标跟踪,确定最佳目标状态的步骤写成如下公式:
6)将当前帧评估出的最佳目标状态所对应的网络状态作为当前时刻的最佳网络状态用于下一帧的目标跟踪;
7)如果最佳目标状态成为正样本的概率大于预设的阈值参数θ,从当前帧采取样本集St,用St更新长短时记忆网络,重复步骤3)~7)步骤,直至视频结束。
2.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤1)中,所述卷积层在大规模图像数据集上完成离线训练,起到提取图像高层语义特征的作用,网络的长短时记忆层则在目标跟踪的过程中在线学习,利用输入视频包含的信息。
3.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤2)中,所述从输入视频的第一帧中采取样本集S1放入长短时记忆网络的具体方法为:
(1)在第一帧标注的矩形框周围分别以高斯分布和均匀分布采取正样本和负样本,得到样本集S1;
(2)将样本集S1放入长短时记忆网络采用基于时间的反向传播算法进行训练,长短时记忆网络的前向传播计算公式如下:
ht=ot⊙φ(ct)
其中,ft,it和ot分别为t时刻长短时记忆单元中的遗忘门,输入门和输出门参数;ct和ht分别为长短时记忆单元的输入,状态和输出;⊙和φ分别为点乘运算和激活函数;
(3)长短时记忆网络的反向传播计算公式如下:
其中,是训练的损失函数,ε和δ为公式中定义的导数,反向传播的损失直接来源于分类的结果,使得训练过程收敛。
4.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤3)中,所述使用基于相似性学习的匹配方法对搜索区域进行预估计的具体方法为:筛选高质量的候选目标状态进行分类,减少对密集采样中无关候选目标状态的计算,提高传统基于检测的跟踪框架的效率。
5.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤5)中,所述将步骤4)中所述N个候选目标状态放入长短时记忆网络的具体方法为:
(1)将这N个候选目标状态放入卷积层提取高层语义特征,得到它们的特征向量,卷积层是在大规模图像数据集ILSVRC15上离线训练而得到的,规避对目标跟踪数据集过拟合的风险;
(2)将提取出的特征向量放入长短时记忆层,长短时记忆层将根据上一时刻的网络状态对这些特征向量分类,输出候选目标状态成为正样本和负样本的概率;
(3)找出成为正样本概率最大的候选目标状态,作为最佳目标状态完成当前帧的目标跟踪,确定最佳目标状态的公式如下:
所述目标状态对应于搜索区域中的一个图像块。
6.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤6)中,所述网络状态记忆了目标的形态和动作变化并且随网络前向传播更新,由于长短时记忆网络本身的这种循环结构,在跟踪过程中能够利用视频图像序列的时间相关性,从而获得对目标形态变化的适应性和精确定位目标的能力。
7.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤7)中,所述从当前帧采取样本集St是用难分样本挖掘的方法从当前帧采取样本集St。
8.如权利要求7所述基于长短时记忆网络的目标跟踪方法,其特征在于所述用难分样本挖掘的方法是从当前帧采取样本集St来更新长短时记忆网络,具体方法为:
(1)直接从置信图中挑选高分的负样本作为难分样本;
(2)在所评估出的最佳目标状态周围以高斯分布采取正样本,用正样本和难分负样本作为当前帧的样本集St更新长短时记忆网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810323668.8A CN108520530B (zh) | 2018-04-12 | 2018-04-12 | 基于长短时记忆网络的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810323668.8A CN108520530B (zh) | 2018-04-12 | 2018-04-12 | 基于长短时记忆网络的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108520530A true CN108520530A (zh) | 2018-09-11 |
CN108520530B CN108520530B (zh) | 2020-01-14 |
Family
ID=63432119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810323668.8A Active CN108520530B (zh) | 2018-04-12 | 2018-04-12 | 基于长短时记忆网络的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108520530B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784155A (zh) * | 2018-12-10 | 2019-05-21 | 西安电子科技大学 | 基于验证和纠错机制的视觉目标跟踪方法、智能机器人 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109993130A (zh) * | 2019-04-04 | 2019-07-09 | 哈尔滨拓博科技有限公司 | 一种基于深度图像动态手语语义识别系统及方法 |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110223316A (zh) * | 2019-06-13 | 2019-09-10 | 哈尔滨工业大学 | 基于循环回归网络的快速目标跟踪方法 |
CN110390386A (zh) * | 2019-06-28 | 2019-10-29 | 南京信息工程大学 | 基于输入变化微分的灵敏长短期记忆方法 |
CN110443829A (zh) * | 2019-08-05 | 2019-11-12 | 北京深醒科技有限公司 | 一种基于运动特征和相似度特征的抗遮挡跟踪算法 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN110490299A (zh) * | 2019-07-25 | 2019-11-22 | 南京信息工程大学 | 基于状态变化微分的灵敏长短期记忆方法 |
CN110827320A (zh) * | 2019-09-17 | 2020-02-21 | 北京邮电大学 | 基于时序预测的目标跟踪方法和装置 |
CN110837683A (zh) * | 2019-05-20 | 2020-02-25 | 全球能源互联网研究院有限公司 | 电力系统暂态稳定的预测模型的训练及预测方法、装置 |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN111738037A (zh) * | 2019-03-25 | 2020-10-02 | 广州汽车集团股份有限公司 | 一种自动驾驶方法及其系统、车辆 |
CN113538512A (zh) * | 2021-07-02 | 2021-10-22 | 北京理工大学 | 基于多层旋转记忆模型的光电信息处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017150032A1 (en) * | 2016-03-02 | 2017-09-08 | Mitsubishi Electric Corporation | Method and system for detecting actions of object in scene |
CN107330920A (zh) * | 2017-06-28 | 2017-11-07 | 华中科技大学 | 一种基于深度学习的监控视频多目标追踪方法 |
CN107515856A (zh) * | 2017-08-30 | 2017-12-26 | 哈尔滨工业大学 | 一种基于局部信息表示的细粒度情感元素抽取方法 |
CN107818307A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于lstm网络的多标签视频事件检测方法 |
-
2018
- 2018-04-12 CN CN201810323668.8A patent/CN108520530B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017150032A1 (en) * | 2016-03-02 | 2017-09-08 | Mitsubishi Electric Corporation | Method and system for detecting actions of object in scene |
CN107330920A (zh) * | 2017-06-28 | 2017-11-07 | 华中科技大学 | 一种基于深度学习的监控视频多目标追踪方法 |
CN107515856A (zh) * | 2017-08-30 | 2017-12-26 | 哈尔滨工业大学 | 一种基于局部信息表示的细粒度情感元素抽取方法 |
CN107818307A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于lstm网络的多标签视频事件检测方法 |
Non-Patent Citations (3)
Title |
---|
GUANGHAN NING ET AL: "Spatially supervised recurrent convolutional neural networks for visual object tracking", 《2017 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUIT AND SYSTEMS》 * |
肖鹏 等: "基于置信图自适应融合的视觉目标跟踪", 《无线电工程》 * |
陆平 等: "基于深度学习的多目标跟踪算法研究", 《中兴通讯技术》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN109784155A (zh) * | 2018-12-10 | 2019-05-21 | 西安电子科技大学 | 基于验证和纠错机制的视觉目标跟踪方法、智能机器人 |
CN109784155B (zh) * | 2018-12-10 | 2022-04-29 | 西安电子科技大学 | 基于验证和纠错机制的视觉目标跟踪方法、智能机器人 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109800689B (zh) * | 2019-01-04 | 2022-03-29 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN111738037B (zh) * | 2019-03-25 | 2024-03-08 | 广州汽车集团股份有限公司 | 一种自动驾驶方法及其系统、车辆 |
CN111738037A (zh) * | 2019-03-25 | 2020-10-02 | 广州汽车集团股份有限公司 | 一种自动驾驶方法及其系统、车辆 |
CN109993130A (zh) * | 2019-04-04 | 2019-07-09 | 哈尔滨拓博科技有限公司 | 一种基于深度图像动态手语语义识别系统及方法 |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN109993770B (zh) * | 2019-04-09 | 2022-07-15 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN110837683A (zh) * | 2019-05-20 | 2020-02-25 | 全球能源互联网研究院有限公司 | 电力系统暂态稳定的预测模型的训练及预测方法、装置 |
CN110223324B (zh) * | 2019-06-05 | 2023-06-16 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110221611B (zh) * | 2019-06-11 | 2020-09-04 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110223316B (zh) * | 2019-06-13 | 2021-01-29 | 哈尔滨工业大学 | 基于循环回归网络的快速目标跟踪方法 |
CN110223316A (zh) * | 2019-06-13 | 2019-09-10 | 哈尔滨工业大学 | 基于循环回归网络的快速目标跟踪方法 |
CN110390386A (zh) * | 2019-06-28 | 2019-10-29 | 南京信息工程大学 | 基于输入变化微分的灵敏长短期记忆方法 |
CN110490299B (zh) * | 2019-07-25 | 2022-07-29 | 南京信息工程大学 | 基于状态变化微分的灵敏长短期记忆方法 |
CN110490299A (zh) * | 2019-07-25 | 2019-11-22 | 南京信息工程大学 | 基于状态变化微分的灵敏长短期记忆方法 |
CN110443829A (zh) * | 2019-08-05 | 2019-11-12 | 北京深醒科技有限公司 | 一种基于运动特征和相似度特征的抗遮挡跟踪算法 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN110827320B (zh) * | 2019-09-17 | 2022-05-20 | 北京邮电大学 | 基于时序预测的目标跟踪方法和装置 |
CN110827320A (zh) * | 2019-09-17 | 2020-02-21 | 北京邮电大学 | 基于时序预测的目标跟踪方法和装置 |
CN113538512A (zh) * | 2021-07-02 | 2021-10-22 | 北京理工大学 | 基于多层旋转记忆模型的光电信息处理方法 |
CN113538512B (zh) * | 2021-07-02 | 2024-09-06 | 北京理工大学 | 基于多层旋转记忆模型的光电信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108520530B (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520530B (zh) | 基于长短时记忆网络的目标跟踪方法 | |
CN110197502B (zh) | 一种基于身份再识别的多目标跟踪方法及系统 | |
CN109598684B (zh) | 结合孪生网络的相关滤波跟踪方法 | |
CN104200237B (zh) | 一种基于核化相关滤波高速自动多目标跟踪方法 | |
CN109341703B (zh) | 一种全周期采用CNNs特征检测的视觉SLAM算法 | |
KR102132722B1 (ko) | 영상 내 다중 객체 추적 방법 및 시스템 | |
CN107689052B (zh) | 基于多模型融合和结构化深度特征的视觉目标跟踪方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN107016689A (zh) | 一种尺度自适应的相关滤波对冲目标跟踪方法 | |
CN111476817A (zh) | 一种基于yolov3的多目标行人检测跟踪方法 | |
Zulkifley | Two streams multiple-model object tracker for thermal infrared video | |
CN106373145B (zh) | 基于跟踪片段置信度和区分性外观学习的多目标跟踪方法 | |
CN111931654A (zh) | 一种人员跟踪智能监测方法、系统和装置 | |
Du et al. | Object-adaptive LSTM network for real-time visual tracking with adversarial data augmentation | |
CN105976397B (zh) | 一种目标跟踪方法 | |
CN107368802B (zh) | 基于kcf和人脑记忆机制的运动目标跟踪方法 | |
CN113673313B (zh) | 一种基于分层卷积神经网络的手势姿态识别方法 | |
Zhang et al. | Residual memory inference network for regression tracking with weighted gradient harmonized loss | |
CN107657627B (zh) | 基于人脑记忆机制的时空上下文目标跟踪方法 | |
Deotale et al. | HARTIV: Human Activity Recognition Using Temporal Information in Videos. | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
CN116664867B (zh) | 一种基于多证据融合选取训练样本的特征提取方法及装置 | |
Du et al. | Object-adaptive LSTM network for visual tracking | |
Cui et al. | Research on visual tracking algorithm based on peak sidelobe ratio | |
Zhang et al. | Loop closure detection based on generative adversarial networks for simultaneous localization and mapping systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |