CN108257148B - 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 - Google Patents
特定对象的目标建议窗口生成方法及其在目标跟踪的应用 Download PDFInfo
- Publication number
- CN108257148B CN108257148B CN201810046395.7A CN201810046395A CN108257148B CN 108257148 B CN108257148 B CN 108257148B CN 201810046395 A CN201810046395 A CN 201810046395A CN 108257148 B CN108257148 B CN 108257148B
- Authority
- CN
- China
- Prior art keywords
- target
- window
- proposal
- similarity
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000009826 distribution Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000004044 response Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 2
- 230000004438 eyesight Effects 0.000 abstract description 5
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 29
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 230000016776 visual perception Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
特定对象的目标建议窗口生成方法及其在目标跟踪的应用,涉及计算机视觉技术。给定一帧训练视频,将该图像分成三个区域:完全的目标区域,完全的背景区域以及目标和背景的混合区域。对完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图,更新目标像素和背景像素的概率分布图模型。给定一帧测试视频,利用训练好的概率分布图来预测图像中每个像素属于目标的概率,得到概率响应图。对原图和概率响应图分别提取目标建议窗口,把这些目标建议窗口都作为候选的目标建议窗口。对得到的目标建议窗口基于与对象的相似度进行排序,生成特定对象的目标建议窗口。把特定对象的目标建议窗口作为MDNET的训练样本实现目标跟踪。
Description
技术领域
本发明涉及计算机视觉技术,尤其是涉及特定对象的目标建议窗口生成方法及其在目标跟踪的应用。
背景技术
人类对外界视频信息感知能力很高,大脑能够快速的对目标进行检测和跟踪。计算机要具有与人类类似的视觉感知能力,就要能够实时地进行目标检测和跟踪。目标检测和跟踪是视觉感知的基础工作,目标检测和跟踪的精度和效率决定了视觉感知的准确性和实时性。目标检测和跟踪技术广泛应用于视频监控、人机交互、虚拟现实和图像压缩等领域,如果计算机具备与人类相似的目标检测和跟踪能力,那么就可以在这些应用领域代替人类,节约了大量的人力成本。因此,对计算机视觉中的目标检测与跟踪技术进行深入研究,不断提高检测精度和速度,具有重要的现实意义。
对于目标类别检测,相关工作一直是计算机视觉的研究热点。特殊类别的目标检测,例如人脸和行人,检测技术已经较为成熟。Viola基于AdaBoost框架,首先基于Haar-like小波特征分类,然后采用滑动窗口搜索策略进行定位。该方法能够很好地检测正面人脸,但对侧脸及其它类别的目标检测效果较差。Dalal基于HOG特征和SVM分类器进行行人检测。然而,目标类别检测更为关注自然图像中一般类别。Felzenszwalb提出了目标类别检测最具影响力的多尺度形变部件模型(DPM),该方法充分利用了HOG特征和SVM分类器的优点。DPM目标检测器由一个根滤波器和一些部件滤波器组成,组件间的形变通过隐变量进行推理,采用滑动窗口策略在不同尺度和宽高比图像上搜索目标。后续很多工作都是针对DPM目标检测器的改进。Krizhevsky提出基于深度卷积神经网络(DCNN)的目标分类算法,提升了目标检测的准确率。Sermanet基于DCNN框架提出了OverFeat,集识别、定位和检测为一体,为分类训练一个CNN,为每个类的定位训练一个CNN。OverFeat对输入图像采用滑动窗口策略用分类模型确定每个窗口中目标的类别,然后使用对应类别的的定位模型预测目标的包围盒,基于分数为每个类选出候选包围盒,获得最终的检测结果。与OverFeat不同,R-CNN首先采用选择性搜索策略在输入图像上选择若干候选包围盒;然后对每个包围盒利用CNN提取特征,输入到为每个类训练好的SVM分类器,得到包围盒属于每个类的分数;最后,采用非极大值抑制方法(NMS)抑制部分包围盒,得到目标检测结果。尽管基于CNN的方法在目标检测上得到了较高的精度,但是由于网络复杂且计算量大,应用在目标检测上效率并不高。
目标跟踪是计算机视觉研究领域的热点之一,过去几十年以来,目标跟踪的研究取得了长足的发展。从经典的均值漂移(Meanshift)、粒子滤波(Particle Filter)跟踪算法,到基于检测(Tracking By Detection)的跟踪算法及相关滤波(Correlation Filter)的跟踪算法,再到最近基于深度学习(Deep Learning)的跟踪算法。最近主要取得的的研究进展主要是基于相关滤波的跟踪算法以及基于深度学习的跟踪算法。相关滤波的跟踪算法于2012年提出,是一种基于循环矩阵的核跟踪方法,解决了密集采样(Dense Sampling)的问题,利用傅立叶变换快速实现学习和检测。学习检测过程高效,证明过程完备。利用快速傅立叶变换,CSK方法的跟踪帧率能达到几百帧。随后,提出了基于HOG特征的KCF方法。后续还有考虑多尺度或颜色特征(Color Naming)的方法以及用深度学习提取的特征结合KCF的方法(比如DeepSRDCF、CF2方法)。从它的发展过程来看,考虑的尺度越来越多,特征信息也更加丰富,计算复杂度越来越高,但总体上说,相关滤波系列的跟踪方法在实时性上优势明显,采用哪种改进版本的方法视具体的应用而定。相关滤波的方法也有一些缺陷,比如目标的快速移动,形状变化大导致更多背景被学习进来等都会对CF系列方法造成影响。基于深度学习的目标跟踪算法,最初是把CNN学习到的特征,应用于相关滤波或Struck的跟踪框架,从而得到更好的跟踪结果。通过卷积网络提取的特征,更优于HOG或CN特征,但同时计算复杂度增加。CNN网络不同层的卷积输出都可以作为跟踪的特征,对于如何有效地利用深度学习的特征,M.Danelljan也做了大量的工作,提出了一系列相关的方法,SRDCF、C-COT和ECO。另一种基于深度学习的跟踪算法是通过搭建一个CNN网络结构,选择样本进行离线训练,在线微调网络实现目标跟踪,这类方法主要有MDNET、SANET。这两类方法的跟踪性能都有较大的提升,但都很难达到实时的跟踪效果。
发明内容
本发明的目的在于提供特定对象的目标建议窗口生成方法及其在目标跟踪的应用。
所述特定对象的目标建议窗口生成方法包括以下步骤:
1)给定一帧训练视频,将训练视频图像分成三个区域:完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域;
2)对步骤1)中所述完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图,以学习率λ更新目标像素和背景像素的概率分布图模型;
3)给定一帧测试视频,利用训练好的概率分布图来预测图像中每个像素属于目标的概率,得到概率响应图;
4)对原图和概率响应图分别提取目标建议窗口,并将所述目标建议窗口都作为候选的目标建议窗口;
5)对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序,生成特定对象的目标建议窗口;
6)将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练,基于MDNET的框架实现目标跟踪。
在步骤1)中,所述将训练视频图像分成三个区域:完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域的具体划分方法如下:
目标区域与背景区域的混合区域是一个中间为孔洞的矩形框,该矩形框的宽度是目标宽度的γ倍,其中,矩形框位于目标和背景;完全的目标区域位于矩形框内部,完全的背景区域位于矩形框外部。所述γ=0.4。
在步骤2)中,所述对步骤1)中所述完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图,以学习率λ更新目标像素和背景像素的概率分布图模型的具体方法如下:
记xf和xb分别表示完全目标区域F和完全背景区域B的像素;已知xf和xb,则xf和xb的概率分布pf和pb可由xf和xb的直方图计算得到;概率分布pf和pb每隔k帧进行更新,更新方式如下:
其中,λ为学习率,m为视频帧索引;所述更新的策略能够保证当目标和背景的表观发生改变时,概率分布pf和pb能够得到较好地估算。所述目标和背景的颜色直方图区间设置为32。
在步骤3)中,所述给定一帧测试视频,利用训练好的概率分布图来预测图像中每个像素属于目标的概率,得到概率响应图的计算公式如下:
其中,ε为一个较小的常数,防止分式的分母为零;虽然概率响应图包含一些错误的预测,但是能够抑制大部分的噪声;在目标建议窗口生成过程中,概率响应图能够减缓运动模糊、弱对比度、嘈杂背景造成的弱边缘效应。
在步骤4)中,所述对原图和概率响应图分别提取目标建议窗口,并将所述目标建议窗口都作为候选的目标建议窗口是基于EdgeBoxes生成目标建议窗口。
在步骤5)中,所述对象的相似度包括颜色相似度、形状相似度以及尺度相似度等;对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序,生成特定对象的目标建议窗口的具体计算方法分别为:
颜色相似度:ci,t定义为第i个目标建议和对象之间的颜色相似性,由概率分布图计算;概率分布图上位于第i个目标建议窗口内部的所有像素的均值,作为第i个目标建议窗口和对象之间的颜色相似度;
形状相似度:ρ定义为边界框包围的轮廓数的似然度,用于衡量形状相似度;第i个目标建议窗口和对象之间的形状相似度si,t计算公式如下:
其中ρi和ρt分别表示第i个目标建议窗口和对象的似然度;
尺度相似度:对象的尺度能够用于滤除太大或者太小的目标建议窗口;第i个目标建议窗口和对象之间的尺度相似度zi,t计算公式如下:
其中wi(hi)和wt(ht)分别表示第i个目标建议窗口和对象的宽度(高度);
基于以上定义的颜色、形状以及尺寸的相似度,第i个目标建议窗口和对象之间的整体相似度ai,t定义如下:
ai,t=si,t·ci,t·zi,t (公式5)
基于整体相似度对生成的目标建议窗口进行降序排序;选取前N个目标建议窗口作为特定对象的目标建议窗口;从目标跟踪数据集上获得的召回率曲线可以得出:目标检测的精度得到显著提升;所述N可为500。
在步骤6)中,将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练,基于MDNET的框架实现目标跟踪;不同于MDNET所用的CNN分类器,训练样本由指定的概率分布生成,这里采用特定对象的目标建议窗口作为训练样本来对CNN分类器进行训练;由于目标建议窗口包含与目标相似的候选目标建议窗口,因此由特定对象的目标建议窗口训练得到的CNN分类器能够很好地将目标和与目标相似的干扰区分开来;
在训练(学习)阶段:首先,CNN卷积层的权重由相应VGG-M网络的权重初始化,CNN全连接层的权重由高斯分布初始化,高斯分布的均值为0,方差为0.01;然后,将特定对象的目标建议窗口作为训练样本对CNN分类器进行微调,对目标和背景进行分类;如果不采用特定对象的目标建议窗口对CNN分类器进行微调,那么跟踪器很容易被与目标相似的背景干扰从而丢失目标;在实现过程中,正负样本根据交并比(Intersection over Union,IoU))从特定对象的目标建议窗口选出,IoU的定义如下:
其中,PBB和TBB分别表示当前帧目标建议窗口和前一帧目标的边界框;正样本定义为负样本定义为IoU<ω;由于正样本的数目远小于负样本的数目,为了缓解样本类别不平衡的问题,在前一帧的目标周围同样基于高斯分布进行正负样本采样;
在测试(检测)阶段:首先在前一帧的目标的搜索窗口内生成特定对象的目标建议窗口,将其作为候选目标;然后用训练好的CNN分类器对这些候选目标进行预测,选取概率最大的候选目标作为当前帧的目标。
所述特定对象的目标建议窗口生成可在目标跟踪中应用,所述应用将与对象具有高相似的目标建议窗口作为训练样本,基于MDNET框架进行跟踪,能够将目标和背景干扰区分,取得优于MDNET的精度。
本发明能够减缓运动模糊、弱对比度、嘈杂背景造成的弱边缘效应,综合原图和概率响应图得到的目标建议窗口更能真实地反映目标,经过多线索相似度排序后筛选得到的目标建议窗口都是与对象具有高相似度的目标建议窗口。在目标检测方面,在目标建议窗口数目相同的前提下,通过该方法能够得到很高的召回率。在目标跟踪方面,将与对象具有高相似的目标建议窗口作为训练样本,基于MDNET框架进行跟踪,能够将目标和背景干扰很好地区分,取得优于MDNET的精度。
附图说明
图1为本发明实施例的整体流程图。
图2为本发明实施例的前10个与对象具有高相似度的目标建议窗口生成图。
图3为本发明与其它几种目标检测方法在UAV123数据集上对比的召回率曲线图。在图3中,曲线Ours为本发明的方法;
曲线CADM对应为Y.Xiao等人提出的方法(Y.Xiao,C.Lu,E.Tsougenis,Y.Lu,andC.-K.Tang,“Complexityadaptive distance metric for object proposalsgeneration,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),2015,pp.778–786.)
曲线MSTE对应为X.Chen等人提出的方法(X.Chen,H.Ma,X.Wang,and Z.Zhao,“Improving object proposals with multi-thresholding straddling expansion,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),2015,pp.2587–2595.)
曲线EdgeBoxs对应为C.L.Zitnick等人提出的方法(C.L.Zitnick and P.Dollar,“Edge Boxes:Locating Object Proposals from Edges,”inProc.Eur.Comput.Vis.Conf.(ECCV),2014,pp.391–405.)
曲线SelectiveSearch对应为J.Uijlings等人提出的方法(J.Uijlings,K.van deSande,T.Gevers,and A.Smeulders,“Selective search for object recognition,”Int.J.Comput.Vis.(IJCV),vol.104,no.2,pp.154–171,2013.)
图4为本发明与其它几种目标跟踪方法在UAV20L数据集的对比的精度曲线图。
图5为本发明与其它几种目标跟踪方法在UAV20L数据集的对比的成功率曲线图。
在图4和5中,曲线Ours为本发明的方法;
曲线ECO对应为M.Danelljan等人提出的方法(M.Danelljan,G.Bhat,F.S.Khan,and M.Felsberg,“ECO:efficient convolution operators for tracking,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),2017,pp.6638–6646);
曲线MDNET对应为H.Nam等人提出的方法(H.Nam and B.Han,“Learning multi-domain convolutional neural networks for visual tracking,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),2016,pp.4293–4302.);
曲线KCFDP对应为D.Huang等人提出的方法(D.Huang,L.Luo,M.Wen,Z.Chen,andC.Zhang,“Enable scale and aspect ratio adaptability in visual tracking withdetection proposals,”in Proc.Br.Mach.Vis.Conf.(BMVC),2015,pp.185.1–185.12.);
曲线SRDCF对应为M.Danelljan等人提出的方法(M.Danelljan,G.Hager,F.S.Khan,and M.Felsberg,“Learning spatially regularized correlation filtersfor visual tracking,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),2015,pp.4310–4318.);
曲线SAMF对应为Y.Li等人提出的方法(Y.Li and J.Zhu,“A scale adaptivekernel correlation filter tracker with feature integration,”inProc.Eur.Comput.Vis.Conf.(ECCV)Workshops,2014,pp.254–265.);
曲线TLD对应为Y.Zhai等人提出的方法(Z.Kalal,K.Mikolajczyk,and J.Matas,“Tracking-learning-detection,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.34,no.7,pp.1409–1422,2012.);
曲线KCF对应为J.F.Henriques等人提出的方法(J.F.Henriques,R.Caseiro,P.Martins,and J.Batista,“High-speed tracking with kernelized correlationfilters,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.37,no.3,pp.583–596,2015.)。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
参见图1,本发明实施例所述特定对象的目标建议窗口生成方法,包括以下步骤:
A.给定一帧训练视频,将该图像分成三个区域:完全的目标区域、完全的背景区域以及目标和背景的混合区域。划分方法如下:目标和背景的混合区域是一个中间是孔洞的矩形框,该矩形框的宽度是目标宽度的γ倍,其中,矩形框的一部分位于目标,其余部分位于背景;完全的目标区域位于矩形框内部,完全的背景区域位于矩形框外部。
B.对步骤A中定义的完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图,以一定的学习率更新目标像素和背景像素的概率分布图模型。具体过程如下:记xf和xb分别表示完全目标区域F和完全背景区域B的像素。已知xf和xb,则xf和xb的概率分布pf和pb可由xf和xb的直方图计算得到。概率分布pf和pb每隔k帧进行更新,更新方式如下:
其中λ为学习率,m为视频帧索引。上述更新策略能够保证当目标和背景的表观发生改变时,概率分布pf和pb能够得到较好地估算。
C.给定一帧测试视频,利用训练好的概率分布图来预测图像中每个像素属于目标的概率,得到概率响应图。计算公式如下:
其中ε为一个较小的常数,防止分式的分母为零。虽然概率响应图包含一些错误的预测,但是能够抑制大部分的噪声。在目标建议窗口生成过程中,概率响应图能够减缓运动模糊、弱对比度、嘈杂背景造成的弱边缘效应。
D.对原图和概率响应图分别提取目标建议窗口,将这些目标建议窗口都作为候选的目标建议窗口。由于EdgeBoxes在目标建议窗口生成的方法中召回率高、速度快,所以这里基于EdgeBoxes生成目标建议窗口。
E.对步骤D中得到的目标建议窗口基于与对象的相似度(颜色、形状以及尺度)进行排序,生成特定对象的目标建议窗口。每一个目标建议窗口与对象的颜色、形状和尺度的相似度计算方法分别为:
颜色相似度:ci,t定义为第i个目标建议和对象之间的颜色相似性,由概率分布图计算。概率分布图上位于第i个目标建议窗口内部的所有像素的均值,作为第i个目标建议窗口和对象之间的颜色相似度。
形状相似度:ρ定义为边界框包围的轮廓数的似然度,用于衡量形状相似度。第i个目标建议窗口和对象之间的形状相似度si,t计算公式如下:
其中ρi和ρt分别表示第i个目标建议窗口和对象的似然度。
尺度相似度:对象的尺度能够用于滤除太大或者太小的目标建议窗口。第i个目标建议窗口和对象之间的尺度相似度zi,t计算公式如下:
其中wi(hi)和wt(ht)分别表示第i个目标建议窗口和对象的宽度(高度)。
基于以上定义的颜色、形状以及尺寸的相似度,第i个目标建议窗口和对象之间的整体相似度ai,t定义如下:
ai,t=si,t·ci,t·zi,t (公式5)
基于整体相似度对生成的目标建议窗口进行降序排序。选取前N个目标建议窗口作为特定对象的目标建议窗口。从目标跟踪数据集上获得的召回率曲线可以得出:目标检测的精度得到显著提升。
图2为CarScale部分视频帧排名前10的与对象具有高相似度的目标建议窗口生成图。图3为本发明与其它几种目标检测方法在UAV123数据集上对比的召回率曲线图,其中实线TOPG为本发明的方法,采用高相似度的目标建议窗口进行目标检测。
F.将步骤E中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练,基于MDNET的框架实现目标跟踪。不同于MDNET所用的CNN分类器,训练样本由指定的概率分布生成,这里采用特定对象的目标建议窗口作为训练样本来对CNN分类器进行训练。由于目标建议窗口包含与目标相似的候选目标建议窗口,因此由特定对象的目标建议窗口训练得到的CNN分类器能够很好地将目标和与目标相似的干扰区分开来。
在训练(学习)阶段:首先,CNN卷积层的权重由相应VGG-M网络的权重初始化,CNN全连接层的权重由高斯分布初始化,高斯分布的均值为0,方差为0.01;然后,将特定对象的目标建议窗口作为训练样本对CNN分类器进行微调,对目标和背景进行分类。如果不采用特定对象的目标建议窗口对CNN分类器进行微调,那么跟踪器很容易被与目标相似的背景干扰从而丢失目标。在实现过程中,正负样本根据交并比(Intersection over Union,IoU)从特定对象的目标建议窗口选出,IoU的定义如下:
其中,PBB和TBB分别表示当前帧目标建议窗口和前一帧目标的边界框。正样本定义为负样本定义为IoU<ω。由于正样本的数目远小于负样本的数目,为了缓解样本类别不平衡的问题,在前一帧的目标周围同样基于高斯分布进行正负样本采样。
在测试(检测)阶段:首先在前一帧的目标的搜索窗口内生成特定对象的目标建议窗口,将其作为候选目标;然后用训练好的CNN分类器对这些候选目标进行预测,选取概率最大的候选目标作为当前帧的目标。
图4和5为本发明与其它几种目标跟踪方法在UAV20L数据集的对比的精度和成功率曲线图。其中曲线Ours为本发明的方法,在MDNET框架下将高相似度的目标建议窗口作为训练样本得到的结果。
Claims (8)
1.特定对象的目标建议窗口生成方法,其特征在于包括以下步骤:
1)给定一帧训练视频,将训练视频图像分成三个区域:完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域;
2)对步骤1)中所述完全的目标区域和完全的背景区域分别计算目标像素和背景像素的概率分布图,以学习率λ更新目标像素和背景像素的概率分布图模型;
3)给定一帧测试视频,利用训练好的概率分布图来预测图像中每个像素属于目标的概率,得到概率响应图;
4)对原图和概率响应图分别提取目标建议窗口,并将所述目标建议窗口都作为候选的目标建议窗口;
5)对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序,生成特定对象的目标建议窗口;
6)将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练,基于MDNET的框架实现目标跟踪。
2.如权利要求1所述特定对象的目标建议窗口生成方法,其特征在于在步骤1)中,所述将训练视频图像分成三个区域:完全的目标区域、完全的背景区域以及目标区域与背景区域的混合区域的具体划分方法如下:
目标区域与背景区域的混合区域是一个中间为孔洞的矩形框,该矩形框的高度/宽度是目标高度/宽度的γ倍,其中,矩形框位于目标和背景;完全的目标区域位于矩形框内部,完全的背景区域位于矩形框外部;所述γ=0.4。
5.如权利要求1所述特定对象的目标建议窗口生成方法,其特征在于在步骤4)中,所述对原图和概率响应图分别提取目标建议窗口,并将所述目标建议窗口都作为候选的目标建议窗口是基于EdgeBoxes生成目标建议窗口。
6.如权利要求1所述特定对象的目标建议窗口生成方法,其特征在于在步骤5)中,所述对象的相似度包括颜色相似度、形状相似度以及尺度相似度;对步骤4)中得到的目标建议窗口基于与对象的相似度进行排序,生成特定对象的目标建议窗口的具体计算方法分别为:
颜色相似度:ci,t定义为第i个目标建议窗口和对象之间的颜色相似性,由概率分布图计算;概率分布图上位于第i个目标建议窗口内部的所有像素的均值,作为第i个目标建议窗口和对象之间的颜色相似度;
形状相似度:ρ定义为边界框包围的轮廓数的似然度,用于衡量形状相似度;第i个目标建议窗口和对象之间的形状相似度si,t计算公式如下:
其中ρi和ρt分别表示第i个目标建议窗口和对象的似然度;
尺度相似度:对象的尺度能够用于滤除太大或者太小的目标建议窗口;第i个目标建议窗口和对象之间的尺度相似度zi,t计算公式如下:
其中,wi、hi和wt、ht分别表示第i个目标建议窗口和对象的宽度、高度;
基于以上定义的颜色、形状以及尺寸的相似度,第i个目标建议窗口和对象之间的整体相似度ai,t定义如下:
ai,t=si,t·ci,t·zi,t
基于整体相似度对生成的目标建议窗口进行降序排序;选取前N个目标建议窗口作为特定对象的目标建议窗口;从目标跟踪数据集上获得的召回率曲线得出:目标检测的精度得到显著提升;所述N为500。
7.如权利要求1所述特定对象的目标建议窗口生成方法,其特征在于在步骤6)中,将步骤5)中得到的特定对象的目标建议窗口作为MDNET的训练样本对CNN分类器进行训练,基于MDNET的框架实现目标跟踪;不同于MDNET所用的CNN分类器,训练样本由指定的概率分布生成,这里采用特定对象的目标建议窗口作为训练样本来对CNN分类器进行训练;由于目标建议窗口包含与目标相似的候选目标建议窗口,因此由特定对象的目标建议窗口训练得到的CNN分类器能够很好地将目标和与目标相似的干扰区分开来;
在训练阶段:首先,CNN卷积层的权重由相应VGG-M网络的权重初始化,CNN全连接层的权重由高斯分布初始化,高斯分布的均值为0,方差为0.01;然后,将特定对象的目标建议窗口作为训练样本对CNN分类器进行微调,对目标和背景进行分类;如果不采用特定对象的目标建议窗口对CNN分类器进行微调,那么跟踪器很容易被与目标相似的背景干扰从而丢失目标;在实现过程中,正负样本根据交并比IoU从特定对象的目标建议窗口选出,IoU的定义如下:
其中,PBB和TBB分别表示当前帧目标建议窗口和前一帧目标的边界框;正样本定义为负样本定义为IoU<ω;由于正样本的数目远小于负样本的数目,为了缓解样本类别不平衡的问题,在前一帧的目标周围同样基于高斯分布进行正负样本采样;
在测试阶段:首先在前一帧的目标的搜索窗口内生成特定对象的目标建议窗口,将其作为候选目标;然后用训练好的CNN分类器对这些候选目标进行预测,选取概率最大的候选目标作为当前帧的目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810046395.7A CN108257148B (zh) | 2018-01-17 | 2018-01-17 | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810046395.7A CN108257148B (zh) | 2018-01-17 | 2018-01-17 | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108257148A CN108257148A (zh) | 2018-07-06 |
CN108257148B true CN108257148B (zh) | 2020-09-25 |
Family
ID=62726559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810046395.7A Active CN108257148B (zh) | 2018-01-17 | 2018-01-17 | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108257148B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558877B (zh) * | 2018-10-19 | 2023-03-07 | 复旦大学 | 基于kcf的海上目标跟踪算法 |
CN110189362B (zh) * | 2019-05-28 | 2020-12-25 | 厦门大学 | 基于多分支自编码对抗网络的高效目标跟踪方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150740A (zh) * | 2013-03-29 | 2013-06-12 | 上海理工大学 | 一种基于视频的运动目标跟踪方法和系统 |
CN106384359A (zh) * | 2016-09-23 | 2017-02-08 | 青岛海信电器股份有限公司 | 运动目标跟踪方法和电视 |
CN106383888A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市唯特视科技有限公司 | 一种利用图片检索定位导航的方法 |
KR20170087211A (ko) * | 2016-01-20 | 2017-07-28 | 한국전자통신연구원 | 음성 인식을 위한 특징 보상 시스템 및 방법 |
CN107330973A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于多视角监督的单视角重建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
-
2018
- 2018-01-17 CN CN201810046395.7A patent/CN108257148B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150740A (zh) * | 2013-03-29 | 2013-06-12 | 上海理工大学 | 一种基于视频的运动目标跟踪方法和系统 |
KR20170087211A (ko) * | 2016-01-20 | 2017-07-28 | 한국전자통신연구원 | 음성 인식을 위한 특징 보상 시스템 및 방법 |
CN106383888A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市唯特视科技有限公司 | 一种利用图片检索定位导航的方法 |
CN106384359A (zh) * | 2016-09-23 | 2017-02-08 | 青岛海信电器股份有限公司 | 运动目标跟踪方法和电视 |
CN107330973A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于多视角监督的单视角重建方法 |
Non-Patent Citations (3)
Title |
---|
a survey on leveraging deep neural networks for object tracking;Sebastian Krebs 等;《2017 IEEE 20th International Conference on Intelligent Transportation Systems(ITSC)》;20171019;第411-418页 * |
基于实时视频的运动目标检测算法;邱祯艳;《中国优秀硕士学位论文全文数据库-信息科技辑》;20140215(第2期);第I138-665页 * |
基于机器视觉的目标检测定位于路径控制方法研究;张鑫;《中国优秀硕士学位论文全文数据库-信息科技辑》;20151015(第10期);第I140-145页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108257148A (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Esmaeili et al. | Fast-at: Fast automatic thumbnail generation using deep neural networks | |
CN111476817A (zh) | 一种基于yolov3的多目标行人检测跟踪方法 | |
CN105046717B (zh) | 一种鲁棒性的视频目标对象跟踪方法 | |
CN108257158A (zh) | 一种基于循环神经网络的目标预测与跟踪方法 | |
CN112085765B (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
CN108647694A (zh) | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 | |
CN106815578A (zh) | 一种基于深度运动图‑尺度不变特征变换的手势识别方法 | |
Zhang et al. | A background-aware correlation filter with adaptive saliency-aware regularization for visual tracking | |
CN103761747B (zh) | 一种基于加权分布场的目标跟踪方法 | |
CN108734200A (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
Ren et al. | Image set classification using candidate sets selection and improved reverse training | |
Ayral et al. | Temporal stochastic softmax for 3d cnns: An application in facial expression recognition | |
Li et al. | Learning a dynamic feature fusion tracker for object tracking | |
CN108257148B (zh) | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 | |
CN113129332A (zh) | 执行目标对象跟踪的方法和装置 | |
Moridvaisi et al. | An extended KCF tracking algorithm based on TLD structure in low frame rate videos | |
CN110135435A (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
Huang et al. | SVTN: Siamese visual tracking networks with spatially constrained correlation filter and saliency prior context model | |
CN113361329A (zh) | 一种基于实例特征感知的鲁棒单目标跟踪方法 | |
CN115984325A (zh) | 一种靶向寻量时空正则化的目标跟踪方法 | |
CN116342653A (zh) | 一种基于相关滤波器的目标跟踪方法、系统、设备及介质 | |
Xiao et al. | Optimization methods of video images processing for mobile object recognition | |
Chen et al. | Adaptive hyper-feature fusion for visual tracking | |
Wang | MRCNNAM: Mask Region Convolutional Neural Network Model Based On Attention Mechanism And Gabor Feature For Pedestrian Detection | |
Gu et al. | Correlation filter tracking via bootstrap learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |