CN116664623A - 基于孪生网络联合跟踪与检测的视频目标长期跟踪方法 - Google Patents
基于孪生网络联合跟踪与检测的视频目标长期跟踪方法 Download PDFInfo
- Publication number
- CN116664623A CN116664623A CN202310546720.7A CN202310546720A CN116664623A CN 116664623 A CN116664623 A CN 116664623A CN 202310546720 A CN202310546720 A CN 202310546720A CN 116664623 A CN116664623 A CN 116664623A
- Authority
- CN
- China
- Prior art keywords
- target
- tracking
- detection
- frame
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 230000007774 longterm Effects 0.000 title claims abstract description 28
- 230000004044 response Effects 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 16
- 230000008034 disappearance Effects 0.000 abstract description 10
- 230000000007 visual effect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明涉及基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,提出了一种联合跟踪与检测的目标跟踪策略,当视频序列中待跟踪目标被完全遮挡或离开视野区域,即目标消失时,传统的基于孪生网络的目标跟踪算法往往无法定位重新出现的目标,本发明使用目标消失判别模块判断出目标已经消失后,选择改用目标检测器进行全图检测,目标重新出现时,检测器给出所有同类对象,通过比较与模板的相似度找到待跟踪目标,并重新启用跟踪器;使用以上方法可以避免目标消失导致的跟踪失败的问题,提高跟踪精度与成功率。
Description
技术领域
本发明涉及视频目标跟踪领域,具体的说是一种基于孪生网络联合跟踪与检测的视频目标跟踪方法。
背景技术
视频目标跟踪技术是根据视频序列在第一帧给出的任意待跟踪物体边界框信息,对后续帧中同一目标的边界框进行位置和尺度预测,被广泛应用于自动驾驶、视频监控和人机交互等领域。传统的基于相关滤波的方法使用手工特征建立滤波模板并在线更新,如方向梯度直方图(Histogram Of Oriented Gradient,HOG)、Haar-like特征和局部二值特征(Local Binary Pattern,LBP)等,其先给出一系列候选框,然后将所有的候选框与滤波模板作相关运算,得到每个候选框的置信度,置信度最高的候选框即为目标位置。
近年来,随着计算机性能飞速提升,深度学习技术快速发展,深度特征被应用到目标跟踪领域中,虽然在跟踪精度上有所提升,但深度网络的反向传播过程计算量巨大,导致计算量剧增,无法满足实时性要求。孪生网络的出现很好的平衡了跟踪精度和速度,基于孪生网络(Siamese Network)的目标跟踪算法已成为视频目标跟踪领域的一个重要研究方向。在基于深度学习的目标跟踪算法中,基于孪生网络的目标跟踪算法使用孪生网络结构建立目标跟踪模型,调整参数并训练适合的跟踪器,从而完成目标跟踪任务,具有良好的性能。孪生网络是指具有相同或相似结构的两个并行网络,拥有模板和搜索两个分支呈Y型结构,最大的特点是共享权重,即两个网络在推理时,不同的输入通过同样的特征提取网络,输入之间相似度越高,得到的特征就越相似。基于孪生网络的相关算法早在20世纪90年代就被应用于模板匹配、相似性度量等任务,由于视频目标跟踪任务可以被看作连续执行的模板匹配任务,使用孪生网络来执行目标跟踪任务成为可能。
随着短期目标跟踪任务的逐渐饱和,长期目标跟踪任务逐渐进入人们视野,在实际应用中,更多是进行长期目标跟踪任务而不是短期目标跟踪任务。长期跟踪任务的挑战在于,由于视频序列较长,目标的外观特征会不断变化,在跟踪持续一段时间后,目标的特征会与初始状态截然不同。除此之外,不断移动的目标会频繁出现被遮挡、目标消失、背景杂乱、较大形变等情况,这些情况的出现导致长期目标跟踪的难度大幅增加。在上述挑战中,目标消失是最具挑战性的问题之一。目标消失是指,在某段时间内①目标被其他物体遮挡②移出相机视野范围,当目标重新出现时,跟踪器需要及时发现并重新定位目标位置。若目标消失较长时间,目标的位置、尺度、形态、颜色等特征一般会产生较大变化,造成跟踪器无法有效更新,从而跟踪失败,在这种情况下,重新定位目标将是巨大的挑战,而在实际的跟踪任务中,目标消失这种情况经常发生在长期跟踪任务中,和短期跟踪任务相比,长期跟踪更容易出现遮挡、形变、背景杂乱等挑战。在执行长期跟踪任务时,当出现目标消失情况时,若没有及时采取对策,目标重新出现时无法重新跟踪到目标位置,会导致出现大段错误的跟踪数据,大幅降低跟踪算法的精度与成功率。
目前需要本领域技术人员迫切解决的一个技术问题是:如何在目标消失时及时发现并合理应对,目标重新出现时及时准确地定位目标位置,提高跟踪算法的准确性与鲁棒性。
发明内容
针对现有技术的缺陷,本发明提供一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法(ALong-Term Visual Tracking Algorithm Based on Siamese NetworkUsing Joint Tracking and Detection Strategy,SiamTD),使用以上方法可以避免目标消失导致的跟踪失败的问题,提高跟踪精度与成功率。
为了达到上述目的,本发明所采用的技术方案是:一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,包括如下步骤:
S1、根据视频序列第一帧输入图片I和边界框信息B裁剪出模板Z,根据第二帧输入图片Ii裁剪出搜索区域Xi,i∈[2,n],其中n为视频序列总帧数;
S2、将Z和Xi送入离线预训练好的孪生网络提取特征,得到特征φ(Z)和φ(Xi);将特征分别通过RPN网络,分类分支与回归分支分别输出17×17×10和17×17×20的两个响应图,记为S1和S2;
S3、将S1和S2输入TDS模块,判断目标是否消失;若目标存在,则输出T信号,表示下一帧继续使用跟踪器;若目标消失,则输出D信号,表示下一帧开始使用检测器。
S4、若步骤S3中判断目标存在,则对响应图S1添加余弦窗与尺度惩罚,限制较大位移,取响应值最大处的索引,并在S2中找到相同索引对应的数据,换算为新预测框的位置与尺度,即为当前帧的跟踪结果。
S5、若在某帧跟踪开始时跟踪信号为D,说明上一帧目标消失,为了判断目标是否重新出现,当前帧需要使用检测器;对图像进行缩放并将其分割为480×640×3后输入检测器,得到三个特征;将三个特征输入TDS模块,若目标出现,则输出T信号并对三个特征做非极大值抑制(Non-Maximum Suppression,NMS)操作剔除冗余的候选框,输出检测结果,通过计算与模板的余弦相似度,将相似度最大者作为被跟踪目标,输出T信号并从下一帧开始使用跟踪器;若目标没有出现,则输出D信号并跳过NMS操作,直接进入下一帧并继续使用检测器。
进一步地,步骤S2中所述的孪生网络拥有模板分支和搜索分支两大分支,两大分支网络结构均采用修改后的AlexNet,并且网络参数共享。
进一步地,步骤S3中的TDS模块用来判断当前帧目标是否消失,并对不同情况使用不同跟踪方式,具体实施步骤为:
将S2中得到的S1和S2输入TDS模块,从S1中每个锚框的输出结果中提取出存放目标概率的响应图,得到17×17×5的得分图,对得分图进行全局最大池化(Global MaxPooling,GMP)操作,找到响应最大的部分作为感兴趣区域,若该区域的目标得分超过阈值,则认为当前帧存在被跟踪的目标,TDS模块会输出T信号,并执行步骤S4;若结果小于阈值,则判定当前帧没有目标,输出D信号后直接进入下一帧,使用检测器寻找目标。
其中,步骤S3中的跟踪器阈值用来判断当前帧目标是否存在,设定为一个5维列向量,具体值为[0.648,0.523,0.5,0.523,0.648]。
进一步地,步骤S5中的TDS模块在使用检测器的情况下的步骤如下:
S5.1、在提取检测器的响应图时,只提取记录特定类别的响应以及置信度的特征层,例如,当前序列的目标为“bird”类别,则只提取记录“bird”分类得分的特征层以及记录当前区域存在目标的概率的置信度层;由于在同一序列中,目标类别不会发生变化,将分类得分矩阵与对应的置信度矩阵逐元素相乘作为最终得分。
S5.2、对提取后的响应图进行GMP操作,得到的结果若小于阈值,则判定没有目标,输出D信号并从下一帧开始;若大于阈值,则使用NMS操作得到检测结果,计算所有疑似目标与模板图像之间的余弦相似度,选择相似度最大的检测作为跟踪结果,输出T信号,表示下一帧使用跟踪器。
余弦相似度计算过程如下,计算第i个检测与模板的相似度Si,将第i个检测缩放为模板大小并转为灰度图像,展平为一个一维列向量,设为Di,R为模板图像转为灰度图像并展平后得到的一维列向量,||Di||和||R||为两者的二范数;余弦相似度:
有益效果:本发明提供的视频目标跟踪方法,基于孪生网络联合跟踪算法与检测算法,为了避免在长期跟踪任务中目标消失导致跟踪失败,提出了联合跟踪与检测的目标跟踪策略,通过TDS模块判断目标是否消失或重新出现,交替使用跟踪器与检测器,为了保证跟踪速度,不会在同帧内同时使用跟踪器与检测器;使用本发明的方法能够准确并及时的判断视频序列中目标是否消失,并作出相应对策,提高视频目标长期跟踪的准确性和鲁棒性。
附图说明
图1是本发明中的跟踪算法网络结构示意图;
图2是本发明中使用的跟踪器结构示意图;
图3是本发明中使用的TDS模块结构示意图;
图4是孪生网络中各层参数说明;
图5是在OxUvA数据集仿真实验中,本发明方法(SiamTD)与官方提供部分方法的长期跟踪性能对比图;
图6是在UAV20L数据集仿真实验中本发明方法(SiamTD)与其他部分方法的精度和成功率对比图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
本发明提供一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法(ALong-Term Visual Tracking Algorithm Based on Siamese Network Using Joint Trackingand Detection Strategy,SiamTD),当视频序列中待跟踪目标被完全遮挡或离开视野区域,即目标消失时,传统的基于孪生网络的目标跟踪算法无法定位重新出现的目标,本发明的SiamTD使用目标消失判别模块(Tracker or Detector Switch Module,TDS)判断出目标已经消失后,选择改用目标检测器进行全图检测,目标重新出现时,检测器给出所有同类对象,通过比较与模板的相似度找到待跟踪目标,并重新启用跟踪器,使用该方法可以避免目标消失导致的跟踪失败的问题,提高跟踪精度与成功率
如图1-4所示,一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,具体包括以下步骤S1至S5。
S1、根据视频序列第一帧输入图片I和边界框信息B裁剪出模板Z,根据第二帧输入图片Ii裁剪出搜索区域Xi,i∈[2,n],n指的视频总帧数,即从第二帧开始,每一帧都要用相同的方式裁剪出搜索区域;
S2、将Z和Xi送入离线预训练好的孪生网络提取特征,得到特征φ(Z)和φ(Xi);将特征分别通过RPN网络,分类分支与回归分支分别输出17×17×10和17×17×20的两个响应图,记为S1和S2;
步骤S2中孪生网络拥有模板分支和检测分支两大分支,两大分支网络结构均采用修改后的AlexNet(Alex网络是由Alex Krizhevsky等人在2012年提出的一种卷积神经网络结构,我们在此基础上进行修改,移除原始网络结构中的全连接层和padding操作,调整网络步长为8以获取较大的感受野,使其符合本方法的需求),并且网络参数共享,网络结构见图1,网络参数可参考图4。其具体训练步骤为:
S2.1、对ILSRVC2015数据集进行预处理,在同一视频序列中取出间隔为t的两帧,t介于1~5之间;根据标注信息,以目标为中心分别裁剪两帧图片到127×127和255×255尺寸,记为Z和X,作为模板分支和搜索分支的输入。
S2.2、将从S2.1得到的处理后的两帧图片Z和X送入孪生网络中进行特征提取,得到6×6×256和22×22×256的特征图φ(Z)和φ(X),将它们送入RPN网络。
S2.3、RPN网络分为分类分支和回归分支两部分。在分类分支中,φ(Z)经过卷积操作后,通道数从256上升到256×2k,尺寸变为4×4×(2k×256),其中k为锚框数量,本文选定k=5,宽高比(aspect ratios)为(0.33,0.5,1,2,3),2k代表锚框只区分目标与背景;φ(X)经过卷积核后通道数不变,特征图尺寸变为20×20×256;至于回归分支,经过卷积操作后,φ(X)特征图尺寸变为20×20×256,φ(Z)变为4×4×(4k×256)。其中,4k代表每个锚框需要四个数据,即中心偏移量x、y与尺度w、h,经过训练后的回归分支可以更精确地描述目标的位置。
S2.4、分别将分类与回归分支中的模板特征图作为卷积核与搜索特征图进行卷积,在分类分支中做softmax操作得到17×17×2k的响应图,代表搜索区域中各区域的每个锚框是目标还是背景,记作S1;回归分支可得到17×17×4k的响应图,代表各个锚框与搜索区域中边界框的相对位置与边界框大小,记作S2。
S2.5、计算分类损失Lcls:根据输入图片的标记信息生成大小为17×17的矩阵作为样本标签G1,矩阵中的每个元素为{+1,-1},代表正负样本,距离目标中心小于一定距离的被设定为正样本,反之为负样本,将步骤S2.4得到的响应图S1归一化为S1′,将G1和S1′作为二进制交叉熵损失函数(Binary Cross Entropy)的两个输入,其中损失函数定义如下:
l(y,x)=l+g(1+exp(-yx))
其中,y为样本标签,是大小为17×17的标签矩阵G1中的一个元素,取值为{+1,-1};x表示响应图S1′中的一个元素;D表示归一化后的响应图S1′所包含的整体样本空间;u表示x在S1′中的位置索引;((y,x)表示对于单个样本的损失函数,在这里指的是交叉熵损失函数;
Lcls(G1,S1′)表示总体样本的损失函数,在这里指的是单个样本损失的平均值,同时采用L2正则化来防止过拟合,其中w为各层网络权重,λ为正则化系数,取值为0.01。
S2.6、计算回归损失Lr9g:根据输入图片的标注数据得到G2(gcx,gcy,gw,gh),分别表示当前图像目标的实际位置(gcx,gcy)与大小(gw,gh),定义AcB、Acy、Aw、Ah为预测出的中心坐标与尺寸,归一化后的单样本损失表示为:
回归损失使用smooth L1损失,如下:
S2.7、计算整体损失,将分类损失与回归损失加权求和,权重记为λ,整体损失为:
L=Lcls+λLr9g。
S2.8、对网络参数进行符合正态分布的随机初始化,设置批处理大小为32,学习率为0.01,使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练30次优化网络参数并保存每次迭代的结果。
S2.9、对迭代10~30次的结果在OxUvA数据集上进行测试,选取最优模型作为最终训练结果。
S3、将S1和S2输入TDS模块中,判断目标是否消失;若目标存在,则输出T信号,表示下一帧继续使用跟踪器;若目标消失,则输出D信号,表示下一帧开始使用检测器;
步骤S3中的TDS模块用来判断当前帧目标是否消失,并对不同情况使用不同跟踪方式,具体实施步骤为:
将S2中得到的S1和S2输入TDS模块,从S1中每个锚框的输出结果中提取出存放目标概率的响应图,得到17×17×5的得分图,对得分图进行全局最大池化(Global MaxPooling,GMP)操作,找到响应最大的部分作为感兴趣区域,若该区域的目标得分超过阈值,则认为当前帧存在被跟踪的目标,TDS模块会输出T信号,并执行步骤S4;若结果小于阈值,则判定当前帧没有目标,输出D信号后直接进入下一帧,使用检测器寻找目标。
其中,步骤S3中的跟踪器阈值用来判断当前帧目标是否存在,设定为一个5维列向量,具体值为[0.648,0.523,0.5,0.523,0.648]。
S4、若步骤S3中判断目标存在,则对响应图S1添加余弦窗与尺度惩罚,限制较大位移,取响应值最大处的的索引,并在S2中找到相同索引对应的数据,换算为新预测框的位置与尺度,即为当前帧的跟踪结果。
S5、若在某帧跟踪开始时跟踪信号为D,说明上一帧目标消失,为了判断目标是否重新出现,当前帧需要使用检测器。对图像进行缩放并将其分割为480×640×3后输入检测器,得到三个特征;将三个特征输入TDS模块,若目标出现,则输出T信号并对三个特征做非极大值抑制(Non-Maximum Suppression,NMS)操作剔除冗余的候选框,输出检测结果,通过计算与模板的余弦相似度,将相似度最大者作为被跟踪目标,输出T信号并从下一帧开始使用跟踪器;若目标没有出现,则输出D信号并跳过NMS操作,直接进入下一帧并继续使用检测器;步骤S5具体为:
S5.1、在提取检测器的响应图时,只提取记录特定类别的响应以及置信度的特征层,例如,当前序列的目标为“bird”类别,则只提取记录“bird”分类得分的特征层以及记录当前区域存在目标的概率的置信度层。由于在同一序列中,目标类别不会发生变化,将分类得分矩阵与对应的置信度矩阵逐元素相乘作为最终得分。
S5.2、对提取后的响应图进行GMP操作,得到的结果若小于阈值,则判定没有目标,输出D信号并从下一帧开始;若大于阈值,则使用NMS操作得到检测结果,计算所有疑似目标与模板图像之间的余弦相似度,选择相似度最大的检测作为跟踪结果,输出T信号,表示下一帧使用跟踪器。
步骤S5.2中的阈值要求具体为,设定为3维列向量,具体值为[0.64,0.64,0.64]。
步骤S5.2中余弦相似度计算过程如下,计算第i个检测与模板的相似度Si,将第i个检测缩放为模板大小并转为灰度图像,展平为一个一维列向量,设为Di,R为模板图像转为灰度图像并展平后得到的一维列向量,||Di||和||R||为两者的二范数,则
上述S1-S4为使用跟踪器的目标跟踪过程,S5为使用检测器的跟踪过程,通过TDS模块的判断,根据情况选择使用跟踪器或检测器,达到避免目标消失导致跟踪失败的效果,构成完整的目标跟踪过程,在实际的目标跟踪过程中,通过重复步骤S1-S5,完成整个目标跟踪,目标跟踪的边界框信息由其中的步骤S4与步骤S5得到。
以下通过仿真实验对本发明的效果进行验证,仿真实验采用OxUvA和UAV20L数据集,与OxUvA官方提供的部分开源方法进行对比。
其中,SiamTD即本发明的方法,本发明仿真实验中用到的官方提供的方法包括以下9种:
1.TLD(基于检测的在线学习视频目标跟踪方法),参见文献[1].Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions onSoftware Engineering,2011,34(7):1409-1422.
2.SiamFC(基于孪生网络的全卷积视频目标跟踪方法),参见文献[2]BertinettoL,Valmadre J,Henriques J F,et al.Fully-Convolutional Siamese Networks forObject Tracking[J].2016.
3.LCT(长期相关性跟踪方法),参见文献[3].Chao M,Yang X,Zhang C,etal.Long-term correlation tracking[C],2015IEEE Conference on Computer Visionand Pattern Recognition(CVPR).IEEE,2015.
4.MDNet(基于多视频序列学习的视觉目标跟踪算法),参见文献[4].Nam H,HanB.Learning Multi-Domain Convolutional Neural Networks for Visual Tracking[J].IEEE,2016.
5.SINT(基于孪生网络模板匹配的视频目标跟踪方法),参见文献[5].[1]RanTao,Efstratios Gavves,Arnold W.M.Smeulders.Siamese Instance Search forTracking.[J].CoRR,2016,abs/1605.05863.
6.ECO-HC(基于高效卷积网络的目标跟踪方法),参见文献[6].Danelljan M,BhatG,Khan F S,et al.ECO:Efficient Convolution Operators for Tracking:IEEEComputer Society,10.1109/CVPR.2017.733[P].2016.
7.EBT(基于快速全局检测的视频目标跟踪方法),参见文献[7].Zhu G,PorikliF,Li H.Beyond Local Search:Tracking Objects Everywhere with Instance-SpecificProposals:IEEE,10.1109/CVPR.2016.108[P].2016.
8.BACF(基于上下文信息的视频目标跟踪方法),参见文献[8].Galoogahi H K,Fagg A,Lucey S.Learning Background-Aware Correlation Filters for VisualTracking[J].IEEE Computer Society,2017.
9.Staple(基于互补学习器的目标跟踪方法),参见文献[9].Bertinetto L,Valmadre J,Golodetz S,et al.Staple:Complementary Learners for Real-TimeTracking[C]//Computer Vision&Pattern Recognition.IEEE,2016.
10.SiamRPN(基于孪生网络与区域建议网络的目标跟踪方法),参见文献[10].BoL,Yan J,Wei W,et al.High Performance Visual Tracking with Siamese RegionProposal Network[C]//2018IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).IEEE,2018.
11.DaSiamRPN(基于孪生网络与干扰感知的目标跟踪方法),参见文献[11].ZhengZhu,Qiang Wang,Bo Li,Wei Wu,Junjie Yan,and Weiming Hu.Distractor-awaresiamese networks for visual object tracking.In European Conference onComputer Vision,pages 101–117,2018.
12.SiamBAN(基于孪生网络的自适应边界框目标跟踪方法),参见文献[12].ChenZ,Zhong B,Li G,et al.Siamese Box Adaptive Network for Visual Tracking[J].2020.
仿真实验结果参考附图5和附图6,图5为在UAV20L数据集上的预测精度和成功率对比图,图5中左图横坐标表示算法估计的目标位置(bounding box)的中心点与人工标注(ground truth)的目标的中心点距离阈值,纵轴表示小于此阈值的帧数所占总帧数百分比,即预测精度;图5中右图横坐标表示算法估计的目标边界框面积与人工标注(groundtruth)的目标的边界框的重合率阈值,纵轴表示大于此阈值的帧数所占总帧数比例,即成功率,从图5可以看出,在UAV20L数据集上,本发明所述方法的预测精度和成功率整体上优于其他算法。
图6为SiamTD与其他算法在OxUvA数据集上的评估结果对比图,其中上图评估了跟踪器对目标消失情况的判断精度,设定目标存在且跟踪器判断正确为True Positive(TP),目标消失且跟踪器判断正确为True Negative(TN),纵坐标和横坐标分别为标记为TP与TN的帧数占总帧数的比例,记为TPR与TNR,TNR与TPR越高代表跟踪质量越高,MaxGM同时考虑了这两个指标;图例中的数值表示综合评估结果,计算公式如下:
图6的其他两图(中间图和下图)评估了跟踪器的长期跟踪性能,横坐标分别代表(0,x)分钟与(x,10)分钟,纵坐标代表目标在这段时间内的跟踪精度,根据图示结果可知,本发明方法跟踪器的长期跟踪性能明显优于参与对比的其他算法。
根据仿真实验结果可以证明,在UAV20L和OxUvA数据集上,本发明方法(SiamTD)的预测精度和成功率均优于参与性能对比的其他几种算法,且本方法在长期跟踪任务上也具有一定优势;另外本发明不在同一帧同时使用跟踪器与检测器,保证了跟踪速度为最低74fps。综上,本发明在保证跟踪速度的前提下解决了长期跟踪中目标消失导致跟踪失败的问题,提高了跟踪器的成功率与精度。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于包括如下步骤:
S1、根据视频序列第一帧输入图片I和边界框信息B裁剪出模板Z,根据第二帧输入图片Ii裁剪出搜索区域Xi,i∈[2,n];
S2、将Z和Xi送入离线预训练好的孪生网络提取特征,得到特征φ(Z)和φ(Xi);将特征分别送入RPN网络,通过分类分支与回归分支分别输出17×17×10和17×17×20的两个响应图,记为S1和S2;
S3、将S1和S2输入TDS模块,判断目标是否消失;若目标存在,则输出T信号,表示下一帧继续使用跟踪器;若目标消失,则输出D信号,表示下一帧开始使用检测器;
S4、若步骤S3中判断目标存在,则对响应图S1添加余弦窗与尺度惩罚,限制较大位移,取响应值最大处的的索引,并在S2中找到相同索引对应的数据,换算为新预测框的位置与尺度,即为当前帧的跟踪结果;
S5、若在某帧跟踪开始时跟踪信号为D,说明上一帧目标消失,为了判断目标是否重新出现,当前帧需要使用检测器;对图像进行缩放并将其分割为480×640×3后输入检测器,得到三个特征;将三个特征输入TDS模块,若目标出现,则输出T信号并对三个特征做非极大值抑制(Non-Maximum Suppression,NMS)操作剔除冗余的候选框,输出检测结果,通过计算与模板的余弦相似度,将相似度最大者作为被跟踪目标,输出T信号并从下一帧开始使用跟踪器;若目标没有出现,则输出D信号并跳过NMS操作,直接进入下一帧并继续使用检测器。
2.如权利要求1所述的一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于,步骤S2中所述的孪生网络拥有模板分支和检测分支两大分支,两大分支网络结构均采用修改后的AlexNet,并且网络参数共享。
3.如权利要求1所述的一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于,步骤S3中的TDS模块用来判断当前帧目标是否消失,并对不同情况使用不同跟踪方式,具体为,将S2中得到的S1和S2输入TDS模块,从S1中每个锚框的输出结果中提取出存放目标概率的响应图,得到17×17×5的得分图,对得分图进行全局最大池化(Global MaxPooling,GMP)操作,找到响应最大的部分作为感兴趣区域,若该区域的目标得分超过阈值,则认为当前帧存在被跟踪的目标,TDS模块会输出T信号,并执行步骤S4;若结果小于阈值,则判定当前帧没有目标,输出D信号后直接进入下一帧,使用检测器寻找目标。
4.如权利要求3所述的一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于,步骤S3中的跟踪器阈值用来判断当前帧目标是否存在,设定为一个5维列向量,具体值为[0.648,0.523,0.5,0.523,0.648]。
5.如权利要求3所述的一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于,步骤S5中的TDS模块在使用检测器的情况下的步骤如下:
S5.1、在提取检测器的响应图时,只提取记录特定类别的响应以及置信度的特征层;由于在同一序列中,目标类别不会发生变化,将分类得分矩阵与对应的置信度矩阵逐元素相乘作为最终得分;
S5.2、对提取后的响应图进行GMP操作,得到的结果若小于阈值,则判定没有目标,输出D信号并从下一帧开始;若大于阈值,则使用NMS操作得到检测结果,计算所有疑似目标与模板图像之间的余弦相似度,选择相似度最大的检测作为跟踪结果,输出T信号,表示下一帧使用跟踪器。
6.如权利要求5所述的一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于,步骤S5中的余弦相似度计算过程如下,计算第i个检测与模板的相似度Si,将第i个检测缩放为模板大小并转为灰度图像,展平为一个一维列向量,设为Di,R为模板图像转为灰度图像并展平后得到的一维列向量,||Di||和||R||为两者的二范数;则余弦相似度为:
7.如权利要求5所述的一种基于孪生网络联合跟踪与检测的视频目标长期跟踪方法,其特征在于,步骤S5.2中的阈值要求具体为,设定为3维列向量,具体值为[0.64,0.64,0.64]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310546720.7A CN116664623A (zh) | 2023-05-16 | 2023-05-16 | 基于孪生网络联合跟踪与检测的视频目标长期跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310546720.7A CN116664623A (zh) | 2023-05-16 | 2023-05-16 | 基于孪生网络联合跟踪与检测的视频目标长期跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664623A true CN116664623A (zh) | 2023-08-29 |
Family
ID=87714504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310546720.7A Pending CN116664623A (zh) | 2023-05-16 | 2023-05-16 | 基于孪生网络联合跟踪与检测的视频目标长期跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664623A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102706116B1 (ko) * | 2023-12-29 | 2024-09-13 | 주식회사 인피닉 | 인공지능을 이용한 객체 검색 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
-
2023
- 2023-05-16 CN CN202310546720.7A patent/CN116664623A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102706116B1 (ko) * | 2023-12-29 | 2024-09-13 | 주식회사 인피닉 | 인공지능을 이용한 객체 검색 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110135500B (zh) | 一种基于自适应深度特征滤波器的多场景下目标跟踪方法 | |
CN111259850A (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN107016689A (zh) | 一种尺度自适应的相关滤波对冲目标跟踪方法 | |
CN110084836B (zh) | 基于深度卷积特征分层响应融合的目标跟踪方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN111914664A (zh) | 基于重识别的车辆多目标检测和轨迹跟踪方法 | |
CN109461172A (zh) | 人工与深度特征联合的相关滤波视频自适应跟踪方法 | |
CN108961308B (zh) | 一种漂移检测的残差深度特征目标跟踪方法 | |
CN111582349B (zh) | 一种基于YOLOv3和核相关滤波改进的目标跟踪算法 | |
CN109146911A (zh) | 一种目标跟踪的方法及装置 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN107067413A (zh) | 一种时空域统计匹配局部特征的运动目标检测方法 | |
CN108564598B (zh) | 一种改进的在线Boosting目标跟踪方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN110276784B (zh) | 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN107609571A (zh) | 一种基于lark特征的自适应目标跟踪方法 | |
CN111640138A (zh) | 一种目标跟踪方法、装置、设备及存储介质 | |
CN111814705A (zh) | 一种基于批次分块遮挡网络的行人再辨识方法 | |
CN116664623A (zh) | 基于孪生网络联合跟踪与检测的视频目标长期跟踪方法 | |
CN115661754A (zh) | 一种基于维度融合注意力的行人重识别方法 | |
Wang et al. | Exploiting rank-based filter pruning for real-time uav tracking | |
CN111027427B (zh) | 一种用于小型无人机竞速比赛的目标门检测方法 | |
CN115311327A (zh) | 融合共现统计与fhog梯度特征的目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |