[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110135365B - 基于幻觉对抗网络的鲁棒目标跟踪方法 - Google Patents

基于幻觉对抗网络的鲁棒目标跟踪方法 Download PDF

Info

Publication number
CN110135365B
CN110135365B CN201910418050.4A CN201910418050A CN110135365B CN 110135365 B CN110135365 B CN 110135365B CN 201910418050 A CN201910418050 A CN 201910418050A CN 110135365 B CN110135365 B CN 110135365B
Authority
CN
China
Prior art keywords
samples
target
sample
deformation
countermeasure network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910418050.4A
Other languages
English (en)
Other versions
CN110135365A (zh
Inventor
王菡子
吴强强
严严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910418050.4A priority Critical patent/CN110135365B/zh
Publication of CN110135365A publication Critical patent/CN110135365A/zh
Application granted granted Critical
Publication of CN110135365B publication Critical patent/CN110135365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

基于幻觉对抗网络的鲁棒目标跟踪方法,涉及计算机视觉技术。首先提出一种新的幻觉对抗网络,旨在于学习样本对间的非线性形变,并将学习到的形变施加在新目标以此来生成新的目标形变样本。为了能有效训练所提出的幻觉对抗网络,提出形变重构损失。基于离线训练的幻觉对抗网络,提出基于幻觉对抗网络的目标跟踪方法,该方法能有效缓解深度神经网络在目标跟踪过程中由于在线更新发生的过拟合问题。此外,为了能进一步提升形变迁移质量,提出选择性性变迁移方法,进一步提升了跟踪精度。提出的目标跟踪方法在当前主流目标跟踪数据集上取得了具有竞争力的结果。

Description

基于幻觉对抗网络的鲁棒目标跟踪方法
技术领域
本发明涉及计算机视觉技术,尤其是涉及一种基于幻觉对抗网络的鲁棒目标跟踪方法。
背景技术
近几年,深度神经网络在计算机视觉领域的应用取得了巨大成功。目标跟踪作为计算机视觉领域的基础问题之一,其在当前许多计算机视觉任务中均扮演了十分重要的角色,如无人驾驶、增强现实、机器人等领域。近来,基于深度神经网络的目标跟踪算法研究受到了国内外研究者的广泛关注。然而,与其他计算机视觉任务所不同(如目标检测和语义分割),深度神经网络在目标跟踪任务中的应用仍然十分的有效,主要原因为目标跟踪任务本身存在一定的特殊性,其缺少多样化的在线目标训练样本,因此极大地限制了深度神经网络的泛化性,进而影响跟踪结果。同时,目标跟踪任务旨在于跟踪任意目标,其对于要跟踪的目标不提前给出任何先验知识,这一点也对于深度神经网络离线训练数据集的选择带来了巨大挑战。因此,提出一个具有强泛化性的基于深度神经网络的目标跟踪算法具有重要的现实意义。
为了缓解上述问题,当前国内外的研究者们主要提出了两种类型的解决方法。第一类方法将目标跟踪任务看作是一个模板匹配的问题,其具体实现往往采用深度孪生网络,将目标模板和搜索区域同时作为深度孪生网络的输入,最后得到搜索区域中与目标模板最为相似的子区域位置。基于相似度计算的深度孪生网络可以通过使用大量标注的目标跟踪数据集进行完全离线的训练,因此其可以避免由于在线训练样本过少所带来的过拟合问题。在基于深度孪生网络的目标跟踪算法中,其开创性的算法为SiamFC。基于SiamFC,研究者们提出了许多改进算法,其包括使用区域建议窗口生成网络的SiamRPN、使用动态记忆网络的MemSiamFC、使用更深层次骨架网络的SiamRPN++等。由于SiamFC类型的跟踪算法能避免耗时的在线训练步骤,因此其往往能达到远超实时的跟踪速度。然而,由于此类算法缺少对于目标表观变化在线学习的过程,其精度仍然较为受限(如在OTB数据集上的精度结果)。研究者们所提出的另一类方法旨在于利用有限的在线样本来学习鲁棒的神经网络分类器。此类方法的一般思路为使用迁移学习领域的方法来缓解过拟合问题,其较为代表性的方法为H.Nam等人于2016年提出的MDNet。MDNet首先使用多域离线学习来学习较好的分类器初始模型参数,然后在跟踪过程中,通过收集目标的正负样本来进一步训练分类器。近来,基于MDNet,研究者们提出了使用对抗学习的VITAL、学习不同层次目标表征的BranchOut、使用RNN的SANet等。相比于前一类方法,此类方法比上一类方法能达到更高的跟踪精度。然而,由于极为有限的在线样本(尤其是目标样本),使得此类方法的在线学习十分受限,仍易造成过拟合的问题,进而影响跟踪性能。因此,设计一种简单有效的方法来缓解深度目标跟踪算法在跟踪过程中发生的过拟合问题,具有非常重大的意义。
与当前的目标跟踪算法相比,人类可以轻而易举的对移动的目标进行跟踪。虽然人脑的机制到目前为止还没被完全的探索清楚,但我们可以确定的是通过人类以前的学习经历,人脑衍生出了无与伦比的想象机制。人类可以从平时看到的各类事物中学习到相似的动作或变换,从而将这种相似的变换施加到不同的目标,以此想象出新的目标在不同姿态或动作下的样子。这样的想象机制与机器学习中的数据增强方法极为的类似,人脑可以类比为一个视觉分类器,然后使用想象机制来得到不同状态下的目标样本,从而训练出一个鲁棒的视觉分类器。
发明内容
本发明的目的在于提供基于幻觉对抗网络的鲁棒目标跟踪方法。
本发明包括以下步骤:
1)在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合;
在步骤1)中,所述在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合具体过程可为:标记视频序列收集大量目标样本对,一对样本包含同一个目标;在视频序列a中,首先在第t帧选取目标样本
Figure BDA0002065066300000021
然后在后20帧内随机选取一帧中的目标样本作为
Figure BDA0002065066300000022
用于构成一组形变样本对
Figure BDA0002065066300000023
选取大量的形变样本对构成训练样本集合;所述数据集为Fei-Fei Li等人在2015年提出的ILSVRC-2015视频目标检测数据集。
2)对步骤1)中所得到的训练样本集合中的所有样本进行特征提取,得到训练样本特征集合;
在步骤2)中,所述特征提取的步骤可为:首先将目标样本使用双线形插值方法改变大小至107×107×3,然后使用神经网络特征提取器φ(·)对所有插值后的目标样本进行特征提取;所述特征提取器φ(·)的结构可为在Imagenet数据集上预训练的VGG-M模型的前三层卷积层。
3)使用步骤2)中得到的训练样本特征集合、对抗损失和所提出的形变重构损失来离线训练所提出的幻觉对抗网络;
在步骤3)中,所述训练的过程可为:首先从训练样本特征集合中选取两组训练样本特征对,表示为
Figure BDA0002065066300000031
Figure BDA0002065066300000032
使用幻觉对抗网络学习
Figure BDA0002065066300000033
Figure BDA0002065066300000034
间的形变,并将此形变施加到
Figure BDA0002065066300000035
用以生成关于目标b新的形变样本,使用对抗损失保证生成的样本分布与目标b分布相近:
Figure BDA0002065066300000036
其中,
Figure BDA0002065066300000037
En和De分表表示所提出的对抗幻想器中的编码器和解码器部分;为了使得生成样本有效编码形变za,提出形变重构损失对生成样本进行约束:
Figure BDA0002065066300000038
其中,
Figure BDA0002065066300000039
最终,用于离线训练所提出的幻觉对抗网络的总损失函数为:
lall=ladv+λldef, (公式三)
其中,λ为用于平衡两项损失的超参数;
所述幻觉对抗网络的离线训练可包括以下子步骤:
3.1公式(三)中的参数λ设置为0.5;
3.2在训练中,使用的优化器为Adam(D.P.Kingma,and J.L.Ba,“Adam:A methodfor stochastic optimization,”in Proceedings of the International Conferenceon Learning Representations,2014),迭代次数为5×105,学习率为2×10-4
3.3所提出的幻觉对抗网络的编码器和解码器结构均为隐层节点数为2048的三层感知机,编码器输入层节点为9216,编码器输出层节点为64;解码器输入层节点为4672;判别网络同样为隐层节点数为2048的三层感知机,其输入节点数为9216,输出节点数为1。
4)给定测试视频中的第一帧标注图像,采集目标样本,并在目标样本周围采用高斯和随机采样方式进行正负样本的采样;
在步骤4)中,所述采样的细节可为:在每一次迭代训练中,正负样本比例按照1︰3的比例进行采样,即32个正样本和96个负样本,正样本判定标准为所采样样本和目标样本的区域重叠率大于0.7,负样本的判定标准为所采样样本和目标样本的区域重叠率低于0.5。
5)使用所提出的选择性形变迁移方法对跟踪目标进行待迁移样本对的选择;
在步骤5)中,所述待迁移样本对的选择的过程可为:定义Ns表示用于收集形变样本对的数据集中视频片断的数目,si为视频片断的身份标识,其中,
Figure BDA0002065066300000041
Figure BDA0002065066300000042
表示视频片断si中对应样本的个数;对于视频片断si的特征表达ψ(si),可以通过如下方式计算得到:
Figure BDA0002065066300000043
其中,
Figure BDA0002065066300000044
为深度特征提取器,对于目标特征
Figure BDA0002065066300000045
计算其余每个视频片断表征ψ(si)间的欧式距离,选取距离最近的T个视频片断;在选择的T个视频片断中,采用与步骤1)中相同的方式收集大量的形变样本对,构成集合DS,用于后续目标形变迁移;
所述选择性形变迁移方法可包括以下子步骤:
5.1在计算视频片断的特征表达时,所使用的深度特征提取器
Figure BDA0002065066300000046
为去掉全连接层的ResNet34模型;
5.2在选择相似视频片断时,参数T设置为2×103
6)基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本;
在步骤6)中,所述基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本的具体步骤可为:在每一次迭代训练中,从集合DS随机选择64对样本对,每一对样本对与目标样本输入对抗幻想,生成对应形变样本,最终,对于每一次迭代,共计生成64个正样本。
7)使用空间采样的正负样本和生成的正样本共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络;
在步骤7)中,所述使用空间采样的正负样本和生成的正样本共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络的具体方法可为:将生成的64个正样本、32个空间采样的正样本和96个空间采样的负样本共同输入分类器,计算二分类的交叉熵损失,然后使用Adam优化器,通过反向传播算法同时更新分类器和幻觉对抗网络。
8)给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪;
在步骤8)中,所述给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪的具体过程可为:在当前测试帧,同时使用随机采样和高斯采样在上一帧估计的目标位置处进行样本采样;采样的样本输入分类器得到其对应的目标置信度。
本发明旨在于将人脑的想象机制用于当前基于深度学习的目标跟踪算法,提出一种新的基于幻觉对抗网络的鲁棒目标跟踪方法。本发明首先提出一种新的幻觉对抗网络,旨在于学习样本对间的非线性形变,并将学习到的形变施加在新目标以此来生成新的目标形变样本。为了能有效训练所提出的幻觉对抗网络,提出形变重构损失。基于离线训练的幻觉对抗网络,提出基于幻觉对抗网络的目标跟踪方法,该方法能有效缓解深度神经网络在目标跟踪过程中由于在线更新发生的过拟合问题。此外,为了能进一步提升形变迁移质量,提出选择性性变迁移方法,进一步提升了跟踪精度。本发明提出的目标跟踪方法在当前主流目标跟踪数据集上取得了具有竞争力的结果。
附图说明
图1为本发明实施例的流程示意图。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例包括以下步骤:
A.在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合。具体过程如下:标记视频序列来收集大量目标样本对(一对样本包含同一个目标)。如在视频序列a中,首先在第t帧选取目标样本
Figure BDA0002065066300000051
然后在后20帧内随机选取一帧中的目标样本作为
Figure BDA0002065066300000052
以此来构成一组形变样本对
Figure BDA0002065066300000053
按照上述步骤,选取大量的形变样本对来构成训练样本集合。
B.对步骤A中所得到的训练样本集合中的所有样本进行特征提取,得到训练样本特征集合。特征提取步骤如下:首先将目标样本使用双线形插值方法改变大小至107×107×3,然后使用神经网络特征提取器φ(·)对所有插值后的目标样本进行特征提取。
C.使用步骤B中得到的训练样本特征集合、对抗损失和所提出的形变重构损失来离线训练所提出的幻觉对抗网络。其具体训练过程描述如下:首先从训练样本特征集合中选取两组训练样本特征对,表示为
Figure BDA0002065066300000054
Figure BDA0002065066300000055
使用幻觉对抗网络学习
Figure BDA0002065066300000056
Figure BDA0002065066300000057
间的形变,并将此形变施加到
Figure BDA0002065066300000058
用以生成关于目标b新的形变样本。使用对抗损失保证生成的样本分布与目标b分布相近:
Figure BDA0002065066300000061
其中,
Figure BDA0002065066300000062
En和De分表表示所提出的幻觉对抗网络中的编码器和解码器部分。为了使得生成样本有效编码形变za,提出形变重构损失对生成样本进行约束:
Figure BDA0002065066300000063
其中,
Figure BDA0002065066300000064
最终,用于离线训练所提出的幻觉对抗网络的总损失函数为:
lall=ladv+λldef, (公式三)
其中,λ为用于平衡两项损失的超参数。
D、给定测试视频中的第一帧标注图像,采集目标样本,并在目标样本周围采用高斯和随机采样方式进行正负样本的采样。采样细节描述如下:在每一次迭代训练中,正负样本比例按照1︰3的比例进行采样,即32个正样本和96个负样本。正样本判定标准为所采样样本和目标样本的区域重叠率大于0.7,负样本的判定标准为所采样样本和目标样本的区域重叠率低于0.5。
E、使用所提出的选择性形变迁移方法来对跟踪目标进行待迁移样本对的选择。具体选择过程描述如下:定义Ns表示用于收集形变样本对的数据集中视频片断的数目,si为视频片断的身份标识,其中,
Figure BDA0002065066300000065
Figure BDA0002065066300000066
表示视频片断si中对应样本的个数。对于视频片断si的特征表达ψ(si),可以通过如下方式计算得到:
Figure BDA0002065066300000067
其中,
Figure BDA0002065066300000068
为深度特征提取器。对于目标特征
Figure BDA0002065066300000069
计算其余每个视频片断表征ψ(si)间的欧式距离,选取距离最近的T个视频片断。在选择的T个视频片断中,采用与步骤A中相同的方式收集大量的形变样本对,构成集合DS,用于后续目标形变迁移。
F、基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本。具体生成步骤如下:在每一次迭代训练中,从集合DS随机选择64对样本对,每一对样本对与目标样本输入对抗幻想,生成对应形变样本。最终,对于每一次迭代,共计生成64个正样本。
G、使用空间采样的正负样本和生成的正样本来共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络。具体优化过程如下:将生成的64个正样本、32个空间采样的正样本和96个空间采样的负样本共同输入分类器,计算二分类的交叉熵损失,然后使用Adam优化器,通过反向传播算法同时更新分类器和幻觉对抗网络。
H、给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪。具体过程如下:在当前测试帧,同时使用随机采样和高斯采样在上一帧估计的目标位置处进行样本采样。采样的样本输入分类器得到其对应的目标置信度。
表1为本发明与其他9个目标跟踪算法在OTB-2013数据集上所取得的精度和成功率对比。本发明方法在主流的数据集上取得了优异的跟踪结果。
表1
方法 精度(%) 成功率(%)
本发明 95.1 69.6
VITAL(2018) 92.9 69.4
MCPF(2017) 91.6 67.7
CCOT(2016) 91.2 67.8
MDNet(2016) 90.9 66.8
CREST(2017) 90.8 67.3
MetaSDNet(2018) 90.5 68.4
ADNet(2017) 90.3 65.9
TRACA(2018) 89.8 65.2
HCFT(2015) 89.1 60.5
在表1中:
VITAL对应为Y.Song等人提出的方法(Y.Song,C.Ma,X.Wu,L.Gong,L.Bao,W.Zuo,C.Shen,R.Lau,and M.-H.Yang,“VITAL:VIsual Tracking via Adversarial Learning,”in Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018,pp.8990-8999.)
MCPF对应为T.Zhang等人提出的方法(T.Zhang,C.Xu,and M.-H.Yang,“Multi-Task Correlation Particle Filter for Robust Object Tracking,”in Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2017,pp.4819-4827.)
CCOT对应为M.Danelljan等人提出的方法(M.Danelljan,A.Robinson,F.S.Khan,and M.Felsberg,“Beyond Correlation Filters:Learning Continuous ConvolutionOperators for Visual Tracking,”in Proceedings of the European Conference onComputer Vision,2016,pp.472-488.)
MDNet对应为H.Nam等人提出的方法(H.Nam and B.Han,“Learning Multi-domainConvolutional Neural Networks for Visual Tracking,”in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016,pp.817-825.)
CREST对应为Y.Song等人提出的方法(Y.Song,C.Ma,L.Gong,J.Zhang,R.~W.H.Lau,and M.-H.Yang,“CREST:Convolutional Residual Learning for VisualTracking,”in Proceedings of the IEEE International Conference on ComputerVision,2017,pp.2555-2564.)
MetaSDNet对应为E.Park等人提出的方法(E.Park and A.C.Berg,“Meta-Tracker:Fast and Robust Online Adaptation for Visual Object Trackers,”inProceedings of the European Conference on Computer Vision,2018,pp.569-585.)
ADNet对应为S.Yun等人提出的方法(S.Yun,J.Choi,Y.Yoo,K.Yun,and J.Y.Choi,“Action-decision Networks for Visual Tracking with Deep ReinforcementLearning,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2017,pp.2711-2720.)
TRACA对应为J.Choi等人提出的方法(J.Choi,H.J.Chang,T.Fischer,S.Yun,andJ.Y.Choi,“Context-aware Deep Feature Compression for High-speed VisualTracking,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,pp.479-488)。
HCFT对应为C.Ma等人提出的方法(C.Ma,J.-B.Huang,X.Yang,and M.-H.Yang,“Hierarchical Convolutional Features for Visual Tracking,”in Proceedings ofthe IEEE International Conference on Computer Vision,2015,3074-3082)。

Claims (7)

1.基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于包括以下步骤:
1)在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合;
2)对步骤1)中所得到的训练样本集合中的所有样本进行特征提取,得到训练样本特征集合;
3)使用步骤2)中得到的训练样本特征集合、对抗损失和所提出的形变重构损失来离线训练所提出的幻觉对抗网络;
所述训练的过程为:首先从训练样本特征集合中选取两组训练样本特征对,表示为
Figure FDA0002948010470000011
Figure FDA0002948010470000012
使用幻觉对抗网络学习
Figure FDA0002948010470000013
Figure FDA0002948010470000014
间的形变,并将此形变施加到
Figure FDA0002948010470000015
用以生成关于目标b新的形变样本,使用对抗损失保证生成的样本分布与目标b分布相近:
Figure FDA0002948010470000016
其中,
Figure FDA0002948010470000017
En和De分别表示所提出的对抗幻想器中的编码器和解码器部分;为了使得生成样本有效编码形变za,提出形变重构损失对生成样本进行约束:
Figure FDA0002948010470000018
其中,
Figure FDA0002948010470000019
最终,用于离线训练所提出的幻觉对抗网络的总损失函数为:
Figure FDA00029480104700000110
其中,λ为用于平衡两项损失的超参数;
所述幻觉对抗网络的离线训练包括以下子步骤:
3.1(公式三)中的参数λ设置为0.5;
3.2在训练中,使用的优化器为Adam,迭代次数为5×105,学习率为2×10-4
3.3所提出的幻觉对抗网络的编码器和解码器结构均为隐层节点数为2048的三层感知机,编码器输入层节点为9216,编码器输出层节点为64;解码器输入层节点为4672;判别网络同样为隐层节点数为2048的三层感知机,其输入节点数为9216,输出节点数为1;
4)给定测试视频中的第一帧标注图像,采集目标样本,并在目标样本周围采用高斯和随机采样方式进行正负样本的采样;
5)使用所提出的选择性形变迁移方法对跟踪目标进行待迁移样本对的选择;
所述待迁移样本对的选择的过程为:定义Ns表示用于收集形变样本对的数据集中视频片断的数目,si为视频片断的身份标识,其中,
Figure FDA0002948010470000021
Figure FDA0002948010470000022
表示视频片断si中对应样本的个数;对于视频片断si的特征表达ψ(si),通过如下方式计算得到:
Figure FDA0002948010470000023
其中,
Figure FDA0002948010470000024
为深度特征提取器,对于目标特征
Figure FDA0002948010470000025
计算其余每个视频片断表征ψ(si)间的欧式距离,选取距离最近的T个视频片断;在选择的T个视频片断中,采用与步骤1)中相同的方式收集大量的形变样本对,构成集合DS,用于后续目标形变迁移;
所述选择性形变迁移方法包括以下子步骤:
5.1在计算视频片断的特征表达时,所使用的深度特征提取器
Figure FDA0002948010470000029
为去掉全连接层的ResNet34模型;
5.2在选择相似视频片断时,参数T设置为2×103
6)基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本;
7)使用空间采样的正负样本和生成的正样本共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络;
8)给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪。
2.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤1)中,所述在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合具体过程为:标记视频序列收集大量目标样本对,一对样本包含同一个目标;在视频序列a中,首先在第t帧选取目标样本
Figure FDA0002948010470000026
然后在后20帧内随机选取一帧中的目标样本作为
Figure FDA0002948010470000027
用于构成一组形变样本对
Figure FDA0002948010470000028
选取大量的形变样本对构成训练样本集合;所述数据集为Fei-Fei Li在2015年提出的ILSVRC-2015视频目标检测数据集。
3.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤2)中,所述特征提取的步骤为:首先将目标样本使用双线形插值方法改变大小至107×107×3,然后使用神经网络特征提取器φ(·)对所有插值后的目标样本进行特征提取;所述特征提取器φ(·)的结构为在Imagenet数据集上预训练的VGG-M模型的前三层卷积层。
4.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤4)中,所述采样的细节为:在每一次迭代训练中,正负样本比例按照1︰3的比例进行采样,即32个正样本和96个负样本,正样本判定标准为所采样样本和目标样本的区域重叠率大于0.7,负样本的判定标准为所采样样本和目标样本的区域重叠率低于0.5。
5.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤6)中,所述基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本的具体步骤为:在每一次迭代训练中,从集合DS随机选择64对样本对,每一对样本对与目标样本输入对抗幻想,生成对应形变样本,最终,对于每一次迭代,共计生成64个正样本。
6.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤7)中,所述使用空间采样的正负样本和生成的正样本共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络的具体方法为:将生成的64个正样本、32个空间采样的正样本和96个空间采样的负样本共同输入分类器,计算二分类的交叉熵损失,然后使用Adam优化器,通过反向传播算法同时更新分类器和幻觉对抗网络。
7.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤8)中,所述给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪的具体过程为:在当前测试帧,同时使用随机采样和高斯采样在上一帧估计的目标位置处进行样本采样;采样的样本输入分类器得到其对应的目标置信度。
CN201910418050.4A 2019-05-20 2019-05-20 基于幻觉对抗网络的鲁棒目标跟踪方法 Active CN110135365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910418050.4A CN110135365B (zh) 2019-05-20 2019-05-20 基于幻觉对抗网络的鲁棒目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910418050.4A CN110135365B (zh) 2019-05-20 2019-05-20 基于幻觉对抗网络的鲁棒目标跟踪方法

Publications (2)

Publication Number Publication Date
CN110135365A CN110135365A (zh) 2019-08-16
CN110135365B true CN110135365B (zh) 2021-04-06

Family

ID=67571357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910418050.4A Active CN110135365B (zh) 2019-05-20 2019-05-20 基于幻觉对抗网络的鲁棒目标跟踪方法

Country Status (1)

Country Link
CN (1) CN110135365B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274917B (zh) * 2020-01-17 2023-07-18 江南大学 一种基于深度检测的长时目标跟踪方法
CN111460948B (zh) * 2020-03-25 2023-10-13 中国人民解放军陆军炮兵防空兵学院 一种基于代价敏感结构化svm的目标跟踪方法
CN111354019B (zh) * 2020-03-31 2024-01-26 中国人民解放军军事科学院军事医学研究院 一种基于神经网络的视觉跟踪失效检测系统及其训练方法
CN111914912B (zh) * 2020-07-16 2023-06-13 天津大学 一种基于孪生条件对抗网络的跨域多视目标识别方法
CN113052203B (zh) * 2021-02-09 2022-01-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向多种类数据的异常检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681774A (zh) * 2018-05-11 2018-10-19 电子科技大学 基于生成对抗网络负样本增强的人体目标跟踪方法
CN109345559A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于样本扩充和深度分类网络的运动目标跟踪方法
US10282852B1 (en) * 2018-07-16 2019-05-07 Accel Robotics Corporation Autonomous store tracking system
CN109766830A (zh) * 2019-01-09 2019-05-17 深圳市芯鹏智能信息有限公司 一种基于人工智能图像处理的舰船目标识别系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324932B (zh) * 2013-06-07 2017-04-12 东软集团股份有限公司 基于视频的车辆检测跟踪方法和系统
KR101925907B1 (ko) * 2016-06-03 2019-02-26 (주)싸이언테크 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법
CN108229434A (zh) * 2018-02-01 2018-06-29 福州大学 一种车辆识别与细致重构的方法
CN108898620B (zh) * 2018-06-14 2021-06-18 厦门大学 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN109325967B (zh) * 2018-09-14 2023-04-07 腾讯科技(深圳)有限公司 目标跟踪方法、装置、介质以及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681774A (zh) * 2018-05-11 2018-10-19 电子科技大学 基于生成对抗网络负样本增强的人体目标跟踪方法
US10282852B1 (en) * 2018-07-16 2019-05-07 Accel Robotics Corporation Autonomous store tracking system
CN109345559A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于样本扩充和深度分类网络的运动目标跟踪方法
CN109766830A (zh) * 2019-01-09 2019-05-17 深圳市芯鹏智能信息有限公司 一种基于人工智能图像处理的舰船目标识别系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DSNet: Deep and Shallow Feature Learning for Efficient Visual Tracking;Qiangqiang Wu等;《arXiv:1811.02208v1》;20181109;第1-16页 *
Robust Visual Tracking Based on Adversarial Fusion Networks;Ximing Zhang等;《2018 37th Chinese Control Conference (CCC)》;20181008;第9142-9147页 *
具有显著姿态变化的长时间人体目标跟踪算法研究;周琦栋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180915;第I138-333页 *

Also Published As

Publication number Publication date
CN110135365A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110135365B (zh) 基于幻觉对抗网络的鲁棒目标跟踪方法
Wang et al. Ranet: Ranking attention network for fast video object segmentation
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
Zhang et al. Nonlinear regression via deep negative correlation learning
Sun et al. Lattice long short-term memory for human action recognition
CN110096950B (zh) 一种基于关键帧的多特征融合行为识别方法
Chen et al. Softmax regression based deep sparse autoencoder network for facial emotion recognition in human-robot interaction
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108520530B (zh) 基于长短时记忆网络的目标跟踪方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN112651998B (zh) 基于注意力机制和双流多域卷积神经网络的人体跟踪算法
Geng et al. Human action recognition based on convolutional neural networks with a convolutional auto-encoder
Wang et al. A cognitive memory-augmented network for visual anomaly detection
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
Xu et al. Gait recognition from a single image using a phase-aware gait cycle reconstruction network
CN109727272B (zh) 一种基于双分支时空正则化相关滤波器的目标跟踪方法
CN110189362B (zh) 基于多分支自编码对抗网络的高效目标跟踪方法
Putra et al. Markerless human activity recognition method based on deep neural network model using multiple cameras
CN109410249B (zh) 一种结合深度特征与手绘特征自适应的目标追踪方法
CN109711411B (zh) 一种基于胶囊神经元的图像分割识别方法
CN111862167B (zh) 一种基于稀疏紧凑相关滤波器的快速鲁棒目标跟踪方法
CN111968155B (zh) 一种基于分割目标掩模更新模板的目标跟踪方法
El-Shafie et al. Fast CNN-based object tracking using localization layers and deep features interpolation
CN117409475A (zh) 一种基于骨骼的3d-cnn动作识别方法
CN113592900A (zh) 一种基于注意力机制与全局推理的目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant