CN114638862A - 一种视觉跟踪方法及跟踪装置 - Google Patents
一种视觉跟踪方法及跟踪装置 Download PDFInfo
- Publication number
- CN114638862A CN114638862A CN202210297392.7A CN202210297392A CN114638862A CN 114638862 A CN114638862 A CN 114638862A CN 202210297392 A CN202210297392 A CN 202210297392A CN 114638862 A CN114638862 A CN 114638862A
- Authority
- CN
- China
- Prior art keywords
- frame
- tracking
- loss
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000000007 visual effect Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 21
- 238000005259 measurement Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视觉跟踪方法及跟踪装置,方法包括:实时获取包含目标人物的待测视频;构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络,所述跟踪网络基于对比学习结构使用特征池结构更新模板特征;用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框,得到跟踪结果。通过增加特征池结构,优化模板分支的特征,特征池能够在低时间复杂度动态更新模板,更好地匹配后续帧特征,有效降低累计误差,缓解跟踪框漂移问题;特征池结构能够让跟踪网络模型在长时序列跟踪保持稳定,提高跟踪方法的鲁棒性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视觉跟踪方法及跟踪装置。
背景技术
机器人技术涉及感知、路径规划、机械控制等众多技术,人物跟踪技术作为感知的关键环节,决定机器人性能。近年来,人物跟踪技术取得巨大进步,其原因有二:一是硬件驱动和算力的提升,GPU、云计算等先进计算方式,叠加海量数据的存储和处理能力,让深度学习方法能够有效提取时间和空间维度的人物特征,这为深度学习在人物跟踪技术上的发展提供可能性。二是上游任务驱动,人物跟踪技术的上游任务包括人物检测、行人重识别、视频和图像处理等,上游任务技术的持续积累推动人物跟踪技术向精准跟踪、实时跟踪的方向迈进。这使得人物跟踪技术能够为机器人在规划与控制环节中提供更精准、实时、有效的信息。
基于深度学习的人物跟踪方法泛化能力强且能学习和处理大规模数据。然而,在真实场景下,对目标人物使用基于深度学习的方法进行跟踪时,会出现跟踪框漂移的问题,这直接影响后续机器人规划控制的性能。尤其是在目标人物周围存在大量干扰的时候,漂移现象更为严重,具体包括以下三种情形:一是当目标人物在被人群或者物体遮挡时,跟踪框难以定位被遮挡的目标人物;二是目标人物在同其他人并排行走时,此时会存在跟踪框跟踪同行的非目标人物,或者同时跟踪目标和非目标人物的情况;三是当目标人物身边有身形相似或者衣着相似的人路过时,跟踪框容易被带走。
现有技术中缺乏一种解决跟踪框漂移问题的视觉跟踪方法。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种视觉跟踪方法及跟踪装置。
为了解决上述问题,本发明采用的技术方案如下所述:
一种视觉跟踪方法,包括如下步骤:S1:实时获取包含目标人物的待测视频;S2:构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络,所述跟踪网络基于对比学习结构使用特征池结构更新模板特征;S3:用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框,得到跟踪结果。
优选地,构建所述跟踪网络的结构如下:采用特征融合网络对特征池中的模板特征、头特征和后续帧特征进行增强和融合,得到融合特征图;采用预测头网络对所述融合特征图进行预测得到后续帧的跟踪结果。
优选地,所述特征融合网络采用Transformer网络结构,包含自注意力和互注意力两种机制;所述预测头网络包含分类分支、回归分支、中心测度分支三个并联结构;所述分类分支用于所述行人视频数据集中图像帧的前景和背景的二分类;所述回归分支用于所述行人视频数据集中图像帧的边界框的回归;所述中心测度分支用于归一化预测框内像素到目标中心的距离。
优选地,基于对比学习结构使用特征池结构更新模板特征包括:特征池F={fi},其中,fi是存储帧,i是正整数;存储帧按照下标大小存储为队列结构,下标越小,存储位置越靠前;其中,i=1时为模板帧,i>1时为后续帧;对于所述后续帧,帧的分类分支预测置信度与中心测度分支置信度乘积越大,下标i越小;预先设置阈值,若所述特征池中帧数大于等于阈值,则融合所述特征池中与所述阈值数量相等的帧对应的特征向量,得到模板特征;若所述特征池中帧数小于所述阈值,则融合所述特征池中所有帧对应的特征向量得到模板特征。
优选地,在所述特征池中增加头框和全身框,用所述头框和所述全身框中心的线段相对全身框对角线的比例与夹角共同约束相对位置的约束;所述头框和所述全身框均维护一组所述特征池结构,同一帧目标人物的头框和全身框在各自池内的存储位置相同。
其中,Xk是特征池得到的融合特征模板,k为从融合特征池中取的帧的数量。
优选地,采集的行人视频数据集使用整体跟踪损失函数LT训练所述跟踪网络;所述整体跟踪损失函数表达式为由头轨迹约束损失LH和密集损失LC两部分组成:
LT=βLH+(1-β)LC
其中,β为超参数;
其中,所述头约束损失LH的表达式为:
所述密集损失函数LC的表达式为:
Lc=Lcls+λ1Lreg+λ2Lcent
其中,Lcls是分类损失,Lreg是回归损失,Lcent是中心测度损失,λ1和λ2为权重参数;
所述分类损失和中心测度损失均交叉熵损失形式表示,表达式为:
其中,a是cls或cent,La是分类损失或中心测度损失,j是第j帧样本,yaj是第j帧的标签,paj是第j帧分类分支或中心测度分支的预测置信度;
所述中心测度分支的预测置信度表达式为:
其中,l*、r*、t*、b*分别是预测的中心点到标签框左边界、右边界、上边界、下边界的距离;
回归损失表达式为:
Lreg=LGIOU+α1Lagg-α2Lrep
其中,LGIOU是泛化交并比损失,Lagg是聚合损失,Lrep是排斥损失,α1、α2为权重参数。
所述泛化交并比损失函数表达式为:
LGIOU=1-GIOU(gt,bj)
所述泛化交并比表达式为:
其中,gt是标签框,bj是预测框,C是能够包住gt和bj的最小框。
所述聚合损失函数表达式为:
其中,gtj是第j帧目标人物的标签框,pi是归属于第j帧标签框的预测框,|pj+|是第j帧预测为正样本的候选框数目;
所述smoothl1函数表达式为:
所述排斥损失函数表达式为:
其中,bi是预测框,gj是同该帧标签框交并比最大的预测为背景的框,|pj+|是第j帧预测为正样本的候选框数目,IOG是bi和gj的交并比;
所述smoothln函数表达式为:
其中,σ∈[0,1)表示平滑参数。
优选地,用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框包括如下步骤:将所述待测视频中的图像帧的特征与所述模板特征同时输入所述训练好的跟踪网络中;根据所述分类分支预测置信度和所述中心测度分支的预测置信度乘积值大小将所述图像帧存入所述特征池对应位置;根据所述分类分支预测置信度和所述中心测度分支的预测置信度乘积值并开根号的值大于0.5的向量索引作为候选框索引集合;根据所述候选框索引集合在所述回归分支中寻找候选框集合;在所述候选框集合中找到分类分支预测置信度最大的框作为目标人物框。
优选地,还包括:依据所述目标人物框对所述目标人物进行运动跟踪得到所述跟踪结果,具体包括:从所述待测视频中获取深度图;将所述深度图与所述待测视频中图像帧进行校准;获取所述目标人物框内对应区域内各个像素点的深度值并计算所述深度值的平均值作为所述目标人物的距离。
本发明还提供一种跟踪装置,采用如上任一所述的视觉跟踪方法。
本发明的有益效果为:提供一种视觉跟踪方法及跟踪装置,通过增加特征池结构,优化模板分支的特征,特征池能够在低时间复杂度动态更新模板,更好地匹配后续帧特征,有效降低累计误差,缓解跟踪框漂移问题,提高跟踪方法的鲁棒性。
进一步地,特征池结构能够让跟踪网络模型在长时序列跟踪保持稳定,提高跟踪方法的鲁棒性。
再进一步地,本发明增加头框和全身框相对位置的约束,头身约束假设相同人在行走时,头和身的相对位置不变,这创新性引入常识假设,增加相对位置约束,减小解的搜索空间,有效抑制跟踪框漂移问题,缓解跟踪框突然含进混淆物体造成的干扰。
再进一步地,本发明采用整体跟踪损失函数对网络进行优化训练,考虑正样本全身标签框对预测框的聚合力,与对预测为背景框的排斥力,通过训练增大样本间的聚合力和排斥力,减小跟踪框漂移问题,使得跟踪效果更佳。
附图说明
图1是本发明实施例中一种视觉跟踪方法的示意图。
图2是本发明实施例中机器人的跟踪方法的示意图。
图3是本发明实施例中一种构建跟踪网络并用采集的行人视频数据集训练跟踪网络的方法。
图4是本发明实施例中特征融合网络的结构示意图。
图5是本发明实施例中预测头网络的结构示意图。
图6是本发明实施例中跟踪网络特征池模块的结构示意图。
图7是本发明实施例中训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框的方法示意图。
图8是本发明实施例中得到跟踪结果的方法示意图。
图9是本发明实施例中目标人物轨迹的跟踪方法的示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
造成跟踪框漂移的问题有三个原因:一是深度学习模型难收敛,一方面来源于,深度学习网络本身复杂度高,且由于数据集取自真实场景,真实场景比较复杂;另一方面,比起图像数据,视频数据增加了时间维度,而人物跟踪需要使用视频数据训练,这进一步增大了模型收敛难度;二是常规算法忽略额外的监督信息的约束,如行走轨迹信息、未遮挡部分的图像、ReID信息等,致使算法不稳定,出现跟踪框漂移的现象;三是跟踪算法需要使用非极大值抑制方法进行后处理,从众多候选框中选出最优的跟踪框,但该方法难以调节删框的阈值,因为非极大值抑制对阈值的设置敏感。
基于上述分析,本发明提供一种视觉跟踪方法。
如图1所示,本发明提供一种视觉跟踪方法,包括如下步骤:
S1:实时获取包含目标人物的待测视频;
S2:构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络,所述跟踪网络基于对比学习结构使用特征池结构更新模板特征;
S3:用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框,得到跟踪结果。
本发明通过增加特征池结构,优化模板分支的特征,特征池能够在低时间复杂度动态更新模板,更好地匹配后续帧特征,有效降低累计误差,缓解跟踪框漂移问题,提高跟踪方法的鲁棒性。
进一步地,特征池结构能够让跟踪网络模型在长时序列跟踪保持稳定,提高跟踪方法的鲁棒性。
在一种具体的实施例中,将上述方法应用到跟踪机器人中。
如图2所示,本发明的跟踪装置是一种跟踪机器人,一种跟踪机器人的跟踪方法,具体包括如下步骤:
A1:获取机器人RGBD摄像头信息,从中得到RGB图和深度图;
A2:将RGB图输入跟踪网络RobTranSim中。跟踪网络基于对比学习结构,使用特征池结构更新模板特征;
A3:得到目标人物框;
A4:根据深度图,获取深度信息;
A5:估计目标人物轨迹;
A6:驱动机器人对目标人物进行运动跟踪。
可以理解的是,本发明的跟踪机器人上带有RGBD摄像头获取包含目标人物的待测视频。
如图3所示,本发明提供一种构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络的方法,具体包括如下步骤:
B1:采集有标注的行人视频数据集:
B2:构建人物跟踪网络RobTranSim:
B3:构建特征池,更新模板特征:
B4:使用整体跟踪损失函数LT,用采集的行人视频数据集对跟踪网络进行训练。
B5:用训练好的网络跟踪待测视频中的目标人物,得到跟踪结果。
在步骤B1中,首先采集行人视频,然后逐帧标注标签框,标签框包括全身框与头框,全身框标注目标人物框左上角的横纵坐标和该框的长宽信息、头框标注头中心位置横纵坐标信息。在跟踪过程中,网络输出每帧预测框信息,预测框包括预测头框和预测全身框两部分。
在步骤B2中,跟踪网络基于对比学习,采用如下结构:
采用特征融合网络对特征池中的模板特征、头特征和后续帧特征进行增强和融合,得到融合特征图;
采用预测头网络对所述融合特征图进行预测得到后续帧的跟踪结果。
如图4所示,所述特征融合网络采用Transformer网络结构,包含自注意力和互注意力两种机制;相对于卷积层的融合方式,Transformer能够学到全局信息,且其非线性结构能够融合出更有效的表征。
如图5所示,所述预测头网络包含分类分支、回归分支、中心测度分支三个并联结构;所述分类分支用于所述行人视频数据集中图像帧的前景和背景的二分类;所述回归分支用于所述行人视频数据集中图像帧的边界框的回归;所述中心测度分支用于归一化预测框内像素到目标中心的距离。
其中,和B1步骤中标注的标签框交并比大于0.5的框类别为1,小于等于0.5的为0。
在步骤B3中,基于对比学习结构使用特征池结构更新模板特征包括:
特征池F={fi},其中,fi是存储帧,i是正整数;存储帧按照下标大小存储为队列结构,下标越小,存储位置越靠前;其中,i=1时为模板帧,i>1时为后续帧;对于所述后续帧,帧的分类分支预测置信度与中心测度分支置信度乘积越大,下标i越小;
基于行人头和身相对位置不变的假设,增加相对位置约束,减小解的搜索空间,有效抑制跟踪框漂移问题;在所述特征池中增加头框和全身框,用所述头框和所述全身框中心的线段相对全身框对角线的比例与夹角共同约束相对位置的约束。
采用特征提取网络对当前帧提取帧特征xi,存入并更新特征池;预先设置阈值,若所述特征池中帧数大于等于阈值,则融合所述特征池中与所述阈值数量相等的帧对应的特征向量,得到模板特征;若所述特征池中帧数小于所述阈值,则融合所述特征池中所有帧对应的特征向量得到模板特征。所述头框和所述全身框均维护一组所述特征池结构,同一帧目标人物的头框和全身框在各自池内的存储位置相同。
在一种具体的实施例中,特征提取网络是ResNet50。
其中,Xk是特征池得到的融合特征模板,k为从融合特征池中取的帧的数量。
本发明构建特征池有三方面优势,一是融合了更丰富的信息,而不是仅考虑模板帧的特征,且越重要的特征,其权重系数越大;二是计算量小,在特征池更新时仅需增加新入池的帧特征的增量部分,无需在每次迭代时重新计算融合结果;三是对长时序列跟踪更加有效,且时间越长,模板帧特征越稳定。
然后,使用整体跟踪损失函数LT训练所述跟踪网络;整体跟踪函数考虑正样本全身标签框对预测框的聚合力,与对预测为背景框的排斥力,通过训练增大样本间的聚合力和排斥力,减小跟踪框漂移问题,使得跟踪效果更佳。
在一种具体的实施例中,所述整体跟踪损失函数表达式为由头轨迹约束损失LH和密集损失LC两部分组成:
LT=βLH+(1-β)LC
其中,β为超参数;在训练过程中,整体跟踪损失函数向不断减小的方向进行。
其中,所述头约束损失LH的表达式为:
所述密集损失函数LC的表达式为:
Lc=Lcls+λ1Lreg+λ2Lcent
其中,Lcls是分类损失,Lreg是回归损失,Lcent是中心测度损失,λ1和λ2为权重参数;
所述分类损失和中心测度损失均交叉熵损失形式表示,表达式为:
其中,a是cls或cent,La是分类损失或中心测度损失,j是第j帧样本,yaj是第j帧的标签,paj是第j帧分类分支或中心测度分支的预测置信度;
所述中心测度分支的预测置信度表达式为:
其中,l*、r*、t*、b*分别是预测的中心点到标签框左边界、右边界、上边界、下边界的距离;
回归损失表达式为:
Lreg=LGIOU+α1Lagg-α2Lrep
其中,LGIOU是泛化交并比损失,Lagg是聚合损失,Lrep是排斥损失,α1、α2为权重参数。
所述泛化交并比损失函数表达式为:
LGIOU=1-GIOU(gt,bj)
所述泛化交并比表达式为:
其中,gt是全身标签框,bj是全身预测框,C是能够包住gt和bj的最小框。
所述聚合损失函数表达式为:
其中,gtj是第j帧目标人物的全身标签框,pi是归属于第j帧标签框的全身预测框,|pj+|是第j帧预测为正样本的候选框数目;
所述smoothl1函数表达式为:
所述排斥损失函数表达式为:
其中,bi是全身预测框,gj是同该帧全身标签框交并比最大的预测为背景的框,|pj+|是第j帧预测为正样本的候选框数目,IOG是bi和gj的交并比;
所述smoothln函数表达式为:
其中,σ∈[0,1)表示平滑参数。
在步骤B5中,如图6所示的特征池结构中,将模板帧作为首帧,存储在特征池的首位,且之后不调整模板帧的位置。
对于视频序列的每帧后续帧fi,输入特征池的特征提取网络中,获取特征向量。
设置阈值,若特征池中的帧数量大于等于阈值,融合特征池中与阈值数量相等的前k帧对应的特征向量,得到模板特征。若特征池中的帧数量小于阈值,则融合池中所有帧对应的特征向量。阈值取大于等于1的正整数,在本实施例中,阈值取8,此时特征池的边际效用最大。特别地,阈值取1时,网络退化为标准的对比学习网络。
如图7所示,用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物全身框包括如下步骤:
将所述待测视频中的图像帧的特征与所述模板特征同时输入所述训练好的跟踪网络中;
根据所述分类分支预测置信度和所述中心测度分支的预测置信度乘积值大小将所述图像帧存入所述特征池对应位置;
根据所述分类分支预测置信度和所述中心测度分支的预测置信度乘积值并开根号的值大于0.5的向量索引作为候选框索引集合;根据所述候选框索引集合在所述回归分支中寻找候选框集合;
在所述候选框集合中找到分类分支预测置信度最大的框作为目标人物全身框。
具体地,将帧fi的特征与模板特征同时输入所述训练好的网络,并计算如图5中四个分支的预测结果。
在所述候选框集合中找到分类分支预测置信度最大的框作为该帧的跟踪结果。
如图8所示,本发明的跟踪方法还包括:依据所述目标人物框对所述目标人物进行运动跟踪得到所述跟踪结果,具体包括:
从所述待测视频中获取深度图;
将所述深度图与所述待测视频中图像帧进行校准;
获取所述目标人物全身框内对应区域内各个像素点的深度值并计算所述深度值的平均值作为所述目标人物的距离。
如图9所示,对应于步骤A5,采用本发明的装置进行目标人物轨迹的跟踪,包括以下步骤:
C1:获取深度图:
在本实施例中,从RGBD摄像头的信息中提取深度图部分。
C2:将深度图与RGB图进行校准:
为了获得清晰的深度图,在本实施例中,首先使用opencv库标定,获取摄像头的内外参,并进行校正,实现极线对齐。得到视差图,再通过HashMatch方法计算深度图,并拼接计算得到的深度图与原相机深度图。
C3:截取人物框内的深度图:
在本实施例中,在深度图中,获取每帧RGB图预测框内对应位置的深度。
C4:计算平均深度:
在本实施例中,根据每帧RGB图预测框内深度,计算平均距离。
C5:更新机器人距离和角度。
在上述过程中,还包括如下步骤:
C6:调整相机保持人物框在视野中央;
C7:计算相机相对上一位置的偏角。
在一种具体的实施例中,采用如前所述的方法和装置进行试验。首先在人群较密集的场景中采集跟踪目标人物的视频,并对每帧图像标注头框和全身框。用前70%图像训练跟踪网络模型,跟踪网络模型在使用8张RTX 2080Ti组成的服务器上进行训练;采用后30%图像测试跟踪效果。将测试结果与现有技术中的单目标跟踪方法的对比,可以看出,本实施例的跟踪精度较高。
表1实验结果
跟踪方法 | ATOM | SiamRPN++ | TransT | 本发明的方法 |
精度(%) | 80.5 | 76.8 | 83.9 | 85.3 |
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAMEnhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (10)
1.一种视觉跟踪方法,其特征在于,包括如下步骤:
S1:实时获取包含目标人物的待测视频;
S2:构建跟踪网络并用采集的行人视频数据集训练所述跟踪网络,所述跟踪网络基于对比学习结构使用特征池结构更新模板特征;
S3:用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框,得到跟踪结果。
2.如权利要求1所述的视觉跟踪方法,其特征在于,构建所述跟踪网络的结构如下:
采用特征融合网络对特征池中的模板特征、头特征和后续帧特征进行增强和融合,得到融合特征图;
采用预测头网络对所述融合特征图进行预测得到后续帧的跟踪结果。
3.如权利要求2所述的视觉跟踪方法,其特征在于,所述特征融合网络采用Transformer网络结构,包含自注意力和互注意力两种机制;
所述预测头网络包含分类分支、回归分支、中心测度分支三个并联结构;
所述分类分支用于所述行人视频数据集中图像帧的前景和背景的二分类;
所述回归分支用于所述行人视频数据集中图像帧的边界框的回归;
所述中心测度分支用于归一化预测框内像素到目标中心的距离。
4.如权利要求3所述的视觉跟踪方法,其特征在于,基于对比学习结构使用特征池结构更新模板特征包括:
特征池F={fi},其中,fi是存储帧,i是正整数;存储帧按照下标大小存储为队列结构,下标越小,存储位置越靠前;其中,i=1时为模板帧,i>1时为后续帧;对于所述后续帧,帧的分类分支预测置信度与中心测度分支置信度乘积越大,下标i越小;
预先设置阈值,若所述特征池中帧数大于等于阈值,则融合所述特征池中与所述阈值数量相等的帧对应的特征向量,得到模板特征;若所述特征池中帧数小于所述阈值,则融合所述特征池中所有帧对应的特征向量得到模板特征。
5.如权利要求4所述的视觉跟踪方法,其特征在于,在所述特征池中增加头框和全身框,用所述头框和所述全身框中心的线段相对全身框对角线的比例与夹角共同约束相对位置的约束;
所述头框和所述全身框均维护一组所述特征池结构,同一帧目标人物的头框和全身框在各自池内的存储位置相同。
7.如权利要求6所述的视觉跟踪方法,其特征在于,采集的行人视频数据集使用整体跟踪损失函数LT训练所述跟踪网络;
所述整体跟踪损失函数表达式为由头轨迹约束损失LH和密集损失LC两部分组成:
LT=βLH+(1-β)LC
其中,β为超参数;
其中,所述头约束损失LH的表达式为:
所述密集损失函数LC的表达式为:
Lc=Lcls+λ1Lreg+λ2Lcent
其中,Lcls是分类损失,Lreg是回归损失,Lcent是中心测度损失,λ1和λ2为权重参数;
所述分类损失和中心测度损失均交叉熵损失形式表示,表达式为:
其中,a是cls或cent,La是分类损失或中心测度损失,j是第j帧样本,yaj是第j帧的标签,paj是第j帧分类分支或中心测度分支的预测置信度;
所述中心测度分支的预测置信度表达式为:
其中,l*、r*、t*、b*分别是预测的中心点到全身标签框左边界、右边界、上边界、下边界的距离;
回归损失表达式为:
Lreg=LGIOU+α1Lagg-α2Lrep
其中,LGIOU是泛化交并比损失,Lagg是聚合损失,Lrep是排斥损失,α1、α2为权重参数。
所述泛化交并比损失函数表达式为:
LGIOU=1-GIOU(gt,bj)
所述泛化交并比表达式为:
其中,gt是全身标签框,bj是全身预测框,C是能够包住gt和bj的最小框。
所述聚合损失函数表达式为:
其中,gtj是第j帧目标人物的全身标签框,pi是归属于第j帧标签框的全身预测框,|pj+|是第j帧预测为正样本的候选框数目;
所述smoothl1函数表达式为:
所述排斥损失函数表达式为:
其中,bi是全身预测框,gj是同该帧全身标签框交并比最大的预测为背景的框,|pj+|是第j帧预测为正样本的候选框数目,IOG是bi和gj的交并比;
所述smoothln函数表达式为:
其中,σ∈[0,1)表示平滑参数。
8.如权利要求7所述的视觉跟踪方法,其特征在于,用训练好的跟踪网络确定所述待测视频中的目标人物的目标人物框包括如下步骤:
将所述待测视频中的图像帧的特征与所述模板特征同时输入所述训练好的跟踪网络中;
根据所述分类分支预测置信度和所述中心测度分支的预测置信度乘积值大小将所述图像帧存入所述特征池对应位置;
根据所述分类分支预测置信度和所述中心测度分支的预测置信度乘积值并开根号的值大于0.5的向量索引作为候选框索引集合;根据所述候选框索引集合在所述回归分支中寻找候选框集合;
在所述候选框集合中找到分类分支预测置信度最大的框作为目标人物框。
9.如权利要求8所述的视觉跟踪方法,其特征在于,还包括:依据所述目标人物框对所述目标人物进行运动跟踪得到所述跟踪结果,具体包括:
从所述待测视频中获取深度图;
将所述深度图与所述待测视频中图像帧进行校准;
获取所述目标人物框内对应区域内各个像素点的深度值并计算所述深度值的平均值作为所述目标人物的距离。
10.一种跟踪装置,其特征在于,采用如权利要求1-9任一所述的视觉跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210297392.7A CN114638862A (zh) | 2022-03-24 | 2022-03-24 | 一种视觉跟踪方法及跟踪装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210297392.7A CN114638862A (zh) | 2022-03-24 | 2022-03-24 | 一种视觉跟踪方法及跟踪装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638862A true CN114638862A (zh) | 2022-06-17 |
Family
ID=81949472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210297392.7A Pending CN114638862A (zh) | 2022-03-24 | 2022-03-24 | 一种视觉跟踪方法及跟踪装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638862A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393384A (zh) * | 2022-09-14 | 2022-11-25 | 清华大学 | 基于跨相机的多目标跟踪模型的训练方法及装置 |
CN116402858A (zh) * | 2023-04-11 | 2023-07-07 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020232909A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质 |
CN112085765A (zh) * | 2020-09-15 | 2020-12-15 | 浙江理工大学 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
-
2022
- 2022-03-24 CN CN202210297392.7A patent/CN114638862A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020232909A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质 |
CN112085765A (zh) * | 2020-09-15 | 2020-12-15 | 浙江理工大学 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
胡昭华;郑伟;钱坤;: "残差深度特征和漂移检测的核相关滤波跟踪", 控制理论与应用, no. 04, 9 April 2019 (2019-04-09) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393384A (zh) * | 2022-09-14 | 2022-11-25 | 清华大学 | 基于跨相机的多目标跟踪模型的训练方法及装置 |
CN116402858A (zh) * | 2023-04-11 | 2023-07-07 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN116402858B (zh) * | 2023-04-11 | 2023-11-21 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109974743B (zh) | 一种基于gms特征匹配及滑动窗口位姿图优化的视觉里程计 | |
CN111079695B (zh) | 一种人体关键点检测与自学习方法及装置 | |
Tang et al. | ESTHER: Joint camera self-calibration and automatic radial distortion correction from tracking of walking humans | |
CN110276785B (zh) | 一种抗遮挡红外目标跟踪方法 | |
CN106886748B (zh) | 一种基于tld的适用于无人机的变尺度目标跟踪方法 | |
CN111178161B (zh) | 一种基于fcos的车辆追踪方法及系统 | |
CN110610486B (zh) | 单目图像深度估计方法及装置 | |
CN110956131B (zh) | 单目标追踪方法、装置及系统 | |
CN114638862A (zh) | 一种视觉跟踪方法及跟踪装置 | |
CN113628244B (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
CN111582349B (zh) | 一种基于YOLOv3和核相关滤波改进的目标跟踪算法 | |
US10701336B2 (en) | Rectifying a sequence of stereo images | |
CN113674416A (zh) | 三维地图的构建方法、装置、电子设备及存储介质 | |
CN111583220A (zh) | 影像数据检测方法和装置 | |
CN111832414B (zh) | 一种基于图正则光流注意力网络的动物计数方法 | |
CN110738688B (zh) | 一种红外超弱运动目标检测方法 | |
CN111950440A (zh) | 一种识别与定位门的方法、装置及存储介质 | |
CN113570530B (zh) | 图像融合方法、装置、计算机可读存储介质和电子设备 | |
CN110569706A (zh) | 一种基于时间和空间网络的深度集成目标跟踪算法 | |
CN113011401A (zh) | 人脸图像姿态估计和校正方法、系统、介质及电子设备 | |
CN111291760A (zh) | 图像的语义分割方法、装置及电子设备 | |
Talker et al. | Efficient sliding window computation for nn-based template matching | |
WO2023109361A1 (zh) | 用于视频处理的方法、系统、设备、介质和产品 | |
CN117557804A (zh) | 联合目标结构嵌入和多层次特征融合的多标签分类方法 | |
CN111079523B (zh) | 物体检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |