CN111639551B

CN111639551B - 基于孪生网络和长短期线索的在线多目标跟踪方法和系统

Info

Publication number: CN111639551B
Application number: CN202010404941.7A
Authority: CN
Inventors: 韩守东; 于恩; 刘东海生; 黄飘; 王宏伟
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2022-04-01
Anticipated expiration: 2040-05-12
Also published as: CN111639551A

Abstract

本发明公开了基于孪生网络和长短期线索的在线多目标跟踪方法和系统，属于多目标跟踪领域。包括：孪生网络模块，用于将跟踪目标模板与搜索区域进行互相关得到响应图，获取初步预测的每个目标的跟踪轨迹；校正模块，用于将初步轨迹和观测框组合在一起，通过行人回归网络修正行人框；数据关联模块，用于计算跟踪轨迹和观测行人的相似度，通过分别提取跟踪轨迹和观测行人的长短期线索并将其进行融合，进而计算其相似度，为每个跟踪轨迹分配对应的观测行人框；轨迹后处理模块，用于对跟踪轨迹进行更新、补充和删减，完成当前帧的跟踪。本发明完善了多目标跟踪任务中表观特征融合及行人交互遮挡，大尺度变化问题，提升准确度，缓解特征不对齐的问题。

Description

基于孪生网络和长短期线索的在线多目标跟踪方法和系统

技术领域

本发明属于多目标跟踪技术领域，更具体地，涉及基于孪生网络和长短期线索的在线多目标跟踪方法和系统。

背景技术

面对越来越复杂的视频场景，要实现对海量的视频数据的有效处理，就需要做到对视频内所有有意义的目标进行检测、定位、跟踪以及分析，其中，多目标跟踪(MultiObject Tracking/Multi Target Tracking)作为一个中层的视觉任务，在其中起着十分关键的作用，通过安防摄像头实时地监控城市社区，公路交通，精准跟踪居家隔离，人群聚集处的行人，外来人员以及进出车辆，对于疫情监测有着巨大的现实意义。多目标跟踪面向的是大面积，多行人的复杂场景，且每一帧的行人数量不定，非常适用于视频监控场景。

近年来，随着深度学习在计算机视觉领域的广泛应用，目标跟踪领域(尤其是单目标跟踪)得到了快速的发展。其中多目标跟踪领域已经形成了基于检测跟踪的主体架构。常见的预测模型目前多采用基于运动信息的运动模型，但是运动模型多假设跟踪物体处于匀速运动的状态，对于一些突变的运动状态(转向、加速跑、急停等)无法较好的处理，同时对于行人交互遮挡的情况也极易跟丢，而且一旦跟丢，轨迹就很难再次重连。

由于多目标跟踪场景下存在着大量的高密度人群，且行人数量不定，行人之间存在交互遮挡的现象，现有的基于检测的多目标跟踪算法仍存在很大不足。

发明内容

针对现有多目标跟踪任务中跟踪目标之间的交互遮挡问题及大尺度形态变化的缺陷和改进需求，本发明提供了一种基于孪生网络和长短期线索的在线多目标跟踪方法和系统，其目的在于能够最大限度完善多目标跟踪任务中表观特征融合及行人交互遮挡，大尺度变化问题的解决，大大提升数据关联精度及准确度，还能缓解特征不对齐的问题。

为实现上述目的，按照本发明的第一方面，提供了一种基于孪生网络和长短期线索的在线多目标跟踪方法，该方法包括以下步骤：

S0.将监控视频第一帧的目标检测结果作为观测框进行裁剪，得到第1帧各目标的观测框，将其作为孪生网络的第一输入，进行目标模板初始化，将第1帧各目标的观测框作为该目标跟踪轨迹的起始状态，T＝2；

S1.对第T帧进行目标检测，将第T帧的目标检测结果作为观测框进行裁剪，得到第T帧各目标的观测框；以第T-1帧各目标模板的所在位置的N倍区域作为搜索区域在第T帧中进行裁剪，得到第T帧的搜索区域图片，N≥1；

S2.将第T帧的搜索区域图片作为孪生网络的第二输入，得到最有可能的跟踪框，作为每个目标第T帧的跟踪框；

S3.使用训练好的Re-ID模型对每个目标第T帧的观测框和跟踪框分别进行特征提取，将提取到的特征进行相似度计算，得到每个目标第T帧的长期特征线索；计算每个目标第T帧的跟踪框和观测框之间的IOU，作为每个目标第T帧的短期特征线索；

S4.对提取到的长期线索和短期线索进行融合，得到每个目标第T帧的融合特征线索；

S5.将每个第T帧的融合特征线索作为数据关联的代价矩阵，进行跟踪轨迹与观测框的匹配；

S6.根据数据关联结果，对跟踪轨迹进行更新、补充和删减，完成第T帧的跟踪；

S7.判断视频是否结束，若是，则结束，否则，将当前跟踪轨迹的当前行人框作为目标模板输入到孪生网络中进行更新，T＝T+1，返回步骤S1。

优选地，所述孪生网络包括以下处理：

(1)提取每个目标的模板特征图，再提取该目标对应搜索区域图片的特征图；

(2)将模板特征图与搜索区域特征图进行互相关，得到多通道响应图；

(3)对多通道响应图中的跟踪目标进行分类，根据多通道响应图中的响应信息预测行人回归框；

(4)通过质量评估对行人回归框进行打分；

(5)将质量评估得分和分类置信度分数的乘积作为最终得分，将最终得分最高的回归框作为跟踪框。

优选地，质量评估得分计算公式如下：

其中，l^*,r^*,t^*,b^*分别表示目标中心点到目标四条边的距离。

优选地，所述Re-ID模型包括：全局分支和局部分支，分别基于多注意力联合机制，提取全局特征和局部特征。

优选地，通过以下任一种方式在Re-ID模型的底层CNN引入IBN-Net：

1)在图片输入之后的第一个卷积的输出通道分为两半，其中，一半进行IN标准化，另一半进行BN标准化，同时在第一个Inception后也进行相同操作；

2)在HACNN的soft attention中的spatial attention与channel attention的输出之后加入IN，并在图片输入后的第一层卷积之后加入IN操作。

优选地，步骤S4包括以下步骤：

S41.通过Re-ID模型获取到的长期线索为reid distance，通过IOU计算获得的短期线索为sot distance，根据目标i轨迹已丢失的次数pause_i计算比例系数

S42.判断pause_i是否超过2，若是，则增加比例系数，新的比例系数

长期线索更新为reid distance＝reid distance*(rate÷reid thresh)，否则，长期线索更新为reid distance＝reid distance÷reid thresh，TL表示轨迹丢失的限制时间，reidthresh表示Re-ID增强系数；

S43.计算目标i的代价矩阵cost_i＝rate×sot distance+(1-rate)×reiddistance。

优选地，在进行所述数据关联之前，将所述校正前的观测行人框输送到孪生网络中进行预测，获取行人框可能在的位置，以获取未筛选前的粗糙行人框，从而确定观测行人框序列。

优选地，步骤S6包括：

对关联成功的跟踪轨迹，直接更新其相关参数；

对没有关联成功的观测框，将此作为初始状态并重新增入跟踪序列；

对没有关联成功的跟踪轨迹，则视为丢失状态；

如果丢失状态持续超过限制时间，则取消轨迹的激活状态。

优选地，轨迹丢失的限制时间计算公式如下：

其中，pd表示行人密度，TL₀表示基础时间限制，

表示向下取整操作，num_det表示检测到的行人数量，num₀表示行人数量阈值。

为实现上述目的，按照本发明的第二方面，提供了一种基于孪生网络和长短期线索的在线多目标跟踪系统，包括：

孪生网络模块，用于将跟踪目标模板与搜索区域进行互相关获取响应图，获取初步预测的每个目标的跟踪轨迹；

校正模块，用于将获取的初步轨迹和观测框组合在一起，通过行人回归网络修正行人框；

数据关联模块，用于计算跟踪轨迹和观测行人的相似度，通过分别提取跟踪轨迹和观测行人的长短期特征线索并将其进行融合，进而计算其相似度，为每个跟踪轨迹分配对应的观测行人框；

轨迹后处理模块，用于对跟踪轨迹进行更新、补充和删减，完成当前帧的跟踪。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明基于孪生网络构建多目标跟踪框架中的预测模型，由于孪生网络的核心思想是基于响应图的，即通过比较目标模板与候选区域的特征相似度来判断其为跟踪目标的可能性，这样就减少了突变运动状态对跟踪的影响。并在分类分支中引入一个质量分支，负责对回归分支的回归框进行打分，综合考量了空间和幅度限制，对回归框进行一个更加精准的得分，最终将得分最高的回归框视为行人预测框。

(2)本发明通过行人重识别技术来对每一帧的跟踪目标进行长期特征线索提取，该网络采用了多注意力联合机制，多注意力联合机制下，模型会更加关注前景，及目标未被遮挡的部分，这样更有利于后续提取精确的长期线索。并构建了一种增强Re-ID模型泛化能力的实例标准化与批量标准化结合的模型结构，从而更好地提取特征线索。

(3)本发明通过Re-ID模块提取行人的长期特征信息，这部分特征信息对于遮挡及大尺度变化等有较强的适应性；通过行人框的重叠度作为短期特征线索，将提取到的长期线索和短期线索进行加权融合，实现对长短期线索的有效利用，从而解决出现一些特殊遮挡或者大尺度变化之后的特征不对齐的问题。

附图说明

图1为本发明提供的一种基于孪生网络和长短期线索的在线多目标跟踪方法流程图；

图2为本发明提供的基于孪生网络的多目标跟踪基础框架结构图；

图3(a)为本发明提供的Re-ID模型结构图；

图3(b)为本发明提供的引入的结合标准化与批量标准化的结构图；

图4为本发明提供的轨迹后处理流程图；

图5为本发明提供的行人区域回归网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在线跟踪是指利用历史帧及当前帧的相关信息对下一帧进行预测。

如图1所示，本发明提供了一种基于孪生网络和长短期线索的在线多目标跟踪方法，该方法包括以下步骤：

步骤S0.将监控视频第一帧的目标检测结果作为观测框进行裁剪，得到第1帧各目标的观测框，将其作为孪生网络的第一输入，进行目标模板初始化，将第1帧各目标的观测框作为该目标跟踪轨迹的起始状态，T＝2。

对初始帧的每个目标进行轨迹初始化，记录目标的行人ID、行人框的坐标等信息。

步骤S1.对第T帧进行目标检测，将第T帧的目标检测结果作为观测框进行裁剪，得到第T帧各目标的观测框；以第T-1帧各目标模板的所在位置的N倍区域作为搜索区域在第T帧中进行裁剪，得到第T帧的搜索区域图片，N≥1。

本实施例中，N＝2。

步骤S2.将第T帧的搜索区域图片作为孪生网络的第二输入，得到最有可能的跟踪框，作为每个目标第T帧的跟踪框。

如图2所示，本发明将多目标跟踪任务分解成多个目标的跟踪(SOT)分支并结合表观模型进行数据关联，首先对于行人序列中的每一个目标，都会为其初始化一个跟踪器，单独跟踪该目标，跟踪器以孪生网络为基础结构，对响应图之后的RPN(Region ProposalNetwork，候选区域回归)结构加入了质量检测分支，以对回归框进行打分。

优选地，所述孪生网络包括以下处理：

(1)提取每个目标的模板特征图，再提取该目标对应搜索区域图片的特征图。

(2)将模板特征图与搜索区域特征图进行互相关，得到多通道响应图。

其中，f(z,x)为响应图，

为共享参数的卷积函数，用于提取特征，*为互相关操作，bl为响应图上每个点对应的偏差值。

响应图中包含着目标的位置及语义信息。

(3)对多通道响应图中的跟踪目标进行分类，根据多通道响应图中的响应信息预测行人回归框。

为了减少回归与分类之间的冲突，通常要将其分开进行，即将同一响应图复制成两份，分别用于回归与分类操作。

(4)通过质量评估对行人回归框进行打分。

孪生网络包括多分支，其中，分类分支负责对响应图中的跟踪目标进行分类，回归分支负责根据响应图中的响应信息预测行人回归框。在分类分支中引入一个质量分支，负责对回归分支的回归框进行打分，最终将得分最高的回归框视为行人预测框。

本发明采用结合位置空间和幅度限制的方式进行打分，优选地，质量评估得分计算公式如下：

步骤S3.使用训练好的Re-ID模型对每个目标第T帧的观测框和跟踪框分别进行特征提取，将提取到的特征进行相似度计算，得到每个目标第T帧的长期特征线索；计算每个目标第T帧的跟踪框和观测框之间的IOU，作为每个目标第T帧的短期特征线索。

为了保证相同身份行人序列的多样性，采用交并比(Intersection over Union，IOU)和可视度比较的方式筛选样本，初始化每个行人序列的第一张图片后，选择下一张与之IOU小于0.7或者可视度相差超过0.2的同身份行人框作为下一个样本，以此类推。最后可得295个行人ID，共计样本33573个。训练过程采用Adam优化网络权重，初始学习率设置为0.003，batchsize为64，输入分辨率为160×64，一共训练150epochs。多任务卷积神经网络损失函数设计为交叉熵损失函数：

其中，N表示当前训练批次(batch)样本数量，y_i和

分别表示行人分类类别联合概率分布的网络预测值和真实标签。

如图3(a)所示，优选地，所述Re-ID模型包括：全局分支和局部分支，分别基于多注意力联合机制，提取全局特征和局部特征。

该网络采用了多注意力联合机制，多注意力联合机制下，模型会更加关注前景，及目标未被遮挡的部分，这样更有利于后续提取精确的长期线索。通过对hard attention与soft attention进行联合，实现对剧烈尺度变化目标，以及被遮挡目标的特征提取。

本发明对Re-ID模型的底层CNN引入IBN-Net。两种IBN-Net的构造方法如图3(b)所示：一种是在图片输入之后的第一个卷积的输出通道分为两半，其中一半进行IN(InstanceNormalization，简称IN)标准化，另一半进行BN(Batch Normalization，简称BN)标准化，同时在第一个Inception后也进行相同操作，称之为HACNN_IBN。另一种是在HACNN的softattention中的spatial attention与channel attention的输出之后加入IN，并在图片输入后的第一层卷积之后加入IN操作，称之为HACNN_IBN_B。Re-ID模型引入了所述的结合标准化与批量标准化的结构进行训练，解决其跨域的泛化性问题。

对跟踪序列与观测中每个对象通过Re-ID提取其的表观特征，最后计算特征余弦距离作为长期线索。结合每个观测对象与跟踪轨迹的重叠的尺度，并计算其重叠程度，作为短期特征线索。

步骤S4.对提取到的长期线索和短期线索进行融合，得到每个目标第T帧的融合特征线索。

具体地，步骤S4包括以下步骤：

长期线索更新为reid distance＝reid distance*(rate÷reid thresh)，否则，长期线索更新为reid distance＝reid distance÷reid thresh，TL表示轨迹丢失的限制时间，reidthresh表示Re-ID增强系数。本实施例中，TL＝3帧，reid thresh＝0.7。

S43.计算目标i的cost矩阵cost_i＝rate×sot distance+(1-rate)×reiddistance。

步骤S5.将每个第T帧的融合特征线索作为数据关联的cost矩阵，进行跟踪轨迹与观测框的匹配。

在多目标跟踪场景下，每一帧的目标个数是动态变化的，包括旧目标的消失，新目标的出现，需要对帧与帧之间的多个目标进行匹配，即数据关联。

利用匈牙利算法完成数据关联，代价矩阵阈值优选为0.7。该步骤可以为每个观测行人框分配对应跟踪轨迹，即目标身份。

步骤S6.根据数据关联结果，对跟踪轨迹进行更新、补充和删减，完成第T帧的跟踪。

具体地，如图4所示，步骤S6包括：

对关联成功的跟踪轨迹，直接更新其相关参数；

对没有关联成功的跟踪轨迹，则视为丢失状态；

如果丢失状态持续超过一定时间，则取消轨迹的激活状态。

优选地，轨迹丢失的限制时间计算公式如下：

其中，pd表示行人密度，TL₀表示基础时间限制，

表示向下取整操作，num_det表示检测到的行人数量，num₀表示行人数量阈值。num₀根据不同场景的复杂度进行设置。

步骤S7.判断视频是否结束，若是，则结束，否则，将当前跟踪轨迹的当前行人框作为目标模板输入到孪生网络中进行更新，T＝T+1，返回步骤S1。

如图5所示，为了得到更加精细的观测框，优选地，在步骤S2和步骤S3之间，该方法还包括：

利用第T帧每个目标的跟踪框，对第T帧的观测框进行补充；

使用区域回归网络对补充后的观测框进行校正，得到每个目标第T帧校正后的观测框。

本发明将以上过程整合为统一的多目标跟踪框架，以MOT17测试集为例进行效果展示。其中，MOTA表示整体跟踪正确的轨迹占比，IDF1表示跟踪轨迹的身份置信度得分，MT表示跟踪轨迹中有效长度超过80％的轨迹占比，ML表示跟踪轨迹中有效长度少于20％的轨迹占比，FP表示背景被判作跟踪对象的数量，FN表示跟踪对象被判作背景的数量，ID Sw表示轨迹中发生身份转换的次数。

最终在MOT17测试集上的整体跟踪效果如表1所示，其中，各视频具体结果见表2。

表1

表2

与方法相对应地，本发明还提供了一种基于孪生网络与长短期线索的在线多目标跟踪系统，包括：

孪生网络模块，通过将跟踪目标模板与搜索区域进行互相关获取响应图，获取初步预测的每个目标的跟踪轨迹；

校正模块，用于将获取的初步轨迹和观测框组合在一起，通过行人回归网络进行修正过的行人框；

优选地，所述数据关联模块包括运基于Re-ID表观模型的长期表观特征差异计算模块以及基于行人框重叠度的短期特征差异计算模块，分别用于计算跟踪轨迹和观测行人框长短期表观特征上的差异，接着基于跟踪轨迹相关信息对其进行加权融合，得到最终的特征差异。

其中，所述长期特征差异计算模块的Re-ID模型引入了所述的结合标准化与批量标准化的结构进行训练，已解决其跨域的泛化性问题。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。