CN110288627A

CN110288627A - 一种基于深度学习和数据关联的在线多目标跟踪方法

Info

Publication number: CN110288627A
Application number: CN201910429444.XA
Authority: CN
Inventors: 陈小波; 冀建宇; 王彦钧; 蔡英凤; 王海; 陈龙
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-27
Anticipated expiration: 2039-05-22
Also published as: CN110288627B

Abstract

本发明公开了一种基于深度学习和数据关联的在线多目标跟踪方法，包括如下步骤：1、输入视频当前帧的图像；2、应用目标检测器得到图像中所有的检测响应；3、利用深度余弦度量学习模型提取检测响应的外观特征；4、初始化目标状态；5、利用卡尔曼滤波算法预测目标在下一帧的位置和尺度；6、基于两阶段数据关联将目标与检测响应的匹配关联，得到最优关联结果；7、根据步骤6中的最优关联结果更新目标的状态和特征；8、输入下一视频帧的图像，重复步骤2、3、4、5、6、7，直到视频结束。与现有技术相比，本发明能在目标交互与遮挡、目标间具有相似外观等复杂情况下，实现目标之间的正确关联，完成鲁棒且持续的多目标跟踪。

Description

一种基于深度学习和数据关联的在线多目标跟踪方法

技术领域

本发明涉及一种目标跟踪方法，特别涉及一种基于深度学习和数据关联的在线多目标跟踪方法，属于计算机视觉领域。

背景技术

多目标跟踪技术是计算机视觉领域中特别重要的一个分支，广泛用于各种各样的视频分析场景，比如自动驾驶汽车、机器人导航、智能交通视频监控及运动分析等。

在线多目标跟踪的任务是逐帧可靠地估计目标的位置并跨帧跟踪同一个目标来估计多个目标的轨迹。近年来，由于深度学习的发展，目标检测算法的性能不断提升，检测响应更加可靠，基于检测的跟踪(Tracking-by-detection)框架受到广泛关注，并取得了显著的效果，成为当前多目标跟踪的主流。在这种跟踪框架下，首先应用离线训练好的目标检测器独立地对每帧图像中的目标进行检测，得到目标的数目和位置，然后，依据目标的外观、运动等信息，将相邻帧中检测出的目标进行关联，实现目标的匹配和跟踪。基于检测的跟踪算法可分为两类：离线跟踪和在线跟踪。

目前，基于检测的跟踪算法也面临着诸多挑战，跟踪效果严重依赖于检测器的性能，在复杂的场景中，当目标和障碍物，或者目标之间发生严重的遮挡时，多目标跟踪算法很容易跟丢目标或者目标编号发生错乱。其次，目标检测器的检测噪声和目标尺度的剧烈变化也会导致多目标跟踪算法发生跟踪漂移。

发明内容

发明目的：针对在复杂场景中具有相似外观的目标相互遮挡时，现有多目标跟踪技术存在严重编号切换、跟踪漂移等问题，本发明提出了一种基于深度学习和数据关联的在线多目标跟踪方法。

本发明提出了一种新的多目标跟踪方法，从多个角度解决多目标跟踪问题。1)采用深度余弦度量学习模型设计了目标的外观模型，利用多层卷积网络从目标图像中提取特征，以特征向量之间的余弦作为目标外观之间的相似性，实现不同目标外观的有效辨识；2)考虑到目标外观动态变化的连续性，构建一种融合多帧历史外观特征的目标外观相似性度量方法，能有效缓解检测器的缺陷或目标相互遮挡对目标匹配精度的影响；3)提出基于目标状态的两阶段数据关联方法，针对目标的可靠性分别设计对应的关联策略，并采用匈牙利算法进行数据关联。在拥挤、频繁遮挡发生的复杂交通场景下，该算法能实现准确、稳定的多目标跟踪。

技术方案：一种基于深度学习和数据关联的在线多目标跟踪方法，其特征在于，所述方法包括如下步骤：

步骤1：输入视频当前帧的图像；

步骤2：应用目标检测器得到图像中所有检测响应的集合D^t＝{D₁，D₂，…，D_M}，t为当前帧号，D_j为第j个检测响应，表示为其中为检测响应D_j的中心点坐标，为检测响应D_j的宽和高，M为检测响应总数；

步骤3：利用深度余弦度量学习模型从检测响应集合D^t中的所有检测响应提取外观特征向量，表示为{Z₁，Z₂，…，Z_M}，其中Z_j∈R^p为检测响应D_j的外观特征；

步骤4：初始化目标状态，将目标状态分为4类：初始状态、跟踪状态、丢失状态和删除状态；如果t＝1，即输入视频的第一帧，产生目标集合T^t＝{T₁，T₂，…，T_N}，N＝M，目标T_j与检测响应D_j对应，并将目标T_j的状态置为初始状态，转到步骤1；否则，转到步骤5；

步骤5：应用卡尔曼滤波算法，预测目标集合T^t-1中的每个目标T_i在当前帧中的位置和尺度，表示为其中为预测的中心点坐标，为预测的宽和高；

步骤6：基于两阶段数据关联将目标与检测响应匹配关联，得到最优关联结果；

步骤7：根据步骤6中的最优关联结果更新目标的状态和特征；

步骤8：输入下一视频帧的图像，重复步骤2、3、4、5、6、7直到视频结束。

优选项，所述步骤6基于两阶段数据关联的目标状态与检测响应的匹配关联，包括：

(a)基于前一帧中所有目标的状态，将目标集合T^t-1＝{T₁，T₂，…，T_N}划分为两类Ω₁和Ω₂，Ω₁∪Ω₂＝T^t-1，Ω₁由处于初始状态和跟踪状态的目标组成，Ω₂由处于丢失状态的目标组成，N为目标总数；

(b)计算Ω₁中的每个目标与D^t中的每个检测响应的匹配相似度，得到相似度矩阵A₁；以-A₁为关联代价矩阵，将Ω₁中的目标与D^t中的检测响应进行关联，应用匈牙利算法求解最优关联；依据关联结果将Ω₁与D^t进行划分：其中中的目标与D^A中的检测响应成功关联，为未关联的目标集合，D^B为第一阶段未关联的检测响应集合；

(c)计算Ω₂中的每个目标与D^B中的每个检测响应的匹配相似度，得到相似度矩阵A₂；以-A₂为关联代价矩阵，将Ω₂中的目标与D^B中的检测响应进行关联，应用匈牙利算法求解最优关联。依据关联结果将Ω₂与D^B进行划分：其中中的目标与为未关联的目标集合，为第二阶段未关联的检测响应集合。

优选项，所述方法计算Ω₁中的每个目标与D^t中的每个检测响应的匹配相似度，包括：

(a)计算Ω₁中的目标T_i与D^t中的检测响应D_j的外观相似度

且

其中<*，*>为向量的内积，X_i(t-K)表示目标T_i在第t-k帧中的外观特征向量，Z_j表示检测响应D_j的外观特征向量，ω_k表示外观特征向量X_i(t-k)的权重，C_i(t-k)为目标T_i在第t-k帧与检测响应的匹配代价；

(b)计算Ω₁中的目标T_i与D^t中的检测响应D_j的形状相似度

(c)计算Ω₁中的目标T_i与D^t中的检测响应D_j的运动相似度

为目标T_i的预测区域与检测响应D_j对应区域的交并比(IOU)，其中area(*)表示面积；

(d)计算Ω₁中的目标T_i与D^t中的检测响应D_j的匹配相似度A₁(i，j)：

优选项，所述方法计算Ω₂中的每个目标与D^B中的每个检测响应的匹配相似度，包括：

(a)利用上述公式(1)、(2)、(3)计算Ω₂中的目标T_i与D^B中的检测响应D_j的外观相似度和形状相似度

(b)计算目标T_i的搜索半径r_i：

其中为当前帧号与目标T_i处于跟踪状态时的最大帧号之差，α为常数。以目标T_i在当前帧中的预测位置为中心，r_i为半径，定义目标T_i的搜索区域R_i；

(c)计算Ω₂中的目标T_i与检测响应集合D^B中的检测响应D_j的匹配相似度A₂(i，j)：

其中I(R_i∩D_j＞0)为指示函数，当搜索区域R_i与检测响应D_j存在重叠时，I(R_i∩D_j＞0)＝1，否则I(R_i∩D_j＞0)＝0。

优选项，所述步骤7：根据步骤6中的最优关联结果更新目标的状态和特征，包括：

(a)对于中的未关联检测响应，表示视频中可能出现新目标，初始化新目标，并将状态置为初始状态。当初始状态的目标连续出现f_init帧，则为该目标分配ID，设置状态参数，然后将目标转换为跟踪状态；

(b)对于中的目标，由于存在关联的检测响应，保持目标状态不变，应用卡尔曼滤波算法更新目标的状态，并保存目标在当前帧的外观特征向量；

(c)对于中的目标，由于没有关联的检测响应，将目标状态由跟踪状态转换为丢失状态，并保存目标在当前帧的外观特征向量；

(d)对于中的目标，由于存在关联的检测响应，将目标状态由丢失状态转换为跟踪状态，应用卡尔曼滤波算法更新目标的状态，并保存目标在当前帧的外观特征向量；

(e)对于中的目标，由于没有关联的检测响应，保持目标状态不变；

(f)当目标连续f_del帧处于丢失状态，则转换为删除状态，并销毁该目标。

有益效果：1、本发明通过采用深度余弦度量学习模型学习目标的外观模型，利用多层卷积网络从目标图像中提取特征，以特征向量之间的余弦作为目标外观之间的相似性，实现不同目标外观的有效辨识，有效地克服了复杂场景中具有相似外观的目标在交互时引起的ID切换问题；2、本发明考虑到目标外观动态变化的连续性，通过构建一种融合多帧历史外观特征的目标外观相似性度量方法，有效地缓解了检测器缺陷或目标相互遮挡对匹配精度的影响；3、本发明通过采用基于目标状态的两阶段数据关联方法，针对目标的不同状态分别设计对应的关联策略，并采用匈牙利算法进行数据关联，有效地缓解了由于数据关联失败而引起的轨迹断裂(Fragment)问题。

附图说明

图1为本发明的流程图；

图2为本发明的深度余弦度量学习模型的框架；

图3为本发明的目标状态转移图。

具体实施方式

下面将结合附图和具体的实施方式对本发明的技术方案做进一步详细解释，以在线行人多目标跟踪为例，但本发明保护范围不限于下述实施例。

离线训练阶段：

离线训练深度余弦度量学习模型：

给定训练样本集合{(x_i，y_i)，i＝1，2，3，…，L}，其中x_i∈R^128×64为规范化后的行人图像，y_i∈{1，2，3，…，K}为对应的行人类别标签，L为训练样本个数。深度余弦度量学习模型从训练样本中学习一个特征提取函数f(x)，将输入行人图像□映射到嵌入特征空间中，然后在嵌入特征空间中应用余弦softmax分类器，最大化分类的后验概率。余弦softmax分类器定义如下：

其中为归一化的权重向量，ω_k为第k类的权重向量，τ是标定参数，f(x)为从图像中提取的特征向量，f(x)具有单位长度。由于与f(x)均具有单位长度，式中的表示为两个向量之间夹角的余弦，通过最大化后验概率P(y＝k|f(x))，能减小每类目标与其对应权重向量之间的夹角。

用于训练深度余弦度量学习模型的交叉熵损失函数为：

其中I(y_i＝k)为指示函数，当y_i＝k时，I(y_i＝k)＝1，否则I(y_i＝k)＝0。

在本实施例中，应用卷积神经网络CNN实现特征提取函数f(x)，CNN的结构如图2所示，输入图像尺寸为128×64，输出特征向量长度为128，每层的激活函数均为指数线性单元(ELU)。利用Market-1501数据库中的行人图像训练上述网络，并使用Adam优化方法更新网络参数。

在线行人多目标跟踪阶段：

具体地，如图1所示，本发明提出了一种基于深度学习和数据关联的在线多目标跟踪方法，该方法的关键技术步骤如下：

步骤1：输入视频当前帧的图像；

步骤2：应用检测器得到图像中所有检测响应的集合D^t＝{D₁，D₂，…，D_M}，t为当前帧号，D_j为第j个检测响应，表示为其中为检测响应D_j的中心点坐标，为检测响应D_j的宽和高，M为检测响应总数；

在本实施例中，采用的行人检测器为DPM(Deformable Parts Model)。

步骤3：利用上述离线训练好的深度余弦度量学习模型从检测响应集合D^t中的所有检测响应提取外观特征向量，表示为{Z₁，Z₂，…，Z_M}，其中Z_j∈R^p为检测响应D_j提取的外观特征；

步骤4：初始化目标状态。将目标状态分为4类：初始状态，跟踪状态，丢失状态和删除状态。如果t＝1，即输入视频的第一帧，产生目标集合T^t＝{T₁，T₂，…，T_N}，N＝M，目标T_j与检测响应D_j对应，并将目标T_j的状态置为初始状态，转到步骤1。否则，转到步骤5。

步骤5：应用卡尔曼滤波算法，预测目标集合T^t-1中的每个目标T_j在当前帧中的位置和尺度，表示为其中为预测的中心点坐标，为预测的宽和高；

6.1：基于前一帧中所有目标的状态，将目标集合T^t-1＝{T₁，T₂，…，T_N}划分为两类Ω₁和Ω₂，Ω₁∪Ω₂＝T^t-1，Ω₁由处于初始状态和跟踪状态的目标组成，Ω₂由处于丢失状态的目标组成，N为目标总数；

6.2：计算Ω₁中的每个目标与D^t中的每个检测响应的匹配相似度，得到相似度矩阵A₁，以-A₁为关联代价矩阵，将Ω₁中的目标与D^t中的检测响应进行关联，应用匈牙利算法求解最优关联；依据关联结果将Ω₁与D^t进行划分：D^t＝D^A∪D^B，其中中的目标与D^A中的检测响应成功关联，为未关联的目标集合，D^B为第一阶段未关联的检测响应集合。计算相似度矩阵A₁的具体步骤如下：

(a)计算Ω₁中的目标T_i与D^t中的检测响应D_j的外观相似度

且

其中<*，*>为向量的内积，X_i(t-K)表示目标Ti在第t-k帧中的外观特征向量，Z_j表示检测响应D_j的外观特征向量，ω_k表示外观特征向量X_i(t-k)的权重，C_i(t-k)为目标T_i在第t-k帧与检测响应的匹配代价。

本实施例中，保存目标在最近6帧的历史外观特征，即K＝6。

(b)计算Ω₁中的目标T_i与D^t中的检测响应D_j的形状相似度

(c)计算Ω₁中的目标T_i与D^t中的检测响应D_j的运动相似度

为目标T_i的预测区域与检测响应D_j对应区域的交并比(IOU)，其中area(*)表示面积。

6.3：计算Ω₂中的每个目标与D^B中的每个检测响应的匹配相似度，得到相似度矩阵A₂；以-A₂为关联代价矩阵，将Ω₂中的目标与D^B中的检测响应进行关联，应用匈牙利算法求解最优关联。依据关联结果将Ω₂与D^B进行划分：其中中的目标与中的检测响应成功关联，为未关联的目标集合，为第二阶段未关联的检测响应集合。计算相似度矩阵A₂的具体步骤如下：

(a)利用上述公式(3)、(4)、(5)计算Ω₂中的目标T_i与D^B中的检测响应D_j的外观相似度形状相似度

(b)计算目标T_i的搜索半径r_i：

在本实施例中，α取0.15。

其中为当前帧号与目标Ti处于跟踪状态时的最大帧号之差，α为常数。

(c)以目标T_i在当前帧中的预测位置为中心，r_i为半径，定义目标T_i的搜索区域R_i。

(d)计算Ω₂中的目标T_i与D^B中的检测响应D_j的匹配相似度A₂(i，j)：

其中I(R_i∩D_j＞0)为指示函数，当检测响应D_j与搜索区域R_i存在重叠时，I(R_i∩D_j＞0)＝1，否则I(R_i∩D_j＞0)＝0。

步骤7：如图3所示，根据步骤6中的最优关联结果更新目标的状态和特征，具体步骤如下：

(a)对于中的未关联检测响应，表示视频中可能出现新目标，初始化新目标，并将状态置为初始状态。当初始状态的目标连续出现f_init帧，则为该目标分配ID，设置状态参数，然后将目标转换为跟踪状态。

(b)对于中的目标，由于存在关联的检测响应，保持目标状态不变，应用卡尔曼滤波算法更新目标的状态，并保存目标在当前帧的外观特征向量。

(c)对于中的目标，由于没有关联的检测响应，将目标状态由跟踪状态转换为丢失状态，并保存目标在当前帧的外观特征向量。

(d)对于中的目标，由于存在关联的检测响应，将目标状态由丢失状态转换为跟踪状态，应用卡尔曼滤波算法更新目标的状态，并保存目标在当前帧的外观特征向量。

(e)对于中的目标，由于没有关联的检测响应，保持目标状态不变。

在本实施例中，取f_init＝3，f_del＝20。

实施效果：

依据上述步骤，我们在多目标跟踪挑战MOT Challenge的MOT16数据集上进行了实验。所有的实验都在PC机上实现，该PC机的主要参数为：中央处理器Intel Core i72.3GHz，16G内存。算法用Python语言实现。

结果显示，本技术方案能有效跟踪视频中的被检测出的行人，当行人发生遮挡或存在检测噪声时也能实现持续跟踪，输出目标的正确轨迹。而且，程序运行效率较高，大约1秒钟能处理10帧输入图像。这一实验表明，本实施例的多目标跟踪算法能准确、快速的实现在线行人跟踪。

总而言之，本发明提出了一种基于深度学习和数据关联的在线多目标跟踪方法。该方法广泛适用于各种视频场景下的目标跟踪，如视频监控场景下的行人跟踪，为智慧安防系统提供技术支持，以及复杂交通场景下的车辆跟踪，为自动驾驶技术提供技术支持。本发明遵循基于检测的跟踪框架，将在线多目标跟踪问题转化为数据关联问题，首先利用训练好的目标检测器提取图像中的所有检测响应；然后利用深度余弦度量学习模型从每个检测响应提取外观特征向量；再结合目标的外观、运动和形状等线索计算不同的目标与检测响应之间的关联代价；在两阶段数据关联中应用匈牙利算法实现目标与检测的最优匹配，最后根据关联结果对目标状态进行更新。

以上所述的具体实施例，对本发明的背景、技术方案和有益效果进行了进一步的详细说明。本领域的技术人员容易理解，以上所述仅为本发明的一个具体实施例而已，并不用于完全限定本发明的保护范围。注意，对本领域的技术人员而言，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和数据关联的在线多目标跟踪方法，其特征在于，所述方法包括如下步骤：

步骤1：输入视频当前帧的图像；

2.根据权利要求1所述的一种基于深度学习和数据关联的在线多目标跟踪方法，其特征在于，所述步骤6基于两阶段数据关联的目标状态与检测响应的匹配关联，包括：

(b)计算Ω₁中的每个目标与D^t中的每个检测响应的匹配相似度，得到相似度矩阵A₁；以-A₁为关联代价矩阵，将Ω₁中的目标与D^t中的检测响应进行关联，应用匈牙利算法求解最优关联；依据关联结果将Ω₁与D^t进行划分：D^t＝D^A∪D^B，其中中的目标与D^A中的检测响应成功关联，为未关联的目标集合，D^B为第一阶段未关联的检测响应集合；

(c)计算Ω₂中的每个目标与D^B中的每个检测响应的匹配相似度，得到相似度矩阵A₂；以-A₂为关联代价矩阵，将Ω₂中的目标与D^B中的检测响应进行关联，应用匈牙利算法求解最优关联。依据关联结果将Ω₂与D^B进行划分：其中中的目标与中的检测响应成功关联，为未关联的目标集合，为第二阶段未关联的检测响应集合。

3.根据权利要求2所述的一种基于深度学习和数据关联的在线多目标跟踪方法，其特征在于，所述方法计算Ω₁中的每个目标与D^t中的每个检测响应的匹配相似度，包括：

(a)计算Ω₁中的目标T_i与D^t中的检测响应D_j的外观相似度

且

(b)计算Ω₁中的目标T_i与D^t中的检测响应D_j的形状相似度

(c)计算Ω₁中的目标T_i与D^t中的检测响应D_j的运动相似度

4.根据权利要求2所述的一种基于深度学习和数据关联的在线多目标跟踪方法，其特征在于，所述方法计算Ω₂中的每个目标与D^B中的每个检测响应的匹配相似度，包括：

(b)计算目标T_i的搜索半径r_i：

5.根据权利要求1所述的一种基于深度学习和数据关联的在线多目标跟踪方法，其特征在于，所述步骤7：根据步骤6中的最优关联结果更新目标的状态和特征，包括：