CN115457288A

CN115457288A - 基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备

Info

Publication number: CN115457288A
Application number: CN202211176126.5A
Authority: CN
Inventors: 王楠; 李雪; 范圣印
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-09

Abstract

本申请提供了一种基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备，涉及自动驾驶技术以及计算机视觉领域，该方法可以包括：获取每个相机在当前时刻采集的视角图像；基于每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图；基于鸟瞰视角下的特征图进行多目标跟踪处理。本申请提供的基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备可以为准确的跟踪创建条件，并且可以降低多目标跟踪过程中的计算力消耗。

Description

基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备

技术领域

本申请涉及自动驾驶技术以及计算机视觉领域，尤其涉及一种基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备。

背景技术

多目标跟踪（multiple object tracking，MOT）技术是自动驾驶、人机交互、视频监控以及军事航天等许多应用的关键技术。具体地，多目标跟踪是对不确定数目的多个目标在时间序列上的位置信息进行描述的过程。

在实际应用中，由于计算机视觉的发展和视频处理硬件的进步，基于视频的多目标跟踪受到广泛关注。但是具体到实际场景的应用，仍然存在许多挑战，由于视频采集设备的限制，常见的问题包括图像模糊、背景多变以及光照变化等。此外，目标种类和数量多变，目标与目标之间、目标与背景之间的交互，加上目标主体本身的旋转导致尺度形态变化进而引发外观特征变化，以及观察主体位置视角的变化等，无不对多目标跟踪算法的性能产生影响。

发明内容

本申请目的是提供一种基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备，能够用于解决以上技术问题。

第一方面，本申请实施例提供了一种基于鸟瞰视角的多目标跟踪方法，所述方法包括：

获取每个相机在当前时刻采集的视角图像；

基于所述每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图；

基于所述鸟瞰视角下的特征图进行多目标跟踪处理。

在一种可能的实现方式中，所述基于所述每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图，包括：

对每个视角图像进行特征提取，得到对应的特征图，所述特征图包括：多尺度特征图、手工特征图以及深度特征图中的至少一项；

将所述对应的特征图映射到鸟瞰视角下的特征空间，得到所述鸟瞰视角下的特征图。

在另一种可能的实现方式中，所述将所述对应的特征图映射到鸟瞰视角下的特征空间，得到所述鸟瞰视角下的特征图，包括：

将所述对应的特征图通过transformer映射到鸟瞰视角下的特征空间，得到所述鸟瞰视角下的特征图：

基于所述对应的特征图生成transformer中的键和值；

将所述对应的特征图进行池化处理，得到全局向量；

对所述鸟瞰视角下的特征空间进行栅格化和位置编码，得到位置编码后的特征空间；

将所述位置编码后的特征空间与所述全局变量进行拼接处理；

将拼接处理后的特征生成transformer中的查询；

基于所述查询和所述键，确定所述鸟瞰视角下的特征图与所述对应的特征图之间的关系；

基于所述关系以及所述值，确定所述鸟瞰视角下的特征图。

在另一种可能的实现方式中，所述基于所述鸟瞰视角下的特征图进行多目标跟踪处理，包括：

获取鸟瞰视角下各目标之间的相对位置编码；

基于所述相对位置编码以及所述鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征；

获取各目标的轨迹查询，所述轨迹查询包括所述当前时刻新目标的新生轨迹查询以及所述当前时刻之前已出现的目标的历史轨迹查询；

基于所述编码特征、所述相对位置编码以及所述轨迹查询，并通过特征解码器进行解码，得到解码特征；

对所述解码特征进行回归和分类，得到各目标的跟踪结果，任一目标的跟踪结果包括：所述任一目标在鸟瞰视角下的位置信息以及所述任一目标对应的目标身份或类别。

在另一种可能的实现方式中，所述获取鸟瞰视角下各目标之间的相对位置编码，包括：

获取鸟瞰视角下任意两目标之间的相对距离；

基于可学习的参数层将各所述相对距离转化为相对位置编码，以得到各目标之间的相对位置编码。

在另一种可能的实现方式中，所述基于所述相对位置编码以及所述鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征，包括：

降低所述鸟瞰视角下的特征图所对应的特征通道维数；

将特征维数降低后的鸟瞰视角下的特征图的空间维度坍缩为预设维度；

基于所述相对位置编码以及坍缩后的鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征。

在另一种可能的实现方式中，所述特征编码器包括多头自注意力层和前向传播层；

所述基于所述相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征，包括：

将所述相对位置编码以及所述鸟瞰视角下的特征图输入至所述多头自注意力层的查询通道和键通道中，并将所述鸟瞰视角下的特征图输入至所述多头自注意力层的值通道中，得到多头注意力特征；

将所述多头注意力特征进行残差和归一化处理，得到残差和归一化处理后的特征；

将所述残差和归一化处理后的特征通过所述前向传播层进行特征编码，得到编码后的特征；

将所述编码后的特征进行残差和归一化处理，得到所述编码特征。

在另一种可能的实现方式中，所述轨迹查询包括：第一原有目标对应的轨迹查询，所述第一原有目标为当前帧之前已经出现的目标；

其中，获取所述原有目标对应的轨迹查询，包括：

获取上一帧对应的新生轨迹查询，所述上一帧为所述当前帧所对应的上一帧，所述上一帧对应的新生轨迹查询中包含所述上一帧所出现的新目标对应的轨迹查询；和/或

针对每个第二原有目标，获取包含所述每个第二原有目标的历史特征，并基于所述包含每个第二原有目标的历史特征进行轨迹查询，得到每个第二原有目标对应的历史轨迹查询，所述第二原有目标为所述上一帧之前已经出现的目标；

将所述上一帧对应的新生轨迹查询，和/或，所述每个第二原有目标对应的历史轨迹查询，确定为第一原有目标对应的轨迹查询。

在另一种可能的实现方式中，所述轨迹查询还包括：新生目标对应的新生轨迹查询，所述新生目标为当前帧新出现的目标；

其中，获取所述新生目标对应的轨迹查询，包括：

基于所设定的查询数量产生所述新目标对应的新生轨迹查询。

在另一种可能的实现方式中，所述特征解码器包括多头交叉注意力层和前向传播层；

所述基于所述编码特征、所述相对位置编码以及所述轨迹查询，并通过特征解码器进行解码，得到解码特征，包括：

将所述轨迹查询输入至空间注意力模型中，得到自注意力特征；

将所述轨迹查询与所述自注意力特征输入至所述多头交叉注意力层的查询通道中，将所述编码特征与所述相对位置编码输入至所述多头交叉注意力层的键通道中，将所述编码特征输入至所述多头交叉注意力层的值通道中，得到多头交叉注意力特征；

将所述多头交叉注意力特征进行残差和归一化处理，得到处理后的多头交叉注意力特征；

将所述处理后的多头交叉注意力特征输入至所述前向传播层，得到解码后的特征；

对所述解码后的特征进行残差和归一化计算，得到解码特征。

在另一种可能的实现方式中，若所述轨迹查询包括第一原有目标对应的轨迹查询和新生目标对应的轨迹查询，

则所述将所述轨迹查询输入至空间注意力模型中，得到自注意力特征，包括：

将所述第一原有目标对应的轨迹查询和所述新生目标对应的轨迹查询进行融合，得到融合后的轨迹查询；

将所述融合后的轨迹查询输入至空间注意力模型中，得到自注意力特征。

在另一种可能的实现方式中，所述对所述解码特征进行回归和分类，得到各目标的跟踪结果之后，还包括：

创建现有轨迹集合变量和/或终止轨迹集合变量；

基于所述现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理。

在另一种可能的实现方式中，基于所述现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理，包括：

为所述新生目标分配身份信息，并记录所述新生目标对应的跟踪结果，所述跟踪结果中携带对应的时间单元标签；和/或，

将现有轨迹中满足预设条件的轨迹从所述现有轨迹集合变量中移除，和/或，将所述满足预设条件的轨迹移入所述终止轨迹集合变量；和/或，

在时间延迟阈值范围内，将现有轨迹中满足预设条件的轨迹延迟移除。

在另一种可能的实现方式中，所述方法还包括：

创建关键目标的轨迹集合变量；

将当前帧输出的所有关键目标存储在所述关键目标的轨迹集合变量中；和/或，

将所述时间延迟阈值范围内输出的历史关键目标存储在所述关键目标的轨迹集合变量中；和/或，

若当前帧输出有非关键目标，则从输出的非关键目标中确定出符合特定条件的非关键目标，并将所述符合特定条件的非关键目标存储在所述关键目标的轨迹集合变量中，所述特定条件的非关键目标包括：所述非关键目标是由关键目标转换的，且由关键目标转换为非关键目标的时间属于所述时间延迟阈值范围；和/或，

将所述当前帧输出的新生目标，存储至所述关键目标的轨迹集合变量中。

在另一种可能的实现方式中，所述方法还包括：

以文本方式和/或可视化的方式将所述终止轨迹集合变量中各所述目标的跟踪结果按照时序和/或身份信息进行输出。

在另一种可能的实现方式中，所述方法还包括：

采集数据集，所述数据集包括至少一个类别的样本以及各所述样本的属性信息；

基于所述数据集对模型进行训练，得到训练完成的模型，所述模型包括所述特征编码器、所述特征解码器、回归模块和分类模块，所述回归模块用于对所述解码特征进行回归，所述分类模块用于对所述解码特征进行分类。

在另一种可能的实现方式中，所述基于所述数据集对模型进行训练，得到训练完成的模型，包括：

确定各个查询的损失和；

确定关键目标召回率的损失；

基于所述各个查询的损失和以及所述关键目标召回率的损失，计算目标损失函数；

基于所述数据集并通过所述目标损失函数对模型进行训练，得到训练完成的模型。

第二方面，本申请实施例提供了一种基于鸟瞰视角的多目标跟踪装置，所述装置包括：

获取模块，用于获取每个相机在当前时刻采集的视角图像；

确定模块，用于基于所述每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图；

多目标跟踪处理模块，用于基于所述鸟瞰视角下的特征图进行多目标跟踪处理。

在一种可能的实现方式中，所述确定模块在基于所述每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图时，具体用于：

在一种可能的实现方式中，所述确定模块在将所述对应的特征图映射到鸟瞰视角下的特征空间，得到所述鸟瞰视角下的特征图时，具体用于：

基于所述对应的特征图生成transformer中的键和值；

将所述对应的特征图进行池化处理，得到全局向量；

将拼接处理后的特征生成transformer中的查询；

基于所述关系以及所述值，确定所述鸟瞰视角下的特征图。

在一种可能的实现方式中，所述多目标跟踪处理模块在基于所述鸟瞰视角下的特征图进行多目标跟踪处理时，具体用于：

获取鸟瞰视角下各目标之间的相对位置编码；

对所述解码特征进行回归和分类，得到各目标的跟踪结果，任一目标的跟踪结果包括：所述任一目标在鸟瞰视角下的位置信息以及所述任一目标对应的目标类型。

在一种可能的实现方式中，所述多目标跟踪处理模块在获取鸟瞰视角下各目标之间的相对位置编码时，具体用于：

获取鸟瞰视角下任意两目标之间的相对距离；

在一种可能的实现方式中，所述多目标跟踪处理模块在基于所述相对位置编码以及所述鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征时，具体用于：

降低所述鸟瞰视角下的特征图所对应的特征通道维数；

在一种可能的实现方式中，所述特征编码器包括多头自注意力层和前向传播层；

所述多目标跟踪处理模块在基于所述相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征时，具体用于：

在一种可能的实现方式中，所述轨迹查询包括：第一原有目标对应的轨迹查询，所述第一原有目标为当前帧之前已经出现的目标；

其中，所述多目标跟踪处理模块在获取所述原有目标对应的轨迹查询时，具体用于：

获取上一帧对应的新生轨迹查询，所述上一帧为所述当前帧所对应的上一帧，所述上一帧对应的新生轨迹查询中包含所述上一帧所出现的新目标对应的轨迹查询；和/或，

在一种可能的实现方式中，所述轨迹查询还包括：新生目标对应的新生轨迹查询，所述新生目标为当前帧新出现的目标；

其中，所述多目标跟踪处理模块在获取所述新生目标对应的轨迹查询时，具体用于：

在一种可能的实现方式中，所述特征解码器包括多头交叉注意力层和前向传播层；

所述多目标跟踪处理模块在基于所述编码特征、所述相对位置编码以及所述轨迹查询，并通过特征解码器进行解码，得到解码特征时，具体用于：

在一种可能的实现方式中，当所述轨迹查询包括第一原有目标对应的轨迹查询和新生目标对应的轨迹查询时，

所述多目标跟踪处理模块在将所述轨迹查询输入至空间注意力模型中，得到自注意力特征时，具体用于：

在一种可能的实现方式中，所述装置还包括：第一创建模块以及跟踪管理模块，其中，

所述第一创建模块，用于创建现有轨迹集合变量和/或终止轨迹集合变量；

所述跟踪管理模块，用于基于所述现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理。

在一种可能的实现方式中，所述跟踪管理模块在基于所述现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理时，具体用于：

在一种可能的实现方式中，所述装置还包括：第一存储模块、第二存储模块、第三存储模块以及第四存储模块中的至少一项以及第二创建模块，其中，

所述第二创建模块，用于创建关键目标的轨迹集合变量；

所述第一存储模块，用于将当前帧输出的所有关键目标存储在所述关键目标的轨迹集合变量中；

所述第二存储模块，用于将所述时间延迟阈值范围内输出的历史关键目标存储在所述关键目标的轨迹集合变量中；

所述第三存储模块，用于当当前帧输出有非关键目标时，从输出的非关键目标中确定出符合特定条件的非关键目标，并将所述符合特定条件的非关键目标存储在所述关键目标的轨迹集合变量中，所述特定条件的非关键目标包括：所述非关键目标是由关键目标转换的，且由关键目标转换为非关键目标的时间属于所述时间延迟阈值范围；

所述第四存储模块，用于将所述当前帧输出的新生目标，存储至所述关键目标的轨迹集合变量中。

在一种可能的实现方式中，所述装置还包括：输出模块，其中，

所述输出模块，用于以文本方式和/或可视化的方式将所述终止轨迹集合变量中各所述目标的跟踪结果按照时序和/或身份信息进行输出。

在一种可能的实现方式中，所述装置还包括：采集模块以及训练模块，其中，

所述采集模块，用于采集数据集，所述数据集包括至少一个类别的样本以及各所述样本的属性信息；

所述训练模块，用于基于所述数据集对模型进行训练，得到训练完成的模型，所述模型包括所述特征编码器、所述特征解码器、回归模块和分类模块，所述回归模块用于对所述解码特征进行回归，所述分类模块用于对所述解码特征进行分类。

在一种可能的实现方式中，所述训练模块在基于所述数据集对模型进行训练，得到训练完成的模型时，具体用于：

确定各个查询的损失和；

确定关键目标召回率的损失；

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面中任一可能的实现方式所示的鸟瞰视角的多目标跟踪方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的鸟瞰视角的多目标跟踪方法。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供了一种基于鸟瞰视角的多目标跟踪方法、装置、存储介质及设备，在本申请实施例中通过获取车载设备上各相机在当前时刻采集的视角图像，以确定鸟瞰视角下的特征图，并根据鸟瞰视角下的特征图进行多目标跟踪处理。也就是说通过将场景投影到鸟瞰视角下，最大限度的降低由于视角问题带来的目标遮挡而导致的外观特征不可靠和不稳定的问题，为准确的跟踪创造条件，使算法可以在鸟瞰视角下，自适应的利用全局信息区分不同目标，同时减少冗余检测，并通过编码、解码，进一步融合目标检测、跟踪，使模型可以通过关注较少的特定关键目标，降低多目标跟踪过程的计算力消耗。

附图说明

图1是本申请实施例提供的一种基于鸟瞰视角的多目标跟踪方法的流程示意图；

图2是本申请实施例提供的一种特征编码的流程示意图；

图3是本申请实施例提供的一种特征解码的流程示意图；

图4是本申请实施例提供的一种基于鸟瞰视角的多目标跟踪装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、 “第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

对于多目标跟踪，除了算法输入维度的影响，从算法本身来看，也存在许多难以回避的问题。如数据关联算法的计算规模，常见的多目标跟踪算法往往需要在计算复杂度和准确度之间做出折中，如果考虑越多的线索，算法的计算开销越大，反之则会降低算法的精度。在视频多目标跟踪中，尤其是自动驾驶领域，还有一个不可逾越的问题，就是用二维视频解决三维问题。实际上，这也是视频多目标跟踪中最大的问题，遮挡的根本来源，本质上是视角导致的线索信息不全问题。因此，如何来设计多目标跟踪算法具有重要的理论意义和实际应用价值。

本申请实施例旨在设计一种兼顾准确性和鲁棒性的视频多目标跟踪方法，完成对视频中各种目标的高效跟踪。针对视频多目标跟踪算法对于检测质量敏感，以及目标检测算法对景深等敏感的问题，本申请实施例提出鸟瞰视角下联合进行多目标检测和跟踪的方法，通过将检测任务统一于跟踪任务中，可以基于一个共享主干网络提供特征，同时端到端的优化检测和跟踪两项任务，并且使整个模型可以逐帧进行多目标跟踪，达到在线跟踪的效果。针对复杂场景下的遮挡问题，本申请实施例提出基于注意力机制的鸟瞰视角（birdeye view）多目标跟踪方法，通过摄像头采集周围环境信息，并投影到鸟瞰视角下，最大限度的降低视角问题带来目标遮挡，从而导致外观特征不可靠的问题。针对实际场景中目标种类多样的问题，在综合损失函数的类别项中，采用多类别损失，使模型不仅仅针对某一特定目标群体。针对多目标跟踪中目标与目标间、目标与背景间容易互相干扰，导致特征表达力不足的问题，本申请实施例提出利用基于自注意力和交叉注意力的空间注意力机制，以学习的方式结合全局信息来自适应的区分不同目标，并且减少冗余检测，从而提高跟踪准确率。针对多目标跟踪中的身份交换问题，本申请实施例提出利用基于时间记忆单元的时间注意力机制，通过学习的方式对时间相关特征进行提取，从而减少身份交换。针对多目标跟踪算法的计算过程对目标数量敏感的问题，本申请实施例提出基于距离排序提取关键目标的方法，从而降低多目标跟踪算法的计算复杂度。

本申请实施例提供一种基于注意力机制的鸟瞰视角多目标跟踪方法，通过在鸟瞰视角下进行视频多目标跟踪，结合注意力机制和深度学习框架，最终形成一套兼顾准确性、鲁棒性和速度的视频多目标跟踪方法，具体如下所示：

1. 本申请实施例提出一个在鸟瞰视角下逐帧进行多目标检测和跟踪的联合框架，使网络可以基于一个主干网络，以端到端的方式，联合优化训练两项任务，并且使整个模型可以逐帧进行多目标跟踪，达到在线跟踪的效果。此外，通过将检测任务统一于跟踪任务中，摆脱了经典多目标跟踪方法对于目标检测算法和检测结果的依赖；

2. 本申请实施例中，通过将场景投影到鸟瞰视角下，尽量降低由于视角问题带来的信息不可靠性和不稳定性，为准确的跟踪创造条件；

3. 本申请实施例在鸟瞰视角下提出基于自注意力和交叉注意力机制的目标特征表达方法，通过学习的方式，使算法可以在鸟瞰视角下，自适应的利用全局信息区分不同目标，同时减少冗余检测，并且通过联合优化，使目标特征更加符合跟踪的需求，提高了多目标跟踪的准确率；

4. 本申请实施例在鸟瞰视角下提出一种基于时间记忆单元的注意力机制来优化目标特征，通过学习的方式，使算法可以利用目标在不同时间单元的信息强化网络对于目标特征表征的鲁棒性，从而减少多目标跟踪中的身份交换问题；

5. 本申请实施例涉及一种新的综合损失函数，融合了目标检测、跟踪和关键目标召回率，通过融合空间和时间注意力机制来更好的学习社会关系，并进一步确定空域范围内的关键目标，使模型可以通过关注较少的特定关键目标，降低多目标跟踪过程的计算力消耗；

6. 本申请实施例还涉及一种多类别多目标跟踪模型，不局限于某一目标群体，在实际问题中，有更好的泛化性和鲁棒性。

其中，针对本申请实施例的具体介绍详见下述实施例：

首先，先介绍本申请实施例中涉及到的概念和定义，具体如下所示：

观测主体：观测主体即本例中的载具，实际上是传感器本身，传感器的数据需要经过传感器相对载具中心的参数转换后将数据传给系统，本申请实施例中默认系统接收的数据已经过转换；

帧（frame）：传感器传输数据的基本单位，每一帧表示某一时间单位（如，三十分之一秒），帧发送接受频率是由载具所使用的系统决定的；

目标（object 或 target）：在视频多目标跟踪中，指图像中区别于背景的具有一定物理含义的事物，一般以矩形框（boundingbox）的形式标记；

检测结果（detection）：在视频多目标跟踪中，指由检测算法输出的，每帧图像中疑似为目标的候选单位；

特征提取（feature extraction）：对图像区域进行信息筛选和抽象化表征的过程，一般对目标或者检测结果所属区域进行；

数据关联（data association）：在视频多目标跟踪中，将不同帧之间属于不同身份的检测或目标区分开来，属于同一身份的，匹配到一起的过程；

轨迹片段 (tracklet)：目标在某一较短时间间隔内（多个时间单位），将对应的数据关联结果整合，得到的小段位置信息；

轨迹 (trajectory)：目标在整个视频序列中的位置信息，可由轨迹片段经数据关联进一步生成；

跟踪（tracking）：在视频序列中，生成目标轨迹的过程；

下面结合具体的实施例对本申请进行详细说明。

本申请实施例提供一种基于鸟瞰视角的多目标跟踪方法，该基于鸟瞰视角的多目标跟踪方法可以由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

需要说明的是，用于执行基于鸟瞰视角的多目标跟踪方法的电子设备还可以包括：安装在各种智能车辆上的车载设备以及智能机器人等。

进一步地，如图1所示，该方法可以包括：

步骤S101、获取每个相机在当前时刻采集的视角图像。

对于本申请实施例，在获取每个相机在当前时刻采集的视角图像，之前还可以包括：采集当前帧周围一定范围内多个相机拍摄的不同视角的环境信息和观测主体的运动信息，并基于当前帧周围一定范围内多个相机拍摄的不同视角的环境信息和观测主体的运动信息，确定每个相机在当前时刻采集的视角图像。在本申请实施例中，观测主体的运动信息可以通过惯性测量单元进行测量。

其中，相机可以是单目视觉相机或多目视觉相机，也可以为单目相机和/或多目视觉相机组成的相机群。例如，相机个数可以是6个。进一步地，在本申请实施例中获取到的视角图像可以为单一视角的图像，也可以为多个视角的图像，在本申请实施例中不做限定。

步骤S102、基于每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图。

对于本申请实施例，若获取的图像为单一视角的图像，则基于该单一视角的图像确定鸟瞰视角下的特征图；若获取的图像为多个视角的图像，则基于该多个视角的图像确定鸟瞰视角下的特征图。

步骤S103、基于鸟瞰视角下的特征图进行多目标跟踪处理。

本申请实施例提供了一种鸟瞰视角的多目标跟踪方法，在本申请实施例中通过获取车载设备上各相机在当前时刻采集的视角图像，以确定鸟瞰视角下的特征图，并根据鸟瞰视角下的特征图进行多目标跟踪处理。也就是说通过将场景投影到鸟瞰视角下，最大限度的降低由于视角问题带来的目标遮挡而导致的外观特征不可靠和不稳定的问题，为准确的跟踪创造条件，使算法可以在鸟瞰视角下，自适应的利用全局信息区分不同目标，同时减少冗余检测，并通过编码、解码，进一步融合目标检测、跟踪，使模型可以通过关注较少的特定关键目标，降低多目标跟踪过程的计算力消耗。

进一步地，步骤S101中获取每个相机在当前时刻采集的视角图像可以详见上述实施例，除此之外任何获取相机在当前时刻采集的视角图像的方式均在本申请实施例的保护范围之内。

具体地，步骤S102中所述基于所述每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图，具体可以包括：步骤S1021（图中未示出）以及步骤S1022（图中未示出），其中，

步骤S1021、对每个视角图像进行特征提取，得到对应的特征图。

具体地，特征提取即对图像区域进行信息筛选和抽象化表征的过程，一般对目标或者检测结果所属区域进行。在本实施例中，对视角图像中包含目标的区域进行特征提取。在本申请实施例中，特征图可以包括：多尺度特征图、手工特征图以及深度特征图中的至少一项。

具体地，在本申请实施例中以对视角图像进行多尺度特征提取，以得到多尺度特征图为例进行介绍。在本申请实施例中，对各个相机的当前时刻采集的视角图像分别通过骨干网络（backbone network）和特征金字塔网络（Feature Pyramid Network，FPN）提取多尺度特征图。本实施例中，可以采用RegNet及BiFPN的组合框架来进行，又或者通过其他全连接层结构的神经网络来进行，BiFPN的多尺度可以是4个尺度，假设视角图像的高和宽分别是H和W，则可以获得四个尺度

，

，

，

，

，

，

，

的特征图，之后将4个尺度的特征图经过上采样和拼接操作得到各视角图像的多尺度特征图。

步骤S1022、将对应的特征图映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图。

具体地，在本申请实施例中，将每个视角图像的特征图均映射到鸟瞰视角下的特征空间，当然还可以将每个视角图像的特征均映射至其它特征空间。在本申请实施例中，无论是鸟瞰视角下的特征空间还是其他特征空间，其对应的维度的预先设定的。

具体地，将对应的特征图映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图，具体可以包括：将对应的特征图通过transformer映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图。

进一步地，将对应的特征图通过transformer映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图，具体可以包括：基于对应的特征图生成transformer中的键（Key）和值（Value）；将对应的特征图进行池化处理，得到全局向量；对鸟瞰视角下的特征空间进行栅格化和位置编码，得到位置编码后的特征空间；将位置编码后的特征空间与全局变量进行拼接处理；将拼接处理后的特征生成transformer中的查询；基于查询和键，确定鸟瞰视角下的特征图与对应的特征图之间的关系；基于关系以及值，确定鸟瞰视角下的特征图。

以特征图为多尺度特征图为例进行说明，一方面将每个多尺度特征图通过多层感知机生成transformer中的键和值，另一方面对多尺度特征图进行全局池化操作得到一个全局向量，并对所要输出的鸟瞰图空间进行栅格化和位置编码，再将这些位置编码与全局向量进行拼接，继而通过多层感知机得到transformer中的查询（query）。其中，查询（query）的维度和鸟瞰视角下的特征图的维度相同。进一步地，由于键和值都处于2D图像坐标空间下，最后的结果需要通过查询和键的注意力，来得到每个鸟瞰图栅格接收2D图像像素的权重，从而确定鸟瞰视角下的特征图与输入之间的关系，并通过这些权重对图像平面下的值（value）加权求和，最终得到鸟瞰视角下的特征图。

例如，鸟瞰视角的特征图为

，其维度为

C。其中，C是特征通道数，

表示第一维的大小，

表示第二维大小，

，

表示时间单元，在本例中表征帧，

表示视频序列的长度。

进一步地，在得到鸟瞰视角下的特征图后，基于鸟瞰视角下的特征图进行多目标跟踪处理，具体可以包括：步骤S1031（图中未示出）、步骤S1032（图中未示出）、步骤S1033（图中未示出）、步骤S1034（图中未示出）以及步骤S1035（图中未示出），其中，

步骤S1031、获取鸟瞰视角下各目标之间的相对位置编码。

具体地，为了更好的表达目标间的相对关系，因此输入至特征编码器中的位置信息采用相对位置编码。在本申请实施例中，获取鸟瞰视角下各目标之间的相对位置编码，具体可以包括：获取鸟瞰视角下任意两目标之间的相对距离；基于可学习的参数层将各相对距离转化为相对位置编码，以得到各目标之间的相对位置编码。

假设当前帧

内任意两个特征的索引为

，首先计算二者对之间的相对距离

，然后通过一个可学习的参数层（embedding）将相对距离转化为相对位置的编码，具体通过公式（1）进行表征：

公式（1）；

其中，

和

分别是对应于transformer框架中查询（query）和键（key）的位置编码参数，

则限制了相对距离的最大值，当两个特征之间的相对距离超过

后，距离取值皆为

，这种设置是基于相对位置超过一定范围外就失去意义的假设，并且可以使模型对训练过程中未出现的情况鲁棒。

步骤S1032、基于相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征。

具体地，特征编码器的主要结构为一个循环N次的多头自注意力层（multi-headself-attention）和前向传播层（Feed Forward Network，FFN），并且每次经过自注意力层和前向传播层后都采用了残差和归一化计算。也就是说，编码包含两个阶段，其中第一阶段是对输入特征进行空间自注意力计算，第二阶段是输出特征编码。

具体地，基于相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征，具体可以包括：将相对位置编码以及鸟瞰视角下的特征图输入至多头自注意力层的查询通道和键通道中，并将鸟瞰视角下的特征图输入至多头自注意力层的值通道中，得到多头注意力特征；将多头注意力特征进行残差和归一化处理，得到残差和归一化处理后的特征；将残差和归一化处理后的特征通过前向传播层进行特征编码，得到编码后的特征；将编码后的特征进行残差和归一化处理，得到编码特征，如图2所示。

具体地，编码的第一阶段是对输入特征进行空间自注意力计算，模型中的注意力可以通过公式（2）进行表示：

；公式（2）；

其中，公式（2）中的Q，K和V对应模型中的查询（query），键（key）和值（value），在具体应用中可以赋予具体的物理含义，而自注意力机制也就是Q=K的情况，

表示特征通道的维数。其中，Q和K的输入融合了步骤S1031中的相对位置编码，用于保证模型对于相对位置的不变性。

对于多头自注意力层来说，通过公式（2）计算多个注意力特征，并将多个头的特征拼接得到多头注意力特征。假设Q，K和V的特征通道维度统一为

，则对于M个头的多头自注意力来说，每个头输出的特征通道维度为

，于是经过注意力计算的输出特征维度依然为

。

经过注意力层的特征需要进行残差和归一化，具体如公式（3）所示：

Z=LayerNorm

Sublayer

；公式（3）；

其中，公式（3）中的Sublayer表示残差层之前的子网，如多头注意力层或前向传播层，X表示子网的输入特征，LayerNorm 表示层内归一化运算，如批量归一化，Z表示残差归一化层的输出。

进一步地，编码的第二个阶段是输出特征编码，通过一个全连接的前向传播层来实现，具体如公式（4）所示：

；公式（4）；

公式（4）中的Z表示经过残差和归一化的注意力输出，

和

分别表示前向传播层中两个全连接层的参数，

和

为对应层的偏置。

此后，再根据公式（4）将得到的输出经由一个残差和归一化层计算，得到最终的特征编码。

进一步地，为了使输出的编码更加合理和鲁棒，基于相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征，具体可以包括：

第一步：降低鸟瞰视角下的特征图所对应的特征通道维数；

在本申请实施例中，通过使用1x1卷积将特征通道维数从C降低到更小的维数d，具体如公式（5）所示：

公式（5）；

其中，

，d表示新的特征维数，

表示卷积运算。

第二步：将特征维数降低后的鸟瞰视角下的特征图的空间维度坍缩为预设维度；也即，将

的空间维度坍缩为一个维度，即

变为维度是

的特征矩阵。

第三步：基于相对位置编码以及坍缩后的鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征。也就是说，将第二步的特征矩阵与相对位置编码一同作为输入，输入到编码器（Encoder）中，得到最终的编码，作为后续步骤中解码器的输入。在本申请实施例中，在第三步中基于相对位置编码以及坍缩后的鸟瞰视角下的特征图，并通过特征编码器进行特征编码的方式具体可以详见上述实施例，在此不再赘述。

需要说明的是，本例中循环次数N设为6。此外，第三步输入中的相对位置编码，以图2中的方式，将其加入到对应注意力层的查询和键的输入中，用以保证模型对于相对位置信息的不变性。

进一步地，在通过上述实施例得到编码特征之后，为了联合检测和跟踪，引入了轨迹查询（trajectory query）概念。从模型角度来说，这种轨迹查询的设计，与目标检测框架中解码时的目标查询一致，只是其本身对应某一目标的身份和历史轨迹信息，在本申请实施例的框架中，轨迹查询分为新生轨迹查询和历史轨迹查询，通过用新生轨迹查询来表示目标查询，将目标查询统一于轨迹查询中，从而将多目标检测统一于多目标跟踪中（具体方案在后续实施例中介绍）。实际上，在多目标跟踪中，历史轨迹查询也包含两种情况，假设当前帧为t，一种是在t-1帧刚刚出现的目标所对应的特征（即上一帧的新生轨迹查询结果），其只有一帧的信息，没有其他时间单元的历史信息，另一种是已有一段轨迹的目标，其拥有超过一帧以上的历史信息。对于前者，在轨迹查询时，直接根据t-1帧的特征进行查询，而对于后者这种在其他时间单元有轨迹信息的目标，在本申请实施例中基于时间注意力对其进行历史轨迹查询优化。具体如下所示：

步骤S1033、获取各目标的轨迹查询。

其中，轨迹查询包括当前时刻新目标的新生轨迹查询（下文中将此部分称为新生轨迹查询）以及当前时刻之前已出现的目标的历史轨迹查询（下文中将此部分称为历史轨迹查询）。

具体地，轨迹查询包括：第一原有目标对应的轨迹查询，第一原有目标为当前帧之前已经出现的目标。例如，当前帧为t，第一原有目标为t-1帧以及t-1帧之前已经出现的目标。在此基础上，获取原有目标对应的轨迹查询，具体可以包括：步骤S1033a（图中未示出）以及步骤S1033b（图中未示出）中的至少一项以及1033c（图中未示出），其中，

步骤S1033a、针对每个第二原有目标，获取包含每个第二原有目标的历史特征，并基于包含每个第二原有目标的历史特征进行轨迹查询，得到每个第二原有目标对应的历史轨迹查询。

其中，第二原有目标为上一帧之前已经出现的目标。接上例，当前帧为t，第二原有目标为t-1帧之前已经出现的目标。

进一步地，假设已有一段轨迹的某目标

的历史特征为

,

的维度是

，其中

是解码器输出的特征维度。每当对该目标进行轨迹查询前，目标

在当前帧的轨迹查询

根据如下公式（6）更新：

；公式（6）；

其中，

分别表示长短时记忆网络（Long Short Term Memory Network，LSTM）中的参数，偏差项和记忆单元，这种基于时域信息与当前信息的计算，在多目标跟踪中可以视为一种时间维度上的注意力机制，通过时间单元中的输入门，遗忘门以及输出门，对目标轨迹的有效历史信息进行筛选，从而使其更关注需要的信息。在本申请实施例中，由于本系统的输入可以是用于自动驾驶的载具传感器信息，所以可以减少对长时记忆的关注，更多考虑中短时记忆，为了减少计算力消耗，假设输入的时间单元范围为

，则一种选择可以是

，其中

是相机的帧率。

需要说明的是，上述公式（6）中除了利用LSTM网络，还可以利用其它表述时间的循环结构神经网络，在本申请实施例中不做限定。

步骤S1033b、获取上一帧对应的新生轨迹查询。

其中，上一帧为当前帧所对应的上一帧，上一帧对应的新生轨迹查询中包含上一帧所出现的新目标对应的轨迹查询。

具体来说，目标查询一般是目标检测任务中的概念，在本申请实施例中为了联合进行多目标检测和跟踪，将目标查询统一于轨迹查询的概念中，即新生轨迹查询。实际上，对于某一帧新出现的目标来说，由于其不具备已有的身份信息，其物理含义就是一条新产生的轨迹。于是，本例中的新生轨迹查询与目标检测任务一样，需要手工设定一个查询数量来得到查询向量。也就是说获取新生目标对应的轨迹查询，具体可以包括：基于所设定的查询数量产生新目标对应的新生轨迹查询。假设当前帧需要对

个新生轨迹查询和

个轨迹查询进行解码，则输入空间注意力层（也即图3所示的空间注意力机制网络）的是特征维度与特征编码一致的

个查询（query）向量。

需要说明的是，历史轨迹查询的个数

是由下述实施例中的关键目标数量确定的，其特征向量是基于步骤S1033a得到的，而新生轨迹查询依照一般的目标检测方法初始化查询向量。

需要说明的是，对于轨迹查询来说，在不考虑图3所示关键目标的情况下，分为两种情况。第一种情况，若输入是视频序列中的第一帧，历史轨迹查询为空，输入只有新生轨迹查询，则输出结果也只有对应的特征。第二种情况，对于除第一帧以外的任意帧t>0来说，解码器输出数量为

个的特征表达向量，分别对应新生轨迹和历史轨迹。这里，由于并非所有的目标都会出现在第一帧中，轨迹查询的数目是不固定的，假设

为当前帧对应的身份集合，则其只表示整个视频序列中所有身份集合

的子集。此外，由于轨迹查询的数量受到轨迹新生和轨迹移除的影响，查询的数量也是变化的。其中，轨迹移除详见下述实施例，在此不再赘述。

步骤S1033c、将上一帧对应的新生轨迹查询，和/或，每个第二原有目标对应的历史轨迹查询，确定为第一原有目标对应的轨迹查询。也就是说，第一原有目标对应的轨迹查询可以包括：当前帧的上一帧所出现的新目标对应的轨迹查询（例如，t-1帧所出现的新目标对应的轨迹查询结果），也可以包括：上一帧之前已经出现的目标对应的轨迹查询（例如，t-1帧之前已经出现的目标对应的轨迹查询结果）。

进一步地，在得到第一原有目标对应的轨迹查询后，将第一原有目标对应的轨迹查询输入空间注意力模型，以进一步地进行解码处理，具体详见下述实施例，在此不再赘述。

步骤S1034、基于编码特征、相对位置编码以及轨迹查询，并通过特征解码器进行解码，得到解码特征。

对于本申请实施例，通过特征解码器进行解码具体可以包括两个阶段：一、基于空间自注意力和交叉注意力对当前帧轨迹查询进行特征解码（decoding）；二、输出跟踪结果，提取关键目标，并优化下一帧的轨迹查询。在本申请实施例中，对于解码的第一阶段与编码类似，都是计算自注意力，不同的是自注意力层的输入不是特征图和相对位置编码的融合，而是轨迹查询（trajectory query）。也就是说，在网络模型中，有两种与位置相关的编码，相对位置编码和输出编码（轨迹查询），前者是编码器中输入的空间位置信息，后者本质上是模型要学习的用于多目标跟踪的特征表达。此外，如图3所示，这种输出编码（轨迹查询）也会通过残差连接参与到包含自注意力与交叉注意力的每一个注意力层的计算中。

具体地，特征解码器包括多头交叉注意力层和前向传播层；步骤S1034中基于编码特征、相对位置编码以及轨迹查询，并通过特征解码器进行解码，得到解码特征，具体可以包括：步骤S1034a（图中未示出）、步骤S1034b（图中未示出）、步骤S1034c（图中未示出）、步骤S1034d（图中未示出）以及步骤S1034e（图中未示出），其中，

步骤S1034a、将轨迹查询输入至空间注意力模型中，得到自注意力特征。

具体地，在本申请实施例中，将新生轨迹查询以及历史轨迹查询输入至空间注意力模型中，得到自注意力特征。

具体地，若轨迹查询包括第一原有目标对应的轨迹查询和新生目标对应的轨迹查询，则步骤S1034a中将轨迹查询输入至空间注意力模型中，得到自注意力特征，具体可以包括：将第一原有目标对应的轨迹查询和新生目标对应的轨迹查询进行融合，得到融合后的轨迹查询；将融合后的轨迹查询输入至空间注意力模型中，得到自注意力特征，也就是说，如图3所示，将新生轨迹查询和历史轨迹查询进行融合，得到轨迹查询，并输入至空间注意力模型中。

步骤S1034b、将轨迹查询与自注意力特征输入至多头交叉注意力层的查询通道中，将编码特征与相对位置编码输入至多头交叉注意力层的键通道中，将编码特征输入至多头交叉注意力层的值通道中，得到多头交叉注意力特征。

如图3所示，经过自注意力层的轨迹查询和相对位置编码以及特征编码一同输入到解码器中，进行多头交叉注意力计算。交叉注意力同样是基于注意力机制公式（2），与自注意力不同之处是其输入的Q和K不再相同，其中Q是轨迹查询，是其经过自注意力的输出与其本身通过残差连接的融合，K是编码器输出的特征编码与相对位置编码的融合，而公式（2）中的V直接采用编码器输出的特征编码。实际上，Q和K的不同就是交叉注意力的本质，也是编码-解码框架的核心。

步骤S1034c、将多头交叉注意力特征进行残差和归一化处理，得到处理后的多头交叉注意力特征。

具体地，经过多头交叉注意力层的特征同样根据公式（3）进行残差和归一化，进入解码的第三个阶段。其中，公式（3）在此处不再赘述。

步骤S1034d、将处理后的多头交叉注意力特征输入至前向传播层，得到解码后的特征。

进一步地，第三阶段是前向传播层。与编码过程类似，解码器根据公式（4）计算全连接层输出，得到解码后的特征。

步骤S1034e、对解码后的特征进行残差和归一化计算，得到解码特征。

进一步地，解码器根据公式（4）计算全连接层输出后，在根据公式（3）对其进行残差和归一化，从而得到最终的解码特征。

具体地，为了输出更加合理和鲁棒的特征表达，具体步骤如下：

第一步，将历史轨迹查询和新生轨迹查询融合，得到维度为

d的轨迹查询；

第二步，对轨迹查询进行自注意力计算；

第三步，根据自注意力的输出、特征编码以及相对位置编码，计算交叉注意力特征；

第四步，对交叉注意力层的输出特征进行前向传播，残差和归一化计算，得到最终的解码特征。

需要说明的是，对于目标查询来说，其个数

，本例中使用一个固定数值100，即查询场景中新出现的100个目标。一般的模型会选择一个明显大于场景中最大目标数量的设置，由于本例的场景设定为载具视频中的多目标跟踪，一般不会超过100，具体设置可以根据具体应用场景调整。

此外，本例提及的解码器，其循环结构在解码器中的堆叠次数设为6。通过这种堆叠的方式，目标特征在多个连续的循环结构上累计与目标位置和类别相关的信息，从而使最终的输出特征更加合理。从物理含义来说，解码中的自注意力机制，主要用于获取目标的自相关性，避免对已经跟踪目标的重复跟踪和检测，而交叉注意力机制，则倾向于通过整张图像的全局上下文信息，对各个目标之间的空间关系进行推理来更新目标的特征表达，其中隐式的包含其身份，位置信息，并且由于步骤S1033a所对应的优化方式，对于已有一段历史轨迹的目标，还隐含运动信息。

步骤S1035、对解码特征进行回归和分类，得到各目标的跟踪结果。

其中，任一目标的跟踪结果包括：任一目标在鸟瞰视角下的位置信息以及任一目标对应的身份（或类别）信息。

具体地，上述实施例所得到的解码特征通过前向传播网络（FFN）进行回归和分类。前向传播网络的基本结构为两层全连接层，计算原理与公式（4）一致。其中，回归任务用于输出目标在鸟瞰视角下的位置信息，分类任务用于区分目标的身份（或类别）。需要说明的是，对每个输出所使用的前馈网络(FFN)是参数共享的。

如图3所示，本申请实施例可以直接输出或根据回归输出的位置尺寸，在鸟瞰视角下搜索关键目标，并据此优化历史轨迹查询，从而优化下一帧多目标跟踪的计算过程，降低模型对于目标数量较大情况的计算开销。在实际应用中，如果跟踪中的目标数量较大，模型可以通过仅关注符合特定条件的关键目标，减少轨迹查询的数量，从而降低算法的计算复杂度。在本申请实施例中搜索策略可以包括：通过基于阈值的空间注意力机制来搜索关键目标，如图3所示的注意力机制网络，使模型以学习的方式提取关键目标，这种情况下需对真实样本中的关键目标进行标注，也可以基于目标的回归位置，在载具的周围划定矩形限定区域，作为关键区域，落在其中的目标即为关键目标，或者以扇形覆盖载具周围的特定区域，并且严半径方向，根据启发式查找，第一出现目标作为关键目标，当然也可以简单的基于距离排序统计做最近邻查找，如认定距离观测主体最近的前10个目标。此外，在自动驾驶中，可能存在二阶关系，还可以尝试以一阶关键目标为中心的二阶搜索，得到二阶关键目标等思路。当然，还可以针对其中的阈值设计自适应或启发式的算法，或者融合上述这些方法。

进一步地，在上述实施例中介绍了通过特征编码器、特征解码器、回归模块和分类模块等得到多目标跟踪结果的方式，下述实施例中介绍对特征编码器、特征解码器、回归模块和分类模块等的训练过程，在本申请实施例中，训练过程主要分为四个步骤，数据集的收集于标注，加载与增强、骨干网络的训练以及联合框架的训练与测试，具体详见下述实施例。

进一步地，该方法还可以包括：步骤Sh（图中未示出）以及步骤Si（图中未示出），其中，

步骤Sh、采集数据集。

其中，数据集包括至少一个类别的样本以及各样本的属性信息。需要说明的是，步骤Sh中所记载的采集到的数据集，表征的是通过收集与标注，以及加载与增强处理后的数据集。

具体地，数据的收集与标注：主要收集与应用场景相关的传感器数据，并根据场景情况和数据集大小划分训练集，验证集和测试集，其比例可以是10:1:1；

关于数据集的标注，在相关技术中关注多类别多目标跟踪数据集主要有自动驾驶相关的数据集和无人机相关的数据集，如KITTI，VisDrone等，这些数据集中对于目标种类的定义主要以交通场景中的功能划分，由于本申请实施例中以载具传感器为例，因此也采用这种形式。一种类别的具体划分方式可以是：轿车类（car），卡车类（truck），巴士类（bus），行人类（pedestrian），两轮非机动车类（bicycle），三轮非机动车类（tricycle），厢式货车类（van），两轮机动车类（motor-bicycle）以及三轮机动车类（motor-tricycle）。标注时，每种类别对应一个标签，数据集中每个样本的基本属性包括其所属帧号，身份信息，类别信息以及其在对应帧的位置和尺寸。此外，由于本申请实施例中有关键目标的损失项，在样本属性中，还额外标记了关键目标，这种标注既可以采取手工标注，也可以启发式的生成，因此并不难于获得。

同时，为了更好的区分目标与非目标，在本申请实施例中还标记一部分有强物理意义的静态目标，作为背景类（background），并且加入无关类（ignore）对有意义和无意义的背景进行区分。需要说明的是，如果传感器采用的是相机群的方式，目标样本的属性中还需标注所属相机序号。此外，本申请实施例中还可以针对目标遮挡进行强化训练，这需要在标注过程中对每个样本的遮挡程度进行标注，具体的标注的方式在本申请实施例中不再详细描述。

进一步地，由于数据集获取不易，数据量需求大，一般在数据加载前需要对数据进行增强。本申请实施例中标注的数据集是连续的视频序列，由于时间单元较小，相邻帧之间的差别非常小，如果依序加载帧并进行训练，不利于增强网络的鲁棒性。因此在实际训练中，随机对视频帧进行小范围跳跃采样输入，即连续输入的帧不是固定时间单元间隔的相邻帧，但是保留时间先后的顺序。同时，在样本层面，随机对一部分目标进行剔除，并加入来自其他帧的负样本，从而增加原始数据的扰动。此外，其他有利于增强数据的方式方法都包含在本申请实施例中，上述方式并不作为对本申请实施例的限定。

步骤Si、基于数据集对模型进行训练，得到训练完成的模型。

其中，模型包括特征编码器、特征解码器、回归模块和分类模块，回归模块用于对解码特征进行回归，分类模块用于对解码特征进行分类。需要说明的是，该模型中还可以包括：骨干网络，其中，骨干网络用于对每个视角图像进行特征提取。

具体地，基于数据集对模型进行训练，得到训练完成的模型，具体可以包括：基于数据集对骨干网络进行训练。

具体地，在骨干网络的训练中，首先加载使用的原始网络预训练的权重，再将数据增强后的数据集输入网络中，根据原始方案，对骨干网络在本申请实施例中标所标注的数据集上进行微调，使其适应多目标多种类的识别。

进一步地，由于模型中还包括：特征编码器、特征解码器、回归模块和分类模块，因此，基于数据集对模型进行训练，得到训练完成的模型，具体可以包括：步骤Si1（图中未示出）、步骤Si2（图中未示出）、步骤Si3（图中未示出）以及步骤Si4（图中未示出），其中，步骤Si1可以在步骤Si2之前执行，也可以在步骤Si2之后执行，还可以与步骤Si2同时执行，在本申请实施例中不做限定，具体如下所示：

步骤Si1、确定各个查询的损失和。

进一步地，为了优化模型计算损失函数（Loss），需要得到匹配结果。假设用

表示目标的真实样本集合（groundtruth），

表示网络输出的N个预测集合。由于手工设置的

大于真实样本数量，此时y通过填补多个背景类目标，使其大小同样为N，则此两个集合间的数据关联优化目标为寻找使匹配代价最小的方案（如公式（7）所示）：

；公式（7）；

其中，

表示根据分配方案

将预测目标

与真实样本

匹配的代价，其为标准的二部图匹配公式，可以用匈牙利算法求解。具体的说，本例中的匹配代价，需要同时考虑身份（或类别）预测和位置预测的准确性。对于真实样本集合中的每个元素

，若

)，此时

表示对应样本的身份（或类别）标签，

表示对应样本在图像中的位置，于是可以进一步定义根据

对目标

分类的概率为

，位置预测的结果为

，则

的计算方式如公式（8）所示：

；公式（8）；

其中，

表示非目标类，

为指示常量。

接下来，根据匹配结果，可以计算模型的损失，基于匈牙利匹配的代价函数，本例使用负对数似然和坐标损失的聚合损失函数，具体如公式（9）所示：

；公式（9）；

；公式（10）；

其中，公式（10）中的π表示基于

的匹配结果，若一个目标

将被分配到非目标类，则不属于π，

则表示每个查询的损失。在实际应用中，一般通过设置权重参数，调整

类的大小，以应对类别不平衡问题，具体参数根据场景内的目标数量和预设的N值大小决定。本例中，直接使用一个手工设置的常量

。

对于公式（10）中的位置预测代价或损失

，本申请实施例使用一种简单的基于IOU和距离损失的计算方式，如公式（11）所示，其中，

；公式（11）；

由于使用了L1范数，公式（11）中加入了超参

和

用于平衡两个损失的相对量级，并且这两个损失根据批处理中参与计算的样本数量进行规范化。

此外，在本申请实施例中对网络模型的损失函数设计了一项计算关键目标召回率的损失项，用于衡量网络对于关键目标的关注程度和表达能力，具体如下所示。

步骤Si2、确定关键目标召回率的损失。

其中，关键目标召回率的损失详见公式（12），其中，

公式（12）；

其中，公式（12）中，

表示在真实样本中关键目标的数量，

表示一个极小值,

是基于距离

的排序运算，这里的

是目标

与观测主体之间的相对距离，排序表示由近及远对所跟踪到的目标进行升幂排序，

表示基于排序一致的统计运算，即按目标身份在真实样本中排名与预测结果中排名的一致性，排名一致累计1，否则为0。

步骤Si3、基于各个查询的损失和以及关键目标召回率的损失，计算目标损失函数。

其中，目标损失函数如公式（13）所示

；公式（13）；

其中，

用于平衡两个损失之间的量级关系，

用于表征各个查询的损失总和，

用于表征关键目标召回率的损失。

步骤Si4、基于数据集并通过目标损失函数对模型进行训练，得到训练完成的模型。

具体地，基于数据集并通过目标损失函数对模型进行多次迭代训练，以得到训练完成的模型。

对于单次迭代来说，网络的输入是骨干网络输出的某一特征图，跟踪结果根据图2以及图3所示的网络结构输出，之后根据公式（13）计算损失。对于整个网络优化来说，将一次完整迭代或一个批量中累计的损失值进行反向传播，根据梯度下降来对网络参数进行更新，直至满足收敛条件或达到预设迭代次数。

模型训练完成之后进行测试，首先加载训练的权重，然后对测试集进行多类别多目标跟踪，每帧的跟踪结果写入一个文本文档，其中每一条数据包含某一目标在某一帧内的位置和身份信息，据此可以通过多目标跟踪中的评价指标对跟踪算法进行客观评价。

进一步地，对解码特征进行回归和分类，得到各目标的跟踪结果之后，还可以包括：创建现有轨迹集合变量和/或终止轨迹集合变量；基于现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理。在本申请实施例中，可以先创建现有轨迹集合变量O，和/或，终止轨迹集合变量G，在本申请实施例中，以预先创建现有轨迹集合变量O和终止轨迹集合变量G为例进行介绍。

具体地，基于现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理，具体可以包括：步骤Sb1（图中未示出）、步骤Sb2（图中未示出）以及步骤Sb3（图中未示出）中的至少一项，其中，

步骤Sb1、为新生目标分配身份信息，并记录新生目标对应的跟踪结果。在本申请实施例中，跟踪结果中携带对应的时间单元标签。

具体地，针对新生目标，根据

中已有身份，为其分配不同的身份ID，并根据相应的网络输出结果，记录其带有时间单元标签的位置尺寸信息和特征信息。

步骤Sb2、将现有轨迹中满足预设条件的轨迹从现有轨迹集合变量中移除，和/或，将满足预设条件的轨迹移入终止轨迹集合变量。

对于本申请实施例，轨迹的移除是指对于现有轨迹集合变量

中满足一定预设条件的已有轨迹，将其从现有轨迹集合变量O中移除。在本申请实施例中，轨迹的移除可以包括：将满足预设条件的已有轨迹从现有轨迹集合变量O中移除，又或者从现有轨迹集合变量O中移除的已有轨迹可以移入终止轨迹集合变量G中。

具体地，在本申请实施例中设置了两种管理策略，其一是如果某轨迹查询的网络输出为非目标类（即在帧内未找到匹配目标），则将其终止；其二，对每一帧得到的所有轨迹相互计算交并比（Intersection over Union，IOU），并根据一个手工阈值进行非极大抑制(non-maximum suppression, NMS)，只保留其中符合条件的轨迹，以此来进一步消除注意力机制中漏掉的重复检测。

进一步地，终止轨迹集合变量

中的轨迹，除了来自于移除过程产生的终止轨迹，还包括截止跟踪结束时，现有轨迹集合变量

中的所有轨迹。当不再有视频帧输入系统时，将现有轨迹集合变量

中所有轨迹移入

，得到最终的输出轨迹集合。

进一步地，该方法还可以包括：以文本方式和/或可视化的方式将终止轨迹集合变量中各目标的跟踪结果按照时序和/或身份信息进行输出。也就是说，将终止轨迹集合变量

中的轨迹信息依时序和身份以文本和/或可视化的方式输出相应的位置尺寸信息。集合

中的轨迹，除了来自于移除过程产生的终止轨迹，还包括截止跟踪结束时，集合

中的所有轨迹。当不再有视频帧输入系统时，本技术会将

中所有轨迹移入

，得到最终的输出轨迹集合，并写入一个文本文档，作为轨迹的输出。如果需要可视化输出，可以依文档的数据生成视频输出轨迹结果。

步骤Sb3、在时间延迟阈值范围内，将现有轨迹中满足预设条件的轨迹延迟移除。

具体地，在步骤Sb3之前还可以包括：获取时间延迟阈值范围，在本申请实施例中，该时间延迟阈值可以是由用户输入的，还可以是系统预先设置的，在本申请实施例中，在阈值时间内，对符合移除条件的轨迹延迟移除，对于未匹配到的帧，暂时不记录任何轨迹信息。在延迟期间内，依然对轨迹进行查询，若再次得到跟踪结果，则将相应信息记录至现有轨迹集合变量

中相应的轨迹中，对于延迟期间内的位置尺寸信息，根据卡尔曼滤波等运动模型，进行恢复。

由于本申请实施例中涉及了当前帧的关键目标提取方法并作为下一帧历史轨迹查询，因此需要设计基于关键目标的轨迹查询管理策略。基于此，该方法还可以包括：步骤Sd（图中未示出）、步骤Se（图中未示出）、步骤Sf（图中未示出）以及步骤Sg（图中未示出）中的至少一项以及步骤Sc（图中未示出），其中，

步骤Sc、创建关键目标的轨迹集合变量。在本申请实施例中，额外创建关键目标的轨迹集合变量

，针对每帧输出的目标，在本申请实施例中设计了四个策略来管理关键目标轨迹集合

。其中，在本申请实施例中设计的四个策略可以详见下述步骤Sd、步骤Se、步骤Sf以及步骤Sg所对应的实现方式；进一步地，在本申请实施例中以通过四个策略来管理关键目标轨迹集合L，但是并不作为本申请实施例的限定，例如，在本申请实施例还可以通过一个策略、两个策略或者三个策略，甚至大于四个策略来管理关键目标轨迹集合L。

步骤Sd、将当前帧输出的所有关键目标存储在关键目标的轨迹集合变量中。也就是说，在关键目标轨迹集合L中包含当前帧输出的所有关键目标。

步骤Se、将时间延迟阈值范围内输出的历史关键目标存储在关键目标的轨迹集合变量中。

具体地，对于处于延迟移除期间内的历史关键目标，即使当前帧未输出结果，仍然包含在关键目标轨迹集合

中；

步骤Sf、若当前帧输出有非关键目标，则从输出的非关键目标中确定出符合特定条件的非关键目标，并将符合特定条件的非关键目标存储在关键目标的轨迹集合变量中。

其中，特定条件的非关键目标包括：所述非关键目标是由关键目标转换的，且由关键目标转换为非关键目标的时间属于所述时间延迟阈值范围；

步骤Sg、将当前帧输出的新生目标，存储至关键目标的轨迹集合变量中。

对于本申请实施例，将当前帧的新生目标全部纳入关键目标轨迹集合

中。

需要说明的是，集合

仅仅作为与轨迹查询相关的变量，与集合

中轨迹的管理无关，后者是用于管理轨迹是否继续存在的变量，二者都用于接收模型输出的结果，并按照各自的管理方式管理其中轨迹的输入和输出。

上述实施例从方法流程的角度介绍了一种基于鸟瞰视角的多目标跟踪方法，下述实施例从虚拟模块的角度介绍一种基于鸟瞰视角的多目标跟踪装置，具体详见下述实施例。

本申请实施例提供了一种基于鸟瞰视角的多目标跟踪装置，如图4所示，基于鸟瞰视角的多目标跟踪装置40可以包括：获取模块41、确定模块42以及多目标跟踪处理模块43，其中，

获取模块41，用于获取每个相机在当前时刻采集的视角图像；

确定模块42，用于基于每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图；

多目标跟踪处理模块43，用于基于鸟瞰视角下的特征图进行多目标跟踪处理。

本申请实施例的一种可能的实现方式，确定模块42在基于每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图时，具体用于：对每个视角图像进行特征提取，得到对应的特征图，特征图包括：多尺度特征图、手工特征图以及深度特征图中的至少一项；将对应的特征图映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图。

本申请实施例的另一种可能的实现方式，确定模块42在将对应的特征图映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图时，具体用于：将对应的特征图通过transformer映射到鸟瞰视角下的特征空间，得到鸟瞰视角下的特征图：基于对应的特征图生成transformer中的键和值；将对应的特征图进行池化处理，得到全局向量；对鸟瞰视角下的特征空间进行栅格化和位置编码，得到位置编码后的特征空间；将位置编码后的特征空间与全局变量进行拼接处理；将拼接处理后的特征生成transformer中的查询；基于查询和键，确定鸟瞰视角下的特征图与对应的特征图之间的关系；基于关系以及值，确定鸟瞰视角下的特征图。

本申请实施例的另一种可能的实现方式，多目标跟踪处理模块43在基于鸟瞰视角下的特征图进行多目标跟踪处理时，具体用于：获取鸟瞰视角下各目标之间的相对位置编码；基于相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征；获取各目标的轨迹查询，轨迹查询包括当前时刻新目标的新生轨迹查询以及当前时刻之前已出现的目标的历史轨迹查询；基于编码特征、相对位置编码以及轨迹查询，并通过特征解码器进行解码，得到解码特征；对解码特征进行回归和分类，得到各目标的跟踪结果，任一目标的跟踪结果包括：任一目标在鸟瞰视角下的位置信息以及任一目标对应的目标身份或类别。

本申请实施例的另一种可能的实现方式，多目标跟踪处理模块43在获取鸟瞰视角下各目标之间的相对位置编码时，具体用于：获取鸟瞰视角下任意两目标之间的相对距离；基于可学习的参数层将各相对距离转化为相对位置编码，以得到各目标之间的相对位置编码。

本申请实施例的另一种可能的实现方式，多目标跟踪处理模块43在基于相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征时，具体用于：降低鸟瞰视角下的特征图所对应的特征通道维数；将特征维数降低后的鸟瞰视角下的特征图的空间维度坍缩为预设维度；基于相对位置编码以及坍缩后的鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征。

本申请实施例的另一种可能的实现方式，特征编码器包括多头自注意力层和前向传播层；多目标跟踪处理模块43在基于相对位置编码以及鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征时，具体用于：将相对位置编码以及鸟瞰视角下的特征图输入至多头自注意力层的查询通道和键通道中，并将鸟瞰视角下的特征图输入至多头自注意力层的值通道中，得到多头注意力特征；将多头注意力特征进行残差和归一化处理，得到残差和归一化处理后的特征；将残差和归一化处理后的特征通过前向传播层进行特征编码，得到编码后的特征；将编码后的特征进行残差和归一化处理，得到编码特征。

本申请实施例的一种可能的实现方式，轨迹查询包括：第一原有目标对应的轨迹查询，第一原有目标为当前帧之前已经出现的目标；

其中，多目标跟踪处理模块43在获取原有目标对应的轨迹查询时，具体用于：获取上一帧对应的新生轨迹查询，上一帧为当前帧所对应的上一帧，上一帧对应的新生轨迹查询中包含上一帧所出现的新目标对应的轨迹查询；和/或，针对每个第二原有目标，获取包含每个第二原有目标的历史特征，并基于包含每个第二原有目标的历史特征进行轨迹查询，得到每个第二原有目标对应的历史轨迹查询，第二原有目标为上一帧之前已经出现的目标；将上一帧对应的新生轨迹查询，和/或，每个第二原有目标对应的历史轨迹查询，确定为第一原有目标对应的轨迹查询。

本申请实施例的另一种可能的实现方式，轨迹查询还包括：新生目标对应的新生轨迹查询，新生目标为当前帧新出现的目标；

其中，多目标跟踪处理模块43在获取新生目标对应的轨迹查询时，具体用于：基于所设定的查询数量产生新目标对应的新生轨迹查询。

本申请实施例的另一种可能的实现方式，特征解码器包括多头交叉注意力层和前向传播层；多目标跟踪处理模块43在基于编码特征、相对位置编码以及轨迹查询，并通过特征解码器进行解码，得到解码特征时，具体用于：将轨迹查询输入至空间注意力模型中，得到自注意力特征；将轨迹查询与自注意力特征输入至多头交叉注意力层的查询通道中，将编码特征与相对位置编码输入至多头交叉注意力层的键通道中，将编码特征输入至多头交叉注意力层的值通道中，得到多头交叉注意力特征；将多头交叉注意力特征进行残差和归一化处理，得到处理后的多头交叉注意力特征；将处理后的多头交叉注意力特征输入至前向传播层，得到解码后的特征；对解码后的特征进行残差和归一化计算，得到解码特征。

本申请实施例的另一种可能的实现方式，当轨迹查询包括第一原有目标对应的轨迹查询和新生目标对应的轨迹查询时，多目标跟踪处理模块43在将轨迹查询输入至空间注意力模型中，得到自注意力特征时，具体用于：将第一原有目标对应的轨迹查询和新生目标对应的轨迹查询进行融合，得到融合后的轨迹查询；将融合后的轨迹查询输入至空间注意力模型中，得到自注意力特征。

本申请实施例的另一种可能的实现方式，装置40还包括：第一创建模块以及跟踪管理模块，其中，

第一创建模块，用于创建现有轨迹集合变量和/或终止轨迹集合变量；

跟踪管理模块，用于基于现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理。

本申请实施例的另一种可能的实现方式，跟踪管理模块在基于现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理时，具体用于：为新生目标分配身份信息，并记录新生目标对应的跟踪结果，跟踪结果中携带对应的时间单元标签；和/或，将现有轨迹中满足预设条件的轨迹从现有轨迹集合变量中移除，和/或，将满足预设条件的轨迹移入终止轨迹集合变量；和/或，在时间延迟阈值范围内，将现有轨迹中满足预设条件的轨迹延迟移除。

本申请实施例的另一种可能的实现方式，装置40还包括：第一存储模块、第二存储模块、第三存储模块以及第四存储模块中的至少一项以及第二创建模块，其中，

第二创建模块，用于创建关键目标的轨迹集合变量；

第一存储模块，用于将当前帧输出的所有关键目标存储在关键目标的轨迹集合变量中；

第二存储模块，用于将时间延迟阈值范围内输出的历史关键目标存储在关键目标的轨迹集合变量中；

第三存储模块，用于当当前帧输出有非关键目标时，从输出的非关键目标中确定出符合特定条件的非关键目标，并将符合特定条件的非关键目标存储在关键目标的轨迹集合变量中，特定条件的非关键目标包括：所述非关键目标是由关键目标转换的，且由关键目标转换为非关键目标的时间属于所述时间延迟阈值范围；

第四存储模块，用于将当前帧输出的新生目标，存储至关键目标的轨迹集合变量中。

本申请实施例的另一种可能的实现方式，装置40还包括：输出模块，其中，

输出模块，用于以文本方式和/或可视化的方式将终止轨迹集合变量中各目标的跟踪结果按照时序和/或身份信息进行输出。

本申请实施例的另一种可能的实现方式，装置40还包括：采集模块以及训练模块，其中，

采集模块，用于采集数据集，数据集包括至少一个类别的样本以及各样本的属性信息；

训练模块，用于基于数据集对模型进行训练，得到训练完成的模型，模型包括特征编码器、特征解码器、回归模块和分类模块，回归模块用于对解码特征进行回归，分类模块用于对解码特征进行分类。

本申请实施例的另一种可能的实现方式，训练模块在基于数据集对模型进行训练，得到训练完成的模型时，具体用于：确定各个查询的损失和；确定关键目标召回率的损失；基于各个查询的损失和以及关键目标召回率的损失，计算目标损失函数；基于数据集并通过目标损失函数对模型进行训练，得到训练完成的模型。

本申请实施例提供了一种鸟瞰视角的多目标跟踪装置，在本申请实施例中通过获取车载设备上各相机在当前时刻采集的视角图像，以确定鸟瞰视角下的特征图，并根据鸟瞰视角下的特征图进行多目标跟踪处理。也就是说通过将场景投影到鸟瞰视角下，最大限度的降低由于视角问题带来的目标遮挡而导致的外观特征不可靠和不稳定的问题，为准确的跟踪创造条件，使算法可以在鸟瞰视角下，自适应的利用全局信息区分不同目标，同时减少冗余检测，并通过编码、解码，进一步融合目标检测、跟踪，使模型可以通过关注较少的特定关键目标，降低多目标跟踪过程的计算力消耗。

需要说明的是，第一创建模块与第二创建模块可以为相同的创建模块，也可以为不同的创建模块；第一存储模块、第二存储模块、第三存储模块以及第四存储模块可以为相同的存储模块，也可以为不同的存储模块，还可以部分为相同的存储模块，在本申请实施例中不做限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图5所示，图5所示的电子设备500包括：处理器501和存储器503。其中，处理器501和存储器503相连，如通过总线502相连。可选地，电子设备500还可以包括收发器504。需要说明的是，实际应用中收发器504不限于一个，该电子设备500的结构并不构成对本申请实施例的限定。

处理器501可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器501也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线502可包括一通路，在上述组件之间传送信息。总线502可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器503可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器503用于存储执行本申请方案的应用程序代码，并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，在本申请实施例中通过获取车载设备上各相机在当前时刻采集的视角图像，以确定鸟瞰视角下的特征图，并根据鸟瞰视角下的特征图进行多目标跟踪处理。也就是说通过将场景投影到鸟瞰视角下，最大限度的降低由于视角问题带来的目标遮挡而导致的外观特征不可靠和不稳定的问题，为准确的跟踪创造条件，使算法可以在鸟瞰视角下，自适应的利用全局信息区分不同目标，同时减少冗余检测，并通过编码、解码，进一步融合目标检测、跟踪，使模型可以通过关注较少的特定关键目标，降低多目标跟踪过程的计算力消耗。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种基于鸟瞰视角的多目标跟踪方法，其特征在于，所述方法包括：

获取每个相机在当前时刻采集的视角图像；

基于所述鸟瞰视角下的特征图进行多目标跟踪处理。

2.根据权利要求1所述的方法，其特征在于，所述基于所述每个相机在当前时刻采集的视角图像确定鸟瞰视角下的特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述对应的特征图映射到鸟瞰视角下的特征空间，得到所述鸟瞰视角下的特征图，包括：

基于所述对应的特征图生成transformer中的键和值；

将所述对应的特征图进行池化处理，得到全局向量；

将拼接处理后的特征生成transformer中的查询；

基于所述关系以及所述值，确定所述鸟瞰视角下的特征图。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述鸟瞰视角下的特征图进行多目标跟踪处理，包括：

获取鸟瞰视角下各目标之间的相对位置编码；

5.根据权利要求4所述的方法，其特征在于，所述获取鸟瞰视角下各目标之间的相对位置编码，包括：

获取鸟瞰视角下任意两目标之间的相对距离；

6.根据权利要求4所述的方法，其特征在于，所述基于所述相对位置编码以及所述鸟瞰视角下的特征图，并通过特征编码器进行特征编码，得到编码特征，包括：

降低所述鸟瞰视角下的特征图所对应的特征通道维数；

7.根据权利要求4-6任一项所述的方法，其特征在于，所述特征编码器包括多头自注意力层和前向传播层；

8.根据权利要求4所述的方法，其特征在于，所述轨迹查询包括：第一原有目标对应的轨迹查询，所述第一原有目标为当前帧之前已经出现的目标；

其中，获取所述原有目标对应的轨迹查询，包括：

9.根据权利要求4所述的方法，其特征在于，所述轨迹查询还包括：新生目标对应的新生轨迹查询，所述新生目标为当前帧新出现的目标；

其中，获取所述新生目标对应的轨迹查询，包括：

10.根据权利要求4所述的方法，其特征在于，所述特征解码器包括多头交叉注意力层和前向传播层；

11.根据权利要求10所述的方法，其特征在于，若所述轨迹查询包括第一原有目标对应的轨迹查询和新生目标对应的轨迹查询，

12.根据权利要求4所述的方法，其特征在于，所述对所述解码特征进行回归和分类，得到各目标的跟踪结果之后，还包括：

创建现有轨迹集合变量和/或终止轨迹集合变量；

13.根据权利要求12所述的方法，其特征在于，基于所述现有轨迹集合变量和/或终止轨迹集合变量，对各目标的跟踪结果进行管理，包括：

14.根据权利要求12或13所述的方法，其特征在于，所述方法还包括：

创建关键目标的轨迹集合变量；

15.根据权利要求13所述的方法，其特征在于，所述方法还包括：

16.根据权利要求4所述的方法，其特征在于，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，所述基于所述数据集对模型进行训练，得到训练完成的模型，包括：

确定各个查询的损失和；

确定关键目标召回率的损失；

18.一种基于鸟瞰视角的多目标跟踪装置，其特征在于，所述装置包括：

获取模块，用于获取每个相机在当前时刻采集的视角图像；

19.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1~17任意一项的方法步骤。

20.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1~17任意一项的方法步骤。