CN112417988A

CN112417988A - 一种基于深度学习的视频多目标跟踪方法、装置及设备

Info

Publication number: CN112417988A
Application number: CN202011193698.5A
Authority: CN
Inventors: 孙悦; 李天驰; 王帅
Original assignee: Shenzhen Dianmao Technology Co Ltd
Current assignee: Shenzhen Dianmao Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-26

Abstract

本发明公开了一种基于深度学习的视频多目标跟踪方法、装置及设备，该方法包括：获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像；将帧图像输入训练好的编码器‑解码器网络，根据编码器‑解码器网络提取帧图像对应的高分辨率特征图；根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果；提取预测结果中的特征进行边界框时序联结，完成视频多目标跟踪。本发明实施例采用单步法进行视频多目标跟踪，网络框架简单，模型内存较小，消耗硬件资源较少，计算速度度，跟踪效率更高。

Description

一种基于深度学习的视频多目标跟踪方法、装置及设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于深度学习的视频多目标跟踪方法、装置及设备。

背景技术

随着人工智能行业的兴起，基于深度学习的视频目标跟踪技术越来越受大家的关注。视频目标跟踪旨在检测视频中特定类的目标，并且锁定目标身份进行连续跟踪。而多目标跟踪与一般目标跟踪的区别在于，多目标跟踪可以将同类目标再进行细化分类，例如人1号，人2号，人3号......视频多目标跟踪方法一般要完成两个任务：1.目标检测任务。2.身份重识别任务。现有的方法主要是两步法：使用两个单独的模型，首先用检测模型定位图像中目标的边界框位置，然后用关联模型对每个边界框提取重识别(Re-identification，ReID)特征，并根据这些特征定义的特定度量将边界框与现有的一个跟踪结果联结起来。其中检测模型中的目标检测是为了发现当前画面所有的目标，ReID则是将当前所有目标与之前帧的目标建立关联，然后可以通过ReID特征向量的距离比较和目标区域交并比(IOU)来通过使用卡尔曼滤波器和匈牙利算法建立关联。当前也有少数单步法，在进行目标检测的同时也进行ReID特征提取，核心思想是在单个网络中同时完成对象检测和身份嵌入(Re-ID功能)，以通过共享大部分计算来减少推理时间。

现有的视频目标跟踪方法直接在Mask R-CNN、YOLOv3的检测端并行加入ReID特征向量输出。很显然这能节约计算时间，但研究发现此类方法存在目标ID关联不正确的问题。该类方法使用了anchor-based的目标检测，目标的ReID特征是在anchor区域提取的，anchor和目标区域会出现不对齐的问题，这会导致网络训练时存在严重的歧义，降低视频目标跟踪的准确度。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于深度学习的视频多目标跟踪方法、装置及设备，旨在解决现有技术中的视频目标距离算法在训练网络时存在严重的歧义，降低视频目标跟踪的准确度技术问题。

本发明的技术方案如下：

一种基于深度学习的视频多目标跟踪方法，所述方法包括：

获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像；

将帧图像输入训练好的编码器-解码器网络，根据编码器-解码器网络提取帧图像对应的高分辨率特征图；

根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果；

提取预测结果中的特征进行边界框时序联结，完成视频多目标跟踪接。

进一步地，所述获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像前，包括：

预先对解码器-编码器网络进行构建。

进一步优选地，所述预先对解码器-编码器网络进行构建，包括:

预先构建残差网络作为解码器-编码器网络；

根据深层聚合算子对解码器-编码器网络进行优化，生成训练好的编码器-解码器网络。

进一步优选地，所述解码器-编码器网络设置有上采样单元，所述根据深层聚合算子对解码器-编码器网络进行优化，生成训练好的编码器-解码器网络，包括：

根据深层聚合算子对上采样单元中的卷积层替换为可变形的卷积层，生成训练好的编码器-解码器网络。

优选地，所述根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果，包括：

根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成热力、对象中心偏移和边界框大小。

进一步地，所述根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测后的热图、对象中心偏移和边界框大小，包括：

获取高分辨率特征图，对高分率特征图应用特定大小的卷积核进行卷积运算，完成三个并行回归头；

通过三个并行回归头分别对边界框和行人重识别特征进行预测，生成预测后的热图、对象中心偏移和边界框大小。

进一步地，所述根据编码器-解码器网络提取帧图像对应的高分辨率特征图后，还包括：

根据anchor-free目标检测方法，估计高分辨率特征图的目标中心。

本发明的另一实施例提供了一种基于深度学习的视频多目标跟踪设置，装置包括：

帧图像解析模块，用于获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像；

特征提取模块，用于将帧图像输入训练好的编码器-解码器网络，根据编码器-解码器网络提取帧图像对应的高分辨率特征图；

特征预测模块，用于根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果；

联结模块，用于提取预测结果中的特征进行边界框时序联结，完成视频多目标跟踪。

本发明的另一实施例提供了一种基于深度学习的视频多目标跟踪设备，所述设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于深度学习的视频多目标跟踪方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于深度学习的视频多目标跟踪方法。

有益效果：本发明实施例采用单步法进行视频多目标跟踪，网络框架简单，模型内存较小，消耗硬件资源较少，计算速度度，跟踪效率更高。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于深度学习的视频多目标跟踪方法较佳实施例的流程图；

图2为本发明一种基于深度学习的视频多目标跟踪装置的较佳实施例的功能模块示意图；

图3为本发明一种基于深度学习的视频多目标跟踪设备的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

本发明实施例提供了一种基于深度学习的视频多目标跟踪方法。请参阅图1，图1为本发明一种基于深度学习的视频多目标跟踪方法较佳实施例的流程图。如图1所示，其包括步骤：

步骤S100、获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像；

步骤S200、将帧图像输入训练好的编码器-解码器网络，根据编码器-解码器网络提取帧图像对应的高分辨率特征图；

步骤S300、根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果；

步骤S400、提取预测结果中的特征进行边界框时序联结，完成视频多目标跟踪。

具体实施时，本发明实施例获取摄像头等图像采集的视频，对视频进行解析，将视频转化一帧帧的帧图像，将输入图像送入编码器-解码器网络，以提取高分辨率特征图；然后添加两个简单的并行head，分别预测边界框和Re-ID特征；最后提取预测目标中心处的特征进行边界框时序联结。

本发明提出的视频多目标距离方法，是属于一种单步法，相比较常见的两步法，单步法的网络框架没有那么复杂，模型内存较小，消耗硬件资源较少，因此效率更高。

进一步地，获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像前，包括：

预先对解码器-编码器网络进行构建。

具体实施时，预先对解码器-编码器网络进行构建。解码器-编码器网络用于完成目标检测任务和身份重识别任务。先将输入图像送入编码器-解码器网络，以提取高分辨率特征图；然后添加两个简单的并行head，分别预测边界框和Re-ID特征；最后提取预测目标中心处的特征进行边界框时序联结。

进一步地，预先对解码器-编码器网络进行构建，包括:

预先构建残差网络作为解码器-编码器网络；

具体实施时，采用ResNet-34作为主干网络，以便在准确性和速度之间取得良好的平衡。为了适应不同规模的对象，将深层聚合(DLA)的一种变体应用于主干网络。与原始DLA不同，它在低层聚合和低层聚合之间具有更多的跳跃连接，类似于特征金字塔网络(FPN)。本发明用深层聚合算子(Deep Layer Aggregation，DLA)来改进主干网络ResNet-34，从而融合来自多个层的特征，处理不同尺度的目标。

进一步地，解码器-编码器网络设置有上采样单元，所述根据深层聚合算子对解码器-编码器网络进行优化，生成训练好的编码器-解码器网络，包括：

具体实施时，解码器-编码器网络设置有上采样单元。上采样单元中的所有卷积层都由可变形的卷积层代替，以便它们可以根据对象的尺寸和姿势动态调整感受域。这些修改也有助于减轻对齐问题。

进一步地，根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果，包括：

具体实施时，将目标检测视为高分辨率特征图上基于中心的包围盒回归任务。添加并行分支来估计像素级Re-ID特征，这类特征用于预测目标的id。具体而言，学习既能减少计算时间又能提升特征匹配稳健性的低维Re-ID特征。在行人重识别时，目标是生成可以区分不同对象的特征。理想情况下，不同对象之间的距离应大于同一对象之间的距离。为了实现该目标，本方法在主干特征之上应用了具有128个内核的卷积层，以提取每个位置的身份嵌入特征。

进一步地，根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测后的热图、对象中心偏移和边界框大小，包括：

具体实施时，将三个并行回归头(regression heads)附加到主干网络以分别估计热图，对象中心偏移和边界框大小。通过对主干网络的输出特征图应用3×3卷积(具有256个通道)来实现每个回归头(head)，然后通过1×1卷积层生成最终目标。

具体的，Heatmap Head。这个head负责估计对象中心的位置。这里采用基于热图的表示法，热图的尺寸为1×H×W。随着热图中位置和对象中心之间的距离，响应呈指数衰减。

具体的，Center Offset Head。该head负责更精确地定位对象。ReID功能与对象中心的对齐精准度对于性能至关重要。

具体的，Box Size Head。该部分负责估计每个锚点位置的目标边界框的高度和宽度，与Re-ID功能没有直接关系，但是定位精度将影响对象检测性能的评估。

进一步地，根据编码器-解码器网络提取帧图像对应的高分辨率特征图后，还包括：

具体实施时，采用anchor-free目标检测方法，估计高分辨率特征图上的目标中心。去掉锚点这一操作可以缓解歧义问题，使用高分辨率特征图可以帮助Re-ID特征与目标中心更好地对齐。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种基于深度学习的视频多目标跟踪装置，如图2所示，装置1包括：

帧图像解析模块11，用于获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像；

特征提取模块12，用于将帧图像输入训练好的编码器-解码器网络，根据编码器-解码器网络提取帧图像对应的高分辨率特征图；

特征预测模块13，用于根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果；

联结模块14，用于提取预测结果中的特征进行边界框时序联结，完成视频多目标跟踪。

具体实施方式见方法实施例，此处不再赘述。

本发明另一实施例提供一种基于深度学习的视频多目标跟踪设备，如图3所示，设备10包括：

一个或多个处理器110以及存储器120，图3中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器110用于完成，设备10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于深度学习的视频多目标跟踪方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行设备10的各种功能应用以及数据处理，即实现上述方法实施例中的基于深度学习的视频多目标跟踪方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据设备10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于深度学习的视频多目标跟踪方法，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明并非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使处理器执行上述方法实施例的基于深度学习的视频多目标跟踪方法。例如，执行以上描述的图1中的方法步骤S100至步骤S400。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于深度学习的视频多目标跟踪方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于深度学习的视频多目标跟踪方法,其特征在于,所述方法包括：

提取预测结果中的特征进行边界框时序联结，完成视频多目标跟踪。

2.根据权利要求1所述的基于深度学习的视频多目标跟踪方法，其特征在于，所述获取待跟踪的视频，对视频进行解析，生成视频对应的帧图像前，包括：

预先对解码器-编码器网络进行构建。

3.根据权利要求2所述的基于深度学习的视频多目标跟踪方法，其特征在于，所述预先对解码器-编码器网络进行构建，包括:

预先构建残差网络作为解码器-编码器网络；

4.根据权利要求3所述的基于深度学习的视频多目标跟踪方法，其特征在于，所述解码器-编码器网络设置有上采样单元，所述根据深层聚合算子对解码器-编码器网络进行优化，生成训练好的编码器-解码器网络，包括：

5.根据权利要求4所述的基于深度学习的视频多目标跟踪方法，其特征在于，所述根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测结果，包括：

6.根据权利要求5所述的基于深度学习的视频多目标跟踪方法，其特征在于，所述根据高分辨率特征图分别对边界框和行人重识别特征进行预测，生成预测后的热图、对象中心偏移和边界框大小，包括：

7.根据权利要求6所述的基于深度学习的视频多目标跟踪方法，其特征在于，所述根据编码器-解码器网络提取帧图像对应的高分辨率特征图后，还包括：

8.一种基于深度学习的视频多目标跟踪装置，其特征在于，所述装置包括：

9.一种基于深度学习的视频多目标跟踪设备，其特征在于，所述设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于深度学习的视频多目标跟踪方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于深度学习的视频多目标跟踪方法。