CN111161311A

CN111161311A - 一种基于深度学习的视觉多目标跟踪方法及装置

Info

Publication number: CN111161311A
Application number: CN201911252433.5A
Authority: CN
Inventors: 田寅; 温博阁; 唐海川; 咸哓雨; 李欣旭
Original assignee: CRRC Industry Institute Co Ltd
Current assignee: CRRC Industry Institute Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-15

Abstract

本发明实施例提供一种基于深度学习的视觉多目标跟踪方法及装置，该方法包括：通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，并记录坐标位置信息，并获取对应的模板图像；获取除第1帧外的视频中每一帧图像作为待搜索区域图像；将每个模板图像和待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型，从而获取跟踪目标的跟踪结果。本发明实施例提供的基于深度学习的视觉多目标跟踪方法及装置，通过分别将利用目标检测网络模型获取的各个跟踪目标对应的模板图像和待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型，进而获取模板图像对应的跟踪目标的跟踪结果，计算量低，实现了多目标实时、准确跟踪。

Description

一种基于深度学习的视觉多目标跟踪方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度学习的视觉多目标跟踪方法及装置。

背景技术

视觉目标跟踪是计算机视觉研究领域的热点问题，随着计算机技术的发展而得到迅猛的发展，目标跟踪技术也由此取得了长足的进步。随着近年来人工智能的迅速兴起，目标跟踪技术的研究得到越来越多的关注。

深度学习技术具有强大的特征表征能力，在图像分类、物体识别、自然语言处理等应用上比传统方法取得了更好的效果，因此逐渐成为图像视频研究的主流技术。基于深度学习的跟踪方法是目标跟踪方法中的一个重要分支，其利用深度卷积网络端到端训练的优势，让模型自动化的学习跟踪目标的外观特性、运动特性，实现高质量的鲁棒性跟踪。

近年，多目标跟踪也见相关报道。但是，现有技术中所公开的多目标跟踪方法普遍计算量较大，无法实现实时跟踪，从而导致跟踪效果不好。

发明内容

为解决现有技术中的问题，本发明实施例提供一种基于深度学习的视觉多目标跟踪方法及装置。

第一方面，本发明实施例提供一种基于深度学习的视觉多目标跟踪方法，包括：按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

进一步地，所述目标检测网络模型为YOLOv3网络模型。

进一步地，所述根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果，包括：分别对所述模板图像和所述待搜索区域图像进行特征提取，获取模板特征图像和待搜索区域特征图像；对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图；根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图；根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果。进一步地，所述对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图，包括：将所述模板特征图像在所述待搜索区域特征图像上滑动，逐通道进行互相关运算得到互相关运算结果特征图。

进一步地，所述互相关运算结果特征图包括第一互相关运算结果特征图和第二互相关运算结果特征图；所述对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图，包括：对所述模板特征图像进行卷积运算得到两个分类分支特征图，对所述待搜索区域特征图像进行卷积运算得到两个回归分支特征图；分别将所述分类分支特征图和另一所述回归分支特征图两两组合做互相关运算，得到所述第一互相关运算结果特征图和所述第二互相关运算结果特征图；所述根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图，包括：根据所述第一互相关运算结果特征图得到类别概率最高的第一特征图row，利用所述第一特征图row进行通道变换卷积运算，得到所述分类分支响应图；根据所述第二互相关运算结果特征图得到类别概率最高的第二特征图row，利用所述第二特征图row进行通道变换卷积运算，得到所述回归分支响应图。

进一步地，所述根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果，包括：通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框；通过所述回归分支响应图预测各个所述目标检测框的边界框，并使用预设筛选算法得到与所述跟踪结果对应的所述边界框。

进一步地，所述通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框，包括：通过所述分类分支响应图筛选出多个与所述跟踪目标对应的目标检测框，并通过余弦窗和尺度惩罚对所述目标检测框进行排序；所述预设筛选算法为非极大值抑制算法。

第二方面，本发明实施例提供一种基于深度学习的视觉多目标跟踪装置，包括：模板图像获取模块，用于：按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；待搜索区域图像获取模块，用于：获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；跟踪结果获取模块，用于：分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于深度学习的视觉多目标跟踪方法及装置，通过利用目标检测网络模型实时获取跟踪目标的候选检测框，进而得到对应的模板图像，分别将各个跟踪目标对应的模板图像和待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型，并根据目标跟踪网络模型的输出获取模板图像对应的跟踪目标的跟踪结果，计算量低，实现了多目标实时、准确跟踪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于深度学习的视觉多目标跟踪方法流程图；

图2是本发明一实施例提供的基于深度学习的视觉多目标跟踪方法中目标跟踪网络模型的处理流程示意图；

图3是本发明一实施例提供的基于深度学习的视觉多目标跟踪装置的结构示意图；

图4是本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一实施例提供的基于深度学习的视觉多目标跟踪方法流程图。如图1所示，所述方法包括：

步骤101、按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；

步骤102、获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；

步骤103、将所述模板图像和所述待搜索区域图像分别输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

目标检测网络模型用于进行目标检测，针对视频中每一帧图像，对预设的跟踪目标进行目标检测。以跟踪目标为人为例，随着时间的推移，视频帧中的跟踪目标会发生变化，比如有的跟踪目标会消失，也有新的跟踪目标加入。因此，通过目标检测网络模型对每一帧图像进行目标检测，可以实现跟踪目标的实时更新。

具体地，在目标检测的过程中，基于深度学习的视觉多目标跟踪装置按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像。如果当前视频帧中具有跟踪目标，则所述跟踪目标至少为一个，也可以为多个。所述候选检测框和跟踪目标相对应。

基于深度学习的视觉多目标跟踪装置获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像。即在待搜索区域图像中找寻并跟踪所述跟踪目标。

基于深度学习的视觉多目标跟踪装置获取到模板图像和待搜索区域图像后，分别将每个模板图像和待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型。由孪生卷积神经网络构建的目标跟踪网络模型包括两个共享权重的网络，可将模板图像和待搜索区域图像分别输入到这两个网络，通过相关性计算获取跟踪结果。

本发明实施例对于在视频图像中消失的目标物体，会将其剔除；对于视频中新出现的目标物体，目标检测网络会对其检测并将其位置坐标检测框信息保存下来，目标跟踪网络模型会不断获取目标物体的位置检测框信息，自动跟踪目标物体，从而确保多目标跟踪的准确性和实时性。

本发明实施例通过利用目标检测网络模型实时获取跟踪目标的候选检测框，进而得到对应的模板图像，分别将各个跟踪目标对应的模板图像和待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型，并根据目标跟踪网络模型的输出获取模板图像对应的跟踪目标的跟踪结果，计算量低，实现了多目标实时、准确跟踪。

进一步地，基于上述实施例，所述目标检测网络模型为YOLOv3网络模型。

YOLOv3算法在物体检测识别精度和速度上都有很好的效果，因此本发明实施例采用YOLOv3网络模型对目标物体进行检测，YOLOv3的检测方式采用了端到端的思想，利用Darknet网络进行训练，模型将整张图作为网络的输入，它利用回归的方法直接在输出层回归边界框的位置及其所属的类别，将目标物体识别出来，并将目标物体候选框坐标位置信息保存下来。

在上述实施例的基础上，本发明实施例通过采用YOLOv3网络模型进行目标检测，提高了多目标跟踪中对于跟踪目标识别的准确性。

图2是本发明一实施例提供的基于深度学习的视觉多目标跟踪方法中目标跟踪网络模型的处理流程示意图。如图2所示，所述根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果，包括：分别对所述模板图像和所述待搜索区域图像进行特征提取，获取模板特征图像和待搜索区域特征图像；对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图；根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图；根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果。

具体地，利用目标跟踪网络模型获取跟踪对象的跟踪结果的过程是：分别对所述模板图像和所述待搜索区域图像进行特征提取，获取模板特征图像和待搜索区域特征图像；由于待搜索区域图像是根据整个视频帧获取的，而模板图像是根据视频帧里的跟踪对象获取的，因此，模板图像的大小通常小于待搜索区域图像。由模板图像得到的模板特征图像也小于由待搜索区域图像得到的待搜索区域特征图像。

如图2所示，127*127*3对应的图像为模板图像，255*255*3对应的图像为待搜索区域图像。其中的数字表示图像的维度，如127*127*3中127*127表示图像的长*宽，3表示3通道(RGB)。然后通过目标跟踪网络模型进行特征提取，分别得到特征图像。如15*15*256表示由对模板图像进行特征提取得到的模板特征图像，31*31*256表示由对待搜索区域图像进行特征提取得到的待搜索区域特征图像。其中g_θ表示利用孪生神经网络进行特征提取运算。

对所述模板特征图像和所述待搜索区域特征图像进行互相关运算(*d表示进行互相关运算)，可通过将模板特征图像在待搜索区域特征图像上滑动进行互相关计算，得到互相关运算结果特征图(17*17*256)；在互相关计算时，可通过将所述模板特征图像在所述待搜索区域特征图像上滑动，逐通道进行互相关运算，从而保持通道数不变。

根据所述互相关运算结果特征图得到类别概率最高的特征图row，所述类别概率最高即在整个互相关运算结果特征图里面拟合置信度最高。在互相关运算后，得到一个17*17*256的特征图，特征图row是在17*17*256的互相关运算结果特征图里面根据类别概率获取的一个概率最高的特征立方体(如1*1*256的特征图)。互相关运算结果特征图接两分支，每个分支做的就是两层1乘以1的通道变换卷积，特征图的尺寸不变，从而分别得到分类分支响应图(如图2中17*17*2k)和回归分支响应图(如图2中17*17*4k)。b_σ和S_φ表示卷积运算。k指的是目标检测框的数量，也就是每一个位置对应的不同尺寸的目标检测框的数量。分类分支响应图可通过评分(score)进行目标检测框的筛选，回归分支响应图可让网络学习物体所在的位置进行回归，即可得到更加精确的预测(边界框预测，box)，从而根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果，完成跟踪对象的跟踪。

在上述实施例的基础上，本发明实施例通过利用目标跟踪网络模型通过特征提取、互相关运算、分类分支响应图和回归分支响应图的获取等操作，实现跟踪对象的跟踪，提高了多目标跟踪的准确性。

进一步地，基于上述实施例，所述对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图，包括：将所述模板特征图像在所述待搜索区域特征图像上滑动，逐通道进行互相关运算，得到互相关运算结果特征图。

在上述实施例的基础上，本发明实施例通过将所述模板特征图像在所述待搜索区域特征图像上滑动，逐通道进行互相关运算，从而保持通道数不变。

进一步地，基于上述实施例，所述互相关运算结果特征图包括第一互相关运算结果特征图和第二互相关运算结果特征图；所述对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图，包括：对所述模板特征图像进行卷积运算得到两个分类分支特征图，对所述待搜索区域特征图像进行卷积运算得到两个回归分支特征图；分别将所述分类分支特征图和另一所述回归分支特征图两两组合做互相关运算，得到所述第一互相关运算结果特征图和所述第二互相关运算结果特征图；所述根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图，包括：根据所述第一互相关运算结果特征图得到类别概率最高的第一特征图row，利用所述第一特征图row进行通道变换卷积运算，得到所述分类分支响应图；根据所述第二互相关运算结果特征图得到类别概率最高的第二特征图row，利用所述第二特征图row进行通道变换卷积运算，得到所述回归分支响应图。

所述互相关运算结果特征图包括第一互相关运算结果特征图和第二互相关运算结果特征图。对所述模板特征图像进行卷积运算得到两个相同的分类分支特征图，对所述待搜索区域特征图像进行卷积运算得到两个相同的回归分支特征图；分别将所述分类分支特征图和另一所述回归分支特征图进行组合做互相关运算，即其中一个分类分支特征图和其中一个回归分支特征图两两组合做互相关运算，另一分类分支特征图和另一回归分支特征图两两组合做互相关运算，分别得到所述第一互相关运算结果特征图和所述第二互相关运算结果特征图；

根据所述第一互相关运算结果特征图获得类别概率最高的第一特征图row，第一特征图row是第一互相关运算结果特征图里面类别概率最高的特征立方体(如1*1*256的特征图)；利用所述第一特征图row进行通道变换卷积运算，通过设定分类分支相关标签，得到所述分类分支响应图

根据所述第二互相关运算结果特征图得到类别概率最高的第二特征图row，第二特征图row是第二互相关运算结果特征图里面类别概率最高的特征立方体(如1*1*256的特征图)；利用所述第二特征图row进行通道变换卷积运算，通过设定回归分支相关标签，得到所述回归分支响应图。

在上述实施例的基础上，本发明实施例通过分别对模板特征图像和待搜索区域特征图像进行卷积运算得到两对分类分支特征图和回归分支特征图的组合，进一步通过对每个组合做互相关运算得到互相关运算结果特征图，提高了互相关运算结果的准确性，进而提高了分类及跟踪的准确性。

进一步地，基于上述实施例，所述根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果，包括：通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框；通过所述回归分支预测各个所述目标检测框的边界框，并使用预设筛选算法得到与所述跟踪结果对应的所述边界框。

根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果时，可以通过所述分类分支响应图筛选出多个与所述跟踪目标对应的目标检测框，并可通过余弦窗和尺度惩罚对所述目标检测框进行排序，实现通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框。通过所述回归分支预测各个所述目标检测框的边界框，并使用预设筛选算法(比如非极大值抑制算法)得到与所述跟踪结果对应的所述边界框。

预测时，在分类分支中排序筛选出k个目标，然后再通过余弦窗和尺度惩罚来对其进行排序，根据回归分支得到各个目标的边界框，最后使用非极大值抑制算法得到最终结果。

在上述实施例的基础上，本发明实施例通过分类分支响应图排序筛选出多个与跟踪目标对应的目标检测框，通过回归分支预测各个目标检测框的边界框，并使用预设筛选算法得到与跟踪结果对应的边界框，保证了多目标跟踪的可靠性；通过选择合适的目标检测框的排序筛选算法以及边界框的排序筛选算法，提高了多目标跟踪的准确性。

本发明实施例提供的是一种基于深度学习的目标检测和目标跟踪算法相结合的多目标跟踪方法，能够准确的识别并跟踪目标物体，并且训练过程是离线运行的，网络推断速度比较快，能够达到实时的效果。

图3是本发明一实施例提供的基于深度学习的视觉多目标跟踪装置的结构示意图。如图3所示，所述装置包括模板图像获取模块10、待搜索区域图像获取模块20及跟踪结果获取模块30，其中：模板图像获取模块10用于：按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；待搜索区域图像获取模块20用于：获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；跟踪结果获取模块30用于：分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

进一步地，基于上述实施例，跟踪结果获取模块30在用于根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果时，具体用于：分别对所述模板图像和所述待搜索区域图像进行特征提取，获取模板特征图像和待搜索区域特征图像；对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图；根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图；根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果。

在上述实施例的基础上，本发明实施例通过利用目标跟踪网络模型通过特征提取、互相关运算、分类分支响应图和回归分支响应图的获取等操作，完成跟踪对象的跟踪，提高了多目标跟踪的准确性。

进一步地，基于上述实施例，跟踪结果获取模块30在用于对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图时，具体用于：将所述模板特征图像在所述待搜索区域特征图像上滑动，逐通道进行互相关运算，得到互相关运算结果特征图。

在上述实施例的基础上，本发明实施例通过将模板特征图像在待搜索区域特征图像上滑动，逐通道进行互相关运算，保证了通道数不变。

进一步地，基于上述实施例，所述互相关运算结果特征图包括第一互相关运算结果特征图和第二互相关运算结果特征图；跟踪结果获取模块30在用于对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图时，具体用于：对所述模板特征图像进行卷积运算得到两个分类分支特征图，对所述待搜索区域特征图像进行卷积运算得到两个回归分支特征图；分别将所述分类分支特征图和另一所述回归分支特征图两两组合做互相关运算，得到所述第一互相关运算结果特征图和所述第二互相关运算结果特征图；跟踪结果获取模块30在用于根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图时，具体用于：根据所述第一互相关运算结果特征图得到类别概率最高的第一特征图row，利用所述第一特征图row进行通道变换卷积运算，得到所述分类分支响应图；根据所述第二互相关运算结果特征图得到类别概率最高的第二特征图row，利用所述第二特征图row进行通道变换卷积运算，得到所述回归分支响应图。

在上述实施例的基础上，本发明实施例通过分别对模板特征图像和待搜索区域特征图像进行卷积元素得到两对分类分支特征图和回归分支特征图的组合，进一步通过对每个组合做互相关运算得到互相关运算结果特征图，提高了互相关运算结果的准确性，进而提高了分类及跟踪的准确性。

进一步地，基于上述实施例，跟踪结果获取模块30在用于根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果时，具体用于：通过所述分类分支特征图排序筛选出多个与所述跟踪目标对应的目标检测框；通过所述回归分支预测各个所述目标检测框的边界框，并使用预设筛选算法得到与所述跟踪结果对应的所述边界框。

在上述实施例的基础上，本发明实施例通过分类分支响应图排序筛选出多个与跟踪目标对应的目标检测框，通过回归分支预测各个目标检测框的边界框，并使用预设筛选算法得到与跟踪结果对应的边界框，保证了多目标跟踪的可靠性。

进一步地，基于上述实施例，跟踪结果获取模块30在用于通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框时，具体用于：通过所述分类分支特征图筛选出多个与所述跟踪目标对应的目标检测框，并通过余弦窗和尺度惩罚对所述目标检测框进行排序；所述预设筛选算法为非极大值抑制算法。

在上述实施例的基础上，本发明实施例选择合适的目标检测框的排序筛选算法以及通过选择合适的边界框的排序筛选算法，提高了多目标跟踪的准确性。

本发明实施例提供的装置是用于上述方法的，具体功能可参照上述方法流程，此处不再赘述。

图4是本发明一实施例提供的电子设备的实体结构示意图。如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的视觉多目标跟踪方法，其特征在于，包括：

按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；

获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；

分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

2.根据权利要求1所述的基于深度学习的视觉多目标跟踪方法，其特征在于，所述目标检测网络模型为YOLOv3网络模型。

3.根据权利要求1所述的基于深度学习的视觉多目标跟踪方法，其特征在于，所述根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果，包括：

分别对所述模板图像和所述待搜索区域图像进行特征提取，获取模板特征图像和待搜索区域特征图像；

对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图；

根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图；

根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果。

4.根据权利要求3所述的基于深度学习的视觉多目标跟踪方法，其特征在于，所述对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图，包括：

将所述模板特征图像在所述待搜索区域特征图像上滑动，逐通道进行互相关运算，得到互相关运算结果特征图。

5.根据权利要求3所述的基于深度学习的视觉多目标跟踪方法，其特征在于，所述互相关运算结果特征图包括第一互相关运算结果特征图和第二互相关运算结果特征图；所述对所述模板特征图像和所述待搜索区域特征图像进行互相关运算，得到互相关运算结果特征图，包括：

对所述模板特征图像进行卷积运算得到两个分类分支特征图，对所述待搜索区域特征图像进行卷积运算得到两个回归分支特征图；分别将所述分类分支特征图和另一所述回归分支特征图两两组合做互相关运算，得到所述第一互相关运算结果特征图和所述第二互相关运算结果特征图；

所述根据所述互相关运算结果特征图得到类别概率最高的特征图row，利用所述特征图row进行通道变换卷积运算，分别得到分类分支响应图和回归分支响应图，包括：

根据所述第一互相关运算结果特征图得到类别概率最高的第一特征图row，利用所述第一特征图row进行通道变换卷积运算，得到所述分类分支响应图；根据所述第二互相关运算结果特征图得到类别概率最高的第二特征图row，利用所述第二特征图row进行通道变换卷积运算，得到所述回归分支响应图。

6.根据权利要求3所述的基于深度学习的视觉多目标跟踪方法，其特征在于，所述根据所述分类分支响应图和所述回归分支响应图获取所述模板图像对应的所述跟踪目标的跟踪结果，包括：

通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框；

通过所述回归分支响应图获取各个所述目标检测框的边界框，并使用预设筛选算法得到与所述跟踪结果对应的所述边界框。

7.根据权利要求6所述的基于深度学习的视觉多目标跟踪方法，其特征在于，所述通过所述分类分支响应图排序筛选出多个与所述跟踪目标对应的目标检测框，包括：

通过所述分类分支响应图筛选出多个与所述跟踪目标对应的目标检测框，并通过余弦窗和尺度惩罚对所述目标检测框进行排序；所述预设筛选算法为非极大值抑制算法。

8.一种基于深度学习的视觉多目标跟踪装置，其特征在于，包括：

模板图像获取模块，用于：按照视频的帧序，通过目标检测网络模型依次获取跟踪目标在当前视频帧的候选检测框，记录所述候选检测框的坐标位置信息，并根据所述坐标位置信息获取对应于所述候选检测框的模板图像；其中，所述跟踪目标为一个或多个；

待搜索区域图像获取模块，用于：获取除第1帧外的所述视频中的每一帧图像，并作为待搜索区域图像；

跟踪结果获取模块，用于：分别将每个所述模板图像和所述待搜索区域图像输入到由孪生卷积神经网络构建的目标跟踪网络模型；根据所述目标跟踪网络模型的输出获取所述模板图像对应的所述跟踪目标的跟踪结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于深度学习的视觉多目标跟踪方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的视觉多目标跟踪方法的步骤。