CN112199978B

CN112199978B - 视频物体检测方法和装置、存储介质和电子设备

Info

Publication number: CN112199978B
Application number: CN201910612151.5A
Authority: CN
Inventors: 罗浩; 申晗; 宫永超; 黄李超; 王兴刚; 李源
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2024-07-26
Anticipated expiration: 2039-07-08
Also published as: CN112199978A

Abstract

公开了一种视频物体检测方法和装置、存储介质和电子设备，其中，视频物体检测方法包括：对视频中的至少两帧图像进行物体检测，获得所述至少两帧图像中各自对应的物体候选框，得到多个物体候选框；所述至少两帧图像包括一关键帧图像和至少一非关键帧图像；获取所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系；基于所述依赖关系，对所述关键帧图像的物体候选框进行特征增强，得到所述关键帧图像的物体候选框对应的增强特征；基于所述增强特征，获取所述关键帧图像的物体候选框的检测结果。本公开实施例使得增强之后的特征更具表达力，可以提高了物体检测的准确性和检测精度。

Description

视频物体检测方法和装置、存储介质和电子设备

技术领域

本公开涉及计算机视觉技术，尤其是一种视频物体检测方法和装置、存储介质和电子设备。

背景技术

视频物体检测在无人驾驶、安防等领域具有重要的应用。视频物体检测包含两个子任务：定位视频帧中所有的目标类别物体、并对定位出的目标类别物体进行分类。由于视频中常出现图像质量退化的问题，例如运动模糊、视频失焦，局部遮挡等，这使得视频物体检测比较艰难。

目前主流的视频物体检测方法，是基于像素级别的特征对应性估计进行视频物体检测。在该视频物体检测方法中，首先进行视频帧之间像素层次的特征对齐，接着对对齐之后的特征进行聚合，然后利用聚合的特征进行物体检测。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种视频物体检测方法和装置、存储介质和电子设备。

根据本公开实施例的一个方面，提供了一种视频物体检测方法，包括：

对视频中的至少两帧图像进行物体检测，获得所述至少两帧图像中各自对应的物体候选框，得到多个物体候选框；所述至少两帧图像包括一关键帧图像和至少一非关键帧图像；

获取所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系；

基于所述依赖关系，对所述关键帧图像的物体候选框进行特征增强，得到所述关键帧图像的物体候选框对应的增强特征；

基于所述增强特征，获取所述关键帧图像的物体候选框的检测结果。

根据本公开实施例的另一个方面，提供了一种视频物体检测装置，包括：

检测模块，用于对视频中的至少两帧图像进行物体检测，获得所述至少两帧图像中各自对应的物体候选框，得到多个物体候选框；所述至少两帧图像包括一关键帧图像和至少一非关键帧图像；

第一获取模块，用于获取所述检测模块检测到的所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系；

第一特征增强模块，用于基于所述第一获取模块获取到的所述依赖关系，对所述关键帧图像的物体候选框进行特征增强，得到所述关键帧图像的物体候选框对应的增强特征；

第二获取模块，用于基于所述第一特征增强模块得到的所述增强特征，获取所述关键帧图像的物体候选框的检测结果。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的视频物体检测方法。

根据本公开实施例的又一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的视频物体检测方法。

基于本公开上述实施例提供的视频物体检测方法和装置、存储介质和电子设备，对视频中的至少两帧图像(包括一关键帧图像和至少一非关键帧图像)进行物体检测，获得至少两帧图像中各自对应的物体候选框，得到多个物体候选框，获取关键帧图像的物体候选框与多个物体候选框之间的依赖关系，基于该依赖关系对关键帧图像的物体候选框进行特征增强，得到关键帧图像的物体候选框对应的增强特征，然后基于该增强特征，获取关键帧图像的物体候选框的检测结果。本公开实施例，通过利用视频中关键帧图像的物体候选框与包括该关键帧图像在内的多个帧图像的所有物体候选框之间的依赖关系，对关键帧图像的物体候选框的特征进行增强，使得增强之后的特征更具表达力，提高了物体检测的准确性和检测精度。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的视频物体检测方法的流程示意图。

图3是本公开另一示例性实施例提供的视频物体检测方法的流程示意图。

图4是本公开又一示例性实施例提供的视频物体检测方法的流程示意图。

图5是本公开再一示例性实施例提供的视频物体检测方法的流程示意图。

图6是本公开还一示例性实施例提供的视频物体检测方法的流程示意图。

图7是本公开实施例的一个应用示意图。

图8为图7所示应用中三帧图像的一个示意图。

图9是本公开一示例性实施例提供的视频物体检测装置的结构示意图。

图10是本公开另一示例性实施例提供的视频物体检测装置的结构示意图。

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，本发明人通过研究发现：在基于像素级别的特征对应性估计进行视频物体检测方法中，当视频帧出现图像质量退化时，像素级别的特征对应性估计并不准确，使得特征对齐不准确，这样，对对齐不准确的特征进行聚合得到的特征也不准确，从而使得视频物体检测结果不准确。

本公开实施例中，通过获取目标区域(即，关键帧图像的物体候选框)之间在特征、时空上的依赖关系，可以较好地增强目标区域的特征，从而提升视频物体检测的精度和准确性。

示例性系统

图1是本公开所适用的系统图。如图1所示，由图像传感器(例如摄像头)进行图像采集，得到视频流，该视频流由一帧一帧的图像构成。每次选取视频流中的多帧图像(假设包括图像1，图像2和图像3)进行物体检测，其中的图像2为关键帧图像，图像1和图像3为非关键帧图像，得到图像1、图像2和图像3总共的多个物体候选框；之后，获取图像2的物体候选框与上述多个物体候选框之间的依赖关系，基于该依赖关系，对图像2的物体候选框进行特征增强，得到图像2的物体候选框对应的增强特征；然后基于该增强特征，获取图像2的物体候选框的检测结果。

示例性方法

图2是本公开一示例性实施例提供的视频物体检测方法的流程示意图。本实施例可应用在电子设备上，如图2所示，该实施例的视频物体检测方法包括如下步骤：

步骤201，对视频中的至少两帧图像进行物体检测，获得该至少两帧图像中各自对应的物体候选框，得到多个物体候选框。

本公开实施例中的视频可以是由图像传感器(例如摄像头)进行持续的图像采集得到，其包括多帧图像。

其中，上述至少两帧图像包括一关键帧图像和至少一非关键帧图像。其中的至少一非关键帧图像可以是与关键帧图像邻近的帧图像，例如关键帧图像前、后相邻的帧图像，或者与关键帧图像间隔在预设帧数范围内(例如间隔不超过20帧)的图像，本公开实施例对此不做限制。

在其中一些实施方式中，上述至少一非关键帧图像例如可以包括但不限于：视频中检测时序位于关键帧图像之前的至少一图像，和/或，视频中检测时序位于关键帧图像之后的至少一图像。例如，上述至少一非关键帧图像可以是该关键帧图像前、后分别邻近的K帧图像，则上述至少两帧图像包括2K+1帧图像。其中，K的取值为大于0的整数。

步骤202，获取上述关键帧图像的物体候选框与上述多个物体候选框之间的依赖关系。

其中，本公开实施例中的依赖关系，例如可以包括但不限于：关键帧图像的物体候选框与上述多个物体候选框之间在特征(即语义特征)、空间位置、时间顺序(即时序)等任意一个或多个方面的依赖关系，本公开实施例并不局限于此。

步骤203，基于上述依赖关系，对上述关键帧图像的物体候选框进行特征增强，得到该关键帧图像的物体候选框对应的增强特征。

步骤204，基于上述增强特征，获取上述关键帧图像的物体候选框的检测结果。

基于本公开上述实施例提供的视频物体检测方法，对视频中的至少两帧图像(包括一关键帧图像和至少一非关键帧图像)进行物体检测，获得至少两帧图像中各自对应的物体候选框，得到多个物体候选框，获取关键帧图像的物体候选框与多个物体候选框之间的依赖关系，基于该依赖关系对关键帧图像的物体候选框进行特征增强，得到关键帧图像的物体候选框对应的增强特征，然后基于该增强特征，获取关键帧图像的物体候选框的检测结果。本公开实施例，通过利用视频中关键帧图像的物体候选框与包括该关键帧图像在内的多个帧图像的所有物体候选框之间的依赖关系，对关键帧图像的物体候选框的特征进行增强，使得增强之后的特征更具表达力，提高了物体检测的准确性和检测精度。

图3是本公开另一示例性实施例提供的视频物体检测方法的流程示意图。如图3所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，通过第一神经网络分别对至少两帧图像进行特征提取，得到至少两个特征图。

步骤2012，通过第二神经网络，分别基于至少两个特征图中的每个特征图产生物体候选框，得到每个特征图的物体候选框，从而得到至少两帧图像的多个物体候选框。

本公开实施例中的第一神经网络与第二神经网络可以采用相同类型或者不同类型的神经网络实现，第一神经网络、第二神经网络均可以采用任意具有多个网络层的深度神经网络实现，例如卷积神经网络、循环神经网络等，例如可以是LeNet、AlexNet、GoogLeNet、VGGNet、ResNet、MobileNet(如ResNet-18、ResNet-34、ResNet-50、ResNet-101等)、ShuffleNet等任意类型的神经网络，本公开实施例对神经网络的具体实现不做限制。

在其中一些实施方式中，第二神经网络可以通过候选区域网络(Region ProposalNetwork，RPN)实现，其中，RPN采用监督分类方法，通过设计一个拥有强学习能力的卷积神经网络(Convolutional Neural Network,CNN)作为分类网络，遍历图像或视频中所有感兴趣的位置和物体尺度，获得物体候选框，并逐个判断每个候选框是否物体。

本公开实施例通过神经网络对帧图像进行特征提取，然后基于得到的特征图产生物体候选框，可以快速、准确的基于帧图像得到物体候选框。

图4是本公开又一示例性实施例提供的视频物体检测方法的流程示意图。如图4所示，该实施例的视频物体检测方法包括如下步骤：

步骤301，通过第一神经网络分别对至少两帧图像进行特征提取，得到至少两个特征图。

其中，上述至少两帧图像包括一关键帧图像和至少一非关键帧图像。

在其中一些实施方式中，上述至少一非关键帧图像例如可以包括但不限于：视频中检测时序位于关键帧图像之前的至少一图像，和/或，视频中检测时序位于关键帧图像之后的至少一图像。

步骤302，通过第二神经网络，分别基于上述至少两个特征图中的每个特征图产生物体候选框，得到每个特征图的物体候选框，从而得到至少两帧图像的多个物体候选框。

步骤303，第二神经网络基于上述至少两个特征图，获取多个物体候选框的特征。

本公开实施例中，特征的表现方式可以为特征向量或者特征图，然而，本公开实施例不局限于此。

在其中一些实施方式中，第二神经网络可以基于兴趣区域池化(ROI-Pooling)方式，在特征图上抽取兴趣区域的特征，并转换为固定的维度，即得到物体候选框的特征。

步骤304，基于关键帧图像的物体候选框的特征与上述多个物体候选框的特征，分别获取关键帧图像的每个物体候选框与上述多个物体中每个物体候选框之间的注意力权重。

其中，注意力权重用于表示相互之间的影响大小，注意力权重的值越大，表示影响越大。关键帧图像的每个物体候选框与上述多个物体中每个物体候选框之间的注意力权重，即表示多个物体中每个物体候选框对关键帧图像的每个物体候选框的影响大小。

在其中一些实施方式中，可以采用自注意力机制，获取物体候选框之间的注意力权重。在一些自然语言任务中，自注意力机制可以较好地捕获单词之间的依赖关系，无论是短期还是长期依赖。

步骤305，分别以关键帧图像的每个物体候选框作为当前物体候选框，根据当前物体候选框的特征与上述多个物体候选框中每个物体候选框的特征之间的注意力权重，对上述多个物体候选框的特征进行加权求和。

其中，根据当前物体候选框的特征与上述多个物体候选框中每个物体候选框的特征之间的注意力权重，对上述多个物体候选框的特征进行加权求和，即，将上述多个物体候选框中每个物体候选框的特征分别与其注意力权重的值相乘，再将各乘积相加。

步骤306，基于上述加权求和的结果和当前物体候选框的特征，得到当前物体候选框的增强特征。

在其中一些实施例中，可以将上述加权求和的结果与当前物体候选框的特征直接相加，作为当前物体候选框的增强特征；也可以将上述加权求和的结果与当前物体候选框的特征按照预设比例进行加权求和。

步骤307，基于上述增强特征，获取上述关键帧图像的物体候选框的检测结果。

本公开实施例中，物体候选框的特征获取关键帧图像的每个物体候选框与上述多个物体中每个物体候选框之间的注意力权重，然后根据该注意力权重对上述多个物体候选框的特征进行加权求和，基于加权求和的结果和当前物体候选框的特征，得到关键帧图像的物体候选框的增强特征进行物体检测，充分考虑了关键帧图像中物体候选框之间的语义特征之间的关系(关键帧图像中不同物体候选框之间)、以及同一物体候选框的位置变化(不同帧图像中同一物体候选框之间)，并根据各影响因素的影响程度(注意力权重)，来对关键帧图像的物体候选框进行增强，使得增强之后的物体候选框特征更具表达力，从而可以实现更准确的物体检测结果。

在实际场景中，环境中的事物都是有潜在的关联性的，例如，鼠标经常是出现在电脑旁边、船经常出现在海边或者河边而不可能出现在草坪上，这种潜在的关联性即为一种上下文信息。本公开实施例充分利用视频中的上下文信息提高了物体检测的效果。

图5是本公开再一示例性实施例提供的视频物体检测方法的流程示意图。如图5所示，在上述图4所示实施例的基础上，还可包括：

步骤303’，分别获取关键帧图像的每个物体候选框与上述多个物体中每个物体候选框之间的空间位置关系和时序信息。

其中，物体候选框的空间位置可以采用物体候选框的中心点的位置、宽度和高度表示，也可以采用物体候选框左上角顶点的位置和右下角顶点的位置表示，则物体候选框之间的空间位置关系可以采用相应位置表示方式在坐标上的偏移量表示。本公开实施例对物体候选框的空间位置及物体候选框之间的空间位置关系的具体表示方式不做限制。

物体候选框的时序信息可以以物体候选框所在的帧图像的帧号表示，则物体候选框之间的时序信息可以通过各自所在的帧图像的序号上的顺序关系体现。

相应地，该实施例中，步骤304具体通过如下方式实现：

步骤304’，分别基于关键帧图像的每个物体候选框与上述多个物体中每个物体候选框的特征、空间位置关系和时序信息，获取关键帧图像的每个物体候选框的特征与上述多个物体中每个物体候选框之间的注意力权重。

在其中一些实施方式中，可以按照预设方式，基于关键帧图像的每个物体候选框与上述多个物体中每个物体候选框的特征、空间位置关系和时序信息，获取关键帧图像的每个物体候选框的特征与上述多个物体中每个物体候选框之间的注意力权重。例如，可以基于如下方式，获取关键帧图像的每个物体候选框的特征与上述多个物体中每个物体候选框之间的注意力权重e_ij：其中，i、j分别表示物体候选框的标识，表示关键帧图像的第i个物体候选框的特征与上述多个物体中第j个物体候选框的特征之间的关系，表示关键帧图像的第i个物体候选框与上述多个物体中第j个物体候选框之间的空间位置关系，表示关键帧图像的第i个物体候选框与上述多个物体中第j个物体候选框之间的时序信息。

本公开实施例中，注意力权重e_ij也可以为关键帧图像的每个物体候选框的特征与上述多个物体中每个物体候选框之间的注意力权重归一化之后的取值，本公开实施例对此不做限制。

本公开实施例中，还获取关键帧图像的每个物体候选框与多个物体中每个物体候选框之间的空间位置关系和时序信息，同时基于关键帧图像的物体候选框与多个物体中每个物体候选框的特征、空间位置关系和时序信息，获取关键帧图像的物体候选框的特征与上述多个物体中每个物体候选框之间的注意力权重，同时基于物体候选框之间的语义特征、时空信息来获取物体候选框之间的注意力权重，充分利用视频中的时空上下文信息提高了物体检测的效果。

图6是本公开再一示例性实施例提供的视频物体检测方法的流程示意图。如图6所示，在上述图2所示实施例的基础上，在步骤203之前，还包括：

步骤401，对视频中的另外至少两帧图像进行物体检测，获得另外至少两帧图像中各自对应的物体候选框，得到另外多个物体候选框。

其中，上述另外至少两帧图像包括一另外关键帧图像和至少一非关键帧图像。

步骤402，获取另外关键帧图像的物体候选框与另外多个物体候选框之间的依赖关系。

步骤403，基于上述依赖关系，对另外关键帧图像的物体候选框进行特征增强，得到另外关键帧图像的物体候选框的增强特征。

其中步骤401-403中对另外关键帧图像的物体候选框进行特征增强与上述实施例中对关键帧图像的物体候选框进行特征增强的具体实现类似，具体可参见上述实施例的记载，此处不再赘述。

在步骤203之后，还包括：

步骤404，获取关键帧图像的物体候选框与另外关键帧图像的物体候选框之间的依赖关系。

步骤405，基于关键帧图像的目标物体候选框与另外关键帧图像物体候选框之间的依赖关系，对关键帧图像的物体候选框的增强特征进行特征增强，得到关键帧图像的物体候选框的综合增强特征。

相应地，步骤204具体为：步骤406，基于关键帧图像的物体候选框的综合增强特征，获取关键帧图像的物体候选框的检测结果。

本公开实施例中，还获取关键帧图像的物体候选框与另外关键帧图像的物体候选框之间的依赖关系，基于该依赖关系对关键帧图像的物体候选框的增强特征进行特征增强，得到关键帧图像的物体候选框的综合增强特征，基于该综合增强特征进行物体检测，通过利用不同关键帧图像的物体候选框之间的依赖关系，进一步实现了关键帧图像的物体候选框的特征增强，通过二次特征增强可以确保关键帧图像的物体候选框的特征表达能力更强，进一步提升了物体检测结果的准确性和精度。

与图5所示实施例类似地，在图6所示实施例中，可以通过如下方式获取关键帧图像的物体候选框与另外关键帧图像的物体候选框之间的依赖关系：分别获取上述关键帧图像的每个物体候选框与上述另外关键帧图像的每个物体候选框之间的空间位置关系和时序信息；分别基于上述关键帧图像的每个物体候选框的增强特征与上述另外关键帧图像的每个物体候选框的增强特征、空间位置关系和时序信息，获取上述关键帧图像的每个物体候选框的增强特征与上述另外关键帧图像的每个物体候选框的增强特征之间的注意力权重。

相应地，步骤405中，分别以上述关键帧图像的每个物体候选框作为当前物体候选框，根据当前物体候选框的增强特征与上述另外关键帧图像的每个物体候选框的增强特征之间的注意力权重，对上述另外关键帧图像的物体候选框的增强特征进行加权求和；基于增强特征进行加权求和的结果和当前物体候选框的特征，得到当前物体候选框的增强特征。

图7是本公开实施例的一个应用示意图。如图7所示，视频中的图像1-8为按照检测时序从视频中抽取出来的图像，其中，图像1-3为一组图像(对应于上述实施例中的至少两帧图像)，图像2为关键帧图像；图像4-8为另一组图像(对应于上述实施例中的另外至少两帧图像)，图像6为关键帧图像(对应于上述实施例中的另外关键帧图像)。分别针对图像1-3、图像4-8，执行本公开图2-图5任一实施例中的对应操作，对图像2和图像6的物体候选框的特征进行一次特征增强，得到图像2和图像6的物体候选框的增强特征；之后，再通过图6所示实施例中的步骤404-405，对图像2的物体候选框的特征进行再次特征增强，得到图像2的物体候选框的综合增强特征，然后基于图像2的物体候选框的综合增强特征，获取其检测结果。

如图8所示，为视频中图像1-3共三帧图像的一个示意图，其中，图像2为关键帧图像，图像1和3为非关键帧图像，基于本公开实施例对上述三帧图像进行物体检测，获得三帧图像中各自对应的物体候选框，对图像2的物体候选框的特征进行一次特征增强，得到图像2的物体候选框的增强特征，之后还可以通过另一关键帧图像6的物体候选框的增强特征，对图像2的物体候选框的特征进行再次特征增强，然后基于得到的图像2的物体候选框的综合增强特征，获取其检测结果。

基于本公开实施例的视频物体检测方法，有效提高了视频物体检测精度。本发明人通过实验验证，针对同一视频图像，相对于未采用本公开实施例的特征增强方式，本公开实施例的视频物体检测精度可以提高数十量级的mAP(mean average precision，均值平均精度)，提升效果较为明显。相对于现有基于光流进行特征对齐的方法，视频物体检测精度可以提升数十量级的mAP，这是显著的提升，同时，本公开实施例不需要使用额外的光流标注数据训练神经网络，具有更好地适用性。其中，mAP是视频物体检测的评判指标，可以通过准确率(precision，纵坐标)和召回率(recall，横坐标)构成的曲线的面积来计算得到。

另外，在本公开上述实施例的一些实施方式中，物体候选框的检测结果可以包括：分类结果和回归结果。则在获取上述关键帧图像的物体候选框的检测结果之后，还可以根据回归结果对关键帧图像的物体候选框的位置进行回归，得到关键帧图像的物体候选框的回归位置。

其中，分类结果包括物体候选框内物体分别为各种类别物体的概率值，回归结果包括物体候选框的检测位置相对于正确位置上的偏移量。

本公开实施例根据回归结果对关键帧图像的物体候选框的位置进行回归，得到关键帧图像的物体候选框的回归位置，从而可以获得物体候选框的准确位置。

本公开实施例提供的任一种视频物体检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种视频物体检测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频物体检测方法。下文不再赘述。

示例性装置

图9是本公开一示例性实施例提供的视频物体检测装置的结构示意图。该视频物体检测装置可以设置于终端设备、服务器等电子设备中，执行本公开上述任一实施例的视频物体检测装置。如图9所示，该实施例的视频物体检测装置包括：检测模块501，第一获取模块502，第一特征增强模块503和第二获取模块504。

其中：

检测模块501，用于对视频中的至少两帧图像进行物体检测，获得至少两帧图像中各自对应的物体候选框，得到多个物体候选框；其中的至少两帧图像包括一关键帧图像和至少一非关键帧图像。

第一获取模块502，用于获取检测模块501检测到的关键帧图像的物体候选框与多个物体候选框之间的依赖关系。

第一特征增强模块503，用于基于第一获取模块502获取到的依赖关系，对关键帧图像的物体候选框进行特征增强，得到关键帧图像的物体候选框对应的增强特征。

第二获取模块504，用于基于第一特征增强模块503得到的增强特征，获取关键帧图像的物体候选框的检测结果。

基于本公开上述实施例提供的视频物体检测装置，对视频中的至少两帧图像(包括一关键帧图像和至少一非关键帧图像)进行物体检测，获得至少两帧图像中各自对应的物体候选框，得到多个物体候选框，获取关键帧图像的物体候选框与多个物体候选框之间的依赖关系，基于该依赖关系对关键帧图像的物体候选框进行特征增强，得到关键帧图像的物体候选框对应的增强特征，然后基于该增强特征，获取关键帧图像的物体候选框的检测结果。本公开实施例，通过利用视频中关键帧图像的物体候选框与包括该关键帧图像在内的多个帧图像的所有物体候选框之间的依赖关系，对关键帧图像的物体候选框的特征进行增强，使得增强之后的特征更具表达力，提高了物体检测的准确性和检测精度。

图10是本公开另一示例性实施例提供的视频物体检测装置的结构示意图。如图10所示，在本公开上述图9所示实施例的基础上，检测模块501包括：特征提取单元5011，用于通过第一神经网络分别对至少两帧图像进行特征提取，得到至少两个特征图；候选框产生单元5012，用于通过第二神经网络，分别基于至少两个特征图中的每个特征图产生物体候选框，得到每个特征图的物体候选框。

另外，再参见图10，在本公开视频物体检测装置的又一实施例中，第一获取模块502可以包括：第一获取单元5021，用于基于关键帧图像的物体候选框的特征与多个物体候选框的特征，分别获取关键帧图像的每个物体候选框与多个物体中每个物体候选框之间的注意力权重。

相应地，该实施例中，第一特征增强模块503可以包括：第一计算单元5031，用于分别以关键帧图像的每个物体候选框作为当前物体候选框，根据当前物体候选框的特征与多个物体候选框中每个物体候选框的特征之间的注意力权重，对多个物体候选框的特征进行加权求和；第二获取单元5032，用于基于第一计算单元加权求和的结果和当前物体候选框的特征，得到当前物体候选框的增强特征。

进一步地，再参见图10，在本公开视频物体检测装置的再一实施例中，第一获取模块502还可以包括：第三获取单元5022，用于分别获取关键帧图像的每个物体候选框与多个物体中每个物体候选框之间的空间位置关系；第四获取单元5023，用于分别获取关键帧图像的每个物体候选框与多个物体中每个物体候选框之间的时序信息。相应地，该实施例中，第一获取单元5021，用于分别基于关键帧图像的每个物体候选框与多个物体中每个物体候选框的特征、空间位置关系和时序信息，获取关键帧图像的每个物体候选框的特征与多个物体中每个物体候选框之间的注意力权重。

另外，在本公开视频物体检测装置的还一实施例中，检测模块501，还可用于对视频中的另外至少两帧图像进行物体检测，获得另外至少两帧图像中各自对应的物体候选框，得到另外多个物体候选框，其中的另外至少两帧图像包括一另外关键帧图像和至少一非关键帧图像；第一获取模块502，还用于获取另外关键帧图像的物体候选框与另外多个物体候选框之间的依赖关系；第一特征增强模块503，还用于基于依赖关系，对另外关键帧图像的物体候选框进行特征增强，得到另外关键帧图像的物体候选框的增强特征。

相应地，再参见图10，该实施例的视频物体检测装置还可以包括：第三获取模块505，用于获取关键帧图像的物体候选框与另外关键帧图像的物体候选框之间的依赖关系；第二特征增强模块506，用于基于关键帧图像的目标物体候选框与另外关键帧图像物体候选框之间的依赖关系，对关键帧图像的物体候选框的增强特征进行特征增强，得到关键帧图像的物体候选框的综合增强特征。第二获取模块504，具体用于基于关键帧图像的物体候选框的综合增强特征，获取关键帧图像的物体候选框的检测结果。

在其中一些实施方式中，第三获取模块505可以包括：第五获取单，用于分别获取关键帧图像的每个物体候选框与另外关键帧图像的每个物体候选框之间的空间位置关系和时序信息；第六获取单元，用于分别基于关键帧图像的每个物体候选框的增强特征与另外关键帧图像的每个物体候选框的增强特征、空间位置关系和时序信息，获取关键帧图像的每个物体候选框的增强特征与另外关键帧图像的每个物体候选框的增强特征之间的注意力权重。

相应地，在该实施方式中，第二特征增强模块可以包括：第二计算单元，用于分别以关键帧图像的每个物体候选框作为当前物体候选框，根据当前物体候选框的增强特征与另外关键帧图像的每个物体候选框的增强特征之间的注意力权重，对另外关键帧图像的物体候选框的增强特征进行加权求和；第七获取单元，用于基于增强特征进行加权求和的结果和当前物体候选框的特征，得到当前物体候选框的增强特征。

在其中一些实施方式中，第二获取模块504获取到的检测结果可以包括：分类结果和回归结果。再参见图10，在该实施例中，还包括：回归模块507，用于根据回归结果对关键帧图像的物体候选框的位置进行回归，得到关键帧图像的物体候选框的回归位置。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图11图示了根据本公开实施例的电子设备的框图。如图11所示，电子设备60包括一个或多个处理器601和存储器602。

处理器601可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备60中的其他组件以执行期望的功能。

存储器602可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器601可以运行所述程序指令，以实现上文所述的本公开的各个实施例的视频物体检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备60还可以包括：输入装置603和输出装置604，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置603可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置603可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置604可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备60中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备60还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频物体检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频物体检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频物体检测方法，包括：

获取所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系；其中，所述获取所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系，包括：基于所述关键帧图像的物体候选框的特征与所述多个物体候选框的特征，分别获取所述关键帧图像的每个物体候选框与所述多个物体候选框中每个物体候选框之间的注意力权重，所述关键帧图像的每个物体候选框与所述多个物体候选框中每个物体候选框之间的注意力权重，表示所述多个物体候选框中每个物体候选框对所述关键帧图像的每个物体候选框的影响程度；

2.根据权利要求1所述的方法，其中，所述至少一非关键帧图像包括：所述视频中检测时序位于所述关键帧图像之前的至少一图像，和/或，所述视频中检测时序位于所述关键帧图像之后的至少一图像。

3.根据权利要求1所述的方法，其中，所述对视频中的至少两帧图像进行物体检测，获得所述至少两帧图像中各自对应的物体候选框，包括：

通过第一神经网络分别对所述至少两帧图像进行特征提取，得到至少两个特征图；

通过第二神经网络，分别基于所述至少两个特征图中的每个特征图产生所述物体候选框，得到每个特征图的物体候选框。

4.根据权利要求3所述的方法，其中，还包括：所述第二神经网络基于所述至少两个特征图，获取所述多个物体候选框的特征；

所述基于所述依赖关系，对所述关键帧图像的物体候选框进行特征增强，得到所述关键帧图像的物体候选框的增强特征，包括：

分别以所述关键帧图像的每个物体候选框作为当前物体候选框，根据所述当前物体候选框的特征与所述多个物体候选框中每个物体候选框的特征之间的注意力权重，对所述多个物体候选框的特征进行加权求和；

基于加权求和的结果和所述当前物体候选框的特征，得到所述当前物体候选框的增强特征。

5.根据权利要求4所述的方法，其中，所述获取所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系，还包括：

分别获取所述关键帧图像的每个物体候选框与所述多个物体中每个物体候选框之间的空间位置关系和时序信息；

所述基于所述关键帧图像的物体候选框的特征与所述多个物体候选框的特征，分别获取所述关键帧图像的每个物体候选框与所述多个物体中每个物体候选框之间的注意力权重，包括：

分别基于所述关键帧图像的每个物体候选框与所述多个物体中每个物体候选框的特征、空间位置关系和时序信息，获取所述关键帧图像的每个物体候选框的特征与所述多个物体中每个物体候选框之间的注意力权重。

6.根据权利要求4所述的方法，其中，还包括：

对所述视频中的另外至少两帧图像进行物体检测，获得所述另外至少两帧图像中各自对应的物体候选框，得到另外多个物体候选框；所述另外至少两帧图像包括一另外关键帧图像和至少一非关键帧图像；

获取所述另外关键帧图像的物体候选框与所述另外多个物体候选框之间的依赖关系；

基于所述依赖关系，对所述另外关键帧图像的物体候选框进行特征增强，得到所述另外关键帧图像的物体候选框的增强特征；

所述得到所述关键帧图像的物体候选框的增强特征之后，还包括：

获取所述关键帧图像的物体候选框与所述另外关键帧图像的物体候选框之间的依赖关系；

基于所述关键帧图像的目标物体候选框与所述另外关键帧图像物体候选框之间的依赖关系，对所述关键帧图像的物体候选框的增强特征进行特征增强，得到所述关键帧图像的物体候选框的综合增强特征；

所述基于所述增强特征，获取所述关键帧图像的物体候选框的检测结果，包括：基于所述关键帧图像的物体候选框的综合增强特征，获取所述关键帧图像的物体候选框的检测结果。

7.根据权利要求6所述的方法，其中，所述获取所述关键帧图像的物体候选框与所述另外关键帧图像的物体候选框之间的依赖关系，包括：

分别获取所述关键帧图像的每个物体候选框与所述另外关键帧图像的每个物体候选框之间的空间位置关系和时序信息；

分别基于所述关键帧图像的每个物体候选框的增强特征与所述另外关键帧图像的每个物体候选框的增强特征、空间位置关系和时序信息，获取所述关键帧图像的每个物体候选框的增强特征与所述另外关键帧图像的每个物体候选框的增强特征之间的注意力权重；

所述基于所述关键帧图像的目标物体候选框与所述另外关键帧图像物体候选框之间的依赖关系，对所述关键帧图像的物体候选框的增强特征进行特征增强，得到所述关键帧图像的物体候选框的综合增强特征，包括：

分别以所述关键帧图像的每个物体候选框作为当前物体候选框，根据所述当前物体候选框的增强特征与所述另外关键帧图像的每个物体候选框的增强特征之间的注意力权重，对所述另外关键帧图像的物体候选框的增强特征进行加权求和；

基于所述增强特征进行加权求和的结果和所述当前物体候选框的特征，得到所述当前物体候选框的增强特征。

8.根据权利要求1-4任一所述的方法，其中，所述检测结果包括：分类结果和回归结果；

所述方法还包括：根据所述回归结果对所述关键帧图像的物体候选框的位置进行回归，得到所述关键帧图像的物体候选框的回归位置。

9.一种视频物体检测装置，包括：

第一获取模块，用于获取所述检测模块检测到的所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系；其中，所述获取所述关键帧图像的物体候选框与所述多个物体候选框之间的依赖关系，包括：基于所述关键帧图像的物体候选框的特征与所述多个物体候选框的特征，分别获取所述关键帧图像的每个物体候选框与所述多个物体候选框中每个物体候选框之间的注意力权重，所述关键帧图像的每个物体候选框与所述多个物体候选框中每个物体候选框之间的注意力权重，表示所述多个物体候选框中每个物体候选框对所述关键帧图像的每个物体候选框的影响程度；

10.根据权利要求9所述的装置，其中，所述检测模块包括：

特征提取单元，用于通过第一神经网络分别对所述至少两帧图像进行特征提取，得到至少两个特征图；

候选框产生单元，用于通过第二神经网络，分别基于所述至少两个特征图中的每个特征图产生所述物体候选框，得到每个特征图的物体候选框。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的视频物体检测方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的视频物体检测方法。