CN112488071A

CN112488071A - 提取行人特征的方法、装置、电子设备和存储介质

Info

Publication number: CN112488071A
Application number: CN202011517231.1A
Authority: CN
Inventors: 郑新想; 夏凤君; 周斌
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-12
Anticipated expiration: 2040-12-21
Also published as: CN112488071B

Abstract

本申请实施例涉及人工智能技术领域，尤其涉及一种提取行人特征的方法、装置、电子设备和存储介质。该方法中，需要监控的目标对象的图像序列，得到目标对象的在每帧图像中的人体姿态类别，例如正面、背面还是侧面。然后，不同人体姿态类别的图像，单独进行特征融合。例如，目标对象的正面图像进行特征融合，得到目标对象的正面特征作为一种行人特征，目标对象的侧面图像进行特征融合，得到目标对象的侧面特征作为一种行人特征。故此，不同人体姿态类别的行人特征可以准确的对齐，相对于正面特征和侧面特征进行加权求和更能够准确的描述目标对象不同姿态下的特征，故此提取的行人特征质量更为可靠。

Description

提取行人特征的方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种提取行人特征的方法、装置、电子设备和存储介质。

背景技术

视频能够记录生活，记录世界。视频中涵盖着丰富的信息。在行人重识别领域中，多从视频中分析出行人的特征并进行后续的处理。

相关技术中，从视频中提取行人特征的方案包括：首先从每帧图像中截取监控目标的图片，从中提取出监控目标的特征，然后对于帧间图片，需要对不同帧的特征进行加权求平均得到监控目标的最终特征。

然而，发明人研究发现，相关技术中从视频提取的行人特征质量不佳。故此，如果提高行人特征的质量，有待解决。

发明内容

本申请的目的是提供一种提取行人特征方法、装置、电子设备和存储介质，用于解决相关技术中从视频提取的行人特征质量不佳的问题。

第一方面，本申请实施例提供了一种提取行人特征的方法，包括：

获取目标对象的图像序列；

对所述图像序列中的各帧图像按照所述目标对象的人体姿态类别进行分类处理，得到各人体姿态类别对应的图像分组，并提取所述各帧图像中所述目标对象的人体特征；

对每种所述人体姿态类别分别执行：对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征。

在一些的实施例中，所述获取目标对象的图像序列之后，所述方法还包括：

对所述图像序列中的各帧图像分别进行图像质量评价，得到所述图像序列中的各帧图像的图像质量评价参数；

所述将所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征，包括：

采用所述图像分组中的各帧图像的所述图像质量评价参数，对所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征。

在一些的实施例中，所述用所述图像分组中的各帧图像的所述图像质量评价参数，对所述图像分组中的各帧图像的所述人体特征进行特征融合处理，包括：

以所述图像质量评价参数作为权重因子，对所述图像分组中的各帧图像的所述人体特征进行加权运算处理。

在一些的实施例中，所述人体特征中包括多个指定人体区域各自的人体区域特征；

所述以所述图像质量评价参数作为权重因子，对所述图像分组中的各帧图像的所述人体特征进行加权运算处理，包括：

对所述图像分组中的相同的指定人体区域，以所述图像质量评价参数作为权重因子，进行加权运算处理，得到各所述预设人体区域分别对应的第一行人特征。

将所述图像分组中的各帧图像的所述人体特征以及所述图像分组中的各帧图像的所述图像质量评价参数，按照所述图像分组中各帧图像在所述图像序列中的顺序，依序输入到预先训练的特征提取模型进行特征融合处理。

在一些的实施例中，所述对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理之前，所述方法还包括：

过滤掉所述图像分组中不满足指定图像质量要求的图像。

对所述图像序列的每帧图像进行分割处理，得到所述目标对象的分割掩码；

针对所述图像序列中的每帧图像，采用所述目标对象的分割掩码，提取所述目标对象的运动特征；

对提取的各帧图像的运动特征进行融合处理，得到所述目标对象的第二行人特征。

对所述图像序列中每帧图像分别进行特征提取和质量评价处理，得到所述目标对象的特征信息和每帧图像的质量评价参数；

将所述图像序列中每帧图像的所述特征信息和所述质量评价参数，按照各帧图像在所述图像序列中的顺序，依序输入至预先训练的关联关系提取模型，得到所述关联关系提取模型输出的所述目标对象的第三行人特征。

第二方面，本申请实施例还提供一种提取行人特征的装置，所述装置包括：

序列获取模块，用于获取目标对象的图像序列；

姿态处理模块，用于对所述图像序列中的各帧图像按照所述目标对象的人体姿态类别进行分类处理，得到各人体姿态类别对应的图像分组，并提取所述各帧图像中所述目标对象的人体特征；

行人特征确定模块，用于对每种所述人体姿态类别分别执行：对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征。

在一些的实施例中，所述序列获取模块执行获取目标对象的图像序列之后，所述装置还包括：

评价模块，用于对所述图像序列中的各帧图像分别进行图像质量评价，得到所述图像序列中的各帧图像的图像质量评价参数；

行人特征确定模块执行所述将所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征时，用于：

在一些的实施例中，所述行人特征确定模块执行用所述图像分组中的各帧图像的所述图像质量评价参数，对所述图像分组中的各帧图像的所述人体特征进行特征融合处理时，用于：

所述行人特征确定模块执行所述以所述图像质量评价参数作为权重因子，对所述图像分组中的各帧图像的所述人体特征进行加权运算处理时，用于：

在一些的实施例中，所述行人特征确定模块执行所述用所述图像分组中的各帧图像的所述图像质量评价参数，对所述图像分组中的各帧图像的所述人体特征进行特征融合处理时，用于：

在一些的实施例中，所述行人特征确定模块执行所述对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理之前，所述装置还包括：

过滤模块，用于过滤掉所述图像分组中不满足指定图像质量要求的图像。

在一些的实施例中，所述序列获取模块执行所述获取目标对象的图像序列之后，所述装置还包括：

分割模块，用于对所述图像序列的每帧图像进行分割处理，得到所述目标对象的分割掩码；

运动特征提取模块，用于针对所述图像序列中的每帧图像，采用所述目标对象的分割掩码，提取所述目标对象的运动特征；

运动特征融合模块，用于对提取的各帧图像的运动特征进行融合处理，得到所述目标对象的第二行人特征。

信息获取模块，用于对所述图像序列中每帧图像分别进行特征提取和质量评价处理，得到所述目标对象的特征信息和每帧图像的质量评价参数；

附加特征确定模块，用于将所述图像序列中每帧图像的所述特征信息和所述质量评价参数，按照各帧图像在所述图像序列中的顺序，依序输入至预先训练的关联关系提取模型，得到所述关联关系提取模型输出的所述目标对象的第三行人特征。

第三方面，本申请另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任一提取行人特征的方法。

第四方面，本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请实施例中的任一提取行人特征的方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请一个实施例的应用环境的示意图；

图2为根据本申请一个实施例的提取行人特征的流程示意图；

图3为根据本申请一个实施例的姿态评估网络进行人体姿态分类的说明示意图；

图4为根据本申请一个实施例的对人体侧面进行标注的示意图；

图5为根据本申请一个实施例的对人体划分为多个部件的示意图；

图6所示为根据本申请一个实施例的人体部件缺失情况下的说明示意图；

图7为根据本申请一个实施例的提取行人特征的方法的又一流程示意图；

图8所示为根据本申请一个实施例的用于说明进行特征融合处理的示意图；

图9为根据本申请一个实施例的提取行人特征的方法的另一流程示意图；

图10为根据本申请一个实施例的针对单帧图像提取行人特征的示意图；

图11为本申请实施例的提取图像序列中的多维度行人特征的示意图；

图12为根据本申请一个实施例的提取行人特征的装置示意图；

图13为根据本申请一个实施例的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为便于理解本申请实施例提供的技术方案，下面对本申请实施例中涉及的一些关键名词进行说明。

行人重识别，即从视频或单帧图片中识别出行人目标是否为已知的监控目标。其中，视频行人重识别与单帧图片的行人重识别任务是相同的，即在判断跨不同摄像头或者同一摄像头不同时刻的行人目标是否是同一人；与单帧图片的行人重识别相比，视频往往包含行人更丰富的外观信息和运动信息，有利于学习更为鲁棒的、优质的视频行人特征。

图像质量评价，行人重识别之前往往需要对图像进行质量评价，例如模糊的图像不适合后续进行行人特征提取和进行重识别，故此，可通过图像质量评价技术先给出图像的质量评估，以便于对图像质量合格的图像执行后续操作。实施时，可采用图像质量评价模型对图像进行质量评分，评分越高表示图像质量越好越有利于重识别的准确率的提高。

人体姿态类别，本申请实施例中人体姿态类别可主要包括正面姿态、侧面姿态和背面姿态。例如图像中体现的是行人目标的正脸图像，可分类为正面姿态，图像中体现的是行人目标的背面，则分类为背面姿态，体现的是侧脸，则可分类为侧面姿态。在实施时，可采用神经网络对行人目标的人体姿态类别进行分类识别。

行人特征，本申请实施例中主要涉及从视频的多帧图像中提取的行人的综合特征。本申请实施例中，行人的综合特征可从多个维度来描述，例如可包括运动特征，行人外观特征，其中，行人外观特征可包括从不同人体姿态分类得到相应的行人特征，还可以对不分类的行人特征进行融合处理得到一个从多帧图像中获取的行人特征的综合外观特征。

在现实场景中，行人视频段中往往存在遮挡、行人的自身的姿态变化等问题。在现有方案提取行人特征时，从每帧图像中截取监控目标的图片，并从中提取出监控目标的特征，然后对于帧间，需要对不同帧的特征进行加权求平均。

然而，发明人研究发现，因获取每段视频的行人序列中图片张数不同，且图像序列中每帧图像的信息差异较大，导致在行人特征提取时，因无法有效地进行多张图像的行人特征的对齐加权取平均，从而影响最终提取的行人特征质量。

有鉴于此，本申请提出了一种提取行人特征的方法、装置、电子设备和存储介质，用于解决上述问题。本申请的发明构思为提取出需要监控的目标对象的图像序列，得到目标对象的在每帧图像中的人体姿态类别，例如正面、背面还是侧面。然后，不同人体姿态类别的图像，单独进行特征融合。例如，目标对象的正面图像进行特征融合，得到目标对象的正面特征作为一种行人特征，目标对象的侧面图像进行特征融合，得到目标对象的侧面特征作为一种行人特征。故此，不同人体姿态类别的行人特征可以准确的通过姿态对齐进行融合，相对于正面特征和侧面特征进行加权求和更能够准确的描述目标对象不同姿态下的特征，故此提取的行人特征质量更为可靠。

进一步的，本申请实施例为了能够从更多维度全面的描述目标对象的特点，不仅提取不同人体姿态类别的行人特征，还能够结合图像质量从目标对象的图像序列中提取目标对象的整体特征，作为另一种行人特征，使得对目标对象的特征描述更为全面。

此外，本申请实施例中不仅每个人体姿态类别可以单独进行行人特征提取，还可以提取目标对象的运动特征作为一种行人特征，运动特征能够表达目标对象的运动特点，不同目标对象的运动特点也存在一定区别，也能够帮助进行行人重识别。故此，本申请实施例中，为了能够更为准确的提取运动特征，可以采用规避外观特征对运动特征的影响的方式来提取运动特征。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1为根据本申请一个实施例的应用环境的示意图。

如图1所示，该应用环境中例如可以包括网络10、服务器20、至少一种监控设备30(如监控设备30_1、监控设备30_2……监控设备30_N)、终端设备40以及数据库50。其中：

监控设备30用于采集监控范围内的图像，并通过网络10将采集的图像发送给服务器20，由服务器20将图像存储至数据库50中，得到监控视频。

终端设备40可发送监控视频获取请求给服务器20，服务器20响应该监控视频获取请求，从数据库50中获取相应的监控视频返回给终端设备40显示出来。

本申请实施例为了进行行人重识别，可从监控视频中提取目标对象的行人特征。实施时，可以由服务器20从视频中提取目标对象的行人特征。当然，当终端的处理能力足够时，也可以由终端设备40从视频中提取行人特征。提取的行人特征可包括多个维度的特征，例如每种人体姿态类别的行人特征、运动特征以及行人整体特征。

提取出各行人特征之后，可以基于这些特征进行行人重识别，判断视频中提取的目标对象是否是需要查找的目标。

本申请中的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的监控设备30、终端设备40、服务器20和数据库50旨在表示本申请的技术方案涉及的监控设备、终端设备、服务器以及存储系统的操作。对单个服务器和存储系统加以详述至少为了说明方便，而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从数据库50到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是需要通过网络10实现的。

需要说明的是，本申请实施例中的存储系统例如可以是缓存系统、也可以是硬盘存储、内存存储等等。

还需要说明的是，本申请实施例不仅适用于监控场景，任何图像采集装置采集的视频均可以执行本申请实施例提供的方法提取行人特征。

本申请提出的提取行人特征的方法不仅适用于图1所示的监控系统，还适用于任何能够进行图像采集的进行行人重识别的场景。

如图2所示，为本申请实施例提供的提取行人特征的方法的流程示意图，包括以下步骤：

获取到视频后，可以对视频进行预处理得到目标对象的图像序列。该预处理可以包括图像增强和/或行人筛选。例如视频中包括多个行人时，可以提取出需要处理的目标对象的图像序列。该图像序列中尽可能仅包括一个完整的行人。

在步骤201中，获取目标对象的图像序列，然后在步骤202中，对所述图像序列中的各帧图像按照所述目标对象的人体姿态类别进行分类处理，得到各人体姿态类别对应的图像分组，并提取所述各帧图像中所述目标对象的人体特征。

例如，人体姿态类别可包括正面、侧面和背面。那么可以通过训练神经网络模型对图像序列中每帧图像进行分类处理，得到目标对象在每帧图像中的人体姿态类别。由此，属于同一人体姿态类别的图像将被划分到同一组，属于不同人体姿态类别的图像将被划分到不同组，得到不同人体姿态类别分别对应的图像分组。由此，每种人体姿态类别可单独评估行人特征。

实施时，如图3所示，对图像的分类识别可以基于姿态评估网络来实现。姿态评估网络可基于以下方法训练得到：

例如，在一个实施例中，可以对样本图像进行标注，分别标注样本图像中的待分类对象的类别，然后基于样本图像和标注的标签训练姿态评估网络。

训练时，可使用交叉熵损失监督姿态评估网络的训练，交叉熵损失如公式(1)所示。

式(1)中，y_p和

分别表示人体正、背、侧面的真实值和相应的网络预估值，i表示人体姿态类别，即正、背、侧面，L_pose表示计算的损失值。

后续对图像按照不同的人体姿态类别进行分类处理之后，可在步骤203中，对每种所述人体姿态类别分别执行：对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征。

例如，由目标对象的正面图像构成的正面图像分组，能够得到目标对象的正面特征作为一种第一行人特征，由目标对象的背面图像构成的背面图像分组，能够得到目标对象的背面特征作为一种行人特征，以此类推，还可以得到目标对象的侧面特征作为另一种第一行人特征。

在另一个实施例中，在每个人体姿态类别的分组中、目标对象由于分辨率、模糊等因素的不同，在特征融合处理时会影响最终的结果。为此，本申请实施例中为了更好的进行特征融合处理，得到高质量的行人特征，还可以对目标对象的每帧图像进行质量评价，得到各帧图像的质量评价参数。该质量评价参数可用于对图像进行筛选，例如针对每个图像分组可以根据质量评价参数筛选掉质量较差的图像，继而采用质量较优的图像进行特征融合处理。另一方面，还可以在进行特征融合处理时，结合每帧图像的质量评价参数进行特征融合处理。实施时，可采用质量评价网络进行质量评价。

质量评价网络训练时，采用的标签用于标识图像质量评分。该标签可以人工标注。当然，为了降低标注耗时和人工成本，可以采用自动标注的方式进行标注。

需要说明的是，本申请实施例中，对图像质量评价也是按照人体体态类别评价的。训练质量评价网络时的训练样本的标注是分类别标注的。

以人体姿态类别为侧面的样本为例，如图4所示，预先采集的训练样本中包括多张人体侧面的图像，从这多张图像中可以筛选出一张侧面图像作为标准图像，标准图像的质量评分为最高值，其余图像的质量评分是根据各张侧面图像与其标准图像的相似度来确定的。与标准图像的相似度越高，标注的质量评分越高，与标准图像的相似度越低，标注的质量评分越低。实施时，质量评分的取值区间可设置在0-1之间。当然，也可以设置其他取值区间，均适用于本申请实施例。

正面和背面的自动标注方式和图4所示的侧面标注方式类似，这里不再赘述。

针对每一类的人体姿态类别的图像分组，当采用图像质量评价参数，对该图像分组中的各帧图像的人体特征进行特征融合处理时，可实施为通过加权求均值或网络学习的方式进行特征融合处理。

通过加权求均值的方式可实施为：以图像质量评价参数作为权重因子，对图像分组中的各帧图像的人体特征进行加权运算处理。例如，可根据公式(2)对图像分组的人体特征进行加权运算处理：

在公式(2)中，M为图像分组得到加权运算处理结果，n为图像分组的图像总数量，i取值为1到n，ω_i为第i张图像的图像质量评价参，p_i为第i张图像的人体特征。当图像质量评价参数取值大于1时，也可采用加权求均值的方式确定人体特征。

此外，在另一个实施例中，由于目标对象被遮挡、背景等也会影响特征融合处理的结果。本申请实施例中，还可以对将整个人体划分为多个指定人体区域，例如如图5所示，可以将人体划分为三个指定人体区域。当然，实施时可根据实际需求，划分更多或更少的区域。例如可划分为两个指定人体区域，其中一部分为上半身，另一部分为下半身。再例如可划分4个指定人体区域。人体区域的划分，可以是均分，也可以并非均分，而是按照人体区域所要涵盖的人体部件进行划分，均适用于本申请实施例。

实施时，为了能够识别出各个指定人体区域，可采用人体部件检测模型对目标对象包含的人体区域类别进行预测。预测结果中可包括各个指定人体区域的位置信息以及置信度。该置信度用于表达预测的指定人体区域存在的可能性。置信度越高表示相应指定人体区域存在的可能性越高。

在一个实施例中，本申请中指定人体区域可包括全局人体以及至少一个人体部件(如上半身、下半身、头部致肩膀位置部件等)。实施时，可采用Mask R-CNN作为人体部件检测模型定位人体的全局位置和局部位置。对各个指定人体区域进行位置检测，而后基于不同指定人体区域进行对齐，能够从一定程度上排除遮挡和背景的干扰。

对于局部位置的标注，为了减少标注工作量，可以对人体进行均分来得到不同的指定人体区域。如可采用完整的人体掩码，自上而下将人体均匀分成四个部件，做相应的局部部件类别以及相应的掩码标注。为了更好的丰富样本，在训练时，可采用自监督的方式对完整的行人进行裁剪生成半身图片以及相应的标注信息。然后采用训练样本及其标注标签来训练人体部件检测模型。

人体部件检测模型用于对图像进行位置区域检测和分类识别，其输出的结果中可包括每个指定人体区域的位置信息及其置信度，基于置信度可以确定该指定人体区域存在的可能性。置信度越大，表示该指定人体区域存在的可能性越大，置信度越小，表示该指定人体区域存在的可能性越小。由此，实施时可以设置超参即置信度阈值来识别各指定人体区域是否存在，然后从图像分组中找出相同人体区域，对相同人体区域的人体特征进行特征融合处理。

如图6所示，为缺少部分人体区域的示意图。人体部件检测模型对图6所示的图像进行各指定人体区域的检测，能够得到各指定人体区域的位置以及置信度。由于图6所示的图像中，缺少腿部下肢部分，故此，对于腿部下肢部分的置信度将会非常低，由此可以确定出该图像中不存在腿部下肢部分区域。

由此，可通过检测不同的指定人体区域可进行人体区域对齐，实现对相同指定人体区域的特征融合处理。此处进行特征融合处理时，以图像质量评价参数作为权重因子，对相同指定人体区域的人体特征进行加权运算处理，得到各预设人体区域分别对应的第一行人特征。

例如，人体部件检测模型对每个指定人体区域均会输出一个是否存在的评估，记为V；例如四个指定人体区域的存在的评估结果V＝[v1,v2,v3,v4]＝[1，1，1，0]，其中，1表示相应的指定人体区域存在，0表示相应的指定人体区域不存在。四个指定人体区域的人体区域特征记为：{featP1、featP2、featP3、featP4}。其中，featP1表示第一个指定人体区域的人体区域特征，featP2表示第二个指定人体区域的人体区域特征，featP3表示第三个指定人体区域的人体区域特征，featP4表示第四个指定人体区域的人体区域特征。基于该假设，可基于如图7所示的步骤进行特征融合处理：

在步骤701中，依据各指定人体区域是否存在的评估结果，对每个指定人体区域的人体区域特征进行掩码处理。其中，掩码处理的目的在于使得不存在的特征对后期的网络无效，从而抑制不存在的指定人体区域在加权时的不良影响。

掩码处理方法可实施为：若4个部件的存在标志[v1,v2,v3,v4]均为1，则表明为完整人体特征；若4个部件的存在标志[v1,v2,v3,v4]中至少一个为0如[1,1,0,0]，即有部分人体缺失；通过各指定人体区域是否存在的评估结果V与相应的人体区域特征向量取向量积vi*featPi,即[v1*featP1、v2*featP2、v3*featP3、v4*featP4]，从而使得不存在的指定人体区域的人体区域特征向量的值均为0，抑制其对后续的加权平均或者网络学习得到的特征融合结果的影响。

由于遮挡、分辨率、行人检测框不准确等因素的存在，每个图像分组中各帧图像的图像质量不同。如图8所示，图8中的黑色框表示检测出的全局位置和灰色框表示检测出的局部部件位置。由于人体背面的分组存在遮挡、人体检测不准的影响，图8中中间的图像不存在针对人体全局位置的检测框，仅存在深灰色的局部部件检测框。根据各指定人体区域是否存在的检测结果，可以实现不同图像之间的人体对齐，从而在对齐的全局和局部人体特征上结合图像质量的评估进行加权或者网络学习，获取正、背、侧面的人体外观特征。故此，可在步骤702中，针对相同的指定人体区域进行加权运算处理，以实现人体区域的对齐。

如图8所示，a1、a2、a3分别表示图8中三张图像的图像质量评估参数，在对三张图像进行加权运算处理时，可以针对三张图像的深灰色框内的局部部件的人体局部特征进行加权求平均，例如假设P1、P2、P3为图8中深灰色框内的人体区域特征，则计算深灰色框内的第一行人特征为M’＝a1*P1+a2*P2+a3*P3。针对黑色框内的全局位置，假设R1、R3为图8中第一张图和第三张图的全局位置的人体区域特征。对全局位置进行特征融合处理时，可以计算M”＝a1*R1+a3*R3作为全局位置进行特征融合处理后的第一行人特征。

此外，在另一个实施例中，除了可以采用加权运算处理的方式进行特征融合处理，还可以采用网络学习的方式进行特征融合处理。该方式可实施为将图像分组中的各帧图像的人体特征以及各帧图像的图像质量评价参数，按照各帧图像在图像序列中的顺序，依序输入到预先训练的特征提取模型进行特征融合处理。该特征提取模型的训练过程可简述为：

1)、将每个部件的特征(包含全局特征)和相应的部件的质量评价分数进行拼接即concate(连接)操作，形成长度为原特征长度+1的特征向量；之后接两层全连接层后，生成所需的embeding(编码)特征。

2)、将embeding特征送入交叉熵和三元组损失进行监督训练。

在网络训练时，质量评估分数的反向传播梯度为零，因为质量评估分数只是后面网络的参考值，不需要调整，而特征则需要进行调整。

在一些实施例中，除了前述的各个人体姿态类别的第一行人特征，为了能够从更多维度来描述目标对象的特征，还可以从目标对象的图像序列中提取目标对象的运动特征。例如，如图9所示，为了规避外观特征对运动特征的影响，可在步骤901中对图像序列的每帧图像进行分割处理，得到目标对象的分割掩码；然后在步骤902中，针对图像序列中的每帧图像，采用目标对象的分割掩码，提取目标对象的运动特征；然后在步骤903中，对提取的各帧图像的运动特征进行融合处理，得到目标对象的总运动特征作为第二行人特征。

例如，经过前述的人体整体部件检测模型的检测后，可得到全局人体位置，然后从全局人体位置的图像区域提取目标对象的掩码图像，然后基于掩码图像提取运动特征。

在另一个实施例中，为了能够进一步的更加全面的来描述目标对象的行人特征。本申请实施例中，还可以对图像序列中每帧图像分别进行特征提取和质量评价处理，得到目标对象的特征信息和每帧图像的质量评价参数；将图像序列中每帧图像的特征信息和质量评价参数，按照各帧图像在图像序列中的顺序，依序输入至预先训练的关联关系提取模型，得到关联关系提取模型输出的目标对象的第三行人特征。

其中，关联关系提取模型可以为长短时记忆人工神经网络(LSTM，Long Short-Term Memory)，通过对输入的序列进行处理可以得到整体的视频特征作为第三行人特征。

综上所述，本申请实施例中，单帧图像处理模块的结构示意图可如图10所示。单帧图像输入给基础网络1(BackBone1)之后，经过BackBone1提取出基础特征A，基础特征A分别输入给质量评价网络，来得到该镇图像的图像质量参数；基础特征A输入给人体分割模型进行人体的分割处理，得到人体分割掩码用于提取运动特征，基础特征A和人体分割掩码输入给基础网络2(BackBone2)进一步提取出基础特征2，然后人体部件检测模型对基础特征2进行位置检测，得到各个指定人体区域的位置信息、各指定人体区域的人体区域特征以及类别预测结果(即各部件是否存在的检测结果)。基础特征A输入给姿态评估网络对图像进行分类识别，得到图像属于的人体姿态类别。然后，基于图10得到的单帧图像的各个信息之后，由图11所示的模型来进行后续处理，到的多种维度的行人特征。如图11所示，图像序列中每张图像输入到单帧图像处理模块之后进行处理，得到各个人体姿态类别的图像分组，优选分组模块基于每帧图像的图像质量参数对图像进行筛选，过滤掉低质量的图像。之后各图像分组中的特征进行特征融合处理，得到外观特征，图像序列中经过滤剩余的图像的运动特征进行融合处理，例如可根据图像质量参数进行加权运算处理，得到运动特征。各帧图像的特征以及图像质量参数可通过LSTM模型得到视频特征。也即，本申请实施例中从视频中提取的行人特征可包括运动特征、外观特征和视频特征。

本申请实施中，涉及的主要监督损失loss可包括:

1)、图像质量的标注值可在0～1之间，所以图像质量评价网络的输出可经过sigmoid处理，即采用公式(3)和公式(4)进行处理，以便于使得图像质量可直接作为权重，后续的特征融合处理直接加权求和即实现对特征的加权平均：

在公式(3)中，x表示图像质量评价网络的输出，p和

分别表示标签标注值和质量评价网络的图像质量参数。L_MSL表示损失。

2)、对于局部、全局特征可使用交叉熵损失和三元组损失如公式(5)-公式(7)进行监督训练；

L_tri＝[D^ap-D^np+α]₊ (6)

D^ap＝||f^a-f^p||,D^an＝||f^a-fⁿ|| (7)

式(5)中，i表示不同的人体姿态类别，y和

分别表示标注的类别和预估的类别。

式(6)中表示三元组损失函数.其中的三元指Anchor、Negative、Positive。学习后使得Positive元和Anchor元之间的距离最小，而和Negative之间距离最大。其中Anchor为训练数据集中随机选取的一个样本，Positive为和Anchor属于同一类的样本，而Negative则为和Anchor不同类的样本。D^ap表示Positive元和Anchor元之间的距离，D^np表示Positive元和Negative之间的距离。

式(7)中f^a，f^p，fⁿ分别为Anchor样本特征、与Anchor同类的人体姿态类别的样本特征以及与Anchor不同类的Negative样本特征。

训练的目的使得D^ap的距离要小于D^an的距离，a表示margin，即ap和an距离之间的最小间隔。公式7中的f就是所需要的特征即embeding。

3)、对于Mask R-CNN目标检测和分割的监督loss如式(8)所示：

L＝L_cls+L_box+L_mask (8)

式中L_cls，L_box，L_mask分别表示人体姿态类别损失在本申请实施例中为人体的局部、全局类别，行人局部、全局位置损失，掩码二元交叉熵损失。

如图12所示，基于相同的发明构思，提出一种提取行人特征的装置1200，包括：

序列获取模块1201，用于获取目标对象的图像序列；

姿态处理模块1202，用于对所述图像序列中的各帧图像按照所述目标对象的人体姿态类别进行分类处理，得到各人体姿态类别对应的图像分组，并提取所述各帧图像中所述目标对象的人体特征；

行人特征确定模块1203，用于对每种所述人体姿态类别分别执行：对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理，得到所述人体姿态类别对应的第一行人特征。

所述行人特征确定模块执行执行所述以所述图像质量评价参数作为权重因子，对所述图像分组中的各帧图像的所述人体特征进行加权运算处理时，用于：

关于各提取行人特征的装置中各操作的实施以及有益效果可参见前文方法中的描述，此处不再赘述。

在介绍了本申请示例性实施方式的提取行人特征的方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的提取行人特征方法中的步骤。

下面参照图13来描述根据本申请的这种实施方式的电子设备130。图13显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种提取行人特征的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种提取行人特征的方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于提取行人特征的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器，使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种提取行人特征的方法，其特征在于，所述方法包括：

获取目标对象的图像序列；

2.根据权利要求1所述的方法，其特征在于，所述获取目标对象的图像序列之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述用所述图像分组中的各帧图像的所述图像质量评价参数，对所述图像分组中的各帧图像的所述人体特征进行特征融合处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述人体特征中包括多个指定人体区域各自的人体区域特征；

5.根据权利要求2所述的方法，其特征在于，所述用所述图像分组中的各帧图像的所述图像质量评价参数，对所述图像分组中的各帧图像的所述人体特征进行特征融合处理，包括：

6.根据权利要求1-5中任一所述的方法，其特征在于，所述对所述人体姿态类别对应的图像分组，将所述图像分组中的各帧图像的所述人体特征进行特征融合处理之前，所述方法还包括：

过滤掉所述图像分组中不满足指定图像质量要求的图像。

7.根据权利要求1-5中任一所述的方法，其特征在于，所述获取目标对象的图像序列之后，所述方法还包括：

8.根据权利要求1-5中任一所述的方法，其特征在于，所述获取目标对象的图像序列之后，所述方法还包括：

9.一种提取行人特征的装置，其特征在于，所述装置包括：

序列获取模块，用于获取目标对象的图像序列；

10.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行权利要求1-8中任一项所述的方法。