CN111259786B

CN111259786B - 一种基于视频的外观和运动信息同步增强的行人重识别方法

Info

Publication number: CN111259786B
Application number: CN202010038990.3A
Authority: CN
Inventors: 于慧敏; 李殊昭
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2022-05-03
Anticipated expiration: 2040-01-14
Also published as: CN111259786A

Abstract

本发明公开了一种基于视频的外观和运动信息同步增强的行人重识别方法，训练时通过外观增强模块AEM、运动增强模块MEM两个模块分别增强主干网络中的行人外观和运动信息。外观增强模块AEM利用现有的大规模行人属性数据集训练得到的属性识别模型，为大规模行人视频数据集提供了属性伪标签，通过属性学习增强外观及语义信息；运动增强模块MEM通过利用视频预测模型预测行人步态信息，增强行人特征提取主干网络中的具有身份判别力的步态信息特征，提升行人重识别性能。实际应用时仅需保留行人特征提取主干网络，无需增加网络复杂度和模型大小，就能够获得更高的行人重识别性能。增强后的主干网络特征在基于视频的行人重识别任务中获得了更高的准确率。

Description

一种基于视频的外观和运动信息同步增强的行人重识别方法

技术领域

本发明属于智能识别技术领域，特别地涉及一种基于视频的外观和运动信息同步增强的行人重识别方法。在算法设计和模型训练部分涉及了深度学习技术。

背景技术

行人重识别的任务是在于摄像机A不存在重叠区域的摄像机B中，对行人目标进行检索，重新找到在摄像机A中出现的行人目标。作为当前重要的研究方向和研究热点，行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用，例如跨摄像机的行人跟踪与行为分析，嫌疑或感兴趣人员的图片检索与查询等。

随着深度学习的迅速发展，越来越多的研究者采用深度神经网络来解决行人重识别的问题。而当前研究较多并且获得较高性能的主要集中于基于静态图片的行人重识别领域，它基于一张框选并截取出的静态行人图片进行特征提取，然后在候选集中进行特征匹配和相似度排序，完成检索重识别的任务。然而基于静态图片的行人重识别有较多局限性。第一，单张静态图片对于姿态变化、遮挡等影响因素非常敏感，第二，每个人的行走特性和步态都具有其身份独特性，使用单张静态图片无法捕捉到这种具有身份识别特性的步态特征。因此，越来越多的人开始将关注点放到基于视频的行人重识别方向中来。

利用视频数据作为研究对象主要有以下几个优势。第一，视频数据更易从视频监控中获取，也更符合实际应用的场景；第二，视频数据中的多张图片能够较好的应对姿态变化、遮挡、光照等带来的影响；最后，视频中包含丰富的外观和运动信息，能够从多个方面提取具有身份判别力的信息，例如行人的行走步态特征。

当前基于视频的行人重识别算法主要分为两大类，一类是将视频看做多张图片，即基于多图片的算法，另一类是直接对视频数据进行处理，即基于视频的算法。对于基于多图片的算法，主要利用了注意力模型来完成多张图片特征融合为整个视频序列层级特征的过程。利用注意力模型给每张图片分配一个重要性得分，根据重要性得分将多张图片进行加权组合，获得最终的特征。这类方法易于实现、占用时间和内存相对较少，然而却忽略了视频数据所能够提供的最重要的信息，即运动信息。对于基于视频的算法，很多视频分析的通用结构都被集成到了行人重识别系统中，例如光流学习，3D卷积神经网络，RNN等等。尽管这些对于时序特征提取和动作识别都有着较强的能力，但是由于行人重识别数据中仅包含一类运动类别，即行走，此时行走模式和步态中的微小差别如果没有对网络的特别设计，则很难很好的进行特征提取。近年来较为流行的步态识别虽然能够依据步态识别身份，但是其对于输入数据有着极高的处理要求，如干净的背景、序列对齐、行人轮廓分割提取等等，这些在复杂的实际监控场景下都难以实现。而针对行人重识别任务中来源于实际监控场景采样的图片，由于复杂的背景、行人检测算法的失误等因素，几乎难以将现有的步态识别算法直接应用到行人重识别任务中去。

此外，现有的特征提取网络，无论是基于多张图片还是视频序列，都能够较好的完成行人外观信息的提取，然而这些信息依然缺少明确的语义特性，同时一些重要的线索也可能因此而被忽略。而人体属性学习在近年来已被证明对于行人重识别任务中外观信息和中层语义信息的提取有着极大的帮助。然而大部分相关工作都仅基于单静态图片而非视频数据。主要的原因有以下两个方面，第一，有些属性由于遮挡和姿态的变化可能仅出现在特定帧中，因此如何定义视频序列级别的属性标签较为困难；第二，现在还没有大规模的基于视频的行人数据集包含属性标签，利用人工标注将会耗费巨大的人力财力。

针对上述现有的基于视频的行人重识别算法中存在的不足，以及属性学习和步态信息对于行人身份判别能力的提升，有必要进行研究，以提供一种方案，更好更充分的利用行走视频中包含的外观和步态信息，提升行人特征提取主干网络的特征提取能力，进而提升行人重识别的性能。

发明内容

为解决上述问题，本发明的目的在于提供了一种基于视频的外观和运动信息同步增强的行人重识别方法。该方法采用深度神经网络模型，利用属性学习和步态预测对行人特征提取主干网络中的外观信息和运动信息进行增强，解决了现有方法中行人特征提取主干网络对于视频数据信息利用不充分的问题，充分提升主干网络特征提取和行人重识别的性能。

为实现上述目的，本发明的技术方案为：一种基于视频的外观和运动信息同步增强的行人重识别方法。该方法为：一种基于视频的外观和运动信息同步增强的行人重识别算法，其特征在于，对于从一段长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S＝{I₁,I₂,…,I_T}，对其进行以下步骤处理：

步骤1：构建用于训练的特征提取网络：所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络(Backbone Network)，由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM，由卷积深度神经网络构成的运动增强模块MEM，一层全局均值池化层和与其连接的全连接层；所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。

步骤2：将行人图像序列S送入行人特征提取主干网络进行特征提取，生成主干特征图(Backbone Feature Map)BF。将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入，其中，外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值p_i，运动增强模块MEM的输出为运动特征图(Backbone Feature)f_M。全连接层的输出为身份类别预测概率。对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练，利用行人外观属性信息提升主干特征图中的外观信息，并利用行人步态信息提升主干特征图中的运动信息，利用主干特征图BF通过全局均值池化层获得主干特征f_s。

步骤3：训练完成后，去除外观增强模块AEM和运动增强模块MEM，保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。

步骤4：在重识别过程中，将行人图像序列S输入步骤3得到的测试用特征提取网络，得到主干特征f_s，通过计算两个行人图像序列主干特征f_s的欧式距离作为相似性判断身份是否相同。

进一步地，所述步骤2中，对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM进行共同训练，共同训练的目标函数为：L＝L_id+L_tri+λ_AL_AEM+λ_ＭL_MEM；其中，λ_A,λ_M是权重参数，行人身份分类损失L_id、三元组约束L_tri作用于主干特征f_s，行人属性分类损失L_AEM是外观增强模块AEM的目标函数。均方误差损失L_MEM是运动增强模块MEM的目标函数。上述三个网络模块利用各自的目标函数进行优化，优化时各模块梯度信息均回传至行人特征提取主干网络，对行人特征提取主干网络优化更新，实现端到端的共同训练优化。

进一步地，所述外观增强模块AEM采用行人属性分类损失L_AEM进行监督训练，通过以下方法得到：

(2.1.1)将主干特征图BF送入到外观增强模块AEM，得到行人图像序列S中每种属性i出现概率的预测值p_i；

(2.1.2)对每种属性i，利用属性伪标签

进行二值交叉熵损失目标函数计算和训练以增强行人外观信息，即行人属性分类损失

其中N为行人属性的种类数，p_i为每种属性i出现概率的预测值。

进一步地，所述的属性伪标签，通过以下方法得到：

(a)构建行人属性识别模型ARM：通过使用包含行人属性标注的大型行人图片数据集训练一个鲁棒的基于图片的行人属性识别模型ARM。

(b)利用行人属性识别模型ARM对行人图像序列S中的每一帧I_t进行对某一属性的分类值预测。

(c)对行人图像序列S中的T帧行人图片的分类预测值取平均，作为整个行人图像序列S对该种属性的预测值。

(d)如果该预测值大于0.5，则将行人图像序列S的该属性伪标签设置为1，否则设置为0。

(e)重复此方法N次，得到N个属性对应的属性伪标签

进一步地，(a)中所述的行人属性识别模型ARM采用ResNet-50结构，所述包含行人属性标注的大型行人图片数据集选用公开的PETA数据集。

进一步地，所述运动增强模块MEM采用均方误差损失L_MEM进行监督，通过以下方法得到：

(2.2.1)将主干特征图BF送入到运动增强模块MEM，得到运动特征图f_M。

(2.2.2)利用运动特征图(Motion Feature Map)f_M，结合行人纹理特征f_tex进行后几帧行人步态预测，通过最小化预测图像跟真实图像的均方误差进行训练优化，从而提取和增强行人的步态及运动信息。

进一步地，(2.2.2)中所述的结合行人纹理特征图(Texture Feature Map)f_tex进行后几帧行人步态预测，通过以下方法得到：

(2.2.2.1)利用自编码器网络，采用大型公开行人数据集Market-1501训练一个行人纹理特征提取模型TAE，其中自编码器网络中编码器的输出为行人纹理特征图，解码器的输出为输入图像的重构图像。

(2.2.2.2)随机选取行人图像序列S中的一帧行人图像I_t，送入TAE提取纹理特征图

然后和运动特征图f_M共同送入一个两层卷积网络，预测下一帧纹理特征图

再将

送入TAE的解码器获得下一帧行人图像

通过最小化预测图像跟真实图像的均方误差进行训练优化，即均方误差损失

(2.2.2.3)以预测得到的下一帧行人图像

作为输入，采用步骤(2.2.2.2)的方法进一步预测下二帧纹理特征图，连续操作得到预测的连续c帧行人图像，通过最小化每帧预测图像与该帧真实图像的均方误差进行进一步训练优化。

本发明的有益效果是：

(1)本发明通过利用现有的大规模行人属性数据集训练得到的属性识别模型，为大规模行人视频数据集提供了属性伪标签，从而提升行人特征提取主干网络的外观和语义信息提取能力，提升行人重识别性能。

(2)利用视频预测模型预测行人步态信息，增强行人特征提取主干网络中的具有身份判别力的步态信息特征提取，提升行人重识别性能。

(3)在测试和实际应用时仅需保留行人特征提取主干网络，无需增加网络复杂度和模型大小，就能够获得更高的行人重识别性能。

附图说明

图1为本发明实施例的基于视频的外观和运动信息同步增强的行人重识别方法的步骤流程图；

图2为本发明实施例的基于视频的外观和运动信息同步增强的行人重识别方法的行人步态预测示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

图1所示为本发明实施例的基于视频的外观和运动信息同步增强的行人重识别方法的步骤流程图。

对于从一段长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S＝{I₁,I₂,…,I_T}，对其进行以下步骤处理：

1.首先，构建用于训练的特征提取网络：所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络(Backbone Network)、由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM，由卷积深度神经网络构成的运动增强模块MEM，一层全局均值池化层和与其连接的全连接层；所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。

2.将行人图像序列S送入行人特征提取主干网络进行特征提取，生成主干特征图(Backbone Feature Map)BF。以I3D卷积神经网络作为行人特征提取主干网络为例，输入序列S首先通过多个3D卷积网络层后输出大小为T′×C×H×W的主干特征图BF，将主干特征图BF送入一个全局均值池化层获得一个主干特征(Backbone Feature)f_S，全局均值池化层后连接一层全连接层，用于输出行人图像的身份类别预测概率，该特征用于最终的重识别的损失函数计算和训练，测试时主干特征f_S用于特征相似度计算。此外，将主干特征图BF作为外观增强模块AEM、运动增强模块MEM的输入，对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练，利用行人外观属性信息提升主干特征图中的外观信息，并利用行人步态信息提升主干特征图中的运动信息。

具体地，主干特征f_S利用行人重识别任务进行监督训练，由身份交叉熵损失和三元组约束损失组成，如式(1)(2)所示。外观增强模块AEM和运动增强模块MEM分别由L_AEM和L_MEM进行监督训练，因此整个方法的目标函数由式(3)所示：

L＝L_id+L_tri+λ_AL_AEM+λ_ML_MEM (3)

其中y_j,q_j分别为每个样本的目标身份类别以及网络对该类别的预测概率；M,K分别为一个训练批次中样本和三元组样本的数量，三元组由一个样本和一个与其身份相同的正样本和一个身份不同的负样本组成；

分别表示正样本对和负样本对之间的特征欧式距离；[*]₊为铰链损失函数；λ_A,λ_M为各目标函数的权重参数，由网络训练效果决定，λ_A为0.1，λ_M为10；g为常数参数，实际设定为0.2。

上述外观增强模块AEM采用行人属性分类损失L_AEM进行监督训练，具体地：

(2.1.2)对每种属性i，利用属性伪标签

进行二值交叉熵损失目标函数计算和训练以增强行人外观信息，即行人属性分类损失。如式(4)所示。

其中N为行人属性的种类数，p_i为属性i出现概率的预测值。属性伪标签

获取的具体步骤如下：

步骤1：构建基于图像的属性识别模型ARM：在包含行人属性标注的大型行人图片数据库上训练一个鲁棒的基于图片的行人属性识别模型ARM。我们选用PETA数据集来进行训练，ARM的结构采用ResNet-50结构，PETA数据集中共包含N＝105种属性，因此对ARM的特征设计对应的105个属性分类器，采用二值交叉熵损失进行监督学习，其损失函数如式(5)所示。

其中l_i为PETA数据集中每个样本第i种属性的真值标签，p_i为行人属性识别模型ARM对该属性的分类值预测。

步骤2：利用行人属性识别模型ARM对行人图像序列S的每一帧I_t进行对某一属性的分类值预测。

步骤3：将行人图像序列S中的T张行人图片的分类预测值取平均，作为整个行人图像序列S对该种属性的预测值。

步骤4：如果该预测值大于0.5，则将行人图像序列S的该属性伪标签设置为1，否则设置为0。

步骤5：重复此方法N次，得到N个属性对应的属性伪标签

上述运动增强模块MEM采用均方误差损失L_MEM进行监督，具体地：

(2.2.2)利用运动特征图(Motion Feature Map)f_M，结合行人纹理特征f_tex进行后几帧行人步态预测，通过最小化预测图像跟真实图像的均方误差进行训练优化，从而提取和增强行人的步态及运动信息。其中行人步态预测具体包括如下步骤：

步骤1：利用自编码器网络，在大型行人数据集上训练一个行人纹理特征提取模型TAE，自编码器网络中编码器的输出作为行人纹理特征图(Texture Feature Map)f_tex。我们采用Market-1501行人数据集来训练TAE，TAE的编码器采用ResNet-50网络，解码器采用4层转置卷积网络。解码器的输出为输入图像的重构图像。

步骤2：随机选取行人图像序列S中的一帧行人图像I_t，送入TAE提取纹理特征图

然后和运动特征图f_M在通道上进行串联后送入一个两层卷积网络，预测下一帧纹理特征图

将

送入TAE的解码器获得下一帧行人图像

与真实的该帧行人图像I_t+1进行对比，通过最小化预测图像跟真实图像的均方误差进行训练优化，如式(6)所示。

步骤3：以预测得到的下一帧行人图像

作为输入，采用步骤2的方法进一步预测下二帧纹理特征图，连续操作得到预测的连续c帧行人图像，通过最小化每帧预测图像与该帧真实图像的均方误差进行进一步训练优化。考虑到平衡时间和空间复杂度，以及网络需要通过连续预测多帧才能较好的捕捉到行走步态信息，我们此处设置c＝3。图2为即为本实例得到的行人步态预测示意图，可以看出所设计的运动增强模块MEM能够成功的对未来帧进行预测，且不同的行人根据其行走步态不同得到了与其对应的行走预测图，从而成功提取到具有身份判别力的行人的步态运动信息。

上述三个网络模块利用各自的目标函数进行优化，由于AEM和MEM均对主干特征图BF进行优化，因此在整个框架优化时各模块梯度信息均会回传至行人特征提取主干网络，从而实现整个框架端到端的共同训练优化。

3.训练完成后，去除外观增强模块AEM和运动增强模块MEM，保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。

4.将行人图像序列S输入测试用特征提取网络，得到主干特征f_s。在重识别过程中，通过计算两个行人图像序列主干特征f_s的欧式距离作为相似性判断身份是否相同，通常欧式距离越小，两个行人图像序列属于同一身份行人的概率越高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的外观和运动信息同步增强的行人重识别方法，其特征在于，包括以下步骤：

步骤1：从长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S＝{I₁,I₂,…,I_T}；

步骤2：构建用于训练的特征提取网络：所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络，由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM，由卷积深度神经网络构成的运动增强模块MEM，一层全局均值池化层和与其连接的全连接层；所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接；

步骤3：将行人图像序列S送入行人特征提取主干网络进行特征提取，生成主干特征图BF；将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入，其中，外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值p_i，运动增强模块MEM的输出为运动特征图f_M；全连接层的输出为身份类别预测概率；对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练，利用行人外观属性信息提升主干特征图中的外观信息，并利用行人步态信息提升主干特征图中的运动信息，利用主干特征图BF通过全局均值池化层获得主干特征f_s；共同训练的目标函数为：L＝L_id+L_tri+λ_AL_AEM+λ_ML_MEM；其中，λ_A,λ_M是权重参数,为正数，行人身份分类损失L_id、三元组约束L_tri作用于主干特征f_s，行人属性分类损失L_AEM是外观增强模块AEM的目标函数；均方误差损失L_MEM是运动增强模块MEM的目标函数；上述三个网络模块利用各自的目标函数进行优化，优化时各模块梯度信息均回传至行人特征提取主干网络，对行人特征提取主干网络优化更新，实现端到端的共同训练优化；

步骤4：训练完成后，去除外观增强模块AEM和运动增强模块MEM，保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络；

步骤5：在重识别过程中，将行人图像序列S输入步骤4得到的测试用特征提取网络，得到主干特征f_s，通过计算两个行人图像序列主干特征f_s的欧式距离作为相似性判断身份是否相同。

2.根据权利要求1所述的方法，其特征在于，外观增强模块AEM采用行人属性分类损失L_AEM进行监督训练具体包括如下步骤：

(2.1.2)对每种属性i，利用属性伪标签