[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111259786B - 一种基于视频的外观和运动信息同步增强的行人重识别方法 - Google Patents

一种基于视频的外观和运动信息同步增强的行人重识别方法 Download PDF

Info

Publication number
CN111259786B
CN111259786B CN202010038990.3A CN202010038990A CN111259786B CN 111259786 B CN111259786 B CN 111259786B CN 202010038990 A CN202010038990 A CN 202010038990A CN 111259786 B CN111259786 B CN 111259786B
Authority
CN
China
Prior art keywords
pedestrian
attribute
enhancement module
appearance
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010038990.3A
Other languages
English (en)
Other versions
CN111259786A (zh
Inventor
于慧敏
李殊昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010038990.3A priority Critical patent/CN111259786B/zh
Publication of CN111259786A publication Critical patent/CN111259786A/zh
Application granted granted Critical
Publication of CN111259786B publication Critical patent/CN111259786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于视频的外观和运动信息同步增强的行人重识别方法,训练时通过外观增强模块AEM、运动增强模块MEM两个模块分别增强主干网络中的行人外观和运动信息。外观增强模块AEM利用现有的大规模行人属性数据集训练得到的属性识别模型,为大规模行人视频数据集提供了属性伪标签,通过属性学习增强外观及语义信息;运动增强模块MEM通过利用视频预测模型预测行人步态信息,增强行人特征提取主干网络中的具有身份判别力的步态信息特征,提升行人重识别性能。实际应用时仅需保留行人特征提取主干网络,无需增加网络复杂度和模型大小,就能够获得更高的行人重识别性能。增强后的主干网络特征在基于视频的行人重识别任务中获得了更高的准确率。

Description

一种基于视频的外观和运动信息同步增强的行人重识别方法
技术领域
本发明属于智能识别技术领域,特别地涉及一种基于视频的外观和运动信息同步增强的行人重识别方法。在算法设计和模型训练部分涉及了深度学习技术。
背景技术
行人重识别的任务是在于摄像机A不存在重叠区域的摄像机B中,对行人目标进行检索,重新找到在摄像机A中出现的行人目标。作为当前重要的研究方向和研究热点,行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用,例如跨摄像机的行人跟踪与行为分析,嫌疑或感兴趣人员的图片检索与查询等。
随着深度学习的迅速发展,越来越多的研究者采用深度神经网络来解决行人重识别的问题。而当前研究较多并且获得较高性能的主要集中于基于静态图片的行人重识别领域,它基于一张框选并截取出的静态行人图片进行特征提取,然后在候选集中进行特征匹配和相似度排序,完成检索重识别的任务。然而基于静态图片的行人重识别有较多局限性。第一,单张静态图片对于姿态变化、遮挡等影响因素非常敏感,第二,每个人的行走特性和步态都具有其身份独特性,使用单张静态图片无法捕捉到这种具有身份识别特性的步态特征。因此,越来越多的人开始将关注点放到基于视频的行人重识别方向中来。
利用视频数据作为研究对象主要有以下几个优势。第一,视频数据更易从视频监控中获取,也更符合实际应用的场景;第二,视频数据中的多张图片能够较好的应对姿态变化、遮挡、光照等带来的影响;最后,视频中包含丰富的外观和运动信息,能够从多个方面提取具有身份判别力的信息,例如行人的行走步态特征。
当前基于视频的行人重识别算法主要分为两大类,一类是将视频看做多张图片,即基于多图片的算法,另一类是直接对视频数据进行处理,即基于视频的算法。对于基于多图片的算法,主要利用了注意力模型来完成多张图片特征融合为整个视频序列层级特征的过程。利用注意力模型给每张图片分配一个重要性得分,根据重要性得分将多张图片进行加权组合,获得最终的特征。这类方法易于实现、占用时间和内存相对较少,然而却忽略了视频数据所能够提供的最重要的信息,即运动信息。对于基于视频的算法,很多视频分析的通用结构都被集成到了行人重识别系统中,例如光流学习,3D卷积神经网络,RNN等等。尽管这些对于时序特征提取和动作识别都有着较强的能力,但是由于行人重识别数据中仅包含一类运动类别,即行走,此时行走模式和步态中的微小差别如果没有对网络的特别设计,则很难很好的进行特征提取。近年来较为流行的步态识别虽然能够依据步态识别身份,但是其对于输入数据有着极高的处理要求,如干净的背景、序列对齐、行人轮廓分割提取等等,这些在复杂的实际监控场景下都难以实现。而针对行人重识别任务中来源于实际监控场景采样的图片,由于复杂的背景、行人检测算法的失误等因素,几乎难以将现有的步态识别算法直接应用到行人重识别任务中去。
此外,现有的特征提取网络,无论是基于多张图片还是视频序列,都能够较好的完成行人外观信息的提取,然而这些信息依然缺少明确的语义特性,同时一些重要的线索也可能因此而被忽略。而人体属性学习在近年来已被证明对于行人重识别任务中外观信息和中层语义信息的提取有着极大的帮助。然而大部分相关工作都仅基于单静态图片而非视频数据。主要的原因有以下两个方面,第一,有些属性由于遮挡和姿态的变化可能仅出现在特定帧中,因此如何定义视频序列级别的属性标签较为困难;第二,现在还没有大规模的基于视频的行人数据集包含属性标签,利用人工标注将会耗费巨大的人力财力。
针对上述现有的基于视频的行人重识别算法中存在的不足,以及属性学习和步态信息对于行人身份判别能力的提升,有必要进行研究,以提供一种方案,更好更充分的利用行走视频中包含的外观和步态信息,提升行人特征提取主干网络的特征提取能力,进而提升行人重识别的性能。
发明内容
为解决上述问题,本发明的目的在于提供了一种基于视频的外观和运动信息同步增强的行人重识别方法。该方法采用深度神经网络模型,利用属性学习和步态预测对行人特征提取主干网络中的外观信息和运动信息进行增强,解决了现有方法中行人特征提取主干网络对于视频数据信息利用不充分的问题,充分提升主干网络特征提取和行人重识别的性能。
为实现上述目的,本发明的技术方案为:一种基于视频的外观和运动信息同步增强的行人重识别方法。该方法为:一种基于视频的外观和运动信息同步增强的行人重识别算法,其特征在于,对于从一段长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S={I1,I2,…,IT},对其进行以下步骤处理:
步骤1:构建用于训练的特征提取网络:所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络(Backbone Network),由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM,由卷积深度神经网络构成的运动增强模块MEM,一层全局均值池化层和与其连接的全连接层;所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。
步骤2:将行人图像序列S送入行人特征提取主干网络进行特征提取,生成主干特征图(Backbone Feature Map)BF。将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入,其中,外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值pi,运动增强模块MEM的输出为运动特征图(Backbone Feature)fM。全连接层的输出为身份类别预测概率。对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练,利用行人外观属性信息提升主干特征图中的外观信息,并利用行人步态信息提升主干特征图中的运动信息,利用主干特征图BF通过全局均值池化层获得主干特征fs
步骤3:训练完成后,去除外观增强模块AEM和运动增强模块MEM,保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。
步骤4:在重识别过程中,将行人图像序列S输入步骤3得到的测试用特征提取网络,得到主干特征fs,通过计算两个行人图像序列主干特征fs的欧式距离作为相似性判断身份是否相同。
进一步地,所述步骤2中,对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM进行共同训练,共同训练的目标函数为:L=Lid+LtriALAEMLMEM;其中,λAM是权重参数,行人身份分类损失Lid、三元组约束Ltri作用于主干特征fs,行人属性分类损失LAEM是外观增强模块AEM的目标函数。均方误差损失LMEM是运动增强模块MEM的目标函数。上述三个网络模块利用各自的目标函数进行优化,优化时各模块梯度信息均回传至行人特征提取主干网络,对行人特征提取主干网络优化更新,实现端到端的共同训练优化。
进一步地,所述外观增强模块AEM采用行人属性分类损失LAEM进行监督训练,通过以下方法得到:
(2.1.1)将主干特征图BF送入到外观增强模块AEM,得到行人图像序列S中每种属性i出现概率的预测值pi
(2.1.2)对每种属性i,利用属性伪标签
Figure BDA0002367054820000031
进行二值交叉熵损失目标函数计算和训练以增强行人外观信息,即行人属性分类损失
Figure BDA0002367054820000032
其中N为行人属性的种类数,pi为每种属性i出现概率的预测值。
进一步地,所述的属性伪标签,通过以下方法得到:
(a)构建行人属性识别模型ARM:通过使用包含行人属性标注的大型行人图片数据集训练一个鲁棒的基于图片的行人属性识别模型ARM。
(b)利用行人属性识别模型ARM对行人图像序列S中的每一帧It进行对某一属性的分类值预测。
(c)对行人图像序列S中的T帧行人图片的分类预测值取平均,作为整个行人图像序列S对该种属性的预测值。
(d)如果该预测值大于0.5,则将行人图像序列S的该属性伪标签设置为1,否则设置为0。
(e)重复此方法N次,得到N个属性对应的属性伪标签
Figure BDA0002367054820000041
进一步地,(a)中所述的行人属性识别模型ARM采用ResNet-50结构,所述包含行人属性标注的大型行人图片数据集选用公开的PETA数据集。
进一步地,所述运动增强模块MEM采用均方误差损失LMEM进行监督,通过以下方法得到:
(2.2.1)将主干特征图BF送入到运动增强模块MEM,得到运动特征图fM
(2.2.2)利用运动特征图(Motion Feature Map)fM,结合行人纹理特征ftex进行后几帧行人步态预测,通过最小化预测图像跟真实图像的均方误差进行训练优化,从而提取和增强行人的步态及运动信息。
进一步地,(2.2.2)中所述的结合行人纹理特征图(Texture Feature Map)ftex进行后几帧行人步态预测,通过以下方法得到:
(2.2.2.1)利用自编码器网络,采用大型公开行人数据集Market-1501训练一个行人纹理特征提取模型TAE,其中自编码器网络中编码器的输出为行人纹理特征图,解码器的输出为输入图像的重构图像。
(2.2.2.2)随机选取行人图像序列S中的一帧行人图像It,送入TAE提取纹理特征图
Figure BDA0002367054820000042
然后和运动特征图fM共同送入一个两层卷积网络,预测下一帧纹理特征图
Figure BDA0002367054820000043
再将
Figure BDA0002367054820000044
送入TAE的解码器获得下一帧行人图像
Figure BDA0002367054820000045
通过最小化预测图像跟真实图像的均方误差进行训练优化,即均方误差损失
Figure BDA0002367054820000046
(2.2.2.3)以预测得到的下一帧行人图像
Figure BDA0002367054820000047
作为输入,采用步骤(2.2.2.2)的方法进一步预测下二帧纹理特征图,连续操作得到预测的连续c帧行人图像,通过最小化每帧预测图像与该帧真实图像的均方误差进行进一步训练优化。
本发明的有益效果是:
(1)本发明通过利用现有的大规模行人属性数据集训练得到的属性识别模型,为大规模行人视频数据集提供了属性伪标签,从而提升行人特征提取主干网络的外观和语义信息提取能力,提升行人重识别性能。
(2)利用视频预测模型预测行人步态信息,增强行人特征提取主干网络中的具有身份判别力的步态信息特征提取,提升行人重识别性能。
(3)在测试和实际应用时仅需保留行人特征提取主干网络,无需增加网络复杂度和模型大小,就能够获得更高的行人重识别性能。
附图说明
图1为本发明实施例的基于视频的外观和运动信息同步增强的行人重识别方法的步骤流程图;
图2为本发明实施例的基于视频的外观和运动信息同步增强的行人重识别方法的行人步态预测示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
图1所示为本发明实施例的基于视频的外观和运动信息同步增强的行人重识别方法的步骤流程图。
对于从一段长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S={I1,I2,…,IT},对其进行以下步骤处理:
1.首先,构建用于训练的特征提取网络:所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络(Backbone Network)、由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM,由卷积深度神经网络构成的运动增强模块MEM,一层全局均值池化层和与其连接的全连接层;所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。
2.将行人图像序列S送入行人特征提取主干网络进行特征提取,生成主干特征图(Backbone Feature Map)BF。以I3D卷积神经网络作为行人特征提取主干网络为例,输入序列S首先通过多个3D卷积网络层后输出大小为T′×C×H×W的主干特征图BF,将主干特征图BF送入一个全局均值池化层获得一个主干特征(Backbone Feature)fS,全局均值池化层后连接一层全连接层,用于输出行人图像的身份类别预测概率,该特征用于最终的重识别的损失函数计算和训练,测试时主干特征fS用于特征相似度计算。此外,将主干特征图BF作为外观增强模块AEM、运动增强模块MEM的输入,对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练,利用行人外观属性信息提升主干特征图中的外观信息,并利用行人步态信息提升主干特征图中的运动信息。
具体地,主干特征fS利用行人重识别任务进行监督训练,由身份交叉熵损失和三元组约束损失组成,如式(1)(2)所示。外观增强模块AEM和运动增强模块MEM分别由LAEM和LMEM进行监督训练,因此整个方法的目标函数由式(3)所示:
Figure BDA0002367054820000061
Figure BDA0002367054820000062
L=Lid+LtriALAEMMLMEM (3)
其中yj,qj分别为每个样本的目标身份类别以及网络对该类别的预测概率;M,K分别为一个训练批次中样本和三元组样本的数量,三元组由一个样本和一个与其身份相同的正样本和一个身份不同的负样本组成;
Figure BDA0002367054820000063
分别表示正样本对和负样本对之间的特征欧式距离;[*]+为铰链损失函数;λAM为各目标函数的权重参数,由网络训练效果决定,λA为0.1,λM为10;g为常数参数,实际设定为0.2。
上述外观增强模块AEM采用行人属性分类损失LAEM进行监督训练,具体地:
(2.1.1)将主干特征图BF送入到外观增强模块AEM,得到行人图像序列S中每种属性i出现概率的预测值pi
(2.1.2)对每种属性i,利用属性伪标签
Figure BDA0002367054820000064
进行二值交叉熵损失目标函数计算和训练以增强行人外观信息,即行人属性分类损失。如式(4)所示。
Figure BDA0002367054820000065
其中N为行人属性的种类数,pi为属性i出现概率的预测值。属性伪标签
Figure BDA0002367054820000066
获取的具体步骤如下:
步骤1:构建基于图像的属性识别模型ARM:在包含行人属性标注的大型行人图片数据库上训练一个鲁棒的基于图片的行人属性识别模型ARM。我们选用PETA数据集来进行训练,ARM的结构采用ResNet-50结构,PETA数据集中共包含N=105种属性,因此对ARM的特征设计对应的105个属性分类器,采用二值交叉熵损失进行监督学习,其损失函数如式(5)所示。
Figure BDA0002367054820000067
其中li为PETA数据集中每个样本第i种属性的真值标签,pi为行人属性识别模型ARM对该属性的分类值预测。
步骤2:利用行人属性识别模型ARM对行人图像序列S的每一帧It进行对某一属性的分类值预测。
步骤3:将行人图像序列S中的T张行人图片的分类预测值取平均,作为整个行人图像序列S对该种属性的预测值。
步骤4:如果该预测值大于0.5,则将行人图像序列S的该属性伪标签设置为1,否则设置为0。
步骤5:重复此方法N次,得到N个属性对应的属性伪标签
Figure BDA0002367054820000071
上述运动增强模块MEM采用均方误差损失LMEM进行监督,具体地:
(2.2.1)将主干特征图BF送入到运动增强模块MEM,得到运动特征图fM
(2.2.2)利用运动特征图(Motion Feature Map)fM,结合行人纹理特征ftex进行后几帧行人步态预测,通过最小化预测图像跟真实图像的均方误差进行训练优化,从而提取和增强行人的步态及运动信息。其中行人步态预测具体包括如下步骤:
步骤1:利用自编码器网络,在大型行人数据集上训练一个行人纹理特征提取模型TAE,自编码器网络中编码器的输出作为行人纹理特征图(Texture Feature Map)ftex。我们采用Market-1501行人数据集来训练TAE,TAE的编码器采用ResNet-50网络,解码器采用4层转置卷积网络。解码器的输出为输入图像的重构图像。
步骤2:随机选取行人图像序列S中的一帧行人图像It,送入TAE提取纹理特征图
Figure BDA0002367054820000072
然后和运动特征图fM在通道上进行串联后送入一个两层卷积网络,预测下一帧纹理特征图
Figure BDA0002367054820000073
Figure BDA0002367054820000074
送入TAE的解码器获得下一帧行人图像
Figure BDA0002367054820000075
与真实的该帧行人图像It+1进行对比,通过最小化预测图像跟真实图像的均方误差进行训练优化,如式(6)所示。
Figure BDA0002367054820000076
步骤3:以预测得到的下一帧行人图像
Figure BDA0002367054820000077
作为输入,采用步骤2的方法进一步预测下二帧纹理特征图,连续操作得到预测的连续c帧行人图像,通过最小化每帧预测图像与该帧真实图像的均方误差进行进一步训练优化。考虑到平衡时间和空间复杂度,以及网络需要通过连续预测多帧才能较好的捕捉到行走步态信息,我们此处设置c=3。图2为即为本实例得到的行人步态预测示意图,可以看出所设计的运动增强模块MEM能够成功的对未来帧进行预测,且不同的行人根据其行走步态不同得到了与其对应的行走预测图,从而成功提取到具有身份判别力的行人的步态运动信息。
上述三个网络模块利用各自的目标函数进行优化,由于AEM和MEM均对主干特征图BF进行优化,因此在整个框架优化时各模块梯度信息均会回传至行人特征提取主干网络,从而实现整个框架端到端的共同训练优化。
3.训练完成后,去除外观增强模块AEM和运动增强模块MEM,保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。
4.将行人图像序列S输入测试用特征提取网络,得到主干特征fs。在重识别过程中,通过计算两个行人图像序列主干特征fs的欧式距离作为相似性判断身份是否相同,通常欧式距离越小,两个行人图像序列属于同一身份行人的概率越高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于视频的外观和运动信息同步增强的行人重识别方法,其特征在于,包括以下步骤:
步骤1:从长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S={I1,I2,…,IT};
步骤2:构建用于训练的特征提取网络:所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络,由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM,由卷积深度神经网络构成的运动增强模块MEM,一层全局均值池化层和与其连接的全连接层;所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接;
步骤3:将行人图像序列S送入行人特征提取主干网络进行特征提取,生成主干特征图BF;将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入,其中,外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值pi,运动增强模块MEM的输出为运动特征图fM;全连接层的输出为身份类别预测概率;对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练,利用行人外观属性信息提升主干特征图中的外观信息,并利用行人步态信息提升主干特征图中的运动信息,利用主干特征图BF通过全局均值池化层获得主干特征fs;共同训练的目标函数为:L=Lid+LtriALAEMMLMEM;其中,λAM是权重参数,为正数,行人身份分类损失Lid、三元组约束Ltri作用于主干特征fs,行人属性分类损失LAEM是外观增强模块AEM的目标函数;均方误差损失LMEM是运动增强模块MEM的目标函数;上述三个网络模块利用各自的目标函数进行优化,优化时各模块梯度信息均回传至行人特征提取主干网络,对行人特征提取主干网络优化更新,实现端到端的共同训练优化;
步骤4:训练完成后,去除外观增强模块AEM和运动增强模块MEM,保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络;
步骤5:在重识别过程中,将行人图像序列S输入步骤4得到的测试用特征提取网络,得到主干特征fs,通过计算两个行人图像序列主干特征fs的欧式距离作为相似性判断身份是否相同。
2.根据权利要求1所述的方法,其特征在于,外观增强模块AEM采用行人属性分类损失LAEM进行监督训练具体包括如下步骤:
(2.1.1)将主干特征图BF送入到外观增强模块AEM,得到行人图像序列S中每种属性i出现概率的预测值pi
(2.1.2)对每种属性i,利用属性伪标签
Figure FDA0003530761180000021
进行二值交叉熵损失目标函数计算和训练以增强行人外观信息,即行人属性分类损失
Figure FDA0003530761180000022
其中N为行人属性的种类数,pi为每种属性i出现概率的预测值。
3.根据权利要求2所述的方法,其特征在于,(2.1.2)中所述的属性伪标签,通过以下方法得到:
(a)构建行人属性识别模型ARM:通过使用包含行人属性标注的大型行人图片数据集训练一个鲁棒的基于图片的行人属性识别模型ARM;
(b)利用行人属性识别模型ARM对行人图像序列S中的每一帧It进行对某一属性的分类值预测;
(c)对行人图像序列S中的T帧行人图片的分类预测值取平均,作为整个行人图像序列S对该种属性的预测值;
(d)如果该预测值大于0.5,则将行人图像序列S的该属性伪标签设置为1,否则设置为0;
(e)重复此方法N次,得到N个属性对应的属性伪标签
Figure FDA0003530761180000023
4.根据权利要求3所述的方法,其特征在于,所述步骤(a)中,行人属性识别模型ARM采用ResNet-50结构,所述包含行人属性标注的大型行人图片数据集选用公开的PETA数据集。
5.根据权利要求1所述的方法,其特征在于,运动增强模块MEM采用均方误差损失LMEM进行监督具体包括如下步骤:
(2.2.1)将主干特征图BF送入到运动增强模块MEM,得到运动特征图fM
(2.2.2)利用运动特征图fM,结合行人纹理特征ftex进行后几帧行人步态预测得到预测图像,通过最小化预测图像跟真实图像的均方误差进行训练优化,从而提取和增强行人的步态及运动信息。
6.根据权利要求5所述的方法,其特征在于,所述步骤(2.2.2)中,结合行人纹理特征图ftex进行后几帧行人步态预测,具体包括如下步骤:
(2.2.2.1)利用自编码器网络,采用大型公开行人数据集Market-1501训练一个行人纹理特征提取模型TAE,其中自编码器网络中编码器的输出为行人纹理特征图,解码器的输出为输入图像的重构图像;
(2.2.2.2)随机选取行人图像序列S中的一帧行人图像It,送入TAE提取纹理特征图
Figure FDA0003530761180000031
然后和运动特征图fM共同送入一个两层卷积网络,预测下一帧纹理特征图
Figure FDA0003530761180000032
再将
Figure FDA0003530761180000033
送入TAE的解码器获得下一帧行人图像
Figure FDA0003530761180000034
通过最小化预测图像跟真实图像的均方误差进行训练优化,即均方误差损失
Figure FDA0003530761180000035
(2.2.2.3)以预测得到的下一帧行人图像
Figure FDA0003530761180000036
作为输入,采用步骤(2.2.2.2)的方法进一步预测下二帧纹理特征图,连续操作得到预测的连续c帧行人图像,通过最小化每帧预测图像与该帧真实图像的均方误差进行进一步训练优化。
CN202010038990.3A 2020-01-14 2020-01-14 一种基于视频的外观和运动信息同步增强的行人重识别方法 Active CN111259786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010038990.3A CN111259786B (zh) 2020-01-14 2020-01-14 一种基于视频的外观和运动信息同步增强的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038990.3A CN111259786B (zh) 2020-01-14 2020-01-14 一种基于视频的外观和运动信息同步增强的行人重识别方法

Publications (2)

Publication Number Publication Date
CN111259786A CN111259786A (zh) 2020-06-09
CN111259786B true CN111259786B (zh) 2022-05-03

Family

ID=70948763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038990.3A Active CN111259786B (zh) 2020-01-14 2020-01-14 一种基于视频的外观和运动信息同步增强的行人重识别方法

Country Status (1)

Country Link
CN (1) CN111259786B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860291A (zh) * 2020-07-16 2020-10-30 上海交通大学 基于行人外观和步态信息的多模态行人身份识别方法和系统
CN111898736B (zh) * 2020-07-23 2022-07-05 武汉大学 基于属性感知的高效行人重识别方法
CN112069920B (zh) * 2020-08-18 2022-03-15 武汉大学 基于属性特征驱动聚类的跨域行人重识别方法
CN112084928B (zh) * 2020-09-04 2024-06-21 东南大学 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法
CN112132873A (zh) * 2020-09-24 2020-12-25 天津锋物科技有限公司 一种基于计算机视觉的多镜头行人识别与跟踪
CN112330711B (zh) * 2020-11-26 2023-12-05 北京奇艺世纪科技有限公司 模型生成方法、信息提取方法、装置及电子设备
CN112766057B (zh) * 2020-12-30 2022-05-13 浙江大学 一种面向复杂场景细粒度属性驱动的步态数据集合成方法
CN112926453B (zh) * 2021-02-26 2022-08-05 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN113052171B (zh) * 2021-03-24 2024-09-24 浙江工业大学 一种基于渐进式生成网络的医学图像增广方法
CN113111842B (zh) * 2021-04-26 2023-06-27 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN113450538A (zh) * 2021-06-28 2021-09-28 杭州电子科技大学 基于痛苦表情识别及跌倒行为检测的警示系统
CN113420697B (zh) * 2021-07-01 2022-12-09 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及系统
CN113807189B (zh) * 2021-08-20 2023-10-27 浙江大学自贡创新中心 一种基于人体部件学习和姿态重构的视频行人重识别方法
CN114120077B (zh) * 2022-01-27 2022-05-03 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114694171B (zh) * 2022-02-22 2023-10-10 电子科技大学 一种基于自监督模式特征增强的行人属性识别方法
CN114694175B (zh) * 2022-03-02 2024-02-27 西北工业大学 一种基于目标运动特性的视频行人重识别方法
CN116311002B (zh) * 2023-05-19 2023-08-11 武汉纺织大学 一种基于光流信息的无监督视频目标分割方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145826A (zh) * 2017-04-01 2017-09-08 浙江大学 基于双约束度量学习和样本重排序的行人再识别方法
CN107704838A (zh) * 2017-10-19 2018-02-16 北京旷视科技有限公司 目标对象的属性识别方法及装置
CN109165563A (zh) * 2018-07-27 2019-01-08 北京市商汤科技开发有限公司 行人再识别方法和装置、电子设备、存储介质、程序产品
CN109635636A (zh) * 2018-10-30 2019-04-16 国家新闻出版广电总局广播科学研究院 基于属性特征和加权的分块特征相融合的行人再识别方法
CN110046553A (zh) * 2019-03-21 2019-07-23 华中科技大学 一种融合属性特征的行人重识别模型、方法及系统
CN110245592A (zh) * 2019-06-03 2019-09-17 上海眼控科技股份有限公司 一种用于提升监控场景的行人重识别率的方法
CN110580460A (zh) * 2019-08-28 2019-12-17 西北工业大学 基于行人身份和属性特征联合识别验证的行人再识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396412B2 (en) * 2012-06-21 2016-07-19 Siemens Aktiengesellschaft Machine-learnt person re-identification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145826A (zh) * 2017-04-01 2017-09-08 浙江大学 基于双约束度量学习和样本重排序的行人再识别方法
CN107704838A (zh) * 2017-10-19 2018-02-16 北京旷视科技有限公司 目标对象的属性识别方法及装置
CN109165563A (zh) * 2018-07-27 2019-01-08 北京市商汤科技开发有限公司 行人再识别方法和装置、电子设备、存储介质、程序产品
CN109635636A (zh) * 2018-10-30 2019-04-16 国家新闻出版广电总局广播科学研究院 基于属性特征和加权的分块特征相融合的行人再识别方法
CN110046553A (zh) * 2019-03-21 2019-07-23 华中科技大学 一种融合属性特征的行人重识别模型、方法及系统
CN110245592A (zh) * 2019-06-03 2019-09-17 上海眼控科技股份有限公司 一种用于提升监控场景的行人重识别率的方法
CN110580460A (zh) * 2019-08-28 2019-12-17 西北工业大学 基于行人身份和属性特征联合识别验证的行人再识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Improving Person Re-identification by Attribute and Identity Learning";Yutian Lin.et al;《arXiv:1703.07220v3》;20190609;全文 *
"Attributes-aided Part Detection and Refinement for Person Re-identification";Shuzhao Li.et al;《arXiv:1902.10528v1》;20190227;全文 *
"基于字典学习和Fisher 判别稀疏表示的行人重识别方法";张见威等;《华南理工大学学报(自然科学版)》;20170731;第45卷(第7期);全文 *

Also Published As

Publication number Publication date
CN111259786A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Pal et al. Deep learning in multi-object detection and tracking: state of the art
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN108108657B (zh) 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111126360A (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Xia et al. A deep Siamese postclassification fusion network for semantic change detection
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113221641A (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
Chen et al. Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN111652035B (zh) 一种基于ST-SSCA-Net的行人重识别方法及系统
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
CN115841683A (zh) 一种联合多级特征的轻量行人重识别方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN109002808B (zh) 一种人体行为识别方法及系统
CN118314353B (zh) 一种基于双分支多尺度特征融合的遥感图像分割方法
CN113177511A (zh) 基于多数据流的旋转边框智能感知目标检测方法
CN118038494A (zh) 一种损坏场景鲁棒的跨模态行人重识别方法
CN114972434B (zh) 一种级联检测和匹配的端到端多目标跟踪系统
CN113298037B (zh) 一种基于胶囊网络的车辆重识别方法
CN115049894A (zh) 一种基于图学习的全局结构信息嵌入网络的目标重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant