CN114495163B

CN114495163B - 基于类别激活映射的行人重识别生成学习方法

Info

Publication number: CN114495163B
Application number: CN202210038244.3A
Authority: CN
Inventors: 毛莎莎; 李昂泽; 齐梦男; 缑水平; 焦昶哲; 焦李成; 何婧洁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2024-08-20
Anticipated expiration: 2042-01-13
Also published as: CN114495163A

Abstract

本发明公开一种基于类别激活映射的行人重识别生成学习方法，主要解决现有技术收集的数据集不平衡导致行人重识别模型性能差的问题。其方案为：建立行人重识别生成学习深度网络模型；1)从行人重识别基准数据集中读取行人图像；2)获取行人姿态特征信息；3)获取行人外观特征信息；4)通过3)进行行人重识别；5)通过2)和3)生成行人图像并计算类别激活映射损失；6)对生成图像在线进行行人重识别分类，并计算分类损失；7)对各损失进行反向传播；8)重复1)‑7)更新深度网络模型参数，直到损失函数值趋于稳定，完成行人重识别生成学习。本发明能生成高质量的行人图像，增强行人重识别网络的性能，可用于智能安保、智能行人追踪。

Description

基于类别激活映射的行人重识别生成学习方法

技术领域

本发明属于网络应用技术领域，更进一步涉及一种行人重识别生成学习方法，可用于智能安保、智能行人追踪。

背景技术

行人重识别技术在智能安保、智能行人追踪等方面具有广泛的应用。行人重识别常常被认为是图像检索下的子问题，其目的是寻找同一ID下的行人在不同摄像头下的一致性信息。在给定一个行人图像输入后，要求在数据库中找到该行人不同摄像头下的图像。由于摄像角度，光照，复杂背景环境等问题，来自于不同摄像头下的行人数据往往具有很大的类内差异性，因此提取出鲁棒于这些类内差异的特征表示是行人重识别的挑战之一。

卷积神经网络具有很强的特征提取能力，能够学习到目标在不同摄像头下的深度不变特征。Kaiming He等人在其发表的“Deep Residual Learning for ImageRecognition”(2016IEEE Conference on Computer Vision and Pattern Recognition；770-778，2016)论文中提出了残差网络，作为一种通用的卷积神经网络，残差网络的快捷连接分支在线性转换和非线性转换之间寻求到一种平衡，使网络性能远远优于其他网络模型，因此被广泛应用在行人重识别分类中。该方法的实施步骤是：根据数据集包含的行人类别数量修改网络结构的全连接层；初始化网络参数，并对训练集数据进行预测；根据预测结果计算损失函数进行反向传播，更新网络参数，直到训练完毕；在测试阶段，将网络在分类层前所提取的特征作为行人数据的特征表示；根据某种距离度量方法在数据库中进行特征匹配，并返回前几个最相似的行人数据作为结果。该方法所使用模型是数据驱动模型，当训练集中不同类别下数据数量不平衡时，模型学到的特征会带有偏见，从而降低数据较少的类别分类性能，无法满足现实应用需求。

Yixiao Ge等人在其发表的“FD-GAN:Pose-guided Feature Distilling GAN forRobust Person Re-identification”(Proceedings of the 32nd InternationalConference on Neural Information Processing Systems；1230-1241，2018)论文中提出了一种基于姿态特征提取的行人重识别生成模型，该方法的实施步骤是：从输入图像中提取图像特征信息和姿态特征信息；生成新的行人数据；将生成数据和原始数据输入到判别器中计算损失函数；使用图像特征信息进行行人重识别。该方法由于对图像特征的提取是通过特征提取器直接从整张图像中提取图像特征，因而生成的效果比较模糊和真实图像有较大的差距。

Zhedong Zheng等人在其发表的“Joint Discriminative and GenerativeLearning for Person Re-identification”(2019IEEE/CVF Conference on ComputerVision and Pattern Recognition；2133-2142，2019)论文中提出了一种联合生成与判别模型的行人重识别方法，该方法的实施步骤是：从输入图像中提取服装特征信息和结构特诊信息；利用外观特征进行分类；生成新的行人数据；将新生成数据输入到分类器中进行分类。该方法提取的结构特征包含该人物的体态、发型、首饰等类别强相关特征，而服装特征则只包含服装信息本身。在生成新数据时，通过简单的组合不同行人的服装与结构特征，生成图像的视觉效果更倾向于同一个行人变成了其他人的体态，即保留了其他行人的发型，首饰，身材等不随服装变换的身份特征，而非保留同一个行人的身份特征的同时变换不同服装。这一生成效果是反直觉的，也不是实际期望的，且简单的使用服装特征进行分类也损失了很多类别强相关特征，使得其生成结果难以推广应用到其他行人重识别网络中。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于类别激活映射的行人重识别生成学习方法，以生成高质量的预期图像，增强行人重识别网络的性能。

本发明的技术思路是：在联合生成与判别学习的框架下，通过将行人特征信息解耦为姿态信息、局部外观信息和全局外观信息，进行行人重识别分类，生成行人在任意姿态下的新图像；通过将新数据在线输入到行人重识别分类网络中，使得行人重识别的数据集达到平衡；通过共享外观信息将生成网络与重识别分类网络联合在一起，保证生成数据更好的支持分类任务；根据分类结果计算类别激活映射图反映出行人图像的判别性信息分布，根据行人图像的判别性信息分布设计损失函数，保证生成数据具有类内多样性，且与其他类别下的行人数据存在类间差异性。

根据上述思路，本发明的实现方案包括如下：

(1)建立行人重识别生成学习深度网络模型：

1a)建立依次由3个卷积层和2个残差块级联组成的姿态编码器E_p，随机初始化姿态编码器的网络参数；

1b)对Resnet50神经网络进行改进，建立全局外观编码器E_ag，即去掉Resnet50神经网络最后的池化层和Softmax层，构成全局外观编码器E_ag，分别初始化全局外观编码器E_ag

1c)对Resnet50神经网络进行改进，建立局部外观编码器E_al，即去掉Resnet50神经网络最后的池化层和Softmax层，并增加一个卷积层，构成局部外观编码器E_al，初始化局部外观编码器E_al的网络参数；

1d)建立依次由2个残差块和3个卷积层级联组成的解码器G，随机初始化网络参数；

1e)分别建立依次3个卷积层和3个残差块级联组成的姿态判别器D_p和外观判别器D_t，分别随机初始化姿态判别器D_p和外观判别器D_t的网络参数；

1f)建立由两层全连接层级联和一个softmax函数组成的行人重识别分类器，随机初始化网络参数；

(2)从行人重识别基准数据集中任意读取一张图像x_i作为源图像，并在与x_i同一类别下和不同类别下分别随机读取一张图像x_j和x_t作为两个目标图像；

(3)对行人姿态信息编码，获得姿态特征信息：

3a)对目标图像x_j和x_t的行姿态关键点进行提取，得到目标姿态关键点p_j和p_t；

3b)将目标姿态关键点p_j和p_t输入到1a)的姿态编码器中进行行人姿态信息编码，得到两张目标图像的姿态特征信息和

(4)获取全局的外观特征信息和局部的外观特征信息：

4a)将源图像x_i输入到全局外观编码器E_ag中进行行人图像编码，得到行人全局的外观特征信息

4b)利用已有的人体解析网络，将输入的源图像x_i分割为8个区域掩模m_i，用源图像x_i与这8个区域掩模分别相乘，得到源图像x_i的8个局部区域其中k∈[1,8]；

4c)将源图像x_i的8个局部区域输入到局部外观编码器E_al中进行人体解析编码，输出源图像x_i的8个局部区域的外观特征将该8个局部区域的外观特征级联，得到行人解析编码后的局部外观特征信息

(5)行人重识别：即将源图像x_i的全局外观特征输入到行人重识别分类器中，得到源图像x_i的分类结果，并计算分类结果的交叉熵损失L_i；

(6)行人图像生成：

6a)将源图像x_i的全局外观特征信息和局部外观特征信息进行级联，得到整体外观特征信息

6b)将整体外观特征信息和第一张目标图像的姿态特征信息同时输入到解码器G中，得到目标图像x_j的重建图像x_i,j；

6c)将整体外观特征信息和第二张目标图像的姿态特征信息同时输入到解码器G中，得到具有目标姿态的生成图像x_i,t；

6d)将重建图像x_i,j分别输入到姿态判别器D_p和外观判别器D_t中，得到姿态判别器D_p对重建图像x_i,j姿态真实度的判别结果和外观判别器D_t对重建图像x_i,j外观真实度的判别结果，分别计算这两个判别器对重建图像判别结果的生成对抗损失L_p和L_t；

6e)将生成图像x_i,t分别输入到姿态判别器D_p和外观判别器D_t中，得到姿态判别器D_p对生成图像x_i,t姿态真实度的判别结果和外观判别器D_t对生成图像x_i,t外观真实度的判别结果，分别计算这两个判别器对生成图像判别结果的生成对抗损失L_p'和L_t'；

6f)将目标图像x_j和x_t输入到1b)的全局外观编码器E_ag中，得到对应的全局外观信息和将该全局外观信息和输入到1f)中的分类器中，得到目标图像x_j和x_t的分类结果；

6g)基于6f)的分类结果，通过Grad-CAM方法，分别计算出目标图像x_j和x_t对应的类别激活映射图的像素值，得到类别激活映射图h_j和h_t；

6h)利用与6f)和6g)相同的方式，计算重建图像x_i,j和生成图像x_i,t的类别激活映射图h_i,j和h_i,t，并计算类别激活映射损失L_g；

(7)将生成图像x_i,t重新输入1b)的全局外观编码器E_ag中，得到生成图像x_i,t的全局外观特征信息再将该信息输入到1f)的行人重识别分类器中，得到生成图像x_i,t的分类结果，计算该分类结果的交叉熵损失L_i'；

(8)对(5)、6d)、6e)、6h)和(7)中得到的损失进行反向传播，分别更新姿态编码器E_p、全局外观编码器E_ag、局部外观编码器E_al、解码器G、姿态判别器D_p、外观判别器D_t中的参数，使得这些损失函数值尽量趋近于零；

(9)重复步骤(2)-(8)直到损失函数值趋于稳定，生成高质量的行人图像，完成行人重识别生成学习。

本发明与现有技术相比具有以下优点：

第一，本发明通过生成同一行人在任意姿态下的图像，大大增加了数据集的多样性，保证行人重识别网络能更好的提取鲁棒于行人的姿态、视角等信息的特征。克服了现有深度学习技术在应用到现实世界中不可避免的数据集不平衡问题，使得本发明能更好的支持行人重识别网络落地应用。

第二，本发明通过分别提取全局外观特征信息和局部外观特征信息，使得生成网络中目标行人图像对应的外观特征信息更加丰富，即使得生成器可以生成细节更加真实的行人图像，使得生成图像更容易增强分类网络的准确度，克服了现有技术中难以生成更为逼真的行人数据的问题，使得本发明能够更好的提升网络性能。

第二，由于本发明中在行人重识别分类时计算了类别激活特征图，很好的量化了分类网络对图像中行人不同部位的关注程度，因此在设计类别激活映射损失时，能够根据已有分类结果，利用类别激活映射图对生成图像和重建图像加权，即增加关注程度高的部位特征信息对应的权重，降低关注程度低的部分特征信息对应的权重，更具有合理性，克服了现有技术中只使用服装特征信息进行生成和分类，损失了部分类别强相关信息，难以生成预期效果的行人图像的问题，使得本发明具有更好的推广性。

附图说明

图1为本发明的实现流程图；

图2为本发明的整体网络框架图；

图3为用本发明方法进行重建图像的仿真实验效果图；

图4为用本发明方法进行生成图像的仿真实验效果图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步描述：

参照图1，本实例的实现步骤如下：

步骤1，建立行人重识别生成学习深度网络模型。

参照图2，本步骤的具体实现如下：

1.1)建立姿态编码器E_p：

该姿态编码器依次由3个卷积层和2个残差块级联组成的，随机初始化姿态编码器的网络参数，各层参数均从均值为0，方差为0.02的正态分布中随机采样得到，其中：

第一卷积层的输入维度18，输出维度64，卷积核尺寸为7*7；

第二卷积层的输入维度64，输出维度128，卷积核尺寸为4*4；

第三卷积层的输入维度128，输出维度256，卷积核尺寸为4*4；

第一残差块的输入维度均为256，输出维度均为256，卷积核尺寸均为3*3；

第二残差块输入维度均为256，输出维度均为256，卷积核尺寸均为3*3。

1.2)建立全局外观编码器E_ag：

该全局外观编码器通过对现有Resnet50神经网络的改进得到，即去掉Resnet50神经网络最后的池化层和Softmax层，构成全局外观编码器，分别初始化全局外观编码器，其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同。

1.3)建立局部外观编码器E_al：

局部外观编码器E_al也是通过对现有Resnet50神经网络的改进得到，即去掉Resnet50神经网络最后的池化层和Softmax层，并在其后增加一个卷积层，构成局部外观编码器E_al，其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同，其所增加的卷积层参数从均值为0，方差为0.02的正态分布中随机采样得到，该卷积层输入维度为2048，输出维度为128，卷积核尺寸为1*1。

1.4)建立解码器G：

该解码器依次由2个残差块和3个卷积层级联组成，随机初始化网络参数，即各层参数均从均值为0，方差为0.02的正态分布中随机采样得到，其中：

第1残差块的输入维度256，输出维度256，卷积核尺寸为3*3；

第2残差块的参数与第一残差块相同；

第1卷积层的输入维度256，输出维度128，卷积核尺寸为5*5；

第2卷积层的输入维度128，输出维度64，卷积核尺寸为5*5；

第3卷积层的输入维度64，输出维度3，卷积核尺寸为7*7。

1.5)建立姿态判别器D_p和外观判别器D_t：

这两个判别器均由3个卷积层和3个残差块依次级联组成，其网络参数采用Kaiming初始化方法，均从均值为0，方差为的正态分布中随机采样得到，N为每一层输入参数的个数，其中：

姿态判别器D_p的结构参数设置如下：

第一卷积层的输入维度为21，输出维度64，卷积核尺寸为7*7；

第二卷积层的输入维度为64，输出维度为128，卷积核尺寸为3*3；

第三卷积层的输入维度为128，输出维度为256，卷积核尺寸为3*3；

第一残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3；

第二残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3；

第三残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3；

外观判别器D_t的结构参数设置如下：

第1卷积层的输入维度为6，输出维度为64，卷积核尺寸为7*7；

第2卷积层的输入维度为64，输出维度为128，卷积核尺寸为3*3；

第3卷积层的输入维度为128，输出维度为256，卷积核尺寸为3*3；

第1残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3；

第2残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3；

第3残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3。

1.6)建立行人重识别分类器

该行人重识别分类器由两层全连接层级联和一个softmax函数组成，随机初始化网络参数从均值为0，方差为0.02的正态分布中随机采样得到，其中：

第一全连接层的输入均为2048维，输出为512维，

第二全连接层的输入为512维，输出为751维；

所述softmax函数，用于将分类器第二全连接层的输出映射为隶属于每一个类别的概率，所有类别的概率之和为1，其计算公式如下：

其中，z表示第二全连接层输出为751维的向量，z_i为z的第i个元素，N代表总类别数量，Z_c代表z中第c个元素，c∈[1,N]。

步骤2，获取目标图像

从行人重识别基准数据集中任意读取一张图像x_i作为源图像，并在与x_i同一类别下和不同类别下分别随机读取一张图像x_j和x_t作为两个目标图像。

步骤3，对行人姿态信息编码，获得姿态特征信息。

3.1)对两个目标图像x_j和x_t进行姿态关键点提取，得到两个目标姿态关键点p_j和p_t；

3.2)将两个目标姿态关键点p_j和p_t分别输入到1.1)构建的姿态编码器中进行行人姿态信息编码，得到两张目标图像的姿态特征信息和f_t ^p：

其中，E_p代表姿态编码器。

步骤4，获取全局的外观特征信息和局部的外观特征信息。

4.1)将源图像x_i输入到1.2)建立的全局外观编码器中进行行人图像编码，得到行人全局的外观特征信息

其中，E_ag代表全局外观编码器。

4.2)利用已有的人体解析网络，将输入的源图像x_i分割为8个区域掩模m_i，用源图像x_i与这8个区域掩模分别相乘，得到源图像x_i的8个局部区域其中k∈[1,8]；

4.3)将源图像x_i的8个局部区域输入到1.3)建立的局部外观编码器E_al中进行人体解析编码，输出源图像x_i的8个局部区域的外观特征其中k∈[1,8]：

4.4)将该8个局部区域的外观特征级联，得到行人解析编码后的局部外观特征信息

步骤5，对行人重识别。

5.1)将源图像x_i的全局外观特征输入到1.6)建立的行人重识别分类器中，得到源图像x_i的分类结果；

5.2)计算源图像x_i的分类结果的交叉熵损失L_i：

L_i＝-log(p(y_i|x_i))

其中y_i表示源图像x_i对应的类别，p(y_i|x_i)表示分类器对源图像x_i的类别的预测结果，交叉熵损失值L_i表示分类器预测结果与真实结果的差距。

步骤6，生成行人图像并计算类别激活映射损失。

6.1)将源图像x_i的全局外观特征信息和局部外观特征信息进行级联，得到整体外观特征信息

6.2)将整体外观特征信息和第一张目标图像的姿态特征信息同时输入到步骤1.4)建立的解码器G中，得到目标图像x_j的重建图像x_i,j：

其中G代表解码器；

6.3)将整体外观特征信息和第二张目标图像的姿态特征信息同时输入到解码器G中，得到具有目标姿态的生成图像x_i,t：

6.4)将重建图像x_i,j分别输入到1.5)建立的姿态判别器D_p和外观判别器D_t中，分别得到姿态判别器D_p对重建图像x_i,j姿态真实度的判别结果，和外观判别器D_t对重建图像x_i,j外观真实度的判别结果，计算这两个判别器分别对重建图像判别结果的生成对抗损失L_p和L_t：

L_p＝logD_p(p_j,x_j)+log(1-D_p(p_j,x_i,j))

L_t＝logD_t(x_j,x_i)+log(1-D_t(x_i,j,x_i))

其中：生成对抗损失L_p是将第一目标图像x_j与目标姿态p_j作为正样本对，将重建图像x_i,j与目标姿态p_j作为负样本对，输入到姿态编码器D_p计算得到；

生成对抗损失L_t是将第一目标图像x_j与源图像x_i作为正样本对，将重建图像x_i,j与源图像x_i作为负样本对，输入到外观编码器D_t计算得到；

6.5)将生成图像x_i,t分别输入到姿态判别器D_p和外观判别器D_t中，得到姿态判别器D_p对生成图像x_i,t姿态真实度的判别结果，及外观判别器D_t对生成图像x_i,t外观真实度的判别结果，分别计算这两个判别器对生成图像判别结果的生成对抗损失L_p'和L_t'：

L_p'＝logD_p(p_t,x_t)+log(1-D_p(p_t,x_i,t))

L_t'＝logD_t(x_j,x_i)+log(1-D_t(x_i,t,x_i))

其中：生成对抗损失L_p’是将第二目标图像x_t与目标姿态p_t作为正样本对，生成图像x_i,t与目标姿态p_t作为负样本对，输入到姿态编码器D_p计算得到；

生成对抗损失L_t’是将第一目标图像x_j与源图像x_i作为正样本对，将生成图像x_i,t与源图像x_i作为负样本对，输入到外观编码器D_t计算得到；

6.6)将两个目标图像x_j和x_t输入到1.2)建立的全局外观编码器E_ag中，得到对应的全局外观信息和将该全局外观信息和输入到1.6)建立的行人重识别分类器中，得到目标图像x_j和x_t的分类结果；

6.7)基于6.6)的分类结果，通过Grad-CAM方法，分别计算出目标图像x_j和x_t对应的类别激活映射图的像素值，得到类别激活映射图h_j和h_t：

其中，A_j代表输入第一目标图像x_j时全局外观编码器E_ag的最后一层残差块的输出，其为一个3D矩阵，代表通道k上的元素；A_t代表输入第二目标图像x_t时全局外观编码器E_ag的最后一层残差块的输出，其为一个3D矩阵，代表通道k上的元素；和计算公式如下：

式中，y_j代表输入第一目标图像x_j时分类器第二全连接层输出结果，是一个1D向量，y^c _j代表y_j中第c个元素，代表A_j中索引为(k,m,n)的元素；y_t代表输入第二目标图像x_t时分类器第二全连接层输出结果，其是一个1D向量；y^c _t代表y_t中第c个元素，代表A_t中索引为(k,m,n)的元素；

6.8)，利用与6.6)和6.7)相同的方式，得到重建图像x_i,j和生成图像x_i,t的类别激活映射图h_i,j和h_i,t：

上述类别激活映射图可以反映出输入图像中对于分类起到重要作用的区域，使用类别激活映射图进行损失函数设计，可以增加关注程度高的部位特征信息对应的权重，降低关注程度低的部分特征信息对应的权重；

6.9)计算类别激活映射损失L_g：

首先，计算类别激活映射图h_j与h_i,j之间的类别激活映射损失L_r：

L_r＝||x_j·h_j-x_i,j·h_i,j||₁；

其次，计算类别激活映射图h_t与h_i,t之间的类别激活映射损失L_d：

其中，和分别是x_t和x_i,t的全局外观特征；

最后，根据上述计算的L_r和L_d得到类别激活映射损失L_g L_g：

L_g＝L_r+L_d。

步骤7，对生成图像x_i,t进行分类，并计算分类结果的交叉熵损失L_i'。

7.1)将生成图像x_i,t重新输入到1.2)建立的全局外观编码器E_ag中，得到生成图像x_i,t的全局外观特征信息再将该信息输入到1.6)构建的行人重识别分类器中，得到生成图像x_i,t的分类结果；

7.2)计算7.1)分类结果的交叉熵损失L_i'：

L_i'＝-log(p(y_i|x_i,t))

其中，y_i表示源图像x_i对应的类别，p(y_i|x_i,t)表示分类器对生成图像x_i,t的类别的预测结果，该交叉熵损失值L_i’表示分类器预测结果与真实结果的差距。

步骤8，更新网络参数。

8.1)对步骤5得到源图像x_i分类结果的交叉熵损失L_i进行反向传播，使其损失函数值尽量趋近于零，以更新全局外观编码器E_ag和行人重识别分类器中参数；

8.2)将步骤6.4)得到两个判别器分别对重建图像判别结果的生成对抗损失L_p和L_t进行反向传播，使其损失函数值尽量趋近于零，以更新局部外观编码器E_al，全局外观编码器E_ag，姿态编码器E_p、解码器G、姿态判别器D_p及外观判别器D_t中的参数；

8.3)将步骤6.5)得到的两个判别器分别对生成图像判别结果的对抗损失L_p'和L_t'进行反向传播，使其损失函数值尽量趋近于零，以更新局部外观编码器E_al，全局外观编码器E_ag，姿态编码器E_p，解码器G，姿态判别器D_p、外观判别器D_t中参数；

8.4)将步骤6.9)得到类别激活映射损失L_g进行反向传播，使其损失函数值尽量趋近于零，以更新全局外观编码器E_ag中的参数；

8.5)将步骤7中得到的交叉损失进行反向传播，使其损失函数值尽量趋近于零，以更新局部外观编码器E_al、全局外观编码器E_ag、姿态编码器E_p及解码器G中的参数。

步骤9，重复步骤2到步骤8，直到损失函数值趋于稳定，生成高质量的行人图像，完成行人重识别生成学习。

本发明的效果可通过以下仿真实验进一步说明：

一、仿真条件

本实验所使用的数据集为Market-1501行人重识别数据集，它包括由6个摄像头拍摄到的1501个行人，32668个检测到的行人矩形框，每个行人至少由2个摄像头捕获到，并且在一个摄像头中可能具有多张图像。训练集有751人，包含12,936张图像，平均每个人有17.2张训练数据；测试集有750人，包含19,732张图像，平均每个人有26.3张测试数据。

本实验通过深度学习库Pytorch进行仿真实现，输入的行人图像尺寸为256*128，通过OpenPose方法进行姿态关键点提取，使用HumanParser方法进行人体解析，使用随机梯度下降方法和Adam方法进行参数优化，设置迭代次数为70轮。

二、仿真实验内容与结果

仿真实验1，在上述条件下用本发明方法对行人图像外观特征与姿态特征解耦，利用同一类别下行人的外观特征信息和姿态特征信息，进行重建图像x_i,j仿真，结果如图3。其中图3(a)、图3(b)、图3(c)、图3(d)是数据集中四个不同类别下行人重建图像仿真结果。每幅图有5列，以3(a)为例，其第一列代表源图像x_i，第二列代表源图像x_i的姿态关键点，第三列代表目标图像x_j，第四列为目标姿态关键点，第五列为基于源图像x_i的外观特征信息和目标图像x_j的姿态特征信息得到的重建图像x_i,j。

从图3可以看出，重建图像与目标图像x_j在姿态和外观上都与目标图像保持一致。

仿真实验2，在上述条件下用本发明方法对行人图像外观特征与姿态特征解耦，利用不同类别下行人的外观特征信息和姿态特征信息，仿真生成图像x_i,t，结果如图4。其中，图4(a)、4(b)、4(c)、4(d)是数据集中四个不同类别下行人生成图像仿真结果。每幅图有5列，以4(a)为例，其中第一列代表源图像x_i，第二列代表源图像x_i的姿态关键点，第三列代表目标图像x_t，第四列为目标姿态关键点，第五列为基于源图像x_i的外观特征信息和目标图像x_j的姿态特征信息得到的生成图像x_i,t。

由图4可以看出，生成图像x_i,t与目标图像x_j在姿态与目标图像保持一致，与源图像x_i在外观上保持一致。

仿真实验3，在上述条件下，评估本发明方法中不同模块对于行人重识别分类性能的影响，结果如表1所示。

表1本发明方法中使用不同模块的行人重识别性能

从表1实验编号1和2可见，在不使用类别激活映射损失的前提下，本发明同时使用局部外观特征信息和全局外观特征信息的策略对行人重识别分类平均分类精度有所提升，此外，从表1实验编号2和3可见，在同时使用局部外观特征信息和全局外观特征信息的前提下，本发明方法所提出的类别激活映射损失同样对行人重识别分类精度有所提升。

综上，本发明基于类别激活映射的行人重识别生成学习方法，可以同时完成行人生成和行人重识别分类两个任务，即通过对行人图像的外观和姿态的解耦，可以基于源图像的外观特征信息和目标图像的姿态特征信息，重建数据集中的图像或者生成数据集中原本不存在的图像，且通过同时使用局部外观特征信息和全局外观特征信息的策略及类别激活映射损失，提升了对行人重识别分类的精度。

Claims

1.一种基于类别激活映射的行人重识别生成学习方法，其特征在于，包括：

(1)建立行人重识别生成学习深度网络模型：

1b)对Resnet50神经网络进行改进，建立全局外观编码器E_ag，即去掉Resnet50神经网络最后的池化层和Softmax层，构成全局外观编码器E_ag，初始化全局外观编码器E_ag的网络参数；

(3)对行人姿态信息编码，获得姿态特征信息：

3b)将目标姿态关键点p_j和p_t输入到1a)的姿态编码器中进行行人姿态信息编码，得到两张目标图像的姿态特征信息和f_t ^p；

(4)获取全局的外观特征信息和局部的外观特征信息：

4a)将源图像x_i输入到全局外观编码器E_ag中进行行人图像编码，得到行人全局的外观特征信息f_i ^g；

4c)将源图像x_i的8个局部区域输入到局部外观编码器E_al中进行人体解析编码，输出源图像x_i的8个局部区域的外观特征f_i ^k，将该8个局部区域的外观特征级联，得到行人解析编码后的局部外观特征信息f_i ^l；

(5)行人重识别：即将源图像x_i的全局外观特征f_i ^g输入到行人重识别分类器中，得到源图像x_i的分类结果，并计算分类结果的交叉熵损失L_i；

(6)行人图像生成并计算类别激活映射损失：

6a)将源图像x_i的全局外观特征信息f_i ^g和局部外观特征信息f_i ^l进行级联，得到整体外观特征信息(f_i ^l,f_i ^g)；

6b)将整体外观特征信息(f_i ^l,f_i ^g)和第一张目标图像的姿态特征信息同时输入到解码器G中，得到目标图像x_j的重建图像x_i,j；

6c)将整体外观特征信息(f_i ^l,f_i ^g)和第二张目标图像的姿态特征信息f_t ^p同时输入到解码器G中，得到具有目标姿态的生成图像x_i,t；

6f)将目标图像x_j和x_t输入到1b)的全局外观编码器E_ag中，得到对应的全局外观信息和f_t ^g，将该全局外观信息和f_t ^g输入到1f)中的分类器中，得到目标图像x_j和x_t的分类结果；

6h)利用与6f)和6g)相同的方式，得到重建图像x_i,j和生成图像x_i,t的类别激活映射图h_i,j和h_i,t，并计算类别激活映射损失L_g；

2.根据权利要求1所述的方法，其中1a)中建立的姿态编码器E_p，其各层参数均从均值为0，方差为0.02的正态分布中随机采样得到，分别设置如下：

第一卷积层的输入维度18，输出维度64，卷积核尺寸为7*7；

第二卷积层的输入维度64，输出维度128，卷积核尺寸为4*4；

第三卷积层的输入维度128，输出维度256，卷积核尺寸为4*4；

第二残差块参数与第一残差块相同。

3.根据权利要求1所述的方法，其中1b)构建的全局外观编码器E_ag和局部外观编码器E_al，其参数分别如下：

所述全局外观编码器E_ag，其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同；

所述局部外观编码器E_al，其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同；其所增加的卷积层输入维度为2048，输出维度为128，卷积核尺寸为1*1，这些参数从均值为0，方差为0.02的正态分布中随机采样得到。

4.根据权利要求1所述的方法，其中1d)建立的解码器G，其各层参数均从均值为0，方差为0.02的正态分布中随机采样得到，分别设置如下

第1残差块的输入维度256，输出维度256，卷积核尺寸为3*3；

第2残差块的参数与第一残差块相同；

第1卷积层的输入维度256，输出维度128，卷积核尺寸为5*5；

第2卷积层的输入维度128，输出维度64，卷积核尺寸为5*5；

第3卷积层的输入维度64，输出维度3，卷积核尺寸为7*7。

5.根据权利要求1所述的方法，其中1e)中建立的姿态判别器D_p和外观判别器D_t，其结构参数如下：

姿态判别器D_p的结构参数：

第一卷积层的输入维度为21，输出维度64，卷积核尺寸为7*7；

外观判别器D_t的结构参数：

第1卷积层的输入维度为6，输出维度为64，卷积核尺寸为7*7；

第3残差块的输入维度为256，输出维度为256，卷积核尺寸为3*3；

上述卷积层和残差块中的参数采用Kaiming初始化方法，均从均值为0，方差为的正态分布中随机采样得到，其中N为每一层输入参数的个数。

6.根据权利要求1所述的方法，其中1f)建立的行人重识别分类器，其结构参数设置如下：

第一全连接层的输入均为2048维，输出为512维，

第二全连接层的输入为512维，输出为751维；

这两个全连接层的参数均从均值为0，方差为0.02的正态分布中随机采样得到；

7.根据权利要求1所述的方法，其中，所述(5)中计算源图像x_i分类结果的交叉熵损失L_i，和所述(7)中计算生成图像x_i,t分类结果的交叉熵损失L_i'，公式如下：

L_i＝-log(p(y_i|x_i))

L_i'＝-log(p(y_i|x_i,t))

其中，y_i表示源图像x_i对应的类别，p(y_i|x_i)表示分类器对源图像x_i的类别的预测结果，p(y_i|x_i,t)表示分类器对生成图像x_i,t的类别的预测结果，交叉熵损失值L_i和L_i’表示分类器预测结果与真实结果的差距。

8.根据权利要求1所述的方法，其中所述6d)和6e)中分别计算姿态判别器D_p和外观判别器D_t对重建图像x_i,j判别结果的生成对抗损失L_p和L_t，及对生成图像x_i,t判别结果的生成对抗损失L_p’和L_t’，实现如下：

对于重建图像x_i,j，通过下式计算两判别器D_p和D_t对其判别结果的生成对抗损失L_p和L_t：

L_p＝logD_p(p_j,x_j)+log(1-D_p(p_j,x_i,j))

L_t＝logD_t(x_j,x_i)+log(1-D_t(x_i,j,x_i))

其中，生成对抗损失L_p是将第一目标图像x_j与目标姿态p_j作为正样本对，将重建图像x_i,j与目标姿态p_j作为负样本对，输入到姿态编码器D_p计算得到；生成对抗损失L_t是将第一目标图像x_j与源图像x_i作为正样本对，将重建图像x_i,j与源图像x_i作为负样本对，输入到外观编码器D_t计算得到；

对于生成图像x_i,t，通过下式计算两个判别器对其判别结果的生成对抗损失L_p’和L_t’；

L_p'＝logD_p(p_t,x_t)+log(1-D_p(p_t,x_i,t))

L_t'＝logD_t(x_j,x_i)+log(1-D_t(x_i,t,x_i))

其中，生成对抗损失L_p’是将第二目标图像x_t与目标姿态p_t作为正样本对，生成图像x_i,t与目标姿态p_t作为负样本对，输入到姿态编码器D_p计算得到；生成对抗损失L_t’是将第一目标图像x_j与源图像x_i作为正样本对，将生成图像x_i,t与源图像x_i作为负样本对，输入到外观编码器D_t计算得到。

9.根据权利要求1所述的方法，其中，所述6g)分别计算出两个目标图像x_j和x_t对应的类别激活映射图的像素值，是将两个目标图像x_j和x_t分别输入带全局外观编码器E_ag中，分别计算其类别激活映射图h_j和h_t：

其中，A_j代表输入第一目标图像x_j时全局外观编码器E_ag的最后一层残差块的输出，其为一个3D矩阵，A_j ^k代表通道k上的元素；A_t代表输入第二目标图像x_t时全局外观编码器E_ag的最后一层残差块的输出，其为一个3D矩阵，A_t ^k代表通道k上的元素；和计算公式如下：

式中，y_j代表输入第一目标图像x_j时分类器第二全连接层输出结果，是一个1D向量，代表y_j中第c个元素，代表A_j中索引为(k,m,n)的元素；y_t代表输入第二目标图像x_t时分类器第二全连接层输出结果，其是一个1D向量；y^c _t代表y_t中第c个元素，代表A_t中索引为(k,m,n)的元素。

10.根据权利要求1所述的方法，其中，所述6h)中计算重建图像x_i,j和生成图像x_i,t的类别激活映射图h_i,j和h_i,t，及计算类别激活映射损失L_g，实现如下：

6h1)将重建图像x_i,j和生成图像x_i,t分别输入带全局外观编码器E_ag，分别计算重建图像x_i,j的激活映射图h_i,j和生成图像x_i,t的激活映射图h_i,t：

其中，A_i,j代表输入重建图像x_i,j时全局外观编码器E_ag的最后一层残差块的输出，其为一个3D矩阵，A_i,j ^k代表通道k上的元素；A_i,t代表输入生成图像x_i,t时全局外观编码器E_ag的最后一层残差块的输出，其为一个3D矩阵，A_i,t ^k代表通道k上的元素；和计算公式如下：

式中，y_i,j代表输入重建图像x_i,j时分类器第二全连接层输出结果，其是一个1D向量；y^c _i,j代表y_i,j中第c个元素，代表A_i,j中索引为(k,m,n)的元素；y_i,t代表输入生成图像x_i,t时分类器第二全连接层输出结果，其是一个1D向量；y^c _i,t代表y_i,t中第c个元素，代表A_i,t中索引为(k,m,n)的元素；

6h2)，计算类别激活映射损失L_g：

计算类别激活映射图h_j与h_i,j之间的类别激活映射损失L_r：L_r＝||x_j·h_j-x_i,j·h_i,j||₁

计算类别激活映射图h_t与h_i,t之间的类别激活映射损失L_d：

其中f_t ^g和分别是x_t和x_i,t的全局外观特征；

根据L_r和L_d得到L_g：

L_g＝L_r+L_d。