CN108197584A

CN108197584A - 一种基于三元组深度神经网络的行人重识别方法

Info

Publication number: CN108197584A
Application number: CN201810031436.5A
Authority: CN
Inventors: 胡瑞敏; 熊明福; 胡亮; 陈军; 梁超; 丁贵广; 黄文心; 王晓
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-06-22

Abstract

本发明提供一种基于三元组深度神经网络的行人重识别方法，其特征在于：采用以下方式提取行人特征，以实现行人重识别，包括在训练集上随机选取一张图片，通过原始图片产生三种不同尺度的图片，包括原始图片fullScale、半尺度原始图片halfScale和上半身尺度图片topscale；然后对每一个尺度的图片找出与它同一类及不同类的样本，以构成三元组；再把不同尺度下的三元组样本分别输入到三种结构不同的深度卷积神经网络中，最后把三种卷积神经网络的输出特征串联在一起，通过归一化输出最终结果。本发明可以有效地提取行人特征并最终提高行人重识别的结果准确度。

Description

一种基于三元组深度神经网络的行人重识别方法

技术领域

本发明涉及一种行人重识别技术，具体涉及一种基于三元组深度神经网络的行人重识别方法。

背景技术

行人重识别，即是指在照射区域无重叠的多摄像头画面下自动匹配同一行人的技术，用以快速准确地发现行人对象在多摄像头下的活动画面和轨迹。目前行人重识别技术在学术界和工业界已经得到广泛的关注与应用。然而在具体实现该技术时会面临着许多挑战，比如行人对象会受到光照、遮挡、视角等因素影响，这使得行人间的内类(同一个行人)差异甚至大于类间(不同行人)差异，从而导致该问题的失败。实际的行人重识别研究工作中主要分为三个步骤：特征提取(行人对象的外观特征表示)，距离度量(行人间的相似性比较)和排序优化(对排序结果的优化)。本发明主要针对前两个步骤，即特征提取和距离度量。近十年在这两个步骤上的研究中也取得了很好的成功。当前如何在真实监控视频场景中提取出具有鲁棒性和判别性的特征描述子是一个巨大挑战。特别的，在深度学习的方法成功应用于行人重识别领域后，很多方法都使用了尺度融合的训练方式。但是在真实场景下很多方法难以适应于同一个行人的不同尺度图片。

发明内容

针对以上问题，本发明提出了一种基于多尺度三元组深度卷积神经网络的行人重识别方法，旨在获得一个更加具有鲁棒性的行人特征描述子。

本发明技术方案提供一种基于三元组深度神经网络的行人重识别方法，采用以下方式提取行人特征，以实现行人重识别，

在训练集上随机选取一张图片，通过原始图片产生三种不同尺度的图片，包括原始图片fullScale、半尺度原始图片halfScale和上半身尺度图片topscale；然后对每一个尺度的图片找出与它同一类及不同类的样本，以构成三元组；再把不同尺度下的三元组样本分别输入到三种结构不同的深度卷积神经网络中，最后把三种卷积神经网络的输出特征串联在一起，通过归一化输出最终结果。

而且，所述构成三元组实现方式如下，

对原始图片fullScale、半尺度原始图片halfScale和上半身尺度图片topscale分别作为锚点样本Anchor，在训练集中随机选取一个和Anchor属于同一类的样本和不同类的样本，这两个样本对应的称为Positive和Negative，由此构成一个(Anchor，Positive，Negative)三元组。

而且，把不同尺度下的三元组样本分别输入到三种结构不同的深度卷积神经网络中，利用三元组损失来训练这三个子网络。

而且，设Anchor记为x_i，Positive记为x_j，Negative记为x_k，用g_W(x)代表每一个尺度图片x在神经网络中的输出，对于行人重识别问题，训练三元组，最终的特征应该要满足下式，

||g_W(x_i)-g_W(x_j)||<||g_W(x_i)-g_W(x_k)||

为了方便偏导数计算，写成平方形式为，

||g_W(x_i)-g_W(x_j)||²<||g_W(x_i)-g_W(x_k)||²

最终对于一个给定的训练集X，三元组约束转换成了以下目标函数，

其中，

d(W,X)代表同一个人的距离与不同人之间距离的误差总和；

N表示三元组样本的总数；

C表示约束因子。

而且，所述归一化，输出用下式表示：

其中，

y表示归一化后的特征；

g＝[g₁,g₂,…,g_k]表示串联层输出的特征，其中g_p表示第p个特征；

k表示为特征的维度。

针对现有行人重识别方法中提取的行人特征鲁棒性较差，本发明提出了一种可行的方法用于有效地提取行人特征并最终提高行人重识别的结果准确度，即在多尺度下，采用基于三元组的深度卷积神经网络来实现行人重识别。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的基于三元组损失的MST-CNN结构图；

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图和实施例对本发明作进一步的详细描述。

在深度学习成功应用于行人重识别领域后，很多方法都使用了尺度融合的训练方式。但是在真实场景下很多方法难以适应于同一个行人的不同尺度图片。本发明采用的技术方案为一种基于多尺度三元组的深度卷积神经网络。具体实施时，通过把不同尺度下的三元组输入到相对应的卷积神经网络中，各网络的输出经过L2normalization得到最终行人重识别的结果。

即在训练集上随机选取一张图片，通过原始图片产生三种不同尺度的图片，即原始图片、半尺度原始图片和上半身尺度图片。然后对每一个尺度的图片找出和它同一类的样本和不同类的样本，在每一个尺度下构成三元组。再把三种不同尺度下的三元组分别输入到三种结构不同的卷积神经网络中，最后把三种卷积神经网络的输出特征串联在一起，通过L2归一化输出最终结果。

参见图1，实施例具体实现包括以下步骤：

步骤1：通过对原始图片等系列操作来获得三种不同尺度的图片，即fullScale、halfScale和topscale，并对每一种尺度图片构造三元组；其具体步骤包括：

步骤1.1:在训练集中随机选择一张图片，通过对该图片的处理得到三种不同尺度的图片：原图片(fullScale)、半尺度图片(halfScale)和上半身图片(topScale)。

步骤1.2：对上述的三种不同尺度图片来说，每一种尺度图片把它称为Anchor(锚点样本)。然后再在训练集中随机选取一个和Anchor(记为x_i)属于同一类的样本和不同类的样本，这两个样本对应的称为Positive(记为x_j)和Negative(记为x_k)，由此构成一个(Anchor，Positive，Negative)三元组。Positive，Negative分别标识正样本(和锚点样本是同一个人)和负样本(和锚点样本不是同一个人)。

步骤2：在步骤1获得三个尺度下不同的三元组后，将每个三元组输入到相应的深度卷积神经网络中，故一共含有三个共享参数的MST-CNN网络；

相应的卷积操作可用以下式子表达：

这里的a_i ^(l)和a_i ^(l-1)分别表示第l层的第i个输出通道和第l-1层的第i个输出通道；表示第l层中第i个和第j个feature map(特征图)之间的卷积核；b_i ^(l)代表第l层中的第i个feature map(特征图)的偏置项。这里使用的是relu激活函数，即relu(x)＝max(0,x)，x为变量。

其具体实现步骤包括：

步骤2.1：实施例用到的原始图片大小是227×227，产生的另外两种尺度图片都为114×114。各子网络结构实现步骤大致如下：

步骤2.1.1：对于原始图片的三元组，把它输入到第一个子网络中。该网络有五个卷积层，每一个卷积层的卷积核大小为11×11，其中前三个卷积操作后进行Maxpooling，最终经过两个全连接层输出成一个1000维的向量。

步骤2.1.2：对于提取到的上半身图片构成的三元组，该网络有三个卷积层，三个池化层，每一个卷积层的卷积核大小为5×5，最终经过两个全连接层输出成一个1000维的向量。

步骤2.1.3：对于提取到的半尺度图片构成的三元组，该网络有两个卷积层，两个池化层，每一个卷积层的卷积核大小为3×3，最终经过两个全连接层输出成一个1000维的向量。

步骤2.2：利用三元组损失(triplet loss)来训练上述三个子网络。Triplet loss的目的是通过学习让Anchor(记为x_i)和Positive(记为x_j)特征表达之间的距离尽可能小，而Anchor(记为x_i)和Negative(记为x_k)特征表达者间的距离尽可能大。用g_W(x)代表每一个尺度图片x在神经网络中的输出。对于行人重识别问题，要训练三元组，最终的特征应该要满足下式：

||g_W(x_i)-g_W(x_j)||<||g_W(x_i)-g_W(x_k)||

为了方便偏导数计算，把它写成平方形式为：

||g_W(x_i)-g_W(x_j)||²<||g_W(x_i)-g_W(x_k)||²

最终对于一个给定的训练集X，三元组约束就转换成了以下目标函数：

其中，

d(W,X)代表同一个人的距离与不同人之间距离的误差总和；

N表示三元组样本的总数；

C表示约束因子，在本发明中为1，意为约束上述误差的大小。

参见图2，其中：

Image triplet：图像三元组(锚点样本，正样本，负样本)

feature triplet：为上述图像三元组所对应的特征三元组

g_w(X_j)：正样本的特征表示

g_w(X_j)：锚点样本的特征表示

g_w(X_k)：负样本的特征表示

MST-CNN：多尺度三元组卷积神经网络(Multi-scale Triplet ConvolutionalNeural Network)

pull：表示使同一个人之间的距离尽可能地小

push:表示使不同行人之间的距离尽可能地大

步骤3：通过把三个网络中的输出特征串联在一起，得到最终的输出结果。为了让网络更快地收敛，采用L2 Normalization(归一化)层，输出用下式表示：

其中，

y表示归一化后的特征；

k表示为特征的维度。

L2Normalization层的重要性在于它能够确保从每个三元组计算出来的距离不会超过公式||g_W(x_i)-g_W(x_j)||<||g_W(x_i)-g_W(x_k)||所给的范围，即正样本对之间的距离小于负样本对之间的距离。

具体实施时，本领域技术人员可采用计算机软件技术实现以上流程的自动运行。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于三元组深度神经网络的行人重识别方法，其特征在于：采用以下方式提取行人特征，以实现行人重识别，

2.根据权利要求1所述基于三元组深度神经网络的行人重识别方法，其特征在于：所述构成三元组实现方式如下，

3.根据权利要求1所述基于三元组深度神经网络的行人重识别方法，其特征在于：把不同尺度下的三元组样本分别输入到三种结构不同的深度卷积神经网络中，利用三元组损失来训练这三个子网络。

4.根据权利要求3所述基于三元组深度神经网络的行人重识别方法，其特征在于：设Anchor记为x_i，Positive记为x_j，Negative记为x_k，用g_W(x)代表每一个尺度图片x在神经网络中的输出，对于行人重识别问题，训练三元组，最终的特征应该要满足下式，

||g_W(x_i)-g_W(x_j)||<||g_W(x_i)-g_W(x_k)||

为了方便偏导数计算，写成平方形式为，

||g_W(x_i)-g_W(x_j)||²<||g_W(x_i)-g_W(x_k)||²

其中，

d(W,X)代表同一个人的距离与不同人之间距离的误差总和；

N表示三元组样本的总数；

C表示约束因子。

5.根据权利要求1或2或3或4所述基于三元组深度神经网络的行人重识别方法，其特征在于：所述归一化，输出用下式表示：

其中，

y表示归一化后的特征；

k表示为特征的维度。