CN111310718A

CN111310718A - 一种遮挡人脸图像高准确率检测对比方法

Info

Publication number: CN111310718A
Application number: CN202010156376.7A
Authority: CN
Inventors: 孙冰; 潘召军
Original assignee: Kehong New Technology Institute of Sichuan University
Current assignee: Kehong New Technology Institute of Sichuan University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-19

Abstract

本发明公开了一种遮挡人脸图像高准确率检测对比方法，包括以下步骤：对训练数据进行预处理；制作用于训练生成分支的生成目标图片集；构建特征增强分支，得到专注于面部的局部特征；构建并行的特征提取网络分支，强化细节特征的提取和利用；构建完整网络模型，并基于融合特征和并行特征提取进行人脸区域分类与边框回归；网络端到端训练，更新网络参数，得到完成训练的检测模型；输入遮挡人脸图像样本，使用完成训练的检测模型框选人脸图像位置，完成遮挡人脸图像检测。本发明可以有效提高可见人脸区域特征在整体特征中的比重，提升检测模型对于遮挡人脸图像的鲁棒性，对于遮挡人脸图像具有更高的检测准确率和召回率。

Description

一种遮挡人脸图像高准确率检测对比方法

技术领域

本发明涉及一种人脸图像检测方法，尤其涉及一种遮挡人脸图像高准确率检测对比方法。

背景技术

人脸图像检测也简称人脸检测(Face Detection)，是指判断输入图像中是否存在人脸图像并确定所有人脸图像区域具体位置的过程。随着智能化识别技术愈加普遍，人脸图像自动检测技术在案件侦破、身份识别、移动社交、拍照美化等广泛场景中发挥着重要的应用价值。

人脸图像检测技术主要分为传统检测方法和基于深度学习的检测方法。其中，传统人脸图像检测技术主要通过设计人工特征，如灰度特征、轮廓特征、肤色特征等对图像进行人脸与非人脸的二分类。Paul Viola等人提出的VJ检测算法就是传统检测算法的优秀代表。VJ算法利用Haar特征和Adaboost级联策略，通过层级训练弱分类器构建强检测器，达到了实时的检测速率和比较好的检测准确率。

相比于传统机器学习方法，神经网络在非线性函数拟合方面更具优势。随着近年来深度学习领域相关技术的进步，相关模型在图片特征提取及分类检测方面都具有优异的表现，因此深度学习在人脸图像检测上的应用愈发广泛。比如经典的RCNN系检测模型，通过卷积与池化层对输入图像进行特征提取，然后在特征图的基础上获取不同比例的候选区域，并对候选区域进行是否是人脸的二分类以及边框回归。

现有人脸图像检测模型在约束条件下能够取得不错的检测效果，但实际应用场景中通常存在各种情况的遮挡，这种部分特征缺失的人脸图像给人脸图像准确检测带来了困难和挑战。比如Faster RCNN能够在公开数据集VOC2007上取得较高的准确率，但是在处理存在大量遮挡的人脸图像时，存在大量的漏检和误检。

发明内容

本发明的目的就在于为了解决上述问题而提供一种能显著提高遮挡人脸图像检测准确性的遮挡人脸图像高准确率检测方法。

本发明通过以下技术方案来实现上述目的：

一种遮挡人脸图像高准确率检测对比方法，包括以下步骤：

步骤1、对训练数据进行预处理；

步骤2、制作用于训练生成分支的生成目标图片集；

步骤3、构建特征增强分支，得到专注于面部的局部特征；构建并行的特征提取网络分支，强化细节特征的提取和利用；

步骤4、构建完整网络模型，并基于融合特征和并行特征提取进行人脸区域分类与边框回归；

步骤5、网络端到端训练，更新网络参数，得到完成训练的检测模型；

步骤6、输入遮挡人脸图像样本，使用完成训练的检测模型框选人脸图像位置，完成遮挡人脸图像检测。

作为优选，所述步骤1中，所述训练数据集采用WiderFace公开数据集，所述预处理包括对所有输入图像进行尺寸缩放处理，以避免占用过高显存。

更具体地，所述步骤1中，WiderFace公开数据集包含大量面部遮挡图片，数据标注中occlusion项表示遮挡程度，分为0、1、2级，分别表示无遮挡、轻微遮挡、大面积遮挡；从occlusion等级为0的样本中随机选取50％，对于每张图片从非ground truth区域截取方形背景区域，区域大小范围为随机[0.2，0.8]倍的最大GT框边长，使用裁剪的背景区域覆盖部分GT框造成人为遮挡；输入网络前，将所有输入图像进行尺寸处理，按比例缩放至短边不超过600像素、长边不超过800像素。

作为优选，所述步骤2的方法是：基于WiderFace数据集，为每张训练集图片制作相应的生成目标图片，用于计算相似度生成损失。

进一步，所述步骤2中，将每张输入图像非GT区域像素值置零，得到仅包含人脸区域的图像，作为增强分支的生成目标。

作为优选，所述步骤3包括以下步骤：

步骤3.1、构建两个特征增强分支，得到专注于面部的局部特征；具体包括以下步骤：

步骤3.1.1、构建两个特征增强分支网络，包括用于特征筛选的卷积网络和用于图片生成的反卷积网络；

步骤3.1.2、主网络特征提取阶段输出的特征首先经过3层卷积层，卷积核大小3*3，padding为1，步长为1，得到尺度不变的512通道中间特征；

步骤3.1.3、中间特征经过decoder模块生成目标区域，具体经过caffe框架下4层deconv层，获得与输入尺寸相同的1通道输出图像；

步骤3.1.4、计算生成图像与步骤2中制作的生产目标图片的相似度损失，并基于此调整增强分支网络参数；所述相似度损失采用L2损失，计算公式为：

L_sim＝αL_f+(1-α)L_nf

其中，L_sim是生成损失，α是用于调节loss中人脸区域对损失的贡献度的参数，L_f为人脸区域损失，L_nf为非人脸区域损失，其中L_f和L_nf采用同样的L2损失，计算公式如下：

其中，y_i为生成图片像素值，

为标注图片对应值；

步骤3.2、构建并行的特征提取网络，并与基干网络进行融合，强化人脸细节特征的提取，具体包括以下步骤：

步骤3.2.1、构建并行的特征提取网络，并行网络与基干网络同样采用VGG16的前置卷积模块，其中包括5个卷积模块conv1’，conv2’，...，conv5’，其中conv1包含2个3*3卷积，通道数64，一个最大池化层，输出特征图尺寸为原图的1/2，Conv2’包含2个3*3卷积，通道数128，一个最大池化层，输出特征图尺寸为原图的1/4，Conv3’包含3个3*3卷积，通道数256，一个最大池化层，输出特征图尺寸为原图的1/8，Conv4’包含3个3*3卷积，通道数512，一个最大池化层，输出特征图尺寸为原图的1/16，Conv5’包含3个3*3卷积，通道数512；

步骤3.2.2、并行网络在基干网络结构基础上，在每一个卷积层通过一个1×1的卷积与基干网络侧面连接，其余结构与基干网络完全相同；

步骤3.2.3、除第一层外，每一个conv层都会把前面的得到的feature map与主干网络得到的feature map进行融合，然后继续供下一层网络使用；

步骤3.2.4、取conv5_3’层输出特征图与基干网络conv5_3层输出特征图进行融合然后作为增强分支和后续网络的输入。

作为优选，所述步骤4包括以下步骤：

步骤4.1、构建特征提取基干网络，该基干网络采用VGG16的前置卷积模块，其中包括5个卷积模块conv1，conv2，...，conv5，其中conv1包含2个3*3卷积，通道数64，一个最大池化层，输出特征图尺寸为原图的1/2，Conv2包含2个3*3卷积，通道数128，一个最大池化层，输出特征图尺寸为原图的1/4，Conv3包含3个3*3卷积，通道数256，一个最大池化层，输出特征图尺寸为原图的1/8，Conv4包含3个3*3卷积，通道数512，一个最大池化层，输出特征图尺寸为原图的1/16，Conv5包含3个3*3卷积，通道数512；

步骤4.2、取conv5_3层输出特征图与并行的特征提取网络的conv5_3层的特征图的融合结果作为增强分支和后续网络的输入；

步骤4.3、增强分支和并行分支输出的相同尺寸特征，通过点乘与原conv5_3层特征进行融合，增强可见人脸区域在分类特征中的权重，强化人脸细节特征的提取；

步骤4.4、在融合特征的基础上，使用RPN模块和ROI模块获取归一化的提议区域；

步骤4.5、通过分类分支与回归分支完成对提议区域的人脸二分类和边框微调；其中分类回归损失计算如下：

其中，L_cls为分类损失，其中p_i为分类得分，

为anchor标签，正为1，负为0，L_reg为回归损失，乘以

表示仅对分类为前景的anchor回归边框，t_i为预测边框参数分量(x，y，w，h)之一，

为标记为正的anchor对应的ground true box参数。

作为优选，所述步骤5包括以下步骤：

步骤5.1、设置增强分支损失函数、分类回归损失函数；

步骤5.2、网络进行端到端训练，并基于联合损失调整参数，更新网络参数，得到完成训练的检测模型。

更具体地，所述步骤5.2中，使用VGG16预训练模型，开始训练网络参数，训练采用带冲量和权重衰减的随机梯度下降法，冲量为0.8，衰减为0.0005，每个mini-batch处理2张图片，初始学习率设置为0.001，每18000步衰减率为0.1。

本发明的有益效果在于：

本发明针对遮挡对人脸图像检测造成的干扰问题，以Faster RCNN模型为基干，设计了基于可见区域生成的特征增强分支和强化人脸细节特征提取的并行特征提取网络分支，通过叠加原图特征、并行特征提取网络特征与生成人脸区域特征，可以有效提高可见人脸区域特征在整体特征中的比重，提升检测模型对于遮挡人脸图像的鲁棒性，抑制遮挡为特征区域带来的损失和干扰，对图片样本中人脸图像进行更好的定位和提取，对于遮挡人脸图像具有更高的检测准确率和召回率。

附图说明

图1是本发明所述遮挡人脸图像高准确率检测方法的总体流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

如图1所示，本发明所述遮挡人脸图像高准确率检测方法包括以下步骤：

步骤1、对训练数据进行预处理；

本步骤中，所述训练数据集采用WiderFace公开数据集，所述预处理包括对所有输入图像进行尺寸缩放处理，以避免占用过高显存；WiderFace公开数据集包含大量面部遮挡图片，数据标注中occlusion项表示遮挡程度，分为0、1、2级，分别表示无遮挡、轻微遮挡、大面积遮挡；从occlusion等级为0的样本中随机选取50％，对于每张图片从非ground truth区域截取方形背景区域，区域大小范围为随机[0.2，0.8]倍的最大GT框边长，使用裁剪的背景区域覆盖部分GT框造成人为遮挡；输入网络前，将所有输入图像进行尺寸处理，按比例缩放至短边不超过600像素、长边不超过800像素。

步骤2、制作用于训练生成分支的生成目标图片集：基于WiderFace数据集，为每张训练集图片制作相应的生成目标图片，用于计算相似度生成损失；将每张输入图像非GT区域像素值置零，得到仅包含人脸区域的图像，作为增强分支的生成目标。

本步骤具体包括以下步骤：

L_sim＝αL_f+(1-α)L_nf

其中，y_i为生成图片像素值，

为标注图片对应值；

本步骤具体包括以下步骤：

其中，L_cls为分类损失，其中p_i为分类得分，

为anchor标签，正为1，负为0，L_reg为回归损失，乘以

为标记为正的anchor对应的ground true box参数。

本步骤具体包括以下步骤：

步骤5.1、设置增强分支损失函数、分类回归损失函数；

步骤5.2、网络进行端到端训练，并基于联合损失调整参数，更新网络参数，得到完成训练的检测模型；本步骤中，使用VGG16预训练模型，开始训练网络参数，训练采用带冲量和权重衰减的随机梯度下降法，冲量为0.8，衰减为0.0005，每个mini-batch处理2张图片，初始学习率设置为0.001，每18000步衰减率为0.1。

说明：图1中的各步骤与上述内容不是完全相同，但相互对应，这是为了便于简单提炼成流程框图配合理解。

本发明利用注意力机制，设计了基于人脸区域生成的特征增强分支和强化人脸细节特征提取的并行特征提取网络；特征增强分支基于原图特征生成ground truth区域附近图像，将训练后的可以生成较好目标的特征与主干网络卷积特征进行点乘融合，增强可见面部特征的比重，有利于降低遮挡对特征造成的干扰。实验结果表明，融合后的特征能够显著提升模型对遮挡人脸的检测准确率。并行于主干网络的特征提取分支通过1×1的卷积侧向连接，能有效的捕捉人脸图像的细节特征，加强人脸区域的定位，能有效地提升人脸图像的识别精度。

为从特征中准确的恢复人脸区域，本发明利用构造目标数据集有监督的训练增强分支。通过对每张输入图片非GT区域置零的方式，制作生成目标图片。本发明将特征增强分支融合进Faster RCNN检测模型，实验结果表明融合了特征增强分支的模型相比于原模型对遮挡人脸具有更好的检测效果。鉴于图片中，脸部区域不会占据很大的比例，构建的并行特征提取网络分支可以进一步用于底层特征的提取，然后逐级进行卷积、池化等操作，对于占图片比例不大的人脸区域回归和人脸图像识别大有裨益。

上述实施例只是本发明的较佳实施例，并不是对本发明技术方案的限制，只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案，均应视为落入本发明专利的权利保护范围内。

Claims

1.一种遮挡人脸图像高准确率检测对比方法，其特征在于：包括以下步骤：

步骤1、对训练数据进行预处理；

步骤2、制作用于训练生成分支的生成目标图片集；

2.根据权利要求1所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤1中，所述训练数据集采用WiderFace公开数据集，所述预处理包括对所有输入图像进行尺寸缩放处理，以避免占用过高显存。

3.根据权利要求2所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤1中，WiderFace公开数据集包含大量面部遮挡图片，数据标注中occlusion项表示遮挡程度，分为0、1、2级，分别表示无遮挡、轻微遮挡、大面积遮挡；从occlusion等级为0的样本中随机选取50％，对于每张图片从非ground truth区域截取方形背景区域，区域大小范围为随机[0.2，0.8]倍的最大GT框边长，使用裁剪的背景区域覆盖部分GT框造成人为遮挡；输入网络前，将所有输入图像进行尺寸处理，按比例缩放至短边不超过600像素、长边不超过800像素。

4.根据权利要求2或3所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤2的方法是：基于WiderFace数据集，为每张训练集图片制作相应的生成目标图片，用于计算相似度生成损失。

5.根据权利要求4所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤2中，将每张输入图像非GT区域像素值置零，得到仅包含人脸区域的图像，作为增强分支的生成目标。

6.根据权利要求4所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤3包括以下步骤：

L_sim＝αL_f+(1-α)L_nf

其中，y_i为生成图片像素值，

为标注图片对应值；

7.根据权利要求6所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤4包括以下步骤：

其中，L_cls为分类损失，其中p_i为分类得分，

为anchor标签，正为1，负为0，L_reg为回归损失，乘以

为标记为正的anchor对应的ground true box参数。

8.根据权利要求7所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤5包括以下步骤：

步骤5.1、设置增强分支损失函数、分类回归损失函数；

9.根据权利要求8所述的遮挡人脸图像高准确率检测方法，其特征在于：所述步骤5.2中，使用VGG16预训练模型，开始训练网络参数，训练采用带冲量和权重衰减的随机梯度下降法，冲量为0.8，衰减为0.0005，每个mini-batch处理2张图片，初始学习率设置为0.001，每18000步衰减率为0.1。