CN109033953A

CN109033953A - 多任务学习深度网络的训练方法、设备及存储介质

Info

Publication number: CN109033953A
Application number: CN201810614856.6A
Authority: CN
Inventors: 李千目; 练智超; 侯君; 朱虹; 李良; 宋佳
Original assignee: Shenzhen Bowei Chuangsheng Technology Co Ltd
Current assignee: Shenzhen Bowei Chuangsheng Technology Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-12-18

Abstract

本发明实施例公开了多任务学习深度网络的训练方法、设备及存储介质。本发明实施例通过将训练集输入多任务学习深度网络中，从多任务学习深度网络中的若干层卷积层和池化层分别输出相应的运算结果，并将输出的运算结果进行特征融合，利用特征融合数据进行多任务学习中的每个任务的学习，分别输出每个任务对应的预测结果。上述训练方法利用特征融合的方式将多任务学习深度网络中的多个卷积层和池化层输出的运算结果进行特征融合，利用特征融合数据进行多任务学习，进而提高多任务学习中每个任务的检测精度，改善多任务学习网络的性能。

Description

多任务学习深度网络的训练方法、设备及存储介质

技术领域

本发明实施例涉及生物识别领域，特别是涉及多任务学习网络的训练方法、训练设备及存储介质。

背景技术

人脸识别是计算机视觉课题中的重要问题，其中相对重要的几个方面为人脸检测、面部特征点识别、面部特征点定位等。许多视觉任务依赖于准确的面部特征点定位结构，比如面部识别、面部表情分析以及面部动画等。虽然在近年来被广泛的研究使用，并取得了一定程度的成功，但由于部分遮挡、光照、较大程度的头部旋转以及夸张的表情变化等因素，导致人脸图像的复杂性和多样性，面部特征点定位仍然面临诸多问题和挑战。

在现有技术中，面部特征点定位的方法大致可以分为两类：传统方法和基于深度学习的方法。典型的传统方法包括基于模型的方法和基于回归的方法；基于模型的方法在给定平均初始形状的情况下学习形状增量，如主动形状模型(Active Shape Mode，ASM)和主动外观模型(active appearance model，AAM)，采用统计模型如主成分分析(PrincipalComponent Analysis，PCA)来分别捕获形状和外观变化；然而，由于单一的线性模型很难刻画现实场景数据中的复杂非线性变化，因此基于模型的传统方法不能获得具有较大程度的头部姿态变化和夸张的面部表情等人脸图像的精确形状。传统方法中的基于回归的方法则是通过训练外观模型来预测关键点位置。有研究人员通过在尺度不变特征变换(Scale-invariant feature transform，SIFT)上应用线性回归来预测形状增量。此外，也有研究人员提出使用像素强度差异作为特征顺序学习一系列随机蕨回归，并逐步退化学习级联的形状，他们对所有参数同时进行回归，从而有效地利用形状约束；即基于回归的方法主要从初始的估计迭代地修改预测的特征点位置，因此最终结果高度依赖于初始化。

对于基于深度学习的方法，目前既有几种方式。Sun等人提出了采用三级级联卷积神经网络框架进行面部特征点定位的新方法，经过运用卷积神经网络(CNN)对人脸的5个特征点(即左右眼睛、鼻尖，左右嘴角)进行回归，同时采用不同级别的卷积神经网络来对特征点组合微调。此外，Zhang等人提出一种由粗到细的深度非线性特征点定位方法(Coarse-to-Fine Auto-Encoder Networks，CFAN)，使用连续自编码器网络实现非线性回归模型。这两种方法都使用多个深度网络通过级联的方式逐步定位特征点。他们为每张图像从粗到细的搜寻最佳的特征点位置，显示出比以前的特征点定位方法具有更高的精度，然而对遮挡问题却无法有效处理。此外，因为采用多个卷积神经网络结构，随着面部特征点数量的增加，定位所有点的时间消耗也相应增大。在现实的无约束环境中，面部特征点定位实际上并不是一个单独的任务，它也会被各种各样的因素干扰着，如：头部的摆动、性别的差异，都会影响特征点定位的准确性。

发明内容

本发明实施例主要解决的技术问题是提供一种多任务学习深度网络的训练方法，能够改善多任务学习网络的性能。

为解决上述技术问题，本发明实施例采用的一个技术方案是：提供一种多任务学习深度网络的训练方法，该训练方法包括：

将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层，从所述若干层卷积层和池化层分别输出相应的第一运算结果；

将所述第一运算结果输入所述多任务学习深度网络的特征融合全链接层，输出特征融合数据；

将所述特征融合数据输入与所述多任务学习中的每个任务对应的全链接层分别进行每个任务的学习，分别输出每个任务对应的预测结果；

利用所述预测结果和所述训练集标记的特征信息，修正所述多任务学习深度网络。

为解决上述技术问题，本发明实施例采用的另一个技术方案是：提供一种多任务学习深度网络的训练设备，该训练设备包括：

相互连接的存储器和处理器；

所述存储器存储有训练集、构建的多任务学习深度网络以及程序数据；

所述处理器用于根据所述程序数据，执行上述的训练方法，利用所述训练集对所述多任务学习深度网络进行训练。

为解决上述技术问题，本发明实施例采用的又一个技术方案是：提供一种存储介质，该存储介质存储有程序数据，所述程序数据能够被执行以实现上述的多任务学习深度网络的训练方法。

本发明实施例的有益效果是：在本发明实施例的多任务学习深度网络的训练方法，通过将训练集输入多任务学习深度网络中，从多任务学习深度网络中的若干层卷积层和池化层分别输出相应的第一运算结果，并将输出的第一运算结果进行特征融合，利用特征融合数据进行多任务学习中的每个任务的学习，分别输出每个任务对应的预测结果；利用所述预测结果和所述训练集标记的特征信息，修正所述多任务学习深度网络。本实施例利用特征融合的方式将多任务学习深度网络中的多个卷积层和池化层输出的运算结果进行特征融合，利用特征融合数据进行多任务学习，进而提高多任务学习中每个任务的检测精度，改善多任务学习网络的性能。

附图说明

图1是本发明多任务学习深度网络的训练方法第一实施例的流程示意图；

图2是图1中步骤S101的一实施方式的流程示意图；

图3是图1中步骤S101的另一实施方式的流程示意图；

图4是本发明的多任务学习深度网络一实施例的结构示意图；

图5是本发明多任务学习深度网络的训练方法第二实施例的流程示意图；

图6是本发明多任务学习深度网络的训练方法第三实施例的流程示意图；

图7是图6中步骤S101的又一实施方式的流程示意图；

图8是本发明多任务学习深度网络的训练设备一实施例的结构示意图；

图9是本发明多任务学习深度网络的训练设备另一实施例的结构示意图；

图10是本发明多任务学习深度网络的测试方法第一实施例的流程示意图；

图11是图10中步骤S201的一实施方式的流程示意图；

图12是本发明二级级联卷积神经网络的第一级神经网络一实施例的结构示意图；

图13是本发明二级级联卷积神经网络的第二级神经网络一实施例的结构示意图；

图14是本发明多任务学习深度网络的测试方法第二实施例的流程示意图；

图15是本发明多任务学习深度网络测试方式的第三实施例的流程示意图；

图16是本发明多任务学习深度网络测试方式的第四实施例的流程示意图；

图17是本发明多任务学习深度网络的测试设备一实施例的结构示意图；

图18是本发明存储介质一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明多任务学习深度网络的训练方法第一实施例的流程示意图。如图1所示，本实施例的多任务学习深度网络的训练方法至少可包括如下步骤：

在步骤S101中，将训练集输入多任务学习深度网络中进行多任务学习，输出多任务学习的预测结果。

本实施例中，将训练集的图像作为训练的数据源输入已经经过初步构建的多任务学习深度网络，由初步构建的多任务学习深度网络对训练集中包含的图像进行多任务学习，并得到多任务学习的预测结果。

本实施例中，多任务学习包括特征点定位任务、特征点可见性预测任务、人脸检测任务以及性别识别任务。由此，初步构建的多任务学习深度网络会相应输出训练集中包含的图像的人脸中的特征点定位结果、特征点可见性预测结果、人脸检测结果以及性别识别结果。

本实施例中，以AFLW数据集作为训练集为例，对初步构建的多任务学习网络进行训练。AFLW数据集包括大部分自然状态下的人脸图像，拥有十分巨大的信息量，且AFLW数据集中为每张人脸都提供了21个特征点的标注，此外，AFLW数据集中还标记了人脸框、头部姿态以及性别信息。AFLW数据集包含有25993张已经被人工标注的人脸图像，其中男性占41％，女性占59％，并且多数图像为彩色图像，仅小部分图像为灰度图像。本实施例中，将AFLW数据集中大部分图像均用作多任务学习深度网络的训练集，还有小部分图像则可保留用于对训练后的多任务学习深度网络进行测试，以判断训练后的多任务学习深度网络是否满足所需的精确度。

在步骤S102中，将预测结果与训练集中的标记结果进行比对，根据比对结果得到与多任务学习对应的损失值。

在步骤S101中可以得到初步构建的多任务学习深度网络进行特征点定位任务、特征点可见性预测任务、人脸检测任务以及性别识别任务而得到的每个任务对应的预测结果。本步骤则将得到的预测结果与训练集中的图像上的标记结果进行比对，进而分别得到多任务学习中每个任务执行的对应的损失值。

在步骤S103中，将损失值反馈至多任务学习深度网络中，修正多任务学习深度网络。

每个任务对应的损失值表征了多任务学习中每个任务对应的精确度，将该损失值参与反向传播，进而可以得到在多任务学习深度网络中上一层网络的误差，进而对多任务学习深度网络进行修正，最终得到修正后的多任务学习深度网络，即得到训练后的多任务学习深度网络。

进一步请参阅图2，图2是图1中步骤S101的一实施方式的流程示意图。如图2所示，步骤S101至少可包括如下步骤：

在步骤S1011中，将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层，并从若干层卷积层和池化层中的多个卷积层和/或多个池化层分别输出相应的第一运算结果。

本实施例中，初步构建的多任务学习深度网络是以AlexNet网络的网络结构作为基础进行改进构建得到的。

多任务学习深度网络中包含有若干个级联的卷积层和池化层，以对输出的数据进行卷积运算或池化操作，本实施例中，池化层的池化操作均为最大池化操作。每个卷积层和每个池化层均能够通过相应运算得到相应的运算结果，这些运算结果即为对应的特征信息。本实施例中，从若干层级联的卷积层和池化层中选择部分卷积层和/或部分池化层作为运算结果的输出层，即从若干层卷积层和池化层中分别提取出多个卷积层和/或多个池化层的相应的运算结果，并将提取出的运算结果作为第一运算结果。

进一步的，由于每个卷积层和每个池化层输出的运算结果包含的特征信息不完全相同，因此通过提取多个卷积层和/或多个池化层的相应的运算结果以使得到的第一运算结果能够满足多任务学习所需的信息量的需求。

在多任务学习深度网络中，较浅层的卷积层和池化层输出的运算结果包含更多的边缘信息和角点信息，有利于特征点定位任务的学习；较深层的卷积层和池化层输出的运算结果包含更多的整体信息，则更有利于进行人脸检测、性别识别等较复杂的任务的学习。由此，本实施例中，多个卷积层和/或多个池化层至少包括若干层较浅层的卷积层和/或池化层，以及若干层较深层的卷积层和/或池化层，以使得到的第一运算结果即包含足够的边缘信息和角点信息，也包含一定的整体信息，以使提取的信息能够较好的进行多任务学习，具体提取的层数则需要根据最终的预测结果等进行调整，以避免第一运算结果包含的信息量过大。

在步骤S1012中，将第一运算结果输入特征融合全链接层，输出特征融合数据。

在分别提取出相应的第一运算结果之后，由于多个卷积层和/或池化层包含的信息量较大，无法直接进行多任务学习，需要对提取出的多个相应的第一运算结果进行特征融合，将其映射到一个子空间，进而改善网络性能。

本实施例中，将步骤S1011中得到的多个相应的第一运算结果输出到多任务学习深度网络中的特征融合全链接层，通过特征融合全链接层对输入的多个相应的第一运算结果进行特征融合，并输出特征融合数据。

在步骤S1013中，将特征融合数据输入与多任务学习中的每个任务对应的全链接层分别进行每个任务的学习，分别输出每个任务对应的预测结果。

将经过特征融合后得到特征融合数据进一步输入多任务学习深度网络中的每个任务对应的全链接层，与每个任务对应的全链接层对输入的特征融合数据进行特征分类，并分别链接到每个任务对应的分支，进而得到每个任务的预测结果。

进一步请参阅图3，如图3所示，在步骤S101的另一实施方式中，步骤S1011得到多个卷积层和/或池化层分别输出的相应的第一运算结果之后，还可包括如下步骤：

在步骤S1014中，将第一运算结果的至少部分分别输入对应的子卷积层，输出对应的具有相同维度的第二运算结果。

本实施例中，多任务学习深度网络中级联的若干层卷积层和池化层输出的特征数据(即特征图)的尺寸不同，因为步骤S1011中从多个卷积层和/或多个池化层中分别输出的相应的第一运算结果的尺寸不同，他们不能直接进行连接。由此，本实施例将步骤S1011中得到的各个卷积层和/或池化层分别输出至少部分相应的第一运算结果输入对应的子卷积层中，每个子卷积层的卷积核大小与其输入的对应的第一运算结果的尺寸对应，以得到具有相同维度的第二运算结果。

可以理解的是，较深层的卷积层和较深层的池化层输出的运算结果的尺寸大于较浅层的卷积层和较深层的池化层输出的运算结果的尺寸；且层数越深的卷积层和池化层，其输出的运算结果的尺寸越大。由此，可以将输出第一运算结果的最深层的卷积层或池化层输出的第一运算结果的尺寸作为尺寸调节的标准尺寸，将之前的每个卷积层或池化层输出的尺寸均调节为该标准尺寸。例如，若最深层的卷积层或池化层输出的第一运算结果的尺寸为6x6x256，则将最深层的卷积层或池化层之前的卷积层或池化层输出的第一运算结果均调节为6x6x256。

在步骤S1015中，将具有相同维度的第二运算结果输入全卷积层，输出降维处理后的第三运算结果。

本实施例得到相同维度的第二运算结果输出一全卷积层中，该全卷积层的卷积核为1x1，进而对第二运算结果进行降维处理，输出降维处理后的第三运算结果，并将降维处理后得到的第三运算结果作为第一运算结果输入到特征融合全链接层，继续进行步骤S1012和步骤S1013。

进一步，请参阅图4，图4是本发明的多任务学习深度网络一实施例的结构示意图。如图4所示，本实施例的多任务学习深度网络(虚线框内)首先包括若干级联的卷积层和池化层，本实施例中，每个池化层还会经过正则化处理；根据其级联顺序定义为第一层卷积层(conv1)、第一层池化层(pool1)、第二层卷积层(conv2)、第二层池化层(pool2)等如此类推，本实施例以级联到第五池化层(pool5)为例。训练集输入上述的级联的卷积层和池化层中，并从第一层池化层、第三层卷积层和第五层池化层输出相应的第一池化运算结果、第一卷积运算结果和第二池化运算结果，本实施例中第一层池化层、第三层卷积层和第五层池化层的运算核的尺寸均为3x3，相应的，第一池化运算结果、第一卷积运算结果和第二池化运算结果的尺寸分别为27x27x96、13x13x384、6x6x256。其中，以第二池化层输出的第二池化运算结果的尺寸(6x6x256)为尺寸调节的标准，将尺寸为27x27x96的第一池化运算结果输入卷积核为4x4的子卷积层(conv1a)，将尺寸为13x13x384的第一卷积运算结果输入卷积核为2x2的子卷积层(conv3a)，进而通过子卷积层(conv1a)和子卷积层(conv3a)将第一池化运算结果和第一卷积运算结果的尺寸均调节为6x6x256，并将调节后具有相同维度的运算结果作为第二运算结果。进一步参阅图4，将第二运算结果输入到卷积核为1x1的全卷积层(conv_all)中，进而对第二运算结果进行降维处理，得到尺寸为6x6x192的第三运算结果。之后，将第三运算结果输入一个3072维特征向量的特征融合全链接层(fc_full)，之后再链接到与每个任务(特征点定位任务、特征点可见性预测任务、人脸检测任务以及性别识别任务)对应的全链接层，与每个任务对应的全链接层的维度均为512，用于对每个任务进行学习训练。

本发明通过上述多任务学习深度网络对特征点定位任务、特征点可见性预测任务、人脸检测任务以及性别识别任务分别进行学习，一方面通过在多任务学习深度网络中添加与特征点定位相关的特征点可见性预测任务、人脸检测任务以及性别识别任务，实现提高特征点定位的精度，同时能够进行其他任务的执行。另一方面，本实施例的多任务学习深度网络采用特征融合技术，将多个卷积层和/或池化层输出的特征图进行特征融合，进而得到足够的特征点定位任务所需的数据信息。本实施例的多任务学习深度网络对图像中的姿态变换、极端光照、夸张表情和部分遮挡等变化复杂的情况具有较高的鲁棒性，具有优异的性能，实现了较高的精度和较好的性能。

进一步，本实施例的多任务学习深度网络的训练方法在所有卷积层和全链接层之后，都添加了非线性激活函数，本实施例以修正线性单元(Rectified linear unit，ReLU)激活函数为例。进一步，本实施例的多任务学习深度网络没有在融合网络中增加任何池化操作，因为池化操作提取的特征对局部信息具有尺度不变形，而这一特性是特征点定位任务所不需要的。

进一步，请参阅图5，图5是本发明多任务学习深度网络的训练方法第二实施例的流程示意图，本实施例是图1至图3所示的训练方法第一实施例的基础上进行改进得到的，其多任务学习深度网络的结构如图4所示。如图5所示，本实施例在步骤S101之前还可包括如下步骤：

在步骤S104中，利用AlexNet网络进行人脸检测任务的训练，得到与人脸检测任务对应的权重。

本实施例中，在对多任务学习深度网络进行训练之前，需要对该网络进行初始化，初始化使用的权重则是有已有的AlexNet网络进行人脸检测任务得到的。其中，AlexNet网络是在2012年被提出的神经网络结构模型。

在步骤S105中，利用权重初始化多任务学习深度网络。

本实施例中即可根据步骤S104得到的权重对本发明提出的多任务学习深度网络进行初始化。

在训练深度网络时，若采用随机初始值，可能会是深度网络中的隐藏层神经元处于饱和状态，此时，在权重中进行微小的调整仅仅会给隐藏层神经元的激活值带来极其微弱的改变，而这种微弱的改变也会影响网络中剩下的神经元，然后会带来相应的代价函数的改变，最终的结果是，这些权重在网络进行梯度下降算法时会学习得十分缓慢。而通过改变权重的分布，对网络进行初始化则可对网络进行改善。

进一步，请参阅图6，图6是本发明多任务学习深度网络的训练方法第三实施例的流程示意图，本实施例是图1至图3所示的训练方法第一实施例的基础上进行改进得到的。如图6所示，本实施例在步骤S101之前还可包括如下步骤：

在步骤S106中，计算训练集中的图像的预测人脸区域。

本实施例中，在将训练集输入多任务学习深度网络中之前，通过RCNN网络为训练集中的图像计算预测人脸区域。本实施例对于计算预测人脸区域采用的算法为选择性搜索算法。

本实施例还可以与图5所示的多任务学习深度网络的训练方法第二实施例进行结合，需要说明的是，步骤S106与步骤S104和步骤S105之前没有必然的先后顺序关系。

进一步，请参阅图7，在图6所示的多任务学习深度网络的训练方法第三实施例的基础上，步骤S101执行的将训练集输入多任务学习深度网络中进行多任务学习可以进一步包括如下步骤：

在步骤S1016中，将训练集输入多任务学习深度网络中，比较预测人脸区域与训练集中的图像上已标记的标记人脸区域，得到比对结果。

训练集输入值多任务学习深度网络，其中，根据上述对训练集的说明可知，训练集中包含的图像已经通过人工对人脸区域进行了标记，将人工标记的人脸区域作为标记人脸区域。本实施例中，训练集输入至多任务学习深度网络之后，在进行多任务学习的每个任务的学习时，需要将步骤S106计算得到的预测人脸区域与该标记人脸区域进行比对，进而得到比对结果，以根据对比结果从预测人脸区域中筛选出满足每个任务对应的预设条件的预测人脸区域。

本实施例中，该比对结果为预测人脸区域与该标记人脸区域的重叠度，该重叠度能够反映出预测人脸区域与标记人脸区域之间的契合程度。

在步骤S1017中，根据比对结果，选择满足预设条件的预测人脸区域作为检测人脸区域。

通过步骤S1016能够得到计算的每个预测人脸区域与相应的标记人脸区域的重叠度，本实施例为多任务学习中的每个任务均设置了相应的预设条件，即与每个任务对应的全链接层仅对满足预设条件的预测人脸区域进行相应的任务的学习。

本实施例将预测人脸区域中满足预设条件的人脸区域作为检测人脸区域，由于每个任务对应的预设条件可能不同，因此对于每个任务而言，其筛选出的相应的检测人脸区域可能不同。

在步骤S1018中，对检测人脸区域进行多任务学习。

根据步骤S1017得到的与每个任务对应的检测人脸区域后，即可令与每个任务对应的全链接层对筛选出的相应的检测人脸区域进行相应的任务学习。

可以理解的是，本实施例中认可在步骤S101中执行图2和图3所示的在与每个任务对应的全链接层进行相应任务的学习之前的步骤。

对本发明的多任务学习深度网络的多任务学习中每个任务的训练进行举例说明：

对于人脸检测任务，与其相应的预设条件为预测人脸区域与标记人脸区域的重叠度大于0.5，或预测人脸区域与标记人脸区域的重叠度小于0.35，换言之，本实施例中将与标记人脸区域的重叠度大于0.5或与标记人脸区域的重叠度小于0.35的预测人脸区域进行人脸检测任务。将与标记人脸区域的重叠度大于0.5的检测人脸区域作为正样本，将于与标记人脸区域的重叠度小于0.35的检测人脸区域作为负样本，其公式如下：

loss_D＝-(1-l)·log(1-p)-l·log(p)；

其中，loss_D为损失函数，本实施例中loss_D为softmax函数；对于正样本，其l的值为1；对于负样本，其l的值为-1；p表示该检测人脸区域属于人脸的概率。本实施例可以设置人脸概率阈值，将计算得到的p值与人脸概率阈值进行比较，大于和/或等于人脸概率阈值的p值对应的检测人脸区域被认为是人脸，小于人脸概率阈值的p值对应的检测人脸区域被认为是非人脸，由此进行人脸检测任务的学习。

对于特征点定位任务，本实施例使用了AFLW数据集中已经标记好的21个面部的特征点。本实施例中与特征点定位任务相应的预设条件为预测人脸区域与标记人脸区域的重叠度大于0.35，即将与标记人脸区域的重叠度大于0.35的预测人间区域作为进行特征点定位任务的学习的检测人脸区域。其中，检测人脸区域用{x,y,w,h}表示，(x,y)是检测人脸区域的中心的坐标，w和h分别为检测人脸区域的宽与高。每个特征点相对于检测人脸区域的中心(x,y)进行偏移，用(w,h)对特征点的坐标做归一化处理：

其中，(x_i,y_i)代表人脸的特征点的坐标，(a_i,b_i)表示人脸的特征点的坐标经过归一化处理后的相对值。

本实施例中将不可见的特征点的坐标设置为(0，0)，对于可见的特征点则使用预定损失函数进行特征点定位任务的学习，其公式如下：

其中，loss_L为损失函数，本实施例中损失函数为欧几里德函数；N为特征点的数量(AFLW数据集中，特征点的数量为21)；为对应的预测特征点的坐标进行归一化后的相对坐标。v_i表示特征点的可见性因子，若v_i等于1，则表示该特征点在该检测人脸区域内可见，若v_i等于0，则表示该特征点在该检测人脸区域内不可见，本实施例中不可见特征点不参与反向传播。

有上述两个计算公式，根据对应的预测特征点的坐标进行归一化后的相对坐标、特征点数量、检测人脸区域的坐标以及宽和高，最终计算得到特征点的坐标值。

对于特征点可见性，本实施例通过学习特征点的可见性因子，以预测特征点能否可见。本实施例中与特征点可见性预测任务相应的预设条件为预测人脸区域与标记人脸区域的重叠度大于0.35，即将与标记人脸区域的重叠度大于0.35的预测人脸区域作为检测人脸区域，进行特征点可见性预测任务的学习。公式如下：

其中，loss_V为损失函数，本实施例中为欧几里德函数；N为特征点的数量(AFLW数据集中，特征点的数量为21)；若特征点可见，则其可见性因子v_i为1，若特征点不可见，则其可见性因子为0，由此计算特征点能够可见的预测值

对于性别识别任务，本实施例中与其相应的预设条件为预测人脸区域与标记人脸区域的重叠度大于0.5，即将与标记人脸区域的重叠度大于0.5的预测人脸区域作为检测人脸区域，进行性别识别任务的学习，其公式如下：

loss_G＝-(1-g)·log(1-p₀)-g·log(p₁)

其中，loss_G为损失函数，本实施例可以采用交叉熵损失函数；(p₀,p₁)为一个二维概率向量，有网络计算获得，如果性别为男性，则g＝0，若性别为女性，则g＝1。

进一步，本实施例的多任务学习深度网络的全局损失函数为每个任务的单独的损失值的加权和，计算公式如下：

其中，loss_t是相应的第t个任务的损失值，权重参数λ_t是由每个任务在总损失中的重要性来决定的，本实施例中λ_D＝1、λ_L＝5、λ_V＝0.5、λ_G＝2，分别表示人脸检测任务、面部特征点定位任务、特定点可见性预测任务以及性别识别任务。

可以理解的是，上述每个任务的学习均是在其对应的全链接层中进行的，与每个任务对应的全链接层链接各自对应的损失函数，仅进行上述的每个任务的学习。

进一步，请参阅图8，图8是本发明多任务学习深度网络的训练设备一实施例的结构示意图。如图8所示，本实施例的多任务学习深度网络的训练设备100包括相互连接的存储器101和处理器102，其中，存储器101存储有已经构建的多任务学习深度网络以及相应的程序数据，此外，存储器101还可以存储用于训练该多任务学习深度网络的训练集。处理器102用于根据程序数据，执行图1至图7所示的多任务学习深度网络的训练方法第一实施例至第三实施例的任意实施例，完成对多任务学习深度网络进行训练。

进一步，如图9所示，在另一实施例中，训练设备200还可以包括通过总线与存储器101和/或处理器102连接的通信电路103，该通信电路103用于获取训练集，并将训练集输入处理器，此时训练集可以不用存储在存储器101中。

进一步，本发明还提出了多任务学习深度网络的测试方法。请参阅图10，图10是本发明多任务学习深度网络的测试方法第一实施例的流程示意图。如图10所示，本实施例的多任务学习深度网络的测试方法至少可包括如下步骤：

在步骤S201中，将待测图像输入二级级联卷积神经网络，输出待测图像中包含的第一待测人脸区域。

本实施例中，待测图像可以为训练集中未用于多任务学习深度网络的训练的图像，也可以是其他数据集中的图像；例如，上述的AFLW数据集，在对多任务学习深度网络进行训练时，使用了AFLW数据集中的25000张图像，则将未用于训练的993张图像用作待测图像。

进一步，本实施例通过在将待测图像输入经过训练的多任务学习深度网络之前，先通过二级级联卷积神经网络对输入的待测图像进行处理，得到待测图像中包含的第一待测人脸区域。值得注意的是，该第一待测人脸区域是在多任务学习深度网络的测试过程中由二级级联卷积神经网络得到的，与图6中所示的步骤S106中，多任务学习深度网络在训练过程中计算得到的预测人脸区域并不相同。

在步骤S202中，将第一待测人脸区域输入多任务学习深度网络，从第一待测人脸区域中选择满足预设条件的第二待测人脸区域，输出对第二待测人脸区域进行人脸检测、特征点定位、特征点可见性预测以及性别识别的检测结果。

将得到第一待测人脸区域的待测图像输入经过训练的多任务学习深度网络中，令多任务学习深度网络从第一待测人脸区域中选择满足预设条件的第二待测人脸区域，进而对第二待测人脸区域进行多任务中每个任务的测试，最终输出人脸检测、特征点定位、特征点可见性预测以及性别识别的检测结果。

进一步，本实施例中多任务学习深度网络接受由二级级联卷积神经网络得到的第一待测人脸区域后，对第一待测人脸区域进行计算，得到每个第一待测人脸区域的相应的检测分数，根据该检测分数从第一待测人脸区域中筛选出第二待测人脸区域。其中，筛选是将每个第一待测人脸区域相应的检测分数与预设分数阈值进行比较，筛选出大于预设分数阈值的检测分数所对应的第一待测人脸区域，将筛选出的第一待测人脸区域作为输入多任务学习深度网络的第二待测人脸区域。其中，预设分数阈值可以根据实际需求进行调整，本实施例中预设分数阈值可以为0.4、0.5或0.6。

本实施例中，将第一待测人脸区域的待测图像输入经过训练的多任务学习深度网络中后，对第二待测人脸区域进行多任务中每个任务的测试，多任务学习深度网络的执行内容与多任务学习深度网络的训练过程所执行内容相似，将第一待测人脸区域的待测图像输入经过训练的多任务学习深度网络进行多任务学习检测的具体内容请参照图1至图6所示的多任务学习深度网络的训练方法第一实施例至第三实施例的任意一个。

进一步的，在进行特征点定位和特征点可见性预测任务的测试时，需要对特征点的坐标进行变换，将其变化为原始图像中的坐标，使用的变换公式如下所示：

其中，是预测的第i个特征点的相对位置。

本实施例在对经过训练的多任务学习深度网络进行测试时，在多任务学习深度网络之前添加了二级级联卷积神经网络，通过二级级联卷积神经网络对输入的待测图像进行检测人脸区域的确定，从待测图像中得到第一待测人脸区域，进而使多任务学习深度网络可以根据第一待测人脸区域进行更加准备的多任务的检测，提高多任务中每个人物的检测精度。本实施例的多任务学习深度网络对图像中的姿态变换、极端光照、夸张表情和部分遮挡等变化复杂的情况具有较高的鲁棒性，具有优异的性能，实现了较高的精度和较好的性能。

进一步，请参阅图11，图11是图10中步骤S201的一实施方式的流程示意图。如图11所示，步骤S201可包括如下步骤：

在步骤S2011中，将待测图像输入二级级联卷积神经网络的第一级神经网络，输出分别标记为人脸区域和非人脸区域的若干个候选检测窗口。

本实施例中，该步骤由二级级联卷积深度网络中的第一级神经网络进行的。待测图像输入二级级联卷积神经网络的第一级神经网络中，该第一级神经网络包含若干级联的卷积层和池化层，每个卷积层和池化层逐步对待测图像进行相应的运算，最终将输出的图像分为两类，并对两类图像进行标记，即分别输出的标记为的人脸区域和非人脸区域的若干个候选检测窗口，该若干个候选检测窗口会被输入第二级神经网络中进行后续处理。

请参阅图12，如图12所示，本实施例的第一级神经网络包含的若干级联的卷积层和池化层可以包括：第一层卷积层(conv1)，第二层池化层(pool1)、第三层卷积层(conv2)以及第四层卷积层(conv3)。其中，第一层卷积层的卷积核尺寸为3x3，由于同其他分类和多目标检测任务相比，确定面部候选区域本质上是一个具有挑战性的二值分类任务，因此每层可能需要较少的卷积核数目，因此采用3x3大小的卷积核可以减少计算量，同时添加神经网络的深度，进而使神经网络的性能得到进一步改善。第二层池化层的池化核的尺寸为2x2，采用最大池化操作。第三层卷积层的卷积核的尺寸为3x3。第四层卷积层的卷积核的尺寸为1x1，将卷积核的尺寸设置为1x1可以令神经网络能够完成跨通道的信息交互和信息整合，且可以对卷积核通道数实行降维和/或升维处理。

在其他实施方式中，二级级联卷积神经网络的第一级神经网络在输出标记为人脸区域和非人脸区域的若干个候选检测窗口的同时，还可以输出边界框回归向量。

在步骤S2012中，将若干个候选检测窗口输入二级级联卷积神经网络中的第二级神经网络，通过第二级神经网络丢弃标记为非人脸区域的候选检测窗口，并对标记为人脸区域的候选检测窗口进行边界框回归处理，输出边界框回归处理后的第一候选人脸区域，将第一候选人脸区域作为第一待测人脸区域。

本实施例中，该步骤由二级级联卷积神经网络的第二级神经网络进行。将步骤S2011中得到的若干个候选检测窗口输入第二级神经网络，此时若干个候选检测窗口标记有人脸区域和非人脸区域，此时，第二级神经网络则从若干个候选检测窗口中丢弃标记为非人脸区域的候选检测窗口，保留标记为人脸区域的候选检测窗口。进一步，对候选检测窗口进行边界框回归处理，进一步得到边界框回归处理后的第一候选人脸区域，并将第一候选人脸区域作为第一待测人脸区域输入多任务学习深度网络中，以进行多任务学习深度网络的测试。本实施例中，输出的第一候选人脸区域包括有该区域在图像中的位置信息。

可以理解的是，第一级神经网络中得到的若干个标记的人脸区域，可能对同一个人脸会标记出几个甚至几十个或者更多的人脸区域，则在第二级神经网络中，对同一个人脸的多个人脸区域进行边界框回归，减少对同一个人脸的人脸区域，且提高得到的人脸区域与图像中的人脸的匹配精度，此时进行边界框回归处理时可使用第一级神经网络输出的边界框回归向量。

请参阅图13，如图13所示，第二级神经网络同样可包含若干级联的卷积层和池化层，例如级联的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层、第五层卷积层以及全链接层。其中，第一层卷积层和第三层卷积层的卷积核的尺寸为3×3；第五层卷积层的卷积核的尺寸为2×2；第二层池化层和第四层池化层的卷积核的尺寸为3×3，且均采用最大池化操作；全链接层为128维特征向量的全链接层。

根据图12和图13所示，由于第一级神经网络和第二级神经网络输入的图像的尺寸不同，因此在将待测图像输入第一神经网络，以及将第一候选人脸区域输入第二级神经网络之前，需要分别对待测图像以及第一候选人脸区域进行尺寸调整。

进一步，请参阅图14，图14是本发明多任务学习深度网络的测试方法第二实施例的流程示意图。如图14所示，本实施例中，在图10的步骤S201之后，还可以包括如下步骤：

在步骤S203中，将第一待测人脸区域中重叠度高于预设重叠度第一待测人脸区域进行合并，得到合并后的最终待测人脸区域。

可以理解的是，二级级联卷积神经网络中得到的第一待测人脸区域中，可能对同一个人脸会得到几个、几十个甚至更多的第一待测人脸区域。进而在本实施例中，可以认为二级级联卷积神经网络得到的第一待测人脸区域中重叠度较高的第一待测人脸区域是由同一个人脸得到的，因此，可以将重叠度较高的第一待测人脸区域进行合并，以减少第一待测人脸区域的数量，并提高检测精度。

进一步的，本实施例将二级级联卷积神经网络得到的第一待测人脸区域进行比对，得到多个第一待测人脸区域之间相互的重叠度，将重叠度高于预设重叠度的两个或多个第一待测人脸区域进行合并，进而得到最终待测人脸区域。将得到的最终待测人脸区域输入多任务学习深度网络以进行后续的测试步骤。

本实施例中，可以通过非极大值抑制算法(non maximum suppression，NMS)来对第一待测人脸区域进行合并，非极大值抑制算法涉及从第一待测人脸区域中选择评分最高的区域并且丢弃所有大于特定阈值的重叠的其他区域，并将选择的区域缩放至预设的尺寸，本实施例中该预设的尺寸为227x227。此外，预设重叠度可以根据实际需要进行调节。

在另一实施方式中，步骤S203也可以在步骤S1012之后执行，即在步骤S1012得到边界框回归处理后的第一候选人脸区域之后，通过非极大值抑制算法(non maximumsuppression，NMS)来对第一候选人脸区域进行合并。本实施例中通过NMS得到最终待测人脸区域的处理流程如下：

在上述的处理流程中，分数重置函数Si如下所示：

在上述公式中，为了判别相邻的第一候选人脸区域是否能够保留，NMS使用了硬阈值的方法。最终完成得到合并后的最终待测人脸区域。

进一步，请参阅图15，图15是本发明多任务学习深度网络测试方式的第三实施例的流程示意图。如图15所示，本实施例中，在图10的步骤S201之后，还可以包括如下步骤：

在步骤S204中，调整第一待测人脸区域的尺寸，将第一待测人脸区域的尺寸调整为多任务学习深度网络允许的预设人脸区域尺寸。

由于多任务学习深度网络对输入的待测人脸区域的尺寸具有要求，因此，本实施例中，在得到二级级联卷积神经网络得到第一待测人脸区域后，对第一待测人脸区域进行尺寸调整，将其调整为多任务学习深度网络允许的预设人脸区域尺寸。此时，合并第一待测人脸区域为合并尺寸调整后的第一待测人脸区域。

进一步，步骤S204可以在步骤S203之后执行，即对经过合并的最终待测人脸区域的尺寸进行调整，将其调整为多任务学习深度网络允许的预设人脸区域尺寸。

进一步，请参阅图16，图16是本发明多任务学习深度网络测试方式的第四实施例的流程示意图。如图16所示，本实施例找那个，在图10的步骤S201之前，还可以包括如下步骤：

在步骤S205中，调整待测图像的尺寸，将待测图像的尺寸调整为二级级联卷积神经网络允许的待测图像的尺寸。

本实施例在将待测图像输入二级级联卷积神经网络的第一级神经网络之前，对待测图像进行不同的尺寸变化其中初始缩放尺度为其中，S为第一待测人脸区域的最小尺寸，12为第一级神经网络能够接受的第一待测人脸区域的最小尺寸。本实施例中，对待测图像的处理流程可如下所示：

其中，损失函数分成两个部分，分别关于人脸分类和人脸区域的回归。交叉熵损失函数来对标记为人脸区域或非人脸区域进行分类，对于每个样例x_i，其公式如下所示：

其中，表示背景的实际标签，p_i则表示该样例x_i是人脸的概率。

其中，利用平方损失函数来进行边界框回归处理，实际上回归损失是用欧氏距离来求解的，其公式如下：

其中，代表用网络预测获得的坐标，而表示实际的背景坐标。y^box是由左上角的横坐标，左上角的纵坐标，长和宽形成的四元组组成。

本实施例的多任务学习深度网络实际上可以认为是一个三级网络，其损失函数包含了人脸分类和边界框回归两个部分，因此需要对两个部分训练两个损失函数，对每个损失函数按不同币种分配形成最终的目标函数。本实施例的最终目标函数如下所示：

损失函数的整个训练过程本质上是最小化上述函数的过程，其中，αj代表对应任务的重要性，N表示训练样本数量，在第一级神经网络和第二级神经网络中α_det＝1，α_box＝0.5。表示样本标签。

进一步，对本发明的多任务学习深度网络进行人脸检测、特征点定位、特征点可见性预测以及性别识别的检测精度进行说明：

本实施例的人脸检测的检测精度主要使用脸部检测及标准数据库(FaceDetection Data Set and Benchmark，FDDB)来评估相应的性能。FDDB数据库有245张图像和5171张有标签的人脸组成，有马萨诸塞州大学提供，为了公平，FDDB提供统一的评测代码。根据测试结果，本实施例的多任务学习深度网络在误检个数为100时，其测试精度能够达到86.61％，仅比最优精度88.53％略低(由用于检测人脸的深锥体可变形零件模型(DeepPyramid Deformable Parts Model for Face Detection，DP2MFD model)测试得到)，随着误检个数的增加，本实施例的多任务学习深度网络的人脸检测的测试精度也相应上升，当误检个数为250时，其测试精度可以高达到90.1％。对于多任务学习深度网络的人脸检测而言，FDDB数据集是十分具备挑战性的，因为数据集包含许多小而模糊的面孔，首先，将图像调整为227x227的输入尺寸，会使面部产生失真，导致检测分数降低。尽管存在这些问题，本实施例的多任务学习深度网络仍然取得比较好的测试效果。

通过AFLW数据集评估本实施例的多任务学习深度网络的人脸检测的性能。AFLW数据集是由1000张含有1132个人脸样本的图片组成。只有当重叠度大于预设阈值(本实施例可以设置为0.5)时，才将其作为人脸测试的数据集，计算出与待测人脸区域对应的预测特征点的平均位置。从AFLW数据集中随机创建450个样本的子集，并按照偏转角度分为[0°，30°]，[30°，60°]和[60°，90°]这三组，每个占1/3。利用归一化平均误差来评估定位精度，但是由于本发明的方法涉及到特征点的可见性，其可见特征点归一化估计误差的平均值，如下所示：

其中，U_i代表实际的特征点坐标，v_i是特征点对应的可见性，为预测的特征点坐标，N_t表示测试图片数目。其中|v_i|₁是第i个图片可见特征点的数目，U_i(:,j)是U_i的第j列，d_i为人脸边界框尺寸的平方根。值得留意的是，当人脸图像接近正面时，d_i在大多情况下是使用瞳孔中心的距离，然而考虑到AFLW数据集中包含不可见特征点，所以d_i使用人脸边界框尺寸。本实施例的多任务学习深度网络的测试方法相对于现有的方法，仍能取得较好的结构。

通过CelebA数据集和LFWA数据集来对性别识别进行评估，这些数据集包含了性别信息。CelebA和LFWA数据集分别包含Celeb Faces和LFWA数据集中选择的标记图像。CelebA数据集包含10000个身份，总共有20万张图像。LFWA数据集包含5327个身份，总共有13233张图像。本实施例的多任务学习深度网络在CelebA数据集上取得了97％的精确度，在LFWA数据集上取得了93％的精确度。

进一步，请参阅图17，图17是本发明多任务学习深度网络的测试设备一实施例的结构示意图。如图17所示，本实施例多任务学习深度网络的的测试设备300至少可包括相互连接的存储器301、通信电路303和处理器302；存储器301存储有二级级联卷积神经网络、多任务学习深度网络以及程序数据；通信电路303用于获取待测图像；处理器302用于根据程序数据，执行上述的多任务学习深度网络的测试方法，利用二级级联卷积神经网络和多任务学习深度网络对待测图像进行人脸检测、特征点定位、特征点可见性预测以及性别识别。在另一实施方式中，训练集也可以直接存储在存储器301中。

另一方面，请参阅图18，图18是本发明存储介质一实施例的结构示意图。如图18所示，本实施例的存储介质400中存储有至少一个程序或指令401，程序或指令401用于执行如图1至图7所示的多任务学习深度网络的训练方法第一实施例至第三实施例中任意实施例和/或图10至图16所示的多任务学习深度网络的测试方法第一实施例至第三实施例中的任意实施例。

在一个实施例中，存储介质400可以是图8、图9或图17中的存储器，本实施例的存储介质400可以是存储芯片、还可以是硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，此外，存储介质还可以是服务器等等。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多任务学习深度网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，所述多任务学习包括特征点定位任务、特征点可见性预测任务、人脸检测任务以及性别识别任务。

3.根据权利要求1所述的训练方法，其特征在于，所述将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层，从所述若干层卷积层和池化层分别输出相应的第一运算结果的步骤，包括：

将所述训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层，从所述若干层卷积层和池化层中的多个卷积层和/或多个池化层分别输出相应的第二运算结果，将所述第二运算结果作为所述第一运算结果。

4.根据权利要求3所述的训练方法，其特征在于，在所述从所述若干层卷积层和池化层中的多个卷积层和/或多个池化层分别输出相应的第二运算结果的步骤之后，还包括：

将所述第二运算结果分别输入对应的子卷积层，输出对应的具有相同维度的第三运算结果。

5.根据权利要求4所述的训练方法，其特征在于，在所述输出对应的具有相同维度的第三运算结果的步骤之后，还包括：

将所述对应的具有相同维度的第三运算结果输入全卷积层，输出降维处理后的第四运算结果，将所述第四运算结果作为所述第一运算结果。

6.根据权利要求3所述的训练方法，其特征在于，所述从所述若干层卷积层和池化层中的多个卷积层和/或多个池化层分别输出相应的第二运算结果的步骤，包括：

从所述若干层卷积层和池化层中的第一层池化层、第三层卷积层和第五层池化层分别输出相应的第一池化运算结果、第一卷积运算结果和第二池化运算结果，将所述第一池化运算结果、第一卷积运算结果和第二池化运算结果作为第二运算结果。

7.根据权利要求1所述的训练方法，其特征在于，在所述将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层的步骤之前，还包括：

利用AlexNet网络进行人脸检测任务的训练，得到与所述人脸检测任务对应的权重；

利用所述权重初始化所述多任务学习深度网络。

8.根据权利要求1所述的训练方法，其特征在于，在所述将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层的步骤之前，还包括：

计算所述训练集中的图像的预测人脸区域；

将所述预测人脸区域与所述训练集中的图像上已标记的标记人脸区域进行对比，得到比对结果；

根据所述比对结果，选择满足预设条件的人脸区域作为检测人脸区域；

所述将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层，分别输出多个第一运算结果，包括：

所述将训练集逐级输入多任务学习深度网络中级联的若干层卷积层和池化层，基于所述检测人脸区域，输出多个第一运算结果。

9.一种多任务学习深度网络的训练设备，其特征在于，包括相互连接的存储器和处理器；

所述处理器用于根据所述程序数据，执行权利要求1-8任意一项所述的训练方法，利用所述训练集对所述多任务学习深度网络进行训练。

10.一种存储介质，其特征在于，存储有程序数据，所述程序数据能够被执行以实现权利要求1-8任意一项所述的多任务学习深度网络的训练方法。