CN107729838A

CN107729838A - 一种基于深度学习的头部姿态估算方法

Info

Publication number: CN107729838A
Application number: CN201710947730.6A
Authority: CN
Inventors: 李珊如; 刘昕; 袁基睿; 山世光
Original assignee: Seetatech Beijing Technology Co ltd
Current assignee: Seetatech Beijing Technology Co ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-02-23

Abstract

本发明公开了一种基于深度学习的头部姿态估算方法，其步骤为：获取用于训练的图片数据集，并对图片数据进行人脸头部偏转角度的信息标注；对数据集进行样本拓充以及预处理，裁剪出人脸部分；将预处理后的人脸图片全部缩放到90×90像素的分辨率；将上述数据集作为训练样本，使用深度网络TinyPoseNet进行网络训练；提取训练过的TinyPoseNet网络模型，根据上述步骤获得需测试图片的裁剪过的人脸图像，然后裁剪出该图像中间部分80×80像素区域，进行TinyPoseNet网络模型的前向计算，从而估算出该测试图片中人物头部姿态偏转的角度。本发明具有超小计算量且鲁棒性强的优点，而且精度高、运算快、操作简单、通用性强。

Description

一种基于深度学习的头部姿态估算方法

技术领域

本发明涉及一种估算方法，尤其涉及一种基于深度学习的头部姿态估算方法，属于计算机视觉技术领域。

背景技术

头部姿态是人的一种固有属性，在人的情绪识别、疲劳状态监测、活体验证等领域有着重要的应用价值。一般情况下，头部姿态估计基于pitch,yaw,roll三个方向，假设把头部姿态活动看做刚体运动，以鼻尖为原点，水平方向为x轴，垂直方向为y轴，z轴垂直于x与y轴形成的平面，那么围绕x,y,z轴顺时针旋转的角度定义为头部姿态在pitch,yaw,roll方向的偏移角度。由于受光照、遮挡、分辨率等因素的影响，多维度的头部姿态估计一直是一项具有挑战性的工作。

根据姿态估计算法输入信息的不同，目前的头部姿态估计方法主要分为以下三类：

(1)基于几何的姿态估计方法，即根据面部关键点，如嘴角、鼻尖、眼睛中心的相对位置，同时根据人脸的形状先验和对称性来判断同头部姿态(yaw,pitch,raw)。但是该方法在姿态较大的情况下，个别面部关键点已经不可见，此时基于几何的方法无法有效估计头部姿态。

(2)基于2D图像的姿态估计方法，其经典模式是提取人脸特征，再基于回归或分类的方法估计头部姿态。经典的局部特征描述子Gabor小波、HOG特征和LBP特征均被用于提取人脸表观特征，在人脸表观特征的基础上通过分类器或回归器来估计姿态，因此，该方法存在运算量较大的缺陷。

(3)基于RGB-D图像的姿态估计方法，该方法引入了Depth信息，从而增加了姿态估计的输入信息量。Depth信息的加入，可以改善对光照和遮挡的鲁棒性。但是这类方法需要特定的输入设备，因此其通用性不强。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于深度学习的头部姿态估算方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于深度学习的头部姿态估算方法，其整体步骤如下：

步骤一、获取用于训练的图片数据集，并对图片数据进行标注；标注信息包括人脸在pitch、yaw以及roll三个维度的头部偏转角度；对数据集中分布不均衡的稀缺样本进行样本拓充；

步骤二、对样本拓充后的数据集进行图片预处理，将图片中的人脸部分裁剪出来，删除一切与人脸不相关的细节，包括头发、脖子以下部分、背景；

步骤三、将预处理后的人脸图片全部缩放到90×90像素的分辨率；

步骤四、将步骤三得到的统一大小的数据集作为训练样本，使用深度网络TinyPoseNet进行网络训练；训练次数达到12次epoch，才能得到最优的网络模型。

步骤五、提取训练过的TinyPoseNet网络模型，对需要测试的图片依次进行步骤二、步骤三中的操作获得裁剪过的人脸图像，然后裁剪出该图像中间部分80×80像素区域，进行TinyPoseNet网络模型的前向计算，通过端到端的提取方式估算出该测试图片中人物头部姿态偏转的角度。

步骤一中样本拓充的具体方法为：采用基于3D的数据增广方法，使用人脸的68个特征点对人脸进行3D建模后旋转出需要的角度变化，然后进行图片映射得到需要的缺失样本，最终使得数据集中三个维度的角度偏转分布均衡。

步骤二采用的图片预处理工具为VIPLFaceDetector人脸检测器。

TinyPoseNet是在VIPLFaceNet卷积神经网络基础上设计出的一个8层的深度网络，包括5层卷积层和3层全连接层，具有轻量级超小计算量并且性能鲁棒的特点；TinyPoseNet在训练过程中，对图片大小为90×90像素的训练数据进行80×80像素大小的随机裁剪再将数据进行网络训练以此来提高网络模型对人脸位置轻微偏移的鲁棒性。

本发明实现了一个超小计算量同时性能鲁棒的姿态估计深度网络模型TinyPoseNet应用于实时头部姿态估计，解决了传统头部姿态估算方法面临的预测鲁棒性不强、精度不准、预处理繁琐、通用性不强以及速度慢等问题。

附图说明

图1为三维坐标下人的头部旋转姿态示意图。

图2为3D数据增广过程示意图。

图3为TinyPoseNet网络结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种基于深度学习的头部姿态估算方法，其具体步骤为：

(1)数据准备：

选用UmdFaces数据集作为训练样本；UmdFaces中的数据角度变化连续，共有367920张人脸照片，8501个不同的人物，数据量大，样本充足。三维坐标下人的头部旋转姿态示意图如图1所示。

由于大角度数据的缺失，尤其是在yaw、pitch方向上，大角度图片所占的比率不到5％，在测试初次训练模型中发现，在yaw方向上检测结果最大只能达到53°，pitch方向只能达到30°。针对这个问题，进行了大角度状态的数据增广工作，具体工作如下：

a、如图2所示，挑选出UmdFaces数据集中在pitch方向偏移角度为0°的人物照片，运用人脸的68个特征点对图片进行3D建模，然后通过投影的方式生成pitch方向±30°，±35°，±40°，±45°的增广数据，平均每个方向增加3000张人脸图像。

b、选择Multipie数据集中在yaw方向上的大角度图片(±30°、±45°、±60°、±75°、±90°)，在平均每个方向随机挑选3700张照片。

(2)图像预处理：

由于人物图片中有太多的与人脸无关的图片信息，例如背景、服饰、躯干动作、图片大小等，使得网络不能很好得学到有用的头部姿态信息，甚至会直接导致训练过程中损失函数始终不收敛，因此需要对训练的图片进行数据预处理过程，将与人脸不相关的细节删除，并将人脸图片归一化为固定大小的图片进行训练。

本发明选用VIPLFaceDetector预处理器对图片中的人脸进行检测，将检测得到的人脸区域裁剪并将大小重置为90×90像素，将该区域保存为图片格式进行训练。遇到多个人脸的情况时，选择与UmdFaces数据集给出的人脸框最相近的人脸作为预处理对象。在参数设置上，MinFaceSize(最小人脸尺度参数)设置为28像素，ScoreThresh(得分参数)设置为(0.55,0.43,0.95)，ImagePyramidScaleFactor(图像比例因子参数)设置为1.414。

(3)深度模型的网络调节

网络结构设计是使用深度网络学习方法对头部姿态估计表示的核心，考虑到AlexNet(一种经典的卷积神经网络，包含八个学习层，五个卷积层和三个全连接层)在计算机视觉领域在处理图片数据时在计算效率以及准确率中的优势，首先选择由AlexNet网络演化的VIPLFaceNet(一种深度卷积神经网络，包含7个卷积层与2个全连接层的DCNN)作为深度网络。从在人脸识别的效果比较，VIPLFaceNet明显优越于AlexNet；从计算量的角度来说，VIPLFaceNet由7个卷积层和3个全连接层构成，计算量相当于AlexNet的90％，并且VIPLFaceNet为了降低计算量，减少了每个卷积层的Feature Map数量，最终VIPLFaceNet的计算量相当于AlexNet的60％。

而与VIPLFaceNet相比，TinyPoseNet(一种轻量级的卷积网络)做了相似的工作，它将卷积层数变少，同时减少每层卷积层的FeatureMap数量，以此来减少计算量，因此，最终选定TinyPoseNet作为训练用深度网络。AlexNet、VIPLFaceNet、TinyPoseNet的具体比较如表1所示，表1中，S表示步长stride，G表示卷积分组Group，Pad表示Padding操作。为了表示的简洁，ReLU层在表中被略去。

TinyPoseNet与VIPLFaceNet相比，其主要特征如下：

Ⅰ、头部姿态估计问题属于多标签回归问题，从本质上来说头部姿态每个细分类中，类内特征变化小，相较于人脸识别工作任务简单，因此针对头部姿态估计问题可以相应得缩减计算量，因此去掉了两个卷积层，并将卷积核数目缩小了4倍，卷积核大小也做了重新调整，使得前向计算时间优化了20倍。

Ⅱ、参考Network In Network中提到的用1×1卷积进行卷积计算，采用了两个1×1的卷积核，减少网络计算量，将网络变深。

Ⅲ、将网络的第一个全连接层的节点从4096缩减到256，将网络最终学习的特征层也就是第二个全连接层的节点数从4096缩小到128，模型大小从194M减小为1.8M。实验证明，经过裁剪之后准确度并没有明显下降，反而提高了在真实场景下的泛化能力。

Ⅳ、去掉了Dropout层，由于输出节点数本身就很少，所以没必要再进行Dropout操作。

Ⅴ、将最后一层的全连接层换成了Sigmod层。绝大多数情况下头部姿态的偏移集中在±45度以内，这样的操作可以达到压缩无用“长尾巴”，扩展核心分辨率的效果。

表1、AlexNet、VIPLFaceNet、TinyPoseNet的网络结构对比

(4)损失函数的设计：

卷积神经网络的结构特点决定了可以为多种不同的人脸分析提供一个统一的底层结构，区别在于不同的损失函数设计。

TinyPoseNet头部姿态估计模型将姿态估计作为端到端的深度回归问题，TinyPoseNet网络结构如图3所示，我们将三个维度的姿态角度分别规格化为[-90°，90°]。在损失函数之前设置了激活函数sigmod层，如公式1所示：

S(x)＝1/(1+e^-x) 公式1

其中，x表示三个维度的数据输入，S(x)表示x经过sigmod函数处理后的输出。

在一维输出层上，将角度x值归一化到0-1之间，在网络迭代的过程中，小角度经过数值转化接近0.5值，x的值越靠近90°则函数值越接近1值。Sigmod函数在中心部分的变化率高，在大值区域变化平缓，与姿态数据中小角度数据量大，大角度数据量稀少的情况刚好匹配。

在TinyPoseNet采用EuclideanLoss损失函数对pitch、yaw、roll三个方向的角度进行多任务回归，如公式2所示：

其中，W表示神经网络的参数，E(W)表示欧式损失，y_n表示ground-truth(真实值即数据标签上的值)，表示网络的节点输出，N表示batch size(一次损失计算的批量单位)的大小。最终，姿态估计的表示为：

其中，R表示姿态估计回归器，f表示网络输出到角度预测的变化。

采用随机梯度下降的方式进行误差反向传导，如公式4所示：

其中，w表示神经网络的参数，w_t+1表示更新后的神经网络的参数，w_t表示神经网络的参数，η_t表示学习率，x_i表示第i个样本的特征值，y_i表示第i个样本的标签值，L(w_t，x_i，y_i)表示网络的损失。

(5)深度模型的训练：

在Caffe(卷积神经网络框架)实现过程中，默认情况下，Data层和ImageData层(caffe中不同格式的数据层)均不支持多维标签，因此需要借助多标签转化工具，或者使用HDF5Layer，进行数据训练。在训练过程中，基础学习率设置为0.02，学习率按多项式曲线进行下降，power值(学习率的次幂值)设置为0.5，Momentum值(冲量值)设置为0.9，weightdecay值(权值递减参数)设置为0.0002。所有的实验在显存为12GB的Titan-X显卡上进行，使用一个修改过的Caffe开源平台。

(6)深度特征提取：

利用训练得到的深度模型，对经过预处理过的80×80的人脸图片进行深度特征的提取，深度特征维度为3，经过数据变化之后，得到头部姿态分别在pitch,yaw,roll三个维度的角度偏转。

本发明的关键创新点在于：

1)利用深度模型端到端的提取图片特征进行头部姿态估算，采用大量的带有标签的人脸数据训练深度神经网络。优势：深度模型具有很理想的性能，它通过学习丰富的数据样本得到头部姿态的深度特征，相比人工特征能更好得预测出人体头部姿态的偏移角度，在UmdFaces数据测试集上，三个方向的平均绝对误差仅有1.9°。

2)调整网络结构开发了一种新的适用于头部姿态估计的轻量级网络模型，实现了一个超小计算量同时性能鲁棒的姿态估计深度网络。经过不断得调整网络结构，缩小训练模型，在VIPLFaceNet卷积神经网络基础上设计出了一个8层的TinyPoseNet网络，包括5层卷积层以及3层全连接层。优势：头部姿态估算作为人脸属性研究分析的一部分，往往承担一个预处理或起到辅助作用的角色，因此在实际使用中它不仅仅需要较高的精确度，更需要尽量少的计算量以及尽量短的处理时间。通过网络结构的调节，在不损失精度的前提下，与广泛使用的AlexNet网络训练的200M大小的模型相比，TinyPoseNet模型大小只有2M；速度方面，TinyPoseNet在3.5Hz的CPUx64位Release模式下可达到330FPS。

3)利用数据增广的方式对缺失数据进行补充，均衡数据分布。通过对已有的数据集进行调研分析，发现对于大角度的头部姿态照片只占数据集的1％，出现了严重的数据分布不均衡现象，对于yaw方向上大于65°的照片几乎没有，并且在pitch方向上的最大角度只能达到±30°。为了提高了姿态估计对训练集罕见姿态的鲁棒性，提出了一种基于3D模型的数据增广机制，首先挑选出一批正面人物照片，通过68个人脸特征点进行3D建模，得到3D图形后手工设置偏移角度，进行数据增广以均衡数据在三个维度的数据分布。通过生成相应数量的大角度训练照片提高了头部姿态估计模型对大角度罕见姿态的鲁棒性，并取得了很好的效果。优势：经过实践证明数据增广之后，yaw方向可以识别到±89°相较于之前识别范围[-53°,53°]，提高了百分67.9％；pitch方向的结果也明显提高了很多，范围从[-29°,29°]提高到了[-38°,38°]，识别效果提高了27.5％；roll方向的精度以及效果略有改善。

本发明的总的技术效果为：模型大小最终缩小到2M，在3.5Hz的CPU每张80*80像素的图片计算时间仅有2.1毫秒，在Umdface测试集上三个方向的平均误差仅有1.9°。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于深度学习的头部姿态估算方法，其特征在于：所述方法的整体步骤如下：

步骤四、将步骤三得到的统一大小的数据集作为训练样本，使用深度网络TinyPoseNet进行网络训练；

2.根据权利要求1所述的基于深度学习的头部姿态估算方法，其特征在于：所述步骤一中样本拓充的具体方法为：采用基于3D的数据增广方法，使用人脸的68个特征点对人脸进行3D建模后旋转出需要的角度变化，然后进行图片映射得到需要的缺失样本，最终使得数据集中三个维度的角度偏转分布均衡。

3.根据权利要求1所述的基于深度学习的头部姿态估算方法，其特征在于：所述步骤二采用的图片预处理工具为VIPLFaceDetector人脸检测器。

4.根据权利要求1所述的基于深度学习的头部姿态估算方法，其特征在于：所述TinyPoseNet是在VIPLFaceNet卷积神经网络基础上设计出的一个8层的深度网络，包括5层卷积层和3层全连接层；TinyPoseNet在训练过程中，对图片大小为90×90像素的训练数据进行80×80像素大小的随机裁剪再将数据进行网络训练以此来提高网络模型对人脸位置轻微偏移的鲁棒性。