CN112070058A

CN112070058A - 人脸面部复合情感表情识别方法及系统

Info

Publication number: CN112070058A
Application number: CN202010985959.0A
Authority: CN
Inventors: 陈海波; 罗志鹏; 张治广
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-11

Abstract

本发明公开了一种人脸面部复合情感表情识别方法，包括：对图像进行人脸检测，提取脸部特征关键点；计算关键点之间的距离度量，得到人脸的几何表示向量；构建双分支人脸检测网络，将人脸图像通过第一分支网络结构得到第一特征向量；将得到的人脸的几何表示向量通过第二分支网络结构得到第二特征向量；将第一特征向量与第二特征向量连接得到第三特征向量，得到当前人脸图像的表情类别置信度；构建人脸检测网络多分类损失函数进行优化求解，预测表情类别。本发明对于高分辨率图像中的人脸面部所表现的复合情感表情类别具有较高的识别精度，所提出的模型具有较强的鲁棒性，对人脸微表情分类具有很好的识别效果。

Description

人脸面部复合情感表情识别方法及系统

技术领域

本发明属于图像处理和计算机视觉技术领域，尤其是涉及一种人脸面部复合情感表情识别方法及系统。

背景技术

近年来，随着智能设备的不断更新，机器学习和深度学习等算法的不断更迭，人脸识别技术发展的越来越成熟，目前已经被广泛运用于各大应用平台和日常生活中。同时，作为人脸识别领域的一个重要分支，人脸表情识别(Facial Expression Recognition，FER)也被更多的研究学者们所重视。人脸表情识别已经在很多领域得到了广泛关注，比如人机交互、驾驶员疲劳监测、智能机器人、智慧医疗等。人类的面部表情至少有21种，除了常见的高兴、吃惊、悲伤、愤怒、厌恶和恐惧6种，还有惊喜(高兴+吃惊)、悲愤(悲伤+愤怒)等15种可被区分的复合表情，当然可以根据不同的标准对面部表情种类进行进一步的细化。

通常来说，人脸表情识别算法主要包括四个步骤：获取人脸图像、人脸检测、人脸特征提取、人脸特征分类。人脸表情识别算法大致来说，可分为传统研究方法和基于深度学习的研究方法。传统研究方法中，常常会将人脸特征提取和分类分成独立的两部分进行。首先采用数学方法，用计算机技术对人脸表情图像进行处理，提取表情特征，然后再使用分类器对人脸表情特征进行分类，从而确定表情的类别。传统特征提取算法主要包括主成分分析法、线性判别分析法、独立分量分析法等。对比方法[1](应自炉,唐京海,李景文,等.支持向量鉴别分析及在人脸表情识别中的应用[J].电子学报,2008,36(4):725-730.)提出支持向量鉴别分析算法(SVDA)，利用支持向量机算法(SVM)和Fisher线性判别分析算法作为基础，使表情数据即使是小样本的情况下，仍可以具有最大的类间分离性，实现分类任务。传统特征分类算法主要可以分为基于距离度量的分类方法和基于贝叶斯网络的分类方法。前者主要通过计算数据之间的距离度量来实现分类任务。其典型算法主要由最近邻法和SVM算法。最近邻法通过比较待预测样本与已预测样本之间的距离进行分类，通过距离的远近决定待预测样本是否和某个已预测样本属于同一类。SVM算法通过寻找使不同类别样本间距离最大的超平面来优化目标函数。基于贝叶斯网络的分类方法通过分析已知表情信息，从而推断未知表情概率。基于深度学习的人脸表情识别方法通常将人脸特征提取和分类过程融合在一个网络中。由于深度学习网络对图像有较好的特征提取能力，所提取的特征具有丰富语义信息，从而避免了人工提取特征的繁琐过程。基于深度学习的人脸表情识别网络往往是首先通过若干个卷积神经网络层对人脸图像进行提取特征，而后接入全连接层实现非线性分类。人脸表情的类别决定了最后神经元的个数，最后通过softmax函数得到各个类别的概率值。对比方法[2](Huiyuan Yang,Umur Ciftci,Lijun Yin.Facial ExpressionRecognition by De-Expression Residue Learning.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR),2018,pp.2168-2177.)提出了一种基于cGAN(Conditional GAN)和表情元素滤除的残余表情识别算法。首先通过cGAN网络过滤人脸图像的中立元素，并使用MLP处理残余的表情元素，从而实现人脸表情的高精度识别。但该算法仅实现对基本的七类表情的识别，对于复合表情而言，类别之间的相似性更高，无法验证算法的好坏，同时采样GAN网络，增加了模型的训练难度。

发明内容

1、本发明的目的

针对高分辨率图像中在复合情感情况下，人脸面部表情难以识别的问题，提出了一种人脸面部复合情感表情识别方法及系统，构建了一个较为鲁棒的网络结构用于实现人脸面部表情识别功能，将人脸关键点特征信息作为网络的一个输入，利用图像的空间几何信息辅助识别，同时另一分支网络提取丰富的图像纹理信息，对于高分辨率图像中的人脸面部所表现的复合情感表情类别具有较高的识别精度。

2、本发明所采用的技术方案

一种人脸面部复合情感表情识别方法，包括以下步骤：

S01：对图像进行人脸检测，提取脸部特征关键点；

S02：计算关键点之间的距离度量，得到人脸的几何表示向量；

S03：构建双分支人脸检测网络，包括第一分支网络结构和第二分支网络结构，将人脸图像通过第一分支网络结构得到第一特征向量；将得到的人脸的几何表示向量通过第二分支网络结构得到第二特征向量；所述第一特征向量与第二特征向量尺寸相同，将第一特征向量与第二特征向量连接得到第三特征向量，得到当前人脸图像的表情类别置信度；

S04：构建人脸检测网络多分类损失函数进行优化求解，预测表情类别。

优选的技术方案中，所述步骤S02之前还包括对提取的关键点进行标记，对图像进行预处理操作。

优选的技术方案中，所述步骤S01中人脸检测方法，包括：

S11：将包含人脸的图像作为正样本，将不包含人脸的图像作为负样本，对一定数量的正负样本分别提取方向梯度直方图特征，获取方向梯度直方图特征描述子；

S12：使用支持向量机算法对正负样本进行训练，得到训练后的模型，用于实现二分类；

S13：对训练好的模型进行难分样本挖掘，包括，对训练集中的负样本数据进行缩放，与模板匹配，通过模板滑动窗口进行搜索匹配；如果出现误检，则截取误检人脸区域，并加入负样本数据中。

优选的技术方案中，所述预处理操作包括，第一层回归训练和第二层回归训练；

所述第一层回归训练，包括以下步骤：

将第一层回归训练中的数据组织形式表示为

其中，I_πi是训练数据集中的人脸图像，

为第一层回归中的第t层的所预测的关键点位置，ΔS_i ^(t)是第t层预测值和真实值之间的差值，迭代公式如下：

其中I表示迭代过程中，每一层的输入；

按上述迭代方式不断进行迭代，当第一层回归级联层数设置为K层时，产生γ₁,γ₂,…,γ_k个回归器，这些回归器即为通过训练所得到的回归模型；

所述第二层回归训练，包括，将每一个第一层回归完成后的误差ΔS_i ^(t)作为每一个第二层回归的输入，通过梯度提升树算法确定每一个回归器γ_t。

优选的技术方案中，所述步骤S02中得到人脸的几何表示向量，包括：

S21：计算每个特征关键点与鼻子处的特征关键点的距离：

l′⁽ⁱ⁾＝l⁽ⁱ⁾-l⁽³⁰⁾

其中，l为关键点向量值，i为特征关键点编号，l⁽³⁰⁾为鼻子处的特征关键点；

S22：然后用平均关键点脸lm⁽ⁱ⁾替代原始人脸图像，公式如下：

其中，N为每张人脸图像采样的个数，j为采样编号；

S23：得到人脸的几何表示向量：

lr⁽ⁱ⁾＝l′⁽ⁱ⁾-lm⁽ⁱ⁾。

优选的技术方案中，所述步骤S03中，所述第一分支网络结构基于AlexNet网络结构设计，所述第一分支网络结构去除AlexNet结构的最后两个全连接层，其他结构保持不变，并在每个卷积层后加入批标准化操作，得到尺寸为256维的第一特征向量。

优选的技术方案中，所述步骤S03中，所述第二分支网络结构由一个不含偏置项的全连接层构成，几何表示向量通过第二分支网络结构得到256维的第二特征向量，将得到的第三特征向量送入最后一个全连接层，得到输出尺寸为512维的特征向量F。

优选的技术方案中，所述步骤S04中构建的人脸检测网络多分类损失函数由两部分构成，第一部分损失函数使用softmax函数来预测表情属于每个类别的可能性概率，公式如下：

P表示将类别为x的样本预测为j的概率，y为指示变量，其中z_i、Z_k表示第i、k类的预测结果，K表示表情的类别数；

使用交叉熵损失函数计算预测输出值与真实标签值之间的不确定性，公式如下：

其中，C代表预测表情类别数；

第二部分损失函数，使用三元组损失函数优化不同类间特征的分布，公式如下：

l_tri＝[α+d_p-d_n]₊

其中，d_p为正样本对的特征距离，d_n为负样本对的特征距离，α是两个距离间的最小间隔，[z]₊表示函数max(z,0)；

将两部分损失函数相加，得到网络总体损失函数。

本发明还公开了一种人脸面部复合情感表情识别系统，包括：

人脸检测提取模块，对图像进行人脸检测，提取脸部特征关键点；

人脸几何表示模块，计算关键点之间的距离度量，得到人脸的几何表示向量；

双分支人脸预测模块，构建双分支人脸检测网络，包括第一分支网络结构和第二分支网络结构，将人脸图像通过第一分支网络结构得到第一特征向量；将得到的人脸的几何表示向量通过第二分支网络结构得到第二特征向量；所述第一特征向量与第二特征向量尺寸相同，将第一特征向量与第二特征向量连接得到第三特征向量，得到当前人脸图像的表情类别置信度；

类别预测模块，构建人脸检测网络多分类损失函数进行优化求解，预测表情类别。

优选的技术方案中，还包括图像预处理模块，用于对提取的关键点进行标记，对图像进行预处理操作。

3、本发明所采用的有益效果

(1)设计了一个较为鲁棒的网络结构用于实现人脸面部表情识别功能，将人脸关键点特征信息作为网络的一个输入，利用图像的空间几何信息辅助识别，同时另一分支网络提取丰富的图像纹理信息。经过大量的案例测试，本发明对于高分辨率图像中的人脸面部所表现的复合情感表情类别具有较高的识别精度，所提出的模型具有较强的鲁棒性，对人脸微表情分类具有很好的识别效果。

(2)本发明方法采用Dlib人脸检测算法对图像进行人脸检测，提取脸部特征关键点，作为后续识别流程的基础；使用Face Alignment对齐算法对提取的关键点进行标记，并使用图像剪裁算法缩小图像尺寸，以对高分辨率图像进行预处理操作；计算关键点之间的距离度量，使用平均关键点人脸替代原始人脸图像，计算人脸图像的空间几何特征信息，辅助整个识别过程。计双分支人脸检测网络，人脸成像分支基于AlexNet网络进行设计，主要用于提取人脸图像丰富的纹理特征信息；人脸特征点分支由全连接层构成，利用人脸关键点特征信息辅助识别；采用交叉熵损失函数(Cross Entropy Loss)和三元组损失(TripletLoss)设计人脸检测网络多分类损失函数，使得同类样本的正样本更接近，不同类的负样本距离更远。

附图说明

图1为本发明人脸面部复合情感表情识别方法的流程图；

图2为本实施例中人脸对齐算法示意图；

图3为本实施例中的网络结构示意图；

图4为本发明人脸面部复合情感表情识别系统的架构图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例1

如图1所示，一种人脸面部复合情感表情识别方法，包括以下步骤：

S01：对图像进行人脸检测，提取脸部特征关键点；

S03：构建双分支人脸检测网络，包括第一分支网络结构和第二分支网络结构，人脸图像通过第一分支网络结构得到第一特征向量，提取人脸图像的纹理特征；将得到的人脸的几何表示向量通过第二分支网络结构得到第二特征向量；所述第一特征向量与第二特征向量尺寸相同，将第一特征向量与第二特征向量连接得到第三特征向量，得到当前人脸图像的表情类别置信度；

在一较佳的实施例中，步骤S01之后，步骤S02之前还包括对提取的关键点进行标记，对图像进行预处理操作。

在一较佳的实施例中，步骤S01中人脸检测方法，包括以下步骤：

S11：将包含人脸的图像作为正样本，将不包含人脸的图像作为负样本，对一定数量的正负样本分别提取方向梯度直方图(Hog)特征，获取方向梯度直方图(Hog)特征描述子；特别地，负样本数据量要远远大于正样本数据量，因此可以通过随机剪裁负样本得到更多数据量。

S12：使用支持向量机(SVM)算法对正负样本进行训练，得到训练后的模型，用于实现二分类；

经过上述步骤，得到最终训练好的模型。用此分类器检测人脸图片，对不同尺寸的该图片进行滑动扫描，依次提取它们的Hog特征，最后再用分类器分类。如果分类结果为人脸，则将其进行标定。如果滑动扫描一轮后，同一个人脸被多次标定，采用NMS操作去除冗余的人脸。

在一较佳的实施例中，如图2所示，对提取的关键点进行标记，对图像进行预处理操作，具体包括：

使用两层回归建立数学模型。其中，第一层回归的迭代公式如下：

其中，S为一个形状向量，存储脸部所有关键特征点的位置信息。其中I表示迭代过程中，每一层的输入，γ_t是一层的回归器，回归器的输入量为当前的形状变量和形状变量所对应的训练图像，回归器的输出量为对此训练图像上所有形状变量的位置更新量。因此，在第一层的级联回归器中，每次经过一级级联回归器，就会对训练图像中所有关键特征点的位置更新一遍，以至于达到更加正确的位置。γ_t内部也是一次回归，即第二层回归。第二级回归的目标是当前预测值与真实值间的差值。

第一层回归训练过程如下所述。首先，将训练数据集表示为(I₁,S₁)，(I₂,S₂)，…，(I_n,S_n)，其中，I_i表示第i张图像，S_i表示图像中对应的特征关键点的位置。可将第一层回归训练中的数据组织形式表示为

其中，I_πi是训练数据集中的人脸图像，

为第一层回归中的第t层的所预测的关键点位置，ΔS_i ^(t)是第t层预测值和真实值之间的差值。

迭代公式如公式(1)所示，ΔS_i ^(t)迭代公式具体如下：

按如上所示迭代方式不断进行迭代，当第一层回归级联层数设置为K层时，会产生γ₁,γ₂,…,γ_k个回归器，这些回归器即我们通过训练所得到的回归模型。

第二层回归训练过程即确定每一个γ_t是如何训练得到的，本发明中采用梯度提升树算法(Gradient Boosting Tree Algorithm)实现。将每一个第一层回归完成后的误差ΔS_i ^(t)作为每一个第二层回归的输入，通过梯度提升树算法确定每一个回归器γ_t。

经过上述步骤，每张人脸图像被检测出多个特征关键点，特征关键点的数量可以预先设定，本实施例中的数量为68个。

在一较佳的实施例中，步骤S02中得到人脸的几何表示向量的方法，包括以下步骤：

S21：计算每个特征关键点与鼻子处的特征关键点的距离：

l′⁽ⁱ⁾＝l⁽ⁱ⁾-l⁽³⁰⁾

其中，l为关键点向量值，i为特征关键点编号，0≤i≤68，l⁽³⁰⁾为鼻子处的特征关键点；

其中，N为每张人脸图像采样的个数，本实施例采用250，j为采样编号；

S23：得到人脸的几何表示向量：

lr⁽ⁱ⁾＝l′⁽ⁱ⁾-lm⁽ⁱ⁾。

在一较佳的实施例中，如图3所示，此阶段的网络结构由两个分支B₁，B₂构成。其中，B₁分支为imaging分支，其基于AlexNet网络结构所设计。原始AlexNet的网络结构由五个卷积层(Conv₁，Conv₂，Conv₃，Conv₄，Conv₅)以及三个全连接层(FC_{1_1}，FC_{1_2}，FC_{1_3})构成，本发明中imaging分支去除AlexNet结构的最后两个全连接层(FC_{1_2}，FC_{1_3})，其他结构保持不变，并在每个卷积层(Conv₁，Conv₂，Conv₃，Conv₄，Conv₅)后加入批标准化(batch normalization)操作。将原始人脸图像Image输入imaging分支，得到尺寸为256维的特征向量V₁，提取人脸图像的纹理特征。Imaging分支的主要作用是尽可能捕捉到更加丰富的人脸图像语义信息。

本网络中B₂分支结构为landmarks分支，此分支的输入为人脸表情的几何表示向量，即上一步骤所得到的几何表示。Landmarks分支由一个不含偏置项的全连接层(FC_{2_1})构成。几何表示变量经过本分支结构后，同样得到尺寸为256维的输出特征向量V₂。最后，将Imaging分支和Landmarks分支所得到的尺寸相同的输出特征向量(V₁，V₂)连接(concatenate)在一起形成新向量V₃，并将此新形成的向量V₃送入最后一个全连接层(FC_final)，得到输出尺寸为512维的特征向量F。经过全连接层FC_final后，即可得到当前人脸图像的表情类别置信度。

本实施例中，在该网络中，设计一个多分类损失函数。将人脸图像中的表情划分为50个类别标签。类别标签的个数可以预先设定。具体的标注方法可以采用现有的标注方法，本实施例不再赘述。

人脸检测网络多分类损失函数由两部分构成，第一部分损失函数使用softmax函数来预测表情属于每个类别的可能性概率，公式如下：

其中，C代表预测表情类别数；

l_tri＝[α+d_p-d_n]₊

将两部分损失函数相加，得到网络总体损失函数。

对于每个mini-batch，我们将一个batch大小设置为P*K，此例中我们取P为32，K为2。本发明进行数据增强操作，对每张图像和其对应的关键点进行水平翻转操作，采用随机梯度下降算法(stochastic gradient descent,SGD)训练模型，每个epoch训练完后，将模型的临时参数保存为checkpoint文件。

为了验证本发明方法中的有效性，本实验例从常用的微表情数据集CASME2等与现有的识别方法进行效果比对，结果表明，本发明对于高分辨率图像中的人脸面部所表现的复合情感表情类别具有较高的识别精度，所提出的模型具有较强的鲁棒性，对人脸微表情分类具有很好的识别效果。

在另一实施例中，提供一种人脸面部复合情感表情识别系统，该人脸面部复合情感表情识别系统与上述实施例中人脸面部复合情感表情识别方法一一对应，如图4所示，该人脸面部复合情感表情识别系统，包括人脸检测提取模块10、图像预处理模块20、人脸几何表示模块30、双分支人脸预测模块40、及类别预测模块50。各功能模块详细说明如下：

人脸检测提取模块10，对图像进行人脸检测，提取脸部特征关键点；

人脸几何表示模块30，计算关键点之间的距离度量，得到人脸的几何表示向量；

双分支人脸预测模块40，构建双分支人脸检测网络，包括第一分支网络结构和第二分支网络结构，人脸图像通过第一分支网络结构得到第一特征向量，提取人脸图像的纹理特征；将得到的人脸的几何表示向量通过第二分支网络结构得到第二特征向量；所述第一特征向量与第二特征向量尺寸相同，将第一特征向量与第二特征向量连接得到第三特征向量，得到当前人脸图像的表情类别置信度；

类别预测模块50，构建人脸检测网络多分类损失函数进行优化求解，预测表情类别。

图像预处理模块20，用于对提取的关键点进行标记，对图像进行预处理操作。

各模块具体的实现方法可以参照上述实施例中人脸面部复合情感表情识别方法，在该实施例中不再重复赘述。

本发明实施例提供的人脸面部复合情感表情识别系统应用于客户端与服务端的环境中，客户端与服务端通过网络进行通信，用于解决无法准确获取图像中人脸表情信息的问题。其中，客户端又称为用户端，是指与服务器相对应，为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。