CN117275074A

CN117275074A - 基于宽广注意力和多尺度融合机制的人脸表情识别方法

Info

Publication number: CN117275074A
Application number: CN202311436946.8A
Authority: CN
Inventors: 穆静; 郭岱朋; 轩亚虎; 路昊洋; 张宁
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-22

Abstract

本发明属于图像处理技术领域，具体涉及一种基于宽广注意力和多尺度融合机制的人脸表情识别方法。识别方法包括：步骤一、对获得的人脸表情数据集进行预处理；步骤二、建立由ResNet网络和胶囊网络组合而成的人脸表情识别模型；步骤三、建立宽广注意力和多尺度融合机制，嵌入进步骤二中的ResNet网络，将其作为特征提取网络；将胶囊网络作为分类网络；步骤四、将步骤一中的人脸表情图像输入步骤三中的网络得出表情分类结果。本发明兼顾到图像的背景与纹理信息，可捕获到图像更为全面的特征信息；同时可将ResNet的各层得到的特征图进行交融，实现上层与下层特征信息交互，使得网络可以更加充分地提取面部表情特征；识别准确率有大幅提升。

Description

基于宽广注意力和多尺度融合机制的人脸表情识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于宽广注意力和多尺度融合机制的人脸表情识别方法。

背景技术

在人与人的交流过程中，面部表情是表达内心情感的最强信号。近年来，人脸表情识别技术在公共安全、司法审讯、临床诊断、人机交互等领域获得了广泛的应用，为提高人类生活质量和幸福指数做出了巨大贡献。

随着深度学习技术的流行，人脸表情识别技术蓬勃发展，但多数方法虽使用到注意力和特征融合机制，但传统的注意力对于人脸表情图像的特征提取不完整，且使用的融合机制并未能考虑到浅层特征与深层特征的信息交融，导致最终的人脸表情识别准确率较低。

申请号为“202310493454.6”的专利文件中，公开了一种基于特征融合和注意力机制的人脸表情识别方法及系统。其使用的特征融合方法是通过将两个中间层输出的特征图进行拼接来实现融合，使用的注意力机制是多头注意力机制Transformer。其存在的缺陷在于该特征融合方法只考虑到了中间层特征，而忽略了浅层与深层特征的融合，使用的多头注意力机制存在大量耗费内存、对短程上下文信息的处理能力较差而导致人脸表情特征提取不全面的问题。

发明内容

本发明提供一种基于宽广注意力和多尺度融合机制的人脸表情识别方法以解决现有技术中存在的对于人脸表情特征提取和特征融合不全面，而导致人脸表情识别准确率低的问题。

为了达到上述目的，本发明的技术方案是：一种基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于，包括以下步骤：

步骤一、对获得的人脸表情数据集进行预处理；将数据集划分为训练集和测试集；

步骤二、建立由ResNet网络和胶囊网络组合而成的人脸表情识别模型；

步骤三、建立宽广注意力和多尺度融合机制，嵌入进步骤二中的ResNet网络，将其作为特征提取网络；将胶囊网络作为分类网络；

步骤四、将步骤一中的人脸表情图像输入步骤三中的特征提取网络进行特征提取，将提取到的特征图输入分类网络得出表情分类结果。

进一步的，上述步骤1中对人脸表情数据集的预处理包括将人脸表情图像进行裁剪，去除非人脸区域；将图像尺寸调整为224×224大小；对调整后的图像进行归一化处理。

进一步的，上述步骤3中的宽广注意力包含四个步骤，首先将图像按照空间轴进行划分，分别从横轴、纵轴方向进行平均池化和最大池化，其次将横轴方向的最大池化、平均池化的结果进行拼接，将纵轴方向的最大池化、平均池化的结果进行拼接，再者最终将横纵方向得到的结果拼接得到图像中各个像素点的权重，最后将其与输入特征图进行相乘得到最终的输出特征图。

进一步的，上述多尺度融合机制包括：首先，将ResNet的第一层的输出特征图与输入相连接，进行1×1卷积，确保输出特征图保持其原始大小和通道数。对于第二层，其输入经过7×7卷积，以扩大其感受野，然后与第二层的输出和卷积合并，保持128的输出通道数。然后，第二层的输出特征图与第三层的中间输入短路，从而使第三层的输入通道数达到256。在第三层，输入特征图经过5×5卷积，然后与输出特征图连接，保持通道数为256。第三层的输出特征图与第四层的中间输出短接，第四层的输入通道数为512。最后，第四层的输入经过3×3的卷积，然后与输出特征图进行连接和卷积，确保最终输出特征图的通道数保持在512。

进一步的，上述步骤四中，将特征提取网络提取到的特征图输入分类网络进行分类，经过胶囊网络中主胶囊层生成32×6×6的8维胶囊向量，再经过动态路由得到16维的胶囊向量，最后再通过L2范式输出7类表情的概率。

其中,7类表情分别为愤怒、轻蔑、厌恶、开心、中性、悲伤、惊讶，共七种表情。

与现有技术相比，本发明的优点是：

1、本发明设计了一种可以同时关注到图像的背景与纹理信息的注意力——宽广注意力，该宽广注意力中，同时对图像的横纵方向使用最差池化和平均池化，并将两者进行拼接的操作，与现有的注意力不同是可以从图像的横纵方向的背景和纹理两个方面进行提取，因此增强了网络的特征提取能力，兼顾到图像的背景与纹理信息，捕获到图像更为全面的特征信息。

2、本发明还设计了一种可以融合ResNet的各层提取到的特征的多尺度融合机制，该多尺度融合机制中，采用了将浅层提取到的特征与深层提取到的特征进行融合的操作，与现有的不同是将深层和浅层的特征图进行融合，因此可将ResNet的各层得到的特征图进行交融，实现上层与下层特征信息交互的目的，使得网络可以更加充分地提取面部表情特征。

3、本发明将宽广注意力和多尺度融合机制分别对ResNet进行嵌入，将宽广注意力分别嵌入每个残差块，以保证每个残差块可以最大程度进行特征提取；将多尺度融合机制嵌入在每两个Layer的连接处，以保证网络的深层Layer和浅层Layer获得进行深层和浅层的信息交互能力。借助胶囊网络的视点不变性进行表情最终的分类。这两种机制进行结合起来提升了ResNet对于人脸表情特征的提取和特征信息整合的能力，从表情特征提取阶段进行了增强，最终提高了模型对于人脸表情识别的准确性。

4.为验证本发明的高效性，在现有的公开数据集上进行验证，在CK+数据集上获得98.98％的识别准确率，在Jaffe数据集上获得98.46％的识别准确率，相较于其他传统方法均有提升。

附图说明：

图1为本发明实施例1的流程示意图；

图2为本发明实施例1的整体网络结构示意图；

图3为本发明提出的宽广注意力机制的结构示意图；

图4为本发明提出的多尺度融合机制的结构示意图；

图5为本发明在CK+数据集上的识别准确率示意图；

图6为本发明在Jaffe数据集上的识别准确率示意图。

具体实施方式

以下结合附图和具体实施例对本发明的技术方案作进一步说明。

实施例1，本实施例中，使用的是人脸表情公共数据集CK+和Jaffe，其中CK+数据集包含327个图像标有表情类别，每张图像是固定大小的256×256的灰度图像，从标注序列中选取了三个峰值帧，最终得到了981张面部表情图像，包含七种情绪：愤怒、蔑视、厌恶、恐惧、快乐、悲伤、惊讶。Jaffe数据集包含7种情绪状态下的213幅面部表情图片。

参见图1，本发明提供的一种基于宽广注意力和多尺度融合机制的人脸表情识别方法，包括以下步骤：

步骤一、对获取的人脸表情数据集进行预处理：将人脸表情图像调整为224×224大小，对图像进行归一化处理，mean平均值为[0.485,0.456,0.406],std标准差为[0.228,0.224,0.225]；得到归一化后的图像；经过预处理，可去除无关噪声的干扰，增强有用特征。

步骤二、构建由ResNet网络和胶囊网络组合而成的网络模型：

步骤三、建立宽广注意力和多尺度融合机制，其纳入进步骤二中的ResNet网络，将其作为特征提取网络，将胶囊网络作为分类网络；

参见图3，所述宽广注意力将图像按照空间轴进行划分，分别从横轴、纵轴方向进行平均池化和最大池化，将横轴方向的最大池化、平均池化的结果进行拼接，将纵轴方向的最大池化、平均池化的结果进行拼接，最终将横纵方向得到的结果拼接得到图像中各个像素点的权重，将其与输入特征图进行相乘得到最终的输出特征图。

具体地，宽广注意力模块的输入为：

X(N×C×H×W)(1)

对于图像的空间坐标轴的横纵方向的第一步处理为

对于得到的横纵方向的第二步处理为

对于得到的横纵方向的第三步处理为

对于得到的横纵方向的特征图可以表示为

对于最后的输出可以表示为

Output＝attention_h×attention_w×Input(6)

其中，N表示为输出进网络的图像的Batch Size，C表示为通道数，H和W分别表示为图像的高和宽。

参见图4，本发明所述多尺度融合机制包括：

首先将ResNet的第一层的输出特征图与输入相连接，进行1×1卷积，确保输出特征图保持其原始大小和通道数。对于第二层，其输入经过7×7卷积，以扩大其感受野，然后与第二层的输出和卷积合并，保持128的输出通道数。

然后，第二层的输出特征图与第三层的中间输入短路，从而使第三层的输入通道数达到256。在第三层，输入特征图经过5×5卷积，然后与输出特征图连接，保持通道数为256。第三层的输出特征图与第四层的中间输出短接，第四层的输入通道数为512。最后，第四层的输入经过3×3卷积，然后与输出特征图进行连接和卷积，确保最终输出特征图的通道数保持在512，以此实现不同尺度和不同层次上的特征融合。

步骤四、将步骤一中的人脸表情图像输入步骤三中的特征提取网络进行特征提取，将特征提取网络提取到的特征图输入分类网络进行分类，经过胶囊网络中主胶囊层生成32×6×6的8维胶囊向量，经过动态路由得到16维的胶囊向量，通过非线性函数squash得出7类表的概率，最后取最大概率的表情类别为识别结果。

其中，squash函数为：

其中，||s_j||为16维向量s_j的模，当||s_j||较大时V_i的值趋向于1，反之趋向于0。

该步骤借助胶囊网络的视点不变性，可以准确区分该图像是否是一张正常的人脸表情图像，最后将得到的结果向量进行求模长，取最长的一个类别为预测的表情类别，即表情的分类结果。

将实施例得到的表情分类结果在CK+和Jaffe数据集进行验证，如图5、图6所示，本实施例得到的识别结果分别为98.98％和98.46％，相较于直接使用ResNet组合胶囊网络在CK+数据集和Jaffe数据集的识别率提升了6.34％和6.15％。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于：步骤1中对人脸表情数据集的预处理包括将人脸表情图像进行裁剪，去除非人脸区域；将图像尺寸调整为224×224大小；对调整后的图像进行归一化处理。

3.根据权利要求1或2所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于：所述步骤3中的宽广注意力包含四个步骤，首先将图像按照空间轴进行划分，分别从横轴、纵轴方向进行平均池化和最大池化，其次将横轴方向的最大池化、平均池化的结果进行拼接，将纵轴方向的最大池化、平均池化的结果进行拼接，再者最终将横纵方向得到的结果拼接得到图像中各个像素点的权重，最后将其与输入特征图进行相乘得到最终的输出特征图。

4.根据权利要求3所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于：所述步骤3中的多尺度融合机制包括：首先，将ResNet的第一层的输出特征图与输入相连接，进行1×1卷积，确保输出特征图保持其原始大小和通道数；对于第二层，其输入经过7×7卷积，以扩大其感受野，然后与第二层的输出和卷积合并，保持128的输出通道数；然后，第二层的输出特征图与第三层的中间输入短路，从而使第三层的输入通道数达到256；在第三层，输入特征图经过5×5卷积，然后与输出特征图连接，保持通道数为256；第三层的输出特征图与第四层的中间输出短接，第四层的输入通道数为512；最后，第四层的输入经过3×3的卷积，然后与输出特征图进行连接和卷积，确保最终输出特征图的通道数保持在512。

5.根据权利要求4所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于：所述步骤4中，将特征提取网络提取到的特征图输入分类网络进行分类，经过胶囊网络中主胶囊层生成32×6×6的8维胶囊向量，再经过动态路由得到16维的胶囊向量，再通过非线性函数squash得出7类表的概率，最后取最大概率的表情类别为识别结果；

其中，squash函数为：

6.根据权利要求5所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法，其特征在于：所述7类表情类别为愤怒、轻蔑、厌恶、开心、中性、悲伤、惊讶。