[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN117275074A - 基于宽广注意力和多尺度融合机制的人脸表情识别方法 - Google Patents

基于宽广注意力和多尺度融合机制的人脸表情识别方法 Download PDF

Info

Publication number
CN117275074A
CN117275074A CN202311436946.8A CN202311436946A CN117275074A CN 117275074 A CN117275074 A CN 117275074A CN 202311436946 A CN202311436946 A CN 202311436946A CN 117275074 A CN117275074 A CN 117275074A
Authority
CN
China
Prior art keywords
facial expression
network
layer
feature map
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311436946.8A
Other languages
English (en)
Inventor
穆静
郭岱朋
轩亚虎
路昊洋
张宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202311436946.8A priority Critical patent/CN117275074A/zh
Publication of CN117275074A publication Critical patent/CN117275074A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,具体涉及一种基于宽广注意力和多尺度融合机制的人脸表情识别方法。识别方法包括:步骤一、对获得的人脸表情数据集进行预处理;步骤二、建立由ResNet网络和胶囊网络组合而成的人脸表情识别模型;步骤三、建立宽广注意力和多尺度融合机制,嵌入进步骤二中的ResNet网络,将其作为特征提取网络;将胶囊网络作为分类网络;步骤四、将步骤一中的人脸表情图像输入步骤三中的网络得出表情分类结果。本发明兼顾到图像的背景与纹理信息,可捕获到图像更为全面的特征信息;同时可将ResNet的各层得到的特征图进行交融,实现上层与下层特征信息交互,使得网络可以更加充分地提取面部表情特征;识别准确率有大幅提升。

Description

基于宽广注意力和多尺度融合机制的人脸表情识别方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于宽广注意力和多尺度融合机制的人脸表情识别方法。
背景技术
在人与人的交流过程中,面部表情是表达内心情感的最强信号。近年来,人脸表情识别技术在公共安全、司法审讯、临床诊断、人机交互等领域获得了广泛的应用,为提高人类生活质量和幸福指数做出了巨大贡献。
随着深度学习技术的流行,人脸表情识别技术蓬勃发展,但多数方法虽使用到注意力和特征融合机制,但传统的注意力对于人脸表情图像的特征提取不完整,且使用的融合机制并未能考虑到浅层特征与深层特征的信息交融,导致最终的人脸表情识别准确率较低。
申请号为“202310493454.6”的专利文件中,公开了一种基于特征融合和注意力机制的人脸表情识别方法及系统。其使用的特征融合方法是通过将两个中间层输出的特征图进行拼接来实现融合,使用的注意力机制是多头注意力机制Transformer。其存在的缺陷在于该特征融合方法只考虑到了中间层特征,而忽略了浅层与深层特征的融合,使用的多头注意力机制存在大量耗费内存、对短程上下文信息的处理能力较差而导致人脸表情特征提取不全面的问题。
发明内容
本发明提供一种基于宽广注意力和多尺度融合机制的人脸表情识别方法以解决现有技术中存在的对于人脸表情特征提取和特征融合不全面,而导致人脸表情识别准确率低的问题。
为了达到上述目的,本发明的技术方案是:一种基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于,包括以下步骤:
步骤一、对获得的人脸表情数据集进行预处理;将数据集划分为训练集和测试集;
步骤二、建立由ResNet网络和胶囊网络组合而成的人脸表情识别模型;
步骤三、建立宽广注意力和多尺度融合机制,嵌入进步骤二中的ResNet网络,将其作为特征提取网络;将胶囊网络作为分类网络;
步骤四、将步骤一中的人脸表情图像输入步骤三中的特征提取网络进行特征提取,将提取到的特征图输入分类网络得出表情分类结果。
进一步的,上述步骤1中对人脸表情数据集的预处理包括将人脸表情图像进行裁剪,去除非人脸区域;将图像尺寸调整为224×224大小;对调整后的图像进行归一化处理。
进一步的,上述步骤3中的宽广注意力包含四个步骤,首先将图像按照空间轴进行划分,分别从横轴、纵轴方向进行平均池化和最大池化,其次将横轴方向的最大池化、平均池化的结果进行拼接,将纵轴方向的最大池化、平均池化的结果进行拼接,再者最终将横纵方向得到的结果拼接得到图像中各个像素点的权重,最后将其与输入特征图进行相乘得到最终的输出特征图。
进一步的,上述多尺度融合机制包括:首先,将ResNet的第一层的输出特征图与输入相连接,进行1×1卷积,确保输出特征图保持其原始大小和通道数。对于第二层,其输入经过7×7卷积,以扩大其感受野,然后与第二层的输出和卷积合并,保持128的输出通道数。然后,第二层的输出特征图与第三层的中间输入短路,从而使第三层的输入通道数达到256。在第三层,输入特征图经过5×5卷积,然后与输出特征图连接,保持通道数为256。第三层的输出特征图与第四层的中间输出短接,第四层的输入通道数为512。最后,第四层的输入经过3×3的卷积,然后与输出特征图进行连接和卷积,确保最终输出特征图的通道数保持在512。
进一步的,上述步骤四中,将特征提取网络提取到的特征图输入分类网络进行分类,经过胶囊网络中主胶囊层生成32×6×6的8维胶囊向量,再经过动态路由得到16维的胶囊向量,最后再通过L2范式输出7类表情的概率。
其中,7类表情分别为愤怒、轻蔑、厌恶、开心、中性、悲伤、惊讶,共七种表情。
与现有技术相比,本发明的优点是:
1、本发明设计了一种可以同时关注到图像的背景与纹理信息的注意力——宽广注意力,该宽广注意力中,同时对图像的横纵方向使用最差池化和平均池化,并将两者进行拼接的操作,与现有的注意力不同是可以从图像的横纵方向的背景和纹理两个方面进行提取,因此增强了网络的特征提取能力,兼顾到图像的背景与纹理信息,捕获到图像更为全面的特征信息。
2、本发明还设计了一种可以融合ResNet的各层提取到的特征的多尺度融合机制,该多尺度融合机制中,采用了将浅层提取到的特征与深层提取到的特征进行融合的操作,与现有的不同是将深层和浅层的特征图进行融合,因此可将ResNet的各层得到的特征图进行交融,实现上层与下层特征信息交互的目的,使得网络可以更加充分地提取面部表情特征。
3、本发明将宽广注意力和多尺度融合机制分别对ResNet进行嵌入,将宽广注意力分别嵌入每个残差块,以保证每个残差块可以最大程度进行特征提取;将多尺度融合机制嵌入在每两个Layer的连接处,以保证网络的深层Layer和浅层Layer获得进行深层和浅层的信息交互能力。借助胶囊网络的视点不变性进行表情最终的分类。这两种机制进行结合起来提升了ResNet对于人脸表情特征的提取和特征信息整合的能力,从表情特征提取阶段进行了增强,最终提高了模型对于人脸表情识别的准确性。
4.为验证本发明的高效性,在现有的公开数据集上进行验证,在CK+数据集上获得98.98%的识别准确率,在Jaffe数据集上获得98.46%的识别准确率,相较于其他传统方法均有提升。
附图说明:
图1为本发明实施例1的流程示意图;
图2为本发明实施例1的整体网络结构示意图;
图3为本发明提出的宽广注意力机制的结构示意图;
图4为本发明提出的多尺度融合机制的结构示意图;
图5为本发明在CK+数据集上的识别准确率示意图;
图6为本发明在Jaffe数据集上的识别准确率示意图。
具体实施方式
以下结合附图和具体实施例对本发明的技术方案作进一步说明。
实施例1,本实施例中,使用的是人脸表情公共数据集CK+和Jaffe,其中CK+数据集包含327个图像标有表情类别,每张图像是固定大小的256×256的灰度图像,从标注序列中选取了三个峰值帧,最终得到了981张面部表情图像,包含七种情绪:愤怒、蔑视、厌恶、恐惧、快乐、悲伤、惊讶。Jaffe数据集包含7种情绪状态下的213幅面部表情图片。
参见图1,本发明提供的一种基于宽广注意力和多尺度融合机制的人脸表情识别方法,包括以下步骤:
步骤一、对获取的人脸表情数据集进行预处理:将人脸表情图像调整为224×224大小,对图像进行归一化处理,mean平均值为[0.485,0.456,0.406],std标准差为[0.228,0.224,0.225];得到归一化后的图像;经过预处理,可去除无关噪声的干扰,增强有用特征。
步骤二、构建由ResNet网络和胶囊网络组合而成的网络模型:
步骤三、建立宽广注意力和多尺度融合机制,其纳入进步骤二中的ResNet网络,将其作为特征提取网络,将胶囊网络作为分类网络;
参见图3,所述宽广注意力将图像按照空间轴进行划分,分别从横轴、纵轴方向进行平均池化和最大池化,将横轴方向的最大池化、平均池化的结果进行拼接,将纵轴方向的最大池化、平均池化的结果进行拼接,最终将横纵方向得到的结果拼接得到图像中各个像素点的权重,将其与输入特征图进行相乘得到最终的输出特征图。
具体地,宽广注意力模块的输入为:
X(N×C×H×W)(1)
对于图像的空间坐标轴的横纵方向的第一步处理为
对于得到的横纵方向的第二步处理为
对于得到的横纵方向的第三步处理为
对于得到的横纵方向的特征图可以表示为
对于最后的输出可以表示为
Output=attention_h×attention_w×Input(6)
其中,N表示为输出进网络的图像的Batch Size,C表示为通道数,H和W分别表示为图像的高和宽。
参见图4,本发明所述多尺度融合机制包括:
首先将ResNet的第一层的输出特征图与输入相连接,进行1×1卷积,确保输出特征图保持其原始大小和通道数。对于第二层,其输入经过7×7卷积,以扩大其感受野,然后与第二层的输出和卷积合并,保持128的输出通道数。
然后,第二层的输出特征图与第三层的中间输入短路,从而使第三层的输入通道数达到256。在第三层,输入特征图经过5×5卷积,然后与输出特征图连接,保持通道数为256。第三层的输出特征图与第四层的中间输出短接,第四层的输入通道数为512。最后,第四层的输入经过3×3卷积,然后与输出特征图进行连接和卷积,确保最终输出特征图的通道数保持在512,以此实现不同尺度和不同层次上的特征融合。
步骤四、将步骤一中的人脸表情图像输入步骤三中的特征提取网络进行特征提取,将特征提取网络提取到的特征图输入分类网络进行分类,经过胶囊网络中主胶囊层生成32×6×6的8维胶囊向量,经过动态路由得到16维的胶囊向量,通过非线性函数squash得出7类表的概率,最后取最大概率的表情类别为识别结果。
其中,squash函数为:
其中,||sj||为16维向量sj的模,当||sj||较大时Vi的值趋向于1,反之趋向于0。
该步骤借助胶囊网络的视点不变性,可以准确区分该图像是否是一张正常的人脸表情图像,最后将得到的结果向量进行求模长,取最长的一个类别为预测的表情类别,即表情的分类结果。
将实施例得到的表情分类结果在CK+和Jaffe数据集进行验证,如图5、图6所示,本实施例得到的识别结果分别为98.98%和98.46%,相较于直接使用ResNet组合胶囊网络在CK+数据集和Jaffe数据集的识别率提升了6.34%和6.15%。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (6)

1.基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于,包括以下步骤:
步骤一、对获得的人脸表情数据集进行预处理;将数据集划分为训练集和测试集;
步骤二、建立由ResNet网络和胶囊网络组合而成的人脸表情识别模型;
步骤三、建立宽广注意力和多尺度融合机制,嵌入进步骤二中的ResNet网络,将其作为特征提取网络;将胶囊网络作为分类网络;
步骤四、将步骤一中的人脸表情图像输入步骤三中的特征提取网络进行特征提取,将提取到的特征图输入分类网络得出表情分类结果。
2.根据权利要求1所述的一种基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于:步骤1中对人脸表情数据集的预处理包括将人脸表情图像进行裁剪,去除非人脸区域;将图像尺寸调整为224×224大小;对调整后的图像进行归一化处理。
3.根据权利要求1或2所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于:所述步骤3中的宽广注意力包含四个步骤,首先将图像按照空间轴进行划分,分别从横轴、纵轴方向进行平均池化和最大池化,其次将横轴方向的最大池化、平均池化的结果进行拼接,将纵轴方向的最大池化、平均池化的结果进行拼接,再者最终将横纵方向得到的结果拼接得到图像中各个像素点的权重,最后将其与输入特征图进行相乘得到最终的输出特征图。
4.根据权利要求3所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于:所述步骤3中的多尺度融合机制包括:首先,将ResNet的第一层的输出特征图与输入相连接,进行1×1卷积,确保输出特征图保持其原始大小和通道数;对于第二层,其输入经过7×7卷积,以扩大其感受野,然后与第二层的输出和卷积合并,保持128的输出通道数;然后,第二层的输出特征图与第三层的中间输入短路,从而使第三层的输入通道数达到256;在第三层,输入特征图经过5×5卷积,然后与输出特征图连接,保持通道数为256;第三层的输出特征图与第四层的中间输出短接,第四层的输入通道数为512;最后,第四层的输入经过3×3的卷积,然后与输出特征图进行连接和卷积,确保最终输出特征图的通道数保持在512。
5.根据权利要求4所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于:所述步骤4中,将特征提取网络提取到的特征图输入分类网络进行分类,经过胶囊网络中主胶囊层生成32×6×6的8维胶囊向量,再经过动态路由得到16维的胶囊向量,再通过非线性函数squash得出7类表的概率,最后取最大概率的表情类别为识别结果;
其中,squash函数为:
其中,||sj||为16维向量sj的模,当||sj||较大时Vi的值趋向于1,反之趋向于0。
6.根据权利要求5所述的基于宽广注意力和多尺度融合机制的人脸表情识别方法,其特征在于:所述7类表情类别为愤怒、轻蔑、厌恶、开心、中性、悲伤、惊讶。
CN202311436946.8A 2023-10-31 2023-10-31 基于宽广注意力和多尺度融合机制的人脸表情识别方法 Pending CN117275074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311436946.8A CN117275074A (zh) 2023-10-31 2023-10-31 基于宽广注意力和多尺度融合机制的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311436946.8A CN117275074A (zh) 2023-10-31 2023-10-31 基于宽广注意力和多尺度融合机制的人脸表情识别方法

Publications (1)

Publication Number Publication Date
CN117275074A true CN117275074A (zh) 2023-12-22

Family

ID=89206376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311436946.8A Pending CN117275074A (zh) 2023-10-31 2023-10-31 基于宽广注意力和多尺度融合机制的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN117275074A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118298491A (zh) * 2024-06-04 2024-07-05 烟台大学 一种基于多尺度特征和空间注意力的表情识别方法及系统
CN118334725A (zh) * 2024-04-25 2024-07-12 东北电力大学 一种基于多尺度空洞注意胶囊网络的情感识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118334725A (zh) * 2024-04-25 2024-07-12 东北电力大学 一种基于多尺度空洞注意胶囊网络的情感识别方法
CN118298491A (zh) * 2024-06-04 2024-07-05 烟台大学 一种基于多尺度特征和空间注意力的表情识别方法及系统

Similar Documents

Publication Publication Date Title
CN112818862B (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN112418095B (zh) 一种结合注意力机制的面部表情识别方法及系统
CN110516571B (zh) 基于光流注意力神经网络的跨库微表情识别方法及装置
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN117275074A (zh) 基于宽广注意力和多尺度融合机制的人脸表情识别方法
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN108615010A (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN115131880B (zh) 一种多尺度注意力融合的双重监督人脸活体检测方法
CN110414350A (zh) 基于注意力模型的双路卷积神经网络的人脸防伪检测方法
CN110008909A (zh) 一种基于ai的实名制业务实时稽核系统
CN111160264A (zh) 一种基于生成对抗网络的漫画人物身份识别方法
CN112329683A (zh) 一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN111191564A (zh) 基于多角度神经网络的多姿态人脸情绪识别方法及系统
CN116259075A (zh) 基于提示微调预训练大模型的行人属性识别方法
CN110516676A (zh) 一种基于图像处理的银行卡号识别系统
CN114842524B (zh) 一种基于不规则显著性像素簇的人脸鉴伪方法
CN109522865A (zh) 一种基于深度神经网络的特征加权融合人脸识别方法
CN114898429B (zh) 一种热红外-可见光跨模态人脸识别的方法
CN113688799B (zh) 一种基于改进深度卷积生成对抗网络的人脸表情识别方法
CN115984700A (zh) 一种基于改进Transformer孪生网络的遥感图像变化检测方法
CN115909172A (zh) 深度伪造视频检测分割识别系统、终端及存储介质
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN114937298A (zh) 一种基于特征解耦的微表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination