CN119206837A

CN119206837A - 一种动态表情识别方法、电子设备及计算机可读存储介质

Info

Publication number: CN119206837A
Application number: CN202411669783.2A
Authority: CN
Inventors: 李太豪; 屈乐园; 刘毓; 石寒蕾; 李浩勋
Original assignee: Hangzhou Institute of Advanced Studies of UCAS
Current assignee: Hangzhou Institute of Advanced Studies of UCAS
Priority date: 2024-11-21
Filing date: 2024-11-21
Publication date: 2024-12-27

Abstract

本发明公开一种动态表情识别方法、电子设备及计算机可读存储介质，旨在使用自监督方法，有效提取视频中的具有时间一致性和空间一致性的面部表征。方法步骤为：对输入视频进行采样，将采样出的视频段分别输入到在线学习模块和动量学习模块，并对输入视频进行数据增强；在动量学习模块和在线学习模块中，对每个输入的视频段进行三维卷积，得到具有丰富时空间语义的稠密特征图；先验知识模块将视频标签结合面部动作单元作为先验知识，得到先验知识特征向量；将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合，最终得到面部加权特征图；进行自监督学习；将输出的具有时空间一致性的动态面部特征输入预训练动态情感识别器进行情感识别。

Description

一种动态表情识别方法、电子设备及计算机可读存储介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种动态表情识别方法、电子设备及计算机可读存储介质。

背景技术

随着人工智能和计算机视觉技术的快速发展，基于深度学习的面部表情识别技术在各类应用中得到广泛关注。面部表情识别的主要目标是通过分析面部图像或视频序列中的面部动作和变化，自动识别个体的情绪状态。然而，由于面部表情具有动态性和复杂性，仅基于静态图像的识别方法难以充分捕捉面部表情的时空特征，尤其是在识别细微的情感变化时表现不佳。

目前，大多数传统的面部表情识别方法依赖于预先标注的大量视频数据进行监督学习。然而，标注视频的成本高昂，数据获取困难，同时人工标注的主观性也可能导致模型学习到的表征不够稳健。此外，单一帧的图像分析无法捕捉到时间维度上的情感变化信息，因此这些方法在实际应用中面临着诸多挑战。如何在有限的标注数据下充分利用无监督或自监督的学习方法，从视频数据中提取时空一致的动态面部特征，是当前研究的一个重要方向。

发明内容

为了弥补现有技术的不足，本发明提供一种动态表情识别方法、电子设备及计算机可读存储介质，识别方法采用自监督学习模型和 3D 卷积网络的结合，并在提取特征过程中引入AU等先验知识，创新性地提出一种面部表情识别中时空特征提取和特征一致性的构造范式。

本发明所解决的技术问题可通过以下具体技术方案实现：

一方面，提供了一种动态表情识别方法，包括以下步骤：

步骤1、参考表情变化的时间步长，将输入视频采样成 n 个视频段，再将采样的视频段分别输入到在线学习模块和动量学习模块中，并对输入视频进行多种数据增强策略；

步骤2、在动量学习模块和在线学习模块中，对每个输入的视频段进行三维卷积，得到具有时空间语义的稠密特征图；

步骤3、先验知识模块将视频标签结合面部动作单元AU作为先验知识，得到先验知识特征向量；

步骤4、面部特征融合模块将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合，最终得到面部加权特征图；

步骤5、使用注意力编码器处理面部加权特征图得到注意力遮罩，将两个编码器得到的注意力遮罩与面部加权特征图计算对比损失，同时将两个编码器中输出的面部加权特征图计算相似度损失，进行自监督学习过程；

步骤6、自监督学习收敛后，可以将输出的具有时空间一致性的动态面部特征输入预训练动态情感识别器进行情感识别。

进一步地，所述步骤1中，数据增强策略是在画面空间裁剪和辐射颜色增强中，随机选择一种数据增强策略在每个视频段输入前进行使用。

进一步地，所述步骤2中，在线学习模块和动量学习模块的训练过程中，假设从步骤1中得到的视频段总数为，则每个视频段作为1次查询样本输入在线学习模块，次参考样本输入动量学习模块。

进一步地，所述步骤2中，动量学习模块的参数更新是通过对在线学习模块的参数进行指数移动平均，其公式为：

，

其中，表示动量学习模块的参数；表示在线学习模块的参数；表示一个接近于1的动量系数，取值0.99。

进一步地，三维卷积是指在时间维度、空间维度上进行卷积，假设输入视频的张量为，其维度为，分别表示帧数、高度、宽度和输入通道数；设卷积核为，其大小为，表示深度、高度、宽度、输入通道数和输出通道数，其公式为：

，

其中，是输出的稠密特征图，维度为；表示输出特征图的位置；分别是卷积核在深度、高度和宽度方向上的索引；是输入通道索引；是输出通道索引。

进一步地，所述步骤3中，先验知识模块使用AU作为表情相关的先验知识，结合数据集中表情视频的标签作为对视频段中面部动作的分类，形成各种对面部组件的查询语句，将查询语句输入CLIP文本编码器中，得到先验知识特征向量。

进一步地，所述步骤4的面部特征融合模块使用Transformer Decoder架构，将稠密特征图与先验知识特征向量进行融合，其公式为：

，

其中，为面部加权特征图；为先验知识特征向量；表示将从4D 张量展开成，其中。

进一步地，所述步骤5的注意力编码器包括两个多层感知机MLP，对面部加权特征图进行处理，最终得到注意力遮罩；

对比损失选用InfoNCE损失计算，使得相似的注意力遮罩与面部加权特征图靠近，不相似的远离，用来监督注意力编码器对于面部特征的感知，其公式为：

，

其中，是温度参数，用于控制对相似度的敏感程度；表示相似度度量，其公式为：

；

相似度损失选用MSE损失计算，其公式为：

，

其中，和是动量学习模块和在线学习模块输出的第个面部加权特征图；是特征图的总数量。

另一方面，提供了一种电子设备，包含一个或多个处理器和存储器，该存储器中存储着一个或多个程序，这些程序包含用于执行如上述的一种动态表情识别方法的指令。

本发明还提供了一种计算机可读存储介质，包含一个或多个程序供电子设备的一个或多个处理器执行，所述程序包括用于执行如上述的一种动态表情识别方法的指令。

与现有技术相比，本发明有以下优点：

（1）本发明采用自监督学习模型，通过在线学习模块和动量学习模块的协同作用，无需显式的负样本对比，可以从数据中学习稳健的面部表征；这种架构减少了对大量标注数据的依赖，并通过动量更新策略有效捕捉到动态面部表情的核心特征，提升了模型的鲁棒性和泛化能力。

（2）通过三维卷积网络对视频段进行处理，模型能够同时从时间和空间维度提取动态表情特征，捕捉到更丰富的时空语义信息；结合AU先验知识特征向量的融合和注意力编码器生成的动态遮罩，使得模型在不同时空步长上学习到一致性的面部表征，从而保证特征的连续性和完整性。

（3）本发明采用对比损失与相似度损失的联合优化，通过对比损失区分不同的表情特征，并通过相似度损失确保面部特征的高度一致性。这种优化设计有效提高了特征学习的精度，使模型输出的动态面部特征能够更准确地输入预训练的情感识别器，提升识别效果并降低对数据标注的依赖。

附图说明

图1为本发明动态表情识别方法的流程示意图；

图2为本发明视频数据处理过程的示意图；

图3为本发明先验知识模块的结构示意图；

图4为本发明训练过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，一种动态表情识别方法，包括以下步骤：

步骤1、参考表情变化的时间步长，将输入视频采样成 n 个视频段，再将采样的视频段分别输入到在线学习模块和动量学习模块中，并对输入视频进行多种数据增强策略。

本实施例使用的采样过程需参考表情变化的时间步长提取出视频段。根据前序研究《Video-based Facial Micro-Expression Analysis: A Survey of Datasets,Features and Algorithms》中所阐述的，面部表情变化持续时长在 0.5s～4s 之间，而视频帧率一般在 24 帧/秒。故本次采样取2帧为步长，选择 32 帧为一个视频段。共选择4段视频，此时。

本实施例使用的数据增强策略参考了论文《A Large-Scale Study onUnsupervised Spatiotemporal Representation Learning》，在画面空间裁剪和辐射颜色增强中随机选择一种数据增强策略在每个视频段输入前进行使用。如图2中所示为数据增强后的输入视频数据。

步骤2、在动量学习模块和在线学习模块中，对每个输入的视频段进行三维卷积，得到具有时空间语义的稠密特征图。

在线学习模块和动量学习模块的训练过程中，假设从步骤1中得到的视频段总数为，则每个视频段作为1次查询样本输入在线学习模块，次参考样本输入动量学习模块。动量学习模块的参数更新是通过对在线学习模块的参数进行指数移动平均，其公式为：

，

其中，表示动量学习模块的参数；表示在线学习模块的参数；表示一个接近于1的动量系数，取值0.99。这种更新方式意味着动量网络参数更新得非常缓慢，它会在训练过程中保持更加稳定的特征表示；在线网络则会根据动量网络的输出来进行学习和调整。

三维卷积是指在时间维度、空间维度上进行卷积，假设输入视频的张量为，其维度为，分别表示帧数、高度、宽度和输入通道数；设卷积核为，其大小为，表示深度、高度、宽度、输入通道数和输出通道数，其公式为：

，

步骤3、先验知识模块将视频标签结合面部动作单元AU作为先验知识，得到先验知识特征向量。

如图3所示，为先验知识模块结构示意图，输入情感标签文本和面部动作单元描述文本，输出为先验知识特征向量。先验知识模块使用AU作为表情相关的先验知识，结合数据集中表情视频的标签作为对视频段中面部动作的最终分类，形成各种对面部组件的查询语句，将查询语句输入CLIP文本编码器中，得到先验知识特征向量。

步骤4、面部特征融合模块将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合，最终得到面部加权特征图。

如图4所示，为本发明的训练过程示意图，输入为图2所示的面部表征，输出为注意力遮罩。本申请面部特征融合模块使用Transformer Decoder架构，将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合，最终得到面部加权特征图，其公式为：

，

步骤5、使用注意力编码器处理面部加权特征图得到注意力遮罩，将两个编码器得到的注意力遮罩与面部加权特征图计算对比损失，同时将两个编码器中输出的面部加权特征图计算相似度损失，进行自监督学习过程。

注意力编码器包括两个多层感知机MLP，对面部加权特征图进行处理，最终得到注意力遮罩；对比损失选用InfoNCE损失计算，使得相似的注意力遮罩与面部加权特征图靠近，不相似的远离，用来监督注意力编码器对于面部特征的感知，其公式为：

，

；

另外，相似度损失选用MSE损失计算，其公式为：

，

综上可知，本发明方法对输入视频进行时间步长采样，将其分割成多个视频段，并在在线学习和动量学习模块中进行多种数据增强处理；随后，通过三维卷积网络提取出具有时空语义的稠密特征图，并结合视频标签和面部动作单元 (AU) 信息生成先验知识特征向量；面部特征融合模块将这些先验知识与稠密特征图融合，得到面部加权特征图；进一步地，通过注意力编码器生成动态面部特征的注意力遮罩，结合对比损失和相似度损失优化特征的时空一致性和稳健性，从而实现自监督学习；最终，训练收敛后的动态面部特征可用于高效的情感识别。

实施例2

本实施例提出了一种电子设备，其包含一个或多个处理器和存储器，该存储器中存储着一个或多个程序，这些程序包含用于执行如实施例1中所述的一种动态表情识别方法的指令。

实施例3

本实施例提供了一种计算机可读存储介质，其中包含一个或多个程序，供电子设备的一个或多个处理器执行。这些程序包括用于执行如实施例1中所述的一种动态表情识别方法的指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种动态表情识别方法，其特征在于，包括以下步骤：

步骤1、参考表情变化的时间步长，将输入视频采样成 n 个视频段，再将采样的视频段分别输入到在线学习模块和动量学习模块中，并对输入视频进行数据增强策略；

2.根据权利要求1所述的一种动态表情识别方法，其特征在于，所述步骤1中，数据增强策略是在画面空间裁剪和辐射颜色增强中，随机选择一种数据增强策略在每个视频段输入前进行使用。

3. 根据权利要求1所述的一种动态表情识别方法，其特征在于，所述步骤2中，在线学习模块和动量学习模块的训练过程中，假设从步骤1中得到的视频段总数为，则每个视频段作为1次查询样本输入在线学习模块，次参考样本输入动量学习模块。

4.根据权利要求3所述的一种动态表情识别方法，其特征在于，所述步骤2中，动量学习模块的参数更新是通过对在线学习模块的参数进行指数移动平均，其公式为：

，

5. 根据权利要求4所述的一种动态表情识别方法，其特征在于，三维卷积是指在时间维度、空间维度上进行卷积，假设输入视频的张量为，其维度为，分别表示帧数、高度、宽度和输入通道数；设卷积核为，其大小为，表示深度、高度、宽度、输入通道数和输出通道数，其公式为：

，

6.根据权利要求1所述的一种动态表情识别方法，其特征在于，所述步骤3中，先验知识模块使用AU作为表情相关的先验知识，结合数据集中表情视频的标签作为对视频段中面部动作的分类，形成各种对面部组件的查询语句，将查询语句输入CLIP文本编码器中，得到先验知识特征向量。

7.根据权利要求1所述的一种动态表情识别方法，其特征在于，所述步骤4的面部特征融合模块使用Transformer Decoder架构，将稠密特征图与先验知识特征向量进行融合，其公式为：

，

8. 根据权利要求1所述的一种动态表情识别方法，其特征在于，所述步骤5的注意力编码器包括两个多层感知机MLP，对面部加权特征图进行处理，最终得到注意力遮罩；

，

；

相似度损失选用MSE损失计算，其公式为：

，

9.一种电子设备，其特征在于，包含一个或多个处理器和存储器，该存储器中存储着一个或多个程序，这些程序包含用于执行如权利要求1中所述的一种动态表情识别方法的指令。

10.一种计算机可读存储介质，其特征在于，包含一个或多个程序供电子设备的一个或多个处理器执行，所述程序包括用于执行如权利要求1所述的一种动态表情识别方法的指令。