CN119206837A - 一种动态表情识别方法、电子设备及计算机可读存储介质 - Google Patents
一种动态表情识别方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN119206837A CN119206837A CN202411669783.2A CN202411669783A CN119206837A CN 119206837 A CN119206837 A CN 119206837A CN 202411669783 A CN202411669783 A CN 202411669783A CN 119206837 A CN119206837 A CN 119206837A
- Authority
- CN
- China
- Prior art keywords
- facial
- learning module
- video
- feature
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000014509 gene expression Effects 0.000 title claims abstract description 27
- 230000001815 facial effect Effects 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000008451 emotion Effects 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000008909 emotion recognition Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000005855 radiation Effects 0.000 claims description 3
- 239000013074 reference sample Substances 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000002123 temporal effect Effects 0.000 abstract 3
- 230000008921 facial expression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种动态表情识别方法、电子设备及计算机可读存储介质,旨在使用自监督方法,有效提取视频中的具有时间一致性和空间一致性的面部表征。方法步骤为:对输入视频进行采样,将采样出的视频段分别输入到在线学习模块和动量学习模块,并对输入视频进行数据增强;在动量学习模块和在线学习模块中,对每个输入的视频段进行三维卷积,得到具有丰富时空间语义的稠密特征图;先验知识模块将视频标签结合面部动作单元作为先验知识,得到先验知识特征向量;将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合,最终得到面部加权特征图;进行自监督学习;将输出的具有时空间一致性的动态面部特征输入预训练动态情感识别器进行情感识别。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种动态表情识别方法、电子设备及计算机可读存储介质。
背景技术
随着人工智能和计算机视觉技术的快速发展,基于深度学习的面部表情识别技术在各类应用中得到广泛关注。面部表情识别的主要目标是通过分析面部图像或视频序列中的面部动作和变化,自动识别个体的情绪状态。然而,由于面部表情具有动态性和复杂性,仅基于静态图像的识别方法难以充分捕捉面部表情的时空特征,尤其是在识别细微的情感变化时表现不佳。
目前,大多数传统的面部表情识别方法依赖于预先标注的大量视频数据进行监督学习。然而,标注视频的成本高昂,数据获取困难,同时人工标注的主观性也可能导致模型学习到的表征不够稳健。此外,单一帧的图像分析无法捕捉到时间维度上的情感变化信息,因此这些方法在实际应用中面临着诸多挑战。如何在有限的标注数据下充分利用无监督或自监督的学习方法,从视频数据中提取时空一致的动态面部特征,是当前研究的一个重要方向。
发明内容
为了弥补现有技术的不足,本发明提供一种动态表情识别方法、电子设备及计算机可读存储介质,识别方法采用自监督学习模型和 3D 卷积网络的结合,并在提取特征过程中引入AU等先验知识,创新性地提出一种面部表情识别中时空特征提取和特征一致性的构造范式。
本发明所解决的技术问题可通过以下具体技术方案实现:
一方面,提供了一种动态表情识别方法,包括以下步骤:
步骤1、参考表情变化的时间步长,将输入视频采样成 n 个视频段,再将采样的视频段分别输入到在线学习模块和动量学习模块中,并对输入视频进行多种数据增强策略;
步骤2、在动量学习模块和在线学习模块中,对每个输入的视频段进行三维卷积,得到具有时空间语义的稠密特征图;
步骤3、先验知识模块将视频标签结合面部动作单元AU作为先验知识,得到先验知识特征向量;
步骤4、面部特征融合模块将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合,最终得到面部加权特征图;
步骤5、使用注意力编码器处理面部加权特征图得到注意力遮罩,将两个编码器得到的注意力遮罩与面部加权特征图计算对比损失,同时将两个编码器中输出的面部加权特征图计算相似度损失,进行自监督学习过程;
步骤6、自监督学习收敛后,可以将输出的具有时空间一致性的动态面部特征输入预训练动态情感识别器进行情感识别。
进一步地,所述步骤1中,数据增强策略是在画面空间裁剪和辐射颜色增强中,随机选择一种数据增强策略在每个视频段输入前进行使用。
进一步地,所述步骤2中,在线学习模块和动量学习模块的训练过程中,假设从步骤1中得到的视频段总数为 ,则每个视频段作为1次查询样本输入在线学习模块, 次参考样本输入动量学习模块。
进一步地,所述步骤2中,动量学习模块的参数更新是通过对在线学习模块的参数进行指数移动平均,其公式为:
,
其中, 表示动量学习模块的参数;表示在线学习模块的参数; 表示一个接近于1的动量系数,取值0.99。
进一步地,三维卷积是指在时间维度、空间维度上进行卷积,假设输入视频的张量为 ,其维度为 ,分别表示帧数 、高度 、宽度 和输入通道数;设卷积核为,其大小为,表示深度、高度、宽度、输入通道数 和输出通道数 ,其公式为:
,
其中,是输出的稠密特征图,维度为 ;表示输出特征图的位置;分别是卷积核在深度、高度和宽度方向上的索引;是输入通道索引;是输出通道索引。
进一步地,所述步骤3中,先验知识模块使用AU作为表情相关的先验知识,结合数据集中表情视频的标签作为对视频段中面部动作的分类,形成各种对面部组件的查询语句,将查询语句输入CLIP文本编码器中,得到先验知识特征向量。
进一步地,所述步骤4的面部特征融合模块使用Transformer Decoder架构,将稠密特征图与先验知识特征向量进行融合,其公式为:
,
其中, 为面部加权特征图; 为先验知识特征向量; 表示将 从4D 张量展开成 ,其中。
进一步地,所述步骤5的注意力编码器包括两个多层感知机MLP,对面部加权特征图进行处理,最终得到注意力遮罩 ;
对比损失选用InfoNCE损失计算,使得相似的注意力遮罩 与面部加权特征图靠近,不相似的远离,用来监督注意力编码器对于面部特征的感知,其公式为:
,
其中, 是温度参数,用于控制对相似度的敏感程度; 表示相似度度量,其公式为:
;
相似度损失选用MSE损失计算,其公式为:
,
其中, 和 是动量学习模块和在线学习模块输出的第个面部加权特征图; 是特征图的总数量。
另一方面,提供了一种电子设备,包含一个或多个处理器和存储器,该存储器中存储着一个或多个程序,这些程序包含用于执行如上述的一种动态表情识别方法的指令。
本发明还提供了一种计算机可读存储介质,包含一个或多个程序供电子设备的一个或多个处理器执行,所述程序包括用于执行如上述的一种动态表情识别方法的指令。
与现有技术相比,本发明有以下优点:
(1)本发明采用自监督学习模型,通过在线学习模块和动量学习模块的协同作用,无需显式的负样本对比,可以从数据中学习稳健的面部表征;这种架构减少了对大量标注数据的依赖,并通过动量更新策略有效捕捉到动态面部表情的核心特征,提升了模型的鲁棒性和泛化能力。
(2)通过三维卷积网络对视频段进行处理,模型能够同时从时间和空间维度提取动态表情特征,捕捉到更丰富的时空语义信息;结合AU先验知识特征向量的融合和注意力编码器生成的动态遮罩,使得模型在不同时空步长上学习到一致性的面部表征,从而保证特征的连续性和完整性。
(3)本发明采用对比损失与相似度损失的联合优化,通过对比损失区分不同的表情特征,并通过相似度损失确保面部特征的高度一致性。这种优化设计有效提高了特征学习的精度,使模型输出的动态面部特征能够更准确地输入预训练的情感识别器,提升识别效果并降低对数据标注的依赖。
附图说明
图1为本发明动态表情识别方法的流程示意图;
图2为本发明视频数据处理过程的示意图;
图3为本发明先验知识模块的结构示意图;
图4为本发明训练过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,一种动态表情识别方法,包括以下步骤:
步骤1、参考表情变化的时间步长,将输入视频采样成 n 个视频段,再将采样的视频段分别输入到在线学习模块和动量学习模块中,并对输入视频进行多种数据增强策略。
本实施例使用的采样过程需参考表情变化的时间步长提取出视频段。根据前序研究《Video-based Facial Micro-Expression Analysis: A Survey of Datasets,Features and Algorithms》中所阐述的,面部表情变化持续时长在 0.5s~4s 之间,而视频帧率一般在 24 帧/秒。故本次采样取2帧为步长,选择 32 帧为一个视频段。共选择4段视频,此时。
本实施例使用的数据增强策略参考了论文《A Large-Scale Study onUnsupervised Spatiotemporal Representation Learning》,在画面空间裁剪和辐射颜色增强中随机选择一种数据增强策略在每个视频段输入前进行使用。如图2中所示为数据增强后的输入视频数据。
步骤2、在动量学习模块和在线学习模块中,对每个输入的视频段进行三维卷积,得到具有时空间语义的稠密特征图。
在线学习模块和动量学习模块的训练过程中,假设从步骤1中得到的视频段总数为 ,则每个视频段作为1次查询样本输入在线学习模块, 次参考样本输入动量学习模块。动量学习模块的参数更新是通过对在线学习模块的参数进行指数移动平均,其公式为:
,
其中, 表示动量学习模块的参数;表示在线学习模块的参数; 表示一个接近于1的动量系数,取值0.99。这种更新方式意味着动量网络参数更新得非常缓慢,它会在训练过程中保持更加稳定的特征表示;在线网络则会根据动量网络的输出来进行学习和调整。
三维卷积是指在时间维度、空间维度上进行卷积,假设输入视频的张量为 ,其维度为 ,分别表示帧数 、高度 、宽度 和输入通道数;设卷积核为,其大小为,表示深度、高度、宽度 、输入通道数 和输出通道数 ,其公式为:
,
其中,是输出的稠密特征图,维度为 ;表示输出特征图的位置;分别是卷积核在深度、高度和宽度方向上的索引;是输入通道索引;是输出通道索引。
步骤3、先验知识模块将视频标签结合面部动作单元AU作为先验知识,得到先验知识特征向量。
如图3所示,为先验知识模块结构示意图,输入情感标签文本和面部动作单元描述文本,输出为先验知识特征向量 。先验知识模块使用AU作为表情相关的先验知识,结合数据集中表情视频的标签作为对视频段中面部动作的最终分类,形成各种对面部组件的查询语句,将查询语句输入CLIP文本编码器中,得到先验知识特征向量。
步骤4、面部特征融合模块将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合,最终得到面部加权特征图。
如图4所示,为本发明的训练过程示意图,输入为图2所示的面部表征 ,输出为注意力遮罩 。本申请面部特征融合模块使用Transformer Decoder架构,将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合,最终得到面部加权特征图,其公式为:
,
其中, 为面部加权特征图; 为先验知识特征向量; 表示将 从4D 张量展开成 ,其中。
步骤5、使用注意力编码器处理面部加权特征图得到注意力遮罩,将两个编码器得到的注意力遮罩与面部加权特征图计算对比损失,同时将两个编码器中输出的面部加权特征图计算相似度损失,进行自监督学习过程。
注意力编码器包括两个多层感知机MLP,对面部加权特征图进行处理,最终得到注意力遮罩 ;对比损失选用InfoNCE损失计算,使得相似的注意力遮罩 与面部加权特征图 靠近,不相似的远离,用来监督注意力编码器对于面部特征的感知,其公式为:
,
其中, 是温度参数,用于控制对相似度的敏感程度; 表示相似度度量,其公式为:
;
另外,相似度损失选用MSE损失计算,其公式为:
,
其中, 和 是动量学习模块和在线学习模块输出的第个面部加权特征图; 是特征图的总数量。
步骤6、自监督学习收敛后,可以将输出的具有时空间一致性的动态面部特征输入预训练动态情感识别器进行情感识别。
综上可知,本发明方法对输入视频进行时间步长采样,将其分割成多个视频段,并在在线学习和动量学习模块中进行多种数据增强处理;随后,通过三维卷积网络提取出具有时空语义的稠密特征图,并结合视频标签和面部动作单元 (AU) 信息生成先验知识特征向量;面部特征融合模块将这些先验知识与稠密特征图融合,得到面部加权特征图;进一步地,通过注意力编码器生成动态面部特征的注意力遮罩,结合对比损失和相似度损失优化特征的时空一致性和稳健性,从而实现自监督学习;最终,训练收敛后的动态面部特征可用于高效的情感识别。
实施例2
本实施例提出了一种电子设备,其包含一个或多个处理器和存储器,该存储器中存储着一个或多个程序,这些程序包含用于执行如实施例1中所述的一种动态表情识别方法的指令。
实施例3
本实施例提供了一种计算机可读存储介质,其中包含一个或多个程序,供电子设备的一个或多个处理器执行。这些程序包括用于执行如实施例1中所述的一种动态表情识别方法的指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种动态表情识别方法,其特征在于,包括以下步骤:
步骤1、参考表情变化的时间步长,将输入视频采样成 n 个视频段,再将采样的视频段分别输入到在线学习模块和动量学习模块中,并对输入视频进行数据增强策略;
步骤2、在动量学习模块和在线学习模块中,对每个输入的视频段进行三维卷积,得到具有时空间语义的稠密特征图;
步骤3、先验知识模块将视频标签结合面部动作单元AU作为先验知识,得到先验知识特征向量;
步骤4、面部特征融合模块将先验知识特征向量作为面部特征查询与稠密特征图进行特征融合,最终得到面部加权特征图;
步骤5、使用注意力编码器处理面部加权特征图得到注意力遮罩,将两个编码器得到的注意力遮罩与面部加权特征图计算对比损失,同时将两个编码器中输出的面部加权特征图计算相似度损失,进行自监督学习过程;
步骤6、自监督学习收敛后,可以将输出的具有时空间一致性的动态面部特征输入预训练动态情感识别器进行情感识别。
2.根据权利要求1所述的一种动态表情识别方法,其特征在于,所述步骤1中,数据增强策略是在画面空间裁剪和辐射颜色增强中,随机选择一种数据增强策略在每个视频段输入前进行使用。
3. 根据权利要求1所述的一种动态表情识别方法,其特征在于,所述步骤2中,在线学习模块和动量学习模块的训练过程中,假设从步骤1中得到的视频段总数为 ,则每个视频段作为1次查询样本输入在线学习模块, 次参考样本输入动量学习模块。
4.根据权利要求3所述的一种动态表情识别方法,其特征在于,所述步骤2中,动量学习模块的参数更新是通过对在线学习模块的参数进行指数移动平均,其公式为:
,
其中, 表示动量学习模块的参数;表示在线学习模块的参数; 表示一个接近于1的动量系数,取值0.99。
5. 根据权利要求4所述的一种动态表情识别方法,其特征在于,三维卷积是指在时间维度、空间维度上进行卷积,假设输入视频的张量为 ,其维度为 ,分别表示帧数 、高度 、宽度 和输入通道数;设卷积核为,其大小为,表示深度、高度、宽度 、输入通道数 和输出通道数 ,其公式为:
,
其中,是输出的稠密特征图,维度为 ;表示输出特征图的位置;分别是卷积核在深度、高度和宽度方向上的索引;是输入通道索引;是输出通道索引。
6.根据权利要求1所述的一种动态表情识别方法,其特征在于,所述步骤3中,先验知识模块使用AU作为表情相关的先验知识,结合数据集中表情视频的标签作为对视频段中面部动作的分类,形成各种对面部组件的查询语句,将查询语句输入CLIP文本编码器中,得到先验知识特征向量。
7.根据权利要求1所述的一种动态表情识别方法,其特征在于,所述步骤4的面部特征融合模块使用Transformer Decoder架构,将稠密特征图与先验知识特征向量进行融合,其公式为:
,
其中, 为面部加权特征图; 为先验知识特征向量; 表示将 从4D 张量展开成 ,其中 。
8. 根据权利要求1所述的一种动态表情识别方法,其特征在于,所述步骤5的注意力编码器包括两个多层感知机MLP,对面部加权特征图进行处理,最终得到注意力遮罩 ;
对比损失选用InfoNCE损失计算,使得相似的注意力遮罩 与面部加权特征图 靠近,不相似的远离,用来监督注意力编码器对于面部特征的感知,其公式为:
,
其中, 是温度参数,用于控制对相似度的敏感程度; 表示相似度度量,其公式为:
;
相似度损失选用MSE损失计算,其公式为:
,
其中, 和 是动量学习模块和在线学习模块输出的第个面部加权特征图; 是特征图的总数量。
9.一种电子设备,其特征在于,包含一个或多个处理器和存储器,该存储器中存储着一个或多个程序,这些程序包含用于执行如权利要求1中所述的一种动态表情识别方法的指令。
10.一种计算机可读存储介质,其特征在于,包含一个或多个程序供电子设备的一个或多个处理器执行,所述程序包括用于执行如权利要求1所述的一种动态表情识别方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411669783.2A CN119206837A (zh) | 2024-11-21 | 2024-11-21 | 一种动态表情识别方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411669783.2A CN119206837A (zh) | 2024-11-21 | 2024-11-21 | 一种动态表情识别方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN119206837A true CN119206837A (zh) | 2024-12-27 |
Family
ID=94058736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411669783.2A Pending CN119206837A (zh) | 2024-11-21 | 2024-11-21 | 一种动态表情识别方法、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119206837A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784347A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法 |
CN112115796A (zh) * | 2020-08-21 | 2020-12-22 | 西北大学 | 一种基于注意力机制的三维卷积微表情识别算法 |
US20210248375A1 (en) * | 2020-02-06 | 2021-08-12 | Mitsubishi Electric Research Laboratories, Inc. | Scene-Aware Video Dialog |
CN113920581A (zh) * | 2021-09-29 | 2022-01-11 | 江西理工大学 | 一种时空卷积注意力网络用于视频中动作识别的方法 |
WO2022111236A1 (zh) * | 2020-11-24 | 2022-06-02 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
CN115862000A (zh) * | 2022-12-22 | 2023-03-28 | 重庆长安汽车股份有限公司 | 目标检测方法、装置、车辆及存储介质 |
CN116386104A (zh) * | 2023-03-03 | 2023-07-04 | 南京理工大学 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
CN117636426A (zh) * | 2023-11-20 | 2024-03-01 | 北京理工大学珠海学院 | 一种基于注意力机制的面部和情景情感识别方法 |
CN117859156A (zh) * | 2021-09-27 | 2024-04-09 | 微软技术许可有限责任公司 | 利用无监督元学习来提升小样本动作识别 |
CN118248147A (zh) * | 2024-05-21 | 2024-06-25 | 长春大学 | 基于自监督学习的视听语音识别方法、设备和存储介质 |
-
2024
- 2024-11-21 CN CN202411669783.2A patent/CN119206837A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784347A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法 |
US20210248375A1 (en) * | 2020-02-06 | 2021-08-12 | Mitsubishi Electric Research Laboratories, Inc. | Scene-Aware Video Dialog |
CN112115796A (zh) * | 2020-08-21 | 2020-12-22 | 西北大学 | 一种基于注意力机制的三维卷积微表情识别算法 |
WO2022111236A1 (zh) * | 2020-11-24 | 2022-06-02 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
CN117859156A (zh) * | 2021-09-27 | 2024-04-09 | 微软技术许可有限责任公司 | 利用无监督元学习来提升小样本动作识别 |
CN113920581A (zh) * | 2021-09-29 | 2022-01-11 | 江西理工大学 | 一种时空卷积注意力网络用于视频中动作识别的方法 |
CN115862000A (zh) * | 2022-12-22 | 2023-03-28 | 重庆长安汽车股份有限公司 | 目标检测方法、装置、车辆及存储介质 |
CN116386104A (zh) * | 2023-03-03 | 2023-07-04 | 南京理工大学 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
CN117636426A (zh) * | 2023-11-20 | 2024-03-01 | 北京理工大学珠海学院 | 一种基于注意力机制的面部和情景情感识别方法 |
CN118248147A (zh) * | 2024-05-21 | 2024-06-25 | 长春大学 | 基于自监督学习的视听语音识别方法、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
LEYUAN QU: "Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer", 《ICASSP 2024 - 2024 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 19 April 2024 (2024-04-19) * |
刘玉莹;刘宏哲;袁家政;李兵;: "基于3D卷积神经网络的视频哈希算法", 计算机应用研究, no. 03, 3 January 2019 (2019-01-03) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Recycle-gan: Unsupervised video retargeting | |
Zhou et al. | SSDA-YOLO: Semi-supervised domain adaptive YOLO for cross-domain object detection | |
Ren et al. | Overview of object detection algorithms using convolutional neural networks | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
Bartz et al. | See: towards semi-supervised end-to-end scene text recognition | |
Zhang et al. | Multimodal learning for facial expression recognition | |
CN103440668B (zh) | 一种在线视频目标跟踪方法和装置 | |
Liu et al. | A 3 GAN: an attribute-aware attentive generative adversarial network for face aging | |
Li et al. | Cliper: A unified vision-language framework for in-the-wild facial expression recognition | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN112307995A (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
Liang et al. | A convolution-transformer dual branch network for head-pose and occlusion facial expression recognition | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
Kandhro et al. | [Retracted] Impact of Activation, Optimization, and Regularization Methods on the Facial Expression Model Using CNN | |
Guo et al. | Facial expression recognition: A review | |
Li et al. | A transformer-based visual object tracker via learning immediate appearance change | |
CN117972138B (zh) | 预训练模型的训练方法、装置和计算机设备 | |
CN110969109B (zh) | 一种非受限条件下眨眼检测模型及其构建方法和应用 | |
Chaturvedi et al. | Landmark calibration for facial expressions and fish classification | |
CN119206837A (zh) | 一种动态表情识别方法、电子设备及计算机可读存储介质 | |
Indolia et al. | An optimized convolution neural network framework for facial expression recognition | |
Shit et al. | Real-time emotion recognition using end-to-end attention-based fusion network | |
Zhang et al. | E-MobileNeXt: Face expression recognition model based on improved MobileNeXt | |
Gavade et al. | Facial Expression Recognition in Videos by learning Spatio-Temporal Features with Deep Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |