CN115147895B

CN115147895B - 人脸鉴伪方法及装置

Info

Publication number: CN115147895B
Application number: CN202210688010.3A
Authority: CN
Inventors: 谭资昌; 缪长涛; 郭国栋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-06-30
Anticipated expiration: 2042-06-16
Also published as: CN115147895A

Abstract

本公开提供了一种人脸鉴伪方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及深度学习技术，可用于人脸鉴伪场景下。具体实现方案为：确定所获取的人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，第一个中心差分注意力模块之后的每个模块的输入特征图为前一个模块的输出特征图；基于处理后特征图，确定人脸图像是否为伪造人脸图像。本公开提高了对于人脸图像的鉴伪结果的准确度。

Description

人脸鉴伪方法及装置

技术领域

本公开涉及人工智能领域，具体涉及深度学习技术，尤其涉及人脸鉴伪方法、装置以及人脸鉴伪模型的训练方法、装置、电子设备以及存储介质，可用于人脸鉴伪场景下。

背景技术

随着人脸伪造技术的快速发展，出现了各种可以生成人眼无法区分的伪造人脸图像和视频的算法。伪造的人脸数据可能被滥用，例如传播政治宣传和制造虚假新闻，对安全构成巨大威胁。在此背景下，人脸伪造检测应运而生，且受到越来越多的关注。目前，大多数人脸鉴伪方法都是基于训练后的卷积神经网络，进行人脸图像的鉴伪，对于伪造人脸数据的检测效果较差。

发明内容

本公开提供了一种人脸鉴伪方法、装置以及人脸鉴伪模型的训练方法、装置、电子设备以及存储介质。

根据第一方面，提供了一种人脸鉴伪方法，包括：确定所获取的人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；基于处理后特征图，确定人脸图像是否为伪造人脸图像。

根据第二方面，提供了一种人脸鉴伪模型的训练方法，包括：获取训练样本集，其中，训练样本集中的训练样本包括样本人脸图像和表征样本人脸图像是否为伪造人脸图像的标签；通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；将所输入的样本人脸图像对应的标签，作为输出层基于处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括嵌入层、多个中心差分注意力模块和输出层的人脸鉴伪模型。

根据第三方面，提供了一种人脸鉴伪装置，包括：第一确定单元，被配置成确定所获取的人脸图像的初始特征图；得到单元，被配置成通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；第二确定单元，被配置成基于处理后特征图，确定人脸图像是否为伪造人脸图像。

根据第四方面，提供了一种人脸鉴伪模型的训练装置，包括：获取单元，被配置成获取训练样本集，其中，训练样本集中的训练样本包括样本人脸图像和表征样本人脸图像是否为伪造人脸图像的标签；训练单元，被配置成通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；将所输入的样本人脸图像对应的标签，作为输出层基于处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括嵌入层、多个中心差分注意力模块和输出层的人脸鉴伪模型。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面、第二方面任一实现方式描述的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面、第二方面任一实现方式描述的方法。

根据本公开的技术，提供了一种人脸鉴伪方法，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以捕获人脸图像在空间域中局部和细粒度的伪造痕迹，提高了对于人脸图像的鉴伪结果的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的人脸鉴伪方法的一个实施例的流程图；

图3是根据本实施例的人脸鉴伪方法的应用场景的示意图；

图4是根据本公开的人脸鉴伪方法的又一个实施例的流程图；

图5是根据本公开的人脸鉴伪模型的结构示意图；

图6是根据本公开的人脸鉴伪模型的训练方法的一个实施例的流程图；

图7是根据本公开的人脸鉴伪装置的一个实施例的结构图；

图8是根据本公开的人脸鉴伪模型的训练装置的一个实施例的结构图；

图9是适于用来实现本公开实施例的计算机系统的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的人脸鉴伪方法及装置、人脸鉴伪模型的训练方法及装置的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如，获取终端设备101、102、103提供的人脸图像，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以最终得到人脸鉴伪结果的后台处理服务器。又例如，通过终端设备101、102、103提供的训练样本，训练得到人脸鉴伪模型的后台处理服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本公开的实施例所提供的人脸鉴伪方法、人脸鉴伪模型的训练方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，人脸鉴伪装置、人脸鉴伪模型的训练装置包括的各个部分(例如各个单元)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当人脸鉴伪方法、人脸鉴伪模型的训练方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括人脸鉴伪方法、人脸鉴伪模型的训练方法运行于其上的电子设备(例如服务器或终端设备)。

请参考图2，图2为本公开实施例提供的一种人脸鉴伪方法的流程图，其中，流程200包括以下步骤：

步骤201，确定所获取的人脸图像的初始特征图。

本实施例中，人脸鉴伪方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取人脸图像，并确定所获取的人脸图像的初始特征图。

人脸图像为包括人脸对象的图像数据，可以是包括人脸对象的静态图像，也可以是包括人脸部位对象的动态视频中的视频帧。为了确定人脸图像中的人脸对象的真实性，需要对人脸图像中的人脸对象进行伪造鉴定。

为了进行人脸图像鉴伪，上述执行主体首先对所获取的人脸图像进行特征提取，得到初始特征图。作为示例，上述执行主体可以通过卷积操作对人脸图像进行特征提取，得到初始特征图。

作为又一示例，上述执行主体可以采用空间深度卷积和线性层(全连接层)来构建特征嵌入层，进而通过特征嵌入层对人脸图像进行特征提取，得到初始特征图。

步骤202，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图。

本实施例中，上述执行主体可以通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图。其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图。

作为示例，对于中心差分注意力模块中的第一个中心差分注意力模块，将初始特征图作为输入，通过中心差分卷积方法对初始特征图进行中心差分卷积，得到中心差分卷积特征图，进而基于注意力机制对中心差分卷积特征图进行特征处理，得到第一个中心差分注意力模块的输出特征图。

对于后续的每个中心差分注意力模块，将前一个中心差分注意力模块的输出特征图作为输入特征图，在前续的中心差分注意力模型的特征处理的基础上，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图继续进行处理，得到对应的输出特征图。最终，将最后一个中心差分注意力模块的输出特征图作为处理后特征图。

标准卷积主要由采样和聚合两个步骤组成，中心差分卷积在采样步骤和聚合步骤之间增加了一个中心差分的步骤。具体的，对于给定一个特征图

(H、W、C分别表示特征图的高度、宽度和通道数量)，普通的二维标准卷积表示为：

其中，Y表示卷积后特征图，W(p_n)代表卷积参数权重，p₀表示卷积前特征图和卷积后特征图上的当前位置，而p_n表示感受野区域R中的任意位置。

中心差分卷积不同于普通卷积的聚合操作，它聚合采样值的中心方向梯度。中心差分卷积可以表示为：

当p_n＝(0，0)时，相对于中心位置p₀本身的梯度值始终为零。中心差分可以增强普通卷积描述细粒度的不变信息的能力。对于不同伪造方式得到的伪造人脸图像，伪造人脸图像虽然通过不同方式伪造得到，但是各种伪造方式在伪造人脸图中的保留的伪造痕迹存在相似性或一致性，相较于标准卷积，中心差分卷积增强了捕捉存在相似性或一致性的伪造痕迹这种不变信息的能力。

本实施例中，中心差分注意力模块的数量可以根据实际情况具体设置，当中心差分注意力模块的数量较少，主要包括中心差分注意力模块的人脸鉴伪模型对于特征图的处理深度较浅；当中心差分注意力模块的数量较多，人脸鉴伪模型对于特征图的处理深度较深。作为示例，中心差分注意力模块的数量可以是4个。

步骤203，基于处理后特征图，确定人脸图像是否为伪造人脸图像。

本实施例中，上述执行主体可以基于处理后特征图，确定人脸图像是否为伪造人脸图像。

作为示例，上述执行主体可以将处理后图像输入softmax分类层，确定人脸图像是否为伪造人脸图像的人脸鉴伪结果。具体的，分类层可以输出人脸图像属于伪造人脸、真实人脸的概率，当对应于伪造人脸的概率超过预设概率阈值时，表明人脸图像为伪造人脸图像；当对应于真实人脸的概率超过预设概率阈值时，表明人脸图像为真实人脸图像。

本实施例中，上述执行主体可以通过人脸鉴伪模型执行上述步骤201-203。具体的，人脸鉴伪模型包括执行步骤201的特征嵌入层、执行步骤202的多个中心差分注意力模块和执行步骤203的分类层。

继续参见图3，图3是根据本实施例的人脸鉴伪方法的应用场景的一个示意图300。在图3的应用场景中，用户301通过终端设备302向服务器303发送了人脸图像304。服务器303首先通过人脸鉴伪模型305中的特征嵌入层3051确定所获取的人脸图像的初始特征图306；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块3052，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图307。其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图。最后，基于处理后特征图307，通过分类层3053确定人脸图像是否为伪造人脸图像，得到人脸鉴伪结果。

本实施例中，提供了一种人脸鉴伪方法，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以捕获人脸图像在空间域中局部和细粒度的伪造痕迹，提高了对于人脸图像的鉴伪结果的准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤202：通过多个中心差分注意力模块中的每个中心差分注意力模块，执行如下操作：

第一，对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图。作为示例，上述执行主体可以通过标准卷积对对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图。

第二，基于卷积特征图，得到查询向量。

本实现方式中，上述执行主体可以通过展平和展开操作将二维的卷积特征图变换为一维的查询(queries)向量

查询向量中的每个像素可以视为一个token。

第三，通过中心差分卷积方法对卷积特征图进行中心差分卷积，得到键向量和值向量。

本实现方式中，首先，上述执行主体可以对卷积特征图进行中心差分卷积，得到中心差分卷积特征图

然后，将二维的中心差分卷积特征图X_kv展平为一维的特征序列/>

最后分别通过投影映射矩阵W_k和W_v进一步投影为键(keys)向量k和值(values)向量v。

第四，通过注意力机制对查询向量、键向量和值向量进行处理，得到该中心差分注意力模块的输出特征图。

作为示例，上述执行主体通过注意力机制确定查询向量、键向量和值向量中关注度较高的特征，得到该中心差分注意力模块的输出特征图。

本实现方式中，提供了一种基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理的具体实现方式，在基于中心差分卷积方法对输入特征图进行特征处理得到查询向量、键向量和值向量的基础上，通过注意力机制处理得到输出特征图，进一步提高了中心差分注意力模块捕获人脸图像在空间域中局部和细粒度的伪造痕迹的能力。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第四步骤：首先，通过多头自注意力机制对查询向量、键向量和值向量进行处理，得到各头部对应的头部特征图；基于各头部对应的头部特征图，得到该中心差分注意力模块的输出特征图。

具体的，以一个二维的特征图

(N表示token的数量，D表示每个token的维度)作为输入，具有M个头部的多头自注意力机制被公式化为：

q＝xW_q，k＝xW_k，v＝xW_v

z＝cat(z₁，…，z_M)W_o

其中，σ(·)表示softmax函数，d＝D/M，表示是每个头部的维度，z_m表示第m个注意力头部的嵌入输出，q_m，k_m，

分别表示查询向量、键向量和值向量，W_q，W_k，W_v，W_o分别表示查询向量、键向量、值向量、注意力机制对应的映射矩阵，cat(·)表示拼接。

本实现方式中，提供了一中基于多头自注意力机制处理查询向量、键向量和值向量的具体方式，进一步提高了输出特征图在空间域中局部和细粒度的伪造痕迹的表现力。

在本实施例的一些可选的实现方式中，相邻的两个中心差分注意力模块之间设有高频小波采样器。本实现方式中，上述执行主体可以通过如下方式执行上述步骤202：

第一，对于多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，得到该中心差分注意力模块的输出特征图，并通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图。

在得到该中心差分注意力模块的输出特征图之后，进一步通过后续的高频小波采样器提取前序中心差分注意力模块的输出特征图的高频信息。

现有的深度神经网络中存在多种下采样操作，如Max Pooling(最大池化)、Average Pooling(平均池化)、strided-convolution(跨步卷积)等。Max Pooling和Average Pooling是有效且原始的，但是一些研究工作指出它们可能会忽略图像的有益细节。尽管有研究人员引入了Mixed Pooling(混合池化)、Stochastic Pooling(随机池化)和MaxBlur Pooling(最大模糊池化)来解决这些问题，但它们没有都考虑频域中真实人脸和伪造人脸之间的不一致性。高频小波采样器与这些普通的采样器有很大不同。高频小波采样器使用离散小波变换，不仅可以进行特征下采样，还可以将图像分解为低频分量和高频分量。

第二，将最后一个中心差分注意力模块的输出特征图作为处理后特征图。

本实现方式中，上述执行主体在通过每个中心差分注意力模块进行特征处理的基础上，进一步通过高频小波采样器进行频域中高频信息的提取，使得每个中心差分注意力模块的输入特征图同时具有空间域和频域的高频特征，进一步提高了最终得到的处理后特征图在局部和细粒度的伪造痕迹的表现力。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行高频小波采样器对高频信息的提取过程：

首先，通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，基于离散小波变换方式，分解得到该中心差分注意力模块的输出特征图中的各通道在频域下的各种高频分量。然后，拼接各通道对应的同种高频分量，得到各拼接后高频分量。最后，级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，以确定下一中心差分注意力模块对应的输入特征图。

本实现方式中，上述执行主体首先通过离散小波变换分解前序的中心差分注意力模块的输出特征图中的各通道在频域下的各种高频分量，其本质上是以不同的分辨率捕获不同的频率。经典的二维离散小波变换包含两种滤波器，即L低通滤波器和H高通滤波器。

低通滤波器和高通滤波器具体表示为：

具体的，低通滤波器集中在主要与低频信号相关的光滑表面上，而高通滤波器则捕获大多数高频信号，如垂直、水平和对角线边缘的信号。这两种滤波器可以任意组合，形成四个内核，即LL分量、LH分量、HL分量和HH分量。

对于给定的一个特征图

(C、H和W分别表示特征图的通道数、高度和宽度)，对每个通道进行离散小波变换操作。具体来说，对于第i个通道的特征X_i，通过一级分解生成子带特征如下：

其中i∈{0,1,…,C-1}。

然后，将这些特征按照通道维度堆叠连接在一起，并表示为X_ll，X_lh，X_hl和X_hh。

通过分析真实人脸图像及其对应的伪造人脸图像的小波子带(分量)，发现主要由低频信息组成的LL子带，描绘了真假人脸图像共有的整体外观，而LH子带、HL子带和HH子带包含表示伪造人脸图像的细微伪影和伪造痕迹(例如，混合边界、棋盘、模糊伪影等)的信息。由于被伪造的人脸图像的低频信息本质上是原始图像的近似值，许多研究工作也都表明了高频(LH、HL和HH)有助于伪造人脸检测。因此，本实现方式不考虑使用LL小波子带用于伪造人脸检测任务。对于LH、HL和HH的高频特征，通过通道级联(cat)将它们聚合在一起，可以表示为：

其中，

这种方式不仅聚合了高频通道特征，还降低了输入特征图的分辨率。

本实现方式中，提供了高频小波采样器提取高频特征的具体实现过程，进一步提高了每个中心差分注意力模块对应的输入特征图在局部和细粒度的伪造痕迹的表现力。

在本实施例的一些可选的实现方式中，上述执行主体可以执行如下操作，以级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块对应的输入特征图：

首先，级联各拼接后高频分量，得到级联高频特征；然后，对级联高频特征进行层归一化，得到下一中心差分注意力模块的输入特征图。

具体的，上述执行主体采用层归一化(Layer Norm)和线性层来减少通道维度，具体表示为：

其中，

本实现方式中，通过层归一化和线性层进行特征处理，在保留特征表现力的基础上，减少了特征的数据量，有助于提高信息处理效率。

在本实施例的一些可选的实现方式中，上述执行主体可以通过入如下方式执行上述步骤202：

第一，基于跳跃连接方式为多个中心差分注意力模块中的每个中心差分注意力模块提供基于初始特征图得到的补充特征图。

作为示例，上述执行主体将初始特征图作为数据基础，通过下采样等操作，处理得到各中心差分注意力模块的输入特征图同尺寸的补充特征图。

第二，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制处理该中心差分注意力模块对应的补充特征图和输入特征图，以最终得到处理后特征图。

补充特征图可以与输入特征图进行逐元素加法操作得到融合后特征图，进而将融合后特征图输入到中心差分注意力模块。通过补充特征图，为各中心差分注意力模块组成的多级网络补充了空间感知局部信息。

本实现方式中，通过跳跃连接方式，为各中心差分注意力模块组成的多级网络补充了空间感知局部信息，进一步提高了特征处理过程的准确度。

继续参考图4，示出了根据本公开的人脸鉴伪方法的又一个实施例的示意性流程400，包括以下步骤：

步骤401，确定所获取的人脸图像的初始特征图。

步骤402，对于多个中心差分注意力模块中的第一个中心差分注意力模块，基于中心差分卷积方法和注意力机制对初始特征图进行处理，得到该中心差分注意力模块的输出特征图。

步骤403，对于后续的每个中心差分注意力模块，通过该中心差分注意力模块与上一中心差分注意力模块之间的高频小波采样器，提取上一中心差分注意力模块的输出特征图中的高频特征，得到该中心差分注意力模块的输入特征图。

步骤404，获取基于跳跃连接方式为该中心差分注意力模块提供的基于初始特征图得到的补充特征图。

步骤405，基于中心差分卷积方法和注意力机制处理该中心差分注意力模块对应的补充特征图和输入特征图，以最终得到处理后特征图。

步骤406，基于处理后特征图，确定人脸图像是否为伪造人脸图像。

从本实施例中可以看出，与图2对应的实施例相比，本实施例中的人脸鉴伪方法的流程400具体说明了基于中心差分注意力模块和高频小波采样器的特征处理过程，以及基于跳跃连接方式为各中心差分注意力模块提供补充特征图的过程，进一步提高了得到的特征图在空间域的局部和细粒度的伪造痕迹的表现力，提高了对于人脸图像的鉴伪结果的准确度。

继续参考图5，示出了人脸鉴伪模型的结构示意图。人脸鉴伪模型500包括特征嵌入层501，4个中心差分处理模块502、503、504、505，3个高频小波采样器506、507、508和分类层509。特征嵌入层501所确定的人脸图像的初始特征输入中心差分注意力模块502，中心差分注意力模块502基于中心差分卷积方法和多头自注意力机制对初始特征图进行处理，得到输出特征图；中心差分注意力模块502的输出特征图通过高频小波采样器506进行高频特征提取，得到中心差分处理模块503的输入特征图，局部跳跃连接策略基于初始特征图为中心差分处理模块503提供补充特征图，中心差分处理模块503基于中心差分卷积方法和注意力机制对所对应的输入特征图和补充特征图进行特征处理。

通过循环执行上述过程，最终得到中心差分处理模块505输出的处理后特征图，以此确定输入的人脸图像是否为伪造人脸图像。

继续参考图6，示出了根据本公开的人脸鉴伪模型的训练方法的一个实施例的示意性流程600，包括以下步骤：

步骤601，获取训练样本集。

本实施例中，人脸鉴伪模型的训练方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取训练样本集。

其中，训练样本集中的训练样本包括样本人脸图像和表征样本人脸图像是否为伪造人脸图像的标签。训练样本集中既包括伪造的样本人脸图像，也包括真实的样本人脸图像。

步骤602，通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图；将所输入的样本人脸图像对应的标签，作为输出层基于处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括嵌入层、多个中心差分注意力模块和输出层的人脸鉴伪模型。

本实施例中，上述执行主体可以通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图；将所输入的样本人脸图像对应的标签，作为输出层基于处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括嵌入层、多个中心差分注意力模块和输出层的人脸鉴伪模型。其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图。

本实施例中，对于输入的样本人脸图像，人脸鉴伪模型输出对于样本人脸图像的实际人脸鉴伪结果；进而，确定实际人脸鉴伪结果与输入的样本人脸图像对应的标签之间的交叉熵损失；进而，根据交叉熵损失更新嵌入层、多个中心差分注意力模块和输出层的参数。

通过循环执行上述训练操作，响应于达到预设结束条件，得到训练后的人脸鉴伪模型。其中，预设结束条件例如可以是训练时间超过预设时间阈值，训练此时超过预设次数阈值，训练损失趋于收敛。

本实施例中，人脸鉴伪模型通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以捕获人脸图像在空间域中局部和细粒度的伪造痕迹，提高了人脸鉴伪模型对于人脸图像的鉴伪结果的准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过执行如下方式，以通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理：

通过多个中心差分注意力模块中的每个中心差分注意力模块，执行如下操作：

第一，对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图；第二，基于卷积特征图，得到查询向量；第三，通过中心差分卷积方法对卷积特征图进行中心差分卷积，得到键向量和值向量；第四，通过注意力机制对查询向量、键向量和值向量进行处理，得到该中心差分注意力模块的输出特征图。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第四步骤：首先，通过多头自注意力机制对查询向量、键向量和值向量进行处理，得到各头部对应的头部特征图；然后，基于各头部对应的头部特征图，得到该中心差分注意力模块的输出特征图。

在本实施例的一些可选的实现方式中，人脸鉴伪模型还包括相邻的两个中心差分注意力模块之间设置的高频小波采样器。本实现方式中，上述执行主体可以通过执行如下方式，以通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图：

首先，对于多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，得到该中心差分注意力模块的输出特征图，并通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图；然后，将最后一个中心差分注意力模块的输出特征图作为处理后特征图。

本实现方式中，在每次的训练操作过程，上述执行主体需要根据得到的交叉熵损失更新嵌入层、多个中心差分注意力模块、多个高频小波采样器和输出层的参数。

在本实施例的一些可选的实现方式中，上述执行主体可以通过执行如下方式，以通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图，包括：

第一，通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，基于离散小波变换方式，分解得到该中心差分注意力模块的输出特征图中的各通道在频域下的各种高频分量；第二，拼接各通道对应的同种高频分量，得到各拼接后高频分量；第三，级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，以确定下一中心差分注意力模块对应的输入特征图。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第三步骤：首先，级联各拼接后高频分量，得到级联高频特征；然后，对级联高频特征进行层归一化，得到下一中心差分注意力模块的输入特征图。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤202：首先，基于跳跃连接方式为多个中心差分注意力模块中的每个中心差分注意力模块提供基于初始特征图得到的补充特征图；然后，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制处理该中心差分注意力模块对应的补充特征图和输入特征图，以最终得到处理后特征图。

需要说明的是，本实施例600中的各实现方式可以参照实施例200中的各实现方式执行，在此不做赘述。训练得到的人脸鉴伪模型可以用于实现上述实施例200、400。

继续参考图7，作为对上述各图所示方法的实现，本公开提供了一种人脸鉴伪装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，人脸鉴伪装置700包括：第一确定单元701，被配置成确定所获取的人脸图像的初始特征图；得到单元702，被配置成通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；第二确定单元703，被配置成基于处理后特征图，确定人脸图像是否为伪造人脸图像。

在本实施例的一些可选的实现方式中，得到单元702进一步被配置成：通过多个中心差分注意力模块中的每个中心差分注意力模块，执行如下操作：对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图；基于卷积特征图，得到查询向量；通过中心差分卷积方法对卷积特征图进行中心差分卷积，得到键向量和值向量；通过注意力机制对查询向量、键向量和值向量进行处理，得到该中心差分注意力模块的输出特征图。

在本实施例的一些可选的实现方式中，得到单元702进一步被配置成：通过多头自注意力机制对查询向量、键向量和值向量进行处理，得到各头部对应的头部特征图；基于各头部对应的头部特征图，得到该中心差分注意力模块的输出特征图。

在本实施例的一些可选的实现方式中，相邻的两个中心差分注意力模块之间设有高频小波采样器，以及得到单元702进一步被配置成：对于多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，得到该中心差分注意力模块的输出特征图，并通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图；将最后一个中心差分注意力模块的输出特征图作为处理后特征图。

在本实施例的一些可选的实现方式中，得到单元702进一步被配置成：通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，基于离散小波变换方式，分解得到该中心差分注意力模块的输出特征图中的各通道在频域下的各种高频分量；拼接各通道对应的同种高频分量，得到各拼接后高频分量；级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，以确定下一中心差分注意力模块对应的输入特征图。

在本实施例的一些可选的实现方式中，得到单元702进一步被配置成：级联各拼接后高频分量，得到级联高频特征；对级联高频特征进行层归一化，得到下一中心差分注意力模块的输入特征图。

在本实施例的一些可选的实现方式中，得到单元702进一步被配置成：基于跳跃连接方式为多个中心差分注意力模块中的每个中心差分注意力模块提供基于初始特征图得到的补充特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制处理该中心差分注意力模块对应的补充特征图和输入特征图，以最终得到处理后特征图。

本实施例中，提供了一种人脸鉴伪装置，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以捕获人脸图像在空间域的局部和细粒度的伪造痕迹，提高了对于人脸图像的鉴伪结果的准确度。

继续参考图8，作为对上述各图所示方法的实现，本公开提供了一种人脸鉴伪模型的训练装置的一个实施例，该装置实施例与图6所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，人脸鉴伪模型的训练装置800包括：获取单元801，被配置成获取训练样本集，其中，训练样本集中的训练样本包括样本人脸图像和表征样本人脸图像是否为伪造人脸图像的标签；训练单元802，被配置成通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为初始特征图，对于第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；将所输入的样本人脸图像对应的标签，作为输出层基于处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括嵌入层、多个中心差分注意力模块和输出层的人脸鉴伪模型。

在本实施例的一些可选的实现方式中，训练单元802进一步被配置成：通过多个中心差分注意力模块中的每个中心差分注意力模块，执行如下操作：对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图；基于卷积特征图，得到查询向量；通过中心差分卷积方法对卷积特征图进行中心差分卷积，得到键向量和值向量；通过注意力机制对查询向量、键向量和值向量进行处理，得到该中心差分注意力模块的输出特征图。

在本实施例的一些可选的实现方式中，训练单元802进一步被配置成：通过多头自注意力机制对查询向量、键向量和值向量进行处理，得到各头部对应的头部特征图；基于各头部对应的头部特征图，得到该中心差分注意力模块的输出特征图。

在本实施例的一些可选的实现方式中，人脸鉴伪模型还包括相邻的两个中心差分注意力模块之间设置的高频小波采样器，以及训练单元802进一步被配置成：对于多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，得到该中心差分注意力模块的输出特征图，并通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图；将最后一个中心差分注意力模块的输出特征图作为处理后特征图。

在本实施例的一些可选的实现方式中，训练单元802进一步被配置成：通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，基于离散小波变换方式，分解得到该中心差分注意力模块的输出特征图中的各通道在频域下的各种高频分量；拼接各通道对应的同种高频分量，得到各拼接后高频分量；级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，以确定下一中心差分注意力模块对应的输入特征图。

在本实施例的一些可选的实现方式中，训练单元802进一步被配置成：级联各拼接后高频分量，得到级联高频特征；对级联高频特征进行层归一化，得到下一中心差分注意力模块的输入特征图。

在本实施例的一些可选的实现方式中，训练单元802进一步被配置成：基于跳跃连接方式为多个中心差分注意力模块中的每个中心差分注意力模块提供基于初始特征图得到的补充特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制处理该中心差分注意力模块对应的补充特征图和输入特征图，以最终得到处理后特征图。

本实施例中，提供了一种人脸鉴伪模型的训练装置，人脸鉴伪模型通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以捕获人脸图像在空间域的局部和细粒度的伪造痕迹，提高了人脸鉴伪模型对于人脸图像的鉴伪结果的准确度。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的人脸鉴伪方法、人脸鉴伪模型的训练方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的人脸鉴伪方法、人脸鉴伪模型的训练方法。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如人脸鉴伪方法。例如，在一些实施例中，人脸鉴伪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的人脸鉴伪方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人脸鉴伪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷；也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开实施例的技术方案，提供了一种人脸鉴伪方法，通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制进行特征处理，以捕获人脸图像在空间域的局部和细粒度的伪造痕迹，提高了对于人脸图像的鉴伪结果的准确度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人脸鉴伪方法，包括：

确定所获取的人脸图像的初始特征图；

通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，所述多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为所述初始特征图，对于所述第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；

基于所述处理后特征图，确定所述人脸图像是否为伪造人脸图像；

其中，所述通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，包括：

通过所述串联的多个中心差分注意力模块中的每个中心差分注意力模块，执行如下操作：

对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图；

基于所述卷积特征图，得到查询向量；

通过中心差分卷积方法对所述卷积特征图进行中心差分卷积，得到键向量和值向量；

通过注意力机制对所述查询向量、所述键向量和所述值向量进行处理，得到该中心差分注意力模块的输出特征图。

2.根据权利要求1所述的方法，其中，所述通过注意力机制对所述查询向量、所述键向量和所述值向量进行处理，得到该中心差分注意力模块的输出特征图，包括：

通过多头自注意力机制对所述查询向量、所述键向量和所述值向量进行处理，得到各头部对应的头部特征图；

基于各头部对应的头部特征图，得到该中心差分注意力模块的输出特征图。

3.根据权利要求1-2中任一项所述的方法，其中，相邻的两个中心差分注意力模块之间设有高频小波采样器，以及

所述通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，包括：

对于所述多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，得到该中心差分注意力模块的输出特征图，并通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图；

将最后一个中心差分注意力模块的输出特征图作为所述处理后特征图。

4.根据权利要求3所述的方法，其中，所述通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图，包括：

通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，基于离散小波变换方式，分解得到该中心差分注意力模块的输出特征图中的各通道在频域下的各种高频分量；

拼接各通道对应的同种高频分量，得到各拼接后高频分量；

级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，以确定下一中心差分注意力模块对应的输入特征图。

5.根据权利要求4所述的方法，其中，所述级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块对应的输入特征图，包括：

级联各拼接后高频分量，得到级联高频特征；

对所述级联高频特征进行层归一化，得到下一中心差分注意力模块的输入特征图。

6.根据权利要求4所述的方法，其中，所述通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对输入特征图进行处理，以最终得到处理后特征图，包括：

基于跳跃连接方式为所述多个中心差分注意力模块中的每个中心差分注意力模块提供基于所述初始特征图得到的补充特征图；

通过所述多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制处理该中心差分注意力模块对应的补充特征图和输入特征图，以最终得到所述处理后特征图。

7.一种人脸鉴伪模型的训练方法，包括：

获取训练样本集，其中，所述训练样本集中的训练样本包括样本人脸图像和表征样本人脸图像是否为伪造人脸图像的标签；

通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，所述多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为所述初始特征图，对于所述第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；将所输入的样本人脸图像对应的标签，作为输出层基于所述处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括所述嵌入层、所述多个中心差分注意力模块和所述输出层的人脸鉴伪模型；

基于所述卷积特征图，得到查询向量；

8.根据权利要求7所述的方法，其中，所述通过注意力机制对所述查询向量、所述键向量和所述值向量进行处理，得到该中心差分注意力模块的输出特征图，包括：

9.根据权利要求7-8中任一项所述的方法，其中，所述人脸鉴伪模型还包括相邻的两个中心差分注意力模块之间设置的高频小波采样器，以及

10.根据权利要求9所述的方法，其中，所述通过该中心差分注意力模块与下一中心差分注意力模块之间的高频小波采样器，提取该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块的输入特征图，包括：

拼接各通道对应的同种高频分量，得到各拼接后高频分量；

11.根据权利要求10所述的方法，其中，所述级联各拼接后高频分量，得到该中心差分注意力模块的输出特征图中的高频特征，得到下一中心差分注意力模块对应的输入特征图，包括：

级联各拼接后高频分量，得到级联高频特征；

12.根据权利要求10所述的方法，其中，所述通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对输入特征图进行处理，以最终得到处理后特征图，包括：

13.一种人脸鉴伪装置，包括：

第一确定单元，被配置成确定所获取的人脸图像的初始特征图；

得到单元，被配置成通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，所述多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为所述初始特征图，对于所述第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；

第二确定单元，被配置成基于所述处理后特征图，确定所述人脸图像是否为伪造人脸图像；

其中，所述得到单元，进一步被配置成：

对该中心差分注意力模块的输入特征图进行卷积，得到卷积特征图；基于所述卷积特征图，得到查询向量；通过中心差分卷积方法对所述卷积特征图进行中心差分卷积，得到键向量和值向量；通过注意力机制对所述查询向量、所述键向量和所述值向量进行处理，得到该中心差分注意力模块的输出特征图。

14.一种人脸鉴伪模型的训练装置，包括：

获取单元，被配置成获取训练样本集，其中，所述训练样本集中的训练样本包括样本人脸图像和表征样本人脸图像是否为伪造人脸图像的标签；

训练单元，被配置成通过嵌入层确定所输入的样本人脸图像的初始特征图；通过串联的多个中心差分注意力模块中的每个中心差分注意力模块，基于中心差分卷积方法和注意力机制对该中心差分注意力模块的输入特征图进行处理，以最终得到处理后特征图，其中，所述多个中心差分注意力模块中的第一个中心差分注意力模块的输入特征图为所述初始特征图，对于所述第一个中心差分注意力模块之后的每个中心差分注意力模块，该中心差分注意力模块的输入特征图为前一个中心差分注意力模块的输出特征图；将所输入的样本人脸图像对应的标签，作为输出层基于所述处理后特征图得到的人脸鉴伪结果的期望输出，以通过机器学习方法，训练得到包括所述嵌入层、所述多个中心差分注意力模块和所述输出层的人脸鉴伪模型；

其中，所述训练单元，进一步被配置成：

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。