CN115049556A

CN115049556A - 一种基于StyleGAN的人脸图像修复方法

Info

Publication number: CN115049556A
Application number: CN202210736142.9A
Authority: CN
Inventors: 陈鹏; 刘亚特; 郑春厚; 章军; 夏懿; 梁栋; 黄林生; 王兵; 王刘向; 章瑜真
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-13

Abstract

本申请公开了一种基于StyleGAN的人脸图像修复方法，步骤包括：将真实人脸图像分割为人脸区域和背景区域，作为训练集；对数据集进行数据增强，将原始图像设置为标签；利用训练集和标签对编码器进行训练，得到编码器网络；利用编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图；将真实人脸图像的隐码向量与待修复图像人脸区域的隐码向量进行混合，得到混合人脸的隐码向量，将混合人脸的隐码向量与待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中，得到修复完成的人脸图像。本申请实现了人脸图像修复能力大幅提升，并且使得修复过程中很好地保证结构相似。

Description

一种基于StyleGAN的人脸图像修复方法

技术领域

本申请涉及计算机视觉的领域，尤其是涉一种基于StyleGAN的人脸图像修复方法。

背景技术

近年来，生成对抗网络(Generative Adversarial Networks)生成图像的质量有显著的提高，尤其是人脸图像，现有技术能够通过神经网络随机生成高质量的人脸图像。其中最先进的生成对抗网络StyleGAN，在高分辨率图像上获得最先进的视觉质量，此外，StyleGAN存在一个可以进行属性解纠缠的潜在空间W，通过在W空间随机采样，进而随机生成人脸图像。将真实图像嵌入到W空间中，即获得真实图像的隐码向量，再输入到StyleGAN的生成器网络中，便能够获得重建结果。现有研究发现，将真实图像嵌入到扩展的W+空间中，能够获得更精细的重建图像。将真实图像嵌入到W+空间的方法主要有两种，一种方法通过不断优化隐码向量，得到最佳的重建图像；另一种方法通过编码器的方法，一次前向传播获得隐码向量，从而得到重建结果。由于StyleGAN的生成器模型中包含了丰富的人脸图像信息，所以可以利用生成器中的人脸先验信息完成图像修复。同时StyleGAN是利用隐码向量进行控制生成内容，将隐码向量输入到StyleGAN生成器网络中的不同层，能够实现控制不同尺度的生成结果。

目前的人脸图像修复技术通常才用了预设的算法，重建后的结果与原始图像的差异较大，在修复过程中可能无法很好地保证结构相似，并且无法赋予真实皮肤的质感和光泽，导致整体效果不理想，对修复工作带来了不便。传统的修复方法依赖于待修复图像的边界信息与纹理特征，这些方法一般基于数学原理，生成信息的能力较差，鲁棒性与普适性较差。综上，人脸图像修复方法还有较大的提升空间。

发明内容

本申请实施例通过提供一种基于StyleGAN的人脸图像修复方法，解决了现有技术中重建后的结果与原始图像的差异较大，在修复过程中可能无法很好地保证结构相似的技术问题，实现了人脸图像修复能力大幅提升，并且使得修复过程中很好地保证结构相似。

本申请实施例提供了一种基于StyleGAN的人脸图像修复方法，包括以下步骤：将真实人脸图像分割为人脸区域和背景区域，并作为训练集；利用水平翻转对数据集进行数据增强，将原始图像设置为标签；利用所述训练集和所述标签对编码器进行训练，得到编码器网络；利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图；将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合，得到混合人脸的隐码向量，将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中，得到修复完成的人脸图像。

进一步地，利用所述训练集和所述标签对编码器进行训练，包括以下步骤：编码图像，将所述人脸区域和所述背景区域分为两个部分进行编码，其中，针对所述人脸区域，利用ResNet50与SE注意力模块结合的编码器结构，对输入人脸区域图像编码，得到人脸部分的隐码向量。针对所述背景区域，利用卷积神经网络对背景提取特征，得到背景部分的隐码特征图；重建图像，将所述人脸部分与背景部分的隐码向量输入到StyleGAN2生成器中，得到重建后的图像；编码器优化，根据标签图像与重建图像计算像素之间的L2距离、感知相似分数、人脸身份特征的L2距离，并对编码器网络进行优化，得到训练完成的编码器网络。

进一步地，使用ResNet50与SE注意力模块结合的编码器结构，提取人脸区域图像的隐码向量。

进一步地，人脸隐码向量的维度为18*512，背景隐码特征图的维度维度为512*64*64。

进一步地，利用三种损失函数对编码器进行优化；其中，第一损失函数是根据像素值计算图像标签和生成图像之间的L2距离；第二损失函数是利用VGG16神经网络分别提取图像标签和生成图像的深层特征信息，计算二者深层特征信息之间L2距离；第三损失函数是利用人脸识别神经网络分别提取图像标签和生成图像之间的人脸特征信息，针对二者的人脸特征计算L2距离。

进一步地，所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量按照8:10的比例进行混合。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于采用编码器的方法，一次前向传播便能够完成破损图像的重建工作，速度快；同时，因为修复方法利用了StyleGAN中丰富的人脸先验知识，所以五官的修复细节更准确真实。

2、由于是通过预训练好的模型实现对破坏人脸图像的精准修复，能够实现赋予图像真实的皮肤质感与光泽。

附图说明

图1为本申请实施例中一种基于StyleGAN的人脸图像修复方法的流程图；

图2为本申请实施例中编码器训练的流程图；

图3为本申请实施例中人脸图像修复方法的结构示意图。

具体实施方式

本申请实施例公开了一种基于StyleGAN的人脸图像修复方法，解决了现有技术中重建后的结果与原始图像的差异较大，在修复过程中可能无法很好地保证结构相似的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：将真实人脸图像分割为人脸区域和背景区域，并作为训练集；利用水平翻转对数据集进行数据增强，将原始图像设置为标签；利用所述训练集和所述标签对编码器进行训练，得到编码器网络；利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图；将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合，得到混合人脸的隐码向量，将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中，得到修复完成的人脸图像。

为使本申请实施例的上述基本方法能够更为明显易懂，下面结合附图对本申请的具体实施例做详细的说明。

图1是本申请实施例中一种基于StyleGAN的人脸图像修复方法，以下通过具体步骤进行详细说明。

S1，将真实人脸图像分割为人脸区域和背景区域，并作为训练集。

在具体实施中，可以通过语义分割网络将真实人脸图像分割为人脸区域和背景区域。

在具体实施中，真实人脸图像的数据集中的照片是现实世界的个人自拍照片，收集后得到的真实人脸图像的数据集。

在具体实施中，在人脸区域图像中，我们使用RGB(0,0,0)对缺失的背景部分进行填充，在背景区域图像中，我们使用RGB(0,0,0)对缺失的人脸部分进行填充。

在具体实施中，利用大量的真实人脸图像对StyleGAN进行训练，训练出一个能稳定生成多样化人脸图像的StyleGAN生成器模型。

S2，利用水平翻转对数据集进行数据增强，将原始图像设置为标签。

在具体实施中，可以将未分割的原始图像作为标签图像。

S3，利用所述训练集和所述标签对编码器进行训练，得到编码器网络。

在具体实施中，参照图2所示，可以通过以下方法进行训练：

S31，编码图像，将所述人脸区域和所述背景区域分为两个部分进行编码，其中，针对所述人脸区域，利用ResNet50与SE注意力模块结合的编码器结构，对输入人脸区域图像编码，得到人脸部分的隐码向量。针对所述背景区域，利用卷积神经网络对背景提取特征，得到背景部分的隐码特征图。

在具体实施中，对于处理人脸区域的编码器网络，可以使用了ResNet50与SE注意力模块结合的结构，共有23个卷积块，每个卷积块中都包含了BatchNormal层、二维卷积层、LeakyReLU激活函数和SE注意力模块，并且输入会经过最大池化后与SE模块的输出进行连接，这种跳跃连接的结构提高了信息流通，有效避免了由网络过深引起的梯度消失问题。

并且可以将将第6个卷积块输出的特征图f1、第20个卷积块输出的特征图f2和第23个卷积块输出的特征图f3取出，通过上采样进行相加连接，将其转换为特征图c1、c2和c3，其中c1＝f3，c2＝upsample(c1)+f2,c3＝upsample(c2)+f1，浅层特征包含了较多的细节信息，深层特征更加关注全局，不注重图像细节。使用特征金字塔的网络结构进行融合深层与浅层特征，能够在关注细节信息的同时保持图像的全局特征及语义信息。

在具体实施中，对于构造特征图转换隐码向量的网络模块，该模块由二维卷积、LeakyReLU激活函数、全连接层构成，分别对c1、c2和c3进行处理，将特征图c1转换成为3*512维的隐码向量，将特征图c2转换成为4*512维的隐码向量，将特征图c3转换成为11*512维的隐码向量。将获得的隐码向量进行拼接，得到最终的18*512维隐码向量。

在具体实施中，对于处理背景区域图像的编码器网络，本方法使用了与人脸编码器相同的卷积块，由于本方法将背景处理成为隐码特征图，所以只使用了6层卷积块进行背景图像的处理。每个卷积块中都包含了BatchNormal层、二维卷积层、ReLU激活函数和SE注意力模块，并且输入会经过最大池化后与SE模块的输出进行连接，通过背景编码器网络将背景区域图像处理成为512*64*64维的隐码特征图。

S32，重建图像，将所述人脸部分与背景部分的隐码向量输入到StyleGAN2生成器中，得到重建后的图像。

在具体实施中，将编码器网络的输出与StyleGAN网络的输入进行连接。将人脸图像编码器的输出与StyleGAN生成器的输入相连接，将背景图像编码器的输出与StyleGAN生成器中间层的特征图进行融合。将人脸图像编码器输出的18*512维隐码向量输入到StyleGAN生成器中的不同层中，控制不同尺度的人脸生成效果。将背景图像编码器输出的512*64*64与StyleGAN生成器的中间层的特征图进行加权融合，通过抑制和增强生成器中间层特征图的某些区域，实现对背景的准确重建。

在具体实施中，在训练编码器时，固定StyleGAN生成器网络的权重，利用StyleGAN生成器生成的图像与预先设置的标签图像计算损失进行优化编码器，因为固定了StyleGAN生成器网络的权重，所以当StyleGAN生成的图像与标签图像相似时，即证明编码器生成的隐码向量与隐码特征图能够准确表达人脸图像和背景图像。

为了衡量生成图像与标签图像之间的相似性，并利用该相似程度计算损失，对编码器进行优化。总的损失函数为L，该函数由三个损失函数构成，第一损失函数是根据像素值计算图像标签和生成图像之间的均方误差L_mse。第二损失函数是利用VGG16神经网络分别提取图像标签和生成图像的深层特征信息，计算二者深层特征信息之间均方误差L_lpips。第三损失函数是利用人脸识别神经网络分别提取图像标签和生成图像之间的人脸特征信息，针对二者的人脸特征计算均方误差L_id。

L_mse＝‖I-G(E(I))‖₂

L_lpips＝‖LPIPS(I)-LPIPS(G(E(I)))‖₂

L_id＝‖ID(I)-ID(G(E(I)))‖₂

其中I是输入图像，E是训练好的编码器网络，G是训练好的StyleGAN生成器网络。LPIPS是预训练的VGG16网络，用来提取图像的深层特征，计算两张图像的感知相似度。ID是预训练的人脸识别网络，用来提取图像中人脸的身份特征。

总的损失函数为L_totalL_total＝λ_mseL_mse+λ_lpipsL_lpips+λ_idL_id

其中,L_mse是两张图像像素值之间的均方误差，λ_mse＝1.0为该损失的权重系数。L_lpips是两张图像深层特征的均方误差，λ_lpips＝0.8为该损失的权重系数。L_id是两张图像人脸特征的均方误差,λ_id＝0.5为该损失的权重系数。

S33，编码器优化，根据标签图像与重建图像计算像素之间的L2距离、感知相似分数、人脸身份特征的L2距离，并对编码器网络进行优化，得到训练完成的编码器网络。

在具体实施中，可以设置批大小为8，迭代次数为30万次，学习率为1e-4,。按照批大小8，每次从真实人脸图像中取出8个样本，利用语义分割算法获得这8个样本的人脸图像和背景图像，将其分别输入人脸编码器网络和背景编码器网络，得到相应的隐码向量和隐码特征图，再输入到StyleGAN生成器中，获得生成图像，完成前向传播，再通过精心设定的损失函数及权重计算损失，反向传播优化人脸编码器和背景编码器网络。

S4，利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图。

在具体实施中，可以参照图3所示，可以使用人脸识别库Dlib对待修复图像进行人脸关键点定位，裁剪得到待修复人脸图像，然后使用语义分割算法，将待修复人脸图像分为人脸区域图像和背景区域图像。

S5，将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合，得到混合人脸的隐码向量，将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中，得到修复完成的人脸图像。

在具体实施中，将待修复人类图像的隐码向量和真实人脸图像的隐码向量进行混合，得到混合后的隐码向量，混合的比例为8:10，使用待修复人脸的隐码向量中的前8*512维，使用真实人脸的隐码向量中的后10*512维，将其拼接称为新的18*512维隐码向量。由于StyleGAN通过控制隐码向量实现生成不同的人脸图像，隐码向量中的不同维度控制生成不同尺度的图像效果。将混合比例设定为8：10，在充分考虑利用StyleGAN生成器网络中蕴含的人脸先验信息的情况下，同时保留了待修复人脸图像中粗糙的人脸五官风格、样貌等信息。

并且，将混合得到的隐码向量与待修复图像的背景隐码特征图一起输入到StyleGAN生成器网络中，输出重建图像。由于每张图片中的背景均是独特的，所以使用隐码向量同时保存人脸信息和背景信息负担过重，所以将人脸图像与背景图像分开处理，使用隐码特征图单独保存背景信息，有助于重建多样化的背景信息。

综上所述，由于采用了一种基于StyleGAN的人脸图像修复方法，在保持待修复图像人脸身份信息的同时，保证了对五官、皮肤、质感、光泽的修复。首先通过训练StyleGAN生成器，获得丰富的人脸先验知识，其次编码器网络，通过在图像上设置像素级别的损失、整体的感知相似损失以及人脸属性相似的损失，使得编码器能通过隐码向量和特征图准确表达人脸信息与背景信息，在隐码向量和隐码特征图的双重控制下，重建图像既拥有待修复人脸图像的五官轮廓、样貌信息，又能够增加皮肤光泽和质感，在保持待修复人脸身份信息的同时，利用StyleGAN生成器中的人脸先验知识，极大补充了待修复人脸图像的细节信息，确保了修复准确性和鲁棒性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于StyleGAN的人脸图像修复方法，其特征在于，包括以下步骤：

将真实人脸图像分割为人脸区域和背景区域，并作为训练集；

利用水平翻转对数据集进行数据增强，将原始图像设置为标签；

利用所述训练集和所述标签对编码器进行训练，得到编码器网络；

利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图；

将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合，得到混合人脸的隐码向量，将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中，得到修复完成的人脸图像。

2.如权利要求1所述的一种基于StyleGAN的人脸图像修复方法，其特征在于，利用所述训练集和所述标签对编码器进行训练，包括以下步骤：

编码图像，将所述人脸区域和所述背景区域分为两个部分进行编码，其中，针对所述人脸区域，利用ResNet50与SE注意力模块结合的编码器结构，对输入人脸区域图像编码，得到人脸部分的隐码向量。针对所述背景区域，利用卷积神经网络对背景提取特征，得到背景部分的隐码特征图；

重建图像，将所述人脸部分与背景部分的隐码向量输入到StyleGAN2生成器中，得到重建后的图像；

编码器优化，根据标签图像与重建图像计算像素之间的L2距离、感知相似分数、人脸身份特征的L2距离，并对编码器网络进行优化，得到训练完成的编码器网络。

3.如权利要求2所述的一种基于StyleGAN的人脸图像修复方法，其特征在于，使用ResNet50与SE注意力模块结合的编码器结构，提取人脸区域图像的隐码向量。

4.如权利要求2所述的一种基于StyleGAN的人脸图像修复方法，其特征在于，人脸隐码向量的维度为18*512，背景隐码特征图的维度维度为512*64*64。

5.如权利要求2所述的一种基于StyleGAN的人脸图像修复方法，其特征在于，利用三种损失函数对编码器进行优化；其中，第一损失函数是根据像素值计算图像标签和生成图像之间的L2距离；第二损失函数是利用VGG16神经网络分别提取图像标签和生成图像的深层特征信息，计算二者深层特征信息之间L2距离；第三损失函数是利用人脸识别神经网络分别提取图像标签和生成图像之间的人脸特征信息，针对二者的人脸特征计算L2距离。

6.如权利要求1所述的一种基于StyleGAN的人脸图像修复方法，其特征在于，所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量按照8:10的比例进行混合。