CN115049556A - 一种基于StyleGAN的人脸图像修复方法 - Google Patents
一种基于StyleGAN的人脸图像修复方法 Download PDFInfo
- Publication number
- CN115049556A CN115049556A CN202210736142.9A CN202210736142A CN115049556A CN 115049556 A CN115049556 A CN 115049556A CN 202210736142 A CN202210736142 A CN 202210736142A CN 115049556 A CN115049556 A CN 115049556A
- Authority
- CN
- China
- Prior art keywords
- image
- face
- code vector
- hidden code
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 239000010410 layer Substances 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000002932 luster Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000011229 interlayer Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000036548 skin texture Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种基于StyleGAN的人脸图像修复方法,步骤包括:将真实人脸图像分割为人脸区域和背景区域,作为训练集;对数据集进行数据增强,将原始图像设置为标签;利用训练集和标签对编码器进行训练,得到编码器网络;利用编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图;将真实人脸图像的隐码向量与待修复图像人脸区域的隐码向量进行混合,得到混合人脸的隐码向量,将混合人脸的隐码向量与待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中,得到修复完成的人脸图像。本申请实现了人脸图像修复能力大幅提升,并且使得修复过程中很好地保证结构相似。
Description
技术领域
本申请涉及计算机视觉的领域,尤其是涉一种基于StyleGAN的人脸图像修复方法。
背景技术
近年来,生成对抗网络(Generative Adversarial Networks)生成图像的质量有显著的提高,尤其是人脸图像,现有技术能够通过神经网络随机生成高质量的人脸图像。其中最先进的生成对抗网络StyleGAN,在高分辨率图像上获得最先进的视觉质量,此外,StyleGAN存在一个可以进行属性解纠缠的潜在空间W,通过在W空间随机采样,进而随机生成人脸图像。将真实图像嵌入到W空间中,即获得真实图像的隐码向量,再输入到StyleGAN的生成器网络中,便能够获得重建结果。现有研究发现,将真实图像嵌入到扩展的W+空间中,能够获得更精细的重建图像。将真实图像嵌入到W+空间的方法主要有两种,一种方法通过不断优化隐码向量,得到最佳的重建图像;另一种方法通过编码器的方法,一次前向传播获得隐码向量,从而得到重建结果。由于StyleGAN的生成器模型中包含了丰富的人脸图像信息,所以可以利用生成器中的人脸先验信息完成图像修复。同时StyleGAN是利用隐码向量进行控制生成内容,将隐码向量输入到StyleGAN生成器网络中的不同层,能够实现控制不同尺度的生成结果。
目前的人脸图像修复技术通常才用了预设的算法,重建后的结果与原始图像的差异较大,在修复过程中可能无法很好地保证结构相似,并且无法赋予真实皮肤的质感和光泽,导致整体效果不理想,对修复工作带来了不便。传统的修复方法依赖于待修复图像的边界信息与纹理特征,这些方法一般基于数学原理,生成信息的能力较差,鲁棒性与普适性较差。综上,人脸图像修复方法还有较大的提升空间。
发明内容
本申请实施例通过提供一种基于StyleGAN的人脸图像修复方法,解决了现有技术中重建后的结果与原始图像的差异较大,在修复过程中可能无法很好地保证结构相似的技术问题,实现了人脸图像修复能力大幅提升,并且使得修复过程中很好地保证结构相似。
本申请实施例提供了一种基于StyleGAN的人脸图像修复方法,包括以下步骤:将真实人脸图像分割为人脸区域和背景区域,并作为训练集;利用水平翻转对数据集进行数据增强,将原始图像设置为标签;利用所述训练集和所述标签对编码器进行训练,得到编码器网络;利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图;将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合,得到混合人脸的隐码向量,将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中,得到修复完成的人脸图像。
进一步地,利用所述训练集和所述标签对编码器进行训练,包括以下步骤:编码图像,将所述人脸区域和所述背景区域分为两个部分进行编码,其中,针对所述人脸区域,利用ResNet50与SE注意力模块结合的编码器结构,对输入人脸区域图像编码,得到人脸部分的隐码向量。针对所述背景区域,利用卷积神经网络对背景提取特征,得到背景部分的隐码特征图;重建图像,将所述人脸部分与背景部分的隐码向量输入到StyleGAN2生成器中,得到重建后的图像;编码器优化,根据标签图像与重建图像计算像素之间的L2距离、感知相似分数、人脸身份特征的L2距离,并对编码器网络进行优化,得到训练完成的编码器网络。
进一步地,使用ResNet50与SE注意力模块结合的编码器结构,提取人脸区域图像的隐码向量。
进一步地,人脸隐码向量的维度为18*512,背景隐码特征图的维度维度为512*64*64。
进一步地,利用三种损失函数对编码器进行优化;其中,第一损失函数是根据像素值计算图像标签和生成图像之间的L2距离;第二损失函数是利用VGG16神经网络分别提取图像标签和生成图像的深层特征信息,计算二者深层特征信息之间L2距离;第三损失函数是利用人脸识别神经网络分别提取图像标签和生成图像之间的人脸特征信息,针对二者的人脸特征计算L2距离。
进一步地,所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量按照8:10的比例进行混合。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、由于采用编码器的方法,一次前向传播便能够完成破损图像的重建工作,速度快;同时,因为修复方法利用了StyleGAN中丰富的人脸先验知识,所以五官的修复细节更准确真实。
2、由于是通过预训练好的模型实现对破坏人脸图像的精准修复,能够实现赋予图像真实的皮肤质感与光泽。
附图说明
图1为本申请实施例中一种基于StyleGAN的人脸图像修复方法的流程图;
图2为本申请实施例中编码器训练的流程图;
图3为本申请实施例中人脸图像修复方法的结构示意图。
具体实施方式
本申请实施例公开了一种基于StyleGAN的人脸图像修复方法,解决了现有技术中重建后的结果与原始图像的差异较大,在修复过程中可能无法很好地保证结构相似的技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:将真实人脸图像分割为人脸区域和背景区域,并作为训练集;利用水平翻转对数据集进行数据增强,将原始图像设置为标签;利用所述训练集和所述标签对编码器进行训练,得到编码器网络;利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图;将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合,得到混合人脸的隐码向量,将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中,得到修复完成的人脸图像。
为使本申请实施例的上述基本方法能够更为明显易懂,下面结合附图对本申请的具体实施例做详细的说明。
图1是本申请实施例中一种基于StyleGAN的人脸图像修复方法,以下通过具体步骤进行详细说明。
S1,将真实人脸图像分割为人脸区域和背景区域,并作为训练集。
在具体实施中,可以通过语义分割网络将真实人脸图像分割为人脸区域和背景区域。
在具体实施中,真实人脸图像的数据集中的照片是现实世界的个人自拍照片,收集后得到的真实人脸图像的数据集。
在具体实施中,在人脸区域图像中,我们使用RGB(0,0,0)对缺失的背景部分进行填充,在背景区域图像中,我们使用RGB(0,0,0)对缺失的人脸部分进行填充。
在具体实施中,利用大量的真实人脸图像对StyleGAN进行训练,训练出一个能稳定生成多样化人脸图像的StyleGAN生成器模型。
S2,利用水平翻转对数据集进行数据增强,将原始图像设置为标签。
在具体实施中,可以将未分割的原始图像作为标签图像。
S3,利用所述训练集和所述标签对编码器进行训练,得到编码器网络。
在具体实施中,参照图2所示,可以通过以下方法进行训练:
S31,编码图像,将所述人脸区域和所述背景区域分为两个部分进行编码,其中,针对所述人脸区域,利用ResNet50与SE注意力模块结合的编码器结构,对输入人脸区域图像编码,得到人脸部分的隐码向量。针对所述背景区域,利用卷积神经网络对背景提取特征,得到背景部分的隐码特征图。
在具体实施中,对于处理人脸区域的编码器网络,可以使用了ResNet50与SE注意力模块结合的结构,共有23个卷积块,每个卷积块中都包含了BatchNormal层、二维卷积层、LeakyReLU激活函数和SE注意力模块,并且输入会经过最大池化后与SE模块的输出进行连接,这种跳跃连接的结构提高了信息流通,有效避免了由网络过深引起的梯度消失问题。
并且可以将将第6个卷积块输出的特征图f1、第20个卷积块输出的特征图f2和第23个卷积块输出的特征图f3取出,通过上采样进行相加连接,将其转换为特征图c1、c2和c3,其中c1=f3,c2=upsample(c1)+f2,c3=upsample(c2)+f1,浅层特征包含了较多的细节信息,深层特征更加关注全局,不注重图像细节。使用特征金字塔的网络结构进行融合深层与浅层特征,能够在关注细节信息的同时保持图像的全局特征及语义信息。
在具体实施中,对于构造特征图转换隐码向量的网络模块,该模块由二维卷积、LeakyReLU激活函数、全连接层构成,分别对c1、c2和c3进行处理,将特征图c1转换成为3*512维的隐码向量,将特征图c2转换成为4*512维的隐码向量,将特征图c3转换成为11*512维的隐码向量。将获得的隐码向量进行拼接,得到最终的18*512维隐码向量。
在具体实施中,对于处理背景区域图像的编码器网络,本方法使用了与人脸编码器相同的卷积块,由于本方法将背景处理成为隐码特征图,所以只使用了6层卷积块进行背景图像的处理。每个卷积块中都包含了BatchNormal层、二维卷积层、ReLU激活函数和SE注意力模块,并且输入会经过最大池化后与SE模块的输出进行连接,通过背景编码器网络将背景区域图像处理成为512*64*64维的隐码特征图。
S32,重建图像,将所述人脸部分与背景部分的隐码向量输入到StyleGAN2生成器中,得到重建后的图像。
在具体实施中,将编码器网络的输出与StyleGAN网络的输入进行连接。将人脸图像编码器的输出与StyleGAN生成器的输入相连接,将背景图像编码器的输出与StyleGAN生成器中间层的特征图进行融合。将人脸图像编码器输出的18*512维隐码向量输入到StyleGAN生成器中的不同层中,控制不同尺度的人脸生成效果。将背景图像编码器输出的512*64*64与StyleGAN生成器的中间层的特征图进行加权融合,通过抑制和增强生成器中间层特征图的某些区域,实现对背景的准确重建。
在具体实施中,在训练编码器时,固定StyleGAN生成器网络的权重,利用StyleGAN生成器生成的图像与预先设置的标签图像计算损失进行优化编码器,因为固定了StyleGAN生成器网络的权重,所以当StyleGAN生成的图像与标签图像相似时,即证明编码器生成的隐码向量与隐码特征图能够准确表达人脸图像和背景图像。
为了衡量生成图像与标签图像之间的相似性,并利用该相似程度计算损失,对编码器进行优化。总的损失函数为L,该函数由三个损失函数构成,第一损失函数是根据像素值计算图像标签和生成图像之间的均方误差Lmse。第二损失函数是利用VGG16神经网络分别提取图像标签和生成图像的深层特征信息,计算二者深层特征信息之间均方误差Llpips。第三损失函数是利用人脸识别神经网络分别提取图像标签和生成图像之间的人脸特征信息,针对二者的人脸特征计算均方误差Lid。
Lmse=‖I-G(E(I))‖2
Llpips=‖LPIPS(I)-LPIPS(G(E(I)))‖2
Lid=‖ID(I)-ID(G(E(I)))‖2
其中I是输入图像,E是训练好的编码器网络,G是训练好的StyleGAN生成器网络。LPIPS是预训练的VGG16网络,用来提取图像的深层特征,计算两张图像的感知相似度。ID是预训练的人脸识别网络,用来提取图像中人脸的身份特征。
总的损失函数为LtotalLtotal=λmseLmse+λlpipsLlpips+λidLid
其中,Lmse是两张图像像素值之间的均方误差,λmse=1.0为该损失的权重系数。Llpips是两张图像深层特征的均方误差,λlpips=0.8为该损失的权重系数。Lid是两张图像人脸特征的均方误差,λid=0.5为该损失的权重系数。
S33,编码器优化,根据标签图像与重建图像计算像素之间的L2距离、感知相似分数、人脸身份特征的L2距离,并对编码器网络进行优化,得到训练完成的编码器网络。
在具体实施中,可以设置批大小为8,迭代次数为30万次,学习率为1e-4,。按照批大小8,每次从真实人脸图像中取出8个样本,利用语义分割算法获得这8个样本的人脸图像和背景图像,将其分别输入人脸编码器网络和背景编码器网络,得到相应的隐码向量和隐码特征图,再输入到StyleGAN生成器中,获得生成图像,完成前向传播,再通过精心设定的损失函数及权重计算损失,反向传播优化人脸编码器和背景编码器网络。
S4,利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图。
在具体实施中,可以参照图3所示,可以使用人脸识别库Dlib对待修复图像进行人脸关键点定位,裁剪得到待修复人脸图像,然后使用语义分割算法,将待修复人脸图像分为人脸区域图像和背景区域图像。
S5,将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合,得到混合人脸的隐码向量,将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中,得到修复完成的人脸图像。
在具体实施中,将待修复人类图像的隐码向量和真实人脸图像的隐码向量进行混合,得到混合后的隐码向量,混合的比例为8:10,使用待修复人脸的隐码向量中的前8*512维,使用真实人脸的隐码向量中的后10*512维,将其拼接称为新的18*512维隐码向量。由于StyleGAN通过控制隐码向量实现生成不同的人脸图像,隐码向量中的不同维度控制生成不同尺度的图像效果。将混合比例设定为8:10,在充分考虑利用StyleGAN生成器网络中蕴含的人脸先验信息的情况下,同时保留了待修复人脸图像中粗糙的人脸五官风格、样貌等信息。
并且,将混合得到的隐码向量与待修复图像的背景隐码特征图一起输入到StyleGAN生成器网络中,输出重建图像。由于每张图片中的背景均是独特的,所以使用隐码向量同时保存人脸信息和背景信息负担过重,所以将人脸图像与背景图像分开处理,使用隐码特征图单独保存背景信息,有助于重建多样化的背景信息。
综上所述,由于采用了一种基于StyleGAN的人脸图像修复方法,在保持待修复图像人脸身份信息的同时,保证了对五官、皮肤、质感、光泽的修复。首先通过训练StyleGAN生成器,获得丰富的人脸先验知识,其次编码器网络,通过在图像上设置像素级别的损失、整体的感知相似损失以及人脸属性相似的损失,使得编码器能通过隐码向量和特征图准确表达人脸信息与背景信息,在隐码向量和隐码特征图的双重控制下,重建图像既拥有待修复人脸图像的五官轮廓、样貌信息,又能够增加皮肤光泽和质感,在保持待修复人脸身份信息的同时,利用StyleGAN生成器中的人脸先验知识,极大补充了待修复人脸图像的细节信息,确保了修复准确性和鲁棒性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (6)
1.一种基于StyleGAN的人脸图像修复方法,其特征在于,包括以下步骤:
将真实人脸图像分割为人脸区域和背景区域,并作为训练集;
利用水平翻转对数据集进行数据增强,将原始图像设置为标签;
利用所述训练集和所述标签对编码器进行训练,得到编码器网络;
利用所述编码器网络分别提取真实人脸图像的隐码向量、待修复图像人脸区域的隐码向量、待修复图像背景区域的隐码特征图;
将所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量进行混合,得到混合人脸的隐码向量,将所述混合人脸的隐码向量与所述待修复图像背景区域的隐码特征图一同输入到StyleGAN生成器网络中,得到修复完成的人脸图像。
2.如权利要求1所述的一种基于StyleGAN的人脸图像修复方法,其特征在于,利用所述训练集和所述标签对编码器进行训练,包括以下步骤:
编码图像,将所述人脸区域和所述背景区域分为两个部分进行编码,其中,针对所述人脸区域,利用ResNet50与SE注意力模块结合的编码器结构,对输入人脸区域图像编码,得到人脸部分的隐码向量。针对所述背景区域,利用卷积神经网络对背景提取特征,得到背景部分的隐码特征图;
重建图像,将所述人脸部分与背景部分的隐码向量输入到StyleGAN2生成器中,得到重建后的图像;
编码器优化,根据标签图像与重建图像计算像素之间的L2距离、感知相似分数、人脸身份特征的L2距离,并对编码器网络进行优化,得到训练完成的编码器网络。
3.如权利要求2所述的一种基于StyleGAN的人脸图像修复方法,其特征在于,使用ResNet50与SE注意力模块结合的编码器结构,提取人脸区域图像的隐码向量。
4.如权利要求2所述的一种基于StyleGAN的人脸图像修复方法,其特征在于,人脸隐码向量的维度为18*512,背景隐码特征图的维度维度为512*64*64。
5.如权利要求2所述的一种基于StyleGAN的人脸图像修复方法,其特征在于,利用三种损失函数对编码器进行优化;其中,第一损失函数是根据像素值计算图像标签和生成图像之间的L2距离;第二损失函数是利用VGG16神经网络分别提取图像标签和生成图像的深层特征信息,计算二者深层特征信息之间L2距离;第三损失函数是利用人脸识别神经网络分别提取图像标签和生成图像之间的人脸特征信息,针对二者的人脸特征计算L2距离。
6.如权利要求1所述的一种基于StyleGAN的人脸图像修复方法,其特征在于,所述真实人脸图像的隐码向量与所述待修复图像人脸区域的隐码向量按照8:10的比例进行混合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736142.9A CN115049556A (zh) | 2022-06-27 | 2022-06-27 | 一种基于StyleGAN的人脸图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736142.9A CN115049556A (zh) | 2022-06-27 | 2022-06-27 | 一种基于StyleGAN的人脸图像修复方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115049556A true CN115049556A (zh) | 2022-09-13 |
Family
ID=83164006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210736142.9A Pending CN115049556A (zh) | 2022-06-27 | 2022-06-27 | 一种基于StyleGAN的人脸图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049556A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631527A (zh) * | 2022-10-31 | 2023-01-20 | 福州大学至诚学院 | 基于角度自适应的发型属性编辑方法及系统 |
CN115861343A (zh) * | 2022-12-12 | 2023-03-28 | 中山大学·深圳 | 基于动态隐式图像函数的任意尺度图像表示方法及系统 |
CN116362972A (zh) * | 2023-05-22 | 2023-06-30 | 飞狐信息技术(天津)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN116884077A (zh) * | 2023-09-04 | 2023-10-13 | 上海任意门科技有限公司 | 一种人脸图像类别确定方法、装置、电子设备及存储介质 |
-
2022
- 2022-06-27 CN CN202210736142.9A patent/CN115049556A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631527A (zh) * | 2022-10-31 | 2023-01-20 | 福州大学至诚学院 | 基于角度自适应的发型属性编辑方法及系统 |
CN115861343A (zh) * | 2022-12-12 | 2023-03-28 | 中山大学·深圳 | 基于动态隐式图像函数的任意尺度图像表示方法及系统 |
CN115861343B (zh) * | 2022-12-12 | 2024-06-04 | 中山大学·深圳 | 基于动态隐式图像函数的任意尺度图像表示方法及系统 |
CN116362972A (zh) * | 2023-05-22 | 2023-06-30 | 飞狐信息技术(天津)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN116362972B (zh) * | 2023-05-22 | 2023-08-08 | 飞狐信息技术(天津)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN116884077A (zh) * | 2023-09-04 | 2023-10-13 | 上海任意门科技有限公司 | 一种人脸图像类别确定方法、装置、电子设备及存储介质 |
CN116884077B (zh) * | 2023-09-04 | 2023-12-08 | 上海任意门科技有限公司 | 一种人脸图像类别确定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
CN111340122B (zh) | 一种多模态特征融合的文本引导图像修复方法 | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN111275518A (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
CN112184585B (zh) | 一种基于语义边缘融合的图像补全方法及系统 | |
CN111832745A (zh) | 数据增广的方法、装置及电子设备 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN111932458B (zh) | 一种基于区域间注意力机制的图像信息提取与生成方法 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
CN110766623A (zh) | 一种基于深度学习的立体图像修复方法 | |
CN115272437A (zh) | 一种基于全局与局部特征的图像深度估计方法及装置 | |
Wang et al. | Unsupervised deep exemplar colorization via pyramid dual non-local attention | |
CN116863053A (zh) | 一种基于知识蒸馏的点云渲染增强方法 | |
CN106815879B (zh) | 一种基于lbp特征的快速纹理合成方法 | |
CN109829857B (zh) | 一种基于生成对抗网络的倾斜图像的矫正方法及装置 | |
CN111064905B (zh) | 面向自动驾驶的视频场景转换方法 | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
Huang et al. | Single image super-resolution reconstruction of enhanced loss function with multi-gpu training | |
CN116342385A (zh) | 文本图像超分辨率网络的训练方法、装置以及存储介质 | |
CN116485892A (zh) | 一种弱纹理物体的六自由度位姿估计方法 | |
Yao et al. | A Generative Image Inpainting Model Based on Edge and Feature Self‐Arrangement Constraints | |
Kang et al. | Eyeglass Remover Network based on a Synthetic Image Dataset. | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |