CN114663937A - 模型训练及图像处理方法、介质、装置和计算设备 - Google Patents
模型训练及图像处理方法、介质、装置和计算设备 Download PDFInfo
- Publication number
- CN114663937A CN114663937A CN202210198355.0A CN202210198355A CN114663937A CN 114663937 A CN114663937 A CN 114663937A CN 202210198355 A CN202210198355 A CN 202210198355A CN 114663937 A CN114663937 A CN 114663937A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- processing
- processed
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 124
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 163
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims description 230
- 238000005070 sampling Methods 0.000 claims description 71
- 238000000605 extraction Methods 0.000 claims description 53
- 230000000694 effects Effects 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 46
- 230000015556 catabolic process Effects 0.000 description 19
- 238000006731 degradation reaction Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000002708 enhancing effect Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本公开的实施方式提供了一种模型训练及图像处理方法、介质、装置和计算设备。该模型训练方法包括:获取多组训练样本,所述训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像;将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像;根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整。针对包含人脸的图像能够进行显著增强,同时无需对图像进行裁剪和拼接,也保证了图像的整体性和完整性,使得图像中的人脸增强效果和背景增强效果更加协调。
Description
技术领域
本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及一种模型训练及图像处理方法、介质、装置和计算设备。
背景技术
本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
图像增强是指对各种降质因子导致的低质量图像进行增强,从而改善图像的视觉效果的过程。
在各种类型的图像中,图像中的人物为图像的重点。对于包含人物图像的增强处理,通常是将图像中的人脸进行裁剪,然后对裁剪后的人脸图像进行增强,并将增强后的人脸图像拼接至原图像中。
上述方案由于裁剪和拼接破坏了增强图像的整体性,增强后的图像有明显的拼接痕迹,增强图像的显示效果不佳。
发明内容
本公开提供一种模型训练及图像处理方法、介质、装置和计算设备,以提高增强图像的显示效果。
在本公开实施方式的第一方面中,提供了一种模型训练方法,包括:
获取多组训练样本,所述训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像;
将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像;
根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整。
在本公开实施方式的第二方面中,提供了一种图像处理方法,包括:
对待处理图像进行人脸解析处理,得到对应的人脸解析图像;
将所述待处理图像和所述人脸解析图像输入至图像增强模型,得到所述待处理图像对应的增强图像,所述图像增强模型为根据第一方面任一项所述的模型训练方法训练得到的模型。
在本公开实施方式的第三方面中,提供了一种模型训练装置,包括:
获取模块,用于获取多组训练样本,所述训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像;
处理模块,用于将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像;
训练模块,用于根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整。
在本公开实施方式的第四方面中,提供了一种图像处理装置,包括:
解析模块,用于对待处理图像进行人脸解析处理,得到对应的人脸解析图像;
处理模块,用于将所述待处理图像和所述人脸解析图像输入至图像增强模型,得到所述待处理图像对应的增强图像,所述图像增强模型为根据第一方面任一项所述的模型训练方法训练得到的模型。
在本公开实施方式的第五方面中,提供了一种计算设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的模型训练方法,或者,使得所述至少一个处理器执行如第二方面任一项所述的图像处理方法。
在本公开实施方式的第六方面中,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的模型训练方法,或者,实现如第二方面任一项所述的图像处理方法。
在本公开实施方式的第七方面中,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序;所述计算机程序被执行时实现如第一方面任一项所述的模型训练方法,或者,实现如第二方面任一项所述的图像处理方法。
本公开实施例提供的模型训练及图像处理方法、介质、装置和计算设备,首先获取多组训练样本,训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像,针对任意一组训练样本,可以将样本待处理图像和样本人脸解析图像输入图像增强模型,得到图像增强模型输出的样本增强图像,从而可以根据样本增强图像和标签增强图像对图像增强模型的参数进行调整。针对任意一组训练样本均可以采用上述方式对图像增强模型进行训练,最终得到训练好的图像增强模型。在图像增强模型训练好后,图像增强模型就具备了对图像进行增强处理的能力,将待处理图像和对应的人脸解析图像输入至图像增强模型后,即可由图像增强模型输出对应的增强图像。由于图像增强模型的训练过程中加入了样本人脸解析图像,样本人脸解析图像中包括样本待处理图像的人脸先验信息,因此本公开实施例的方案,针对包含人脸的图像能够进行显著增强,同时无需对图像进行裁剪和拼接,也保证了图像的整体性和完整性,使得图像中的人脸增强效果和背景增强效果更加协调。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1为本公开实施例提供的一种应用场景示意图;
图2为本公开实施例提供的模型训练方法的流程示意图;
图3为本公开实施例提供的图像处理方法的流程示意图;
图4为本公开实施例提供的图像增强模型的结构示意图;
图5为本公开实施例提供的人脸结构嵌入模块的结构示意图;
图6为本公开实施例提供的帧间传递示意图;
图7为本公开实施例提供的图像增强模型训练的流程示意图;
图8为本公开实施例提供的样本损失计算示意图;
图9为本公开实施例提供的待处理图像处理过程示意图;
图10为本公开实施例提供的存储介质示意图;
图11为本公开实施例提供的模型训练装置的结构示意图;
图12为本公开实施例提供的图像处理装置的结构示意图;
图13为本公开实施例提供的计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种模型训练及图像处理方法、介质、装置和计算设备。在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
首先对本公开涉及的基础概念进行介绍。
生成对抗网络:Generative Adversarial Networks,简称GAN,深度学习技术的一种,常用于图像生成、风格迁移和图像增强领域,一个生成对抗网络中通常包含有生成器网络和至少一个鉴别器网络。
降质因子:指视频图像视觉效果差的原因,常见的有模糊、噪声、压缩失真、缩放等。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
图像增强是指对各种降质因子导致的低质量图像进行增强,改善低质量图像的视觉效果的过程,可以是指针对某一项降质因子导致的低质量图像进行增强,也可以是指针对多项降质因子导致的低质量图像进行增强。
在移动互联网时代,用户拍摄和上传的图像的数量呈指数级增长。由于拍摄图像的设备和环境多种多样,质量参差不齐,以及压缩传播等原因,模糊、噪声、失真等问题在图像中普遍存在,降低了图像的观感,因此,对图像进行增强处理以改善图像的视觉效果至关重要。
在用户拍摄和上传的图像中,大部分是以人物为主的图像。针对包括人物的图像,相关技术中的增强方案包括以下两种:
第一种是不单独考虑图像中的人脸,直接将图像作为一个整体,进行整体的增强。
第二种是将图像中的人脸抠出,分别对图像的人脸和背景进行增强,然后再将增强后的人脸和背景进行融合,得到增强后的整体图像。
本发明人发现,上述第一种方案由于是将图像作为整体进行增强,对于图像中的人脸而言,其增强的效果有限,而人脸的增强效果是影响图像的观感和视觉效果的关键,因此,该方案对于提升图像的视觉效果的作用较小。而上述第二种方案虽然对人脸进行了单独增强,但是通过将人脸抠出以及后续的拼接融合过程,破坏了图像的整体性,拼接处的像素点不能较好的贴合,也会影响增强处理后的图像的显示效果。
由于真实世界的图像增强是一个盲问题,导致低质量图像产生的降质因子是不清楚的,因此对于低质量图像的增强也面临较大的挑战。基于此针对以人物为主的图像,本公开实施例通过获取人脸特定的先验信息并应用于后续图像的增强过程中,以取得较好的增强效果,同时不会破坏增强图像的整体性。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
首先参考图1对本公开的一种适用的应用场景进行介绍。
图1为本公开实施例提供的一种应用场景示意图,如图1所示,包括客户端11和服务器12,客户端11和服务器12之间通过有线或无线连接。
客户端11可以用于生产图像,并将图像发送至服务器12,服务器12可以对接收的图像进行处理。在本公开实施例中,涉及到针对图像增强模型的训练过程以及基于图像增强模型的图像处理过程。在图像增强模型的训练过程中,客户端11可以向服务器12发送训练样本,训练样本中包括用于模型训练的图像,服务器12根据训练样本进行图像增强模型的训练。在基于图像增强模型的图像处理过程中,客户端11可以向服务器12发送低质量图像,服务器12根据图像增强模型对低质量图像进行增强处理,得到对应的高质量图像,等等。
在一些实施例中,客户端11和服务器12可以为独立的两个设备,在另一些实施例中,客户端11和服务器12的功能也可以集成在一个设备中。进一步的,执行图像增强模型训练过程的设备和基于图像增强模型执行图像处理过程的设备可以是同一个设备,也可以是不同的设备。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本公开示例性实施方式的模型训练方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图2为本公开实施例提供的模型训练方法的流程示意图,如图2所示,该方法可以包括:
S21,获取多组训练样本,训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像。
本公开实施例中的执行主体可以为服务器,也可以为具备一定的计算能力和数据处理能力的设备。多组训练样本用于处理图像增强模型,每组训练样本中可以包括样本待处理图像、样本人脸解析图像和标签增强图像,其中,样本待处理图像为训练样本中的低质量图像,相当于训练样本中的样本数据,标签增强图像为该低质量图像对应的高质量图像,相当于训练样本中该样本数据对应的标签,样本人脸解析图像为样本待处理图像中的人脸的先验信息。
S22,将样本待处理图像和样本人脸解析图像输入图像增强模型,得到图像增强模型输出的样本增强图像。
在获取训练样本后,针对任意一组训练样本,均可以将该组训练样本中的样本待处理图像和样本人脸解析图像输入图像增强模型,图像增强模型对样本待处理图像和样本人脸解析图像进行处理,输出样本增强图像。
由于图像增强模型是用于对图像进行增强处理的,增强处理即为对低质量的样本待处理图像进行增强,得到对应的高质量的样本增强图像。
S23,根据样本增强图像和标签增强图像对图像增强模型的参数进行调整。
在得到图像增强模型输出的样本增强图像后,可以根据样本增强图像和标签增强图像之间的差异,对图像增强模型的参数进行调整。
针对任意一组训练样本,均可以根据上述S22和S23的方案对图像增强模型的参数进行调整。通过多组训练样本对图像增强模型的训练,直至样本增强图像和标签增强图像之间的差异满足一定的条件后,得到训练好的图像增强模型。
在上述实施例中根据多组训练样本实现了图像增强模型的训练,下面将结合图3对图像增强模型的图像处理过程进行介绍。
图3为本公开实施例提供的图像处理方法的流程示意图,如图3所示,该方法可以包括:
S31,对待处理图像进行人脸解析处理,得到对应的人脸解析图像。
待处理图像为需要进行增强处理的低质量图像,图像增强模型可以基于人脸先验信息对待处理图像进行增强处理,因此需要先通过人脸解析处理获取人脸先验信息,即待处理图像对应的人脸解析图像。
人脸解析处理首先是对待处理图像进行人脸检测,得到待处理图像中的人脸区域,然后对待处理图像中的人脸区域进行解析,得到对应的人脸解析图像,人脸先验信息可以通过人脸解析图像上的各个像素点的像素值反映。
S32,将待处理图像和人脸解析图像输入至图像增强模型,得到待处理图像对应的增强图像。
在得到人脸解析图像后,可以将待处理图像和人脸解析图像输入至图像增强模型,图像增强模型即为图2实施例中训练得到的模型,图像增强模型具备根据人脸解析图像对待处理图像进行增强处理得到对应的增强图像的能力。通过图像增强模型对待处理图像和人脸解析图像的处理,即可得到对应的增强图像。
本公开实施例提供的模型训练方法,首先获取多组训练样本,训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像,针对任意一组训练样本,可以将样本待处理图像和样本人脸解析图像输入图像增强模型,得到图像增强模型输出的样本增强图像,从而可以根据样本增强图像和标签增强图像对图像增强模型的参数进行调整。
针对任意一组训练样本均可以采用上述方式对图像增强模型进行训练,在满足图像增强模型训练的终止条件后,终止训练过程,得到训练好的图像增强模型。其中,图像增强模型训练的终止条件可以包括:图像增强模型输出的样本增强图像和标签增强图像之间的损失值小于预设损失值,或者,训练轮数达到预设次数。例如,在通过图像增强模型输出样本增强图像后,根据样本增强图像和标签增强图像可以计算相应的损失值,然后将该损失值与预设损失值进行比较。当该损失值大于或等于预设损失值时,表示图像增强模型还未训练完成,需要继续进行下一轮训练;当该损失值小于预设损失值时,表示满足终止条件,图像增强模型训练完成。例如,当图像增强模型的训练轮数达到预设次数时,表示满足终止条件,图像增强模型训练完成。
在图像增强模型训练好后,图像增强模型就具备了对图像进行增强处理的能力,将待处理图像和对应的人脸解析图像输入至图像增强模型后,即可由图像增强模型输出对应的增强图像。由于图像增强模型的训练过程中加入了样本人脸解析图像,样本人脸解析图像中包括样本待处理图像的人脸先验信息,因此本公开实施例的方案,针对包含人脸的图像能够进行显著增强,同时无需对图像进行裁剪和拼接,也保证了图像的整体性和完整性,使得图像中的人脸增强效果和背景增强效果更加协调。
在上述实施例的基础上,下面结合附图对本公开实施例中图像增强模型进行详细介绍。
图4为本公开实施例提供的图像增强模型的结构示意图,如图4所示,图像增强模型包括特征金字塔模块、人脸结构嵌入模块、图像重建模块和全局残差微调及帧间传递模块,不同的模块用于对图像进行不同的处理。同时,在通过图像增项模型对低质量图像41进行处理的过程中,还需要配合人脸解析模块对低质量图像41进行人脸解析,得到对应的人脸解析图像42,用于辅助图像增强模型对低质量图像41的处理。下面将结合图4对各模块分别进行介绍。
人脸解析模块
人脸解析模块用于对低质量图像41中的人脸区域的像素点进行分析,判断低质量图像41中的每个像素点的所属类别。人脸解析模块对低质量图像41的处理主要包括两个步骤:第一步,对低质量图像41进行人脸检测,得到低质量图像41中的所有人脸区域;第二步,对人脸区域进行解析,得到人脸解析图像42。
人脸解析模块输出的是尺寸为(C,H,W)的三维矩阵,即人脸解析图像42,W和H为低质量图像41的宽高,C表示需要将低质量图像41归类的类别数。例如在人脸场景下,可以将像素点归为11类,包括背景、脸部皮肤、左眉毛、右眉毛、左眼、右眼、鼻子、上唇、口中、下唇和头发,每个类别对应一个(H,W)的矩阵,其中1表示像素点属于该类别,0表示像素点不属于该类别,所有类别的矩阵合并构成人脸解析图42。为了减少计算量,上述解析过程可以只针对人脸区域,非人脸区域的像素点均归为背景类。
人脸解析模块的功能可以通过预训练的人脸解析模型来实现,例如,可以首先获取多组人脸解析样本,人脸解析样本中包括样本图像以及标注信息,标注信息标注了样本图像上的各像素点的类别,然后通过多组人脸解析样本对人脸解析模型进行训练。在达到人脸解析模型的训练终止条件后停止训练,得到训练完成的人脸解析模型。例如,训练终止条件可以是人脸解析模型输出的样本人脸解析图像和标注信息之间的损失值小于或等于预设的损失值,还可以是训练轮数达到预设轮数,等等。在人脸解析模型训练完成后,训练完成的人脸解析模型就具备人脸解析的功能。此时,将低质量图像41输入至人脸解析模型,即可得到对应的人脸解析图像42。人脸解析图像42中包括低质量图像41上的各像素点的类别信息,根据该类别信息可以确定低质量图像41上的各个像素点的类别。
特征金字塔模块
特征金字塔模块由一个卷积层和多个特征提取层构成,以图4中为例,从上至下依次包括卷积层1、特征提取层1、特征提取层2、特征提取层3和特征提取层4。每个特征提取层完成提取图像的关键特征,并进行下采样来对提取的特征进行聚合。
每个特征提取层都包括一个卷积模块和一个降采样模块,其中卷积模块是由多个卷积层、标准化层和激活层组合连接得到的使用卷积方法进行特征提取的模块,卷积模块的结果可以自行设计组合,也可以使用残差网络实现,其中核心的卷积计算公式如下:
conv(F;W)i=∑j∈Ω(i)wΔijfj,
i和j表示空间坐标,F表示上一层传入的特征图,W表示卷积核,Ω(i)表示i周边区域,wΔij为卷积核W中的参数值,fj为特征图F中的像素点的像素值。
降采样模块可以使用池化层或步长为2的卷积层实现,降采样模块对输入的特征的尺寸减小一半,因此,特征提取层提取的特征会随着层数的加深,尺寸依次减半,得到特征金字塔。
在一些实施例中,特征金字塔模块整体可以使用预训练的骨干网络来代理,骨干网络例如可以包括MobileNet、Inception-ResNet-v2等,这些骨干网络会用大型的图像数据集进行预训练,实现更好的特征提取,提高网络的效果和训练效率。
在图4的示例中,特征金字塔模块共包含了一个卷积层和四个特征提取层,低质量图像41输入至卷积层1后得到图像F1,图像F1输入特征提取层1后得到图像F2,图像F2输入特征提取层2后得到图像F3,图像F3输入特征提取层3后得到图像F4,图像F4输入特征提取层4后得到图像F5,图像F1的尺寸与低质量图像41的尺寸相同,图像F2、图像F3、图像F4和图像F5的尺寸分别是低质量图像41的二分之一、四分之一、八分之一、十六分之一。
图像重建模块
图像重建模块由多个重建层构成和一个卷积层构成,以图4中为例,从下至上依次为重建层4、重建层3、重建层2、重建层1、重建层0和卷积层2。每一个重建层都包含了一个卷积模块和上采样模块,上采样模块完成向上放大两倍,卷积模块完成特征到增强图像的映射,上采样模块一般使用基于插值的上采样或者反卷积实现。
图像重建模块最底层的重建层以特征金字塔模块的最底层的输出作为输入,之后的每个重建层会以下一层重建层的输出和对应特征金字塔层的输出的并联作为卷积模块的输入,卷积模块输出重建特征后,再和同样尺寸的人脸解析图一起输入到人脸结构嵌入模块,使用人脸结构信息对当前的重建特征进行调制,得到嵌入了人脸结构信息的重建特征,再传向上一层重建层。图像重建模块的最上层由一个卷积层将重建特征映射回图像,得到重建图像。
例如在图4中,图像F5为重建层4的输入,重建层4对图像F5进行上采样处理,得到图像C5,图像C5的尺寸是低质量图像41的八分之一。然后,图像C5和图像F4会输入至重建层3,重建层3对图像C5和图像F4进行卷积处理和上采样处理,得到重建层3输出的图像C4,图像C4会传入人脸结构嵌入模块进行处理,输出图像E4,图像E4和图像F3会输入至重建层2,重建层2对图像E4和图像F3进行卷积处理和上采样处理,得到重建层2输出的图像C3,图像C3会传入人脸结构嵌入模块进行处理,输出图像E3,图像E3和图像F2为重建层1的输入……以此类推。
每个重建层均执行上述处理,直至重建层0输出图像C1后,图像C1被输入人脸结构嵌入模块,得到人脸结构嵌入模块输出的图像E1,图像E1经过卷积层2的处理,映射回重建图像43。在上述示例中,图像C1、图像C2、图像C3由于被传入人脸结构嵌入模块后再上采样,其尺寸分别是低质量图像41的一倍、二分之一、四分之一。
人脸结构嵌入模块
图5为本公开实施例提供的人脸结构嵌入模块的结构示意图,图5中的虚线框示例的是人脸结构嵌入模块的处理过程。重建特征指的是图像重建模块中的重建层的输出,如图4中示例的图像C4、图像C3、图像C2、图像C1等均为重建特征。针对重建特征而言,人脸结构嵌入模块首先采用卷积层进行特征映射,然后再使用标准化层进行标准化处理。标准化处理的实施公式如下:
其中H、W表示输入特征图(即对重建特征进行卷积处理后的图像)的高和宽,i和j表示平面坐标,c表示通道,x表示输入特征图中的一个点,μ表示均值,σ表示方差,∈为一个固定的参数,∈通常设置为一个极小值,从而防止标准化处理的实施公式中的分母为0,ycij为标准化后的特征。
针对人脸解析图像而言,人脸结构嵌入模块首先将其进行缩放处理,缩放至和输入的重建特征同样的尺寸,再使用一个共享的卷积层进行卷积处理,实现特征提取和映射,最后分别使用两个卷积层得到γ和β,其中γ和β与输入的重建特征的宽、高和通道数相同。然后,再按下式使用γ和β对标准化后的特征进行调制,实现基于人像结构的自适应标准化,达到人脸结构嵌入的目的。
fcij=ycij,ycij+β
之后再对嵌入了人脸结构的特征接上一个Relu激活层,一个卷积层,最后再与整个模块的输入相加得到输出。得到人脸结构嵌入的重建特征E。
在本实施例中,以图像C4和人脸解析图像42作为人脸结构嵌入模块的输入,得到人脸结构嵌入模块输出的图像E4,图像E4的尺寸与图像C4的尺寸相同;以图像C3和人脸解析图像42作为人脸结构嵌入模块的输入,得到人脸结构嵌入模块输出的图像E3,图像E3的尺寸与图像C3的尺寸相同;以图像C2和人脸解析图像42作为人脸结构嵌入模块的输入,得到人脸结构嵌入模块输出的图像E2,图像E2的尺寸与图像C2的尺寸相同;以图像C1和人脸解析图像42作为人脸结构嵌入模块的输入,得到人脸结构嵌入模块输出的图像E1,图像E1的尺寸与图像C1的尺寸相同。
全局残差微调和帧间传递模块
全局残差微调和帧间传递模块通过将图像重建模块的底层低分辨率特征图整合,计算生成图像的全局残差,作用于图像重建模块输出的重建图像。全局残差微调和帧间传递模块第一方面是使用多尺度的底层特征进行融合,从全局层面对增强的图像再一次提取残差特征,提升增强图像的细节,并减少边缘毛刺,第二方面是底层特征分辨率较原低质量图像更小,对运动更加的不敏感,适合在视频场景下做特征传递。
具体的,以图4中为例,将人脸结构嵌入模块输出的图像E4上采样四倍得到图像Eup4;将人脸结构嵌入模块输出的图像E3上采样二倍得到图像Eup3;将图像Eup4、图像Eup4和图像E2并联后输入一个卷积模块,得到与E2同维度的残差特征Dt。
如果图像增强模型仅处理图像,就可以对Dt使用一个上采样模块和卷积模块得到全局的图像残差,将全局的图像残差与图像重建模块输出的重建图像求和,得到最终的增强图像45。
在视频场景下,帧间的特征传递可以为视频增强带来更多的有用信息,同时也可以提高帧间的连贯性,避免出现抖动。通常认为低尺度的帧间图像之间像素移动更少,更适合进行帧间的融合。其中,图像的尺度可以理解为图像的尺寸(即图像的高度和宽度上包括的像素点数目),低尺度图像为尺寸较小的图像。例如,针对一个图像A进行一次下采样处理得到图像B,对图像A进行两次下采样处理得到图像C,图像B的尺寸为图像A的二分之一,图像C的尺寸为图像A的四分之一,图像B和图像C为根据图像A得到的两个不同尺度的图像。
图6为本公开实施例提供的帧间传递示意图,如图6所示,将前一帧的残差特征Dt-1与当前的帧的残差特征Dt合并输入一个卷积模块,并用一个sigmoid激活函数做输出,根据激活函数的输出对上一帧的残差特征和当前帧的残差特征融合得到D’,并对融合后的特征再次使用人脸结构嵌入模块嵌入人脸信息.如图4所示,最后使用上采样模块和卷积模块得到当前帧的全局残差,将全局的图像残差44与图像重建模块输出的重建图像43求和,得到最终的增强图像45。其中sigmoid函数和融合的过程如下式所示,其中Sx表示值x经过sigmoid计算的结果,S表示特征输出经过sigmoid函数后的结果。
D′=Dt-1×S+(1-S)×Dt
在图4-图6的示例中,输入图像增强模型的是低质量图像和对应的人脸解析图像,输出的是该低质量图像对应的高质量图像。由于本公开实施例中涉及到图像增强模型的训练和图像增强模型的应用处理,在训练和应用处理过程中,图像增强模型的结构是一样的,仅图像增强模型中的参数不同。在下述实施例中将基于图4-图6示例的图像增强模型的结构分别对模型训练和应用处理的过程进行介绍。
首先结合图7对图像增强模型的训练过程进行介绍。在模型训练过程中,输入模型的低质量图像为样本待处理图像(相当于图4中的低质量图像41);人脸解析模块输出的图像为样本人脸解析图像(相当于图4中的人脸解析图像42);特征金字塔模块的各个层输出的图像为样本特征图像(图像F1为第1个样本特征图像,图像F2为第2个样本特征图像,图像F3为第3个样本特征图像,图像F4为第4个样本特征图像,图像F5为第5个样本特征图像);图像重建模块的各个重建层输出的图像为样本上采样图像(图像C5为第5个样本上采样图像,图像C4为第4个样本上采样图像,图像C3为第3个样本上采样图像,图像C2为第2个样本上采样图像,图像C1为第1个样本上采样图像);人脸结构嵌入模块的各层输出的图像为样本重建特征图像(图像E4为第4个样本重建特征图像,图像E3为第3个样本重建特征图像,图像E2为第2个样本重建特征图像,图像E1为第1个样本重建特征图像)。
在进行模型训练之前,需要获取多组训练样本,训练样本中包括样本待处理图像和标签增强图像,以及样本待处理图像的样本人脸解析图像,其中样本待处理图像为低质量图像,标签增强图像为对应的高质量图像。
由于成对的低质量图像和高质量图像较难获取,而单独的高质量图像较容易获取,因此本公开实施例中可以采用对高质量图像进行降质的方法来获取成对的训练数据。
具体的,首先获取标签增强图像,然后根据人脸解析模型对标签增强图像进行解析处理,得到样本人脸解析图像。最后,对标签增强图像进行降质处理,得到对应的样本待处理图像。
为了模拟真实数据分布,在构造训练样本时,可以根据业务场景,对不同的降质因子进行组合来构建低质量图像。具体的,可以收集各种场景下的高质量图像作为标签增强图像,标签增强图像中可以有包含人脸的图像,也可以有不包含人脸的图像,包含人脸的图像和不包含人脸的图像的比例可以根据需要设置,例如可以设置为2:1。通过设置不包含人脸的图像,能够使得图像增强模型也能够保证在处理不包含人脸的图像上的增强性能。
然后,构建降质算子集,降质算子集中包括多个预设降质算子,例如随机高斯噪声、随机泊松噪声、随机高斯模糊、随机运动模糊、随机指令JPEG压缩、随机图像缩放等等,预设降质算子用于执行降质处理。
在构建了降质算子集后,可以根据任务场景,对不同的预设降质算子赋予不同的预设概率值,然后在每次迭代中,随机选择不同的预设降质算子作用于标签增强图像,得到对应的样本待处理图像。
进一步的,在根据标签增强图像得到对应的样本待处理图像和样本人脸解析图像后,还可以对标签增强图像、样本待处理图像和样本人脸解析图像同步使用随机剪裁、旋转和镜像等处理,得到新的训练样本,从而扩充训练样本集。
图7为本公开实施例提供的图像增强模型训练的流程示意图,如图7所示,包括:
S71,对样本待处理图像进行特征提取处理,得到R个样本特征图像,R为大于或等于2的正整数。
特征提取处理为图像增强模型中的特征提取模块对样本待处理图像进行处理的过程,特征提取模块中包括一个卷积层和R-1个特征提取层,卷积层和R-1个特征提取层用于对输入的图像执行特征提取处理。
具体的,在将样本待处理图像输入至图像增强模型后,首先由卷积层对样本待处理图像进行卷积处理,得到卷积层输出的第1个样本特征图像。
然后,从第1个样本特征图像开始,依次对第i个样本特征图像进行卷积处理和下采样处理,得到第i+1个样本特征图像,i依次为1,2,...,R-1,直至得到R个样本特征图像。例如在图4中,以R=5为例,样本待处理图像输入至图像增强模型后,由卷积层1对样本待处理图像进行卷积处理,得到第1个样本特征图像F1;特征提取层1对第1个样本特征图像F1进行卷积处理和下采样处理,得到第2个样本特征图像F2;特征提取层2对第2个样本特征图像F2进行卷积处理和下采样处理,得到第3个样本特征图像F3;特征提取层3对第3个样本特征图像F3进行卷积处理和下采样处理,得到第4个样本特征图像F4;特征提取层4对第4个样本特征图像F4进行卷积处理和下采样处理,得到第5个样本特征图像F5。
由于从第1个样本特征图像开始,后续根据第i个样本特征图像进行特征提取处理中包括下采样处理,下采样处理会改变第i个样本特征图像的像素点的数量。以样本待处理图像在宽度上包括的像素点数为M、在高度上包括的像素点的数量为N为例,则第i个样本特征图像的尺寸为即从第1个样本特征图像开始,每进行一次卷积处理和下采样处理后,得到的样本特征图像的尺寸会缩小一半(即在宽度和高度上包括的像素点的数量为处理之前的一半)。
S72,根据R个样本特征图像和样本人脸解析图像进行图像重建处理,得到R-1个样本重建特征图像。
图像重建处理为图4示例的图像重建模块执行的处理,图像重建模块中包括R个重建层和一个卷积层,每个重建层中包括了一个卷积模块和上采样模块,上采样模块完成向上放大两倍,上采样模块执行的是上采样处理,上采样处理例如可以采用基于插值的上采样或者反卷积实现,卷积模块完成特征到增强图像的映射,卷积模块执行的是卷积处理。
首先,可以根据第R个样本特征图像、第R-1个样本特征图像和样本人脸解析图像,得到第R-1个样本重建特征图像,其中,第R个样本特征图像为特征金字塔模块最下面的特征提取层(如图4中的特征提取层4)输出的图像,第R-1个样本特征图像为倒数第二个特征提取层(如图4中的特征提取层3)输出的图像。
第R个样本特征图像为图像重建模块中最下层的重建层(如图4中的重建层4)的输入。在将第R个样本特征图像输入至最下层的重建层后,根据最下层的重建层对第R个样本特征图像进行上采样处理,得到第R个样本上采样图像。以图4为例,将图像F5输入至重建层4后,重建层4输出图像C5,图像C5即为第R个样本上采样图像。
然后,对第R个样本上采样图像和第R-1个特征图像进行卷积处理和上采样处理,得到第R-1个样本上采样图像。如图4所示,将图像F4和图像C5输入至重建层3后,重建层3输出图像C4,图像C4即为第R-1个样本上采样图像。
在得到第R-1个样本上采样图像后,可以根据第R-1个样本上采样图像和样本人脸解析图像进行卷积处理,得到第R-1个样本重建特征图像。具体的,首先对第R个样本特征图像进行上采样处理,得到第R个样本上采样图像,然后对第R个样本上采样图像和第R-1个特征图像进行卷积处理和上采样处理,得到第R-1个样本上采样图像,最后,根据第R-1个样本上采样图像和样本人脸解析图像进行卷积处理,得到第R-1个样本重建特征图像。如图4所示,将重建层输出的图像C4和人脸解析图像输入人脸结构嵌入模块,得到人脸结构嵌入模块输出的图像E4,图像E4即为第4个样本重建特征图像。
在得到第R-1个样本重建特征图像后,从第R-1个样本重建特征图像开始,依次根据第j个样本重建特征图像、第j-1个样本特征图像和样本人脸解析图像,得到第j-1个样本重建特征图像,j依次为R-1,R-2,...,2,直至得到R-1个样本重建特征图像。
针对根据任意第j个样本重建特征图像和第j-1个样本特征图像得到第j-1个样本上采样图像的过程,首先,可以对第j个样本重建特征图像和第j-1个样本特征图像进行卷积处理和上采样处理,得到第j-1个样本上采样图像。
在得到第j-1个样本上采样图像后,根据第j-1个样本上采样图像和样本人脸解析图像,得到第j-1个样本重建特征图像。具体的,首先对样本人脸解析图像进行下采样处理和卷积处理,得到第一样本人脸解析图像和第二样本人脸解析图像,第一样本人脸解析图像和第二样本人脸解析图像的尺寸与第j-1个样本上采样图像的尺寸相同,通过下采样处理,使得处理后的第一样本人脸解析图像以及第二样本人脸解析图像的尺寸与第j-1个样本上采样图像的尺寸相同。然后,对第j-1个样本重建特征图像进行卷积处理和标准化处理,得到第j-1个标准化的样本重建特征图像,卷积处理和标准化处理的过程可以参见图5,此处不再赘述。在得到第j-1个标准化的样本重建特征图像后,根据第j-1个标准化的样本重建特征图像、第一样本人脸解析图像和第二样本人脸解析图像,可以得到第j-1个样本重建特征图像。
S73,根据R-1个样本重建特征图像,得到样本增强图像。
在得到R-1个样本重建特征图像后,首先可以根据R-1个样本重建特征图像,得到样本待处理图像的样本残差特征。具体的,从第R-1个样本重建特征图像开始,依次对第k个样本重建特征图像进行上采样处理,得到对应的样本上采样重建特征图像,k依次为R-1,R-2,...,3,其中,进行上采样处理后得到的样本上采样重建特征图像的尺寸与第2个样本重建特征图像的尺寸相同。
然后,对第2个样本重建特征图像和各样本上采样重建特征图像进行并联处理,得到样本并联重建特征图像。对样本并联重建特征图像进行卷积处理,即可得到样本残差特征。
若待处理图像为样本视频图像中的第t帧图像,还可以对样本残差特征进行更新。具体的,先获取样本视频图像中的第t-1帧图像的残差特征,然后获取样本视频帧间参数,样本视频帧间参数为预先设置的数值,最后根据第t-1帧图像的残差特征和样本视频帧间参数更新样本残差特征。更新样本残差特征的具体计算过程可以参见图6实施例,此处不再赘述。
得到样本残差特征后,对样本残差特征进行卷积处理,得到样本卷积残差特征,样本卷积残差特征即相当于图4中的图像残差44。然后,根据样本卷积残差特征和第1个样本重建特征图像,即可得到样本增强图像。
在训练过程中,通过图像增强模型对样本待处理图像和样本人脸解析图像处理,输出样本增强图像后,还需要根据样本增强图像和标签增强图像对图像增强模型的参数进行调整。图8为本公开实施例提供的样本损失计算示意图,如图8所示,首先获取样本增强图像和标签增强图像之间的样本损失值。本公开实施例中,样本损失值包括样本全局损失值、样本人脸损失值、样本眼部损失值和样本口鼻损失值中的至少一项。然后,根据样本全局损失值、样本人脸损失值、样本眼部损失值和样本口鼻损失值中的至少一项,以及样本损失值权重,得到样本损失值。
内容损失值是用训练样本的样本增强图像ImageHR和标签增强图像Imageg计算L1损失得到,计算公式如下:
Lrecon=||ImageHR-Imageg||1。
感知损失值使用预训练的VGG网络作为特征提取器,分别对ImageHR和Imageg输入到VGG网络中,提取特征后计算L1损失得到,φ表示VGG特征提取器,计算公式如下:
Lpercp=||φ(ImageHR)-φ(Imageg)||1。
样本全局损失值、样本人脸损失值、样本眼部损失值和样本口鼻损失值均表示生成对抗网络中的鉴别器损失的计算,在本方案中构建了四个鉴别器,分别是:
在上述实施例中,对图像增强模型的训练过程进行了介绍,下面将结合图9对图像处理过程进行介绍。在图像处理过程中,输入模型的低质量图像为待处理图像(相当于图4中的低质量图像41);人脸解析模块输出的图像为人脸解析图像(相当于图4中的人脸解析图像42);特征金字塔模块的各个层输出的图像为特征图像(图像F1为第1个特征图像,图像F2为第2个特征图像,图像F3为第3个特征图像,图像F4为第4个特征图像,图像F5为第5个特征图像);图像重建模块的各个重建层输出的图像为上采样图像(图像C5为第5个上采样图像,图像C4为第4个上采样图像,图像C3为第3个上采样图像,图像C2为第2个上采样图像,图像C1为第1个上采样图像);人脸结构嵌入模块的各层输出的图像为重建特征图像(图像E4为第4个重建特征图像,图像E3为第3个重建特征图像,图像E2为第2个重建特征图像,图像E1为第1个重建特征图像)。
图9为本公开实施例提供的待处理图像处理过程示意图,如图9所示,包括:
S91,对待处理图像进行特征提取处理,得到R个特征图像,R为大于或等于2的正整数。
特征提取处理为图像增强模型中的特征提取模块对待处理图像进行处理的过程,特征提取模块中包括一个卷积层和R-1个特征提取层,卷积层和R-1个特征提取层用于对输入的图像执行特征提取处理。
具体的,在将待处理图像输入至图像增强模型后,首先由卷积层对待处理图像进行卷积处理,得到卷积层输出的第1个特征图像。
然后,从第1个特征图像开始,依次对第i个特征图像进行卷积处理和下采样处理,得到第i+1个特征图像,i依次为1,2,...,R-1,直至得到R个特征图像。例如在图4中,以R=5为例,待处理图像输入至图像增强模型后,由卷积层1对待处理图像进行卷积处理,得到第1个特征图像F1;特征提取层1对第1个特征图像F1进行卷积处理和下采样处理,得到第2个特征图像F2;特征提取层2对第2个特征图像F2进行卷积处理和下采样处理,得到第3个特征图像F3;特征提取层3对第3个特征图像F3进行卷积处理和下采样处理,得到第4个特征图像F4;特征提取层4对第4个特征图像F4进行卷积处理和下采样处理,得到第5个特征图像F5。
由于从第1个特征图像开始,后续根据第i个特征图像进行特征提取处理中包括下采样处理,下采样处理会改变第i个特征图像的像素点的数量。以待处理图像在宽度上包括的像素点数为M、在高度上包括的像素点的数量为N为例,则第i个特征图像的尺寸为即从第1个特征图像开始,每进行一次卷积处理和下采样处理后,得到的特征图像的尺寸会缩小一半(即在宽度和高度上包括的像素点的数量为处理之前的一半)。
S92,根据R个特征图像和人脸解析图像进行图像重建处理,得到R-1个重建特征图像。
图像重建处理为图4示例的图像重建模块执行的处理,图像重建模块中包括R个重建层和一个卷积层,每个重建层中包括了一个卷积模块和上采样模块,上采样模块完成向上放大两倍,上采样模块执行的是上采样处理,上采样处理例如可以采用基于插值的上采样或者反卷积实现,卷积模块完成特征到增强图像的映射,卷积模块执行的是卷积处理。
首先,可以根据第R个特征图像、第R-1个特征图像和人脸解析图像,得到第R-1个重建特征图像,其中,第R个特征图像为特征金字塔模块最下面的特征提取层(如图4中的特征提取层4)输出的图像,第R-1个特征图像为倒数第二个特征提取层(如图4中的特征提取层3)输出的图像。
第R个特征图像为图像重建模块中最下层的重建层(如图4中的重建层4)的输入。在将第R个特征图像输入至最下层的重建层后,根据最下层的重建层对第R个特征图像进行上采样处理,得到第R个上采样图像。以图4为例,将图像F5输入至重建层4后,重建层4输出图像C5,图像C5即为第R个上采样图像。
然后,对第R个上采样图像和第R-1个特征图像进行卷积处理和上采样处理,得到第R-1个上采样图像。如图4所示,将图像F4和图像C5输入至重建层3后,重建层3输出图像C4,图像C4即为第R-1个上采样图像。
在得到第R-1个上采样图像后,可以根据第R-1个上采样图像和人脸解析图像进行卷积处理,得到第R-1个重建特征图像。具体的,首先对第R个特征图像进行上采样处理,得到第R个上采样图像,然后对第R个上采样图像和第R-1个特征图像进行卷积处理和上采样处理,得到第R-1个上采样图像,最后,根据第R-1个上采样图像和人脸解析图像进行卷积处理,得到第R-1个重建特征图像。如图4所示,将重建层输出的图像C4和人脸解析图像输入人脸结构嵌入模块,得到人脸结构嵌入模块输出的图像E4,图像E4即为第4个重建特征图像。
在得到第R-1个重建特征图像后,从第R-1个重建特征图像开始,依次根据第j个重建特征图像、第j-1个特征图像和人脸解析图像,得到第j-1个重建特征图像,j依次为R-1,R-2,...,2,直至得到R-1个重建特征图像。
针对根据任意第j个重建特征图像和第j-1个特征图像得到第j-1个上采样图像的过程,首先,可以对第j个重建特征图像和第j-1个特征图像进行卷积处理和上采样处理,得到第j-1个上采样图像。
在得到第j-1个上采样图像后,根据第j-1个上采样图像和人脸解析图像,得到第j-1个重建特征图像。具体的,首先对人脸解析图像进行下采样处理和卷积处理,得到第一人脸解析图像和第二人脸解析图像,第一人脸解析图像和第二人脸解析图像的尺寸与第j-1个上采样图像的尺寸相同,通过下采样处理,使得处理后的第一人脸解析图像以及第二人脸解析图像的尺寸与第j-1个上采样图像的尺寸相同。然后,对第j-1个重建特征图像进行卷积处理和标准化处理,得到第j-1个标准化的重建特征图像,卷积处理和标准化处理的过程可以参见图5,此处不再赘述。在得到第j-1个标准化的重建特征图像后,根据第j-1个标准化的重建特征图像、第一人脸解析图像和第二人脸解析图像,可以得到第j-1个重建特征图像。
S93,根据R-1个重建特征图像,得到增强图像。
在得到R-1个重建特征图像后,首先可以根据R-1个重建特征图像,得到待处理图像的残差特征。具体的,从第R-1个重建特征图像开始,依次对第k个重建特征图像进行上采样处理,得到对应的上采样重建特征图像,k依次为R-1,R-2,...,3,其中,进行上采样处理后得到的上采样重建特征图像的尺寸与第2个重建特征图像的尺寸相同。
然后,对第2个重建特征图像和各上采样重建特征图像进行并联处理,得到并联重建特征图像。对并联重建特征图像进行卷积处理,即可得到残差特征。
若待处理图像为视频图像中的第t帧图像,还可以对残差特征进行更新。具体的,先获取视频图像中的第t-1帧图像的残差特征,然后获取视频帧间参数,视频帧间参数为预先设置的数值,最后根据第t-1帧图像的残差特征和视频帧间参数更新残差特征。更新残差特征的具体计算过程可以参见图6实施例,此处不再赘述。
得到残差特征后,对残差特征进行卷积处理,得到卷积残差特征,卷积残差特征即相当于图4中的图像残差44。然后,根据卷积残差特征和第1个重建特征图像,即可得到增强图像。
本公开实施例提供的模型训练及图像处理方法,首先获取多组训练样本,训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像,针对任意一组训练样本,可以将样本待处理图像和样本人脸解析图像输入图像增强模型,得到图像增强模型输出的样本增强图像,从而可以根据样本增强图像和标签增强图像对图像增强模型的参数进行调整。针对任意一组训练样本均可以采用上述方式对图像增强模型进行训练,最终得到训练好的图像增强模型。在图像增强模型训练好后,图像增强模型就具备了对图像进行增强处理的能力,将待处理图像和对应的人脸解析图像输入至图像增强模型后,即可由图像增强模型输出对应的增强图像。由于图像增强模型的训练过程中加入了样本人脸解析图像,样本人脸解析图像中包括样本待处理图像的人脸先验信息。在后续图像处理的过程中,通过输入待处理图像和对应的人脸解析图像,可以根据人脸解析图像将人脸的结构信息嵌入到图像处理的流程中,既在图像处理过程中考虑了人脸信息,又避免了后期针对图像的裁剪和贴合,提升了含有人脸的图像的增强效果。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图10对本公开示例性实施方式的存储介质进行说明。
图10为本公开实施例提供的存储介质示意图,参考图10所示,存储介质100中存储着根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图11和图12分别对本公开示例性实施方式的模型训练装置和图像处理装置进行说明,用于实现上述任一方法实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
图11为本公开实施例提供的模型训练装置的结构示意图,如图11所示,该装置包括:
获取模块111,用于获取多组训练样本,所述训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像;
处理模块112,用于将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像;
训练模块113,用于根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整。
在一种可能的实施方式中,所述处理模块112具体用于:
对所述样本待处理图像进行特征提取处理,得到R个样本特征图像,所述R为大于或等于2的正整数;
根据所述R个样本特征图像和所述样本人脸解析图像进行图像重建处理,得到R-1个样本重建特征图像;
根据所述R-1个样本重建特征图像,得到所述样本增强图像。
在一种可能的实施方式中,所述处理模块112具体用于:
对所述样本待处理图像进行卷积处理,得到第1个样本特征图像;
从所述第1个样本特征图像开始,依次对第i个样本特征图像进行卷积处理和下采样处理,得到第i+1个样本特征图像,所述i依次为1,2,...,R-1,直至得到所述R个样本特征图像,所述第i个样本特征图像的尺寸为所述M为所述样本待处理图像在宽度上包括的像素点数,所述N为所述样本待处理图像在高度上包括的像素点数。
在一种可能的实施方式中,所述处理模块112具体用于:
根据第R个样本特征图像、第R-1个样本特征图像和所述样本人脸解析图像,得到第R-1个样本重建特征图像;
从所述第R-1个样本重建特征图像开始,依次根据第j个样本重建特征图像、第j-1个样本特征图像和所述样本人脸解析图像,得到第j-1个样本重建特征图像,所述j依次为R-1,R-2,...,2,直至得到所述R-1个样本重建特征图像。
在一种可能的实施方式中,所述处理模块112具体用于:
对所述第R个样本特征图像进行上采样处理,得到第R个样本上采样图像;
对所述第R个样本上采样图像和第R-1个特征图像进行卷积处理和上采样处理,得到第R-1个样本上采样图像;
根据所述第R-1个样本上采样图像和所述样本人脸解析图像进行卷积处理,得到所述第R-1个样本重建特征图像。
在一种可能的实施方式中,所述处理模块112具体用于:
对所述第j个样本重建特征图像和所述第j-1个样本特征图像进行卷积处理和上采样处理,得到第j-1个样本上采样图像;
根据所述第j-1个样本上采样图像和所述样本人脸解析图像,得到所述第j-1个样本重建特征图像。
在一种可能的实施方式中,所述处理模块112具体用于:
对所述样本人脸解析图像进行下采样处理和卷积处理,得到第一样本人脸解析图像和第二样本人脸解析图像,所述第一样本人脸解析图像以及所述第二样本人脸解析图像的尺寸与所述第j-1个样本上采样图像的尺寸相同;
对所述第j-1个样本重建特征图像进行卷积处理和标准化处理,得到第j-1个标准化的样本重建特征图像;
根据所述第j-1个标准化的样本重建特征图像、所述第一样本人脸解析图像和所述第二样本人脸解析图像,得到所述第j-1个样本重建特征图像。
在一种可能的实施方式中,所述处理模块112具体用于:
根据所述R-1个样本重建特征图像,得到所述样本待处理图像的样本残差特征;
对所述样本残差特征进行卷积处理,得到样本卷积残差特征;
根据所述样本卷积残差特征和第1个样本重建特征图像,得到所述样本增强图像。
在一种可能的实施方式中,所述处理模块112具体用于:
对第k个样本重建特征图像进行上采样处理,得到对应的样本上采样重建特征图像,所述样本上采样重建特征图像的尺寸与第2个样本重建特征图像的尺寸相同,所述k依次为R-1,R-2,...,3;
对所述第2个样本重建特征图像和各所述样本上采样重建特征图像进行并联处理,得到样本并联重建特征图像;
对所述样本并联重建特征图像进行卷积处理,得到所述样本残差特征。
在一种可能的实施方式中,所述样本待处理图像为样本视频图像中的第t帧图像;所述处理模块112还用于:
获取所述样本视频图像中的第t-1帧图像的残差特征;
获取样本视频帧间参数;
根据所述第t-1帧图像的残差特征和所述样本视频帧间参数,更新所述样本残差特征。
在一种可能的实施方式中,所述训练模块113具体用于:
获取所述样本增强图像和所述标签增强图像之间的样本损失值;
根据所述样本损失值对所述图像增强模型的参数进行调整。
在一种可能的实施方式中,所述训练模块113具体用于:
根据所述样本增强图像和所述标签增强图像,获取样本全局损失值、样本人脸损失值、样本眼部损失值和样本口鼻损失值中的至少一项;
根据样本全局损失值、样本人脸损失值、样本眼部损失值和样本口鼻损失值中的至少一项,以及样本损失值权重,得到所述样本损失值。
在一种可能的实施方式中,所述获取模块111具体用于:
获取所述标签增强图像;
根据人脸解析模型对所述标签增强图像进行解析处理,得到所述样本人脸解析图像;
对所述标签增强图像进行降质处理,得到所述样本待处理图像;
根据所述标签增强图像、所述样本人脸解析图像和所述样本待处理图像,获取所述多组训练样本。
在一种可能的实施方式中,所述获取模块111具体用于:
获取多个预设降质算子的预设概率值;
根据所述多个预设降质算子的预设概率值,确定针对所述标签增强图像的至少一个预设降质算子;
根据所述至少一个预设降质算子对所述标签增强图像进行至少一次降质处理,得到至少一个所述样本待处理图像。
在一种可能的实施方式中,所述样本人脸解析图像包含所述样本待处理图像的各像素点的类别信息。
本公开实施例提供的模型训练装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图12为本公开实施例提供的图像处理装置的结构示意图,如图12所示,该装置包括:
解析模块121,用于对待处理图像进行人脸解析处理,得到对应的人脸解析图像;
处理模块122,用于将所述待处理图像和所述人脸解析图像输入至图像增强模型,得到所述待处理图像对应的增强图像,所述图像增强模型为根据模型训练方法训练得到的模型。
在一种可能的实施方式中,所述处理模块122具体用于:
对所述待处理图像进行特征提取处理,得到R个特征图像,所述R为大于或等于2的正整数;
根据所述R个特征图像和所述人脸解析图像进行图像重建处理,得到R-1个重建特征图像;
根据所述R-1个重建特征图像,得到所述增强图像。
在一种可能的实施方式中,所述处理模块122具体用于:
对所述待处理图像进行卷积处理,得到第1个特征图像;
从所述第1个特征图像开始,依次对第i个特征图像进行卷积处理和下采样处理,得到第i+1个特征图像,所述i依次为1,2,...,R-1,直至得到所述R个特征图像,所述第i个特征图像的尺寸为所述M为所述待处理图像在宽度上包括的像素点数,所述N为所述待处理图像在高度上包括的像素点数。
在一种可能的实施方式中,所述处理模块122具体用于:
根据第R个特征图像、第R-1个特征图像和所述人脸解析图像,得到第R-1个重建特征图像;
从所述第R-1个重建特征图像开始,依次根据第j个重建特征图像、第j-1个特征图像和所述人脸解析图像,得到第j-1个重建特征图像,所述j依次为R-1,R-2,...,2,直至得到所述R-1个重建特征图像。
在一种可能的实施方式中,所述处理模块122具体用于:
对所述第R个特征图像进行上采样处理,得到第R个上采样图像;
对所述第R个上采样图像和第R-1个特征图像进行卷积处理和上采样处理,得到第R-1个上采样图像;
根据所述第R-1个上采样图像和所述人脸解析图像进行卷积处理,得到所述第R-1个重建特征图像。
在一种可能的实施方式中,所述处理模块122具体用于:
对所述第j个重建特征图像和所述第j-1个特征图像进行卷积处理和上采样处理,得到第j-1个上采样图像;
根据所述第j-1个上采样图像和所述人脸解析图像,得到所述第j-1个重建特征图像。
在一种可能的实施方式中,所述处理模块122具体用于:
对所述人脸解析图像进行下采样处理和卷积处理,得到第一人脸解析图像和第二人脸解析图像,所述第一人脸解析图像以及所述第二人脸解析图像的尺寸与所述第j-1个上采样图像的尺寸相同;
对所述第j-1个重建特征图像进行卷积处理和标准化处理,得到第j-1个标准化的重建特征图像;
根据所述第j-1个标准化的重建特征图像、所述第一人脸解析图像和所述第二人脸解析图像,得到所述第j-1个重建特征图像。
在一种可能的实施方式中,所述处理模块122具体用于:
根据所述R-1个重建特征图像,得到所述待处理图像的残差特征;
对所述残差特征进行卷积处理,得到卷积残差特征;
根据所述卷积残差特征和第1个重建特征图像,得到所述增强图像。
在一种可能的实施方式中,所述处理模块122具体用于:
对第k个重建特征图像进行上采样处理,得到对应的上采样重建特征图像,所述上采样重建特征图像的尺寸与第2个重建特征图像的尺寸相同,所述k依次为R-1,R-2,...,3;
对所述第2个重建特征图像和各所述上采样重建特征图像进行并联处理,得到并联重建特征图像;
对所述并联重建特征图像进行卷积处理,得到所述残差特征。
在一种可能的实施方式中,所述待处理图像为视频图像中的第t帧图像;所述处理模块122还用于:
获取所述视频图像中的第t-1帧图像的残差特征;
获取视频帧间参数;
根据所述第t-1帧图像的残差特征和所述视频帧间参数,更新所述残差特征。
在一种可能的实施方式中,所述人脸解析图像包含所述待处理图像的各像素点的类别信息。
本公开实施例提供的图像处理装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图13对本公开示例性实施方式的计算设备进行说明。
图13显示的计算设备130仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,计算设备130以通用计算设备的形式表现。计算设备130的组件可以包括但不限于:上述至少一个处理单元131、上述至少一个存储单元132,连接不同系统组件(包括处理单元131和存储单元132)的总线133。
总线133包括数据总线、控制总线和地址总线。
存储单元132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)1323。
存储单元132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图13所示,网络适配器136通过总线133与计算设备130的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了模型训练装置和图像处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种模型训练方法,包括:
获取多组训练样本,所述训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像;
将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像;
根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整。
2.根据权利要求1所述的方法,所述将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像,包括:
对所述样本待处理图像进行特征提取处理,得到R个样本特征图像,所述R为大于或等于2的正整数;
根据所述R个样本特征图像和所述样本人脸解析图像进行图像重建处理,得到R-1个样本重建特征图像;
根据所述R-1个样本重建特征图像,得到所述样本增强图像。
4.根据权利要求2或3所述的方法,所述根据所述R-1个样本重建特征图像,得到所述样本增强图像,包括:
根据所述R-1个样本重建特征图像,得到所述样本待处理图像的样本残差特征;
对所述样本残差特征进行卷积处理,得到样本卷积残差特征;
根据所述样本卷积残差特征和第1个样本重建特征图像,得到所述样本增强图像。
5.根据权利要求1-3任一项所述的方法,所述根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整,包括:
获取所述样本增强图像和所述标签增强图像之间的样本损失值;
根据所述样本损失值对所述图像增强模型的参数进行调整。
6.一种图像处理方法,包括:
对待处理图像进行人脸解析处理,得到对应的人脸解析图像;
将所述待处理图像和所述人脸解析图像输入至图像增强模型,得到所述待处理图像对应的增强图像,所述图像增强模型为根据权利要求1-15任一项所述的模型训练方法训练得到的模型。
7.根据权利要求6所述的方法,所述将所述待处理图像和所述人脸解析图像输入至图像增强模型,得到所述待处理图像对应的增强图像,包括:
对所述待处理图像进行特征提取处理,得到R个特征图像,所述R为大于或等于2的正整数;
根据所述R个特征图像和所述人脸解析图像进行图像重建处理,得到R-1个重建特征图像;
根据所述R-1个重建特征图像,得到所述增强图像。
9.一种模型训练装置,包括:
获取模块,用于获取多组训练样本,所述训练样本中包括样本待处理图像、样本人脸解析图像和标签增强图像;
处理模块,用于将所述样本待处理图像和所述样本人脸解析图像输入图像增强模型,得到所述图像增强模型输出的样本增强图像;
训练模块,用于根据所述样本增强图像和所述标签增强图像对所述图像增强模型的参数进行调整。
10.一种图像处理装置,包括:
解析模块,用于对待处理图像进行人脸解析处理,得到对应的人脸解析图像;
处理模块,用于将所述待处理图像和所述人脸解析图像输入至图像增强模型,得到所述待处理图像对应的增强图像,所述图像增强模型为根据权利要求1-5任一项所述的模型训练方法训练得到的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210198355.0A CN114663937A (zh) | 2022-03-01 | 2022-03-01 | 模型训练及图像处理方法、介质、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210198355.0A CN114663937A (zh) | 2022-03-01 | 2022-03-01 | 模型训练及图像处理方法、介质、装置和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114663937A true CN114663937A (zh) | 2022-06-24 |
Family
ID=82026539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210198355.0A Pending CN114663937A (zh) | 2022-03-01 | 2022-03-01 | 模型训练及图像处理方法、介质、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663937A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416666A (zh) * | 2023-04-17 | 2023-07-11 | 北京数美时代科技有限公司 | 一种基于分布式蒸馏的人脸识别方法、系统和存储介质 |
-
2022
- 2022-03-01 CN CN202210198355.0A patent/CN114663937A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416666A (zh) * | 2023-04-17 | 2023-07-11 | 北京数美时代科技有限公司 | 一种基于分布式蒸馏的人脸识别方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network | |
US10593021B1 (en) | Motion deblurring using neural network architectures | |
CN112330574B (zh) | 人像修复方法、装置、电子设备及计算机存储介质 | |
Zhang et al. | Multi-scale single image dehazing using perceptual pyramid deep network | |
CN110148085B (zh) | 人脸图像超分辨率重建方法及计算机可读取的存储介质 | |
CN112598579B (zh) | 面向监控场景的图像超分辨率方法、装置及存储介质 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN113658040B (zh) | 一种基于先验信息和注意力融合机制的人脸超分辨方法 | |
Vitoria et al. | Semantic image inpainting through improved wasserstein generative adversarial networks | |
CN116958492B (zh) | 一种基于NeRf重建三维底座场景渲染的VR编辑方法 | |
GB2606785A (en) | Adaptive convolutions in neural networks | |
CN113570689B (zh) | 人像卡通化方法、装置、介质和计算设备 | |
CN112529776A (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN114298942A (zh) | 图像去模糊方法及装置、计算机可读介质和电子设备 | |
CN111382647A (zh) | 一种图片处理方法、装置、设备及存储介质 | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
CN111445496A (zh) | 一种水下图像识别跟踪系统及方法 | |
CN114663937A (zh) | 模型训练及图像处理方法、介质、装置和计算设备 | |
KR102357350B1 (ko) | 딥러닝을 이용한 저선량 ct 영상의 통계적 영상 복원 방법 및 시스템 | |
CN118115394A (zh) | 退化图像修复方法、装置、设备及存储介质 | |
CN115311152A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN115116468A (zh) | 一种视频生成方法、装置、存储介质及电子设备 | |
CN114444599A (zh) | 图像处理方法、装置、介质和计算设备 | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
BR et al. | Machine Learning Application for Evidence Image Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |