CN115187446A - 换脸视频的生成方法、装置、计算机设备及可读存储介质 - Google Patents
换脸视频的生成方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN115187446A CN115187446A CN202210578853.8A CN202210578853A CN115187446A CN 115187446 A CN115187446 A CN 115187446A CN 202210578853 A CN202210578853 A CN 202210578853A CN 115187446 A CN115187446 A CN 115187446A
- Authority
- CN
- China
- Prior art keywords
- face
- changed
- image frames
- video
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 111
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 24
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 24
- 230000009467 reduction Effects 0.000 claims abstract description 19
- 239000000463 material Substances 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000002194 synthesizing effect Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 abstract description 16
- 230000001815 facial effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种换脸视频的生成方法、装置、计算机设备及可读存储介质,涉及计算机视觉技术领域,将缩小处理、超分重建处理结合应用,提高图像的清晰度,解决了视频图像内清晰度不一致、面部模糊的问题,对换脸视频中产生的面部抖动起到缓解的作用,提升生成换脸视频的成功率。所述方法包括:获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧;将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧;对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧;对多个待输出图像帧进行视频合成处理,得到换脸视频。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种换脸视频的生成方法、装置、计算机设备及可读存储介质。
背景技术
随着计算机视觉技术的不断发展,换脸技术逐渐兴起,通过换脸技术可以将视频或者图像中的人脸自动替换成另一个人的人脸。最初的换脸需求是因为电影的艺术需要,使用专业的视频剪辑技术和特效技术实现现实中不可能出现的人物场景镜头,近年来,很多不善于或者没有拍摄条件的用户也会借助换脸技术生成视频,从而提升视频的视觉效果。
相关技术中,很多开源视频换脸技术采用人脸生成网络为用户生成符合其需求的人脸素材,在待换脸视频的帧中确定需要被替换的区域,将人脸素材补充到该区域,生成换脸视频。而在实现本申请的过程中,申请人发现采用相关技术进行视频换脸时,换脸后的视频面部模糊、视频面部清晰度与其他位置不一致,使得生成的换脸视频中两帧图像间的过渡不平滑,导致换脸视频面部存在抖动,生成换脸视频的成功率不高。
发明内容
有鉴于此,本申请提供了一种换脸视频的生成方法、装置、计算机设备及可读存储介质,主要目的在于解决目前换脸后的视频面部模糊、视频面部清晰度与其他位置不一致,使得生成的换脸视频中两帧图像间的过渡不平滑,导致换脸视频面部存在抖动,生成换脸视频的成功率不高的问题。
依据本申请第一方面,提供了一种换脸视频的生成方法,该方法包括:
获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧;
将所述多个待换脸图像帧输入至换脸模型,获取所述换脸模型输出的多个已换脸图像帧,所述换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为所述人脸素材;
对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧;
对所述多个待输出图像帧进行视频合成处理,得到换脸视频。
可选地,所述获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧之后,所述方法还包括:
读取所述多个待换脸图像帧中每个待换脸图像帧对应的时间点;
按照时间点在时间轴上的先后顺序,对所述多个待换脸图像帧进行排序;
对排序后的所述多个待换脸图像帧进行编号处理,为所述多个待换脸图像帧添加图片编号,以及将编号后的所述多个待换脸图像帧进行存储。
可选地,所述对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,包括:
获取预设下采样倍数,对所述多个已换脸图像帧中每个已换脸图像帧执行以下处理:按照所述预设下采样倍数对所述已换脸图像帧进行下采样处理,将所述已换脸图像帧的图片尺寸缩小至所述预设下采样倍数指示的目标尺寸,得到缩小后的所述已换脸图像帧;
将完成缩小处理后的所述多个已换脸图像帧进行缓存。
可选地,所述对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,包括:
获取预设上采样倍数,对所述缩小后的每个已换脸图像帧进行以下处理:获取超分重建模型,将缩小后的已换脸图像帧输入至所述超分重建模型,利用所述超分重建模型对所述缩小后的已换脸图像帧进行上采样处理,得到图片尺寸与所述预设上采样倍数匹配的图像帧作为待输出图像帧;
将得到的所述多个待输出图片进行存储。
可选地,所述对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧之后,所述方法还包括:
对于所述多个待输出图像帧中每个待输出图像帧,读取所述待输出图像帧中的多个像素点,以及对所述多个像素点中每个像素点执行以下处理:按照预设权重,构建所述像素点的权重矩阵,采用所述权重矩阵对所述像素点的多个相邻像素点的像素值进行权重计算,得到多个处理后的像素值,以及计算所述多个处理后的像素值的和值作为所述像素点的高斯模糊值;
获取所述多个像素点对应的多个高斯模糊值,采用所述多个高斯模糊值进行图片重构,得到完成高斯模糊处理的所述待输出图像帧;
将高斯模糊处理后的所述多个待输出图像帧进行视频合成处理,以及将视频合成处理得到的视频作为所述换脸视频。
可选地,所述对所述多个待输出图像帧进行视频合成处理,得到换脸视频,包括:
对所述待换脸视频进行音频提取,得到待添加音频资源;
按照所述多个待输出图像帧中每个待输出图像帧对应的图片编号,将所述多个待输出图像帧合成为初始视频;
向所述初始视频添加所述待添加音频资源,得到所述换脸视频。
可选地,所述获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧之前,所述方法还包括:
获取所述用户上传的人脸素材,采用神经网络算法生成所述人脸素材的像素点分布;
以所述像素点分布为基础进行模型训练,得到所述换脸模型。
依据本申请第二方面,提供了一种换脸视频的生成装置,该装置包括:
拆分模块,用于获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧;
输入模块,用于将所述多个待换脸图像帧输入至换脸模型,获取所述换脸模型输出的多个已换脸图像帧,所述换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为所述人脸素材;
处理模块,用于对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧;
合成模块,用于对所述多个待输出图像帧进行视频合成处理,得到换脸视频。
可选地,所述装置还包括:
读取模块,用于读取所述多个待换脸图像帧中每个待换脸图像帧对应的时间点;
排序模块,用于按照时间点在时间轴上的先后顺序,对所述多个待换脸图像帧进行排序;
编号模块,用于对排序后的所述多个待换脸图像帧进行编号处理,为所述多个待换脸图像帧添加图片编号,以及将编号后的所述多个待换脸图像帧进行存储。
可选地,所述处理模块,用于获取预设下采样倍数,对所述多个已换脸图像帧中每个已换脸图像帧执行以下处理:按照所述预设下采样倍数对所述已换脸图像帧进行下采样处理,将所述已换脸图像帧的图片尺寸缩小至所述预设下采样倍数指示的目标尺寸,得到缩小后的所述已换脸图像帧;将完成缩小处理后的所述多个已换脸图像帧进行缓存。
可选地,所述处理模块,用于获取预设上采样倍数,对所述缩小后的每个已换脸图像帧进行以下处理:获取超分重建模型,将缩小后的已换脸图像帧输入至所述超分重建模型,利用所述超分重建模型对所述缩小后的已换脸图像帧进行上采样处理,得到图片尺寸与所述预设上采样倍数匹配的图像帧作为待输出图像帧;将得到的所述多个待输出图片进行存储。
可选地,所述处理模块,还用于对于所述多个待输出图像帧中每个待输出图像帧,读取所述待输出图像帧中的多个像素点,以及对所述多个像素点中每个像素点执行以下处理:按照预设权重,构建所述像素点的权重矩阵,采用所述权重矩阵对所述像素点的多个相邻像素点的像素值进行权重计算,得到多个处理后的像素值,以及计算所述多个处理后的像素值的和值作为所述像素点的高斯模糊值;获取所述多个像素点对应的多个高斯模糊值,采用所述多个高斯模糊值进行图片重构,得到完成高斯模糊处理的所述待输出图像帧;
所述合成模块,还用于将高斯模糊处理后的所述多个待输出图像帧进行视频合成处理,以及将视频合成处理得到的视频作为所述换脸视频。
可选地,所述合成模块,用于对所述待换脸视频进行音频提取,得到待添加音频资源;按照所述多个待输出图像帧中每个待输出图像帧对应的图片编号,将所述多个待输出图像帧合成为初始视频;向所述初始视频添加所述待添加音频资源,得到所述换脸视频。
可选地,所述装置还包括:
生成模块,用于获取所述用户上传的人脸素材,采用神经网络算法生成所述人脸素材的像素点分布;
训练模块,用于以所述像素点分布为基础进行模型训练,得到所述换脸模型。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供的一种换脸视频的生成方法、装置、计算机设备及可读存储介质,本申请获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧,将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧,对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,进而通过对多个待输出图像帧进行的视频合成处理,得到换脸视频。本申请将缩小处理、超分重建处理结合应用,提高图像的清晰度,解决了视频图像内清晰度不一致、面部模糊的问题,对换脸视频中产生的面部抖动起到缓解的作用,提升生成换脸视频的成功率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种换脸视频的生成方法流程示意图;
图2A示出了本申请实施例提供的另一种换脸视频的生成方法流程示意图;
图2B示出了本申请实施例提供的一种换脸视频的生成方法流程示意图;
图3示出了本申请实施例提供的一种换脸视频的生成装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种换脸视频的生成方法,如图1所示,该方法包括:
101、获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧。
本申请实施例的方法可以应用在提供换脸功能的APP(Application,应用程序)、网页或平台中,在本申请实施例中,以应用在终端中下载的提供换脸功能的APP为例进行说明,APP搭载有服务器,利用服务器的计算、处理功能,实现视频换脸。其中,APP的前端可以提供换脸视频生成入口,用户通过触发该换脸视频生成入口来使用APP的视频换脸功能。待换脸视频是头部或脸部需要被换掉的视频,可以由用户提供,比如用户通过触发换脸视频生成入口上传想要换脸的视频,以使得服务器将用户上传的视频作为待换脸视频;或者待换脸视频也可以由服务器提供,服务器可以预置一些搞笑、广告等视频作为候选素材,在前端将这些候选素材透出给用户,使用户在前端选择想要将哪个候选素材的人脸换成自己或其他人的人脸,以便服务器将被用户选中的候选素材作为待换脸视频,本申请对待换脸视频的来源不进行具体限定。
接着,获取到待换脸视频后,由于换脸操作是在图像端进行的,因此,服务器会将待换脸视频拆分为一帧一帧的图像,得到多个待换脸图像帧,从而依次每一个待换脸图像帧执行换脸操作。
102、将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧。
其中,服务器中事先训练有换脸模型,换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为人脸素材,也就是说换脸模型能够生成用户想要的人脸,并将生成的人脸替换到换脸视频中。
在一个可选地实施方案中,换脸模型可以是基于人脸素材训练的GAN(GenerativeAdversarial Network,生成对抗网络)网络图像换脸模型,通过让两个神经网络相互博弈的方式进行学习,从而使生成的换脸模型输出的结果尽量贴近用户提供的人脸素材。这样,在获取到多个待换脸图像帧后,服务器将多个待换脸图像帧输入至换脸模型中推理,使换脸模型将每一待换脸图像帧中需要换掉的区域换成生成的新的人脸,实现图像帧粒度的换脸操作,得到多个已换脸图像帧。
103、对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧。
其中,考虑到新的人脸是换脸模型生成的,换脸模型的一次图像处理容易使得到的已换脸图像帧中人脸模糊,使得后续生成视频时两帧图像间的过渡不平滑,导致换脸后重新合成的视频面部存在抖动。因此,在本申请实施例中,没有直接采用得到的多个已换脸图像帧合成视频,而是对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,其中对图像帧执行的缩小处理可以理解为一次下采样,而超分重建可以看作上采样,这样的组合操作能够有效解决图像帧清晰度不一致的问题,而且还提高了图像帧的清晰度,对换脸视频的抖动起到了一定的缓解作用。
104、对多个待输出图像帧进行视频合成处理,得到换脸视频。
在本申请实施例中,获取到多个待输出图像帧后,服务器对多个待输出图像帧进行视频合成处理,便得到换脸视频,在前端将换脸视频输出给用户即可。其中,可以直接在用户上传或者选择待换脸视频的页面将换脸视频展示给用户,或者也可以采用应用内消息、邮件等方式发送到用户的APP账号或者邮箱中等等,便于用户下载清晰的换脸视频,避免换脸视频的清晰度不够。
本申请实施例提供的方法,获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧,将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧,对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,进而通过对多个待输出图像帧进行的视频合成处理,得到换脸视频。本申请将缩小处理、超分重建处理结合应用,提高图像的清晰度,解决了视频图像内清晰度不一致、面部模糊的问题,对换脸视频中产生的面部抖动起到缓解的作用,提升生成换脸视频的成功率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,本申请实施例提供了另一种换脸视频的生成方法,如图2A所示,该方法包括:
201、训练换脸模型。
在本申请实施例中,为了实现对图像的换脸操作,服务器需要按照用户想要的人脸训练换脸模型,从而生成能够对旧的人脸进行替换的新的人脸。在一个可选地实施方案中,服务器可以基于前端APP向用户提供人脸素材的上传入口,用户通过触发该上传入口,将自己想要换的人脸的图像作为人脸素材提供给服务器。这样,服务器获取用户上传的人脸素材,采用神经网络算法生成人脸素材的像素点分布,并以像素点分布为基础进行模型训练,便可以得到换脸模型。其中,如上述步骤102所描述的,换脸模型可以是基于人脸素材训练的GAN网络图像换脸模型,此处不再进行赘述。
202、获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧。
在本申请实施例中,由于换脸操作是在图像端进行的,因此,服务器会将待换脸视频拆分为一帧一帧的图像,得到多个待换脸图像帧,从而依次每一个待换脸图像帧执行换脸操作。
由于后续还需要将换脸后的图像帧按照顺序进行视频的合成,因此,在另一个可选地实施方案中,服务器在将待换脸视频拆解为多个待换脸图像帧后,还可以读取多个待换脸图像帧中每个待换脸图像帧对应的时间点,按照时间点在时间轴上的先后顺序,对多个待换脸图像帧进行排序,并对排序后的多个待换脸图像帧进行编号处理,为多个待换脸图像帧添加图片编号,以及将编号后的多个待换脸图像帧进行存储。实际应用的过程中,可以采用升序的策略对多个待换脸图像帧进行编号,并将编号后的多个待换脸图像帧保存在同一个目录下,比如可以创建文件夹,将文件夹命名为“src_data”,将编号后的多个待换脸图像帧保存在该文件夹下。
203、将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧。
在本申请实施例中,换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为人脸素材,因此,服务器将多个待换脸图像帧输入至换脸模型,使换脸模型在待换脸图像帧中确定需要被换掉的位置,生成新的人脸,将新的人脸替换到该位置上,从而服务器能够获取到换脸模型输出的多个已换脸图像帧。
继续以上述步骤202中将编号后的多个待换脸图像帧保存在命名为“src_data”的文件夹为例,实际应用的过程中,服务器遍历src_data文件夹中的每一张待换脸图像帧,将每一张待换脸图像帧送入到换脸模型中推理,换脸模型输出的推理后的待换脸图像帧即为已换脸图像帧。需要说明的是,实际应用的过程中,推理后的图像帧命名与推理前的图像帧可以一致,且推理后的图像帧可以保存在命名为“dst_data”的文件夹下。
204、对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧。
在本申请实施例中,将缩小处理、超分重建处理结合应用,从而使后续用于生成换脸视频的图像帧的清晰度提高,解决面部模糊的问题。
其中,对图像帧执行的缩小处理可以理解为一次下采样,在一个可选地实施方案中,对图像帧执行的缩小处理的过程如下:首先,获取预设下采样倍数。随后,对多个已换脸图像帧中每个已换脸图像帧执行以下处理:按照预设下采样倍数对已换脸图像帧进行下采样处理,将已换脸图像帧的图片尺寸缩小至预设下采样倍数指示的目标尺寸,得到缩小后的已换脸图像帧。最后,将完成缩小处理后的多个已换脸图像帧进行缓存。比如,假设已换脸图像帧的尺寸为1024×1024,则通过下采样处理,将每个已换脸图像帧的尺寸缩小为512×512即可。
进一步地,对图像帧执行的超分重建可以看作上采样,在一个可选地实施方案中,对图像帧执行的超分重建的过程如下:首先,获取预设上采样倍数。随后,对缩小后的每个已换脸图像帧进行以下处理:获取超分重建模型,将缩小后的已换脸图像帧输入至超分重建模型,利用超分重建模型对缩小后的已换脸图像帧进行上采样处理,得到图片尺寸与预设上采样倍数匹配的图像帧作为待输出图像帧。最后,将得到的多个待输出图片进行存储。继续以上面将每个已换脸图像帧的尺寸缩小为512×512为例进行说明,将在进行上采样时,将尺寸为512×512的图像帧恢复至1024×1024即可。
需要说明的是,超分重建的过程也即将低分辨率的图像帧通过一系列的学习生成高分辨率的图像帧的过程,目的在于将模糊的图像帧变得更加清晰。具体在进行超分重建时,可以采用双线性插值法、双三次插值法等先将图像帧直接上采样到高分辨率,再利用深度神经网络进行精调;或者也可以基于深度卷积神经网络的级联,并逐步重建高分辨率图像帧,该方法一般分几个阶段,在每个阶段,图像帧被上采样一次,得到更高的分辨率,并且后面接上CNN(Convolutional Neural Networks,卷积神经网络)做一次精调;或者还可以迭代地在上采样之后进行Back-Projection(反向投影)操作并精调,通过计算重建误差来调整图像帧。本申请对超分重建的具体操作方式和过程不进行限定。
继续以上述步骤203中将多个已换脸图像帧保存在命名为“dst_data”的文件夹为例,实际应用的过程中,步骤204中描述的过程也即服务器遍历dst_data文件夹中的每一张图像帧,将图像帧缩小至原来的一半,然后送入超分重建模型进行重建,重建后输出的图像帧保持命名不变,并存储在命名为“sup_data”的文件夹下。
205、对多个待输出图像帧进行高斯模糊处理。
由于经过上述步骤调整后的图像帧清晰度已经提高,但是还无法保证平滑度,因此,在本申请实施例中,增加了对多个待输出图像帧的高斯模糊处理,实现对图像帧的平滑处理,避免由于连续的两帧图像间的过渡不平滑产生的视频中人脸面部发生抖动的问题。
在一个可选地实施方案中,对待输出图像帧进行高斯模糊处理的过程如下:首先,对于多个待输出图像帧中每个待输出图像帧,读取待输出图像帧中的多个像素点,以及对多个像素点中每个像素点执行以下处理:按照预设权重,构建像素点的权重矩阵,采用权重矩阵对像素点的多个相邻像素点的像素值进行权重计算,得到多个处理后的像素值,以及计算多个处理后的像素值的和值作为像素点的高斯模糊值。随后,获取多个像素点对应的多个高斯模糊值,采用多个高斯模糊值进行图片重构,得到完成高斯模糊处理的待输出图像帧。
具体地,在进行高斯模糊处理时,可以设置诸如均值滤波函数、高斯滤波函数等平滑滤波函数,或者将高斯分布作为滤波函数,用平滑滤波函数或滤波函数进行权重计算,生成卷积核对应的权重,然后对图像进行卷积操作,实现对图像帧的高斯模糊处理。本申请对高斯模糊处理的具体操作方式和过程不进行限定。
继续以上述步骤204中将多个待输出图像帧保存在命名为“sup_data”的文件夹为例,实际应用的过程中,服务器遍历dst_data文件夹中的每一张图像帧,进行高斯模糊处理,模糊后输出的图像帧的命名保持不变,并存储在命名为“G_data”的文件夹下。
206、将高斯模糊处理后的多个待输出图像帧进行视频合成处理,以及将视频合成处理得到的视频作为换脸视频。
在本申请实施例中,由于本申请实施例对多个待输出图像帧进行了高斯模糊处理,因此,服务器将高斯模糊处理后的多个待输出图像帧进行视频合成处理,以及将视频合成处理得到的视频作为换脸视频。在一个可选地实施方案中,生成换脸视频的过程如下:首先,服务器对待换脸视频进行音频提取,得到待添加音频资源,也即获取到待换脸视频中的语音。随后,服务器按照多个待输出图像帧中每个待输出图像帧对应的图片编号,将高斯模糊处理后的多个待输出图像帧合成为初始视频,并向初始视频添加待添加音频资源,得到换脸视频。具体地,实际应用的过程中,也即服务器将命名为“G_data”的文件夹下的图片帧合成为视频,添加语音,视频换脸完毕。
需要说明的是,向用户输出换脸视频的过程与上述步骤104中描述的过程一致,此处不再进行赘述。
综上所述,本申请提出的换脸视频的生成方法过程总结如下:如图2B所示,假设待换脸视频为“B-video”,服务器先将B-video拆分为多个图像帧,将拆分得到的图像帧作为待进行人脸更换的模板,也即“emplate-B”。随后,服务器将emplate-B输入到换脸模型中,使换脸模型对emplate-B中的人脸进行替换,得到人脸为A的多个图像帧,也即图2B中的“A-face”。最后,服务器对A-face进行下采样并超分重建,将重建后的图像帧进行高斯模糊处理,用高斯模糊处理后的图像帧合成视频,得到人脸为A的视频,也即“A-video”,完成整个视频的换脸过程。
本申请实施例提供的方法,训练换脸模型,获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧,将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧,对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,对多个待输出图像帧进行高斯模糊处理,进而通过对处理后的多个待输出图像帧进行的视频合成处理,得到换脸视频。本申请将缩小处理、超分重建处理、高斯模糊处理结合应用,提高图像的清晰度,解决了视频图像内清晰度不一致、面部模糊的问题,而且还能够避免由于连续的两帧图像间的过渡不平滑产生的视频中人脸面部发生抖动的问题,对换脸视频中产生的面部抖动起到缓解的作用,提升生成换脸视频的成功率。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种换脸视频的生成装置,如图3所示,所述装置包括:拆分模块301,输入模块302,处理模块303和合成模块304。
该拆分模块301,用于获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧;
该输入模块302,用于将所述多个待换脸图像帧输入至换脸模型,获取所述换脸模型输出的多个已换脸图像帧,所述换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为所述人脸素材;
该处理模块303,用于对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧;
该合成模块304,用于对所述多个待输出图像帧进行视频合成处理,得到换脸视频。
在具体的应用场景中,该装置还包括:
读取模块,用于读取所述多个待换脸图像帧中每个待换脸图像帧对应的时间点;
排序模块,用于按照时间点在时间轴上的先后顺序,对所述多个待换脸图像帧进行排序;
编号模块,用于对排序后的所述多个待换脸图像帧进行编号处理,为所述多个待换脸图像帧添加图片编号,以及将编号后的所述多个待换脸图像帧进行存储。
在具体的应用场景中,该处理模块303,用于获取预设下采样倍数,对所述多个已换脸图像帧中每个已换脸图像帧执行以下处理:按照所述预设下采样倍数对所述已换脸图像帧进行下采样处理,将所述已换脸图像帧的图片尺寸缩小至所述预设下采样倍数指示的目标尺寸,得到缩小后的所述已换脸图像帧;将完成缩小处理后的所述多个已换脸图像帧进行缓存。
在具体的应用场景中,该处理模块303,用于获取预设上采样倍数,对所述缩小后的每个已换脸图像帧进行以下处理:获取超分重建模型,将缩小后的已换脸图像帧输入至所述超分重建模型,利用所述超分重建模型对所述缩小后的已换脸图像帧进行上采样处理,得到图片尺寸与所述预设上采样倍数匹配的图像帧作为待输出图像帧;将得到的所述多个待输出图片进行存储。
在具体的应用场景中,该处理模块303,还用于对于所述多个待输出图像帧中每个待输出图像帧,读取所述待输出图像帧中的多个像素点,以及对所述多个像素点中每个像素点执行以下处理:按照预设权重,构建所述像素点的权重矩阵,采用所述权重矩阵对所述像素点的多个相邻像素点的像素值进行权重计算,得到多个处理后的像素值,以及计算所述多个处理后的像素值的和值作为所述像素点的高斯模糊值;获取所述多个像素点对应的多个高斯模糊值,采用所述多个高斯模糊值进行图片重构,得到完成高斯模糊处理的所述待输出图像帧;
所述合成模块304,还用于将高斯模糊处理后的所述多个待输出图像帧进行视频合成处理,以及将视频合成处理得到的视频作为所述换脸视频。
在具体的应用场景中,该合成模块304,用于对所述待换脸视频进行音频提取,得到待添加音频资源;按照所述多个待输出图像帧中每个待输出图像帧对应的图片编号,将所述多个待输出图像帧合成为初始视频;向所述初始视频添加所述待添加音频资源,得到所述换脸视频。
在具体的应用场景中,该装置还包括:
生成模块,用于获取所述用户上传的人脸素材,采用神经网络算法生成所述人脸素材的像素点分布;
训练模块,用于以所述像素点分布为基础进行模型训练,得到所述换脸模型。
本申请实施例提供的装置,获取待换脸视频,将待换脸视频拆分为多个待换脸图像帧,将多个待换脸图像帧输入至换脸模型,获取换脸模型输出的多个已换脸图像帧,对多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,进而通过对多个待输出图像帧进行的视频合成处理,得到换脸视频。本申请将缩小处理、超分重建处理结合应用,提高图像的清晰度,解决了视频图像内清晰度不一致、面部模糊的问题,对换脸视频中产生的面部抖动起到缓解的作用,提升生成换脸视频的成功率。
需要说明的是,本申请实施例提供的一种换脸视频的生成装置所涉及各功能单元的其他相应描述,可以参考图1和图2A至图2B中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种计算机设备,该计算机设备包括总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的换脸视频的生成方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的换脸视频的生成方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种换脸视频的生成方法,其特征在于,包括:
获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧;
将所述多个待换脸图像帧输入至换脸模型,获取所述换脸模型输出的多个已换脸图像帧,所述换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为所述人脸素材;
对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧;
对所述多个待输出图像帧进行视频合成处理,得到换脸视频。
2.根据权利要求1所述的方法,其特征在于,所述获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧之后,所述方法还包括:
读取所述多个待换脸图像帧中每个待换脸图像帧对应的时间点;
按照时间点在时间轴上的先后顺序,对所述多个待换脸图像帧进行排序;
对排序后的所述多个待换脸图像帧进行编号处理,为所述多个待换脸图像帧添加图片编号,以及将编号后的所述多个待换脸图像帧进行存储。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,包括:
获取预设下采样倍数,对所述多个已换脸图像帧中每个已换脸图像帧执行以下处理:按照所述预设下采样倍数对所述已换脸图像帧进行下采样处理,将所述已换脸图像帧的图片尺寸缩小至所述预设下采样倍数指示的目标尺寸,得到缩小后的所述已换脸图像帧;
将完成缩小处理后的所述多个已换脸图像帧进行缓存。
4.根据权利要求1所述的方法,其特征在于,所述对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧,包括:
获取预设上采样倍数,对所述缩小后的每个已换脸图像帧进行以下处理:获取超分重建模型,将缩小后的已换脸图像帧输入至所述超分重建模型,利用所述超分重建模型对所述缩小后的已换脸图像帧进行上采样处理,得到图片尺寸与所述预设上采样倍数匹配的图像帧作为待输出图像帧;
将得到的所述多个待输出图片进行存储。
5.根据权利要求1所述的方法,其特征在于,所述对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧之后,所述方法还包括:
对于所述多个待输出图像帧中每个待输出图像帧,读取所述待输出图像帧中的多个像素点,以及对所述多个像素点中每个像素点执行以下处理:按照预设权重,构建所述像素点的权重矩阵,采用所述权重矩阵对所述像素点的多个相邻像素点的像素值进行权重计算,得到多个处理后的像素值,以及计算所述多个处理后的像素值的和值作为所述像素点的高斯模糊值;
获取所述多个像素点对应的多个高斯模糊值,采用所述多个高斯模糊值进行图片重构,得到完成高斯模糊处理的所述待输出图像帧;
将高斯模糊处理后的所述多个待输出图像帧进行视频合成处理,以及将视频合成处理得到的视频作为所述换脸视频。
6.根据权利要求1所述的方法,其特征在于,所述对所述多个待输出图像帧进行视频合成处理,得到换脸视频,包括:
对所述待换脸视频进行音频提取,得到待添加音频资源;
按照所述多个待输出图像帧中每个待输出图像帧对应的图片编号,将所述多个待输出图像帧合成为初始视频;
向所述初始视频添加所述待添加音频资源,得到所述换脸视频。
7.根据权利要求1所述的方法,其特征在于,所述获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧之前,所述方法还包括:
获取所述用户上传的人脸素材,采用神经网络算法生成所述人脸素材的像素点分布;
以所述像素点分布为基础进行模型训练,得到所述换脸模型。
8.一种换脸视频的生成装置,其特征在于,包括:
拆分模块,用于获取待换脸视频,将所述待换脸视频拆分为多个待换脸图像帧;
输入模块,用于将所述多个待换脸图像帧输入至换脸模型,获取所述换脸模型输出的多个已换脸图像帧,所述换脸模型基于用户的人脸素材训练得到且用于将输入的待换脸图像帧中的人脸替换为所述人脸素材;
处理模块,用于对所述多个已换脸图像帧中每个已换脸图像帧进行缩小处理,以及对缩小后的每个已换脸图像帧进行超分重建,得到多个待输出图像帧;
合成模块,用于对所述多个待输出图像帧进行视频合成处理,得到换脸视频。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578853.8A CN115187446A (zh) | 2022-05-26 | 2022-05-26 | 换脸视频的生成方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578853.8A CN115187446A (zh) | 2022-05-26 | 2022-05-26 | 换脸视频的生成方法、装置、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115187446A true CN115187446A (zh) | 2022-10-14 |
Family
ID=83513151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578853.8A Pending CN115187446A (zh) | 2022-05-26 | 2022-05-26 | 换脸视频的生成方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187446A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275626A (zh) * | 2018-12-05 | 2020-06-12 | 深圳市炜博科技有限公司 | 一种基于模糊度的视频去模糊方法、装置及设备 |
CN111754396A (zh) * | 2020-07-27 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 脸部图像处理方法、装置、计算机设备和存储介质 |
CN112950471A (zh) * | 2021-02-26 | 2021-06-11 | 杭州朗和科技有限公司 | 视频超分处理方法、装置、超分辨率重建模型、介质 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
WO2021258920A1 (zh) * | 2020-06-24 | 2021-12-30 | 百果园技术(新加坡)有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
-
2022
- 2022-05-26 CN CN202210578853.8A patent/CN115187446A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275626A (zh) * | 2018-12-05 | 2020-06-12 | 深圳市炜博科技有限公司 | 一种基于模糊度的视频去模糊方法、装置及设备 |
WO2021258920A1 (zh) * | 2020-06-24 | 2021-12-30 | 百果园技术(新加坡)有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
CN111754396A (zh) * | 2020-07-27 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 脸部图像处理方法、装置、计算机设备和存储介质 |
CN112950471A (zh) * | 2021-02-26 | 2021-06-11 | 杭州朗和科技有限公司 | 视频超分处理方法、装置、超分辨率重建模型、介质 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Learned image downscaling for upscaling using content adaptive resampler | |
JP7542156B2 (ja) | 人物画像修復方法、装置、電子機器、記憶媒体及びプログラム製品 | |
CN112991203B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111970513A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN110570356B (zh) | 图像处理方法和装置、电子设备及存储介质 | |
KR20210119438A (ko) | 얼굴 재연을 위한 시스템 및 방법 | |
Hou et al. | Deep feature consistent deep image transformations: Downscaling, decolorization and HDR tone mapping | |
JP7247327B2 (ja) | ダイナミックデプス画像を撮影して編集するための手法 | |
US12112456B2 (en) | Retouching digital images utilizing layer specific deep-learning neural networks | |
CN110969572B (zh) | 换脸模型训练方法、人脸互换方法、装置及电子设备 | |
Yin et al. | Deep prior guided network for high-quality image fusion | |
CN110060216A (zh) | 一种基于生成对抗网络的图像修复方法、装置以及设备 | |
CN111402394B (zh) | 三维夸张漫画人脸生成方法及装置 | |
US11948278B2 (en) | Image quality improvement method and image processing apparatus using the same | |
CN117651965A (zh) | 使用神经网络的高清图像操作方法和系统 | |
CN112991171A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116958326A (zh) | 图像编辑方法、装置、电子设备以及存储介质 | |
CN115294055A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN115170388A (zh) | 人物线稿生成方法、装置、设备及介质 | |
CN115187446A (zh) | 换脸视频的生成方法、装置、计算机设备及可读存储介质 | |
WO2024087946A1 (zh) | 图像编辑方法、装置、计算机设备和存储介质 | |
CN113763232A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN115358916B (zh) | 换脸图像的生成方法、装置、计算机设备及可读存储介质 | |
Liu et al. | Photorealistic style transfer fusing frequency separation channel attention mechanism and mirror flow pyramid integration | |
US11948275B2 (en) | Video bandwidth optimization within a video communications platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100102 201 / F, block C, 2 lizezhong 2nd Road, Chaoyang District, Beijing Applicant after: Beijing Shuidi Technology Group Co.,Ltd. Address before: 100102 201, 2 / F, block C, No.2 lizezhong 2nd Road, Chaoyang District, Beijing Applicant before: Beijing Health Home Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221014 |