CN117557689A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117557689A CN117557689A CN202410041223.6A CN202410041223A CN117557689A CN 117557689 A CN117557689 A CN 117557689A CN 202410041223 A CN202410041223 A CN 202410041223A CN 117557689 A CN117557689 A CN 117557689A
- Authority
- CN
- China
- Prior art keywords
- image
- loss
- feature
- sample
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000013139 quantization Methods 0.000 claims abstract description 115
- 238000012545 processing Methods 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 35
- 230000000875 corresponding effect Effects 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 12
- 238000007499 fusion processing Methods 0.000 claims description 12
- 239000000725 suspension Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 208000032538 Depersonalisation Diseases 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 abstract description 9
- 238000012549 training Methods 0.000 description 31
- 239000013598 vector Substances 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008439 repair process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003796 beauty Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:对原始对象图像中对象的目标部件进行抠图处理,得到抠除目标部件的抠图图像,对原始对象图像进行模糊处理,得到模糊图像;对抠图图像以及模糊图像进行拼接处理,得到拼接图像;对拼接图像进行编码处理,得到拼接图像的编码特征;确定编码位置的编码特征与目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为拼接图像在编码位置的编码特征的量化特征;对量化特征进行解码处理,得到对原始对象图像中对象的目标部件进行重建后的目标图像。通过本申请,能够在目标图像中重建出高质量的目标部件。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
对于对象脸部的部件修复任务具有较多应用场景,以部件是牙齿为例进行说明,牙齿修复有非常多的应用场景,可以用于牙齿美颜任务以及人像生成任务的后处理修复。在牙齿美颜场景中,对于牙齿有畸形,牙齿显黑,牙齿有裂缝,不够美观的时候,可以通过牙齿修复将用户的牙齿修正到整齐划一的程度。在人像生成任务中,牙齿容易有多层裂纹,偏模糊等问题,可以通过接入牙齿修复算法,改善人像生成的效果。
相关技术中将较好的牙齿抠出来贴到对应的需要修复的图像的嘴部,这种抠图的方式依赖关键点精度,当嘴部定位不准确时候,无法实现准确的修复,尤其在视频场景下容易出现不稳定的现象。
发明内容
本申请实施例提供一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在目标图像中重建出高质量的目标部件。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的图像处理方法,包括:
对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,并对所述原始对象图像进行模糊处理,得到模糊图像;
对所述抠图图像以及所述模糊图像进行拼接处理,得到拼接图像;
对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征;
针对每个所述编码位置,确定所述编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为所述拼接图像在所述编码位置的编码特征的量化特征;
对所述量化特征进行解码处理,得到对所述原始对象图像中所述对象的目标部件进行重建后的目标图像。
本申请实施例提供一种基于人工智能的图像处理装置,包括:
图像模块,用于对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,并对所述原始对象图像进行模糊处理,得到模糊图像;
拼接模块,用于对所述抠图图像以及所述模糊图像进行拼接处理,得到拼接图像;
编码模块,用于对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征;
量化模块,用于针对每个所述编码位置,确定所述编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为所述拼接图像在所述编码位置的编码特征的量化特征;
解码模块,用于对所述量化特征进行解码处理,得到对所述原始对象图像中所述对象的目标部件进行重建后的目标图像。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的基于人工智能的图像处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的图像处理方法。
本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本申请实施例提供的基于人工智能的图像处理方法。
本申请实施例具有以下有益效果:
对原始对象图像中对象的目标部件进行抠图处理,得到抠除目标部件的抠图图像,并对原始对象图像进行模糊处理,得到模糊图像;对抠图图像以及模糊图像进行拼接处理,得到拼接图像,这里的拼接图像包括扣掉目标部件的抠图图像以及用于提示目标部件所在位置的模糊图像,对拼接图像进行编码处理,得到拼接图像在每个编码位置的编码特征;针对每个位置,确定编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,这里的候选量化特征可以表征具有目标部件的对象的候选局部信息,这里的局部表征不同编码位置,将最小距离对应的候选量化特征作为拼接图像在编码位置的编码特征的量化特征,这里相当于是矢量量化的过程,通过距离度量的方式可以得到局部最优的量化特征,因此所得到的量化特征可以同时保留拼接图像中的细节信息以及目标部件的重建信息,由于量化特征保留拼接图像中的细节信息以及目标部件的重建信息,因此通过对量化特征进行解码从而可以在得到的目标图像中重建出高质量的目标部件。
附图说明
图1是本申请实施例提供的图像处理系统的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A是本申请实施例提供的图像处理方法的第一流程示意图;
图3B是本申请实施例提供的图像处理方法的第二流程示意图;
图3C是本申请实施例提供的图像处理方法的第三流程示意图;
图4是本申请实施例提供的图像处理方法的修复示意图;
图5是本申请实施例提供的图像处理方法的训练框架示意图;
图6是本申请实施例提供的图像处理方法的训练数据;
图7是本申请实施例提供的图像处理方法的特征可视化的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)生成对抗网络(GAN,Generative Adversarial Network):非监督式学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终生成以假乱真的图片。
2)牙齿修复:是将开裂,显黑,或者不齐整的牙齿修正到齐整的样子。
3)矢量量化(VQ,Vector Quantization)是一种有效的有损压缩技术,其理论基础是香农的速率失真理论。矢量量化的基本原理是用码书中与输入矢量最匹配的码字的索引代替输入矢量进行传输与存储。
对于对象脸部的部件修复任务具有较多应用场景,以部件是牙齿为例进行说明,牙齿修复有非常多的应用场景,可以用于牙齿美颜任务以及人像生成任务的后处理修复。在牙齿美颜场景中,对于牙齿有畸形,牙齿显黑,牙齿有裂缝,不够美观的时候,可以通过牙齿修复将用户的牙齿修正到整齐划一的程度。在人像生成任务中,牙齿容易有多层裂纹,偏模糊等问题,可以通过接入牙齿修复算法,改善人像生成的效果。
相关技术中的牙齿修复算法可以是基于抠图的形式,将较好牙齿的人像作为输入,通过人脸关键点定位出嘴部区域,将较好的牙齿贴到需要修复的图像的嘴部,这种算法依赖于嘴部区域的准确定位,无法实现准确的修复,尤其在视频场景下容易出现不稳定的现象。相关技术中也有基于深度神经网络进行牙齿重建的方法,然而直接利用深度网络很难生成高质量的牙齿。
本申请实施例提供一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在目标图像中重建出高质量的目标部件。本申请实施例提供的基于人工智能的图像处理方法是基于人工智能技术中的计算机视觉技术实现的。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器看的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为终端或服务器。
参考图1,图1是本申请实施例提供的基于人工智能的图像处理方法的应用模式示意图;示例的,图1中涉及服务器200、网络300及终端400。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,服务器200可以是应用程序对应的服务器,例如:应用程序是安装在终端400的美颜软件,则服务器200是美颜服务器。
在一些实施例中,终端400获取原始对象图像,这里的原始对象图像可以是通过拍摄得到的人脸图像,或者这里的原始对象图像是经过美颜处理得到的人脸图像,终端400将原始对象图像发送到服务器200,服务器200对原始对象图像中对象的目标部件进行抠图处理,得到抠除目标部件的抠图图像,并对原始对象图像进行模糊处理,得到模糊图像;对抠图图像以及模糊图像进行拼接处理,得到拼接图像;对拼接图像进行编码处理,得到拼接图像在每个编码位置的编码特征;针对每个位置,确定编码位置的编码特征与目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为拼接图像在编码位置的编码特征的量化特征;对量化特征进行解码处理,得到对原始对象图像中对象的目标部件进行重建后的目标图像,服务器200将目标图像发送至终端400进行呈现。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,终端400可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的图像处理方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,例如视频APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,电子设备为终端或者服务器,以电子设备是服务器为例进行说明,图2所示的服务器包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端400中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,可以包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,可以包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的基于人工智能的图像处理装置可以采用软件方式实现,图2示出了存储在存储器250中的基于人工智能的图像处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:图像模块2551、拼接模块2552、编码模块2553,量化模块2554、解码模块2555以及训练模块2556,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
下面,说明本申请实施例提供的基于人工智能的图像处理方法,如前,实现本申请实施例的基于人工智能的图像处理方法的电子设备可以是服务器,因此下文中不再重复说明各个步骤的执行主体。参见图3A,图3A是本申请实施例提供的基于人工智能的图像处理方法的第一流程示意图,结合图3A示出的步骤101至步骤105进行说明。
在步骤101中,对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,并对所述原始对象图像进行模糊处理,得到模糊图像。
在一些实施例中,参见图3B,对原始对象图像中对象的目标部件进行抠图处理之前,执行图3B示出的步骤106至步骤109。
在步骤106中,获取包括所述对象的原始图像。
在步骤107中,对所述原始图像进行对象脸部检测处理,得到脸部区域。
在步骤108中,对所述脸部区域进行脸部配准处理,得到脸部关键点。
在步骤109中,基于所述脸部关键点对所述原始图像进行裁剪处理,得到所述原始对象图像。
作为示例,参见图6,对于输入的原始图像首先需要进行预处理以获得剪裁好的人脸图。具体而言,由于输入图像中人脸只占据较小位置,所以需要先进行人脸检测,获得人脸区域;在人脸区域内进行人脸配准,获得人脸的关键点,重点是人的眼睛和嘴角的关键点;根据人脸关键点,获得裁剪后的人脸图。通过本申请实施例可以对待修复的图像进行预处理,从而可以得到以脸部区域为主体,且脸部关键点处于配准位置的原始对象图像,从而提高后续目标部件的修复效果。
在一些实施例中,步骤101中对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,可以通过以下技术方案实现:对所述原始对象图像进行图像分割处理,得到对应所述目标部件的区域;基于对应所述目标部件的区域对所述原始对象图像进行抠图处理,得到抠除所述目标部件的抠图图像。通过本申请实施例可以得到抠图图像,使得后续目标部件的修复过程中可以学习到目标部件的修复区域,从而提高后续目标部件的修复效果。
作为示例,以目标部件是牙齿为例进行说明,提取原始对象图像的嘴部区域,具体而言,将原始对象图像送入分割网络,提取嘴巴区域,获得嘴部掩模mouth_mask,嘴部掩模mouth_mask中数值为1的位置属于嘴巴区域,数值为0的位置不属于嘴巴区域,获取抠掉牙齿的抠图图像img_no_mouth,这里的img_no_mouth实际上是将原始对象图像的每个像素与(1–mouth_mask)相乘得到的。
在步骤102中,对所述抠图图像以及所述模糊图像进行拼接处理,得到拼接图像。
在步骤103中,对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征。
在一些实施例中,步骤103中所述对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征,可以通过以下技术方案实现:调用编码网络对所述拼接图像进行第一编码处理,得到所述拼接图像的第一编码特征;对所述第一编码特征进行卷积处理,得到所述拼接图像在每个编码位置的编码特征。通过本申请实施例可以使得输入减半,并使得通道逐渐增加,从而得到隐空间内的编码结果,最终再通过一层卷积得到设定维度尺寸的编码特征。
作为示例,牙齿修复网络总体可以分为编码网络和解码网络两部分,编码网络由
编码模块组成,编码网络是通过训练得到的,每个编码模块用于执行卷积计算,将输入减
半,通道逐渐增加。拼接图像x的维度为(将两张图像拼接起来作为输入,每张
图像的通道数为3),逐步编码为的编码结果,维度为的编码结
果,维度为的编码结果,维度为的编码结果,最终得到隐空间内的
编码结果inner_features(第一编码特征)。将隐空间内的编码结果inner_features经过一
层卷积得到矢量量化模块的输入f(拼接图像在每个编码位置的编码特征),f是维度为3的
向量[h,w,nz],其中h=32,w=32,nz=32,即。
在步骤104中,针对每个所述编码位置,确定所述编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为所述拼接图像在所述编码位置的编码特征的量化特征。
步骤104中的候选量化特征来源于预先训练得到的字典,训练得到的字典包括多个候选量化特征,候选量化特征可以表征具有目标部件的对象的大量候选局部信息,这里的局部指的是不同的编码位置,候选量化特征的数目取决于字典的规模,数目越多字典所包括的候选量化特征越全面,在字典中不会将候选量化特征与编码位置进行绑定,字典可以理解为多个特征向量构成的集合。
下面介绍构建目标部件的候选量化特征的过程,以候选量化特征的数目是1000为例进行说明,在训练阶段会通过随机初始化的方式得到1000个初始的候选量化特征,通过本申请实施例所提供的损失函数对这1000个初始的候选量化特征进行更新,由于损失函数会涉及到对于目标部件以及对像整体的约束,因此最终更新得到的1000个候选量化特征(构成字典)可以在应用阶段被用于矢量量化,即从这1000个候选量化特征中挑选出对应每个编码位置的量化特征,正是因为在训练过程中使用目标部件以及对像整体的相关约束,从而导致最终训练得到的字典可以用于对每个编码位置进行量化,最终所有编码位置对应的量化特征可以从整体上表征出具有目标部件的对象,即完成针对对象的目标部件修复任务。
针对不同的部件修复任务,需要采取不同训练数据以及不同训练任务,因此最后训练得到的候选量化特征也不同,因此步骤104中限定是基于目标部件的候选量化特征进行矢量量化,并非指这些候选量化特征仅用于描述目标部件,而是表征这些候选量化特征是用于执行目标部件修复任务。
参见图5,经过编码器编码后可以得到个编码位置的编码特征,以编码位置(1,1)为例进行说明,从上述得到的1000个候选量化特征中选择出与编码位置(1,1)的编码特征的特征距离最近的一个候选量化特征作为编码位置(1,1)的量化特征。基于上述方式可以得到/>个编码位置的量化特征。
作为示例,预先生成离线数值的字典F,,即字典F里有K个数
量的候选量化特征,每个量化特征的维度为nz=32。对矢量量化模块的输入f(拼接图像在每
个编码位置的编码特征)进行矢量量化,对于f的每个编码位置,在字典F中寻找与f距离最
近的候选量化特征,生成具有相同维度的变量,相当于是输入f以及字典F,
输出(量化特征)的单个编码的维度都为nz,参见公式(1):
(1);
其中,是矢量量化模块的输出(量化特征),fij是第i行第j列编码位置的编码特
征,zk是字典F中的候选量化特征,q(f)是量化公式。
在步骤105中,对所述量化特征进行解码处理,得到对所述原始对象图像中所述对象的目标部件进行重建后的目标图像。
作为示例,这里的解码处理是通过调用解码网络实现,这里的解码网络是经过训
练得到的,解码网络由解码模块组成,每个解码模块至少包括上采样层,可以将输入的分辨
率增倍,最终解码网络逐步将量化特征解码为维度为的解码结果,维度为的解码结果,维度为的解码结果,维度为的解码结
果,维度为的解码结果,最终得到牙齿修复的目标图像。
在一些实施例中,参见图3C,执行步骤103之前,可以执行图3C示出的步骤110至步骤116。
在步骤110中,对样本原始对象图像中样本对象的目标部件进行抠图处理,得到抠除所述目标部件的样本抠图图像,并对所述样本原始对象图像进行模糊处理,得到样本模糊图像。
作为示例,这里的样本原始对象图像即为图6所示的图像中具有完整目标部件(牙齿)的图像。
在步骤111中,对所述样本抠图图像以及所述样本模糊图像进行拼接处理,得到样本拼接图像。
步骤110和步骤111的具体实施方式与步骤101至步骤102的具体实施方式相同。
在步骤112中,调用初始化的编码网络对所述样本拼接图像进行编码处理,得到所述样本拼接图像在每个编码位置的编码特征。
在步骤113中,基于初始化的候选量化特征,确定所述样本拼接图像在每个所述编码位置的编码特征的量化特征。
在步骤114中,调用初始化的解码网络对所述样本拼接图像在每个所述编码位置的编码特征的量化特征进行解码处理,得到样本目标图像。
步骤112至步骤114的具体实施方式与步骤103至步骤105的具体实施方式类似,区别仅在于步骤112至步骤114中涉及的编码网络、候选量化特征以及解码网络均是未经过训练的,或者是未训练完成的。
在步骤115中,基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失。
在一些实施例中,在基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失之后,基于所述编码特征、所述量化特征以及所述样本目标图像中至少之一,确定修正损失;利用所述修正损失对所述第一综合损失进行更新处理,并利用更新后的第一综合损失替换更新前的第一综合损失。通过本申请实施例可以通过第一综合损失更新来实现不同层面的训练效果,不仅仅是确保基本的重建需求,还可以从编码特征、量化特征、样本目标图像等元素来优化训练效果。
作为示例,这里的更新处理实际上可以是将修正损失与步骤115得到的第一综合损失进行融合处理,得到更新后的第一综合损失。
在一些实施例中,上述基于所述编码特征、所述量化特征以及所述样本目标图像中至少之一,确定修正损失,可以通过以下技术方案实现:执行以下损失确定处理中至少之一:基于所述编码特征以及所述量化特征,确定梯度中止损失;基于所述样本目标图像,确定生成损失;基于所述梯度中止损失以及所述生成损失中至少之一,确定所述修正损失。通过本申请实施例可以约束模型的学习过程中梯度正常回传,并且约束图像生成效果与真实图像的效果尽量一致。
在一些实施例中,上述基于所述编码特征以及所述量化特征,确定梯度中止损失,可以通过以下技术方案实现:对所述编码特征进行梯度中止处理,得到第一梯度中止结果;对所述量化特征进行梯度中止处理,得到第二梯度中止结果;确定所述第一梯度中止结果与所述量化特征之间的第一均方误差,并获取所述第一均方误差的平方值;确定所述第二梯度中止结果与所述编码特征之间的第二均方误差,并获取所述第二均方误差的平方值;对所述第一均方误差的平方值以及所述第二均方误差的平方值进行融合处理,得到所述梯度中止损失。
作为示例,计算梯度终止损失loss_stop,参见公式(2):
(2);
其中,为针对执行梯度终止操作(stop-gradient operation),其
目的在于保证神经网络梯度可以正常回传,而不受离散编码的影响,是矢量量化模块的
输出(量化特征),是超参数,是矢量量化模块的输入(编码特征)。是第一均方误差的平方值,是针对执行梯度终止操作(stop-
gradient operation),是第二均方误差的平方值,第一均方误差是第
一梯度中止结果与量化特征之间差值的平方的平均值,第二均方误差是第二梯度中止结果
与编码特征之间差值的平方的平均值。
在一些实施例中,上述基于所述样本目标图像,确定生成损失,可以通过以下技术方案实现:调用判别网络对所述样本目标图像进行真假预测处理,得到所述样本目标图像属于真实图像的第一预测概率;获取与所述第一预测概率负相关的生成损失。通过本申请实施例可以使得生成得到的样本目标图像贴近真实图像,即不会被看出是由模型生成的图像。
作为示例,计算样本目标图像的生成损失G_loss,参见公式(3):
G_loss=log(1–D(result)) (3);
其中,G_loss是生成损失,D(result)是判别器网络D对于样本目标图像的输出(所述样本目标图像属于真实图像的第一预测概率)。
在一些实施例中,调用判别网络对所述样本目标图像进行真假预测处理之前,调用更新前的判别网络对所述样本目标图像进行真假预测处理,得到所述样本目标图像属于真实图像的第二预测概率;调用更新前的判别网络对所述标签图像进行真假预测处理,得到所述标签图像属于真实图像的第三预测概率;获取与所述第三预测概率负相关,且与所述第二预测概率正相关的对抗损失;基于所述对抗损失对所述更新前的判别网络进行更新处理,得到所述判别网络。通过本申请实施例可以提高判别器网络D的判别能力,从而通过对抗的方式使得生成器网络的生成能力更加优秀。
作为示例,计算目标图像的对抗损失D_loss,本申请实施例提供判别器网络D,用于判断样本目标图像是不是真实图像,计算对抗损失D_loss,并基于对抗损失D_loss对判断器网络D的参数进行优化,参见公式(4):
D_loss=-logD(gt)-log(1–D(result)) (4);
其中,D_loss是对抗损失,D(gt)是判别器网络D对于标签图像的输出(标签图像属于真实图像的第三预测概率),D(result)是判别器网络D对于目标图像的输出(样本目标图像属于真实图像的第二预测概率)。
在步骤116中,基于所述第一综合损失对所述初始化的编码网络、所述初始化的候选量化特征以及所述初始化的解码网络进行更新,得到更新后的编码网络、所述候选量化特征以及更新后的解码网络。
作为示例,这里是基于综合损失计算出梯度,再基于梯度更新对所述初始化的编码网络、所述初始化的候选量化特征以及所述初始化的解码网络进行更新,例如可以使用最小梯度下降算法进行更新,最小梯度下降法是一种常用的优化算法,它可以用于求解函数的最小值。在机器学习和深度学习中,最小梯度下降法被广泛应用于模型的训练过程中。最小梯度下降法的基本思想是通过不断地迭代来逐步优化函数的参数,使得函数的值不断地趋近于最小值。在每一次迭代中,算法会计算出函数在当前参数下的梯度,然后按照梯度的反方向更新参数,使得函数的值不断地减小,最小梯度下降法有两种常见的实现方式:批量梯度下降法和随机梯度下降法。
在一些实施例中,步骤115中基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失,可以通过以下技术方案实现:执行以下损失确定处理中至少之一:基于所述标签图像以及所述样本目标图像,确定整体重建损失;基于所述标签图像以及所述样本目标图像,确定图像特征级损失;基于所述标签图像、所述样本目标图像以及所述目标部件的区域,确定局部重建损失;基于所述标签图像以及所述样本目标图像,确定对象身份损失;基于所述整体重建损失、所述图像特征级损失、所述局部重建损失、所述对象身份损失中至少之一,确定所述第一综合损失。通过本申请实施例可以利用标签图像来约束模型生成的样本目标图像可以成功重建目标部件,提高重建效果。
作为示例,这里可以直接将整体重建损失、所述图像特征级损失、所述局部重建损失、所述对象身份损失中任意一种作为第一综合损失,或者将所述整体重建损失、所述图像特征级损失、所述局部重建损失、所述对象身份损失中至少两种损失进行融合,得到第一综合损失。
在一些实施例中,上述基于所述标签图像以及所述样本目标图像,确定整体重建损失,可以通过以下技术方案实现:获取所述标签图像中每个像素位置的第一像素值以及所述样本目标图像中每个所述像素位置的第二像素值;针对每个所述像素位置执行以下处理,确定所述像素位置的第一像素值与所述像素位置的第二像素值之间的第一绝对值;对多个所述像素位置的第一绝对值进行融合处理,得到所述整体重建损失。通过本申请实施例可以从整体像素上约束两张图尽量相似,从而提高模型的重建能力。
作为示例,计算牙齿修复的整体重建损失L1_loss,L1_loss是像素级损失,整体的生成图和标签图越接近越好,参见公式(5):
L1_loss=abs(result–gt) (5);
其中,L1_loss是整体重建损失,abs()是绝对值计算,result是样本目标图像的像素(样本目标图像中每个所述像素位置的第二像素值),gt是标签图像的像素(标签图像中每个像素位置的第一像素值)。
在一些实施例中,上述基于所述标签图像以及所述样本目标图像,确定图像特征级损失,可以通过以下技术方案实现:对所述标签图像进行多个层级的特征提取处理,得到对应每个所述层级的第一特征;对所述样本目标图像进行多个层级的特征提取处理,得到对应每个所述层级的第二特征;针对每个所述层级执行以下处理:确定所述层级的第一特征以及所述层级的第二特征之间的特征距离;对多个所述层级的特征距离进行融合处理,得到所述图像特征级损失。通过本申请实施例可以从不同层级特征的角度来约束模型具有深度的重建能力。
作为示例,计算牙齿修复的图像特征级损失LPIPS_loss,通过alexnet网络对样本目标图像进行多层级特征提取得到result_fea1,result_fea2,result_fea3,result_fea4这四个层级的特征,通过alexnet网络对标签图像进行多层级特征提取得到gt_fea1,gt_fea2,gt_fea3,gt_fea4,参见公式(6):
LPIPS_loss=|result_fea1-gt_fea1|+|result_fea2-gt_fea2|+|result_fea3–gt_fea3|+|result_fea4-gt_fea4| (6);
其中,result_fea1是样本目标图像第一层级的特征,gt_fea1是标签图像第一层级的特征,result_fea2是样本目标图像第二层级的特征,gt_fea2是标签图像第二层级的特征,result_fea3是样本目标图像第三层级的特征,gt_fea3是标签图像第三层级的特征,result_fea4是样本目标图像第四层级的特征,gt_fea4是标签图像第四层级的特征。
在一些实施例中,上述基于所述标签图像、所述样本目标图像以及所述目标部件的区域,确定局部重建损失,可以通过以下技术方案实现:基于所述目标部件的区域获取所述标签图像中对应所述目标部件的第一局部图像;基于所述目标部件的区域获取所述样本目标图像中对应所述目标部件的第二局部图像;获取所述第一局部图像中每个像素位置的第三像素值以及所述第二局部图像中每个所述像素位置的第四像素值;针对每个所述像素位置执行以下处理,确定所述像素位置的第三像素值与所述像素位置的第四像素值之间的第二绝对值;对多个所述像素位置的第二绝对值进行融合处理,得到所述局部重建损失。通过本申请实施例可以从目标部件所在的局部区域来约束重建效果。
作为示例,以目标部件是牙齿为例进行说明,计算牙齿区域的局部重建损失teeth_l1_loss,首先计算样本目标图像的像素以及标签图像的像素,参见公式(7)以及公式(8):
(7);
(8);
其中,result_mouth是样本目标图像中嘴部区域的像素(样本目标图像中对应所述目标部件的第二局部图像中每个所述像素位置的第四像素值),result是样本目标图像的像素(样本目标图像中每个所述像素位置的第四像素值),mouth_mask是嘴部区域掩模,gt_mouth是标签图像中嘴部区域的像素(标签图像中对应所述目标部件的第一局部图像中每个像素位置的第三像素值),gt是标签图像的像素(标签图像中每个所述像素位置的第三像素值)。
牙齿区域的局部重建损失teeth_l1_loss可以参见公式(9):
teeth_l1_loss=abs(result_mouth–gt_mouth) (9);
其中,teeth_l1_loss是牙齿区域的重建损失,abs()是绝对值计算,result_mouth是样本目标图像中嘴部区域的第四像素值,gt_mouth是标签图像中嘴部区域的第三像素值。
在一些实施例中,上述基于所述标签图像以及所述样本目标图像,确定对象身份损失,可以通过以下技术方案实现:调用对象身份识别网络对所述标签图像进行身份特征提取处理,得到所述标签图像的第一身份特征;调用对象身份识别网络对所述样本目标图像进行身份特征提取处理,得到所述样本目标图像的第二身份特征;确定所述第一身份特征与所述第二身份特征之间的身份特征相似度,并获取与所述身份特征相似度负相关的对象身份损失。通过本申请实施例可以确保重建过程中身份特征不会丢失。
作为示例,利用已有的对象身份识别网络提取标签图像的第一身份特征gt_id_features,利用已有的对象身份识别网络提取样本目标图像的第二身份特征result_id_features,计算对象身份损失ID_loss,对象身份损失的目的是约束样本目标图像和标签图像越像越好,参见公式(10):
ID_loss=1–cosine_similarity(gt_id_features,result_id_features) (10);
其中,ID_loss是对象身份损失,cosine_similarity是余弦相似度,gt_id_features是标签图像的第一身份特征,result_id_features是样本目标图像的第二身份特征。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些实施例中,终端获取原始对象图像,这里的原始对象图像可以是通过拍摄得到的人脸图像,或者这里的原始对象图像是经过美颜处理得到的人脸图像,终端将原始对象图像发送到服务器,服务器对原始对象图像中对象的目标部件进行抠图处理,得到抠除目标部件的抠图图像,并对原始对象图像进行模糊处理,得到模糊图像;对抠图图像以及模糊图像进行拼接处理,得到拼接图像;对拼接图像进行编码处理,得到拼接图像在每个编码位置的编码特征;针对每个位置,确定编码位置的编码特征与目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为拼接图像在编码位置的编码特征的量化特征;对量化特征进行解码处理,得到对原始对象图像中对象的目标部件进行重建后的目标图像,服务器将目标图像发送至终端进行呈现。
参见图4,将原始对象图像中的龅牙修复为目标图像中的正常牙齿。本申请实施例可以将牙齿修复到整齐美观的效果,可以用于牙齿美颜以及人像生成算法中的后处理修复。
参见图5,图5是本申请实施例提供的图像处理方法的训练框架示意图。下面结合图5介绍本申请实施例的训练方案:
1、将有高清完整牙齿的人脸图片记为标签图像。
2、提取标签图像的嘴部区域,具体而言,将标签图像送入分割网络,提取嘴巴区域,获得嘴部掩模mouth_mask,嘴部掩模mouth_mask中数值为1的位置属于嘴巴区域,数值为0的位置不属于嘴巴区域。
3、获取抠掉牙齿的抠图图像img_no_mouth,img_no_mouth=标签图像的像素与(1–mouth_mask)的乘积。
4、获取模糊的标签图像,对标签图像进行平均池化处理得到模糊图像img_blur,平均池化处理的核尺寸kernel size是33。
5、获取拼接图像x,具体而言拼接图像x=cat(img_no_mouth,img_blur),将抠图图像与模糊图像拼接在一起作为牙齿修复网络的输入。
6、牙齿修复网络总体可以分为编码网络和解码网络两部分,编码网络(encoder)由编码模块(encoder block)组成,每个编码模块用于执行卷积计算,将输入减半,通道逐渐增加。本申请实施例提供的牙齿修复网络输入的拼接图像x的维度为(将两张图像拼接起来作为输入,每张图像的通道数为3),逐步编码为/>的编码结果,维度为/>的编码结果,维度为/>的编码结果,维度为/>的编码结果,最终得到隐空间内的编码结果inner_features。
7、将隐空间内的编码结果inner_features经过一层卷积得到矢量量化模块的输
入f,f是维度为3的向量[h,w,nz],其中h=32,w=32,nz=32,即。
8、预先生成离线数值的字典F,,即字典F里有K个数量的量化
特征,每个量化特征的维度为nz=32。
9、对矢量量化模块的输入f进行矢量量化,对于f的每个编码位置,在字典F中寻找
与f距离最近的量化特征,生成具有相同维度的变量,相当于是输入f以及字
典F,输出的单个编码特征的维度都为nz,参见公式(11):
(11);
其中,是矢量量化模块的输出(量化特征),fij是第i行第j列编码位置的编码特
征,zk是字典F中的候选量化特征,q(f)是量化公式。
10、将矢量量化模块的输出送入解码网络,解码网络(decoder)由解码模块
(decoder block)组成,每个解码模块至少包括上采样层,可以将输入的分辨率增倍,最终
解码网络逐步将解码为维度为的解码结果,维度为的解码结
果,维度为的解码结果,维度为的解码结果,维度为
的解码结果,最终得到牙齿修复的目标图像。
11、计算梯度终止损失loss_stop,参见公式(12):
(12);
其中,其中,为针对执行梯度终止操作(stop-gradient
operation),其目的在于保证神经网络梯度可以正常回传,而不受离散编码的影响,是矢
量量化模块的输出(量化特征),是超参数,是矢量量化模块的输入(编码特征)。是针对执行梯度终止操作(stop-gradient operation)。
12、计算牙齿修复的整体重建损失L1_loss,L1_loss是像素级损失,整体的生成图和标签图像越接近越好,参见公式(13):
L1_loss=abs(result–gt) (13);
其中,L1_loss是整体重建损失,abs()是绝对值计算,result是目标图像的像素,gt是标签图像的像素。
13、计算牙齿修复的图像特征级损失LPIPS_loss,通过alexnet网络对目标图像进行多层级特征提取得到result_fea1,result_fea2,result_fea3,result_fea4,通过alexnet网络对标签图像进行多层级特征提取得到gt_fea1,gt_fea2,gt_fea3,gt_fea4,参见公式(14):
LPIPS_loss=|result_fea1-gt_fea1|+|result_fea2-gt_fea2|+|result_fea3–gt_fea3|+|result_fea4-gt_fea4| (14);
其中,result_fea1是目标图像第一层级的特征,gt_fea1是标签图像第一层级的特征,result_fea2是目标图像第二层级的特征,gt_fea2是标签图像第二层级的特征,result_fea3是目标图像第三层级的特征,gt_fea3是标签图像第三层级的特征,result_fea4是目标图像第四层级的特征,gt_fea4是标签图像第四层级的特征。
14、计算牙齿区域的局部重建损失teeth_l1_loss,首先计算目标图像的像素以及标签图像的像素,参见公式(15)以及公式(16):
(15);
(16);
其中,result_mouth是目标图像中嘴部区域的像素,result是目标图像的像素,mouth_mask是嘴部区域掩模,gt_mouth是标签图像中嘴部区域的像素,gt是标签图像的像素。
牙齿区域的局部重建损失teeth_l1_loss可以参见公式(17):
teeth_l1_loss=abs(result_mouth–gt_mouth) (17);
其中,teeth_l1_loss是牙齿区域的重建损失,abs()是绝对值计算,result_mouth是目标图像中嘴部区域的像素,gt_mouth是标签图像中嘴部区域的像素。
15、利用已有的对象身份识别网络提取标签图像的身份特征gt_id_features,利用已有的对象身份识别网络提取目标图像的身份特征result_id_features,计算身份损失ID_loss,身份损失的目的是约束目标图像和标签图像越像越好,参见公式(18):
ID_loss=1–cosine_similarity(gt_id_features,result_id_features) (18);
其中,ID_loss是身份损失,cosine_similarity是余弦相似度,gt_id_features是标签图像的身份特征,result_id_features是目标图像的身份特征。
16、计算目标图像的对抗损失D_loss,本申请实施例提供判别器网络D,用于判断目标图像是不是真实图像,计算对抗损失D_loss,并基于对抗损失D_loss对判断器网络D的参数进行优化,参见公式(19):
D_loss=-logD(gt)-log(1–D(result)) (19);
其中,D_loss是对抗损失,D(gt)是判别器网络D对于标签图像的输出,D(result)是判别器网络D对于目标图像的输出。
17、计算目标图像的生成损失G_loss,参见公式(20):
G_loss=log(1–D(result)) (20);
其中,G_loss是生成损失,D(result)是判别器网络D对于目标图像的输出。
18、最终将所有损失相加得到牙齿修复网络的整体损失,再利用整体损失对牙齿修复网络和矢量量化字典进行优化,参见公式(21):
(21);
其中,L1_loss是整体重建损失,LPIPS_loss是图像特征级损失,ID_loss是身份损失,G_loss是生成损失,teeth_l1_loss是牙齿区域的重建损失,loss_stop是梯度终止损失。
在上述训练流程开始之前需要先获取训练数据,参见图6,筛选出牙齿较为清晰完整的图像作为训练数据,后续用于学习矢量量化字典以及牙齿修复网络。对于输入的图像首先需要进行预处理以获得剪裁好的人脸图。具体而言,由于输入图像中人脸只占据较小位置,所以需要先进行人脸检测,获得人脸区域;在人脸区域内进行人脸配准,获得人脸的关键点,重点是人的眼睛和嘴角的关键点;根据人脸关键点,获得裁剪后的人脸图。
同时,本申请实施例需要3个额外的已经训练的模型来辅助牙齿修复网络的学习。对象身份识别网络用于提取人脸的身份特征,身份特征的维度通常是1024维,由于本申请实施例需要生成的人脸和原始图像的人脸的身份越接近越好,所以提取人脸的身份特征来约束。预训练好的alexnet网络用于提取图像在不同层的特征,以计算图像特征级损失LPIPS_loss。参见图7,低层的特征能表示线条,颜色等低级特征,高层的特征能表示部件等高级特征。所以可以通过比较2个图像用alexnet提取的特征来衡量整体的接近程度。分割网络用于提取人脸的各个部件的位置,在本申请实施例中用于提取人脸的嘴部区域。
在应用阶段可以采取以下步骤进行修复,首先采集视频,从视频中提取视频帧作为输入的图像,对输入的图像进行人脸检测,并执行人脸区域的裁剪,对裁剪后得到的图像进行牙齿修复,展示牙齿修复结果。本申请实施例提供的图像处理方法在实际使用过程中,需要和其他模块进行合作交互。首先需要从视频采集模块中接收图像输入,然后进行人脸检测,并且裁剪出人脸区域,之后执行本申请实施例提供的图像处理方法以进行牙齿修复。最后进行结果的展示。
可以理解的是,在本申请实施例中,涉及到用户图像等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的基于人工智能的图像处理装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的基于人工智能的图像处理装置255中的软件模块可以包括:图像模块2551,用于对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,并对所述原始对象图像进行模糊处理,得到模糊图像;拼接模块2552,用于对所述抠图图像以及所述模糊图像进行拼接处理,得到拼接图像;编码模块2553,用于对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征;量化模块2554,用于针对每个所述编码位置,确定所述编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为所述拼接图像在所述编码位置的编码特征的量化特征;解码模块2555,用于对所述量化特征进行解码处理,得到对所述原始对象图像中所述对象的目标部件进行重建后的目标图像。
在一些实施例中,所述对原始对象图像中对象的目标部件进行抠图处理之前,图像模块2551,还用于获取包括所述对象的原始图像;对所述原始图像进行对象脸部检测处理,得到脸部区域;对所述脸部区域进行脸部配准处理,得到脸部关键点;基于所述脸部关键点对所述原始图像进行裁剪处理,得到所述原始对象图像。
在一些实施例中,所述图像模块2551,还用于:对所述原始对象图像进行图像分割处理,得到对应所述目标部件的区域;基于对应所述目标部件的区域对所述原始对象图像进行抠图处理,得到抠除所述目标部件的抠图图像。
在一些实施例中,所述编码模块2553,还用于:调用编码网络对所述拼接图像进行第一编码处理,得到所述拼接图像的第一编码特征;对所述第一编码特征进行卷积处理,得到所述拼接图像在每个编码位置的编码特征。
在一些实施例中,所述装置还包括训练模块2556,用于:对样本原始对象图像中样本对象的目标部件进行抠图处理,得到抠除所述目标部件的样本抠图图像,并对所述样本原始对象图像进行模糊处理,得到样本模糊图像;对所述样本抠图图像以及所述样本模糊图像进行拼接处理,得到样本拼接图像;调用初始化的编码网络对所述样本拼接图像进行编码处理,得到所述样本拼接图像在每个编码位置的编码特征;基于初始化的候选量化特征,确定所述样本拼接图像在每个所述编码位置的编码特征的量化特征;调用初始化的解码网络对所述样本拼接图像在每个所述编码位置的编码特征的量化特征进行解码处理,得到样本目标图像;基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失;基于所述第一综合损失对所述初始化的编码网络、所述初始化的候选量化特征以及所述初始化的解码网络进行更新,得到更新后的编码网络、所述候选量化特征以及更新后的解码网络。
在一些实施例中,所述基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失之后,所述训练模块2556,还用于:基于所述编码特征、所述量化特征以及所述样本目标图像中至少之一,确定修正损失;利用所述修正损失对所述第一综合损失进行更新处理,并利用更新后的第一综合损失替换更新前的第一综合损失。
在一些实施例中,所述训练模块2556,还用于:执行以下损失确定处理中至少之一:基于所述编码特征以及所述量化特征,确定梯度中止损失;基于所述样本目标图像,确定生成损失;基于所述梯度中止损失以及所述生成损失中至少之一,确定所述修正损失。
在一些实施例中,所述训练模块2556,还用于:对所述编码特征进行梯度中止处理,得到第一梯度中止结果;对所述量化特征进行梯度中止处理,得到第二梯度中止结果;确定所述第一梯度中止结果与所述量化特征之间的第一均方误差,并获取所述第一均方误差的平方值;确定所述第二梯度中止结果与所述编码特征之间的第二均方误差,并获取所述第二均方误差的平方值;对所述第一均方误差的平方值以及所述第二均方误差的平方值进行融合处理,得到所述梯度中止损失。
在一些实施例中,所述训练模块2556,还用于:调用判别网络对所述样本目标图像进行真假预测处理,得到所述样本目标图像属于真实图像的第一预测概率;获取与所述第一预测概率负相关的生成损失。
在一些实施例中,所述训练模块2556,还用于:调用判别网络对所述样本目标图像进行真假预测处理之前,调用更新前的判别网络对所述样本目标图像进行真假预测处理,得到所述样本目标图像属于真实图像的第二预测概率;调用更新前的判别网络对所述标签图像进行真假预测处理,得到所述标签图像属于真实图像的第三预测概率;获取与所述第三预测概率负相关,且与所述第二预测概率正相关的对抗损失;基于所述对抗损失对所述更新前的判别网络进行更新处理,得到所述判别网络。
在一些实施例中,所述训练模块2556,还用于:执行以下损失确定处理中至少之一:基于所述标签图像以及所述样本目标图像,确定整体重建损失;基于所述标签图像以及所述样本目标图像,确定图像特征级损失;基于所述标签图像、所述样本目标图像以及所述目标部件的区域,确定局部重建损失;基于所述标签图像以及所述样本目标图像,确定对象身份损失;基于所述整体重建损失、所述图像特征级损失、所述局部重建损失、所述对象身份损失中至少之一,确定所述第一综合损失。
在一些实施例中,所述训练模块2556,还用于:获取所述标签图像中每个像素位置的第一像素值以及所述样本目标图像中每个所述像素位置的第二像素值;针对每个所述像素位置执行以下处理,确定所述像素位置的第一像素值与所述像素位置的第二像素值之间的第一绝对值;对多个所述像素位置的第一绝对值进行融合处理,得到所述整体重建损失。
在一些实施例中,所述训练模块2556,还用于:对所述标签图像进行多个层级的特征提取处理,得到对应每个所述层级的第一特征;对所述样本目标图像进行多个层级的特征提取处理,得到对应每个所述层级的第二特征;针对每个所述层级执行以下处理:确定所述层级的第一特征以及所述层级的第二特征之间的特征距离;对多个所述层级的特征距离进行融合处理,得到所述图像特征级损失。
在一些实施例中,所述训练模块2556,还用于:基于所述目标部件的区域获取所述标签图像中对应所述目标部件的第一局部图像;基于所述目标部件的区域获取所述样本目标图像中对应所述目标部件的第二局部图像;获取所述第一局部图像中每个像素位置的第三像素值以及所述第二局部图像中每个所述像素位置的第四像素值;针对每个所述像素位置执行以下处理,确定所述像素位置的第三像素值与所述像素位置的第四像素值之间的第二绝对值;对多个所述像素位置的第二绝对值进行融合处理,得到所述局部重建损失。
在一些实施例中,所述训练模块2556,还用于:调用对象身份识别网络对所述标签图像进行身份特征提取处理,得到所述标签图像的第一身份特征;调用对象身份识别网络对所述样本目标图像进行身份特征提取处理,得到所述样本目标图像的第二身份特征;确定所述第一身份特征与所述第二身份特征之间的身份特征相似度,并获取与所述身份特征相似度负相关的对象身份损失。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的基于人工智能的图像处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的图像处理方法,例如,如图3A-图3C示出的基于人工智能的图像处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块或脚本的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,对原始对象图像中对象的目标部件进行抠图处理,得到抠除目标部件的抠图图像,并对原始对象图像进行模糊处理,得到模糊图像;对抠图图像以及模糊图像进行拼接处理,得到拼接图像,这里的拼接图像包括扣掉目标部件的抠图图像以及用于提示目标部件所在位置的模糊图像,对拼接图像进行编码处理,得到拼接图像在每个编码位置的编码特征;针对每个位置,确定编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为拼接图像在编码位置的编码特征的量化特征,这里相当于是矢量量化的过程,可以保留拼接图像中的细节信息以及目标部件的重建信息,对量化特征进行解码处理,得到对原始对象图像中对象的目标部件进行重建后的目标图像,由于量化特征保留拼接图像中的细节信息以及目标部件的重建信息,从而可以在目标图像中重建出高质量的目标部件。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (18)
1.一种基于人工智能的图像处理方法,其特征在于,所述方法包括:
对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,并对所述原始对象图像进行模糊处理,得到模糊图像;
对所述抠图图像以及所述模糊图像进行拼接处理,得到拼接图像;
对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征;
针对每个所述编码位置,确定所述编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为所述拼接图像在所述编码位置的编码特征的量化特征;
对所述量化特征进行解码处理,得到对所述原始对象图像中所述对象的目标部件进行重建后的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述对原始对象图像中对象的目标部件进行抠图处理之前,所述方法还包括:
获取包括所述对象的原始图像;
对所述原始图像进行对象脸部检测处理,得到脸部区域;
对所述脸部区域进行脸部配准处理,得到脸部关键点;
基于所述脸部关键点对所述原始图像进行裁剪处理,得到所述原始对象图像。
3.根据权利要求1所述的方法,其特征在于,所述对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,包括:
对所述原始对象图像进行图像分割处理,得到对应所述目标部件的区域;
基于对应所述目标部件的区域对所述原始对象图像进行抠图处理,得到抠除所述目标部件的抠图图像。
4.根据权利要求1所述的方法,其特征在于,所述对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征,包括:
调用编码网络对所述拼接图像进行第一编码处理,得到所述拼接图像的第一编码特征;
对所述第一编码特征进行卷积处理,得到所述拼接图像在每个编码位置的编码特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对样本原始对象图像中样本对象的目标部件进行抠图处理,得到抠除所述目标部件的样本抠图图像,并对所述样本原始对象图像进行模糊处理,得到样本模糊图像;
对所述样本抠图图像以及所述样本模糊图像进行拼接处理,得到样本拼接图像;
调用初始化的编码网络对所述样本拼接图像进行编码处理,得到所述样本拼接图像在每个编码位置的编码特征;
基于初始化的候选量化特征,确定所述样本拼接图像在每个所述编码位置的编码特征的量化特征;
调用初始化的解码网络对所述样本拼接图像在每个所述编码位置的编码特征的量化特征进行解码处理,得到样本目标图像;
基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失;
基于所述第一综合损失对所述初始化的编码网络、所述初始化的候选量化特征以及所述初始化的解码网络进行更新,得到更新后的编码网络、所述候选量化特征以及更新后的解码网络。
6.根据权利要求5所述的方法,其特征在于,所述基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失之后,所述方法还包括:
基于所述编码特征、所述量化特征以及所述样本目标图像中至少之一,确定修正损失;
利用所述修正损失对所述第一综合损失进行更新处理,并利用更新后的第一综合损失替换更新前的第一综合损失。
7.根据权利要求6所述的方法,其特征在于,所述基于所述编码特征、所述量化特征以及所述样本目标图像中至少之一,确定修正损失,包括:
执行以下损失确定处理中至少之一:
基于所述编码特征以及所述量化特征,确定梯度中止损失;
基于所述样本目标图像,确定生成损失;
基于所述梯度中止损失以及所述生成损失中至少之一,确定所述修正损失。
8.根据权利要求7所述的方法,其特征在于,所述基于所述编码特征以及所述量化特征,确定梯度中止损失,包括:
对所述编码特征进行梯度中止处理,得到第一梯度中止结果;
对所述量化特征进行梯度中止处理,得到第二梯度中止结果;
确定所述第一梯度中止结果与所述量化特征之间的第一均方误差,并获取所述第一均方误差的平方值;
确定所述第二梯度中止结果与所述编码特征之间的第二均方误差,并获取所述第二均方误差的平方值;
对所述第一均方误差的平方值以及所述第二均方误差的平方值进行融合处理,得到所述梯度中止损失。
9.根据权利要求7所述的方法,其特征在于,所述基于所述样本目标图像,确定生成损失,包括:
调用判别网络对所述样本目标图像进行真假预测处理,得到所述样本目标图像属于真实图像的第一预测概率;
获取与所述第一预测概率负相关的生成损失。
10.根据权利要求9所述的方法,其特征在于,调用判别网络对所述样本目标图像进行真假预测处理之前,所述方法还包括:
调用更新前的判别网络对所述样本目标图像进行真假预测处理,得到所述样本目标图像属于真实图像的第二预测概率;
调用更新前的判别网络对所述标签图像进行真假预测处理,得到所述标签图像属于真实图像的第三预测概率;
获取与所述第三预测概率负相关,且与所述第二预测概率正相关的对抗损失;
基于所述对抗损失对所述更新前的判别网络进行更新处理,得到所述判别网络。
11.根据权利要求5所述的方法,其特征在于,所述基于对应所述样本原始对象图像的标签图像以及所述样本目标图像,确定第一综合损失,包括:
执行以下损失确定处理中至少之一:
基于所述标签图像以及所述样本目标图像,确定整体重建损失;
基于所述标签图像以及所述样本目标图像,确定图像特征级损失;
基于所述标签图像、所述样本目标图像以及所述目标部件的区域,确定局部重建损失;
基于所述标签图像以及所述样本目标图像,确定对象身份损失;
基于所述整体重建损失、所述图像特征级损失、所述局部重建损失、所述对象身份损失中至少之一,确定所述第一综合损失。
12.根据权利要求11所述的方法,其特征在于,所述基于所述标签图像以及所述样本目标图像,确定整体重建损失,包括:
获取所述标签图像中每个像素位置的第一像素值以及所述样本目标图像中每个所述像素位置的第二像素值;
针对每个所述像素位置执行以下处理,确定所述像素位置的第一像素值与所述像素位置的第二像素值之间的第一绝对值;
对多个所述像素位置的第一绝对值进行融合处理,得到所述整体重建损失。
13.根据权利要求11所述的方法,其特征在于,所述基于所述标签图像以及所述样本目标图像,确定图像特征级损失,包括:
对所述标签图像进行多个层级的特征提取处理,得到对应每个所述层级的第一特征;
对所述样本目标图像进行多个层级的特征提取处理,得到对应每个所述层级的第二特征;
针对每个所述层级执行以下处理:确定所述层级的第一特征以及所述层级的第二特征之间的特征距离;
对多个所述层级的特征距离进行融合处理,得到所述图像特征级损失。
14.根据权利要求11所述的方法,其特征在于,所述基于所述标签图像、所述样本目标图像以及所述目标部件的区域,确定局部重建损失,包括:
基于所述目标部件的区域获取所述标签图像中对应所述目标部件的第一局部图像;
基于所述目标部件的区域获取所述样本目标图像中对应所述目标部件的第二局部图像;
获取所述第一局部图像中每个像素位置的第三像素值以及所述第二局部图像中每个所述像素位置的第四像素值;
针对每个所述像素位置执行以下处理,确定所述像素位置的第三像素值与所述像素位置的第四像素值之间的第二绝对值;
对多个所述像素位置的第二绝对值进行融合处理,得到所述局部重建损失。
15.根据权利要求11所述的方法,其特征在于,所述基于所述标签图像以及所述样本目标图像,确定对象身份损失,包括:
调用对象身份识别网络对所述标签图像进行身份特征提取处理,得到所述标签图像的第一身份特征;
调用对象身份识别网络对所述样本目标图像进行身份特征提取处理,得到所述样本目标图像的第二身份特征;
确定所述第一身份特征与所述第二身份特征之间的身份特征相似度,并获取与所述身份特征相似度负相关的对象身份损失。
16.一种基于人工智能的图像处理装置,其特征在于,所述装置包括:
图像模块,用于对原始对象图像中对象的目标部件进行抠图处理,得到抠除所述目标部件的抠图图像,并对所述原始对象图像进行模糊处理,得到模糊图像;
拼接模块,用于对所述抠图图像以及所述模糊图像进行拼接处理,得到拼接图像;
编码模块,用于对所述拼接图像进行编码处理,得到所述拼接图像在每个编码位置的编码特征;
量化模块,用于针对每个所述编码位置,确定所述编码位置的编码特征与所述目标部件的每个候选量化特征之间的距离,并将最小距离对应的候选量化特征作为所述拼接图像在所述编码位置的编码特征的量化特征;
解码模块,用于对所述量化特征进行解码处理,得到对所述原始对象图像中所述对象的目标部件进行重建后的目标图像。
17.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至15任一项所述的基于人工智能的图像处理方法。
18.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至15任一项所述的基于人工智能的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410041223.6A CN117557689B (zh) | 2024-01-11 | 2024-01-11 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410041223.6A CN117557689B (zh) | 2024-01-11 | 2024-01-11 | 图像处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557689A true CN117557689A (zh) | 2024-02-13 |
CN117557689B CN117557689B (zh) | 2024-03-29 |
Family
ID=89815146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410041223.6A Active CN117557689B (zh) | 2024-01-11 | 2024-01-11 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557689B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994173A (zh) * | 2024-04-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 修复网络训练方法、图像处理方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8194914B1 (en) * | 2006-10-19 | 2012-06-05 | Spyder Lynk, Llc | Encoding and decoding data into an image using identifiable marks and encoded elements |
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
CN113821670A (zh) * | 2021-07-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
WO2021259322A1 (zh) * | 2020-06-23 | 2021-12-30 | 广州筷子信息科技有限公司 | 一种生成视频的系统和方法 |
CN114820292A (zh) * | 2022-05-20 | 2022-07-29 | 每平每屋(上海)科技有限公司 | 图像合成方法、装置、设备及存储介质 |
CN116934907A (zh) * | 2023-07-28 | 2023-10-24 | 淘宝(中国)软件有限公司 | 图像生成方法、设备和存储介质 |
-
2024
- 2024-01-11 CN CN202410041223.6A patent/CN117557689B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8194914B1 (en) * | 2006-10-19 | 2012-06-05 | Spyder Lynk, Llc | Encoding and decoding data into an image using identifiable marks and encoded elements |
WO2021259322A1 (zh) * | 2020-06-23 | 2021-12-30 | 广州筷子信息科技有限公司 | 一种生成视频的系统和方法 |
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
CN113821670A (zh) * | 2021-07-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN114820292A (zh) * | 2022-05-20 | 2022-07-29 | 每平每屋(上海)科技有限公司 | 图像合成方法、装置、设备及存储介质 |
CN116934907A (zh) * | 2023-07-28 | 2023-10-24 | 淘宝(中国)软件有限公司 | 图像生成方法、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994173A (zh) * | 2024-04-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 修复网络训练方法、图像处理方法、装置及电子设备 |
CN117994173B (zh) * | 2024-04-07 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 修复网络训练方法、图像处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117557689B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN118053090A (zh) | 使用潜在扩散模型生成视频 | |
CN116958323A (zh) | 图像生成方法、装置、电子设备、存储介质及程序产品 | |
CN109829959A (zh) | 基于人脸解析的表情编辑方法及装置 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
CN117557689B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114241558A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN114972010A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene | |
JP7479507B2 (ja) | 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム | |
CN118115622B (zh) | 图像生成模型的处理方法、装置、设备、存储介质及产品 | |
CN115631285B (zh) | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 | |
CN117392293A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111461091A (zh) | 万能指纹生成方法和装置、存储介质及电子装置 | |
CN116363726A (zh) | 人脸融合方法、装置、计算机设备及存储介质 | |
CN116994307A (zh) | 视频的生成方法、装置、设备、存储介质及产品 | |
CN116977247A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN117994173B (zh) | 修复网络训练方法、图像处理方法、装置及电子设备 | |
CN115708135A (zh) | 人脸识别模型的处理方法、人脸识别方法及装置 | |
CN115965839A (zh) | 图像识别方法、存储介质及设备 | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 | |
CN118658191B (zh) | 视频处理方法、模型训练方法及装置、设备、存储介质、产品 | |
CN116912345B (zh) | 一种人像动漫化处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |