CN112529768B - 一种基于生成对抗网络的服装编辑和生成方法 - Google Patents
一种基于生成对抗网络的服装编辑和生成方法 Download PDFInfo
- Publication number
- CN112529768B CN112529768B CN202011398628.3A CN202011398628A CN112529768B CN 112529768 B CN112529768 B CN 112529768B CN 202011398628 A CN202011398628 A CN 202011398628A CN 112529768 B CN112529768 B CN 112529768B
- Authority
- CN
- China
- Prior art keywords
- clothing
- image
- attribute
- garment
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 230000004048 modification Effects 0.000 claims abstract description 8
- 238000012986 modification Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 39
- 238000010586 diagram Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 239000000463 material Substances 0.000 description 9
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成对抗网络的服装编辑和生成方法。首先在用户原始图像被输入后,使用R‑CNN区域检测卷积神经网络对图像中的服装进行检测识别;使用CPN级联金字塔网络来对服装物体进行轮廓点检测,单独提取无背景的服装图像显示给用户;并根据上述数据,返回给用户进行属性修改选择;将用户请求信息进行结构化处理后获得需要修改属性的语义信息,输入至训练好的带有指定属性的逼真图像能力的生成器生成最终服装图像。本发明为用户提供一种依靠计算机视觉技术端到端的服装编辑生成方案,一方面,解决了用户商品检索前对于服装样式进行更改的需求,另一方面,提高了服装编辑的可操作性和生成效果。
Description
技术领域
本发明涉及计算机视觉领域和服装设计领域,具体涉及一种基于生成对抗网络的服装编辑和生成方法。
背景技术
随着图像识别技术的迅速发展,电商平台对于图像内商品的识别和检索技术已经趋于成熟和稳定。但是在服装领域,用户往往不满足于服饰的原始状态,通常想要对其款式或细节进行部分修改,再进行商品检索。但即便是目前最易用的图像修改软件,要想生成逼真且符合用户内心期望的服装图像,需要用户拥有相当水平的美术水平和修改技巧,无法既满足用户对于服装属性修改的要求,又满足达到高精确度检索所要求的图像完整性和清晰度。同时,在未来私人订制等更加广阔的领域,设计师需要和用户很好的互动才能快速而准确的理解用户的需求,但用户的艺术表达能力依然是设计师和用户中间的一道鸿沟,需要一种快捷而简单的互动方案,为用户快速而准确地表达其设计需求。但目前,设计师和用户之间的交流往往还是通过设计师不断地修改,用户不断的提出要求,这两者之间循环往复,没有让用户也参与到设计的过程中,所以设计效率低下并且效果往往差强人意。
目前图像生成领域最常用也是效果最好的方法就是使用GAN生成对抗网络,可以通过简单的语义信息、属性标签或草图等信息就能生成较为逼真的图像。
目前的现有技术之一是姚俊峰和冯威宇的《一种基于对抗生成网络的辅助服装生成方法和装置》,该技术方案主要解决了服装设计问题,提出了人机混合智能的设计思路,将素材收集、数据分析的工作交由智能辅助机器人完成,人类设计师负责创造型设计工作,简化服装设计流程。方案具体为:通过手工或者网络抓取收集服装设计素材图片,对素材照片进行结构化处理,存储在素材库中;接收用户的请求信息,将请求信息进行结构化处理;使用长短期记忆网络LSTM将结构化处理后的用户请求信息转化成服装草图;用户选择草图中需要进一步设计的部分区域;构建对抗生成网络,其中生成器和判别器均使用卷积神经网络构建;在素材库中查找与用户请求的结构化信息匹配的素材照片,构成可选素材集合;使用对抗生成网络生成衣服设计方案,具体的,将可选素材输入到生成器中,然后将用户选择的草图部分区域和训练后的生成器的输出分别输入到判别器中,具体训练过程是:对生成器网络进行训练,训练一定周期后固定生成器,并将其输出和用户选择的草图部分区域图片作为判别器网络的输入然后训练一定周期,如此循环训练生成器和判别器,最后输出训练后的服装设计方案;用户可以选择不同的衣服部位迭代使用对抗生成网络生成衣服设计方案,最终将服装草图逐步细化,形成符合用户请求的服装设计图片。该技术的缺点:(1)主要面向对象为服装设计领域,对于服装的设计表达能力要求还是相对很高,虽然使用了人工智能自动生成服装,但是使用者必须能够清楚地将自己的服装概念通过请求信息表达出来才能生成服装。但对于一般普通用户,只是希望通过图像检索来识别商品,并且能够简易地改变或者增减已有图像中的服装部分属性再进行检索,过于复杂的编辑方式或者方法就不适用于普通用户;(2)这种方案面向的是具有一定设计基础或者有一定艺术创作能力的人群,而用户对服装的期望往往是建立在已有的服装基础上,并在款式、版型或细节部分区域进行修改以满足他们的要求。如果让普通人通过语义等请求信息来整体设计出他们心仪或者理想中的服装是不切实际的;(3)对于服装生成,主要是基于所接收的用户请求信息,在很大一部分上,如果用户无法对期待的服装有很好的描述或者表达,那么生成的服装将有很大的偏差。而如果基于某个显示图或者参照图进行服装生成,仅凭所依据的内容标签和视觉标签,其结果是难以具体控制。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于生成对抗网络的服装编辑和生成方法。本发明解决的主要问题是,(1)如何为用户提供可在图像上对服装进行属性修改的简易可操作性;(2)如何在图像生成过程中,对改动的属性生成进行控制,使生成结果更精确,让生成器更多的保留原有服装其他细节。
为了解决上述问题,本发明提出了一种基于生成对抗网络的服装编辑和生成方法,所述方法包括:
对服装图像进行结构化预处理,得到预处理后的服装图像;
对所述预处理后的服装图像提取信息,包括标注服装属性、标注服装分割点和服装轮廓点,将所提取的信息进行结构化处理,获得向量格式记录的服装属性信息;
将所述预处理后的服装图像、所述服装属性和所述服装分割点,作为Mask R-CNN卷积神经网络的输入,获得特征图,对特征图进行分类和回归训练获得网络模型,用于对所述服装图像进行服装属性分类识别和分割点检测,将所有分割点顺序连接得到轮廓图;
使用CPN级联金字塔网络,对所述服装轮廓点进行检测,按不同的服装关键点提取整体服装轮廓,配合所述轮廓图,获得所述服装图像的精度较高的轮廓关键点坐标信息;
综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量,对所述服装图像取掩码提取服装部分,并将轮廓点高亮显示给用户,提供属性修改功能;
利用所述服装图像取掩码提取的服装部分预训练判别器D,判别器的网络沿用Att-GAN属性生成对抗网络的判别器,网络采取五层卷积层,卷积结果连接两个不同的全连接层至两个分支判别器Dimg和Datt用于判别生成图像各种属性的准确性;
利用所述服装图像和所述向量格式记录的服装属性信息,构建生成器G,生成器采用U型编码-解码网络模型,编码器对所述服装图像取掩码提取的服装部分,提取特征向量,使用ACUs(Attribute Control Units)属性控制单元,各层ACU连接在编码器和解码器对应层之间,ACUs属性控制单元内,特征向量的每一层特征图与所述向量格式记录的服装属性信息生成属性编辑后的特征图,ACUs通过卷积得到综合后的特征图,传入解码器中,解码器反卷积后生成图像;
将所述生成图像输入至所述预训练好的判别器D,按属性得到分类结果,来衡量属性编辑程度,并通过损失函数计算损失值,梯度反向传播更新所述生成器和所述辨别器的卷积参数,迭代其相互对抗提升能力过程,得到具有生成带有指定属性的逼真图像能力的生成器G;
输入待处理的服装图像,对该图像取掩码提取服装部分并高亮显示轮廓点,得到可供用户选择和修改的服装属性,之后把修改后的服装属性输入所述具有生成带有指定属性的逼真图像能力的生成器G,迭代地生成用户期望的服装图像。
优选地,所述服装图像进行结构化预处理,具体为:
服装图像数据来自于Deep Fashion2数据集以及服装购物网站;
服装图像结构化处理包括筛选无遮挡服装图像,进行背景去噪、尺寸统一,同时尽可能保留服装的形状等细节。
优选地,所述对所述预处理后的服装图像提取信息,具体为:
对服装属性进行分类,分为上装和下装两类,上装属性包括:类别、袖长、领口、中缝、身长、腰宽等,下装属性包括:类别、裤长,标注服装所属类别以及属性,存在属性则标注为1,不存在则标注为0;
标注服装分割点,用于服装物体的识别和分类,分割点的数目没有限定;
标注服装轮廓点,用于轮廓生成的训练输入,轮廓点的数目根据服装类别决定;
对提取的不同服装信息进行结构化处理,以向量格式记录服装的属性信息,并记录分割点和轮廓点坐标信息。
优选地,所述将所述预处理后的服装图像、所述服装属性和所述服装分割点,作为Mask R-CNN卷积神经网络的输入,获得特征图,对特征图进行分类和回归训练获得网络模型,用于对所述服装图像进行服装属性分类识别和分割点检测,将所有分割点顺序连接得到轮廓图,具体为:
Mask R-CNN使用卷积神经网络,以所述预处理后的服装图像、所述服装属性和所述服装分割点作为网络输入;
通过卷积获得特征图,并对特征图进行分类和回归训练最终获取网络模型,服装识别分类可以得到服装的属性类别,分割点检测可以获得服装的大致完整轮廓;
训练使用resnet101残差网络,作为MaskR-CNN的网络主体结构进行多层的特征提取获得服装的掩码分割信息和分类结果;
训练好的网络模型可以直接用于对所述服装图像进行服装属性识别分类和服装分割点检测,并将所有分割点顺序连接得到轮廓图,用bitmap保存轮廓图信息,轮廓图内像素标记为1,图外像素标记为0。
优选地,所述综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量,具体为:
用(Xseg,Yseg)表示所述服装分割点包围区域,用(Xcon,Ycon)表示所述服装轮廓点包围区域,并进行叠加获得最终服装掩码信息,
{(Xclo,Yclo)||Xclo=Xseg∪Xcon,Yclo=Yseg∪Ycon},
优选地,所述预训练判别器D,具体为:
判别器D分为图像判别器Dimg和属性判别器Datt;
图像判别器Dimg用于判别生成图像的真实性,属性判别器Datt用于判别生成图像各种属性的准确性;
判别器D输入为所述服装图像取掩码提取的服装部分,判别器的网络沿用了Att-GAN属性生成对抗网络的判别器,网络整体采用五层卷积层,卷积结果连接两个不同的全连接层至两个分支判别器,最终分别获得图像和属性的判别结果。
优选地,所述构建生成器G,具体为:
生成器G采用U型结构的encoder-decoder编码-解码网络模型,输入为所述服装图像和所述向量格式记录的服装属性信息;
编码器使用残差网络对所述服装图像取掩码提取的服装部分提取特征向量,编码器包含5层卷积层,卷积核尺寸为4*4;
使用ACUs(Attribute Control Units)属性控制单元实现对于属性的准确控制,各层ACU连接在编码器和解码器对应层之间,在ACUs属性控制单元内,特征向量中的每一层特征图与所述以向量格式记录的服装属性信息生成属性编辑后的特征图;
将综合后的特征图传入解码器中,解码器包含5个对应的反卷积层,卷积核尺寸4*4,经5层反卷积后生成图像。
本发明提出的一种基于生成对抗网络的服装编辑和生成方法,通过人工智能结合用户简单的属性变化信息,对输入服装进行自动编辑修改后,生成用户满意的服装图像,为用户提供一种依靠计算机视觉技术端到端的服装编辑生成方案,一方面,解决了用户商品检索前对于服装样式进行更改的需求,另一方面,提高了服装编辑的可操作性和生成效果。
附图说明
图1是本发明实施例的一种基于生成对抗网络的服装编辑和生成方法的总体流程图;
图2是本发明实施例的生成器编码-解码结构图;
图3是本发明实施例的整体结构、数据流向和梯度更新方向示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种基于生成对抗网络的服装编辑和生成方法的总体流程图。
如图1所示,该方法包括:
S1,对服装图像进行结构化预处理,得到预处理后的服装图像;
S2,对所述预处理后的服装图像提取信息,包括标注服装属性、标注服装分割点和服装轮廓点,将所提取的信息进行结构化处理,获得向量格式记录的服装属性信息;
S3,将所述预处理后的服装图像、所述服装属性和所述服装分割点,作为Mask R-CNN卷积神经网络的输入,获得特征图,对特征图进行分类和回归训练获得网络模型,用于对所述服装图像进行服装属性分类识别和分割点检测,将所有分割点顺序连接得到轮廓图;
S4,使用CPN级联金字塔网络,对所述服装轮廓点进行检测,按不同的服装关键点提取整体服装轮廓,配合所述轮廓图,获得所述服装图像的精度较高的轮廓关键点坐标信息;
S5,综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量,对所述服装图像取掩码提取服装部分,并将轮廓点高亮显示给用户,提供属性修改功能;
S6,利用所述服装图像取掩码提取的服装部分预训练判别器D,判别器的网络沿用Att-GAN属性生成对抗网络的判别器,网络采取五层卷积层,卷积结果连接两个不同的全连接层至两个分支判别器Dimg和Datt用于判别生成图像各种属性的准确性;
S7,利用所述服装图像和所述向量格式记录的服装属性信息,构建生成器G,生成器采用U型编码-解码网络模型,编码器对所述服装图像取掩码提取的服装部分,提取特征向量,使用ACUs(Attribute Control Units)属性控制单元,各层ACU连接在编码器和解码器对应层之间,ACUs属性控制单元内,特征向量的每一层特征图与所述向量格式记录的服装属性信息生成属性编辑后的特征图,ACUs通过卷积得到综合后的特征图,传入解码器中,解码器反卷积后生成图像;
S8,将所述生成图像输入至所述预训练好的判别器D,按属性得到分类结果,来衡量属性编辑程度,并通过损失函数计算损失值,梯度反向传播更新所述生成器和所述辨别器的卷积参数,迭代其相互对抗提升能力过程,得到具有生成带有指定属性的逼真图像能力的生成器G;
S9,输入待处理的服装图像,对该图像取掩码提取服装部分并高亮显示轮廓点,得到可供用户选择和修改的服装属性,之后把修改后的服装属性输入所述具有生成带有指定属性的逼真图像能力的生成器G,迭代地生成用户期望的服装图像。
步骤S1,具体如下:
S1-1,服装数据集来自于Deep Fashion2数据集以及服装购物网站;
S1-2,对服装图像进行结构化处理,筛选无遮挡服装图像,进行背景去噪、尺寸统一,同时尽可能保留服装的形状等细节,用于后续特征提取进行网络训练。
步骤S2,具体如下:
S2-1,对服装属性进行分类,属性信息作为分类网络和生成器G的输入。服装分为上装和下装两大类,上装属性包括:类别、袖长、领口、中缝、身长、腰宽等,下装属性分别包括:类别、裤长。标注服装所属类别以及属性。存在属性则标注为1,不存在则标注为0,在网络训练中可以按需对不同属性进行训练;
S2-2,标注服装分割点,用于服装物体的识别和分类,作为后续图像分类识别的训练输入,分割点的数目没有限定,将服装尽量完整保留细节地从图像中分割出;
S2-3,标注服装轮廓点,用于轮廓生成的训练输入,轮廓点的数目根据服装类别决定;
S2-4,对S2-1、S2-2和S2-3提取的不同服装信息进行结构化处理,以向量格式记录服装的属性信息,并记录分割点和轮廓点坐标信息,用于不同编辑方式选择生成器G的输入内容。
步骤S3,具体如下:
S3-1,Mask R-CNN使用卷积神经网络,以S11预训练后的图像、S21标注的分类信息和S2-2标记的服装分割点作为网络输入。通过卷积获得特征图,并对特征图进行分类和回归训练最终获取网络模型。服装识别分类可以得到服装的属性类别,分割点检测可以获得服装的大致完整轮廓;
S3-2,训练使用resnet101残差网络,作为MaskR-CNN的网络主体结构进行多层的特征提取获得服装的掩码分割信息和分类结果。最终训练好的网络模型可以直接用于对输入图像中的服装进行识别分类和分割点检测,并将所有分割点顺序连接得到轮廓图,用bitmap保存轮廓图信息,轮廓图内像素标记为1,图外像素标记为0。
步骤S4,具体如下:
S4-1,轮廓点检测使用了CPN级联金字塔网络,目的是按不同类别服装的关键点来提取服装整体轮廓,配合S3分割点生成的轮廓图,进一步提高服装提取的精度。由于服装图像常常被人的身体部位造成的弯曲所重叠或者遮挡,考虑到服装对称性和可能存在的人动作姿态对服装的干扰,需要对服装遮挡或者弯曲部分进行还原。
步骤S5,具体如下:
S5-1,用(Xseg,Yseg)表示S2-2分割点包围区域,用(Xcon,Ycon)表示S2-3轮廓点包围区域,并进行叠加获得最终服装掩码信息{(Xclo,Yclo)||Xclo=Xseg∪Xcon,Yclo=Yseg∪Ycon},并找出边界点(Xout,Yout),若某一轮廓点(xcon,ycon)在边界线围绕区域内,不在边界线上则偏移至离边界线最近一点,
S5-2,对输入图像取掩码提取的服装部分,并将轮廓点高亮显示给用户,提供属性修改功能。
步骤S6,具体如下:
S6-1,判别器D分为图像判别器Dimg和属性判别器Datt。图像判别器Dimg用于判别生成图像的真实性,属性判别器Datt用于判别生成图像各种属性的准确性;
S6-2,判别器输入为S5-2提取的服装部分,判别器的网络沿用了Att-GAN属性生成对抗网络的判别器,网络整体采用五层卷积层,卷积结果连接两个不同的全连接层至两个分支判别器,最终分别获得图像和属性的判别结果。
步骤S7,具体如下:
S7-1,生成器G采用U型结构的encoder-decoder编码-解码网络模型,具体网络结构如图2,输入为S5-2掩码提取的服装部分和S2-4中经用户编辑修改后的服装属性向量;
S7-2,编码器使用残差网络对输入图像提取特征向量得到fenc={fenc 1,...,fenc 5},fenc=Genc(x),编码器包含5层卷积层,卷积核尺寸为4*4;
S7-3,使用ACUs(Attribute Control Units)属性控制单元实现对于属性的准确控制,各层ACU连接在编码器和解码器对应层之间,在ACUs属性控制单元内,特征向量中的每一层特征图与编辑后的属性向量生成属性编辑后的特征图;
S7-4,ACUs属性控制单元的输入包括S7-2中编码器提取的l层的编码特征图fenc l,l+1层的ACUs输出的隐藏态sl+1,以及属性差分向量attdiff=attt-atts,属性的种类和数目根据需要囊括的服装种类决定,输出包括l层的解码特征图fdec l和l层隐藏态和本层的隐藏态sl;
S7-5,ACUs首先将l+1层的隐藏态sl+1通过转置卷积进行上采样,使l层的隐藏态特征图尺寸匹配l+1层隐藏态特征图尺寸,
s′l+1=Wt*T[sl+1,attdiff]
rl=σ(Wr*[fenc l,s′l+1])
ul=σ(Wu*[fenc l,u′l+1])
ft′l=tanh(Wh*[fenc l,sl])
其中,[·,·]表示向量的拼接,*T表示转置卷积,表示求矩阵的点积,σ(·)表示应用sigmoid激活函数,tanh(·)表示应用tanh激活函数,rl是重置门,用于控制各属性是否使用l层上采样后的隐藏态信息,ul是更新门,用于控制l层隐藏态信息对于l+1层特征图的重要度,sl是l层的隐藏态,ft l是l层的转换后的编码特征;
S7-6,将综合后的特征图ft l传入解码器中,解码器包含5个对应的反卷积层,卷积核尺寸4*4,经5层反卷积后生成图像,ACUs了替代传统常用的skip connection跳线,解决了跳线虽然可以增强图像的生成质量,但在属性操控方面依然有可能导致偏差、生成方向不可控的缺点。
步骤S8,具体如下:
S8-1,判别器的损失函数分为图像生成损失和属性控制损失两部分,图像生成损失用于计算生成图像和真实图像的差异,属性控制损失计算生成图像各种属性和实际属性的差异,判别器D损失函数为生成器G损失函数为λ,是折衷参数,判别器和生成器由图像生成损失、属性控制损失和参数组成;
S8-2,图像生成损失:由于生成器G在生成图像后,缺少对照组的真实图像作为对比获取损失精度,所以使用判别器的图像生成损失来判断生成图像的真实性差异,如图3所示,得到判别器D和生成器G的参数,
S8-3,属性控制损失:在没有真实图像作为参照的情况下,通过属性判别器对属性的分类结果来衡量属性编辑程度,
其中,n为可编辑属性种类数。
本发明实施例提出的一种基于生成对抗网络的服装编辑和生成方法,通过人工智能结合用户简单的属性变化信息,对输入服装进行自动编辑修改后,生成用户满意的服装图像,为用户提供一种依靠计算机视觉技术端到端的服装编辑生成方案,一方面,解决了用户商品检索前对于服装样式进行更改的需求,另一方面,提高了服装编辑的可操作性和生成效果。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于生成对抗网络的服装编辑和生成方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (5)
1.一种基于生成对抗网络的服装编辑和生成方法,其特征在于,所述方法包括:
对服装图像进行结构化预处理,得到预处理后的服装图像;
对所述预处理后的服装图像提取信息,包括标注服装属性、标注服装分割点和服装轮廓点,将所提取的信息进行结构化处理,获得向量格式记录的服装属性信息;
将所述预处理后的服装图像、所述服装属性和所述服装分割点,作为Mask R-CNN卷积神经网络的输入,获得特征图,对特征图进行分类和回归训练获得网络模型,用于对所述服装图像进行服装属性分类识别和分割点检测,将所有分割点顺序连接得到轮廓图;
使用CPN级联金字塔网络,对所述服装轮廓点进行检测,按不同的服装关键点提取整体服装轮廓,配合所述轮廓图,获得所述服装图像的精度较高的轮廓关键点坐标信息;
综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量,对所述服装图像取掩码提取服装部分,并将轮廓点高亮显示给用户,提供属性修改功能;
利用所述服装图像取掩码提取的服装部分预训练判别器D,判别器的网络沿用Att-GAN属性生成对抗网络的判别器,网络采取五层卷积层,卷积结果连接两个不同的全连接层至两个分支判别器Dimg和Datt用于判别生成图像各种属性的准确性;
利用所述服装图像和所述向量格式记录的服装属性信息,构建生成器G,生成器采用U型编码-解码网络模型,编码器对所述服装图像取掩码提取的服装部分,提取特征向量,使用ACUs(Attribute Control Units)属性控制单元,各层ACU连接在编码器和解码器对应层之间,ACUs属性控制单元内,特征向量的每一层特征图,与所述向量格式记录的服装属性信息,生成属性编辑后的特征图,ACUs通过卷积得到综合后的特征图,传入解码器中,解码器反卷积后生成图像;
将所述生成图像输入至所述预训练好的判别器D,按属性得到分类结果,来衡量属性编辑程度,并通过损失函数计算损失值,梯度反向传播更新所述生成器和所述判别器的卷积参数,迭代其相互对抗提升能力过程,得到具有生成带有指定属性的逼真图像能力的生成器G;
输入待处理的服装图像,对该图像取掩码提取服装部分并高亮显示轮廓点,得到可供用户选择和修改的服装属性,之后把修改后的服装属性输入所述具有生成带有指定属性的逼真图像能力的生成器G,迭代地生成用户期望的服装图像;
其中,所述综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量,具体为:
用(Xseg,Yseg)表示所述服装分割点包围区域,用(Xcon,Ycon)表示所述服装轮廓点包围区域,并进行叠加获得最终服装掩码信息,
{(Xclo,Yclo)||Xclo=Xseg∪Xcon,Yclo=Yseg∪Ycon},
其中,所述构建生成器G,具体为:
生成器G采用U型结构的encoder-decoder编码-解码网络模型,输入为所述服装图像和所述向量格式记录的服装属性信息;
编码器使用残差网络对所述服装图像取掩码提取的服装部分提取特征向量得到fenc={fenc 1,...,fenc 5},fenc=Genc(x),编码器包含5层卷积层,卷积核尺寸为4*4;
使用ACUs(Attribute Control Units)属性控制单元实现对于属性的准确控制,各层ACU连接在编码器和解码器对应层之间,在ACUs属性控制单元内,特征向量中的每一层特征图,与所述向量格式记录的服装属性信息,生成属性编辑后的特征图;
ACUs属性控制单元的输入包括所述编码器提取的l层的编码特征图fenc l,l+1层的ACUs输出的隐藏态sl+1,以及属性差分向量attdiff=attt-atts,属性的种类和数目根据需要囊括的服装种类决定,输出包括l层的解码特征图fdec l和l层隐藏态和本层的隐藏态sl;
ACUs首先将l+1层的隐藏态sl+1通过转置卷积进行上采样,使l层的隐藏态特征图尺寸匹配l+1层隐藏态特征图尺寸,
s′l+1=Wt*T[sl+1,attdiff]
rl=σ(Wr*[fenc l,s′l+1])
ul=σ(Wu*[fenc l,u′l+1])
ft′l=tanh(Wh*[fenc l,sl])
其中,[·,·]表示向量的拼接,*T表示转置卷积,表示求矩阵的点积,σ(·)表示应用sigmoid激活函数,tanh(·)表示应用tanh激活函数,rl是重置门,用于控制各属性是否使用l层上采样后的隐藏态信息,ul是更新门,用于控制l层隐藏态信息对于l+1层特征图的重要度,sl是l层的隐藏态,ft l是l层的转换后的编码特征;
将综合后的特征图ft l传入解码器中,解码器包含5个对应的反卷积层,卷积核尺寸4*4,经5层反卷积后生成图像。
2.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法,其特征在于,所述服装图像进行结构化预处理,具体为:
服装图像数据来自于Deep Fashion2数据集以及服装购物网站;
服装图像结构化处理包括筛选无遮挡服装图像,进行背景去噪、尺寸统一,同时保留服装的形状细节。
3.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法,其特征在于,所述对所述预处理后的服装图像提取信息,具体为:
对服装属性进行分类,分为上装和下装两类,上装属性包括:类别、袖长、领口、中缝、身长、腰宽,下装属性包括:类别、裤长,标注服装所属类别以及属性,存在属性则标注为1,不存在则标注为0;
标注服装分割点,用于服装物体的识别和分类,分割点的数目没有限定;
标注服装轮廓点,用于轮廓生成的训练输入,轮廓点的数目根据服装类别决定;
对提取的不同服装信息进行结构化处理,以向量格式记录服装的属性信息,并记录分割点和轮廓点坐标信息。
4.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法,其特征在于,所述将所述预处理后的服装图像、所述服装属性和所述服装分割点,作为Mask R-CNN卷积神经网络的输入,获得特征图,对特征图进行分类和回归训练获得网络模型,用于对所述服装图像进行服装属性分类识别和分割点检测,将所有分割点顺序连接得到轮廓图,具体为:
Mask R-CNN使用卷积神经网络,以所述预处理后的服装图像、所述服装属性和所述服装分割点作为网络输入;
通过卷积获得特征图,并对特征图进行分类和回归训练最终获取网络模型,服装识别分类可以得到服装的属性类别,分割点检测可以获得服装的大致完整轮廓;
训练使用resnet101残差网络,作为MaskR-CNN的网络主体结构进行多层的特征提取获得服装的掩码分割信息和分类结果;
训练好的网络模型可以直接用于对所述服装图像进行服装属性识别分类和服装分割点检测,并将所有分割点顺序连接得到轮廓图,用bitmap保存轮廓图信息,轮廓图内像素标记为1,图外像素标记为0。
5.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法,其特征在于,所述预训练判别器D,具体为:
判别器D分为图像判别器Dimg和属性判别器Datt;
图像判别器Dimg用于判别生成图像的真实性,属性判别器Datt用于判别生成图像各种属性的准确性;
判别器D输入为所述服装图像取掩码提取的服装部分,判别器的网络沿用了Att-GAN属性生成对抗网络的判别器,网络整体采用五层卷积层,卷积结果连接两个不同的全连接层至两个分支判别器,最终分别获得图像和属性的判别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011398628.3A CN112529768B (zh) | 2020-12-04 | 2020-12-04 | 一种基于生成对抗网络的服装编辑和生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011398628.3A CN112529768B (zh) | 2020-12-04 | 2020-12-04 | 一种基于生成对抗网络的服装编辑和生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529768A CN112529768A (zh) | 2021-03-19 |
CN112529768B true CN112529768B (zh) | 2023-01-06 |
Family
ID=74996670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011398628.3A Active CN112529768B (zh) | 2020-12-04 | 2020-12-04 | 一种基于生成对抗网络的服装编辑和生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529768B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506255B (zh) * | 2021-07-01 | 2023-09-19 | 浙江理工大学 | 一种基于高精度数字图像的服装缝线疵点自动检测方法 |
CN113538275B (zh) * | 2021-07-14 | 2022-05-20 | 华中科技大学 | 一种基于CycleGAN的果实遮挡恢复方法及系统 |
CN113592733A (zh) * | 2021-07-22 | 2021-11-02 | 北京小米移动软件有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN113793397B (zh) * | 2021-07-30 | 2023-11-03 | 浙江大学 | 基于改进wgan的服装属性编辑方法 |
CN113869352A (zh) * | 2021-08-16 | 2021-12-31 | 深延科技(北京)有限公司 | 模型训练方法、服装检索方法及相关装置 |
US20230089790A1 (en) * | 2021-09-20 | 2023-03-23 | International Business Machines Corporation | Constraint-based multi-party image modification |
CN114240852A (zh) * | 2021-11-26 | 2022-03-25 | 东华大学 | 一种用于机织物组织纹理图像重构的方法 |
CN114694006A (zh) * | 2022-03-29 | 2022-07-01 | 北京沃东天骏信息技术有限公司 | 物品属性推荐模型的训练、生成方法和装置以及介质 |
CN116050284B (zh) * | 2023-03-29 | 2023-06-09 | 环球数科集团有限公司 | 一种利用aigc技术的时装再设计系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670591A (zh) * | 2018-12-14 | 2019-04-23 | 深圳市商汤科技有限公司 | 一种神经网络的训练方法及图像匹配方法、装置 |
CN109784350A (zh) * | 2018-12-29 | 2019-05-21 | 天津大学 | 结合空洞卷积与级联金字塔网络的服饰关键点定位方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110909754A (zh) * | 2018-09-14 | 2020-03-24 | 哈尔滨工业大学(深圳) | 一种属性生成对抗网络及基于该网络的搭配服饰生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488911B (zh) * | 2020-03-15 | 2022-04-19 | 北京理工大学 | 基于Mask R-CNN与GAN的图像实体抽取方法 |
CN111832649A (zh) * | 2020-07-13 | 2020-10-27 | 广州市多米教育科技有限公司 | 一种基于生成对抗网络算法的图像作品指导系统 |
-
2020
- 2020-12-04 CN CN202011398628.3A patent/CN112529768B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110909754A (zh) * | 2018-09-14 | 2020-03-24 | 哈尔滨工业大学(深圳) | 一种属性生成对抗网络及基于该网络的搭配服饰生成方法 |
CN109670591A (zh) * | 2018-12-14 | 2019-04-23 | 深圳市商汤科技有限公司 | 一种神经网络的训练方法及图像匹配方法、装置 |
CN109784350A (zh) * | 2018-12-29 | 2019-05-21 | 天津大学 | 结合空洞卷积与级联金字塔网络的服饰关键点定位方法 |
Non-Patent Citations (1)
Title |
---|
"STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing" https://arxiv.org/abs/1904.09709;Ming Liu et al.;《arXiv.org》;20190422;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112529768A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529768B (zh) | 一种基于生成对抗网络的服装编辑和生成方法 | |
Cui et al. | FashionGAN: Display your fashion design using conditional generative adversarial nets | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN110428428A (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN107679250A (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
Zhang et al. | Deep detail enhancement for any garment | |
Hu et al. | RGB-D semantic segmentation: a review | |
CN113393546B (zh) | 基于服装类别及纹理图案控制的时尚服装图像生成方法 | |
CN111985532A (zh) | 一种场景级上下文感知的情感识别深度网络方法 | |
CN112233017A (zh) | 一种基于生成对抗网络的病态人脸数据增强方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN116012626B (zh) | 建筑立面图像的素材匹配方法、装置、设备和存储介质 | |
Wu et al. | Deep texture exemplar extraction based on trimmed T-CNN | |
Zhuang et al. | A Survey of Point Cloud Completion | |
CN118314341A (zh) | 一种基于深度学习的壁画人物语义分割方法 | |
Yan et al. | Mixing and Matching Elements for Intelligent Fashion Design: A Generative Adversarial Network with Structure and Texture Disentanglement | |
CN111199248A (zh) | 一种基于深度学习目标检测算法的服装属性检测方法 | |
CN114565119B (zh) | 基于多模态图卷积网络的时尚兼容度预测方法 | |
Sha et al. | Image Classification and Restoration of Ancient Textiles Based on Convolutional Neural Network | |
Gang et al. | Skeleton-based action recognition with low-level features of adaptive graph convolutional networks | |
CN113033656A (zh) | 一种基于生成对抗网络的交互式孔探数据扩展方法 | |
KR20220126845A (ko) | 빅데이터 기반 cbir를 이용한 의류 패턴 검색 서비스 제공 시스템 | |
Hu et al. | Semantic based autoencoder-attention 3D reconstruction network | |
CN112926569A (zh) | 一种社交网络中的自然场景图像文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |