[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113793404B - 一种基于文本和轮廓的人为可控图像合成方法 - Google Patents

一种基于文本和轮廓的人为可控图像合成方法 Download PDF

Info

Publication number
CN113793404B
CN113793404B CN202110953936.6A CN202110953936A CN113793404B CN 113793404 B CN113793404 B CN 113793404B CN 202110953936 A CN202110953936 A CN 202110953936A CN 113793404 B CN113793404 B CN 113793404B
Authority
CN
China
Prior art keywords
image
text information
optimized
feature vectors
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110953936.6A
Other languages
English (en)
Other versions
CN113793404A (zh
Inventor
俞文心
张志强
甘泽军
龚梦石
文茄汁
龚俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202110953936.6A priority Critical patent/CN113793404B/zh
Publication of CN113793404A publication Critical patent/CN113793404A/zh
Application granted granted Critical
Publication of CN113793404B publication Critical patent/CN113793404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种基于文本和轮廓的人为可控图像合成方法,包括定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。本发明能够提高图像合成的可控度,能够在完全符合人为主观意愿的情况下合成高质量的图像结果。

Description

一种基于文本和轮廓的人为可控图像合成方法
技术领域
本发明属于图像合成技术领域,特别是涉及一种基于文本和轮廓的人为可控图像合成方法。
背景技术
可控的图像合成是当前人工智能在计算机视觉领域最为重要的技术攻关之一。相比于文本和语音信息,图像包含了更为丰富的内容使机器难以完成高质量的图像合成效果。近几年人工智能的快速发展使得图像合成技术取得了重大突破,目前机器已经能够合成主观上较为逼真的复杂图像(如人脸、专辑封面、房间布局等)。随着人工智能时代的到来,机器被赋予了更多的使命,其中最关键的是让机器能够更准确的理解人类的主观思想从而更好的服务于人类。在这种环境下,图像合成目前正朝着人为可控的方向去发展,即机器能够按照人的意图去合成对应的图像。人为可控的图像合成技术对于提高图像合成技术的实用性以及推广图像合成软件均具有良好的促进作用。此外,人为可控的技术也会让机器变得更智慧从而进一步推动了人工智能的发展。
现有的图像合成技术在人为可控方面的表现是差强人意的。大多数的图像合成技术无法引入人为控制因素,即整个图像合成过程都无法人为控制。有一些图像合成技术在一定程度上引入了人为控制因素,如允许人为输入图像的类别标签从而人为确定图像合成的类型;还有允许人为输入自然语言描述从而确定合成图像的基本内容。输入类别标签的方式只能起到一定程度的人为控制作用,因为类别标签包含的信息太少。举例来说,人为输入类别标签“鸟”,基于类别标签的图像合成技术可以合成一只鸟的图像,但这只鸟的具体信息(如鸟的颜色、大小等)是人为无法控制的。输入自然语言描述的方式包含了较多的信息因此可以起到较好的人为控制作用,但这种方式缺少图像整体布局的约束从而使合成的结果无法较好的达到人为的预期。
发明内容
为了解决上述问题,本发明提出了一种基于文本和轮廓的人为可控图像合成方法,能够提高图像合成的可控度,能够在完全符合人为主观意愿的情况下合成高质量的图像结果。
为达到上述目的,本发明采用的技术方案是:一种基于文本和轮廓的人为可控图像合成方法,包括步骤:
定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;
优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。
进一步的是,对基础轮廓和基础文本信息进行编码获取各自的特征向量时:通过卷积神经网络获取基础轮廓的特征向量,通过双向长短期记忆网络获取基础文本信息的特征向量。
进一步的是,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时,先将轮廓特征向量和基础文本特征向量进行连接,在利用反卷积将连接后的特征向量转换成对应的图像。
进一步的是,将合成的图像和优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取优化文本信息的特征向量。
进一步的是,将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
进一步的是,多次输入优化文本信息,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量,然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像。
进一步的是,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取新增的优化文本信息的特征向量
进一步的是,将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和新增的优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
采用本技术方案的有益效果:
本发明利用文本信息和简单轮廓信息去合成对应的图像,文本用于控制合成图像的基本内容,轮廓用于控制合成图像的基本形状。文本和简单轮廓信息均由人为输入,这两种信息既简单又符合人们的输入习惯。因此该发明将实现一种高度人为可控的图像合成技术。该技术能够在完全符合人为主观意愿的情况下合成高质量的图像结果,这对于促进可控图像合成技术的发展,促进机器更加智能具有重大作用。本发明能够提高图像合成的人为可控程度,因为人为可以参与整个合成过程且起到关键的控制作用,这使得合成的图像结果能够达到人们的基本预期。如此一来可以提高图像合成技术的实用性以及更好的推广图像合成软件。
附图说明
图1为本发明的一种基于文本和轮廓的人为可控图像合成方法流程示意图;
图2为本发明实施例中一种基于文本和轮廓的人为可控图像合成方法的原理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和图2所示,本发明提出了一种基于文本和轮廓的人为可控图像合成方法,包括步骤:
定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;
优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。
作为上述实施例的优化方案,对基础轮廓和基础文本信息进行编码获取各自的特征向量时:通过卷积神经网络获取基础轮廓的特征向量,通过双向长短期记忆网络获取基础文本信息的特征向量。
具体实现公式为:
基础轮廓的特征向量:enc_contout=CNN(Ic);
基础文本信息的特征向量:enc_text=Bi_LSTM(T);
其中,Ic表示人为绘制的简单轮廓图,T表示为人为输入的文本内容。CNN表示卷积神经网络,用于将轮廓图编码为对应的特征向量;Bi-LSTM表示双向长短期记忆网络,用于把文本编码为文本向量。
将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时,先将轮廓特征向量和基础文本特征向量进行连接,在利用反卷积将连接后的特征向量转换成对应的图像。
具体实现公式为:
fc=concat(enc_contor,enc_text);
Ig=deconvolution(fc);
其中,fc表示轮廓特征和基础文本特征向量连接之后的特征向量,Ig表示生成的图像结果;通过concat函数将特征向量进行连接组合;
deconvolution表示反卷积,用于将连接后的特征向量转换为对应的图像。
作为上述实施例的优化方案,将合成的图像和优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取优化文本信息的特征向量。
具体实现公式为:
合成图像的特征向量:enc_gen=CNN(Ig);
优化文本信息的特征向量:enc_text_new=Bi_LSTM(T_new);
其中,Ig表示合成图像,T_new表示为优化文本信息;CNN表示卷积神经网络,用于将合成图像编码为对应的特征向量;Bi-LSTM表示双向长短期记忆网络,用于把文本编码为文本向量。
将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
具体实现公式为:
fc_new=concat(enc_gen,enc_text_new);
Ig_new=deconvolution(fc_new);
其中,fc_new表示合成图像特征向量和优化文本特征向量连接之后的特征向量,Ig表示合成图像;通过concat函数将特征向量进行连接组合;
deconvolution表示反卷积,用于将连接后的特征向量转换为对应的图像。
人为继续输入文本信息从而修改之前合成的图像结果。该修改过程可以一直进行下去,直到合成的图像结果符合人为的要求。具体而言,定制合成阶段的图像合成结果可能并不让人满意,因此可以继续输入符合人为主观意愿的文本信息从而去修改合成的图像。如果新合成的图像内容依然不令人满意,则可以继续输入文本信息去进一步修改图像内容。因此整个内容修改阶段提供了高度的人为可控因素。
定制合成阶段允许人为绘制轮廓图从而确定图像结果的基本形状,允许人为输入文本信息从而确定图像结果的基本内容。后续的内容修改阶段允许人为不断地输入新的文本描述去修改合成图像的内容直到图像结果达到令人满意的程度。整个合成过程中全程人为参与且起到了核心的控制作用,因此该发明实现了当前人为可控程度最高的图像合成效果。
作为上述实施例的优化方案,如图2所示,多次输入优化文本信息,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量,然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像。
将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取新增的优化文本信息的特征向量。
将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和新增的优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
具体实施例可采用:
一、网页端图像合成系统
提供类似于百度翻译的网页界面,在界面中允许人为的输入文本描述以及绘制简单的轮廓信息,然后点击合成按钮即可生成对应的图像结果。之后用户可以在界面中继续输入文本描述从而去修改之前合成的图像内容。
二、定制化图像合成软件
该软件包含两个部分:图像的定制合成、图像的内容修改。
采用本发明形成的定制化图像合成软件允许用户在软件之中人为绘制简单轮廓以及输入文本信息,然后软件可以自动合成对应的图像。用户可以在内容修改功能中继续输入符合个人期望的文本描述内容,之后软件可以根据新输入的文本去修改之前合成的图像内容。该软件可以用于幼儿教育、计算机结构化辅助设计之中。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种基于文本和轮廓的人为可控图像合成方法,其特征在于,包括步骤:
定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;
优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像;
多次输入优化文本信息,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量,然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像;
将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取新增的优化文本信息的特征向量;
将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和新增的优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
2.根据权利要求1所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,对基础轮廓和基础文本信息进行编码获取各自的特征向量时:通过卷积神经网络获取基础轮廓的特征向量,通过双向长短期记忆网络获取基础文本信息的特征向量。
3.根据权利要求2所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时,先将轮廓特征向量和基础文本特征向量进行连接,在利用反卷积将连接后的特征向量转换成对应的图像。
4.根据权利要求1或3所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,将合成的图像和优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取优化文本信息的特征向量。
5.根据权利要求4所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
CN202110953936.6A 2021-08-19 2021-08-19 一种基于文本和轮廓的人为可控图像合成方法 Active CN113793404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110953936.6A CN113793404B (zh) 2021-08-19 2021-08-19 一种基于文本和轮廓的人为可控图像合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110953936.6A CN113793404B (zh) 2021-08-19 2021-08-19 一种基于文本和轮廓的人为可控图像合成方法

Publications (2)

Publication Number Publication Date
CN113793404A CN113793404A (zh) 2021-12-14
CN113793404B true CN113793404B (zh) 2023-07-04

Family

ID=79181923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110953936.6A Active CN113793404B (zh) 2021-08-19 2021-08-19 一种基于文本和轮廓的人为可控图像合成方法

Country Status (1)

Country Link
CN (1) CN113793404B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN110188775A (zh) * 2019-05-28 2019-08-30 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009004636A2 (en) * 2007-07-05 2009-01-08 Playwagon Ltd. A method, device and system for providing rendered multimedia content to a message recipient device
EP2850842B1 (en) * 2012-05-16 2018-02-28 Tata Consultancy Services Limited A system and method for personalization of an appliance by using context information
US10565747B2 (en) * 2017-09-06 2020-02-18 Nvidia Corporation Differentiable rendering pipeline for inverse graphics
CN109190611A (zh) * 2018-08-14 2019-01-11 江西师范大学 一种基于众包的互联网编修家谱系统
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis
CN110503054B (zh) * 2019-08-27 2022-09-23 广东工业大学 文本图像的处理方法及装置
CN112712095A (zh) * 2019-10-24 2021-04-27 西南科技大学 一种基于联合熵尺度加权和正则块对角的鲁棒多核子空间聚类算法
CN111260740B (zh) * 2020-01-16 2023-05-23 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111858954B (zh) * 2020-06-29 2022-12-13 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN110188775A (zh) * 2019-05-28 2019-08-30 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法

Also Published As

Publication number Publication date
CN113793404A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Chen et al. Deep generation of face images from sketches
Bao et al. One transformer fits all distributions in multi-modal diffusion at scale
Liao et al. Tada! text to animatable digital avatars
CN111915693B (zh) 基于草图的人脸图像生成方法及系统
CN113269872A (zh) 基于三维人脸重构和视频关键帧优化的合成视频生成方法
WO2022135013A1 (zh) 一种人脸属性编辑方法、系统、电子设备及存储介质
Yang et al. Elegant: Exquisite and locally editable gan for makeup transfer
Ren et al. Two-stage sketch colorization with color parsing
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
Xiao et al. Omnigen: Unified image generation
Song et al. Clipvg: Text-guided image manipulation using differentiable vector graphics
Wei et al. HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending
Tan et al. Style2talker: High-resolution talking head generation with emotion style and art style
Lyu et al. Dran: detailed region-adaptive normalization for conditional image synthesis
CN113793404B (zh) 一种基于文本和轮廓的人为可控图像合成方法
Wei et al. DialogPaint: A Dialog-based Image Editing Model
CN117274450B (zh) 基于人工智能的动画形象生成系统及方法
Pan et al. Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance
CN112241708A (zh) 用于由原始人物图像生成新的人物图像的方法及装置
Chae et al. Semantic image synthesis with unconditional generator
Zhang et al. A two-stage personalized virtual try-on framework with shape control and texture guidance
Zhou et al. MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing
Bai et al. Itstyler: Image-optimized text-based style transfer
Cheng et al. Expgest: Expressive speaker generation using diffusion model and hybrid audio-text guidance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant