CN113793404B - 一种基于文本和轮廓的人为可控图像合成方法 - Google Patents
一种基于文本和轮廓的人为可控图像合成方法 Download PDFInfo
- Publication number
- CN113793404B CN113793404B CN202110953936.6A CN202110953936A CN113793404B CN 113793404 B CN113793404 B CN 113793404B CN 202110953936 A CN202110953936 A CN 202110953936A CN 113793404 B CN113793404 B CN 113793404B
- Authority
- CN
- China
- Prior art keywords
- image
- text information
- optimized
- feature vectors
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种基于文本和轮廓的人为可控图像合成方法,包括定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。本发明能够提高图像合成的可控度,能够在完全符合人为主观意愿的情况下合成高质量的图像结果。
Description
技术领域
本发明属于图像合成技术领域,特别是涉及一种基于文本和轮廓的人为可控图像合成方法。
背景技术
可控的图像合成是当前人工智能在计算机视觉领域最为重要的技术攻关之一。相比于文本和语音信息,图像包含了更为丰富的内容使机器难以完成高质量的图像合成效果。近几年人工智能的快速发展使得图像合成技术取得了重大突破,目前机器已经能够合成主观上较为逼真的复杂图像(如人脸、专辑封面、房间布局等)。随着人工智能时代的到来,机器被赋予了更多的使命,其中最关键的是让机器能够更准确的理解人类的主观思想从而更好的服务于人类。在这种环境下,图像合成目前正朝着人为可控的方向去发展,即机器能够按照人的意图去合成对应的图像。人为可控的图像合成技术对于提高图像合成技术的实用性以及推广图像合成软件均具有良好的促进作用。此外,人为可控的技术也会让机器变得更智慧从而进一步推动了人工智能的发展。
现有的图像合成技术在人为可控方面的表现是差强人意的。大多数的图像合成技术无法引入人为控制因素,即整个图像合成过程都无法人为控制。有一些图像合成技术在一定程度上引入了人为控制因素,如允许人为输入图像的类别标签从而人为确定图像合成的类型;还有允许人为输入自然语言描述从而确定合成图像的基本内容。输入类别标签的方式只能起到一定程度的人为控制作用,因为类别标签包含的信息太少。举例来说,人为输入类别标签“鸟”,基于类别标签的图像合成技术可以合成一只鸟的图像,但这只鸟的具体信息(如鸟的颜色、大小等)是人为无法控制的。输入自然语言描述的方式包含了较多的信息因此可以起到较好的人为控制作用,但这种方式缺少图像整体布局的约束从而使合成的结果无法较好的达到人为的预期。
发明内容
为了解决上述问题,本发明提出了一种基于文本和轮廓的人为可控图像合成方法,能够提高图像合成的可控度,能够在完全符合人为主观意愿的情况下合成高质量的图像结果。
为达到上述目的,本发明采用的技术方案是:一种基于文本和轮廓的人为可控图像合成方法,包括步骤:
定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;
优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。
进一步的是,对基础轮廓和基础文本信息进行编码获取各自的特征向量时:通过卷积神经网络获取基础轮廓的特征向量,通过双向长短期记忆网络获取基础文本信息的特征向量。
进一步的是,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时,先将轮廓特征向量和基础文本特征向量进行连接,在利用反卷积将连接后的特征向量转换成对应的图像。
进一步的是,将合成的图像和优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取优化文本信息的特征向量。
进一步的是,将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
进一步的是,多次输入优化文本信息,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量,然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像。
进一步的是,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取新增的优化文本信息的特征向量
进一步的是,将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和新增的优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
采用本技术方案的有益效果:
本发明利用文本信息和简单轮廓信息去合成对应的图像,文本用于控制合成图像的基本内容,轮廓用于控制合成图像的基本形状。文本和简单轮廓信息均由人为输入,这两种信息既简单又符合人们的输入习惯。因此该发明将实现一种高度人为可控的图像合成技术。该技术能够在完全符合人为主观意愿的情况下合成高质量的图像结果,这对于促进可控图像合成技术的发展,促进机器更加智能具有重大作用。本发明能够提高图像合成的人为可控程度,因为人为可以参与整个合成过程且起到关键的控制作用,这使得合成的图像结果能够达到人们的基本预期。如此一来可以提高图像合成技术的实用性以及更好的推广图像合成软件。
附图说明
图1为本发明的一种基于文本和轮廓的人为可控图像合成方法流程示意图;
图2为本发明实施例中一种基于文本和轮廓的人为可控图像合成方法的原理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和图2所示,本发明提出了一种基于文本和轮廓的人为可控图像合成方法,包括步骤:
定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;
优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。
作为上述实施例的优化方案,对基础轮廓和基础文本信息进行编码获取各自的特征向量时:通过卷积神经网络获取基础轮廓的特征向量,通过双向长短期记忆网络获取基础文本信息的特征向量。
具体实现公式为:
基础轮廓的特征向量:enc_contout=CNN(Ic);
基础文本信息的特征向量:enc_text=Bi_LSTM(T);
其中,Ic表示人为绘制的简单轮廓图,T表示为人为输入的文本内容。CNN表示卷积神经网络,用于将轮廓图编码为对应的特征向量;Bi-LSTM表示双向长短期记忆网络,用于把文本编码为文本向量。
将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时,先将轮廓特征向量和基础文本特征向量进行连接,在利用反卷积将连接后的特征向量转换成对应的图像。
具体实现公式为:
fc=concat(enc_contor,enc_text);
Ig=deconvolution(fc);
其中,fc表示轮廓特征和基础文本特征向量连接之后的特征向量,Ig表示生成的图像结果;通过concat函数将特征向量进行连接组合;
deconvolution表示反卷积,用于将连接后的特征向量转换为对应的图像。
作为上述实施例的优化方案,将合成的图像和优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取优化文本信息的特征向量。
具体实现公式为:
合成图像的特征向量:enc_gen=CNN(Ig);
优化文本信息的特征向量:enc_text_new=Bi_LSTM(T_new);
其中,Ig表示合成图像,T_new表示为优化文本信息;CNN表示卷积神经网络,用于将合成图像编码为对应的特征向量;Bi-LSTM表示双向长短期记忆网络,用于把文本编码为文本向量。
将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
具体实现公式为:
fc_new=concat(enc_gen,enc_text_new);
Ig_new=deconvolution(fc_new);
其中,fc_new表示合成图像特征向量和优化文本特征向量连接之后的特征向量,Ig表示合成图像;通过concat函数将特征向量进行连接组合;
deconvolution表示反卷积,用于将连接后的特征向量转换为对应的图像。
人为继续输入文本信息从而修改之前合成的图像结果。该修改过程可以一直进行下去,直到合成的图像结果符合人为的要求。具体而言,定制合成阶段的图像合成结果可能并不让人满意,因此可以继续输入符合人为主观意愿的文本信息从而去修改合成的图像。如果新合成的图像内容依然不令人满意,则可以继续输入文本信息去进一步修改图像内容。因此整个内容修改阶段提供了高度的人为可控因素。
定制合成阶段允许人为绘制轮廓图从而确定图像结果的基本形状,允许人为输入文本信息从而确定图像结果的基本内容。后续的内容修改阶段允许人为不断地输入新的文本描述去修改合成图像的内容直到图像结果达到令人满意的程度。整个合成过程中全程人为参与且起到了核心的控制作用,因此该发明实现了当前人为可控程度最高的图像合成效果。
作为上述实施例的优化方案,如图2所示,多次输入优化文本信息,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量,然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像。
将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取新增的优化文本信息的特征向量。
将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和新增的优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
具体实施例可采用:
一、网页端图像合成系统
提供类似于百度翻译的网页界面,在界面中允许人为的输入文本描述以及绘制简单的轮廓信息,然后点击合成按钮即可生成对应的图像结果。之后用户可以在界面中继续输入文本描述从而去修改之前合成的图像内容。
二、定制化图像合成软件
该软件包含两个部分:图像的定制合成、图像的内容修改。
采用本发明形成的定制化图像合成软件允许用户在软件之中人为绘制简单轮廓以及输入文本信息,然后软件可以自动合成对应的图像。用户可以在内容修改功能中继续输入符合个人期望的文本描述内容,之后软件可以根据新输入的文本去修改之前合成的图像内容。该软件可以用于幼儿教育、计算机结构化辅助设计之中。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于文本和轮廓的人为可控图像合成方法,其特征在于,包括步骤:
定制合成:绘制基础轮廓和输入基础文本信息,对基础轮廓和基础文本信息进行编码获取各自的特征向量,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像;
优化修正:输入优化文本信息,将合成的图像和优化文本信息进行编码获取对应的特征向量,然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像;
多次输入优化文本信息,将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量,然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像;
将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取新增的优化文本信息的特征向量;
将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和新增的优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
2.根据权利要求1所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,对基础轮廓和基础文本信息进行编码获取各自的特征向量时:通过卷积神经网络获取基础轮廓的特征向量,通过双向长短期记忆网络获取基础文本信息的特征向量。
3.根据权利要求2所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时,先将轮廓特征向量和基础文本特征向量进行连接,在利用反卷积将连接后的特征向量转换成对应的图像。
4.根据权利要求1或3所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,将合成的图像和优化文本信息进行编码获取对应的特征向量时:通过卷积神经网络获取合成图像的特征向量,通过双向长短期记忆网络获取优化文本信息的特征向量。
5.根据权利要求4所述的一种基于文本和轮廓的人为可控图像合成方法,其特征在于,将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时,先将合成图像特征向量和优化文本特征向量进行连接,再利用反卷积将连接后的特征向量转换成对应的优化图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110953936.6A CN113793404B (zh) | 2021-08-19 | 2021-08-19 | 一种基于文本和轮廓的人为可控图像合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110953936.6A CN113793404B (zh) | 2021-08-19 | 2021-08-19 | 一种基于文本和轮廓的人为可控图像合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793404A CN113793404A (zh) | 2021-12-14 |
CN113793404B true CN113793404B (zh) | 2023-07-04 |
Family
ID=79181923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110953936.6A Active CN113793404B (zh) | 2021-08-19 | 2021-08-19 | 一种基于文本和轮廓的人为可控图像合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793404B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN110188775A (zh) * | 2019-05-28 | 2019-08-30 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009004636A2 (en) * | 2007-07-05 | 2009-01-08 | Playwagon Ltd. | A method, device and system for providing rendered multimedia content to a message recipient device |
EP2850842B1 (en) * | 2012-05-16 | 2018-02-28 | Tata Consultancy Services Limited | A system and method for personalization of an appliance by using context information |
US10565747B2 (en) * | 2017-09-06 | 2020-02-18 | Nvidia Corporation | Differentiable rendering pipeline for inverse graphics |
CN109190611A (zh) * | 2018-08-14 | 2019-01-11 | 江西师范大学 | 一种基于众包的互联网编修家谱系统 |
US10713821B1 (en) * | 2019-06-27 | 2020-07-14 | Amazon Technologies, Inc. | Context aware text-to-image synthesis |
CN110503054B (zh) * | 2019-08-27 | 2022-09-23 | 广东工业大学 | 文本图像的处理方法及装置 |
CN112712095A (zh) * | 2019-10-24 | 2021-04-27 | 西南科技大学 | 一种基于联合熵尺度加权和正则块对角的鲁棒多核子空间聚类算法 |
CN111260740B (zh) * | 2020-01-16 | 2023-05-23 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
CN111858954B (zh) * | 2020-06-29 | 2022-12-13 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 面向任务的文本生成图像网络模型 |
-
2021
- 2021-08-19 CN CN202110953936.6A patent/CN113793404B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN110188775A (zh) * | 2019-05-28 | 2019-08-30 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113793404A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Deep generation of face images from sketches | |
Bao et al. | One transformer fits all distributions in multi-modal diffusion at scale | |
Liao et al. | Tada! text to animatable digital avatars | |
CN111915693B (zh) | 基于草图的人脸图像生成方法及系统 | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
WO2022135013A1 (zh) | 一种人脸属性编辑方法、系统、电子设备及存储介质 | |
Yang et al. | Elegant: Exquisite and locally editable gan for makeup transfer | |
Ren et al. | Two-stage sketch colorization with color parsing | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
Xiao et al. | Omnigen: Unified image generation | |
Song et al. | Clipvg: Text-guided image manipulation using differentiable vector graphics | |
Wei et al. | HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending | |
Tan et al. | Style2talker: High-resolution talking head generation with emotion style and art style | |
Lyu et al. | Dran: detailed region-adaptive normalization for conditional image synthesis | |
CN113793404B (zh) | 一种基于文本和轮廓的人为可控图像合成方法 | |
Wei et al. | DialogPaint: A Dialog-based Image Editing Model | |
CN117274450B (zh) | 基于人工智能的动画形象生成系统及方法 | |
Pan et al. | Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance | |
CN112241708A (zh) | 用于由原始人物图像生成新的人物图像的方法及装置 | |
Chae et al. | Semantic image synthesis with unconditional generator | |
Zhang et al. | A two-stage personalized virtual try-on framework with shape control and texture guidance | |
Zhou et al. | MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing | |
Bai et al. | Itstyler: Image-optimized text-based style transfer | |
Cheng et al. | Expgest: Expressive speaker generation using diffusion model and hybrid audio-text guidance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |