CN113793404B

CN113793404B - 一种基于文本和轮廓的人为可控图像合成方法

Info

Publication number: CN113793404B
Application number: CN202110953936.6A
Authority: CN
Inventors: 俞文心; 张志强; 甘泽军; 龚梦石; 文茄汁; 龚俊
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2023-07-04
Anticipated expiration: 2041-08-19
Also published as: CN113793404A

Abstract

本发明公开一种基于文本和轮廓的人为可控图像合成方法，包括定制合成：绘制基础轮廓和输入基础文本信息，对基础轮廓和基础文本信息进行编码获取各自的特征向量，将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像；优化修正：输入优化文本信息，将合成的图像和优化文本信息进行编码获取对应的特征向量，然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。本发明能够提高图像合成的可控度，能够在完全符合人为主观意愿的情况下合成高质量的图像结果。

Description

一种基于文本和轮廓的人为可控图像合成方法

技术领域

本发明属于图像合成技术领域，特别是涉及一种基于文本和轮廓的人为可控图像合成方法。

背景技术

可控的图像合成是当前人工智能在计算机视觉领域最为重要的技术攻关之一。相比于文本和语音信息，图像包含了更为丰富的内容使机器难以完成高质量的图像合成效果。近几年人工智能的快速发展使得图像合成技术取得了重大突破，目前机器已经能够合成主观上较为逼真的复杂图像(如人脸、专辑封面、房间布局等)。随着人工智能时代的到来，机器被赋予了更多的使命，其中最关键的是让机器能够更准确的理解人类的主观思想从而更好的服务于人类。在这种环境下，图像合成目前正朝着人为可控的方向去发展，即机器能够按照人的意图去合成对应的图像。人为可控的图像合成技术对于提高图像合成技术的实用性以及推广图像合成软件均具有良好的促进作用。此外，人为可控的技术也会让机器变得更智慧从而进一步推动了人工智能的发展。

现有的图像合成技术在人为可控方面的表现是差强人意的。大多数的图像合成技术无法引入人为控制因素，即整个图像合成过程都无法人为控制。有一些图像合成技术在一定程度上引入了人为控制因素，如允许人为输入图像的类别标签从而人为确定图像合成的类型；还有允许人为输入自然语言描述从而确定合成图像的基本内容。输入类别标签的方式只能起到一定程度的人为控制作用，因为类别标签包含的信息太少。举例来说，人为输入类别标签“鸟”，基于类别标签的图像合成技术可以合成一只鸟的图像，但这只鸟的具体信息(如鸟的颜色、大小等)是人为无法控制的。输入自然语言描述的方式包含了较多的信息因此可以起到较好的人为控制作用，但这种方式缺少图像整体布局的约束从而使合成的结果无法较好的达到人为的预期。

发明内容

为了解决上述问题，本发明提出了一种基于文本和轮廓的人为可控图像合成方法，能够提高图像合成的可控度，能够在完全符合人为主观意愿的情况下合成高质量的图像结果。

为达到上述目的，本发明采用的技术方案是：一种基于文本和轮廓的人为可控图像合成方法，包括步骤：

定制合成：绘制基础轮廓和输入基础文本信息，对基础轮廓和基础文本信息进行编码获取各自的特征向量，将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像；

优化修正：输入优化文本信息，将合成的图像和优化文本信息进行编码获取对应的特征向量，然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像。

进一步的是，对基础轮廓和基础文本信息进行编码获取各自的特征向量时：通过卷积神经网络获取基础轮廓的特征向量，通过双向长短期记忆网络获取基础文本信息的特征向量。

进一步的是，将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时，先将轮廓特征向量和基础文本特征向量进行连接，在利用反卷积将连接后的特征向量转换成对应的图像。

进一步的是，将合成的图像和优化文本信息进行编码获取对应的特征向量时：通过卷积神经网络获取合成图像的特征向量，通过双向长短期记忆网络获取优化文本信息的特征向量。

进一步的是，将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时，先将合成图像特征向量和优化文本特征向量进行连接，再利用反卷积将连接后的特征向量转换成对应的优化图像。

进一步的是，多次输入优化文本信息，将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量，然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像。

进一步的是，将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时：通过卷积神经网络获取合成图像的特征向量，通过双向长短期记忆网络获取新增的优化文本信息的特征向量

进一步的是，将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时，先将合成图像特征向量和新增的优化文本特征向量进行连接，再利用反卷积将连接后的特征向量转换成对应的优化图像。

采用本技术方案的有益效果：

本发明利用文本信息和简单轮廓信息去合成对应的图像，文本用于控制合成图像的基本内容，轮廓用于控制合成图像的基本形状。文本和简单轮廓信息均由人为输入，这两种信息既简单又符合人们的输入习惯。因此该发明将实现一种高度人为可控的图像合成技术。该技术能够在完全符合人为主观意愿的情况下合成高质量的图像结果，这对于促进可控图像合成技术的发展，促进机器更加智能具有重大作用。本发明能够提高图像合成的人为可控程度，因为人为可以参与整个合成过程且起到关键的控制作用，这使得合成的图像结果能够达到人们的基本预期。如此一来可以提高图像合成技术的实用性以及更好的推广图像合成软件。

附图说明

图1为本发明的一种基于文本和轮廓的人为可控图像合成方法流程示意图；

图2为本发明实施例中一种基于文本和轮廓的人为可控图像合成方法的原理示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，参见图1和图2所示，本发明提出了一种基于文本和轮廓的人为可控图像合成方法，包括步骤：

作为上述实施例的优化方案，对基础轮廓和基础文本信息进行编码获取各自的特征向量时：通过卷积神经网络获取基础轮廓的特征向量，通过双向长短期记忆网络获取基础文本信息的特征向量。

具体实现公式为：

基础轮廓的特征向量：enc_contout＝CNN(I_c)；

基础文本信息的特征向量：enc_text＝Bi_LSTM(T)；

其中，I_c表示人为绘制的简单轮廓图，T表示为人为输入的文本内容。CNN表示卷积神经网络，用于将轮廓图编码为对应的特征向量；Bi-LSTM表示双向长短期记忆网络，用于把文本编码为文本向量。

将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时，先将轮廓特征向量和基础文本特征向量进行连接，在利用反卷积将连接后的特征向量转换成对应的图像。

具体实现公式为：

f_c＝concat(enc_contor，enc_text)；

I_g＝deconvolution(f_c)；

其中，f_c表示轮廓特征和基础文本特征向量连接之后的特征向量，I_g表示生成的图像结果；通过concat函数将特征向量进行连接组合；

deconvolution表示反卷积，用于将连接后的特征向量转换为对应的图像。

作为上述实施例的优化方案，将合成的图像和优化文本信息进行编码获取对应的特征向量时：通过卷积神经网络获取合成图像的特征向量，通过双向长短期记忆网络获取优化文本信息的特征向量。

具体实现公式为：

合成图像的特征向量：enc_gen＝CNN(I_g)；

优化文本信息的特征向量：enc_text_new＝Bi_LSTM(T_new)；

其中，I_g表示合成图像，T_new表示为优化文本信息；CNN表示卷积神经网络，用于将合成图像编码为对应的特征向量；Bi-LSTM表示双向长短期记忆网络，用于把文本编码为文本向量。

将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时，先将合成图像特征向量和优化文本特征向量进行连接，再利用反卷积将连接后的特征向量转换成对应的优化图像。

具体实现公式为：

f_{c_new}＝concat(enc_gen，enc_text_new)；

I_{g_new}＝deconvolution(f_{c_new})；

其中，f_{c_new}表示合成图像特征向量和优化文本特征向量连接之后的特征向量，I_g表示合成图像；通过concat函数将特征向量进行连接组合；

人为继续输入文本信息从而修改之前合成的图像结果。该修改过程可以一直进行下去，直到合成的图像结果符合人为的要求。具体而言，定制合成阶段的图像合成结果可能并不让人满意，因此可以继续输入符合人为主观意愿的文本信息从而去修改合成的图像。如果新合成的图像内容依然不令人满意，则可以继续输入文本信息去进一步修改图像内容。因此整个内容修改阶段提供了高度的人为可控因素。

定制合成阶段允许人为绘制轮廓图从而确定图像结果的基本形状，允许人为输入文本信息从而确定图像结果的基本内容。后续的内容修改阶段允许人为不断地输入新的文本描述去修改合成图像的内容直到图像结果达到令人满意的程度。整个合成过程中全程人为参与且起到了核心的控制作用，因此该发明实现了当前人为可控程度最高的图像合成效果。

作为上述实施例的优化方案，如图2所示，多次输入优化文本信息，将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量，然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像。

将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时：通过卷积神经网络获取合成图像的特征向量，通过双向长短期记忆网络获取新增的优化文本信息的特征向量。

将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像时，先将合成图像特征向量和新增的优化文本特征向量进行连接，再利用反卷积将连接后的特征向量转换成对应的优化图像。

具体实施例可采用：

一、网页端图像合成系统

提供类似于百度翻译的网页界面，在界面中允许人为的输入文本描述以及绘制简单的轮廓信息，然后点击合成按钮即可生成对应的图像结果。之后用户可以在界面中继续输入文本描述从而去修改之前合成的图像内容。

二、定制化图像合成软件

该软件包含两个部分：图像的定制合成、图像的内容修改。

采用本发明形成的定制化图像合成软件允许用户在软件之中人为绘制简单轮廓以及输入文本信息，然后软件可以自动合成对应的图像。用户可以在内容修改功能中继续输入符合个人期望的文本描述内容，之后软件可以根据新输入的文本去修改之前合成的图像内容。该软件可以用于幼儿教育、计算机结构化辅助设计之中。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于文本和轮廓的人为可控图像合成方法，其特征在于，包括步骤：

优化修正：输入优化文本信息，将合成的图像和优化文本信息进行编码获取对应的特征向量，然后将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像；

多次输入优化文本信息，将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量，然后将依次合成图像和新增的优化文本信息的特征向量结合到一起去合成获得优化图像；

将依次合成的图像和新增的优化文本信息进行编码获取对应的特征向量时：通过卷积神经网络获取合成图像的特征向量，通过双向长短期记忆网络获取新增的优化文本信息的特征向量；

2.根据权利要求1所述的一种基于文本和轮廓的人为可控图像合成方法，其特征在于，对基础轮廓和基础文本信息进行编码获取各自的特征向量时：通过卷积神经网络获取基础轮廓的特征向量，通过双向长短期记忆网络获取基础文本信息的特征向量。

3.根据权利要求2所述的一种基于文本和轮廓的人为可控图像合成方法，其特征在于，将基础轮廓和基础文本信息的特征向量结合到一起合成对应的图像时，先将轮廓特征向量和基础文本特征向量进行连接，在利用反卷积将连接后的特征向量转换成对应的图像。

4.根据权利要求1或3所述的一种基于文本和轮廓的人为可控图像合成方法，其特征在于，将合成的图像和优化文本信息进行编码获取对应的特征向量时：通过卷积神经网络获取合成图像的特征向量，通过双向长短期记忆网络获取优化文本信息的特征向量。

5.根据权利要求4所述的一种基于文本和轮廓的人为可控图像合成方法，其特征在于，将合成图像和优化文本信息的特征向量结合到一起去合成获得优化图像时，先将合成图像特征向量和优化文本特征向量进行连接，再利用反卷积将连接后的特征向量转换成对应的优化图像。