CN112634405A

CN112634405A - 一种面向众测任务发布的图文生成方法

Info

Publication number: CN112634405A
Application number: CN202011373051.0A
Authority: CN
Inventors: 张雷; 崔风丽; 姚懿容; 程浩; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-04-09
Anticipated expiration: 2040-11-30
Also published as: CN112634405B

Abstract

本发明公开了一种面向众测任务发布的图文生成方法，获取足够多的真实众测场景任务发布中的相关数据，针对不同任务，对数据进行整理和清洗；根据预处理后的结构化任务相关词，使用基于规则和模板的方法生成优质的完整任务文本描述；根据相关的任务方提供的任务描述和相关背景图生成与任务相关的词云图。使用统计得到的相关风格数据集，使用MUNIT网络模型进行无监督训练风格迁移模型。本发明通过生成相对应的任务发布文本和相关任务图片，在减轻了众测平台管理方的压力同时，能够增加众测平台使用人员的交互并且使相关任务重点内容更突出，提高了浏览和查看任务的效率。

Description

一种面向众测任务发布的图文生成方法

技术领域

本发明涉及图像和文本生成领域，主要应用于众测中的任务发布技术，具体涉及根据结构化数据生成流畅的任务文本和根据相关任务文本描述生成任务图片。

背景技术

随着智能设备的普及，众测已成为一种新的变革性平台，可以吸引移动用户通过物理旅行到指定位置来执行时空任务。许多科研工作者研究了各种用于性能优化的众测技术，其中如何更智能和更加交互化的任务生成是现在的一个技术挑战。随着大数据捕捉、管理和处理相关技术和计算机视觉、自然语言处理的快速发展，相关图像文本生成技术日益成熟，在任务发布过程中使用上述技术生成有特色的任务图像与具有可读性和逻辑性的任务描述既是挑战也是可能。

随着智能众测平台的普及，人们的日常工作，雇用，研究，制造和营销方式都在悄然发生改变，产生了极大的影响。其中任务分配或工作人员选择是一个重大问题，可能会影响到众测任务的完成质量，更加可视化的同参与到众测中的人们交互与智能的任务发布是一个即新颖又有意义的工作。

在计算机视觉和自然语言等领域，深度学习取得了很多优秀成果。从深度学习在计算机视觉应用以来，在视觉领域上产生了很多优秀的碰撞。在物体识别，物体检测，视频分析等视觉传统方向都有着很大的突破，以生成式对抗网络为技术主要路线的图像生成任务产生了许多优秀工作。本发明针对众测下的任务发布场景，在任务发布过程中，使用相关的图像生成技术，结合众测相关技术，训练模型，能够得到与任务相关的具有一定特色的任务图片。

数据到文本生成技术近年来也取得了一些技术成果，其采用结构化的数据例如一张表格作为输入，生成恰当而流畅的文本作为输出来描述数据。相关的主流方法有基于规则和模板的发法以及基于神经网络的方法，其中基于规则和模板的方法由于可控和逻辑性，依旧是主流的应用方法。但是这类方法也需要人工相关特征工程提取和规则的干预，本发明在众测场景中任务发布模块，根据结构化的任务词描述，通过与专家合作或从专家生成的语料中获取知识生成具有逻辑的流畅任务描述。

发明内容

发明目的：针对众测中的相关任务发布结构化相关词生成流畅且可解释的任务内容描述；针对相关任务描述建立专用的任务图，完成对众测任务的图文生成工作，使众测任务更具可视化和可交互性，本发明提供一种面向众测任务发布的图文生成方法，使用结构化的任务数据和相关专家特征语料以及自然语言处理相关技术生成合理的任务文本描述；使用关键词提取以及词云可视化等技术生成相关任务词云图；使用生成式对抗网络和计算机视觉等关键技术进行相关风格的迁移，生成风格任务图。

技术方案：为实现上述目的，本发明采用的技术方案为：

本发明相比现有技术，具有以下有益效果：

一种面向众测任务发布的图文生成方法，数据采集阶段，获取足够多的真实众测场景任务发布中的相关数据，包括结构化的任务关键字段、任务发布的详细描述、任务发布方提供的相关内容图或是logo图片数据；数据预处理阶段，针对不同任务，对数据进行整理和清洗；生成任务文本描述阶段，根据预处理后的结构化任务相关词，使用基于规则和模板的方法生成优质的完整任务文本描述；生成词云图阶段，根据相关的任务方提供的任务描述和相关背景图如logo图生成与任务相关的词云图。生成相关风格图像阶段，使用统计得到的相关风格数据集，使用MUNIT网络模型进行无监督训练风格迁移模型。具体包括如下步骤：

步骤1，数据采集：获取众测场景任务发布中的相关数据，包括结构化的任务关键字段、任务发布的详细描述、任务发布方提供的相关内容图或是logo图片。分别用于结构化的任务发布文本生成以及任务发布图片生成，任务发布图片生成包括词云图和相关任务风格迁移图。

步骤2，数据预处理，针对不同任务，对数据进行整理和清洗。

步骤3，生成任务文本描述：根据预处理后的结构化任务关键字段，使用基于规则和模板的方法生成优质的完整的任务文本描述：

步骤3a)，统计结构化任务关键字段，包括任务名称、描述信息、任务类型、任务报酬、截止时间、所需人数。

步骤3b)，使用专家干预的方式设定相关规则和模板，模板的主要内容包括相关情感词、部分幽默词、连接词序列。根据不同任务确定模板的侧重点。

步骤3c)，基于输入的结构化任务关键字段使用相关专家规则和模板策略生成若干条文本信息。本环节的重点在于根据不同的任务选择合适的模板，确保在内容介绍恰当的同时能够增加整个文本描述的流畅度。通过对相关任务关键词的提取，确定整个任务描述的总体风格，是否有侧重点，完善整个任务发布的文本输出。

步骤4，生成词云图：根据相关的任务方提供的任务描述和相关内容图或是logo图片生成与任务相关的词云图。在生成词云图的基础上增加动态修改方法，可视化调整色彩分布，调整相关词的次数和重要程度，合并不必要的相关词重复，使整个可视化词云图更加简洁与合理：

步骤4a)，对相关的任务方提供的任务描述进行相关中文分词，设置停用词，并进行词频统计。

步骤4b)，对任务方提供的相关任务图片或是logo图片进行处理，选择合适的区域作为词云的填充背景模板。

步骤4c)，使用词云可视化方法，设置相关字体、颜色、显示词数，使用步骤4b)中得到的处理图片作为词云背景，使用步骤4a)中的相关任务描述分词结果作为词云内容。

步骤4d)，动态调整词云图的生成效果，可视化调整色彩分布，调整相关词的次数和重要程度，合并不必要的相关词重复，使整个可视化词云图更加简洁与合理。

步骤5，生成相关风格图像，使用统计得到的相关风格数据集，使用生成式对抗网络中MUNIT网络模型进行无监督训练风格迁移模型。

优选的：步骤2中数据预处理方法：

步骤2a)，针对生成流畅的任务文本描述所需的结构化关键字进行处理。

步骤2b)，针对词云图生成中需要的文本描述进行相关统计，清洗，去掉不合理部分。

步骤2c)，对风格迁移图生成中需要的源域图像和目标域图像进行相关处理，目标域图像从油画风格图像、emoji图像以及动漫次元图像数据集中或者是相关爬虫获取。

步骤2d)，将处理后的数据或者是数据集保存并用于后续任务中。

优选的：所述步骤3中结构化任务关键词的数据格式为{'entity，'描述'，'类型'，'薪酬'，'截止时间'，'需要人员数量'，'任务数量'}。将结构化任务关键词作为输入到规则模板中生成合适的任务描述。

优选的：所述步骤5生成相关风格图像可抽象概括为使用GAN实现在不成对数据集条件下的多模态图像翻译。采用MUNIT网络结构模型，MUNIT网络结构模型架构为auto-encoder+GAN。

优选的：MUNIT网络结构模型模块结构如下：

步骤5a)，Content编码器从输入的图像数据中提取内容代码，使用几个分布卷积层对输入的图像数据进行down sample操作，采取Instance_normalization进行实例标准化，在下采样之后，输入到几个残差块Residual Block得到content code。

步骤5b)，Style编码器从输入的图像数据中提取风格编码，经过几个卷积层执行下采样操作，下采样之后进行全局平均汇合操作，最后再经过一个全连接层，提取风格信息代码。

步骤5c)，生成器在content code和style code基础上重建图像。使用一系列的残差块来处理内容编码，残差块采用Adaptive Instance Normalization layers自适应实例标准化层，它的参数(γ、β)通过对style code进行MLP多层感知机动态生成。

其中，z是先前卷积层产生的激活值，μ和σ是通道平均值和标准差，γ和β是MLP从style code生成的参数。残差处理之后由几个上采样层和卷积层生成重建后的图像，使用ReLU和tanh做激活函数。

步骤5d)，判别器采用的是多尺度判别网络，对真实样本和生成样本进行下采样以获得不同的分辨率的图像，并使用判别模型进行鉴别，加快模型的训练速度。

步骤5e)，采用最小二乘损失代替交叉熵损失为目标函数。使用LSGAN，生成图片的质量增加并且训练的稳定性也得到提高

优选的：步骤5d)中判别模型的激活函数选用lrelu函数。

本发明相比现有技术，具有以下有益效果：

本发明基于众测中的任务发布场景，基于规则模板、深度学习生成式对抗网络等等相关技术，通过结构化的关键任务词生成流畅的任务介绍文本；通过任务文本描述和相关图片生成词云图；通过任务发布方提供的图像作为源域图像和相关风格目标域图像，训练模型，完成相应风格迁移。基于以上技术，本发明实现更智能兼具交互式的任务发布过程。

附图说明

图1为本发明的方法整体流程图；

图2为本发明生成任务文本描述、词云图以及风格图像流程图。

图3为本发明图像风格迁移过程的模型图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种面向众测任务发布的图文生成技术，如图1-3所示，包括如下步骤：

步骤1，数据采集，获取足够多的真实众测场景任务发布中的相关数据，包括结构化的任务关键字段、任务发布的详细描述、任务发布方提供的相关内容图或是logo图片，分别用于结构化的任务发布文本生成以及任务发布图片生成(包括词云图和相关任务风格图)。

步骤2，数据预处理，主要是对数据整理和清洗，流程如下：

步骤2a)针对生成流畅的任务文本描述所需的结构化关键字进行处理；

步骤2b)针对词云图像生成中需要的文本描述进行相关统计，清洗，去掉不合理部分；

步骤2c)对风格迁移图像生成中需要的源域图像和目标域图像进行相关处理，目标域图像可以从油画风格图像、emoji图像以及动漫次元图像等数据集中或者是相关爬虫获取；

步骤2d)将处理后的数据或者是数据集保存并用于后续任务中；

步骤3，生成流畅的任务文本描述，根据步骤2中预处理后的结构化任务相关词，使用基于规则和模板的方法生成优质的完整的任务文本描述。方法如下：

步骤3a)统计结构化任务描述的关键字段，包括任务名称、描述信息、任务类型、任务报酬、截止时间、所需人数等，(例如：'entity':'安卓app经济日报bug探索','desc':'对app进行bug探索','type':'功能测试','reward':50000,'ddl':'2020年10月31日','peopleNum':50,'taskNum':5})作为后续任务文本生成的主要输入信息。

步骤3b)使用专家干预的方式设定相关规则和模板，模板的主要内容包括相关情感词(如“不要犹豫了，先到先得！”，“宅家可以这样挣外快！”)，部分幽默词、连接词序列等。除此之外，还需要考整个模板的侧重点，例如任务是否对报酬、类型、人数或者是任务截止日期有相关特殊要求。并对模板进行在具体级别上的二次加工。

步骤3c)基于输入的关键字段使用相关专家规则和模板策略生成若干条文本信息。本环节的重点在于根据不同的任务选择合适的模板，确保在内容介绍恰当的同时能够增加整个文本描述的流畅度，如相关的幽默词、情感词连接；通过对相关任务关键词的提取，确定整个任务描述的总体风格，是否有侧重点，完善整个任务发布的文本输出。

步骤4，生成任务发布的词云图，根据相关的任务方提供的任务描述，和相关背景图如logo图生成与任务相关的词云图，具体方法如下：

步骤4a)获取相关的任务方提供的任务描述，并进行相关处理。对任务描述进行相关中文分词，设置停用词，并进行词频统计。

此处的任务描述同步骤2中的文本描述是有差异的，步骤2中的文本描述是对整个任务发布过程的相关重点进行整合与优化，其关注点是任务的名称、薪酬、截止日期等，本步骤使用的文本描述是关于任务具体细节的介绍，如发布的任务是分类任务，则描述可能是“本次项目需要大家先把目标语句进行意图分类，然后再对目标语句进行关键词提取并归类……”即关于任务具体实现细节的部分；

步骤4b)对任务方提供的相关任务图片如logo图进行处理，作为词云生成图的背景模板。首先判断图像中白色区域与彩色区域的比例，选择合适的区域作为词云的填充部分。进一步确定相关的彩色转换阈值，将输入的图片转化为二值图像；该二值图即为后续词云可视化的输入背景。

步骤4c)使用词云可视化方法，设置相关字体、颜色、显示词数，使用步骤4b)中的处理图片作为词云背景，使用步骤4a)中的相关任务描述分词结果作为词云内容；

步骤4d)动态调整词云图的生成效果，可视化调整色彩分布，调整相关词的次数和重要程度，合并不必要的相关词重复，使整个可视化词云图更加简洁与合理。

步骤5，生成任务发布的相关风格图像，使用统计得到的相关数据集，包括源图像——发布方提供的相关图片或是logo图，以及目标风格的相关图像——如幽默风、简笔画、油画风格图像数据集，使用生成式对抗网络中MUNIT网络模型进行无监督训练风格迁移模型，风格迁移图像任务抽象化为实现在不成对数据集条件下的多模态图像翻译，并选择恰当的模型MUNIT，具体方法如下：

步骤5a)任务可抽象概括为使用GAN实现在不成对数据集条件下的多模态图像翻译。采用MUNIT网络结构模型。模型的架构为auto-encoder+GAN。模型的实现核心部分在于encoder编码器(包括content encoder和style encoder)，decoder/generator(解码器)和discriminator(判别器)。以下主要通过几个关键组成模块说明模型的实现：

步骤5a1)图像翻译过程被假定分为潜在的Domain之间共享内容空间和Domain独立决定的风格空间。其中内容空间编码复杂的数据空间结构，风格空间对其进行渲染。这个过程由两个编码器E1，E2实现，继而由生成器

和

进行重组，解码工作，生成相应域的图像。

步骤5a2)Content编码器的主要工作是从输入的图像数据中提取内容代码，我们的设定中content code属于共享空间，是高维的空间映射，分布更为复杂，而非高斯正态分布。

步骤5a3)Style编码器的主要工作是从输入的图像数据中提取风格编码，由于style code是Domain独立的，主要是渲染相应的结构(内容)，具有全局并且相对简单的影响，故而我们使用Gaussian先验建模的低维向量表示。

步骤5a4)生成器在content和style code基础上重建图像。我们使用一系列的残差块来处理内容编码，残差块采用Adaptive Instance Normalization layers自适应实例标准化层，它的参数(γ和β)通过对style code进行MLP多层感知机动态生成。

步骤5a5)判别器采用的是多尺度判别网络，对真实样本和生成样本进行下采样以获得不同的分辨率的图像，并使用判别模型进行鉴别，可以加快模型的训练速度。判别模型的激活函数选用lrelu。

步骤5b)损失函数设置。整个对抗网络的损失函数由两部分组成：重建损失函数和GAN损失函数，前者确保编码器和生成器是可逆的；后者采用了风格增强的循环一致性，是图像风格联合空间之间较弱形式的循环一致性。重建部分借鉴cycle-consistency，确保编码器和生成器是可逆的。主要包含两部分，一部分是域内图像重建，有图像编码到潜在空间继而进行解码，可以回到原图像；另一部分是潜在空间重建也即content内容空间和style风格空间经过解码(生成器)之后可以编码会原空间。使用L1范数来衡量，其中q(s)是高斯分布N(0,I)；p(c_1)来自

步骤5c)模型借鉴了CycleGAN中的循环一致性约束，MUNIT也在此基础上进行了改进，因为在多对多模式下的图像翻译，在整个空间上的约束过于强烈，影响最后的生成效果。故而模型采用了风格增强的循环一致性，是图像风格联合空间之间较弱形式的循环一致性。

步骤5d)在图像生成部分，结合了auto-encoders和GAN，共同完成。训练目标是学习底层的编码器和生成器以补全整个翻译流程。需要注意的是在编码过程中的潜在分布需要和解码器在生成式所接收到的潜在分布是相匹配的，通常是使用KL散度或者是对抗损失。如果解码器在生成过程中收到了非常不同的潜在分布，整个模型会失去生成效果。模型的optimality达到时，p(c1)＝p(c2),p(s1)＝q(s1),p(s2)＝q(s2)，此时编码风格分布匹配高斯先验，编码内容分布匹配生成时的分布。训练目标是学习底层的编码器和生成器以补全整个翻译流程。

步骤5e)通过训练整个生成模型，完成从任务发布方提供的源图片到目标域图像风格的迁移，同时保留源图片的内容；使得发布的图片更加具有可视性和风格特征。

综上所述，本发明提出一种面向众测任务发布的图文生成技术，通过生成相对应的任务发布文本和相关任务图片，一方面减轻了众测平台管理方的压力，另一方面可以促进和使用众测平台的人员交互，并且智能化的方法能够突出相关重点，便于快速查看任务节省时间。本发明通过生成相对应的任务发布文本和相关任务图片，在减轻了众测平台管理方的压力同时，能够增加众测平台使用人员的交互并且使相关任务重点内容更突出，提高了浏览和查看任务的效率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向众测任务发布的图文生成方法，其特征在于，包括如下步骤：

步骤1，数据采集：获取众测场景任务发布中的相关数据，包括结构化的任务关键字段、任务发布的详细描述、任务发布方提供的相关内容图或是logo图片；分别用于结构化的任务发布文本生成以及任务发布图片生成，任务发布图片生成包括词云图和相关任务风格迁移图；

步骤2，数据预处理，针对不同任务，对数据进行整理和清洗；

步骤3a)，统计结构化任务关键字段，包括任务名称、描述信息、任务类型、任务报酬、截止时间、所需人数；

步骤3b)，使用专家干预的方式设定相关规则和模板，模板的主要内容包括相关情感词、部分幽默词、连接词序列；根据不同任务确定模板的侧重点；

步骤3c)，基于输入的结构化任务关键字段使用相关专家规则和模板策略生成若干条文本信息；本环节的重点在于根据不同的任务选择合适的模板，确保在内容介绍恰当的同时能够增加整个文本描述的流畅度；通过对相关任务关键词的提取，确定整个任务描述的总体风格，是否有侧重点，完善整个任务发布的文本输出；

步骤4，生成词云图：根据相关的任务方提供的任务描述和相关内容图或是logo图片生成与任务相关的词云图；在生成词云图的基础上增加动态修改方法，可视化调整色彩分布，调整相关词的次数和重要程度，合并不必要的相关词重复，使整个可视化词云图更加简洁与合理：

步骤4a)，对相关的任务方提供的任务描述进行相关中文分词，设置停用词，并进行词频统计；

步骤4b)，对任务方提供的相关任务图片或是logo图片进行处理，选择合适的区域作为词云的填充背景模板；

步骤4c)，使用词云可视化方法，设置相关字体、颜色、显示词数，使用步骤4b)中得到的处理图片作为词云背景，使用步骤4a)中的相关任务描述分词结果作为词云内容；

步骤4d)，动态调整词云图的生成效果，可视化调整色彩分布，调整相关词的次数和重要程度，合并不必要的相关词重复，使整个可视化词云图更加简洁与合理；

2.根据权利要求1所述面向众测任务发布的图文生成方法，其特征在于：步骤2中数据预处理方法：

步骤2a)，针对生成流畅的任务文本描述所需的结构化关键字进行处理；

步骤2b)，针对词云图生成中需要的文本描述进行相关统计，清洗，去掉不合理部分；

步骤2c)，对风格迁移图生成中需要的源域图像和目标域图像进行相关处理，目标域图像从油画风格图像、emoji图像以及动漫次元图像数据集中或者是相关爬虫获取；

3.根据权利要求2所述面向众测任务发布的图文生成方法，其特征在于：所述步骤3中结构化任务关键词的数据格式为{'entity，'描述'，'类型'，'薪酬'，'截止时间'，'需要人员数量'，'任务数量'}；将结构化任务关键词作为输入到规则模板中生成合适的任务描述。

4.根据权利要求3所述面向众测任务发布的图文生成方法，其特征在于：所述步骤5生成相关风格图像可抽象概括为使用GAN实现在不成对数据集条件下的多模态图像翻译；采用MUNIT网络结构模型，MUNIT网络结构模型架构为auto-encoder+GAN。

5.根据权利要求4所述面向众测任务发布的图文生成方法，其特征在于：MUNIT网络结构模型模块结构如下：

步骤5a)，Content编码器从输入的图像数据中提取内容代码，使用几个分布卷积层对输入的图像数据进行down sample操作，采取Instance_normalization进行实例标准化，在下采样之后，输入到几个残差块Residual Block得到content code；

步骤5b)，Style编码器从输入的图像数据中提取风格编码，经过几个卷积层执行下采样操作，下采样之后进行全局平均汇合操作，最后再经过一个全连接层，提取风格信息代码；

步骤5c)，生成器在content code和style code基础上重建图像；使用一系列的残差块来处理内容编码，残差块采用Adaptive Instance Normalization layers自适应实例标准化层，它的参数(γ、β)通过对style code进行MLP多层感知机动态生成；

其中，z是先前卷积层产生的激活值，μ和σ是通道平均值和标准差，γ和β是MLP从stylecode生成的参数；残差处理之后由几个上采样层和卷积层生成重建后的图像，使用ReLU和tanh做激活函数；

步骤5d)，判别器采用的是多尺度判别网络，对真实样本和生成样本进行下采样以获得不同的分辨率的图像，并使用判别模型进行鉴别，加快模型的训练速度；

步骤5e)，采用最小二乘损失代替交叉熵损失为目标函数；使用LSGAN，生成图片的质量增加并且训练的稳定性也得到提高。

6.根据权利要求5所述面向众测任务发布的图文生成方法，其特征在于：步骤5d)中判别模型的激活函数选用lrelu函数。