CN118468943B

CN118468943B - 基于文本的图像生成方法、装置、设备及存储介质

Info

Publication number: CN118468943B
Application number: CN202410914072.0A
Authority: CN
Inventors: 郭炫
Original assignee: Shenzhen Interactive Entertainment Co ltd
Current assignee: Shenzhen Interactive Entertainment Co ltd
Priority date: 2024-07-09
Filing date: 2024-07-09
Publication date: 2024-10-22
Anticipated expiration: 2044-07-09
Also published as: CN118468943A

Abstract

本申请涉及图像生成技术领域，公开了一种基于文本的图像生成方法、装置、设备及存储介质。所述方法包括：接收多个用户节点的图像生成请求并解析初始文本数据进行深度编码，得到每个用户节点的编码文本数据；进行文本特征增强处理，得到每个用户节点的文本特征向量；通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并进行图像生成网络训练，得到每个用户节点的目标输出图像；构建每个用户节点的初始网络参数组合并进行全局参数分析，得到目标网络参数组合；进行网络参数更新和迭代优化，生成目标图像生成模型，本申请提高了基于文本的图像生成效率。

Description

基于文本的图像生成方法、装置、设备及存储介质

技术领域

本申请涉及图像生成技术领域，尤其涉及一种基于文本的图像生成方法、装置、设备及存储介质。

背景技术

随着深度学习技术的快速发展，图像生成模型成为了研究的热点之一。这些模型通过学习大量图像数据，能够生成高质量、多样化的图像内容，应用于艺术创作、游戏设计、虚拟现实等多个领域。尤其是在计算机视觉和自然语言处理领域，如何根据文本描述生成对应的图像，成为了一个富有挑战性的课题。这不仅要求模型能够理解文本中的复杂语义信息，还要能够准确地将这些信息转换为视觉内容。

然而，在实际应用中，一个关键的问题是如何高效地处理和满足来自不同用户的个性化图像生成请求。传统的图像生成模型通常在统一的数据集上进行训练，这导致模型在处理特定用户需求时可能缺乏灵活性和准确性。此外，随着用户数据量的增加，如何在保障用户数据隐私的前提下，有效地利用这些分散的数据资源进行模型训练，也成为了一个亟待解决的问题。

发明内容

本申请提供了一种基于文本的图像生成方法、装置、设备及存储介质，用于提高了基于文本的图像生成效率。

第一方面，本申请提供了一种基于文本的图像生成方法，所述基于文本的图像生成方法包括：

接收多个用户节点的图像生成请求并解析得到每个用户节点的初始文本数据，并对每个用户节点的初始文本数据进行深度编码，得到每个用户节点的编码文本数据；

对每个用户节点的编码文本数据进行文本特征增强处理，得到每个用户节点的文本特征向量；

通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过所述文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像；

根据所述目标输出图像分别构建每个用户节点的初始网络参数组合，并对所述初始网络参数组合进行全局参数分析，得到目标网络参数组合；

通过所述中心节点将所述目标网络参数组合分发至所述多个用户节点进行网络参数更新和迭代优化，生成目标图像生成模型。

第二方面，本申请提供了一种基于文本的图像生成装置，所述基于文本的图像生成装置包括：

接收模块，用于接收多个用户节点的图像生成请求并解析得到每个用户节点的初始文本数据，并对每个用户节点的初始文本数据进行深度编码，得到每个用户节点的编码文本数据；

处理模块，用于对每个用户节点的编码文本数据进行文本特征增强处理，得到每个用户节点的文本特征向量；

训练模块，用于通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过所述文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像；

分析模块，用于根据所述目标输出图像分别构建每个用户节点的初始网络参数组合，并对所述初始网络参数组合进行全局参数分析，得到目标网络参数组合；

优化模块，用于通过所述中心节点将所述目标网络参数组合分发至所述多个用户节点进行网络参数更新和迭代优化，生成目标图像生成模型。

本申请第三方面提供了一种基于文本的图像生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于文本的图像生成设备执行上述的基于文本的图像生成方法。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于文本的图像生成方法。

本申请提供的技术方案中，通过接收并解析多个用户节点的图像生成请求，模型能够根据用户提供的初始文本数据进行深度编码，进而生成与用户需求高度匹配的图像。能够理解和转换复杂的文本描述，为用户提供更为个性化和准确的图像生成服务。通过对编码文本数据进行文本特征增强处理，模型不仅捕获了文本数据的局部特征，还通过动态语义记忆网络提取深层次的语义信息，显著提升了模型对文本内容的理解深度和准确性。这一点对于理解复杂、含糊或多义的文本描述尤为重要，有助于生成更为丰富和细腻的图像内容。采用改进的循环变分自编码器和多尺度动态卷积神经网络，结合文本特征向量进行图像生成网络训练，不仅提升了图像的生成质量，还通过注意力机制等先进技术优化了训练过程。能够更有效地捕捉和利用文本与图像之间的关联，生成更加真实和具有吸引力的图像。通过中心节点协调，各用户节点在本地完成模型训练和参数更新，只有模型参数而非原始数据被上传和共享，有效保护了用户数据的隐私。这种分布式训练机制还能够充分利用来自不同用户的数据，提高模型的泛化能力，同时降低中心服务器的计算和存储压力。通过全局参数分析和目标网络参数组合的生成，模型能够根据所有用户节点反馈的性能指标进行优化，确保了模型更新的高效性和准确性。此外，遗传算法等优化算法的使用进一步提升了参数选择的科学性和模型性能，所以本申请提高了基于文本的图像生成效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。

图1为本申请实施例中基于文本的图像生成方法的一个实施例示意图；

图2为本申请实施例中基于文本的图像生成装置的一个实施例示意图。

具体实施方式

本申请实施例提供了一种基于文本的图像生成方法、装置、设备及存储介质。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中基于文本的图像生成方法的一个实施例包括：

步骤S101、接收多个用户节点的图像生成请求并解析得到每个用户节点的初始文本数据，并对每个用户节点的初始文本数据进行深度编码，得到每个用户节点的编码文本数据；

可以理解的是，本申请的执行主体可以为基于文本的图像生成装置，还可以是终端或者服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

具体的，接收来自多个用户节点的图像生成请求。这些请求包含用户希望生成图像的初始文本数据。接收到请求后，进行请求解析，提取出每个用户节点的初始文本数据。对每个用户节点提供的初始文本数据进行文本预处理。文本预处理包括清洗数据、去除停用词、纠正拼写错误等，目的是将初始文本数据转换成标准文本数据，以便于后续的处理。对每个用户节点的标准文本数据进行文本实体词提取。通过识别文本中的关键实体词（如名词、专有名词等），并将它们组成文本实体词集合，捕捉文本的主要意义和内容。实体词的提取可以帮助模型更好地理解用户的图像生成需求，从而生成更加符合用户期望的图像。对每个用户节点的文本实体词集合进行Embedding向量编码。通过将文本实体词转换成向量形式，即Embedding向量，使文本数据能够被计算机和模型处理。通过深度卷积网络对每个用户节点的文本编码向量进行文本局部特征提取。深度卷积网络能够识别文本数据中的局部模式和特征，生成每个用户节点的局部特征向量。通过循环文本编码器对每个用户节点的局部特征向量进行处理，捕捉序列依赖性，生成每个用户节点的编码文本数据。循环文本编码器适合处理有序列依赖性的文本数据，能够捕捉文本中时间序列的信息和长距离的依赖关系。

步骤S102、对每个用户节点的编码文本数据进行文本特征增强处理，得到每个用户节点的文本特征向量；

具体的，分别将每个用户节点的编码文本数据输入动态语义记忆网络。该网络能够与一个预训练好的图像生成文本数据库进行有效的交互，通过这种交互，网络能够根据数据库中的丰富信息生成每个用户节点特定的深层次语义信息。根据深层次语义信息生成每个用户节点的记忆状态，将深层次的语义信息转化为一种内部表示，这种表示能够被网络进一步处理。动态语义记忆网络内部通过一个tanh函数的第一全连接层处理这些记忆状态，这个处理过程被称为文本特征增强。tanh函数因其能够将输入值压缩到-1到1的范围内而被广泛应用于神经网络中，这种压缩有助于增强记忆状态中的关键信息，同时抑制不重要的信息，从而生成每个用户节点的第一特征向量。将第一特征向量输入动态语义记忆网络中的第二全连接层。通过Softmax函数进行特征向量转换，将第一特征向量转化为文本特征向量。Softmax函数适用于处理这种转换，能够将多个输入值归一化为一个概率分布，即每个元素的值都在0到1之间，且所有元素值的总和为1。归一化确保每个特征向量都能反映出用户节点的唯一性和特定需求。

步骤S103、通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像；

具体的，通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点。该模型包括了多个关键组成部分，如第一编码RNN层、第二编码RNN层、注意力机制层以及解码RNN层。将每个用户节点的文本特征向量输入改进模型中。通过第一编码RNN层对文本特征向量进行编码特征提取，利用循环神经网络的能力捕捉文本中的序列信息，生成每个用户节点的第一编码向量。第二编码RNN层进一步对这些文本特征向量进行处理，提取出更深层次的编码特征，得到每个用户节点的第二编码向量。通过模型的注意力机制层对第一和第二编码向量进行注意力机制加权融合。注意力机制通过分配不同的权重给不同的编码向量部分，确保模型能够聚焦于文本特征向量中最重要的信息，得到每个用户节点的注意力加权向量。解码RNN层对每个用户节点的注意力加权向量进行隐变量解码，将加权向量转换成隐变量数据，这些隐变量数据包含了生成图像所需的所有关键信息。隐变量作为模型内部表示，是连接文本信息和图像生成的桥梁。通过多尺度动态卷积神经网络将隐变量数据转换为目标输出图像。多尺度动态卷积神经网络能够处理不同尺度的特征，并动态调整卷积核大小以适应不同的图像生成需求。

步骤S104、根据目标输出图像分别构建每个用户节点的初始网络参数组合，并对初始网络参数组合进行全局参数分析，得到目标网络参数组合；

具体的，对目标输出图像与初始文本数据进行匹配度分析，评估生成的图像与原始文本描述之间的相符程度，计算每个目标输出图像的匹配度指标。利用遗传算法根据匹配度指标为每个用户节点构建初始网络参数组合。遗传算法通过模拟自然选择和遗传学的原理，能够在参数空间中有效地搜索最优解。每个用户节点的初始网络参数组合包括了多层网络的初始权重和偏置参数，这些参数是网络能够成功执行任务的基础。遗传算法通过评估不同参数组合的性能，选择匹配度最高的组合作为初始网络参数，这确保了每个用户节点的图像生成模型都是从一组相对优化的参数开始训练的。将所有用户节点的初始网络参数组合发送至中心节点。中心节点扮演着参数优化和协调的角色，通过对收集到的所有初始网络参数组合中每层网络的初始权重和偏置参数进行加权平均运算，进一步优化参数。通过汇总所有用户节点的信息和反馈，确保最终确定的每层网络的目标权重和偏置参数能够反映出全局最优。根据每层网络的目标权重和偏置参数，生成对应的目标网络参数组合。

其中，根据匹配度指标定义每个用户节点的优化目标函数，并通过遗传算法构建每个用户节点的初始网络参数组合。遗传算法通过模拟生物进化过程中的交叉、变异、选择等操作解决优化问题。目标函数量化了网络参数与期望输出之间的匹配程度，即生成的图像与用户初始文本描述之间的一致性。通过优化目标函数，遗传算法进行网络参数种群的初始化，生成多个第一网络参数组合，为每个用户节点随机生成一组网络参数，包括多层网络的初始权重和偏置参数。这些第一网络参数组合构成了搜索空间中的初始种群。算法通过优化目标函数计算每个第一网络参数组合的适应度值。适应度值反映了每组参数在解决图像生成任务中的效能，即参数组合如何影响生成图像与用户文本描述的匹配程度。基于适应度值，算法对所有第一网络参数组合进行群体划分，形成多个网络参数组合群体。根据网络参数组合群体，算法生成对应的多个第二网络参数组合，包括交叉和变异操作，模拟生物遗传中基因的重组和随机变异。交叉操作允许来自不同父代的参数组合交换信息，而变异操作则引入新的变异，增加种群的多样性。通过这些操作，算法探索新的参数空间，寻找更优的网络参数组合。最终，通过对多个第二网络参数组合进行最优化求解，得到每个用户节点的初始网络参数组合。

步骤S105、通过中心节点将目标网络参数组合分发至多个用户节点进行网络参数更新和迭代优化，生成目标图像生成模型。

具体的，通过中心节点将目标网络参数组合分发至多个用户节点，确保每个节点都能基于最新的全局参数进行本地训练，从而提高整体模型的性能和效率。每个用户节点根据自己的数据计算网络参数的更新量。更新量的计算是根据网络参数更新量计算函数来完成，该函数考虑了每个节点的损失函数梯度和正则化项，以确保更新既能减少损失，又能防止过拟合。通过在每个用户节点应用更新量，对每个节点的图像生成模型进行初步的参数调整。这个过程包括对改进循环变分自编码器和多尺度动态卷积神经网络的参数进行细微的调整，从而为每个用户节点生成一个初始的图像生成模型。对每个初始图像生成模型进行学习率的动态调整和模型性能的反馈加权。基于每个模型的性能评估指标，通过调整学习率优化模型的训练过程，同时利用性能反馈对模型进行加权，确保模型训练的方向正确，效率高。性能评估指标为模型的优化提供了量化的依据。根据模型性能评估指标，对每个初始图像生成模型进行迭代优化和全局更新。对模型进行多次迭代训练，每次迭代都根据性能反馈进行调整，以确保模型能够持续进步，最终达到或超过预定的性能目标。全局更新则是将所有用户节点的训练成果汇总，更新全局模型参数，确保模型整体上的优化和进步。最终生成一个目标图像生成模型，这个模型不仅能够高效地根据用户的文本描述生成高质量的图像，而且具有很高的泛化能力和稳定性。

本申请实施例中，通过接收并解析多个用户节点的图像生成请求，模型能够根据用户提供的初始文本数据进行深度编码，进而生成与用户需求高度匹配的图像。能够理解和转换复杂的文本描述，为用户提供更为个性化和准确的图像生成服务。通过对编码文本数据进行文本特征增强处理，模型不仅捕获了文本数据的局部特征，还通过动态语义记忆网络提取深层次的语义信息，显著提升了模型对文本内容的理解深度和准确性。这一点对于理解复杂、含糊或多义的文本描述尤为重要，有助于生成更为丰富和细腻的图像内容。采用改进的循环变分自编码器和多尺度动态卷积神经网络，结合文本特征向量进行图像生成网络训练，不仅提升了图像的生成质量，还通过注意力机制等先进技术优化了训练过程。能够更有效地捕捉和利用文本与图像之间的关联，生成更加真实和具有吸引力的图像。通过中心节点协调，各用户节点在本地完成模型训练和参数更新，只有模型参数而非原始数据被上传和共享，有效保护了用户数据的隐私。这种分布式训练机制还能够充分利用来自不同用户的数据，提高模型的泛化能力，同时降低中心服务器的计算和存储压力。通过全局参数分析和目标网络参数组合的生成，模型能够根据所有用户节点反馈的性能指标进行优化，确保了模型更新的高效性和准确性。此外，遗传算法等优化算法的使用进一步提升了参数选择的科学性和模型性能，所以本申请提高了基于文本的图像生成效率。

在一具体实施例中，执行步骤S101的过程可以具体包括如下步骤：

（1）接收多个用户节点的图像生成请求，并对图像生成请求进行请求解析，得到每个用户节点的初始文本数据；

（2）分别对每个用户节点的初始文本数据进行文本预处理，得到每个用户节点的标准文本数据；

（3）分别对每个用户节点的标准文本数据进行文本实体词提取，得到每个用户节点的文本实体词集合；

（4）分别对每个用户节点的文本实体词集合进行Embedding向量编码，得到每个用户节点的文本编码向量；

（5）通过深度卷积网络分别对每个用户节点的文本编码向量进行文本局部特征提取，得到每个用户节点的局部特征向量；

（6）通过循环文本编码器分别对每个用户节点的局部特征向量进行序列依赖性捕捉，生成每个用户节点的编码文本数据。

具体的，通过网络接口接收来自多个用户节点的图像生成请求。这些请求通常包含用户希望通过文本描述生成的图像的初步信息。对图像生成请求进行解析，提取出每个请求中的初始文本数据。对每个用户节点提供的初始文本数据进行预处理。预处理步骤包括标准化文本，例如转换为小写、去除标点符号和停用词等，以及纠正拼写错误。对标准化后的文本数据进行文本实体词提取。系统识别并提取关键的实体词，如名词或专有名词，构成文本实体词集合。对每个用户节点的文本实体词集合进行Embedding向量编码，将文本转换为机器学习模型可以处理的格式。Embedding过程通过将文本中的每个词映射到高维空间中的一个向量来实现，这些向量能够捕捉词之间的语义关系。利用深度卷积网络对每个用户节点的文本编码向量进行局部特征提取。深度卷积网络通过学习文本数据中的模式，能够识别并提取出对生成图像有帮助的局部特征。通过循环文本编码器对提取出的局部特征向量进行处理，生成每个用户节点的编码文本数据。循环文本编码器适合处理序列数据，能够捕捉文本中的长期依赖关系，如一个事件发生的顺序或者描述中的逻辑关系。

在一具体实施例中，执行步骤S102的过程可以具体包括如下步骤：

（1）分别将每个用户节点的编码文本数据输入动态语义记忆网络；

（2）通过动态语义记忆网络与预训练的图像生成文本数据库进行交互，生成每个用户节点的深层次语义信息；

（3）根据深层次语义信息生成每个用户节点的记忆状态；

（4）通过动态语义记忆网络中第一全连接层的tanh函数，对每个用户节点的记忆状态进行文本特征增强，输出每个用户节点的第一特征向量；

（5）通过动态语义记忆网络中第二全连接层的Softmax函数，对每个用户节点的第一特征向量进行特征向量转换，得到每个用户节点的文本特征向量。

具体的，分别将每个用户节点提供的编码文本数据输入动态语义记忆网络中。该网络是一个智能的处理单元，能够根据输入数据的特性动态调整自身的行为。动态语义记忆网络能够与一个预训练的图像生成文本数据库进行深入的交互。该数据库包含了大量的文本到图像的映射关系，为网络提供了一个丰富的知识库，帮助网络理解各种文本描述背后的含义。通过与预训练数据库的交互，动态语义记忆网络能够为每个用户节点生成深层次的语义信息。深层次的语义信息提供了对用户文本描述更为精确的理解，使得生成的图像更加贴近用户的原始意图。基于深层次的语义信息，网络进一步生成每个用户节点的记忆状态。记忆状态是对深层次语义信息的一种内部表示，它捕捉了文本描述中最重要的特征和属性。为了增强文本特征并更好地为图像生成服务，动态语义记忆网络利用其第一全连接层的tanh函数处理每个用户节点的记忆状态。tanh函数作为一种激活函数，能够将输入数据压缩到-1到1的范围内，非线性变换有助于突出重要的特征并抑制不相关的信息，从而生成具有强化特征的第一特征向量。网络通过第二全连接层的Softmax函数对第一特征向量进行转换，得到最终的文本特征向量。Softmax函数作为另一种激活函数，能够将输入向量转换为一个概率分布，其中每个元素的值代表了该特征在图像生成中的重要性。这种转换确保了最终的文本特征向量不仅包含了所有必要的信息，而且还按照其重要性进行了排序和加权。

在一具体实施例中，执行步骤S103的过程可以具体包括如下步骤：

（1）通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点；

（2）将每个用户节点的文本特征向量输入改进循环变分自编码器和多尺度动态卷积神经网络，改进循环变分自编码器包括第一编码RNN层、第二编码RNN层、注意力机制层以及解码RNN层；

（3）通过第一编码RNN层对每个用户节点的文本特征向量进行编码特征提取，得到每个用户节点的第一编码向量；

（4）通过第二编码RNN层对每个用户节点的文本特征向量进行编码特征提取，得到每个用户节点的第二编码向量；

（5）通过注意力机制层对第一编码向量和第二编码向量进行注意力机制加权融合，得到每个用户节点的注意力加权向量；

（6）通过解码RNN层对每个用户节点的注意力加权向量进行隐变量解码，得到每个用户节点的隐变量数据；

（7）通过多尺度动态卷积神经网络对每个用户节点的隐变量数据进行图像生成，得到每个用户节点的目标输出图像。

具体的，通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点。确保所有用户节点都能访问到最新的模型架构和算法，为后续的图像生成提供了统一的技术基础。模型的设计考虑到了文本到图像转换过程中的多种需求，包括对文本数据深层次理解的需要以及生成图像时对细节的不同尺度处理的需要。将每个用户节点的文本特征向量输入改进循环变分自编码器和多尺度动态卷积神经网络。编码器包括了第一编码RNN层、第二编码RNN层、注意力机制层以及解码RNN层。通过第一编码RNN层对输入的文本特征向量进行初步的编码特征提取，得到每个用户节点的第一编码向量。这一层通过循环神经网络的结构，捕获文本数据中的序列依赖性和时间特性，从而提取出文本描述的基础语义结构。第二编码RNN层进一步对这些初步编码的特征进行深入分析，得到每个用户节点的第二编码向量，在第一层的基础上提取更复杂、更深层次的语义信息。通过注意力机制层对第一编码向量和第二编码向量进行加权融合。通过对不同编码向量的加权融合，能够聚焦于那些对生成目标图像最为关键的信息，从而得到每个用户节点的注意力加权向量。通过解码RNN层对经过注意力加权的向量进行解码，得到每个用户节点的隐变量数据。将已经提取和加权的文本特征转化为能够直接用于图像生成的内部表示。隐变量数据包含了生成图像所需的所有关键信息。通过多尺度动态卷积神经网络对每个用户节点的隐变量数据进行处理，生成目标输出图像。该网络能够根据隐变量数据中的信息，在不同的尺度上动态调整自己的行为，从而生成细节丰富、与用户描述高度匹配的图像。

在一具体实施例中，执行步骤S104的过程可以具体包括如下步骤：

（1）对目标输出图像与初始文本数据进行匹配度分析，得到每个目标输出图像的匹配度指标；

（2）通过遗传算法根据匹配度指标分别构建每个用户节点的初始网络参数组合，初始网络参数组合包括多层网络的初始权重和偏置参数；

（3）将每个用户节点的初始网络参数组合发送至中心节点，并通过中心节点对初始网络参数组合中每层网络的初始权重和偏置参数进行加权平均运算，得到每层网络的目标权重和偏置参数；

（4）根据每层网络的目标权重和偏置参数生成对应的目标网络参数组合。

具体的，对每个目标输出图像与相应的初始文本数据进行匹配度分析。使用自然语言处理和图像识别技术比较图像内容与文本描述之间的相关性，为每个目标输出图像生成一个匹配度指标，该指标反映了图像与文本描述之间的匹配程度。通过遗传算法根据匹配度指标为每个用户节点构建初始网络参数组合。遗传算法是一种模仿生物进化过程中自然选择和遗传机制的优化算法，其中，每个网络参数组合被视为一个“个体”，其“基因”是网络的权重和偏置参数。初始的网络参数组合通过随机生成或基于预训练模型调整得到，然后根据它们生成图像的匹配度指标进行评估。“适应度”最高的参数组合——即生成与文本描述匹配度最高图像的参数组合——有更高的几率被选中并通过交叉和变异操作生成新的参数组合。这个过程模拟了自然选择，旨在逐代优化网络参数，提高图像生成的准确性和质量。将每个用户节点的初始网络参数组合发送至中心节点。中心节点收集所有用户节点上优化后的网络参数，并对这些参数进行加权平均运算，得到每层网络的目标权重和偏置参数，这些参数反映了所有用户节点上经验的综合，旨在提高模型的泛化能力。基于经过优化和汇总的目标权重和偏置参数，生成对应的目标网络参数组合。目标网络参数组合被应用于图像生成模型，使得模型不仅能够更准确地根据用户的文本描述生成图像，还能够持续地从用户反馈中学习和进化，提高其性能。

在一具体实施例中，执行步骤S105的过程可以具体包括如下步骤：

（1）根据匹配度指标定义每个用户节点的优化目标函数，并通过遗传算法进行网络参数种群初始化，得到多个第一网络参数组合；

（2）通过优化目标函数分别计算每个第一网络参数组合的适应度值，并根据适应度值对多个第一网络参数组合进行群体划分，得到多个网络参数组合群体；

（3）根据多个网络参数组合群体生成对应的多个第二网络参数组合，并对多个第二网络参数组合进行最优化求解，得到每个用户节点的初始网络参数组合，初始网络参数组合包括多层网络的初始权重和偏置参数。

具体的，根据每个目标输出图像与初始文本数据之间的匹配度指标，为每个用户节点定义一个优化目标函数。该函数旨在量化网络参数如何影响生成图像与文本描述匹配度的能力，从而为遗传算法提供了一个明确的优化目标。匹配度指标本身是通过分析图像内容是否准确反映了文本描述的关键信息来计算的，例如，图像中的对象、动作和场景是否与文本描述相符。优化目标函数因此不仅包括了匹配度的量化，还可能包括其他正则化项，以避免过拟合，并保持网络的泛化能力。通过遗传算法对网络参数种群进行初始化，生成多个第一网络参数组合。在这个过程中，每个参数组合被视为种群中的一个“个体”，其“基因”是网络的权重和偏置参数。这些参数组合是随机生成的，旨在覆盖可能的参数空间，为遗传算法的后续迭代提供一个多样化的起点。初始化阶段是整个遗传算法过程的基础，它确保了算法有足够的多样性来探索解空间，寻找最优解。通过优化目标函数为每个第一网络参数组合计算适应度值。适应度值是衡量每个参数组合对优化目标的贡献大小，即生成图像与文本描述匹配度的高低。基于适应度值，系统对所有第一网络参数组合进行了群体划分，形成多个网络参数组合群体，其中适应度较高的参数组合有更大的几率被保留下来并参与到后续的遗传操作中。群体划分不仅是基于适应度值的排序，还考虑了参数组合之间的多样性，确保了解空间的广泛探索和避免早熟收敛于局部最优解。根据网络参数组合群体生成对应的多个第二网络参数组合。根据遗传算法中的交叉和变异操作，其中交叉操作允许不同的参数组合“交换”它们的“基因”，即某些网络参数，从而产生新的参数组合。变异操作则通过随机改变参数组合中的某些参数值来引入新的遗传变异，增加种群的多样性。这些遗传操作模仿了生物进化中的遗传变异机制，有助于算法跳出局部最优，探索更广阔的解空间。通过交叉和变异过程，生成多个第二网络参数组合，并对这些参数组合进行最优化求解。通过再次计算每个参数组合的适应度值，并根据这些适应度值进行选择、交叉和变异操作。这个迭代过程不断重复，每一代都在上一代的基础上通过自然选择和遗传机制寻找更优的参数组合，直到满足停止条件，如达到预定的迭代次数或适应度值不再显著提高。最终，迭代过程产生了每个用户节点的初始网络参数组合，这些参数组合包括了多层网络的初始权重和偏置参数。这些初始参数组合代表了遗传算法探索过程中表现最优的网络配置，预期能够生成与用户文本描述高度匹配的图像。

在一具体实施例中，执行步骤S106的过程可以具体包括如下步骤：

（1）通过中心节点将目标网络参数组合分发至多个用户节点，并分别计算每个用户节点的网络参数更新量，其中，网络参数更新量计算函数为：，表示学习率，表示第k个用户节点的损失函数，表示损失函数关于全局参数的梯度，表示正则化参数，表示L2范数，表示在时间步t的全局模型参数，第k个用户节点在时间步t上报的参数更新量；

（2）根据网络参数更新量分别对每个用户节点的改进循环变分自编码器和多尺度动态卷积神经网络进行网络参数调整，生成每个用户节点的初始图像生成模型；

（3）分别对每个用户节点的初始图像生成模型进行学习率动态调整和模型性能反馈加权，得到每个初始图像生成模型的模型性能评估指标；

（4）根据模型性能评估指标对每个初始图像生成模型进行迭代优化和全局更新，生成目标图像生成模型。

具体的，通过中心节点将目标网络参数组合分发到每个用户节点，目标网络参数组合包括了为生成与用户文本描述匹配的图像而优化的全局模型参数。每个用户节点接收到这些参数后，根据自己的特定数据，即用户提供的文本描述，计算网络参数的更新量。这一计算过程采用了一个特定的函数，涉及到损失函数对全局参数的梯度，以及正则化项来避免过拟合。网络参数更新量的计算是为了进一步优化模型在特定用户数据上的表现。通过考虑损失函数和正则化项，每个用户节点都能确定如何调整接收到的全局参数，以更好地反映其特定的数据集，即用户的文本描述。根据计算得到的网络参数更新量，每个用户节点对其图像生成模型进行参数调整。这确保了每个节点上的模型都能够根据用户的具体需求进行优化，从而提高生成图像的质量和匹配度。改进循环变分自编码器和多尺度动态卷积神经网络通过调整参数来改善模型对文本描述的理解和图像生成的能力。为了进一步提升模型性能，对每个用户节点上的初始图像生成模型进行学习率的动态调整和模型性能的反馈加权。模型的训练根据模型在实际生成图像过程中的表现来调整学习率，以及利用性能反馈来调整模型权重，确保模型训练过程既灵活又高效，能够快速适应不同用户的需求。基于模型性能评估指标，对每个初始图像生成模型进行迭代优化和全局更新。模型性能评估指标提供了一个量化模型表现的手段，通过这些指标，识别出哪些模型表现最佳，哪些需要进一步优化。这些信息被用于指导模型的迭代优化过程，不断调整和改进模型参数，直到达到最优性能，生成目标图像生成模型。

上面对本申请实施例中基于文本的图像生成方法进行了描述，下面对本申请实施例中基于文本的图像生成装置进行描述，请参阅图2，本申请实施例中基于文本的图像生成装置一个实施例包括：

接收模块201，用于接收多个用户节点的图像生成请求并解析得到每个用户节点的初始文本数据，并对每个用户节点的初始文本数据进行深度编码，得到每个用户节点的编码文本数据；

处理模块202，用于对每个用户节点的编码文本数据进行文本特征增强处理，得到每个用户节点的文本特征向量；

训练模块203，用于通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像；

分析模块204，用于根据目标输出图像分别构建每个用户节点的初始网络参数组合，并对初始网络参数组合进行全局参数分析，得到目标网络参数组合；

优化模块205，用于通过中心节点将目标网络参数组合分发至多个用户节点进行网络参数更新和迭代优化，生成目标图像生成模型。

通过上述各个组成部分的协同合作，通过接收并解析多个用户节点的图像生成请求，模型能够根据用户提供的初始文本数据进行深度编码，进而生成与用户需求高度匹配的图像。能够理解和转换复杂的文本描述，为用户提供更为个性化和准确的图像生成服务。通过对编码文本数据进行文本特征增强处理，模型不仅捕获了文本数据的局部特征，还通过动态语义记忆网络提取深层次的语义信息，显著提升了模型对文本内容的理解深度和准确性。这一点对于理解复杂、含糊或多义的文本描述尤为重要，有助于生成更为丰富和细腻的图像内容。采用改进的循环变分自编码器和多尺度动态卷积神经网络，结合文本特征向量进行图像生成网络训练，不仅提升了图像的生成质量，还通过注意力机制等先进技术优化了训练过程。能够更有效地捕捉和利用文本与图像之间的关联，生成更加真实和具有吸引力的图像。通过中心节点协调，各用户节点在本地完成模型训练和参数更新，只有模型参数而非原始数据被上传和共享，有效保护了用户数据的隐私。这种分布式训练机制还能够充分利用来自不同用户的数据，提高模型的泛化能力，同时降低中心服务器的计算和存储压力。通过全局参数分析和目标网络参数组合的生成，模型能够根据所有用户节点反馈的性能指标进行优化，确保了模型更新的高效性和准确性。此外，遗传算法等优化算法的使用进一步提升了参数选择的科学性和模型性能，所以本申请提高了基于文本的图像生成效率。

本申请还提供一种基于文本的图像生成设备，所述基于文本的图像生成设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于文本的图像生成方法的步骤。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于文本的图像生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，系统和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random acceS memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于文本的图像生成方法，其特征在于，所述基于文本的图像生成方法包括：

接收多个用户节点的图像生成请求并解析得到每个用户节点的初始文本数据，并对每个用户节点的初始文本数据进行深度编码，得到每个用户节点的编码文本数据；具体包括：接收多个用户节点的图像生成请求，并对所述图像生成请求进行请求解析，得到每个用户节点的初始文本数据；分别对每个用户节点的初始文本数据进行文本预处理，得到每个用户节点的标准文本数据；分别对每个用户节点的标准文本数据进行文本实体词提取，得到每个用户节点的文本实体词集合；分别对每个用户节点的文本实体词集合进行Embedding向量编码，得到每个用户节点的文本编码向量；通过深度卷积网络分别对每个用户节点的文本编码向量进行文本局部特征提取，得到每个用户节点的局部特征向量；通过循环文本编码器分别对每个用户节点的局部特征向量进行序列依赖性捕捉，生成每个用户节点的编码文本数据；

对每个用户节点的编码文本数据进行文本特征增强处理，得到每个用户节点的文本特征向量；具体包括：分别将每个用户节点的编码文本数据输入动态语义记忆网络；通过所述动态语义记忆网络与预训练的图像生成文本数据库进行交互，生成每个用户节点的深层次语义信息；根据所述深层次语义信息生成每个用户节点的记忆状态；通过所述动态语义记忆网络中第一全连接层的tanh函数，对每个用户节点的记忆状态进行文本特征增强，输出每个用户节点的第一特征向量；通过所述动态语义记忆网络中第二全连接层的Softmax函数，对每个用户节点的第一特征向量进行特征向量转换，得到每个用户节点的文本特征向量；

通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过所述文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像，所述改进循环变分自编码器包括第一编码RNN层、第二编码RNN层、注意力机制层以及解码RNN层；

2.根据权利要求1所述的基于文本的图像生成方法，其特征在于，所述通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过所述文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像，包括：

通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点；

将每个用户节点的文本特征向量输入所述改进循环变分自编码器和多尺度动态卷积神经网络，所述改进循环变分自编码器包括第一编码RNN层、第二编码RNN层、注意力机制层以及解码RNN层；

通过所述第一编码RNN层对每个用户节点的文本特征向量进行编码特征提取，得到每个用户节点的第一编码向量；

通过所述第二编码RNN层对每个用户节点的文本特征向量进行编码特征提取，得到每个用户节点的第二编码向量；

通过所述注意力机制层对所述第一编码向量和所述第二编码向量进行注意力机制加权融合，得到每个用户节点的注意力加权向量；

通过所述解码RNN层对每个用户节点的注意力加权向量进行隐变量解码，得到每个用户节点的隐变量数据；

通过所述多尺度动态卷积神经网络对每个用户节点的隐变量数据进行图像生成，得到每个用户节点的目标输出图像。

3.根据权利要求1所述的基于文本的图像生成方法，其特征在于，所述根据所述目标输出图像分别构建每个用户节点的初始网络参数组合，并对所述初始网络参数组合进行全局参数分析，得到目标网络参数组合，包括：

对所述目标输出图像与所述初始文本数据进行匹配度分析，得到每个目标输出图像的匹配度指标；

通过遗传算法根据所述匹配度指标分别构建每个用户节点的初始网络参数组合，所述初始网络参数组合包括多层网络的初始权重和偏置参数；

将每个用户节点的初始网络参数组合发送至所述中心节点，并通过所述中心节点对所述初始网络参数组合中每层网络的初始权重和偏置参数进行加权平均运算，得到每层网络的目标权重和偏置参数；

根据每层网络的目标权重和偏置参数生成对应的目标网络参数组合。

4.根据权利要求3所述的基于文本的图像生成方法，其特征在于，所述通过遗传算法根据所述匹配度指标分别构建每个用户节点的初始网络参数组合，所述初始网络参数组合包括多层网络的初始权重和偏置参数，包括：

根据所述匹配度指标定义每个用户节点的优化目标函数，并通过遗传算法进行网络参数种群初始化，得到多个第一网络参数组合；

通过所述优化目标函数分别计算每个第一网络参数组合的适应度值，并根据所述适应度值对所述多个第一网络参数组合进行群体划分，得到多个网络参数组合群体；

根据所述多个网络参数组合群体生成对应的多个第二网络参数组合，并对所述多个第二网络参数组合进行最优化求解，得到每个用户节点的初始网络参数组合，所述初始网络参数组合包括多层网络的初始权重和偏置参数。

5.根据权利要求1所述的基于文本的图像生成方法，其特征在于，所述通过所述中心节点将所述目标网络参数组合分发至所述多个用户节点进行网络参数更新和迭代优化，生成目标图像生成模型，包括：

通过所述中心节点将所述目标网络参数组合分发至所述多个用户节点，并分别计算每个用户节点的网络参数更新量，其中，网络参数更新量计算函数为：，表示学习率，表示第k个用户节点的损失函数，表示损失函数关于全局参数的梯度，表示正则化参数，表示L2范数，表示在时间步t的全局模型参数，第k个用户节点在时间步t上报的参数更新量；

根据所述网络参数更新量分别对每个用户节点的改进循环变分自编码器和多尺度动态卷积神经网络进行网络参数调整，生成每个用户节点的初始图像生成模型；

分别对每个用户节点的初始图像生成模型进行学习率动态调整和模型性能反馈加权，得到每个初始图像生成模型的模型性能评估指标；

根据所述模型性能评估指标对每个初始图像生成模型进行迭代优化和全局更新，生成目标图像生成模型。

6.一种基于文本的图像生成装置，其特征在于，所述基于文本的图像生成装置包括：

接收模块，用于接收多个用户节点的图像生成请求并解析得到每个用户节点的初始文本数据，并对每个用户节点的初始文本数据进行深度编码，得到每个用户节点的编码文本数据；具体包括：接收多个用户节点的图像生成请求，并对所述图像生成请求进行请求解析，得到每个用户节点的初始文本数据；分别对每个用户节点的初始文本数据进行文本预处理，得到每个用户节点的标准文本数据；分别对每个用户节点的标准文本数据进行文本实体词提取，得到每个用户节点的文本实体词集合；分别对每个用户节点的文本实体词集合进行Embedding向量编码，得到每个用户节点的文本编码向量；通过深度卷积网络分别对每个用户节点的文本编码向量进行文本局部特征提取，得到每个用户节点的局部特征向量；通过循环文本编码器分别对每个用户节点的局部特征向量进行序列依赖性捕捉，生成每个用户节点的编码文本数据；

处理模块，用于对每个用户节点的编码文本数据进行文本特征增强处理，得到每个用户节点的文本特征向量；具体包括：分别将每个用户节点的编码文本数据输入动态语义记忆网络；通过所述动态语义记忆网络与预训练的图像生成文本数据库进行交互，生成每个用户节点的深层次语义信息；根据所述深层次语义信息生成每个用户节点的记忆状态；通过所述动态语义记忆网络中第一全连接层的tanh函数，对每个用户节点的记忆状态进行文本特征增强，输出每个用户节点的第一特征向量；通过所述动态语义记忆网络中第二全连接层的Softmax函数，对每个用户节点的第一特征向量进行特征向量转换，得到每个用户节点的文本特征向量；

训练模块，用于通过中心节点将改进循环变分自编码器和多尺度动态卷积神经网络分发至每个用户节点并通过所述文本特征向量进行图像生成网络训练，得到每个用户节点的目标输出图像，所述改进循环变分自编码器包括第一编码RNN层、第二编码RNN层、注意力机制层以及解码RNN层；

7.一种基于文本的图像生成设备，其特征在于，所述基于文本的图像生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于文本的图像生成设备执行如权利要求1-5中任一项所述的基于文本的图像生成方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述的基于文本的图像生成方法。