CN117058276A

CN117058276A - 图像生成方法、装置、设备及存储介质

Info

Publication number: CN117058276A
Application number: CN202311317825.1A
Authority: CN
Inventors: 陈春全
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-14
Anticipated expiration: 2043-10-12
Also published as: CN117058276B

Abstract

本申请公开了一种图像生成方法、装置、设备及存储介质，涉及机器学习领域。该方法包括：获取第一文本、第二文本以及加噪图像特征表示，加噪图像特征表示用于通过去噪处理还原得到对源图像进行编辑后的目标图像；对第一文本和加噪图像特征表示进行关联度分析得到第一注意力矩阵；对第二文本和加噪图像特征表示进行关联度分析得到第二注意力矩阵和文本值；以第二文本为语义去噪条件，基于文本值、第一注意力矩阵和第二注意力矩阵得到目标图像。通过以上方式，能够利用语义关联关系，从粗粒度到细粒度的去噪过程中生成准确性较高的目标图像。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

图像生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种图像生成方法、装置、设备及存储介质。

背景技术

随着机器学习技术的发展，文本生成图像（text-to-image）技术在图像生成领域中得到了愈来愈多的关注，通过该技术可以根据给定文本生成符合描述的图像，具有巨大的应用潜力。

相关技术中，在文本和源图像之间的对应关系下，若需要在调整文本的部分词汇时，仍然保证源图像结构不变，仅对源图像部分内容进行变化，则需要人工预先确定需要进行文本生成的掩码区域（mask），进而将mask、用于生成mask的文本词汇以及源图像输入图像生成模型，以源图像的图像结构为目标图像的图像结构、以文本词汇为限制条件对mask进行图像生成，从而生成符合文本词汇且具有源图像结构的目标图像。

然而，上述过程需要人工确定文本生成的mask，从而通过提供的mask指导图像生成模型对图像中的mask进行编辑，不仅确定mask的过程是繁琐且复杂的，大大提升了模型使用成本和使用门槛；还可能会因为人工选取mask的过程导致丢失源图像中重要的结构信息，忽略生成部分与图像其他部分之间的全局结构关联性，使得目标图像的真实性较差，影响图像生成效果。

发明内容

本申请实施例提供了一种图像生成方法、装置、设备及存储介质，能够充分利用第一文本和第二文本之间的语义关联关系，从粗粒度到细粒度的去噪过程中生成目标图像，提升目标图像生成的精细度和准确性，提升图像编辑效率。所述技术方案如下。

一方面，提供了一种图像生成方法，所述方法包括：

获取第一文本、第二文本以及加噪图像特征表示，所述第一文本和所述第二文本之间存在语义关联关系，所述第一文本是用于描述源图像的文本，所述第二文本是用于描述目标图像的文本，所述加噪图像特征表示用于通过去噪处理还原得到对所述源图像进行编辑后的所述目标图像；

对所述第一文本和所述加噪图像特征表示进行关联度分析，得到第一注意力矩阵，所述第一注意力矩阵用于以所述源图像的第一图像结构约束所述目标图像的第二图像结构；

对所述第二文本和所述加噪图像特征表示进行关联度分析，得到第二注意力矩阵和文本值，所述第二注意力矩阵用于通过去噪处理生成所述目标图像的图像局部信息，所述文本值用于描述所述第二文本的文本信息；

以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

另一方面，提供了一种图像生成装置，所述装置包括：

获取模块，用于获取第一文本、第二文本以及加噪图像特征表示，所述第一文本和所述第二文本之间存在语义关联关系，所述第一文本是用于描述源图像的文本，所述第二文本是用于描述目标图像的文本，所述加噪图像特征表示用于通过去噪处理还原得到对所述源图像进行编辑后的所述目标图像；

矩阵获取模块，用于对所述第一文本和所述加噪图像特征表示进行关联度分析，得到第一注意力矩阵，所述第一注意力矩阵用于以所述源图像的第一图像结构约束所述目标图像的第二图像结构；

矩阵获取模块，还用于对所述第二文本和所述加噪图像特征表示进行关联度分析，得到第二注意力矩阵和文本值，所述第二注意力矩阵用于通过去噪处理生成所述目标图像的图像局部信息，所述文本值用于描述所述第二文本的文本信息；

去噪处理模块，用于以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上述本申请实施例中任一所述图像生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如上述本申请实施例中任一所述的图像生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的图像生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

获取第一文本、第二文本以及加噪图像特征表示，对第一文本和加噪图像特征表示进行分析得到第一注意力矩阵；对第二文本和加噪图像特征表示进行分析得到第二注意力矩阵和文本值；进而以第二文本为语义去噪条件，基于文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理，得到目标图像。在对加噪图像特征表示进行去噪处理的过程中，考虑到需要生成的目标图像是在源图像的基础上进行编辑后得到的内容，充分利用第一文本和第二文本之间的语义关联关系，借助第一注意力矩阵表征的图像结构和第二注意力矩阵表征的局部信息，从粗粒度到细粒度的去噪方式中生成目标图像，使得目标图像不仅能较好地保有源图像的图像结构，还能更准确地展现第二文本所指示的细节信息，提升目标图像生成的精细度和准确性，避免人工标注编辑区域的低效问题，提升图像编辑效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的图像生成方法的流程图；

图3是本申请另一个示例性实施例提供的图像生成方法的流程图；

图4是本申请一个示例性实施例提供的通过交叉注意力块对文本向量和图像向量进行融合交互处理的结构示意图；

图5是本申请又一个示例性实施例提供的图像生成方法的流程图；

图6是本申请一个示例性实施例提供的替换词汇下注意力矩阵编辑的示意图；

图7是本申请一个示例性实施例提供的替换词汇下的图像编辑示意图；

图8是本申请一个示例性实施例提供的新增词汇下注意力矩阵编辑的示意图；

图9是本申请一个示例性实施例提供的新增词汇下的图像编辑示意图；

图10是本申请一个示例性实施例提供的增强词汇下注意力矩阵编辑的示意图；

图11是本申请一个示例性实施例提供的潜在扩散模型的模型结构示意图；

图12是本申请一个示例性实施例提供的文本向量和图像向量在交叉注意力块进行融合交互时的张量变化示意图；

图13是本申请一个示例性实施例提供的潜在扩散模型的推断过程示意图；

图14是本申请一个示例性实施例提供的修改注意力矩阵以实现图像编辑的流程图；

图15是本申请一个示例性实施例提供的图像生成装置的结构框图；

图16是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

相关技术中，在文本和源图像之间的对应关系下，若需要在调整文本的部分词汇时，仍然保证源图像结构不变，仅对源图像部分内容进行变化，则需要人工预先确定需要进行文本生成的掩码区域（mask），进而将mask、用于生成mask的文本词汇以及源图像输入图像生成模型，以源图像的图像结构为目标图像的图像结构、以文本词汇为限制条件对mask进行图像生成，从而生成符合文本词汇且具有源图像结构的目标图像。然而，上述过程需要人工确定文本生成的mask，从而通过提供的mask指导图像生成模型对图像中的mask进行编辑，不仅确定mask的过程是繁琐且复杂的，大大提升了模型使用成本和使用门槛；还可能会因为人工选取mask的过程导致丢失源图像中重要的结构信息，忽略生成部分与图像其他部分之间的全局结构关联性，使得目标图像的真实性较差，影响图像生成效果。

在本申请实施例中，介绍了一种图像生成方法，在给定第一文本、与第一文本存在语义关联关系的第二文本以及加噪图像特征表示的基础上，能够充分利用第一文本和第二文本之间的语义关联关系，从粗粒度到细粒度的去噪过程中生成目标图像，提升目标图像生成的精细度和准确性，提升图像编辑效率。本申请实施例提供的图像生成方法可以应用于视觉推理场景、图像编辑场景、视频游戏场景、动画制作场景和计算机辅助设计场景等多种图像生成场景下，本申请实施例对此不加以限定。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的第一文本、第二文本、加噪图像特征表示等内容都是在充分授权的情况下获取的。

其次，对本申请实施例中涉及的实施环境进行说明，本申请实施例提供的图像生成方法可以由终端单独执行实现，也可以由服务器执行实现，或者由终端和服务器通过数据交互实现，本申请实施例对此不加以限定。可选地，以终端和服务器交互执行图像生成方法为例进行说明。

示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接。

在一些实施例中，终端110具有文本获取功能和噪声获取功能，从而使得终端110能够获取得到第一文本、第二文本以及噪声数据。可选地，终端110基于噪声数据采样得到加噪图像特征表示；或者，终端110将噪声数据发送至服务器120，服务器120基于噪声数据采样得到加噪图像特征表示等。

在一些实施例中，终端110向服务器120发送第一文本、第二文本以及噪声数据，服务器120基于噪声数据采样得到加噪图像特征表示。其中，第一文本是用于描述源图像的文本，第二文本是用于描述目标图像的文本，加噪图像特征表示用于通过去噪处理还原得到对源图像进行编辑后的目标图像。

可选地，服务器120对第一文本和加噪图像特征表示进行关联度分析，得到第一注意力矩阵，第一注意力矩阵用于表征源图像的第一图像结构；此外，服务器120还会对第二文本和加噪图像特征表示进行关联度分析，得到第二注意力矩阵和文本值，第二注意力矩阵用于表征目标图像的图像局部信息，文本值用于描述第二文本的文本信息；进而以第二文本为语义去噪条件，基于文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理，得到目标图像。

其中，目标图像的图像结构与源图像的图像结构具有相似关联关系。

在一些实施例中，服务器120在生成基于源图像进行编辑得到的目标图像后，将目标图像通过通信网络130发送至终端110，终端110能够将目标图像进行渲染显示。

值得注意的是，上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端，也可以实现为台式电脑等；上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术（Cloud technology）是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的图像生成方法进行说明，以该方法应用于服务器为例进行说明，如图2所示，该方法包括如下步骤210至步骤240。

步骤210，获取第一文本、第二文本以及加噪图像特征表示。

示意性的，文本用于表示以文字形式表达的内容，第一文本和第二文本是存在差异的两个文本。

可选地，第一文本和第二文本为语句文本，即第一文本是一句话，第二文本也是一句话，且第一文本和第二文本存在差异；或者，第一文本和第二文本为文章文本，即第一文本是由至少两句话组成的文章，第二文本也是由至少两句话组成的文章，且第一文本和第二文本存在差异等。

其中，第一文本和第二文本之间存在语义关联关系。

示意性的，语义关联关系用于描述第一文本表征的第一语义和第二文本表征的第二语义之间的关联关系。

可选地，语义关联关系包括语义相似关系和语义相关关系。

示意性的，当语义关联关系实现为语义相似关系，表示第一文本表征的第一语义和第二文本表征的第二语义之间部分含义相似，但部分含义仍然存在差别。例如：第一文本为“兔子在吃草”，第二文本为“狗在吃草”，虽然第一文本和第二文本都描述了吃草的行为，但是吃草的对象是不同的，因此第一文本和第二文本之间存在差异，但是第一文本和第二文本之间存在语义相似关系；或者，第一文本为“兔子在吃草”，第二文本为“兔子在窝里吃草”，其中第一文本和第二文本都描述了吃草的行为，且吃草的对象是相同的，但是第二文本中兔子吃草的位置存在限定，因此第一文本和第二文本之间存在差异，但是第一文本和第二文本之间存在语义相似关系等。

示意性的，当语义关联关系实现为语义相关关系，表示第一文本表征的第一语义和第二文本表征的第二语义之间除语义相似关系之外的其他相关关系。

可选地，语句相关关系实现为语义相反关系、语义增强关系、语义减弱关系等。

例如：针对语义相关关系中的语义相反关系，第一文本为“兔子在吃草”，第二文本为“兔子没在吃草”，虽然第一文本和第二文本中都存在对“吃草”行为的描述，且“吃草”的对象是相同的，但是第一文本表征正向含义，第二文本表征负向含义，因此第一文本和第二文本之间存在语义相反关系。

例如：针对语义相关关系中的语义增强关系，第一文本为“兔子在吃草”，第二文本为“兔子在吃草”，其中第一文本和第二文本中都存在对“吃草”行为的描述，且“吃草”的对象是相同的，但是第二文本额外对“草”予以强调（如该词语的含义权重较大），则代表相比第一文本而言，对第二文本中的“草”进行了突出强调等。

例如：针对语义相关关系中的语义减弱关系，第一文本为“兔子在吃草”，第二文本为“兔子在吃草”，其中第一文本和第二文本中都存在对“吃草”行为的描述，且“吃草”的对象是相同的，但是在第二文本对“草”予以减弱（如该词语的含义权重较大），则代表相比第一文本而言，对第二文本中的“草”进行了减弱处理等。

值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

在一个可选的实施例中，语义关联关系实现为第一文本和第二文本之间存在至少一个相同的文本词汇。

示意性的，第一文本和第二文本均是由文本词汇组成的文本内容，且组成第一文本的文本词汇中，存在至少一个组成第二文本的文本词汇。例如：第一文本为“兔子在吃草”，组成第一文本的词汇包括“兔子”、“在吃”和“草”；第二文本为“兔子在吃胡萝卜”，组成第二文本的词汇包括“兔子”、“在吃”和“胡萝卜”，其中第一文本和第二文本之间存在至少一个相同的文本词汇。

其中，第一文本是用于描述源图像的文本，第二文本是用于描述目标图像的文本。

示意性的，第一文本为“兔子在吃草”，与第一文本对应的源图像为一张“兔子在吃草”的图像。

可选地，源图像是相对目标图像而言的图像内容，是未经过图像编辑的原始图像内容。

示意性的，第一文本和源图像之间存在绑定关系，在已知源图像的基础上，针对源图像进行描述后得到第一文本，如第一文本是针对源图像进行人工描述后得到文本；或者，第一文本是针对源图像进行机器翻译描述后得到文本等。

在一些实施例中，在已知第一文本和源图像的基础上，对第一文本进行修改调整，得到与第一文本存在语义关联关系的第二文本，本申请实施例的目的在于在得到第二文本后，基于第一文本和第二文本之间的语义关联关系对源图像进行编辑，从而生成第二文本所描述的目标图像。

示意性的，第一文本为“兔子在吃草”，与第一文本对应的源图像是一张“兔子在吃草”的图像；针对第一文本进行修改调整，得到第二文本为“兔子在吃胡萝卜”，第一文本和第二文本之间存在语义关联关系；本申请实施例的目的在于基于语义关联关系对源图像进行编辑，以得到第二文本所描述的、用于展现“兔子在吃胡萝卜”的目标图像。

其中，加噪图像特征表示用于通过去噪处理还原得到对源图像进行编辑后的目标图像。

示意性的，除获取第一文本和第二文本外，获取执行去噪处理的加噪图像特征表示，目的在于在第一文本和源图像的基础上，以第二文本为条件，通过对加噪图像特征表示的逐步去噪处理过程，去噪还原得到目标图像。

在一些实施例中，获取噪声数据；对噪声数据进行特征提取，得到与噪声数据对应的加噪图像特征表示。

示意性的，噪声数据是用于表示噪声的数据；加噪图像特征表示是噪声数据对应的特征表示，是用于表征噪声数据的数据信息的特征表示。可选地，噪声数据为随机选取的噪声。

在一个可选的实施例中，获取随机种子。

示意性的，随机种子实现为随机获取的噪声数据。可选地，随机种子用于从高斯噪声分布中唯一获取加噪图像特征表示。

在一个可选的实施例中，基于随机种子从预先获取的高斯噪声分布中采样得到加噪图像特征表示。

示意性的，通过经过模型训练的图像生成模型执行生成目标图像的任务，预先获取的高斯噪声分布是在训练得到图像生成模型的过程中学习到的向量分布结果。

可选地，通过包括第一文本和源图像在内的大量样本参与模型训练过程，并在模型训练结束后得到图像生成模型，且在模型训练的过程中，模型还会学习到一个高斯噪声分布，该高斯噪声分布用于表征图像生成模型在去噪过程中的模型学习结果。

在一些实施例中，高斯噪声分布是具有正态分布情况的大量加噪图像特征表示的分布结果。

示意性的，在通过图像生成模型执行去噪过程时，预先获取该图像生成模型对应的高斯噪声分布，并在获取得到随机种子后，基于随机种子对高斯噪声分布进行采样，以从中获取得到加噪图像特征表示。即：基于随机种子从高斯噪声分布中采样得到用于执行图像生成过程的加噪图像特征表示。

步骤220，对第一文本和加噪图像特征表示进行关联度分析，得到第一注意力矩阵。

可选地，通过图像生成模型对第一文本和加噪图像特征表示进行关联度分析，得到第一注意力矩阵。图像生成模型是预先训练得到的、用于执行图像生成任务的模型。

在一个可选的实施例中，图像生成模型是通过多个样本数据对训练得到的模型。

其中，多个样本数据对包括源图像和第一文本组成的第一样本数据对。

示意性的，样本数据对是由图像和描述该图像的文本组成的数据对。获取多个数据对，以多个样本数据对执行模型训练过程，从而得到图像生成模型。

在训练得到图像生成模型的过程中，参与模型训练的样本数据对中包括第一文本和源图像组成的第一样本数据对，从而能够在训练得到图像生成模型后，能够通过对第一文本进行修改编辑后的第二文本，在源图像的基础上执行编辑过程，从而生成第二文本描述的、且与源图像存在一定相似关系的目标图像。

在一些实施例中，在获取得到第一文本、第二文本以及加噪图像特征表示后，将其中的第一文本和加噪图像特征表示输入图像生成模型中，图像生成模型基于第一文本和加噪图像特征表示进行关联度分析，并得到第一注意力矩阵。

示意性的，关联度分析用于研究文本与图像之间的关联情况。

可选地，文本由文本词汇组成，图像由图像像素组成，关联度分析用于研究文本词汇与图像像素之间的关联情况。示意性的，关联度分析用于确定文本词汇位于图像像素上的权重情况等。

例如：分析组成第一文本的第一文本词汇与加噪图像特征表示表征的噪声图中噪声像素（图像像素）的权重情况，从而得到第一注意力矩阵。

第一注意力矩阵用于表征源图像的第一图像结构。其中，第一注意力矩阵用于以源图像的第一图像结构约束目标图像的第二图像结构。

示意性的，图像生成模型实现为训练后的稳定扩散模型（Stable DiffusionModels），稳定扩散模型是一种基于潜在空间的扩散模型，属于文本生成图像的模型，用于通过对初始化噪声图像进行一步步地迭代降噪并生成图像。

可选地，图像生成模型中包括潜在空间，在潜在空间中执行去噪过程，且去噪过程中会针对输入的文本和噪声图像进行综合关注。

示意性的，在将第一文本和加噪图像特征表示输入至图像生成模型后，通过图像生成模型中的潜在空间执行去噪过程，并在去噪过程中针对第一文本和加噪图像特征表示进行综合关注。

基于第一文本是描述源图像的文本，且第一文本和源图像是在图像生成模型的训练中参与训练的样本数据对，因此在将第一文本和加噪图像特征表示输入至图像生成模型进行去噪过程时，图像生成模型会以第一文本为引导条件，以便基于第一文本和加噪图像特征表示进行图像去噪过程。

示意性的，在以第一文本为引导条件时，以使得加噪图像特征表示趋近于第一文本所表征的源图像的去噪方向，对加噪图像特征表示执行图像去噪过程。其中，在上述过程中，基于第一文本和加噪图像特征表示得到第一注意力矩阵。

可选地，第一注意力矩阵是在确定第一文本和加噪图像特征表示的基础上，通过预设矩阵表达方式进行处理后得到的矩阵形式。

示意性的，基于第一文本是用于描述源图像的文本，在将第一文本作为图像生成模型的输入时，基于第一文本进行去噪的过程即为向源图像方向执行去噪的过程；因此，基于第一文本和加噪图像特征表示执行去噪过程时，侧重于关注到第一文本表达的信息，因此第一注意力矩阵是用于表征源图像的注意力矩阵。

步骤230，对第二文本和加噪图像特征表示进行关联度分析，得到第二注意力矩阵和文本值。

示意性的，图像生成模型是预先训练得到的、用于执行图像生成任务的模型。

在一些实施例中，在获取得到第一文本、第二文本以及加噪图像特征表示后，将其中的第二文本和加噪图像特征表示输入图像生成模型中，图像生成模型基于第二文本和加噪图像特征表示进行关联度分析，并得到第二注意力矩阵。

例如：分析组成第二文本的第二文本词汇与加噪图像特征表示表征的噪声图中噪声像素（图像像素）的权重情况，从而得到第二注意力矩阵。

其中，第二注意力矩阵用于通过去噪处理生成目标图像的图像局部信息。

示意性的，在将第二文本和加噪图像特征表示输入至图像生成模型后，通过图像生成模型中的潜在空间执行去噪过程，并在去噪过程中针对第二文本和加噪图像特征表示进行综合关注。

基于第二文本是描述目标图像的文本，且第二文本与参与模型训练的第一文本之间存在语义关联关系，因此在将第二文本和加噪图像特征表示输入至图像生成模型进行去噪过程时，图像生成模型会以第二文本为引导条件，在借助与第二文本存在语义关联关系的第一文本和源图像的基础上，基于第二文本和加噪图像特征表示进行图像去噪过程，以实现在对源图像进行编辑的过程后得到目标图像。

示意性的，在以第二文本为引导条件时，以使得加噪图像特征表示趋近于第二文本所表征的图像内容，对加噪图像特征表示执行图像去噪过程。其中，在上述过程中，基于第二文本和加噪图像特征表示得到第二注意力矩阵。

可选地，第二注意力矩阵是在确定第二文本和加噪图像特征表示的基础上，通过预设矩阵表达方式进行处理后得到的矩阵形式。

示意性的，基于第二文本是用于描述目标图像的文本，且第二文本与第一文本之间存在语义关联关系，因此在将第二文本作为图像生成模型的输入时，基于第二文本进行去噪的过程即为在源图像的基础上，向第二文本所表征图像内容的方向执行去噪的过程；因此，基于第二文本和加噪图像特征表示执行去噪过程时，侧重于关注到第二文本表达的信息，因此第二注意力矩阵是用于表征目标图像的注意力矩阵。

其中，文本值用于描述第二文本的文本信息。

示意性的，除基于第二文本和加噪图像特征表示获取得到第二注意力矩阵外，还会额外对第二文本进行分析，以提取得到表征第二文本的文本信息的文本值。

可选地，通过预设矩阵表达方式进行处理后得到与第二文本对应的文本值，该文本值用于以矩阵形式对第二文本进行向量表达。

值得注意的是，上述步骤220和上述步骤230既可以实现为先后执行情况，也可以实现为并行执行情况。例如：先执行步骤220，后执行步骤230；或者，先执行步骤230，后执行步骤220；或者，同时执行步骤220和步骤230。以上仅为示意性的举例，本申请实施例对此不加以限定。

步骤240，以第二文本为语义去噪条件，基于文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理，得到目标图像。

示意性的，基于第二文本是用于描述需要生成的目标图像的文本内容，因此在生成目标图像的过程中，以第二文本为语义去噪条件进行图像生成过程。

示意性的，语义去噪条件是生成目标图像时的语义标准，以第二文本为语义去噪条件，即代表在去噪过程中，将加噪图像特征表示向着第二文本的方向趋近，以逐渐使得去噪之后得到的图像内容与第二文本更为相近。

在一些实施例中，除以第二文本为语义去噪条件外，通过文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理，得到目标图像。

示意性的，第一注意力矩阵蕴含了第一文本表征的图像信息，第二注意力矩阵蕴含了第二文本表征的图像信息，从而借助第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理过程。

可选地，对加噪图像特征表示进行的去噪处理过程实现为多次迭代过程，在前一部分迭代过程中通过第一注意力矩阵和文本值对加噪图像特征表示进行去噪处理，在后一部分迭代过程中通过第二注意力矩阵和文本值对加噪图像特征表示进行去噪处理，从而经过最后一次去噪处理后得到目标图像。

其中，目标图像的第二图像结构与源图像的第一图像结构之间具有相似关联关系。

可选地，图像结构用于表征图像的整体背景信息，图像结构之间具有相似关联关系，用于表征生成的目标图像的整体背景信息和作为图像编辑基准的源图像的整体背景信息相同或者相似。

示意性的，源图像的整体背景信息为草坪，目标图像的整体背景信息也为草坪，草坪是相同的，即表征源图像和目标图像之间具有相似关联关系；或者，草坪的细节略有差异，但整体视觉差异较小，也可表征源图像的图像结构和目标图像的图像结构之间具有相似关联关系等。

可选地，图像结构用于表征图像的框架信息，图像结构之间具有相似关联关系，用于表征生成的目标图像的框架信息和作为图像编辑基准的源图像的框架信息相同或者相似。

示意性的，源图像的框架信息表征实体元素A位于建筑物B内，目标图像的框架信息表征实体元素A位于建筑物B内，即表征源图像和目标图像之间具有相似关联关系；或者，源图像的框架信息表征实体元素A位于建筑物B内，目标图像的框架信息表征实体元素A位于与建筑物B相似的建筑物C内，因此框架视觉差异较小，则可以视为源图像的图像结构和目标图像的图像结构之间具有相似关联关系等。

综上所述，获取第一文本、第二文本以及加噪图像特征表示，对第一文本和加噪图像特征表示进行关联度分析，得到第一注意力矩阵；对第二文本和加噪图像特征表示进行关联度分析，得到第二注意力矩阵和文本值；进而以第二文本为语义去噪条件，基于第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理，得到目标图像。在对加噪图像特征表示进行去噪处理的过程中，考虑到需要生成的目标图像是在源图像的基础上进行编辑后得到的内容，充分利用第一文本和第二文本之间的语义关联关系，借助第一注意力矩阵表征的图像结构和第二注意力矩阵表征的局部信息，从粗粒度到细粒度的去噪方式中生成目标图像，使得目标图像不仅能较好地保有源图像的图像结构，还能更准确地展现第二文本所指示的细节信息，提升目标图像生成的精细度和准确性，避免人工标注编辑区域的低效问题，提升图像编辑效率。

在一个可选的实施例中，在基于第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理时，根据对加噪图像特征表示的去噪次数，采用分段处理方式执行去噪过程。示意性的，如图3所示，上述图2所示出的步骤240还可以实现为如下步骤310至步骤340。

步骤310，获取次数阈值。

其中，次数阈值是使用不同去噪处理方式用于表征对加噪图像特征表示进行差异去噪处理的阈值分界次数。

示意性的，在对加噪图像特征表示进行去噪处理的过程中，对加噪图像特征表示进行多次迭代去噪处理过程。

例如：首先获取得到加噪图像特征表示，对加噪图像特征表示/>进行一次去噪处理后，得到进行下一次去噪处理的特征表示/>；之后对特征表示/>进行去噪处理得到/>；直至经过T次去噪处理后得到/>等。

可选地，对加噪图像特征表示进行迭代去噪处理的处理次数是预先设定的。例如：预先设定对加噪图像特征表示进行50次迭代去噪过程；或者，预先设定对加噪图像特征表示进行100次迭代去噪过程等。

示意性的，次数阈值的取值小于或者等于处理次数的取值。

在一些实施例中，次数阈值是在处理次数范围内预先选取的数值。

示意性的，预先设定处理次数为50次，次数阈值为20次；或者，预先设定处理次数为50次，次数阈值为15次等。

在一些实施例中，次数阈值是基于取值标准从次数范围内随机选取的数值。

示意性的，取值标准是随机选定的标准；或者，取值标准是基于历史去噪情况设定的标准等。例如：取值标准为次数阈值位于处理次数的前1/4至前1/3处；处理次数预先确定为50次，基于取值标准确定次数阈值位于处理次数的前13至前17处，从该数值范围内随机选取数值15作为次数阈值等。

在一些实施例中，在将n与次数阈值进行比较确定数值比较结果的过程中，考虑到生成目标图像需要经过多次迭代去噪，如T次迭代去噪即依照时间步T、T-1，……时间步2、时间步1的过程逐步去噪，因此可以基于处理次数的分布对去噪处理方式进行灵活调整。

示意性的，生成的图像的整体结构和空间布局主要是在早期的扩散步骤来形成的，即：在对加噪图像特征表示进行迭代去噪处理的过程中，早期的去噪过程更能影响生成的目标图像的整体结构和空间布局（即：图像结构、整体背景信息等）；生成的图像的细节信息主要是在后期的扩散步骤来形成的，即：在对加噪图像特征表示进行迭代去噪处理的过程中，后期的去噪过程更能影响生成的目标图像的细节信息（即：局部细节内容等）。

可选地，基于上述去噪情况引入次数阈值，借助次数阈值对处理次数的分布进行划分，进而基于不同的划分方式对借助第一注意力矩阵和第二注意力矩阵进行去噪的去噪处理方式进行灵活调整。

步骤320，在第n次对加噪图像特征表示进行去噪处理的过程中，确定n与次数阈值之间数值比较结果。

其中n为正整数，n小于或者等于对加噪图像特征表示进行迭代处理的处理次数。

示意性的，第n次为对加噪图像特征表示进行去噪处理时的任意一次去噪过程，在确定n的数值后，将n与获取的次数阈值进行数值比较，从而得到数值比较结果。

其中，数值比较结果存在如下情形：（1）n小于次数阈值；（2）n等于次数阈值；（3）n大于次数阈值。

步骤330，以第二文本为语义去噪条件，以数值比较结果对应的选择条件，选择性通过文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理。

示意性的，在目标图像的生成过程中，将第二文本作为对加噪图像特征表示进行去噪处理的语义去噪条件；此外，在文本值之外，将数值比较结果作为对加噪图像特征表示进行差异化去噪处理的考虑因素，确定第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理时所起到的作用，进而根据数值比较结果对应的选择条件，对文本值、第一注意力矩阵和第二注意力矩阵进行选择性处理，以实现对加噪图像特征表示进行差异化去噪的目的。

可选地，数值比较结果对应的选择条件，用于表征不同数值比较结果分别对应的差异化去噪方式所需要的内容。例如：数值比较结果1对应的选择条件，指示通过文本值和第一注意力矩阵进行去噪过程；数值比较结果2对应的选择条件，指示通过文本值和第二注意力矩阵进行去噪过程等。

在一些实施例中，第一注意力矩阵和第二注意力矩阵是采用相同的预设矩阵表达方式进行处理后得到的矩阵形式。

可选地，第一注意力矩阵是基于第一文本和加噪图像特征表示得到的矩阵，第二注意力矩阵是基于第二文本和加噪图像特征表示得到的矩阵，因此第一注意力矩阵和第二注意力矩阵均可以视为对文本向量和图像向量进行综合处理后得到的结果。

其中，当得到第一注意力矩阵时，文本向量为第一文本，图像向量为加噪图像特征表示；当得到第二注意力矩阵时，文本向量为第二文本，图像向量为加噪图像特征表示。

在一个可选的实施例中，加噪图像特征表示对应噪声图（即：噪声数据二维加噪图像的形式进行表示）。

可选地，在得到第一注意力矩阵时，确定噪声图中的j个噪声像素，j为正整数；对第一文本进行分词处理，得到组成第一文本的i个第一文本词汇，i为正整数；确定i个第一文本词汇分别在j个噪声像素上的权重，得到i×j个矩阵元素；基于i×j个矩阵元素组成第一注意力矩阵。

其中，i为第一文本中任意一个第一文本词汇，j为多个噪声像素中的任意一个噪声像素。

同理，在得到第二注意力矩阵时，确定噪声图中的j个噪声像素，j为正整数；对第二文本进行分词处理，得到组成第二文本的k个第二文本词汇，k为正整数；确定k个第二文本词汇分别在j个噪声像素的权重，得到k×j个矩阵元素；基于k×j个矩阵元素组成第二注意力矩阵。

其中，k为第二文本中任意一个第二文本词汇，j为多个噪声像素中的任意一个噪声像素。

可选地，以对文本向量和图像向量进行综合分析得到注意力矩阵的过程进行说明，该过程通过交叉注意力块实现融合交互过程，目的在于为文本中的每个文本词汇计算在图像上的空间注意力权重矩阵。

示意性的，如图4所示，为通过交叉注意力块对文本向量和图像向量进行融合交互处理的结构示意图。

在获取得到图像向量410和文本向量420后，将图像向量410和文本向量420作为交叉注意力块的输入，通过交叉注意力块中的线性层（Linear）对图像向量410和文本向量420分别进行线性变换，得到矩阵Query（）、Key（/>）以及矩阵Value（/>）。

示意性的，矩阵、矩阵/>和矩阵/>是分别基于/>、/>以及/>计算得到的内容；、/>以及/>是三个可训练的参数矩阵。可选地，/>、/>以及/>是模型训练后已知的固定参数，因此在借助模型进行图像生成时，能够借助/>、/>以及/>确定矩阵/>、矩阵/>和矩阵/>。

例如：用于对图像向量进行线性变换并得到矩阵的线性层对应存储有/>，用于对文本向量进行线性变换并得到矩阵/>的线性层对应存储有/>，用于对文本向量进行线性变换并得到矩阵/>的线性层对应存储有/>；或者，线性层中存储有/>、/>以及/>，基于线性层接收到的不同内容执行对应的线性变换操作。

示意性的，将图像向量410输入线性层后，通过将图像向量410与进行矩阵相乘操作，得到矩阵/>，实现对图像向量410的线性变换过程；将文本向量420输入线性层，通过将文本向量420与/>进行矩阵相乘操作，得到矩阵/>，以及将文本向量420与/>进行矩阵相乘操作，得到矩阵/>，实现对文本向量420的线性变换过程等。

如图4所示，在对图像向量410和文本向量420分别进行线性变换得到矩阵、矩阵以及矩阵/>后，将矩阵/>和矩阵/>通过矩阵乘法（Matrix Multiply，MatMul）层，即对矩阵/>和矩阵/>进行矩阵相乘操作；此外，通过尺度变化（Scale）层对相乘操作后的矩阵进行尺度变化；进而将尺度变化后的矩阵通过激活层（Softmax），得到矩阵/>，将矩阵/>作为基于文本向量420和图像向量410得到的注意力矩阵。示意性的，矩阵/>表达为如下公式一。

公式一：

其中，矩阵由多个/>组成，i用于表征图像向量对应的图像中的第i个图像像素；j用于表征文本向量对应的文本中的第j个文本词汇；/>用于表征第j个文本词汇在第i个图像像素上的权重，即矩阵/>中的元素包括I*J个，I为矩阵的行（或列）的数量，代表图像向量对应的图像中图像像素的数量，J为矩阵的列（或行）的数量，代表文本向量对应的文本中文本词汇的数量；/>用于表示矩阵/>的转置矩阵；/>用于表示映射后的向量维度。

如图4所示，在得到矩阵后，将矩阵/>和矩阵/>通过MatMul层进行矩阵相乘操作，得到输入矩阵/>，则输入矩阵/>。

可选地，将上述矩阵称为注意力矩阵/>，或者称为交叉注意力矩阵/>。矩阵/>的形状是[pixel_num，token_num]。

其中pixel_num是图像向量对应图像的像素点数量（如上述公式一注释中的I），等于图像的宽度乘以高度（width*height）；token_num是文本向量对应文本的序列长度，如序列长度实现为对文本进行分词处理后的文本词汇的词汇数量。

借助注意力矩阵，实现对文本向量和图像向量的交叉融合分析过程，绑定了文本中的文本词汇与图像中的图像像素之间的直接关联，其中包含了丰富的语义信息，很大程度上影响了图像生成的过程。

在一些实施例中，借助上述得到注意力矩阵的方式，对第一文本进行特征提取得到第一文本向量，将第一文本向量作为上述文本向量，将加噪图像特征表示作为上述图像向量，从而得到第一注意力矩阵，如表示为第一注意力矩阵。该第一注意力矩阵由大量第一矩阵元素组成，第一矩阵元素的数量，为加噪图像特征表示对应的噪声图（即：噪声数据）的第一噪声像素的数量，以及组成第一文本的第一文本词汇的数量之积。其中任意一个矩阵元素表征第一文本词汇在第一像素上的权重。

同理，借助上述得到注意力矩阵的方式，对第二文本进行特征提取得到第二文本向量，将第二文本向量作为上述文本向量，将加噪图像特征表示作为上述图像向量，从而得到第二注意力矩阵，如表示为第二注意力矩阵。该第二注意力矩阵由大量第二矩阵元素组成，第二矩阵元素的数量，为加噪图像特征表示对应的噪声图（即：噪声数据）的第二噪声像素的数量，以及组成第二文本的第二文本词汇的数量之积。其中任意一个矩阵元素表征第二文本词汇在第二像素上的权重。

在一个可选的实施例中，以第二文本为语义去噪条件，响应于数值比较结果指示n小于或者等于次数阈值，以第一注意力矩阵和文本值之间的第一矩阵乘积，对加噪图像特征表示进行去噪处理。

示意性的，当n与次数阈值之间数值比较结果指示n小于或者等于次数阈值，则代表当前进行的第n次去噪处理属于前期的去噪过程，因此采用基于第一文本计算得到的第一注意力矩阵对加噪图像特征表示进行去噪过程，以便能够辅以第一注意力矩阵表征的源图像的图像结构，对加噪图像特征表示进行去噪过程。

可选地，在基于第一注意力矩阵对加噪图像特征表示进行去噪过程时，将第一注意力矩阵与文本值之间进行矩阵乘积，从而得到第一矩阵乘积；进而通过第一矩阵乘积对加噪图像特征表示进行去噪处理。

示意性的，通过第一矩阵乘积预测对加噪图像特征表示进行去噪处理时的预测噪声数据，从而通过预测噪声数据对加噪图像特征表示进行去噪处理。

在一个可选的实施例中，以第二文本为语义去噪条件，响应于数值比较结果指示n大于或者等于次数阈值，以第二注意力矩阵和文本值之间的第二矩阵乘积，对加噪图像特征表示进行去噪处理。

示意性的，当n与次数阈值之间数值比较结果指示n大于或者等于次数阈值，则代表当前进行的第n次去噪处理属于后期的去噪过程，因此采用基于第二文本计算得到的第二注意力矩阵对加噪图像特征表示进行去噪过程，以便能够辅以第二注意力矩阵表征的图像的细节信息，对加噪图像特征表示进行细粒度的去噪过程等。

可选地，在基于第二注意力矩阵对加噪图像特征表示进行去噪过程时，将第二注意力矩阵与文本值之间进行矩阵乘积，从而得到第二矩阵乘积；进而通过第二矩阵乘积对加噪图像特征表示进行去噪处理。

示意性的，通过第二矩阵乘积预测对加噪图像特征表示进行去噪处理时的预测噪声数据，从而通过预测噪声数据对加噪图像特征表示进行去噪处理等。

步骤340，响应于对加噪图像特征表示进行去噪处理的次数达到预设处理次数，得到目标图像。

示意性的，预设处理次数即预设的处理次数；当对加噪图像特征表示进行去噪处理的次数达到预设处理次数时，即代表对加噪图像特征表示完成去噪过程，从而得到目标图像。

在一些实施例中，基于对加噪图像特征表示进行预设处理次数的迭代去噪过程后，得到去噪图像特征表示。

其中，去噪图像特征表示是对加噪图像特征表示进行去噪处理后得到的特征表示。如加噪图像特征表示为，经过T次的迭代去噪过程后得到去噪图像特征表示为/>等。

在一些实施例中，对去噪图像特征表示进行解码处理，得到目标图像。

示意性的，去噪图像特征表示是表示为特征形式的内容，通过解码处理对特征表示进行还原，从而得到去噪图像特征表示所表征的图像内容，即目标图像。

可选地，通过解码器对去噪图像特征表示进行解码处理，从而得到目标图像。

综上所述，在对加噪图像特征表示进行去噪处理的过程中，考虑到需要生成的目标图像是在源图像的基础上进行编辑后得到的内容，充分利用第一文本和第二文本之间的语义关联关系，借助第一注意力矩阵表征的图像结构和第二注意力矩阵表征的局部信息，从粗粒度到细粒度的去噪方式中生成目标图像，使得目标图像不仅能较好地保有源图像的图像结构，还能更准确地展现第二文本所指示的细节信息，提升目标图像生成的精细度和准确性，避免人工标注编辑区域的低效问题，提升图像编辑效率。

在本申请实施例中，介绍了次数阈值对于去噪过程的影响。考虑到注意力矩阵在去噪前期起到限定图像结构的作用，因此在次数阈值表征的去噪前期，基于第一注意力矩阵执行图像去噪过程；在次数阈值表征的去噪后期，基于第二注意力矩阵执行图像去噪过程，从而能够在使得目标图像的图像结构与源图像的图像结构相似的基础上，借助第二文本对目标图像中需要编辑的细节区域进行细粒度的去噪过程，提高目标图像的生成准确性，借助去噪过程的分段操作，更针对性地实现去噪过程。

在一个可选的实施例中，在基于第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理时，根据第一文本与第二文本之间存在差异的差异文本词汇的词汇类型，从而基于词汇类型确定对加噪图像特征表示进行去噪处理的处理方式。示意性的，如图5所示，上述图2所示出的步骤240还可以实现为如下步骤510至步骤540。

步骤510，获取第一文本和第二文本之间存在差异的差异文本词汇。

示意性的，在获取得到第一文本和第二文本后，确定组成第一文本的文本词汇以及组成第二文本的文本词汇。

可选地，将组成第一文本的文本词汇称为第一文本词汇，将组成第二文本的文本词汇称为第二文本词汇，比较第一文本词汇和第二文本词汇之间的差异，从而确定第一文本和第二文本之间的差异文本词汇。

示意性的，差异文本词汇是存在差异关系的文本词汇，差异关系包括词汇单元差异和词汇权重差异中的至少一种。词汇单元差异是指组成文本词汇的词汇单元之间存在差异，如文本词汇“兔子”和文本词汇“狗”之间表征词汇单元差异；词汇权重差异是指组成文本词汇的词汇单元的权重之间存在差异，如文本词汇“兔子”的权重1和文本词汇“兔子”的权重0.8之间存在差异等。

在一些实施例中，获取第一文本和第二文本之间的词汇关联关系。词汇关联关系用于表征第一文本与第二文本之间存在差异的差异文本词汇。

可选地，词汇关联关系包括词汇替换关系、词汇增添删减关系以及词汇权重变化关系中的至少一种。

示意性的，词汇替换关系是指第一文本和第二文本之间的差异文本词汇为基于词汇替换过程得到的词汇。例如：第一文本词汇“兔子在吃草”，组成第一文本的第一文本词汇包括“兔子”、“在吃”和“草”；第二文本为“兔子在吃胡萝卜”，组成第二文本的第二文本词汇包括“兔子”、“在吃”和“胡萝卜”；其中第一文本与第二文本之间相同的文本词汇为“兔子”和“在吃”，差异文本词汇为“草”和“胡萝卜”，因此第一文本和第二文本之间的词汇关联关系表征：第二文本中的“胡萝卜”是基于对第一文本中的“草”进行词汇替换后得到的词汇。

示意性的，词汇增添删减关系是指第一文本和第二文本之间的差异文本词汇为基于词汇填充过程或词汇删减过程得到的词汇。例如：第一文本为“兔子在吃草”，组成第一文本的第一文本词汇包括“兔子”、“在”、“吃”和“草”；第二文本为“兔子在窝边吃草”，组成第二文本的第二文本词汇包括“兔子”、“在”、“窝边”、“吃”和“胡萝卜”；其中第一文本与第二文本之间的差异文本词汇为“窝边”，因此第一文本和第二文本之间的词汇关联关系表征：第二文本中的“窝边”是基于对第一文本中进行词汇填充后得到的词汇；同理，若第一文本为“兔子在窝边吃草”，第二文本为“兔子在吃草”，第一文本与第二文本之间的差异文本词汇为“窝边”，因此第一文本和第二文本之间的词汇关联关系表征：第二文本是基于对第一文本中的“窝边”进行词汇删减后得到的内容。

示意性的，词汇权重关系是指第一文本和第二文本之间的差异文本词汇为基于词汇权重调整过程得到的词汇。例如：第一文本为“兔子在吃草”，第二文本为“兔子在吃草”。其中，第一文本中不同第一文本词汇的词汇权重是预先设定的数值，如多个第一文本词汇的词汇权重相同；第一文本中的第二文本词汇“草”的词汇权重是经过调整后的数值。因此第一文本和第二文本之间的词汇关联关系表征：第二文本是基于对第一文本中的“草”进行词汇权重增加后得到的内容等。

步骤520，确定差异文本词汇对应的词汇类型。

其中，词汇类型用于描述第二文本中的差异文本词汇与第一文本之间的关系。

示意性的，差异文本词汇的词汇类型，也用于表征第一文本和第二文本之间的词汇关联关系。

可选地，词汇关联关系实现为词汇替换关系，则差异文本词汇的词汇类型为替换词汇；或者，词汇关联关系实现为词汇增添删减关系，则差异文本词汇的词汇类型为新增词汇或删除词汇；词汇关联关系实现为词汇权重变化关系，则差异文本词汇的词汇类型为增强词汇或减弱词汇等。

步骤530，在以第二文本为语义去噪条件的情况下，以词汇类型对应的选择条件，选择性通过文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理。

在一些实施例中，在对加噪图像特征表示进行去噪处理时，将词汇类型作为去噪处理过程中的参与因素，从而借助第二文本为语义去噪条件，借助词汇类型为去噪处理因素，选择性地通过文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理。

可选地，词汇类型对应的选择条件，用于表征不同词汇类型分别对应的差异化去噪方式所需要的内容。例如：词汇类型1对应的选择条件，指示通过文本值和第一注意力矩阵进行去噪过程；词汇类型2对应的选择条件，指示通过文本值和第二注意力矩阵进行去噪过程等。

示意性的，当差异文本词汇实现为替换词汇，采用策略1的方式通过文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理；当差异文本词汇实现为新增词汇，采用策略2的方式通过文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理等。

在一些实施例中，基于差异文本词汇的词汇类型进行去噪过程如下说明。

（一）差异文本词汇的词汇类型为替换词汇

在一个可选的实施例中，获取次数阈值。

可选地，迭代去噪处理的处理次数是预先设定的，次数阈值的取值小于或者等于处理次数的取值。

在一个可选的实施例中，在第n次对加噪图像特征表示进行去噪处理的过程中，响应于差异文本词汇为替换词汇，且n小于或者等于次数阈值，通过第一注意力矩阵和文本值对加噪图像特征表示进行去噪处理。

可选地，基于次数阈值是使用不同去噪处理方式对加噪图像特征表示进行去噪处理的分界次数，次数阈值是小于预设处理次数的正整数，预设处理次数是预先设定的、对加噪图像特征表示进行去噪处理的次数。例如：预设处理次数为50次，次数阈值为预先设定的数值20，则若差异文本词汇为替换词汇，n≤20时，通过第一注意力矩阵和文本值对加噪图像特征表示进行去噪处理；其中，基于n小于等于次数阈值，次数阈值小于预设处理次数，因此n为小于预设处理次数的正整数。

示意性的，第n次为对加噪图像特征表示进行去噪处理时的任意一次去噪过程，在确定n的数值后，将n与获取的次数阈值进行数值比较；当差异文本词汇为替换词汇，且n小于或者等于次数阈值，通过第一注意力矩阵和文本值对加噪图像特征表示进行去噪处理。

在一些实施例中，响应于差异文本词汇为替换词汇，且n小于或者等于次数阈值，对第一注意力矩阵和文本值进行矩阵相乘，得到第一矩阵。

示意性的，基于n小于或者等于次数阈值，代表当前的第n次去噪过程属于前期去噪过程。其中的文本值用于表示第二文本对应的文本信息，在确定差异文本词汇为替换词汇，且n小于或者等于次数阈值后，除以第二文本为引导条件外，将基于第一文本和加噪图像特征表示得到的第一注意力矩阵和基于第二文本得到的文本值进行矩阵相乘，从而得到第一矩阵。

在一些实施例中，通过第一矩阵预测得到第一预测噪声。

其中，第一预测噪声是指基于加噪图像特征表示进行去噪处理时采用的噪声数据。

可选地，在第一次去噪处理过程中，第一预测噪声实现为针对加噪图像特征表示进行去噪处理时采用的噪声数据；在第二次去噪处理过程中，第一预测噪声实现为针对第一次去噪后的加噪图像特征表示进行去噪处理时采用的噪声数据等。

示意性的，在得到第一矩阵后，以第二文本为引导条件对第一矩阵进行去噪分析，以便确定当前去噪处理过程中的第一预测噪声。

在一些实施例中，以第一预测噪声对加噪图像特征表示进行去噪处理，得到第一次去噪后的加噪图像特征表示。

在一些实施例中，以第一预测噪声对第n次去噪处理后的加噪图像特征表示进行去噪处理。其中n为正整数。

示意性的，在第n次去噪处理后的加噪图像特征表示的基础上，获取得到第一预测噪声，进而从第n次去噪处理后的加噪图像特征表示中减去第一预测噪声，从而得到第n+1次去噪处理后的加噪图像特征表示等。

在一个可选的实施例中，在第n次对加噪图像特征表示进行去噪处理的过程中，响应于差异文本词汇为替换词汇，且n大于或者等于次数阈值，通过第二注意力矩阵和文本值对加噪图像特征表示进行去噪处理。

可选地，次数阈值是小于预设处理次数的正整数，预设处理次数是预先设定的、对加噪图像特征表示进行去噪处理的次数。例如：预设处理次数为50次，次数阈值为预先设定的数值20，则若差异文本词汇为替换词汇，n≥20时，通过第二注意力矩阵和文本值对加噪图像特征表示进行去噪处理；其中，基于n大于等于次数阈值，次数阈值小于预设处理次数，因此n为大于等于次数阈值且小于预设处理次数的正整数。在一些实施例中，响应于差异文本词汇为替换词汇，且n大于或者等于次数阈值，对第二注意力矩阵和文本值进行矩阵相乘，得到第二矩阵。

示意性的，基于n大于或者等于次数阈值，代表当前的第n次去噪过程属于后期去噪过程。文本值用于表示第二文本对应的文本信息，在确定差异文本词汇为替换词汇，且n大于或者等于次数阈值后，除以第二文本为引导条件外，将基于第二文本和加噪图像特征表示得到的第二注意力矩阵和基于第二文本得到的文本值进行矩阵相乘，从而得到第二矩阵。

在一些实施例中，通过第二矩阵预测得到第二预测噪声。

其中，第二预测噪声是用于对第n次去噪处理后的加噪图像特征表示进行去噪处理时采用的噪声数据。

可选地，基于次数阈值是使用不同去噪处理方式对加噪图像特征表示进行去噪处理的分界次数，次数阈值至少为大于1的整数，因此当n大于等于次数阈值时，n至少为大于1的正整数。

示意性的，在得到第二矩阵后，以第二文本为引导条件对第二矩阵进行去噪分析，以便确定当前去噪处理过程中的第二预测噪声。

在一些实施例中，以第二预测噪声对第n次去噪处理后的加噪图像特征表示进行去噪处理。

示意性的，在第n次去噪处理后的加噪图像特征表示的基础上，获取得到第二预测噪声，进而从第n次去噪处理后的加噪图像特征表示中减去第二预测噪声，从而得到第n+1次去噪处理后的加噪图像特征表示等。

在一个可选的实施例中，对上述过程进行说明，并以下述条件函数对上述过程进行概述。

示意性的，替换词汇用于表征以新的文本词汇替换掉第一文本中的某些文本词汇，从而得到第二文本。例如，第一文本为“a cute cat”，用文本词汇“dog”替换掉“cat”，修改后得到的第二文本为“a cute dog”。因此图像编辑的挑战在于使用第二文本生成目标图像时，需要保持与第一文本对应的源图像相同的整体结构和空间布局。为了实现这一点，在潜在扩散模型使用第二文本生成目标图像的过程中，可以选择性地注入与第一文本对应的第一注意力矩阵。

具体地，生成目标图像需要对加噪图像特征表示进行T次迭代去噪，即：时间步T……时间步t……时间步1。设定次数阈值，在扩散的早期阶段，即当/>时，采用第一文本对应的第一注意力矩阵（如表示为/>）；当/>时，则采用第二文本对应的第二注意力矩阵/>。在词汇类型指示差异文本词汇为替换词汇的情况下，对加噪图像特征表示进行去噪过程时采用的注意力矩阵的公式如下公式二（条件函数）所示。

公式二：

其中，用于表示对加噪图像特征表示进行去噪过程时采用的注意力矩阵；/>用于表示对/>进行编辑的处理方式，可以视为条件函数的划分标识；/>是第一注意力矩阵；/>是第二注意力矩阵；/>用于表示与注意力矩阵对应的图像像素和文本词汇。

如图6所示，为借助公式二的注意力矩阵进行注意力矩阵编辑的示意图。在次数阈值之前的去噪处理过程中，采用第一文本对应的第一注意力矩阵610进行去噪过程；在次数阈值之后的去噪处理过程中，采用第二文本对应的第二注意力矩阵620进行去噪过程。

如图7所示，图像710为第一文本对应的源图像，与源图像对应的第一文本为“acute cat”；基于对第一文本中“cat”的替换过程，得到第二文本“a cute dog”，从而基于本申请实施例生成图像720，图像720为在第二文本的条件下，通过如上公式二所示的注意力矩阵编辑过程以及去噪过程生成的目标图像。

（二）差异文本词汇的词汇类型为新增词汇或删除词汇

在一个可选的实施例中，在第n次对加噪图像特征表示进行去噪处理的过程中，响应于词汇类型指示差异文本词汇为新增词汇，对组成第二文本的多个文本词汇与第一文本之间的包含关系分别进行分析，得到与多个文本词汇分别对应的分析结果；基于分析结果，通过第一注意力矩阵中的矩阵元素和第二注意力矩阵中的矩阵元素得到调整注意力矩阵。

其中，矩阵元素用于描述文本词汇在图像像素上的权重。

示意性的，对组成第二文本的多个文本词汇分别进行分析，以确定第一文本中是否存在该文本词汇，进而得到与多个文本词汇分别对应的分析结果。

可选地，针对组成第二文本的多个文本词汇中的任意一个文本词汇，分析结果包括如下两种情况：（1）第一文本中存在该文本词汇；（2）第一文本中不存在该文本词汇。

在一些实施例中，获取次数阈值。

示意性的，在对加噪图像特征表示进行去噪处理的过程中，对加噪图像特征表示进行多次迭代去噪处理过程；迭代去噪处理的处理次数是预先设定的，次数阈值的取值小于或者等于处理次数的取值。

在一些实施例中，针对多个文本词汇中的指定文本词汇，响应于分析结果指示文本词汇是组成第一文本的文本词汇，且n大于或者等于次数阈值，获取指定文本词汇在第一文本中的词汇索引。

其中，指定文本词汇是多个文本词汇中任意一个文本词汇，以指定文本词汇的分析结果进行说明为例。

示意性的，当分析结果指示指定文本词汇是组成第一文本的文本词汇，且n大于或者等于次数阈值，即代表去噪过程位于前期，且能从第一文本对应的第一注意力矩阵中确定部分可用的矩阵元素。基于此，从第一文本中确定与指定文本词汇对应的词汇索引。

可选地，词汇索引用于表征文本词汇在第一文本中的位置。例如：第一文本为“兔子在吃草”，第二文本中的文本词汇“兔子”也是组成第一文本对文本词汇，且文本词汇“兔子”在第一文本中的词汇索引为“1”，代表“兔子”在第一文本中属于一个文本词汇等。

在一些实施例中，基于词汇索引从第一注意力矩阵中确定与词汇索引对应的第一矩阵元素。

示意性的，第一注意力矩阵中包括多个矩阵元素，每个矩阵元素用于描述文本词汇在图像像素上的权重。

可选地，文本词汇通过词汇索引进行标识，图像像素通过像素索引进行标识。在确定基于文本词汇确定词汇索引后，从第一注意力矩阵中确定词汇索引所指示的矩阵元素作为与词汇索引对应的第一矩阵元素。

例如：第一注意力矩阵中包括矩阵元素M₁₁、M₁₂、M₁₃、M₂₁、M₂₂以及M₂₃；矩阵元素M₁₁代表词汇索引1表征的文本词汇在像素标识1表征的图像像素上的权重；同理，矩阵元素M₁₂代表词汇索引1表征的文本词汇在像素标识2表征的图像像素上的权重；同理，矩阵元素M₂₃代表词汇索引2表征的文本词汇在像素标识3表征的图像像素上的权重等。

因此若基于文本词汇从第一文本中确定词汇索引为词汇索引1，则会从第一注意力矩阵中确定词汇索引1所指示的矩阵元素M₁₁、M₁₂以及M₁₃，并将矩阵元素M₁₁、M₁₂以及M₁₃作为词汇索引对应的第一矩阵元素。

在一些实施例中，基于第一矩阵元素组成调整注意力矩阵。

示意性的，将基于词汇索引确定的第一矩阵元素置于调整注意力矩阵对应的元素位置，并对组成第二文本的其他文本词汇分别进行分析，以基于全部文本词汇得到调整注意力矩阵。

其中，调整注意力矩阵即基于第一注意力矩阵和第二注意力矩阵中的矩阵元素得到的注意力矩阵。

在一些实施例中，针对多个文本词汇中的指定文本词汇，响应于分析结果指示指定文本词汇不是组成第一文本的文本词汇，基于第二注意力矩阵得到调整注意力矩阵。

示意性的，在当前进行分析的、第二文本中的指定文本词汇不是组成第一文本的文本词汇，则代表该指定文本词汇是差异文本词汇，因此需要基于第二文本和加噪图像特征表示得到的第二注意力矩阵得到调整注意力矩阵。

可选地，从第二文本中确定指定文本词汇对应的词汇索引，基于该词汇索引从第二注意力矩阵中确定相关的矩阵元素，并置于调整注意力矩阵中与该指定文本词汇对应的元素位置，从而得到调整注意力矩阵。

在一些实施例中，针对多个文本词汇中的指定文本词汇，响应于分析结果指示文本词汇不是组成第一文本的文本词汇，且n大于或者等于次数阈值，基于第二注意力矩阵得到调整注意力矩阵。

其中，指定文本词汇是多个文本词汇中任意一个文本词汇。

示意性的，新增词汇用于表征在第一文本的基础上新增文本词汇，从而得到第二文本。例如，第一文本为“a castle”，新增文本词汇“children drawing of”，修改后得到的第二文本为“children drawing of a castle”。为了保持第一文本和第二文本共有的细节特征，只在第一文本和第二文本共有的文本词汇上注入和修改注意力矩阵。

示意性的，在上述内容中，第一文本和第二文本共有的文本词汇为“a castle”，因此只这两个共有的文本词汇上注入第一注意力矩阵，而针对第二文本的独有词“childrendrawing of”对应的第二注意力矩阵保持不变。

可选地，定义一个预设函数，输入第二文本中的一个文本词汇的词汇索引，如果词汇索引指示文本词汇存在于第一文本中，则输出该文本词汇在第一文本中的词汇索引；如果不存在，则输入为-1；此外，只在扩散的早期阶段注入和修改注意力矩阵，其他时间步则保持不变。因此差异文本词汇的词汇类型为新增词汇时公式三如下所示。

公式三：

其中，用于表示对加噪图像特征表示进行去噪过程时采用的注意力矩阵；/>用于表示对/>进行编辑的处理方式，可以视为条件函数的划分标识；/>是第一注意力矩阵；/>是第二注意力矩阵；/>用于表示与注意力矩阵对应的图像像素和文本词汇；/>是用于对文本词汇/>进行索引判断的函数表达。

如图8所示，为借助公式三的注意力矩阵进行注意力矩阵编辑的示意图。在第一注意力矩阵810的矩阵元素和第二注意力矩阵的矩阵元素（图中未示出）的基础上，在且次数阈值之前的去噪处理过程中，采用第一个条件公式得到调整注意力矩阵820中的部分矩阵元素；在/>或次数阈值之后的去噪处理过程中，采用第二个条件公式得到的调整注意力矩阵820中的另一部分矩阵元素，从而得到完整的调整注意力矩阵820，并通过完整的调整注意力矩阵820进行去噪过程。

如图9所示，图像910为第一文本对应的源图像，与源图像对应的第一文本为“acastle”；基于对第一文本的词汇新增过程，得到第二文本“children drawing of acastle”，从而基于本申请实施例生成图像920，图像920为在第二文本的条件下，通过如上公式三所示的注意力矩阵编辑过程以及去噪过程生成的目标图像。

在一些实施例中，当差异文本词汇实现为删除词汇时，在次数阈值之前的去噪过程中，基于第一注意力矩阵和文本值进行去噪处理；在次数阈值之前的去噪过程中，基于第二注意力矩阵和文本值进行去噪处理等。

（三）差异文本词汇的词汇类型为增强词汇或减弱词汇

在一个可选的实施例中，获取次数阈值。

在一个可选的实施例中，在第n次对加噪图像特征表示进行去噪处理的过程中，响应于词汇类型指示差异文本词汇为增强词汇，且n小于或者等于次数阈值，从第二注意力矩阵中确定差异文本词汇对应的第二矩阵元素；获取差异文本词汇的增强权重。

示意性的，在确定差异文本词汇后，从第二注意力矩阵中确定差异文本词汇与多个图像像素分别对应的矩阵元素作为第二矩阵元素。

示意性的，差异文本词汇为增强词汇代表第一文本和第二文本中均有该文本词汇，但是差异文本词汇在第一文本中的权重比差异文本词汇在第一文本中的权重小。增强权重用于表征相比第一文本中的相同文本词汇，差异文本词汇在第二文本中的权重增长情况，权重能够表征文本的语义强调结果。

可选地，文本词汇的权重变化是预先确定的，即增强权重的数值是预先设定的内容。例如：第一文本为“兔子在吃草”，第二文本为“兔子在吃草”，其中相比第一文本中“草”的权重1，第二文本中“草”的权重为1.2。

同理，在第n次对加噪图像特征表示进行去噪处理的过程中，响应于差异文本词汇为减弱词汇，且n小于或者等于次数阈值，获取差异文本词汇的减弱权重。

示意性的，差异文本词汇为减弱词汇代表第一文本和第二文本中均有该文本词汇，但是差异文本词汇在第一文本中的权重比差异文本词汇在第一文本中的权重大。减弱权重用于表征相比第一文本中的相同文本词汇，差异文本词汇在第二文本中的权重减弱情况，权重能够表征文本的语义强调结果等。

在一个可选的实施例中，以差异文本词汇为增强词汇为例，从第二注意力矩阵中确定差异文本词汇对应的第二矩阵元素；以第二文本为语义去噪条件，通过增强权重对第二矩阵元素进行调整，并对加噪图像特征表示进行去噪处理。

示意性的，存在多个矩阵元素时，通过增强权重对多个第二矩阵元素分别进行调整，得到调整注意力矩阵；以第二文本为语义去噪条件，通过调整注意力矩阵和文本值之积对加噪图像特征表示进行去噪处理。

在一个可选的实施例中，以差异文本词汇为减弱词汇为例，从第二注意力矩阵中确定差异文本词汇对应的第二矩阵元素；以第二文本为语义去噪条件，通过对第二矩阵元素进行调整，并对加噪图像特征表示进行去噪处理。

示意性的，存在多个矩阵元素时，通过减弱权重对多个第二矩阵元素分别进行调整，得到调整注意力矩阵；以第二文本为语义去噪条件，通过调整注意力矩阵和文本值之积对加噪图像特征表示进行去噪处理等。

示意性的，以增强词汇为例，增强词汇用于表征在不改变第一文本中文本词汇内容的基础上，对其中的部分文本词汇进行语义增强，从而得到第二文本。例如，第一文本为“a fluffy ball”，若希望可以增强（或减弱）某些文本词汇对生成的图像的作用和影响，可以对其中文本词汇进行语义增强，如对其中的“fluffy”进行语义增强，从而得到第二文本为“afluffyball”。

可选地，可以通过增大或缩小词“fluffy”对应的注意力矩阵中的矩阵元素，而其他文本词汇对应的注意力矩阵中的矩阵元素保持不变，来增强或减弱这个文本词汇在图像生成过程中的作用。

示意性的，对应某个特定文本词汇j*，将注意力矩阵中与该文本词汇对应的矩阵元素乘以一个权重系数c，而其他文本词汇对应的矩阵元素的权重系数保持不变。

其中，当c>1时，增大该文本词汇在图像生成过程中的作用；当c<1时，减小该文本词汇在图像生成过程中的作用。同时，与替换词类似，只在扩散的早期阶段注入和修改交叉注意力权重矩阵，其他时间步则保持不变。增强词的情况下，编辑交叉注意力矩阵的公式如下公式四所示。

公式四：

其中，用于表示对加噪图像特征表示进行去噪过程时采用的注意力矩阵；/>用于表示对/>进行编辑的处理方式，可以视为条件函数的划分标识；/>是第一注意力矩阵；/>是第二注意力矩阵；/>用于表示与注意力矩阵对应的图像像素和文本词汇；/>是存在权重变化的文本词汇；/>是任意一个文本词汇，可能实现为/>；/>是文本词汇/>对应的权重系数。

如图10所示，为借助公式四的注意力矩阵进行注意力矩阵编辑的示意图。在第二注意力矩阵1010的矩阵元素的基础上，在且次数阈值之前的去噪处理过程中，采用第一个条件公式得到调整注意力矩阵1020中的部分矩阵元素；在/>或次数阈值之后的去噪处理过程中，采用第二个条件公式得到的调整注意力矩阵1020中的另一部分矩阵元素，从而得到完整的调整注意力矩阵1020，并通过完整的调整注意力矩阵1020进行去噪过程。

步骤540，响应于对加噪图像特征表示进行去噪处理的次数达到预设处理次数，得到目标图像。

在一个可选的实施例中，以第二文本为语义去噪条件，基于文本值、第一注意力矩阵和第二注意力矩阵，得到预测噪声数据；以预测噪声数据对加噪图像特征表示进行去噪处理，得到目标图像。

其中，预测噪声数据用于表征对加噪图像特征表示进行去噪处理时的噪声预测情况。

在一个可选的实施例中，以第二文本为语义去噪条件，基于文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行m次迭代去噪处理过程，得到去噪特征表示。

其中，去噪特征表示是对加噪图像特征表示去噪后得到的特征表示，其中m为正整数。

在一些实施例中，在第n+1次去噪处理过程中，获取第n次去噪后的加噪图像特征表示，其中n为小于m的正整数。

示意性的，n为m次迭代去噪处理过程中的任意一个处理过程，第n次去噪后的加噪图像特征表示是对加噪图像特征表示进行n次去噪后得到的中间特征表示。

可选地，在第一次去噪处理过程中，针对加噪图像特征表示进行去噪处理，从而得到第一次去噪后的加噪图像特征表示。

在一些实施例中，基于第n次去噪后的加噪图像特征表示和第一文本，获取第n+1次去噪处理过程对应的第一注意力矩阵；基于第n次去噪后的加噪图像特征表示和第二文本，获取第n+1次去噪处理过程对应的第二注意力矩阵和文本值。

示意性的，在借助第一注意力矩阵、第二注意力矩阵以及文本值进行去噪过程时，每一次去噪过程通过前一次去噪后的加噪图像特征表示，计算当前进行去噪过程所采用的注意力矩阵。其中，基于文本值是基于第二文本得到的内容，因此文本值可以在迭代去噪过程中不重复计算；但是因为第一注意力矩阵和第二注意力矩阵均与参与计算的图像向量（去噪后的加噪图像特征表示）相关，因此需要在迭代去噪过程中重复计算。

在一些实施例中，以第二文本为语义去噪条件，基于第n+1次去噪处理过程对应的第二注意力矩阵和文本值以及第n+1次去噪处理过程对应的第一注意力矩阵，对第n次去噪后的加噪图像特征表示进行去噪处理过程，直至进行m次迭代去噪处理过程后，得到去噪特征表示。

示意性的，对加噪图像特征表示进行预设处理次数的迭代去噪过程。

可选地，在第一次去噪过程中，通过加噪图像特征表示和第一文本得到第一注意力矩阵（第一次去噪过程对应的第一注意力矩阵），基于加噪图像特征表示和第二文本得到第二注意力矩阵（第一次去噪过程对应的第二注意力矩阵），进而基于第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行第一次去噪过程，得到第一次去噪后的加噪图像特征表示。

之后，在第二次去噪过程中，通过第一次去噪后的加噪图像特征表示和第一文本得到第一注意力矩阵（第二次去噪过程对应的第一注意力矩阵），基于第一次去噪后的加噪图像特征表示和第二文本得到第二注意力矩阵（第二次去噪过程对应的第二注意力矩阵），进而基于第一注意力矩阵和第二注意力矩阵对第一次去噪后的加噪图像特征表示进行第二次去噪过程，得到第二次去噪后的加噪图像特征表示等。

最后，在第m次去噪过程中，通过第m-1次去噪后的加噪图像特征表示和第一文本得到第一注意力矩阵（第m次去噪过程对应的第一注意力矩阵），基于第m-1次去噪后的加噪图像特征表示和第二文本得到第二注意力矩阵（第m次去噪过程对应的第二注意力矩阵），进而基于第一注意力矩阵和第二注意力矩阵对第m-1次去噪后的加噪图像特征表示进行第m次去噪过程，得到去噪特征表示。该去噪特征表示即对加噪图像特征表示进行预设处理次数的迭代去噪过程后得到的特征表示，其中，m为预设的处理次数。

在一些实施例中，对去噪特征表示进行解码处理，生成目标图像。

在本申请实施例中，介绍了不同词汇类型对于去噪过程的影响。借助注意力矩阵控制组成文本的文本词汇与图像像素之间的关联，在扩散过程中，通过注入与源图像对应的第一文本的第一注意力矩阵，控制编辑图像时所采用的注意力矩阵情况，因此只需要修改文本即可以实现基于源图像的图像编辑，并得到目标图像的目的。

在一个可选的实施例中，将上述图像生成方法称为“一种基于扩散模型的图片编辑方法”，以应用该方法的图像生成模型为潜在扩散模型为例，该方法可以包括如下内容。

（一）预训练潜在扩散模型

示意性的，采用预训练的潜在扩散模型作为图像生成模型。如图11所示，潜在扩散模型包括图像自编码器1110、文本编码器1120以及去噪网络1130三部分，其中，图像自编码器1110包括了编码器和解码器。

首先，给定样本数据对（或称训练数据），每条训练数据包括一张图像和一个文本，文本描述了图像中的内容；或者称，每条训练数据是一个二元组（图像，该图像对应的文本描述）。给定训练数据后，可以预先对潜在扩散模型进行预训练。

潜在扩散模型的训练过程包括：采用图像自编码器1110的编码器对训练数据中的输入图像进行编码表示，得到图像向量表示；在潜在扩散模型的潜在空间中对图像向量表示进行随机扩散处理，并在时刻T加入随机高斯噪声，得到加噪图像向量表示。利用文本编码器1120对训练数据中的输入文本进行编码，得到文本向量表示。

进一步地，将加噪图像向量表示和文本向量表示输入到去噪网络1130中，由去噪网络1130在以文本向量表示为条件的同时，多次迭代地对加噪图像向量表示进行去噪。其中，去噪网络1130对加噪图像向量表示进行T次迭代去噪，得到去噪后的图像向量表示，并将去噪后的图像向量表示由图像自编码器1110的解码器进行解码，输出还原后的图像。在训练过程中，计算潜在扩散模型的损失函数，通过最小化损失函数来更新潜在扩散模型的模型参数，直到训练结束得到预训练好的潜在扩散模型。

（二）潜在扩散模型的交叉注意力块

如图11所示，潜在扩散模型的去噪网络1130是一个对称的架构，其输入和输出的空间大小是相同的。在相应特征维度的编码层和解码层之间使用残差链接。输入图像向量表示先被降维，然后再升维，直到达到初始维度。

在一些实施例中，潜在扩散模型的去噪网络是由残差神经网络块（residualnetwork，ResNet）、交叉注意力块组成的。

如图4所示，为文本向量420和图像向量410在交叉注意力块发生融合交互的示意图，从而为输入文本中的每个文本词汇计算得到在图像像素上的注意力矩阵。

示意性的，如图12所示，为文本向量和图像向量在交叉注意力块进行融合交互时的张量变化示意图。

基于图像向量进行线性变换得到矩阵Q1210，可以表征为pixel Queries；基于文本向量进行线性变换得到矩阵K1220，可以表征为Token Keys；基于文本向量进行线性变换还可以得到矩阵V1230，可以表征为Token Values。

此外，基于矩阵Q1210和矩阵K1220的矩阵相乘得到注意力矩阵；基于注意力矩阵/>和矩阵V1230的矩阵相乘得到输出O，可以表征为Output。

其中，矩阵M的形状是[pixel_num，token_num]，pixel_num是图像向量对应图像的像素点数量（如上述公式一注释中的I），等于图像的宽度乘以高度（width*height）；token_num是文本向量对应文本的序列长度，如序列长度实现为对文本进行分词处理后的文本词汇的词汇数量。

在申请实施例中提出的方法中，通过注入与源图像对应的第一文本确定的第一注意力矩阵，在生成目标图像的过程中保持源图像的结构和部分内容不变，从而实现图像编辑为基础的图像生成过程。

（三）潜在扩散模型的推断

示意性的，潜在扩散模型的推断过程如图13所示。

在推断阶段，把一个随机种子1310和一个文本prompt（提示）1320作为潜在扩散模型的输入；潜在扩散模型会根据随机种子1310从标准高斯分布（如训练模型的过程中学习的分布）中采样一个向量，作为加噪图像向量表示（即加噪图像特征表示）；利用文本编码器对文本prompt1320进行编码，得到文本向量表示（即：文本特征表示）；进一步地，将加噪图像向量和文本向量输入到去噪网络中，去噪网络在以文本向量为条件的同时，多次迭代地对加噪图像向量表示/>进行去噪。经过T次迭代去噪后，得到去噪后的图像向量表示/>，并将去噪后的图像向量表示由图像自编码器的解码器进行解码，输出为最终的图像。

（四）潜在扩散模型的推断

在借助训练后的潜在扩散模型进行图像生成时，对于文本控制的潜在扩散模型，输入文本P（prompt）和一个随机种子s，生成的图像L，其中文本P即为上述第一文本，随机种子s即用于确定加噪图像特征表示，生成的图像L即为与第一文本对应的源图像；图片编辑的目标是使用修改后的文本P*，编辑图像L，保持图像L的内容和结构不变，生成新的图像L*，同时要求符合修改后的文本。

考虑到注意力矩阵控制了生成图像的整体结构和空间布局，在使用修改后的文本P*生成图像的过程中，可以注入使用原始文本P在生成图像的过程中计算得到的注意力矩阵M（即上述第一注意力矩阵）。这样使得编辑后的图像L*不仅符合修改后的文本P*，而且保持了图像L的整体结构和空间布局。

记潜在扩散模型需要进行T次迭代去噪（例如：处理次数为50次）。在扩散刚开始的时间步T，首先会根据随机种子s从标准高斯分布中采样一个向量作为加噪图像特征表示。在扩散过程的某个时间步t，借助原始的文本P和随机种子s，使得潜在扩散模型计算得到第一注意力矩阵以及值V，并输出一个加噪图像向量表示/>。通过修改后的P*和相同的随机种子s，潜在扩散模型会计算得到第二注意力矩阵/>，以及文本值/>。通过注入文本P的第一注意力矩阵/>，来编辑和修改P*对应的第二注意力矩阵/>，得到新的调整注意力矩阵，将这个过程记作/>。用新的注意力矩阵/>替换掉/>，保持文本值/>不变，继续进行下一次迭代和扩散步骤。

按照原始P和修改P*的不同，这里编辑和修改注意力矩阵的方式可以分为三种情况：替换词、新增词和增强词。

（1）替换词：即代表上述差异文本词汇的词汇类型为替换词汇。

此种情况下，用新的词替换掉原始P中的某些词，得到新的P*。

示意性的，生成图像需要进行T次迭代去噪，从时间步T、T-1，一直到时间步2、时间步1。由于生成图像的整体结构和空间布局主要是在早期的扩散步骤来形成的，设定一个时间步阈值（即次数阈值），在扩散的早期阶段，采用原始P对应的第一注意力矩阵；其他时间步，则采用修改P*对应的第二注意力矩阵。

例如：需要扩散的迭次处理次数为50，次数阈值为20，当前的处理次数小于或者等于20，采用第一注意力矩阵；其他时间步则采用第二注意力矩阵。替换词的情况下，编辑交叉注意力矩阵的公式上公式二所示。

（2）新增词：即代表上述差异文本词汇的词汇类型为新增词汇。

这种情况下，在原始P（第一文本）基础上新增某些文本词汇，得到新的P*（第二文本）。

为了保持原始P和修改P*共有的细节特征，只在原始P和修改P*共有的词上注入和修改注意力矩阵。例如：修改P*和原始P共有的词是“a castle”，只在这两个共有词上注入原始P对应的第一注意力矩阵，而独有词“children drawing of”对应的第二注意力矩阵保持不变。定义一个函数，输入修改P*中的一个文本词汇的词索引，如果这个文本词汇存在于原始P中，就输出该文本词汇在原始P中的索引（文本词汇所处的位置）；如果不存在，就输出-1；同时，与替换词汇类似，只在扩散的早期阶段注入和修改注意力权重矩阵，其他时间步则保持不变。新增词的情况下，编辑注意力矩阵的公式上公式三所示。

（3）增强词：即代表上述差异文本词汇的词汇类型为新增词汇。

某些情况下，在潜在扩散模型生成图片时，希望可以增强或减弱某些文本词汇对图像生成的作用和影响。例如，对于P为“a fluffy ball”，若希望生成图像中的球更加蓬松，可以通过增大或缩小词“fluffy”对应的注意力矩阵（即对应的矩阵元素），而其他文本词汇对应的注意力矩阵（即其他矩阵元素）保持不变，来增强或减弱这个文本词汇在生成图片过程中的作用。

具体地，对应某个特定词j*，将该文本词汇对应的注意力矩阵乘以一个权重系数c，而其他文本词汇对应的注意力权重保持不变。当权重大于或者等于1，增大该文本词汇在生成图像过程中的作用；当权重小于1时，减小该文本词汇在生成图像过程中的作用。同时，与替换词类似，只在扩散的早期阶段注入和修改交叉注意力权重矩阵，其他时间步则保持不变。增强词的情况下，编辑交叉注意力矩阵的公式上公式四所示。

在一些实施例中，对修改注意力矩阵以实现图像编辑的过程如图14所示的流程图。

步骤1410，输入原始文本，修改原始文本，相同的随机种子。

示意性的，原始文本即为描述源图像的第一文本；修改原始文本后得到第二文本，第一文本和随机种子作为一组输入；第二文本和随机种子作为另一组输入。随机种子用于确定参与去噪过程的加噪图像特征表示。

步骤1420，对于原始文本，扩散模型计算第一注意力矩阵。

示意性的，图像生成模型为预先训练得到的扩散模型；针对表征原始文本的第一文本，扩散模型基于对第一文本和随机种子的分析，计算得到第一注意力矩阵。

步骤1430，对于修改文本，扩散模型计算第二注意力矩阵。

示意性的，采用上述扩散模型作为图像生成模型；针对对表征修改文本的第二文本，扩散模型基于对第二文本和随机种子的分析，计算得到第二注意力矩阵。

步骤1440，基于第一注意力矩阵和第二注意力矩阵，得到调整注意力矩阵。

示意性的，采用上述内容介绍的方法，根据次数阈值；或者，根据第一文本和第二文本之间差异文本词汇的词汇类型，综合第一注意力矩阵和第二注意力矩阵，得到用于进行噪声预测的调整注意力矩阵。

其中，调整注意力矩阵可能为第一注意力矩阵，也可能为第二注意力矩阵，还可能为综合第一注意力矩阵中的矩阵元素和第二注意力矩阵中的矩阵元素得到的矩阵形式。

步骤1450，用调整注意力矩阵替代第二注意力矩阵，继续进行和计算扩散过程。

示意性的，在获取得到调整注意力矩阵后，基于调整注意力矩阵和文本值继续进行和计算扩散过程（如进行T次迭代过程），从而得到每个去噪阶段的预测噪声数据，并借助预测噪声数据进行去噪过程，直至完成去噪过程后得到去噪特征表示。

步骤1460，图像自编码器的解码器解码输入编辑后的图像。

示意性的，通过图像自编码器的解码器对去噪特征表示进行解码处理，得到对源图像进行编辑后的图像，即得到上述的目标图像。

在本申请实施例中，借助潜在扩散模型提出了一种文本驱动的图像编辑方法，在扩散过程中，除借助第二文本计算得到的第二注意力矩阵外，通过注入源图像对应的第一文本所计算得到的第一注意力矩阵，控制得到用于编辑源图像以得到目标图像的调整注意力矩阵，从而在生成目标图像的过程中保持源图像的部分内容不变。该种方式只需要简单地修改输入第二文本就可以实现图像编辑，而不需要人工手动地给出mask来指定图像待编辑的区域，省去了人工参与的步骤，因此是一种简单易用，并且非常有效的图像编辑方法，极大地降低了用户的使用成本；另外，上述过程也充分利用了源图像全局的结构信息，提升了图像编辑的效果。

图15是本申请一个示例性实施例提供的图像生成装置的结构框图，如图15所示，该装置包括如下部分：

获取模块1510，用于获取第一文本、第二文本以及加噪图像特征表示，所述第一文本和所述第二文本之间存在语义关联关系，所述第一文本是用于描述源图像的文本，所述第二文本是用于描述目标图像的文本，所述加噪图像特征表示用于通过去噪处理还原得到对所述源图像进行编辑后的所述目标图像；

矩阵获取模块1520，用于对所述第一文本和所述加噪图像特征表示进行关联度分析，得到第一注意力矩阵，所述第一注意力矩阵用于以所述源图像的第一图像结构约束所述目标图像的第二图像结构；

矩阵获取模块1520，还用于对所述第二文本和所述加噪图像特征表示进行关联度分析，得到第二注意力矩阵和文本值，所述第二注意力矩阵用于通过去噪处理生成所述目标图像的图像局部信息，所述文本值用于描述所述第二文本的文本信息；

去噪处理模块1530，用于以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

在一个可选的实施例中，所述去噪处理模块1530还用于获取次数阈值，所述次数阈值是使用不同去噪处理方式对所述加噪图像特征表示进行去噪处理的分界次数；在第n次对所述加噪图像特征表示进行去噪处理的过程中，确定n与所述次数阈值之间数值比较结果，其中n为正整数；以所述第二文本为所述语义去噪条件，以所述数值比较结果对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

在一个可选的实施例中，所述去噪处理模块1530还用于以所述第二文本为所述语义去噪条件，响应于所述数值比较结果指示n小于或者等于所述次数阈值，以所述第一注意力矩阵和所述文本值之间的第一矩阵乘积，对所述加噪图像特征表示进行去噪处理；或者，以所述第二文本为所述语义去噪条件，响应于所述数值比较结果指示n大于或者等于所述次数阈值，以所述第二注意力矩阵和所述文本值之间的第二矩阵乘积，对所述加噪图像特征表示进行去噪处理。

在一个可选的实施例中，所述去噪处理模块1530还用于获取所述第一文本和所述第二文本之间存在差异的差异文本词汇；确定所述差异文本词汇对应的词汇类型，所述词汇类型用于描述所述第二文本中的所述差异文本词汇与所述第一文本之间的关系；在以所述第二文本为所述语义去噪条件的情况下，以所述词汇类型对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

在一个可选的实施例中，所述去噪处理模块1530还用于获取次数阈值，所述次数阈值是使用不同去噪处理方式对所述加噪图像特征表示进行去噪处理的分界次数；在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为替换词汇，且n小于或者等于所述次数阈值，通过所述第一注意力矩阵和所述文本值对所述加噪图像特征表示进行去噪处理，其中n为正整数；在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为替换词汇，且n大于或者等于所述次数阈值，通过所述第二注意力矩阵和所述文本值对所述加噪图像特征表示进行去噪处理。

在一个可选的实施例中，所述去噪处理模块1530还用于在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为新增词汇，对组成所述第二文本的多个文本词汇与所述第一文本之间的包含关系分别进行分析，得到与多个文本词汇分别对应的分析结果，其中n为正整数；基于所述分析结果，通过所述第一注意力矩阵中的矩阵元素和所述第二注意力矩阵中的矩阵元素组成调整注意力矩阵，所述矩阵元素用于描述文本词汇在图像像素上的权重；通过所述文本值以及所述调整注意力矩阵，对所述加噪图像特征表示进行去噪处理。

在一个可选的实施例中，所述去噪处理模块1530还用于获取次数阈值，所述次数阈值是使用不同去噪处理方式对所述加噪图像特征表示进行去噪处理的分界次数；针对所述多个文本词汇中的指定文本词汇，响应于所述分析结果指示所述指定文本词汇是组成所述第一文本的文本词汇，且n大于或者等于所述次数阈值，获取所述指定文本词汇在所述第一文本中的词汇索引，所述词汇索引用于表征所述指定文本词汇在所述第一文本中的词汇位置；基于所述词汇索引，从所述第一注意力矩阵中确定与所述词汇索引对应的第一矩阵元素；基于所述第一矩阵元素组成所述调整注意力矩阵。

在一个可选的实施例中，所述去噪处理模块1530还用于针对所述多个文本词汇中的指定文本词汇，响应于所述分析结果指示所述指定文本词汇不是组成第一文本的文本词汇，基于所述第二注意力矩阵得到所述调整注意力矩阵。

在一个可选的实施例中，所述去噪处理模块1530还用于获取次数阈值，所述次数阈值用于表征对所述加噪图像特征表示进行差异去噪处理的阈值；针对所述多个文本词汇中的指定文本词汇，响应于所述分析结果指示所述指定文本词汇不是组成第一文本的文本词汇，且n大于或者等于所述次数阈值，基于所述第二注意力矩阵得到所述调整注意力矩阵。

在一个可选的实施例中，所述去噪处理模块1530还用于获取次数阈值，所述次数阈值是使用不同去噪处理方式对所述加噪图像特征表示进行去噪处理的分界次数；在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为增强词汇，且n小于或者等于所述次数阈值，从所述第二注意力矩阵中确定所述差异文本词汇对应的第二矩阵元素；获取所述差异文本词汇对应的增强权重，所述增强权重用于表征所述差异文本词汇在所述第二文本中的语义权重与所述差异文本词汇在所述第一文本中的语义权重之商；通过所述增强权重对所述第二矩阵元素进行调整，得到调整注意力矩阵；通过所述文本值以及所述调整注意力矩阵，对所述加噪图像特征表示进行去噪处理。

在一个可选的实施例中，所述加噪图像特征表示对应噪声图；

所述矩阵获取模块1520还用于确定所述噪声图中的j个噪声像素，j为正整数；对所述第一文本进行分词处理，得到组成所述第一文本的i个第一文本词汇，i为正整数；确定所述i个第一文本词汇分别在所述j个噪声像素上的权重，得到i×j个矩阵元素；基于所述i×j个矩阵元素组成所述第一注意力矩阵。

所述矩阵获取模块1520还用于确定所述噪声图中的j个噪声像素，j为正整数；对所述第二文本进行分词处理，得到组成所述第二文本的k个第二文本词汇，k为正整数；确定所述i个第二文本词汇分别在所述j个噪声像素上的权重，得到k×j个矩阵元素；基于所述k×j个矩阵元素组成所述第二注意力矩阵。

在一个可选的实施例中，所述去噪处理模块1530还用于以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵，得到预测噪声数据，所述预测噪声数据用于表征对所述加噪图像特征表示进行去噪处理时的噪声预测情况；以所述预测噪声数据对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

在一个可选的实施例中，所述去噪处理模块1530还用于以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行m次迭代去噪处理过程，得到去噪特征表示，所述去噪特征表示是对所述加噪图像特征表示去噪后得到的特征表示，其中m为正整数；对所述去噪特征表示进行解码处理，得到所述目标图像。

在一个可选的实施例中，所述去噪处理模块1530还用于在第n+1次去噪处理过程中，获取第n次去噪后的加噪图像特征表示，其中n为小于m的正整数；基于所述第n次去噪后的加噪图像特征表示和所述第一文本，获取第n+1次去噪处理过程对应的第一注意力矩阵；基于所述第n次去噪后的加噪图像特征表示和所述第二文本，获取第n+1次去噪处理过程对应的第二注意力矩阵和文本值；以所述第二文本为语义去噪条件，基于所述第n+1次去噪处理过程对应的第二注意力矩阵和文本值以及所述第n+1次去噪处理过程对应的第一注意力矩阵，对所述第n次去噪后的加噪图像特征表示进行去噪处理过程，直至进行m次迭代去噪处理过程后，得到所述去噪特征表示。

在一个可选的实施例中，所述获取模块1510还用于获取所述第一文本、所述第二文本、随机种子以及高斯噪声分布，所述高斯噪声分布是在训练得到图像生成模型的过程中学习到的向量分布结果，所述图像生成模型用于对所述加噪图像特征表示进行去噪处理生成所述目标图像；基于所述随机种子从所述高斯噪声分布中采样得到所述加噪图像特征表示，所述随机种子用于从所述高斯噪声分布中唯一获取所述加噪图像特征表示。

需要说明的是：上述实施例提供的图像生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像生成装置与图像生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是终端或服务器，在本实施例中，以该计算机设备是服务器为例进行说明。该服务器1600包括中央处理单元（Central Processing Unit，CPU）1601、包括随机存取存储器（Random Access Memory，RAM）1602和只读存储器（Read Only Memory，ROM）1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。服务器1600还包括用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1606。

大容量存储设备1606通过连接到系统总线1605的大容量存储控制器（未示出）连接到中央处理单元1601。大容量存储设备1606及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，大容量存储设备1606可以包括诸如硬盘或者紧凑型光盘只读存储器（Compact Disc Read Only Memory，CD-ROM）驱动器之类的计算机可读介质（未示出）。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。上述的系统存储器1604和大容量存储设备1606可以统称为存储器。

根据本申请的各种实施例，服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统（未示出）。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一段程序，至少一段程序由处理器加载并执行以实现上述各方法实施例提供的图像生成方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一段程序，至少一段程序由处理器加载并执行，以实现上述各方法实施例提供的图像生成方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的图像生成方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像，包括：

获取次数阈值，所述次数阈值是使用不同去噪处理方式对所述加噪图像特征表示进行去噪处理的分界次数；

在第n次对所述加噪图像特征表示进行去噪处理的过程中，确定n与所述次数阈值之间数值比较结果，其中n为正整数；

以所述第二文本为所述语义去噪条件，以所述数值比较结果对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

3.根据权利要求2所述的方法，其特征在于，所述以所述第二文本为所述语义去噪条件，以所述数值比较结果对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，包括：

以所述第二文本为所述语义去噪条件，响应于所述数值比较结果指示n小于或者等于所述次数阈值，以所述第一注意力矩阵和所述文本值之间的第一矩阵乘积，对所述加噪图像特征表示进行去噪处理；或者，

以所述第二文本为所述语义去噪条件，响应于所述数值比较结果指示n大于或者等于所述次数阈值，以所述第二注意力矩阵和所述文本值之间的第二矩阵乘积，对所述加噪图像特征表示进行去噪处理。

4.根据权利要求1至3任一所述的方法，其特征在于，所述以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像，包括：

获取所述第一文本和所述第二文本之间存在差异的差异文本词汇；

确定所述差异文本词汇对应的词汇类型，所述词汇类型用于描述所述第二文本中的所述差异文本词汇与所述第一文本之间的关系；

在以所述第二文本为所述语义去噪条件的情况下，以所述词汇类型对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

5.根据权利要求4所述的方法，其特征在于，所述以所述词汇类型对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，包括：

在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为替换词汇，且n小于或者等于所述次数阈值，通过所述第一注意力矩阵和所述文本值对所述加噪图像特征表示进行去噪处理，其中n为正整数；

在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为替换词汇，且n大于或者等于所述次数阈值，通过所述第二注意力矩阵和所述文本值对所述加噪图像特征表示进行去噪处理。

6.根据权利要求4所述的方法，其特征在于，所述以所述词汇类型对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，包括：

在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为新增词汇，对组成所述第二文本的多个文本词汇与所述第一文本之间的包含关系分别进行分析，得到与多个文本词汇分别对应的分析结果，其中n为正整数；

基于所述分析结果，通过所述第一注意力矩阵中的矩阵元素和所述第二注意力矩阵中的矩阵元素组成调整注意力矩阵，所述矩阵元素用于描述文本词汇在图像像素上的权重；

通过所述文本值以及所述调整注意力矩阵，对所述加噪图像特征表示进行去噪处理。

7.根据权利要求6所述的方法，其特征在于，所述基于所述分析结果，通过所述第一注意力矩阵中的矩阵元素和所述第二注意力矩阵中的矩阵元素组成调整注意力矩阵，包括：

针对所述多个文本词汇中的指定文本词汇，响应于所述分析结果指示所述指定文本词汇是组成所述第一文本的文本词汇，且n大于或者等于所述次数阈值，获取所述指定文本词汇在所述第一文本中的词汇索引，所述词汇索引用于表征所述指定文本词汇在所述第一文本中的词汇位置；

基于所述词汇索引，从所述第一注意力矩阵中确定与所述词汇索引对应的第一矩阵元素；

基于所述第一矩阵元素组成所述调整注意力矩阵。

8.根据权利要求4所述的方法，其特征在于，所述以所述词汇类型对应的选择条件，选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，包括：

在第n次对所述加噪图像特征表示进行去噪处理的过程中，响应于所述词汇类型指示所述差异文本词汇为增强词汇，且n小于或者等于所述次数阈值，从所述第二注意力矩阵中确定所述差异文本词汇对应的第二矩阵元素；

获取所述差异文本词汇对应的增强权重，所述增强权重用于表征所述差异文本词汇在所述第二文本中的语义权重与所述差异文本词汇在所述第一文本中的语义权重之商；

通过所述增强权重对所述第二矩阵元素进行调整，得到调整注意力矩阵；

9.根据权利要求1至3任一所述的方法，其特征在于，所述加噪图像特征表示对应噪声图；

所述对所述第一文本和所述加噪图像特征表示进行关联度分析，得到第一注意力矩阵，包括：

确定所述噪声图中的j个噪声像素，j为正整数；

对所述第一文本进行分词处理，得到组成所述第一文本的i个第一文本词汇，i为正整数；

确定所述i个第一文本词汇分别在所述j个噪声像素上的权重，得到i×j个矩阵元素；

基于所述i×j个矩阵元素组成所述第一注意力矩阵。

10.根据权利要求1至3任一所述的方法，其特征在于，所述加噪图像特征表示对应噪声图；

所述对所述第二文本和所述加噪图像特征表示进行关联度分析，得到第二注意力矩阵，包括：

确定所述噪声图中的j个噪声像素，j为正整数；

对所述第二文本进行分词处理，得到组成所述第二文本的k个第二文本词汇，k为正整数；

确定所述k个第二文本词汇分别在所述j个噪声像素上的权重，得到k×j个矩阵元素；

基于所述k×j个矩阵元素组成所述第二注意力矩阵。

11.根据权利要求1至3任一所述的方法，其特征在于，所述以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像，包括：

以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵，得到预测噪声数据，所述预测噪声数据用于表征对所述加噪图像特征表示进行去噪处理时的噪声预测情况；

以所述预测噪声数据对所述加噪图像特征表示进行去噪处理，得到所述目标图像。

12.根据权利要求1至3任一所述的方法，其特征在于，所述以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理，得到所述目标图像，包括：

以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行m次迭代去噪处理过程，得到去噪特征表示，所述去噪特征表示是对所述加噪图像特征表示去噪后得到的特征表示，其中m为正整数；

对所述去噪特征表示进行解码处理，得到所述目标图像。

13.根据权利要求12所述的方法，其特征在于，所述以所述第二文本为语义去噪条件，基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行m次迭代去噪处理过程，得到去噪特征表示，包括：

在第n+1次去噪处理过程中，获取第n次去噪后的加噪图像特征表示，其中n为小于m的正整数；

基于所述第n次去噪后的加噪图像特征表示和所述第一文本，获取第n+1次去噪处理过程对应的第一注意力矩阵；

基于所述第n次去噪后的加噪图像特征表示和所述第二文本，获取第n+1次去噪处理过程对应的第二注意力矩阵和文本值；

以所述第二文本为语义去噪条件，基于所述第n+1次去噪处理过程对应的第二注意力矩阵和文本值以及所述第n+1次去噪处理过程对应的第一注意力矩阵，对所述第n次去噪后的加噪图像特征表示进行去噪处理过程，直至进行m次迭代去噪处理过程后，得到所述去噪特征表示。

14.根据权利要求1至3任一所述的方法，其特征在于，所述获取第一文本、第二文本以及加噪图像特征表示，包括：

获取所述第一文本、所述第二文本、随机种子以及高斯噪声分布，所述高斯噪声分布是在训练得到图像生成模型的过程中学习到的向量分布结果，所述图像生成模型用于对所述加噪图像特征表示进行去噪处理生成所述目标图像；

基于所述随机种子从所述高斯噪声分布中采样得到所述加噪图像特征表示，所述随机种子用于从所述高斯噪声分布中唯一获取所述加噪图像特征表示。

15.一种图像生成装置，其特征在于，所述装置包括：

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至14任一所述的图像生成方法。

17.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至14任一所述的图像生成方法。