CN118939983A

CN118939983A - 多模态向量化模型的训练方法

Info

Publication number: CN118939983A
Application number: CN202411424151.XA
Authority: CN
Inventors: 刘鹏; 赵天成; 廖嘉佳; 许若晨; 余海
Original assignee: Honglong Technology Hangzhou Co ltd; Hangzhou Linker Technology Co ltd
Current assignee: Honglong Technology Hangzhou Co ltd; Hangzhou Linker Technology Co ltd
Priority date: 2024-10-12
Filing date: 2024-10-12
Publication date: 2024-11-12
Anticipated expiration: 2044-10-12
Also published as: CN118939983B

Abstract

本发明公开了多模态向量化模型的训练方法，包括如下步骤：步骤一，进行数据准备，收集图文对数据、文本对数据和图像对数据；步骤二，构建一个统一的多模态向量化模型，能够同时处理文本和图像数据；步骤三，构建损失函数；步骤四，同时使用图文对数据、文本对数据和图像对数据进行两个阶段的训练。本发明的多模态向量化模型的训练方法，在训练过程中同步优化图文单模态向量以及图文跨模态向量的训练方法。

Description

多模态向量化模型的训练方法

技术领域

本发明涉及多模态向量检索领域，更具体的说是涉及一种多模态向量化模型的训练方法。

背景技术

目前，利用深度学习方法解决跨模态图像、文本检索问题，一般的做法是通过多模态神经网络将图像文本信息映射到一维特征空间，计算图像和文本特征的相似度来对结果进行排序，从而实现跨模态图像-文本检索，因此现有技术中有公开号为CN118364256A，名称为一种多模态模型训练方法、系统及电子设备，便公开了一种多模态模型的训练方法，然而该方法在训练时主要依赖于图文对数据和对比损失（contrastive loss）进行训练。这种方法虽然在跨模态检索（如图搜文、文搜图）方面表现优异，但在单模态检索（如文搜文、图搜图）方面效果较差。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种在训练过程中同步优化图文单模态向量以及图文跨模态向量的训练方法。

为实现上述目的，本发明提供了如下技术方案：包括如下步骤：

步骤一，进行数据准备，收集图文对数据、文本对数据和图像对数据；

步骤二，构建一个统一的多模态向量化模型，能够同时处理文本和图像数据；

步骤三，构建损失函数；

步骤四，同时使用图文对数据、文本对数据和图像对数据进行两个阶段的训练。

作为本发明的进一步改进，所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述，这些数据用于跨模态训练，以帮助模型学习如何将图像和文本表示对齐。

作为本发明的进一步改进，所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段，这些数据用于单模态文本训练，帮助模型学习如何在文本匹配任务中表现出色，并在步骤四中第二阶段的训练时，通过大模型合成数据的方式为训练数据生成难负例，即根据训练文本生成文字相似但含义不同的数据。

作为本发明的进一步改进，所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像，具体为从图像分类数据集中生成图像对数据，用于单模态图像训练，帮助模型学习如何在图像分类和特征提取任务中表现出色，并在步骤四模型训练的过程中，通过挑选难负例来增强训练，其中，挑选难负例的具体方法为通过步骤四中第一阶段训练得到模型来提取图像特征向量，然后计算两个不同分类类别标签的图像特征向量的Cosine余弦相似度，保留相似度大于90%的图像作为难负例，具体的Cosine余弦相似度的计算公式为：

其中，AB 表示图像特征向量 A和 B 的点积，表示向量 A 的欧几里得范数，表示向量 B 的欧几里得范数。

作为本发明的进一步改进，所述步骤二中构建的多模态向量化模型包括：

图像编码器，用于提取图像的视觉特征，采用卷积神经网络或视觉Transformers这些基于大规模数据预训练的图像处理技术实现；

文本编码器，用于提取文本的语义特征，采用基于注意力机制的Transformer这些基于大规模数据预训练的自然语言处理技术实现。

作为本发明的进一步改进，所述步骤三中构建的损失函数包括图文对损失函数、文本对/图像对损失函数和基于难负例的文本对/图像对损失函数。

作为本发明的进一步改进，所述图文对损失函数如下：

其中：是第 i 个文本的文本语义特征向量，是第 i 个图像的图像特征向量，sim(t,v) 是文本语义特征向量和图像特征向量之间的余弦相似度，τ 是可学习的温度参数，用于控制相似度值的缩放比例，N 则是训练时的数据批尺寸大小，通常推荐批尺寸越大越好，会有利于模型的泛化性，但也需要根据训练显存来调整。

作为本发明的进一步改进，所述文本对/图像对损失函数如下：

其中：和分别表示第 i 个文本对或图像对的两个向量表示，sim(a,b) 表示两个向量之间的相似度。

作为本发明的进一步改进，所述基于难负例的文本对/图像对损失函数如下：

λ是对难负例误判的加权系数，推荐值为0.5，为上述的原版损失函数。

作为本发明的进一步改进，所述步骤四中的训练的具体步骤如下：

步骤四一，在每一批次数据中混合使用图文对、文本对、图像对数据进行训练，优化向量化模型，初步提升图文模型的向量，对齐跨模态和单模态向量完成第一阶段训练；

步骤四二，添加难例样本进一步优化，并对文本对以及图像对的训练引入新的基于难负例的对比损失函数，提升模型提取细粒度特征的能力完成第二阶段训练；

其中，在每个训练步骤中，计算跨模态对比损失、纯模态损失函数，并将三个损失值求和之后作为总的损失值进行梯度计算以及反向传播。

本发明的有益效果，本发明提出了一种新的训练方法，通过在训练过程中引入文本对数据和图像对数据，并添加相应的文本对infoNCE损失和图像对infoNCE损失，从而同步优化单模态和跨模态的检索能力。最终得到的模型不仅在跨模态检索方面表现优异，同时在单模态检索方面也具有很强的能力，具有以下显著效果：

1、提高单模态检索能力：

通过引入文本对和图像对数据，以及相应的单模态对比损失，显著提升了模型在文搜文和图搜图任务中的表现。

2、增强跨模态检索能力：

保持了原有方法在图搜文和文搜图任务中的优秀表现。

3、综合性能提升：

模型在多种检索任务中都表现出色，可实现一个模型满足多种检索需求，节约算力成本和资源消耗，具有更广泛的应用场景。

附图说明

图1为本发明的多模态向量化模型的训练方法。

具体实施方式

下面将结合附图所给出的实施例对本发明做进一步的详述。

参照图1所示，本实施例的一种多模态向量化模型的训练方法，包括如下步骤：

1. 数据准备：本发明训练时需要用到的数据类型主要有以下三种：

图文对数据：

图文对数据是指每条数据包含一个图像和与之相关的文本描述。这些数据用于跨模态训练，以帮助模型学习如何将图像和文本表示对齐。例如：

图像：一张展示日落下城市的照片

文本描述："日落时分的城市全景，大楼在色彩斑斓的天空下形成剪影。"

文本对数据：

文本对数据是指每条数据包含两个相关的文本片段。这些数据用于单模态文本训练，帮助模型学习如何在文本匹配任务中表现出色。例如：

文本对：("敏捷的棕色狐狸跳过了懒狗。", "一只快速的棕色狐狸跃过了一只懒狗。")

此外为了进一步提高模型的区分能力，本发明在第二阶段通过大模型合成数据的方式为训练数据生成难负例（hard negative），即根据训练文本生成文字相似但含义不同的数据。例如：

正例文本对：("一只黑猫坐在窗台上。", "一只黑猫在窗户边。")

难负例文本对：("一只黑猫坐在窗台上。", "一只白猫在窗户边。")

图像对数据：

图像对数据是指每条数据包含两个相关的图像。本发明通过从图像分类数据集中生成图像对数据，用于单模态图像训练，帮助模型学习如何在图像分类和特征提取任务中表现出色。例如：

正例图像对：两张不同角度的猫的照片

为了提高模型的区分能力，我们通过挑选难负例（hard negative）来增强训练。例如：

正例图像对：两张不同角度的猫的照片

难负例图像对：一张猫的照片和一张狗的照片，这两张照片在颜色和背景上具有一定的相似性。挑选的方法则是通过第一阶段训练得到模型来提取图像特征向量，然后计算两个不同分类类别标签的图像特征向量的Cosine余弦相似度，保留相似度大于90%的图像作为难负例。

Cosine余弦相似度的计算公式为：

其中AB 表示图像特征向量 A和 B 的点积（内积），表示向量 A 的欧几里得范数（即向量的长度），表示向量 B 的欧几里得范数（即向量的长度）。

这些图像对数据可以通过对现有图像分类数据进行配对生成，确保图像嵌入模型能够有效地捕捉图像特征并进行分类任务。

2. 模型架构：

采用一个统一的多模态向量化模型，能够同时处理文本和图像数据。

模型包含文本编码器和图像编码器，分别用于处理文本和图像数据。

图像编码器：用于提取图像的视觉特征。可以采用卷积神经网络（CNN）或视觉Transformers（ViT）等基于大规模数据预训练的图像处理技术。

文本编码器：用于提取文本的语义特征。可以采用基于注意力机制的Transformer（如BERT、GPT等）等基于大规模数据预训练的自然语言处理技术。

具体模型结构图如图1所示。

3. 损失函数设计：

图文对：

对于图文对这种多模态数据，使用跨模态对比学习损失函数。该损失函数的核心思想是最大化匹配图文对之间的相似度，同时最小化不匹配图文对之间的相似度。

具体公式如下：

其中：

是第 i 个文本的文本语义特征向量。

是第 i 个图像的图像特征向量。

sim(t,v) 是文本语义特征向量和图像特征向量之间的余弦相似度。

τ 是可学习的温度参数，用于控制相似度值的缩放比例。

N 则是训练时的数据批尺寸大小，通常推荐批尺寸越大越好，会有利于模型的泛化性，但也需要根据训练显存来调整。

文本对/图像对：对于纯文本和纯图像这种单模态数据，使用对比学习损失函数，用于优化文本对或图像对的相似度。

具体公式如下：

其中：

和分别表示第 i 个文本对或图像对的两个向量表示

sim(a,b) 表示两个向量之间的相似度

该公式的两个部分分别计算了固定和所有的相似度，以及固定和所有的相似度。

基于难负例的文本对/图像对：在第二阶段训练时，通过加入难负例来进一步提升模型生成的向量质量。同时调整损失函数来对难负例进行加权，当训练时正样本匹配上的相似度最高的向量是难负例时，对损失进行加权，加大损失值来使模型针对性地学习细粒度信息。

当匹配上难负例时，具体的损失公式如下：

λ 是对难负例误判的加权系数，推荐值为0.5

为上述的原版损失函数。

4. 训练过程：

同时使用图文对数据、文本对数据和图像对数据进行训练。总体训练步骤分为两步，

第一步在每一批次数据中混合使用图文对、文本对、图像对数据进行训练，优化向量化模型，初步提升图文模型的向量，对齐跨模态和单模态向量。

第二步添加难例样本（与正确答案相似但含义不同的数据）进一步优化，并对文本对以及图像对的训练引入新的基于难负例的对比损失函数，提升模型提取细粒度特征的能力。

在每个训练步骤中，计算跨模态对比损失、纯模态损失函数，并将三个损失值求和之后作为总的损失值进行梯度计算以及反向传播。

通过上述方法，模型能够同时优化图文跨模态和单模态的检索能力，从而在各种检索任务中表现优异。

综上所述，本实施例的多模态向量化模型的训练方法，通过上述方法，模型能够同时优化图文跨模态和单模态的检索能力，从而在各种检索任务中表现优异。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多模态向量化模型的训练方法，其特征在于：包括如下步骤：

步骤三，构建损失函数；

2.根据权利要求1所述的多模态向量化模型的训练方法，其特征在于：所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述，这些数据用于跨模态训练，以帮助模型学习如何将图像和文本表示对齐。

3.根据权利要求1或2所述的多模态向量化模型的训练方法，其特征在于：所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段，这些数据用于单模态文本训练，帮助模型学习如何在文本匹配任务中表现出色，并在步骤四中第二阶段的训练时，通过大模型合成数据的方式为训练数据生成难负例，即根据训练文本生成文字相似但含义不同的数据。

4.根据权利要求1或2所述的多模态向量化模型的训练方法，其特征在于：所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像，具体为从图像分类数据集中生成图像对数据，用于单模态图像训练，帮助模型学习如何在图像分类和特征提取任务中表现出色，并在步骤四模型训练的过程中，通过挑选难负例来增强训练，其中，挑选难负例的具体方法为通过步骤四中第一阶段训练得到模型来提取图像特征向量，然后计算两个不同分类类别标签的图像特征向量的Cosine余弦相似度，保留相似度大于90%的图像作为难负例，具体的Cosine余弦相似度的计算公式为：

；

5.根据权利要求1或2所述的多模态向量化模型的训练方法，其特征在于：所述步骤二中构建的多模态向量化模型包括：

6.根据权利要求1或2所述的多模态向量化模型的训练方法，其特征在于：所述步骤三中构建的损失函数包括图文对损失函数、文本对/图像对损失函数和基于难负例的文本对/图像对损失函数。

7.根据权利要求6所述的多模态向量化模型的训练方法，其特征在于：所述图文对损失函数如下：

；

8.根据权利要求6所述的多模态向量化模型的训练方法，其特征在于：所述文本对/图像对损失函数如下：

；

9.根据权利要求6所述的多模态向量化模型的训练方法，其特征在于：所述基于难负例的文本对/图像对损失函数如下：

；

10.根据权利要求1或2所述的多模态向量化模型的训练方法，其特征在于：所述步骤四中的训练的具体步骤如下：