CN118939983A - 多模态向量化模型的训练方法 - Google Patents
多模态向量化模型的训练方法 Download PDFInfo
- Publication number
- CN118939983A CN118939983A CN202411424151.XA CN202411424151A CN118939983A CN 118939983 A CN118939983 A CN 118939983A CN 202411424151 A CN202411424151 A CN 202411424151A CN 118939983 A CN118939983 A CN 118939983A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- training
- data
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 9
- 241000282326 Felis catus Species 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了多模态向量化模型的训练方法,包括如下步骤:步骤一,进行数据准备,收集图文对数据、文本对数据和图像对数据;步骤二,构建一个统一的多模态向量化模型,能够同时处理文本和图像数据;步骤三,构建损失函数;步骤四,同时使用图文对数据、文本对数据和图像对数据进行两个阶段的训练。本发明的多模态向量化模型的训练方法,在训练过程中同步优化图文单模态向量以及图文跨模态向量的训练方法。
Description
技术领域
本发明涉及多模态向量检索领域,更具体的说是涉及一种多模态向量化模型的训练方法。
背景技术
目前,利用深度学习方法解决跨模态图像、文本检索问题,一般的做法是通过多模态神经网络将图像文本信息映射到一维特征空间,计算图像和文本特征的相似度来对结果进行排序,从而实现跨模态图像-文本检索,因此现有技术中有公开号为CN118364256A,名称为一种多模态模型训练方法、系统及电子设备,便公开了一种多模态模型的训练方法,然而该方法在训练时主要依赖于图文对数据和对比损失(contrastive loss)进行训练。这种方法虽然在跨模态检索(如图搜文、文搜图)方面表现优异,但在单模态检索(如文搜文、图搜图)方面效果较差。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种在训练过程中同步优化图文单模态向量以及图文跨模态向量的训练方法。
为实现上述目的,本发明提供了如下技术方案:包括如下步骤:
步骤一,进行数据准备,收集图文对数据、文本对数据和图像对数据;
步骤二,构建一个统一的多模态向量化模型,能够同时处理文本和图像数据;
步骤三,构建损失函数;
步骤四,同时使用图文对数据、文本对数据和图像对数据进行两个阶段的训练。
作为本发明的进一步改进,所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述,这些数据用于跨模态训练,以帮助模型学习如何将图像和文本表示对齐。
作为本发明的进一步改进,所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段,这些数据用于单模态文本训练,帮助模型学习如何在文本匹配任务中表现出色,并在步骤四中第二阶段的训练时,通过大模型合成数据的方式为训练数据生成难负例,即根据训练文本生成文字相似但含义不同的数据。
作为本发明的进一步改进,所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像,具体为从图像分类数据集中生成图像对数据,用于单模态图像训练,帮助模型学习如何在图像分类和特征提取任务中表现出色,并在步骤四模型训练的过程中,通过挑选难负例来增强训练,其中,挑选难负例的具体方法为通过步骤四中第一阶段训练得到模型来提取图像特征向量,然后计算两个不同分类类别标签的图像特征向量的Cosine余弦相似度,保留相似度大于90%的图像作为难负例,具体的Cosine余弦相似度的计算公式为:
其中,AB 表示图像特征向量 A和 B 的点积,表示向量 A 的欧几里得范数,表示向量 B 的欧几里得范数。
作为本发明的进一步改进,所述步骤二中构建的多模态向量化模型包括:
图像编码器,用于提取图像的视觉特征,采用卷积神经网络或视觉Transformers这些基于大规模数据预训练的图像处理技术实现;
文本编码器,用于提取文本的语义特征,采用基于注意力机制的Transformer这些基于大规模数据预训练的自然语言处理技术实现。
作为本发明的进一步改进,所述步骤三中构建的损失函数包括图文对损失函数、文本对/图像对损失函数和基于难负例的文本对/图像对损失函数。
作为本发明的进一步改进,所述图文对损失函数如下:
其中: 是第 i 个文本的文本语义特征向量, 是第 i 个图像的图像特征向量,sim(t,v) 是文本语义特征向量和图像特征向量之间的余弦相似度,τ 是可学习的温度参数,用于控制相似度值的缩放比例,N 则是训练时的数据批尺寸大小,通常推荐批尺寸越大越好,会有利于模型的泛化性,但也需要根据训练显存来调整。
作为本发明的进一步改进,所述文本对/图像对损失函数如下:
其中: 和 分别表示第 i 个文本对或图像对的两个向量表示,sim(a,b) 表示两个向量之间的相似度。
作为本发明的进一步改进,所述基于难负例的文本对/图像对损失函数如下:
λ是对难负例误判的加权系数,推荐值为0.5,为上述的原版损失函数。
作为本发明的进一步改进,所述步骤四中的训练的具体步骤如下:
步骤四一,在每一批次数据中混合使用图文对、文本对、图像对数据进行训练,优化向量化模型,初步提升图文模型的向量,对齐跨模态和单模态向量完成第一阶段训练;
步骤四二,添加难例样本进一步优化,并对文本对以及图像对的训练引入新的基于难负例的对比损失函数,提升模型提取细粒度特征的能力完成第二阶段训练;
其中,在每个训练步骤中,计算跨模态对比损失、纯模态损失函数,并将三个损失值求和之后作为总的损失值进行梯度计算以及反向传播。
本发明的有益效果,本发明提出了一种新的训练方法,通过在训练过程中引入文本对数据和图像对数据,并添加相应的文本对infoNCE损失和图像对infoNCE损失,从而同步优化单模态和跨模态的检索能力。最终得到的模型不仅在跨模态检索方面表现优异,同时在单模态检索方面也具有很强的能力,具有以下显著效果:
1、提高单模态检索能力:
通过引入文本对和图像对数据,以及相应的单模态对比损失,显著提升了模型在文搜文和图搜图任务中的表现。
2、增强跨模态检索能力:
保持了原有方法在图搜文和文搜图任务中的优秀表现。
3、综合性能提升:
模型在多种检索任务中都表现出色,可实现一个模型满足多种检索需求,节约算力成本和资源消耗,具有更广泛的应用场景。
附图说明
图1为本发明的多模态向量化模型的训练方法。
具体实施方式
下面将结合附图所给出的实施例对本发明做进一步的详述。
参照图1所示,本实施例的一种多模态向量化模型的训练方法,包括如下步骤:
1. 数据准备:本发明训练时需要用到的数据类型主要有以下三种:
图文对数据:
图文对数据是指每条数据包含一个图像和与之相关的文本描述。这些数据用于跨模态训练,以帮助模型学习如何将图像和文本表示对齐。例如:
图像:一张展示日落下城市的照片
文本描述:"日落时分的城市全景,大楼在色彩斑斓的天空下形成剪影。"
文本对数据:
文本对数据是指每条数据包含两个相关的文本片段。这些数据用于单模态文本训练,帮助模型学习如何在文本匹配任务中表现出色。例如:
文本对:("敏捷的棕色狐狸跳过了懒狗。", "一只快速的棕色狐狸跃过了一只懒狗。")
此外为了进一步提高模型的区分能力,本发明在第二阶段通过大模型合成数据的方式为训练数据生成难负例(hard negative),即根据训练文本生成文字相似但含义不同的数据。例如:
正例文本对:("一只黑猫坐在窗台上。", "一只黑猫在窗户边。")
难负例文本对:("一只黑猫坐在窗台上。", "一只白猫在窗户边。")
图像对数据:
图像对数据是指每条数据包含两个相关的图像。本发明通过从图像分类数据集中生成图像对数据,用于单模态图像训练,帮助模型学习如何在图像分类和特征提取任务中表现出色。例如:
正例图像对:两张不同角度的猫的照片
为了提高模型的区分能力,我们通过挑选难负例(hard negative)来增强训练。例如:
正例图像对:两张不同角度的猫的照片
难负例图像对:一张猫的照片和一张狗的照片,这两张照片在颜色和背景上具有一定的相似性。挑选的方法则是通过第一阶段训练得到模型来提取图像特征向量,然后计算两个不同分类类别标签的图像特征向量的Cosine余弦相似度,保留相似度大于90%的图像作为难负例。
Cosine余弦相似度的计算公式为:
其中AB 表示图像特征向量 A和 B 的点积(内积),表示向量 A 的欧几里得范数(即向量的长度),表示向量 B 的欧几里得范数(即向量的长度)。
这些图像对数据可以通过对现有图像分类数据进行配对生成,确保图像嵌入模型能够有效地捕捉图像特征并进行分类任务。
2. 模型架构:
采用一个统一的多模态向量化模型,能够同时处理文本和图像数据。
模型包含文本编码器和图像编码器,分别用于处理文本和图像数据。
图像编码器: 用于提取图像的视觉特征。可以采用卷积神经网络(CNN)或视觉Transformers(ViT)等基于大规模数据预训练的图像处理技术。
文本编码器: 用于提取文本的语义特征。可以采用基于注意力机制的Transformer(如BERT、GPT等)等基于大规模数据预训练的自然语言处理技术。
具体模型结构图如图1所示。
3. 损失函数设计:
图文对:
对于图文对这种多模态数据,使用跨模态对比学习损失函数。该损失函数的核心思想是最大化匹配图文对之间的相似度,同时最小化不匹配图文对之间的相似度。
具体公式如下:
其中:
是第 i 个文本的文本语义特征向量。
是第 i 个图像的图像特征向量。
sim(t,v) 是文本语义特征向量和图像特征向量之间的余弦相似度。
τ 是可学习的温度参数,用于控制相似度值的缩放比例。
N 则是训练时的数据批尺寸大小,通常推荐批尺寸越大越好,会有利于模型的泛化性,但也需要根据训练显存来调整。
文本对/图像对:对于纯文本和纯图像这种单模态数据,使用对比学习损失函数,用于优化文本对或图像对的相似度。
具体公式如下:
其中:
和 分别表示第 i 个文本对或图像对的两个向量表示
sim(a,b) 表示两个向量之间的相似度
该公式的两个部分分别计算了固定和所有 的相似度,以及固定和所有的相似度。
基于难负例的文本对/图像对:在第二阶段训练时,通过加入难负例来进一步提升模型生成的向量质量。同时调整损失函数来对难负例进行加权,当训练时正样本匹配上的相似度最高的向量是难负例时,对损失进行加权,加大损失值来使模型针对性地学习细粒度信息。
当匹配上难负例时,具体的损失公式如下:
λ 是对难负例误判的加权系数,推荐值为0.5
为上述的原版损失函数。
4. 训练过程:
同时使用图文对数据、文本对数据和图像对数据进行训练。总体训练步骤分为两步,
第一步在每一批次数据中混合使用图文对、文本对、图像对数据进行训练,优化向量化模型,初步提升图文模型的向量,对齐跨模态和单模态向量。
第二步添加难例样本(与正确答案相似但含义不同的数据)进一步优化,并对文本对以及图像对的训练引入新的基于难负例的对比损失函数,提升模型提取细粒度特征的能力。
在每个训练步骤中,计算跨模态对比损失、纯模态损失函数,并将三个损失值求和之后作为总的损失值进行梯度计算以及反向传播。
通过上述方法,模型能够同时优化图文跨模态和单模态的检索能力,从而在各种检索任务中表现优异。
综上所述,本实施例的多模态向量化模型的训练方法,通过上述方法,模型能够同时优化图文跨模态和单模态的检索能力,从而在各种检索任务中表现优异。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种多模态向量化模型的训练方法,其特征在于:包括如下步骤:
步骤一,进行数据准备,收集图文对数据、文本对数据和图像对数据;
步骤二,构建一个统一的多模态向量化模型,能够同时处理文本和图像数据;
步骤三,构建损失函数;
步骤四,同时使用图文对数据、文本对数据和图像对数据进行两个阶段的训练。
2.根据权利要求1所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述,这些数据用于跨模态训练,以帮助模型学习如何将图像和文本表示对齐。
3.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段,这些数据用于单模态文本训练,帮助模型学习如何在文本匹配任务中表现出色,并在步骤四中第二阶段的训练时,通过大模型合成数据的方式为训练数据生成难负例,即根据训练文本生成文字相似但含义不同的数据。
4.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像,具体为从图像分类数据集中生成图像对数据,用于单模态图像训练,帮助模型学习如何在图像分类和特征提取任务中表现出色,并在步骤四模型训练的过程中,通过挑选难负例来增强训练,其中,挑选难负例的具体方法为通过步骤四中第一阶段训练得到模型来提取图像特征向量,然后计算两个不同分类类别标签的图像特征向量的Cosine余弦相似度,保留相似度大于90%的图像作为难负例,具体的Cosine余弦相似度的计算公式为:
;
其中,AB 表示图像特征向量 A和 B 的点积,表示向量 A 的欧几里得范数,表示向量 B 的欧几里得范数。
5.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤二中构建的多模态向量化模型包括:
图像编码器,用于提取图像的视觉特征,采用卷积神经网络或视觉Transformers这些基于大规模数据预训练的图像处理技术实现;
文本编码器,用于提取文本的语义特征,采用基于注意力机制的Transformer这些基于大规模数据预训练的自然语言处理技术实现。
6.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤三中构建的损失函数包括图文对损失函数、文本对/图像对损失函数和基于难负例的文本对/图像对损失函数。
7.根据权利要求6所述的多模态向量化模型的训练方法,其特征在于:所述图文对损失函数如下:
;
其中: 是第 i 个文本的文本语义特征向量, 是第 i 个图像的图像特征向量,sim(t,v) 是文本语义特征向量和图像特征向量之间的余弦相似度,τ 是可学习的温度参数,用于控制相似度值的缩放比例,N 则是训练时的数据批尺寸大小,通常推荐批尺寸越大越好,会有利于模型的泛化性,但也需要根据训练显存来调整。
8.根据权利要求6所述的多模态向量化模型的训练方法,其特征在于:所述文本对/图像对损失函数如下:
;
其中: 和 分别表示第 i 个文本对或图像对的两个向量表示,sim(a,b) 表示两个向量之间的相似度。
9.根据权利要求6所述的多模态向量化模型的训练方法,其特征在于:所述基于难负例的文本对/图像对损失函数如下:
;
λ是对难负例误判的加权系数,推荐值为0.5,为上述的原版损失函数。
10.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤四中的训练的具体步骤如下:
步骤四一,在每一批次数据中混合使用图文对、文本对、图像对数据进行训练,优化向量化模型,初步提升图文模型的向量,对齐跨模态和单模态向量完成第一阶段训练;
步骤四二,添加难例样本进一步优化,并对文本对以及图像对的训练引入新的基于难负例的对比损失函数,提升模型提取细粒度特征的能力完成第二阶段训练;
其中,在每个训练步骤中,计算跨模态对比损失、纯模态损失函数,并将三个损失值求和之后作为总的损失值进行梯度计算以及反向传播。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411424151.XA CN118939983B (zh) | 2024-10-12 | 2024-10-12 | 多模态向量化模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411424151.XA CN118939983B (zh) | 2024-10-12 | 2024-10-12 | 多模态向量化模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118939983A true CN118939983A (zh) | 2024-11-12 |
CN118939983B CN118939983B (zh) | 2025-02-07 |
Family
ID=93355221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411424151.XA Active CN118939983B (zh) | 2024-10-12 | 2024-10-12 | 多模态向量化模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118939983B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457516A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种跨模态图文检索方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
WO2023065617A1 (zh) * | 2021-10-21 | 2023-04-27 | 北京邮电大学 | 基于预训练模型和召回排序的跨模态检索系统及方法 |
CN116680580A (zh) * | 2023-05-31 | 2023-09-01 | 平安科技(深圳)有限公司 | 基于多模态训练的信息匹配方法、装置、电子设备及介质 |
US20230281963A1 (en) * | 2022-03-07 | 2023-09-07 | Nec Laboratories America, Inc. | Single stream multi-level alignment for vision-language pretraining |
CN116775922A (zh) * | 2023-05-16 | 2023-09-19 | 中国航空综合技术研究所 | 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 |
CN117196061A (zh) * | 2023-08-21 | 2023-12-08 | 杭州联汇科技股份有限公司 | 基于多语言图片文字描述数据的多模态模型预训练方法 |
CN118484545A (zh) * | 2024-05-24 | 2024-08-13 | 国网湖南省电力有限公司 | 基于图文语义相似性优化的跨模态图文检索方法及系统 |
-
2024
- 2024-10-12 CN CN202411424151.XA patent/CN118939983B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457516A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种跨模态图文检索方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
WO2023065617A1 (zh) * | 2021-10-21 | 2023-04-27 | 北京邮电大学 | 基于预训练模型和召回排序的跨模态检索系统及方法 |
US20230281963A1 (en) * | 2022-03-07 | 2023-09-07 | Nec Laboratories America, Inc. | Single stream multi-level alignment for vision-language pretraining |
CN116775922A (zh) * | 2023-05-16 | 2023-09-19 | 中国航空综合技术研究所 | 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 |
CN116680580A (zh) * | 2023-05-31 | 2023-09-01 | 平安科技(深圳)有限公司 | 基于多模态训练的信息匹配方法、装置、电子设备及介质 |
CN117196061A (zh) * | 2023-08-21 | 2023-12-08 | 杭州联汇科技股份有限公司 | 基于多语言图片文字描述数据的多模态模型预训练方法 |
CN118484545A (zh) * | 2024-05-24 | 2024-08-13 | 国网湖南省电力有限公司 | 基于图文语义相似性优化的跨模态图文检索方法及系统 |
Non-Patent Citations (2)
Title |
---|
TIANCHENG ZHAO 等: "OMCHAT:A RECIPE TO TRAIN MULTIMODAL LAN-GUAGE MODELS WITH STRONG LONG CONTEXT AND VIDEO UNDERSTANDING", ARXIV, 6 July 2024 (2024-07-06), pages 1 - 25 * |
罗文培 等: "大模型增强的跨模态图文检索方法", 小型微型计算机系统, 25 September 2024 (2024-09-25), pages 1 - 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN118939983B (zh) | 2025-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN111428718B (zh) | 一种基于图像增强的自然场景文本识别方法 | |
CN105678292A (zh) | 基于卷积及递归神经网络的复杂光学文字序列识别系统 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN114757864B (zh) | 一种基于多尺度特征解耦的多层级细粒度图像生成方法 | |
US12056950B2 (en) | Transformer-based multi-scale pedestrian re-identification method | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN117115474A (zh) | 一种基于多阶段特征提取的端到端单目标跟踪方法 | |
CN117934803A (zh) | 一种基于多模态特征对齐的视觉定位方法 | |
CN118262093A (zh) | 一种基于分层跨模态注意力和级联聚合解码的rgb-d显著性目标检测方法 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN117275074A (zh) | 基于宽广注意力和多尺度融合机制的人脸表情识别方法 | |
CN112541347A (zh) | 一种基于预训练模型的机器阅读理解方法 | |
CN118212457B (zh) | 一种基于知识蒸馏的鱼类识别方法、系统、设备及介质 | |
CN117593755B (zh) | 一种基于骨架模型预训练的金文图像识别方法和系统 | |
CN118939983B (zh) | 多模态向量化模型的训练方法 | |
CN114298159B (zh) | 一种基于无标签样本下文本融合的图像相似性检测方法 | |
CN117876668A (zh) | 一种基于全局-局部对比学习的领域自适应目标检测方法 | |
CN117093692A (zh) | 一种基于深度融合的多粒度图像-文本匹配方法及系统 | |
CN117152632A (zh) | 一种基于混合注意力和位置编码的遥感图像场景分类方法 | |
CN117095326A (zh) | 基于高频信息指导下的天气多变性文本行人重识别算法 | |
CN117036711A (zh) | 一种基于注意力调节的弱监督语义分割方法 | |
CN111881794B (zh) | 一种视频行为识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |