[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114610919A - 一种基于多专家的图文模型生成方法、装置、设备及介质 - Google Patents

一种基于多专家的图文模型生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN114610919A
CN114610919A CN202210232059.8A CN202210232059A CN114610919A CN 114610919 A CN114610919 A CN 114610919A CN 202210232059 A CN202210232059 A CN 202210232059A CN 114610919 A CN114610919 A CN 114610919A
Authority
CN
China
Prior art keywords
picture
text
sample
target
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210232059.8A
Other languages
English (en)
Inventor
谯轶轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210232059.8A priority Critical patent/CN114610919A/zh
Priority to PCT/CN2022/089730 priority patent/WO2023168811A1/zh
Publication of CN114610919A publication Critical patent/CN114610919A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及人工智能领域,公开了一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备,该方法包括:获取训练样本集合;基于训练样本中的样本图片,确定初始图片向量,并输入至初始图片专家模块,得到第一目标向量;基于训练样本中的样本文本,确定初始文本向量,并将初始文本向量输入初始文本专家模块,得到第二目标向量;依据第一目标向量以及第二目标向量,确定图片文本目标向量,将图片文本目标向量输入至初始图片文本专家模块,并基于输出结果以及全连接层,得到第一预测分值;基于第一预测分值以及真实标签,确定预设图片文本模型的模型损失值,并基于模型损失值对预设图片文本模型进行训练,得到基于多专家的图文模型。

Description

一种基于多专家的图文模型生成方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,尤其是涉及到一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备。
背景技术
当前大规模图文预训练通常用于解决如下几类问题,分别是图片检索任务、文字检索任务以及图片文字复杂推理任务。其中,图片检索任务包括根据图片检索图片以及根据图片检索文字两种,文字检索任务包括根据文字检索文字以及根据文字检索图片两种。
然而,现有技术中,预训练的图文模型通常为单专家模型,由不同的人员负责训练、部署、维护,增加了模型的训练成本和维护成本,同时占用了大量的计算机资源。
发明内容
有鉴于此,本申请提供了一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备,可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练,能够节省模型的训练和维护成本,有效减少计算机资源的占用。
根据本申请的一个方面,提供了一种基于多专家的图文模型生成方法,包括:
获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
基于任一所述训练样本中的所述样本图片,确定初始图片向量,并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型。
可选地,所述基于任一所述训练样本中的所述样本图片,确定初始图片向量,具体包括:
确定所述样本图片的图片维度,其中,所述图片维度包括图片高度和/或图片宽度;
基于预设划分尺寸,对所述样本图片的图片高度和/或图片宽度进行划分,得到与所述样本图片对应的子样本图片;
将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量。
可选地,所述基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,具体包括:
基于预设字向量数据库,从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量,并将所述样本文本中每个字对应的字向量进行拼接,得到所述初始文本向量。
可选地,所述依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,具体包括:
将每个所述子样本图片对应的第一目标向量进行拼接,得到图片拼接向量;
将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接,得到所述图片文本目标向量。
可选地,所述基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型,具体包括:
基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签,通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值;
当所述模型损失值大于预设损失阈值时,依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数,得到更新后的预设图片文本模型,通过所述更新后的预设图片文本模型以及所述全连接层,得到每个所述样本图片与所述样本文本之间的第二预测分值,并再次计算所述模型损失值;
当所述模型损失值小于或等于所述预设损失阈值时,得到所述基于多专家的图文模型。
可选地,所述得到所述基于多专家的图文模型之后,所述方法还包括:
接收待分析对象,并依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,其中,所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种;
将所述待分析对象转换成对应的目标输入向量,并将所述目标输入向量输入至所述所述目标分析模块中,得到与所述待分析对象对应的目标输出向量,以通过所述目标输出向量得到目标结果。
可选地,所述依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,具体包括:
当所述待分析对象的格式为图片格式时,将所述目标图片专家模块作为所述目标分析模块;
当所述待分析对象的格式为文本格式时,将所述目标文本专家模块作为所述目标分析模块;
当所述待分析对象的格式包括图片格式以及文本格式时,将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
根据本申请的另一方面,提供了一种基于多专家的图文模型生成装置,包括:
样本获取模块,用于获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
第一输入模块,用于基于任一所述训练样本中的所述样本图片,确定初始图片向量,并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
第二输入模块,用于基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
预测模块,用于依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
模型训练模块,用于基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型。
可选地,所述第一输入模块,具体用于:
确定所述样本图片的图片维度,其中,所述图片维度包括图片高度和/或图片宽度;基于预设划分尺寸,对所述样本图片的图片高度和/或图片宽度进行划分,得到与所述样本图片对应的子样本图片;将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量。
可选地,所述第二输入模块,具体用于:
基于预设字向量数据库,从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量,并将所述样本文本中每个字对应的字向量进行拼接,得到所述初始文本向量。
可选地,所述预测模块,具体用于:
将每个所述子样本图片对应的第一目标向量进行拼接,得到图片拼接向量;将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接,得到所述图片文本目标向量。
可选地,所述模型训练模块,具体用于:
基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签,通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值;当所述模型损失值大于预设损失阈值时,依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数,得到更新后的预设图片文本模型,通过所述更新后的预设图片文本模型以及所述全连接层,得到每个所述样本图片与所述样本文本之间的第二预测分值,并再次计算所述模型损失值;当所述模型损失值小于或等于所述预设损失阈值时,得到所述基于多专家的图文模型。
可选地,所述装置还包括:
接收模块,用于所述得到所述基于多专家的图文模型之后,接收待分析对象,并依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,其中,所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种;
第三输入模块,用于将所述待分析对象转换成对应的目标输入向量,并将所述目标输入向量输入至所述所述目标分析模块中,得到与所述待分析对象对应的目标输出向量,以通过所述目标输出向量得到目标结果。
可选地,所述接收模块,具体用于:
当所述待分析对象的格式为图片格式时,将所述目标图片专家模块作为所述目标分析模块;当所述待分析对象的格式为文本格式时,将所述目标文本专家模块作为所述目标分析模块;当所述待分析对象的格式包括图片格式以及文本格式时,将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于多专家的图文模型生成方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于多专家的图文模型生成方法。
借由上述技术方案,本申请提供的一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备,首先,可以获取训练样本集合,训练样本集合中可以包括多个训练样本,其中每个训练样本可以包括一个样本图片和一个样本文本。此外,样本文本还可以包括一个指示与样本图片之间关系的真实标签。对于训练样本集合中的每个训练样本,可以将训练样本中的样本图片进行转换,得到该样本图片对应的初始图片向量。接着,可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中,进而可以输出第一目标向量。此外还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着,可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中,进而可以输出第二目标向量。得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后,可以以第一目标向量和第二目标向量为基础,进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入,输入到预设图片文本模型的初始图片文本专家模块中,将初始图片文本专家模块的输出通过全连接层,输出样本图片和样本文本之间的第一预测分值。得到第一预测分值后,可以根据每个训练样本的第一预测分值和真实标签,确定预设图片文本模型的模型损失值,并以该模型损失值为基础,对预设图片文本模型进行训练,经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。本申请实施例可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练,能够节省模型的训练和维护成本,有效减少计算机资源的占用。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于多专家的图文模型生成方法的流程示意图;
图2示出了本申请实施例提供的另一种基于多专家的图文模型生成方法的流程示意图;
图3示出了本申请实施例提供的一种基于多专家的图文模型生成装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种基于多专家的图文模型生成方法,如图1所示,该方法包括:
步骤101,获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
本申请实施例提供的基于多专家的图文模型生成方法,可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练,能够节省模型的训练和维护成本,有效减少计算机资源的占用。本申请的预设图片文本模型主要由三个部分组成,分别是初始图片专家模块、初始文本专家模块以及初始图片文本专家模块,当训练结束后可以对应生成目标图片专家模块、目标文本专家模块以及目标图片文本专家模块。首先,可以获取训练样本集合,训练样本集合中可以包括多个训练样本,其中每个训练样本可以包括一个样本图片和一个样本文本。此外,样本文本还可以包括一个指示与样本图片之间关系的真实标签,例如,该样本文本如果是样本图片的正样本,即样本文本是样本图片的解释,那么真实标签可以为1;该样本文本如果是样本图片的负样本,即样本文本不是样本图片的解释,那么真实标签可以为0。
步骤102,基于任一所述训练样本中的所述样本图片,确定初始图片向量,并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
在该实施例中,对于训练样本集合中的每个训练样本,可以将训练样本中的样本图片进行转换,得到该样本图片对应的初始图片向量。接着,可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中,进而可以输出第一目标向量。
步骤103,基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
在该实施例中,还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着,可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中,进而可以输出第二目标向量。
步骤104,依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
在该实施例中,得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后,可以以第一目标向量和第二目标向量为基础,进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入,输入到预设图片文本模型的初始图片文本专家模块中,接着可以将初始图片文本专家模块的输出通过全连接层,输出样本图片和样本文本之间的第一预测分值,从第一预测分值中可以看出样本文本与样本图片之间的关联程度得分。
步骤105,基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型。
在该实施例中,确定每个训练样本的样本图片和样本文本之间的第一预测分值后,可以根据每个训练样本的第一预测分值和真实标签,确定预设图片文本模型的模型损失值。接着,可以以该模型损失值为基础,对预设图片文本模型进行训练,经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。
通过应用本实施例的技术方案,首先,可以获取训练样本集合,训练样本集合中可以包括多个训练样本,其中每个训练样本可以包括一个样本图片和一个样本文本。此外,样本文本还可以包括一个指示与样本图片之间关系的真实标签。对于训练样本集合中的每个训练样本,可以将训练样本中的样本图片进行转换,得到该样本图片对应的初始图片向量。接着,可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中,进而可以输出第一目标向量。此外还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着,可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中,进而可以输出第二目标向量。得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后,可以以第一目标向量和第二目标向量为基础,进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入,输入到预设图片文本模型的初始图片文本专家模块中,将初始图片文本专家模块的输出通过全连接层,输出样本图片和样本文本之间的第一预测分值。得到第一预测分值后,可以根据每个训练样本的第一预测分值和真实标签,确定预设图片文本模型的模型损失值,并以该模型损失值为基础,对预设图片文本模型进行训练,经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。本申请实施例可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练,能够节省模型的训练和维护成本,有效减少计算机资源的占用。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种基于多专家的图文模型生成方法,如图2所示,该方法包括:
步骤201,获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
在该实施例中,首先,可以获取训练样本集合,训练样本集合中可以包括多个训练样本,其中每个训练样本可以包括一个样本图片和一个样本文本。此外,样本文本还可以包括一个指示与样本图片之间关系的真实标签,例如,该样本文本如果是样本图片的正样本,即样本文本是样本图片的解释,那么真实标签可以为1;该样本文本如果是样本图片的负样本,即样本文本不是样本图片的解释,那么真实标签可以为0。
步骤202,确定所述样本图片的图片维度,其中,所述图片维度包括图片高度和/或图片宽度;
在该实施例中,可以对每个训练样本中的样本图片进行图片维度的确定,在这里,图片维度可以包括图片高度和图片宽度,此外还可以包括图片通道数。例如,样本图片对应的图片维度可以是H x W x C,其中H表示样本图片的图片高度,W表示样本图片的图片宽度,C表示样本图片的图片通道数。
步骤203,基于预设划分尺寸,对所述样本图片的图片高度和/或图片宽度进行划分,得到与所述样本图片对应的子样本图片;
在该实施例中,确定样本图片的图片维度后,可以根据预设划分尺寸对样本图片进行划分,在这里,可以仅对样本图片从图片高度方向进行划分,图片宽度保持不变,也可以对样本图片从图片宽度方面进行划分,图片高度保持不变,还可以同时从样本图片的图片高度和图片宽度两个方向对样本图片进行划分。划分后,可以得到与样本图片对应的多个子样本图片。例如,样本图片的图片维度为H x W x C,可以按照预设划分尺寸将样本图片划分为多个P x P x C的子样本图片,即每个子样本图片对应的图片维度为P x P x C。
步骤204,将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量;
在该实施例中,得到每个样本图片对应的多个子样本图片之后,可以通过预设转换工具将每个子样本图片转换成与该子样本图片相对应的初始图片向量,即将每个子样本图片直接用该子样本图片对应的初始图片向量表示。在这里,预设转换工具可以是reshape。例如,每个子样本图片对应的图片维度为P x P x C,那么可以通过预设转换工具将每个子样本图片转换为维度为P2C的向量,这个P2C的向量即可以是初始图片向量。此外,还可以将每个子样本图片对应的P2C的向量通过降维的方式转换为指定维度的一维向量,将转化后的一维向量作为初始图片向量。通过降维得到初始图片向量,可以使得初始图片向量更加便利地参与到后面的运算中,可以减少后续运算的难度,增加运算的效率。
步骤205,将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
步骤206,基于预设字向量数据库,从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量,并将所述样本文本中每个字对应的字向量进行拼接,得到所述初始文本向量;
在该实施例中,将每个子样本图片对应的初始图片向量输入到预设图片文本模型的初始图片专家模块中,可以对应输出第一目标向量。此外,还可以对于样本文本中的每个字,从预设字向量数据库中找到每个字对应的字向量,接着,按照样本文本中每个字的顺序对每个字对应的字向量进行拼接,得到每个样本文本对应的初始文本向量。
步骤207,将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
步骤208,将每个所述子样本图片对应的第一目标向量进行拼接,得到图片拼接向量;将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接,得到所述图片文本目标向量;
在该实施例中,可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中,进而可以输出第二目标向量。得到样本图片对应的多个第一目标向量以及样本文本对应的第二目标向量后,可以以第一目标向量和第二目标向量为基础,对第一目标向量和地二目标向量进行拼接,进一步确定图片文本目标向量。
步骤209,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
在该实施例中,将图片文本目标向量作为输入,输入到预设图片文本模型的初始图片文本专家模块中,接着可以将初始图片文本专家模块的输出通过全连接层,输出样本图片和样本文本之间的第一预测分值,从第一预测分值中可以看出样本文本与样本图片之间的关联程度得分。
步骤210,基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签,通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值;
在该实施例中,得到每个训练样本对应的第一预测分值后,可以根据第一预测分值和对应的真实标签,通过预设交叉熵损失函数计算预设图片文本模型的模型损失值。在这里,预设交叉熵损失函数可以是
Figure BDA0003538814360000131
Figure BDA0003538814360000132
其中,
Figure BDA0003538814360000133
是样本图片和样本文本之间的真实标签,可以是0或者1,
Figure BDA0003538814360000134
是样本图片和样本文本之间的第一预测分值,N是训练样本集合中训练样本的数量。
步骤211,当所述模型损失值大于预设损失阈值时,依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数,得到更新后的预设图片文本模型,通过所述更新后的预设图片文本模型以及所述全连接层,得到每个所述样本图片与所述样本文本之间的第二预测分值,并再次计算所述模型损失值;
在该实施例中,计算得到模型损失值后,当模型损失值小于或等于预设损失阈值时,可以直接将预设图片文本模型作为最终的基于多专家的图文模型。当模型损失值大于预设损失阈值时,说明预设图片文本模型的准确度还没有达到预期,可以进一步对预设图片文本模型的参数进行调整,具体可以调整初始图片专家模块、初始文本专家模块、初始图片文本专家模块中的一个或几个模块的参数,参数调整后可以得到更新的预设图片文本模型。对预设图片文本模型进行参数调整得到更新后的预设图片文本模型后,可以进一步根据训练样本集合,得到每个训练样本对应的第二预测分值,接着可以根据第二预测分值和对应的真实标签,再次通过预设交叉熵损失函数计算更新后的预设图片文本模型的模型损失值。之后可以再次判断模型损失值和预设损失阈值之间的大小关系,并当模型损失值仍旧大于预设损失阈值时,再次对更新后的预设图片文本模型的参数进行更新,并继续计算第三预测分值,通过第三预测分值和真实标签计算模型损失值……重复进行调整预设图片文本模型的模型参数和计算模型损失值的过程,直至模型损失值小于或等于预设损失阈值。
步骤212,当所述模型损失值小于或等于所述预设损失阈值时,得到所述基于多专家的图文模型。
在该实施例中,当模型损失值小于或者等于预设损失阈值时,说明模型精度已经达到了预期,此时即得到了基于多专家的图文模型,此时基于多专家的图文模型中包括训练完成的目标图片专家模块、目标文本专家模块以及目标图片文本专家模块。本申请在对预设图片文本模型进行训练时,同时对初始图片专家模块、初始文本专家模块和初始图片文本专家模块进行训练,每个模块相当于原始BERT模型的Transformer层,其中初始图片专家模块和初始文本专家模块可以对应F层,初始图片文本专家模块对应(L-F)层。因此,本申请实施例可以根据实际业务情况的资源和时间需求,在训练过程灵活自由的配置L和F的大小,以使模型的训练更贴近于实际的业务需求,且初始图片专家模块和初始文本专家模块在训练过程中共享了Multi-head attention层的参数,极大程度上减少了模型的参数量,降低了模型在部署时对GPU显存的需求。
在本申请实施例中,可选地,步骤212之后,所述方法还包括:接收待分析对象,并依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,其中,所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种;将所述待分析对象转换成对应的目标输入向量,并将所述目标输入向量输入至所述所述目标分析模块中,得到与所述待分析对象对应的目标输出向量,以通过所述目标输出向量得到目标结果。
在该实施例中,得到基于多专家的图文模型后,后续可以直接根据待分析对象从基于多专家的图文模型中确定一个或多个模块加以使用。具体地,首先,可以接收待分析对象,在这里,待分析对象可以是图片,也可以是文本。接收待分析对象后,可以对待分析对象的格式进行分析,根据待分析对象的格式确定选用的模块。确定选用的模块后,可以先将待分析对象转换成对应的目标输入向量,之后将目标输入向量输入到目标分析模块中,可以输出和待分析对象对应的目标输出向量。这样,后续可以通过使用目标输出向量得到目标结果。例如,当待分析对象为文本格式时,得到与待分析对象对应的目标输出向量后,后续可以再通过相应的相似性指标求得最相似的向量,以实现查找待分析对象的相似文本或相似图片。在这里,待分析对象转换为对应目标输入向量时,可以同样采用将图片划分成子图片,进而转换为子图片对应的目标输入向量的方法,或者同样采用将文本中每个字找到对应字向量,最后将字向量拼接在一起转换为目标输入向量的方法。
在本申请实施例中,可选地,所述依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,具体包括:当所述待分析对象的格式为图片格式时,将所述目标图片专家模块作为所述目标分析模块;当所述待分析对象的格式为文本格式时,将所述目标文本专家模块作为所述目标分析模块;当所述待分析对象的格式包括图片格式以及文本格式时,将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
在该实施例中,可以根据待分析对象的格式确定目标分析模块,当待分析对象的格式是图片格式时,可以将基于多专家的图文模型中的目标图片专家模块作为目标分析模块;当待分析对象的格式是文本格式时,可以将基于多专家的图文模型中的目标文本专家模块作为目标分析模块;当待分析对象的格式不但包括图片格式,同时还包括文本格式时,可以将基于多专家的图文模型中的目标图片专家模块、目标文本专家模块以及目标图片文本专家模块均作为目标分析模块,这样将文本格式的待分析对象转换为目标输入向量后,通过目标文本专家模块得到对应的输出向量,将图片格式的待分析对象转换为目标输入向量后,通过目标图片文本专家模块得到对应的输出向量,最后将目标文本专家模块对应的输出向量与目标图片文本专家模块对应的输出向量进行拼接作为目标图片文本专家模块对应的输入,得到目标输出向量。当待分析对象中既包括图片格式的待分析对象,又包括文本格式的待分析对象时,先通过目标图片专家模块输出与图片格式的待分析对象对应的向量,再通过目标文本专家模块输出与文本格式的待分析对象对应的向量,之后进行拼接输入到目标图片文本专家模块中,可以提升目标图片文本专家的目标输出向量的准确度,有利于提升后续的使用效果。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种基于多专家的图文模型生成装置,如图3所示,该装置包括:
样本获取模块,用于获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
第一输入模块,用于基于任一所述训练样本中的所述样本图片,确定初始图片向量,并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
第二输入模块,用于基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
预测模块,用于依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
模型训练模块,用于基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型。
可选地,所述第一输入模块,具体用于:
确定所述样本图片的图片维度,其中,所述图片维度包括图片高度和/或图片宽度;基于预设划分尺寸,对所述样本图片的图片高度和/或图片宽度进行划分,得到与所述样本图片对应的子样本图片;将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量。
可选地,所述第二输入模块,具体用于:
基于预设字向量数据库,从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量,并将所述样本文本中每个字对应的字向量进行拼接,得到所述初始文本向量。
可选地,所述预测模块,具体用于:
将每个所述子样本图片对应的第一目标向量进行拼接,得到图片拼接向量;将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接,得到所述图片文本目标向量。
可选地,所述模型训练模块,具体用于:
基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签,通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值;当所述模型损失值大于预设损失阈值时,依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数,得到更新后的预设图片文本模型,通过所述更新后的预设图片文本模型以及所述全连接层,得到每个所述样本图片与所述样本文本之间的第二预测分值,并再次计算所述模型损失值;当所述模型损失值小于或等于所述预设损失阈值时,得到所述基于多专家的图文模型。
可选地,所述装置还包括:
接收模块,用于所述得到所述基于多专家的图文模型之后,接收待分析对象,并依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,其中,所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种;
第三输入模块,用于将所述待分析对象转换成对应的目标输入向量,并将所述目标输入向量输入至所述所述目标分析模块中,得到与所述待分析对象对应的目标输出向量,以通过所述目标输出向量得到目标结果。
可选地,所述接收模块,具体用于:
当所述待分析对象的格式为图片格式时,将所述目标图片专家模块作为所述目标分析模块;当所述待分析对象的格式为文本格式时,将所述目标文本专家模块作为所述目标分析模块;当所述待分析对象的格式包括图片格式以及文本格式时,将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
需要说明的是,本申请实施例提供的一种基于多专家的图文模型生成装置所涉及各功能单元的其他相应描述,可以参考图1至图2方法中的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图2所示的基于多专家的图文模型生成方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图2所示的方法,以及图3所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于多专家的图文模型生成方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。首先,可以获取训练样本集合,训练样本集合中可以包括多个训练样本,其中每个训练样本可以包括一个样本图片和一个样本文本。此外,样本文本还可以包括一个指示与样本图片之间关系的真实标签。对于训练样本集合中的每个训练样本,可以将训练样本中的样本图片进行转换,得到该样本图片对应的初始图片向量。接着,可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中,进而可以输出第一目标向量。此外还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着,可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中,进而可以输出第二目标向量。得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后,可以以第一目标向量和第二目标向量为基础,进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入,输入到预设图片文本模型的初始图片文本专家模块中,将初始图片文本专家模块的输出通过全连接层,输出样本图片和样本文本之间的第一预测分值。得到第一预测分值后,可以根据每个训练样本的第一预测分值和真实标签,确定预设图片文本模型的模型损失值,并以该模型损失值为基础,对预设图片文本模型进行训练,经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。本申请实施例可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练,能够节省模型的训练和维护成本,有效减少计算机资源的占用。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于多专家的图文模型生成方法,其特征在于,包括:
获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
基于任一所述训练样本中的所述样本图片,确定初始图片向量,并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型。
2.根据权利要求1所述的方法,其特征在于,所述基于任一所述训练样本中的所述样本图片,确定初始图片向量,具体包括:
确定所述样本图片的图片维度,其中,所述图片维度包括图片高度和/或图片宽度;
基于预设划分尺寸,对所述样本图片的图片高度和/或图片宽度进行划分,得到与所述样本图片对应的子样本图片;
将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,具体包括:
基于预设字向量数据库,从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量,并将所述样本文本中每个字对应的字向量进行拼接,得到所述初始文本向量。
4.根据权利要求2或3所述的方法,其特征在于,所述依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,具体包括:
将每个所述子样本图片对应的第一目标向量进行拼接,得到图片拼接向量;
将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接,得到所述图片文本目标向量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型,具体包括:
基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签,通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值;
当所述模型损失值大于预设损失阈值时,依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数,得到更新后的预设图片文本模型,通过所述更新后的预设图片文本模型以及所述全连接层,得到每个所述样本图片与所述样本文本之间的第二预测分值,并再次计算所述模型损失值;
当所述模型损失值小于或等于所述预设损失阈值时,得到所述基于多专家的图文模型。
6.根据权利要求1所述的方法,其特征在于,所述得到所述基于多专家的图文模型之后,所述方法还包括:
接收待分析对象,并依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,其中,所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种;
将所述待分析对象转换成对应的目标输入向量,并将所述目标输入向量输入至所述所述目标分析模块中,得到与所述待分析对象对应的目标输出向量,以通过所述目标输出向量得到目标结果。
7.根据权利要求6所述的方法,其特征在于,所述依据所述待分析对象的格式,从所述基于多专家的图文模型中确定对应的目标分析模块,具体包括:
当所述待分析对象的格式为图片格式时,将所述目标图片专家模块作为所述目标分析模块;
当所述待分析对象的格式为文本格式时,将所述目标文本专家模块作为所述目标分析模块;
当所述待分析对象的格式包括图片格式以及文本格式时,将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
8.一种基于多专家的图文模型生成装置,其特征在于,包括:
样本获取模块,用于获取训练样本集合,其中,所述训练样本集合包括多个训练样本,每个所述训练样本包括样本图片和样本文本,所述样本文本带有指示与所述样本图片之间关系的真实标签;
第一输入模块,用于基于任一所述训练样本中的所述样本图片,确定初始图片向量,并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块,得到第一目标向量;
第二输入模块,用于基于所述任一所述训练样本中的所述样本文本,确定初始文本向量,并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块,得到第二目标向量;
预测模块,用于依据所述第一目标向量以及所述第二目标向量,确定图片文本目标向量,将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块,并基于输出结果以及全连接层,得到所述样本图片与所述样本文本之间的第一预测分值;
模型训练模块,用于基于所述第一预测分值以及所述真实标签,确定所述预设图片文本模型的模型损失值,并基于所述模型损失值对所述预设图片文本模型进行训练,得到所述基于多专家的图文模型。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
CN202210232059.8A 2022-03-09 2022-03-09 一种基于多专家的图文模型生成方法、装置、设备及介质 Pending CN114610919A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210232059.8A CN114610919A (zh) 2022-03-09 2022-03-09 一种基于多专家的图文模型生成方法、装置、设备及介质
PCT/CN2022/089730 WO2023168811A1 (zh) 2022-03-09 2022-04-28 一种基于多专家的图文模型生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210232059.8A CN114610919A (zh) 2022-03-09 2022-03-09 一种基于多专家的图文模型生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114610919A true CN114610919A (zh) 2022-06-10

Family

ID=81861502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210232059.8A Pending CN114610919A (zh) 2022-03-09 2022-03-09 一种基于多专家的图文模型生成方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN114610919A (zh)
WO (1) WO2023168811A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875429B2 (en) * 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
CN110781633A (zh) * 2019-10-30 2020-02-11 广东博智林机器人有限公司 基于深度学习模型的图文设计质量检测方法、装置及系统
CN111310041B (zh) * 2020-02-12 2021-06-22 腾讯科技(深圳)有限公司 图文发布的方法、模型的训练方法、装置及存储介质
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备

Also Published As

Publication number Publication date
WO2023168811A1 (zh) 2023-09-14

Similar Documents

Publication Publication Date Title
US20220230420A1 (en) Artificial intelligence-based object detection method and apparatus, device, and storage medium
US11222236B2 (en) Image question answering method, apparatus and system, and storage medium
CN109948700B (zh) 用于生成特征图的方法和装置
CN109948699B (zh) 用于生成特征图的方法和装置
CN109902763B (zh) 用于生成特征图的方法和装置
CN112771578B (zh) 使用细分缩放和深度上缩放的图像生成
CN107609506B (zh) 用于生成图像的方法和装置
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
US20230274566A1 (en) Sequence recognition method and apparatus, image processing device, and storage medium
CN115457531A (zh) 用于识别文本的方法和装置
US20200193661A1 (en) Signal change apparatus, method, and program
CN112084920B (zh) 提取热词的方法、装置、电子设备及介质
EP3832475A1 (en) Sentence processing method and system and electronic device
CN110659639B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN109816023B (zh) 用于生成图片标签模型的方法和装置
CN117237606A (zh) 兴趣点图像生成方法、装置、电子设备及存储介质
US12106555B2 (en) Method and device for retrieving image
CN115661829A (zh) 图文识别方法及图文识别模型的数据处理方法
CN110674813A (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN109919249B (zh) 用于生成特征图的方法和装置
CN111797266B (zh) 图像处理方法和装置、存储介质和电子设备
CN114610919A (zh) 一种基于多专家的图文模型生成方法、装置、设备及介质
CN117391201A (zh) 问答方法、装置及电子设备
EP4447006A1 (en) Font recognition method and apparatus, readable medium, and electronic device
CN113780370B (zh) 视觉问答方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination