CN113627449A

CN113627449A - 模型训练方法及装置、标签确定方法及装置

Info

Publication number: CN113627449A
Application number: CN202010377347.3A
Authority: CN
Inventors: 刘宇; 王南洋; 徐盈辉; 王彬; 潘攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2021-11-09

Abstract

本说明书实施例提供模型训练方法及装置、标签确定方法及装置，其中，所述标签确定方法包括接收待预测图像；将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签。

Description

模型训练方法及装置、标签确定方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及模型训练方法及标签确定方法。本说明书一个或者多个实施例同时涉及模型训练装置，标签确定装置，计算设备，以及计算机可读存储介质。

背景技术

在C2C电子商务平台中，普通卖家没有经过B2C平台专业卖家类似的专业训练，在发布商品时，编辑填入的商品信息有限，经常会错填或者漏填商品信息，导致商品不能被搜索引擎有效召回。同时，卖家发布商品的时候需要上传商品图片，商品图片中包含丰富的信息。只要设计算法智能识别商品图片中商品的描述标签，则可以自动地为商品打上详细、准确的商品信息，简化商品发布的流程，并且丰富的结构化信息能够促进商品被搜索引擎有效召回，但是现有的标签识别算法覆盖的商品标签数量有限、精度不高，对最终商品搜索召回的帮助有限。

因此急需提供一种可以扩大商品标签覆盖范围、标签识别精度的识别模型。

发明内容

有鉴于此，本说明书施例提供了模型训练方法及标签确定方法。本说明书一个或者多个实施例同时涉及模型训练装置，标签确定装置，计算设备，以及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种模型训练方法，包括：

获取样本图像训练集，其中，所述样本图像训练集中包括样本图像以及所述样本图像对应的第一标签、第二标签；

基于所述样本图像以及所述样本图像对应的第一标签对第一机器学习模型进行训练，得到所述第一机器学习模型；

基于所述样本图像以及所述样本图像对应的第二标签对第二机器学习模型进行训练，得到所述第二机器学习模型，

其中，所述第一机器学习模型适用于为所述样本图像打标，并输出所述样本图像的第一标签以及所述第一标签的第一预测概率；

所述第二机器学习模型适用于为所述样本图像打标，并输出所述样本图像的第二标签以及所述第二标签的第二预测概率。

根据本说明书实施例的第二方面，提供了一种标签确定方法，包括：

接收待预测图像；

将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签。

根据本说明书实施例的第三方面，提供了一种标签确定方法，包括：

基于用户的调用请求为所述用户展示图像输入界面；

接收所述用户基于所述图像输入界面输入的待预测图像；

基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

根据本说明书实施例的第四方面，提供了一种标签确定方法，包括：

接收用户发送的调用请求，其中，所述调用请求中携带待预测图像；

根据本说明书实施例的第五方面，提供了一种模型训练装置，包括：

训练样本获取模块，被配置为获取样本图像训练集，其中，所述样本图像训练集中包括样本图像以及所述样本图像对应的第一标签、第二标签；

第一训练模块，被配置为基于所述样本图像以及所述样本图像对应的第一标签对第一机器学习模型进行训练，得到所述第一机器学习模型；

第二训练模块，被配置为基于所述样本图像以及所述样本图像对应的第二标签对第二机器学习模型进行训练，得到所述第二机器学习模型，

根据本说明书实施例的第六方面，提供了一种标签确定装置，包括：

第一图像接收模块，被配置为接收待预测图像；

第一预测概率模块，被配置为将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

第一目标标签确定模块，被配置为基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签。

根据本说明书实施例的第七方面，提供了一种标签确定装置，包括：

界面展示模块，被配置为基于用户的调用请求为所述用户展示图像输入界面；

第二图像接收模块，被配置为接收所述用户基于所述图像输入界面输入的待预测图像；

第二预测概率模块，被配置为将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

第二目标标签确定模块，被配置为基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

根据本说明书实施例的第八方面，提供了一种标签确定装置，包括：

请求接收模块，被配置为接收用户发送的调用请求，其中，所述调用请求中携带待预测图像；

第三预测概率模块，被配置为将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

第三目标标签确定模块，被配置为基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

根据本说明书实施例的第九方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述模型训练方法的步骤、或者实现所述标签确定方法的步骤。

根据本说明书实施例的第十方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述模型训练方法的步骤、或者实现所述标签确定方法的步骤。

本说明书一个实施例实现了模型训练方法及装置、标签确定方法及装置，其中，所述标签确定方法包括接收待预测图像；将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签；所述标签确定方法将同一个待预测图像通过两种机器学习模型获得的两种识别标签，然后通过将两种识别标签进行融合计算，获得最终该待预测图像的目标标签，采用此种方法提高待预测图像的目标标签识别范围和识别精度。

附图说明

图1是本说明书一个实施例提供的一种标签确定方法的具体应用场景的示例图；

图2是本说明书一个实施例提供的一种模型训练方法的流程图；

图3是本说明书一个实施例提供的第一种标签确定方法的流程图；

图4是本说明书一个实施例提供的一种标签确定方法中确定待预测图像的目标标签的具体处理流程；

图5是本说明书一个实施例提供的第二种标签确定方法的流程图；

图6是本说明书一个实施例提供的第三种标签确定方法的流程图；

图7是本说明书一个实施例提供的一种模型训练装置的结构示意图；

图8是本说明书一个实施例提供的第一种标签确定装置的结构示意图；

图9是本说明书一个实施例提供的第二种标签确定装置的结构示意图；

图10是本说明书一个实施例提供的第三种标签确定装置的结构示意图；

图11是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

C2C电子商务平台：即Consumer To Consumer电子商务平台，通过电子商务网站为买卖用户双方提供一个在线交易平台，使卖方可以在上面发布待出售的物品的信息，而买方可以从中选择进行购买，同时，为便于买卖双方交易，提供交易所需的一系列配套服务。

B2C：(Business-to-Consumer，商业零售)，B2C即企业通过互联网为消费者提供一个新型的购物环境——网上商店，消费者可以通过此B2C平台进行网上购物等。

SPU：(standard product unit，标准产品单元)SPU是商品信息聚合的最小单位，是一个商品的基本单元，是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品的特性。

在本说明书中，提供了模型训练方法及标签确定方法。本说明书一个或者多个实施例同时涉及模型训练装置，标签确定装置，计算设备，以及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种标签确定方法的具体应用场景的示例图。

图1的应用场景中包括终端和服务器，具体的，用户通过终端将图像a发送给服务器，服务器在接收到图像a后，将图像a输入预先训练的SPU模型，得到图像a的第一标签：f₁、f₂、f₃...f_m以及每个第一标签的SPU预测概率，同时将图像a输入预先训练的基础标签模型，得到图像a的第二标签g₁、g₂、g₃...g_n-1、g_n以及每个第二标签的标签初始预测概率，然后基于第一标签的SPU预测概率与第二标签的标签初始预测概率确定第一标签和第二标签的关系，通过第一标签和第二标签的关系构成SPU-标签二部图，再通过SPU-标签二部图融合第一标签的SPU预测概率和第二标签的标签初始预测概率，计算得到每个第二标签：g₁、g₂、g₃...g_n-1、g_n对应的边缘概率p₁、p₂、p₃...p_n-1、p_n，最后根据边缘概率对第二标签进行降序排序，且基于项目要求取预设数量的第二标签作为图像a的目标标签。

参见图2，图2示出了根据本说明书一个实施例提供的一种模型训练方法的流程图，包括如下步骤：

步骤202：获取样本图像训练集，其中，所述样本图像训练集中包括样本图像以及所述样本图像对应的第一标签、第二标签。

其中，样本图像包括但不限于通过智能终端下载的网络图像、拍摄终端拍摄的图像或者对视频分割之后形成的视频帧图像等，而具体的样本图像中的内容可以包括但不限于物品、风景或者人物等。

具体实施时，样本图像训练集中的每个样本图像均对应两个不同的第一标签和第二标签，例如样本图像1对应第一标签b1、b2，第二标签c1、c2、c3，由此可以看出，样本图像1对应的第一标签和第二标签为两种不同的标签。

步骤204：基于所述样本图像以及所述样本图像对应的第一标签对第一机器学习模型进行训练，得到所述第一机器学习模型。

具体实施时，所述第一标签包括所述样本图像的SPU信息聚合标签；

相应的，所述基于所述样本图像以及所述样本图像对应的第一标签对第一机器学习模型进行训练，得到所述第一机器学习模型包括：

基于所述样本图像以及所述样本图像对应的所述SPU信息聚合标签对SPU模型进行训练，得到所述SPU模型。

其中，SPU具有主图、类目、属性标签等信息，本说明书实施例中，SPU信息聚合标签可以为属性标签，即样本图像的SPU信息聚合标签包括但不限于所述样本图像的品牌以及型号等属性标签；例如样本图像为手机p，则该样本图像的SPU信息聚合标签可以包括：品牌名称：p，型号：11，机身颜色：红色等。

实际应用中，样本图像以及样本图像的SPU信息聚合标签可以从各种电商平台中获取，然后利用此种较为规范的SPU数据，即样本图像以及样本图像的SPU信息聚合标签训练得到SPU模型；实际应用场景中，在该SPU模型中输入一张图像，就可以获得该图像的相应的SPU信息聚合标签以及每个SPU信息聚合标签的SPU预测概率。

步骤206：基于所述样本图像以及所述样本图像对应的第二标签对第二机器学习模型进行训练，得到所述第二机器学习模型。

具体实施时，所述第二标签包括所述样本图像的特征标签；

相应的，所述基于所述样本图像以及所述样本图像对应的第二标签对第二机器学习模型进行训练，得到所述第二机器学习模型包括：

基于所述样本图像以及所述样本图像对应的所述特征标签对预测模型进行训练，得到所述预测模型。

其中，特征标签可以理解为视觉上可以获得的标签，比如样本图像中物品的颜色、风格、形状等标签。

具体的，利用样本图像以及每个样本图像的特征标签对预测模型进行训练，得到训练后的预测模型，在实际应用中，在该预测模型中输入一张图像，即可以获得该图像对应的特征标签以及每个特征标签的预测概率。

本说明书实施例提供的模型训练方法，通过样本图像对应的第一标签和第二标签训练得到SPU模型以及预测模型，使得SPU模型可以输出图像的SPU信息聚合标签以及每个标签的预测概率，以及使得预测模型可以输出图像的特征标签以及每个标签的预测概率；后续通过SPU模型和预测模型可以获得同一个图像的SPU信息聚合标签、特征标签等两种标签，极大的扩增了覆盖的标签范围。

参见图3，图3示出了根据本说明书一个实施例提供的第一种标签确定方法的流程图，包括如下步骤：

步骤302：接收待预测图像。

其中，待预测图像包括但不限于通过智能终端下载的网络图像、拍摄终端拍摄的图像或者按照预设分割方式切分后形成的视频图像等，而具体的待预测图像中的内容可以包括但不限于物品、风景或者人物等。

具体实施时，在接收待预测图像之前，或者接收待预测图像之后，对待预测图像的标签进行预测之前，需要先训练获得第一机器学习模型和第二机器学习模型，以便通过训练获得的第一机器学习模型和第二机器学习模型获得该待预测图像的标签以及标签对应的预测概率，具体实现方式如下：

所述第一机器学习模型以及所述第二机器学习模型的训练过程如下：

可选的，所述第一标签包括所述样本图像的SPU信息聚合标签；

其中，所述样本图像的SPU信息聚合标签包括所述样本图像的品牌以及型号标签。

可选的，所述第二标签包括所述样本图像的特征标签；

本说明书实施例中，通过上述模型训练方法获得SPU模型和预测模型，使得待预测图像后续可以基于该SPU模型和预测模型获得SPU聚合信息标签以及特征标签等数量较多的标签，例如待预测图像的颜色、风格、型号、产地、材质等标签，极大丰富了待预测图像的识别标签的数量以及种类。

步骤304：将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率。

而在第一机器学习模型为SPU模型，第二机器学习模型为预测模型的情况下，将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率，则可以理解为：

将所述待预测图像输入SPU模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入预测模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率。

而在第一机器学习模型为SPU模型的情况下，得到的待预测图像的第一标签以及第一标签以及所述第一标签的第一预测概率，则为SPU信息聚合标签以及每个SPU信息聚合标签的预测概率；在第二机器学习模型为预测模型的情况下，得到的待预测图像的第二标签以及所述第二标签的第二预测概率，则为特征标签以及每个特征标签的预测概率。

步骤306：基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签。

具体的，通过SPU模型以及预测模型获得待预测图像的SPU信息聚合标签以及每个SPU信息聚合标签的预测概率、特征标签以及每个特征标签的预测概率之后，可以根据每个SPU信息聚合标签的预测概率以及每个特征标签的预测概率确定待预测图像的目标标签，具体实现方式如下：

所述基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签包括：

基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率，确定所述第一标签与所述第二标签的初始联合概率；

根据所述初始联合概率确定所述第二标签的目标预测概率，且基于所述第二标签的目标预测概率确定所述待预测图像的目标标签。

具体实施时，基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率后，所述第一标签与所述第二标签的初始联合概率通过如下公式计算得到：

其中，X表示待预测图像，i表示第i个第二标签、g_i表示第i个第二标签的第二预测概率，j表示第j个第一标签，f_j表示第i个第一标签的第一预测概率，w_i,j表示第i个第二标签和第j个第一标签之间是否有关系，若有关系则为1，若无关系则为0。

而在基于上述公式1获得第一标签和第二标签的初始联合概率后，基于该初始联合概率对第二标签的目标预测概率进行计算，使得后续可以通过计算得到的目标预测概率对第二标签进行筛选，具体计算方式如下：

其中，

且Z为归一化系数。

通过此公式2的计算，只保留第二标签的目标预测概率，对所有第一标签(即SPU标签)求和消掉。

实际应用中，在通过上述公式2计算得到第二标签的目标预测概率之后，基于目标预测概率对第二标签进行降序排序，然后根据项目需求选择预设数量的第二标签作为待预测图像的目标标签；其中，预设数量根据项目需求设置，例如设置为3个、5个或者10个等，在此不做任何限定。

参见图4，图4示出了本说明书实施例提供的一种标签确定方法中确定待预测图像的目标标签的具体处理流程。

由图4中可以看出，待预测图像通过SPU模型和预测模型分别获得的SPU信息聚合标签为3类：0、1、2以及每个SPU信息聚合标签的预测概率为：2、5、3；获得的特征标签为4类：0、1、2、3以及每个特征标签的预测概率为：4、2.5、2、1.5.

那么基于上述每个SPU信息聚合标签的预测概率以及每个特征标签的预测概率通过上述公式1计算得到SPU信息聚合标签(即第一标签)与特征标签(即第二标签)的初始联合概率为：

其中，Z＝e²*1*e⁴+e²*1*e^2.5+e²*1*e²+e⁵*1*e^2.5+e⁵*1*e^1.5+e³*1*e²+e³*1*e^1.5＝3259.65；

在计算得到初始联合概率后，根据上述初始联合概率结合上述公式2获得每个特征标签的边缘概率(即目标预测概率)，具体计算过程如下：

P(0|x)＝P(0,0|X)+P(0,1|X)+P(0,2|X)＝0.1237；

P(1|x)＝P(1,0|X)+P(1,1|X)+P(1,2|X)＝0.58227；

P(2|x)＝P(2,0|X)+P(2,1|X)+P(2,2|X)＝0.06224；

P(3|x)＝P(3,0|X)+P(3,1|X)+P(3,2|X)＝0.2316；

而在计算得到每个特征标签的边缘概率后，基于该边缘概率对每个特征标签进行降序排序，即1>3>0>2，此时，即可以根据该排序结果选择一定数量的特征标签作为待预测图像的目标标签；例如选择两个特征标签作为待预测图像的目标标签进行展示，因此1、3类的特征标签即为待预测图像的目标标签。

本说明书实施例提供的标签确定方法中，待预测图像的SPU信息聚合标签可以实现对特征标签进行重排序；实际应用中，一个SPU信息聚合标签的标签值有很多，例如SPU信息聚合标签为颜色，则标签值可能为：红色、白色、绿色、蓝色、黄色等等，SPU信息聚合标签的意义就是让这些颜色的概率都高些，但最终是哪个颜色靠前还是需要和特征标签结合，比如特征标签中有红色和白色，那么红色和白色的特征标签的预测概率就会高于其他颜色的特征标签；此外，SPU信息聚合标签也会让那些跟SPU信息聚合标签不相关的特征标签的概率都小一些，例如待预测图像的SPU信息聚合标签为：品牌：A服装、材质：棉，特征标签为：屏幕、红色、袖长、衣长、动物；则可以确定待预测图像可能为服装，那么特征标签为红色、袖长以及衣长的特征标签与SPU信息聚合标签具有关联性，因此通过上述公式1和公式2计算之后，特征标签为红色、袖长以及衣长的特征标签的预测概率会高于特征标签为屏幕和动物的特征标签的预测概率。

本说明书一个或多个实施例提供的一种标签确定方法中，预测模型更侧重图像中的语义信息识别、因此所能识别覆盖的为视觉上可区分的语义标签；而SPU模型通过关注局部特征、具备同款或相似款识别能力，并且通过SPU信息聚合标签和特征标签之间的固有映射关系，可以辅助特征标签的识别过程，极大地扩展了能够识别的特征标签的识别范围；此外，在特征标签数量比较多的情况下,特征标签之间的模糊性会越来越严重，此时引入SPU信息聚合标签来选定候选的特征标签范围,结合预测模型的特征标签的基本区分能力，可以较明显地提升特征标签的识别精度。

本说明书另一实施例中，所述基于所述第二标签的目标预测概率确定所述待预测图像的目标标签之后，还包括：

基于所述目标标签为所述待预测图像生成图像描述信息。

具体实施时，在确定了待预测图像的目标标签后，可以基于目标标签生成待预测图像的描述信息。

例如，待预测图像的目标标签为：衣服、红色、上衣、棉，此时根据该目标标签则可以为该待预测图像生成图像描述信息：材质为棉的红色上衣。

本说明书实施例中，在获取待预测图像的目标标签后，可以基于该待预测图像的精确识别出的目标标签为该待预测图像生成较为准确的图像描述信息，极大的提升用户体验。

实际应用中，本说明书一个或多个实施例提供的标签确定方法可以应用于对图像进行打标或者描述的任意一种场景中，例如在C2C电商平台中，普通卖家没有经过B2C平台专业卖家类似的专业训练,在发布商品时,编辑填入的商品描述信息有限,经常会错填或者漏填商品描述信息，导致商品不能被搜索引擎有效召回；此种情况下采用本说明书实施例提供的标签确定方法，在输入一张商品图像后，通过本说明书一个或多个实施例提供的标签确定方法实现为该商品图像匹配较为精确且数量较多的目标标签，供用户选择使用，或者更为方便的直接基于该目标标签为用户自动生成可编辑的图像描述信息，增强用户体验。

实际应用中，所述标签确定方法中不仅仅可以对待预测图像进行目标标签的确定，也可以采用该方法对其他多模态数据进行目标标签的获取，其中，多模态数据包括但不限于文字、语音、图像和/或视频等。

而在该标签确定方法的输入为其他多模态数据时，首先对多模态数据对应的标签进行获取的机器学习模型进行训练，后续即可基于训练得到的机器学习模型实现对多模态数据对应的标签以及标签的预测概率的获取。

在具体实施时，接收到待预测多模态数据后，即可对多模态数据进行解析，以每种模态数据对应的机器学习模型，获取每种模态数据对应的标签以及标签的预测概率，最后基于所有模态数据对应的标签以及标签的预测概率确定该待预测多模态数据的目标标签。

举例说明，例如接收的待预测多模态数据为视频，则将视频解析为图像和声音，然后将图像分别输入SPU模型以及基础标签模型中，得到该图像的第一标签以及所述第一标签的第一预测概率、该图像的第二标签以及所述第二标签的第二预测概率；同时将解析得到的声音输入预先训练的声纹标签提取模型中，得到该声音的声纹标签以及该声纹标签的预测概率；最后基于上述图像对应的标签以及标签的预测概率、以及声音对应的标签以及标签的预测概率确定该视频的目标标签；实际应用中，可以采用声音标签对图像标签进行修订或补充，例如声音标签中存在品牌名，而图像标签中不存在品牌名，此时则可以基于声音标签对图像标签做补充；采用此种方式在丰富多模态数据标签的同时，又可以用过声音标签的修订确保多模态数据标签的准确性。

参见图5，图5示出了根据本说明书一个实施例提供的第二种标签确定方法的流程图，包括如下步骤：

步骤502：基于用户的调用请求为所述用户展示图像输入界面。

具体的，在接收用户的调用请求的情况下，根据该调用请求确定图像输入界面，且将该图像输入界面展示给用户，用户可以通过该图像输入界面进行待预测图像的输入。

实际应用中，用户包括但不限于商户或者个体用户等。

步骤504：接收所述用户基于所述图像输入界面输入的待预测图像。

步骤506：将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率。

步骤508：基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

需要说明的是，本说明书实施例提供的第二种标签确定方法中与上述第一种标签确定方法的实施例相对应的部分，可以参见上述第一种标签确定方法的实施例中的详细描述，在此不再赘述。

本说明书实施例提供的所述标签确定方法，在接收用户的调用请求后，基于用户的调用请求为用户展示图像输入界面，在接收用户基于图像输入界面输入的待预测图像之后，通过所述标签确定方法快速准确的获得待预测图像的目标标签，且将所述目标标签返回至所述用户，以提升用户体验。

参见图6，图6示出了根据本说明书一个实施例提供的第三种标签确定方法的流程图，包括如下步骤：

步骤602：接收用户发送的调用请求，其中，所述调用请求中携带待预测图像。

步骤604：将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率。

步骤606：基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

需要说明的是，本说明书实施例提供的第三种标签确定方法中与上述第一种标签确定方法的实施例相对应的部分，可以参见上述第一种标签确定方法的实施例中的详细描述，在此不再赘述。

实际应用中，标签确定方法应用于本地服务端，且为用户提供API接口，在接收到用户发送的API调用请求后，基于用户的调用请求中携带的待预测图像，通过所述标签确定方法快速准确的获得待预测图像的目标标签，且将所述目标标签返回至所述用户，以提升用户体验。

与上述方法实施例相对应，本说明书还提供了模型训练装置实施例，图7示出了本说明书一个实施例提供的一种模型训练装置的结构示意图。如图7所示，该装置包括：

训练样本获取模块1102，被配置为获取样本图像训练集，其中，所述样本图像训练集中包括样本图像以及所述样本图像对应的第一标签、第二标签；

第一训练模块1104，被配置为基于所述样本图像以及所述样本图像对应的第一标签对第一机器学习模型进行训练，得到所述第一机器学习模型；

第二训练模块1106，被配置为基于所述样本图像以及所述样本图像对应的第二标签对第二机器学习模型进行训练，得到所述第二机器学习模型，

相应的，所述第一训练模块1104，进一步被配置为：

可选的，所述第二标签包括所述样本图像的特征标签；

相应的，所述第二训练模块1106，进一步被配置为：

可选的，所述样本图像的SPU信息聚合标签包括所述样本图像的品牌以及型号标签。

上述为本实施例的一种模型训练装置的示意性方案。需要说明的是，该模型训练装置的技术方案与上述的模型训练方法的技术方案属于同一构思，模型训练装置的技术方案未详细描述的细节内容，均可以参见上述模型训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了标签确定装置实施例，图8示出了本说明书一个实施例提供的第一种标签确定装置的结构示意图。如图8所示，该装置包括：

第一图像接收模块1202，被配置为接收待预测图像；

第一预测概率模块1204，被配置为将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

第一目标标签确定模块1206，被配置为基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签。

可选的，所述第一机器学习模型以及所述第二机器学习模型通过如下模块训练：

样本获取模块，被配置为获取样本图像训练集，其中，所述样本图像训练集中包括样本图像以及所述样本图像对应的第一标签、第二标签；

第三训练模块，被配置为基于所述样本图像以及所述样本图像对应的第一标签对第一机器学习模型进行训练，得到所述第一机器学习模型；

第四训练模块，被配置为基于所述样本图像以及所述样本图像对应的第二标签对第二机器学习模型进行训练，得到所述第二机器学习模型，

相应的，所述第三训练模块，进一步被配置为：

可选的，所述第二标签包括所述样本图像的特征标签；

相应的，所述第四训练模块，进一步被配置为：

可选的，所述第一目标标签确定模块1206，进一步被配置为：

可选的，所述装置，还包括：

描述信息生成模块，被配置为基于所述目标标签为所述待预测图像生成图像描述信息。

可选的，所述待预测图像包括按照预设分割方式切分后形成的视频图像。

上述为本实施例的第一种标签确定装置的示意性方案。需要说明的是，该标签确定装置的技术方案与上述的第一种标签确定方法的技术方案属于同一构思，标签确定装置的技术方案未详细描述的细节内容，均可以参见上述第一种标签确定方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了标签确定装置实施例，图9示出了本说明书一个实施例提供的第二种标签确定装置的结构示意图。如图9所示，该装置包括：

界面展示模块1302，被配置为基于用户的调用请求为所述用户展示图像输入界面；

第二图像接收模块1304，被配置为接收所述用户基于所述图像输入界面输入的待预测图像；

第二预测概率模块1306，被配置为将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

第二目标标签确定模块1308，被配置为基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

上述为本实施例的第二种标签确定装置的示意性方案。需要说明的是，该标签确定装置的技术方案与上述的第二种标签确定方法的技术方案属于同一构思，标签确定装置的技术方案未详细描述的细节内容，均可以参见上述第二种标签确定方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了标签确定装置实施例，图10示出了本说明书一个实施例提供的第三种标签确定装置的结构示意图。如图10所示，该装置包括：

请求接收模块1402，被配置为接收用户发送的调用请求，其中，所述调用请求中携带待预测图像；

第三预测概率模块1404，被配置为将所述待预测图像输入第一机器学习模型，得到所述待预测图像的第一标签以及所述第一标签的第一预测概率，且将所述待预测图像输入第二机器学习模型，得到所述待预测图像的第二标签以及所述第二标签的第二预测概率；

第三目标标签确定模块1406，被配置为基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签并返回给所述用户。

上述为本实施例的第三种标签确定装置的示意性方案。需要说明的是，该标签确定装置的技术方案与上述的第三种标签确定方法的技术方案属于同一构思，标签确定装置的技术方案未详细描述的细节内容，均可以参见上述第三种标签确定方法的技术方案的描述。

图11示出了根据本说明书一个实施例提供的一种计算设备2100的结构框图。该计算设备2100的部件包括但不限于存储器2110和处理器2120。处理器2120与存储器2110通过总线2130相连接，数据库2150用于保存数据。

计算设备2100还包括接入设备2140，接入设备2140使得计算设备2100能够经由一个或多个网络2160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备2140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备2100的上述部件以及图11中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图11所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备2100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备2100还可以是移动式或静止式的服务器。

其中，处理器2120用于执行如下计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述模型训练方法的步骤、或者实现所述标签确定方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的模型训练方法或标签确定方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述模型训练方法或标签确定方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述模型训练方法的步骤、或者实现所述标签确定方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的模型训练方法或标签确定方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述模型训练方法或标签确定方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种模型训练方法，包括：

2.根据权利要求1所述的模型训练方法，所述第一标签包括所述样本图像的SPU信息聚合标签；

3.根据权利要求1所述的模型训练方法，所述第二标签包括所述样本图像的特征标签；

4.根据权利要求2所述的模型训练方法，所述样本图像的SPU信息聚合标签包括所述样本图像的品牌以及型号标签。

5.一种标签确定方法，包括：

接收待预测图像；

6.根据权利要求5所述的标签确定方法，所述第一机器学习模型以及所述第二机器学习模型的训练过程如下：

7.根据权利要求6所述的标签确定方法，所述第一标签包括所述样本图像的SPU信息聚合标签；

8.根据权利要求6所述的标签确定方法，所述第二标签包括所述样本图像的特征标签；

9.根据权利要求7所述的标签确定方法，所述样本图像的SPU信息聚合标签包括所述样本图像的品牌以及型号标签。

10.根据权利要求5所述的标签确定方法，所述基于所述第一标签以及所述第一标签的第一预测概率与所述第二标签以及所述第二标签的第二预测概率确定所述待预测图像的目标标签包括：

11.根据权利要求10所述的标签确定方法，所述基于所述第二标签的目标预测概率确定所述待预测图像的目标标签之后，还包括：

基于所述目标标签为所述待预测图像生成图像描述信息。

12.根据权利要求5-11任意一项所述的标签确定方法，所述待预测图像包括按照预设分割方式切分后形成的视频图像。

13.一种标签确定方法，包括：

基于用户的调用请求为所述用户展示图像输入界面；

接收所述用户基于所述图像输入界面输入的待预测图像；

14.一种标签确定方法，包括：

15.一种模型训练装置，包括：

16.一种预测装置，包括：

第一图像接收模块，被配置为接收待预测图像；

17.一种标签确定装置，包括：

18.一种标签确定装置，包括：

19.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1至4任意一项所述模型训练方法的步骤、或者实现权利要求5-14任意一项所述标签确定方法的步骤。

20.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至4任意一项所述模型训练方法的步骤、或者实现权利要求5-14任意一项所述标签确定方法的步骤。