CN114202026B

CN114202026B - 多任务模型训练方法和装置、多任务处理方法和装置

Info

Publication number: CN114202026B
Application number: CN202111508235.8A
Authority: CN
Inventors: 张宸鸣; 钟开; 张通滨; 杨建忠; 卢振
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2024-10-01
Anticipated expiration: 2041-12-10
Also published as: CN114202026A

Abstract

本公开提供了一种多任务模型训练方法和装置，涉及计算机视觉、深度学习等技术领域。具体实现方案为：获取包括至少一类初始图像的训练样本集；获取预先建立的多任务网络，多任务网络中的通用特征提取器通过分支节点分别与各个初始分支网络连接；从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像对应的特征图；针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，响应于多任务网络满足训练完成条件，得到多任务模型。该实施方式平衡了多个任务的训练效果。

Description

多任务模型训练方法和装置、多任务处理方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及计算机视觉、深度学习等技术领域，尤其涉及一种多任务模型训练方法和装置、多任务处理方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的发展，移动终端硬件性能的提高，价格的下降，可以利用视觉算法在移动终端弥补定位精度不足，例如，在移动终端上实现车道级导航或者其他需要高精度定位功能，不论对于自动驾驶，还是地图数据生产都具有重要的意义。由于移动终端计算能力限制，需要在保证算法执行效率的前提下，识别更多的识别要素，多任务模型是一个必然的方案，训练这样的模型需要平衡不同任务的训练强度，保障多任务模型在每个任务上都能达到最好效果。

发明内容

本公开提供了一种多任务模型训练方法和装置、多任务处理方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

根据第一方面，提供了一种多任务模型训练方法，该方法包括：获取包括至少一类初始图像的训练样本集，其中，每类初始图像标注有至少一类识别要素；获取预先建立的多任务网络，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接；执行以下训练步骤：从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，选取的初始图像的识别要素与所有初始分支网络相对应；针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，响应于多任务网络满足训练完成条件，得到多任务模型。

根据第二方面，提供了一种多任务处理方法，该方法包括：获取待处理图像；将待处理图像输入采用如第一方面任一实现方式描述的方法生成的多任务模型中，得到待处理图像的多任务处理结果。

根据第三方面，提供了一种多任务模型训练装置，该装置包括：样本获取单元，被配置成获取包括至少一类初始图像的训练样本集，其中，每类初始图像标注有至少一类识别要素；网络获取单元，被配置成获取预先建立的多任务网络，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接；图像选取单元，被配置成从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，选取的初始图像的识别要素与所有初始分支网络相对应；特征输入单元，被配置成针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；梯度调整单元，被配置成采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值；模型得到单元，被配置成在多任务网络满足训练完成条件时，得到多任务模型。

根据第四方面，又提供了一种多任务处理装置，该装置包括：获取单元，被配置成获取待处理图像；输入单元，被配置成将待处理图像输入采用如第三方面任一实现方式描述的装置生成的多任务模型中，得到待处理图像的多任务处理结果。

根据第五方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。

本公开的实施例提供的多任务模型训练方法和装置，首先，获取包括至少一类初始图像的训练样本集，每类初始图像标注有至少一类识别要素；其次，获取预先建立的多任务网络，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接；再次，从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，选取的初始图像的识别要素与所有初始分支网络相对应；从次，针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；最后，采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，响应于多任务网络满足训练完成条件，得到多任务模型。由此，通过设置通用特征提取器和多个初始分支网络的多任务网络，并在多任务训练时采用各个初始分支网络的梯度调整初始分支网络的损失权重值，得到基于梯度平衡的多任务模型，平衡了多个任务的训练效果，保证多任务模型在每个任务上都能达到最好的效果。

本公开的实施例提供的多任务处理方法和装置，获取待处理图像；将待处理图像输入采用本实施例的多任务模型训练方法生成的多任务模型中，得到待处理图像的多任务处理结果。由此，采用通用特征提取器和多个初始分支网络生成的多任务模型，可以均衡各个任务的任务处理效果，提升了多任务处理的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开多任务模型训练方法的一个实施例的流程图；

图2是本公开实施例中多任务网络进行训练的一种结构示意图；

图3是根据本公开多任务处理方法的一个实施例的流程图；

图4是根据本公开多任务模型训练装置的一个实施例的结构示意图；

图5是根据本公开多任务处理装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的多任务模型训练方法或多任务处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

传统的多识别要素的多任务模型需要标注全量数据集，否则采用多个不同的任务模型，基于此，本公开提出了一种基于梯度平衡的多任务模型训练方法，图1示出了根据本公开多任务模型训练方法的一个实施例的流程100，上述多任务模型训练方法包括以下步骤：

步骤101，获取包括至少一类初始图像的训练样本集。

本实施例中，多任务模型训练方法运行于其上的执行主体可以通过多种方式获取训练样本集，例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的训练样本集。再例如，用户可以通过与终端通信，获取终端所收集的训练样本集。

在这里，训练样本集可以包括至少一类初始图像，针对训练多任务模型时不同样本实现的任务不同，将初始图像分为不同类，每类初始图像可以实现至少一种任务对应的识别要素的样本标注，例如，训练样本集的一类初始图像是用于目标检测任务，训练样本集中的另一类初始图像用于语义分割和关键点检测，当前训练样本集中的初始图像还可以用于其他视觉任务，此处不再赘述。

本实施例中，每类初始图像标注有至少一类识别要素，识别要素为多任务模型需要处理的检测目标，检测目标可以图像中的人、物、景色等，多任务模型一般有两个以上检测目标，通过在初始图像对识别要素进行标注使多任务网络正确确定识别要素，为多任务模型训练提供检测目标的真值信息。当初始图像用于实现一种任务时，初始图像上的标注有一类识别要素；当初始图像用于实现两种以上任务时，初始图像上的标注有两类以上识别要素；如图2所示，A类图像上标注了识别要素1(图中未示出)和识别要素2(图中未示出)，可以实现两种任务；B类图像上标注了识别要素3(图中未示出)，可以实现一种任务。

本实施例中，获取包括至少一类初始图像的训练样本集包括：对不同识别要素的图像采用独立的数据读入模块，并根据任务需求实现独立的数据预处理，处理不同的格式信息。例如，语义分割、目标检测、关键点检测等任务所需要的预处理方法，每类识别要素的图像的处理均不相同，从而按照不同识别要素对图像完全解耦，得到训练样本集。

本公开的技术方案中，所涉及的初始图像、识别要素的收集、存储、使用、加工、传输、提供和公开等处理，是在经授权后执行的，符合相关法律法规。

步骤102，获取预先建立的多任务网络。

其中，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接。

本实施例中，通用特征提取器将输入图像映射到高维特征空间中，得到输入图像的特征图，该特征图包含输入图像的所有识别要素的特征，通用特征提取器为所有初始分支网络共用的网络；初始分支网络分别与多任务模型的任务、识别要素相对应，初始分支网络的数量与多任务模型的任务的数量相同，初始分支网络的数量还与识别要素的数量相同，各个初始分支网络基于输入图像的特征图，对输入图像的特征图中相应的识别要素进行任务处理，得到对应识别要素的任务处理结果。

本实施例中，通用特征提取器提取输入的初始图像的所有特征，得到输入的图像的特征图，基于识别要素的不同，将特征图拆分对应不同识别要素的特征图，每个识别要素的特征图输入识别要素对应的初始分支网络，得到各个初始分支网络对各自的特征图进行任务处理的任务处理结果。

基于多任务模型适应的场景不同，多任务网络中的初始分支网络的可以采用网络结构也可以不同，例如，在自动驾驶场景下，多任务模型需要、进行车道线分割、行人检测等，则多任务网络需要包括语义分割网络和目标检测网络的网络结构。

在本实施例的一些可选实现方式中，上述初始分支网络可以包括：语义分割网络、目标检测网络、关键点检测网络中的任意两种。

本实施例中，语义分割网络是将一些原始数据(例如，平面图像)的特征图作为输入并将其转换为具有突出显示的感兴趣区域的掩模，其中图像中的每个像素根据其所属的感兴趣对象被分配到相应类别，相对于传统的语义分割网络将提取特征图作为中间环节，本实施例的语义分割网络直接采用初始图像的特征图作为输入。

本实施例中，目标检测网络是将一些原始数据的特征图作为输入，并找出特征图中所有感兴趣的目标，确定目标的位置和大小。相对于传统的目标检测网络将提取特征图作为中间环节，本实施例的目标检测网络直接采用初始图像的特征图作为输入。

本实施例中，关键点检测网络是将一些原始数据的特征图作为输入，并找出特征图中所有感兴趣的关键点，确定各个关键点之间的位置关系。相对于传统的关键点检测网络将提取特征图作为中间环节，本实施例的关键点检测网络直接采用初始图像的特征图作为输入。

本可选实现方式中，基于多任务模型的任务，设置的多种初始分支网络，为初始分支网络的表征提供了多种可选方式，提高了初始分支网络设置的多样性。

步骤103，从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图。

其中，选取的初始图像的识别要素与所有初始分支网络相对应。

本实施例中，执行主体可以从步骤101中获取的训练样本集中选取初始图像，以及执行步骤103至步骤106的训练步骤。其中，初始图像的选取方式和选取数量在本申请中并不限制。例如在一次迭代训练中可以是随机选取一类初始图像，该类初始图像上标注有至少两个识别要素；或者在一次迭代训练中随机选取两类初始图像，每类初始图像上标注有一类识别要素，通过选取的初始图像的识别要素的标注信息计算多任务网络的损失值，调整多任务网络的参数。

本实施例中，通用特征提取器主要作用是将选取的初始图像映射到高维特征空间，得到高维特征。通用特征提取器可以是一种编码器，比如，特征提取器由两层DNN构成，每层DNN是512维。

本实施例中，特征图与每类初始图像相对应，例如，输入一类初始图像，则通用特征提取器输出该类初始图像的特征图；输入多类初始图像，则通用特征提取器输出多类初始图像的特征图。如图2所示，输入A类图像，则输出A类特征图；输入B类图像，则输出B类特征图。

基于选取的初始图像的数量不同，得到与选取的初始图像一一对应的特征图的方式也不同。在本实施例的一些可选实现方式中，上述将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，包括：响应于选取的初始图像为多类，将多类初始图像叠加输入通用特征提取器，得到通用特征提取器输出的特征图；对通用特征提取器输出的特征图按照多类初始图像的种类进行拆分，得到与多类初始图像对应的特征图。

本可选实现方式中，当选取的初始图像为多类时，同时将多类初始图像叠加输入通用特征提取器，并对通用特征提取器按照多类初始图像的种类进行拆分，可以有效得到各类初始图像对应的特征图，保证了后续各个初始分支网络训练的有效性。

可选地，上述将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，包括：响应于选取的初始图像为一类，将该初始图像输入通用特征提取器，得到通用特征提取器输出的特征图，通用特征提取器输出的特征图为所有初始分支网络的特征图。

本可选实现方式中，可以将该初始图像对应的特征图作为各个初始分支网络的输入，便于各个初始分支网络在该初始图像对应的特征图中对各自的识别要素进行处理。

步骤104，针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络。

本实施例中，多任务网络的每次迭代训练时，均会从通用特征提取器中得到特征图，并按照初始图像的类型拆分特征图，再将各个特征图输入初始图像的识别要素对应的初始分支网络，如图2中，A类图像中标注有识别要素1和识别要素2，则从通用特征提取器得到对应A类图像的A类特征图，并将A类特征图分别输入初始分支网络1、初始分支网络2，此时A类特征图既输入到了初始分支网络1，又输入到了初始分支网络2。B类图像中标注有识别要素3，则从通用特征提取器得到对应B类图像的B类特征图，并将B类特征图输入初始分支网络3。

如图2所示，将不同识别要素对应的初始图像组合后输入多任务网络的通用特征提取器，利用通用特征提取器对输入的初始图像进行特征提取，将提取到的特征图按照不同识别要素拆分后分别传入独立的初始分支网络，每个初始分支网络进行独立的识别要素处理，该识别要素处理可以是多种类别的目标检测任务处理，也可以是多种目标识别任务处理，如检测、语义分割，关键点检测。因为不同初始分支网络对应独立的损失函数，所以在对各个识别要素进行数据标注时，可以只标注各个识别要素，不需要考虑其他初始分支网络的预测情况。

步骤105，采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值。

本实施例中，基于多任务网络的结构，可以为不同初始分支网络设置独立的损失函数，并在多任务网络每次迭代训练中计算不同初始分支网络的损失函数，如图2所示，针对初始分支网络1处理的识别要素1可以独立计算初始分支网络1的损失函数，得到初始分支网络1的损失函数的损失值，并基于初始分支网络1的损失值，调整多任务网络的参数。

梯度的本意是一个向量，表示某一损失函数在该点处的方向导数沿着该方向取得最大值，即损失函数在该点处沿着该方向变化最快，变化率最大。在深度学习中，神经网络的主要任务是在学习时找到最优的网络参数(权重和偏置)，这个最优的网络参数也就是损失函数最小时的参数。但是一般情况下，损失函数比较复杂，参数也很多，无法确定取得最小值的点。所以通过梯度来寻找最小值(或者尽可能小的值)的方法就是梯度下降法。为了使初始分支网络的损失函数的下降最快，也可以采用梯度下降法算法，使多任务网络的参数沿着梯度的负方向更新。

由于多任务网络会共用大部分网络结构(图2中通用特征提取器)，不同初始分支网络都会对通用特征提取器的特征激活产生影响，因此可能发生冲突的情况。为了解决这种问题，可以根据每个初始分支网络在通用特征提取器的梯度大小，来调整不同初始分支网络的损失权重。多任务网络的训练步骤包括多次迭代训练，每次迭代训练均可以通过工具采集到连接通用特征提取器与各个初始分支网络的分支节点的梯度值，并基于采集到的梯度值可以区分得到各个初始分支网络的损失函数对应的梯度值。

本实施例中，在每次迭代训练时，计算一次多任务网络的损失函数的损失值，多任务网络的损失值为所有初始分支网络乘积值相加得到，各个初始网络的乘积值为各个初始分支网络的损失值与各自的损失权重值相乘得到，通过调整初始分支网络的损失权重值可以调整初始分支网络在多任务网络中所占的比重，损失权重值越大，在多任务网络中所占的训练份额越大。

在本实施例的一些可选实现方式中，上述基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，包括：响应于当前迭代训练周期中所有初始分支网络中当前的初始分支网络的梯度值大于其他初始分支网络的梯度值，在下一迭代训练周期中将当前的初始分支网络的损失权重值设置为小于其他初始分支网络的损失权重值。

本可选实现方式中，迭代训练周期是指在当前迭代训练中多任务网络中所有初始分支网络均完成的损失函数计算以及参数调整的时间周期。

本可选实现方式中，通过监测当前迭代训练周期中初始分支网络的梯度，调整下一迭代训练周期的当前初始分支网络的损失权重值，为多任务网络的训练提供的调整手段，保证了多任务网络训练的可靠性。

可选地，上述基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，还包括：响应于多次迭代训练周期中所有初始分支网络中当前的初始分支网络的梯度值均大于其他初始分支网络的梯度值，在该多次迭代训练周期之后将当前的初始分支网络的损失权重值设置为小于其他初始分支网络的损失权重值。

本可选实现方式中，通过对当前初始分支网络的梯度值进行多次迭代周期的监测之后，再调整当前初始分支网络的损失权重值，为多任务网络的稳定训练提供可靠依据。

步骤106，响应于多任务网络满足训练完成条件，得到多任务模型。

本实施例中，通过多任务网络的损失值可以检测多任务网络是否满足训练完成条件，在多任务网络满足训练完成条件之后，得到训练完成的多任务模型。

在本实施例中，上述训练完成条件包括以下至少一项：多任务网络的训练迭代次数达到预定迭代阈值，多任务网络损失值小于预定损失值阈值。其中，预定迭代阈值是基于多任务网络的损失值得到的经验值。例如，多任务网络的预定迭代阈值是1万次。多任务网络的预定损失值阈值为0.02。

可选地，本实施例中，响应于多任务网络不满足训练完成条件，则调整多任务网络中的相关参数使得多任务网络的损失值收敛，基于调整后的多任务网络，继续执行上述训练步骤103-106。

本可选实现方式中，在多任务网络不满足训练完成条件时，调整多任务网络的相关参数，有助于帮助多任务网络的损失值收敛。

在本实施例中，若训练未完成，可以通过调整多任务网络的参数使得多任务网络的损失值收敛。具体地，调整多任务网络中的相关参数使得多任务网络的损失值收敛包括：通过执行步骤103至步骤106，反复调整多任务网络中任意一个初始分支网络的参数或任意一个初始分支网络的损失权重值，以使多任务网络的损失值收敛。

可选地，在每次迭代过程中，还可以同时调整两个以上初始分支网络的参数，以保证多任务网络的损失值逐渐变小直至稳定。

本公开的实施例提供的多任务模型训练方法，首先，获取包括至少一类初始图像的训练样本集，每类初始图像标注有至少一类识别要素；其次，获取预先建立的多任务网络，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接；再次，从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，选取的初始图像的识别要素与所有初始分支网络相对应；从次，针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；最后，采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，响应于多任务网络满足训练完成条件，得到多任务模型。由此，通过设置通用特征提取器和多个初始分支网络的多任务网络，并在多任务训练时采用各个初始分支网络的梯度调整初始分支网络的损失权重值，得到基于梯度平衡的多任务模型，平衡了多个任务的训练效果，保证多任务模型在每个任务上都能达到最好的效果。

在本公开的另一个实施例中，上述多任务模型训练方法还包括：获取新增图像，新增图像标注有至少一类新增要素；在多任务模型中增加与所有新增要素对应的新增分支网络，以使通用特征提取器通过分支节点还与新增分支网络连接；执行以下新的训练步骤：选取新增图像和初始图像，将选取的新增图像与选取的初始图像同时输入通用特征提取器，得到新的特征图；将从新的特征图中拆分出的、对应选取的初始图像的特征图输入依次输入各个初始分支网络；将从新的特征图中拆分出的、对应选取的新增图像的特征图输入新增分支网络；采集分支节点中各个初始分支网络以及新增分支网络的梯度值，并基于各个初始分支网络的梯度值和新增分支网络的梯度值调整相应初始分支网络和/或新增分支网络的损失权重值。

本实施例中，新增图像是与初始图像不同的图像，新增图像上标注有新增要素的标注信息，为新增要素提供了真值信息，便于新增分支网络的训练；新增分支网络是与各个初始分支网络相区别的网络，并且新增分支网络可以实现与各个初始分支网络不同的任务。

本实施例中，新增图像输入通用特征提取器之后，相应会生成对应新增图像的特征图，将对应新增图像的特征图输入新增分支网络，便于新增分支网络的训练。

本实施例中，在增加了新增分支网络的多任务模型满足训练完成条件时，得到新的多任务模型，新的多任务模型相对于多任务模型增加了新增分支网络，可以实现新的任务处理。

本公开的实施例提供的多任务模型训练方法，可在已生成的多任务模型上任意扩展新的新增要素，同时只需要对新增要素对应的新增数据集进行标注并且增加新增分支网络，实现了对不同要素的任意扩展。

在本公开的另一个实施例中，上述多任务模型训练方法还可以包括：去除多任务模型中的一个或多个初始分支网络。

本公开的实施例提供的多任务模型训练方法，可以在训练完成的多任务模型上去掉一个或多个初始分支网络，并且在去除初始分支网络之后，也不会影响新的多任务模型的性能，保证了多任务模型的可扩展性。

可选地，在新的多任务模型增加了新增分支网络之后，在本实施例的另一个可选实现方式中，上述多任务模型训练方法还可以包括：去除新的多任务模型中的一个或多个新增分支网络。

进一步地，基于上述实施例提供的多任务模型训练方法，本公开还提供了一种多任务处理方法的一个实施例，本公开的多任务处理方法结合了计算机视觉、深度学习等人工智能领域。

参见图3，示出了根据本公开多任务处理方法的一个实施例的流程300，本实施例提供的多任务处理方法包括以下步骤：

步骤301，获取待处理图像。

在本实施例中，待处理图像可以是包括人、物、景色等信息的图像，通过多任务模型对待处理图像进行处理，可以得到不同任务处理结果。多任务处理方法的执行主体可以通过多种方式来获取待处理图像。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的待处理图像。再例如，执行主体也可以实时接收终端或其他设备实时采集的待处理图像。

在本实施例中，获取的待处理图像上可能具有识别要素，也可以没有识别要素，当待处理图像上具有识别要素时，该待处理图像上具有的识别要素可以是一类或也可以是多类，每类识别要素对应着一种任务，基于多任务模型中的通用特征提取器和该识别要素对应的初始分支网络可以对该识别要素进行有效识别，得到对该识别要素的任务处理结果。

当待处理图像上不具有识别要素时，多任务模型可以直接给出未检测到识别要素的任务处理结果。

本实施例中，识别要素与任务相对应，例如，目标检测任务中，识别要素为与该目标检测任务对应的目标，目标可以是待处理图像中的人、物等；语义分割任务中，识别要素为该语义分割任务待标注的待处理图像中不同物体的像素类别。

步骤302，将待处理图像输入多任务模型中，得到待处理图像的多任务处理结果。

本实施例中，执行主体可以将步骤301中获取的待处理图像输入多任务模型中，从而得到获取的待处理图像的多任务处理结果。需要说明的是，多任务处理结果是对待处理图像进行多种任务处理后的结果，基于多任务模型的结构可知，得到的多任务处理结果可以提高所有任务处理的效率。

本实施例中，多任务模型可以是采用如上述图1实施例所描述的方法而训练得到的，具体训练过程可以参见图1实施例的相关描述，在此不再赘述。

本实施例中，待处理图像的多任务处理结果基于多任务模型的初始分支网络或/和新增分支网络确定，多任务模型中初始分支网络与新增分支网络的数量则是待处理图像的多任务处理结果的数量。例如，多任务模型只有初始分支网络，且初始分支网络的数量为两个，则待处理图像的多任务处理结果有两个。再如，多任务模型包括两个初始分支网络和三个新增分支网络，则待处理图像的多任务处理结果有五个。

在本实施例的一些可选实现方式中，多任务模型的初始分支网络包括：语义分割网络、目标检测网络、关键点检测网络中的任意两种或多种，则多任务处理结果包括：待处理图像中的目标的语义分割结果、目标检测结果以及关键点检测结果中的至少两项。

本可选实现方式中，基于多任务模型的任务不同，得到的多任务处理结果不同，而多任务模型对待处理图像进行处理之后，得到的多任务处理结果的表现形式也可以不同。

本可选实现方式中，基于多任务模型的任务，设置的多任务处理结果表现形式，为多任务处理结果的表征提供了多种可选方式，提高了多任务模型对待处理图像进行处理的多样性。

本公开的实施例提供的多任务处理方法，获取待处理图像；将待处理图像输入采用本实施例的多任务模型训练方法生成的多任务模型中，得到待处理图像的多任务处理结果。由此，采用通用特征提取器和多个初始分支网络生成的多任务模型，可以均衡各个任务的任务处理效果，提升了多任务处理的效率。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了多任务模型训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图4所示，本实施例提供的多任务模型训练装置400包括：样本获取单元401，网络获取单元402，图像选取单元403，特征输入单元404，梯度调整单元405，模型得到单元406。其中，上述样本获取单元401，可以被配置成获取包括至少一类初始图像的训练样本集，其中，每类初始图像标注有至少一类识别要素。上述网络获取单元402，可以被配置成获取预先建立的多任务网络，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接。上述图像选取单元403，可以被配置成从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，选取的初始图像的识别要素与所有初始分支网络相对应。上述特征输入单元404，可以被配置成针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络。上述梯度调整单元405，可以被配置成采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值。上述模型得到单元406，可以被配置成在多任务网络满足训练完成条件时，得到多任务模型。

在本实施例中，多任务模型训练装置400中：样本获取单元401，网络获取单元402，图像选取单元403，特征输入单元404，梯度调整单元405，模型得到单元406的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105、步骤106的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述图像选取单元403包括：叠加模块(图中未示出)，得到模块(图中未示出)。其中，上述叠加模块，可以被配置成响应于选取的初始图像为多类，将多类初始图像叠加输入通用特征提取器，得到通用特征提取器输出的特征图。上述得到模块，可以被配置成对通用特征提取器输出的特征图按照多类初始图像的种类进行拆分，得到与多类初始图像对应的特征图。

在本实施例的一些可选的实现方式中，上述装置400还包括：新增获取单元(图中未示出)，网络增加单元(图中未示出)，新增选取单元(图中未示出)，初始输入单元(图中未示出)，新增输入单元(图中未示出)。其中，上述新增获取单元，被配置成获取新增图像，新增图像标注有至少一类新增要素。上述网络增加单元，可以被配置成在多任务模型中增加与所有新增要素对应的新增分支网络，以使通用特征提取器通过分支节点还与新增分支网络连接。上述新增选取单元，可以被配置成选取新增图像和初始图像，将选取的新增图像与选取的初始图像同时输入通用特征提取器，得到新的特征图。上述初始输入单元，可以被配置成将从新的特征图中拆分出的、对应选取的初始图像的特征图输入依次输入各个初始分支网络。上述新增输入单元，可以被配置成将从新的特征图中拆分出的、对应选取的新增图像的特征图输入新增分支网络。上述新增调整单元，可以被配置成采集分支节点中各个初始分支网络以及新增分支网络的梯度值，并基于各个初始分支网络的梯度值和新增分支网络的梯度值调整相应初始分支网络和/或新增分支网络的损失权重值。

在本实施例的一些可选的实现方式中，上述初始分支网络包括：语义分割网络、目标检测网络、关键点检测网络中的任意两种。

在本实施例的一些可选实现方式中，上述梯度调整单元405进一步被配置成：响应于当前迭代训练周期中所有初始分支网络中当前的初始分支网络的梯度值大于其他初始分支网络的梯度值，在下一迭代训练周期中将当前的初始分支网络的损失权重值设置为小于其他初始分支网络的损失权重值。

在本实施例的一些可选实现方式中，上述样装置400还包括：去除单元(图中未示出)。其中，上述去除单元，可以被配置成去除多任务模型中的一个或多个初始分支网络。

本公开的实施例提供的多任务模型训练装置，首先，样本获取单元401获取包括至少一类初始图像的训练样本集，每类初始图像标注有至少一类识别要素；其次，网络获取单元402获取预先建立的多任务网络，多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，通用特征提取器通过分支节点分别与各个初始分支网络连接；再次，图像选取单元403从训练样本集中选取初始图像，将选取的初始图像输入通用特征提取器，得到与选取的初始图像一一对应的特征图，选取的初始图像的识别要素与所有初始分支网络相对应；从次，特征输入单元404针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；然后，梯度调整单元405采集分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值；最后，模型得到单元406响应于多任务网络满足训练完成条件，得到多任务模型。由此，通过设置通用特征提取器和多个初始分支网络的多任务网络，并在多任务训练时采用各个初始分支网络的梯度调整初始分支网络的损失权重值，得到基于梯度平衡的多任务模型，平衡了多个任务的训练效果，保证多任务模型在每个任务上都能达到最好的效果。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了多任务处理装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图5所示，本实施例提供的多任务处理装置500包括：获取单元501，输入单元502。其中，上述获取单元501，可以被配置成获取待处理图像。上述输入单元502，可以被配置成将待处理图像输入如上述图3实施例所描述的装置生成的多任务模型中，得到待处理图像的多任务处理结果。

在本实施例中，多任务处理装置500中：获取单元501，输入单元502的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301、步骤302的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，多任务处理结果包括：待处理图像中的目标的语义分割结果、目标检测结果以及关键点检测结果中的至少两项。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如多任务模型训练方法或多任务处理方法。例如，在一些实施例中，多任务模型训练方法或多任务处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的多任务模型训练方法或多任务处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多任务模型训练方法或多任务处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程多任务模型训练装置、多任务处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多任务模型训练方法，所述方法包括：

获取包括至少一类初始图像的训练样本集，其中，每类初始图像标注有至少一类识别要素；

获取预先建立的多任务网络，所述多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，所述通用特征提取器通过分支节点分别与各个初始分支网络连接；

执行以下训练步骤：

从所述训练样本集中选取初始图像，将选取的初始图像输入所述通用特征提取器，得到与选取的初始图像一一对应的特征图，所述选取的初始图像的识别要素与所有初始分支网络相对应；

针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；

采集所述分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，响应于所述多任务网络满足训练完成条件，得到多任务模型，其中，所述基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，包括：响应于当前迭代训练周期中所有初始分支网络中当前的初始分支网络的梯度值大于其他初始分支网络的梯度值，在下一迭代训练周期中将当前的初始分支网络的损失权重值设置为小于其他初始分支网络的损失权重值。

2.根据权利要求1所述的方法，其中，所述将选取的初始图像输入所述通用特征提取器，得到与选取的初始图像一一对应的特征图，包括：

响应于所述选取的初始图像为多类，将多类初始图像叠加输入所述通用特征提取器，得到所述通用特征提取器输出的特征图；

对所述通用特征提取器输出的特征图按照所述多类初始图像的种类进行拆分，得到与所述多类初始图像对应的特征图。

3.根据权利要求1所述的方法，所述方法还包括：

获取新增图像，所述新增图像标注有至少一类新增要素；

在所述多任务模型中增加与所有新增要素对应的新增分支网络，以使所述通用特征提取器通过所述分支节点还与所述新增分支网络连接；

执行以下新的训练步骤：

选取新增图像和初始图像，将选取的新增图像与选取的初始图像同时输入所述通用特征提取器，得到新的特征图；

将从所述新的特征图中拆分出的、对应选取的初始图像的特征图输入依次输入各个初始分支网络；

将从所述新的特征图中拆分出的、对应选取的新增图像的特征图输入所述新增分支网络；

采集所述分支节点中各个初始分支网络以及所述新增分支网络的梯度值，并基于各个初始分支网络的梯度值和所述新增分支网络的梯度值调整相应初始分支网络和/或新增分支网络的损失权重值。

4.根据权利要求1所述的方法，其中，所述初始分支网络包括：语义分割网络、目标检测网络、关键点检测网络中的任意两种。

5.根据权利要求1所述的方法，所述方法还包括：

去除所述多任务模型中的一个或多个初始分支网络。

6.一种多任务处理方法，所述方法包括：

获取待处理图像；

将所述待处理图像输入采用如权利要求1-5中任一项所述的方法生成的多任务模型中，输出所述待处理图像的多任务处理结果。

7.根据权利要求6所述的方法，其中，所述多任务处理结果包括：

待处理图像中的目标的语义分割结果、目标检测结果以及关键点检测结果中的至少两项。

8.一种多任务模型训练装置，所述装置包括：

样本获取单元，被配置成获取包括至少一类初始图像的训练样本集，其中，每类初始图像标注有至少一类识别要素；

网络获取单元，被配置成获取预先建立的多任务网络，所述多任务网络包括通用特征提取器和与各类识别要素一一对应的初始分支网络，所述通用特征提取器通过分支节点分别与各个初始分支网络连接；

图像选取单元，被配置成从所述训练样本集中选取初始图像，将选取的初始图像输入所述通用特征提取器，得到与选取的初始图像一一对应的特征图，所述选取的初始图像的识别要素与所有初始分支网络相对应；

特征输入单元，被配置成针对得到的特征图中的各个特征图，将该特征图输入该特征图的识别要素对应的初始分支网络；

梯度调整单元，被配置成采集所述分支节点中各个初始分支网络的梯度值，并基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，其中，所述基于各个初始分支网络的梯度值调整相应初始分支网络的损失权重值，包括：响应于当前迭代训练周期中所有初始分支网络中当前的初始分支网络的梯度值大于其他初始分支网络的梯度值，在下一迭代训练周期中将当前的初始分支网络的损失权重值设置为小于其他初始分支网络的损失权重值；

模型得到单元，被配置成在所述多任务网络满足训练完成条件时，得到多任务模型。

9.根据权利要求8所述的装置，其中，所述图像选取单元包括：

叠加模块，被配置成响应于所述选取的初始图像为多类，将多类初始图像叠加输入所述通用特征提取器，得到所述通用特征提取器输出的特征图；

得到模块，被配置成对所述通用特征提取器输出的特征图按照所述多类初始图像的种类进行拆分，得到与所述多类初始图像对应的特征图。

10.根据权利要求8所述的装置，所述装置还包括：

新增获取单元，被配置成获取新增图像，所述新增图像标注有至少一类新增要素；

网络增加单元，被配置成在所述多任务模型中增加与所有新增要素对应的新增分支网络，以使所述通用特征提取器通过所述分支节点还与所述新增分支网络连接；

新增选取单元，被配置成选取新增图像和初始图像，将选取的新增图像与选取的初始图像同时输入所述通用特征提取器，得到新的特征图；

初始输入单元，被配置成将从所述新的特征图中拆分出的、对应选取的初始图像的特征图输入依次输入各个初始分支网络；

新增输入单元，被配置成将从所述新的特征图中拆分出的、对应选取的新增图像的特征图输入所述新增分支网络；

新增调整单元，被配置成采集所述分支节点中各个初始分支网络以及所述新增分支网络的梯度值，并基于各个初始分支网络的梯度值和所述新增分支网络的梯度值调整相应初始分支网络和/或新增分支网络的损失权重值。

11.根据权利要求8所述的装置，其中，所述初始分支网络包括：语义分割网络、目标检测网络、关键点检测网络中的任意两种。

12.根据权利要求8所述的装置，所述装置还包括：

去除单元，被配置成去除所述多任务模型中的一个或多个初始分支网络。

13.一种多任务处理装置，所述装置包括：

获取单元，被配置成获取待处理图像；

输入单元，被配置成将所述待处理图像输入采用如权利要求8-12中任一项所述的装置生成的多任务模型中，输出所述待处理图像的多任务处理结果。

14.根据权利要求13所述的装置，其中，所述多任务处理结果包括：

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法。