CN110210560A

CN110210560A - 分类网络的增量训练方法、分类方法及装置、设备及介质

Info

Publication number: CN110210560A
Application number: CN201910472078.6A
Authority: CN
Inventors: 侯赛辉; 潘薪宇; 林达华; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-06
Anticipated expiration: 2039-05-31
Also published as: CN110210560B

Abstract

本申请实施例提供了一种分类网络的增量训练方法、分类方法及装置、设备及存储介质。所述方法，包括：利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；对所述多个训练图像样本的第一样本特征进行归一化处理，得到多个训练图像样本的第一归一化特征；基于所述多个训练图像样本的第一归一化特征，确定网络损失；基于所述网络损失，调整所述第一分类网络的网络参数。

Description

分类网络的增量训练方法、分类方法及装置、设备及介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种分类网络的增量训练方法、分类方法及装置、设备及存储介质。

背景技术

增量学习是深度学习相关技术实际部署在大数据场景时的需要应对的重要挑战，增量图像分类问题是其中基础且具有代表性的一类问题。多类别增量分类任务，意指在目标可分类别集合逐步扩张的情形下，增量式地习得单一分类模型，在全体目标类别上达到较高分类精度。

在实践中，一方面受计算开销，储存空间以及数据隐私等所限，在每次对可分类别集进行扩张时，使用包括之前的全部数据重新训练往往是不可取的。另一方面，在较长的增量学习序列中，单一使用新加入类别的数据训练会导致在原有类别上的表现严重下降，是多类别增量分类任务的主要难点。

发明内容

本申请实施例提供一种分类网络的增量训练方案。

本公开实施例的一个方面，提供一种分类网络的增量训练方法，包括：利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；对所述多个训练图像样本的第一样本特征进行归一化处理，得到多个训练图像样本的第一归一化特征；基于所述多个训练图像样本的第一归一化特征，确定网络损失；基于所述网络损失，调整所述第一分类网络的网络参数。

基于上述方案，所述方法还包括：对所述多个类别的分类权重进行归一化处理，得到所述多个类别的第一归一化权重；所述基于所述多个训练图像样本的第一归一化特征，确定网络损失，包括：基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失。

基于上述方案，所述基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失，包括：基于所述老类别图像样本的第一归一化特征，从所述多个类别中选取所述老类别图像样本对应的K个新类别；基于所述老类别图像样本的第一归一化特征和所述K个新类别的第一归一化权重，确定所述网络损失中的第一损失项，其中，K为不小于2的正整数。

基于上述方案，所述基于所述老类别图像样本的第一归一化特征，从所述多个类别中选取所述老类别图像样本对应的K个新类别，包括：基于所述多个类别中每个新类别的第一归一化权重与所述老类别图像样本的第一归一化特征之间的相似度，从所述多个类别中选取所述老类别图像样本对应的K个新类别。

基于上述方案，所述基于所述老类别图像样本的第一归一化特征和所述K个新类别的第一归一化权重，确定所述网络损失中的第一损失项，包括：基于所述老类别图像样本的第一归一化特征和所述K个新类别中每个新类别的第一归一化权重之间的相似度，确定所述网络损失中的第一损失项。

基于上述方案，所述基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失，包括：基于所述多个训练图像样本中每个训练图像样本的第一归一化特征及所述第一分类网络得到的所述每个训练图像样本的预测类别的第一归一化权重，得到所述每个训练图像样本的分类概率；基于所述多个训练图像样本中每个训练图像样本的分类概率和所述每个训练图像样本的标注类别信息，得到所述网络损失的第二损失项。

基于上述方案，所述方法还包括：获取利用第二分类网络对所述老类别图像样本进行特征提取得到的所述老类别图像样本的第二样本特征，其中，所述第二分类网络为所述增量训练的初始网络；对所述老类别图像样本的第二样本特征进行归一化处理，得到所述老类别图像样本的第二归一化特征；所述基于所述多个训练图像样本的第一归一化特征，确定网络损失，包括：基于所述老类别图像样本的第二归一化特征和所述老类别图像样本的第一归一化特征之间的相似度，得到所述网络损失的第三损失项。

基于上述方案，所述方法还包括：基于所述第一数量，确定第一加权系数；所述基于所述多个训练图像样本的第一归一化特征，确定网络损失，包括：基于所述第一加权系数与所述第一损失项的乘积，得到所述网络损失。

基于上述方案，所述方法还包括：根据所述多个类别中包含的类别的数量和新类别的数量，确定所述第三损失项的第二加权系数；所述基于所述多个训练图像样本的第一归一化特征，确定网络损失，包括：基于所述第三损失项和所述第二加权系数的乘积，得到所述网络损失。

一种分类方法，包括：获取待处理图像；利用目标分类网络对所述待处理图像进行分类处理，得到所述待处理图像的分类结果，其中，所述目标分类网络是利用前述任意技术方案提供分类网络的增量训练方法训练得到的。

本公开实施例的一个方面，提供一种分类网络的增量训练装置，包括：第一得到模块，用于利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；第一归一化模块，用于对所述多个训练图像样本的第一样本特征进行归一化处理，得到多个训练图像样本的第一归一化特征；第一确定模块，用于基于所述多个训练图像样本的第一归一化特征，确定网络损失；调整模块，用于基于所述网络损失，调整所述第一分类网络的网络参数。

基于上述方案，所述装置还包括：第二归一化模块，用于对所述多个类别的分类权重进行归一化处理，得到所述多个类别的第一归一化权重；所述第一确定模块，具体用于基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失。

基于上述方案，所述第一确定模块，具体用于基于所述老类别图像样本的第一归一化特征，从所述多个类别中选取所述老类别图像样本对应的K个新类别；基于所述老类别图像样本的第一归一化特征和所述K个新类别的第一归一化权重，确定所述网络损失中的第一损失项，其中，K为不小于2的正整数。

基于上述方案，所述第一确定模块，具体用于基于所述多个类别中每个新类别的第一归一化权重与所述老类别图像样本的第一归一化特征之间的相似度，从所述多个类别中选取所述老类别图像样本对应的K个新类别。

基于上述方案，所述第一确定模块，具体用于基于所述老类别图像样本的第一归一化特征和所述K个新类别中每个新类别的第一归一化权重之间的相似度，确定所述网络损失中的第一损失项。

基于上述方案，所述第一确定模块，具体用于基于所述多个训练图像样本中每个训练图像样本的第一归一化特征及所述第一分类网络得到的所述每个训练图像样本的预测类别的第一归一化权重，得到所述每个训练图像样本的分类概率；基于所述多个训练图像样本中每个训练图像样本的分类概率和所述每个训练图像样本的标注类别信息，得到所述网络损失的第二损失项。

基于上述方案，所述装置还包括：第一获取模块，用于获取利用第二分类网络对所述老类别图像样本进行特征提取得到的所述老类别图像样本的第二样本特征，其中，所述第二分类网络为所述增量训练的初始网络；第三归一化模块，用于第二对所述老类别图像样本的第二样本特征进行归一化处理，得到所述老类别图像样本的第二归一化特征；所述第一确定模块，具体用于基于所述老类别图像样本的第二归一化特征和所述老类别图像样本的第一归一化特征之间的相似度，得到所述网络损失的第三损失项。

基于上述方案，所述装置还包括：第二确定模块，用于基于所述第一数量，确定第一加权系数；所述第一确定模块，具体用于基于所述第一加权系数与所述第一损失项的乘积，得到所述网络损失。

基于上述方案，所述装置还包括：第三确定模块，用于根据所述多个类别中包含的类别的数量和新类别的数量，确定所述第三损失项的第二加权系数；所述第一确定模块，具体用于基于所述第三损失项和所述第二加权系数的乘积，得到所述网络损失。

本公开实施例的一个方面，提供一种分类装置，包括：获取模块，用于获取待处理图像；分类模块，用于利用目标分类网络对所述待处理图像进行分类处理，得到所述待处理图像的分类结果，其中，所述目标分类网络是利用如前述任意技术方案提供的分类网络的增量训练方法训练得到的。

本公开实施例的一个方面，提供还提供一种电子设备，包括：存储器；处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，实现前述任意技术方案提供的分类网络的增量训练方法或分类方法。

本公开实施例的一个方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令在运行时实现前述任意技术方案提供的分类网络的增量训练方法或分类方法。

本申请实施例提供的技术方案，在对分类网络进行增量训练的过程中，利用第一数量的老类别图像样本和第二数量的新类别图像样本进行分类网络的迭代训练，并且通过对老类别图像样本的样本特征和新类别图像样本的样本特征进行归一化，以使得多个训练图像样本的样本特征的模长相近，避免由于新老类别图像样本的不均衡而使得增量训练得到的分类网络对老类别图像样本的分类精确度较低的现象，提升了训练得到的分类网络对于各种类别的图像的分类精确度和整体性能。

附图说明

图1为本申请实施例提供的分类网络的增量训练方法的流程示意图；

图2为本申请实施例提供的第一样本特征归一化前后的效果示意图；

图3为本申请实施例提供的分类网络的增量训练方法的另一流程示意图；

图4为本申请实施例提供的分类网络的增量训练方法的另一流程示意图；

图5为本申请实施例提供的引入第二损失项前后从老类别图像样本学习的知识的比对示意图；

图6为本申请实施例提供的引入第三损失项后老类别图像样本与新类别图像样本之间的距离的示意图；

图7为本申请实施例提供的分类网络的增量训练方法的流程示意图；

图8为本申请实施例提供的分类方法的流程示意图；

图9为本申请实施例提供的分类网络训练装置的结构示意图；

图10为本申请实施例提供的分类装置的结构示意图；

图11为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本申请的技术方案做进一步的详细阐述。

如图1所示，一些实施例提供一种分类网络的增量训练方法，包括：

S110：利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；

S120：对所述多个训练图像样本的第一样本特征进行归一化处理，得到多个训练图像样本的第一归一化特征；

S130：基于所述多个训练图像样本的第一归一化特征，确定网络损失；

S140：基于所述网络损失，调整所述第一分类网络的网络参数。

在一些实施例中，所述分类网络具有分类能力，能够识别图像所属的类别。在一些实施例中一些实施例，所述分类网络为多类别分类网络，可以对2个以上的类别进行分类，例如，可以对3个类别的分类。

在一些实施例中，为了减少增量训练得到的分类网络对老类别图像的分类准确度的严重下降，一次迭代中的训练图像样本包括两部分：第一数量的老类别图像样本和第二数量的新类别图像样本。所述老类别图像样本为属于老类别的图像样本，即标注为老类别的图像样本，老类别为本次增量训练的初始分类网络(即第二分类网络)能够识别的类别。新类别图像样本为属于新增类别的图像样本，第二分类网络不能够识别该新增类别，增量训练也是为了通过训练使得分类网络具有这种识别新增类别的图像的能力。

在一些实施例中，所述第一数量小于所述第二数量，例如，第一数量远小于第二数量，这样，利用较少的老类别图像样本和较多的新类别图像样本对分类网络进行迭代训练，有利于使得增量训练得到的分类网络在老类别和新类别上均具有较高的分类准确度。

在一些实施例中，所述第一数量为预定设定的数量，例如，该预定的数量可为小于10的数值，例如，5、6或3等等，本公开实施例对第一数量的具体取值不作限定。

在一些实施例中，上述过程为增量训练的任意一次迭代过程，例如，上述过程为增量训练的第一次迭代，则第一分类网络和增量训练的初始网络(即第二分类网络)为相同的网络，再例如，上述过程为增量训练的中间某一次或最后一次迭代，则第一分类网络是通过对第二分类网络进行一次或多次网络参数的调整得到的，本公开实施例对此不做限定。

在一些实施例中，将第一数量的老类别图像样本和第二数量的新类别图像样本作为一个批次(batch)一起输入到所述第一分类网络中进行处理，相应地，第一分类网络对老类别图像样本和新类别图像样本进行处理，得到处理结果，并基于对老类别图像样本的处理结果和对新类别图像样本的处理结果，调整第一分类网络的网络参数。

在一些可选实施例中，所述第一分类网络主要包括：特征提取模块以及与所述特征提取模块连接的分类模块。所述特征提取模块可以用于提取训练图像样本中的特征信息，所述分类模块可以用于基于所述特征提取模块提取的特征信息，确定图像样本的类别。

在本公开实施例中，特征信息、特征数据和样本特征是对特征提取模块输出的数据的不同描述方式，其具体可以包括至少一个特征向量、至少一个特征矩阵、至少一个特征图或特征张量，本公开实施例对此不做限定。

在一些可选实施例中，分类网络为深度学习网络。分类网络的网络参数可包括但不限于深度学习网络的权重和/或偏置值。

例如，所述网络参数包括但不限于：

特征提取模块的特征提取权值和/或特征提取偏置值；

分类模块的分类权重和/或分类偏置值。

再例如，所述网络参数包括：多个类别中每个类别的分类权重。

在一些实施例中，特征提取模块中包括的多个层依次对输入图像进行处理，得到输入图像的特征信息。为了解决老类别图像样本和新类别图像样本的不平衡性，在特征提取模块的最后一层对输入的特征数据进行归一化处理，以使得老类别图像样本的特征数据域新类别图像样本的特征数据具有相同的模长。

在图2中，虚线箭头分别表示老类别图像样本的第一样本特征及第一归一化特征；实线箭头分别表示新类别图像样本的第一样本特征及第一归一化特征。从图2可以看出，在归一化处理之前，在平面坐标系或三维直角坐标系内时，老类别图像样本的第一样本特征的模长远远小于所述新类别图像样本的第一样本特征。若未进行归一化处理，由于第一数量小于第二数量，第一分类网络在训练过程中，会更关注第二数量的新类别图像样本的特征，通过调整第一分类网络的网络参数，使得第一分类网络对新类别图像样本的响应更大，从而使得新类别图像样本的第一样本特征的模长大于老类别图像样本的特征。此处通过归一化处理，使得老类别图像样本的样本特征和新类别图像样本的样本特征处于同一球面上，从而消除不同类别的图像样本的特征数据之间的模长差异。

在一些实施例中，对多个训练图像样本的第一样本特征进行归一化处理，使得任意两个第一样本特征被归一化处理之后得到的模长相等。例如，老类别图像样本的第一归一化特征和新类别图像样本的第一归一化特征的模长值都为1，但本公开实施例对此不做限定。

在第一分类网络的迭代训练时，由于有更多的新类别图像样本，会使得分类网络在网络参数的调整过程中对新类别的响应更大。若任其发展，则可能导致在新类别图像样本和老类别图像样本不均衡的情况下，使得训练得到的分类网络对新类别更加敏感，而忽略或抑制老类别，从而导致老类别的分类精度的降低。通过对多个训练图像样本的特征数据进行归一化处理，能够使得新类别图像样本和老类别图像样本对分类网络的参数调整具有相近的贡献权重，从而有利于提高训练得到的分类网络对所有类别图像的预测准确度，及第一分类网络的整体性能。

在S140中，若所述网络损失小于损失阈值，或者，网络损失已经达到的最小的情况下，则说明所述第一分类网络的网络参数已经实现了最优化，或者迭代次数达到预设数值，可以停止迭代，完成对第一分类网络的增量训练。若所述网络损失不小于损失阈值，或者，网络损失未达到的最小的情况下，则说明所述第一分类网络的网络参数尚未达到最优化，或者迭代次数未达到预设数值，则继续进行迭代以优化所述第一分类网络的网络参数，本公开实施例对此不做限定。

在一些实施例中，如图3所示，所述方法还包括：

S121：对所述多个类别的分类权重进行归一化处理，得到所述多个类别的第一归一化权重；

相应地，所述S130可包括S131：基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失。

在本公开实施例中，一个类别的分类权重可能包含一个或多个向量、矩阵、张量或图，本公开实施例对此不做限定。

利用第一分类网络对不同类别的分类权重进行归一化处理，得到所述第一归一化权重，例如，有J个类别，该J个类别可以包括至少一个老类别和至少一个新类别，则第一分类网络的分类模块可以设置有J个分类权重，通过对这J个分类权重进行归一化处理，得到J个第一归一化权重。

在一些实施例中，分类模块基于每个训练图像样本第一归一化权重和多个类别中每个类别的第一归一化特征，得到每个训练图像样本所对应的分类概率，从而得到训练图像样本的预测类别。

在一些实施例中，可以基于训练图像样本的分类概率或预测类别，确定所述网络损失的第一损失项。

在分类网络的迭代训练过程中，由于有更多的新类别样本，会使得分类权重中标注对应的样本为新类别图像样本的分类权重的权重值更大。若任其发展，则可能导致在第一数量和第二数量不平衡的情况下，使得完成训练的分类网络对新类别图像样本所包含的类别更加敏感，由于新类别图像样本的第二数量远远大于老类别图像样本的第一数量，则分类过程中需要将更多的图像样本分类到新类别，故在训练过程中网络会将信类别分类权重增大，这样会使得后续老类别的分类权重小于新类别的分类权重。若不通过分类权重的归一化处理，直接进行网络损失的计算，会使得新类别的分类权重继续增大，而减小或抑制老类别的分类权重的调整，如此会使得通过增量训练的第一分类网络对老类别的图像分类精度降低的现象。而在本实施例中通过分类权重的归一化处理，减少因为新老类别分类权重的模长不等导致的继续使得新类别的分类权重相对于老类别的分类权重继续增大的现象，从而使得通过本申请分类网络的增量训练得到的第一分类网络，保持对老类别的高分类精确度和整体高分类性能。

在一些实施例中，通过分类权重的归一化处理，可以使得不同数量的不同类别的第一归一化权重的模长等长，从而基于所述第一归一化特征及所述第一归一化权重，不会产生新类别图像样本所对应的分类权重，远远大于新类别图像样本的分类权重，导致损失值中偏重考虑新类别图像样本，而忽略或抑制老类别图像样本，使得经过多次迭代优化后的第一分类网络不能够精确对老类别图像样本所包含的类别进行分类的情况，从而再次提升了对第一类样本所包含的类别的精确度。

在一些实施例中，如图4所示，所述S131可包括：

S131a：基于所述老类别图像样本的第一归一化特征，从所述多个类别中选取所述老类别图像样本对应的K个新类别；

S131b：基于所述老类别图像样本的第一归一化特征和所述K个新类别的第一归一化权重，确定所述网络损失中的第一损失项，其中，K为不小于2的正整数。

例如，在一些实施例中，利用老类别图像样本的第一归一化特征和老类别图像样本的第一归一化权重，得到第一相似度；然后利用K个新类别的第一归一化权重得到与老类别图像样本的第一归一化特征得到第二相似度，结合第一相似度和第二相似度，确定所述第一损失项。

在一些实施例中，可利用如下公式(1)得到所述第一损失项；

其中，L_mr(x)为所述第一损失项；为老类别图像样本x的第一归一化子特征；为与x的实际类别的第一归一化权重；为K个新类别中的第k个类别的第一归一化权重。为和的内积；为和的内积。

在一些实施例中，所述S130至少会根据第一损失项确定所述网络损失。

具体如，所述S131a可包括：

基于所述多个类别中每个新类别的第一归一化权重与所述老类别图像样本的第一归一化特征之间的相似度，从所述多个类别中选取所述老类别图像样本对应的K个新类别。

例如，通过多个类别中每一个新类别的第一归一化权重与老类别图像样本的第一归一化特征之间的相似度计算，选择出相似度最高的K个新类别。

计算每一个新类别的第一归一化权重与老类别图像样本的第一归一化特征之间的相似度时，可以通过求取每个新类别的第一归一化权重与老类别图像样本的第一归一化特征的内积来实现。

如图5所示，通过第一损失项的引入，使得老类别图像样本所对应的锚点与老类别图像样本的正样本的距离，大于锚点与老类别图像样本的负样本之间的距离。而老类别图像样本的负样本就包括：与老类别图像样本很相似的新类别图像样本，例如，K个与x对应的第二归一化特征的新类别图像样本。

在一些实施例中，所述S131b可包括：基于所述老类别图像样本的第一归一化特征和所述K个新类别中每个新类别的第一归一化权重之间的相似度，确定所述网络损失中的第一损失项。

在一些实施例中，通过计算基于所述老类别图像样本的第一归一化特征和所述K个新类别中每个新类别的第一归一化权重之间的相似度，得到第一损失项。具体如，所述第一损失项在不小于零时，所述第一损失项与该相似度正相关。

所述方法还可包括：根据所述第一数量，确定第一加权系数；

所述S130还可包括：基于所述第一加权系数与所述第一损失项的乘积，得到所述网络损失。

在一些实施例中，所述网络损失包括多个损失项，所述第一损失项可能仅是其中一个损失项。

为了精确计算所述网络损失，在一些实施例中，会根据所第一数量，计算出所述第一加权系数。该第一加权系数用于与所述第一损失项相乘，基于该乘积计算得到所述网络损失。

例如，第一数量为|N_o|；则所述第一加权系数可为：1/|N_o|。N_o为老类别图像样本所在的集合；N_n为新类别图像样本的集合。

在一些实施例中，所述S130还可包括：

基于所述多个训练图像样本中每个训练图像样本的第一归一化特征，及所述第一分类网络得到的所述每个训练图像样本的预测类别的第一归一化权重，得到所述每个训练图像样本的分类概率；

基于所述多个训练图像样本中每个训练图像样本的分类概率和所述每个训练图像样本的标注类别信息，得到所述网络损失的第二损失项。

在一些实施例中，所述预测类别为所述第一分类网络对每个训练图像样本进行识别分类得到的类别。所述标注类别信息可为每一个训练图像样本被人工或设备标注的实际类别。

在一些实施例中，会根据所述分类概率得到所述第二损失项。

例如，通过公式(2)计算分类概率：

其中，为第i个类别的第一归一化权重；为一个训练图像样本的第一归一化特征；p_i(x)为分类对象归属于第i个预测类别的所述分类概率；J为总类别数。为第一归一化权重和第一归一化特征的内积；η为所述第一分类网络的一种可学参数，用于限制所述内积的峰值，此处的峰值可为内积的最大值或最小值。η的取值范围可在0.1至10之间实数，具体如，可为3、4或5等正整数，也可以为3.5、4.6等小数。

在计算出所述分类概率之后，将基于分类概率确定所述第二损失项。在一些实施例中，可以采用公式(3)确定所述第二损失项。

其中，所述p_i为将训练图像样本x分为第i个预测类别的分类概率；y_i为训练图像样本x是第i个标注类别信息；|c|为训练图像样本c所包含的新类别图像样和老类别图像样本的样本数量总和。

在一些实施例中，所述方法还包括：

获取利用第二分类网络对所述老类别图像样本进行特征提取得到的所述老类别图像样本的第二样本特征，其中，所述第二分类网络为所述增量训练的初始网络；

对所述老类别图像样本的第二样本特征进行归一化处理，得到所述老类别图像样本的第二归一化特征；

所述S130可包括：基于所述老类别图像样本的第二归一化特征和所述老类别图像样本的第一归一化特征之间的相似度，得到所述网络损失的第三损失项。

由于第二分类网络是第一分类网络的初始网络，则第二分类网络和第一分类网络的结构是相同的，但是网络参数可能不同。

在一些实施例中，为了进一步提升第一分类网络的优化训练结果，会将老类别图像样本输入到第二分类网络；第二分类网络会对老类别图像样本进行特征提取，得到所述第二样本特征。

同样地，对所述第二样本特征进行归一化处理，得到所述第二归一化特征。

在一些实施例中，会基于第一分类网络从老类别图像样本中提出的第一样本特征转换成的第一归一化特征，和第二分类网络从老类别图像样本中提取出的第二样本特征转换成的第二归一化特征，得到一个相似度，并基于该相似度得到所述第三损失项。

具体地如，上述相似度与所述第三损失项负相关，即所述第一分类网络和第二分类网络对老图像样本所对应的归一化特征之间的相似度越高，则所述第三损失项越小。

在一些实施例中，可以采用公式(4)计算所述第三损失项：

其中，为所述第三损失项；为第一分类模型对应的老类别图像样本x的第一归一化特征；为与对应的同一个训练图像样本x的第二归一化特征；为和的内积。在一些实施例中，利用表示前述相似度。

如图6所示，若不获得第三损失项，则由于第二数量远远大于第一数量，会将原始从第一类样学习的知识遗忘，在引入新类别图像样本之后，从老类别图像样本学习的知识将发生偏移，从而后续再利用新类别图像样本训练后的分类网络进行老类别图像样本所对应类别的分类的精确度不够的问题。在引入第二损失项之后，即便引入新类别图像样本，从图6可知，从老类别图像样本学习的知识发生的迁移量很小，如此，可以使得引入新类别图像样本进行分类网络训练之后的分类网络依然对老类别图像样本所对应类别具有较高的分类精确度。

在一些实施例中，如图7所示，老类别图像样本分别输入第一分类网络和第二分类网络，同时第一分类网络还输入新类别图像样本，第一分类网络从老类别图像样本中提取出第一样本特征f_odd；第一分类网络还从新类别图像样本中提取第一样本特征f_new；同时第二分类网络从老类别图像样本中提取老类别图像样本的第一样本特征

通过f_odd及的归一化，然后获得各自的归一化特征，f_odd及归一化后的得到的归一化特征的模长相同，再用于计算第三损失项。

所述方法还包括：根据所述多个类别中包含的类别的数量和新类别的数量，确定所述第三损失项的第二加权系数；

所述S130可包括：基于所述第三损失项和所述第二加权系数的乘积，得到所述网络损失。

例如，Cn为新类别的集合；Co为老类别的集合；|Cn|为新类别的数量；|Co|为老类别的数量；所述第二加权系数可为：|Cn|/|Co|、其中，λ_base为固定常数，具体取值可为5或10等取值，具体取值可以根据需求设置，此处不做限定。

在一些实施例中，第一数量为|N_o|；第二数量为|N_n|；且|N|＝|N_o|+|N_n|，N_o为老类别图像样本所在的集合；N_n为新类别图像样本的集合。

基于所述第一数量和所述第二数量得到的所述第三加权系数，可为所述第一数量的倒数，则所述第三加权系数可为：1/|N|。

在一些实施例中，结合所述第一损失项、第二损失项及第三损失项得到所述网络损失。例如，采用公式(5)计算网络损失：

L为网络损失；所述L_ce(x1)为第二损失项；所述为所述第三损失项；所述L_mr(x2)为第一损失项。λ为第二加权系数。x1为所述训练图像样本中任意一个样本；x2为所述第二训练图像样本中任意一个样本。为第一加权系数；为第三加权系数。N_o为所述老类别图像样本的集合；N为同时包含有老类别图像样本和所述新类别图像样本的训练图像样本的集合。

在本公开实施例中，网络损失的确定是基于多个训练图像样本的归一化后的第一归一化特征进行的，而非是直接基于第一分类网络提取出的第一样本特征进行的，如此，避免了新类别图像样本和老类别图像样本参与网络损失计算的样本特征的模长导致的网络损失偏重考虑新类别图像样本，而忽略或抑制老类别图像样本，使得经过多次迭代优化后的分类网络不能够精确对老类别图像样本所包含的类别进行分类的情况，从而提升了对老类别图像样本所包含的类别的精确度及第一分类网络的整体性能。

如图8所示，一些实施例提供一种分类方法，包括：

S210：获取待处理图像；

S220：利用目标分类网络对所述待处理图像进行分类处理，得到所述待处理图像的分类结果，其中，所述目标分类网络是利用前述任意实施例提供所述的增量训练方法训练得到的。

利用这种目标分类网络进行分类，能够确保各个类别都有较高的分类精确度。

如图9所示，一些实施例提供一种分类网络训练装置，包括：

第一得到模块110，用于利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；

第一归一化模块120，用于对所述多个训练图像样本的第一样本特征进行归一化处理，第一确定模块130，用于基于所述多个训练图像样本的第一归一化特征，确定网络损失；

调整模块140，用于基于所述网络损失，调整所述第一分类网络的网络参数；

在一些实施例中，所述第一得到模块110、所述第一归一化模块120、第一确定模块130及调整模块140，可为程序模块；所述程序模块被处理器执行后，能够实现前述各个模块的功能。

在另一些实施例中，所述第一得到模块110、所述第一归一化模块120、第一确定模块130及调整模块140可为软硬结合模块；所述软硬结合模块包括但不限于可编程阵列；所述可编程阵列包括但不限于复杂可编程阵列或现场可编程阵列。

在一些实施例中，所述装置还包括：

第二归一化模块，用于对所述多个类别的分类权重进行归一化处理，得到所述多个类别的第一归一化权重；

所述第一确定模块130，具体用于基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失。

在一些实施例中，所述第一确定模块130，具体用于基于所述老类别图像样本的第一归一化特征，从所述多个类别中选取所述老类别图像样本对应的K个新类别；基于所述老类别图像样本的第一归一化特征和所述K个新类别的第一归一化权重，确定所述网络损失中的第一损失项，其中，K为不小于2的正整数。

在一些实施例中，所述第一确定模块130，具体用于基于所述多个类别中每个新类别的第一归一化权重与所述老类别图像样本的第一归一化特征之间的相似度，从所述多个类别中选取所述老类别图像样本对应的K个新类别。

在一些实施例中，所述第一确定模块130，具体用于基于所述老类别图像样本的第一归一化特征和所述K个新类别中每个新类别的第一归一化权重之间的相似度，确定所述网络损失中的第一损失项。

在一些实施例中，所述第一确定模块130，具体用于基于所述多个训练图像样本中每个训练图像样本的第一归一化特征及所述第一分类网络得到的所述每个训练图像样本的预测类别的第一归一化权重，得到所述每个训练图像样本的分类概率；基于所述多个训练图像样本中每个训练图像样本的分类概率和所述每个训练图像样本的标注类别信息，得到所述网络损失的第二损失项。

在一些实施例中，所述装置还包括：

第一获取模块，用于获取利用第二分类网络对所述老类别图像样本进行特征提取得到的所述老类别图像样本的第二样本特征，其中，所述第二分类网络为所述增量训练的初始网络；

第三归一化模块，用于第二对所述老类别图像样本的第二样本特征进行归一化处理，得到所述老类别图像样本的第二归一化特征；

所述第一确定模块130，具体用于基于所述老类别图像样本的第二归一化特征和所述老类别图像样本的第一归一化特征之间的相似度，得到所述网络损失的第三损失项。

在一些实施例中，所述装置还包括：第二确定模块，用于基于所述第一数量和所述第二数量，确定第一加权系数；所述第一确定模块130，具体用于基于所述第一加权系数与所述第一损失项的乘积，得到所述网络损失。

在一些实施例中，所述装置还包括：

第三确定模块，用于根据所述多个类别中包含的类别的数量和新类别的数量，确定所述第三损失项的第二加权系数；

所述第一确定模块130，具体用于基于所述第三损失项和所述第二加权系数的乘积，得到所述网络损失。

如图10所示，一些实施例还提供一种分类装置，包括：

获取模块210，用于获取待处理图像；

分类模块220，用于利用目标分类网络对所述待处理图像进行分类处理，得到所述待处理图像的分类结果，其中，所述目标分类网络是前述任意技术方案提供的分类为网络的增量训练方法训练得到的。

在一些实施例中，获取模块210及分类模块220，可为程序模块；所述程序模块被处理器执行后，能够实现前述各个模块的功能。

在另一些实施例中，所述获取模块210及分类模块220可为软硬结合模块；所述软硬结合模块包括但不限于可编程阵列；所述可编程阵列包括但不限于复杂可编程阵列或现场可编程阵列。

以下结合上述任意实施例提供几个具体示例：

示例1：

在实践中受计算开销，储存空间以及数据隐私等所限，在每次对可分类别集进行扩张时，使用包括之前的全部数据重新训练往往是不可取的。另一方面，在较长的增量学习序列中，单一使用新加入类别的数据训练会导致在原有类别上的表现严重下降，是为多类别增量分类任务的主要难点。

多类别增量分类任务相关的工作还比较缺乏，先前最优的解决方案，主要是基于知识蒸馏提出了一些交叉熵损失函数的变种形式，并将分类深度神经网络最后通常使用的全连接层替换为最近类特征采样器。上述方法缺少对该任务难点的深入分析和处理，在较长的增量序列上的表现仍不能令人满意。

在较长的多类别增量序列中，同时提升单一分类网络在全体类别上的表现；

在有限存储空间限制下，有效保留并利用老类别相关的样本；

特别地，解决在多类别增量分类任务中，新老类别样本数目不均衡的难点

基于集合嵌入特征的视角，发现新老类别间数据样本的不平衡是该任务的核心难点。此算法用于多类别增量学习模型的训练。在增量序列中的某一阶段，按以下步骤进行。使用保留的少量原有类别的样本，以及该增量步骤新加入类别的样本(新加入每类数目远多于原有保留每类数目)进行训练。训练时针对性地使用归一化样本特征，并在原有的分类交叉熵损失函数之外，还引入保持多类别整体特征结构的损失函数以及强化新老类别间特征区分度的损失函数，以解决新旧样本不平衡问题。在得到能对该阶段的扩张可分类别上全体进行分类的单一模型后，对该阶段新引入的类别的数据进行采样保留。迭代使用上述步骤即可应用到较长的增量序列中去。

本算法可以应用到各类深度分类模型中。一般地，认为用于多类别增量分类模型的网络由两个模块构成：特征抽取层和分类层(亦即每一类的特征向量)。在增量学习的每一个阶段，由于新类别的引入，对应的分类层也会引入新的参数(亦即添加新类别的类特征向量)。

基于集合嵌入特征的视角，发现新老类别间数据样本的不平衡是该任务的核心难点。为从不同角度解决这种不平衡问题，本算法主要整合了三个关键技术方案：归一化样本特征，保持多类别整体特征结构的损失函数以及强化新老类别间特征区分度的损失函数。

下面先解释这三个技术方案的概念，之后对增量学习过程中的一个阶段进行具体说明，对于其他长度的增量序列只需要反复迭代此过程。

一、归一化样本特征(Cosine Normalization)

由于新老类别样本数目的严重不均衡，如若不加以额外限制，在训练得到的模型中，新类别类特征向量的模长将显著大于老类别特征向量的模长。为了解决这个问题，将对样本的特征向量进行归一化处理。具体地，模型的分类网络部分的计算方法由

二、保持多类别整体特征结构的损失函数(Less-Forget Constraint)

由于新老类别样本数目的严重不均衡，如若不加以额外监督，在增量过程中各个老类别的类特征向量间的整体空间构型将发生偏移，从而引致在老类别内部区分精度下降。为了解决这一问题，引入了保持多类别整体特征结构的损失函数。损失函数的具体实现参见下面第四部分。

三、强化新老类别间特征区分度的损失函数(Inter-Class Separation)

由于新老类别样本数目的严重不均衡，如若不加以额外监督，在训练得到的模型中，单一老类别类特征向量的空间指向，难以和邻近的新类别间的特征向量进去区分，从而引致新老类别在分类上的混淆。为了解决这个问题，引入了强化新老类别间特征区分度的损失函数。损失函数的具体实现参见下面第四部分。

四、某增量阶段的具体实现

输入：上一阶段的模型，保留的少量先前类别上的数据，已经该阶段新引入的类别上的数据

输出：能同时在新老类别全体上有效分类的单一分类模型

具体步骤：

对每一个训练批次的训练图像样本，使用旧模型的特征提取器F^*得到老类别样本的归一化特征向量利用新模型的特征提取器F得到分别得到老类别和新类别样本的归一化特征向量f_odd和f_new。

利用计算得到的这些样本特征向量，与新旧模型中分类网络的类特征向量计算如下三个网络损失：

最终用于训练的损失函数为三者之和：

在完成该阶段增量训练后，对新引入类别的数据进行采样保留，使其每类上的规模与先前保留的每类规模一致。采样方案可使用均匀随机不放回采样，也可以替换成其他采样方式。

本申请实施例的还一个方面，还提供了一种计算机存储介质，配置为存储计算机可执行指令，该计算机可执行指令被执行时执行上述任意一项实施例提供的分类网络的增量训练方法和/或分类方法的操作。

本申请实施例的再一个方面，还提供了一种计算机程序产品，包括计算机可执行指令，当所述计算机可执行指令在设备上运行时，该设备中的处理器执行用于实现上述任意一项实施例提供的分类网络的增量训练方法和/或分类方法的指令。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备1000的结构示意图：如图11所示，电子设备1000包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个专用处理器，专用处理器可作为加速单元1013，可包括但不限于图像处理器(GPU)、FPGA、DSP以及其它的ASIC芯片之类专用处理器等，处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。通信部1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过总线1004与通信部1012相连、并经通信部1012与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征，每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要。

此外，在RAM 1003中，还可存储有装置操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使中央处理单元1001执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至总线1004。通信部1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

需要说明的，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如加速单元1013和CPU1001可分离设置或者可将加速单元1013集成在CPU1001上，通信部可分离设置，也可集成设置在CPU1001或加速单元1013上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征，每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法中限定的上述功能的操作。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现一些实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本申请任意实施例公开的技术特征，在不冲突的情况下，可以任意组合形成新的方法实施例或设备实施例。

本申请任意实施例公开的方法实施例，在不冲突的情况下，可以任意组合形成新的方法实施例。

本申请任意实施例公开的设备实施例，在不冲突的情况下，可以任意组合形成新的设备实施例。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种分类网络的增量训练方法，包括：

利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；

对所述多个训练图像样本的第一样本特征进行归一化处理，得到多个训练图像样本的第一归一化特征；

基于所述多个训练图像样本的第一归一化特征，确定网络损失；

基于所述网络损失，调整所述第一分类网络的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述多个类别的分类权重进行归一化处理，得到所述多个类别的第一归一化权重；

所述基于所述多个训练图像样本的第一归一化特征，确定网络损失，包括：

基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失，包括：

基于所述老类别图像样本的第一归一化特征，从所述多个类别中选取所述老类别图像样本对应的K个新类别；

基于所述老类别图像样本的第一归一化特征和所述K个新类别的第一归一化权重，确定所述网络损失中的第一损失项，其中，K为不小于2的正整数。

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述多个训练图像样本的第一归一化特征和所述多个类别的第一归一化权重，确定所述网络损失，包括：

基于所述多个训练图像样本中每个训练图像样本的第一归一化特征及所述第一分类网络得到的所述每个训练图像样本的预测类别的第一归一化权重，得到所述每个训练图像样本的分类概率；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

基于所述老类别图像样本的第二归一化特征和所述老类别图像样本的第一归一化特征之间的相似度，得到所述网络损失的第三损失项。

6.一种分类方法，其特征在于，包括：

获取待处理图像；

利用目标分类网络对所述待处理图像进行分类处理，得到所述待处理图像的分类结果，其中，所述目标分类网络是利用如权利要求1至5任一项所述的增量训练方法训练得到的。

7.一种分类网络的增量训练装置，包括：

第一得到模块，用于利用第一分类网络对多个类别的多个训练图像样本进行特征提取，得到所述多个训练图像样本的第一样本特征，其中，所述多个训练图像样本包括：第一数量的老类别图像样本及第二数量的新类别图像样本，所述第二数量大于所述第一数量；

第一归一化模块，用于对所述多个训练图像样本的第一样本特征进行归一化处理，得到多个训练图像样本的第一归一化特征；

第一确定模块，用于基于所述多个训练图像样本的第一归一化特征，确定网络损失；

调整模块，用于基于所述网络损失，调整所述第一分类网络的网络参数。

8.一种分类装置，其特征在于，包括：

获取模块，用于获取待处理图像；

分类模块，用于利用目标分类网络对所述待处理图像进行分类处理，得到所述待处理图像的分类结果，其中，所述目标分类网络是利用如权利要求1至5任一项所述的增量训练方法训练得到的。

9.一种电子设备，包括：

存储器；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，实现权利要求1至5或6任一项提供的方法。

10.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令在运行时实现权利要求1至5或6任一项提供的方法。