WO2021051987A1

WO2021051987A1 - 神经网络模型训练的方法和装置

Info

Publication number: WO2021051987A1
Application number: PCT/CN2020/102594
Authority: WO
Inventors: 于德权; 吴觊豪; 贾明波; 马杰延
Original assignee: 华为技术有限公司
Priority date: 2019-09-18
Filing date: 2020-07-17
Publication date: 2021-03-25
Also published as: CN112529146B; CN112529146A

Abstract

提供了人工智能领域中的一种神经网络模型训练的方法，包括：获取神经网络模型、第一训练数据和第一训练数据的类别，神经网络模型是根据第二训练数据训练得到的（S401），第一训练数据包括支持数据和查询数据，支持数据包括第一训练数据中的每一类的全部或部分数据，查询数据包括第一训练数据中每一类的全部或部分数据；利用神经网络模型对于第一训练数据进行特征提取，以得到第一训练数据的特征（S402）；根据每一类的类中心特征与查询数据特征的特征距离，调整神经网络模型中部分层的参数，以得到调整后的神经网络模型（S403）。通过对训练得到的神经网络模型的部分层的参数进行调整，从而得到具有良好精度和泛化能力的神经网络模型。

Description

神经网络模型训练的方法和装置

本申请要求于2019年9月18日提交中国专利局、申请号为201910883124.1、申请名称为“神经网络模型训练的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种神经网络模型训练的方法及装置。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成象系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

基于聚类的小样本学习方案，通过神经网络模型提取训练数据的特征，并计算不同类别的训练数据的特征之间的距离，训练神经网络模型。由于小样本学习方案的训练数据有限，训练得到的神经网络模型泛化能力较差。

发明内容

本申请提供一种神经网络模型训练的方法，能够在训练数据的数据量较小或数据量不平衡的情况下，训练得到具有较高精度和良好泛化能力的神经网络模型。

第一方面，提供一种神经网络模型训练的方法，包括：获取神经网络模型、第一训练数据和所述第一训练数据的类别，所述神经网络模型是根据第二训练数据训练得到的，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据；利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征；根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。

利用训练得到的神经网络模型提取训练数据的特征，根据训练数据的特征之间的特征距离调整神经网络模型的部分层的参数，能够得到精度较高，且泛化能力较强的神经网络模型。

结合第一方面，在一些可能的实现方式中，所述根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，包括：根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。

中心损失表示每一类的类中心特征与所述查询数据特征的特征距离。在神经网络模型的训练过程中，引入中心损失，可以提高神经网络模型训练的效率，提高神经网络模型的精度。

结合第一方面，在一些可能的实现方式中，所述利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，包括：将所述第一训练数据输入所述神经网络模型；对所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。

通过对神经网络模型提取的特征进行深度哈希，可以减小特征的体积，减小训练时间，并且保证神经网络模型训练具有较高的精度。在采用训练得到的神经网络模型确定数据的类别的过程中，可以提升推理速度。

结合第一方面，在一些可能的实现方式中，所述根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，包括：当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整超参数，根据所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数；当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数以及所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数。

在数据量较大时，通过贝叶斯优化方案训练神经网络模型效率较低。在数据量较小时，根据所述神经网络模型对应的预设超参数训练神经网络模型，训练得到的神经网络模型的精度较低。通过仅在第一训练数据的数据量较小时通过贝叶斯优化方案训练神经网络模型能够在提高训练得到的神经网路模型的精度，并提高训练效率。

结合第一方面，在一些可能的实现方式中，超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、神经网络模型的网络结构参数中的一种或多种。

第二方面，提供一种神经网络模型训练的方法，包括：获取第一训练数据和所述第一训练数据的类别；当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整超参数，根据所述第一训练数据和所述第一训练数据的类别，训练神经网络模型；当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数、所述第一训练数据和所述第一训练数据的类别，训练所述神经网络模型。

应当理解，神经网络模型的类型可以是默认的或指定的。神经网络模型可以存储在执行神经网络模型训练的方法的电子设备的存储器中，也可以接收其他电子设备发送的神经网络模型。

结合第二方面，在一些可能的实现方式中，所述方法还包括：获取所述神经网络模型，所述神经网络模型是根据第二训练数据训练得到的；所述根据所述第一训练数据和所述第一训练数据的类别，训练神经网络模型，包括：利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据；根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。

结合第二方面，在一些可能的实现方式中，所述方法还包括：根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。

结合第二方面，在一些可能的实现方式中，所述方法还包括：将所述第一训练数据输入所述神经网络模型；将所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。

结合第二方面，在一些可能的实现方式中，超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、神经网络模型的网络结构参数中的一种或多种。

第三方面，提供一种神经网络模型训练的装置，包括用于执行上述第一方面中的方法中的各个模块。

第四方面，提供一种神经网络模型训练的装置，包括用于执行上述第二方面中的方法中的各个模块。

第五方面，提供了一种神经网络模型训练的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述第一方面中的方法。

第六方面，提供了一种神经网络的训练装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述第二方面中的方法。

第七方面，提供一种计算机存储介质，该计算机可读存储介质存储有程序代码，该程序代码包括用于执行第一方面或第二方面中的方法中的步骤的指令。

第八方面，提供一种芯片系统，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得所述芯片系统执行第一方面或第二方面所述的方法。

可选地，作为一种实现方式，所述芯片系统还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面中的方法。

上述芯片系统具体可以是现场可编程门阵列(Field Programmable Gate Array，FPGA)或者专用集成电路(Application Specific Integrated Circuit，ASIC)。

应理解，本申请中，第一方面的方法具体可以是指第一方面以及第一方面中各种实现方式中的任意一种实现方式中的方法。

附图说明

图1是本申请实施例提供的系统架构的结构示意图。

图2是利用本申请实施例提供的卷积神经网络模型的示意图。

图3是本申请实施例提供的一种芯片硬件结构示意图。

图4是本申请一个实施例提供的一种神经网络模型训练的方法的示意性流程图。

图5是本申请另一个实施例提供的一种神经网络模型训练的方法的示意性流程图。

图6是本申请实施例提供的一种基于聚类的小样本学习的方法的示意性流程图。

图7是本申请实施例提供的一种微调的方法的示意图。

图8是贝叶斯优化方案的示意性流程图。

图9是本申请另一个实施例提供的一种神经网络模型训练的装置的示意性结构图。

图10是本申请一个实施例提供的一种电子装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

由于本申请实施例涉及大量神经网络模型的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络模型等相关概念进行介绍。

(1)神经网络模型

神经网络模型可以是由神经单元组成的，神经单元可以是指以x _s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络模型中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络模型是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络模型

深度神经网络模型(deep neural network，DNN)，也称多层神经网络模型，可以理解为具有很多层隐含层的神经网络模型，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络模型可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。例如，全连接神经网络模型中层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络模型中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络模型的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络模型的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络模型

卷积神经网络模型(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络模型。卷积神经网络模型包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络模型中对输入信号进行卷积处理的神经元层。在卷积神经网络模型的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络模型的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络模型各层之间的连接，同时又降低了过拟合的风险。

(4)损失函数

在训练深度神经网络模型的过程中，因为希望深度神经网络模型的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络模型的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络模型中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络模型能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络模型的训练就变成了尽可能缩小这个loss的过程。

(5)残差网络

在不断加神经网络模型的深度时，会出现退化的问题，即随着神经网络模型深度的增加，准确率先上升，然后达到饱和，再持续增加深度则会导致准确率下降。普通直连的卷积神经网络模型和残差网络(residual network，ResNet)的最大区别在于，ResNet有很多旁路的支线将输入直接连到后面的层，通过直接将输入信息绕道传到输出，保护信息的完整性，解决退化的问题。残差网络包括卷积层和/或池化层。

残差网络可以是：深度神经网络模型中多个隐含层之间除了逐层相连之外，例如第1层隐含层连接第2层隐含层，第2层隐含层连接第3层隐含层，第3层隐含层连接第4层隐含层(这是一条神经网络模型的数据运算通路，也可以形象的称为神经网络模型传输)，残差网络还多了一条直连支路，这条直连支路从第1层隐含层直接连到第4层隐含层，即跳过第2层和第3层隐含层的处理，将第1层隐含层的数据直接传输给第4层隐含层进行运算。公路网络可以是：深度神经网络模型中除了有上面所述的运算通路和直连分支之外，还包括一条权重获取分支，这条支路引入传输门(transform gate)进行权重值的获取，并输出权重值T供上面的运算通路和直连分支后续的运算使用。

(6)反向传播算法

卷积神经网络模型可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

(7)像素值

图像的像素值可以是一个红绿蓝(RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为256×Red+100×Green+76×Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

(8)小样本学习

小样本研究的目的是设计相关的学习模型，使得该模型可以仅在少量的有标签样本中实现快速学习并识别出新样本的类别。目前存在的适用于小样本问题的研究思想有迁移学习方法和半监督学习方法，这些方法在一定程度上可以缓解少量数据训练过程中出现的过拟合问题和数据稀缺问题。

以上对神经网络模型的一些基本内容做了简单介绍，下面针对图像数据处理时可能用到的一些特定神经网络模型进行介绍。

下面结合图1对本申请实施例的系统架构进行详细的介绍。

图1是本申请实施例的系统架构的示意图。如图1所示，系统架构100包括执行设备110、训练设备120、数据库130、客户设备140、数据存储系统150、以及数据采集系统160。

另外，执行设备110包括计算模块111、I/O接口112、预处理模块113和预处理模块114。其中，计算模块111中可以包括目标模型/规则101，预处理模块113和预处理模块114是可选的。

数据采集设备160用于采集训练数据。针对本申请实施例的神经网络模型训练方法来说，训练数据可以包括第一训练数据以及第一训练数据的类别。在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的第一训练数据进行处理，将输出的查询数据的特征与每一类的类中心特征进行的特征距离的计算，直到训练设备120输出的查询数据的特征与每一类的类中心特征的特征距离满足预设条件，从而完成目标模型/规则101的训练。

上述目标模型/规则101能够用于实现本申请实施例的神经网络模型的分类，即，将待处理数据(通过相关预处理后)输入该目标模型/规则101，即可得到待处理数据的类别。本申请实施例中的目标模型/规则101具体可以为神经网络模型。需要说明的是，在实际应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图1中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待处理数据。这里的客户设备140具体可以是终端设备。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待处理数据)进行预处理，在本申请实施例中，可以没有预处理模块113和预处理模块114或者只有的一个预处理模块。当不存在预处理模块113和预处理模块114时，可以直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如将目标模型/规则101计算得到的分类结果呈现给客户设备140，从而提供给用户。

具体地，经过计算模块111中的目标模型/规则101处理得到的分类结果可以通过预处理模块113(也可以再加上预处理模块114的处理)的处理后将处理结果送入到I/O接口，再由I/O接口将处理结果送入到客户设备140中显示。

应理解，当上述系统架构100中不存在预处理模块113和预处理模块114时，计算模块111还可以将处理得到的分类结果传输到I/O接口，然后再由I/O接口将处理结果送入到客户设备140中显示。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，可以是本申请实施例中的神经网络模型，具体的，本申请实施例提供的神经网络模型可以是CNN以及深度卷积神经网络模型(deep convolutional neural networks,DCNN)等等。

由于CNN是一种非常常见的神经网络模型，下面结合图2重点对CNN的结构进行详细的介绍。如上文的基础概念介绍所述，卷积神经网络模型是一种带有卷积结构的深度神经网络模型，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络模型，该前馈人工神经网络模型中的各个神经元可以对输入其中的数据作出响应。

如图2所示，卷积神经网络模型(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及全连接层(fully connected layer)230。下面对这些层的相关内容做详细介绍。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层对图像进行处理的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同，再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络模型200进行正确的预测。

当卷积神经网络模型200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络模型200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

全连接层230：

在经过卷积层/池化层220的处理后，卷积神经网络模型200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络模型200需要利用全连接层230来生成一个或者一组所需要的类的数量的输出。因此，在全连接层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在全连接层230中的多层隐含层之后，也就是整个卷积神经网络模型200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络模型200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络模型200的损失，及卷积神经网络模型200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络模型200仅作为一种卷积神经网络模型的示例，在具体的应用中，卷积神经网络模型还可以以其他网络模型的形式存在。

应理解，可以采用图2所示的卷积神经网络模型(CNN)200执行本申请实施例的分类方法，如图2所示，待处理数据经过输入层210、卷积层/池化层220和全连接层230的处理之后可以得到待处理数据的类别。

图3为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络模型处理器50。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图2所示的卷积神经网络模型中各层的算法均可在如图3所示的芯片中得以实现。

神经网络模型处理器(neural-network processing unit，NPU)50作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路503，控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路503内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路503从权重存储器502中取矩阵B相应的数据，并缓存在运算电路503中每一个PE上。运算电路503从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)508中。

向量计算单元507可以对运算电路503的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元507可以用于神经网络模型中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络模型中的后续层中的使用。

统一存储器506用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器505(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502，以及将统一存储器506中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。

与控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

控制器504，用于调用指存储器509中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为片上(on-chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

另外，在本申请中，图2所示的卷积神经网络模型中各层的运算可以由运算电路503或向量计算单元507执行。

深度学习技术迅速发展，但是，目前神经网络模型的训练还存在一定的难度，需要有一定经验的工程师进行对神经网络模型进行参数的调整，并且进行学习模型的选择。学习模型包括多种，如小样本学习、迁移学习等等。目前来说，要实现神经网络模型的高精度还依赖于专家经验对训练神经网络模型的参数进行调整，耗时耗力，不利于相关业务的快速迭代。

在传统的机器学习的框架下，机器学习的任务就是在给定充分训练数据的基础上来学习一个分类模型；然后利用这个学习到的模型来对测试数据进行分类与预测。然而，机器学习算法存在着一个关键的问题：一些新出现的领域中很难获取大量训练数据。

大量新的领域不断涌现，传统的机器学习需要对每个领域都标定大量训练数据，这将会耗费大量的人力与物力。而没有大量的标注数据，会使得很多与学习相关研究与应用无法开展。通常可能发生的一种情况是训练数据过期。这往往需要我们去重新标注大量的训练数据以满足我们训练的需要，但标注新数据是非常昂贵的，需要大量的人力与物力。从另外一个角度上看，如果我们有了大量的、在不同分布下的训练数据，完全丢弃这些数据也是非常浪费的。如何合理的利用这些数据就是迁移学习主要解决的问题。迁移学习(transfer learning)可以从现有的数据中迁移知识，用来帮助将来的学习。迁移学习的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。

神经网络模型训练过程中，需要对影响性能的超参数(hyper-parameter)进行设置和调整。定义神经网络模型属性或者定义训练过程的参数，可以称为超参数。超参数包括学习率(learning rate，LR)、学习率衰减速率、学习率衰减周期、迭代(iterations)周期数量、批尺寸(batch size)、神经网络模型的网络结构参数等中的一种多多种。

运用梯度下降算法进行优化时，权重的更新规则中，在梯度项前会乘以一个系数，这个系数可以称为学习率。学习率是监督学习以及深度学习中重要的超参数，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。

为了防止学习率过大，在收敛到全局最优点的时候会来回摆荡，可以通过设置学习率衰减速率使得学习率随着训练轮数不断下降，收敛梯度下降的学习步长。随迭代次数增加减少学习率来加快学习。超参数中设置的学习率也可以理解为初始的学习率。

学习率衰减速率可以理解为每个迭代周期学习率的下降值。每经过一个学习率衰减周期，学习率下降。学习率衰减周期可以是迭代周期的正整数倍。

迭代(iterations)周期数量也可以称为轮(epochs)，可以理解为向前和向后传播中所有批次的单次训练迭代。这意味着1个周期是整个输入数据的单次向前和向后传递。简单说，epochs指的就是训练过程中训练数据将被“轮”多少次。举个例子，训练集有1000 个样本，batch size＝10，那么训练完整个样本集需要100次迭代，1次epoch。

可以通过自动调参的方式对超参数进行调整，自动调参的方式如网格搜索(grid search)、随机搜索(random search)、遗传算法(genetic algorithm)、粒子群优化(paticle swarm optimization)、贝叶斯优化(Bayesian optimization)等。下面以贝叶斯优化为例进行说明。

在训练数据的数据量较少的情况下，通过聚类方案，可以得到具有分类功能的神经网络模型。但是，由于训练数据的数据量较少，得到的模型泛化能力较弱。为了解决上述问题，本申请提出了一种神经网络模型训练的方法。

图4是本申请实施例提供的一种神经网络模型训练的方法的示意性流程图。

在步骤S401，获取神经网络模型、第一训练数据和所述第一训练数据的类别。

获取可以是从存储器中读取，也可以是从其他设备处接收。神经网络模型可以是根据第二训练数据训练得到的。第二训练数据可以是与第一训练数据不同的数据，第二训练数据例如可以是公开数据集的全部或部分数据。

第一训练数据包括支持数据和查询数据。支持数据包括所述第一训练数据中的每一类的全部或部分数据。查询数据包括所述第一训练数据中每一类的全部或部分数据。

第一训练数据例如可以是文本、语音、图像等。第一训练数据的类别例如可以是一句话里每个词的词性(名词、动词等)，或可以是一段人的语音对应的其此人说话时的情绪，或可以是图片中的人或物体的类别等等。

在步骤S402，利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征。

第一训练数据的特征可以是神经网络模型提取的特征，也可以是对神经网络模型提取的特征进行处理得到的。可以将所述第一训练数据输入所述神经网络模型，将所述神经网络模型提取的特征进行深度哈希，从而得到所述第一训练数据的特征。即第一训练数据的特征可以是对神经网络模型提取的特征进行深度哈希的结果。特征距离可以通过汉明距离表示。

在步骤S403，根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型。

在步骤S403之前，可以计算每一类的类中心特征。每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。

还可以根据每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。中心损失可以用于表示每一类的第一训练数据的特征之间的特征距离的平均值。

在神经网络模型训练的过程中，引入中心损失，可以提高神经网络模型训练的效率，提高神经网络模型的精度。

当所述第一训练数据的数据量满足预设条件时，通过贝叶斯优化方案调整所述神经网络模型中部分层的网络结构并优化超参数，根据所述每一类的类中心特征与所述查询数据特征的特征距离，调整神经网络模型的部分层的参数。

调整神经网络模型的部分层的参数，调整的层可以是预设值的。可以调整神经网络模型中最后几层的参数。

当所述第一训练数据的数据量不满足预设条件时，根据所述神经网络模型对应的预设超参数以及所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数。

预设超参数可以是根据专家经验确定的。预设超参数可以与神经网络模型一一对应。神经网络模型训练的装置可以存储有预设超参数可以与神经网络模型的对应关系。

通过步骤S401-S403，通过对训练得到的神经网络模型的部分层的参数进行调整，能够提高神经网络模型的泛化能力。

图5是本申请实施例提供的一种神经网络模型训练的方法的示意性流程图。

为了解决通过人工调整训练神经网络模型的参数效率较低的问题，本申请实施例提供了一种神经网络模型训练的方法。

首先进行训练数据的预处理。以训练数据为图像数据为例进行说明。

可以对训练数据进行校验。训练数据校验过程中，可以校验图片是否损坏，如果损坏，删除损坏的图片，对未损坏的图片不进行处理。训练数据校验过程中，也可以校验图片是否为三通道图片，如果不是，转成三通道jpg格式。训练数据校验过程中，还可以对训练数据进行平衡校验。可以预设置各类训练数据的数据量比例的预设条件。如果各类训练数据的数量大致相等，各类训练数据的数据量比例均小于预设条件，不进行处理。如果各类训练数据的数量差异较大，即存在某两类的训练数据量比例不满足预设条件，可以输出警告信息。警告信息用于指示训练数据不平衡。

可以对训练数据进行格式转换。数据格式转换，也可以理解为对训练数据的整理或打包。在训练数据格式转换过程中，可以将图片数据及其标签转换为tfrecord格式。

然后，根据预处理得到的训练数据，训练神经网络模型。

可以获取指示信息，用于指示训练的神经网络模型的类型。即可以对具有指定类型的神经网络模型。也可以对默认类型的神经网络模型进行训练。

贝叶斯优化方案可以对超参数进行调整，自动调节参数。但是贝叶斯优化方案的效率较低，优化超参数需要占用较长的时间。贝叶斯优化方案可以参见图8的说明。

当单个类别的训练数据的数据量大于或等于第一预设值时，第一预设值例如可以为200，可以根据训练数据进行神经网络模型的训练。

单个类别的训练数据的数据量可以是训练数据中数据量最小的类别的数据量，也可以是将训练数据中每个类别的数据量取平均值，作为单个类别的训练数据的数据量。

当训练数据的总数据量小于第二预设值时，第二预设值例如可以为20万，可以通过贝叶斯优化方案，调整神经网络模型的网络结构并优化超参数，根据训练数据训练神经网络模型。可以对神经网络模型的全部或部分层的结构进行调整，并调整神经网络模型的全部或部分层的参数。

当训练数据的总数据量大于或等于第二预设值时，可以根据神经网络模型对应的预设超参数和训练数据，对神经网络模型进行训练。

通过对神经网络模型的训练，得到最优的神经网络模型

当单个类别的训练数据的数据量小于第一预设值时，可以根据小样本学习方案，训练神经网络模型。通过小样本学习方案，可以增强训练得到的神经网络模型的鲁棒性，即提高泛化能力，从而提高准确性。

在单个类别的训练数据的数据量小于第一预设值的情况下，可以先根据神经网络模型对应的预设超参数训练神经网络模型。在训练得到的神经网络模型的精度达标时不再进行小样本学习。精度达标例如可以是精度达到95％。小样本学习方案包括基于聚类的小样本学习方案、基于微调(fine tune)的小样本学习方案等。基于聚类的小样本学习方案可以参见图6的说明，基于微调(fine tune)的小样本学习方案可以参见图7的说明。神经网络模型的精度也可以理解为神经网络模型的准确度，可以在训练数据或其他标注数据上确定神经网络模型的准确度。

可以进行多种小样本学习方案训练神经网络模型，在训练的多个神经网络模型中，可以将精度最高的神经网络模型作为最优的神经网络模型。

在数据量较小的情况下，根据预设的超参数训练神经网络模型，训练得到的神经网络模型的精度较低。通过贝叶斯优化方案能够得到精度较高的神经网络模型，但是在数据量较大的情况下，效率较低，需要占用较长的时间。

根据训练数据的总数据量选择是否使用贝叶斯优化方案调整神经网络模型的网络结构和训练神经网络模型的超参数，能够在保证训练得到的神经网络模型的精度的情况下，减少神经网络模型训练占用的时间，减小对资源的占用。

最后，输出训练结果。训练结果包括训练得到的最优的神经网络模型。训练结果还可以包括最优的神经网络模型对部分训练数据的处理结果，以及每个训练数据中对处理结果影响最大的部分的突出显示标记。例如，可以对训练数据的图像中对处理结果影响最大的部分像素进行高亮以突出显示。

根据每个训练数据中对处理结果影响最大的部分的突出显示标记，可以通过人工判断影响训练得到的神经网络模型精度的原因。该原因例如可以包括训练数据的较差，和/或进行训练的超参数需要进一步优化等。

通过本申请实施例提供的神经网络模型训练的方法，在当样本量较少，如当样本量少于200张/类时，本申请实施例利用小样本学习方案训练神经网络模型，当样本量介于200-2000张/类之间时，利用贝叶斯优化结合全网微调技术训练分类模型，当样本量大于2000张/类时，由于样本量充足，直接利用根据人工经验确定的预设超参数训练神经网络模型，从而得到高精度分类模型。在神经网络模型训练的过程中，可以结合早停(early stop)技术，即当迭代次数达到预设的迭代次数之前，神经网络模型的精度不再提升，可以停止对神经网络模型的训练。本申请实施例提供的神经网络模型训练的方法完全自动化，不依赖专家调优，简单易用。尤其是当样本小于30张/类时，利用基于聚类的小样本学习保证模型精度。

结合自动调参的方案和神经网络模型对应的预设超参数，解决了需要人工调参的问题，可以完全摆脱人工调参的繁琐的过程，自动调节参数，提高了神经网络模型的精度。神经网络模型对应的预设超参数对神经网络模型进行训练，可以理解为系统内预置的通用训练策略。

通过本申请实施例提供的神经网络模型训练的方法对神经网络模型进行训练，训练得到的神经网络模型能够实现与人工调参相同或更好的精度。

图6是本申请实施例提供的一种基于聚类的小样本学习方案的示意性流程图。

为了保证小样本量情况下，神经网络模型的精度，可以采用小样本学习方案对神经网络模型进行训练。参见图5，可以在训练数据中单类训练数据的数据量小于200张时，采用小样本学习方案对神经网络模型进行训练。

可以通过神经网络模型提取训练数据的特征。根据训练数据的特征之间的距离，关系网络可以利用聚类算法对训练数据进行聚类，从而确定训练数据的类别。

利用关系网络，可以根据训练数据的特征对训练数据进行聚类，从而确定聚类结果。

在传统的小样本学习的方案中，采用交叉熵损失(cross entropy loss)对神经网络模型进行调整。通过最小化交叉熵损失，可以增大神经网络模型提取的特征在不同的类之间的特征距离，也就是说，增加不同的类的特征之间的特征距离。

利用所述神经网络模型对于训练数据进行特征提取，可以得到训练数据的特征。训练数据包括支持数据和查询数据。支持数据可以包括训练数据中的全部或部分数据。查询数据可以包括训练数据中的全部或部分数据。支持数据与查询数据的并集可以包括训练数据中的全部数据。支持数据与查询数据可以存在交集，也可以不存在交集。支持数据包括训练数据中的每一类的全部或部分数据。查询数据包括训练数据中的每一类的全部或部分数据。

可以根据支持数据的特征，计算第一训练数据中的每一类的类中心特征。每一类的类中心特征为该类的所有支持数据的特征对应位的平均值。

根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，可以得到调整后的神经网络模型。可以根据每一类的类中心特征与所述查询数据特征的特征距离，计算交叉熵损失。调整所述神经网络模型中部分层的参数，以最小化交叉熵损失，从而得到调整后的神经网络模型。

可以从训练数据中随机选择部分数据形成支持集合，其他数据形成查询集合。神经网路提取的支持集合中所有支持数据的特征的平均值可以称为支持特征，神经网路提取的查询集合中查询数据的特征可以称为查询特征。支持集合中包括每一类的支持数据，查询集合中包括每一类的支持数据。根据查询特征对应的查询数据所属的类别的支持特征和该查询特征之间的特征距离，计算交叉熵损失。根据交叉熵损失，调整神经网络模型的参数，训练神经网络模型。

在训练数据的数据量较小的情况下，对初始的神经网络模型进行训练，可能导致训练得到的神经网络模型仅在训练数据中适用，泛化能力较差。因此，在晓燕本学习的过程中可以采用迁移学习方案。一种迁移学习的方案，可以对预训练得到的神经网络模型的参数进行微调，即调整部分层的参数。这种迁移学习的方案也可以称为神经网络模型的微调。微调的方案具体可以参见图7的说明。

预训练得到的神经网络模型可以是在公共数据集上训练得到的神经网络模型。在训练数据的数据量较小的情况下，通过对预训练得到的神经网络模型中部分层的参数进行调整，提高最终训练得到的神经网络模型的泛化能力。

为了提高神经网络模型的训练的准确性，提高神经网络模型的精度，在调整神经网络模型时，可以引入中心损失(center loss)。可以根据每一类的所述第一训练数据的特征之间的距离的平均值，计算中心损失。

通过交叉熵损失进行训练可以增大类间距离；通过中心损失进行训练可以缩小类内距离。根据交叉熵损失和中心损失，训练神经网络模型，可以提高神经网络模型训练的效率，提高神经网络模型的精度。

神经网络模型对训练数据进行特征的提取，特征的位宽可能较大，保存训练数据的特征以及根据训练数据的特征的计算占用较多的资源。可以对神经网络模型提取的特征进行压缩。可以采用深度哈希的方式，对神经网络模型提取的特征进行压缩。特征距离可以通过汉明距离表示。通过对神经网络模型提取的特征进行深度哈希，可以减小特征的体积，减小训练时间，并且保证神经网络模型训练具有较高的精度。在采用训练得到的神经网络模型确定数据的类别的过程中，可以提升推理速度。

应用基于聚类的小样本学习方案得到的神经网络模型对数据进行分类之前，可以根据训练得到的神经网络模型提取的训练数据的特征，确定每一类训练数据的特征的平均值，作为每一个类别的中心特征。在应用基于聚类的小样本学习方案得到的神经网络模型对待分类数据进行分类时，可以根据训练得到的神经网络模型提取待分类数据的特征，根据待分类数据的特征与每一个类别的中心特征的特征距离，对待分类数据进行分类。例如可以确定待分类数据的特征与各个类别的中心特征的特征距离中最小的特征距离对应的类别为该待分类数据的类别。

本申请实施例提供的基于聚类的小样本学习方案，利用迁移学习的方式进行特征提取，保证少量训练样本下的训练得到的神经网络模型的精度，降低神经网络模型训练对训练数据的数据量的依赖。通过对提取的特征进行深度哈希从而进行特征的压缩，特征体积小，提高对特征的计算的效率，减少资源占用。

图7是本申请实施例提供的一种基于微调的小样本学习方案的示意性流程图。

神经网络模型对训练集以外样本的预测能力可以称为神经网络模型的泛化能力。机器学习中一个重要的话题便是提高神经网络模型的泛化能力，泛化能力强的模型才是好模型。在训练数据的数据量不足的情况下，训练神经网络模型容易出现欠拟合，神经网络模型由于用于学习的训练数据不足，无法学习到训练数据中的一般规律，因而导致泛化能力弱。

为了解决在训练数据的数据量不足的情况下的训练神经网络模型的泛化能力较差的问题，可以进行迁移学习。根据较少的训练数据，对已经通过大量数据训练得到的神经网络模型再次进行训练，调整神经网络模型中部分层的参数。对神经网络模型中部分层的参数进行调整，也可以称为神经网络模型的微调。

可以基于业界开源，大数据集上训练的神经网络模型，保持神经网络模型浅层网络的参数不变，即浅层网络权重不变，调整神经网络模型最后几层的参数。通过对大数据集上训练的神经网络模型进行微调，可以保证模型鲁棒性的同时保证小样本量下的神经网络模型精度。

还可以结合贝叶斯优化方案对大数据集上训练的神经网络模型进行微调。

图8是贝叶斯优化方案的示意性流程图。

贝叶斯优化方案可以采用高斯过程回归、随机森林回归等方式。对于不同的方式，目标函数的代替函数不同，即进行曲线拟合时采用的拟合曲线的函数不同。以采用高斯过程回归为例进行说明。

在步骤S801，初始化超参数。

通过初始化，可以获取多组超参数，即训练神经网络模型的参数。

在步骤S802，神经网络模型训练。

可以根据初始化得到的多组超参数训练中的每组超参数，调整神经网络模型的网络结构，并根据该组超参数对神经网络模型进行训练，从而得到根据多组超参数中每组超参数训练得到的神经网络模型。

在步骤S803，曲线拟合。

假设神经网络模型的超参数与神经网络模型的精度之间的关系符合高斯分布，通过高斯分布曲线对各个超参数进行拟合。

在步骤S804，确定精度期望最大值对应的超参数。

通过拟合的曲线得到精度期望最高神经网络模型对应的各个超参数。

之后，进行步骤S802-S804，通根据精度最高神经网络模型对应的各个超参数训练神经网络模型，并重新进行曲线拟合，更新拟合曲线。根据更新后的曲线得到对应的精度期望最高神经网络模型对应的各个超参数。

在步骤S805，最优神经网络模型。

当达到预设的最高迭代次数，或者通过曲线拟合得到的对应的精度期望最高神经网络模型对应的各个超参数不再变化，则可以将最终得到的神经网络模型作为训练得到的最优神经网络模型。

通过步骤S801-S805，可以对学习率(learning rate，LR)、学习率衰减速率、学习率衰减周期、迭代(iterations)周期、批尺寸(batch size)、弃权(dropout)等超参数中的一个或多个参数进行优化。

上文结合附图对本申请实施例的神经网络训练的方法进行了详细描述，下面结合附图对本申请实施例的神经网络训练的装置进行详细的描述，应理解，下面描述的神经网络训练的装置能够执行本申请实施例的神经网络训练的方法的各个步骤，为了避免不必要的重复，下面在介绍本申请实施例的神经网络模型训练的装置时适当省略重复的描述。

图9是本申请实施例提供的一种神经网络训练装置的示意性结构图。装置3000包括获取模块3001和处理模块3002。获取模块3001和处理模块3002可以用于执行本申请实施例的神经网络训练的方法。

在一些实施例中，具体地，获取模块3001可以执行步骤S401，处理模块3002可以执行步骤S402-S403。

获取模块3001用于，获取神经网络模型、第一训练数据和所述第一训练数据的类别，所述神经网络模型是根据第二训练数据训练得到的，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据。

处理模块3002用于，利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征。

处理模块3002用于，根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。

可选地，处理模块3002用于，根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。

可选地，处理模块3002用于，将所述第一训练数据输入所述神经网络模型；对所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。

可选地，处理模块3002用于，当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整超参数，根据所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数；当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数以及所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数。

可选地，超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、弃权、神经网络模型的网络结构参数中的一种或多种。

在另一些实施例中，获取模块3001用于，获取第一训练数据和所述第一训练数据的类别。

处理模块3002用于，当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整超参数，根据所述第一训练数据和所述第一训练数据的类别，训练神经网络模型；当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数、所述第一训练数据和所述第一训练数据的类别，训练所述神经网络模型。

可选地，所述神经网络模型是根据第二训练数据训练得到的。

处理模块3002用于，利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据。

可选地，处理模块3002用于，将所述第一训练数据输入所述神经网络模型；将所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。

图10是本申请实施例提供的一种电子装置的硬件结构示意图。图10所示的电子装置1000(该装置1000具体可以是一种计算机设备)包括存储器1001、处理器1002、通信接口1003以及总线1004。其中，存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。

存储器1001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1001可以存储程序，当存储器1001中存储的程序被处理器1002执行时，处理器1002和通信接口1003用于执行本申请实施例的神经网络模型训练的方法的各个步骤。

处理器1002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的神经网络模型训练的装置中的单元所需执行的功能，或者执行本申请方法实施例的神经网络模型训练的方法。

处理器1002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的神经网络模型训练的方法的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001，处理器1002读取存储器1001中的信息，结合其硬件完成本申请实施例的神经网络模型训练的装置中包括的单元所需执行的功能，或者执行本申请方法实施例的神经网络模型训练的方法。

通信接口1003使用例如但不限于收发器一类的收发装置，来实现装置1000与其他设备或通信网络之间的通信。例如，可以通过通信接口1003获取神经网络模型、第一训练数据等中的一种或多种。

总线1004可包括在装置1000各个部件(例如，存储器1001、处理器1002、通信接口1003)之间传送信息的通路。

本申请实施例还提供一种计算机程序存储介质，其特征在于，所述计算机程序存储介质具有程序指令，当所述程序指令被直接或者间接执行时，使得前文中的方法得以实现。

本申请实施例还提供一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得前文中的方法得以实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种神经网络模型训练的方法，其特征在于，包括：

获取神经网络模型、第一训练数据和所述第一训练数据的类别，所述神经网络模型是根据第二训练数据训练得到的，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据；

利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征；

根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。
根据权利要求1所述的方法，其特征在于，所述根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，包括：

根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。
根据权利要求1或2所述的方法，其特征在于，所述利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，包括：

将所述第一训练数据输入所述神经网络模型；

对所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。
根据权利要求1-3中任一项所述的方法，其特征在于，所述根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，包括：

当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整超参数，根据所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数；

当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数以及所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数。
根据权利要求4所述的方法，其特征在于，所述超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、神经网络模型的网络结构参数中的一种或多种。
一种神经网络模型训练的方法，其特征在于，包括：

获取神经网络模型、第一训练数据和所述第一训练数据的类别；

当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整超参数，根据所述第一训练数据和所述第一训练数据的类别，训练所述神经网络模型；

当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数、所述第一训练数据和所述第一训练数据的类别，训练所述神经网络模型。
根据权利要求6所述的方法，其特征在于，所述神经网络模型是根据第二训练数据训练得到的；

所述根据所述第一训练数据和所述第一训练数据的类别，训练神经网络模型，包括：

利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据；

根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。
根据权利要求7所述的方法，其特征在于，所述根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，包括：

根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。
根据权利要求7或8所述的方法，其特征在于，所述利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，包括：

将所述第一训练数据输入所述神经网络模型；

将所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。
根据权利要求6-9中任一项所述的方法，其特征在于，所述超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、神经网络模型的网络结构参数中的一种或多种。
一种神经网络模型训练的装置，其特征在于，包括：

获取模块，用于获取神经网络模型、第一训练数据和所述第一训练数据的类别，所述神经网络模型是根据第二训练数据训练得到的，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据；

处理模块，用于：

利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征；

根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。
根据权利要求11所述的装置，其特征在于，所述处理模块用于：

根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。
根据权利要求11或12所述的装置，其特征在于，所述处理模块用于：

将所述第一训练数据输入所述神经网络模型；

将所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。
根据权利要求11-13中任一项所述的装置，其特征在于，所述处理模块用于：

当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整所述神经网络模型中部分层的网络结构并优化超参数，根据所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数；

当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数以及所述每一类的类中心特征与所述查询数据特征的特征距离，调整所述部分层的参数。
根据权利要求14所述的装置，其特征在于，所述超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、神经网络模型的网络结构参数中的一种或多种。
一种神经网络模型训练的装置，其特征在于，包括：

获取模块，用于获取神经网络模型、第一训练数据和所述第一训练数据的类别；

处理模块，用于：

当所述第一训练数据的数据量小于预设值时，通过贝叶斯优化方案调整神经网络模型的网络结构并优化超参数，根据所述第一训练数据和所述第一训练数据的类别，训练所述神经网络模型；

当所述第一训练数据的数据量大于或等于所述预设值时，根据所述神经网络模型对应的预设超参数、所述第一训练数据和所述第一训练数据的类别，训练所述神经网络模型。
根据权利要求16所述的装置，其特征在于，所述神经网络模型是根据第二训练数据训练得到的；

所述处理模块用于：

利用所述神经网络模型对于所述第一训练数据进行特征提取，以得到所述第一训练数据的特征，所述第一训练数据包括支持数据和查询数据，所述支持数据包括所述第一训练数据中的每一类的全部或部分数据，所述查询数据包括所述第一训练数据中每一类的全部或部分数据；

根据每一类的类中心特征与所述查询数据特征的特征距离，调整所述神经网络模型中部分层的参数，以得到调整后的神经网络模型，所述每一类的类中心特征中的每一位为所述每一类的所述支持数据的特征对应位的平均值。
根据权利要求17所述的装置，其特征在于，所述处理模块用于：

根据所述每一类的类中心特征与所述查询数据特征的特征距离，以及每一类的第一训练数据的特征之间的特征距离的平均值，调整所述部分层的参数。
根据权利要求17或18所述的装置，其特征在于，所述处理模块用于：

将所述第一训练数据输入所述神经网络模型；

将所述神经网络模型提取的特征进行深度哈希，以得到所述第一训练数据的特征。
根据权利要求16-19中任一项所述的装置，其特征在于，所述超参数包括学习率、学习率衰减速率、学习率衰减周期、迭代周期数量、批尺寸、神经网络模型的网络结构参数中的一种或多种。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1-10中任一项所述的方法。
一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1-10中任一项所述的方法。