WO2018010434A1

WO2018010434A1 - 一种图像分类方法及装置

Info

Publication number: WO2018010434A1
Application number: PCT/CN2017/074427
Authority: WO
Inventors: 张亚森; 石伟伟; 龚怡宏
Original assignee: 华为技术有限公司
Priority date: 2016-07-13
Filing date: 2017-02-22
Publication date: 2018-01-18
Also published as: CN107622272A

Abstract

本发明公开一种图像分类方法及装置，其特征在于，方法包括：获取待分类图像的训练集；选择一个多层的卷积神经网络模型；对选取层做基于最小-最大Min-Max准则的正则约束，并形成第二卷积神经网络模型，其中，所述选取层为卷积神经网络模型中的一层；使用所述训练集对第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；使用第三卷积神经网络模型对待分类图像的测试集进行分类。基于目标识别的不变性特征，通过对选取层特征做基于Min-Max准则的约束，使显式地强迫所学到的特征满足：属于同一类的目标流形有较好的类内紧凑性，属于不同类的目标流形有较大的类间间隔，进而能够显著地提高图像分类的精度。

Description

一种图像分类方法及装置

技术领域

本发明涉及计算机视觉图像分类技术领域，特别是涉及一种图像分类方法及装置。

背景技术

近来，卷积神经网络在计算机视觉领域和模式识别的多个领域都获得了巨大的成功，例如在目标识别、目标检测、语义分割、目标追踪和图像检索等方面均取得了较好的效果。这些巨大的成功主要归功于以下两个方面的原因：一方面，以通用计算图形处理器(英文：General Purpose GPU，缩写：GPGPU)和CPU集群为代表的现在计算技术的快速发展允许研究人员训练较大规模和较高复杂度的神经网络；另一方面，拥有数以百万计标记图像的大规模数据集的出现，能够在一定程度上减少训练较大规模的卷积神经网络的过拟合，使得训练大规模网络成为可能。

通常地，对卷积神经网络图像分类的训练方法是单纯地采用基于随机梯度下降(缩写：SGD)的反向传播(英文Back Propagation，缩写：BP)算法。由于在这种训练方法中没有加入对卷积神经网络所学习到的特征的约束条件，所以导致训练出来的卷积神经网络图像分类系统分类精度不够好，表现为所学习到的特征的类内紧凑性和类间分离性不够好。

发明内容

本申请中提供了一种图像分类方法及装置，以提高图像分类精度，为了解决上述技术问题，本申请公开了如下技术方案：

第一方面，提供了一种图像分类方法，所述方法包括：

获取待分类图像的训练集；选择一个多层的卷积神经网络模型；对选取层做基于Min-Max准则的正则约束，并形成第二卷积神经网络模型，其中，所述选取层为所述卷积神经网络模型中的一层；使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。

本申请基于目标识别的不变性特征，所述不变性特征是指，当一个物体经过保同变换(例如位置平移，光照变化，形状变化、视角变化等等)，其在特征空间里对应的特征向量也会随之变化，将特征向量投影到一个高维的特征空间里，由于高维特征空间的维数和特征向量的维数相同，所以这些所有保同变换在高维特征空间里对应的所有特征向量将会形成一个低维的流形，当属于同一类的目标流形变得比较紧凑，不同类目标物体的流形的间隔比较大时，就得到了较好的不变性特征。

本申请在对目标识别不变性特征的观察，提供了基于Min-Max准则改进的深度卷积神经网络图像的分流方法，通过对卷积神经网络的选取层特征做基于Min-Max准则的约束，使显式地强迫所学到的特征满足：属于同一类的目标流形有较好的类内紧凑性，属于不同类的目标流形有较大的类间间隔，进而能够显著地提高图像分类的精度。

此外，从选择的卷积神经网络模型中的选取层开始，对其进行Min-Max准则的正则约束运算，使得在训练大规模网络时，能够简化运算，避免通过增加网络规模和训练数据规模导致计算量大，效率低，同时也能够避免构建大规模的训练标注数据集时，投入耗费大量的时间、人力和财力。

结合第一方面，在第一方面第一种实现中，所述选择一个卷积神经网络模型包括：

获取一个mini-batch的训练样本；根据所述训练样本和目标函数，确定所述卷积神经网络模型；其中，所述训练样本表示为

n表示所述mini-batch的大小，X_i表示原始的输入数据，c_i表示X_i的类别标签，且c_i∈{1，2，…，C}，C表示所述训练集的类别总数；所述目标函数表示为：

W＝(W⁽¹⁾，…，W^(M)；b⁽¹⁾，…，b^(M))，W表示所述卷积神经网络模型的全部参数，

表示训练样本的损失函数，M表示所述卷积神经网络模型的总层数，W^(m)表示所述卷积神经网络模型第m层的权重参数，b^(m)表示所述卷积神经网络模型第m层的偏置参数，m∈{1，2，…，M}中的任意一个值。

结合第一方面第一种实现，在第一方面第二种实现中，所述选择一个卷积神经网络模型之后还包括：对所述卷积神经网络模型划分层级；其中，所述划分层级后的卷积神经网络模型的每一层特征的递归表示为：

其中，X_i ^(m)表示所述卷积神经网络模型第m层的特征，*表示卷积运算，f(·) 表示非线性激活函数。

结合第一方面，在第一方面第三种实现中，对选取层做基于Min-Max准则的正则约束运算之前还包括：获取所述Min-Max准则；

所述获取Min-Max准则包括：分别获取Min-Max的内在图和惩罚图，所述内在图表征目标流形的内部紧凑性，所述惩罚图表征目标流形之间的间隔；根据所述内在图和惩罚图，运算得到第k层特征的Min-Max准则，所述第k层为所述选取层；其中，所述第k层特征的Min-Max准则表示为

L(X^(k)，c)＝L₁(X^(k)，c)-L₂(X^(k)，c)

其中，L₁(X^(k)，c)表示所述内在图，L₂(X^(k)，c)表示所述惩罚图；X^(k)表示一个mini-batch的训练样本

在第k层的特征的集合，

表示与所述mini-batch相对应的类别标签集合，i∈{1，2，…，n}。

结合第一方面第三种实现，在第一方面第四种实现中，所述第二卷积神经网络模型用目标函数表示为：

其中，

为第二卷积神经网络模型的分类损失函数，L(X^(k)，c)为第k层特征的Min-Max准则。

结合第一方面第四种实现，在第一方面第五种实现中，使用所述训练集对所述第二卷积神经网络模型进行训练包括：根据第二卷积神经网络模型的目标函数，获取第二卷积神经网络模型关于第k层特征的灵敏度；根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法，使用所述训练集对所述第二卷积神经网络模型进行训练；

其中，所述第k层特征的灵敏度采用如下方式计算得出：

H表示第k层特征拼成的矩阵，Ψ＝D-G，D＝diag(d₁₁，d₂₂，…，d_nn)，

表示内在图中连接顶点x_i和x_j的边的权值，

表示惩罚图中连接顶点x_i和x_j的边的权值，i＝1，2，…，n，Ψ表示矩阵G＝(G_ij)_n×n的拉普拉斯矩阵，下标(：，i)表示所述矩阵的第i列。

结合第一方面第五种实现，在第一方面第六种实现中，所述Min-Max准则为核版本的Min-Max准则，所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。

结合第一方面第六种实现，在第一方面第七种实现中，若所述Min-Max准则为核版本的Min-Max准则，那么对选取层做基于Min-Max准则的正则约束运算包括：获取所述核版本的Min-Max准则关于第k层特征的灵敏度；根据所述核版本的Min-Max准则关于第k层特征的灵敏度，对所述第k层做基于所述核版本的Min-Max准则的约束运算；

其中，所述核版本的Min-Max准则关于第k层特征的灵敏度表示为：

其中，Φ表示矩阵V＝(V_ij)_n×n的拉普拉斯矩阵，

结合第一方面第七种实现，在第一方面第八种实现中，使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括：使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。

结合第一方面或第一方面第一种至第八种实现的任意一种，在第一方面第八种实现中，所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。

第二方面，还提供了一种图像分类装置，该装置包括用于执行第一方面及第一方面各实现方式的中方法步骤的单元。

第三方面，还提供了一种图像分类设备，所述设备包括：处理器和存储器，

所述处理器，用于获取待分类图像的训练集；选择一个多层的卷积神经网络模型；对选取层做基于Min-Max准则的正则约束，并形成第二卷积神经网络模型，使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；使用所述第三卷积神经网络模型对待分类图像的测试集进行分类，其中，所述选取层为所述卷积神经网络模型中的一层；

所述存储器，用于存储所述待分类图像的训练集，所述多层的卷积神经网络模型，所述Min-Max准则和分类后的图像。

第四方面，还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时执行可包括本发明提供一种图像分类方法及装置的各实现方式中的部分或全部步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像分类方法的流程示意图；

图2为本申请实施例提供的一种人脑视觉系统形成物体流形的过程示意图；

图3为本申请实施例提供的一种通过变换达到目标特征不变性的示意图；

图4为本申请实施例提供的一种多层卷积神经网络模型的结构示意图；

图5为本申请实施例提供的一种内在图和惩罚图的结构示意图；

图6本申请实施例提供的一种图像分类装置的结构框图；

图7为本申请实施例提供的一种图像分类设备的示意图。

具体实施方式

本申请提供的一种图像分类方法及装置用于提高图像分类的精度，具体而言，本方法借鉴人脑视觉通道的目标识别的流形解离特性，将其与卷积神经网络相结合，提出了一种基于Min-Max准则改进的深度卷积神经网络图像分类方法及装置。

首先，介绍人脑视觉系统腹侧通道关于目标识别的流形解离特性，所述目标识别的关键是不变性特征，所述不变性特征是指在各种视觉条件下，都能够准确识别出特定物体的能力。对于某一视觉刺激，其在腹侧通道某脑区神经元的激活响应可以看成是一个响应向量，向量空间的维数就是该区域神经元的个数。当目标物体经过“保同变换”(例如，位置、尺度、姿势等变化)后，所产生的响应向量在高维向量空间中形成一个低维的物体流形(英文：object manifold)，如图2所示，其中，r1，r2，......，rN表示每个神经元。

低层脑区的每一个目标流形都高度弯曲，且不同目标物体的流形相互缠绕在一起。腹侧通道通过逐级非线性变换，将不同目标的流形逐步变换为平坦和相互分离。在最后阶段，不同的目标流形变得线性可分，如图3所示。

当一个物体经过保同变换，其在特征空间里对应的特征向量也会随之变化，将特征向量投影到一个高维的特征空间里(高维特征空间的维数和特征向量的维数相同)，这些所有保同变换在高维特征空间里对应的所有特征向量将会形成一个低维的流形，当属于同一类的目标流形变得比较紧凑，不同类目标物体的流形的间隔比较大时，就得到了较好的不变性特征。

为了提高图像分类的精度，使得分类后的图像中属于同一类的目标流形具有较好的内紧凑性，属于不同类目标物体的流形具有较大的类间间隔，本申请实施例提供了一种图像分类系统，该系统包括：图像集、一个卷积神经网络模型和Min-Max准则。

其中，所述图像集是指待分类的图像，在对该图像集进行分类之前，预先对该图像集划分为训练集、验证集和测试集。所述卷积神经网络模型原则上可以是任何卷积神经网络模型，例如Quick-CNN、NIN、AlexNet等。

如图1所示为本申请实施例提供的一种图像分类方法的流程示意图，该方法包括如下步骤：

步骤101：获取待分类图像的训练集，其中所述待处理图像预先划分为训练集、验证集和测试集。

步骤102：选择一个多层的卷积神经网络模型。该卷积神经网络模型至少包括2个层级。

步骤103：对选取层做基于Min-Max准则的正则约束运算，并形成第二卷积神经网络模型，其中，所述选取层为所述卷积神经网络模型中的一层，例如，设所述选取层为卷积神经网络模型中的第k层。

其中，所述Min-Max准则是基于目标流形的内在图和惩罚图来构造的，所述内在图表征目标流形的内部紧凑性，所述惩罚图表征目标流形之间的间隔。

步骤104：使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型。

步骤105：使用所述第三卷积神经网络模型对待分类图像的测试集进行分类，以完成对待分类图像的分类测试。

本实施例提供的图像分类方法在对目标识别不变性特征的观察基础上，通过对卷积神经网络的选取层特征做基于Min-Max准则的约束，使显式地(英文：explicitly)强迫训练所学到的特征满足：属于同一类的目标流形有较好的类内紧凑性，属于不同类的目标流形有较大的类间间隔，(即不同目标流形之间的间隔尽可能的大)进而能够显著地提高图像分类的精度。

在一个具体的实施例中，上述步骤102中，选择一个多层的卷积神经网络模型的过程包括：

获取一个mini-batch的训练样本；

根据所述训练样本和目标函数，确定所述卷积神经网络模型；

其中，设该mini-batch训练样本表示为

n表示所述mini-batch的大小，X_i表示原始的输入数据，即X_i是第i幅训练集图像，c_i表示与所述待分类图像相对应类别标签，且c_i∈{1，2，…，C}，即c_i表示X_i的类别标签，C表示所述训练集图像的类别总数，每一个图像的类别标签是选自{1，2，…，C}中的一个特定值。

选定的卷积神经网络模型的目标函数表示为：

其中，W＝(W⁽¹⁾，…，W^(M)；b⁽¹⁾，…，b^(M))，W表示选定的所述卷积神经网络模型的全部参数，

进一步地，在选择完一个卷积神经网络模型之后还包括：

对所述卷积神经网络模型划分层级；

其中，所述划分层级后的卷积神经网络模型的每一层特征的递归表示为：

其中，X_i ^(m)表示所述卷积神经网络模型第m层的特征，*表示卷积运算，f(·)表示非线性激活函数。

在对选定的卷积神经网络模型分层之后，选择一个层对其进行基于Min-Max准则的改进，优选的，所述选择的层(即选取层)，设为第k层，为所述卷积神经网络模型中靠近输出的层(即模型的高层)，例如所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层，如图4所示。

将Min-Max准则作用在卷积神经网络模型(例如CNN模型)高层可以起到更好的优化效果，这是由于CNN模型通过BP(英文：Error Back-Propagation，中文：误差反向传播)算法来优化，Min-Max准则关于特征的导数可以通过BP过程自上而下地影响CNN模型中的每一层特征的学习。

另外，从选择的卷积神经网络模型中的高层(选取层)开始，对其进行Min-Max准则的正则约束运算，使得在训练大规模网络时，能够简化运算，避免通过增加网络规模和训练数据规模导致计算量大，效率低，同时也能够避免构建大规模的训练标注数据集时，投入耗费大量的时间、人力和财力。

进一步地，在上述步骤103中，对选取层做基于Min-Max准则的正则约束之前还包括：获取所述Min-Max准则。

具体地，所述获取Min-Max准则包括：

分别获取Min-Max的内在图和惩罚图，所述内在图表征目标流形的内部紧凑性，所述惩罚图表征目标流形之间的间隔；根据所述内在图和惩罚图，运算得到第k层特征的Min-Max准则，所述第k层为所述选取层。

其中，对于给定一个mini-batch的训练样本

样本，样本X_i的第k层特征为

为描述方便，把

拉直成列向量并简写为x₁，如图5所示。

其中，所述第k层特征的Min-Max准则表示为

L(X^(k)，c)＝L₁(X^(k)，c)-L₂(X^(k)，c)

在第k层的特征的集合，

所述内在图的构造方式为：将{x₁，x₂，…，x_n}看成内在图的顶点，每个顶点与和其具有相同标签的k₁个最近邻的顶点通过无向边相连接。

所述惩罚图的构造方式为：将{x₁，x₂，…，x_n}看成惩罚图的顶点，来自不同类流形的边缘顶点对通过无向边相连接。第c类流形的边缘顶点对的定义为第c类流形与其他所有类的流形之间的k₂个最近的顶点对。

根据内在图的构造方式，流形内部的紧凑性可以表示为：

其中，所述否则表示的含义是：

并且

根据惩罚图的构造方式，流形之间的间隔可以表示为：

否则表示的含义是：

并且

其中，

表示内在图中连接顶点x_i和x_j的边的权值，||□||表示向量的l₂范数，

表示所述训练样本X_i的和其具有相同类别标签的k₁个最近邻的顶点的下标标号的集合，

表示惩罚图中连接顶点x_i和x_j的边的权值，

是集合

中k₂个最近邻的顶点对的集合，π_c表示所述mini-batch中属于第c类的样本的下标标号的集合。L₁(X^(k)，c)越小表示流行内部越紧凑，L₂(X^(k)，c)越大表示流形之间的间隔越大。

在上述步骤103中，对选取层做基于Min-Max准则的正则约束运算，并形成第二卷积神经网络模型，所述第二卷积神经网络模型用目标函数表示为：

其中，

为第二卷积神经网络模型的分类损失函数，L(X^(k)，c)为第k层特征的Min-Max准则，λ为大于0的权值系数。实际应用中，针对不同的数据集，λ的值需要进行调节，当λ的值调节好之后，整个训练过程一直保持为恒定不变的值。

进一步地，在上述步骤104中，使用所述训练集对所述第二卷积神经网络模型进行训练包括：

根据第二卷积神经网络模型的目标函数，获取第二卷积神经网络模型关于第k层特征的灵敏度；

按照基于mini-batch的随机梯度下降方法，利用训练集来训练第二卷积神经网络模型，利用预先划分的待分类图像的验证集用来调节学习率等参数。

在用反向传播BP算法，需要计算目标函数关于模型参数的导数，由于直接计算目标函数关于模型参数的导数比较困难，所以需要先计算出目标函数关于各层特征的灵敏度，即损失函数关于相应层特征的导数或梯度，然后根据灵敏度可以求出来关于相应参数的导数。分类损失函数关于第k层的特征的灵敏度可以按照传统神经网络的反向传播算法进行计算。本申请提供的方法只需计算出Min-Max准则关于第k层的特征的梯度即可，不需要计算出目标函数关于各层特征的灵敏度，具体计算过程如下：

根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法，使用所述训练集对所述第二卷积神经网络模型进行训练；其中，所述第k层特征的灵敏度采用如下方式计算得出：

表示内在图中连接顶点x_i和x_j的边的权值，

第k层的特征的灵敏度为从第二卷积神经网络模型的分类损失函数关于第k层特征的梯度加上Min-Max准则关于第k层特征的梯度，然后按照标准的反向传播算法向前进行误差灵敏度反传即可。

通过加入Min-Max准则的目标函数对模型进行训练，可以使训练后的模型满足：属于同一类的图像特征之间间隔较小，属于不同类的图像特征具有较大的间隔，从而有利于图像分类。

可选的，在构造Min-Max准则时，为了进一步提高图像分类的精度，

和

可以使用高斯核函数来定义，即

和

分别表示为：

所述否则的含义可以表示为：

如果

并且

即

如果

并且

此时，当使用高斯核函数来定义

和

时，所对应的Min-Max准则称为核版本的Min-Max准则。

若所述Min-Max准则为核版本的Min-Max准则，那么对选取层做基于Min-Max准则的正则约束运算包括：

获取所述核版本的Min-Max准则关于第k层特征的灵敏度；

根据所述核版本的Min-Max准则关于第k层特征的灵敏度，对所述第k层做基于所述核版本的Min-Max准则的约束运算；

其中，Φ表示矩阵V＝(V_ij)_n×n的拉普拉斯矩阵，

进一步地，使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括：使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。其中，所述模型参数为W，待分类图像的验证集用来调节学习率等参数，所述学习率是训练过程中使用的一个参数(并非模型参数)，这个参数可以通过验证集来调节。

本申请基于对目标识别不变性特征的观察，通过对卷积神经网络的高层特征进行基于Min-Max准则的约束，显式地强迫所学到的特征满足：属于同一类的目标流形有较好的类内紧凑性，属于不同类的目标流形有较大的类间间隔。通过Min-Max准则直接显式地对特征进行约束，从而使得该Min-Max准则从技术上能够保证卷积神经网络学习到尽可能好的不变性特征。

通过Min-Max准则约束，使得改进后的模型的图像分类精度比用传统BP方法训练得到的模型有显著提高，使得一个模型复杂度较小的卷积网络模型的图像分类精度能够达到深度和复杂度更高的卷积神经网络模型的图像分类精度。

在另一个具体的实施例中，为了验证上述方法的有效性，对选择的卷积神经网络模型进行实验验证。

例如，在CIFAR-10数据集上的实验比较结果如下表1所示：

方法	模型参数数量	错误率(％)
Quick-CNN	0.145M	23.47
Quick-CNN+Min-Max	0.145M	18.06
Quick-CNN+k(Min-Max)	0.145M	17.59

表1

在CIFAR-100数据集上的实验比较结果如下表2所示：

方法	模型参数数量	错误率(％)
Quick-CNN	0.15M	55.87
Quick-CNN+Min-Max	0.15M	51.38
Quick-CNN+k(Min-Max)	0.15M	50.83

表2

在SVHN数据集上的实验比较结果如下表3所示：

方法	模型参数数量	错误率(％)
Quick-CNN	0.145M	8.92
Quick-CNN+Min-Max	0.145M	5.42
Quick-CNN+k(Min-Max)	0.145M	4.85

表3

通过以上实验结果和特征可视化可以得出：

相比较于各自的baseline模型，改进后的模型的图像分类精度有非常显著的提高。

改进后的卷积网络模型所学习到的特征图feature map会表现出较好的类内紧凑性和类间分离性，即属于同一类的图像的特征之间的距离较小，属于不同类的图像的特征之间的距离较大，相比于baseline模型，feature map的这种特点表现的非常明显。

本申请提供了方法显式地对卷积神经网络学习到的特征进行Min-Max准则正则约束，避免以往对模型的正则约束都是对模型参数进行约束。并且该Min-Max准则能够用于多种类型的卷积神经网络，由此带来的额外计算代价相对于整个网络的训练是可以忽略的。

此外，本申请还提供了一种图像分类装置，对应于前述图像分类方法的实施例，如图6所示，装置600包括：获取单元601、选取单元602、处理单元603、训练单元604和分类单元605，

获取单元601，用于获取待分类图像的训练集；

选取单元602，用于选择一个多层的卷积神经网络模型；

处理单元603，用于对选取层做基于Min-Max准则的正则约束运算，并形成第二卷积神经网络模型，其中，所述选取层为所述卷积神经网络模型中的一层；优选的，所述选取层为所述卷积神经网络模型中靠近输出的层，即所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。

训练单元604，用于使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；

分类单元605，用于使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。

进一步地，选取单元602还用于：获取一个mini-batch的训练样本；根据所述训练样本和目标函数，确定所述卷积神经网络模型。

其中，所述训练样本表示为

n表示所述mini-batch的大小，X_i表示原始的输入数据，c_i表示X_i的类别标签，且c_i∈{1，2，…，C}，C表示所述训练集的类别总数；

所述目标函数表示为：

进一步地，所述装置还包括：分层单元606，

所述分层单元606，用于按照特征递归的方法对所述卷积神经网络模型划分层级。

其中，所述划层级分后的卷积神经网络模型的每一层特征的递归表示为：

进一步地，所述获取单元601，还用于获取所述Min-Max准则；

所述获取单元601，具体用于分别获取Min-Max的内在图和惩罚图，所述内在图表征目标流形的内部紧凑性，所述惩罚图表征目标流形之间的间隔；根据所述内在图和惩罚图，运算得到第k层特征的Min-Max准则。

其中，所述第k层特征的Min-Max准则表示为

L(X^(k)，c)＝L₁(X^(k)，c)-L₂(X^(k)，c)

在第k层的特征的集合，所述第k层为所述选取层，

进一步地，所述第二卷积神经网络模型用目标函数表示为：

其中，

进一步地，所述训练单元604具体用于：

根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法，使用所述训练集对所述第二卷积神经网络模型进行训练。

其中，所述第k层特征的灵敏度采用如下方式计算得出：

表示内在图中连接顶点x_i和x_j的边的权值，

进一步地，所述Min-Max准则为核版本的Min-Max准则，所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。

若所述Min-Max准则为核版本的Min-Max准则，那么所述处理单元603还用于，

获取所述核版本的Min-Max准则关于第k层特征的灵敏度；

根据所述核版本的Min-Max准则关于第k层特征的灵敏度，对所述第k层做基于所述核版本的Min-Max准则的约束运算。

其中，Φ表示矩阵V＝(V_ij)_n×n的拉普拉斯矩阵，

进一步地，所述分类单元具体用于，使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。

本申请基于对目标识别不变性特征的观察，提出了基于Min-Max准则改进的深度卷积神经网络图像分类装置。通过对卷积神经网络的高层特征进行基于Min-Max准则的约束，显式地(充分表达清楚地)强迫训练所学到的特征满足：属于同一类的目标流形有较好的类内紧凑性，属于不同类的目标流形有较大的类间间隔。

为进一步提高所提方法的有效性，本申请实施例还提出了核版本的Min-Max准则，并在实验中得到了验证。

与采用传统方法训练得到的深度卷积神经网络图像分类系统相比，用本申请提供的方法训练得到的图像分类系统能够显著地提高图像分类精度。相比较于各自的baseline模型，改进后的模型的图像分类精度有非常显著的提高，并且改进后的模型所学习到的feature map会表现出较好的类内紧凑性和类间分离性，即属于同一类的图像的特征之间的距离较小，属于不同类的图像的特征之间的距离较大。

本实施例还提供了一种图像分类设备，如图7所示，所述设备700包括：处理器701和存储器702，

所述处理器701，用于获取待分类图像的训练集；选择一个多层的卷积神经网络模型；对选取层做基于Min-Max准则的正则约束，并形成第二卷积神经网络模型，使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；使用所述第三卷积神经网络模型对待分类图像的测试集进行分类，其中，所述选取层为所述卷积神经网络模型中的一层；

所述存储器702，用于存储所述待分类图像的训练集，所述多层的卷积神经网络模型，所述Min-Max准则和分类后的图像。

进一步地，该图像分类设备中的处理器701还用于执行前述一种图像分类方法实施例的各个步骤，在此不再赘述。

处理器701包括图形处理器(英文：Graphic Processing Unit，缩写：GPU)，还可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器702可以为易失性存储器(volatile memory)，非易失性存储器(non-volatile memory)或其组合。其中，易失性存储器可以是随机存取存储器(random-access memory，RAM)；非易失性存储器可以是只读存储器(read-only memory，ROM)、快闪存储器(flash memory)、硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的保护范围应以权利要求的保护范围为准。

Claims

一种图像分类方法，其特征在于，所述方法包括：

获取待分类图像的训练集；

选择一个多层的卷积神经网络模型；

对选取层做基于最小-最大Min-Max准则的正则约束，并形成第二卷积神经网络模型，其中，所述选取层为所述卷积神经网络模型中的一层；

使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；

使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。
根据权利要求1所述的方法，其特征在于，所述选择一个卷积神经网络模型包括：

获取一个mini-batch的训练样本；

根据所述训练样本和目标函数，确定所述卷积神经网络模型；

其中，所述训练样本表示为
n表示所述mini-batch的大小，X_i表示原始的输入数据，c_i表示X_i的类别标签，且c_i∈{1，2，…，C}，C表示所述训练集的类别总数；

所述目标函数表示为：

W＝(W⁽¹⁾，…，W^(M)；b⁽¹⁾，…，b^(M))，W表示所述卷积神经网络模型的全部参数，l(W，X_i，c_i)表示训练样本的损失函数，M表示所述卷积神经网络模型的总层数，W^(m)表示所述卷积神经网络模型第m层的权重参数，b^(m)表示所述卷积神经网络模型第m层的偏置参数，m∈{1，2，…，M}中的任意一个值。
根据权利要求2所述的方法，其特征在于，所述选择一个卷积神经网络模型之后还包括：

对所述卷积神经网络模型划分层级；

其中，所述划分层级后的卷积神经网络模型的每一层特征的递归表示为：

其中，X_i ^(m)表示所述卷积神经网络模型第m层的特征，*表示卷积运算，f(·)表示非线性激活函数。
根据权利要求1所述的方法，其特征在于，对选取层做基于Min-Max准则的正则约束之前还包括：获取所述Min-Max准则；

所述获取Min-Max准则包括：

分别获取Min-Max的内在图和惩罚图，所述内在图表征目标流形的内部紧凑性，所述惩罚图表征目标流形之间的间隔；

根据所述内在图和惩罚图，运算得到第k层特征的Min-Max准则，所述第k层为所述选取层；

其中，所述第k层特征的Min-Max准则表示为

L(X^(k)，c)＝L₁(X^(k)，c)-L₂(X^(k)，c)

其中，L₁(X^(k)，c)表示所述内在图，L₂(X^(k)，c)表示所述惩罚图；X^(k)表示一个mini-batch的训练样本
在第k层的特征的集合，
表示与所述mini-batch相对应的类别标签集合，i∈{1，2，…，n}。
根据权利要求4所述的方法，其特征在于，所述第二卷积神经网络模型用目标函数表示为：

其中，
为第二卷积神经网络模型的分类损失函数，L(X^(k)，c)为第k层特征的Min-Max准则。
根据权利要求5所述的方法，其特征在于，使用所述训练集对所述第二卷积神经网络模型进行训练包括：

根据第二卷积神经网络模型的目标函数，获取第二卷积神经网络模型关于第k层特征的灵敏度；

根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法，使用所述训练集对所述第二卷积神经网络模型进行训练；

其中，所述第k层特征的灵敏度采用如下方式计算得出：

H表示第k层特征拼成的矩阵，Ψ＝D-G，D＝diag(d₁₁，d₂₂，…，d_nn)，
表示内在图中连接顶点x_i和x_j的边的权值，
表示惩罚图中连接顶点x_i和x_j的边的权值，i＝1，2，…，n，Ψ表示矩阵G＝(G_ij)_n×n的拉普拉斯矩阵，下标(：，i)表示所述矩阵的第i列。
根据权利要求6所述的方法，其特征在于，

所述Min-Max准则为核版本的Min-Max准则，所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成的准则。
根据权利要求7所述的方法，其特征在于，若所述Min-Max准则为核版本的Min-Max准则，那么对选取层做基于Min-Max准则的正则约束运算包括：

获取所述核版本的Min-Max准则关于第k层特征的灵敏度；

根据所述核版本的Min-Max准则关于第k层特征的灵敏度，对所述第k层做基于所述核版本的Min-Max准则的约束运算；

其中，所述核版本的Min-Max准则关于第k层特征的灵敏度表示为：

其中，Φ表示矩阵V＝(V_ij)_n×n的拉普拉斯矩阵，
根据权利要求8所述方法，其特征在于，使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括：

使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。
根据权利要求1至9中任一项所述的方法，其特征在于，所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。
一种图像分类装置，其特征在于，所述装置包括：

获取单元，用于获取待分类图像的训练集；

选取单元，用于选择一个多层的卷积神经网络模型；

处理单元，用于对选取层做基于Min-Max准则的正则约束，并形成第二卷积神经网络模型，其中，所述选取层为所述卷积神经网络模型中的一层；

训练单元，用于使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；

分类单元，用于使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。
根据权利要求10所述的装置，其特征在于，选取单元还用于：

获取一个mini-batch的训练样本；

根据所述训练样本和目标函数，确定所述卷积神经网络模型；

其中，所述训练样本表示为
n表示所述mini-batch的大小，X_i表示原始的输入数据，c_i表示X_i的类别标签，且c_i∈{1，2，…，C}，C表示所述训练集的类别总数；

所述目标函数表示为：

W＝(W⁽¹⁾，…，W^(M)；b⁽¹⁾，…，b^(M))，W表示所述卷积神经网络模型的全部参数，l(W，X_i，c_i)表示训练样本的损失函数，M表示所述卷积神经网络模型的总层数，W^(m)表示所述卷积神经网络模型第m层的权重参数，b^(m)表示所述卷积神经网络模型第m层的偏置参数，m∈{1，2，…，M}中的任意一个值。
根据权利要求12所述的装置，其特征在于，所述装置还包括：分层单元，

所述分层单元，用于对所述卷积神经网络模型划分层级；

其中，所述划分层级后的卷积神经网络模型的每一层特征的递归表示为：

其中，
表示所述卷积神经网络模型第m层的特征，*表示卷积运算，f(·)表示非线性激活函数。
根据权利要求11所述的装置，其特征在于，所述获取单元，还用于获取所述Min-Max准则；

所述获取单元，具体用于分别获取Min-Max的内在图和惩罚图，所述内在图表征目标流形的内部紧凑性，所述惩罚图表征目标流形之间的间隔；

根据所述内在图和惩罚图，运算得到第k层特征的Min-Max准则，所述第k层为所述选取层；

其中，所述第k层特征的Min-Max准则表示为

L(X^(k)，c)＝L₁(X^(k)，c)-L₂(X^(k)，c)

其中，L₁(X^(k)，c)表示所述内在图，L₂(X^(k)，c)表示所述惩罚图；X^(k)表示一个mini-batch的训练样本
在第k层的特征的集合，
表示与所述mini-batch相对应的类别标签集合，i∈{1，2，…，n}。
根据权利要求4所述的装置，其特征在于，所述第二卷积神经网络模型用目标函数表示为：

其中，
为第二卷积神经网络模型的分类损失函数，L(X^(k)，c)为第k层特征的Min-Max准则。
根据权利要求15所述的装置，其特征在于，所述训练单元具体用于：

根据第二卷积神经网络模型的目标函数，获取第二卷积神经网络模型关于第k层特征的灵敏度；

根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法，使用所述训练集对所述第二卷积神经网络模型进行训练；

其中，所述第k层特征的灵敏度采用如下方式计算得出：

H表示第k层特征拼成的矩阵，Ψ＝D-G，D＝diag(d₁₁，d₂₂，…，d_nn)，
表示内在图中连接顶点x_i和x_j的边的权值，
表示惩罚图中连接顶点x_i和x_j的边的权值，i＝1，2，…，n，Ψ表示矩阵G＝(G_ij)_n×n的拉普拉斯矩阵，下标(：，i)表示所述矩阵的第i列。
根据权利要求16所述的装置，其特征在于，所述Min-Max准则为核版本的Min-Max准则，所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。
根据权利要求17所述的装置，其特征在于，若所述Min-Max准则为核版本的Min-Max准则，那么所述处理单元还用于，

获取所述核版本的Min-Max准则关于第k层特征的灵敏度；

根据所述核版本的Min-Max准则关于第k层特征的灵敏度，对所述第k层做基于所述核版本的Min-Max准则的约束运算；

其中，所述核版本的Min-Max准则关于第k层特征的灵敏度表示为：

其中，Φ表示矩阵V＝(V_ij)_n×n的拉普拉斯矩阵，
根据权利要求18所述装置，其特征在于，所述分类单元具体用于，使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。
根据权利要求11至19中任一项所述的装置，其特征在于，所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。
一种图像分类设备，其特征在于，所述设备包括：处理器和存储器，

所述处理器，用于获取待分类图像的训练集；选择一个多层的卷积神经网络模型；对选取层做基于Min-Max准则的正则约束，并形成第二卷积神经网络模型，使用所述训练集对所述第二卷积神经网络模型进行训练，并生成第三卷积神经网络模型；使用所述第三卷积神经网络模型对待分类图像的测试集进行分类，其中，所述选取层为所述卷积神经网络模型中的一层；

所述存储器，用于存储所述待分类图像的训练集，所述多层的卷积神经网络模型，所述Min-Max准则和分类后的图像。