CN104992191B

CN104992191B - 基于深度学习的特征和最大置信路径的图像分类方法

Info

Publication number: CN104992191B
Application number: CN201510438236.8A
Authority: CN
Inventors: 曲延云; 卢畅
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2015-07-23
Filing date: 2015-07-23
Publication date: 2018-01-26
Anticipated expiration: 2035-07-23
Also published as: CN104992191A

Abstract

基于深度学习的特征和最大置信路径的图像分类方法，属于模式识别领域。在一个足够大的图像库上训练卷积神经网络；利用训练好的卷积神经网络模型提取图像特征；计算每个类的均值向量；利用谱聚类算法对代表每一类的均值向量进行迭代聚类，用以构建视觉树；针对树的每个非叶子节点训练svm；对给定的测试图像，自顶向下，判断测试图片到对应子节点的概率，找到路径概率最大的叶子节点即为最终的目标类。利用CNN提取图像特征，具有很好的判别性和鲁棒性；给出了两个类的距离计算公式，通过推导极大地优化了计算复杂性，得到类之间的相似性，从而迭代使用谱聚类算法构建视觉树；利用类之间的视觉关系，对于大型图像分类有很好的效果。

Description

基于深度学习的特征和最大置信路径的图像分类方法

技术领域

本发明属于模式识别领域，尤其是涉及可用于大规模图像分类的基于深度学习的特征和最大置信路径的图像分类方法。

背景技术

在计算机视觉领域，图像分类是一个非常重要，也是一个非常经典的研究问题。然而，随着图像数量增大，图像种类增多，大规模图像分类目前仍然是一个非常具有挑战性的任务。由于图像数量增大，计算量也会增大，需要的时间也会增大，对硬件要求也高，如果仍然采用传统方法训练一个多类分类器来作为最终的分类依据的话，将会出现计算复杂性和准确性等一系列问题。所以有必要设计一套新的分类架构和分类方法。

与传统的图像分类任务相比，大规模的图像分类任务的难点在于：(1)当图像数量和种类增多时，计算量也随之增大，对硬件要求更高。(2)从很多目标类中识别一种目标类比从少量目标类中识别一种目标类难度加大了很多，因为类数量增多时，必然存在一种现象：有些类很相似，有些类差异性很大。这些相似的类严重地影响着分类的准确率。现有的方法主要分为两大类，一类是利用深度学习构建深度卷积神经网络，先构建模型，然后通过大量训练数据调整参数，这类方法需要大量训练数据，计算量大，对编程能力要求高，不能给出类别间的关系，缺少友善的可视化效果，只能给出分类结果；另一类就是构建树形结构，采用层次分类方法，它可以很好可视化分类效果，但由于没有完全利用树结构也就是类之间的关系，即没有给出一个好的打分机制。另外，图片特征维度大，特异性和鲁棒性不够好，导致分类结果不理想。

Ning Zhou and Jianping Fan在文献“Jointly Learning Visually CorrelatedDictionaries for Large-scale Visual Recognition Applications”中提到构建视觉树以及联合字典学习，通过构建视觉树将相似的类聚在一起，不同节点学习不同的字典，以增大图像表示的特异性。然而在进行分类的时候，他们并没有充分利用树节点之间的关系，只是每层选择一个最大的分类结果向后传播，这样只要前面有分类错误，分类就会出错。另外，该方法中学习到的字典特异性也不是很好，最终的准确率与深度卷积神经网络相差很远。因此本发明利用了深度卷积神经网络中特征特异性好的优势，并结合类之间的关系构建了一个好的打分机制，提升了分类准确率。

发明内容

本发明的目的在于针对大型图像分类计算量大和分类准确率低等问题，提供一种基于深度学习的特征和最大置信路径的图像分类方法。

本发明包括以下步骤：

(1)利用在ILSVRC2012图像库预训练卷积神经网络AlexNet。该网络的输入是RGB图像，大小是227*227，该网络由5个卷积层，两个全连接层和一个输出层组成。第一层的结构由卷积层，整流激活层ReLU，以及池化层组成。卷积层参数为(96，11，4，0)表示卷积核有96个，卷积核大小是11*11，步长是4，四元组最后一位0表示保持原图像大小，不补零；卷积后形成的特征图经过ReLU层，得到大小为55*55的特征图共96个，记为55*55*96；池化层采用池化核大小为3*3，步长为2，池化后进行归一化，归一化大小为5。第二层的卷积层参数为(256,5,1,2)；经过ReLu层，进入池化层，池化核为3*3，步长为2，池化后进行归一化，归一化大小为5.第三层卷积的参数为(384,3,1,1)；经过ReLU层后进入第四层。第四层的网络结构与第三层相同。第五层的卷积参数为(256,3,1,1)；经过ReLU层进入池化层，池化核大小为3*3，步长为2。第六层，第七层为全连接层，输出都是4096维的向量。第8层是输出层，是全连接层，输出为1000维向量，表示1000个类别的概率。

(2)对任意大规模图像库，用步骤(1)中训练好的AlexNet提取库中的所有图片特征,用该网络的第七层全连接层的输出表示图像；

(3)用AlexNet提取库中任意一个类C_i，其中样例图像数量为N_i，第l张图像对应的特征为计算第i个类均值向量Q_i，计算第i个类方差

(4)计算每两个类之间的距离，构成一个对称的距离矩阵D；

(5)根据距离矩阵D计算相似矩阵A；

(6)根据相似矩阵A，迭代使用谱聚类算法，构建视觉树T；

(7)对每个簇训练一个支持向量机分类器(SVM)，所有的SVM分类器形成一个有结构的树形分类器；

(8)对任意一张测试图像，依次从树的根节点对应的SVM分类器划分，每一个SVM分类器都会给出一个置信分数，判断该测试图像属于该节点的各个子节点的概率，一直到叶子节点，将叶子节点与根节点间的路径中所经过的节点对应的置信分数相乘，作为路径的置信值，其中根节点处概率设置为1；为了加快速度，在树的每一层都过滤一次，仅保留置信分数排在前K个的节点。

在步骤(3)中，所述类均值向量Q_i的计算公式为

第i个类方差的计算公式为

在步骤(4)中，所述计算每两个类之间的距离的公式为或后一个等式由前一个等式推导出来。

在步骤(5)中，所述相似矩阵A的类间相似性计算公式为取作图像特征的维度。

在步骤(6)中，所述根据相似矩阵A，迭代使用谱聚类算法，构建视觉树T的具体方法可为：首先对所有类别对应的相似矩阵A，使用谱聚类算法，形成K个簇，每个簇里面含有多个相似的类，继续对每个簇对应的相似矩阵使用谱聚类算法，直到满足树的最大深度限制条件或者簇的最小类成员个数限制条件就停止聚类；簇对应树的非叶子节点，由多个目标类组成；树的叶子节点即为目标类。

在步骤(8)中，使用一对多的支持向量机分类器执行以下步骤：

(8.1)SVM进行划分的时候，会给出测试图片到每一层每个节点的置信距离。若在某一层到节点c_i的距离为d,通过logistic函数，可以将该距离映射到0到1的一个概率值上，其计算公式为其中parent(c_i)为直到c_i的父节点的路径；

(8.2)通过一个贝叶斯网络求出测试图像被分到该节点c_i的路径的概率，即是求根节点到该节点所经过的一条路径的概率，计算公式为

P(c_i)＝P(c_i|parent(c_i))*P(parent(c_i)))

其中P(c_i)为直到节点c_i的最终路径概率，P(parent(c_i))为直到c_i的父节点的路径parent(c_i)的概率；

(8.3)为了加快计算速度，避免遍历所有路径，树每层都选取概率最大的前K个中间节点。

本发明利用深度学习的优势，提取卷积神经网络AlexNet最后一个全连接层的输出作为图像特征，并构建视觉树，训练对应的分类器，给出了对应的打分机制。本发明具有如下突出优点：

1.本发明利用卷积神经网络AlexNet提取图像特征，具有很好的判别性和鲁棒性。

2.本发明给出了两个类的距离计算公式，考虑到了每个样本，并通过推导极大地优化了计算复杂性。并进一步得到类之间的相似性，从而迭代使用谱聚类算法构建视觉树。

3.本发明给出了一个高效的打分机制，充分利用了类之间的视觉关系，实验结果显示本发明所使用的方法对于大型图像分类有很好的效果，并且在当前流行的方法中有明显的优势。

附图说明

图1是本发明用卷积神经网络AlexNet提取特征的流程图。

图2是本发明判断测试图片的流程图。

具体实施方式

参考图1和2，本发明的实施步骤包括提取图像特征，构建视觉树并训练对应分类器，和根据本发明提出的打分机制测试图片三个部分。

步骤1，训练一个卷积神经网络AlexNet。

下载一个大的图像库，如ImageNet2012图像分类比赛库，训练一个卷积神经网络AlexNet

步骤2，提取特征

用步骤1训练好的卷积神经网络AlexNet对实验数据库中所有图像提取特征，也就是在该网络的第七层的输出作为图像的特征，用于后面的计算。

步骤3，计算相似矩阵

(3a)计算每个类的均值向量类方差为图片第i类的第l张图片对应的特征。

(3b)利用公式计算每两个类之间的距离，计算所有距离后就可以构造一个对称的距离矩阵，正对角线上的值都是0。

(3c)根据两个类之间的距离计算两个类之间的相似性，计算公式为的选择为图像的特征维度，从而构造一个对称的相似矩阵A。

步骤4，构造视觉树

(4a)通过步骤3得到的相似矩阵，使用谱聚类，将相似的类聚在一起，N个类被聚成K个簇，每个簇由一些相似的类聚在一起；

(4b)判断是否达到停止聚类的条件，即是否达到设定的树的最大高度，簇中类的个数是否小于设定的最小阈值；否则进入(4c)；

(4c)对上次聚类生成的簇，继续使用谱聚类，对应的相似矩阵为A的子矩阵，即由该簇中的类在A中对应的行和列组成；

(4d)重复步骤(4b)和(4c)，完成视觉树的构建。

步骤5，训练分类器。

针对树的每个非叶子节点，训练SVM分类器，用于将测试图像划分到其子节点中，并给出对应的分数。

步骤6，分类。

(6a)对给定的测试图像，丢给视觉树中根节点对应的分类器，进行分类，打分，给出分数最高的k个子节点。

(6b)判断当前k个节点是否为叶子节点，若k个节点都是叶子节点，则停止；否则进入步骤(6c)。

(6c)对新的k个节点中的每个非叶子节点，用其对应的分类器对测试图片打分，将其划分到子节点去，将该分数与其父节点对应的分数相乘，作为该子节点最终分数，再新生成的所有节点中选择分数最高的前k个。

(6d)重复步骤(6b)和(6c)，完成分类，输出k个目标类，以及对应的分数。

本发明通过以下实验进行优点和有效性的证明

1.实验条件：

实验室用台式机参数：3G缓存的Tesla C2050GPU，CPU为16Inter(R)Xeon(R)X5647，主频为2.93GHz，内存为32G，操作系统为Ubuntu12.04 64位系统，实验平台为caffe,python2.7。

实验室用本发明提出的基于卷积神经网络特征和最大置信路径的大型图像分类方法，其中卷积神经网络AlexNet的训练方法见参考文献“Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.”。

1.实验结果以及结果分析：

表1是在ImageNet2010图像分类比赛库上，本发明和当前其它六个流行的方法相比较。结果显示本发明有很大的优势，其中Top1 accuracy表示给出一个分类结果，分类正确的准确率，Top5 accuracy表示给出5个分类结果，其中有一个正确的准确率。

表1

Model	Top-1 accuracy	Top-5 accuracy
			Sparse coding^[1]	52.9％	71.8％
SIFT+FV^[2]	54.3％	74.3％
			JDL+AP Clustering^[3]	38.9％	N/A
Fisher Vector^[4]	45.7％	65.9％
			NEC^[5]	52.9％	71.8％
Visual forest^[6]	41.1％	N/A
			本发明	61.2％	81.7％

参考文献：

[1]Berg,A.,Deng,J.,Fei-Fei,L.:Large scale visual recognitionchallenge 2010.www.image-net.org(2010)。

[2]Sánchez,J.,Perronnin,F.:High-dimensional signature compression forlarge-scale image classification.In:Computer Vision and Pattern Recognition(CVPR),2011 IEEE Conference on,pp.1665-1672.IEEE,(2011)。

[3]Zhou,N.,Fan,J.:Jointly learning visually correlated dictionariesfor large-scale visual recognition applications.Pattern Analysis and MachineIntelligence,IEEE Transactions on 36,715-730(2014)。

[4]Perronnin,F.,Akata,Z.,Harchaoui,Z.,Schmid,C.:Towards good practicein large-scale learning for image classification.In:Computer Vision andPattern Recognition(CVPR),2012IEEE Conference on,pp.3482-3489.IEEE,(2012)。

[5]Lin,Y.,Lv,F.,Zhu,S.,Yang,M.,Cour,T.,Yu,K.,Cao,L.,Huang,T.:Large-scale image classification:fast feature extraction and svm training.In:Computer Vision and Pattern Recognition(CVPR),2011IEEE Conference on,pp.1689-1696.IEEE,(2011)。

[6]Fan,J.,Zhang,J.,Mei,K.,Peng,J.,Gao,L.:Cost-sensitive learning ofhierarchical tree classifiers for large-scale image classification and novelcategory detection.Pattern Recognition(2014)。

本发明主要解决了大规模图像分类问题中由于图像类别多，数据量大导致的分类准确率低和计算复杂性大的问题。本发明主要步骤是：1)在一个足够大的图像库上训练卷积神经网络。2)利用训练好的卷积神经网络模型提取图像特征。3)计算每个类的均值向量。4)利用谱聚类算法对代表每一类的均值向量进行迭代聚类，用以构建视觉树。5)针对树的每个非叶子节点训练svm。6)对给定的测试图像，自顶向下，判断测试图片到对应子节点的概率，找到路径概率最大的叶子节点即为最终的目标类。本发明可以用于大规模图像分类。

Claims

1.基于深度学习的特征和最大置信路径的图像分类方法，其特征在于包括以下步骤：

(1)利用在ILSVRC2012图像库预训练卷积神经网络AlexNet，该网络的输入是RGB图像，大小是227×227，该网络由5个卷积层、两个全连接层和一个输出层组成，第一层的结构由卷积层、整流激活层ReLU以及池化层组成；卷积层参数为(96，11，4，0)表示卷积核有96个，卷积核大小是11×11，步长是4，四元组最后一位0表示保持原图像大小，不补零；卷积后形成的特征图经过ReLU层，得到大小为55×55的特征图共96个，记为55×55×96；池化层采用池化核大小为3×3，步长为2，池化后进行归一化，归一化大小为5；第二层的卷积层参数为(256,5,1,2)；经过ReLU 层，进入池化层，池化核为3×3，步长为2，池化后进行归一化，归一化大小为5；第三层卷积的参数为(384,3,1,1)；经过ReLU层后进入第四层；第四层的网络结构与第三层相同；第五层的卷积参数为(256,3,1,1)；经过ReLU层进入池化层，池化核大小为3×3，步长为2；第六层、第七层为全连接层，输出都是4096维的向量；第8层是输出层，是全连接层，输出为1000维向量，表示1000个类别的概率；

(2)对任意大规模图像库，用步骤(1)中训练好的AlexNet提取库中的所有图片特征,用该网络的第七层的全连接层输出表示图像；

(3)用AlexNet提取库中任意一个类C_i，其中样例图像数量为N_i，第l张图像对应的特征为I_l ⁱ,计算第i个类均值向量Q_i，计算第i个类方差σ_i ²；

(4)计算每两个类之间的距离，构成一个对称的距离矩阵D；

(5)根据距离矩阵D计算相似矩阵A；

(6)根据相似矩阵A，迭代使用谱聚类算法，构建视觉树T；

(7)对每个簇训练一个支持向量机分类器，所有的SVM分类器形成一个有结构的树形分类器；

(8)对任意一张测试图像，依次从树的根节点对应的SVM分类器划分，每一个SVM分类器都会给出一个置信分数，判断该测试图像属于该节点的各个子节点的概率，一直到叶子节点，将叶子节点与根节点间的路径中所经过的节点对应的置信分数相乘，作为路径的置信值，其中根节点处概率设置为1；为了加快速度，在树的每一层仅保留置信分数排在前K个的节点。

2.如权利要求1所述基于深度学习的特征和最大置信路径的图像分类方法，其特征在于在步骤(3)中，所述类均值向量Q_i的计算公式为：

第i个类方差的计算公式为：

3.如权利要求2所述基于深度学习的特征和最大置信路径的图像分类方法，其特征在于在步骤(4)中，所述计算每两个类之间的距离的公式为或后一个等式由前一个等式推导出来。

4.如权利要求3所述基于深度学习的特征和最大置信路径的图像分类方法，其特征在于在步骤(5)中，所述相似矩阵A的类间相似性计算公式为取作图像的特征维度。

5.如权利要求4所述基于深度学习的特征和最大置信路径的图像分类方法，其特征在于在步骤(6)中，所述根据相似矩阵A，迭代使用谱聚类算法，构建视觉树T的具体方法为：首先对所有类别对应的相似矩阵A，使用谱聚类算法，形成K个簇，每个簇里面含有多个相似的类，继续对每个簇对应的相似矩阵使用谱聚类算法，直到满足树的最大深度限制条件或者簇的最小类成员个数限制条件就停止聚类；簇对应树的非叶子节点，由多个目标类组成；树的叶子节点即为目标类。

6.如权利要求5所述基于深度学习的特征和最大置信路径的图像分类方法，其特征在于在步骤(8)中，使用的一对多的支持向量机分类器执行以下步骤：

(8.1)SVM进行划分的时候，会给出测试图片到每一层每个节点的置信距离，若在某一层到节点c_i的距离为d,通过logistic函数，将该距离映射到0到1的一个概率值上，其计算公式为：

其中，parent(c_i)为直到c_i的父节点的路径；

(8.2)通过一个贝叶斯网络求出测试图像被分到该节点c_i的路径的概率，即是求根节点到该节点所经过的一条路径的概率，计算公式为：

P(c_i)＝P(c_i|parent(c_i))*P(parent(c_i)))

其中，P(c_i)为直到节点c_i的最终路径概率，P(parent(c_i))为直到c_i的父节点的路径parent(c_i)的概率；