CN106919951A

CN106919951A - 一种基于点击与视觉融合的弱监督双线性深度学习方法

Info

Publication number: CN106919951A
Application number: CN201710059373.XA
Authority: CN
Inventors: 俞俊; 谭敏; 郑光剑
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2017-07-04
Anticipated expiration: 2037-01-24
Also published as: CN106919951B

Abstract

本发明公开了一种基于点击与视觉融合的弱监督双线性深度学习方法。本发明包括如下步骤：1、从点击数据集中提取每幅图像的文本构成的点击特征，并通过合并语义相近的文本，在合并后的文本空间下构建新的低维紧凑的点击特征；2、点击与视觉特征融合的深度模型构建；3、BP学习网络模型参数；4、计算每一个训练样本的模型预测损失，并构造样本集的相似度矩阵，同时利用样本损失和相似度矩阵学习样本可靠性，利用可靠性给样本加权；5、重复步骤3和4，迭代地优化神经网络模型和样本权重，从而训练整个网络模型直到收敛。本发明融合了点击数据和视觉特征从而构造了新的双线性卷积神经网络框架，能用来更好的对细粒度图像进行识别。

Description

一种基于点击与视觉融合的弱监督双线性深度学习方法

技术领域

本发明涉及细粒度图像分类方法，尤其涉及一种基于点击与视觉融合的弱监督双线性深度学习方法。

背景技术

细粒度分类(Fine-Grained Visual Categorization,FGVC)作为一个研究方向，是目标识别的一个子问题。它是对同一类型的物体中不同的子类进行区别，所涉及的目标从大体外观上而言都是极其相似的，需要有一定的相关先验知识才能对其区分，对于没有经验的人来说，做到这一点实属不易，而让计算机能够自动进行分类就更是充满挑战性。

在对于细粒度图像识别的研究任务中，马萨诸塞大学Tsung-Yu Lin等人提出了一种双线性卷积神经网络模型(Bilinear Convolution neutral networks，BCNN)，通过将其应用于对细粒度图像识别的任务中，发现取得了非常好的效果。这种模型是基于近年来颇为热门的深度学习的内容，由两个不同的CNN网络框架组成，通过对一副图像进行不同的卷积得到两个不同表达性质的特征，并用外积相结合得到一个更具有表征能力的特征向量，从而实现了更好的针对细粒度图像的识别效果。

尽管从目前的现有技术来看，BCNN被证明了是在细粒度图像识别方面非常有效的一个模型，但是它在对利用图像的语义信息方面仍然有所不足。因此，设计出一种有效的语义特征就十分迫切。许多研究者希望能通过人工标注属性的方法来弥补这一点，然而这种手段由于人工成本过大而显得缺乏前景。为了解决这一问题，微软发布了一种新的大规模点击数据集Clickture。这个由微软发布的点击数据集来自于商业搜索引擎的记录，它由三部分组成：查询文本、被点击图片、相应的点击量。这三者共同表达了用户对于查询文本和图片之间相关关系，且点击量量化了相应的图片和文本之间的关联程度。有了这个点击数据的帮助，图像就可以用每个查询文本作为属性，得到跟语义信息相关的特征，而点击量则表示特征对应每一维度(即属性)的值。

点击数据集作为从网上搜集来的数据，数据量大、人工成本小，且具有较好的表达语义信息的能力。由BCNN提取的视觉特征为主体搭配上点击数据带来的语义特征，对促进细粒度图像分类的效果具有一定的可行性，是值得研究的。此外，点击数据作为目前科研的热门方向，合理的使用也使得本发明具有一定的前沿性和创新性。

发明内容

本发明提供了一种基于点击与视觉融合的弱监督双线性深度学习方法，该方法融合了点击数据和视觉特征从而构造了新的双线性卷积神经网络框架，能用来更好的对细粒度图像进行识别。

一种基于点击与视觉融合的弱监督双线性深度学习方法，其步骤如下：

步骤(1)、点击数据预处理：

从点击数据集中提取每幅图像的文本构成的点击特征，并通过合并语义相近的文本，在合并后的文本空间下构建新的低维紧凑的点击特征；

步骤(2)、点击与视觉特征融合的深度模型构建：

对样本基于可靠性加权，构建一个带权重的三通道深度神经网络模型，其中两个通道提取图像视觉特征，第三通道处理步骤1的点击特征。将视觉与点击特征通过特征连接层进行融合；

步骤(3)、BP学习网络模型参数：

通过反向传播算法对步骤(2)中神经网络的网络模型参数进行训练，直至整个网络模型收敛。

步骤(4)、学习样本可靠性：

根据步骤(2)的神经网络模型，计算每一个训练样本的模型预测损失，并构造样本集的相似度矩阵，同时利用样本损失和相似度矩阵学习样本可靠性，利用可靠性给样本加权；

步骤(5)、模型训练：

重复步骤3和4，迭代地优化神经网络模型和样本权重，从而训练整个网络模型直到收敛。

步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并，具体如下：

1-1.从点击数据集中提取出图像i对应的文本构成点击特征其具体公式如下：

其中c_i,j是图像i和文本j对应的点击量。

1-2.为了得到短而紧凑的特征向量，对点击特征降维从而减小计算量并解决文本语义重复等问题，利用了K均值聚类的方法间接的对文本进行聚类，从而得到了一个文本聚类的索引并将同一类的文本的点击量相加，得到新的点击特征u_i，具体如公式2所示：

其中表示第j个文本类。

步骤(2)所述的构建一个点击与视觉特征融合的深度模型，将视觉特征和点击特征连接在一起，具体如下：

2-1.构建一个三通道的网络框架结构W-C-BCNN，其中前两通道采用双线性卷积神经网络提取图像的视觉特征z_i，第三通道提取步骤(1)中得到的对应图像的点击特征u_i；然后将提取的视觉特征和点击特征通过连接层拼接起来，输出一个同时具有视觉和语义表达能力的特征o_i，具体如公式3所示：

o_i＝(z_i,μu_i)＝(z_i,1,z_i,2,…,μu_i,1,μu_i,2,…)(公式3)

其中μ表示权重参数。

2-2.给定n个训练数据其中y_i∈[1,2,...,N]表示每个数据的类别标签，通过解决弱监督双线性深度学习问题得到网络模型参数θ和样本可靠性变量w^*，从而训练整个网络模型直至收敛，具体如公式4所示：

其中，权重w^*表示优化后得到训练样本可靠性，w表示优化前的权重，特别地，当权重始终为1时，我们称该网络框架为C-BCNN，由于权重是在不断迭代优化中学习得到的，所以我们称之为弱监督学习问题；P(w)为权重先验项，是基于点击数据的点击量来建模估计的，具体如公式5所示：

其中是归一化后的点击向量；T(·)是一种尺度变换的目标函数，控制w^c尺度范围的对数变换函数，用于处理图片的点击数不平衡的情况；S(G,w)为平滑项，是根据图像视觉的一致性的假设(即视觉特征接近则权重接近)，从而对图像进行正则化处理，具体如公式6所示：

其中g_i,j表示样本相似度矩阵G中的值，该图是利用深度视觉特征z的相似度来计算和构建的。

步骤(3)所述的利用反向传播算法训练网络模型参数直至收敛，具体如下：

3-1利用反向传播算法训练得到模型参数θ，让作为损失函数对输入的梯度，则根据链式法则可以得到关于两个深度网络A和B的反向传播公式，具体如公式7所示：

其中,

步骤(4)所述的利用样本损失和相似度矩阵学习样本的可靠性变量w^*，具体如下：

4-1.通过将数据输入到基于步骤(2)构建的网络中计算，提取其中任意一个训练样本i的softmax损失值

4-2.通过固定θ，将公式4转化为求解如下二次规划的最优化问题，学习得到样本可靠性参数，其具体如公式8所示：

其中I表示单位向量，E表示单位矩阵，L_lap表示G的拉普拉斯矩阵，具体定义如公式9所示：

步骤(5)所述的迭代地优化模型参数和样本权重直至收敛，其具体过程如下：

5-1.依据弱监督学习问题，通过控制变量的方式分两步迭代地优化步骤3和4，从而训练整个网络模型直至收敛：1)固定每个权重w_i，通过解决W-C-BCNN的问题学习得到网络模型参数θ；2)固定每个θ，将公式4转化为二次规划，学习得到样本可靠性变量w^*。

本发明有益效果：

本发明融合了点击数据和视觉特征从而构造了双线性卷积神经网络框架，改善了以往单一视觉特征用于识别图像的缺陷，不仅能通过同时捕捉图像的视觉和语义信息得到更具有表征能力的特征，还能基于数据样本的可靠性自动的对训练数据加权，改善了细粒度图像识别的效果；此外，点击数据作为目前的研究热点，合理的使用也使得本发明更具有科研前沿性和创新性。

附图说明

图1是本发明方法的具体流程示意图。

图2是本发明方法中构造的网络框架示意图。

图3是本发明方法的网络模型训练示意图。

具体实施方式

下面结合附图对本发明做进一步具体说明。

如图1所示，一种基于点击与视觉融合的弱监督双线性深度学习方法，具体包括如下步骤：

1-1.为了满足实验需求，我们从微软提供的点击数据集Clickture中单独提出所有和狗相关的样本，组成一个新的数据集Clickture-Dog。该数据集有344类狗的图片，我们过滤图片数少于5张的种类，最后得到283组图片。然后，对该数据集以5∶3∶2的形式分割成训练、验证、测试。为了改善训练时每类图片数量的不平衡，我们将选择大于300张的类，从中随机选取仅300张用来训练。

1-2.从点击数据集Clickture-Dog中提取出图像i对应的文本构成点击特征具体如公式1所示，其长度为48万维。

1-3.为了得到短而紧凑的特征向量，对点击特征降维从而减小计算量并解决文本语义重复等问题，利用了K均值聚类的方法间接的对文本进行聚类，从而得到了一个文本聚类的索引并将同一类的文本的点击量相加，得到新的点击特征，其具体如公式2所示，最后得到点击特征长度为4318维。

2-1.构建一个三通道的网络框架结构W-C-BCNN，如图2所示，其中前两通道采用双线性卷积神经网络提取图像的视觉特征z_i，两条通道分别采用了VGG-M和VGG-16，得到的视觉特征长度为512*512维，第三通道提取步骤(1)中得到的对应图像的点击特征u_i；然后将提取的视觉特征和点击特征通过连接层拼接起来，具体如公式3所示；其中针对公式中的μ设为1，在网络特征连接层之后再增加一层dropout层，其参数值设为0.1，即保留0.1的值。

2-2.针对给定的n个训练数据其中y_i∈[1,2,...,N]表示每个数据的类别标签，通过解决弱监督学习问题得到网络模型参数θ和样本可靠性变量w^*，具体如公式4。当权重w^*始终设为1时，我们实验得到C-BCNN的网络效果；当权重w^*初始设为1，随着迭代优化不断学习得到时，我们实验得到W-C-BCNN的网络效果。

2-3.针对公式4中的α和β，我们选取了一系列具体的参数值，其中α∈(0.01,0.1,1,10)、β∈(0.001,0.01,0.1,1,10)，实验得知效果最好的一组是α＝0.1、β＝1。

2-4.针对公式6中的相似度矩阵G，是根据深度视觉特征z的相似度来计算和构建的，该深度视觉特征有VGG网络提取得到。

3-1.如图3所示，利用反向传播算法训练得到模型参数θ，让作为损失函数对输入的梯度，则根据链式法则可以得到关于两个深度网络A和B的反向传播公式，具体如公式6所示。

4-2.通过固定θ，将公式4转化为求解二次规划的最优化问题，学习得到样本可靠性参数，其具体如公式8所示，针对公式9中G可以由公式6计算得到。

5-1.依据弱监督学习问题，通过控制变量的方式分两步迭代地优化步骤3和4，从而训练整个网络模型直至收敛：1)固定每个权重w_i，通过解决W-C-BCNN的问题学习得到网络模型参数θ；2)固定每个θ，将公式3转化为二次规划，学习得到样本可靠性变量w^*。

5-2.测试网络模型：针对学到的权重向量，为了控制其范围，对学习得到的权重设定一个阈值(实验中设为2)，将权重超过阈值的部分平均分配给对应的项。我们对通过这种方法实现的效果和其他方法进行了对比，得到的结果如表2所示。另外为了提高计算效益，我们采用了maxpooling的方法缩短视觉特征的维度到4096维，然后统一在此标准下进行了识别准确度的比较。

表1是C-BCNN与BCNN的识别准确度比较，以及改善的比例。

表2是C-BCNN与W-C-BCNN之间的识别准确度比较，展示了在对权重的不同处理下的效果，其中W-C-BCNN(T)是控制了权重向量范围的方法，W-C-BCNN是不控制范围的方法。

Claims

1.一种基于点击与视觉融合的弱监督双线性深度学习方法，其特征在于包括如下步骤：

步骤(1)、点击数据预处理：

步骤(2)、点击与视觉特征融合的深度模型构建：

对样本基于可靠性加权，构建一个带权重的三通道深度神经网络模型，其中两个通道提取图像视觉特征，第三通道处理步骤1的点击特征；将视觉与点击特征通过特征连接层进行融合；

步骤(3)、BP学习模型参数：

通过反向传播算法对步骤(2)中神经网络的网络模型参数进行训练，直至整个网络模型收敛；

步骤(4)、学习样本可靠性：

步骤(5)、模型训练：

2.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法，其特征在于步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并，具体如下：

其中c_i,j是图像i和文本j对应的点击量；

其中表示第j个文本类。

3.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法，其特征在于步骤(2)所述的构建一个点击与视觉特征融合的深度模型，将视觉特征和点击特征连接在一起，具体如下：

o_i＝(z_i,μu_i)＝(z_i,1,z_i,2,…,μu_i,1,μu_i,2,…) (公式3)

其中μ表示权重参数；

4.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法，其特征在于步骤(3)所述的利用反向传播算法训练网络模型参数直至收敛，具体如下：

其中,

5.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法，其特征在于步骤(4)所述的利用样本损失和相似度矩阵学习样本的可靠性变量w^*，具体如下：

6.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法，其特征在于步骤(5)所述的迭代地优化模型参数和样本权重直至收敛，其具体过程如下：