CN103345656A

CN103345656A - 一种基于多任务深度神经网络的数据识别方法及装置

Info

Publication number: CN103345656A
Application number: CN2013103162215A
Authority: CN
Inventors: 谭铁牛; 王亮; 王威; 黄岩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2013-10-09
Anticipated expiration: 2033-07-17
Also published as: CN103345656B

Abstract

本发明公开了一种基于多任务深度神经网络的数据识别方法及其装置。该方法包括：步骤1、建立多任务深度神经网络；步骤2、将所述多任务深度神经网络相邻两层看作限制的波尔兹曼机，采用无监督地自底向上的逐层训练方法来预训练该多任务深度神经网络，获得相邻层之间的初始连接权重；步骤3、利用反向传播算法有监督地最小化关于所述网络权重的目标函数，以获得优化后的网络权重；步骤4、将待识别数据输入具有优化后网络权重的所述多任务深度神经网络，得到输出层节点值，并根据输出层节点值得出所述待识别数据所属的类别。本方法利用神经网络来挖掘不同标签之间的关联性，在标签数量较多的大规模图像标注中仍然可以保证较高的图像标注准确率。

Description

一种基于多任务深度神经网络的数据识别方法及装置

技术领域

本发明涉及模式识别与机器学习领域，特别涉及一种基于多任务深度神经网络的数据识别方法及其装置。

背景技术

多标签学习问题广泛存在于现实生活的各个方面。例如，在文本分类中，一个文本可能包含多个主题：健康，医疗和基因。在自然场景分类中，每个场景可能包含多个类别：天空，沙滩和海洋。多标签学习要求我们对每个文本或者图像分配相应的多个标签。

传统的二类和多类分类问题是多标签学习的特例，即单标签学习问题。然而相对于把单个标签分配给一个事例，同时分配多个标签将不可避免的增加了解决问题的难度。传统的解决方法是通过分别学习单标签来解决多标签学习问题。然而这种独立学习各个标签的方法没有考虑不同标签之间的关联性，从而降低了模型的表达能力。

发明内容

本发明的目的是提供一种基于多任务深度神经网络的数据识别方法及装置。为了对标签之间的关联性进行建模，本发明把单标签学习看成一个任务，通过推广传统的神经网络从多任务学习的角度来解决多标签学习。

根据本发明的一方面，本发明提出了一种基于多任务深度神经网络的数据识别方法，包括步骤：

步骤1、建立多任务深度神经网络，其中所述多任务深度神经网络为多层网络结构，输入层对应数据向量，输出层每两个节点对应一个类别标签，以用于表示是否属于该类别标签；该多任务深度神经网络具有网络权重，用于根据当前层节点值获得下一层节点值；

步骤2、将所述多任务深度神经网络相邻两层看作限制的波尔兹曼机，采用无监督地自底向上的逐层训练方法来预训练该多任务深度神经网络，获得相邻层之间的初始连接权重；

步骤3、利用反向传播算法有监督地最小化关于所述网络权重的目标函数，以获得优化后的网络权重；

步骤4、将待识别数据输入具有优化后网络权重的所述多任务深度神经网络，得到输出层节点值，并根据输出层节点值得出所述待识别数据所属的类别。

根据本发明的另一方面，本发明还提出了一种基于多任务深度神经网络的数据识别装置，其包括：

网络建立模块，其用于建立多任务深度神经网络，其中所述多任务深度神经网络为多层网络结构，输入层对应输入数据向量，输出层每两个节点对应一个类别标签，以用于表示是否属于该类别标签；该多任务深度神经网络具有网络权重，用于根据当前层节点值获得下一层节点值；

网络权重初始模块，其用于将所述多任务深度神经网络相邻两层看作限制的波尔兹曼机，采用无监督地自底向上的逐层训练方法来预训练该多任务深度神经网络，获得相邻层之间的初始连接权重；

网络权重优化模块，其用于利用反向传播算法有监督地最小化关于所述网络权重的目标函数，以获得优化后的网络权重；

数据识别模块，其用于将待识别数据输入具有优化后网络权重的所述多任务深度神经网络，得到输出层节点值，并根据输出层节点值得出所述待识别数据所属的类别。

由于本发明通过推广神经网络适以多任务学习方式来解决标签学习，从而可以对不同标签之间的关系进行建模。同时在初始化网络权重阶段，还可以利用大量无类别标签的图像作为训练数据。

附图说明

图1是本发明中基于多任务深度神经网络的数据识别方法基本流程图。

图2是利用本发明的方案解决图像多类标注问题的具体模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出一种基于多任务深度神经网络的数据识别方法，能够广泛地应用于多类别标注问题。

图1示出了本发明提出的基于多任务深度神经网络的数据识别方法的步骤流程图。如图1所示，该方法包括：

步骤1、建立多任务深度神经网络，设置网络的层数和节点数；其中所述多任务深度神经网络为多层网络结构，输入层可以为对应图像的像素点，这里要求所有输入图像保持相同的大小；此处输入层不仅限于图像，还包括文本和语音等可以表示为列向量的数据；输出层每两个节点对应一个类别标签，以用于表示是否属于该类别标签；该多任务深度神经网络具有网络权重，用于根据当前层节点值获得下一层节点值。深度神经网络的输入层和输出层的结点数是固定的，但是其各隐含层的结点数需要手工调节以使得该模型效果最优。

图2示出了本发明中所使用的多任务深度神经网络图。如图2所示，这是一个四层的多任务深度神经网络，每层中的圆形点表示网络结点。最底层图像代表输入层，当输入层输入的是一个d₀维的图像列向量其每一维度用一个结点表示，其取值范围为0到1的实数，对应归一化后的输入图像。对于中间分别包含d₁、d₂和d₃个结点的三个隐含层和最后包含c个结点的输出层，则分别得到d₁、d₂、d₃和c维的四个列向量，相应的值分别由该层前一层的向量值计算得到：

其中g(x)＝1/(1+e^-x)，

和分别是网络层与层之间的连接权重。

步骤2、在多层神经网络的输出层上，分别对每个类别标签l定义一对输出结点，包括一个正结点c_l和一个负结点

分别对应“属于类别l”和“不属于类别l”。因此，网络输出层的结点数量为标签总数量的2倍。当给定一幅图像v，输出关于类别标签l的正负结点值分别为：

和

而网络的输出列向量O即包含所有类别标签对应的正负结点值：

O = g (W_{4}^{T} g (W_{3}^{T} g (W_{2}^{T} g (W_{1}^{T} v))))

式中

是网络的权重。

步骤3、分别把相邻的两层结构看作一个限制的波尔兹曼机(restrictedBoltzmann machine，RBM)，采用无监督地自底向上的逐层训练方法来预训练该神经网络，从而对网络权重进行初始化。以图2最下面两层网络为例进行说明，把输入层图像v和第一隐含层h当作一个限制的波尔兹曼机，其能量函数F(v，h)定义为：

F(v，h)＝-v^TW₁h-b₁v-b₂h

其中W₁表示输入层结点与隐含层结点之间的连接权重，b₁和b₂分别表示输入层和隐含层各结点的常数偏置项。在能量函数的基础上可以得到输入层图像v的概率分布P(v)：

P (v) = Σ_{h} \frac{1}{Σ_{v, h} \exp (- F (v, h))} \exp (- F (v, h))

利用梯度下降算法来最小化-logP(v)，从而以迭代的方式对W进行调整：

W_{1} &LeftArrow; W_{1} - &Element; \frac{&PartialD; l (v)}{&PartialD; W_{1}}

对上式中的

的具体简化求解方式，可以参考Hinton等人2006年发表在Neural Computation上的文章“A fast learning algorithm fordeep belief nets”，∈表示一个常数学习率。迭代地使用

来调整深度神经网络最底两层之间的连接权重W₁，进而把调整后的结果当做对W₁的初始化。自底向上，分别把网络中其余相邻的两层看作RBM并初始化其相应的权重，直至完成对网络中其他权重的初始化。

步骤4、定义该深度神经网络的目标函数，并利用反向传播算法(BackPropagation，在Rumelhart等人1986年发表在Nature上的文章″Learningrepresentations by back-propagating errors″中有具体介绍)有监督地最小化该目标函数，从而进一步优化深度神经网络的网络权重。网络的目标函数E定义为输入数据的真实标签与多任务深度神经网络预测的标签之间的交叉熵：

E = \underset{l}{Σ} - [q_{l} \log p_{l} + (1 - q_{l}) \log (1 - p_{l})]

其中q_l是一个0或者1的二值数，表示输入数据v的是否真实的含有类别标签l，当其取值为0时表示没有，1表示有。p_l表示多层神经网络模型预测的数据v含有类别标签l的概率，其值是由网络输出层中与类别标签l相关的正负结点的值

和

计算的：

p_{l} = \frac{\exp (O_{c_{l}})}{\exp (O_{c_{l}}) + \exp (O_{c_{\overset{&OverBar;}{l}}})}

步骤5、对网络权重分别无监督初始化和有监督优化后，得到最终的多任务深度神经网络模型。向模型输入待识别图像v，模型会输出对应每个类别标签l的正负结点的值

和

通过比较两个结点值的相对大小即可判定图像v是否属于类别标签l，即如果

那么数据v属于l类别；反之则不属于。

为了详细说明本发明的具体实施方式，以某图像数据集为例说明。该数据集包含30000张日常生活中的图像，总共属于31个类别，包括船、天空、飞机、太阳和马等。每张图像根据其图像内容分别属于多个类别。实现的模型可以自动对这些图像进行多类别标注。具体步骤如下：

步骤S1，将数据集中的15000个图像作为训练集，剩下的15000个图像作为测试集。

步骤S2，使用一个四层的基于多任务深度神经网络多标签学习模型，其输入层、三个隐含层和输出层分别包含634、3000、3000、4000和62个结点。

步骤S3，将图像训练集随机划分为150个子集，每个子集包含100个图像。对于每张图像，将其按照像素的顺序拉伸为一个列向量作为深度神经网络的输入。

步骤S4，在每个子集上，分别把两层结构634-3000、3000-3000和3000-4000当作限制的玻尔兹曼机来初始化权重，其这些不同的子集训练的是同一组网络权重。

步骤S5，通过最小化深度神经网络目标函数，利用传统的神经网络反向传播算法来优化网络的权重。由于反向传播算法是以迭代优化的方式进行的，这里设置最大迭代次数为300可以保证收敛。

步骤S6，把测试图像输入训练好的模型，输出图像各个类别标签相应的正负结点数值，比较每两个结点值的相对大小来确定测试图像是否属于相应的类别。最终确定对测试图像分配哪些类别标签。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务深度神经网络的数据识别方法，包括步骤：

2.如权利要求1所述的数据识别方法，其特征在于，步骤1中除输入层的其它层节点值如下获得：

h_{i} = g (W_{i}^{T} h_{i - 1})

其中，h_i表示第i层的节点值向量，W_i表示第i层与其前一层的连接权重，h_i-1表示第i-1层的节点值向量，i为大于等于1的整数，h₀表示输入层数据向量；g(x)＝1/(1+e^-x)。

3.如权利要求1所述的数据识别方法，其特征在于，步骤2中将相邻两层看作一个限制的波尔兹曼机，求解初始连接权重，具体如下表示：

W_{i} &LeftArrow; W_{i} - &Element; \frac{&PartialD; \log P (h_{i})}{&PartialD; W_{i}}

其中，W_i表示第i层与其前一层的连接权重，h_i表示第i层的节点值向量，∈为常数，P(h_i)表示第i层数据的概率分布，i为大于等于1的整数。

4.如权利要求3所述的数据识别方法，其特征在于，各层数据的概率分布如下计算：

P (h_{i - 1}) = Σ_{h_{i - 1}} \frac{1}{Σ_{h_{i - 1}, h_{i}} \exp (- F (h_{i - 1}, h_{i}))} \exp (- F (h_{i - 1}, h_{i}))

其中，h₀表示输入层数据向量；F(h_i-1，h_i)表示第i-1层与第i层之间的能量函数，如下表示：

F(h_i-1，h_i)＝-h_i-1 ^TW_ih_i-b_i-1h_i-1-c_ih_i

其中，b_i-1和c_i分别表示第i-1层和第i层各节点的偏置项。

5.如权利要求1所述的数据识别方法，其特征在于，步骤3中关于所述网络权重的目标函数定义为输入数据的真实标签类别与所述多任务深度神经网络预测的标签类别之间的交叉熵。

6.如权利要求5所述的数据识别方法，其特征在于，所述交叉熵如下表示：

E = \underset{l}{Σ} - [q_{l} \log p_{l} + (1 - q_{l}) \log (1 - p_{l})]

其中，q_l是一个0或者1的二值数，表示输入的数据是否含有真实类别标签l，p_l表示所述多任务深度神经网络所预测的数据含有类别标签l的概率。

7.如权利要求6所述的数据识别方法，其特征在于，p_l如下计算：

p_{l} = \frac{\exp (O_{c_{l}})}{\exp (O_{c_{l}}) + \exp (O_{c_{\overset{&OverBar;}{l}}})}

其中，所述

和

表示所述多任务深度神经网络输出层中对应类别标签l的两个节点值。

8.如权利要求1所述的数据识别方法，其特征在于，步骤4中，通过比较对应一个类别标签的两个节点值相对大小，判别待识别数据是否属于该类别标签。

9.如权利要求1所述的数据识别方法，其特征在于，步骤3中采用自顶向下有监督的方式优化所述网络权重。

10.一种基于多任务深度神经网络的数据识别装置，其包括：