CN109522938A

CN109522938A - 一种基于深度学习的图像中目标的识别方法

Info

Publication number: CN109522938A
Application number: CN201811255139.5A
Authority: CN
Inventors: 刘荣; 余卫宇
Original assignee: Guangzhou Feeyy Intelligent Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Feeyy Intelligent Technology Co ltd; South China University of Technology SCUT
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-26

Abstract

本发明公开了一种基于深度学习的图像中目标的识别方法，步骤如下：输入一张图像，使用卷积神经网络进行候选区域的提取，对输出的候选区域进行过滤优化操作，同时对每个候选区域进行归一化处理，将候选区域输入卷积神经网络进行特征提取，使用训练好的分类回归网络进行目标图像的分类和定位和检测，最后对选取的目标区域进行边框回归操作以修正目标区域的位置。本方法采用卷积神经网络来对图像中可能包含目标的区域进行提取，减少了候选目标区的数量，同时对卷积神经网路的输出目标候选区域执行优化过滤操作，提高了算法的计算速度。另外，对目标检测的候选区域采用多样的长宽比例和区域大小，更贴近现实场景，提高了算法的鲁棒性。

Description

一种基于深度学习的图像中目标的识别方法

技术领域

本发明涉及图像处理和计算机视觉技术领域，具体涉及一种基于深度学习的图像中目标的识别方法。

背景技术

基于深度学习的图像中目标检测方法主要用于对图像中的物体目标进行识别，常见的检测任务分为三种：识别，定位，检测，分割。识别：主要对图像中的物体进行一个类别的划分。定位：顾名思义就是检测图像中的物体的大致位置，传统的方法是在使用矩形来框来表示图像中物体的大致位置。检测：不但要识别图像中包含哪些物体，还要识别出各物体的大致位置。分割包含语义分割和实例分割，主要解决图像中像素点和图像中目标或场景的关系。

图像中的目标检测方法中的一个重要环节就是图像的特征提取。传统的特征提取主要提取图像的HOG特征和Haar-like特征，同时其目标识别算法主要包含三步：用滑动窗口提取目标物体的候选区域，对候选区域进行特征提取，分类器进行分类识别。传统方法采用滑动窗口的形式会产生大量的冗余候选区域，具有计算量大，识别效率低等缺点，阻碍了目标检测领域发展很长一段时间。

随着深度学习的火热，目前大多数的图像中目标检测采用的是深度学习的方法来实现，深度学习可以自动的学习到图像中目标物体的特征，随着网络层数的加深，学习特征能力越强，除去了对很多候选区域的重复计算，提高了识别效率和计算速度。基于深度学习的目标识别算法大致分为两类。第一类主要基于目标区域检测路线，以R-CNN，SPPNet，Fast-RCNN，Faster-RCNN，FPN为发展路线，识别效率也越来越高，第二类为一体化检测算法只需要遍历图像一次即可，抛弃了以往的候选区域提取的概念，以YOLO，SSD，Retina-Net为代表，该类算法计算速度快，但有些场景下识别效率不高。第一类算法思想依然是目前主流方法，同时第二类算法展现出来的后续发展空间更加广泛。

图像中目标识别是计算机视觉一个重要的研究方向，同时在行人检测，交通检测，模式识别，军事，无人驾驶等领域都有着非常广泛的应用前景。但现实生活场景具有多样性，光照，环境等因素使物体在图像的展现差异很大，另方面，同类别的物体间有些相差也是巨大的，这给现实生活中的目标识别应用带来一定的挑战性。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于深度学习的图像中目标的识别方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于深度学习的图像中目标的识别方法，所述的识别方法包括下列步骤：

S1、从数据集中选取一系列包含特定目标的图像，组成数据图像集，所述的图像数据集分为测试数据集和训练数据集；

S2、从训练数据集中选择一张包含特定类别目标的RGB图像作为输入图像；

S3、将输入图像输入第一卷积神经网络进行候选区域提取，得到第一候选区；

S4、将候选区输入候选区域优化网络进行候选区的优化过滤操作，得到第二候选区；

S5、对第二候选区进行图像的归一化和过滤操作，得到第三候选区；

S6、将第三候选区使用第二卷积神经网络进行特征图的提取；

S7、对提取的特征图使用softmax函数得到每个类别对应的概率，选取最大概率的区域(region)作为目标区域并进行目标分类；

S8、对目标区域进行边框回归(box regression)，修正目标区域定位。

进一步地，所述的步骤S3中用于提取候选区域的第一卷积神经网络结构从输入到输出依次为：卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、卷积层conv5、卷积层conv6、全连接层fc1、全连接层fc2。

进一步地，所述的第一卷积神经网络作为候选区域的生成网络会生成目标检测区域的四个修正参数：t_x、t_y、t_w、t_h，其中，t_x为横坐标的修正参数，t_y为纵坐标的修正参数，t_w为宽度修正参数，t_h为高度修正参数，利用修正参数得到目标检测区域的相应参数为：

x＝w_at_x+x_a

y＝h_at_y+y_a

w＝w_aexp(t_w)

h＝h_aexp(t_h)

其中，x、y、w、h分别为目标检测区域的横坐标、纵坐标、宽度值、高度值，x_a、y_a、w_a、h_a为基准矩形对应的横坐标、纵坐标、宽度值、高度值。

进一步地，所述的第一卷积神经网络中使用的Relu激活函数，其中x为神经元的输入值，函数表达式如下:

进一步地，所述的第一卷积神经网络采用边框回归机制，对不同图像采用不同的长宽比例以及不同的图像大小。

进一步地，所述的步骤S4中的用于候选区进行优化过滤操作的候选区域优化过滤网络结构从输入到输出依次为：

池化层pooling、全连接层fc1、Relu层fc1_relu、全连接层fc2、Relu层fc2_relu、全连接层fc3、Relu层fc3_relu、全连接层fc4、Relu层fc4_relu、softmax层，其中，全连接层fc1、全连接层fc2、全连接层fc3、全连接层fc4均用于随机隐藏部分神经元的输出(dropout)防止发生过拟合。softmax层对全连接层fc4使用softmax函数处理，如果输出的置信度大于0.6则保留候选区，否则删除候选区。

进一步地，所述的步骤S6中的用于进行特征图提取的第二卷积神经网络结构从输入到输出依次为：

卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、Relu层conv4_relu、卷积层conv5、Relu层conv5_relu。

进一步地，所述的步骤S7中目标分类采用softmax函数，将神经元的输入映射到[0,1]区间的输出，求一个神经元的输出的softmax值为：

其中，S_i为神经元输出的softmax值，M为分类的类别总数，全连接层对于类别为i的种类输出值为ai，e为欧拉常数。分母是对所有的类别求和，这样保证softmax函数对某个类别的预测概率在[0,1]区间。

进一步地，所述的步骤S8中对目标区域进行边框回归操作包括：平移和尺度缩放，假设原始窗口坐标为：P_x、P_y、P_w、P_h，依次表示原始窗口的横坐标、纵坐标、宽度值、高度值。变换后的预测值对应的坐标值为：采用变换为先平移操作后尺度缩放操作，

其中，平移变换：

其中，尺度缩放变换：

为预测值，d_x(P)、d_y(P)、d_w(P)、d_h(P)为修正参数，目标边框的真实值为：G_x、G_y、G_w、G_h，依次表示目标边框的横坐标、纵坐标、宽度值、高度值，故计算得到的真实平移尺度(t_x,t_y)和缩放尺度(t_w,t_h)如下:

t_x＝(G_X-P_X)/P_w

t_y＝(G_y-P_y)/P_h

其中t_x、t_y、t_h、t_w分别代表横坐标、纵坐标、宽度值、高度值真实的平移尺度大小。构造预测值和真实值对应目标函数的损失函数，采用最小二乘法求解。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明基于深度学习的图像中目标识别方法中，采用卷积神经网络来对候选区域进行提名，屏蔽了传统的基于滑动窗口的候选区域选取机制，减少了候选区域数量，同时提高了候选区域的选取质量。并引入了边框回归机制和不同大小的基准矩形框，来对可能包含目标的候选区域提取，更贴近现实场景，大大提高了模型的识别能力和准确度。

(2)本发明基于深度学习的图像中目标识别方法中，采用候选区域过滤网络对候选区域生成网络产生的目标区域进行过滤优化。大大减少了目标候选区域的冗余计算量，提高了模型的计算速度和效率。

(3)本发明基于深度学习的图像中目标识别方法中，构造了神经网络产生的目标识别区域坐标和真实的目标区域坐标之间的损失函数，并采用最小二乘法求解的方式，减少了模型的误判率，提高了算法的检测定位精度。

附图说明

图1是本发明中使用的原始数据集中图像一；

图2是本发明中使用的原始数据集中图像二；

图3是候选区域生成网络产生的图像一中目标候选区域示意图；

图4是候选区域生成网络产生的图像二中目标候选区域示意图；

图5是候选区域优化网络优化之后的图像一中目标候选区域示意图；

图6是候选区域优化网络优化之后的图像二中目标候选区域示意图；

图7是本发明中公开的基于深度学习的图像中目标识别方法的流程图；

图8是本发明中卷积神经网络使用的Relu函数的曲线示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例如附图7所示，本实施例公开了一种基于深度学习的图像中目标的识别方法，包括下述步骤：

该步骤中采用的数据集为imagenet数据集，该imagenet数据集中图片种类和数量较大，该数据集有超过百万张图片，并对图片有明确的类别标注和物体位置的标注。便于提高深度学习模型的准确度。

该输入图像是采用imagenet标准训练数据集中的图像。

该步骤S3中的提取候选区域的第一卷积神经网络结构从输入到输出依次为：卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、卷积层conv5、卷积层conv6、全连接层fc1、全连接层fc2；

第一卷积神经网络作为候选区域的生成网络会生成目标检测区域的四个修正参数：t_x t_y t_w t_h。其中t_x为横坐标的修正参数，t_y为纵坐标的修正参数，t_w为宽度修正参数，t_h为高度修正参数。利用修正参数得到目标检测区域的相应参数为：

x＝w_at_x+x_a

y＝h_at_y+y_a

w＝w_aexp(t_w)

h＝h_aexp(t_h)

其中，x、y、w、h分别为目标检测区域的横坐标、纵坐标、宽度值、高度值。x_a、y_a、w_a、h_a为基准矩形对应的横坐标，纵坐标，宽度值，高度值。

第一卷积神经网络使用的Relu激活函数，其中x为神经元的输入值，函数表达式如下:

使用Relu函数作为激活函数让部分神经元的输出为零，使矩阵变稀疏，防止过拟合的发生，同时可以减少卷积过程中的计算量。函数表述式的示意图可见图8所示。

第一卷积神经网络采用边框回归机制，对不同图像采用不同的长宽比例以及不同的图像大小，本方法采用长宽比为：1:1、1:1.5、1.5:1等不同比例。图像大小采用不同128*128、256*256大小，更贴近现实场景中不同目标的大小和长宽比。

该步骤S4中的用于候选区进行优化过滤操作的候选区域优化过滤网络结构从输入到输出依次为：

池化层pooling、全连接层fc1、Relu层fc1_relu、全连接层fc2、Relu层fc2_relu、全连接层fc3、Relu层fc3_relu、全连接层fc4、Relu层fc4_relu、softmax层，其中，全连接层fc1、全连接层fc2、全连接层fc3、全连接层fc4随机隐藏部分神经元的输出(dropout)防止发生过拟合。softmax层对全连接层fc4使用softmax函数处理，如果输出的置信度大于0.6则保留候选区，否则删除候选区。

本实施例中，步骤S5中图像归一化和过滤操作具体如下：将图像缩放到227*227像素点大小，同时对图像中的每个像素点除以256，使像素点大小落在[0,1]区间范围之类。

该步骤S6中的用于进行特征图提取的第二卷积神经网络结构从输入到输出依次为：

该步骤S7中的目标分类采用的是softmax函数。softmax函数可以用于多分类问题，将神经元的输入映射到[0,1]区间的输出，求一个神经元的输出的softmax值为：

该步骤S8中对目标区域进行边框回归(box regression)操作为：平移和尺度缩放，原始窗口坐标为：P_x、P_y、P_w、P_h，依次表示原始窗口的横坐标、纵坐标、宽度值、高度值。

变换后的预测值对应的坐标值为：采用变换为先平移后缩放。

其中，平移变换：

其中，尺度缩放变换：

为预测值，d_x(P)、d_y(P)、d_w(P)、d_h(P)为修正参数，目标边框的真实值为：G_x、G_y、G_w、G_h，依次表示目标边框的横坐标、纵坐标、宽度值、高度值。故计算得到的真实平移尺度(t_x,t_y)和缩放尺度(t_w,t_h)如下:

t_x＝(G_X-P_X)/P_w

t_y＝(G_y-P_y)/P_h

综上所述，本方法摒弃了目标识别的传统方法使用滑动窗口的方式来对图像的目标候选区域(region proposal)进行提取，改用了卷积神经网络来对图像中可能包含目标的区域进行提取，减少了候选目标区的数量，同时对卷积神经网路的输出目标候选区域进一步执行了优化过滤操作，大大提高了算法的计算速度。同时对目标检测的候选区域采用多样的长宽比例和区域大小，更贴近现实场景，提高了算法的鲁棒性和计算速度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的图像中目标的识别方法，其特征在于，所述的识别方法包括下列步骤：

S7、对提取的特征图使用softmax函数得到每个类别对应的概率，选取最大概率的区域作为目标区域并进行目标分类；

S8、对目标区域进行边框回归，修正目标区域定位。

2.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的步骤S3中用于提取候选区域的第一卷积神经网络结构从输入到输出依次为：卷积层conv1、Relu层conv1_relu、LRN层conv1_LRN、池化层maxpooling1、卷积层conv2、Relu层conv2_relu、LRN层conv2_LRN、池化层maxpooling2、卷积层conv3、Relu层conv3_relu、卷积层conv4、卷积层conv5、卷积层conv6、全连接层fc1、全连接层fc2。

3.根据权利要求2所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的第一卷积神经网络作为候选区域的生成网络会生成目标检测区域的四个修正参数：t_x、t_y、t_w、t_h，其中，t_x为横坐标的修正参数，t_y为纵坐标的修正参数，t_w为宽度修正参数，t_h为高度修正参数，利用修正参数得到目标检测区域的相应参数为：

x＝w_at_x+x_a

y＝h_at_y+y_a

w＝w_aexp(t_w)

h＝h_aexp(t_h)

4.根据权利要求2所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的第一卷积神经网络中使用的Relu激活函数，其中x为神经元的输入值，函数表达式如下:

5.根据权利要求2所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的第一卷积神经网络采用边框回归机制，对不同图像采用不同的长宽比例以及不同的图像大小。

6.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的步骤S4中的用于候选区进行优化过滤操作的候选区域优化过滤网络结构从输入到输出依次为：

池化层pooling、全连接层fc1、Relu层fc1_relu、全连接层fc2、Relu层fc2_relu、全连接层fc3、Relu层fc3_relu、全连接层fc4、Relu层fc4_relu、softmax层，其中，全连接层fc1、全连接层fc2、全连接层fc3、全连接层fc4均用于随机隐藏部分神经元的输出防止发生过拟合，softmax层对全连接层fc4使用softmax函数处理，如果输出的置信度大于0.6则保留候选区，否则删除候选区。

7.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的步骤S6中的用于进行特征图提取的第二卷积神经网络结构从输入到输出依次为：

8.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的步骤S7中目标分类采用softmax函数，将神经元的输入映射到[0,1]区间的输出，求一个神经元的输出的softmax值为：

其中，S_i为神经元输出的softmax值，M为分类的类别总数，全连接层对于类别为i的种类输出值为ai，e为欧拉常数，分母是对所有的类别求和。

9.根据权利要求1所述的一种基于深度学习的图像中目标的识别方法，其特征在于，所述的步骤S8中对目标区域进行边框回归操作包括：平移和尺度缩放，假设原始窗口坐标为：P_x、P_y、P_w、P_h，依次表示原始窗口的横坐标、纵坐标、宽度值、高度值，变换后的预测值对应的坐标值为：采用变换为先平移操作后尺度缩放操作，

其中，平移变换：

其中，尺度缩放变换：

t_x＝(G_X-P_X)/P_w

t_y＝(G_y-P_y)/P_h

其中t_x、t_y、t_h、t_w分别代表横坐标、纵坐标、宽度值、高度值真实的平移尺度大小，构造预测值和真实值对应目标函数的损失函数，采用最小二乘法求解。