CN111160372B

CN111160372B - 一种基于高速卷积神经网络的大目标识别方法

Info

Publication number: CN111160372B
Application number: CN201911392630.7A
Authority: CN
Inventors: 吕艳辉; 张德育; 刘勇
Original assignee: Shenyang Ligong University
Current assignee: Shenyang Ligong University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-04-18
Anticipated expiration: 2039-12-30
Also published as: CN111160372A

Abstract

本发明提供一种基于高速卷积神经网络的大目标识别方法，涉及计算机视觉技术领域。该方法首先通过通用型特征提取网络对目标图片进行五次特征提取，每次特征提取后均对应一次降采样处理，得到降采样的特征；建立大目标识别的目标分类与位置回归网络，并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入，得到全部的目标类别和目标位置；采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差，使用预测误差来优化目标分类与位置回归网络，提高网络的识别精度；本发明方法可以运行在嵌入式计算平台，进行大目标的类型与位置的实时预测，并大幅度减少计算量。

Description

一种基于高速卷积神经网络的大目标识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于高速卷积神经网络的大目标识别方法。

背景技术

目标识别是计算机视觉与模式识别的一个分支，是人工智能学科的一个重要组成部分。目标识别方法分为数字图像处理法和基于卷积神经网络的目标识别法。传统的数字图像处理需要人工提取多重特征，如尺度不变特征变换(Scale-invariant featuretransform，SIFT)，方向梯度直方图(Histogram of Oriented Gridients，HOG)和局部二值模式(Local Binary Patterns，LBP)等，这些特征无法表达更抽象的目标类别信息。而基于卷积神经网络的目标识别可以像人类认知过程一样，可以完成对图像中的物体进行分类、分割和场景解释等抽象的任务。卷积神经网络在图像目标识别上有较大优势，多种不同结构的卷积网络的优异表现使其成为了计算机视觉研究的核心，无论是对该领域的广度研究还是深度研究，都值得去进一步探索。但嵌入式平台的功耗低，计算能力弱，无法运行大规模卷积神经网络，或者无法高速的完成目标识别任务。对于实时性要求较高的平台，如无人机的飞行控制系统，是无法完成实时性目标识别的任务的。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于高速卷积神经网络的大目标识别方法，实现在嵌入式平台实时的识别大目标。

为解决上述技术问题，本发明所采取的技术方案是：一种基于高速卷积神经网络的大目标识别方法，包括以下步骤：

步骤1、将待识别的目标图片输入通用型特征提取网络，实现对目标图片进行五次特征提取，每次特征提取后均对应一次降采样处理，得到降采样的特征；

所述通用型特征提取网络包括一个图片尺寸转化层、五个卷积层和五个最大值池化层；所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片；图片尺寸转化层连接一个卷积层，实现对预处理后得到的标准三通道图片进行一次特征提取；五个卷积层和五个最大值池化层交替连接，实现对目标图片的五次特征提取和五次降采样处理；

图片尺寸转化层：在图片输入之前加入图片尺寸转化层，将非矩形、非标准的图片处理成416×416像素的图片，经过矩形裁剪、尺寸标准化两个步骤完成图片预处理任务，得到416×416×3的标准三通道图片；

卷积层1：标准输入格式为416×416×3，输入为预处理后416×416像素的原始图片，色彩为三通道彩色图像；该卷积层有16个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核的处理后输出416×416×16的1次特征提取特征；

最大值池化层1：标准输入格式为416×416×16，衔接卷积层1；使用2×2的池化核进行降采样，步长为(2,2)，最后输出208×208×16尺寸的1次降采样特征；

卷积层2：标准输入格式为208×208×16，衔接最大值池化层1；该层有32个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核的处理后输出208×208×32的2次特征提取特征；

最大值池化层2：标准输入格式为208×208×32，衔接卷积层2；使用2x2的池化核进行降采样，步长为(2,2)，最后输出104×104×32尺寸的2次降采样特征；

卷积层3：标准输入格式为104×104×32，衔接最大值池化层2；该层有64个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核的处理后输出104*104*64的3次特征提取特征；

最大值池化层3：标准输入格式为104*104*64，衔接卷积层3；使用2×2的池化核进行降采样，步长为(2,2)，最后输出52×52×64尺寸的3次降采样特征；

卷积层4：标准输入格式为52×52×64，衔接最大值池化层3；该层有128个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核的处理后输出52×52×128的4次特征提取特征；

最大值池化层4：标准输入格式为52×52×128，衔接卷积层4；使用2×2的的池化核进行降采样，步长为(2,2)，最后输出26×26×128尺寸的4次降采样特征；

卷积层5：标准输入格式为26×26×128，衔接最大值池化层4；该层有256个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核的处理后输出26×26×256的5次特征提取特征；

最大值池化层5：标准输入格式为26×26×256，衔接卷积层5；使用2×2的的池化核进行降采样，步长为(2,2)，最后输出13×13×256尺寸的5次降采样特征；

步骤2、建立大目标识别的目标分类与位置回归网络，并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入，得到全部的目标类别和目标位置；

所述目标分类与位置回归网络包括四个回归网络卷积层、一个最大值池化层6和一个输出层；所述最大值池化层6衔接第一个回归网络卷积层，输出层衔接最后一个回归网络卷积层；

回归网络卷积层1：标准输入格式为13×13×256，衔接通用型特征提取网络的最大值池化层5；该层有512个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核处理后输出13×13×512的全部连接特征；

最大值池化层6：标准输入格式为13×13×512，衔接回归网络卷积层1；使用2×2的的池化核进行降采样，步长为(1,1)，不改变输入尺寸，最后输出13×13×512尺寸的6次降采样特征；

回归网络卷积层2：标准输入格式为13×13×512，衔接最大值池化层6；该层有1024个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核处理后输出13×13×1024的全部连接特征；

回归网络卷积层3：标准输入格式为13×13×1024，衔接回归网络卷积层2；该层有256个卷积核，步长为(1,1)，卷积核尺寸为1×1，经过全部卷积核处理后输出13×13×256的全部连接特征；

回归网络卷积层4：标准输入格式为13×13×256，衔接回归网络卷积层3；该层有512个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核处理后输出13×13×512的全部连接特征；

输出层：标准输入格式为13×13×512，衔接回归网络卷积层4；该层的卷积核数量由要识别的目标种类的数量决定，卷积核数量由公式(1)计算，步长为(1,1)，卷积核尺寸为1×1；输出为全部目标类别与目标位置；

filter＝3×(5+n) (1)

其中：filter为卷积核个数，n为要识别的目标种类；

步骤3、采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差，使用预测误差来优化目标分类与位置回归网络，提高网络的识别精度；

目标分类与位置回归网络将输入图像分成S×S个网格；每个网格负责检测中心落在自己区域的目标类别；每个网格预测3个预测框，每个预测框预测预测框的中心坐标和宽高(x,y,w,h)以及置信度共5个值，同时，每个网格还要预测一个目标类别信息，记为C类，最后目标分类与位置回归网络输出一个S×S×(5*3+C)维的向量；所述置信度代表了本预测框中含有识别目标的置信度和这个预测框预测效果的准确率，其值计算为

如果有识别目标落在此网格里，则Pr(Object)取值为1，否则取值为0；

为通过IOA预测框评价单元判断预测框的预测效果，其值为预测框矩形和真实框矩形的交集面积与两个矩形的最小顶点与最大顶点组成的矩形面积的比值；

目标类别信息是针对每个网格的，置信度信息是针对每个预测框的；每个网格预测的目标类别信息和预测框预测的置信度信息相乘，就得到每个预测框的某一类别预测得分，如下公式所示：

其中，Pr(Class_i|Object)为每个网格预测的目标类别信息，

为每个预测框预测的置信度，这个乘积即反应了预测目标属于某一类的概率，也有该预测框准确度的信息；得到每个预测框的某一目标类别预测得分以后，使用设定的阈值过滤掉得分低的预测框，对保留的预测框进行非极大值抑制(Non Maximum Suppression，NMS)处理，得到最终的目标识别的结果，实现对目标分类与位置回归网络的优化；

所述目标分类与位置回归网络采用目标分类与位置回归网络输出各项的误差加权求和作为全网络的损失函数，如下公式所示：

loss＝loss₁+loss₂+loss₃+loss₄(3)

其中，λ_coord和λ_noobj均为加权损失项，均为常数系数；B＝3为网格中预测框个数；

为预测框的预测是否有效的判定标识，当网格单元i中存在目标，则该网格中的第j个预测框的预测值有效，

取值为1，如果网格单元i中不存在目标，则该网格中的第j个预测框的预测值无效，

取值为0；x_i、y_i、ω_i、h_i为识别目标的预测框的中心坐标和宽、高；

为目标真实框的中心坐标和宽高；p_i(c)、

为预测置信度和真实置信度；C_i、

为预测类别和真实类别；

公式(4)至(7)的作用为：公式(4)为对识别目标的预测框的中心坐标做损失，公式(5)为对预测框的宽高做损失，公式(6)为对目标分类与位置回归网络预测的类别做损失，公式(7)为对目标分类与位置回归网络预测的置信度做损失。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于高速卷积神经网络的大目标识别方法，可以运行在嵌入式计算平台，进行大目标的类型与位置预测，识别目标类型最佳数量为20以内，可以做到每秒识别52张图片。该网络特征提取过程简单直接，5次降采样大幅度减少计算量；预测过程对于目标类别和位置采用一步回归得到，使用统一的多项误差和来计算优化网络的预测效果，具有方便理解和计算简单的优点。同时，本发明采用的IOA预测框评价单元可以做到更快的运行速度，并且不影响识别效果，进而实现对建立的目标分类与位置回归网络的优化。

附图说明

图1为本发明实施例提供的通用型特征提取网络的结构示意图；

图2为本发明实施例提供的通用型特征提取网络和目标分类与位置回归网络对目标图片进行识别的流程图；

图3为本发明实施例提供的IOU计算示意图；

图4为本发明实施例提供的IOA计算示意图；

图5为本发明实施例提供的IOU与IOA运行计算耗时对比图；

图6为本发明实施例提供的IOU对于目标分类与位置回归网络训练效果的影响结果图；

图7为本发明实施例提供的IOA对于目标分类与位置回归网络训练效果的影响结果图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，一种基于高速卷积神经网络的大目标识别方法，运行在Jetson TX2嵌入式计算平台，进行大目标的类型与位置预测，包括以下步骤：

所述通用型特征提取网络如图1所示，包括一个图片尺寸转化层、五个卷积层和五个最大值池化层；所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片；图片尺寸转化层连接一个卷积层，实现对预处理后得到的标准三通道图片进行一次特征提取；五个卷积层和五个最大值池化层交替连接，实现对目标图片的五次特征提取和五次降采样处理；

步骤2、建立大目标识别的目标分类与位置回归网络，并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入，如图2所示，得到全部的目标类别和目标位置；

回归网络卷积层1：标准输入格式为13×13×256，衔接通用型特征提取网络的最大值池化层5；该层有512个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核处理后输出13×13×512的全部连接特征；该层的主要作用是扩充特征尺度，为目标识别提供跟多的特征组合。

最大值池化层6：标准输入格式为13×13×512，衔接回归网络卷积层1；使用2x2的的池化核进行降采样，步长为(1,1)，不改变输入尺寸，最后输出13×13×512尺寸的6次降采样特征；该层与通用型特征提取网络的五个最大值池化层所特征提取不同，其步长为(1,1)，主要作用是更多的关注纹理特征，便于目标识别。

回归网络卷积层2：标准输入格式为13×13×512，衔接最大值池化层6；该层有1024个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核处理后输出13×13×1024的全部连接特征；该层作用同回归网络卷积层1。

回归网络卷积层3：标准输入格式为13×13×1024，衔接回归网络卷积层2；该层有256个卷积核，步长为(1,1)，卷积核尺寸为1x1，经过全部卷积核处理后输出13×13×256的全部连接特征；该层的特殊之处在于使用1x1的卷积核，主要作用是提取用于目标识别的关键特征。

回归网络卷积层4：标准输入格式为13×13×256，衔接回归网络卷积层3；该层有512个卷积核，步长为(1,1)，卷积核尺寸为3×3，经过全部卷积核处理后输出13×13×512的全部连接特征；该层的主要作用是将回归网络卷积层3输出的特征重新组合，提供更加抽象的目标识别能力。

输出层：标准输入格式为13×13×512，衔接回归网络卷积层4；该层的卷积核数量由要识别的目标种类的数量决定，由于网络层数较浅，特征学习能力有限，所以在20类以内的目标识别表现较好。卷积核数量由公式(1)计算，步长为(1,1)，卷积核尺寸为1×1；输出为全部目标类别与目标位置；

filter＝3×(5+n)(1)

其中：filter为卷积核个数，n为要识别的目标种类；

预测框与真实框的误差在IOA(Intersection over All)上表现的更显著。与传统IOU(Intersection over Union)相比，在预测框和真实框的边框不相等不对齐的时候，IOA的计算结果小于IOU；在预测框和真实框的边框相等且对齐的时候，IOA计算结果等于IOU。所以IOA对误差更敏感。

IOA的计算过程没有重复。使用IOU做计算会重复计算两个矩形的交集，IOA需要计算的是一次交集与一次最大面积，没有重复计算，减少计算耗时。

IOA的底层代码对于每一次比较运算都同时使用大小两个比较结果，从微观上减少计算与比较的次数，用到的四个点的全部坐标只需要比较四次，可以从如表1的C程序中看出：

表1IOA的底层代码

使用如上代码测试计算速度，执行10000000次计算统计得，执行30遍不同的测试实例后，得出IOA的平均运行时间为0.75秒，IOU的平均运行时间为0.27秒，IOA的计算耗时是IOU的36.8％，确定使用IOA代替IOU可以得到更高的运算效率。本实施例中，IOU的计算如图3示意图，IOA的计算如图4所示，IOU与IOA计算耗时的对比如图5所示。在目标分类与位置回归网络训练过程中测试IOU对训练效果的影响如图6所示，IOA对于训练效果的影响如图7所示。

其中，Pr(Class_i|Object)为每个网格预测的目标类别信息，

为每个预测框预测的置信度，这个乘积即反应了预测目标属于某一类的概率，也有该预测框准确度的信息；得到每个预测框的某一目标类别预测得分以后，使用设定的阈值过滤掉得分低的预测框，对保留的预测框进行非极大值抑制(Non Maximum Suppression，NMS)处理，得到最终的目标检测结果，实现对目标分类与位置回归网络的优化；

预测框评价单元IOA(Intersection over All)，其计算过程较为简单，节省计算力，加速目标分类与位置回归网络的运行。

loss＝loss₁+loss₂+loss₃+loss₄(3)

其中，λ_coord和λ_noobj均为加权损失项，均为常数系数，设置默认值λ_coord＝5，λ_noobj＝0.5；因为预测框的位置是目标识别的核心，当有识别目标的时候，λ_coord可以为位置损失提供更高的权重；当没有识别目标的时候，本次预测没有意义，使用λ_noobj提供更小的权重，减少该预测对正确识别的影响。B＝3为网格中预测框个数；

为目标真实框的中心坐标和宽高；p_i(c)、

为预测置信度和真实置信度；C_i、

为预测类别和真实类别；

公式(3)至(6)的作用为：公式(3)为对识别目标的预测框的中心坐标做损失，公式(4)为对预测框的宽高做损失，公式(5)为对目标分类与位置回归网络预测的类别做损失，公式(6)为对目标分类与位置回归网络预测的置信度做损失；

只有该网格中有目标的时候才计算类别预测误差。只有当某个预测框对某个真实框负责的时候，才会计算预测框的坐标误差。对于这个损失函数分为以下三部分，包含预测框损失值、类别预测损失值和置信度损失值。预测框损失值包括预测框中心坐标x、y的误差和预测框长宽w、h的误差。这里坐标的x,y用对应网格的尺寸归一化到(0,1)之间，w,h用图像的宽度和高度归一化到(0,1)之间。有目标的预测框的置信度损失值和类别损失的瞬时权重正常取1。在这种规则下，大预测框预测出现一点偏差的影响要小于小预测框预测出现一点偏差，为了缓和这一问题，本发明将预测框的宽度和高度取平方根代替原本的宽度和高度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。