CN110929577A

CN110929577A - 一种基于YOLOv3的轻量级框架改进的目标识别方法

Info

Publication number: CN110929577A
Application number: CN201911013341.1A
Authority: CN
Inventors: 陈名松; 张泽功; 吴泳蓉; 吴冉冉
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-03-27

Abstract

本发明公开了一种基于YOLOv3的轻量级框架改进的目标识别方法，通过将YOLOv3的轻量级版本YOLOv3‑tiny和SENet相结合得到YOLOv3‑tiny‑SE来进行目标检测和识别。具体包括：在不同的路况、行车环境和天气条件下进行车辆、行人和交通环境图片的采集，对采集到的数据进行预处理以及数据增强，制作并完善目标识别样本集，对样本集进行标注，然后将样本集分为训练集和测试集两部分，在YOLOv3‑tiny中嵌入SENet结构，得到YOLOv3‑tiny‑SE，在训练集上训练YOLOv3‑tiny‑SE，在测试集上测试YOLOv3‑tiny‑SE，然后和YOLOv3‑tiny性能进行比较。本发明提出的目标识别方法泛化能力强，且可以加快目标检测速度、提高小目标检测的准确率、提高模型参数对噪声的鲁棒性。

Description

一种基于YOLOv3的轻量级框架改进的目标识别方法

技术领域

本发明涉及计算机视觉和深度学习领域，特别是涉及一种基于YOLOv3的轻量级框架改进的目标识别方法。

背景技术

现今无人驾驶技术发展愈发成熟，在自动驾驶过程中对环境信息进行实时获取并处理一直以来是研究的重点，无人驾驶技术是通过行车记录仪等摄像头工具对采集到的实时路况视频图像(包括行人、车辆、交通标志等信息)经过模型化处理得到汽车线控状态参数，再将此参数输入到车辆的决策和控制网络模型中，以进行车辆行为的决策控制。而目标检测是行为决策的前提，基于深度学习的目标检测方法不仅要保证多目标检测分类的准确性，还要满足实时性处理需求。目前主流的基于机器学习的目标检测方法主要分为以区域提名(Region Proposal)为思想和以回归方法为基础的两大类方法。

基于区域提名的方法主要有R_CNN、SPP_Net、Fast R_CNN、Faster R_CNN等方法。R_CNN方法存在候选框数量众多且重复计算导致计算量大的问题，从而导致运行速度慢，Fast R_CNN方法利用共享特征层的方法，大大减少了运行时间，另外在分类及回归方法上由使用SVM模型改为使用SoftMax作分类，以多任务方式同时进行分类和回归，在一定程度上减少了目标检测的运行时间，但其在选择性搜索过程中要找出所有的候选框，这个过程非常耗时，存在计算速度瓶颈问题。Faster R_CNN方法直接利用RPN网络提取候选框，区域提名、分类、回归等操作一起共用卷积特征，从而进一步提升了运算速度，但其在具体实施过程中是在获取候选区域(Region Proposal)后再对每个候选框架(proposal)做分类计算，计算量依然比较大，无法实时检测目标。

基于回归方法的代表性方法有YOLO方法，YOLO方法简化了目标检测的整个流程，视频帧图像被缩放至统一尺度大小的图像，但是其在具体实施过程中对各个单元格仅仅预测两个边界框，而且这两个边界框属于一个类别，从而导致YOLO方法对小目标检测准确率不够高，泛化能力偏弱，无法满足无人驾驶对多目标检测的要求。

发明内容

本发明的目的是提供一种基于YOLOv3的轻量级框架改进的目标识别方法，以解决上述现有技术存在的问题，旨在在保证提升目标检测速度及小目标检测的准确率的同时，提升模型参数对噪声的鲁棒性。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于YOLOv3的轻量级框架改进的目标识别方法，包括如下步骤：

S1、在不同的路况、行车环境和天气条件下采集车辆、行人和交通环境图片，制作初始样本数据集；具体而言，步骤S1包括：

S11、开启行车记录仪或者车辆自行安装的高清摄像头，实时拍摄道路交通环境下的行车信息；

S12、将获取到的行车视频进行分帧处理，将每一帧的图像提取出来，得到不同行车环境下的行车图像序列集；

S13、对步骤S12得到的行车图像序列集进行筛选，选取不同光照条件、交通时段和环境背景下的行车图像；

S14、利用标注工具对选取的行车图像进行标注，框出目标区域，所述目标区域包括车辆、行人和交通标志，然后将目标区域打上标签，制作初始样本数据集。

S2、对初始样本数据集中的图片数据进行预处理以及数据增强，得到目标识别样本数据集，具体而言，步骤S2包括：对步骤S1得到的初始样本数据集通过平移、旋转、调整饱和度和曝光量以及添加噪声操作，对待识别目标的特征参数进行处理，得到完备样本数据集。

S3、将得到的目标识别样本数据集划分为训练集和测试集两部分。

S4、在YOLOv3-tiny方法框架中嵌入SENet结构，得到YOLOv3-tiny-SE网络模型，具体而言，步骤S4包括：

在YOLOv3-tiny方法中嵌入SENet结构，在每个池化层后以及最终输出结果前的卷积层后嵌入SENet结构，通过修改YOLOv3-tiny.cfg文件，在第2、4、6、8、10、12层的池化层和第13、14、15、19、22层的卷积层后添加SEnet结构，并指定SENet结构的输入全局池化层的特征通道值16、32、64、128、256、512、1024、256、512、128、256为嵌入层输出的特征通道数，得到YOLOv3-tiny-SE网络模型。

S5、在训练集上训练YOLOv3-tiny-SE网络模型，具体而言，步骤S5包括：

S51、在步骤S2进行样本数据集的增强并标注好参数以后，对于制作好的完备样本数据集重新计算anchorbox值；利用K-means聚类方法进行交通环境中的anchorbox值的计算，步骤如下：读取已标注好的数据集，随机取出其中一个图片的宽度和高度值作为坐标点并作为初始聚类中心，再使用K-means聚类方法进行迭代计算得到具体的anchorbox值；

S52、设置训练时的超参数和网络参数，然后将训练集输入到YOLOv3-tiny-SE网络模型中进行多任务训练，并保存训练好的网络模型权重文件。

S6、在测试集上测试YOLOv3-tiny-SE性能，具体而言，步骤S6包括：

S61、加载步骤S52得到的训练好的网络模型权重文件，将测试集输入到上述训练好YOLOv3-tiny-SE网络模型中，经过卷积层、池化层、SENet结构以及上采样层，得到多尺度特征图；

S62、采用logistic函数对网络预测的x、y、置信度、类别概率进行激活，经阈值判断，得到所有预测框的坐标、置信度和类别概率；

S63、将步骤S62得到的结果通过非极大值抑制处理去除冗余检测框，产生最终的目标检测框和识别结果。

S7、将步骤S6得到的YOLOv3-tiny-SE在测试集上的性能测试结果与YOLOv3-tiny进行性能比较，得到性能比较的结果。

本发明公开了以下技术效果：本发明针对现有方法对于目标在复杂环境下的检测速度慢、小目标检测准确率不够精确的问题，将YOLOv3的轻量级版本YOLOv3-tiny和SENet结构相结合得到YOLOv3-tiny-SE网络模型，并利用得到的YOLOv3-tiny-SE网络模型来进行目标检测和识别，一方面此网络模型泛化能力强，可以满足无人驾驶对多目标检测的要求，另一方面此网络模型在保证实时性的前提下可以提升目标检测速度、小目标检测的准确率并可以提升模型参数对噪声的鲁棒性。本发明同时还提出了一种改进的激活函数：PSReLU函数，并将其用于激活模型。运用本申请提出的目标识别方法可以将通过行车记录仪等摄像头工具采集到的实时路况视频图像进行快速、实时、精确地处理，为自动驾驶中车辆行为的决策控制提供科学依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请系统整体结构图；

图2本申请改进的PSReLU激活函数图；

图3为YOLOv3-tiny-SE网络模型结构图；

图4为SENet结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1-4，本发明提供一种基于YOLOv3的轻量级框架改进的目标识别方法，具体包括如下步骤：

S1、在不同的道路、交通环境和天气条件下采集车辆、行人和交通环境图片，制作初始样本数据集；包括如下步骤：

S11、开启行车记录仪或者车辆自行安装的高清摄像头，实时拍摄道路交通环境下的行车视频；

S13、对行车图像序列集进行筛选，选取不同光照条件、交通时段和环境背景下的行车图像；

S14、利用标注工具对选取的行车图像进行标注，对于样本数据集中待识别目标利用Labelimg样本标注工具进行参数标记，框出目标区域(具体包括车辆、行人和交通标志三类)并打上标签，制作初始样本数据集。

S2、对制作的初始样本数据集进行预处理以及数据增强，完善初始样本数据集，得到目标识别样本数据集；具体步骤如下：

对初始样本数据集进行处理，通过编写程序进行以下操作：在已有初始样本数据集的基础上通过平移、旋转、调整饱和度和曝光量以及添加噪声操作对待识别目标的特征参数进行处理，增加样本数据，得到目标识别样本数据集以完善初始样本数据集，提高神经网络的泛化能力。

S3、按照7:3、8:2或者是8:1的比例将得到的目标识别样本数据集划分为训练集和测试集两部分。

S4、在YOLOv3-tiny方法中嵌入SENet结构，得到YOLOv3-tiny-SE网络模型；包括如下：

S41、本步骤在表1所述的的YOLOv3的轻量型框架上进行改进，将SENet结构嵌入到YOLOv3-tiny框架内，得到图3所示的改进的YOLOv3-tiny-SE网络模型；

S42、YOLOv3-tiny作为YOLOv3的轻量型框架，整体网络架构如表1所示，具体包括13个卷积层、6个池化层、2个融合层、1个上采样层以及2个不同尺度的输出层，其整体架构相比YOLOv3减少了残差层，取而代之增加的是一系列的池化层，同时也删减掉了一些用来提取特征的卷积层和FPN网络，从而简化了网络，降低了运算复杂度，并且提升了识别速度；

S43、YOLOv3-tiny对于目标检测和识别的处理思想与YOLOv3是一样的，YOLOv3在每一个卷积层卷积后进行了批标准化(Batch Norm alization，BN)的操作，用于避免网络训练过拟合现象的发生，然后在批标准化后使用Leaky-Relu函数作为激活函数；

S44、YOLOv3在前两代方法的基础上加入了FPN结构来提高多重scale目标的识别精度，具体步骤为：

首先对于一幅图像建立图像金字塔，不同级别的图像金字塔被输入到对应的网络当中，对不同深度的feature map分别进行目标检测，通过当前层的feature map对未来层的feature map进行上采样，并加以利用，这样当前的feature map就可以获得未来层的信息，将低阶的语义信息和高阶的语义信息有机融合，提升检测精度，从而改进了前两个版本方法的不足，将FPN网络引入YOLOv3框架之中，提升小目标识别的精准度，这样对于交通标志的识别会更加有效；

S45、YOLOv3-tiny-SE网络模型如图3所示，SEnet结构先对输入特征图进行全局平均池化得到大小为c×1×1的特征图(c为特征通道数)，然后经过两个全连接层，再进行先降维再升维的过程，最后用Sigmoid函数进行非线性处理，得到大小为c×1×1的权重，然后将该权重与对应位置的原输入特征图进行相乘运算，得到最后的输出结果；

S46、在YOLOv3-tiny方法中嵌入SENet结构；具体步骤为：

在每个池化层后以及最终输出前的卷积层后嵌入SENet结构，通过修改YOLOv3-tiny.cfg文件，在第2、4、6、8、10、12层的池化层和13、14、15、19、22层的卷积层后添加SENet结构，并指定SENet结构的全局池化层的特征通道值16、32、64、128、256、512、1024、256、512、128、256为嵌入层输出的特征通道数，得到YOLOv3-tiny-SE网络模型；

S47、YOLOv3-tiny的网络深度本来是24层，经过嵌入SENet结构以后变成35层，嵌入SEnet网络主要目的是为了加强有用信息，并压缩无用信息，其中嵌入的SENet结构的具体步骤以第二层的池化层为例，池化层输出的特征图为208*208*16，同样也是全局池化层(Global pooling)的输入特征图尺寸，全局平均池化以后得到1*1*16的特征图，然后经过第一个全连接(Full connected)降维以后得到1*1*1的特征图，经过第二个全连接(Fullconnected)升维以后得到1*1*16的特征图，最后再经过Sigmoid函数激活得到1*1*16的权重值，最后将该权重值与输入的特征图相乘，得到208*208*16的输出。

表1

S5、在训练集上训练YOLOv3-tiny-SE网络模型，具体包括如下步骤：

S51、对于训练集中标注的待识别目标的真实目标边框进行聚类，采用面积交互比IOU作为评价指标以获得训练集中的预测的目标的初始候选边框，将初始候选边框作为初始参数输入到YOLOv3-tiny-SE网络模型中，具体步骤如下：

采用K-means方法，以距离公式dis(box,centroid)＝1-IOU(box,centroid)对训练数据集的真实目标边框进行聚类；IOU(box,centroid)为预测目标边框和真实目标边框的面积交互比，IOU(box,centroid)作为评价标准且该值达到不低于0.5的时候，将此时预测的候选边框作为初始目标边框；

面积交互比IOU(box,centroid)公式如下式所示：

其中，box_pred和box_truth分别代表预测目标边框和真实目标边框的面积，两者的交集与并集的比例就是真实目标边框和预测初始目标的初始候选边框的平均交互比；

S53、调取YOLOv3-tiny网络的初始权重，设置超参数，学习率和迭代步数N以及batch_size的大小，这些超参数可以根据得到的模型数据进行调整；然后将训练数据集输入到YOLOv3-tiny-SE网络模型中进行训练，直到训练数据集输出的loss值小于某个阈值Q1或者是达到预先设置的最大迭代次数N以后停止训练，得到训练好的YOLOv3-tiny-SE网络模型；具体步骤如下：

调取YOLOv3-tiny的初始网络权重，将训练数据集输入到YOLOv3-tiny网络中进行训练，并输出损失函数值，根据损失函数值不断训练调整网络权重和偏置值，直到训练集输出的损失函数值小于阈值Q1或达到最大迭代次数N以后停止训练得到训练好的YOLOv3-tiny-SE网络模型；

所述损失函数loss(object)如下式所示

上述loss损失函数的每一项分别对应对于预测中心坐标的损失、对于预测边界框的损失、对于预测置信度的损失以及对于预测类别的损失四部分。其中对于预测中心坐标和边界框的损失函数采用误差平方和来表示，对于预测类别和置信度的损失函数采用二院交叉熵损失函数来表示；

上式中，λ_coord为预测坐标的误差系数；λ_noobject为不包含识别目标时的置信度的误差系数；K²表示的是将输入图像划分的网格数量；M表示的是每一个网格预测的目标边框数量；x_i,y_i,w_i,h_i分别表示预测的目标的中心点的横、纵坐标和宽度、高度，

分别表示真实的目标的中心点的横、纵坐标和宽度、高度；

表示第j个候选框所在的第i个网格负责检测该对象object；

表示第j个候选框所在的第i个网格不负责检测该对象object；C_i与

分别表示第i个网格中存在待检测目标的预测置信度和真实置信度；p_i(c)和

分别表示第i个网络中目标识别属于某个类别的预测概率值和真实概率值；

YOLOv3在卷积层后的激活函数采用了Leaky-ReLU函数，此函数表达式如下式所示：

Leaky-ReLU函数由ReLU函数演化而来，RelU函数在x≤0的时候得到的值均为0，这样随着训练的进行可能会出现神经元权重无法更新的问题，该问题对于深层神经网络影响不大，但是对于层数比较浅的神经网络会有很大的影响于是Leaky-ReLU函数在ReLu的基础上将复数域上为0的输出改为了一个斜率较小的线性函数，这样保留了负数域的输出，但是参数a通常都是通过人工先验和多次的重复训练已确定合适的参数值，其依然无法确保在失活状态下的噪声鲁棒性。基于上述问题，本实施方式提出了一种如图2所示的改进的激活函数PSReLU(Parametric Soft plus-ReLU)函数，此函数表达式如下：

其中在正值域时，YOLOv3-tiny采用的激活函数Leaky-ReLU与ReLU函数一样，在负值域的时候采用Softplus函数，并且向下平移log2个单位，参数α作为网络中一个可学习的参数，在网络中进行反向传播训练，与其它网络层联合优化。当x从0开始在负值域上逐渐缩小时，激活函数最终收敛到-αlog(2)，这样当α较小的时候，本实施方式的激活函数的导数较小，减少了传播过程中的信息变化，所以具有较强的噪声鲁棒性。

S6、在测试集上测试YOLOv3-tiny-SE网络模型性能，具体而言，步骤S6包括：

S61、加载训练好的网络权重，将测试集输入到训练好的网络中，经过卷积层、池化层、SENet结构以及上采样层，得到多尺度特征图；

S63、将上述结果通过非极大值抑制处理(NMS)去除冗余检测框，产生最终的目标检测框和识别结果；

S64、使用原激活函数对YOLOv3-tiny原生模型和改进以后的YOLOv3-tiny-SE网络模型进行效果对比；分别使用改进的激活函数和原激活函数在YOLOv3-tiny原生模型上进行性能测试；分别使用改进的激活函数和原激活函数在YOLOv3-tiny-SE网络模型上进行性能测试；

S65、将步骤S3得到的测试集分别输入到S61对应的网络之中进行性能检测，得出最终对于模型性能的包括包括平均精确度均值mAP(mean Average Precision)、每秒检测识别帧数FPS(Frames Per Second)，召回率(Recall)的评价指标。

S7、将步骤S6得到的YOLOv3-tiny-SE网络模型在测试集上的性能测试结果与YOLOv3-tiny的性能进行比较，得到性能比较的结果。

对于本领域技术人员而言，显然本发明不限于上述示范实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看做示范性的，而非限定性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于YOLOv3的轻量级框架改进的目标识别方法，其特征在于：包括如下步骤：

S1、在不同的路况、行车环境和天气条件下采集车辆、行人和交通环境图片，制作初始样本数据集；

S2、对初始样本数据集中的图片数据进行预处理以及数据增强，得到目标识别样本数据集；

S3、将得到的目标识别样本数据集划分为训练集和测试集两部分；

S4、在YOLOv3-tiny方法框架中嵌入SENet结构，得到YOLOv3-tiny-SE网络模型；

S5、在训练集上训练YOLOv3-tiny-SE网络模型；

S6、在测试集上测试YOLOv3-tiny-SE性能；

S7、将步骤S6得到的YOLOv3-tiny-SE网络模型在测试集上的性能测试结果与YOLOv3-tiny进行性能比较，得到性能比较的结果。

2.根据权利要求1所述的基于YOLOv3的轻量级框架改进的目标识别方法，其特征在于：步骤S1具体包括：

3.根据权利要求1所述的基于YOLOv3的轻量级框架改进的目标识别方法，其特征在于：步骤S2具体包括：对步骤S1得到的初始样本数据集通过平移、旋转、调整饱和度和曝光量以及添加噪声操作，对待识别目标的特征参数进行处理，得到完备样本数据集。

4.根据权利要求1所述的基于YOLOv3的轻量级框架改进的目标识别方法，其特征在于：步骤S4具体包括：在YOLOv3-tiny方法中嵌入SENet结构，在每个池化层后以及最终输出结果前的卷积层后嵌入SENet结构，通过修改YOLOv3-tiny.cfg文件，在第2、4、6、8、10、12层的池化层和第13、14、15、19、22层的卷积层后添加SEnet结构，并指定SENet结构的输入全局池化层的特征通道值16、32、64、128、256、512、1024、256、512、128、256为嵌入层输出的特征通道数，得到YOLOv3-tiny-SE网络模型。

5.根据权利要求1所述的基于YOLOv3的轻量级框架改进的目标识别方法，其特征在于：步骤S5具体包括：

6.根据权利要求1所述的基于YOLOv3的轻量级框架改进的目标识别方法，其特征在于：步骤S6具体包括：

S61、加载步骤S52得到的训练好的网络模型权重文件，将测试集输入到上述训练好的YOLOv3-tiny-SE网络模型中，经过卷积层、池化层、SENet结构以及上采样层，得到多尺度特征图；