CN110070074B

CN110070074B - 一种构建行人检测模型的方法

Info

Publication number: CN110070074B
Application number: CN201910377894.9A
Authority: CN
Inventors: 王兵; 卢琨; 周郁明; 王彦; 程木田; 陈鹏
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2022-06-14
Anticipated expiration: 2039-05-07
Also published as: CN110070074A

Abstract

本发明公开了一种构建行人检测模型的方法，属于图形处理技术领域。本发明的一种构建行人检测模型的方法，先从数据库中随机选取行人图像并对行人图像的头部进行标注作为标签文件，再将选取的行人图像划分为训练集、测试集和验证集；而后对训练集进行聚类分析得到新的先验框，再对YOLOv3网络进行网络结构调整；然后利用YOLOv3网络对训练集进行训练得到行人检测模型，再利用验证集对行人检测模型进行评估，最后利用测试集对行人检测模型进行测试。本发明的目的在于克服现有技术中，当监控场景下的行人处于密集状态时，行人检测结果不准确的不足，提供了一种构建行人检测模型的方法，可以解决行人检测时的行人遮挡问题，提高行人检测的准确性。

Description

一种构建行人检测模型的方法

技术领域

本发明涉及图形处理技术领域，更具体地说，涉及一种构建行人检测模型的方法。

背景技术

行人检测(Pedestrian Detection)是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。该技术可与行人跟踪，行人重识别等技术结合，应用于人工智能系统、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。由于行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。

智能视频监控技术是源自人工智能的一个分支领域-计算机视觉技术。随着计算机视觉技术的飞速发展，各种目标检测方法也在不断创新与完善，智能视频监控技术也日益成熟。行人信息作为一种非常重要的信息，使得行人监控在计算机视觉领域成为一个研究热点，在很多场景下需要提供安全支持。

目前行人检测方法主要是基于统计学习的方法。其中又可分为传统的行人检测方法和基于深度学习的行人检测方法。传统方法主要基于人工特征，将行人检测转化成人与非人的二分类问题，包括候选区域生成、特征提取和分类器训练三个部分。但是，手工设计特征的过程相当复杂，而且对研究者的个人要求很高，需要长期的科研积累与重复实验才有可能获得一个良好的特征。正是因为局限于此，传统的行人检测方法难有大的突破。直到近年来，深度学习技术的崛起，在一定程度上克服了人工设计特征的难题。深度学习可以在大量的数据中通过自主学习获得表达样本的本质特征的能力，从而将设计特征转变为学习特征，而且学习得到的特征拥有更加丰富的数据信息和更强的鲁棒性。因此，深度学习技术也被应用于目标检测领域，继而被引入行人检测。

自从深度学习被应用于行人检测领域以后，很多优秀的方法相继被提出。目前，基于深度学习的行人检测方法主要是利用已有的深度学习框架，通过行人数据集，在已有的深度模型上进行fine-tune训练，从而得到最终的行人检测模型。现有的主流检测算法有两类：一类是two-stage方法，这类方法将候选区域生成、特征提取、分类器三个步骤放在一个深度学习框架之中。代表方法如R-CNN系列算法；另一类是one-stage方法，这类方法无需区域提名，从输入图像到检测，整个过程只需要一步，检测实时性高。代表方法有YOLO、SSD。

同时，在现实生活中，相比其它场景下的情况，在监控场景下的行人往往比较密集，遮挡程度较高。根据数据统计，监控场景下的行人的各个部位在摄像头下的可见度都有所不同。其中，可见率最低的行人部位为腿部，其次是行人躯干，而可见率最高的是行人的头肩部位。由此可以说明，在监控场景下，行人的头部是最容易被检测到的。因此，若是将对整个行人躯体的检测转化为只针对行人头部的检测，对于处理监控场景下的行人遮挡问题具有重要的借鉴意义。

发明内容

1.要解决的问题

本发明的目的在于克服现有技术中，当监控场景下的行人处于密集状态时，行人检测结果不准确的不足，提供了一种构建行人检测模型的方法，可以解决行人检测时的行人遮挡问题，提高行人检测的准确性。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种构建行人检测模型的方法，先从数据库中随机选取行人图像并对行人图像的头部进行标注作为标签文件，再将选取的行人图像划分为训练集、测试集和验证集；而后对训练集进行聚类分析得到新的先验框，再对YOLOv3网络进行网络结构调整；然后利用YOLOv3网络对训练集进行训练得到行人检测模型，再利用验证集对行人检测模型进行评估，最后利用测试集对行人检测模型进行测试。

更进一步地，利用k-means对训练集进行聚类分析得到新的先验框数目和纬度。

更进一步地，对YOLOv3网络进行网络结构调整的具体步骤为：删除YOLOv3网络结构中用于检测大型目标的yolo层。

更进一步地，利用验证集对行人检测模型进行评估的具体步骤为：根据训练损失值与验证损失值判断网络训练的情况，若训练损失值和验证损失值随着迭代次数的增加不断下降，则表示网络训练正常，否则表示网络训练异常。

更进一步地，利用测试集测试行人检测模型的准确率和召回率，其中准确率的计算公式为：

召回率的计算公式为：

其中，P表示准确率，TP表示行人检测模型将包含行人的窗口预测为是的数量，FP表示行人检测模型将不包含行人的窗口预测为是的数量，FN表示行人检测模型将包含行人的窗口预测为否的数量。

更进一步地，聚类分析的具体步骤为：1)计算距离，计算距离的公式为：

d(box，centroid)＝1-IOU(box，centroid)

式中，centroid表示簇中心框，box表示聚类框，IOU(box，centroid)表示簇中心框与聚类框的交并比：

2)聚类选值，利用聚类目标函数计算先验框的数量，聚类目标函数的公式为：

式中，B表示标注原始框，k表示先验框的个数，1≤k≤9；IOU(box，B)表示聚类框与标注原始框的交并比：

3)获得先验框，利用聚类目标函数对每个标注框与聚类中心之间的距离进行计算，将标注框移动到距离最近的某个簇的聚类中心；再对每个簇的聚类中心点进行计算，计算公式如下：

式中，N_i表示的是第i个簇中包含的标注框个数，w_i表示聚类中心点的横坐标，h_i表示聚类中心点的纵坐标；W_i′表示先验框的宽度，H′_i表示先验框的高度；重复步骤3)直到聚类中心的位置不变，其中位于聚类中心的边框为最终要求的先验框。

更进一步地，当网络训练异常时，根据训练损失值与验证损失值随着网络迭代次数的变化情况，调整行人检测模型的配置并重新进行网络训练。

更进一步地，网络训练的初始参数设置为：学习率为0.01，批处理样本为64，最大迭代次数为15000次。

3.有益效果

相比于现有技术，本发明的有益效果为：

本发明的一种构建行人检测模型的方法，通过调整YOLOv3网络结构以及卷积层的卷积核数目，从而可以保证检测的精度，又能够提高检测的速度；其次，通过聚类重新获取先验框的数目和维度，使得构建的行人检测模型能够更精确的检测行人头部，从而解决行人检测时的行人遮挡问题，提高了行人检测的准确性；而且本发明的行人检测模型结构简单，计算量小，进一步提高了模型的训练速度以及检测速度。

附图说明

图1为本发明一种构建行人检测模型的方法流程示意图；

图2为实施例1中折线图的示意图；

图3为本发明的YOLOv3的网络结构示意图；

图4为实施例1中行人检测模型的测试示意图一；

图5为实施例1中行人检测模型的测试示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1所示，本发明的一种构建行人检测模型的方法，先从数据库中随机选取行人图像并对行人图像的头部进行标注作为标签文件，再将选取的行人图像划分为训练集、测试集和验证集；而后对训练集进行聚类分析得到新的先验框，再对YOLOv3网络进行网络结构调整；然后利用YOLOv3网络对训练集进行训练得到行人检测模型，再利用验证集对行人检测模型进行评估，最后利用测试集对行人检测模型进行测试。

具体地步骤如下：

步骤一：构建头部模型

从数据库中随机选取不同场景下的具有光照变化和尺度变化的行人图像，并对选取的图像中的行人头部进行标注作为标签文件，即收集真实标注框相对于原图的坐标，包括标注框的中心点坐标、宽度和高度信息，并将这些图像划分为训练集、测试集和验证集；本实施例中从NRIAPerson和PASCALVOC 2012数据库中选取图像，且采用图片标注工具LabelImage对选取的行人图像进行手工标注并生成YOLO格式的标签文件，其中，训练集的图像数量、测试集的图像数量和验证集的图像数量的比例为7∶2∶1。值得说明的是，通过将对行人全身的检测转化为针对行人头部的检测，使得行人在处于密集场景中时拥有更高的可见度，从而解决了行人检测时的遮挡问题，并且构建的头部模型相比全身模型结构更简单，计算量更小，提高了模型的训练速度和检测速度。

步骤二：先验框聚类

本发明利用k-means对训练集进行聚类分析得到新的先验框数目和纬度；先验框的作用是寻找图像里面可能存在目标的区域，设置合理的先验框能够使得预测结果与真实结果的IOU表现更好。其中，IOU是衡量算法预测的目标输出框与人工标注的真实框之间差异的指标，其计算公式如下：

上式中，A表示算法预测的输出框，B表示标注原始框。

YOLOv3算法通过在COCO数据集上进行聚类得到了9个不同维度的先验框。COCO数据集包含了80类不同大小的目标，而本发明的检测目标是行人头部，在整幅行人图像中所占的比例相对较小，所以YOLOv3中原始的先验框数目与尺寸并不适用。本发明通过k-means算法对所述训练集中的图像进行聚类分析，得到新的先验框数目和维度。聚类分析的具体过程为：

1)计算距离

计算距离的公式为：

d(box，centroid)＝1-IOU(box，centroid)

式中，centroid表示簇中心框，box表示聚类框，IOU(box，centroid)表示簇中心框与聚类框的交并比；

2)聚类选值

利用聚类目标函数计算先验框的数量，聚类目标函数表示的是簇内样本间的距离越小，其IOU的值就越大。聚类目标函数的公式为：

通过聚类目标函数计算k取值为1～9时对应的目标函数值S，而后得到折线图(如图2所示)，根据折线图中曲线的变化趋势，寻找拐点，即为要求的k值，也就是选择的先验框的数量。

3)获得先验框

利用聚类目标函数对每个标注框与聚类中心之间的距离进行计算，将标注框移动到距离最近的某个簇的聚类中心；再对每个簇的聚类中心点进行计算，计算公式如下：

式中，N_i表示的是第i个簇中包含的标注框个数，w_i表示聚类中心点的横坐标，h_i表示聚类中心点的纵坐标；W_i′表示先验框的宽度，H′_i表示先验框的高度；

重复步骤3)直到聚类中心的位置不变，其中位于聚类中心的边框为最终要求的先验框。

步骤三：网络结构调整

YOLOv3网络结构分别使用了三个yolo层来检测不同大小的目标，包括大目标、中等目标和小型目标。本发明删除了用于检测大型目标的yolo层，只保留了检测中小型目标的两个yolo层。同时，将步骤二中得到的先验框的数目和维度输入到yolo层中，并对yolo层卷积层的卷积核数目进行了精简，从而可以保证检测的精度，又能够提高检测的速度，改进后的网络结构如图3所示。

步骤四：网络训练

利用调整后YOLOv3网络对训练集进行训练得到行人检测模型。网络训练的初始参数设置为：学习率为0.001，批处理样本为64，最大迭代次数设置为15000次。同时，为增加训练样本数目，防止网络学习过拟合，设置了数据增强操作。数据增强是通过对训练样本图像进行一些物理变换达到增加训练样本数量的目的。主要包括：随机旋转图像的角度、对图像进行水平或垂直平移、调整图像的饱和度、曝光量和色调等。

步骤五：评估模型

利用验证集对行人检测模型进行评估，具体地，根据训练损失值与验证损失值判断网络训练的情况，若训练损失值和验证损失值随着迭代次数的增加不断下降，则表示网络训练正常，否则表示网络训练异常。值得说明的是，当网络训练异常时，根据训练损失值与验证损失值随着网络迭代次数的变化情况，调整行人检测模型的配置并重新进行网络训练；例如网络训练时出现训练损失值随着迭代次数的增加不断下降，而验证损失值随着迭代次数的增加趋于不变甚至在上升，说明网络学习过拟合了，这时需要通过调整行人检测模型配置降低过拟合，比如添加dropout正则化方法，而后让网络重新训练。如果训练损失值趋于不变，验证损失值也趋于不变，此时需要减小学习率或批处理样本数目。

损失值是指模型通过学习得到的目标预测值与真实值之间的误差，本发明通过损失函数计算得到损失值，损失函数采用联合优化的形式，分别对物体的中心点坐标(x，y)、先验框长度和宽度的回归值(w，h)、置信度confidence以及类别class进行优化。其计算公式为：

loss＝xy_loss+wh_loss+confidence_loss+class_loss

步骤六：测试模型

利用测试集对行人检测模型进行测试，具体地，根据准确率和召回率判断测试结果，使用行人检测模型对行人图像进行测试的时候可能会出现4种情况：

True Positive(TP)：模型将包含行人的窗口预测为是；

True Negative(TN)：模型将不包含行人的窗口预测为否；

False Positive(FP)：模型将不包含行人的窗口预测为是；

False Negative(FN)：模型将包含行人的窗口预测为否。

当准确率和召回率分别为多少时，表示行人检测模型通过测试

其中准确率的计算公式为：

召回率的计算公式为：

其中，P表示准确率，TP表示行人检测模型将包含行人的窗口预测为是的数量，FP表示行人检测模型将不包含行人的窗口预测为是的数量，FN表示行人检测模型将包含行人的窗口预测为否的数量；本发明的准确率为87％～96％，召回率为85％～93％，本实施例的准确率为95％，召回率为93％。

行人检测模型在图像上的直观测试结果如图4所示，行人检测模型在视频上的直观测试结果如图5所示。本实施例构建的行人检测模型对于行人的检测准确性高，而且定位精度高。同时，在监控视频上的检测FPS达到了三十多帧每秒，完全满足实时检测的要求。

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。

Claims

1.一种构建行人检测模型的方法，其特征在于，先从数据库中随机选取行人图像并对行人图像的头部进行标注作为标签文件，再将选取的行人图像划分为训练集、测试集和验证集；而后对训练集进行聚类分析得到新的先验框，利用k-means对训练集进行聚类分析得到新的先验框数目和纬度；聚类分析的具体步骤为：

1)计算距离

计算距离的公式为：

d(box,centroid)＝1-IOU(box,centroid)

式中，centroid表示簇中心框，box表示聚类框，IOU(box,centroid)表示簇中心框与聚类框的交并比：

2)聚类选值

利用聚类目标函数计算先验框的数量，聚类目标函数的公式为：

式中，B表示标注原始框，k表示先验框的个数，1≤k≤9；IOU(box,B)表示聚类框与标注原始框的交并比：

通过聚类目标函数计算k取值为1～9时对应的目标函数值S，而后得到折线图，根据折线图中曲线的变化趋势，寻找拐点得到k值；

3)获得先验框

式中，N_i表示的是第i个簇中包含的标注框个数，w_i表示聚类中心点的横坐标，h_i表示聚类中心点的纵坐标；W_i'表示先验框的宽度，H_i'表示先验框的高度；

重复步骤3)直到聚类中心的位置不变，其中位于聚类中心的边框为最终要求的先验框；

再对YOLOv3网络进行网络结构调整；具体地，删除YOLOv3网络结构中用于检测大型目标的yolo层，同时将获得的先验框数目和维度输入到yolo层中，并对yolo层卷积层的卷积核数目进行精简；然后利用YOLOv3网络对训练集进行训练得到行人检测模型，再利用验证集对行人检测模型进行评估，最后利用测试集对行人检测模型进行测试；利用验证集对行人检测模型进行评估的具体步骤为：根据训练损失值与验证损失值判断网络训练的状态，若训练损失值和验证损失值随着迭代次数的增加不断下降，则表示网络训练正常，否则表示网络训练异常；

其中，损失值由损失函数计算获得，损失函数采用联合优化的方式，分别对物体的中心点坐标(x,y)、先验框长度和宽度的回归值(w,h)、置信度confidence以及类别class进行优化，其计算公式为：

loss＝xy_loss+wh_loss+confidence_loss+class_loss。

2.根据权利要求1所述的一种构建行人检测模型的方法，其特征在于，利用测试集测试行人检测模型的准确率和召回率，其中准确率的计算公式为：

召回率的计算公式为：

3.根据权利要求1所述的一种构建行人检测模型的方法，其特征在于，当网络训练异常时，根据训练损失值与验证损失值随着网络迭代次数的变化情况，调整行人检测模型的配置并重新进行网络训练。

4.根据权利要求1～3任一项所述的一种构建行人检测模型的方法，其特征在于，网络训练的初始参数设置为：学习率为0.01，批处理样本为64，最大迭代次数为15000次。