CN112084928B

CN112084928B - 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法

Info

Publication number: CN112084928B
Application number: CN202010920823.1A
Authority: CN
Inventors: 王晨; 周威; 夏井新; 陆振波; 钱振东
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2024-06-21
Anticipated expiration: 2040-09-04
Also published as: CN112084928A

Abstract

本发明公开了一种基于视觉注意力机制和ConvLSTM网络的道路事故检测方法，包括如下步骤：收集和划分事故图片数据集和视频数据集；搭建事故外观特征提取网络；训练事故外观特征提取网络；在训练后的事故外观特征提取模型的基础上引入事故的运动特征提取网络，完成总事故检测模型的搭建；使用视频数据训练集对总事故检测模型进行训练；通过训练后的总事故检测模型进行事故检测。本发明采用基于视觉注意力模块CBAM和图像特征提取网络ResNet‑50融合的事故外观特征提取模型，能够捕捉更局部，更具体的事故外观特征；采用了ConvLSTM网络捕捉事故运动特征，弥补了RNN和LSTM网络无法很好捕捉事故运动特征等缺陷，从而提高了事故检测精度。

Description

基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法

技术领域

本发明涉及道路交通事故检测领域，具体涉及一种基于视觉注意力机制和ConvLSTM网络的事故检测方法。

背景技术

随着我国机动化水平的不断提升，道路交通安全问题逐渐凸显，交通事故频发。交通事故可能导致财产损失和人员伤亡，并且可能引发交通拥堵，给交通管理带来了极大的挑战。为了有效提高事故应急处置的响应速度，减少由于救援不及时导致的人员伤亡和交通拥堵，研究交通事故的快速检测技术具有重要的现实意义。近年来，基于计算机视觉的交通事故检测逐步得到了研究者的重视，其主要原理是通过识别交通图像/视频中的重要特征来实现对交通事故的自动检测。该技术可以有效降低人力成本，并已经取得了较高的检测精度，是一种非常有潜力的智能事故检测技术。

传统的计算机视觉方法在进行事故检测时主要聚焦于车辆的运动特征，如车辆的轨迹交叉、检测框重叠比例和时长、速度变化等，该方法在论文《An effective step toreal-time implementation of accident detection system using image processing》得到阐述和应用。近年来，研究者在事故运动特征的基础上引入外观特征检测，通过事故外观特征和运动特征的融合，模型可以进一步提升事故特征的捕捉能力，从而提升对特定类型/程度交通事故的检测精度，具有代表性的论文有《Intelligent Intersection:Two-Stream Convolutional Networks for Real-Time Near-Accident Detection inTraffic Video》，它借鉴了行为识别模型two stream网络，将事故外观特征和运动特征分开提取，并融合到一起判断事故发生与否。论文《Domain Adaptation for Car AccidentDetection in Videos》也是采用事故外观和运动特征融合的方式判断事故，使用C3D模型对交通事故进行检测，并且针对真实交通数据集不充足的问题，提出了使用区域适应(DA)的迁移学习方法，将在仿真事故视频训练的结果迁移到真实事故场景中。

但是，现有的这些检测方法还是存在诸多缺点，具体如下：

(1)在对事故的外观特征提取时，模型不能很好地聚焦于局部信息，特别是复杂道路环境下(拥堵较严重)提取事故外观特征易受干扰，导致检测精度并不理想。

(2)目前多数基于特征融合的模型在处理运动特征时，主要采用长短时间记忆LSTM或者3D卷积。LSTM网络一定程度上损失了事故的空间信息，造成检测精度上的损失；3D卷积由于参数量多，难以训练，检测精度受限于数据集的大小和质量。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于视觉注意力机制和ConvLSTM网络的事故检测方法，其提出了一种全新的、基于特征融合的事故检测方法，该方法为了更好地使事故外观特征提取网络可以聚焦于监控视频中局部发生的事故(事故发生区域在视频画面中较小)，将视觉注意力机制与图像分类识别模型(残差网络ResNet-50)结合，提取更局部，更具体的事故外观特征，同时，引入了Conv-LSTM捕捉事故发生的运动特征。

技术方案：为实现上述目的，本发明提供一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，包括如下步骤：

S1：收集和划分事故图片数据集和事故视频数据集，划分后的事故图片数据集包括图片数据训练集和图片数据测试集，划分后的事故视频数据集包括视频数据训练集和视频数据测试集；

S2：搭建事故外观特征提取网络；

S3：使用图片数据训练集对事故外观特征提取网络进行训练，且使用图片数据测试集对训练好的事故外观特征提取网络进行测试；

S4：在训练后的事故外观特征提取模型的基础上引入事故的运动特征提取网络，完成总事故检测模型的搭建；

S5：使用视频数据训练集对总事故检测模型进行训练，且使用视频数据测试集对训练好的总事故检测模型进行测试；

S6：通过训练后的总事故检测模型进行事故检测。

进一步地，所述步骤S2中事故外观特征提取网络的搭建过程为：

S21：选择残差网络为基准网络，利用Pytorch深度学习框架进行搭建，首层是一个卷积层，紧连着的是一个批归一化层和一个最大池化层，然后不断使用残差模块堆叠来获得较强的图像特征提取能力，最后使用全局平均池化层和全连接层完成对物体进行分类；

S22：在步骤S21的基础上，在其残差单元插入CBAM视觉注意力模块。

进一步地，所述步骤S3中事故外观特征提取网络的训练过程为：

S31：将在ImageNet数据集上预训练的残差网络权重迁移到事故外观特征提取模型对应的参数权重中；

S32：选择训练优化器，设定初始学习率和ImageNet数据集预训练权重的学习率以及训练轮次；

S33：训练损失在连续两轮内不再发生变化的时候，调整学习率。

进一步地，所述步骤S4中总事故检测模型的搭建过程具体为：

S41：搭建基于网络提取事故视频的外观特征；

S42：使用卷积对输出的特征图进行降维；

S43：将步骤S42降维后的特征图输入到按时间方向连接的运动特征提取网络，提取事故的运动特征。

进一步地，所述步骤S5中总事故检测模型的训练过程为：

S51：将在事故图片数据集上训练的事故外观特征提取网络权重迁移到总事故检测模型中；

S52：选择优化器进行训练，设定事故外观特征提取网络权重学习率和运动特征提取网络权重；

S53：训练过程中，训练损失在连续两轮内不再发生变化的时候，调整学习率。

进一步地，所述事故外观特征提取网络为ResNet-50+CBAM事故外观特征提取网络。

进一步地，所述步骤32中训练优化器为Adam优化器。

本发明提出了一种基于监控视频对交通事故进行快速检测的新方法，采用基于视觉注意力模块CBAM和图像特征提取网络ResNet-50融合的事故外观特征提取模型，能够捕捉更局部，更具体的事故外观特征；采用了ConvLSTM网络捕捉事故运动特征，弥补了RNN和LSTM网络无法很好捕捉事故运动特征等缺陷，进一步挖掘事故发生时的运动特征，从而提高了事故检测精度。

本发明使用基于视觉注意力机制和ConvLSTM网络的深度学习模型对监控录像中的事故进行快速判别。其中视觉注意力机制CBAM模块使得模型能够更好地捕捉局部的事故外观特征，特别是当事故区域位于事故画面中的较小区域；本发明采用的ConvLSTM网络相较于LSTM网络或者一维卷积，能够更好地捕捉事故在时间维度上的特征，即事故的运动特征。

本发明采用残差网络模型ResNet-50和视觉注意力模块CBAM结合，用来更好地捕捉事故外观特征，弥补仅靠单一的ResNet-50模型导致对部分事故(事故发生区域位于视频画面的较小区域)检测精度不佳的问题。

本发明采用ConvLSTM网络代替传统LSTM模型捕捉事故的运动特征，弥补传统LSTM模型因为将数据铺平而易造成空间信息流失等问题，提升了检测的精度。

有益效果：本发明与现有技术相比，其具备如下优点：

1、模型更小，运行速度更快。目前最常见的基于计算机视觉技术的事故检测方式为基于车辆检测和车辆追踪的规则式事故判别方式，即通过车辆检测和追踪后捕捉车辆的运动特征，如轨迹，速度等，然后根据提取的运动特征设定相应的判别规则。但是此类方法的检测速度受到车辆检测和追踪算法的限制，往往无法达到实时性检测的需求。本发明提出的模型相较于现有车辆检测和追踪模型，模型更小，前向推理速度更快，在GPU1060的硬件基础上，检测速度可以达到30FPS，满足实时性要求(正常视频帧率为24帧)。

2、事故检测精度更高。本发明提供的模型融合了事故的外观特征和运动特征，相较于仅使用事故运动特征作为检测依据的事故检测模型，本发明模型利用视觉注意力模块CBAM和残差网络ResNet-50融合，捕捉了更局部，更具体的事故外观特征，在事故检测精度上优于目前存在的仅基于事故运动特征的事故检测模型。相较于目前存在基于事故运动特征和外观特征融合的事故检测方式，常见的有基于3d卷积的C3D模型，基于时空序列的Twostream模型等，对比之下，本发明模型的ResNet-50+CBAM网络能够捕捉更局部的外观信息，同时我们引入了ConvLSTM网络捕捉事故空间信息在时间上的关系，从而能够更好地捕捉事故的运动特征，从而提升了事故检测的精度。

附图说明

图1为本发明方法的流程示意图；

图2为ResNet-50残差单元示意图；

图3为CBAM嵌入残差单元中的示意图；

图4为总事故检测模型框架示意图；

图5为部分事故外观提取网络测试集精度对比图；

图6为部分事故外观特征提取网络可视化效果图；

图7为ResNet-50+CBAM+ConvLSTM(双层)可视化效果图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

如图1所示，本发明提供一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，包括如下步骤：

S1：收集和划分事故图片数据集和视频数据集，划分后的事故图片数据集包括图片数据训练集和图片数据测试集，划分后的事故视频数据集包括视频数据训练集和视频数据测试集；事故视频数据集在划分之前依次进行过序列化、视频序列固定长度采样和视频序列数据标准化处理，得到视频序列数据训练集和视频序列数据测试集；对划分后的图片数据训练集依次进行数据增强和标准化处理，图片数据测试集进行过标准化处理。

本实施例中数据集的具体收集和划分为：

收集5061张事故图片和5573张非事故图片，图片分辨率从640x480到1920x1080不等，事故类型以机动车之间，机动车与非机动车事故为主，覆盖高速公路，信号交叉口等区域。本实施例中选用3861张事故图片和4373张非事故图片作为训练集(其中各选1200张图片作为测试集)，用来训练ResNet-50+CBAM事故外观特征提取网络；收集420个事故视频和432个非事故视频，视频事故集事故类型丰富，以机动车间，机动车和非机动车为主，同时也包含了非机动车之间，机动车与行人，非机动车与行人等事故类型。本实施例中采样了330个事故视频和342个非事故视频(其中各选90个视频作为测试集)用来训练总事故检测网络。

S2：搭建ResNet-50+CBAM事故外观特征提取网络：

S21：选择残差网络ResNet-50为基准网络，利用Pytorch深度学习框架进行搭建。该网络首层是一个7x7卷积层，紧连着的是一个批归一化层和一个最大池化层，然后不断使用残差模块堆叠来获得较强的图像特征提取能力，具体如图2所示，最后使用全局平均池化层和全连接层完成对物体进行分类；

S22：在步骤S21中ResNet-50的基础上，如图3所示，在其残差单元插入CBAM视觉注意力模块，CBAM模块提升了模型提取图片特征的能力，使得事故外观特征提取网络能够更好地捕捉局部的，较小区域的事故外观特征。

S3：训练和测试ResNet-50+CBAM事故外观特征提取网络：

S31：将在ImageNet数据集上预训练的ResNet-50权重迁移到事故外观特征提取模型对应的参数权重中；

S32：训练优化器选择Adam优化器，初始学习率设定为0.001，从ImageNet数据集预训练权重的学习率设定为0.0001，训练轮次为50轮；

S33：在标准化处理后的图片数据训练集上进行训练，当训练损失在连续两轮内不再发生变化的时候，学习率调整为原来的1/10。

S34：使用图片数据测试集对训练好的事故外观特征提取网络进行测试。

S4：在训练后的事故外观特征提取模型的基础上引入事故的运动特征提取网络，完成总事故检测模型的搭建，参照图4所示的框架图，其具体的搭建过程为：

S41：搭建基于ResNet-50+CBAM网络提取事故视频的外观特征；

S42：使用一个1*1卷积对输出的特征图进行降维；

S43：将步骤S42降维后的特征图输入到按时间方向连接的Conv-LSTM网络，提取事故的运动特征。

S5：对总事故检测模型进行训练和测试，具体的过程如下：

S51：将在事故图片数据集上训练的ResNet-50+CBAM权重迁移到总事故检测模型中；

S52：在视频序列数据训练集上进行训练，训练过程中，优化器选择Adam优化器，ResNet-50+CBAM权重学习率设定为0.0001，ConvLSTM网络权重设定为0.001；

S53：训练过程中，当训练损失在连续两轮内不再发生变化的时候，学习率下降为原来的1/10；

S54：使用视频序列数据测试集对训练好的总事故检测模型进行测试。

S6：通过训练后的总事故检测模型进行事故检测。

本实施例中得到如图7所示的效果图，为了验证本发明方法的效果，进行仿真实验，仿真结果具体如下：

1、得到表1所示的各事故外观提取网络测试集精度对比表以及图5所示的精度对比图，

表1各事故外观提取网络测试集精度

由表1和图5可以看出，相较于其他事故外观特征提取模型，本发明采用的ResNet-50+CBAM事故外观特征提取模型在事故图片数据集上精度更高(90.17％)。

2、得到如图6所示的部分事故外观特征提取网络可视化效果图，由图6可见，采用了Grad-CAM算法对若干典型的事故外观特征提取网络可视化的效果图，本发明的ResNet-50+CBAM网络相较于其他网络模型能够更好地捕捉局部的事故外观特征。

3、得到如表2所示的各事故检测模型测试集精度对比表：

表2各事故检测模型测试集精度

由表2可见，本发明提供的特征融合模型既能捕捉事故动作特征，也能捕捉事故的外观特征，精度明显提升。其中，规则式模型(ResNet-50+CBAM+规则(10张))和LSTM类模型(ResNet-50+CBAM+LSTM)效果低于CONV-LSTM类模型。规则模型指的是通过识别视频中每一帧的事故外观特征来判断视频是否为事故。显然，这种仅依靠事故外观特征的规则式判别方法不能很好地捕捉事故的运动特征，对事故外观特征不明显的事故检测精度较差(TN值较高，事故被检测为非事故，即不能很好检测外观特征不明显但存在运动特征的事故)。LSTM类模型虽然引入了事故的运动信息，但是由于LSTM输入需要铺平特征图导致其损失大量的事故外观信息，精度仅比第一种方式高一点。相比之下，Conv-LSTM类模型最大程度同时保留了事故的外观和运动特征(时空信息)，从TN值的降低可以看出其可以更好地捕捉事故的运动特征。

同时，ResNet-50+CBAM+ConvLSTM模型框架不仅在检测精度上胜于传统的基于运动特征的检测模型(模型1)，速度上也是大幅度领先。相较于模型1的检测速度(FPS＝0.73)，本发明的模型满足事故检测的实时性要求(FPS>24)。

Claims

1.一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：包括如下步骤：

S2：搭建事故外观特征提取网络；

S6：通过训练后的总事故检测模型进行事故检测；

步骤S4中总事故检测模型的搭建过程具体为：

S41：搭建基于网络提取事故视频的外观特征；

S42：使用卷积对输出的特征图进行降维；

S43：将步骤S42降维后的特征图输入到按时间方向连接的运动特征提取Conv-LSTM网络，提取事故的运动特征。

2.根据权利要求1所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：步骤S2中事故外观特征提取网络的搭建过程为：

3.根据权利要求1所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：步骤S3中事故外观特征提取网络的训练过程为：

4.根据权利要求1所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：步骤S5中总事故检测模型的训练过程为：

5.根据权利要求1所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：事故外观特征提取网络为ResNet-50+CBAM事故外观特征提取网络。

6.根据权利要求3所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：步骤32中训练优化器为Adam优化器。

7.根据权利要求1所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：步骤S3中的图片数据训练集依次进行过数据增强和标准化处理，图片数据测试集进行过标准化处理。

8.根据权利要求1所述的一种基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法，其特征在于：步骤S1中事故视频数据集在划分之前依次进行过序列化、视频序列固定长度采样和视频序列数据标准化处理。