CN117636296A - 一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法 - Google Patents
一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法 Download PDFInfo
- Publication number
- CN117636296A CN117636296A CN202311512674.5A CN202311512674A CN117636296A CN 117636296 A CN117636296 A CN 117636296A CN 202311512674 A CN202311512674 A CN 202311512674A CN 117636296 A CN117636296 A CN 117636296A
- Authority
- CN
- China
- Prior art keywords
- yolo
- improved
- module
- traffic sign
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000002427 irreversible effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 3
- 230000016776 visual perception Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 235000019879 cocoa butter substitute Nutrition 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于改进LEP‑YOLO v7的城市道路交通标志检测与识别方法,包括:S1)获取具有交通标志图像的数据集,将数据集中的所有交通标志图像进行归一化操作,并将数据集中所有的图像缩放成指定大小尺寸;S2)基于YOLO v7算法构建改进型YOLO v7网络结构,得到改进YOLO v7模型;S4)通过在改进YOLO v7模型添加EEP边缘处理模块,得到改进LEP‑YOLO v7模型;S5)采用改进LEP‑YOLO v7模型对经过步骤S1)处理后数据集中所有图像中的交通标志检测与识别。本发明算法相比于原始的YOLOv7算法,对交通标志的检测有所改进,提高了YOLOv7算法对交通标志的平均识别精度,本发明方法为交通标志检测领域的研究提供了一种新的思路,对提高自动驾驶汽车的视觉感知能力具有一定意义。
Description
技术领域
本发明涉及一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法。
背景技术
车辆在城市道路上经常会遇到复杂的环境,如交通标志的遮挡、交通标志运动的模糊、交通标志目标的尺度较小等影响,造成传统目标检测算法存在较大的误检率。传统目标检测算法只能适应单一环境,当遇到复杂多变的环境时,不能达到理想的检测效果,泛化性能较差。而基于深度学习的目标检测算法是计算机视觉的一个新的趋势,随着算法的结构复杂化,权重的参数量也明显增加。当该算法应用于移动设备中时,庞大的网络模型使得网络的参数消耗了较多的计算资源,从而降低了网络的推理速度。
针对上述问题,设计检测精度高和检测实时性高的目标检测算法,对于克服当前的目标检测算法存在的局限性具有极高的应用价值。
发明内容
本发明是为了解决上述现有技术存在的问题而提供一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法。
本发明所采用的技术方案有:
一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,包括
S1)获取具有交通标志图像的数据集,将数据集中的所有交通标志图像进行归一化操作,并将数据集中所有的图像缩放成指定大小尺寸;
S2)基于YOLO v7算法构建改进型YOLO v7网络结构,得到改进YOLO v7模型;
所述改进YOLO v7模型的改进点在于:
1.采用图像增强对原始YOLOv7算法的输入图片进行改进;
2.在原始YOLO v7算法中主干网络中用改进后的ELANSTB模块替换原有YOLO v7算法中的ELAN模块;
3.在原始YOLO v7算法中主干网络的CBS模块的卷积层后面添加CBAM注意力机制;
4.将原始YOLO v7算法中的损失函数更替为SIoU损失函数;
S4)通过在改进YOLO v7模型添加EEP边缘处理模块,得到改进LEP-YOLO v7模型;
S5)采用改进LEP-YOLO v7模型对经过步骤S1)处理后数据集中所有图像中的交通标志检测与识别。
进一步地,步骤S2)中,采用直方图均衡化、滤波、噪声抑制和对比度增强方式,对交通标志图像进行去噪声,增强图像的对比度。
进一步地,步骤S2)中,所述改进后的ELANSTB模块为:将两个连续的STB模块嵌入到原始YOLO v7算法中主干网络中的ELAN模块中,得到ELANSTB模块。
进一步地,所述ELANSTB模块用滑动窗口注意力机制MSA。
进一步地,所述步骤S2)中,在原始YOLO v7算法中主干网络的CBS模块的卷积层后面添加CBAM注意力机制,具体为:
所述CBAM注意力机制包括两个子模块,方便对应为:通道注意力模块MC(F)和空间注意力模块MS(F);
原始YOLO v7算法中主干网络中的ELAN模块输出的特征图F输入到通道注意力模块MC(F)建模,对各通道赋予不同的权重得到特征F’,通道注意力模块MC(F)公式如下:
其中,σ指激活函数,W0和W1指全连接层MLP的权重,AvgPool为全局平均池化,MaxPool为全局最大池化,分别沿着通道轴进行平均池化操作和最大池化操作,得到的是平均池化的特征和最大池化的特征/>
特征图F’与输入特征图F相乘后输入空间注意力模块MS(F)建模,使目标检测模型对特征图F’、F感兴趣的区域给予更多关注,得到权重系数F”,空间注意力模块MS(F)公式如下:
其中,σ指激活函数,指逐元素加和操作,AvgPool为全局平均池化,MaxPool为全局最大池化,分别沿着空间轴进行平均池化操作和最大池化操作,得到的是平均池化的特征和最大池化的特征/>
进一步地,所述步骤S4)中,具体为:
S41)定义数据集中所有图像I∈Rh×w×3作为输入,使用高斯金字塔获得不同分辨率的子图像,
G(x)=Down(Gaussian(x)) (1)
其中,Down表示下采样,高斯表示高斯滤波,高斯核的大小为5×5;
每次高斯金字塔运算后,图像的尺寸和分辨率都不断地降低,且高斯金字塔的下采样操作为不可逆;
S42)为了在上采样后恢复原始的高分辨率图像,需要收集丢失的信息,而丢失的信息构成了拉普拉斯金字塔的组成部分,将拉普拉斯金字塔的定义为:
Li=Gi-Up(Gi+1) (2)
Li表示拉普拉斯金字塔中的第i层;Gi表示高斯金字塔中的第i层,Up为双线性上采样操作;
S43)在重建图像时,通过执行公式(2)的反向操作,恢复高分辨率图像;
S45)通过EEP边缘处理模块增强拉普拉斯金字塔中的组件,EEP边缘处理模块使用两个不同方向的Scharr算子计算图像梯度,获得边缘,增强组件的纹理。
进一步地,Scharr算子通过计算梯度逼近来找到边缘,在水平方向和垂直方向上使用Scharr算子,通过卷积滤波器重新提取边缘信息,并使用残差增强信息流,过程表示为:
EEP(x)=F(Scharrh(x)+Scharrw(x))+x (3)
Scharrh和Scharrw分别表示垂直和水平方向的Scharr操作,F为内核为3×3的卷积层。
本发明具有如下有益效果:
本发明算法相比于原始的YOLOv7算法,对交通标志的检测有所改进,提高了YOLOv7算法对交通标志的平均识别精度,本发明方法为交通标志检测领域的研究提供了一种新的思路,对提高自动驾驶汽车的视觉感知能力具有一定意义。
附图说明
图1为现有YOLO v7网络模型结构示意图。
图2为检测模型Backbone结构图。
图3为ELAN的网络结构图。
图4为两个连续的Swin Transformer Blocks。
图5为改进后的ELANSTB结构示意图。
图6为CBS结构示意图。
图7为加入注意力机制后CBS结构示意图。
图8为通过拉普拉斯金字塔得到了四个不同尺寸的特征图。
图9为现有YOLO v7与本发明LEP-YOLO v7对图像进行处理的对比图。
具体实施方式
下面结合附图1-9对本发明作进一步的说明。
如图1所示,本发明一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,包括如下步骤:
S1)获取具有交通标志图像的数据集,将数据集中的所有交通标志图像进行归一化操作,并将数据集中所有的图像缩放成指定大小尺寸;
S2)基于YOLO v7算法构建改进型YOLO v7网络结构,得到改进YOLO v7模型;
所述改进YOLO v7模型的改进点在于:
1.采用图像增强对原始YOLOv7算法的输入图片进行改进;
2.在原始YOLO v7算法中主干网络中用改进后的ELANSTB模块替换原有YOLO v7算法中的ELAN模块;
3.在原始YOLO v7算法中主干网络的CBS模块的卷积层后面添加CBAM注意力机制;
4.将原始YOLO v7算法中的损失函数更替为SIoU损失函数;
S4)通过在改进YOLO v7模型添加EEP边缘处理模块,得到改进LEP-YOLO v7模型;
S5)采用改进LEP-YOLO v7模型对经过步骤S1)处理后数据集中所有图像中的交通标志检测与识别。
以下对本发明内容进行详细描述。
首先,构建一个YOLOv7网络模型。如图1所示,YOLOv7网络由三个部分组成,分别是输入端(Input),骨干网络(Backbone)和检测头(Head)。其中Conv(Convolution)为卷积层,CBS(Conv+Batchnormalization+Silu)由卷积层、批标准化和Silu损失函数组成,Conv网络层和CBS用于特征提取;MP1和MP2由最大池化层(Max Pooling)和CBS组成。UP采用最近邻插值算法用于上采样,MP和UP共同用于特征融合和降维,加快网络训练速度;Cat(Concat)为连接层,用于多分支特征融合。
ELAN(Efficient LayerAggregation Network,ELAN)和ELAN2由多个CBS构成,通过控制最短和最长的梯度路径,使网络能够学习到更多的特征,输入和输出特征大小保持不变。SPPCSPC为空间金字塔结构,通过不同的最大池化参数来获得不同感受野,用于检测图片中不同大小的目标;REP结构由RepConv组成,其借鉴了RepVGG的结构思想,RepConv是将3x3卷积、1x1卷积和恒等映射合成了一个卷积,网络中包含了三个REP分支,分别用于特征提取、平滑特征和特征传递。
上述YOLOv7模型的输入端用于图片的预处理和数据增强,首先将文件读取成RGB彩色图像,再进行归一化操作,将图片缩放成指定的尺寸。在网络训练阶段,YOLOv7会判断是否使用Mosaic进行拼接处理并完成数据增强。Mosaic方法是通过将待训练的几张图片拼接组成一张图片,该方法不但可以极大提升网络的训练速度,而且可以降低了模型的内存需求。骨干网络使用卷积神经网络在不同的图像粒度上进行特征提取,采用自顶向下、自底向上联合的特征融合方式,将不同层级的图像特征进行重新组合,传递给检测头。检测头根据传递过来的图像特征进行边界框和类别的预测,通过非极大值抑制(Non-MaximumSuppression,NMS)消除冗余预测框,最终输出置信度最高的预测类别和边框坐标。
改进YOLO v7模型搭建模型过程中:
首先,采用图像增强来对YOLOv7输入图片进行改进。
图像增强技术的主要原理是通过数字信号处理方法改善图像的视觉品质或提供更好的数据作为图像分析和处理的输入。本发明中图像增强方法包括直方图均衡化、滤波、噪声抑制和对比度增强。这些方法可以帮助消除图像中的噪声、增强图像的对比度和细节信息、平滑图像等,从而使图像更加清晰、准确、易于分析和理解。同时,在图像识别和分析任务中,图像增强技术也能够提高模型训练和检测的准确性和鲁棒性。
YOLOv7的骨干网络结构如图2所示,输入图片经过4个CBS后,特征图变为160*160*128大小。随后会经过ELAN模块,ELAN由多个CBS构成,其输入输出特征大小保持不变,通道数在开始的两个CBS会有变化,后面的几个输入通道都是和输出通道保持一致的,经过最后一个CBS输出为需要的通道,ELAN模块的结构如图3所示。
道路场景中范围大,面积广,交通标志尺寸大小不一,随着网络结构的加深,大部分小目标在图像中的主要特征信息往往会遭到丧失。这是因为卷积操作往往会导致图像的高频信息(如细节和纹理)丧失,特别是在处理小目标时更加明显。这个现象在计算机视觉领域被称为“小目标消失问题”(Small Object Vanishing Problem),容易造成误检和漏检。因此,在ELAN模块中引入了Swin Transformer Block(STB)整合为ELANSTB模块,提升了目标的语义理解及其特征表示的能力,提高了模型的泛化能力。
STB结构如图4所示。STB由多层感知机(Multilayer Perceptron,MLP)、移位窗口多头自注意力模块(Shifted Window Multi-head SelfAttention,SW-MSA)和成对的窗口多头自注意力模块(Window Multi-headSelf-Attention,WMSA)组成。每个MSA和MLP之后使用残差连接,两种模块交替使用,图4左框使用W-MSA,右框中使用SW-MSA。
为了解决交通标志检测中的目标丢失问题,引入了改进后的ELANSTB模块。在这个模块中,将两个连续的STB嵌入到backbone部分中的ELAN模块中。ELANSTB模块通过使用滑动窗口注意力机制MSA,增强了提取全局信息和丰富的上下文信息的能力。这样一来,感受野也得到了扩大,同时还增强了对小目标的语义信息和特征表达能力。
此外,改进后的ELANSTB模块使用了一种划分局部窗口的方式,来控制所有窗口之间的信息交互。这种方式不仅可以降低计算量,还可以进一步优化模块的性能。具体的ELANSTB模块结构可以参考图5。通过将ELANSTB模块引入到交通标志检测中,得到了一个更具效果的模型。
为了在YOLOv7中进一步提升性能,引入CBAM(Convolutional Block AttentionModule,卷积块注意力模块)注意力机制。CBAM注意力机制结合了通道注意力和空间注意力两种机制,能够帮助模型更好地理解图像中的特征,并提升准确性和鲁棒性。接下来,本发明将详细介绍如何将CBAM注意力机制集成到YOLOv7中。
首先,主干网络使用卷积层提取图像特征,而特征金字塔网络通过多个分辨率的特征图来检测不同大小的目标。最后,输出层负责预测目标的边界框和类别。如图6,CBS主要是Conv+BN+SiLU构成,为了引入CBAM注意力机制,需要在主干网络中的每个卷积块(Conv)后面添加CBAM模块,改进后如图7所示。
CBAM模块包括两个子模块:通道注意力模块和空间注意力模块。通道注意力模块用于调整特征图的通道权重,以便更好地关注重要特征。它由全局平均池化层、全连接层和激活函数组成。
1.1、CBAM包含两部分,一是通道的注意力,二是空间的注意力。ELAN模块输出的特征图F输入到通道注意力模块MC(F)建模,对各通道赋予不同的权重得到特征F’,通道注意力模块MC(F)公式如下:
其中,σ指激活函数,W0和W1指全连接层MLP的权重,AvgPool为全局平均池化,MaxPool为全局最大池化,分别沿着通道轴进行平均池化操作和最大池化操作,得到的是平均池化的特征和最大池化的特征/>
1.2、特征图F’与输入特征图F相乘后输入空间注意力模块MS(F)建模,使目标检测模型对特征图F’、F感兴趣的区域给予更多关注,得到权重系数F”,空间注意力模块MS(F)公式如下:
其中,σ指激活函数,指逐元素加和操作,AvgPool为全局平均池化,MaxPool为全局最大池化,分别沿着空间轴进行平均池化操作和最大池化操作,得到的是平均池化的特征和最大池化的特征/>
之后,在上述基础上进行损失函数的改进。
本实施例采用SIoU(Scylla-IoU,SIoU)替换CIoU(Complete-IoU,CIoU)作为训练的损失函数。
SIoU损失函数综合考虑真实框和候选框之间的不同角度,会影响候选框的置信度这一问题,定义角度损失如公式所示,其中定义σ为真实框和候选框之间中心点的距离。
式中,Λ表示角度损失;α表示真实框与候选框之间的水平夹角;Ch表示真实框和候选框之间的垂直距离;x表示真实框与候选框之间的水平夹角正弦值。
针对现有的损失函数没有考虑框之间角度关系的问题,本实施例采用SIoU的损失函数,如公式所示,其中SIoU由角度损失、距离损失、形状损失和IoU损失组成。
式中,Ω表示形状损失;Δ表示距离损失;IoU表示和候选框的交并比。在计算距离损失Δ时需要先计算γ,γ需要先通过先计算角度损失Λ得到,如公式所示:
γ=2-Λ
式中,WGT和W分别表示真实框和预测框的宽度;HGT和H分别为真实框和预测框的高度;和/>分别表示真实框和预测框中心点的横坐标;/>和/>分别表示真实框和预测框中心点的纵坐标;Cw和Ch分别表示真实框和候选框的最小外接矩形的水平长度和垂直长度;γ、ρ(包括所有不同下标)和ω(包括所有不同下标)分别表示不同的计算角度损失的中间变量,通过候选框和真实框之间的中心点距离和最小外接矩形宽高比值得到;max表示取最大值函数;m和n表示计算距离损失时的取值范围;p和q表示计算形状损失时的取值范围;t表示中间变量;θ表示通过遗传算法计算出不同数据集的特殊参数,用于计算形状损失。
传统的CIoU损失函数没有考虑到真实框与预测框框之间的方向,导致收敛速度较慢且效率较低,对此SIoU引入真实框和预测框之间的向量角度,重新定义相关损失函数,具体包含四个部分:1)角度损失、2)距离损失、3)形状损失、4)IoU损失
综合以上四部分SIoU损失函数的表达式为:
损失函数SIoU,其中考虑到所需回归之间的向量角度,重新定义了惩罚指标。应用于传统的神经网络和数据集,表明SIoU提高了训练的速度和推理的准确性,并且在许多模拟和测试中揭示了SIoU损失函数的有效性。所以将CIoU损失函数替换成SIoU损失函数,可以有效提高改进后模型的收敛速度以及效率。
通过边缘处理模块(EEP)对图像进行增强处理:
定义图像I∈Rh×w×3作为输入,使用高斯金字塔获得不同分辨率的子图像
G(x)=Down(Gaussian(x)) (1)
其中Down表示下采样,高斯表示高斯滤波,高斯核的大小为5×5。每次高斯金字塔运算后,图像的尺寸和分辨率都不断地降低,且高斯金字塔的下采样操作是不可逆的。为了在上采样后恢复原始的高分辨率图像,需要收集丢失的信息,而那些丢失的信息构成了拉普拉斯金字塔的组成部分。所以拉普拉斯金字塔的定义为
Li=Gi-Up(Gi+1) (2)
Li表示拉普拉斯金字塔中的第i层。Gi表示高斯金字塔中的第i层,Up为双线性上采样操作。在重建图像时,只需要执行(2)的反向操作即可恢复高分辨率图像。
通过拉普拉斯金字塔得到了四个不同尺寸的特征图,如图8所示。发现,拉普拉斯金字塔更关注从下到上的全局信息,而这四个不同尺寸的特征图更关注局部细节。它们都是在图像降采样过程中丢失的信息,这也是LEPNet增强的对象。
边缘增强处理:本发明提出了一个边缘处理模块(EEP)来增强拉普拉斯金字塔中的组件,该模块使用两个不同方向的Scharr算子计算图像梯度,获得边缘,增强组件的纹理。Scharr算子的卷积核比较精细,是一种既使用高斯滤波又使用微分求导的离散算子。它可以通过计算梯度逼近来找到边缘。在水平方向和垂直方向上使用Scharr算子通过卷积滤波器重新提取边缘信息,并使用残差增强信息流。这个过程表示为
EEP(x)=F(Scharrh(x)+Scharrw(x))+x (3)
Scharrh和Scharrw分别表示垂直和水平方向的Scharr操作,F为内核为3×3的卷积层。
不同交通标志之间的背景差异、尺寸差距较大、存在一些模糊不清的交通标志以及一些小目标交通标志,容易被忽略,这些都会对安全驾驶造成一定的影响。结合图9,通过对比可以看出,LEP-YOLO v7算法相比于原始的YOLOv7算法,对交通标志的检测有所改进,提高了YOLOv7算法对交通标志的平均识别精度。这种方法为交通标志检测领域的研究提供了一种新的思路,对提高自动驾驶汽车的视觉感知能力具有一定意义。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (7)
1.一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:包括
S1)获取具有交通标志图像的数据集,将数据集中的所有交通标志图像进行归一化操作,并将数据集中所有的图像缩放成指定大小尺寸;
S2)基于YOLO v7算法构建改进型YOLO v7网络结构,得到改进YOLO v7模型;
所述改进YOLO v7模型的改进点在于:
1.采用图像增强对原始YOLOv7算法的输入图片进行改进;
2.在原始YOLO v7算法中主干网络中用改进后的ELANSTB模块替换原有YOLO v7算法中的ELAN模块;
3.在原始YOLO v7算法中主干网络的CBS模块的卷积层后面添加CBAM注意力机制;
4.将原始YOLO v7算法中的损失函数更替为SIoU损失函数;
S4)通过在改进YOLO v7模型添加EEP边缘处理模块,得到改进LEP-YOLO v7模型;
S5)采用改进LEP-YOLO v7模型对经过步骤S1)处理后数据集中所有图像中的交通标志检测与识别。
2.如权利要求1所述的基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:步骤S2)中,采用直方图均衡化、滤波、噪声抑制和对比度增强方式,对交通标志图像进行去噪声,增强图像的对比度。
3.如权利要求1所述的基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:步骤S2)中,所述改进后的ELANSTB模块为:将两个连续的STB模块嵌入到原始YOLO v7算法中主干网络中的ELAN模块中,得到ELANSTB模块。
4.如权利要求3所述的基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:所述ELANSTB模块用滑动窗口注意力机制MSA。
5.如权利要求1所述的基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:所述步骤S2)中,在原始YOLO v7算法中主干网络的CBS模块的卷积层后面添加CBAM注意力机制,具体为:
所述CBAM注意力机制包括两个子模块,方便对应为:通道注意力模块MC(F)和空间注意力模块MS(F);
原始YOLO v7算法中主干网络中的ELAN模块输出的特征图F输入到通道注意力模块MC(F)建模,对各通道赋予不同的权重得到特征F’,通道注意力模块MC(F)公式如下:
其中,σ指激活函数,W0和W1指全连接层MLP的权重,AvgPool为全局平均池化,MaxPool为全局最大池化,分别沿着通道轴进行平均池化操作和最大池化操作,得到的是平均池化的特征和最大池化的特征/>
特征图F’与输入特征图F相乘后输入空间注意力模块MS(F)建模,使目标检测模型对特征图F’、F感兴趣的区域给予更多关注,得到权重系数F”,空间注意力模块MS(F)公式如下:
其中,σ指激活函数,指逐元素加和操作,AvgPool为全局平均池化,MaxPool为全局最大池化,分别沿着空间轴进行平均池化操作和最大池化操作,得到的是平均池化的特征和最大池化的特征/>
6.如权利要求1所述的基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:所述步骤S4)中,具体为:
S41)定义数据集中所有图像I∈Rh×w×3作为输入,使用高斯金字塔获得不同分辨率的子图像,
G(x)=Down(Gaussian(x)) (1)
其中,Down表示下采样,高斯表示高斯滤波,高斯核的大小为5×5;
每次高斯金字塔运算后,图像的尺寸和分辨率都不断地降低,且高斯金字塔的下采样操作为不可逆;
S42)为了在上采样后恢复原始的高分辨率图像,需要收集丢失的信息,而丢失的信息构成了拉普拉斯金字塔的组成部分,将拉普拉斯金字塔的定义为:
Li = Gi-Up (Gi+1) (2)
Li表示拉普拉斯金字塔中的第i层;Gi表示高斯金字塔中的第i层,Up为双线性上采样操作;
S43)在重建图像时,通过执行公式(2)的反向操作,恢复高分辨率图像;
S45)通过EEP边缘处理模块增强拉普拉斯金字塔中的组件,EEP边缘处理模块使用两个不同方向的Scharr算子计算图像梯度,获得边缘,增强组件的纹理。
7.如权利要求6所述的基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法,其特征在于:Scharr算子通过计算梯度逼近来找到边缘,在水平方向和垂直方向上使用Scharr算子,通过卷积滤波器重新提取边缘信息,并使用残差增强信息流,过程表示为:
EEP(x) = F(Scharrh(x) + Scharrw(x)) + x (3)
Scharrh和Scharrw分别表示垂直和水平方向的Scharr操作,F为内核为3×3的卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311512674.5A CN117636296A (zh) | 2023-11-14 | 2023-11-14 | 一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311512674.5A CN117636296A (zh) | 2023-11-14 | 2023-11-14 | 一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117636296A true CN117636296A (zh) | 2024-03-01 |
Family
ID=90026161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311512674.5A Pending CN117636296A (zh) | 2023-11-14 | 2023-11-14 | 一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636296A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118711160A (zh) * | 2024-08-30 | 2024-09-27 | 湖南工程学院 | 一种基于边缘部署的矿井电机车防碰撞方法及系统 |
-
2023
- 2023-11-14 CN CN202311512674.5A patent/CN117636296A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118711160A (zh) * | 2024-08-30 | 2024-09-27 | 湖南工程学院 | 一种基于边缘部署的矿井电机车防碰撞方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mahaur et al. | Small-object detection based on YOLOv5 in autonomous driving systems | |
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
CN111582083B (zh) | 一种基于消失点估计与语义分割的车道线检测方法 | |
Zhou et al. | Efficient road detection and tracking for unmanned aerial vehicle | |
CN107274445B (zh) | 一种图像深度估计方法和系统 | |
CN103325112B (zh) | 动态场景中运动目标快速检测方法 | |
Xiao et al. | Single image dehazing based on learning of haze layers | |
CN111310582A (zh) | 基于边界感知和对抗学习的湍流退化图像语义分割方法 | |
CN112215074A (zh) | 基于无人机视觉的实时目标识别与检测追踪系统及方法 | |
CN109034136A (zh) | 图像处理方法、装置、摄像设备及存储介质 | |
CN112731436A (zh) | 基于点云上采样的多模态数据融合可行驶区域检测方法 | |
Muthalagu et al. | Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks | |
CN112613392A (zh) | 基于语义分割的车道线检测方法、装置、系统及存储介质 | |
Xu et al. | COCO-Net: A dual-supervised network with unified ROI-loss for low-resolution ship detection from optical satellite image sequences | |
CN114241372A (zh) | 一种应用于扇扫拼接的目标识别方法 | |
CN117636296A (zh) | 一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法 | |
Rao et al. | Patch attention network with generative adversarial model for semi-supervised binocular disparity prediction | |
Zhao et al. | Joint distortion rectification and super-resolution for self-driving scene perception | |
WO2024147898A1 (en) | Parking space detection method and system | |
CN114372944B (zh) | 一种多模态和多尺度融合的候选区域生成方法及相关装置 | |
Juneja et al. | Single Image Dehazing Using Hybrid Convolution Neural Network | |
Zhang et al. | Single image haze removal for aqueous vapour regions based on optimal correction of dark channel | |
Shi et al. | A Review of Lane Detection Based on Semantic Segmentation | |
Wang et al. | Small object detection for autonomous driving under hazy conditions on mountain motorways | |
CN117889867B (zh) | 一种基于局部自注意力移动窗口算法的路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |