CN117315509A - 基于YOLOv7的无人机航拍图像小目标检测方法 - Google Patents
基于YOLOv7的无人机航拍图像小目标检测方法 Download PDFInfo
- Publication number
- CN117315509A CN117315509A CN202311179192.2A CN202311179192A CN117315509A CN 117315509 A CN117315509 A CN 117315509A CN 202311179192 A CN202311179192 A CN 202311179192A CN 117315509 A CN117315509 A CN 117315509A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- small target
- convolution
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008447 perception Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于YOLOv7的无人机航拍图像小目标检测方法,具体为,步骤一、获取无人机航拍图像数据集并转换为YOLO格式;步骤二、搭建改进YOLOv7的无人机航拍图像小目标检测网络;步骤三、以改进YOLOv7的无人机航拍图像小目标检测网络作为目标检测模型,将VisDrone训练集图像输入改进YOLOv7的无人机航拍图像小目标检测网络,并训练至收敛,得到最终的改进YOLOv7的无人机航拍图像小目标检测模型;步骤四、在VisDrone数据集的测试集上测试,记录改进YOLOv7的无人机航拍图像小目标检测模型在该数据集上的mAP值。该方法可以更好地适合无人机航拍小目标检测任务,地提高了小目标检测精度。
Description
技术领域
本发明涉及目标检测领域,具体涉及一种基于YOLOv7的无人机航拍图像小目标检测方法。
背景技术
通用目标检测器Faster R-CNN和YOLO系列模型不断改进,性能不断提高,尤其是其中的YOLO系列,与Faster R-CNN相比,参数更少,速度更快。尽管YOLOv7在MS COCO等数据集上表现良好,但是在检测无人机航拍图像中的目标,如VisDrone数据集时精度明显下降。这是因为无人机航拍图像中存在大量小目标,同时目标分布不均匀,目标之间存在遮挡。这些因素对目标检测造成了干扰,降低了检测精度。
小目标是航拍图像检测面临的典型问题。目前,小目标的判定主要有两种,第一种是绝对小目标,例如在通用数据集MS COCO中,将小于32×32像素的目标定义为小目标;第二种是相对小目标,这种目标的特点是图像的尺寸较大,而目标在原图中面积占比较小。当目标发生遮挡时,重叠的实例及其候选框会有相似的特征,导致检测器难以为每个候选框生成可区分的预测结果。总而言之,航拍图像目标检测任务需要解决小目标与目标遮挡的问题。
针对航拍小目标检测,一些研究者探索如何在网络中获取更多小目标特征信息,以提升小目标检测精度。其中一些相关工作有:SSPNet(Hong M,Li S,Yang Y,etal.SSPNet:Scale selection pyramid network for tiny person detection from UAVimages[J].IEEE Geoscience and Remote Sensing Letters,2022,19:1-5[DOI:10.1109/LGRS.2021.3103069])、TWC-Net(Yu L,Wu H,Zhong Z,et al.TWC-Net:A SAR shipdetection using two-way convolution and multiscale feature mapping[J].RemoteSensing,2021,13(13):#2558[DOI:10.3390/rs13132558])、ES-FPN(Chen Y,Zhu X,Li Y,et al.Enhanced semantic feature pyramid network for small object detection[J].Signal Processing:Image Communication,2023,113:#116919[DOI:10.1016/J.IMAGE.2023.116919])。SSPNet通过尺度增强模块和尺度选择模块增强小目标在特征金字塔网络FPN(Feature Pyramid Network)的表示。前者确保模型在不同层关注不同尺度的目标,避免小目标被大量背景淹没;后者则利用特征金字塔网络FPN中邻接层的关系实现特征共享,避免不同层之间的梯度不一致问题。TWC-Net使用多尺度特征映射处理图像,使模型可以在特征提取过程中避免小目标信息的丢失,同时通过深层特征图保证大目标的良好感知。ES-FPN将高层和低层语义信息相结合,以改进小目标检测中的特征学习。但是上述方法没有考虑图像中目标遮挡的问题。针对密集区域中目标相互遮挡造成的检测框置信度低、漏检误检严重的问题,研究者们主要通过定位图像密集区域进行增强检测,即获得密集目标更高置信度的检测框以提升检测性能。Ganster R-CNN(Sun K,Wen Q,Zhou H.GansterR-CNN:Occluded object detection network based on generative adversarial netsand faster R-CNN[J].IEEE Access,2022,10:105022-105030[DOI:10.1109/ACCESS.2022.3211394])。Ganster R-CNN基于改进的生成对抗网络和Faster R-CNN,使用特征金字塔网络将浅层到深层的特征地图整合起来,利用生成器可以生成遮挡伪样本,通过扩大样本的规模和数据集中遮挡物体的比例使遮挡物体的精确率提高。但是通过这种方式会增加模型的训练成本。
发明内容
本发明的目的是提供一种基于YOLOv7的无人机航拍图像小目标检测方法,可以更好地适合无人机航拍小目标检测任务,有效地提高了小目标检测精度,针对无人机航拍图像目标检测中小目标与目标遮挡的问题,降低了目标漏检和误检情况。
本发明所采用的技术方案是,基于YOLOv7的无人机航拍图像小目标检测方法,具体为:
步骤一、获取无人机航拍图像数据集并转换为YOLO格式;
步骤二、搭建改进YOLOv7的无人机航拍图像小目标检测网络;
步骤三、以改进YOLOv7的无人机航拍图像小目标检测网络作为目标检测模型,将VisDrone训练集图像输入改进YOLOv7的无人机航拍图像小目标检测网络,并训练至收敛,得到最终的改进YOLOv7的无人机航拍图像小目标检测模型;
步骤四、在VisDrone数据集的测试集上测试,记录改进YOLOv7的无人机航拍图像小目标检测模型在该数据集上的mAP值。
本发明的特征还在于,
步骤一中,无人机航拍数据集为VisDrone数据集,利用其训练集用于训练模型。
步骤二中,改进YOLOv7的无人机航拍图像小目标检测网络包括:input层、改进的backbone网络、改进的head网络三部分;
改进的backbone网络结构自上往下分别是:第一卷积层—>第二卷积层—>第三卷积层—>第四卷积层—>第一高效层聚合网络ELAN—>第一下采样层—>第一高效层聚合网络ELAN—>融合Swin Transformer和卷积的STC模块—>第二下采样层—>第三高效层聚合网络ELAN—>第四下采样层—>引入了BRA注意力机制的高效层聚合网络ELAN-BRA。
步骤二中,融合Swin Transformer和卷积的STC模块包括有三个步长为1的1*1卷积模块和一个Swin Transformer;首先使用并行的两个步长为1的1*1卷积模块来调整输入特征图的通道数,得到两个输出,其中一个经过Swin Transformer的处理,然后使用一个步长为1的1*1卷积模块来将结果拼接起来。
步骤二中,引入了BRA注意力机制的高效层聚合网络ELAN-BRA,包括有两条分支,第一条分支包括有一个1*1步长为1的卷积模块、四个3*3步长为1的卷积模块以及一个BRA注意力模块;第二条分支包括有一个1*1步长为1的卷积模块;其中第一条分支的过程为:首先经过一个1*1步长为1的卷积模块,做通道数的变化,再经过四个3*3步长为1的卷积模块,做特征提取,再通过BRA注意力模块增加对小目标关注度;第二条分支的过程为:经过一个1*1步长为1的卷积模块做通道数的变化。最后把这两个分支合并在一起,使用一个步长为1的1*1卷积模块来将结果拼接起来。
步骤二中,改进的head网络结构是:SPPCSPC-BRA—>改进的特征金字塔—>改进的目标检测头。
步骤二中,SPPCSPC-BRA模块包括有两条分支,第一条分支包括有一个1*1步长为1的卷积模块;第二条分支包括有两个1*1步长为1的卷积模块,两个3*3步长为1的卷积模块,一个BRA注意力模块,还有四个不同尺度的最大池化MaxPool:其中第一条分支的过程为:首先经过一个1*1步长为1的卷积模块,做通道数的变化,第二条分支的过程为:首先进行常规卷积处理,先是一个1*1步长为1的卷积模块,再经过一个3*3步长为1的卷积模块,做特征提取,在经过一个1*1步长为1的卷积模块,然后经过BRA注意力模块聚焦密集小目标区域,可以提取更多更准确的小目标特征。接下来进入池化结构,经过四条分别是1*1,5*5,9*9,13*13大小卷积核的最大池化MaxPool,可以有四种感受野用来区别大目标和小目标。最大池化MaxPool的作用是能够增大感受野使得算法适应不同的分辨率图像。再经过一个1*1步长为1的卷积模块和一个3*3步长为1的卷积模块,最后把这两个分支合并在一起,使用一个步长为1的1*1卷积模块来将结果拼接起来。
步骤二中,在特征金字塔部分添加了一个四倍下采样分支得到改进的特征金字塔。
步骤二中,在目标检测头处增加Dynamic Head模块得到改进的目标检测头。
本发明的有益效果是:
本发明方法提出一种基于YOLOv7的无人机航拍图像小目标检测方法,融合SwinTransformer以更好的捕捉图像中的全局上下文信息,引入BRA注意力机制增加对小目标的关注,提高对小目标的检测效果;在特征金字塔添加小目标检测分支提高模型的多尺度检测能力,使用带有可变形卷积和注意力机制的目标检测头强化模型目标空间感知能力,提高遮挡目标特征捕获量。本发明方法针对无人机航拍图像目标检测中小目标与目标遮挡的问题,降低了目标漏检和误检情况。通过在Visdrone数据集上的实验结果进行评估,证明了本发明的有效性。
附图说明
图1为本发明方法的流程图;
图2为本发明中总体网络架构图;
图3为本发明方法中STC模块结构图;
图4为本发明方法中ELAN-BRA模块结构图;
图5为本发明方法中SPPCSPC-BRA模块结构图;
图6为本发明方法中Dynamic Head模块结构图;
图7为YOLOv7模型在白天场景的检测效果图;
图8为本发明方法在白天场景的检测效果图;
图9为YOLOv7模型在黑夜场景的检测效果图;
图10为本发明方法在黑夜场景的检测效果图;
图11为YOLOv7模型在目标密集场景的检测效果图;
图12为本发明方法模型在目标密集场景的检测效果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供一种基于YOLOv7的无人机航拍图像小目标检测方法,如图1-6所示,具体按照以下步骤实施:
步骤一、获取无人机航拍图像数据集并转换为YOLO格式;
步骤一中无人机航拍数据集为VisDrone数据集,利用其训练集用于训练模型。
步骤二、搭建改进YOLOv7的无人机航拍图像小目标检测网络,如图2所示。以YOLOv7模型为基础,结合Swin Transformer、双向路由注意力机制BRA(Bi-Level RoutingAttention)和动态检测头Dynamic Head方法,修改YOLOv7的backbone网络、head网络;
步骤二中,改进YOLOv7的无人机航拍图像小目标检测网络包括:input层、改进的backbone网络、改进的head网络三部分。Input用于由数据增强等一系列操作进行预处理;backbone网络用于提取图像中的特征;head网络用于对提取的图像特征进行聚合增强,并利用聚合的特征对图像进行目标预测。
步骤二中,改进YOLOv7的无人机航拍图像小目标检测网络的input层是YOLOv7基础模型的input层。input层采用Mosaic数据增强,通过随机缩放、随机裁剪、随机排布的方式对图片进行处理再拼接到一张图上作为训练数据,可以丰富数据集,并提高模型的鲁棒性。采用自适应图片缩放,在将原始图片统一缩放到一个标准尺寸,调整图像长宽比时自适应的添加最少的黑边,在推理时,计算量也会减少,目标检测速度得到提升。
步骤二中,改进YOLOv7的无人机航拍图像小目标检测网络的backbone网络是对YOLOv7基础模型的backbone网络进行改进,结合Swin Transformer以更好的捕捉图像中的全局上下文信息,提高了模型的全局建模能力。在高效层聚合网络ELAN中引入了BRA注意力机制,提高对小目标的关注度。
改进YOLOv7的无人机航拍图像小目标检测网络的backbone网络结构自上往下分别是:第一卷积层—>第二卷积层—>第三卷积层—>第四卷积层—>第一高效层聚合网络ELAN—>第一下采样层—>第二高效层聚合网络ELAN—>STC模块—>第二下采样层—>第三高效层聚合网络ELAN—>第三下采样层—>ELAN-BRA模块。
Swin Transformer可通过自注意力机制高效提取网络有用信息,为了更好地捕捉图像中的全局信息,本文设计了一个融合Swin Transformer和卷积的STC(SwinTransformer and Convolution)模块,如图3所示,并将其插入在所述第二高效层聚合网络ELAN的后面。STC模块包括有三个步长为1的1*1卷积模块和一个Swin Transformer;特征图在进入STC模块后,首先使用并行的两个步长为1的1*1卷积模块来调整输入特征图的通道数,得到两个输出,其中一个经过作为Swin Transformer的处理,然后使用一个步长为1的1*1卷积模块来将结果拼接起来得到新的特征图。STC模块可以从具有不同接受度的输入特征映射中提取特征,这大大提高了模型对输入特征映射的表示能力,从而提高了模型的检测性能。
另外,本发明在高效层聚合网络ELAN中引入了BRA注意力机制,构建了一个新的基于注意力机制的ELAN-BRA(Efficient Layer Aggregation Network based on Bi-LevelRouting Attention),如图4所示,将其插入在改进YOLOv7的无人机航拍图像小目标检测网络的backbone网络末尾处。ELAN-BRA包括有两条分支,第一条分支包括有一个1*1步长为1的卷积模块、四个3*3步长为1的卷积模块以及一个BRA注意力模块;第二条分支包括有一个1*1步长为1的卷积模块;特征图传入ELAN-BRA后,在第一条分支中首先经过一个1*1步长为1的卷积模块,做通道数的变化,再经过四个3*3步长为1的卷积模块做特征提取,再把四个特征叠加在一起得到特征提取的结果,再通过BRA注意力模块增加对小目标关注度;第二条分支经过一个1*1步长为1的卷积模块做通道数的变化;最后使用一个步长为1的1*1卷积模块来将两条分支拼接起来得到输出的特征图。使用这个模块可以增强对密集小目标区域的关注。
步骤二中,改进YOLOv7的无人机航拍图像小目标检测网络的head网络是对YOLOv7基础模型的head网络进行改进,在空间金字塔池化模块SPPCSPC中引入了BRA注意力机制,可以减少无用特征的干扰;在特征金字塔添加四倍下采样分支提高模型的多尺度检测能力;增加带有可变形卷积和注意力机制的动态检测头Dynamic Head模块强化模型目标空间感知能力,提高遮挡目标特征捕获量。
改进YOLOv7的无人机航拍图像小目标检测网络的head网络结构是:SPPCSPC-BRA—>改进的特征金字塔—>改进的目标检测头。
本发明在空间金字塔池化模块SPPCSPC的最大池化层前添加BRA注意力机制得到SPPCSPC-BRA(Spatial Pyramid Pooling Cross Stage Partial Channel based on Bi-Level Routing Attention),如图5所示。SPPCSPC-BRA模块包括有两条分支,第一条分支包括有一个1*1步长为1的卷积模块;第二条分支包括有两个1*1步长为1的卷积模块,两个3*3步长为1的卷积模块,一个BRA注意力模块,还有四个不同尺度的最大池化MaxPool:特征图传入SPPCSPC-BRA模块后,第一条分支首先经过一个1*1步长为1的卷积模块,做通道数的变化,第二条分支首先进行常规卷积处理,先是一个1*1步长为1的卷积模块,再经过一个3*3步长为1的卷积模块,做特征提取,在经过一个1*1步长为1的卷积模块,然后经过BRA注意力模块聚焦密集小目标区域,可以提取更多更准确的小目标特征。接下来进入池化结构,经过四条分别是1*1,5*5,9*9,13*13大小卷积核的最大池化MaxPool,可以有四种感受野用来区别大目标和小目标。最大池化MaxPool的作用是能够增大感受野使得算法适应不同的分辨率图像。再经过一个1*1步长为1的卷积模块和一个3*3步长为1的卷积模块,最后把这两个分支合并在一起,使用一个步长为1的1*1卷积模块来将结果拼接起来得到新的特征图。
本发明在特征金字塔PAFPN(Path Aggregation Feature Pyramid Network)部分添加了一个四倍下采样分支得到改进的特征金字塔。现有的YOLOv7的特征金字塔中的检测层数量为三个,特征图从SPPCSPC-BRA模块传入特征金字塔,特征金字塔对图像在32,16,8倍三个尺度下分别进行下采样操作,以此来得到不同尺度下的特征图,对应检测32×32,16×16和8×8的像素的目标。添加了四倍下采样分支可以将输入图像划分为160×160个网格单元,每个网格单元的大小更小,从而提高小目标的检测精度。四倍下采样分支的特征图与其他三个分支的特征图由改进的特征金字塔建立横向连接,实现多尺度特征融合,输出新的特征图。四倍下采样分支得到的特征图包含着大量小目标纹理和细节信息,其在依次传递并融合的过程中,能给深层特征图提供更充足的小目标信息,进而增强小目标特征提取能力。也就是说,改进的特征金字塔通过将四个下采样分支的特征图相融合输出新的特征图,可以获得丰富的小目标纹理和细节特征。
本发明在目标检测头处增加Dynamic Head模块得到改进的目标检测头。图6为Dynamic Head的模块结构图,从特征金字塔输出的特征图输入Dynamic Head之后,先对特征图的维度进行平均池化(Avg Pool)操作,通过步长为1的1*1卷积模块之后,再使用HardSigmoid激活函数进行激活。最后将得到的张量与输入的特征图相乘,完成特征图之间的感知,即尺度感知。将完成尺度感知的特征图输入空间感知模块,先利用步长为1的3*3卷积模块获得特征图的偏移量和特征图偏移量的权重项,然后使用Sigmoid激活函数进行激活,再进行可变形卷积操作完成空间感知。最后针对特征图的维度,通过应用ReLU(RectifiedLinear Unit)激活函数与全连接层(Fc)使特征图的通道值可以根据不同的任务调整,最终使用Shifted Sigmoid函数归一化输出,完成对特征图的任务感知。为了提高YOLOv7对小目标的检测效果,本发明在IDetect目标检测头中插入了Dynamic Head模块,并将DynamicHead模块重复堆叠6次,同时保留了原算法的解耦头。
步骤三、以改进YOLOv7的无人机航拍图像小目标检测网络作为目标检测模型,将VisDrone训练集图像输入改进YOLOv7的无人机航拍图像小目标检测网络,并训练至收敛,得到最终的改进YOLOv7的无人机航拍图像小目标检测模型。
步骤四、在VisDrone数据集的测试集上测试,记录改进YOLOv7的无人机航拍图像小目标检测模型在该数据集上的mAP值。
实施例1
案例分析与方法验证
为了验证本发明的有效性,本发明与YOLOv5L、YOLOv7、YOLOXL和YOLOv8L模型在PyTorch环境下编程实现,使用单个RTX A5000(24GB)的GPU进行训练推理。设置的学习率为0.01,动量设置为0.937,权重衰减系数为0.0005。采用Adam优化器更新网络参数,批量大小(batchsize)为16,训练轮数(Epoch)为300。YOLO系列模型属于实时检测模型,在保证一定的检测精度条件下具有较高的实时性。
YOLOv5L(Glenn J.(2020)YOLOv5 releases v6.2.[2022-10-10].https://github.com/ultralytics/yolov5/releases/tag/v6.2.),YOLOXL(Ge Z,Liu S,Wang F,etal.YOLOX:exceeding YOLO series in 2021[J].arXiv preprint arXiv:2107.08430,2021[DOI:10.48550/arXiv.2107.08430]),YOLOv7(Wang C Y,Bochkovskiy A,Liao H YM.YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-timeobject detectors[C].IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),2023:7464-7475[DOI:10.48550/arXiv.2207.02696]),YOLOv8L(Glenn J.(2023)YOLOv8.[2023-7-10].https://github.com/ultralytics/ultralytics.)是YOLO系列的最新成果。YOLOv5是在更早期的YOLO版本中添加一些新的改进思路,例如增加了Mosaic数据增强,自适应锚框计算等,使检测性能得到提升。YOLOX把YOLO系列的检测头换成了Anchor Free的方式,并且采取了样本分配策略等一些优化策略。YOLOv7集合了重参数化神经网络RepVGG(Reparameterized Convolutional NeuralNetwork)的重参数化思想、YOLOv5中的跨网格搜索、YOLOX的匹配策略和用于实例分割的路径聚合网络PANet(Path Aggregation Network)等先进技术使其在目标检测任务中表现更为良好。YOLOv8结合了上述算法的相关设计,并提高了模型的可扩展性。YOLOv5L,YOLOXL和YOLOv8L分别是其基础模型的大模型版本。使用的数据集为VisDrone数据集,VisDrone数据集由不同型号无人机在不同场景以及各种天气和光照情况下进行拍摄收集。VisDrone共有8629张静态图像,其中,训练集为6471张,验证集为548张,测试集为1610张。目标分为10个类别,大约有540000个标注信息。
对比结果如表1所示。
表1结果对比表
其中mAP(mean Average Precision)是平均精度,用来衡量算法性能。GFLOPs(Giga Floating Point Operations)指每秒执行的十亿次浮点运算,是对计算设备或算法的计算能力的量化指标。Parameters指模型的参数量。通过比较两者的mAP体现改进的YOLOv7算法的性能提升。从表1可以看出,与其他模型对比,本发明获得了较高的精度,与基础模型YOLOv7相比,在mAP上提升了4.3个百分点。付出的代价是增加了运算量和参数量。
为了验证本发明对于小目标的检测效果,测试数据集各类别的mAP,其实验结果如表2所示。本发明方法对全部10类目标的平均精度都优于基础网络YOLOv7,在检测人、自行车、三轮车、敞篷三轮车等小目标的效果有较明显的提升。在检测公交车或卡车等较大目标的效果也有提升。
表2各类别mAP结果对比表
图7-图12为YOLOv7模型与本发明方法分别在白天,黑夜和目标密集场景下检测效果图。对比检测效果图可以看出本发明比YOLOv7基础模型检测出了更多的目标,尤其是行人、自行车等小目标,并且对于同一个检测目标的置信度也有所提高。在白天场景下,相较于本发明,YOLOv7基础模型漏检了在右上角的多个行人目标;在黑天场景下图像中存在遮挡和暗光情况,YOLOv7漏检了在图像左侧的多个行人目标,而本发明能够较好地避免了漏检问题。在密集小目标的对比中可以看出,当图像背景模糊时,YOLOv7漏检了在图像右下角的大量的行人目标,在图像偏上部分目标更小时,YOLOv7出现了将卡车误检为小轿车的情况,而此时本发明表现良好。可以看出,针对无人机航拍图像目标检测中小目标与目标遮挡的问题,本发明降低了目标漏检和误检情况。
本发明提出的一种基于YOLOv7的无人机航拍图像小目标检测方法,可以更好地适合无人机航拍小目标检测任务,有效地提高了小目标检测精度。相较于同系列的YOLOv5L,YOLOX与YOLOv8L,本发明在Visdrone数据集上的平均精度分别提升了13.6%,10.1%与6.3%,与基础模型YOLOv7进行对比,平均精度提升了4.3%。对比数据集中各类别的平均精度发现,本发明在保证大目标检测精度的同时可以有效的提升航拍图像中小目标的检测性能,具有较强的通用性。总而言之,本发明方法针对无人机航拍图像目标检测中小目标与目标遮挡的问题,降低了目标漏检和误检情况,证明本发明方法可用。
Claims (9)
1.基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,具体为:
步骤一、获取无人机航拍图像数据集并转换为YOLO格式;
步骤二、搭建改进YOLOv7的无人机航拍图像小目标检测网络;
步骤三、以改进YOLOv7的无人机航拍图像小目标检测网络作为目标检测模型,将VisDrone训练集图像输入改进YOLOv7的无人机航拍图像小目标检测网络,并训练至收敛,得到最终的改进YOLOv7的无人机航拍图像小目标检测模型;
步骤四、在VisDrone数据集的测试集上测试,记录改进YOLOv7的无人机航拍图像小目标检测模型在该数据集上的mAP值。
2.根据权利要求1所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤一中,无人机航拍数据集为VisDrone数据集,利用其训练集用于训练模型。
3.根据权利要求1所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,改进YOLOv7的无人机航拍图像小目标检测网络包括:input层、改进的backbone网络、改进的head网络三部分;
改进的backbone网络结构自上往下分别是:第一卷积层—>第二卷积层—>第三卷积层—>第四卷积层—>第一高效层聚合网络ELAN—>第一下采样层—>第一高效层聚合网络ELAN—>融合Swin Transformer和卷积的STC模块—>第二下采样层—>第三高效层聚合网络ELAN—>第四下采样层—>引入了BRA注意力机制的高效层聚合网络ELAN-BRA。
4.根据权利要求3所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,融合Swin Transformer和卷积的STC模块包括有三个步长为1的1*1卷积和一个Swin Transformer;首先使用并行的两个步长为1的1*1卷积来调整输入特征图的通道数,得到两个输出,其中一个经过Swin Transformer的处理,然后使用一个步长为1的1*1卷积来将结果拼接起来。
5.根据权利要求3所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,引入了BRA注意力机制的高效层聚合网络ELAN-BRA,包括有两条分支,第一条分支包括有一个1*1步长为1的卷积模块、四个3*3步长为1的卷积模块以及一个BRA注意力模块;第二条分支包括有一个1*1步长为1的卷积模块;其中第一条分支的过程为:首先经过一个1*1步长为1的卷积模块,做通道数的变化,再经过四个3*3步长为1的卷积模块,做特征提取,再通过BRA注意力模块增加对小目标关注度;第二条分支的过程为:经过一个1*1步长为1的卷积模块做通道数的变化,然后使用一个步长为1的1*1卷积来将结果拼接起来。
6.根据权利要求3所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,改进的head网络结构是:SPPCSPC-BRA—>改进的特征金字塔—>改进的目标检测头。
7.根据权利要求6所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,SPPCSPC-BRA模块包括有两条分支,第一条分支包括有一个1*1步长为1的卷积模块;第二条分支包括有两个1*1步长为1的卷积模块,两个3*3步长为1的卷积模块,一个BRA注意力模块,还有四个不同尺度的最大池化MaxPool:其中第一条分支的过程为:首先经过一个1*1步长为1的卷积模块,做通道数的变化,第二条分支的过程为:先是一个1*1步长为1的卷积模块,再经过一个3*3步长为1的卷积模块,做特征提取,在经过一个1*1步长为1的卷积模块,然后经过BRA注意力模块聚焦密集小目标区域,接下来经过四条分别是1*1,5*5,9*9,13*13大小卷积核的最大池化MaxPool,再经过一个1*1步长为1的卷积模块和一个3*3步长为1的卷积模块,最后把这两个分支合并在一起,使用一个步长为1的1*1卷积模块来将结果拼接起来。
8.根据权利要求7所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,在特征金字塔部分添加了一个四倍下采样分支得到改进的特征金字塔。
9.根据权利要求7所述的基于YOLOv7的无人机航拍图像小目标检测方法,其特征在于,步骤二中,在目标检测头处增加Dynamic Head模块得到改进的目标检测头。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179192.2A CN117315509A (zh) | 2023-09-13 | 2023-09-13 | 基于YOLOv7的无人机航拍图像小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179192.2A CN117315509A (zh) | 2023-09-13 | 2023-09-13 | 基于YOLOv7的无人机航拍图像小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117315509A true CN117315509A (zh) | 2023-12-29 |
Family
ID=89287577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311179192.2A Pending CN117315509A (zh) | 2023-09-13 | 2023-09-13 | 基于YOLOv7的无人机航拍图像小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315509A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015490A (zh) * | 2024-01-10 | 2024-05-10 | 江西飞航通信设备有限责任公司 | 一种无人机航拍图像小目标检测方法、系统及电子设备 |
CN118470576A (zh) * | 2024-07-09 | 2024-08-09 | 齐鲁空天信息研究院 | 一种无人机图像的小目标检测方法及系统 |
CN118587622A (zh) * | 2024-08-07 | 2024-09-03 | 齐鲁空天信息研究院 | 一种基于无人机平台的轻量化目标检测方法及系统 |
-
2023
- 2023-09-13 CN CN202311179192.2A patent/CN117315509A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015490A (zh) * | 2024-01-10 | 2024-05-10 | 江西飞航通信设备有限责任公司 | 一种无人机航拍图像小目标检测方法、系统及电子设备 |
CN118470576A (zh) * | 2024-07-09 | 2024-08-09 | 齐鲁空天信息研究院 | 一种无人机图像的小目标检测方法及系统 |
CN118470576B (zh) * | 2024-07-09 | 2024-10-22 | 齐鲁空天信息研究院 | 一种无人机图像的小目标检测方法及系统 |
CN118587622A (zh) * | 2024-08-07 | 2024-09-03 | 齐鲁空天信息研究院 | 一种基于无人机平台的轻量化目标检测方法及系统 |
CN118587622B (zh) * | 2024-08-07 | 2024-11-01 | 齐鲁空天信息研究院 | 一种基于无人机平台的轻量化目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN111222396B (zh) | 一种全天候多光谱行人检测方法 | |
CN117315509A (zh) | 基于YOLOv7的无人机航拍图像小目标检测方法 | |
CN114708585A (zh) | 一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法 | |
CN115082674B (zh) | 基于注意力机制的多模态数据融合三维目标检测方法 | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
CN116994135A (zh) | 一种基于视觉与雷达融合的船舶目标检测方法 | |
Zhu et al. | Advanced driver assistance system based on machine vision | |
Qin et al. | MCA-YOLOv7: An Improved UAV Target Detection Algorithm Based on YOLOv7 | |
CN118262090A (zh) | 一种基于lmsfa-yolo轻量开集遥感目标检测方法 | |
CN117935088A (zh) | 基于全尺度特征感知和特征重构的无人机图像目标检测方法、系统及存储介质 | |
CN113537397B (zh) | 基于多尺度特征融合的目标检测与图像清晰联合学习方法 | |
CN118521929B (zh) | 基于改进rt-detr网络的无人机航拍小目标检测方法 | |
CN117593674B (zh) | 一种轻量级无人机航拍目标实时检测方法 | |
Kang et al. | SE-CBAM-YOLOv7: An Improved Lightweight Attention Mechanism-Based YOLOv7 for Real-Time Detection of Small Aircraft Targets in Microsatellite Remote Sensing Imaging | |
An et al. | Research review of object detection algorithms in vehicle detection | |
Hu et al. | Aircraft Targets Detection in Remote Sensing Images with Feature Optimization | |
Wang et al. | FRS-Voxel: A 3D-2D Hybrid Feature Extraction Network for 3D Object Detection | |
CN115953589B (zh) | 一种基于深度相机的发动机缸体孔径尺寸测量方法 | |
Haoran et al. | Yolov5 vehicle detection model in fog based on channel attention enhancement | |
CN118799766B (zh) | 一种基于pcrs-yolo网络的无人机航拍目标检测方法 | |
Yao et al. | Small Target Detection Based on Multimodal Remote Sensing Images | |
Liu et al. | Hold surrounding’s key-you only look once version 7: a real-time pedestrian and vehicle detection algorithm in the low-signal-to-noise ratio infrared image | |
Peng et al. | Improved target detection algorithm for remote sensing images with YOLOV7 | |
Liu et al. | Research on improved YOLOv8n-based traffic sign detection algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |