[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN116883873A - 一种面向空地应用的红外小目标检测方法 - Google Patents

一种面向空地应用的红外小目标检测方法 Download PDF

Info

Publication number
CN116883873A
CN116883873A CN202310851353.1A CN202310851353A CN116883873A CN 116883873 A CN116883873 A CN 116883873A CN 202310851353 A CN202310851353 A CN 202310851353A CN 116883873 A CN116883873 A CN 116883873A
Authority
CN
China
Prior art keywords
yolov7
model
small target
module
infrared small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310851353.1A
Other languages
English (en)
Inventor
霍炬
孙康健
刘琪
杨舜渊
薛牧遥
周建宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202310851353.1A priority Critical patent/CN116883873A/zh
Publication of CN116883873A publication Critical patent/CN116883873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本申请公开了一种面向空地应用的红外小目标检测方法,属于红外小目标检测领域,包括:获取数据集,并基于数据集对红外小目标的锚框进行更新;基于GE注意力机制构建GE模块,将GE模块嵌入至YOLOv7模型的骨干特征提取网络中;基于NWD度量构建NWD模块,将NWD模块集成至YOLOv7模型的损失函数中,得到ISTD‑YOLOv7模型;基于数据集对ISTD‑YOLOv7模型进行训练和验证;基于更新的锚框,通过训练后的ISTD‑YOLOv7模型对红外小目标进行检测。本申请提供的红外小目标检测方法在红外小目标检测中具有优越性,可应用于复杂的天时天候和地形场景下准确快速的实现红外小目标检测。

Description

一种面向空地应用的红外小目标检测方法
技术领域
本申请涉及一种面向空地应用的红外小目标检测方法,属于红外小目标检测领域。
背景技术
红外探测技术是获取现代信息的主要手段之一。与可见光探测系统相比,红外探测系统具有穿透力强、探测距离远、全天候可见等优点。因此,红外探测技术越来越受到研究者的重视,并被广泛应用于军事、医学、气象等领域。随着低空空域的逐步开放,无人机可以携带红外设备对地面目标进行采集和跟踪。如何在航空视角下有效地探测小目标,既有不容忽视的理论和工程需求,也有重大的社会和经济意义。
近年来,随着深度学习技术的快速发展,目标检测方法也从基于人工设计特征的传统方法转变为基于自动学习特征的深度神经网络方法。基于深度学习的目标检测方法一般分为两阶段方法和单阶段方法。两阶段方法生成建议区域并对其进行分类。经典的模型是R-CNN系列,包括:Fast R-CNN、Faster R-CNN、MaskR-CNN等。它们的检测精度高,但检测速度慢,难以应用于实时检测场景。单阶段方法没有生成建议区域的阶段。它们通过一个阶段直接产生最终的检测结果,因此具有更快的检测速度。经典模型为YOLO系列,包括:YOLOv3、YOLOv5、YOLOX等。
YOLOv7是YOLO系列的新模型,在精度和速度方面超过了大多数已知的目标检测器。自2022年以来,YOLOv7已经应用在一些现实世界的检测任务中。Soeb等人创建了来自孟加拉国的叶子图像数据集,并使用YOLOv7进行疾病诊断。该研究为精准农业应用提供了解决方案。Li等人通过嵌入Gamma校正、改进的注意力机制模块和Alpha GIOU对YOLOv7进行了改进。将改进后的模型用于航空发动机叶片的损伤检测。司机的异常行为严重威胁着公共安全。Liu等人提出了一种用于分心行为识别的CEAMYOLOv7模型。在YOLOv7中引入了全局注意力机制GAM,来增强网络提取关键特征的能力。
尽管这些模型在上述相关工作中表现出色,但红外小目标检测任务仍然是一个挑战。一方面,红外小目标具有体积小,信号弱等特点,由于观测距离较长,红外小目标的形状和纹理信息很少。另一方面,由于背景复杂,红外小目标可能是重叠和被遮挡的。考虑到上述问题,一些研究者已经完成了一些工作。Liu等人提出了一种用于SAR图像船舶检测的轻量化模型。作者在YOLOv7-tiny的主干网络中加入了协调注意力机制CA,并对SPP模块和损失函数进行了改进。与原模型相比,该模型的精度提高了4.6%。但这项工作尚未部署在边缘设备上。同样,Guo等人也提出了一种基于YOLO的轻量化的SAR舰船目标检测方法,称为LMSD-YOLO。该模型具有较好的多尺度适应能力,并已成功部署在移动平台上。然而,LMSD-YOLO仍然难以直接从大场景图像中直接实现目标检测。Zhou等人对YOLOv5进行了改进,使模型能够执行小目标检测任务。值得注意的是,作者使用超分辨率生成对抗网络SRGAN生成超分辨率图像,并将其输入到改进的检测模型中。实验证明,对输入图像进行超分辨率重建可以提高小目标的检测精度。缺点是超分辨率重建过程非常耗时。
综上,红外小目标非常微弱,信噪比很低。在复杂的天时天候和地形场景下,红外小目标很容易被忽视,目前大多数模型无法有效地检测到红外小目标。
发明内容
本申请的目的在于提供一种面向空地应用的红外小目标检测方法,提出了一种适应能力较好的红外小目标检测模型ISTD-YOLOv7,可在复杂的天时天候和地形场景下准确快速的实现目标检测。
为实现上述目的,本申请第一方面提供了一种面向空地应用的红外小目标检测方法,包括:
获取数据集,并基于所述数据集对红外小目标的锚框进行更新;
基于GE注意力机制构建GE模块,将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中;
基于NWD度量构建NWD模块,将所述NWD模块集成至YOLOv7模型的损失函数中,得到ISTD-YOLOv7模型;
基于所述数据集对所述ISTD-YOLOv7模型进行训练和验证;
基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测。
在一种实施方式中,所述获取数据集之后还包括:
通过数据增强技术对所述数据集进行随机增强。
在一种实施方式中,所述基于所述数据集对红外小目标的锚框进行更新包括:
在所述数据集上对红外小目标的尺寸大小进行重新聚类,以对锚框进行更新。
在一种实施方式中,所述GE模块包括:
用于从输入数据的局部空间位置提取特征的ξG操作符和用于将提取到的特征映射到输入数据原始尺度的ξE操作符。
在一种实施方式中,所述将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中包括:
在YOLOv7模型的骨干特征提取网络中的三个输出分支上分别增加三个GE模块。
在一种实施方式中,所述将所述NWD模块集成至YOLOv7模型的损失函数中包括:
通过所述NWD模块替换所述YOLOv7模型的原始损失函数中的IoU度量
在一种实施方式中,所述ISTD-YOLOv7模型包括:骨干特征提取网络、颈部网络和头部网络;
所述基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测包括:
通过嵌入有GE模块的骨干特征提取网络对输入数据进行特征提取,并对提取的特征的上下文信息和空间位置信息进行挖掘;
通过颈部网络对提取的特征进行特征融合,得到空间和语义信息;
基于所述空间和语义信息,通过头部网络进行预测并得到预测结果;
通过集成有NWD模块的损失函数对所述预测结果进行迭代优化;
基于更新的锚框对边界框进行调整,并通过非极大抑制得到最终检测结果。
本申请第二方面提供了一种面向空地应用的红外小目标检测装置,包括:
获取单元,用于获取数据集,并基于所述数据集对红外小目标的锚框进行更新;
改进单元,用于基于GE注意力机制构建GE模块,将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中;
所述改进单元还用于,基于NWD度量构建NWD模块,将所述NWD模块集成至YOLOv7模型的损失函数中,得到ISTD-YOLOv7模型;
训练单元,用于基于所述数据集对所述ISTD-YOLOv7模型进行训练和验证;
检测单元,用于基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测。
本申请第三方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
本申请第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
由上可见,本申请提供了一种面向空地应用的红外小目标检测方法,提出了一种具有高红外小目标检测性能的网络模型ISTD-YOLOv7。首先对YOLOv7进行锚框更新可以使网络模型收敛地更好更快;然后在YOLOv7中加入GE注意力机制,可以使网络模型更有效地挖掘特征的上下文信息和空间位置信息;此外,将YOLOv7损失函数中的原始IoU度量替换为NWD度量,以克服YOLOv7对小目标位置偏差敏感的问题。ISTD-YOLOv7在红外小目标上的检测性能与现有的其他YOLOv3、YOLOv5s、SSD、CenterNet、FCOS、YOLOv7等模型相比具有更强的检测性能,在红外小目标检测中具有优越性。可应用于复杂的天时天候和地形场景下的红外小目标检测。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种ISTD-YOLOv7模型的结构示意图;
图2为本申请实施例提供的一种数据集聚类的结果示意图;
图3为本申请实施例提供的一种GE模块的结构示意图;
图4为本申请实施例提供的一种GE模块在YOLOv7模型中的添加位置示意图;
图5为本申请实施例提供的一种IoU的敏感性分析图;
图6为本申请实施例提供的一种不同场景展示图;
图7为本申请实施例提供的一种数据增强的结果图;
图8为本申请实施例提供的一种测试集信息示意图;
图9为本申请实施例提供的一种不同模型每一类别的AP值示意图;
图10为本申请实施例提供的一种检测结果示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
YOLOv7是YOLO系列的最新代表模型之一,由Wang等人于2022年提出。YOLOv7模型首先将输入图像的大小调整为640×640像素。然后,将图像输入骨干网络进行特征提取。YOLOv7的骨干网由多个CBS模块、E-ELAN模块和MP模块和一个SPPCSPC模块组成。通过PAFPN对得到的特征进行融合。颈部网络的目的是融合不同尺度的特征信息。预测网络在REP模块和CBM模块的基础上调整通道数。最后输出边界框信息、置信度和类别概率。
实施例一
本申请实施例提供了一种面向空地应用的红外小目标检测方法,如图1所示,该方法包括:
S100获取数据集,并基于所述数据集对红外小目标的锚框进行更新;
可选的,所述数据集包括若干不同的复杂环境下的红外图像,各红外图像可通过配备红外摄像机的无人机拍摄得到,也可以直接基于现有的公开数据得到,此处不做限定。
可选的,所述获取数据集之后还包括:通过数据增强技术对所述数据集进行随机增强。
在一种实施方式中,通过Mixup和Mosaic等数据增强方法进行随机增强,以极大地丰富训练数据,提高模型的泛化能力,增强网络的鲁棒性。
可选的,所述基于所述数据集对红外小目标的锚框进行更新包括:在所述数据集上对红外小目标的尺寸大小进行重新聚类,以对锚框进行更新。
在一种实施方式中,锚框的大小是通过对训练样本的真值框的宽度和高度进行聚类得到的。锚框是否合理对模型的检测性能影响很大。一般来说,YOLOv7的锚框是在训练过程中基于COCO数据集或VOC数据集聚类获得的。这些数据集的目标的尺寸与红外小目标数据集的目标的尺寸有显著差异。本申请实施例中,为了使YOLOv7更好更快地收敛,在选择的数据集上对目标的大小进行重新聚类。图2显示了VOC数据集和所选数据集的聚类结果。可以看出,簇心的分布差异很大。VOC数据集的目标尺寸可以达到几百像素,而所选数据集的目标尺寸显然要小得多。更新锚框可以为检测模型提供更合理的先验。
S200基于Gather-Excite(GE)注意力机制构建GE模块,将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中;
可选的,GE注意力机制充分利用特征空间的上下文信息和空间位置信息并提高了网络的表征能力,所述GE模块包括:用于从输入数据的局部空间位置提取特征的ξG操作符和用于将提取到的特征映射到输入数据原始尺度的ξE操作符。
在一种实施方式中,图3显示了GE模块两个操作符的操作流程。ξG从局部空间位置提取特征,定义如下:
ξG:RH×W×C→RH’×W’×C
其中,H、W和C分别表示任意输入x的高度、宽度和通道数,e表示范围比,H'=H/e,W’=W/e。
ξE将提取到的特征映射到原始尺度,定义如下:
f:RH’×W’×C→[0,1]H×W×C
其中,表示经过ξG处理后的输出结果,⊙表示Hadamard积,f表示映射关系。
可选的,所述将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中包括:在YOLOv7模型的骨干特征提取网络中的三个输出分支上分别增加三个GE模块。具体添加位置如图4所示。红外小目标具有体积小、信号弱的特点。因此,位置信息对于小目标的检测至关重要。通过在YOLOv7的骨干特征提取网络中加入GE模块,使模型可以更有效地挖掘红外小目标特征的上下文信息和空间位置信息。
S300基于Normalized Wasserstein Distance(NWD)度量构建NWD模块,将所述NWD模块集成至所述YOLOv7模型的损失函数中,得到ISTD-YOLOv7模型;
可选的,由于IoU度量对不同尺度目标的敏感性差异较大。对于较小的目标,位置的轻微变化可能导致IoU的显著变化。而对于正常尺寸的目标,在相同的位置偏差下,IoU的变化非常小。图5给出了一个具体的分析。对于小目标,位置偏差导致IoU从0.47下降到0.02。而对于正常目标,同样的位置偏差只会导致IoU从0.83下降到0.49。因此本申请实施例采用基于Wasserstein距离的度量方法。具体而言,将边界框建模为二维高斯分布,然后使用所提出的度量,即NWD度量,计算相应高斯分布之间的相似度。NWD的优点是更适合于测量小目标之间的相似度。此外,分布相似度可以衡量小目标之间是否存在重叠现象。
具体来说,对于一个边界框(cx,cy,w,h),其内接椭圆可以表示为:
其中,(cx,cy),w和h分别表示边界框的中心坐标、宽度和高度。(μxy),σx和σy分别表示椭圆的中心坐标、X轴的长度和Y轴的长度。因此,μx=cx,μy=cy,σx=w/2,σy=h/2。二维高斯分布的概率密度函数为:
其中,x,μ和Σ表示坐标(x,y),均值和协方差。(x-μ)TΣ-1(x-μ)=1时表示边界框可以建模为2D高斯分布N(μ,Σ):
其中Na和Nb对应于由边界框(cxa,cya,wa,ha)和(cxb,cyb,wb,hb)建模的高斯分布,Wasserstein距离如下所示:
归一化后得到NWD度量的最终形式如下所示:
可选的,所述将所述NWD模块集成至所述YOLOv7模型的损失函数中包括:通过所述NWD模块替换所述YOLOv7模型的原始损失函数中的IoU度量。使用基于NWD的回归损失函数不仅可以解决YOLOv7对小目标位置偏差敏感的问题,还可以在某些情况下为网络优化提供梯度。
改进后得到的所述ISTD-YOLOv7模型的损失函数为:
LISTD-YOLOv7=1-NWD(Np,Ng)
其中,NWD表示NWD度量,Np和Ng分别表示预测框p和真值框g的高斯分布模型。
S400基于所述数据集对所述ISTD-YOLOv7模型进行训练和验证;
可选的,按照8:1:1的比例将数据集随机划分训练集、验证集和测试集,通过训练集和验证集对ISTD-YOLOv7模型进行训练和验证,并通过测试集对ISTD-YOLOv7模型的性能进行评价。
S500基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测。
可选的,如图1所示,所述ISTD-YOLOv7模型包括:骨干特征提取网络Backbone、颈部网络Neck、头部网络Head;
所述基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测包括:输入数据Input(红外图像)进入由卷积模块群组成的骨干特征提取网络中,通过嵌入有GE模块的骨干特征提取网络对输入数据进行特征提取,提取到的特征进入到GE并模块中进行上下文信息和空间位置信息的挖掘;
通过带PAFPN的颈部网络对提取的特征进行特征融合,产生更好的空间和语义信息。在通过RepConv对网络的通道数进行调整后,融合后的特征进入头部网络,通过头部网络进行预测并得到预测结果;
通过集成有NWD模块的损失函数LISTD-YOLOv7对所述预测结果进行迭代优化;
边界框会根据更新的锚框进行调整,并通过非极大抑制(NMS)得到最终检测结果Ouput。
由上可见,本申请实施例提供了一种面向空地应用的红外小目标检测方法,提出了一种具有高红外小目标检测性能的网络模型ISTD-YOLOv7。首先对YOLOv7进行锚框更新可以使网络模型收敛地更好更快;然后在YOLOv7中加入GE注意力机制,可以使网络模型更有效地挖掘特征的上下文信息和空间位置信息;此外,将YOLOv7损失函数中的原始IoU度量替换为NWD度量,以克服YOLOv7对小目标位置偏差敏感的问题。ISTD-YOLOv7在红外小目标上的检测性能与现有的其他YOLOv3、YOLOv5s、SSD、CenterNet、FCOS、YOLOv7等模型相比具有更强的检测性能,在红外小目标检测中具有优越性。
实施例二
本申请实施例通过实验对实施例一中提供的红外小目标检测方法的效果进行展示,具体实验过程如下:
实验平台:
所有实验都在一台配备Intel(R)Core(TM)i9-12900KF(64GB DDR5)CPU,NVIDIAGeForce RTX 3090Ti(24GB)GPU和Microsoft Windows 10系统的计算机上运行。深度学习框架是PyTorch 1.7.1。选择初始学习率为0.01,权值衰减为0.0005,动量为0.937的随机梯度下降优化器SGD来减小损失函数。batch大小为32,epoch大小为300。
数据集介绍:
本申请实施例数据集中的所有图像均由配备红外摄像机的无人机拍摄。该数据集包括21,750幅图像,8个类别,89,174个目标,其中红外小目标是地面背景下的一些车辆。表1给出了数据集的更多细节。该数据集的示例如图6所示。按照8:1:1的比例随机划分训练集、验证集和测试集。该数据集的主要挑战集中在复杂的环境干扰和复杂的成像条件。该数据集为红外图像特性的研究、红外小目标的检测与跟踪提供了物质基础。
表1.数据集详细信息
Resolution Depth Format Memory
(640×480)pixels 8bit .bmp ≈300k
评价指标介绍:
本申请实施例选取了5个评价指标评价模型的检测性能,分别是Precision、Recall、F1 score、Average Precision和mean Average Precision,各评价指标的方程如下:
各评价指标都在[0,1]的范围内,数值越大,结果越好。其中,TP为真阳性,FP为假阳性,FN为假阴性。混淆矩阵如表2所示。C表示类的数量。P代表Precision,R代表Recall,F1代表F1分数,AP代表Average Precision,mAP代表Average Precision。mAP是所有类别AP的平均值,用于评估模型的整体检测精度。
表2.混淆矩阵
Predicted result=Positive Predicted result=Negative
Actual result=Ture TP(True Positive) FN(False Negative)
Actual result=False FP(False Positive) TN(True Negative)
与YOLOv7模型的比较结果分析:
本申请实施例对ISTD-YOLOv7和YOLOv7的性能进行比较。在训练两个模型之前,使用数据增强技术对数据进行随机增强。以Mixup和Mosaic两种数据增强方法为例,图7为两种方法处理后的红外图像结果。Mixup对随机选取的两幅红外图像进行简单线性插值,构建新的训练样本,如图7(a)-(d)所示。Mosaic随机截取四幅红外图像,并将其合并为一幅红外图像作为新的训练数据,如图7(e)-(h)所示。
在测试集上对两种模型的性能进行了评价。测试集包含2,175张红外小目标图像。每个类别的目标数量如图8所示。表3比较了两种模型在测试集上的评价结果。本申请实施例中的最佳结果均以粗体标记。从表3可以看出,ISTD-YOLOv7在准确率(从97.52%提高到98.80%)、召回率(从96.23%提高到96.87%)、F1(从96.87%提高到97.83%)、mAP(从97.44%提高到98.43%)等方面都比YOLOv7有了提高。改进策略的应用增强了网络对有限信息的特征提取能力,降低了红外小目标的漏检率,提高了模型的查全率,使ISTD-YOLOv7的检测更加准确。
表3.YOLOv7和ISTD-YOLOv7的评价结果
Model P(%) R(%) F1(%) mAP(%)
YOLOv7 97.52 96.23 96.87 97.44
ISTD-YOLOv7 98.80 96.87 97.83 98.43
与其他模型的比较结果分析:
本申请实施例还将ISTD-YOLOv7与其他先进的检测模型进行比较。YOLOv3和YOLOv5s也属于YOLO系列,但尚未在数据集上进行测试。SSD是基于锚框的模型。CenterNet和FCOS是无锚模型。
图9显示了不同模型的每个类别的AP值。AP指标综合考虑了不同置信度下的准确率和召回率之间的平衡。ISTD-YOLOv7是唯一一个所有类别的AP值都超过96%的模型。结果表明,该模型在给定数据集上具有较好的整体检测效果。此外,不难发现,除了FCOS以外,其它模型的第8类AP值都是最低的。这是因为训练集中的第8类目标的数量较少,模型不能更充分地学习到该类别的特征信息。然而,本申请实施例中的ISTD-YOLOv7模型在第8类的AP值超过96%,而SSD模型在第8类的AP值仅超过75%。
表4给出了更多的定量结果。在准确率方面,ISTD-YOLOv7获得了98.80%的最佳结果。YOLOv3的召回率最高,为97.45%,ISTD-YOLOv7次之。F1和mAP是两个综合指标,ISTD-YOLOv7模型明显优于对比模型。在给定的数据集上,SSD的性能不能令人满意。这些结果表明,ISTD-YOLOv7在检测红外小目标的能力方面总体上优于比较模型。面对复杂场景下的红外小目标,ISTD-YOLOv7中锚框更新、GE注意力机制和基于NWD的损失函数大大地提高了网络的收敛性能和特征提取能力,缓解了模型对小目标位置偏差的敏感性,降低了漏检率。
表4.不同模型的评价结果
将ISTD-YOLOv7与其它模型的定性结果进行对比,如图10所示。在图10中,只有CenterNet和ISTD-YOLOv7能够检测到所有目标,而其它模型都存在不同程度的漏检现象。进一步分析漏检现象,由于“目标7”非常微弱,几乎淹没在背景中,更难被检测到。在这种情况下,ISTD-YOLOv7仍然可以以0.78的置信度检测到它。SSD是漏检现象最严重的模型,只检测到“目标1”。
由上可见,通过实验表明,本申请实施例提出的模型比YOLOv3、YOLOv5s、SSD、CenterNet、FCOS和基线模型具有更强的检测性能,与基线模型相比,ISTD-YOLOv7的mAP由97.44%提高到98.43%。
实施例三
本申请实施例提供了一种面向空地应用的红外小目标检测装置,包括:获取单元、改进单元、训练单元和检测单元。
其中,所述获取单元用于:获取数据集,并基于所述数据集对红外小目标的锚框进行更新;
所述改进单元用于:基于GE注意力机制构建GE模块,将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中;
所述改进单元还用于:基于NWD度量构建NWD模块,将所述NWD模块集成至YOLOv7模型的损失函数中,得到ISTD-YOLOv7模型;
所述训练单元用于:基于所述数据集对所述ISTD-YOLOv7模型进行训练和验证;
所述检测单元用于:基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测。
由上可见,本申请实施例提供的红外小目标检测装置,通过获取单元对YOLOv7进行锚框更新以使网络模型收敛地更好更快;然后通过改进单元在YOLOv7中加入GE注意力机制,以使网络模型更有效地挖掘特征的上下文信息和空间位置信息;此外,还通过改进单元将YOLOv7损失函数中的原始IoU度量替换为NWD度量,以克服YOLOv7对小目标位置偏差敏感的问题。
实施例四
本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本申请实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本申请实施例提供的一种电子设备,通过运行计算机程序实现如实施例一所述的红外小目标检测方法,对YOLOv7进行锚框更新可以使网络模型收敛地更好更快;然后在YOLOv7中加入GE注意力机制,可以使网络模型更有效地挖掘特征的上下文信息和空间位置信息;此外,将YOLOv7损失函数中的原始IoU度量替换为NWD度量,以克服YOLOv7对小目标位置偏差敏感的问题。ISTD-YOLOv7在红外小目标上的检测性能与现有的其他YOLOv3、YOLOv5s、SSD、CenterNet、FCOS、YOLOv7等模型相比具有更强的检测性能,在红外小目标检测中具有优越性。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种面向空地应用的红外小目标检测方法,其特征在于,包括:
获取数据集,并基于所述数据集对红外小目标的锚框进行更新;
基于GE注意力机制构建GE模块,将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中;
基于NWD度量构建NWD模块,将所述NWD模块集成至YOLOv7模型的损失函数中,得到ISTD-YOLOv7模型;
基于所述数据集对所述ISTD-YOLOv7模型进行训练和验证;
基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测。
2.如权利要求1所述的红外小目标检测方法,其特征在于,所述获取数据集之后还包括:
通过数据增强技术对所述数据集进行随机增强。
3.如权利要求1所述的红外小目标检测方法,其特征在于,所述基于所述数据集对红外小目标的锚框进行更新包括:
在所述数据集上对红外小目标的尺寸大小进行重新聚类,以对锚框进行更新。
4.如权利要求1所述的红外小目标检测方法,其特征在于,所述GE模块包括:
用于从输入数据的局部空间位置提取特征的ξG操作符和用于将提取到的特征映射到输入数据原始尺度的ξE操作符。
5.如权利要求1所述的红外小目标检测方法,其特征在于,所述将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中包括:
在YOLOv7模型的骨干特征提取网络中的三个输出分支上分别增加三个GE模块。
6.如权利要求1-5任一项所述的红外小目标检测方法,其特征在于,所述将所述NWD模块集成至YOLOv7模型的损失函数中包括:
通过所述NWD模块替换所述YOLOv7模型的原始损失函数中的IoU度量。
7.如权利要求1-5任一项所述的红外小目标检测方法,其特征在于,所述ISTD-YOLOv7模型包括:骨干特征提取网络、颈部网络和头部网络;
所述基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测包括:
通过嵌入有GE模块的骨干特征提取网络对输入数据进行特征提取,并对提取的特征的上下文信息和空间位置信息进行挖掘;
通过颈部网络对提取的特征进行特征融合,得到空间和语义信息;
基于所述空间和语义信息,通过头部网络进行预测并得到预测结果;
通过集成有NWD模块的损失函数对所述预测结果进行迭代优化;
基于更新的锚框对边界框进行调整,并通过非极大抑制得到最终检测结果。
8.一种面向空地应用的红外小目标检测装置,其特征在于,包括:
获取单元,用于获取数据集,并基于所述数据集对红外小目标的锚框进行更新;
改进单元,用于基于GE注意力机制构建GE模块,将所述GE模块嵌入至YOLOv7模型的骨干特征提取网络中;
所述改进单元还用于,基于NWD度量构建NWD模块,将所述NWD模块集成至YOLOv7模型的损失函数中,得到ISTD-YOLOv7模型;
训练单元,用于基于所述数据集对所述ISTD-YOLOv7模型进行训练和验证;
检测单元,用于基于更新的锚框,通过训练后的所述ISTD-YOLOv7模型对红外小目标进行检测。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202310851353.1A 2023-07-12 2023-07-12 一种面向空地应用的红外小目标检测方法 Pending CN116883873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310851353.1A CN116883873A (zh) 2023-07-12 2023-07-12 一种面向空地应用的红外小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310851353.1A CN116883873A (zh) 2023-07-12 2023-07-12 一种面向空地应用的红外小目标检测方法

Publications (1)

Publication Number Publication Date
CN116883873A true CN116883873A (zh) 2023-10-13

Family

ID=88270963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310851353.1A Pending CN116883873A (zh) 2023-07-12 2023-07-12 一种面向空地应用的红外小目标检测方法

Country Status (1)

Country Link
CN (1) CN116883873A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809083A (zh) * 2023-12-14 2024-04-02 国网湖北省电力有限公司武汉供电公司 一种基于红外或紫外图像的电缆接头故障检测方法及系统
CN118279566A (zh) * 2024-05-10 2024-07-02 广东工业大学 一种针对小型物体的自动驾驶目标检测系统
CN118506222A (zh) * 2024-07-18 2024-08-16 长春理工大学 一种基于状态空间模型的红外无人机群检测方法
CN118537812A (zh) * 2024-04-10 2024-08-23 中国人民解放军海军潜艇学院 基于改进yolox模型的小尺寸船舶检测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809083A (zh) * 2023-12-14 2024-04-02 国网湖北省电力有限公司武汉供电公司 一种基于红外或紫外图像的电缆接头故障检测方法及系统
CN118537812A (zh) * 2024-04-10 2024-08-23 中国人民解放军海军潜艇学院 基于改进yolox模型的小尺寸船舶检测方法及系统
CN118279566A (zh) * 2024-05-10 2024-07-02 广东工业大学 一种针对小型物体的自动驾驶目标检测系统
CN118506222A (zh) * 2024-07-18 2024-08-16 长春理工大学 一种基于状态空间模型的红外无人机群检测方法
CN118506222B (zh) * 2024-07-18 2024-10-22 长春理工大学 一种基于状态空间模型的红外无人机群检测方法

Similar Documents

Publication Publication Date Title
CN111738124B (zh) 基于Gabor变换和注意力的遥感图像云检测方法
CN116883873A (zh) 一种面向空地应用的红外小目标检测方法
CN111709416B (zh) 车牌定位方法、装置、系统及存储介质
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN110443208A (zh) 一种基于YOLOv2的车辆目标检测方法、系统及设备
CN103699905B (zh) 一种车牌定位方法及装置
CN109657716A (zh) 一种基于深度学习的车辆外观损伤识别方法
Wang et al. Combined use of FCN and Harris corner detection for counting wheat ears in field conditions
CN115049944B (zh) 一种基于多任务优化的小样本遥感图像目标检测方法
CN109029363A (zh) 一种基于深度学习的目标测距方法
CN109255286A (zh) 一种基于yolo深度学习网络框架的无人机光学快速检测识别方法
CN111915583B (zh) 复杂场景中基于车载红外热像仪的车辆和行人检测方法
KR101908481B1 (ko) 보행자 검출 장치 및 방법
CN109948616A (zh) 图像检测方法、装置、电子设备及计算机可读存储介质
CN116824413A (zh) 一种基于多尺度空洞卷积的航拍图像目标检测方法
CN117409190B (zh) 一种实时红外图像目标检测方法、装置、设备及存储介质
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
CN115761534A (zh) 一种空中背景下红外无人机小目标检测及跟踪方法
CN109558803B (zh) 基于卷积神经网络与np准则的sar目标鉴别方法
CN116721368A (zh) 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法
CN107016359A (zh) 一种复杂环境下基于t分布的人脸快速识别方法
Han et al. Effective complex airport object detection in remote sensing images based on improved end-to-end convolutional neural network
CN113902978B (zh) 基于深度学习的可解释性sar图像目标检测方法及系统
CN113837154A (zh) 一种基于多任务辅助的开放集过滤系统及方法
CN111832463A (zh) 一种基于深度学习的交通标志检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination