CN118155106B

CN118155106B - 面向山区救援的无人机行人检测方法、系统、设备及介质

Info

Publication number: CN118155106B
Application number: CN202410584727.2A
Authority: CN
Inventors: 李延港; 李奇; 潘洁; 吴海涛; 刘承浩; 孙明正; 刘冲; 周英; 逯行政; 魏宏伟; 朱宏亮; 张昊泽; 徐鑫; 陈俊美; 杨杰; 张亦卓; 董晓晗; 亓立壮; 李勇; 翟飞
Original assignee: Qilu Aerospace Information Research Institute; Aerospace Information Research Institute of CAS
Current assignee: Qilu Aerospace Information Research Institute; Aerospace Information Research Institute of CAS
Priority date: 2024-05-13
Filing date: 2024-05-13
Publication date: 2024-08-09
Anticipated expiration: 2044-05-13
Also published as: CN118155106A

Abstract

本发明属于计算机视觉领域，提供了一种面向山区救援的无人机行人检测方法、系统、设备及介质，包括利用无人机获取山区救援图像并进行预处理；基于预处理后的山区救援图像，利用预先训练好的目标检测网络进行行人检测；所述利用预先训练好的目标检测网络进行行人检测，具体为：基于预处理后的山区救援图像，利用主干网络进行特征提取，采用感受野注意力卷积进行下采样，得到不同尺度的山区救援图像特征图；利用双向融合操作，将不同尺度的山区救援图像特征图进行多尺度特征融合，有效增强了网络头部对目标位置和分类的识别能力。本发明在保证目标检测准确率的同时，实现对小目标的高效识别，以解决山区救援行动中实时性与准确性的平衡问题。

Description

面向山区救援的无人机行人检测方法、系统、设备及介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种面向山区救援的无人机行人检测方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

传统的目标检测算法通常采用基于特征的方法，如Haar级联、HOG(Histogram ofOriented Gradients)+SVM(Support Vector Machines)等，但这些方法在处理复杂场景时准确率较低且计算量大。近年来，随着深度学习的发展，基于深度学习的目标检测方法得到了广泛应用，其中YOLO（You Only Look Once）系列是一类非常流行的实时目标检测算法，其通过卷积神经网络直接在图像中预测边界框和类别，具有较高的检测速度和准确率。YOLOv8是YOLO系列的最新版本，相较于之前的版本，YOLOv8通过改进网络结构、训练策略和数据增强技术，进一步提高了检测性能和效率，适用于不同尺度和复杂度的目标检测任务。

而山区救援是一项具有挑战性的任务，由于山区地形复杂、交通不便等特点，常规的搜救方法存在一定局限性。利用无人机进行山区搜救具有显著的优势，但要实现有效的搜救行动，需要对山区场景下的目标进行快速准确的检测与识别，因此需要一种高效的目标检测方法来支持山区救援行动。在山区场景中，由于无人机高空俯拍，救援目标往往是较小尺寸的行人，在图像中所占比例较小，而原始的YOLOv8算法主要适用于平拍视角下中大型物体的目标检测，因此直接使用YOLOv8算法检测难度较大。其次，由于山区环境复杂，容易出现救援目标被遮挡等问题，从而使得救援目标被忽略或混淆。

发明内容

为了解决上述问题，本发明提出了一种面向山区救援的无人机行人检测方法、系统、设备及介质，本发明旨在应对山区环境下的目标检测挑战，针对目前目标检测算法在光照变化大、背景复杂、遮挡严重、目标尺寸小等问题上的不足，以及无人机拍摄下的目标检测需求，提出一种基于改进的YOLOv8模型的方法。致力于在保证目标检测准确率的同时，实现对小目标的高效识别，以支持山区救援行动的实施，解决实时性与准确性的平衡问题。

根据一些实施例，本发明的第一方案提供了一种面向山区救援的无人机行人检测方法，采用如下技术方案：

面向山区救援的无人机行人检测方法，包括：

利用无人机获取山区救援图像并进行预处理；

基于预处理后的山区救援图像，利用预先训练好的目标检测网络进行行人检测；

其中，所述利用预先训练好的目标检测网络进行行人检测，具体为：

基于预处理后的山区救援图像，利用主干网络进行特征提取，采用感受野注意力卷积进行下采样，得到不同尺度的山区救援图像特征图；

利用双向融合操作，将不同尺度的山区救援图像特征图进行多尺度特征融合，得到山区救援融合图像；

基于山区救援融合图像，利用目标检测头对行人进行目标检测。

进一步地，所述利用无人机获取山区救援图像并进行预处理，具体为：

利用无人机获取山区救援图像；

采用图像增强对山区救援图像进行数据扩充，得到预处理后的山区救援图像。

进一步地，所述采用感受野注意力卷积进行下采样，具体为：

获取感受野注意力图；

调整输入特征图的通道数，将同一空间位置上不同通道的值逐个取出，按照空间顺序进行顺序排列，对感受野注意力图进行形状调整；

基于调整后的感受野注意力图，通过卷积操作进行特征提取即可得到最终的下采样结果。

进一步地，所述利用双向融合操作，将不同尺度的山区救援图像特征图进行多尺度特征融合，得到山区救援融合图像，具体为：

在自顶向下的分支中，主干网络提取的浅层山区救援图像特征图通过下采样操作与深层山区救援图像特征图进行融合，经过C2f模块进行进一步的特征提取；

提取后的结果经过上采样操作直接与浅层山区救援图像特征图进行再次融合；

在自底向上的分支中，自顶向下分支中提取的深层特征通过下采样操作与自顶向下分支中提取的浅层特征进行融合，经过C2f模块进行进一步的特征提取；

提取后的结果经过下采样操作直接与自顶向下分支中提取的浅层特征进行再次融合。

进一步地，所述自顶向下的分支处理过程重复四次，得到四个不同尺度的初始山区救援融合图像，并将最后一次得到的初始山区救援融合图像输入到目标检测头中。

进一步地，所述自底向上的分支处理过程重复两次，得到两个不同尺度的山区救援融合图像并输入到目标检测头中。

进一步地，所述目标检测头的特征图检测尺寸分别为160×160像素，80×80像素，40×40像素。

根据一些实施例，本发明的第二方案提供了一种面向山区救援的无人机行人检测系统，采用如下技术方案：

面向山区救援的无人机行人检测系统，包括：

图像采集处理模块，被配置为利用无人机获取山区救援图像并进行预处理；

行人目标检测模块，被配置为基于预处理后的山区救援图像，利用预先训练好的目标检测网络进行行人检测；

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的面向山区救援的无人机行人检测方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的面向山区救援的无人机行人检测方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明基于YOLOv8网络进行改进，引入了带有感受野注意力机制的RFAConv(Receptive-Field Attention Convolution)卷积模块，不仅对感受野内不同特征的重要性进行了分级，而且通过对感受野空间特征进行优先排序，有效地解决了卷积核参数共享的问题。在参数量和计算量仅略微增加的情况下，进一步提升了主干网络的特征提取能力。同时，设计了专门针对小目标检测的颈部(Neck)结构——BC-FPN(BidirectionalConcatenation Fusion Pyramid Network)，首先通过双向融合策略，将浅层的空间信息与深层的语义信息进行混合，使得空间信息和语义信息得到了良好的平衡，有效增强了网络头部对目标位置和分类的识别能力。其次删除了大型物体的检测头，添加了更适合无人机视角下的小型物体检测头，使得模型更加适用于无人机视角下山区场景中的行人检测任务。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中一种面向山区救援的无人机行人检测方法原理流程图；

图2是本发明实施例中的原始YOLOv8的网络模型结构图；

图3是本发明实施例中改进YOLOv8的网络模型结构图；

图4是本发明实施例中RFAConv模块示意图；

图5是本发明实施例中RFAConv模块形状调整操作示意图；

图6是本发明实施例中山区场景下无人机目标检测结果示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了一种面向山区救援的无人机行人检测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

面向山区救援的无人机行人检测方法，包括：

利用无人机获取山区救援图像并进行预处理；

如图1所示，本发明的实施方式不限于此，主要包括以下步骤：

步骤1，构建无人机视角山区场景数据集

对无人机拍摄的图像使用标注工具LabelImg软件进行标记，标注出感兴趣的目标（行人）及其位置信息，获得图像对应的标签。每个目标用矩形边界框表示，并为其分配相应的类别标签。然后使用图像增强技术进行对图像进行预处理，扩充数据集，包括但不限于裁剪、旋转、翻转、色调调整、饱和度调整以及随机亮度调整等操作。

使用的图像增强技术具体如下：

（1）裁剪（随机裁剪或中心裁剪）：改变图像的尺寸和位置；

（2）旋转：将图像按照一定角度进行旋转；

（3）翻转（水平翻转、垂直翻转）：改变图像的方向；

（4）色调调整：调整图像的色彩，例如增加或减少饱和度；

（5）饱和度调整：调整图像的饱和度，使其颜色更加鲜艳或柔和；

（6）随机亮度调整：随机调整图像的亮度，使其更加适应不同光照条件下的环境。

将扩充后的数据集划分为训练集、验证集和测试集，60%的数据用于训练，20%的数据用于验证，20%的数据用于测试，同时确保训练集、验证集以及测试集之间的数据分布相似。

步骤2，构建改进的YOLOv8网络模型：

构建后的YOLOv8网络模型如图3所示，原始YOLOv8网络模型如图2所示，对比原始模型，可以看到主要在主干部分和颈部部分进行了改进。

（1）主干部分：

将步骤1处理后的图像输入至改进的YOLOv8网络模型的主干网络(Backbone)中，进行特征提取，得到不同尺度的山区救援图像特征图。

其中，对于主干部分的改进，在下采样部分，将原始网络中具有下采样功能的CBS卷积模块替换为带有感受野注意力机制的RFAConv卷积模块，RFAConv卷积模块不仅对感受野滑块内不同特征的重要性进行了分级，而且对感受野空间特征进行了优先排序，完全解决了卷积核参数共享的问题。和原来相比，在参数量与计算量略微增加的前提下，进一步提升了主干网络的特征提取能力。

本实施例使用带有感受野注意力机制的RFAConv卷积模块，RFAConv卷积模块不仅对感受野内不同特征的重要性进行了分级，而且通过对感受野空间特征进行优先排序，有效地解决了卷积核参数共享的问题。与传统的Conv卷积相比，RFAConv卷积模块在参数量和计算量上略微增加，但在主干网络的特征提取能力上却取得了显著的提升。这一改进的关键在于RFAConv卷积模块的感受野注意力机制，它允许网络对输入的不同空间位置和特征进行动态调整，从而更好地捕捉到复杂的图像特征。通过引入这种机制，能够在保持网络结构紧凑的同时，提高其对于图像特征的敏感性和适应性。此外，RFAConv卷积模块还具有一定的可解释性，能够清晰地指示网络在不同区域和尺度上的注意力分配情况，有助于进一步理解网络的工作机制和学习过程。

可以看到，原始网络中使用CBS卷积进行下采样操作的位置被RFAConv模块来执行，RFAConv卷积模块运算原理图如图4所示，具体操作主要分为三步：感受野注意力图获取、形状调整以及特征提取。首先是感受野注意力图F的计算，具体如下：

（1）；

式中，X表示输入特征图。表示分成三组进行组卷积，每组卷积核尺寸为11 c，数目为9。表示分成三组进行组卷积，每组卷积核尺寸为33 c，数目为9；Norm表示归一化，X表示输入特征图，Softmax(.)表示归一化函数，AvgPool(.)表示全局平局池化，ReLU表示ReLU(.)激活函数。设输入特征图通道数、高、宽分别为C，H，W，则通过上述计算后得到的感受野注意力图F的尺度为（9C，H，W），然后对其进行形状调整，调整方式为图4所示，将同一空间位置上不同通道的值逐个取出，按照空间顺序进行顺序排列，经此操作后，特征图的尺寸为（C，3H，3W）。最后再通过卷积核大小为3，步长为3的卷积进行特征提取即可得到最终的结果。

通过RFAConv的计算过程，可以明显的看到，RFAConv通过考虑感受野的空间特征，能够凸显出感受野内每个特征的重要性，并将其与卷积相结合，实现了非参数共享的卷积运算。尽管在将RFAConv嵌入到主干网络中的过程中，参数量和计算量略微增加，但这一增加并不会对整个网络的性能造成严重的负面影响。相反，RFAConv模块的引入却能够显著提升主干网络的特征提取能力。这种提升将为后续的Neck部分提供更加丰富和有效的特征，有利于Neck部分更好地进行特征融合和信息传递。

（2）颈部部分：

将主干网络得到的不同尺度的山区救援图像特征图，输入至改进的颈部(Neck)部分，进行多尺度特征融合。

在颈部部分的改进，专门针对小目标检测设计了BC-FPN结构，具体而言，通过BC-FPN结构的双向融合操作，将浅层的空间信息与深层的语义信息进行充分融合，有效增强目标的检测能力。并在此基础上，删去了一个大型物体的检测头，转而添加了一个微小型物体的检测头，在降低参数量的同时也使得网络更加倾向于小型目标的检测上，提升网络对小型目标的检测能力。

本实施例对原始Neck结构进行了改进，设计了专门针对小目标检测的Neck结构，命名为BC-FPN。该结构由两条分支组成，其中，一条分支为自顶向下的深层语义特征传播链，负责将高级抽象的语义特征逐级传递至底层；另一条则是自底向上的浅层空间特征传播路径，旨在将包含丰富空间细节的特征逐步汇集至上层。同时，本发明采取了双向融合策略，具体表现为在主干分支、自底向上分支以及自顶向下三条分支之间额外使用下采样来进行不同尺度特征图之间的融合，通过增加不同尺度特征图的融合次数均衡了不同层级特征之间的互补性，解决了常规的特征融合架构存在的空间信息与语义信息的深度融合程度受限问题，充分利用了浅层特征中的空间信息以及深层特征中的语义信息，从而更好地应对小目标检测任务。

具体而言，在自顶向下的分支中，主干网络的浅层山区救援图像特征图首先通过下采样操作与深层山区救援图像特征图进行融合，然后经过C2f模块进行进一步的特征提取。接着，提取后的结果经过上采样操作直接与浅层山区救援图像特征图进行再一次融合。这一过程的关键在于，相比于常规特征融合模块中同一尺度特征图仅有一次的融合，本发明中通过双向融合策略实现了同一尺度特征图的两次融合，增加了融合次数，实现了浅层的空间信息与深层的语义信息的充分混合，有效地增强了网络头部对目标位置和分类的识别能力，并且使得多尺度特征图能够同时包含空间信息和语义信息。接着，在自底向上的分支中，同样采取双向融合策略作进一步的特征提取并交由检测头模块进行处理以输出最终的结果。Neck部分这一改进的目的在于在综合考虑浅层和深层特征的情况下，进一步优化了网络的特征表达能力，从而更好地适应小目标检测任务的需求。

从图3中可以看到，在颈部部分，首先一处改进是在特征融合的两条分支中添加了双向融合策略。在自顶向下的分支中，双向融合策略具体可表示如下：

（2）；

上式中，F _TDi表示自顶向下分支中融合的第i层初始山区救援融合图像特征，i=1,2,3,4，C2f表示YOLOv8网络模型的C2f卷积模块，{}表示Concat操作。Downsample表示下采样操作，使用卷积核大小为3，步长为2，填充为1的卷积来完成。F _pj表示主干网络中提取的第j层山区救援图像特征图，j=1,2,3,4,5，PW表示点卷积操作，Upsample表示上采样操作。

在自底向上的分支中，双向融合策略可以表示如下：

（3）；

上式中，F _BUk代表自底向上分支中融合后的k个山区救援融合图像特征，k=1,2。

从公式（2）和公式（3）中可以发现，通过双向融合策略，系统性地提升了不同尺度特征图之间的融合频次，实现了浅层空间特征与深层语义特征的深度交融。在此基础上，浅层特征不仅成功汲取了深层特征蕴含的丰富语义信息，同时深层特征亦能有效捕获浅层特征所携带的空间细节。这种信息交互与均衡机制，显著增强了网络模型在目标定位与类别识别任务中的性能表现。

而且，能够发现，在获取F _TD1和F _TD2的时候，本发明额外使用了PW(PointWise)卷积，这是由于F _P1层和F _P2层处于网络的浅层结构，其所携带的空间位置信息和语义信息尚未充分提炼且较为混沌，倘若未经适当处理直接通过下采样进行融合，非但难以对后续的目标检测提供有益的导向作用，反而可能因特征图内部信息的冗余和混杂而导致噪声干扰，进而削弱网络的整体检测性能。因此，本发明在融合阶段前置了一个额外的卷积层，旨在对特征图中的信息进行初步提取和筛选，初步过滤掉和检测对象无关的信息。为控制模型复杂度和防止参数量过大，本发明选用PW卷积作为该预处理操作的工具，它能在不显著增加参数负担的前提下，完成对其中的空间信息和语义信息的一个简单梳理，有效的细化和增强浅层特征的表达能力，从而为后续检测头提供更为纯净、更具针对性的特征表示，进而优化整个网络的检测效果。

另外，在此基础上，考虑到主干网络浅层特征层对于小目标物体的空间细节保持着较高的保真度，本发明在颈部部分改进的第二点是将颈部结构向上扩展，增设了一个专用于微小型目标检测的头部，其特征图尺寸设定为160×160像素，旨在充分利用浅层特征中的空间信息。同时，鉴于应用场景主要聚焦于山区环境下的无人机视觉系统对微型目标的探测需求，因此本发明剔除了原有适应于大型物体检测的20×20像素尺寸特征图头部，降低参数量的同时使其更加专注于小目标的检测。最终得到三个目标检测头的特征图尺寸分别为160×160像素（Head1），80×80像素（Head2），40×40像素（Head3）。

综合上述内容，改进后的YOLOv8网络模型，对预处理后的山区救援图像的处理过程，具体为：

（1）对预处理后的山区救援图像进行统一尺寸调整，将其缩放为640×640像素，随后将其作为输入送入改进后的YOLOv8网络模型。模型处理流程首先从主干部分展开，此阶段专注于对图像进行深入的特征提取。运用标准卷积CBS模块执行下采样操作，有效地将预处理后的山区救援图像解析为具有更精细特征表达的320×320尺度山区救援图像特征图，标记为F _P1。

紧接着，F _P1山区救援图像特征图进一步经过RFAConv模块进行下采样处理，同时，借助C2f模块对降采样后的特征进行细化提取，从而生成尺寸缩减至160×160的山区救援图像特征图F _P2。遵循上述逻辑，继续连续重复该流程三次：每次迭代均包含下采样、特征提取两个关键步骤，逐步将特征图的分辨率递减至80×80（生成F _P3）、40×40（生成F _P4），直至最终得到20×20的特征图。

在完成上述多层次特征提取后，引入快速空间金字塔池化（Spatial PyramidPooling Fusion, SPPF）模块作为收尾环节。最终输出一张同样为20×20尺度，但深度融合了各层次特征信息的山区救援图像特征图F _P5。至此，整个网络架构成功地构建了一条从原始图像到高度抽象、富含语义的特征表示的转化路径。

（2）将已获得的多级山区救援图像特征图F _P1、F _P2、F _P3、F _P4和F _P5，依次输入至经过改良的颈部模块——BC-FPN，遵循公式（2）与公式（3）所定义的处理规则，执行双向融合操作。这一过程中，BC-FPN着重于均衡各山区救援图像特征图间的空间细节信息与高层次语义信息，提出的双向融合机制确保了融合后的特征图既能保留精确的空间布局，又蕴含深厚的语义内涵。经过BC-FPN的处理，得到三张实现了空间信息与语义信息均衡的特征图：初始山区救援融合图像F _TD4、第一尺度的山区救援融合图像F _BU1以及第二尺度的山区救援融合图像F _BU2。接下来，这些平衡融合的特征图被输送至后续的head模块，在此模块内，特征图将进一步经历精细的提取、深度的融合、解耦的预测等步骤，并最终通过损失函数进行计算优化得以输出精确且可靠的检测结果，完成了从输入图像到目标识别的全过程。

步骤3，模型训练：

在训练集上进行模型训练，在运行环境中进行项目环境配置，设置训练200轮次，批处理大小为16，初试学习率为0.01，优化器采用SGD进行训练，每训练一轮后会加载本轮权重在验证集上进行验证，训练完成后会自动保存权重文件、训练日志以及每一轮的验证结果。

在训练集上进行训练，使用CIOU作为损失函数，进行梯度下降和反向传播，不断优化神经网络参数。训练完成后在验证集上进行验证调优，选取最佳权重。

步骤4中的CIOU损失函数的具体计算方法为：

（4）；

式中，CIOU(Complete-IOU)表示完全交并比，用于评估目标检测中边界框预测的准确性，IOU指标的设计综合考虑了边界框之间的位置关系、尺寸差异和重叠程度，使其能够更全面地评估目标检测模型的性能。具体而言，CIOU的计算涉及到以下几个要素：

（1）IOU（Intersection over Union）：交并比，用于衡量两个边界框之间的重叠程度。

（2）b和：分别表示预测框和真实框的中心点。

（3）ρ：表示预测框和真实框中心点之间的欧几里得距离。

（4）c：代表能够同时包含预测框和真实框的最小闭包区域的对角线距离。

在CIOU的计算中，还引入了参数α，用于调整完整性和重叠度量之间的权衡。具体而言，α的定义如下：其中α是用于调整完整性和重叠度量之间权衡的参数，α的定义如下：

（5）；

其中，v是一个可调整的超参数，用于平衡完整性和重叠度量的重要性。ρ ²/c ²表示的是中心点之间的距离正则化项，通过这个项，CIOU可以更好地处理不同尺寸的边界框之间的位置关系。v是一个参数，用于测量长宽比的连贯性，其中h代表长，w代表宽，v定义如下：

（6）；

步骤4，加载权重对测试集进行预测：

将模型载入最佳权重对测试集进行目标检测，模型将分析这些图像，检测其中的行人目标，测试集中的部分检测结果如图5所示。

模型自动检测图片中含有的行人并以矩形框的形式标注出来，使用精度、召回率以及平均精度等指标评估网络在山区场景下的小目标检测性能。

采用了平均精度以及精度和召回率的波动情况作为衡量多标签图像检测精度的指标。具体计算方式如下：

（7）；

上式中，TP（True Positives）是真正例，表示模型正确预测为正样本的数量。FP（False Positives）是假正例，表示模型错误地将负样本预测为正样本的数量。其中，Precision为准确率，表示正确检测到的正样本与所有被检测为正样本的比例；Recall为召回率，表示正确检测到的正样本与所有实际正样本的比例；AP为平均精度，度量单个类别的目标检测的性能；mAP是对多个类别的AP进行平均，用于评估多类别目标检测模型的性能，式中n表示类别数量，在本发明应用的案例中，只有行人这一个类别，因此n=1。

实施例二

本实施例提供了一种面向山区救援的无人机行人检测系统，包括：

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的面向山区救援的无人机行人检测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的面向山区救援的无人机行人检测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.面向山区救援的无人机行人检测方法，其特征在于，包括：

利用无人机获取山区救援图像并进行预处理；

利用双向融合操作，将不同尺度的山区救援图像特征图进行多尺度特征融合，得到山区救援融合图像；具体为：

在自顶向下的分支中，主干网络的浅层山区救援图像特征图通过下采样操作与深层山区救援图像特征图进行融合，经过C2f模块进行进一步的特征提取；提取后的结果经过上采样操作直接与浅层山区救援图像特征图进行再次融合；

在自顶向下的分支中，双向融合策略具体表示如下：

；

其中，F _TDi表示自顶向下分支中融合的第i层初始山区救援融合图像特征，i=1,2,3,4，C2f表示YOLOv8网络模型的C2f卷积模块，{}表示Concat操作；Downsample表示下采样操作，使用卷积核大小为3，步长为2，填充为1的卷积来完成；F _pj表示主干网络中提取的第j层山区救援图像特征图，j=1,2,3,4,5，PW表示点卷积操作，Upsample表示上采样操作；

在自底向上的分支中，自顶向下分支中提取的深层特征通过下采样操作与自顶向下分支中提取的浅层特征进行融合，经过C2f模块进行进一步的特征提取；提取后的结果经过下采样操作直接与自顶向下分支中提取的浅层特征进行再次融合；

2.如权利要求1所述的面向山区救援的无人机行人检测方法，其特征在于，所述利用无人机获取山区救援图像并进行预处理，具体为：

利用无人机获取山区救援图像；

3.如权利要求1所述的面向山区救援的无人机行人检测方法，其特征在于，所述采用感受野注意力卷积进行下采样，具体为：

获取感受注意力图；

4.如权利要求1所述的面向山区救援的无人机行人检测方法，其特征在于，所述自顶向下的分支处理过程重复四次，得到四个不同尺度的初始山区救援融合图像，并将最后一次得到的初始山区救援融合图像输入到目标检测头中。

5.如权利要求1所述的面向山区救援的无人机行人检测方法，其特征在于，所述自底向上的分支处理过程重复两次，得到两个不同尺度的山区救援融合图像并输入到目标检测头中。

6.如权利要求1所述的面向山区救援的无人机行人检测方法，其特征在于，所述目标检测头的特征图检测尺寸分别为160×160像素，80×80像素，40×40像素。

7.面向山区救援的无人机行人检测系统，采用如权利要求1所述的面向山区救援的无人机行人检测方法，其特征在于，包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的面向山区救援的无人机行人检测方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的面向山区救援的无人机行人检测方法中的步骤。