CN114694017B

CN114694017B - 一种轻量级水下目标检测方法、系统、介质、设备及终端

Info

Publication number: CN114694017B
Application number: CN202210406103.2A
Authority: CN
Inventors: 韩彦岭; 黄丽华; 曹守启; 陈亮; 张云; 王静; 马振玲; 洪中华; 周汝雁
Original assignee: Shanghai Ocean University
Current assignee: Shanghai Ocean University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2024-08-20
Anticipated expiration: 2042-04-18
Also published as: CN114694017A

Abstract

本发明属于水下目标检测技术领域，公开了一种轻量级水下目标检测方法、系统、介质、设备及终端。采用CSPDarknet18作为骨干网络来初步提取特征；利用Dense策略提取不同层次和尺度的图像特征；在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互；构建FPN和PANet网络，同时提取具有语义信息和位置信息的特征；采用深度可分卷积替换普通卷积对加强特征提取网进行重建，以减少参数数量。本发明主要对海参、扇贝、海胆和海星的图像进行定位和识别。实验结果表明，本发明的方法在2020URPC水下目标检测数据集上的mAP达到78.18％，模型参数大小为37.22M，在獐子岛海域的现场采集视频数据上的处理速度分别为10.95和28.05FPS，在准确性和速度方面都取得较好的效果。

Description

一种轻量级水下目标检测方法、系统、介质、设备及终端

技术领域

本发明属于目标检测领域，尤其涉及一种轻量级水下目标检测方法、系统、介质、设备及终端。

背景技术

随着全世界范围对海洋生物产量要求的不断提高，海底捕捞技术变得越来越重要。目前捕捞海产品最常用的方法是人工潜水捕捞，然而这种传统捕捞方式危险系数高、作业时间短、对身体伤害大。针对这些问题，研究水下海洋生物的目标检测技术，可以让机器人代替人完成海洋生物捕捞任务，为开发利用海洋资源提供了有效途径。然而，水下环境和照明条件的复杂性导致水下图像细节模糊、颜色失真；水下生物目标较小且有重叠和遮挡等特点；多数水下机器人需要人类的辅助作用才能完成捕捞作业，且捕捞效率低下。因此对海洋环境中的生物目标进行有效探测是一项具有挑战性但十分必要的工作。

目标检测的作用是定位和分类感兴趣目标，通过构建深度学习模型，可以从复杂的水下图像中提取出丰富的高层语义信息。目前基于深度学习的目标检测算法大致分为两类：(1)基于区域建议的两阶段检测框架，该类算法首先使用区域生成算法得到候选框，然后使用卷积神经网络实现分类。典型代表有R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、Cascade R-CNN、Libra R-CNN等算法。这类算法识别精度高，但检测时间效率低下。(2)基于回归的一阶段检测框架，该类算法将检测问题转化为一种直接预测目标的坐标和类别的回归问题。经典代表有YOLOv1、SSD、DSSD、YOLOv2、YOLOv3、YOLOv4，CornetNet，CenterNet等算法。这类算法在检测速度上更具优势。

目前，一般物体的检测技术已有了一定的发展，但在实际应用中，背景、尺度、形状、环境等都存在差异，因此，如何对目标实现高效探测，是一个值得深入探讨的问题。在智能水产养殖领域，基于水下机器人的目标检测算法已经得到了广泛应用。但是，光在水中的传播会导致水下图像清晰度降低，从而影响水下图像目标检测的准确性。在水下生物目标检测算法中，检测准确率和速度通常很难同时达到要求。为解决上述问题，部分研究者已取得一些突出成果，主要包括水下图像预处理、水下小目标检测和水下轻量级检测模型。

在水下图像预处理方面的研究中：Lin等人提出了一种称为RoIMix的数据增强策略，该方法侧重图像之间的交互，将从多幅图像中提取的候选框混合在一起来模拟重叠、遮挡和模糊的对象。以生成大量训练样本来提高目标检测器的性能。Islam等人设计的FunieGAN网络结构通过构建一个多模态目标函数来学习水下图像的内容、色彩、风格和细节纹理等信息，在水下目标检测等水下图像处理任务中取得了良好的效果。在水下小目标检测的研究中：Chen等人设计了一种基于SWIPENet的目标检测网络，该网络具有较高的分辨率信息和较丰富的语义特征信息，可以显著提高小目标的检测精度。同时，该网络设计了一种样本权重损失函数IMA，使得模型能够专注于学习高权重样本，而忽略权重低的样本。通过减小权重而减少噪声样本的干扰。Xu等人设计的SA-FPN结构，通过提取更丰富的细粒度特征，结合高层语义特征和低层空间特征实现对多个尺度的目标进行检测，进而提高海洋较小生物的识别精度。Hu等人研究了一种特征增强的海胆检测算法。以ResNet50作为基础网络，采用特征跨层次融合的思想，强化特征表达和语义信息，从而使得海胆识别结果的准确性显著提升。然而，由于图像的运算量大且运算速度慢，该方法难以达到实时检测的目的。在水下轻量级检测模型的研究中：Ye等人提出一种联合学习水下图像颜色转换和目标检测的深度模型。图像颜色转换模块的目的是将彩色图像转换为相应的灰度图像，解决水下颜色吸收问题，以较低的计算复杂度提高目标检测性能。Yu等人针对侧向扫描声呐图像目标稀疏和特征缺失的问题，提出了一种改进的TR-YOLOv5s网络和下采样策略，并在方法中引入了注意机制，以同时满足水下目标识别精度和检测效率的要求。

通过上述分析，现有技术存在的问题及缺陷为：

(1)由于光在水中传播会导致水下图像清晰度降低，水下图像往往存在明暗对比度低、色差、光照不足、模糊且缺乏细节、噪声污染等问题，影响水下图像目标检测的准确性。

(2)水下目标通常是小而聚集的，使得水下小目标和多尺度目标的检测精度较差。

(3)由于水下系统装置的储存与运算的容量受到限制，大型检测网络在水下环境中无法发挥作用，因此现有的海洋环境中的生物目标检测方法难以达到实时检测的目的。

发明内容

针对现有技术存在的问题，本发明提供了一种轻量级水下目标检测方法、系统、介质、设备及终端，尤其涉及一种基于密集特征融合的轻量级水下目标检测方法、系统、介质、设备及终端。

本发明是这样实现的，一种轻量级水下目标检测方法，所述轻量级水下目标检测方法包括：

采用CSPDarknet18作为骨干网络来初步提取特征；利用Dense策略提取不同层次和尺度的图像特征；在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互；构建FPN和PANet网络，同时提取具有语义信息和位置信息的特征；采用深度可分卷积替换普通卷积对加强特征提取网进行重建。

进一步，所述轻量级水下目标检测方法包括以下步骤：

步骤一，采用轻量级架构CSPDarknet18作为基础网络进行初始特征提取；

步骤二，在主干特征提取网的输出上引入Dense策略，将主干特征提取网络的多层输出结果堆叠连接后再输入到加强特征提取网络；

步骤三，提取大、中、小三种不同尺度的特征图检测不同大小的目标；

步骤四，在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互，并利用FPN和PANet结构对三个初始特征图进行特征融合；

步骤五，利用基于深度可分离卷积的Bottleneck5对加强特征提取网络的卷积结构进行重建，减少参数数量；

步骤六，将三个尺度的增强特征图送入YOLO检测头进行预测。

进一步，所述步骤二中，在检测网络结构设计中引入DenseNet网络的密集连接，DenseNet中的每个层次彼此相连，每个层次均接收到全部层的特性；将主干特征提取网的多层卷积结果堆叠连接后再输入到后续的加强特征提取网络。

在改进的BDA-YOLOv4-tiny检测模型中，将密集连接策略加在主干特征提取网的输出上；主干网络的第10、11和16层卷积的结果被堆叠连接后输入到下一层；主干网络的第18、19和24层卷积的结果被堆叠连接并输入到下一层；主干网络的第26和27层卷积的结果堆叠连接后输入到下一层。

进一步，所述步骤四中，AFF-FPN-PANet结构增加注意力特征融合模块AFF；多尺度信道注意力模型MS-CAM利用两个具有不同规模的分支进行信道注意力权重的提取；利用全局平均池化对整体特征的注意力进行分析，利用逐点卷积操作对局部的信道注意力权重进行分析，并将两个分支进行合并。

AFF模块针对网络结构中不同尺度特征融合时的注意力问题。在目标检测网络结构中，X是低层特征图，Y是加强特征提取网中的高级语义特征图。基于MS-CAM，将AFF表示为：

其中，Z∈RC×H×W属于合并之后的输出特征，表示信息集成；选取每个元素的总和记作初始的积分；融合权重是由0到1之间的实数组成，也是由0到1之间的实数组成，使得网络在X和Y之间进行加权平均。

重新设计的AFF-PAN-PANet模块，通过空间注意机制生成每个特征图的空间权重图，通过权重图融合上下文特征，生成包含多尺度上下文信息的特征图。

进一步，所述步骤五中，利用深度可分离卷积的思想，设计以深度可分离卷积为计算方式的Bottleneck5结构，所述Bottleneck5结构包括五层，第二层和第四层为深度可分离卷积块，第一、三和五层为1×1卷积。

进一步，所述步骤六中，采用CIOU作为损失函数，所述损失函数定义为：

L_CIOU＝1-IoU+R_CIOU；

其中，R_CIOU为惩罚项，惩罚公式通过使两个目标框的中心点之间的标准化距离减到最小确定；α是权重系数；v用于衡量预测框与目标框长宽比的相似性。

本发明的另一目的在于提供一种应用所述的轻量级水下目标检测方法的轻量级水下目标检测系统，所述轻量级水下目标检测系统包括：

初始特征提取模块，用于采用轻量级架构CSPDarknet18作为基础网络进行初始特征提取；

密集特征连接模块，用于在主干特征提取网的输出上引入Dense策略，将主干特征提取网络的多层输出结果堆叠连接后再输入到加强特征提取网络；

特征融合模块，用于在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互，并利用FPN和PANet结构对三个初始特征图进行特征融合；

深度可分离卷积模块，用于利用基于深度可分离卷积的Bottleneck5对加强特征提取网络的卷积结构进行重建，以减少参数数量。

目标检测模块，用于提取大、中、小三种不同尺度的特征图检测不同大小的目标，并将三个尺度的增强特征图送入YOLO检测头进行预测。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

采用CSPDarknet18作为骨干网络来初步提取特征；利用Dense策略提取不同层次和尺度的图像特征；在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互；构建FPN和PANet网络，同时提取具有语义信息和位置信息的特征；采用深度可分卷积替换普通卷积对加强特征提取网进行重建，以减少参数数量。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的轻量级水下目标检测系统。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

近年来，目标检测技术在人类生活中得到了广泛的发展与应用，是计算机视觉领域中一个非常重要的研究方向。该技术在识别人、陆地上的物体等方面已经相对成熟。然而，由于复杂的水下环境，其在海洋领域是还存在困难。首先，水下生物目标通常较小，且水下图像的对比度低和细节模糊等问题导致细节信息提取困难；另外，实际应用的水下检测模型尺寸较大，且检测速度慢。针对以上问题，本发明提出了一种轻量级水下生物目标检测网络，该网络能够实现水下目标检测在检测精度和实时性之间的良好平衡。与其他水下目标检测方法相比，本发明提出的方法一方面提高了小目标的检测能力，提高了多尺度目标识别的准确性，另一方面减少了参数的数量，提高了实时检测性能。

(1)针对水下目标检测轻量化的问题，本发明首先采用CSPDarknet18作为骨干网络来初步提取特征，然后采用深度可分卷积替换普通卷积对加强特征提取网进行重建，以减少模型参数的数量，从而更快地识别和定位水下目标。

(2)针对水下小目标检测难的问题，本发明首先利用Dense策略来充分提取不同层次和不同尺度的图像特征；然后构建FPN和PANet网络，以提取具有丰富语义信息和位置信息的特征，从而提高多尺度目标识别的准确性；最后采用AFF模块来融合语义和尺度不一致的特征，以提高水下小目标的识别准确性。

(3)本发明主要对海参、扇贝、海胆和海星的图像进行定位和识别。实验结果表明，本发明提出的方法在2020URPC水下目标检测数据集上的mAP达到78.18％，模型参数大小为37.22M，在獐子岛海域的现场采集视频数据上的处理速度分别为10.95和28.05FPS。这表明本发明提出的方法在准确性和速度方面都取得了较好的效果。

第二，把技术方案看作一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提出了一种基于密集特征融合的轻量级水下目标检测模型(BDA-YOLOv4-tiny)，该方法既能保证模型尺寸满足水下目标检测系统的部署要求，提高实时检测性能；又能保证较高的检测精度，可以有效改善小目标和多尺度目标的检测性能。为了解决水下目标检测模型轻量化的问题，同时保持相对较高的精度，本发明采用轻量级结构CSPDarknet18作为基础网络实现初始特征提取。同时设计了一种Bottleneck5模块，加强特征提取网络采用Bottleneck5模块取代普通卷积进行特征提取，以减少网络参数和计算工作量。浅层级别的特征对于较小的对象更为敏感，而深层级别的特征则含有较好的语义信息。为了充分保留原始水下图片中的细节特征，本发明采用Dense策略充分提取不同层次和不同尺度的特征，减少了特征传播过程中的信息损失，提高了网络的表现水平。为了使得表层特征和深层特征更好地结合，本发明添加了注意力特征融合模块(AFF)。该模块解决了多尺度特征融合过程中信道注意力的问题，减少了高级特征图中上下文信息的丢失，有效地提高了水下多尺度生物辨识的准确性。实验结果表明，与其他水下目标检测方法相比，本发明提出的BDA-YOLOv4-tiny模型在水下目标检测数据集上取得了较好的平均检测精度。獐子岛采集的水下视频数据集上的实验结果表明该方法的实时性有了显著提高，且易于部署在基于水下无线传感器装置的水下目标检测系统中。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

本发明提供的轻量级水下目标检测方法能够同时解决水下目标检测的准确性和实时性问题。改进了水下小型生物的辨识准确率，提高了多尺度目标识别的准确性。而且还可以有效地改善水下探测模型的实时性能；有助于进一步研究基于深度学习算法的水下目标检测，对浅海渔业的进一步智能化发展具有重要意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的轻量级水下目标检测方法流程图；

图2是本发明实施例提供的轻量级水下目标检测系统结构框图；

图3是本发明实施例提供的BDA-YOLOv4-tiny网络结构图；

图4是本发明实施例提供的AFF模块的结构图；

图4(a)～图4(c)分别是本发明实施例提供的MS-CAM模块、AFF模块和AFF-FPN-PANet网络结构示意图；

图5是本发明实施例提供的六个目标检测模型在水下目标检测数据集上的检测结果示意图；

图5(a)～图5(f)分别是本发明实施例提供的SSD检测结果、YOLOv3检测结果、YOLOv4检测结果、YOLOv4-m检测结果、YOLOv4-tiny检测结果、本发明提出的方法的检测结果示意图；

图6是本发明实施例提供的视频检测结果示意图；

图6(a)～图6(b)分别是本发明实施例提供的两段獐子岛采集的视频检测结果示意图；

图2中：1、初始特征提取模块；2、密集特征连接模块；3、特征融合模块；4、深度可分离卷积模块；5、目标检测模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种轻量级水下目标检测方法、系统、介质、设备及终端，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的轻量级水下目标检测方法包括以下步骤：

S101，采用轻量级架构CSPDarknet18作为基础网络进行初始特征提取；

S102，在主干特征提取网的输出上引入Dense策略，将主干特征提取网络的多层输出结果堆叠连接后再输入到加强特征提取网络；

S103，提取大、中、小三种不同尺度的特征图检测不同大小的目标；

S104，在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互，并利用FPN和PANet结构对三个初始特征图进行特征融合；

S105，利用基于深度可分离卷积的Bottleneck5对加强特征提取网络的卷积结构进行重建，以减少参数数量；

S106，将三个尺度的增强特征图送入YOLO检测头进行预测。

如图2所示，本发明实施例提供的轻量级水下目标检测系统包括：

初始特征提取模块1，用于采用轻量级架构CSPDarknet18作为基础网络进行初始特征提取；

密集特征连接模块2，用于在主干特征提取网的输出上引入Dense策略，将主干特征提取网络的多层输出结果堆叠连接后再输入到加强特征提取网络；

特征融合模块3，用于在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互，并利用FPN和PANet结构对三个初始特征图进行特征融合；

深度可分离卷积模块4，用于利用基于深度可分离卷积的Bottleneck5对加强特征提取网络的卷积结构进行重建，以减少参数数量；

目标检测模块5，用于提取大、中、小三种不同尺度的特征图检测不同大小的目标，并将三个尺度的增强特征图送入YOLO检测头进行预测。

实施例1

本发明实施例提供的基于密集特征融合的轻量级水下目标检测方法包括以下步骤：

步骤一：为了实现检测模型轻量化，本发明采用轻量级架构CSPDarknet18作为基础网络，并将其用于初始特征提取。

步骤二：为了使得获取到的特征更加充实多样，本发明在主干特征提取网的输出上引入Dense策略，将主干特征提取网络的多层输出结果堆叠连接后再输入到后续的加强特征提取网络，以提高特征利用率。

步骤三：小尺度特征图的语义信息是差的，位置信息是强的。大尺度特征图的位置信息是强的，语义信息是差的。中尺度特征图包含提取的三个尺度的中间位置信息和中间语义信息。本发明提取三种不同尺度的特征图来检测不同大小的目标，以提高多尺度目标识别的准确性。

步骤四：为了更好地融合语义和尺度不一致的特征，本发明在主干特征提取网和FPN结构之间添加AFF模块，以解决不同尺度特征融合时的通道注意力问题，从而实现跨通道信息交互。本发明利用FPN和PANet结构对三个初始特征图进行特征融合，进而加强特征提取。

步骤五：为了进一步减少模型参数数量，本发明利用基于深度可分离卷积的Bottleneck5对加强特征提取网的卷积结构进行重建，以减少参数数量和计算复杂度，提高实时检测性能。

步骤六：本发明将三个尺度的增强特征图送入YOLO检测头进行预测。

本发明实施例提供的步骤二中Dense策略的特征在于：

随着网络层数的加深，网络在训练过程中的前向传播信号和梯度信号在经过若干层之后会逐渐消失，这使得小目标的检测变得困难。针对这一问题，本发明在检测网络结构设计中引入了DenseNet网络的密集连接设计思想。为使信息在网络中的各层次间达到最大，DenseNet中的每个层次都是彼此相连的，这样每个层次都会接收到其之前的全部层的特性。因此，各层之间直接相连，这使得仅用小数量的卷积核即可生成丰富的特征，从而可以有效地利用特征，并在一定程度上减轻了训练过程中梯度消失的问题。本发明将主干特征提取网的多层卷积结果堆叠连接后再输入到后续的加强特征提取网络，可以使浅层细节信息更多地被传递到深层，从而提取更加丰富的信息，最终取得了令人满意的性能。

在改进的BDA-YOLOv4-tiny检测模型中，本发明将密集连接策略加在主干特征提取网的输出上。具体来说，主干网络的第10、11和16层卷积的结果被堆叠连接起来，然后输入到下一层。同样，主干网络的第18、19和24层卷积的结果被堆叠连接起来，输入到下一层。最后，主干网络的第26和27层卷积的结果堆叠连接起来，然后输入到下一层。在不需要重新学习冗余特征的情况下，这种密集连接的模式可以通过较少的卷积获得大量特征信息，从而最大限度地优化网络中的信息流，增强模型的表达能力。

本发明实施例提供的步骤四中AFF模块的特征在于：

基于传统特征金字塔网络，AFF-FPN-PANet结构增加了注意力特征融合模块(AFF)。该模块解决了不同尺度特征融合时的通道注意力问题，减少了高级特征图中上下文信息的丢失，能够较好地将语义和规模不相互符合的特征进行有效整合。多尺度信道注意力模型(MS-CAM)利用两个具有不同规模的分支进行信道注意力权重的提取。一方面利用全局平均池化操作对整体特征的注意力进行分析，另一方面利用逐点卷积操作对局部的信道注意力权重进行分析。最终将两个分支进行合并，使其在不同规模上得到更好地融合。

AFF模块主要针对网络结构中不同尺度特征融合时的注意力问题。在目标检测网络结构中，具体X，Y对应：X是低层特征图，Y是加强特征提取网中的高级语义特征图。基于MS-CAM，可以将AFF表示为公式1。

其中，Z∈RC×H×W属于合并之后的输出特征，而表示信息集成。本发明选取每个元素的总和记作初始的积分。融合权重是由0到1之间的实数组成，因此也是由0到1之间的实数组成。最终使得网络可以在X和Y之间进行加权平均。

重新设计的AFF-PAN-PANet模块，通过空间注意机制生成每个特征图的空间权重图，通过权重图融合上下文特征，生成了包含多尺度上下文信息的特征图。这能更好地融合语义和尺度不一致的特征，以改进水下小目标、水下多尺度目标的探测效果，并增强模型的泛化能力。

本发明实施例提供的步骤五中Bottleneck5的特征在于：

许多轻量级模型大多使用深度可分离卷积来降低参数数目和运算量。与普通卷积相比，同样大小的Separable卷积的参数量大大降低。深度可分离卷积的关键是把一个整体的卷积操作划分成深度卷积和逐点卷积。深度卷积是将各输入信道分别进行卷积计算，其计算结束得到的特征图数量与输入特征图的深度一致，并未充分发挥同一空间上的多属性信息的特点。逐点卷积类似于传统的卷积操作，除了其大小是1×1×M，M是上一次的厚度。逐点卷积通过对前一阶段的图像进行深度方面的权重合并，从而得到新的特征图信息。

本发明利用深度可分离卷积的思想来降低参数，设计了一种以深度可分离卷积为计算方式的Bottleneck5结构。该结构在不增加大量网络参数的前提下，增加特征层以获取更丰富的特征信息，从而提升检测精度。具体方法及细节如下：Bottleneck5有五层，第二层和第四层为深度可分离卷积块，第一、三和五层为1×1卷积。采用两组深度可分卷积模块，来减少参数的数量，提高检测的速度。采用三组1×1卷积模块，来调整通道维数，进而从模型中提取丰富的特征。

本发明实施例提供的步骤六的特征在于：

本发明采用CIOU作为损失函数，CIOU考虑了距离、尺度、重叠率、惩罚因子等因素，从而保证了模型的稳定性。损失函数可以定义为公式5。

L_CIOU＝1-IoU+R_CIOU#(5)

公式2中R_CIOU为惩罚项，惩罚公式是通过使两个目标框的中心点之间的标准化距离减到最小来确定。公式3中的α是权重系数。在公式4中，v是用来衡量预测框与目标框长宽比的相似性。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

1.本发明实施例提供的基于密集特征融合的轻量级水下目标检测方法，整体网络结构如图3所示，主要包括以下步骤：

(1)步骤一：为了实现检测模型轻量化，本发明采用轻量级架构CSPDarknet18作为基础网络，并将其用于初始特征提取。

(2)步骤二：为了使得获取到的特征更加充实多样，本发明在主干特征提取网的输出上引入Dense策略，将主干特征提取网络的多层输出结果堆叠连接后再输入到后续的加强特征提取网络，以提高特征利用率。

(3)步骤三：小尺度特征图的语义信息是差的，位置信息是强的。大尺度特征图的位置信息是强的，语义信息是差的。中尺度特征图包含提取的三个尺度的中间位置信息和中间语义信息。本发明提取三种不同尺度的特征图来检测不同大小的目标，以提高多尺度目标识别的准确性。

(4)步骤四：为了更好地融合语义和尺度不一致的特征，本发明在主干特征提取网和FPN结构之间添加AFF模块，以解决不同尺度特征融合时的通道注意力问题，从而实现跨通道信息交互。本发明利用FPN和PANet结构对三个初始特征图进行特征融合，进而加强特征提取。

本发明实施例提供的AFF模块的结构图如图4所示，其中图(a)～(c)分别是MS-CAM模块、AFF模块和AFF-FPN-PANet网络结构。

(5)步骤五：为了进一步减少模型参数数量，本发明利用基于深度可分离卷积的Bottleneck5对加强特征提取网的卷积结构进行重建，以减少参数数量和计算复杂度，提高实时检测性能。

(6)步骤六：本发明将三个尺度的增强特征图送入YOLO检测头进行预测。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

1.数据描述与实验环境

数据描述：水下机器人目标检测算法竞赛(URPC)提供的水下数据集包括5个类别：海胆、海参、扇贝、海星和水草，共有5543张训练图像。其中水草只包含82个目标，因此去除水草类别。本发明最终使用的数据集包含了5543张图像和4个类别，其中训练数据和测试数据的比例为9：1。该数据集的输入分辨率和类别样本极其不平衡，并且数据集中的水下生物大多具有尺度小且聚集、模糊不清、被遮挡等特征，这使模型训练具有一定的难度。本发明用于测试的视频数据来源于獐子岛示范区现场采集的水下实时监控数据。

实验环境与设置：本发明实验使用的处理器为Intel i9-10920X 311；GeForceRTX 2080Ti显卡，64GB内存；Ubuntu 20.03操作系统；CUDA 10.1，CUDNN 7.6.5；Python 3.7版本，Pytorch 1.2.0版本。为了保证实验的公平性，对每组实验设置相同的初始训练参数。输入分辨率统一resize为416×416。由于特征具有普遍性且模型的预训练权重的学习能力适用于各种数据集合，本发明采用主干网的预训练权重进行后续的训练。检测网络的训练过程由两个部分组成，一部分是冻结训练，另一部分是解冻训练。冻结阶段模型的主干被冻结，主干特征提取网络参数不发生改变，占用的显存较小，仅对网络进行微调。Batchsize设置为32，Epoch设置为50，学习率为1×10^-3。解冻阶段整个网络的参数都会被调整，Batchsize设置为16，Epoch设置为100，学习率为1×10^-4。本发明利用Adam方法对损失函数进行调整，权重衰减系数设为5×10^-4。测试时设置置信度为0.5，非极大值抑制所用到的nmsiou大小设置为0.3。

2.消融实验与分析

为了验证BDA-YOLOv4-tiny模型的有效性，本发明设计了4个消融实验，分别对Bottleneck模块、Dense策略和AFF模块进行评估。首先，使用YOLOv4-tiny(记为Model1)作为基准。第二，在Model1的基础上，增加一层52*52大小的特征输出层，并将三层输出层构建为FPN+PANet特征金字塔结构，同时将传统卷积块替换为深度可分离卷积块(记为Model2)。第三，在Model2的基础上，更新主干特征提取网的三层输出为多层串联输出(记为Model3)。第四，在Model3的基础上，在主干特征提取网和FPN之间增加AFF模块(记为Model4)。

本发明将mAP50指标作为评估目标检测准确率的依据，将FPS指标作为目标检测模型推理速度的评价标准，将网络参数大小作为目标检测模型轻量化的评价标准。表1为在YOLOv4-tiny模型基础上逐步增加训练策略的消融实验结果。

表1目标检测的消融实验结果

实验结果表明，基准模型YOLOv4-tiny的mAP值为70.37％，FPS值为12.62，参数大小为22.43M。Model2相比Model1，MAP50增加了3.05％，FPS仅仅降低了0.01，SIZE增加了11.34M。大的目标在高层检测，小的目标在浅层检测，增加一层特征输出层可以预测更小尺度的目标，表明多尺度输出层可以提高小目标检测精度；将三层输出层构建为FPN+PANet特征金字塔结构可以充分提取特征。将从上到下的特征提取与从下到上的特征提取进行融合，同时利用低层次的细节特征和高层次的语义特征，表明特征融合可以提高水下多尺寸生物的检测性能；将传统卷积替换为深度可分离卷积可以在保持检测准确率的同时有效地减少参数量，表明基于深度可分离卷积的Bottleneck5模块可以加快模型检测速度，提高模型实时检测性能。Model3相比Model2，MAP50增加了4.01％，FPS降低了0.33，SIZE增加了3.44M。表明Dense连接的设计思想可以有效改善梯度消失的问题，增强了特征的传播，提高了特征的利用率，有利于小目标检测。Model4相比Model3，MAP50增加了0.75％，FPS降低了1.33，SIZE增加了0.01M。表明AFF模块可以解决不同尺度特征融合时的注意力问题，更好地融合语义和尺度不一致的特征，实现了浅层特征和深层特征的有效融合。

表2展示了在消融实验中，海参、海胆、海星和扇贝四种生物的AP实验结果。从表中可以看出，bottleneck模块、dense策略和aff模块使四种水下生物的检测精度均有明显提升。其中，海参和扇贝提高最多，均提高了约10％；海胆从85.88％提高到91.08％，海星从74.77％提高到81％。实验结果证明在满足水下实时检测的前提条件下，本发明三个策略的提出都是有效的，最终，改进的BDA-YOLOv4-tiny比原始的YOLOv4-tiny的mAP值提高了约8％。

表2目标检测消融实验中四种水产生物的AP结果

3.对比实验与分析

为了证明BDA-YOLOv4-tiny在水下生物目标检测方面的优势，本发明在URPC水下目标检测数据集上对该方法进行了评估，并将其与YOLOv4-tiny、SSD、YOLOv3、YOLOv4-cspdarknet53和YOLOv4-mobilenetv3进行了比较。本发明使用参数大小、平均精度(mAP)、大中小尺寸目标(APL、APM、APS)的平均精度和每秒帧数(FPS)等指标来评估检测模型性能。具体结果见表3。

由表3可以看出，首先，本发明模型的参数量大小为37.22M，表明该模型易于部署在移动平台上，可用于水产养殖业水下实时视频监控和识别。训练过程中的参数量略高于YOLOv4-tiny，比YOLOv4-cspdarknet53的模型参数小206.74M。从这个指标可以看出，本发明提出的方法训练速度更快，且对硬件设备的需求更少，便于实际应用。第二，本发明提出的方法在海参、海胆、扇贝和海星四个水下生物类别上实现了78.18％的mAP，仅次于YOLOv4-cspdarknet53模型。虽然该方法的APL值低于深层模型，但对小目标的识别准确率为14.2％，高于SSD和YOLOv4等其他方法。表明本发明方法提高了水下较小生物和多尺寸生物的检测精度。最后，两段视频上的FPS指标均大于10，表明本发明提出的方法能够满足移动端检测的实时性要求。总体而言，该方法对小目标检测具有较高的准确率，同时模型尺寸适合部署在移动端，且检测速度得到了很大的提升。本发明提出的方法最终达到检测准确率和检测实时性之间的平衡，具有实际应用意义。

表3目标检测的对比实验结果

表4展示了在对比实验中，海参、海胆、海星和扇贝四种生物的AP实验结果。从表中可以看出，本发明提出的BDA-YOLOv4-tiny模型的四种生物类别AP值均高于另外两种轻量级检测模型YOLOv4(mobilenetv3)和YOLOv4-tiny的类别AP值。在所有对比方法中，本发明提出的BDA-YOLOv4-tiny模型实现了最高的海胆检测精度，海胆类别AP值达到91.08％。另外，本发明提出的BDA-YOLOv4-tiny模型的海星和扇贝的类别AP值分别取得了81％和77.56％的结果，仅次于得分最高的重量级检测模型YOLOv3(darknet53)。值得注意的是，由于水下环境复杂和水下光线暗沉，以及海参自身颜色特征与水下环境相近，相比于其他几种生物，海参检测的效果稍微差一些。后续考虑将海参水下目标检测作为研究的重点。最终的实验结果表明，本发明提出的方法可以很好地实现水下目标检测在准确性和实时性之间的平衡。

表4目标检测对比实验中四种水产生物的AP结果

将本发明提出的方法可视化，如图5所示。可以看出，改进之后的方法成功地识别出了水下多场景上的多尺度水下生物，具有较高的识别精度，几乎没有漏检和误检。同时，将训练好的模型用于水下视频检测，识别结果如图6所示。结果表明，本发明设计的模型在实现较高精度的同时，也可以达到水下监控视频实时性检测的要求。其中，图5(a)～(f)分别代表SSD检测结果、YOLOv3检测结果、YOLOv4检测结果、YOLOv4-m检测结果、YOLOv4-tiny检测结果、本发明提出的方法的检测结果示意图；图6(a)～(b)分别代表两段獐子岛采集的视频检测结果示意图。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种轻量级水下目标检测方法，其特征在于，所述轻量级水下目标检测方法包括：

采用CSPDarknet18作为骨干网络来初步提取特征；利用Dense策略提取不同层次和尺度的图像特征；在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互；构建FPN和PANet网络，同时提取具有语义信息和位置信息的特征；采用深度可分卷积替换普通卷积对加强特征提取网进行重建，以减少参数数量，提高实时检测性能；

所述轻量级水下目标检测方法包括以下步骤：

步骤四，在主干特征提取网和FPN结构之间添加AFF模块，实现跨通道信息交互，利用FPN和PANet结构对三个初始特征图进行特征融合；

步骤五，利用基于深度可分离卷积的Bottleneck5对加强特征提取网络的卷积结构进行重建，以减少参数数量，提高实时检测性能；

步骤六，将三个尺度的增强特征图送入YOLO检测头进行预测；

所述步骤二中，在检测网络结构设计中引入DenseNet网络的密集连接，DenseNet中的每个层次彼此相连，每个层次均接收到全部层的特性；将主干特征提取网的多层卷积结果堆叠连接后再输入到后续的加强特征提取网络；

2.如权利要求1所述的轻量级水下目标检测方法，其特征在于，所述步骤四中，AFF-FPN-PANet结构增加注意力特征融合模块AFF；多尺度信道注意力模型MS-CAM利用两个具有不同规模的分支进行信道注意力权重的提取；利用全局平均池化操作对整体特征的注意力进行分析，利用逐点卷积操作对局部的信道注意力权重进行分析，并将两个分支进行合并；

AFF模块针对网络结构中不同尺度特征融合时的注意力问题；在目标检测网络结构中，X是低层特征图，Y是加强特征提取网中的高级语义特征图；基于MS-CAM，将AFF表示为：

其中，Z∈RC×H×W属于合并之后的输出特征，表示信息集成；选取每个元素的总和记作初始的积分；融合权重是由0到1之间的实数组成，也是由0到1之间的实数组成，使得网络在X和Y之间进行加权平均；

3.如权利要求1所述的轻量级水下目标检测方法，其特征在于，所述步骤五中，利用深度可分离卷积的思想，设计以深度可分离卷积为计算方式的Bottleneck5结构，所述Bottleneck5结构包括五层，第二层和第四层为深度可分离卷积块，第一、三和五层为1×1卷积。

4.如权利要求1所述的轻量级水下目标检测方法，其特征在于，所述步骤六中，采用CIOU作为损失函数，所述损失函数定义为：

L_CIOU＝1-IoU+R_CIOU；

5.一种应用如权利要求1～4任意一项所述的轻量级水下目标检测方法的轻量级水下目标检测系统，其特征在于，所述轻量级水下目标检测系统包括：

深度可分离卷积模块，用于利用基于深度可分离卷积的Bottleneck5对加强特征提取网络的卷积结构进行重建，以减少参数数量，提高实时检测性能；

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～4任意一项所述的轻量级水下目标检测方法的步骤。

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～4任意一项所述的轻量级水下目标检测方法的步骤。

8.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求5所述的轻量级水下目标检测系统。