CN110826575A

CN110826575A - 一种基于机器学习的水下目标识别方法

Info

Publication number: CN110826575A
Application number: CN201910950105.6A
Authority: CN
Inventors: 魏延辉; 姜瑶瑶; 蒋志龙; 贺佳林; 李强强; 马博也; 牛家乐; 刘东东
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-02-21

Abstract

一种基于机器学习的水下目标识别方法，属于水下机器视觉检测处理技术领域。水下目标识别算法核心是SSD目标检测算法，采用前馈卷积网络结构，通过不同层之间采用不同大小尺度的卷积盒进行卷积得到不同尺度的特征图，再根据特征图进行回归最终通过非极大值抑制算法得到结果，SSD算法采用多尺度及锚点方式解决区域建议的低精度问题，采用多尺度的特征向量，极大的提高了对小目标和大目标兼具的良好效果，对整体的识别准确率提高有很大帮助，能获得更加精准的位置信息。通过非极大值抑制算法不仅能实现目标物的检测，而且能够极大提高水下目标的识别准确度，为水下机器人进行水下目标观察和操作提供有效视觉信息，提高了水下目标的智能化识别能力。

Description

一种基于机器学习的水下目标识别方法

技术领域

本发明属于水下机器视觉检测技术领域，具体涉及一种基于机器学习的水下目标识别方法。

背景技术

海洋覆盖地球绝大部分面积，拥有着极大的资源和奥秘。近现代以来，随着海洋装备研发技术的进步，人类开始进一步的认识和开发海洋资源，世界各个国家和地区都开始不遗余力的进行海洋装备的研发和水下资源开采。我国拥有近2万公里的海岸线，同时沿海经济海域有着丰富的海洋资源，拥有很好的海洋开发条件和很高的需求，计算机视觉设备作为水下传感设备之一，越来越多的被投入海洋探测当中。其完整的视觉体系涵盖光学、计算机科学控制理论等诸多学科及技术，已经广泛搭载于水下探测、作业和载人设备，其中基于视觉的水下跟踪识别技术有着非常重要的研究价值。

水下机器人配备视觉设备能更好的感知水下环境，同时单目的安装可以给水下设备节省更多空间，这为水下设备精密及机动作业提供有效的条件。本发明相关研究意在为水下设备作业，水下机器人避障、路径规划等提供目标和空间信息，因此水下单目视觉技术有着切实研究和实际应用价值。

目前水下目标识别算法的主要不足在于：

首先，目前的水下视觉检测的精度不够，传统的识别算法对于目标的定位精度不够，因此，就会对目标物检测造成很大的影响，在定位中发现，定位精度呈现震荡式收敛并贯穿整个过程，这就造成了水下成像的模糊，对目标物的识别精度产生影响。

现在基于机器学习的算法主要分为两种，一种为two-stage方法如R-CNN，一种为one-stage，SSD属于后者，相比于Yolo，SSD算法在准确度和速度上都比其好很多。相比Yolo，SSD采用CNN来直接进行检测，而不是像Yolo那样在全连接层之后做检测。其实采用卷积直接做检测只是SSD相比Yolo的其中一个不同点，另外还有两个重要的改变，一是SSD提取了不同尺度的特征图来做检测，大尺度特征图(较靠前的特征图)可以用来检测小物体，而小尺度特征图(较靠后的特征图)用来检测大物体；二是SSD采用了不同尺度和长宽比的先验框(Prior boxes,Default boxes，在Faster R-CNN中叫做锚，Anchors)。Yolo算法缺点是难以检测小目标，而且定位不准，但是这几点重要改进使得SSD在一定程度上克服这些缺点。

相比于传统CNN，神经网络,即有输入层、输出层和多个隐含层的网络,属于机器学习的一个子领域。主要的原理是将训练的数据,进入了输入层之后,经过多个隐含层的处理,经过大量的训练,以将输入的某些特征提取出来,并运用这个模型在实际中进行分类或者预测。传统的方法在水下目标识别中存在几个问题,如处理速度慢,识别率不高等。

引入了SSD，一种用于多个类别的单射探测器，它比以前用于单射探测器(yolo)等最先进的速度更快，与faster-Rcnn等识别网络相比有相似的准确度，但速度上更快。SSD的核心是使用应用于特征图的小卷滤波器来预测一组默认包围框的类别分数和框偏移量。这些设计特点导致了简单的端到端训练和高精度，即使在低分辨的输入图像，能够满足水下环境中图像不清晰，分辨率低的情况，进一步提高速度与准确性的权衡。

发明内容

本发明的目的在于提供一种基于机器学习的水下目标识别方法，能够更加精确的检测水下目标信息。

本发明的目的是这样实现的：

一种基于机器学习的水下目标识别方法，包括如下步骤：

步骤1：对水下目标图像进行预处理，对图像进行retinex复原得到输入图像；

步骤2：通过不同层之间采用不同大小尺度的卷积盒进行卷积得到不同尺度的特征图；

步骤3：根据步骤二得到的特征图进行回归，对每一个特征图进行归一化处理，再通过不同尺寸的检测器和分类器进而得到不同尺度和具有偏移量的defualt box；

步骤4：通过NMS抑制算法得到最终的结果；

所述步骤2中采用区域选择算法中RPN计算得到的区域结果，根据不同的尺度进行划分得到不同尺寸的特征图，然后利用RPN卷积核对其上区域进行移动并得到该区域的置信度值，通过不断的移动不同尺度的defualt box得到一个具有置信度的矩阵。

所述的步骤3中defualt box的宽和高为：

其中

和

分别为defualt box的宽和高，尺度采用a_r∈{1,2,1/2,3,1/3}，为不同层的尺度，其中m为个数，默认的尺度是通过m个各不相同的尺度特征图预测来完成，S_min为最小的尺度，S_max为最大的特征图的尺度。

所述步骤3中选择框的中心位置为：

其中x和y分别表示横框、纵轴中心点，|f_k|表示第k张特征图尺度，i.j∈[0,f_k]。

所述步骤4中NMS抑制的方法包括：

步骤4.1：将矩阵中元素根据conf大小进行排列；

步骤4.2：根据步骤4.1中计算的结果从大到小的顺序对所有交叉区域进行IoU计算，并设定Th值，按次序分别于IoU对比，根据其大小进行分类与划归；

步骤4.3：在列的第二大框位置重新回到步骤4.2执行；

步骤4.4：重复执行步骤4.3，至到此列所有defualt box执行完毕；

步骤4.5：执行完对矩阵的遍历，即执行了所有类别的NMS；

步骤4.6：进行进一步剩余筛选，将最后所有剩余类别进行根据置信度进行选择。

所述步骤4中整个模型的损失函数为

其中x用来判断设计的特征抓取盒是否有对应的目标，

表示第i个盒是否与第p类物体的第j个目标边框相匹配，匹配为1，反之为0；若表示对于第j个目标边界框至少有一个盒与之匹配；N表示匹配和的数量；

用来衡量识别的性能；用来衡量边界框预测性能；其中

表示第j个目标的真实目标边框与特征抓取盒的边框之间的偏差，m∈{cx,cy,w,h}，其中(cx,cy)表示边框中心点坐标，(w,h)表示边框的宽和高。

本发明有益效果在于：

(1)本发明采用多尺度和锚点的方式来解决区域建议的低精度问题，采用的多尺度的特征向量，极大的提高了对小目标和大目标兼具的良好的效果，同时对整体的识别准确率提高有很大的帮助，相对于以往的建议类方法，能获得更加精准的位置信息；

(2)本算法进行20000次迭代根据损失函数计算得到误差曲线，初始误差定义为500，即收敛范围为(0,500)，最终收敛到20左右，误差率约小于百分之一，可以看出该算法在精度上有了很大的提高。

附图说明

图1为多尺度检测实现过程图；

图2为区域选择法；

图3为NMS算法流程图；

图4为叠率计算图；

图5为多角度情况下个鱼与多鱼检测图；

图6为误差变化图。

具体实施方式

下面结合发明内容，通过以下实施例阐述本发明的一种详细实施方案与效果。

针对目前现有技术存在的不足，本发明旨在提供一种可靠性高、实时性好水下目标检测算法，能够更加精确的检测水下目标信息。该算法能够满足水下观测和作业需要，为水下机器人提供水下目标准确识别。本发明能够极大提高水下目标的识别准确度，为水下机器人进行水下目标观察和操作提供有效视觉信息，提高了水下目标的智能化识别能力。

实施1：如附图1所示，发明根据水下观测和作业的需要实现了一种基于机器学习的水下目标识别算法。该算法的核心是SSD目标检测算法，SSD是一种精度非常高的目标检测的方法，其采用的是前馈的卷积网络结构，首先对水下目标图像进行预处理，对图像进行retinex复原得到输入图像，然后通过不同层之间采用不同大小尺度的卷积盒进行卷积得到不同的尺度的特征图，再根据的到的特征图进行回归最终通过NMS抑制的方法得到最终的结果，SSD目标检测的方法采用的是多尺度以及锚点的方式来解决区域建议的低精度问题，其中采用的多尺度的特征向量，极大的提高了对小目标和大目标兼具的良好的效果，同时对整体的识别准确率提高有很大的帮助，相对于以往的建议类方法，能获得更加精准的位置信息。接下来的卷积网络使用不同尺度的卷积模板进行特征融合，进而得到不同尺度和具有偏移量的default box，在最后通过加入极值抑制算法实现了最终的检测分类结果。具体的步骤是采用标准的VGG-16网络，通过不同尺寸的卷积模板进行特征检测，得到不同的特征图，对每一个特征图进行归一化处理，再通过不同尺寸的检测器和分类器进而得到不同尺度和具有偏移量的defualt box，最后通过非极大值抑制算法实现目标物的检测。

其中SSD多尺度的实现过程如图1所示，这里说明其前端用于特征提取的网络采用的是标准的卷积神经网络VGG-16，接下来的卷积网络使用不同尺度的卷积模板进行特征融合，进而得到不同尺度和具有偏移量的default box，在最后通过加入极值抑制算法实现了最终的检测分类结果。

实施2：如附图2所示，在SSD的卷积网络算法中，其中RPN(Region ProposalNetwork)可以用来计算得到的区域结果，并根据不同的尺度进行划分得到特征图大小38×38×512，19×19×1024，10×10×512，5×5×256，3×3×256，1×1×256等诸多区域，根据附图2所示，其中采用的是5×5×256的为例来对RPN过程进行阐述，其中可以看见通过不同尺度和比率生成k个default box，其中k＝6可以生成5×5×256个卷积盒子以及4个带有偏置的defaultbox同时具有相应的置信类别。

这里默认的尺度是通过m个各不相同的尺度特征图预测来完成的，其中设置最小的尺度为S_min＝0.2，设置最大的特征图的尺度为S_max＝0.95，则可以根据相应的尺度递推的方式求取所有层的尺度，具体计算为:

这里根据不同比率对a_r，其中尺度采用a_r∈{1,2,1/2,3,1/3}，并根据a_r可以求得对应default box的宽和高。

其中

和

分别为defualt box的宽和高，此外在radio＝1时，需要重新制定尺度为

至此可以得到6种不同尺度的default box。

同时可以通过下面公式(3)求得选择框的中心位置。

其中，|f_k|表示第k张特征图尺度，x和y分别表示框横、纵轴中心点，i.j∈[0,f_k]。

NMS抑制算法，在卷积神经网络中，不能很准确的定位真实的位置，这时候需要采用非极值抑制NMS(Non-maximum suppression)的方法来减轻这种情况的发生。

实施3：如附图3和附图4所示，

Step1：将8732×21矩阵中元素根据Conf大小进行排列。

Step2：根据第一步中计算的结果从大到小的顺序，对所有交叉区域进行IoU计算，并设定Th值，按次序分别于IoU对比，根据其大小进行分类与划归。

Step3：在列的第二大框位置重新回到Step2执行。

Step4：重复执行Step3，至到此列所有default box执行完毕。

Step5：执行完对8732×21矩阵的遍历，即执行了所有类别的NMS。

Step6：进行进一步剩余筛选，将最后所有剩余类别进行根据置信度进行选择。

根据每个特征图坐标点上设计好特征抓取盒来提取特征，并将这些特征用来预测目标的种类和边界框。这里用到3*3的卷积核去提取每个特征抓取盒中的特则会那个，每个特征图用到的卷积盒为3*3*6*(class+4)，6为每个特征图坐标点上抓取盒的数量，4为预测的目标边界和目标边界框之间的偏差。若一个特征图的尺寸为m*n，每个坐标上有6个盒，则最终产生m*n*6*(class+4)的输出结果：

损失函数计算，整个模型的损失函数为公式如下：

其中x用来判断设计的特征抓取盒是否有对应的目标，

表示第i个盒是否与第p类物体的第j个目标边框相匹配，匹配为1，反之为0。若

表示对于第j个目标边界框至少有一个盒与之匹配。式中N表示匹配和的数量。公式(5)中的第一部分式用来衡量识别的性能的，主要就是一个多类的softmax损失函数，细节

其中

公式(6)中，第二部分式用来衡量边界框预测性能的，用到的损失函数如下公式：

其中

表示第j个目标的真实目标边框与特征抓取盒的边框之间的偏差，m∈{cx,cy,w,h}，其中(cx,cy)表示边框中心点坐标，(w,h)表示边框的宽和高。最后边框的位置信息可由下面公式(7)表示：

同时，多个区域的综合置信度损失函数可以表示为：

实施5：如附图5所示，针对水下环境多角度识别的情况，针对水下鱼个体进行识别，通过互联网和实验水池实验收集了200张水下不同形式的鱼类和螃蟹的照片。对网络进行训练，从损失函数、识别精度和定位精度IOU几个方面实验。这里设定目标的Conf为0.5以上，对图像区域中心1/2区域内排除进行递归检测，针对鱼类分布密集和目标交叉等复杂真实情况进行检测识别。能够比较精确的识别出不同姿态，不同位置下的目标鱼，对远近多角度以及复杂多条鱼并列分布的情况进行精确识别，能够实现多目标的识别，对一些部分遮挡的鱼类能够实现精确的识别。进行20000次迭代根据损失函数计算得到误差曲线如附图6所示，初始误差定义为500，即收敛范围为(0,500)，最终收敛于20左右，误差率约小于1％。在定位精度图中发现，定位精度呈震荡式收敛并贯穿整个训练过程，这与水下成像模糊和虚影所导致。最终证明，能够很好的克服现有的水下成像模糊导致的识别精度不高造成的误识别等。

Claims

1.一种基于机器学习的水下目标识别方法，其特征在于，包括：

步骤1、对水下目标图像进行预处理，对图像进行retinex复原得到输入图像；

步骤2、通过不同层之间采用不同大小尺度的卷积盒进行卷积得到不同尺度的特征图；

步骤3、根据步骤二得到的特征图进行回归，对每一个特征图进行归一化处理，再通过不同尺寸的检测器和分类器进而得到不同尺度和具有偏移量的defualt box；

步骤4、通过NMS抑制算法得到最终的结果。

2.根据权利要求1所述的一种基于机器学习的水下目标识别方法，其特征在于：所述的步骤2中采用区域选择算法中RPN计算得到的区域结果，根据不同的尺度进行划分得到不同尺寸的特征图，然后利用RPN卷积核对其上区域进行移动并得到该区域的置信度值，通过不断的移动不同尺度的defualt box得到一个具有置信度的矩阵。

3.根据权利要求1所述的一种基于机器学习的水下目标识别方法，其特征在于：所述的步骤3中defualt box的宽和高为：

其中和