CN109376591B

CN109376591B - 深度学习特征与视觉特征联合训练的船只目标检测方法

Info

Publication number: CN109376591B
Application number: CN201811050911.XA
Authority: CN
Inventors: 邵振峰; 吴文静; 张瑞倩; 王岭钢; 李成源
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2021-04-16
Anticipated expiration: 2038-09-10
Also published as: CN109376591A

Abstract

本发明提供一种深度学习特征与视觉特征联合训练的船只目标检测方法，包括以下步骤：样本数据采集、CNN特征提取、传统不变矩特征及LOMO特征提取、特征降维、特征融合网络FCNN构建，最后利用样本数据对网络进行训练，利用测试数据对模型进行测试。对比现有技术，本发明的视觉特征提取过程综合考虑了船只形状、颜色和纹理的特点，使得检测过程具有可解释性，可以规范CNN反向传播过程学习到传统特征以外的其他特征。本方法快速高效、准确度高，对于复杂场景如云雾、阴天、下雨等情况依然具有较好的检测结果，鲁棒性高。可以提取到与传统特征互补的特征，并且速度极快，可以达到实时监测的效果。

Description

深度学习特征与视觉特征联合训练的船只目标检测方法

技术领域

本发明属于船只检测计算机视觉领域，具体涉及一种深度学习特征与视觉特征联合训练的船只目标检测方法。

背景技术

我国拥有广阔的海岸线、海域以及丰富的海洋资源，随着经济不断发展，海上船只数量越来越多，船只检测有着迫切的实际需求。船只目标检测就是利用计算机视觉和图像处理技术，从图像中检测出感兴趣的船只目标，进一步可以提取大量的有用信息，在军事和民用领域都有着广泛的应用前景。例如在民用领域，通过获取船只的位置、大小、行驶方向、行驶速度等信息，可以对特定海域、海湾港口进行监测，对海洋水运交通、非法捕鱼、非法走私、非法倾倒油污等进行监测等，对于经济发展、环境保护、海域使用管理、海洋权益维护都具有重要意义。

现今社会中，视频监控摄像头无处不在，而在监控中心的电视墙上也会同时显示多路监控画面，如果只是依靠人眼观察检测，很容易错过视频中的异常事件。随着计算机网络的迅速发展，人们越来越青睐于利用计算机视觉代替人眼对传感器得到的视频图像进行分析，获取图像中的目标信息。图片目标检测一般分为两个步骤：特征提取和分类器分类定位，针对船只检测使用的特征主要有两大类：视觉特征和卷积神经网络(CNN)提取的特征。

(一)视觉特征。视觉特征使用较多的是颜色、形状和纹理。

(1)颜色特征。由于颜色往往和目标或场景十分相关，因此颜色特征是应用最为广泛的视觉特征。此外，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，具有较高的鲁棒性。较常用的颜色特征有：颜色直方图和信息熵。

(2)形状特征。形状特征描述了目标局部的性质，其所反映的目标形状信息与人的直观感受不完全一致。较常用的形状特征有：面积、长宽比和不变矩等。其中，不变矩是目标经过平移、旋转、缩放以及比例变换后仍保持不变的矩特征量，可以选择7个几何不变矩(Hu) 来表征目标区域的形状特性。

(3)纹理特征。纹理特征描述了图像或图像区域所对应目标的表面性质。作为一种统计特征，纹理特征具有旋转不变性，并且对噪声有较强的抵抗能力。但是当图像的分辨率变化的时候，所计算出来的纹理可能会有较大偏差。另外，由于有可能受到光照、反射情况的影响，从2-D图像中反映出来的纹理不一定是3-D物体表面真实的纹理。灰度共生矩阵是最为常用的纹理特征，具有较强的适应能力和鲁棒性。

(二)CNN特征

自然图像有其固有特性，即对于图像的某一部分，其统计特性与其他部分相同。这意味着在这一部分学习到的特征也能用在另一部分上，因此对于图像上的所有位置，可以使用同样的学习特征。换句话说，对于大尺寸的图像r×c(r为行数，c为列数)识别问题，首先从图像中随机选取一小块区域a×b(a为行数，b为列数)作为训练样本，从该小块样本中学习到一些特征，然后将这些特征作为滤波器，与原始整个图像作卷积运算，从而得到原始图像中任意位置上卷积后的特征映射图。该方法能够对多种目标进行特征的自动学习，获得船只的高维特征，检测结果精度相比传统方法有了大幅度提升。

然而，传统特征和CNN特征应用于船只检测存在以下局限性：

(1)传统特征具有优秀的可解释性和可控性，在平静海面下的检测结果良好。但是当有云影、海浪等干扰时，误检率较高。且人工选取特征的速度较慢，不利于实际应用。

(2)卷积神经网络可以自动地学习船只的高维特征，检测速度也较快。但是黑匣子式的特征理解性差，且不同大小地船只在经过卷积之后，特征保留程度不同，也会导致不同船只检测效果的不一致。

发明内容

本发明解决的技术问题是：克服上述现有技术的不足，提供一种深度学习特征与视觉特征联合训练的船只目标检测方法。

本发明技术方案提供一种深度学习特征与传统特征联合训练的船只目标检测方法，包括以下步骤：

步骤①，样本数据采集，包括采集可见光下的沿海区域监控视频帧数据，提取图像，对包含船只目标的图像进行标注；

步骤②，CNN特征提取，包括将得到的样本输入到卷积神经网络中进行训练，得到船只目标的训练结果模型，卷积神经网络输出CNN特征；

步骤③，传统特征提取，包括提取得到的船只目标区域的不变矩特征以及LOMO特征；

步骤④，特征降维，包括将不变矩形状特征和LOMO特征进行连接，采用主成分分析算法，将连接后的传统特征降维；

步骤⑤，构建特征融合网络FCNN，实现将CNN特征和传统特征映射到统一的特征空间；

步骤⑥，利用样本数据训练特征融合网络FCNN，利用测试数据对训练所得特征融合网络FCNN进行验证和测试。

而且，步骤①中，根据PASCAL VOC数据集的标准，对包含船只目标的图像进行标注，产生的标注文件为每张图像上船只目标的最小包围矩形的四个顶点坐标和对应影像，从而构建船只图像样本库。

而且，步骤②中，采用基于区域的卷积神经网络，由多个交替的卷积层、池化层和全连接层组成，采用反向传播算法进行更新。

而且，步骤②中，采用的基于区域的卷积神经网络，结构包括如下，

1)第一层：卷积核大小为11×11，max pooling的卷积大小为2×2，再连接一个BN层，输出的特征图feature map大小为55×55；

2)第二层：卷积核大小为5×5，max pooling的卷积大小为2×2，再连接一个BN层，输出的特征图feature map大小为27×27；

3)第三层：卷积核大小为3×3，max pooling的卷积大小为2×2，再连接一个BN层，输出的特征图feature map大小为13×13；

4)第四层：卷积核大小为3×3，输出的特征图feature map大小为13×13；

5)第五层：卷积核大小为3×3，输出的特征图feature map大小为13×13；

6)两个全连接层FC7和FC8。

而且，步骤③中，LOMO特征综合考虑了光照和视角变化对图像的影响，首先采用Retinex 算法对输入的图像进行预处理，减少光照带来的影响；其次针对Retinex算法预处理过后的图像，应用HSV颜色直方图提取颜色特征；此外，还应用了SILTP描述子提取图像的光照不变纹理特征。

而且，步骤⑤中，特征融合网络FCNN中设置融合层和回归层，融合层的输入为CNN特征和传统特征，设目标检测的船只类别数目为T，回归层的输出为T×1的向量，每一行的值的大小范围为0到1，代表了样本属于每个类的概率。

对比现有技术，本发明具有下列优点和积极效果：

传统特征提取过程综合考虑了船只形状、颜色和纹理的特点，使得检测过程具有可解释性，可以规范CNN反向传播过程学习到传统特征以外的其他特征。此外，Hu不变矩特征只有7个，局部最大化触发(LOMO，Local Maximal Occurrence)特征中使用的颜色直方图特征HSV和尺度不变性纹理特征(SILTP，scale iivariant local ternary pattern)计算也较简单，因此总体计算速度不会减慢。

CNN特征提取部分采用基于区域的卷积神经网络，该方法快速高效、准确度高。对于复杂场景如云雾、阴天、下雨等情况依然具有较好的检测结果，鲁棒性高。可以提取到与传统特征互补的特征，并且速度极快，可以达到实时监测的效果。

深度学习特征与传统特征联合训练，一方面能够利用经典的船只检测算子，让检测过程简单化，更利于理解；另一方面，联合训练，特征互补，可以让检测过程全自动化，不需要人机交互，利用实际应用。

附图说明

图1为本发明实施例的总体流程图。

图2为本发明实施例步骤③-a中Hu不变矩提取的流程图。

图3为本发明实施例步骤③-b中LOMO特征提取的流程图。

图4是本发明实施例步骤⑤中融合网络的结构图。

具体实施方式

为了更好地理解本发明的技术方案，下面结合附图和实施例对本发明做进一步的详细说明。

参见图1，本发明实施例所提供方法包括以下步骤：

①样本数据采集。

本发明所需采集的数据主要为可见光下的沿海区域监控视频帧数据。对于采集到的视频数据，具体实施时可通过解码提取获得每帧图像，大小为1920×1080像素。根据帕斯卡数据集(PASCAL VOC)的标准，对包含船只目标的图像进行标注，产生的标注文件为每张图片上船只目标的最小包围矩形的四个顶点坐标和对应影像，从而构建船只图像样本库。

②CNN特征提取。

将步骤①得到的样本统一尺寸到224×224大小，然后输入到卷积神经网络中进行训练，得到船只目标的训练结果模型。本发明实施例所使用的基于区域的卷积神经网络包括如下层结构：

7)第一层：卷积核大小为11×11，max pooling的卷积大小为2×2，再连接一个BN层，输出的特征图feature map大小为55×55

8)第二层：卷积核大小为5×5，max pooling的卷积大小为2×2，再连接一个BN层，输出的特征图feature map大小为27×27

9)第三层：卷积核大小为3×3，max pooling的卷积大小为2×2，再连接一个BN层，输出的特征图feature map大小为13×13

10)第四层：卷积核大小为3×3，输出的特征图feature map大小为13×13

11)第五层：卷积核大小为3×3，输出的特征图feature map大小为13×13

6)两个全连接层FC7和FC8

5个卷积层、3个池化层(max pooling)、3个归一化层(BN层)和2个全连接层，最终一个全连接层FC8的输出为一个4096维的向量，即为CNN特征。

具体实施时，深度学习网络由多个交替的卷积层，池化层，全连接层组成，主要采用反向传播算法(BP算法)更新网络参数，由一个输入层，多个隐藏层和一个输出层组层。层与层之间通过不同的卷积方式连接。对于普通卷积层，上一层的特征层被一个可学习的卷积核进行卷积，然后通过一个激活函数，就可以得到输出特征层。每一个输出层可能是组合卷积多个输入层的值：

其中，M_j表示选择的输入层的集合，i是输入层单元的索引值，j是输出层单元的索引值，

表示输入层与输出层之间的权重，即卷积核每个位置上面的数值，

表示各层之间的加性偏置，f()表示该输出层的激活函数，

表示l层的第j个输出层，

表示l-1层的第i个输入层，l用于标识第l层卷积层，*表示卷积。

对于池化层来说，有N个输入层，就有N个输出层，只是每个输出层都变小了。

其中，down()表示一个下采样函数。一般是对输入图像的不同n×n区域内所有像素进行求和。这样输出图像在两个维度上都缩小了n倍，具体实施时用户可预设n的取值。每个输出层都对应一个属于自己的乘性偏置β和一个加性偏置b，

表示第l层的第j个输出层的乘性偏置量，

表示第l层的第j个输出层的加性偏置量，

表示l层的第j个输出层，

表示l-1层的第j个输入层。

对于输出的全连接层来说，卷积输入多个特征层，再对这些卷积值求和得到一个输出层，这样的效果往往是比较好的。实施例用α_ij表示在得到第j个输出特征层中第i个输入层的权值或者贡献。这样，第j个输出层可以表示为：

其中，

表示各层之间的激活偏置，

表示l层的第j个输出层，

表示l-1层的第j个输入层，N_in表示得到的第j个输出层结果与N_in个输入层有关。

③传统特征提取。

提取步骤①得到的船只目标区域的传统特征，本发明使用的视觉特征包括：Hu不变矩特征以及LOMO特征，实施例的实现具体如下：

a不变矩，属于形状特征，是图像中具有平移、缩放和旋转不变性的数字特征。图2是 Hu不变矩的提取流程图。首先对输入图像进行预处理，实施例中预处理包括中值滤波平滑和二值化两个操作，然后利用SLIC(simple linear iterative clustering，简单的线性迭代聚类)分割算法进行区域分割，最后计算每个船只区域的7个Hu不变矩特征。平滑和二值化、分割为现有技术，本发明不予赘述。假设输入图像在预处理阶段被离散为M×N大小的数字图像 f(x,y)，(x,y)表示图像上像素点的坐标，其几何矩定义为：

其中，p为图像x方向的阶数，q为图像y方向的阶数。集合{m_pq}由f(x,y)唯一确定，反之f(x,y)也由{m_pq}唯一确定。

图像f(x,y)的中心矩u_pq定义为：

其中，x₀、y₀为图像的中心坐标，其计算公式为：

其中，m₁₀、m₀₁是图像的1阶几何矩，m₀₀是图像的0阶几何矩。由此可以得到图像的不大于3阶的中心矩分别为u₀₀、u₀₁、u₁₀、u₁₁、u₂₀、u₀₂、u₁₂、u₂₁、u₃₀、u₀₃。

对于一般的灰度图像而言，中心矩有以下规律：

1)u₂₀和u₀₂是区域灰度分别围绕通过灰度中心的垂直轴线和水平轴线的惯性矩。若 u₂₀>u₀₂，则说明图像在水平方向上拉长；反之，则说明图像在垂直方向上拉长。

2)u₃₀和u₀₃的幅值可以用来度量物体分别对于垂直轴线和水平轴线的对称性。若u₃₀＝0，则物体对于垂直轴线是对称的；若u₀₃＝0，则物体对于水平轴线是对称的。对于旋转和尺度敏感，可通过归一化得到尺度不变性，归一化中心矩η_pq定义为：

其中，r为中间变量，p大于等于0，q大于等于0，且p+q大于等于2。

利用2阶和3阶中心矩可以导出7个具有平移、缩放和旋转不变性的特征集合Φ₁～Φ₇：

Φ₁＝η₂₀+η₀₂

Φ₃＝(η₃₀-3η₁₂)²+(3η₂₁-η₀₃)²

Φ₄＝(η₃₀+η₁₂)²+(η₂₁-η₀₃)²

Φ₅＝(η₃₀-3η₁₂)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-(3η₂₁+η₀₃)²]+(3η₂₁ +η₀₃)(η₀₃+η₂₁)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

Φ₆＝(η₂₀-η₀₂)²[(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]+4η₁₁(η₃₀+η₁₂)(η₂₁+η₀₃)

b LOMO特征即Local Maximal Occurrence Feature，是颜色特征和纹理特征的综合，该特征从颜色和摄像机视角两个方面来描述图片中的船只。

图3是LOMO特征的提取流程图，首先采用图像增强Retinex算法对输入的图像进行预处理，减少光照带来的影响。Retinex算法考虑了图片的颜色信息，旨在输出一幅接近人类感知、色彩丰富的彩色图像，尤其可以增强阴影区域的细节信息。

其次将经过预处理的影像均分成5个垂直条带，在每个垂直条带内，使用20×20大小(Size) 的子窗口，以10个像素的重叠度(Strip)来定位船只区域的局部块。即先将图像均分成5个垂直条带，然后再在每个条带内，使用20×20的子窗口大小，strip＝10进行滑动，n即为子窗口的个数。以船只大小为1280×480为例，每一个垂直条带的大小为256×480，每个垂直条带内20×20大小的子窗口个数为n＝25×47＝1175，则一共有子窗口1175×5＝5875，具体的个数需要根据船只目标的大小来定。

在每个子窗口内，提取两种SILTP直方图(即SILTP0.3 4，3和SILTP0.3 4，5，一共3⁴个)和一个8×8×8的联合HSV直方图，每一个直方图代表了子窗口内一种模式的发生概率。 SILTP通过引入尺度不变局部对比容差来改善LBP描述子，实现了对图像尺度变化的不变性以及对噪声的鲁棒性。假设子窗口内像素点的位置为(x_c,y_c)，SILTP的计算方式为：

其中，I_c是子窗口中心像素点的灰度值，I_q是半径为R的Q邻域所对应的像素点的灰度值，

是将所有邻域的二进制值连成字符串，t为阈值范围，s_t(I_c,I_q)表示某一像素位置的二进制值。参见图3，两个方向的SILTP中，SILTP0.3 4，3表示在半径为3的4邻域内，以0.3为阈值提取纹理特征。同理，SILTP0.3 4，5表示在半径为5的4邻域内，以0.3为阈值提取纹理特征。

然后比较处于同一垂直位置上的所有子窗口，选取这些子窗口中每一类直方图中的最大值，作为最终的直方图。得到的直方图实现了对视角变化的不变性，同时也捕捉了船只目标的局部区域特征。

实施例中，具体实现如下：

1)颜色是描述可见光影像的重要特征。但是，由于安置在沿海区域的摄像机光照情况不可控制，相机的设置也不同。因此，图片之间的颜色在不同的相机视图中会有所不同。本发明：

首先采用Retinex算法对输入的图像进行预处理，减少光照带来的影响。Retinex算法考虑了图片的颜色信息，旨在输出一幅接近人类感知、色彩丰富的彩色图像，尤其可以增强阴影区域的细节信息。

其次针对Retinex算法预处理过后的图片，应用HSV颜色直方图提取颜色特征；除此之外，还应用了SILTP(Scale Invariant Local Ternary Pattern)描述子提取图片的光照不变纹理特征。SILTP通过引入尺度不变局部对比容差来改善LBP描述子，实现了对图像尺度变化的不变性以及对噪声的鲁棒性。

2)不同摄像头下的船只通常会以不同的视角出现，这也会给船只检测带来困难。因此，

本发明使用滑动窗口来描述船只区域的局部细节。具体地：

首先使用20×20大小的子窗口，以10个像素的重叠度来定位船只区域的局部块。在每个子窗口内，提取两种SILTP直方图(3⁴个)和一个8×8×8的联合HSV直方图，每一个直方图代表了子窗口内一种模式的发生概率。

本发明以船只目标大小1280×480为例，缩放后还将得到640×240和320×120大小的目标。通过连接全部特征，得到的最终特征拥有(8×8×8个颜色直方图+3⁴×2个SILTP直方图)× (127+63+31个垂直条带)＝694×221＝153,374个维度。

④特征降维。

将步骤③得到的不变矩形状特征和LOMO特征进行连接，维度会非常大，本发明实施例采用主成分分析PCA算法，将连接后的传统特征降维到4096维度。主成分分析算法为现有技术，本发明不予赘述。

⑤构建特征融合网络。

为将CNN特征和传统特征映射到统一的特征空间，本发明提出了一种特征融合网络 FCNN。图4是融合网络的结构图，该网络在反向传播过程中，深度学习超参数会受传统特征的影响进行更新。融合后的特征会比单独的CNN特征和传统特征更具有区别性。

实施例具体实现如下，

FC7、FC8层为卷积神经网络的输出层，传统特征的输出也为4096维的特征向量，融合层(fusion层，即FC9层)的输入为CNN特征和传统特征：

x＝[LOMO+Gu,CNNfeatures]

其中，x是fusion层的输入，LOMO是局部最大化特征，Hu是不变矩特征，CNNfeatures是卷积神经网络特征。融合层的输出(4096维)Z_Fusion(x)为：

其中，h()表示激活函数，采用修正线性单元ReLU，

为权重，b_Fusion为偏移量。

假设目标检测的船只类别数目为T，则FC9层的输出为4096×1维的向量，softmax层(回归层)的输出为T×1的向量，每一行的值的大小范围为0到1，代表了这个样本属于每个类的概率。FC9层到Softmax层的计算过程即为网络训练，寻找最佳的T×4096矩阵，使得softmax 层损失最小的过程。计算过程根据BP算法，迭代后第l层的超参数为：

其中，

表示迭代后第l层的权重，

表示迭代后第l层的偏移量；

W^(l)表示迭代前第l层的权重，b^(l)表示迭代前第l层的偏移量；

ΔW^(l)表示迭代后第l层的权重梯度，Δb^(l)表示迭代后第l层的偏移量梯度；

α表示第L层的激活率，λ表示第l层的学习率，m表示样本的个数。

损失函数p(y＝j|x；θ)的计算公式为：

其中，

y表示网络的一个输出节点；

j表示输出的值即类别编号；

；表示输入向量；

θ表示全部模型参数，大小是k*(n+1)；

e表示自然对数；

表示第j个类别的模型参数；

表示第k个类别的模型参数；

n表示类别总数；

k表示第k个类别。

网络最后一层使用交叉熵损失：

其中，

P_k为最后一层的输出，J为将每个类别的概率输出做运算之后得到的交叉熵损失。

⑥训练特征融合网络FCNN。

利用样本数据训练特征融合网络FCNN，利用测试数据对训练所得特征融合网络FCNN进行验证和测试。

实施例采用了训练图片3500张，测试图片3500张，在利用训练图片完成融合网络训练后，利用测试图片进行测试。将检测图片输入训练完成的模型即可得到结果。

至此，本专利所使用的一种深度学习特征与传统特征联合训练的船只目标检测方法具体实施过程介绍完毕。具体实施时，本发明技术方案所提供流程可由本领域技术人员采用计算机软件技术实现自动运行。

本文中所描述的具体实例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种深度学习特征与传统特征联合训练的船只目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种深度学习特征与传统特征联合训练的船只目标检测方法，其特征在于：步骤①中，根据PASCAL VOC数据集的标准，对包含船只目标的图像进行标注，产生的标注文件为每张图像上船只目标的最小包围矩形的四个顶点坐标和对应影像，从而构建船只图像样本库。

3.根据权利要求1所述的一种深度学习特征与传统特征联合训练的船只目标检测方法，其特征在于：步骤②中，采用基于区域的卷积神经网络，由多个交替的卷积层、池化层和全连接层组成，采用反向传播算法进行更新。

4.根据权利要求3所述的一种深度学习特征与传统特征联合训练的船只目标检测方法，其特征在于：步骤②中，采用的基于区域的卷积神经网络，结构包括如下，

6)两个全连接层FC7和FC8。

5.根据权利要求1所述的一种深度学习特征与传统特征联合训练的船只目标检测方法，其特征在于：步骤③中，LOMO特征综合考虑了光照和视角变化对图像的影响，首先采用Retinex算法对输入的图像进行预处理，减少光照带来的影响；其次针对Retinex算法预处理过后的图像，应用HSV颜色直方图提取颜色特征；此外，还应用了SILTP描述子提取图像的光照不变纹理特征。

6.根据权利要求1或2或3或4或5所述的一种深度学习特征与传统特征联合训练的船只目标检测方法，其特征在于：步骤⑤中，特征融合网络FCNN中设置融合层和回归层，融合层的输入为CNN特征和传统特征，设目标检测的船只类别数目为T，回归层的输出为T×1的向量，每一行的值的大小范围为0到1，代表了样本属于每个类的概率。