CN110570402B

CN110570402B - 基于边界感知神经网络的双目显著物体检测方法

Info

Publication number: CN110570402B
Application number: CN201910764582.3A
Authority: CN
Inventors: 周武杰; 陈昱臻; 雷景生; 李颜娥; 王海江; 何成
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2021-11-19
Anticipated expiration: 2039-08-19
Also published as: CN110570402A

Abstract

本发明公开了一种基于边界感知神经网络的双目显著物体检测方法。采用多尺度的卷积神经网络，通过两个输入的方式构建双流的神经网络。并在池化层逐步的对图像进行缩小，进行编码，从而提升卷积核的感受野。在提升程序运行速度的同时又可以快速的确定物体的位置信息。其次使用上采样进行译码，逐步的恢复图像在细节位置的像素，从而提高最终的准确率。采用视差图对神经网络进行了优化。弥补了单纯的2D彩色图像在背景和物体颜色，对比度等相似的情况下，信息不足的缺点。从而使得结果更接近真实的人类观察物体的情况。

Description

基于边界感知神经网络的双目显著物体检测方法

技术领域

本发明涉及一种基于双目视觉的立体图像处理技术，尤其是涉及一种基于边界感知神经网络的双目视觉显著物体检测方法。

背景技术

人类视觉系统在判断所接收的视觉信息之前，会快速的将注意力集中在有某些特定特点的物体上。优先对其进行处理，而不是处理所有接收到的信息。这对提升系统的处理速度和增加对物体的判断准确率都有很大的作用。提取图像中的关键区域和物体，淡化和去除背景能够大大帮助图像在各个领域上应用。

然而单一的对平面图像进行分析和计算并不能很好的达成这一目的。尤其是一些物体与背景的颜色，对比度等指标非常相近的场景。现有的仅仅针对平面图像的算法更是表现出了信息不足的缺陷。随着技术的发展，利用基于双目视觉原理得到的视差图作为图像立体特征的方法不断出现。再结合深度学习的方法，在传统的深度学习基础上，加入具有3D立体信息的视差图，往往能够使结果得到很大的提升。因此，如何利用神经网络对视差图进行特征提取，并与RGB图的特征有效的融合最终得到准确率较高的结果都是我们研究需要解决的问题。另一方面，注意力机制的引入大大加强了物体位置信息的提取，而加入边界的监督与惩罚又提升了物体边界的精细度。因而，结合这些技术改善现有的方法，是一种很好的改进途径。

发明内容

本发明所要解决的技术问题是提供一种基于边界感知神经网络的双目显著物体检测技术，其能够达到快速检测和精确检测一个精细的物体的目的。

本发明解决上述技术问题所采用的技术方案包括以下步骤：

步骤1：选取K张彩色图以及彩色图对应的视差图、分割标签图，将所有彩色图像及其对应的视差图、分割标签图构成训练集；分割标签图是指对彩色图中的显著性区域进行标注得到的图像；由于数字图像中存在着大量的冗余信息,其最重要的内容往往只集中在一些小的关键区域，这些区域中最能吸引人的注意，也最能表征图像内容的区域被称为显著性区域或感兴趣区域。

步骤2：构建边界感知神经网络。

步骤3：将训练集中的彩色图及其对应的视差图输入到边界感知神经网络中进行训练，输出得到边界预测图、显著性预测图和分割预测图；第二十二个神经网络块输出边界预测图，并记为

第二十六个神经网络块输出显著性预测图，记为

第二十八个神经网络块输出分割预测图也就是最终要得到的结果，记为

k表示训练集中的第k个训练样本。

步骤4：计算输出的边界预测图、显著性预测图和分割预测图的总损失函数值Loss。

步骤5：重复执行步骤3-4共O次，得到K×O个总损失函数值；根据得到的总损失函数值利用反向传播进行梯度更新，得到最优的模型参数W_op，由此得到训练好的边界感知神经网络；模型参数W_op是指卷积层对应的卷积核的参数。例如64个3*3的卷积核就拥有64*3*3个参数。

步骤6：采集待检测的彩色图像及其对应的视差图，将彩色图像及其对应的视差图输入到训练好的边界感知神经网络中输出得到分割预测图。

步骤4所述的总损失函数的计算具体是：将分割标签图通过canny算子提取得到显著性区域的外轮廓并将其作为边界图，边界图

用于训练边界感知网络部分的参数。分别计算边界预测图与边界图的损失函数值、显著性预测图与分割标签图的损失函数值、分割预测图与分割标签图的损失函数值，将上述三个损失函数值相加得到总损失函数值Loss，记为

采用二值交叉熵获得。

所述的边界感知神经网络包括特征提取网络块、注意力机制网络块、边界感知网络块和显著性检测网络块。

特征提取网络块包括依次连接的第一个卷积神经网络块、第二个卷积神经网络块、第一个最大池化层、第三个卷积神经网络块、第四个卷积神经网络块、第二个最大池化层、第五个卷积神经网络块、第六个卷积神经网络块、第七个卷积神经网络块、第三个最大池化层、第八个卷积神经网络块、第九个卷积神经网络块、第十个卷积神经网络块、第四个最大池化层、第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块。

注意力机制网络块包括第一个SEM网络块，第二个SEM网络块，第三个SEM网络块以及依次连接的第一个add层、第十四个卷积神经网络块，第一个上采样层，第十五个卷积神经网络块、第二个上采样层、第十六个卷积神经网络块、第三个上采样层，第十七个卷积神经网络块、第四个上采样层和第十八个卷积神经网络块，彩色图输入到第一个卷积神经网络块中，第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块的输出分别对应连接到第一个SEM网络块，第二个SEM网络块和第三个SEM网络块的输入，三个SEM网络块的输出共同连接到第一个add层的输入。

边界感知网络块包括第十九个卷积神经网络块、第二十个卷积神经网络块、以及依次连接的第一个叠加层、第一个点乘层、第二个add层、第一个MSK网络块、第二个MSK网络块、第二十一个卷积神经网络块、第二十二个卷积神经网络块，彩色图及其对应的视差图分别作为第二十个卷积神经网络块和第十九个卷积神经网络块的输入，第十九个卷积神经网络块和第二十个卷积神经网络块的输出共同连接到第一个叠加层的输入，第十八个卷积神经网络块的输出连接到第一个点乘层的输入，第一个叠加层与第十八个卷积神经网络块的输出输入到第一个点乘层中进行点乘处理后作为第一个点乘层的输出，第一个叠加层的输出再跳跃连接到第二个add层的输入，第一个点乘层和第一个叠加层的输出输入到第二个add层中进行点和处理后作为第二个add层的输出，第二十二个卷积神经网络块输出边界预测图。

显著性检测网络块包括依次连接的第二个点乘层、第三个add层、第二十三个卷积神经网络块、第五个上采样层、第二个叠加层、第二十四个卷积神经网络块、第六个上采样层、第二十五个卷积神经网络块和第二十六个卷积神经网络块，第二个点乘层的输入连接到第七个卷积神经网络块的输出，第二个点乘层的输入还连接到第十六个卷积神经网络块的输出，第七个卷积神经网络块与第十六个卷积神经网络块的输出输入到第二个点乘层中进行点乘处理后作为第二个点乘层的输出，第七个卷积神经网络块的输出再跳跃连接到第三个add层的输入，第七个卷积神经网络块和第二个点乘层的输出再输入到第三个add层中进行点和处理后作为第二个add层的输出，第四个卷积神经网络块的输出还连接到第二个叠加层的输入，第五个上采样层和第四个神经网络块的输出输入到第二个叠加层进行特征图的叠加后作为第二个叠加层的输出；第二十六个卷积神经网络块输出显著性预测图。

第二十一个卷积神经网络块的输出和第二十五个卷积神经网络块的输出经第三个叠加层依次连接第二十七个卷积神经网络块和第二十八个卷积神经网络块，第二十八个卷积神经网络块输出分割预测图。

点和处理是指对两张图像中同一位置像素点的像素值相加，点乘处理是指对两张图像中同一位置像素点的像素值相乘。叠加层是指对图像数据的叠放。例如，使得两个通道大小分别为M和N的两个小的图像数据块，变为通道数为M+N大小的大图像数据块。

所述的三个SEM网络块的结构相同，单个SEM网络块包括Cov、Cov1、Cov2、Cov3、CovOut五个卷积网络块，每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成，Cov卷积网络块的输入作为SEM网络块的输入，Cov1、Cov2、Cov3三个卷积网络块并联的一端作为输入端，输入端与Cov卷积网络块相连并接收Cov卷积网络块的输出，并联的一端作为输出端，Cov1、Cov2、Cov3三个卷积网络块的输出经点和处理后输入到CovOut卷积网络块中，CovOut卷积网络块的输出作为SEM网络块的输出。

所述的两个MSK网络块的结构相同，单个MSK网络块包括Conv、Conv1、Conv2、Conv3、ConvOut五个卷积网络块，每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成，Conv卷积网络块的输入作为MSK网络块的输入，Conv1、Conv2、Conv3三个卷积网络块并联的一端作为输入端，输入端与Conv卷积网络块相连并接收Conv卷积网络块的输出，并联的一端作为输出端，Conv1、Conv2、Conv3三个卷积网络块的输出经点和处理后输入到ConvOut卷积网络块中，ConvOut卷积网络块的输出作为MSK网络块的输出。

所述的每个卷积神经网络块均由卷积层、局部归一化层、激活层依次连接构成。

与现有技术相比，本发明的优点在于：

本发明方法采用多尺度的卷积神经网络，通过两个输入的方式构建双流的神经网络。并在池化层逐步的对图像进行缩小，进行编码，从而提升卷积核的感受野。在提升程序运行速度的同时又可以快速的确定物体的位置信息。其次使用上采样进行译码，逐步的恢复图像在细节位置的像素，从而提高最终的准确率。

2)本发明方法采用视差图对神经网络进行了优化。弥补了单纯的2D彩色图像在背景和物体颜色，对比度等相似的情况下，信息不足的缺点。从而使得结果更接近真实的人类观察物体的情况。

3)本发明方法在搭建模型时采用了VGG16_bn网络方法，有效的防止了在层数比较多的情况下发生过拟合。这样能够使得最终的结果在有足够多层数去模拟真实的处理函数的同时，又不至于因为过拟合的原因导致在训练集上表现很好而在测试集上表现很差。

4)本发明方法采用了注意力机制的方法，基于高级特征生成注意力机制信息作为物体位置信息。并提供给其他层，以增加结果的精确度。本发明的网络结构在第十六个神经网络块与第十八个神经网络块的输出分别与网络中其他位置的输入先点乘，再点和的操作是在本发明所用的注意力机制的方法，该方法通常情况下都能使得网络的效果获得不同程度的提升。

附图说明

图1为本发明方法的总体实现框图；

图2为边界感知神经网络的SEM网格结构图。

图3为边界感知神经网络的MSK网格结构图。

图4为本发明的物体检测结果及对比图。

图5为本发明结果在测试集上结果的ROC曲线图。

图6为本发明结果在测试集上结果的PR曲线图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于双流融合神经网络的双目视觉显著物体检测技术，其包括训练阶段和测试阶段两个过程，所述的训练阶段过程的具体步骤为：

步骤1：选择一个具有彩色图、视差图和分割标签图的数据库；然后将数据库中的所有图像采用双线性插值的方法缩放为256×256大小；再随机取出其中的百分之八十的彩色图及其对应的视差图和分割标签的数据作为训练集，将训练集中的第k幅彩色图记为

将训练集中与其对应的视差图记为

其对应的分割标签图像记为

其中，k为正整数，1≤k≤K，K表示数据库中包含的彩色图总幅数，同时也是数据库中包含的视差图及其分割标签图的幅数，K≥1588，N^k(x_l,y_m)表示图像坐标(x_l,y_m)的像素点的像素值。

步骤2：构建边界感知神经网络：边界感知神经网络包括四个大的卷积神经网络块，分别为：特征提取网络块，注意力机制网络块，边界感知网络块和一个显著性检测网络块。其中，特征提取网络块是基于vgg16_bn的卷积神经网络块，其包含了第一个卷积神经网络块，第二个卷积神经网络块，第一个最大池化层。第三个卷积神经网络块，第四个卷积神经网络块，第二个最大池化层。第五个卷积神经网络块，第六个卷积神经网络块，第七个卷积神经网络块，第三个最大池化层。第八个卷积神经网络块，第九个卷积神经网络块，第十个卷积神经网络块，第四个最大池化层。第十一个卷积神经网络块，第十二个卷积神经网络块，第十三个卷积神经网络块。

注意力机制网络块包含了第一个SEM网络块，第二个SEM网络块，第三个SEM网络块，第一个add层。第十四个卷积神经网络块，第一个上采样层，第十五个卷积神经网络块，第二个上采样层，第十六个卷积神经网络块。，第三个上采样层，第十七个卷积神经网络块，第四个上采样层，第十八个卷积神经网络块。

边界感知网络块包含了第十九个卷积神经网络块，第二十个卷积神经网络块，第一个叠加层，第一个点乘层，和第二个add层。第一个MSK网络块，第二个MSK网络块，第二十一个卷积神经网络块，第二十二个卷积神经网络块。

显著性检测网络块包含了第二个点乘层，第三个add层。第二十三个卷积神经网络块，第五个上采样层，第二个叠加层。第二十四个卷积神经网络块，第六个上采样层，第二十五个卷积神经网络块，第二十六个卷积神经网络块。第三个叠加层，第二十七个卷积神经网络块以及第二十八个卷积神经网络块。

对于第一个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；第一个卷积层的输入端接收的是数据库中三通道的RGB图，第一个卷积层的输出为64幅特征图，将64幅特征图构成的集合记为L₁；其中，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的padding参数为1，激活函数为“Relu”，L₁中的每幅特征图的宽度为W、高度为H。

对于第二个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第一个卷积神经网络块的输出，第二个卷积层的输出为64幅特征图，将64幅特征图构成的集合记为L₂；其中，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的padding参数为1，激活函数为“Relu”，L₂中的每幅特征图的宽度为W、高度为H。

对于第一个最大池化层，其输入端接收的是卷积神经网络块输出端的输出，第一个最大池化层的输出为64幅特征图，最大池化的步长为2，将64幅特征图构成的集合记为P₁；P₁中的每幅特征图的宽度为

高度为

对于第三个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第一个最大池化层的输出，第三个卷积层的输出为128幅特征图，将128幅特征图构成的集合记为L₃；其中，卷积层的卷积核大小为3×3、卷积核个数为128，卷积层的padding参数为1，激活函数为“Relu”，L₃中的每幅特征图的宽度为

高度为

对于第四个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第三个卷积神经网络块的输出，第四个卷积层的输出为128幅特征图，将128幅特征图构成的集合记为L₄；其中，卷积层的卷积核大小为3×3、卷积核个数为128，卷积层的padding参数为1，激活函数为“Relu”，L₄中的每幅特征图的宽度为

高度为

对于第二个最大池化层，其输入端接收的是第四个卷积层输出端的输出，第二个最大池化层的输出为128幅特征图，最大池化的步长为2，将128幅特征图构成的集合记为P₂；P₂中的每幅特征图的宽度为

高度为

对于第五个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二个最大池化层的输出，第四个卷积层的输出为256幅特征图，将256幅特征图构成的集合记为L₅；其中，卷积层的卷积核大小为3×3、卷积核个数为256，卷积层的padding参数为1，激活函数为“Relu”，L₅中的每幅特征图的宽度为

高度为

对于第六个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第五个卷积神经网络块的输出，第六个卷积层的输出为256幅特征图，将256幅特征图构成的集合记为L₆；其中，卷积层的卷积核大小为3×3、卷积核个数为256，卷积层的padding参数为1，激活函数为“Relu”，L₆中的每幅特征图的宽度为

高度为

对于第七个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第六个卷积神经网络块的输出，第七个卷积层的输出为256幅特征图，将256幅特征图构成的集合记为L₇；其中，卷积层的卷积核大小为3×3、卷积核个数为256，卷积层的padding参数为1，激活函数为“Relu”，L₇中的每幅特征图的宽度为

高度为

对于第三个最大池化层，其输入端接收的是第四个卷积层输出端的输出，第二个最大池化层的输出为256幅特征图，最大池化的步长为2，将256幅特征图构成的集合记为P₃；P₃中的每幅特征图的宽度为

高度为

对于第八个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第三个最大池化层的输出，第八个卷积层的输出为512幅特征图，将512幅特征图构成的集合记为L₈；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的padding参数为1，激活函数为“Relu”，L₈中的每幅特征图的宽度为

高度为

对于第九个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第八个卷积神经网络块的输出，第九个卷积层的输出为512幅特征图，将512幅特征图构成的集合记为L₉；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的padding参数为1，激活函数为“Relu”，L₉中的每幅特征图的宽度为

高度为

对于第十个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第九个卷积神经网络块的输出，第十个卷积层的输出为512幅特征图，将512幅特征图构成的集合记为L₁₀；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的padding参数为1，激活函数为“Relu”，L₁₀中的每幅特征图的宽度为

高度为

对于第四个最大池化层，其输入端接收的是第四个卷积层输出端的输出，第二个最大池化层的输出为512幅特征图，最大池化的步长为2，将512幅特征图构成的集合记为P₄；P₄中的每幅特征图的宽度为

高度为

对于第十一个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第四个最大池化层的输出，第十一个卷积层的输出为512幅特征图，将512幅特征图构成的集合记为L₁₁；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的padding，参数为1，激活函数为“Relu”，L₁₁中的每幅特征图的宽度为

高度为

对于第十二个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第十一个卷积神经网络块的输出，第十二个卷积层的输出为512幅特征图，将512幅特征图构成的集合记为L₁₂；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的padding参数为1，激活函数为“Relu”，L₁₂中的每幅特征图的宽度为

高度为

对于第十三个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第十二个卷积神经网络块的输出，第十三个卷积层的输出为512幅特征图，将512幅特征图构成的集合记为L₁₃；其中，卷积层的卷积核大小为3×3、卷积核个数为512，卷积层的padding参数为1，激活函数为“Relu”，L₁₃中的每幅特征图的宽度为

高度为

对于第一、第二、第三个SEM网络块。其具有完全相同的结构。其都具有卷积Cov、Cov1、Cov2、Cov3、CovOut这五个神经网络块。其均由卷积层、局部归一化层、激活层组成；不同的是，由于他们连接到不同的神经网络块的输出，因此他们不共享参数。不同的是第一、二、三个SEM网络的Cov的输入端接收的是分别是第十一个卷积神经网络块、第十二个卷积神经网络块、第十三个卷积神经网络块的输出，输出均为32个特征图。步长为1，卷积层的卷积核大小为3×3、卷积核个数为32，卷积层的padding参数为1，激活函数为“Relu”；Cov1的输入端接收的是Cov卷积神经网络块的输出，输出为32个特征图。步长为1，卷积层的卷积核大小为3×3、卷积核个数为32，卷积空洞参数dilation为4，卷积层的padding参数为4，激活函数为“Relu”。Cov2的输入端接收的是Cov卷积神经网络块的输出，输出为32个特征图。步长为1，卷积层的卷积核大小为3×3、卷积核个数为32，卷积空洞参数dilation为8，卷积层的padding参数为8，激活函数为“Relu”；Cov3的输入端接收的是Cov卷积神经网络块的输出，输出为32个特征图。步长为1，卷积层的卷积核大小为3×3、卷积核个数为32，卷积空洞参数dilation为12，卷积层的padding参数为12，激活函数为“Relu”。其后为一个add层将Cov1、Cov2、Cov3的输出进行矩阵的点和。并将其作为Cov卷积神经网络块的输入。而Cov的输入端接收的是add层的输出，输出为21个特征图。步长为1，卷积层的卷积核大小为1×1、卷积核个数为21，卷积空洞参数dilation为0，卷积层的padding参数为0，激活函数为“Relu”。

对于第一个add层，其输入端接收的是第一、第二、第三个SEM网络块的输出，并将其特征矩阵进行点和，将输出的21幅特征图构成的集合记为A₁；A₁中的每幅特征图的宽度为

高度为

对于第十四个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第十三个卷积神经网络块的输出，第十四个卷积层的输出为1幅特征图，(由于这一幅特征图为注意力机制图，包含了物体所在的位置等高级信息，故将这幅特征图记为Attention₁；)其中，卷积层的卷积核大小为1×1、卷积核个数为1，卷积层的padding参数为0，激活函数为“Relu”，Attention₁中的每幅特征图的宽度为

高度为

对于第一个上采样层，其输入端接收的是第十四个卷积神经网络块的输出，放大参数为两倍，输出为一张特征图，记为Attention₂。Attention₂中的每幅特征图的宽度为

高度为

对于第十五个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第一个上采样层的输出，第十五个卷积层的输出为1幅特征图，将1幅特征图构成的集合记为Attention₃；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，Attention₃中的每幅特征图的宽度为

高度为

对于第二个上采样层，其输入端接收的是第十五个卷积神经网络块的输出，放大参数为两倍，输出为一张特征图，记为Attention₄。Attention₄中的每幅特征图的宽度为

高度为

对于第十六个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二个上采样层的输出，第十六个卷积层的输出为1幅特征图，将1幅特征图构成的集合记为Attention₅；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，Attention₅中的每幅特征图的宽度为

高度为

对于第三个上采样层，其输入端接收的是第十六个卷积神经网络块的输出，放大参数为两倍，输出为一张特征图，记为Attention₆。Attention₆中的每幅特征图的宽度为

高度为

对于第十七个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第三个上采样层的输出，第十七个卷积层的输出为1幅特征图，将1幅特征图构成的集合记为Attention₇；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，Attention₇中的每幅特征图的宽度为

高度为

对于第四个上采样层，其输入端接收的是第十六个卷积神经网络块的输出，放大参数为两倍，输出为一张特征图，记为Attention₈。Attention₈中的每幅特征图的宽度为W、高度为H。

对于第十八个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第三个上采样层的输出，第十七个卷积层的输出为1幅特征图，将1幅特征图构成的集合记为Attention₉；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，Attention₉中的每幅特征图的宽度为W、高度为H。

对于第十九个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是数据库中三通道的RGB图，第一个卷积层的输出为32幅特征图，将32幅特征图构成的集合记为L₁₉；其中，卷积层的卷积核大小为3×3、卷积核个数为32，卷积层的padding参数为1，激活函数为“Relu”，L₁₉中的每幅特征图的宽度为W、高度为H。

对于第二十个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是数据库中三通道的视差图，第一个卷积层的输出为32幅特征图，将32幅特征图构成的集合记为L₂₀；其中，卷积层的卷积核大小为3×3、卷积核个数为32，卷积层的padding参数为1，激活函数为“Relu”，L₂₀中的每幅特征图的宽度为W、高度为H。

对于第一个叠加层，其输入端接收的是第十九个卷积神经网络块和第二十个卷积神经网络块的输出。其输出为64通道的L₁₉与L₂₀的叠加的特征图记为C₁。

对于第一个点乘层，其输入端接收的是第一个叠加层的输出与第十八个卷积神经网络块的输出Attention₉。对其进行点乘后输出为64通道的特征图，记为M₁。

对于第二个add层，其输入端接收的是第一个叠加层和第一个点乘层的输出。对其进行点乘后输出为64通道的特征图。其作用是对这两个特征图进行对应的点的求和，记为add₂。

对于第一、第二MSK网络块。其具有完全相同的结构。其都由卷积Conv、Conv1、Conv2、Conv3、ConvOut这五个神经网络块。这五个块均由卷积层、局部归一化层、激活层组成；Conv卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的padding参数为1，激活函数为“Relu”；Conv1的输入端接收的是Conv卷积神经网络块的输出，输出为64个特征图。步长为1，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的padding参数为1，激活函数为“Relu”。Conv2的输入端接收的是Conv卷积神经网络块的输出，输出为64个特征图。步长为1，卷积层的卷积核大小为5×5、卷积核个数为64，卷积层的padding参数为2，激活函数为“Relu”；Conv3的输入端接收的是Conv卷积神经网络块的输出，输出为64个特征图。步长为1，卷积层的卷积核大小为7×7、卷积核个数为64，卷积层的padding参数为3，激活函数为“Relu”。其后为一个add层将Conv、Conv1、Conv2、Conv3的输出进行矩阵的点和。并将其作为ConvOut卷积神经网络块的输入。ConvOut输出为64个特征图。步长为1，卷积层的卷积核大小为3×3、卷积核个数为64，卷积层的padding参数为1，激活函数为“Relu”。第一个MSK的输入端接收的是第二个add层的输出，输出为64个特征图。第二个MSK的输入端接收的是第一个MSK的输出，输出为64个特征图。

对于第二十一个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二个MSK网络块的输出，其输出为32幅特征图，将32幅特征图构成的集合记为L₂₀；其中，卷积层的卷积核大小为3×3、卷积核个数为32，卷积层的padding参数为1，激活函数为“Relu”，L₂₀中的每幅特征图的宽度为W、高度为H。

对于第二十二个卷积神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二十一个卷积神经网络块的输出，其输出为1幅特征图，将1幅特征图构成的集合记为L₂₁；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₁中的每幅特征图的宽度为W、高度为H。

对于第二个点乘层，其输入端接收的是第十六个神经网络块的输出与第七个卷积神经网络块的输出。对其进行点乘后输出为256通道的特征图，记为M₂。

对于第三个add层，其输入端接收的是第七个卷积神经网络块和第二个点乘层的输出。对其进行点和后输出为256通道的特征图。起作用是对这两个特征图进行对应的点的求和，记为add₃。

对于第二十三个神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二个add层的输出，第二十三个卷积层的输出为256幅特征图，将256幅特征图构成的集合记为L₂₃；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₃中的每幅特征图的宽度为

高度为

对于第五个上采样层，具体是采用反卷积的方式进行上采样。其输入端接收的是第二十三个卷积神经网络块的输出，卷积层的卷积核大小为2×2，步长(放大参数)为两倍，padding为0。输出为128张特征图，记为Up₅。Up₅中的每幅特征图的宽度为

高度为

对于第二个叠加层，其输入端接收的是第五个上采样层和第四个神经网络块的输出。其输出为256通道的Up₅与L₄的叠加的特征图记为C₂。

对于第二十四个神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二个叠加层的输出，第二十四个卷积层的输出为64幅特征图，将64幅特征图构成的集合记为L₂₄；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₄中的每幅特征图的宽度为

高度为

对于第六个上采样层，采用的是反卷积的上采样方法。其输入端接收的是第二十四个卷积神经网络块的输出，卷积层的卷积核大小为2×2，步长(放大参数)为两倍，padding为0。输出为64张特征图，记为Up₆。Up₆中的每幅特征图的宽度为W、高度为H。

对于第二十五个神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第六个上采样层的输出，第二十五个卷积层的输出为32幅特征图，将32幅特征图构成的集合记为L₂₅；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₅中的每幅特征图的宽度为W、高度为H。

对于第二十六个神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二十五个神经网络块的输出，第二十六个卷积层的输出为1幅特征图，将1幅特征图构成的集合记为L₂₆；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₆中的每幅特征图的宽度为W、高度为H。

对于第三个叠加层，其输入端接收的是第二十一个神经网络块和第二十五个神经网络块的输出。其输出为64通道的L₂₁与L₂₅的叠加的特征图记为C₃。

对于第二十七个神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第三个叠加层的输出，第二十七个卷积层的输出为32幅特征图，将32幅特征图构成的集合记为L₂₇；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₇中的每幅特征图的宽度为W、高度为H。

对于第二十八个神经网络块，其由卷积层、局部归一化层、激活层组成；其输入端接收的是第二十七个神经网络块的输出，第二十八个卷积层的输出为1幅特征图，将1幅特征图构成的集合记为L₂₈；其中，卷积层的卷积核大小为3×3、卷积核个数为1，卷积层的padding参数为1，激活函数为“Relu”，L₂₈中的每幅特征图的宽度为W、高度为H。

步骤3：讲训练集中的所有标签通过canny算子得到边界图，记为

以用于训练边界感知网络部分的参数。同时将训练集中的所有彩色图和视差图一一对应的作为输入图像，输入到多尺度卷积神经网络中进行训练。此时会得到第二十二个神经网络块、第二十六个神经网络块、第二十八个神经网络块三个输出。将这三个输出分别记为

和

其中k表示第k个训练样本。

步骤4：计算训练集中每一对彩色图和视差图通过神经网络模型所得到的显著性预测图和真实标注的物体分割图的Loss值，将

与

进行损失函数的计算得到Loss1。将

同

进行损失函数的计算，得到Loss2。最终通过Loss1+Loss2得到最终的总损失函数，值记为

第一损失函数值Loss1和第二损失函数值Loss2均采用二值交叉熵获得。

步骤5：重复执行步骤1_3和步骤1_4共O次。由此得到神经网络模型。同时得到K×O个损失函数值；然后使用这些损失函数值进行反向传播，梯度更新。从而调整出最优的模型参数W_op。

步骤6：采集待检测的彩色图像及彩色图像对应的视差图，将彩色图像及其对应的视差图输入到训练好的边界感知神经网络中输出得到显著性预测图。具体如下：

步骤6_1：记{X(i,j)}表示待进行显著分割的图像；其中，1≤i≤W，1≤j≤H，W表示{X(i,j)}的宽度，H表示{X(i,j)}的高度，X(i,j)表示{I(i,j)}中坐标位置为(i,j)的像素点的像素值；

步骤6_2：将{X(i,j)}的R通道分量、G通道分量和B通道分量输入到第一个神经网络块以及第二十个神经网络块中，将{X(i,j)}对应的视差图输入到第十九个神经网络块中，并利用预先训练好的W_op进行预测，得到{X(i,j)}对应的显著性预测图，记为{X_Pre(i,j)}；其中X_Pre(i,j)，表示{X_Pre(i,j)}中坐标位置为(i,j)的像素点的像素值。

如图4所示，a、b、c分别代表三种待显著性检测的场景图。

a1为原始场景一的彩色图，a2为原始场景一的视差图，a3为原始场景一的分割标签图，a4为利用本发明方法对图a1及其对应的图a2进行的预测所得到的显著性预测结果图。

b1为原始场景二的彩色图，b2为原始场景二的视差图，b3为原始场景二的分割标签图，b4为利用本发明方法对图b1及其对应的图b2进行的预测所得到的显著性预测结果图。

c1为原始场景三的彩色图，c2为原始场景三的视差图，c3为原始场景三的分割标签图，c4为利用本发明方法对图c1及其对应的图c2进行的预测所得到的显著性预测结果图。

对比图a3、a4；图b3、b4；图c3、c4，可以看出利用本发明方法得到的显著性物体分割图像的分割精度较高，效果较好。

为了进一步验证本发明方法的可行性和有效性，采用以下方式进行检验。

使用基于python的深度学习库torch1.1.0搭建边界感知神经网络，本发明的边界感知神经网络为多尺度带孔卷积神经网络架构。利用本发明方法对显著分割图像数据库nju2000测试集中的每个像素是物体的可能性进行预测，从而得到每幅图像对应的显著性物体分割图像。利用显著分割数据库nju2000测试集来分析本发明方法得到的显著性图像(取397幅道路场景图像)的分割效果。

利用评估语义分割方法的三个常用客观参量作为分割效果的评价指标，即PR曲线、ROC曲线和AUC、MeanF、MaxF、MAE四个指标值来评价模型的分割性能。

如图5的ROC曲线所示，横坐标表示将负类预测为正类的像素数，纵坐标表示将正类预测为正类的像素数。曲线越靠近左上角越好。由图中曲线可以看出本方法很靠近左上角，结果优良。

如图6的PR曲线所示，横坐标表示精确率(precision)定义为：表示被分为正例的示例中实际为正例的比例，纵坐标表示召回率(recall)，召回率是覆盖面的度量。曲线越靠近右上角越好。由图中曲线可以看出本方法很靠近右上角，结果优良。

本发明对应的四个指标值分别为：AUC＝0.978,MeanF＝0.831,MaxF＝0.870,MAE＝0.070，AUC表示该结果在ROC曲线图上的曲线所对应的下方部分面积的大小。面积越大，说明本方法的效果越好。；MeanF、MaxF、表示该方法得到的结果F-mesure值的平均值与最大值。F-mesure的公式为F＝2×P×R/(P+R)。其中P和R分别为精确率和召回率。由此说明了本方法结果的优良。MAE表示平均错误数值。即预测出的显著分割图与实际的标签作差取绝对值后求和再取平均数的值。这是一个越小越好的评价指标。可以看出我们的MAE只有0.070，也就是说，我们平均每个像素与实际结果只会相差0.070的数值。由此可见本方法效果的优良。

综上数据可知，按本发明方法得到的分割结果是较好的，表明利用本发明方法来预测显著性并分割物体是可行且有效的。

Claims

1.基于边界感知神经网络的双目显著物体检测方法，其特征在于：

步骤1：选取K张彩色图以及彩色图对应的视差图、分割标签图，将所有彩色图像及其对应的视差图、分割标签图构成训练集；分割标签图是指对彩色图中的显著性区域进行标注得到的图像；

步骤2：构建边界感知神经网络；

所述的边界感知神经网络包括特征提取网络块、注意力机制网络块、边界感知网络块和显著性检测网络块；

特征提取网络块包括依次连接的第一个卷积神经网络块、第二个卷积神经网络块、第一个最大池化层、第三个卷积神经网络块、第四个卷积神经网络块、第二个最大池化层、第五个卷积神经网络块、第六个卷积神经网络块、第七个卷积神经网络块、第三个最大池化层、第八个卷积神经网络块、第九个卷积神经网络块、第十个卷积神经网络块、第四个最大池化层、第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块；

注意力机制网络块包括第一个SEM网络块，第二个SEM网络块，第三个SEM网络块以及依次连接的第一个add层、第十四个卷积神经网络块，第一个上采样层，第十五个卷积神经网络块、第二个上采样层、第十六个卷积神经网络块、第三个上采样层，第十七个卷积神经网络块、第四个上采样层和第十八个卷积神经网络块，彩色图输入到第一个卷积神经网络块中，第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块的输出分别对应连接到第一个SEM网络块，第二个SEM网络块和第三个SEM网络块的输入，三个SEM网络块的输出共同连接到第一个add层的输入；

边界感知网络块包括第十九个卷积神经网络块、第二十个卷积神经网络块、以及依次连接的第一个叠加层、第一个点乘层、第二个add层、第一个MSK网络块、第二个MSK网络块、第二十一个卷积神经网络块、第二十二个卷积神经网络块，彩色图及其对应的视差图分别作为第二十个卷积神经网络块和第十九个卷积神经网络块的输入，第十九个卷积神经网络块和第二十个卷积神经网络块的输出共同连接到第一个叠加层的输入，第十八个卷积神经网络块的输出连接到第一个点乘层的输入，第一个叠加层与第十八个卷积神经网络块的输出输入到第一个点乘层中进行点乘处理后作为第一个点乘层的输出，第一个叠加层的输出再跳跃连接到第二个add层的输入，第一个点乘层和第一个叠加层的输出输入到第二个add层中进行点和处理后作为第二个add层的输出，第二十二个卷积神经网络块输出边界预测图；

显著性检测网络块包括依次连接的第二个点乘层、第三个add层、第二十三个卷积神经网络块、第五个上采样层、第二个叠加层、第二十四个卷积神经网络块、第六个上采样层、第二十五个卷积神经网络块和第二十六个卷积神经网络块，第二个点乘层的输入连接到第七个卷积神经网络块的输出，第二个点乘层的输入还连接到第十六个卷积神经网络块的输出，第七个卷积神经网络块与第十六个卷积神经网络块的输出输入到第二个点乘层中进行点乘处理后作为第二个点乘层的输出，第七个卷积神经网络块的输出再跳跃连接到第三个add层的输入，第七个卷积神经网络块和第二个点乘层的输出再输入到第三个add层中进行点和处理后作为第二个add层的输出，第四个卷积神经网络块的输出还连接到第二个叠加层的输入，第五个上采样层和第四个神经网络块的输出输入到第二个叠加层进行特征图的叠加后作为第二个叠加层的输出；第二十六个卷积神经网络块输出显著性预测图；

第二十一个卷积神经网络块的输出和第二十五个卷积神经网络块的输出经第三个叠加层依次连接第二十七个卷积神经网络块和第二十八个卷积神经网络块，第二十八个卷积神经网络块输出分割预测图；

所述的三个SEM网络块的结构相同，单个SEM网络块包括Cov、Cov1、Cov2、Cov3、CovOut五个卷积网络块，每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成，Cov卷积网络块的输入作为SEM网络块的输入，Cov1、Cov2、Cov3三个卷积网络块并联的一端作为输入端，输入端与Cov卷积网络块相连并接收Cov卷积网络块的输出，并联的一端作为输出端，Cov1、Cov2、Cov3三个卷积网络块的输出经点和处理后输入到CovOut卷积网络块中，CovOut卷积网络块的输出作为SEM网络块的输出；

所述的两个MSK网络块的结构相同，单个MSK网络块包括Conv、Conv1、Conv2、Conv3、ConvOut五个卷积网络块，每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成，Conv卷积网络块的输入作为MSK网络块的输入，Conv1、Conv2、Conv3三个卷积网络块并联的一端作为输入端，输入端与Conv卷积网络块相连并接收Conv卷积网络块的输出，并联的一端作为输出端，Conv1、Conv2、Conv3三个卷积网络块的输出经点和处理后输入到ConvOut卷积网络块中，ConvOut卷积网络块的输出作为MSK网络块的输出；

步骤3：将训练集中的彩色图及其对应的视差图输入到边界感知神经网络中进行训练，输出得到边界预测图、显著性预测图和分割预测图；

步骤4：计算输出的边界预测图、显著性预测图和分割预测图的总损失函数值Loss；

步骤5：重复执行步骤3-4共O次，得到K×O个总损失函数值；根据得到的总损失函数值利用反向传播进行梯度更新，得到最优的模型参数W_op，由此得到训练好的边界感知神经网络；

2.根据权利要求1所述的基于边界感知神经网络的双目显著物体检测方法，其特征在于：步骤4所述的总损失函数值的计算具体是：将分割标签图通过canny算子提取得到显著性区域的外轮廓并将其作为边界图，分别计算边界预测图与边界图的损失函数值、显著性预测图与分割标签图的损失函数值、分割预测图与分割标签图的损失函数值，将上述三个损失函数值相加得到总损失函数值Loss。

3.根据权利要求1所述的基于边界感知神经网络的双目显著物体检测方法，其特征在于：所述的每个卷积神经网络块均由卷积层、局部归一化层、激活层依次连接构成。