[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110570402B - 基于边界感知神经网络的双目显著物体检测方法 - Google Patents

基于边界感知神经网络的双目显著物体检测方法 Download PDF

Info

Publication number
CN110570402B
CN110570402B CN201910764582.3A CN201910764582A CN110570402B CN 110570402 B CN110570402 B CN 110570402B CN 201910764582 A CN201910764582 A CN 201910764582A CN 110570402 B CN110570402 B CN 110570402B
Authority
CN
China
Prior art keywords
network block
neural network
layer
convolutional neural
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910764582.3A
Other languages
English (en)
Other versions
CN110570402A (zh
Inventor
周武杰
陈昱臻
雷景生
李颜娥
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910764582.3A priority Critical patent/CN110570402B/zh
Publication of CN110570402A publication Critical patent/CN110570402A/zh
Application granted granted Critical
Publication of CN110570402B publication Critical patent/CN110570402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于边界感知神经网络的双目显著物体检测方法。采用多尺度的卷积神经网络,通过两个输入的方式构建双流的神经网络。并在池化层逐步的对图像进行缩小,进行编码,从而提升卷积核的感受野。在提升程序运行速度的同时又可以快速的确定物体的位置信息。其次使用上采样进行译码,逐步的恢复图像在细节位置的像素,从而提高最终的准确率。采用视差图对神经网络进行了优化。弥补了单纯的2D彩色图像在背景和物体颜色,对比度等相似的情况下,信息不足的缺点。从而使得结果更接近真实的人类观察物体的情况。

Description

基于边界感知神经网络的双目显著物体检测方法
技术领域
本发明涉及一种基于双目视觉的立体图像处理技术,尤其是涉及一种基于边界感知神经网络的双目视觉显著物体检测方法。
背景技术
人类视觉系统在判断所接收的视觉信息之前,会快速的将注意力集中在有某些特定特点的物体上。优先对其进行处理,而不是处理所有接收到的信息。这对提升系统的处理速度和增加对物体的判断准确率都有很大的作用。提取图像中的关键区域和物体,淡化和去除背景能够大大帮助图像在各个领域上应用。
然而单一的对平面图像进行分析和计算并不能很好的达成这一目的。尤其是一些物体与背景的颜色,对比度等指标非常相近的场景。现有的仅仅针对平面图像的算法更是表现出了信息不足的缺陷。随着技术的发展,利用基于双目视觉原理得到的视差图作为图像立体特征的方法不断出现。再结合深度学习的方法,在传统的深度学习基础上,加入具有3D立体信息的视差图,往往能够使结果得到很大的提升。因此,如何利用神经网络对视差图进行特征提取,并与RGB图的特征有效的融合最终得到准确率较高的结果都是我们研究需要解决的问题。另一方面,注意力机制的引入大大加强了物体位置信息的提取,而加入边界的监督与惩罚又提升了物体边界的精细度。因而,结合这些技术改善现有的方法,是一种很好的改进途径。
发明内容
本发明所要解决的技术问题是提供一种基于边界感知神经网络的双目显著物体检测技术,其能够达到快速检测和精确检测一个精细的物体的目的。
本发明解决上述技术问题所采用的技术方案包括以下步骤:
步骤1:选取K张彩色图以及彩色图对应的视差图、分割标签图,将所有彩色图像及其对应的视差图、分割标签图构成训练集;分割标签图是指对彩色图中的显著性区域进行标注得到的图像;由于数字图像中存在着大量的冗余信息,其最重要的内容往往只集中在一些小的关键区域,这些区域中最能吸引人的注意,也最能表征图像内容的区域被称为显著性区域或感兴趣区域。
步骤2:构建边界感知神经网络。
步骤3:将训练集中的彩色图及其对应的视差图输入到边界感知神经网络中进行训练,输出得到边界预测图、显著性预测图和分割预测图;第二十二个神经网络块输出边界预测图,并记为
Figure BDA0002171524890000021
第二十六个神经网络块输出显著性预测图,记为
Figure BDA0002171524890000022
第二十八个神经网络块输出分割预测图也就是最终要得到的结果,记为
Figure BDA0002171524890000023
k表示训练集中的第k个训练样本。
步骤4:计算输出的边界预测图、显著性预测图和分割预测图的总损失函数值Loss。
步骤5:重复执行步骤3-4共O次,得到K×O个总损失函数值;根据得到的总损失函数值利用反向传播进行梯度更新,得到最优的模型参数Wop,由此得到训练好的边界感知神经网络;模型参数Wop是指卷积层对应的卷积核的参数。例如64个3*3的卷积核就拥有64*3*3个参数。
步骤6:采集待检测的彩色图像及其对应的视差图,将彩色图像及其对应的视差图输入到训练好的边界感知神经网络中输出得到分割预测图。
步骤4所述的总损失函数的计算具体是:将分割标签图通过canny算子提取得到显著性区域的外轮廓并将其作为边界图,边界图
Figure BDA0002171524890000024
用于训练边界感知网络部分的参数。分别计算边界预测图与边界图的损失函数值、显著性预测图与分割标签图的损失函数值、分割预测图与分割标签图的损失函数值,将上述三个损失函数值相加得到总损失函数值Loss,记为
Figure BDA0002171524890000025
Figure BDA0002171524890000026
采用二值交叉熵获得。
所述的边界感知神经网络包括特征提取网络块、注意力机制网络块、边界感知网络块和显著性检测网络块。
特征提取网络块包括依次连接的第一个卷积神经网络块、第二个卷积神经网络块、第一个最大池化层、第三个卷积神经网络块、第四个卷积神经网络块、第二个最大池化层、第五个卷积神经网络块、第六个卷积神经网络块、第七个卷积神经网络块、第三个最大池化层、第八个卷积神经网络块、第九个卷积神经网络块、第十个卷积神经网络块、第四个最大池化层、第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块。
注意力机制网络块包括第一个SEM网络块,第二个SEM网络块,第三个SEM网络块以及依次连接的第一个add层、第十四个卷积神经网络块,第一个上采样层,第十五个卷积神经网络块、第二个上采样层、第十六个卷积神经网络块、第三个上采样层,第十七个卷积神经网络块、第四个上采样层和第十八个卷积神经网络块,彩色图输入到第一个卷积神经网络块中,第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块的输出分别对应连接到第一个SEM网络块,第二个SEM网络块和第三个SEM网络块的输入,三个SEM网络块的输出共同连接到第一个add层的输入。
边界感知网络块包括第十九个卷积神经网络块、第二十个卷积神经网络块、以及依次连接的第一个叠加层、第一个点乘层、第二个add层、第一个MSK网络块、第二个MSK网络块、第二十一个卷积神经网络块、第二十二个卷积神经网络块,彩色图及其对应的视差图分别作为第二十个卷积神经网络块和第十九个卷积神经网络块的输入,第十九个卷积神经网络块和第二十个卷积神经网络块的输出共同连接到第一个叠加层的输入,第十八个卷积神经网络块的输出连接到第一个点乘层的输入,第一个叠加层与第十八个卷积神经网络块的输出输入到第一个点乘层中进行点乘处理后作为第一个点乘层的输出,第一个叠加层的输出再跳跃连接到第二个add层的输入,第一个点乘层和第一个叠加层的输出输入到第二个add层中进行点和处理后作为第二个add层的输出,第二十二个卷积神经网络块输出边界预测图。
显著性检测网络块包括依次连接的第二个点乘层、第三个add层、第二十三个卷积神经网络块、第五个上采样层、第二个叠加层、第二十四个卷积神经网络块、第六个上采样层、第二十五个卷积神经网络块和第二十六个卷积神经网络块,第二个点乘层的输入连接到第七个卷积神经网络块的输出,第二个点乘层的输入还连接到第十六个卷积神经网络块的输出,第七个卷积神经网络块与第十六个卷积神经网络块的输出输入到第二个点乘层中进行点乘处理后作为第二个点乘层的输出,第七个卷积神经网络块的输出再跳跃连接到第三个add层的输入,第七个卷积神经网络块和第二个点乘层的输出再输入到第三个add层中进行点和处理后作为第二个add层的输出,第四个卷积神经网络块的输出还连接到第二个叠加层的输入,第五个上采样层和第四个神经网络块的输出输入到第二个叠加层进行特征图的叠加后作为第二个叠加层的输出;第二十六个卷积神经网络块输出显著性预测图。
第二十一个卷积神经网络块的输出和第二十五个卷积神经网络块的输出经第三个叠加层依次连接第二十七个卷积神经网络块和第二十八个卷积神经网络块,第二十八个卷积神经网络块输出分割预测图。
点和处理是指对两张图像中同一位置像素点的像素值相加,点乘处理是指对两张图像中同一位置像素点的像素值相乘。叠加层是指对图像数据的叠放。例如,使得两个通道大小分别为M和N的两个小的图像数据块,变为通道数为M+N大小的大图像数据块。
所述的三个SEM网络块的结构相同,单个SEM网络块包括Cov、Cov1、Cov2、Cov3、CovOut五个卷积网络块,每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成,Cov卷积网络块的输入作为SEM网络块的输入,Cov1、Cov2、Cov3三个卷积网络块并联的一端作为输入端,输入端与Cov卷积网络块相连并接收Cov卷积网络块的输出,并联的一端作为输出端,Cov1、Cov2、Cov3三个卷积网络块的输出经点和处理后输入到CovOut卷积网络块中,CovOut卷积网络块的输出作为SEM网络块的输出。
所述的两个MSK网络块的结构相同,单个MSK网络块包括Conv、Conv1、Conv2、Conv3、ConvOut五个卷积网络块,每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成,Conv卷积网络块的输入作为MSK网络块的输入,Conv1、Conv2、Conv3三个卷积网络块并联的一端作为输入端,输入端与Conv卷积网络块相连并接收Conv卷积网络块的输出,并联的一端作为输出端,Conv1、Conv2、Conv3三个卷积网络块的输出经点和处理后输入到ConvOut卷积网络块中,ConvOut卷积网络块的输出作为MSK网络块的输出。
所述的每个卷积神经网络块均由卷积层、局部归一化层、激活层依次连接构成。
与现有技术相比,本发明的优点在于:
本发明方法采用多尺度的卷积神经网络,通过两个输入的方式构建双流的神经网络。并在池化层逐步的对图像进行缩小,进行编码,从而提升卷积核的感受野。在提升程序运行速度的同时又可以快速的确定物体的位置信息。其次使用上采样进行译码,逐步的恢复图像在细节位置的像素,从而提高最终的准确率。
2)本发明方法采用视差图对神经网络进行了优化。弥补了单纯的2D彩色图像在背景和物体颜色,对比度等相似的情况下,信息不足的缺点。从而使得结果更接近真实的人类观察物体的情况。
3)本发明方法在搭建模型时采用了VGG16_bn网络方法,有效的防止了在层数比较多的情况下发生过拟合。这样能够使得最终的结果在有足够多层数去模拟真实的处理函数的同时,又不至于因为过拟合的原因导致在训练集上表现很好而在测试集上表现很差。
4)本发明方法采用了注意力机制的方法,基于高级特征生成注意力机制信息作为物体位置信息。并提供给其他层,以增加结果的精确度。本发明的网络结构在第十六个神经网络块与第十八个神经网络块的输出分别与网络中其他位置的输入先点乘,再点和的操作是在本发明所用的注意力机制的方法,该方法通常情况下都能使得网络的效果获得不同程度的提升。
附图说明
图1为本发明方法的总体实现框图;
图2为边界感知神经网络的SEM网格结构图。
图3为边界感知神经网络的MSK网格结构图。
图4为本发明的物体检测结果及对比图。
图5为本发明结果在测试集上结果的ROC曲线图。
图6为本发明结果在测试集上结果的PR曲线图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于双流融合神经网络的双目视觉显著物体检测技术,其包括训练阶段和测试阶段两个过程,所述的训练阶段过程的具体步骤为:
步骤1:选择一个具有彩色图、视差图和分割标签图的数据库;然后将数据库中的所有图像采用双线性插值的方法缩放为256×256大小;再随机取出其中的百分之八十的彩色图及其对应的视差图和分割标签的数据作为训练集,将训练集中的第k幅彩色图记为
Figure BDA0002171524890000051
将训练集中与其对应的视差图记为
Figure BDA0002171524890000052
其对应的分割标签图像记为
Figure BDA0002171524890000053
其中,k为正整数,1≤k≤K,K表示数据库中包含的彩色图总幅数,同时也是数据库中包含的视差图及其分割标签图的幅数,K≥1588,Nk(xl,ym)表示图像坐标(xl,ym)的像素点的像素值。
步骤2:构建边界感知神经网络:边界感知神经网络包括四个大的卷积神经网络块,分别为:特征提取网络块,注意力机制网络块,边界感知网络块和一个显著性检测网络块。其中,特征提取网络块是基于vgg16_bn的卷积神经网络块,其包含了第一个卷积神经网络块,第二个卷积神经网络块,第一个最大池化层。第三个卷积神经网络块,第四个卷积神经网络块,第二个最大池化层。第五个卷积神经网络块,第六个卷积神经网络块,第七个卷积神经网络块,第三个最大池化层。第八个卷积神经网络块,第九个卷积神经网络块,第十个卷积神经网络块,第四个最大池化层。第十一个卷积神经网络块,第十二个卷积神经网络块,第十三个卷积神经网络块。
注意力机制网络块包含了第一个SEM网络块,第二个SEM网络块,第三个SEM网络块,第一个add层。第十四个卷积神经网络块,第一个上采样层,第十五个卷积神经网络块,第二个上采样层,第十六个卷积神经网络块。,第三个上采样层,第十七个卷积神经网络块,第四个上采样层,第十八个卷积神经网络块。
边界感知网络块包含了第十九个卷积神经网络块,第二十个卷积神经网络块,第一个叠加层,第一个点乘层,和第二个add层。第一个MSK网络块,第二个MSK网络块,第二十一个卷积神经网络块,第二十二个卷积神经网络块。
显著性检测网络块包含了第二个点乘层,第三个add层。第二十三个卷积神经网络块,第五个上采样层,第二个叠加层。第二十四个卷积神经网络块,第六个上采样层,第二十五个卷积神经网络块,第二十六个卷积神经网络块。第三个叠加层,第二十七个卷积神经网络块以及第二十八个卷积神经网络块。
对于第一个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;第一个卷积层的输入端接收的是数据库中三通道的RGB图,第一个卷积层的输出为64幅特征图,将64幅特征图构成的集合记为L1;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”,L1中的每幅特征图的宽度为W、高度为H。
对于第二个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第一个卷积神经网络块的输出,第二个卷积层的输出为64幅特征图,将64幅特征图构成的集合记为L2;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”,L2中的每幅特征图的宽度为W、高度为H。
对于第一个最大池化层,其输入端接收的是卷积神经网络块输出端的输出,第一个最大池化层的输出为64幅特征图,最大池化的步长为2,将64幅特征图构成的集合记为P1;P1中的每幅特征图的宽度为
Figure BDA0002171524890000061
高度为
Figure BDA0002171524890000062
对于第三个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第一个最大池化层的输出,第三个卷积层的输出为128幅特征图,将128幅特征图构成的集合记为L3;其中,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的padding参数为1,激活函数为“Relu”,L3中的每幅特征图的宽度为
Figure BDA0002171524890000063
高度为
Figure BDA0002171524890000064
对于第四个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第三个卷积神经网络块的输出,第四个卷积层的输出为128幅特征图,将128幅特征图构成的集合记为L4;其中,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的padding参数为1,激活函数为“Relu”,L4中的每幅特征图的宽度为
Figure BDA0002171524890000065
高度为
Figure BDA0002171524890000066
对于第二个最大池化层,其输入端接收的是第四个卷积层输出端的输出,第二个最大池化层的输出为128幅特征图,最大池化的步长为2,将128幅特征图构成的集合记为P2;P2中的每幅特征图的宽度为
Figure BDA0002171524890000071
高度为
Figure BDA0002171524890000072
对于第五个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二个最大池化层的输出,第四个卷积层的输出为256幅特征图,将256幅特征图构成的集合记为L5;其中,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的padding参数为1,激活函数为“Relu”,L5中的每幅特征图的宽度为
Figure BDA0002171524890000073
高度为
Figure BDA0002171524890000074
对于第六个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第五个卷积神经网络块的输出,第六个卷积层的输出为256幅特征图,将256幅特征图构成的集合记为L6;其中,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的padding参数为1,激活函数为“Relu”,L6中的每幅特征图的宽度为
Figure BDA0002171524890000075
高度为
Figure BDA0002171524890000076
对于第七个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第六个卷积神经网络块的输出,第七个卷积层的输出为256幅特征图,将256幅特征图构成的集合记为L7;其中,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的padding参数为1,激活函数为“Relu”,L7中的每幅特征图的宽度为
Figure BDA0002171524890000077
高度为
Figure BDA0002171524890000078
对于第三个最大池化层,其输入端接收的是第四个卷积层输出端的输出,第二个最大池化层的输出为256幅特征图,最大池化的步长为2,将256幅特征图构成的集合记为P3;P3中的每幅特征图的宽度为
Figure BDA0002171524890000079
高度为
Figure BDA00021715248900000710
对于第八个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第三个最大池化层的输出,第八个卷积层的输出为512幅特征图,将512幅特征图构成的集合记为L8;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的padding参数为1,激活函数为“Relu”,L8中的每幅特征图的宽度为
Figure BDA00021715248900000711
高度为
Figure BDA00021715248900000712
对于第九个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第八个卷积神经网络块的输出,第九个卷积层的输出为512幅特征图,将512幅特征图构成的集合记为L9;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的padding参数为1,激活函数为“Relu”,L9中的每幅特征图的宽度为
Figure BDA00021715248900000713
高度为
Figure BDA00021715248900000714
对于第十个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第九个卷积神经网络块的输出,第十个卷积层的输出为512幅特征图,将512幅特征图构成的集合记为L10;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的padding参数为1,激活函数为“Relu”,L10中的每幅特征图的宽度为
Figure BDA0002171524890000081
高度为
Figure BDA0002171524890000082
对于第四个最大池化层,其输入端接收的是第四个卷积层输出端的输出,第二个最大池化层的输出为512幅特征图,最大池化的步长为2,将512幅特征图构成的集合记为P4;P4中的每幅特征图的宽度为
Figure BDA0002171524890000083
高度为
Figure BDA0002171524890000084
对于第十一个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第四个最大池化层的输出,第十一个卷积层的输出为512幅特征图,将512幅特征图构成的集合记为L11;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的padding,参数为1,激活函数为“Relu”,L11中的每幅特征图的宽度为
Figure BDA0002171524890000085
高度为
Figure BDA0002171524890000086
对于第十二个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第十一个卷积神经网络块的输出,第十二个卷积层的输出为512幅特征图,将512幅特征图构成的集合记为L12;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的padding参数为1,激活函数为“Relu”,L12中的每幅特征图的宽度为
Figure BDA0002171524890000087
高度为
Figure BDA0002171524890000088
对于第十三个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第十二个卷积神经网络块的输出,第十三个卷积层的输出为512幅特征图,将512幅特征图构成的集合记为L13;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的padding参数为1,激活函数为“Relu”,L13中的每幅特征图的宽度为
Figure BDA0002171524890000089
高度为
Figure BDA00021715248900000810
对于第一、第二、第三个SEM网络块。其具有完全相同的结构。其都具有卷积Cov、Cov1、Cov2、Cov3、CovOut这五个神经网络块。其均由卷积层、局部归一化层、激活层组成;不同的是,由于他们连接到不同的神经网络块的输出,因此他们不共享参数。不同的是第一、二、三个SEM网络的Cov的输入端接收的是分别是第十一个卷积神经网络块、第十二个卷积神经网络块、第十三个卷积神经网络块的输出,输出均为32个特征图。步长为1,卷积层的卷积核大小为3×3、卷积核个数为32,卷积层的padding参数为1,激活函数为“Relu”;Cov1的输入端接收的是Cov卷积神经网络块的输出,输出为32个特征图。步长为1,卷积层的卷积核大小为3×3、卷积核个数为32,卷积空洞参数dilation为4,卷积层的padding参数为4,激活函数为“Relu”。Cov2的输入端接收的是Cov卷积神经网络块的输出,输出为32个特征图。步长为1,卷积层的卷积核大小为3×3、卷积核个数为32,卷积空洞参数dilation为8,卷积层的padding参数为8,激活函数为“Relu”;Cov3的输入端接收的是Cov卷积神经网络块的输出,输出为32个特征图。步长为1,卷积层的卷积核大小为3×3、卷积核个数为32,卷积空洞参数dilation为12,卷积层的padding参数为12,激活函数为“Relu”。其后为一个add层将Cov1、Cov2、Cov3的输出进行矩阵的点和。并将其作为Cov卷积神经网络块的输入。而Cov的输入端接收的是add层的输出,输出为21个特征图。步长为1,卷积层的卷积核大小为1×1、卷积核个数为21,卷积空洞参数dilation为0,卷积层的padding参数为0,激活函数为“Relu”。
对于第一个add层,其输入端接收的是第一、第二、第三个SEM网络块的输出,并将其特征矩阵进行点和,将输出的21幅特征图构成的集合记为A1;A1中的每幅特征图的宽度为
Figure BDA0002171524890000091
高度为
Figure BDA0002171524890000092
对于第十四个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第十三个卷积神经网络块的输出,第十四个卷积层的输出为1幅特征图,(由于这一幅特征图为注意力机制图,包含了物体所在的位置等高级信息,故将这幅特征图记为Attention1;)其中,卷积层的卷积核大小为1×1、卷积核个数为1,卷积层的padding参数为0,激活函数为“Relu”,Attention1中的每幅特征图的宽度为
Figure BDA0002171524890000093
高度为
Figure BDA0002171524890000094
对于第一个上采样层,其输入端接收的是第十四个卷积神经网络块的输出,放大参数为两倍,输出为一张特征图,记为Attention2。Attention2中的每幅特征图的宽度为
Figure BDA0002171524890000095
高度为
Figure BDA0002171524890000096
对于第十五个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第一个上采样层的输出,第十五个卷积层的输出为1幅特征图,将1幅特征图构成的集合记为Attention3;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,Attention3中的每幅特征图的宽度为
Figure BDA0002171524890000097
高度为
Figure BDA0002171524890000098
对于第二个上采样层,其输入端接收的是第十五个卷积神经网络块的输出,放大参数为两倍,输出为一张特征图,记为Attention4。Attention4中的每幅特征图的宽度为
Figure BDA0002171524890000099
高度为
Figure BDA00021715248900000910
对于第十六个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二个上采样层的输出,第十六个卷积层的输出为1幅特征图,将1幅特征图构成的集合记为Attention5;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,Attention5中的每幅特征图的宽度为
Figure BDA0002171524890000101
高度为
Figure BDA0002171524890000102
对于第三个上采样层,其输入端接收的是第十六个卷积神经网络块的输出,放大参数为两倍,输出为一张特征图,记为Attention6。Attention6中的每幅特征图的宽度为
Figure BDA0002171524890000103
高度为
Figure BDA0002171524890000104
对于第十七个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第三个上采样层的输出,第十七个卷积层的输出为1幅特征图,将1幅特征图构成的集合记为Attention7;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,Attention7中的每幅特征图的宽度为
Figure BDA0002171524890000105
高度为
Figure BDA0002171524890000106
对于第四个上采样层,其输入端接收的是第十六个卷积神经网络块的输出,放大参数为两倍,输出为一张特征图,记为Attention8。Attention8中的每幅特征图的宽度为W、高度为H。
对于第十八个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第三个上采样层的输出,第十七个卷积层的输出为1幅特征图,将1幅特征图构成的集合记为Attention9;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,Attention9中的每幅特征图的宽度为W、高度为H。
对于第十九个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是数据库中三通道的RGB图,第一个卷积层的输出为32幅特征图,将32幅特征图构成的集合记为L19;其中,卷积层的卷积核大小为3×3、卷积核个数为32,卷积层的padding参数为1,激活函数为“Relu”,L19中的每幅特征图的宽度为W、高度为H。
对于第二十个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是数据库中三通道的视差图,第一个卷积层的输出为32幅特征图,将32幅特征图构成的集合记为L20;其中,卷积层的卷积核大小为3×3、卷积核个数为32,卷积层的padding参数为1,激活函数为“Relu”,L20中的每幅特征图的宽度为W、高度为H。
对于第一个叠加层,其输入端接收的是第十九个卷积神经网络块和第二十个卷积神经网络块的输出。其输出为64通道的L19与L20的叠加的特征图记为C1
对于第一个点乘层,其输入端接收的是第一个叠加层的输出与第十八个卷积神经网络块的输出Attention9。对其进行点乘后输出为64通道的特征图,记为M1
对于第二个add层,其输入端接收的是第一个叠加层和第一个点乘层的输出。对其进行点乘后输出为64通道的特征图。其作用是对这两个特征图进行对应的点的求和,记为add2
对于第一、第二MSK网络块。其具有完全相同的结构。其都由卷积Conv、Conv1、Conv2、Conv3、ConvOut这五个神经网络块。这五个块均由卷积层、局部归一化层、激活层组成;Conv卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”;Conv1的输入端接收的是Conv卷积神经网络块的输出,输出为64个特征图。步长为1,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”。Conv2的输入端接收的是Conv卷积神经网络块的输出,输出为64个特征图。步长为1,卷积层的卷积核大小为5×5、卷积核个数为64,卷积层的padding参数为2,激活函数为“Relu”;Conv3的输入端接收的是Conv卷积神经网络块的输出,输出为64个特征图。步长为1,卷积层的卷积核大小为7×7、卷积核个数为64,卷积层的padding参数为3,激活函数为“Relu”。其后为一个add层将Conv、Conv1、Conv2、Conv3的输出进行矩阵的点和。并将其作为ConvOut卷积神经网络块的输入。ConvOut输出为64个特征图。步长为1,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”。第一个MSK的输入端接收的是第二个add层的输出,输出为64个特征图。第二个MSK的输入端接收的是第一个MSK的输出,输出为64个特征图。
对于第二十一个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二个MSK网络块的输出,其输出为32幅特征图,将32幅特征图构成的集合记为L20;其中,卷积层的卷积核大小为3×3、卷积核个数为32,卷积层的padding参数为1,激活函数为“Relu”,L20中的每幅特征图的宽度为W、高度为H。
对于第二十二个卷积神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二十一个卷积神经网络块的输出,其输出为1幅特征图,将1幅特征图构成的集合记为L21;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L21中的每幅特征图的宽度为W、高度为H。
对于第二个点乘层,其输入端接收的是第十六个神经网络块的输出与第七个卷积神经网络块的输出。对其进行点乘后输出为256通道的特征图,记为M2
对于第三个add层,其输入端接收的是第七个卷积神经网络块和第二个点乘层的输出。对其进行点和后输出为256通道的特征图。起作用是对这两个特征图进行对应的点的求和,记为add3
对于第二十三个神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二个add层的输出,第二十三个卷积层的输出为256幅特征图,将256幅特征图构成的集合记为L23;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L23中的每幅特征图的宽度为
Figure BDA0002171524890000121
高度为
Figure BDA0002171524890000122
对于第五个上采样层,具体是采用反卷积的方式进行上采样。其输入端接收的是第二十三个卷积神经网络块的输出,卷积层的卷积核大小为2×2,步长(放大参数)为两倍,padding为0。输出为128张特征图,记为Up5。Up5中的每幅特征图的宽度为
Figure BDA0002171524890000123
高度为
Figure BDA0002171524890000124
对于第二个叠加层,其输入端接收的是第五个上采样层和第四个神经网络块的输出。其输出为256通道的Up5与L4的叠加的特征图记为C2
对于第二十四个神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二个叠加层的输出,第二十四个卷积层的输出为64幅特征图,将64幅特征图构成的集合记为L24;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L24中的每幅特征图的宽度为
Figure BDA0002171524890000125
高度为
Figure BDA0002171524890000126
对于第六个上采样层,采用的是反卷积的上采样方法。其输入端接收的是第二十四个卷积神经网络块的输出,卷积层的卷积核大小为2×2,步长(放大参数)为两倍,padding为0。输出为64张特征图,记为Up6。Up6中的每幅特征图的宽度为W、高度为H。
对于第二十五个神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第六个上采样层的输出,第二十五个卷积层的输出为32幅特征图,将32幅特征图构成的集合记为L25;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L25中的每幅特征图的宽度为W、高度为H。
对于第二十六个神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二十五个神经网络块的输出,第二十六个卷积层的输出为1幅特征图,将1幅特征图构成的集合记为L26;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L26中的每幅特征图的宽度为W、高度为H。
对于第三个叠加层,其输入端接收的是第二十一个神经网络块和第二十五个神经网络块的输出。其输出为64通道的L21与L25的叠加的特征图记为C3
对于第二十七个神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第三个叠加层的输出,第二十七个卷积层的输出为32幅特征图,将32幅特征图构成的集合记为L27;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L27中的每幅特征图的宽度为W、高度为H。
对于第二十八个神经网络块,其由卷积层、局部归一化层、激活层组成;其输入端接收的是第二十七个神经网络块的输出,第二十八个卷积层的输出为1幅特征图,将1幅特征图构成的集合记为L28;其中,卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”,L28中的每幅特征图的宽度为W、高度为H。
步骤3:讲训练集中的所有标签通过canny算子得到边界图,记为
Figure BDA0002171524890000131
以用于训练边界感知网络部分的参数。同时将训练集中的所有彩色图和视差图一一对应的作为输入图像,输入到多尺度卷积神经网络中进行训练。此时会得到第二十二个神经网络块、第二十六个神经网络块、第二十八个神经网络块三个输出。将这三个输出分别记为
Figure BDA0002171524890000132
Figure BDA0002171524890000133
其中k表示第k个训练样本。
步骤4:计算训练集中每一对彩色图和视差图通过神经网络模型所得到的显著性预测图和真实标注的物体分割图的Loss值,将
Figure BDA0002171524890000134
Figure BDA0002171524890000135
进行损失函数的计算得到Loss1。将
Figure BDA0002171524890000136
Figure BDA0002171524890000137
进行损失函数的计算,得到Loss2。最终通过Loss1+Loss2得到最终的总损失函数,值记为
Figure BDA0002171524890000138
第一损失函数值Loss1和第二损失函数值Loss2均采用二值交叉熵获得。
步骤5:重复执行步骤1_3和步骤1_4共O次。由此得到神经网络模型。同时得到K×O个损失函数值;然后使用这些损失函数值进行反向传播,梯度更新。从而调整出最优的模型参数Wop
步骤6:采集待检测的彩色图像及彩色图像对应的视差图,将彩色图像及其对应的视差图输入到训练好的边界感知神经网络中输出得到显著性预测图。具体如下:
步骤6_1:记{X(i,j)}表示待进行显著分割的图像;其中,1≤i≤W,1≤j≤H,W表示{X(i,j)}的宽度,H表示{X(i,j)}的高度,X(i,j)表示{I(i,j)}中坐标位置为(i,j)的像素点的像素值;
步骤6_2:将{X(i,j)}的R通道分量、G通道分量和B通道分量输入到第一个神经网络块以及第二十个神经网络块中,将{X(i,j)}对应的视差图输入到第十九个神经网络块中,并利用预先训练好的Wop进行预测,得到{X(i,j)}对应的显著性预测图,记为{XPre(i,j)};其中XPre(i,j),表示{XPre(i,j)}中坐标位置为(i,j)的像素点的像素值。
如图4所示,a、b、c分别代表三种待显著性检测的场景图。
a1为原始场景一的彩色图,a2为原始场景一的视差图,a3为原始场景一的分割标签图,a4为利用本发明方法对图a1及其对应的图a2进行的预测所得到的显著性预测结果图。
b1为原始场景二的彩色图,b2为原始场景二的视差图,b3为原始场景二的分割标签图,b4为利用本发明方法对图b1及其对应的图b2进行的预测所得到的显著性预测结果图。
c1为原始场景三的彩色图,c2为原始场景三的视差图,c3为原始场景三的分割标签图,c4为利用本发明方法对图c1及其对应的图c2进行的预测所得到的显著性预测结果图。
对比图a3、a4;图b3、b4;图c3、c4,可以看出利用本发明方法得到的显著性物体分割图像的分割精度较高,效果较好。
为了进一步验证本发明方法的可行性和有效性,采用以下方式进行检验。
使用基于python的深度学习库torch1.1.0搭建边界感知神经网络,本发明的边界感知神经网络为多尺度带孔卷积神经网络架构。利用本发明方法对显著分割图像数据库nju2000测试集中的每个像素是物体的可能性进行预测,从而得到每幅图像对应的显著性物体分割图像。利用显著分割数据库nju2000测试集来分析本发明方法得到的显著性图像(取397幅道路场景图像)的分割效果。
利用评估语义分割方法的三个常用客观参量作为分割效果的评价指标,即PR曲线、ROC曲线和AUC、MeanF、MaxF、MAE四个指标值来评价模型的分割性能。
如图5的ROC曲线所示,横坐标表示将负类预测为正类的像素数,纵坐标表示将正类预测为正类的像素数。曲线越靠近左上角越好。由图中曲线可以看出本方法很靠近左上角,结果优良。
如图6的PR曲线所示,横坐标表示精确率(precision)定义为:表示被分为正例的示例中实际为正例的比例,纵坐标表示召回率(recall),召回率是覆盖面的度量。曲线越靠近右上角越好。由图中曲线可以看出本方法很靠近右上角,结果优良。
本发明对应的四个指标值分别为:AUC=0.978,MeanF=0.831,MaxF=0.870,MAE=0.070,AUC表示该结果在ROC曲线图上的曲线所对应的下方部分面积的大小。面积越大,说明本方法的效果越好。;MeanF、MaxF、表示该方法得到的结果F-mesure值的平均值与最大值。F-mesure的公式为F=2×P×R/(P+R)。其中P和R分别为精确率和召回率。由此说明了本方法结果的优良。MAE表示平均错误数值。即预测出的显著分割图与实际的标签作差取绝对值后求和再取平均数的值。这是一个越小越好的评价指标。可以看出我们的MAE只有0.070,也就是说,我们平均每个像素与实际结果只会相差0.070的数值。由此可见本方法效果的优良。
综上数据可知,按本发明方法得到的分割结果是较好的,表明利用本发明方法来预测显著性并分割物体是可行且有效的。

Claims (3)

1.基于边界感知神经网络的双目显著物体检测方法,其特征在于:
步骤1:选取K张彩色图以及彩色图对应的视差图、分割标签图,将所有彩色图像及其对应的视差图、分割标签图构成训练集;分割标签图是指对彩色图中的显著性区域进行标注得到的图像;
步骤2:构建边界感知神经网络;
所述的边界感知神经网络包括特征提取网络块、注意力机制网络块、边界感知网络块和显著性检测网络块;
特征提取网络块包括依次连接的第一个卷积神经网络块、第二个卷积神经网络块、第一个最大池化层、第三个卷积神经网络块、第四个卷积神经网络块、第二个最大池化层、第五个卷积神经网络块、第六个卷积神经网络块、第七个卷积神经网络块、第三个最大池化层、第八个卷积神经网络块、第九个卷积神经网络块、第十个卷积神经网络块、第四个最大池化层、第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块;
注意力机制网络块包括第一个SEM网络块,第二个SEM网络块,第三个SEM网络块以及依次连接的第一个add层、第十四个卷积神经网络块,第一个上采样层,第十五个卷积神经网络块、第二个上采样层、第十六个卷积神经网络块、第三个上采样层,第十七个卷积神经网络块、第四个上采样层和第十八个卷积神经网络块,彩色图输入到第一个卷积神经网络块中,第十一个卷积神经网络块、第十二个卷积神经网络块和第十三个卷积神经网络块的输出分别对应连接到第一个SEM网络块,第二个SEM网络块和第三个SEM网络块的输入,三个SEM网络块的输出共同连接到第一个add层的输入;
边界感知网络块包括第十九个卷积神经网络块、第二十个卷积神经网络块、以及依次连接的第一个叠加层、第一个点乘层、第二个add层、第一个MSK网络块、第二个MSK网络块、第二十一个卷积神经网络块、第二十二个卷积神经网络块,彩色图及其对应的视差图分别作为第二十个卷积神经网络块和第十九个卷积神经网络块的输入,第十九个卷积神经网络块和第二十个卷积神经网络块的输出共同连接到第一个叠加层的输入,第十八个卷积神经网络块的输出连接到第一个点乘层的输入,第一个叠加层与第十八个卷积神经网络块的输出输入到第一个点乘层中进行点乘处理后作为第一个点乘层的输出,第一个叠加层的输出再跳跃连接到第二个add层的输入,第一个点乘层和第一个叠加层的输出输入到第二个add层中进行点和处理后作为第二个add层的输出,第二十二个卷积神经网络块输出边界预测图;
显著性检测网络块包括依次连接的第二个点乘层、第三个add层、第二十三个卷积神经网络块、第五个上采样层、第二个叠加层、第二十四个卷积神经网络块、第六个上采样层、第二十五个卷积神经网络块和第二十六个卷积神经网络块,第二个点乘层的输入连接到第七个卷积神经网络块的输出,第二个点乘层的输入还连接到第十六个卷积神经网络块的输出,第七个卷积神经网络块与第十六个卷积神经网络块的输出输入到第二个点乘层中进行点乘处理后作为第二个点乘层的输出,第七个卷积神经网络块的输出再跳跃连接到第三个add层的输入,第七个卷积神经网络块和第二个点乘层的输出再输入到第三个add层中进行点和处理后作为第二个add层的输出,第四个卷积神经网络块的输出还连接到第二个叠加层的输入,第五个上采样层和第四个神经网络块的输出输入到第二个叠加层进行特征图的叠加后作为第二个叠加层的输出;第二十六个卷积神经网络块输出显著性预测图;
第二十一个卷积神经网络块的输出和第二十五个卷积神经网络块的输出经第三个叠加层依次连接第二十七个卷积神经网络块和第二十八个卷积神经网络块,第二十八个卷积神经网络块输出分割预测图;
所述的三个SEM网络块的结构相同,单个SEM网络块包括Cov、Cov1、Cov2、Cov3、CovOut五个卷积网络块,每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成,Cov卷积网络块的输入作为SEM网络块的输入,Cov1、Cov2、Cov3三个卷积网络块并联的一端作为输入端,输入端与Cov卷积网络块相连并接收Cov卷积网络块的输出,并联的一端作为输出端,Cov1、Cov2、Cov3三个卷积网络块的输出经点和处理后输入到CovOut卷积网络块中,CovOut卷积网络块的输出作为SEM网络块的输出;
所述的两个MSK网络块的结构相同,单个MSK网络块包括Conv、Conv1、Conv2、Conv3、ConvOut五个卷积网络块,每个卷积网络块均由卷积层、局部归一化层、激活层依次连接构成,Conv卷积网络块的输入作为MSK网络块的输入,Conv1、Conv2、Conv3三个卷积网络块并联的一端作为输入端,输入端与Conv卷积网络块相连并接收Conv卷积网络块的输出,并联的一端作为输出端,Conv1、Conv2、Conv3三个卷积网络块的输出经点和处理后输入到ConvOut卷积网络块中,ConvOut卷积网络块的输出作为MSK网络块的输出;
步骤3:将训练集中的彩色图及其对应的视差图输入到边界感知神经网络中进行训练,输出得到边界预测图、显著性预测图和分割预测图;
步骤4:计算输出的边界预测图、显著性预测图和分割预测图的总损失函数值Loss;
步骤5:重复执行步骤3-4共O次,得到K×O个总损失函数值;根据得到的总损失函数值利用反向传播进行梯度更新,得到最优的模型参数Wop,由此得到训练好的边界感知神经网络;
步骤6:采集待检测的彩色图像及其对应的视差图,将彩色图像及其对应的视差图输入到训练好的边界感知神经网络中输出得到分割预测图。
2.根据权利要求1所述的基于边界感知神经网络的双目显著物体检测方法,其特征在于:步骤4所述的总损失函数值的计算具体是:将分割标签图通过canny算子提取得到显著性区域的外轮廓并将其作为边界图,分别计算边界预测图与边界图的损失函数值、显著性预测图与分割标签图的损失函数值、分割预测图与分割标签图的损失函数值,将上述三个损失函数值相加得到总损失函数值Loss。
3.根据权利要求1所述的基于边界感知神经网络的双目显著物体检测方法,其特征在于:所述的每个卷积神经网络块均由卷积层、局部归一化层、激活层依次连接构成。
CN201910764582.3A 2019-08-19 2019-08-19 基于边界感知神经网络的双目显著物体检测方法 Active CN110570402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910764582.3A CN110570402B (zh) 2019-08-19 2019-08-19 基于边界感知神经网络的双目显著物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910764582.3A CN110570402B (zh) 2019-08-19 2019-08-19 基于边界感知神经网络的双目显著物体检测方法

Publications (2)

Publication Number Publication Date
CN110570402A CN110570402A (zh) 2019-12-13
CN110570402B true CN110570402B (zh) 2021-11-19

Family

ID=68775735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910764582.3A Active CN110570402B (zh) 2019-08-19 2019-08-19 基于边界感知神经网络的双目显著物体检测方法

Country Status (1)

Country Link
CN (1) CN110570402B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325161B (zh) * 2020-02-25 2023-04-18 四川翼飞视科技有限公司 一种基于注意力机制的人脸检测神经网络的构建方法
CN111428602B (zh) * 2020-03-18 2024-07-05 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111783862A (zh) * 2020-06-22 2020-10-16 浙江科技学院 多注意力导向神经网络的立体显著性物体检测技术
CN111915660B (zh) * 2020-06-28 2023-01-06 华南理工大学 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN112837218B (zh) * 2021-01-14 2022-02-08 中国科学院自动化研究所 基于双流边界感知的动脉瘤图像分析系统、方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460709A (zh) * 2018-10-12 2019-03-12 南京大学 基于rgb和d信息融合的rtg视觉障碍物检测的方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651853B (zh) * 2016-12-28 2019-10-18 北京工业大学 基于先验知识和深度权重的3d显著性模型的建立方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460709A (zh) * 2018-10-12 2019-03-12 南京大学 基于rgb和d信息融合的rtg视觉障碍物检测的方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于立体视觉的移动机器人避障技术研究》;张天翼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第2019年卷(第1期);第I138-3254页 *
Focal Boundary Guided Salient Object Detection;Yupei Wang et al.;《IEEE Transactions on Image Processing 》;20190107;第28卷(第6期);第2813-2824页 *

Also Published As

Publication number Publication date
CN110570402A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN112132023B (zh) 基于多尺度上下文增强网络的人群计数方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN112541503A (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN112597985B (zh) 一种基于多尺度特征融合的人群计数方法
CN106529419B (zh) 视频显著性堆栈式聚合的对象自动检测方法
CN109872305B (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN112581414A (zh) 一种卷积神经网络、图像处理的方法及电子设备
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
US11615612B2 (en) Systems and methods for image feature extraction
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN105139385A (zh) 基于深层自动编码器重构的图像视觉显著性区域检测方法
CN110956119B (zh) 一种图像中目标检测的方法
CN110458178A (zh) 多模态多拼接的rgb-d显著性目标检测方法
CN115601236A (zh) 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法
CN110909615A (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN111310767A (zh) 一种基于边界增强的显著性检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN109409380B (zh) 一种基于双学习网络的立体图像视觉显著提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant