CN114494284B

CN114494284B - 一种基于显式监督区域关系的场景解析模型及方法

Info

Publication number: CN114494284B
Application number: CN202111635864.7A
Authority: CN
Inventors: 宋子辰; 李宏亮; 孟凡满; 吴庆波; 许林峰; 潘力立; 邱荷茜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-04-18
Anticipated expiration: 2041-12-29
Also published as: CN114494284A

Abstract

本发明的目的在于提供一种基于显式监督区域关系的场景解析模型及方法，属于计算机视觉中的图像分割技术领域。本发明所公开的场景解析模型通过对场景图片中的区域内和区域间关系分别建模，并在网络训练过程中给予两种区域关系对应的显式监督信息，使得区域内关系模块利用了更准确的区域内类别先验信息，提高了困难类别的判别能力；通过区域间关系模块捕捉了更准确的区域间类别相互关系，提高了相似类别的分辨能力，具有解析准确率高、额外计算复杂度低等特点。

Description

一种基于显式监督区域关系的场景解析模型及方法

技术领域

本发明属于计算机视觉中的图像分割技术领域，具体涉及一种基于显式监督区域关系的场景解析系统及方法。

背景技术

近年来，随着深度学习技术的进步，计算机视觉领域取得了蓬勃的发展，其中场景解析是该领域最具挑战性和代表性的任务之一。场景解析的主要任务是根据给定的输入场景图片，对场景图片中的每个像素赋予相对应的类别标签，实现对该场景的智能解析和深度理解。该任务在机器人导航、自动驾驶、虚拟现实和精准农业等方面有广泛的应用前景，是国内外计算机视觉领域的研究热点。

现有的场景解析方法大多基于全卷积网络(Fully Convolutional Network,FCN)结构，得益于深度卷积神经网络(Convolutional Neural Networks,CNN)强大的分类能力。基于FCN结构的方法在简单场景下的像素分类有很好的效果，但是随着场景类别数量的增加，基于FCN结构的方法很难区分一些相似类别，例如书架和橱柜，导致对复杂场景的解析性能下降。最新的一些研究^[1][2]提出了自注意力机制对场景中区域关系建模，试图解决相似类别的解析困难问题。然而，这些方法的区域关系往往缺乏显式的监督信息，通过自注意力机制捕捉到的一些无监督区域间关系可能对网络产生负面影响，使相似类别判断易混淆，场景解析性能下降。此外，现有方法大多关注场景图片中区域间的关系建模，缺少对区域内的关系建模，不利于解决区域内困难类别分类错误问题。

因此，如何解决现有场景解析方法中存在的缺乏对区域内和区域间关系显式监督缺陷的问题，就成为了研究重点。

[1]Zhang,Hang,et al."Context encoding for semantic segmentation."Proceedings of the IEEE conference on Computer Vision and PatternRecognition.2018.

[2]Fu,Jun,et al."Dual attention network for scene segmentation."Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019.

发明内容

针对背景技术所存在的问题，本发明的目的在于提供一种基于显式监督区域关系的场景解析模型及方法。该模型通过对场景图片中的区域内和区域间关系分别建模，并在网络训练过程中给予两种区域关系对应的显式监督信息，提高网络对相似类别和困难类别的分类能力，从而提升场景解析性能。

为实现上述目的，本发明的技术方案如下：

一种基于显式监督区域关系的场景解析模型，包括网络预处理模块，深度扩张卷积特征提取模块，扩张卷积空间池化金字塔模块，初步解析模块，区域内关系模块，区域间关系模块和修正解析模块；

其中，所述网络预处理模块用于对场景图片进行预处理，得到所需场景图像；所述深度扩张卷积特征提取模块用于提取预处理后的场景图像的图像特征；所述扩张卷积空间池化金字塔模块用于对提取的图像特征处理得到多尺度增强的图像特征；

所述初步解析模块依次包括一个3×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层，其中，1x1卷积层的输出维度为数据集场景类别标签数量；多尺度增强的图像特征输入初步解析模块后，即可得到初步场景解析结果；

所述区域内关系模块包括依次连接的一个区域划子分模块和一个区域内关系学习子模块；所述区域划分子模块为一个自适应池化层，区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3×3卷积-批量归一化-ReLU层和一个sigmoid层；所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域，然后通过动态卷积层自适应地对不同区域特征进行变换，再通过四个连续的3×3卷积-批量归一化-ReLU层将变换后的区域特征处理得到区域内关系增强特征，通过sigmoid层得到预测的区域内关系；

所述区域间关系模块依次包括区域划分子模块和有监督的Non-Local子模块，其中，区域划分子模块为一个自适应池化层，有监督的Non-Local子模块包括三个1×1卷积层；区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域，通过第一个1×1卷积层和第二个1×1卷积层将不同区域的图像特征进行特征变换、再进行维度重组，将这个1x1卷积层维度重整后的结果进行矩阵乘法处理，得到预测的区域间关系，该关系即为区域间类别相似度矩阵，预测的区域间关系与第三个1×1卷积层进行矩阵乘法，得到区域间关系增强特征；

所述修正解析模块包括依次连接的一个3×3卷积-批量归一化-ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层，1x1卷积层的输出维度为数据集场景类别标签数量；修正解析模块通过3×3卷积-批量归一化-ReLU层将区域内关系增强特征和区域间关系增强特征进行特征融合，通过Dropout层和1x1卷积层将融合后的特征进行修正，修正后的结果与初步场景解析结果线性加权得到修正后的解析结果，通过线性插值上采样层将修正后的解析结果上采样到原图分辨率，得到最终场景解析结果。

进一步地，场景解析模型的损失函数设置为：

L_total＝L_seg+αL_Intra+βL_Inter，

其中，L_seg表示初步解析模块的交叉熵损失，L_Intra表示区域内关系模块的交叉熵损失，L_Inter表示区域间关系模块的交叉熵损失，α和β为预置损失系数；

其中，N为图像像素个数，C为场景类别个数，D_KL(m_i,n_i)为m_i和n_i之间的KL距离，i和j分别为第i和j列的像素，x_i,j为像素类别预测概率，y_i为像素类别标签；R为图像区域个数，m_i为预测的区域内类别分布，n_i为真实的区域内类别分布；q_i,j为预测的区域间相似度，p_i,j为真实的区域间相似度。

进一步地，所述深度扩张卷积特征提取模块为Dilated-ResNet101网络，该网络包括一个STEM模块和四组残差子网络；STEM模块包括连续三个3×3卷积-批量归一化-ReLU层和一个步长为2的最大池化层，四组残差子网络分别包括3，4，23，3个残差模块；其中，第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积。

所述扩张卷积空间池化金字塔模块包括四个不同尺度的扩张卷积分支，一个全局分支和一个特征融合分支；扩张卷积分支包括一个3×3卷积层、一个批量归一化层和一个ReLU层，四个分支的扩张卷积系数为1、12、24和36，全局分支包括一个全局池化层和一个3×3卷积-批量归一化-ReLU层，特征融合分支包括一个特征级联层和一个3×3卷积-批量归一化-ReLU层。

同时，本发明还公开了一种构建上述场景解析模型的构建方法，其具体包括以下步骤：

步骤1.选择训练数据集；

步骤2.构建基于显式监督区域关系的场景解析模型的网络结构；

步骤3.训练场景解析模型的网络结构，并在训练过程中对区域内关系模块和区域间关系模块增加显式监督，直至模型网络收敛，网络参数固定；

步骤4.在测试集上验证具有网络结构参数的场景解析模型，得到所需的场景解析模型。

进一步地，步骤3中训练网络结构时，区域内关系模块得到的预测的区域内关系，在训练时与真实的区域内类别分布计算损失，在其监督下学习；区域间关系模块得到的预测的区域间关系，在训练时与真实的区域间类别相似度矩阵计算损失，在其监督下学习；两种监督信息直接从场景解析类别标签中计算得出。

进一步地，步骤3中网络结构超参数包括：选择梯度下降方法，并设置学习率的更新方式、最大训练迭代次数、损失函数等。

此外，本发明还公开了基于上述场景解析模型的解析方法，具体包括以下步骤：

步骤1.采集训练数据集，并对数据集中的训练数据进行图像预处理，生成得到所需场景图像；预处理包括对图像进行归一化处理、多尺度随机放缩、随机翻转等；

步骤2.基于所需场景图像对本发明所构建的场景解析模型进行网络训练，当网络训练满足预设的精度要求时，保存训练好的场景解析模型作为场景解析器；

步骤3.将待解析的图像进行图像数据预处理，然后输入步骤2得到的场景解析器，即可得到场景解析图像结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明所公开的场景解析模型通过区域内关系模块利用了更准确的区域内类别先验信息，提高了困难类别的判别能力；通过区域间关系模块捕捉了更准确的区域间类别相互关系，提高了相似类别的分辨能力，具有解析准确率高、额外计算复杂度低等特点。该模型相比现有场景解析方法，在复杂场景中更具性能优势。

附图说明

图1为本发明场景解析模型处理流程示意图。

图2为本发明场景解析模型中区域间关系模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

为充分利用场景区域间信息和区域内信息，更加准确地完成场景解析，本发明提出了一种基于显式监督区域关系的场景解析模型及方法。下面结合具体实例，对本发明进行详细且完整的说明。

如图1所示，本发明基于显式监督区域关系的场景解析模型具体包括：网络预处理模块，深度扩张卷积特征提取模块，扩张卷积空间池化金字塔模块，初步解析模块，区域内关系模块，区域间关系模块和修正解析模块。

一种构建上述场景解析模型的构建方法，其具体包括以下步骤：

步骤1.选择训练数据集。本发明选取的训练数据集为ADE20k或Pascal-Context；

其中，ADE20k数据集包括20210张训练集图像和2000张验证集图像，共有150种场景类别标签；Pascal-Context数据集包括4998张训练集图像和6105张测试集图像，共有60种场景类别标签，包括59种前景目标类别和一个背景类别。

步骤2.构建基于显式监督区域关系的场景解析模型，具体包括：网络预处理模块，深度扩张卷积特征提取模块，扩张卷积空间池化金字塔模块，初步解析模块，区域内关系模块，区域间关系模块和修正解析模块。

网络预处理模块用于对场景图片进行预处理，得到所需场景图像；预处理包括对图像进行减均值除方差操作、随机水平翻转、图像放缩裁剪和填充，得到固定尺寸为512x512的场景图像。

深度扩张卷积特征提取模块为Dilated-ResNet101网络，该网络包括一个STEM模块和四组残差子网络；STEM模块包括连续三个3×3卷积-批量归一化-ReLU层和一个步长为2的最大池化层；四组残差子网络分别包括3，4，23，3个残差模块；其中，第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积。该模块输入预处理图像，输出提取到的图像特征。

扩张卷积空间池化金字塔模块包括四个不同尺度的扩张卷积分支，一个全局分支和一个特征融合分支；扩张卷积分支包括一个3×3卷积层、一个批量归一化层和一个ReLU层，四个分支的扩张卷积系数为1，12，24和36，全局分支包括一个全局池化层和一个3×3卷积-批量归一化-ReLU层，特征融合分支包括一个特征级联层和一个3×3卷积-批量归一化-ReLU层。该模块能对图像特征进行多尺度信息增强。

初步解析模块依次包括一个3×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层，其中，1x1卷积层的输出维度为数据集场景类别标签数量；该模块输入多尺度信息增强后的特征，输出初步场景解析结果。

区域内关系模块依次包括区域划分子模块、一个自适应池化层、一个动态卷积层、四个连续的3×3卷积-批量归一化-ReLU层和一个sigmoid层；多尺度增强的图像特征首先输入区域划分模块，通过一个自适应池化层将图像特征划分成kxk个区域，接着输入一个动态卷积层，自适应地针对不同输入图像对区域特征进行变换，再输入四个连续的3×3卷积-批量归一化-ReLU层得到更具判别性的区域内关系增强特征，最后输入一个sigmoid层得到预测的区域内关系，该关系即为区域内的类别分布。

区域间关系模块的结构示意图如图2所示，依次包括区域划分子模块和有监督的Non-Local子模块，其中，区域划分子模块为一个自适应池化层，有监督的Non-Local子模块包括三个1×1卷积层；多尺度增强的图像特征首先输入区域划分子模块，通过一个自适应池化层将图像特征划分成kxk个区域，再输入一个有监督的Non-Local子模块，前两个1x1卷积层变换后的特征进行维度重整后再由矩阵乘法得到预测的区域间关系，该关系即为区域间类别相似度矩阵，该关系矩阵再与最后一个1×1卷积层进行矩阵乘法，得到更具判别性的区域间关系增强特征。

修正解析模块依次包括一个3×3卷积-批量归一化-ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层，1x1卷积层的输出维度为数据集场景类别标签数量；修正解析模块的输入为区域内关系增强特征，区域间关系增强特征和初步解析结果。首先将区域内关系增强特征和区域间关系增强特征输入一个3×3卷积-批量归一化-ReLU层进行特征融合，再输入一个Dropout层和一个1x1卷积层得到修正结果，该结果和初步解析结果线性加权，得到修正后更加精细化的场景解析结果，最后输入一个线性插值上采样层将解析结果上采样到原图分辨率，得到最终场景解析结果。

步骤3.训练场景解析模型的网络结构，并在训练过程中对区域内关系模块和区域间关系模块增加显式监督，直至模型网络收敛，网络参数固定。本发明选取随机梯度下降法更新网络参数，初始学习率设置为0.004，采用Poly策略更新学习率，训练总迭代次数设置为180个epoch，训练输入的批大小(Batch Size)为16；初步解析模块中Dropout层和修正解析模块中的Dropout层参数设置为0.1；

场景解析模型的损失函数设置为：

L_total＝L_seg+αL_Intra+βL_Inter，

其中，L_seg表示初步解析模块的交叉熵损失，L_Intra表示区域内关系模块的交叉熵损失，L_Inter表示区域间关系模块的交叉熵损失，α和β为预置损失系数，α＝0.5,β＝3.0；

区域内关系模块在训练过程中，用从场景解析类别标签中计算出的区域内类别真实分布作监督，通过损失约束让网络学习预测测试图片的区域内类别分布，测试过程中作为网络预测场景解析结果的先验信息，强网络对区域内困难类别的判别能力。

区域间关系模块网络通过学习预测区域间类别相似度矩阵，可以有效增强场景不同类别间的特征差异性，提高网络对相似类别的判别能力。训练过程中，该模块的监督信息区域间类别相似度矩阵可直接从场景解析类别标签中计算得出，区域间类别相似度矩阵预测结果用二值化交叉熵损失进行约束。

本发明基于显式监督区域关系的场景解析方法与现有的几种常规场景解析方法的对比结果如表1所示。从表中可以看出，在两个常用场景解析数据集ADE20k和Pascal-Contex上，本发明的场景解析模型解析性能分别达到了46.9％和54.9％的平均交并比(mIoU)，优于现有缺乏显式区域关系监督的其他场景解析模型。本发明具有准确率更高的场景解析结果。

表1

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于显式监督区域关系的场景解析模型，其特征在于，包括网络预处理模块、深度扩张卷积特征提取模块、扩张卷积空间池化金字塔模块、初步解析模块、区域内关系模块、区域间关系模块和修正解析模块；

所述初步解析模块包括依次连接的一个3×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层，其中，1x1卷积层的输出维度为数据集场景类别标签数量；多尺度增强的图像特征输入初步解析模块后，即可得到初步场景解析结果；

所述区域内关系模块包括依次连接的一个区域划分子模块和一个区域内关系学习子模块；所述区域划分子模块为一个自适应池化层，区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3×3卷积-批量归一化-ReLU层和一个sigmoid层；所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域，然后通过动态卷积层自适应地对不同区域特征进行变换，再通过四个连续的3×3卷积-批量归一化-ReLU层将变换后的区域特征处理得到区域内关系增强特征，通过sigmoid层得到预测的区域内关系；

所述区域间关系模块包括依次连接的区域划分子模块和有监督的Non-Local子模块，其中，区域划分子模块为一个自适应池化层，有监督的Non-Local子模块包括三个1×1卷积层；区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域，通过第一个1×1卷积层和第二个1×1卷积层将不同区域的图像特征进行特征变换、再进行维度重组，将这个1x1卷积层维度重整后的结果进行矩阵乘法处理，得到预测的区域间关系，预测的区域间关系与第三个1×1卷积层进行矩阵乘法，得到区域间关系增强特征；

2.如权利要求1所述的基于显式监督区域关系的场景解析模型，其特征在于，场景解析模型的损失函数设置为：

，

其中，

表示初步解析模块的交叉熵损失，

表示区域内关系模块的交叉熵损失，

表示区域间关系模块的交叉熵损失，

和

为预置损失系数；

，

，

其中，N为图像像素个数，C为场景类别个数，

为

和

之间的KL距离，i和j分别为第i和j列的像素，

为像素类别预测概率，

为像素类别标签；R为图像区域个数，

为预测的区域内类别分布，

为真实的区域内类别分布；

为预测的区域间相似度，

为真实的区域间相似度。

3.如权利要求1所述的基于显式监督区域关系的场景解析模型，其特征在于，所述深度扩张卷积特征提取模块为Dilated-ResNet101网络，该网络包括一个STEM模块和四组残差子网络；STEM模块包括连续三个3×3卷积-批量归一化-ReLU层和一个步长为2的最大池化层，四组残差子网络分别包括3、4、23、3个残差模块；其中，第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积；

4.一种构建场景解析模型的构建方法，其特征在于，包括以下步骤：

步骤1.选择训练数据集；

步骤2.构建如权利要求1~3任一权利要求所述的基于显式监督区域关系的场景解析模型的网络结构；

步骤3. 训练场景解析模型的网络结构，并在训练过程中对区域内关系模块和区域间关系模块增加显式监督，直至模型网络收敛，网络参数固定；

步骤4. 在测试集上验证具有网络结构参数的场景解析模型，得到所需的场景解析模型。

5.如权利要求4所述的构建方法，其特征在于，步骤3中训练网络结构时，区域内关系模块得到的预测的区域内关系，在训练时与真实的区域内类别分布计算损失，在其监督下学习；区域间关系模块得到的预测的区域间关系，在训练时与真实的区域间类别相似度矩阵计算损失，在其监督下学习；两种监督信息直接从场景解析类别标签中计算得出。

6.如权利要求4所述的构建方法，其特征在于，步骤3中网络结构超参数包括：选择梯度下降方法，并设置学习率的更新方式、最大训练迭代次数和损失函数。

7.一种基于显示监督区域关系的场景解析方法，其特征在于，包括以下步骤：

步骤1.采集训练数据集，并对数据集中的训练数据进行图像预处理，生成得到所需场景图像；预处理包括对图像进行归一化处理、多尺度随机放缩、随机翻转；

步骤2.如权利要求4所述的构建方法构建场景解析模型，并基于所需场景图像对场景解析模型进行网络训练，当网络训练满足预设的精度要求时，保存训练好的场景解析模型作为场景解析器；