CN114494284B - 一种基于显式监督区域关系的场景解析模型及方法 - Google Patents
一种基于显式监督区域关系的场景解析模型及方法 Download PDFInfo
- Publication number
- CN114494284B CN114494284B CN202111635864.7A CN202111635864A CN114494284B CN 114494284 B CN114494284 B CN 114494284B CN 202111635864 A CN202111635864 A CN 202111635864A CN 114494284 B CN114494284 B CN 114494284B
- Authority
- CN
- China
- Prior art keywords
- region
- layer
- convolution
- module
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 2
- 230000006798 recombination Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000004438 eyesight Effects 0.000 abstract description 4
- 238000003709 image segmentation Methods 0.000 abstract description 2
- 230000004304 visual acuity Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明的目的在于提供一种基于显式监督区域关系的场景解析模型及方法,属于计算机视觉中的图像分割技术领域。本发明所公开的场景解析模型通过对场景图片中的区域内和区域间关系分别建模,并在网络训练过程中给予两种区域关系对应的显式监督信息,使得区域内关系模块利用了更准确的区域内类别先验信息,提高了困难类别的判别能力;通过区域间关系模块捕捉了更准确的区域间类别相互关系,提高了相似类别的分辨能力,具有解析准确率高、额外计算复杂度低等特点。
Description
技术领域
本发明属于计算机视觉中的图像分割技术领域,具体涉及一种基于显式监督区域关系的场景解析系统及方法。
背景技术
近年来,随着深度学习技术的进步,计算机视觉领域取得了蓬勃的发展,其中场景解析是该领域最具挑战性和代表性的任务之一。场景解析的主要任务是根据给定的输入场景图片,对场景图片中的每个像素赋予相对应的类别标签,实现对该场景的智能解析和深度理解。该任务在机器人导航、自动驾驶、虚拟现实和精准农业等方面有广泛的应用前景,是国内外计算机视觉领域的研究热点。
现有的场景解析方法大多基于全卷积网络(Fully Convolutional Network,FCN)结构,得益于深度卷积神经网络(Convolutional Neural Networks,CNN)强大的分类能力。基于FCN结构的方法在简单场景下的像素分类有很好的效果,但是随着场景类别数量的增加,基于FCN结构的方法很难区分一些相似类别,例如书架和橱柜,导致对复杂场景的解析性能下降。最新的一些研究[1][2]提出了自注意力机制对场景中区域关系建模,试图解决相似类别的解析困难问题。然而,这些方法的区域关系往往缺乏显式的监督信息,通过自注意力机制捕捉到的一些无监督区域间关系可能对网络产生负面影响,使相似类别判断易混淆,场景解析性能下降。此外,现有方法大多关注场景图片中区域间的关系建模,缺少对区域内的关系建模,不利于解决区域内困难类别分类错误问题。
因此,如何解决现有场景解析方法中存在的缺乏对区域内和区域间关系显式监督缺陷的问题,就成为了研究重点。
[1]Zhang,Hang,et al."Context encoding for semantic segmentation."Proceedings of the IEEE conference on Computer Vision and PatternRecognition.2018.
[2]Fu,Jun,et al."Dual attention network for scene segmentation."Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019.
发明内容
针对背景技术所存在的问题,本发明的目的在于提供一种基于显式监督区域关系的场景解析模型及方法。该模型通过对场景图片中的区域内和区域间关系分别建模,并在网络训练过程中给予两种区域关系对应的显式监督信息,提高网络对相似类别和困难类别的分类能力,从而提升场景解析性能。
为实现上述目的,本发明的技术方案如下:
一种基于显式监督区域关系的场景解析模型,包括网络预处理模块,深度扩张卷积特征提取模块,扩张卷积空间池化金字塔模块,初步解析模块,区域内关系模块,区域间关系模块和修正解析模块;
其中,所述网络预处理模块用于对场景图片进行预处理,得到所需场景图像;所述深度扩张卷积特征提取模块用于提取预处理后的场景图像的图像特征;所述扩张卷积空间池化金字塔模块用于对提取的图像特征处理得到多尺度增强的图像特征;
所述初步解析模块依次包括一个3×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层,其中,1x1卷积层的输出维度为数据集场景类别标签数量;多尺度增强的图像特征输入初步解析模块后,即可得到初步场景解析结果;
所述区域内关系模块包括依次连接的一个区域划子分模块和一个区域内关系学习子模块;所述区域划分子模块为一个自适应池化层,区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3×3卷积-批量归一化-ReLU层和一个sigmoid层;所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,然后通过动态卷积层自适应地对不同区域特征进行变换,再通过四个连续的3×3卷积-批量归一化-ReLU层将变换后的区域特征处理得到区域内关系增强特征,通过sigmoid层得到预测的区域内关系;
所述区域间关系模块依次包括区域划分子模块和有监督的Non-Local子模块,其中,区域划分子模块为一个自适应池化层,有监督的Non-Local子模块包括三个1×1卷积层;区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,通过第一个1×1卷积层和第二个1×1卷积层将不同区域的图像特征进行特征变换、再进行维度重组,将这个1x1卷积层维度重整后的结果进行矩阵乘法处理,得到预测的区域间关系,该关系即为区域间类别相似度矩阵,预测的区域间关系与第三个1×1卷积层进行矩阵乘法,得到区域间关系增强特征;
所述修正解析模块包括依次连接的一个3×3卷积-批量归一化-ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层,1x1卷积层的输出维度为数据集场景类别标签数量;修正解析模块通过3×3卷积-批量归一化-ReLU层将区域内关系增强特征和区域间关系增强特征进行特征融合,通过Dropout层和1x1卷积层将融合后的特征进行修正,修正后的结果与初步场景解析结果线性加权得到修正后的解析结果,通过线性插值上采样层将修正后的解析结果上采样到原图分辨率,得到最终场景解析结果。
进一步地,场景解析模型的损失函数设置为:
Ltotal=Lseg+αLIntra+βLInter,
其中,Lseg表示初步解析模块的交叉熵损失,LIntra表示区域内关系模块的交叉熵损失,LInter表示区域间关系模块的交叉熵损失,α和β为预置损失系数;
其中,N为图像像素个数,C为场景类别个数,DKL(mi,ni)为mi和ni之间的KL距离,i和j分别为第i和j列的像素,xi,j为像素类别预测概率,yi为像素类别标签;R为图像区域个数,mi为预测的区域内类别分布,ni为真实的区域内类别分布;qi,j为预测的区域间相似度,pi,j为真实的区域间相似度。
进一步地,所述深度扩张卷积特征提取模块为Dilated-ResNet101网络,该网络包括一个STEM模块和四组残差子网络;STEM模块包括连续三个3×3卷积-批量归一化-ReLU层和一个步长为2的最大池化层,四组残差子网络分别包括3,4,23,3个残差模块;其中,第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积。
所述扩张卷积空间池化金字塔模块包括四个不同尺度的扩张卷积分支,一个全局分支和一个特征融合分支;扩张卷积分支包括一个3×3卷积层、一个批量归一化层和一个ReLU层,四个分支的扩张卷积系数为1、12、24和36,全局分支包括一个全局池化层和一个3×3卷积-批量归一化-ReLU层,特征融合分支包括一个特征级联层和一个3×3卷积-批量归一化-ReLU层。
同时,本发明还公开了一种构建上述场景解析模型的构建方法,其具体包括以下步骤:
步骤1.选择训练数据集;
步骤2.构建基于显式监督区域关系的场景解析模型的网络结构;
步骤3.训练场景解析模型的网络结构,并在训练过程中对区域内关系模块和区域间关系模块增加显式监督,直至模型网络收敛,网络参数固定;
步骤4.在测试集上验证具有网络结构参数的场景解析模型,得到所需的场景解析模型。
进一步地,步骤3中训练网络结构时,区域内关系模块得到的预测的区域内关系,在训练时与真实的区域内类别分布计算损失,在其监督下学习;区域间关系模块得到的预测的区域间关系,在训练时与真实的区域间类别相似度矩阵计算损失,在其监督下学习;两种监督信息直接从场景解析类别标签中计算得出。
进一步地,步骤3中网络结构超参数包括:选择梯度下降方法,并设置学习率的更新方式、最大训练迭代次数、损失函数等。
此外,本发明还公开了基于上述场景解析模型的解析方法,具体包括以下步骤:
步骤1.采集训练数据集,并对数据集中的训练数据进行图像预处理,生成得到所需场景图像;预处理包括对图像进行归一化处理、多尺度随机放缩、随机翻转等;
步骤2.基于所需场景图像对本发明所构建的场景解析模型进行网络训练,当网络训练满足预设的精度要求时,保存训练好的场景解析模型作为场景解析器;
步骤3.将待解析的图像进行图像数据预处理,然后输入步骤2得到的场景解析器,即可得到场景解析图像结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明所公开的场景解析模型通过区域内关系模块利用了更准确的区域内类别先验信息,提高了困难类别的判别能力;通过区域间关系模块捕捉了更准确的区域间类别相互关系,提高了相似类别的分辨能力,具有解析准确率高、额外计算复杂度低等特点。该模型相比现有场景解析方法,在复杂场景中更具性能优势。
附图说明
图1为本发明场景解析模型处理流程示意图。
图2为本发明场景解析模型中区域间关系模块示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
为充分利用场景区域间信息和区域内信息,更加准确地完成场景解析,本发明提出了一种基于显式监督区域关系的场景解析模型及方法。下面结合具体实例,对本发明进行详细且完整的说明。
如图1所示,本发明基于显式监督区域关系的场景解析模型具体包括:网络预处理模块,深度扩张卷积特征提取模块,扩张卷积空间池化金字塔模块,初步解析模块,区域内关系模块,区域间关系模块和修正解析模块。
一种构建上述场景解析模型的构建方法,其具体包括以下步骤:
步骤1.选择训练数据集。本发明选取的训练数据集为ADE20k或Pascal-Context;
其中,ADE20k数据集包括20210张训练集图像和2000张验证集图像,共有150种场景类别标签;Pascal-Context数据集包括4998张训练集图像和6105张测试集图像,共有60种场景类别标签,包括59种前景目标类别和一个背景类别。
步骤2.构建基于显式监督区域关系的场景解析模型,具体包括:网络预处理模块,深度扩张卷积特征提取模块,扩张卷积空间池化金字塔模块,初步解析模块,区域内关系模块,区域间关系模块和修正解析模块。
网络预处理模块用于对场景图片进行预处理,得到所需场景图像;预处理包括对图像进行减均值除方差操作、随机水平翻转、图像放缩裁剪和填充,得到固定尺寸为512x512的场景图像。
深度扩张卷积特征提取模块为Dilated-ResNet101网络,该网络包括一个STEM模块和四组残差子网络;STEM模块包括连续三个3×3卷积-批量归一化-ReLU层和一个步长为2的最大池化层;四组残差子网络分别包括3,4,23,3个残差模块;其中,第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积。该模块输入预处理图像,输出提取到的图像特征。
扩张卷积空间池化金字塔模块包括四个不同尺度的扩张卷积分支,一个全局分支和一个特征融合分支;扩张卷积分支包括一个3×3卷积层、一个批量归一化层和一个ReLU层,四个分支的扩张卷积系数为1,12,24和36,全局分支包括一个全局池化层和一个3×3卷积-批量归一化-ReLU层,特征融合分支包括一个特征级联层和一个3×3卷积-批量归一化-ReLU层。该模块能对图像特征进行多尺度信息增强。
初步解析模块依次包括一个3×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层,其中,1x1卷积层的输出维度为数据集场景类别标签数量;该模块输入多尺度信息增强后的特征,输出初步场景解析结果。
区域内关系模块依次包括区域划分子模块、一个自适应池化层、一个动态卷积层、四个连续的3×3卷积-批量归一化-ReLU层和一个sigmoid层;多尺度增强的图像特征首先输入区域划分模块,通过一个自适应池化层将图像特征划分成kxk个区域,接着输入一个动态卷积层,自适应地针对不同输入图像对区域特征进行变换,再输入四个连续的3×3卷积-批量归一化-ReLU层得到更具判别性的区域内关系增强特征,最后输入一个sigmoid层得到预测的区域内关系,该关系即为区域内的类别分布。
区域间关系模块的结构示意图如图2所示,依次包括区域划分子模块和有监督的Non-Local子模块,其中,区域划分子模块为一个自适应池化层,有监督的Non-Local子模块包括三个1×1卷积层;多尺度增强的图像特征首先输入区域划分子模块,通过一个自适应池化层将图像特征划分成kxk个区域,再输入一个有监督的Non-Local子模块,前两个1x1卷积层变换后的特征进行维度重整后再由矩阵乘法得到预测的区域间关系,该关系即为区域间类别相似度矩阵,该关系矩阵再与最后一个1×1卷积层进行矩阵乘法,得到更具判别性的区域间关系增强特征。
修正解析模块依次包括一个3×3卷积-批量归一化-ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层,1x1卷积层的输出维度为数据集场景类别标签数量;修正解析模块的输入为区域内关系增强特征,区域间关系增强特征和初步解析结果。首先将区域内关系增强特征和区域间关系增强特征输入一个3×3卷积-批量归一化-ReLU层进行特征融合,再输入一个Dropout层和一个1x1卷积层得到修正结果,该结果和初步解析结果线性加权,得到修正后更加精细化的场景解析结果,最后输入一个线性插值上采样层将解析结果上采样到原图分辨率,得到最终场景解析结果。
步骤3.训练场景解析模型的网络结构,并在训练过程中对区域内关系模块和区域间关系模块增加显式监督,直至模型网络收敛,网络参数固定。本发明选取随机梯度下降法更新网络参数,初始学习率设置为0.004,采用Poly策略更新学习率,训练总迭代次数设置为180个epoch,训练输入的批大小(Batch Size)为16;初步解析模块中Dropout层和修正解析模块中的Dropout层参数设置为0.1;
场景解析模型的损失函数设置为:
Ltotal=Lseg+αLIntra+βLInter,
其中,Lseg表示初步解析模块的交叉熵损失,LIntra表示区域内关系模块的交叉熵损失,LInter表示区域间关系模块的交叉熵损失,α和β为预置损失系数,α=0.5,β=3.0;
其中,N为图像像素个数,C为场景类别个数,DKL(mi,ni)为mi和ni之间的KL距离,i和j分别为第i和j列的像素,xi,j为像素类别预测概率,yi为像素类别标签;R为图像区域个数,mi为预测的区域内类别分布,ni为真实的区域内类别分布;qi,j为预测的区域间相似度,pi,j为真实的区域间相似度。
区域内关系模块在训练过程中,用从场景解析类别标签中计算出的区域内类别真实分布作监督,通过损失约束让网络学习预测测试图片的区域内类别分布,测试过程中作为网络预测场景解析结果的先验信息,强网络对区域内困难类别的判别能力。
区域间关系模块网络通过学习预测区域间类别相似度矩阵,可以有效增强场景不同类别间的特征差异性,提高网络对相似类别的判别能力。训练过程中,该模块的监督信息区域间类别相似度矩阵可直接从场景解析类别标签中计算得出,区域间类别相似度矩阵预测结果用二值化交叉熵损失进行约束。
步骤4.在测试集上验证具有网络结构参数的场景解析模型,得到所需的场景解析模型。
本发明基于显式监督区域关系的场景解析方法与现有的几种常规场景解析方法的对比结果如表1所示。从表中可以看出,在两个常用场景解析数据集ADE20k和Pascal-Contex上,本发明的场景解析模型解析性能分别达到了46.9%和54.9%的平均交并比(mIoU),优于现有缺乏显式区域关系监督的其他场景解析模型。本发明具有准确率更高的场景解析结果。
表1
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (7)
1.一种基于显式监督区域关系的场景解析模型,其特征在于,包括网络预处理模块、深度扩张卷积特征提取模块、扩张卷积空间池化金字塔模块、初步解析模块、区域内关系模块、区域间关系模块和修正解析模块;
其中,所述网络预处理模块用于对场景图片进行预处理,得到所需场景图像;所述深度扩张卷积特征提取模块用于提取预处理后的场景图像的图像特征;所述扩张卷积空间池化金字塔模块用于对提取的图像特征处理得到多尺度增强的图像特征;
所述初步解析模块包括依次连接的一个3×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层,其中,1x1卷积层的输出维度为数据集场景类别标签数量;多尺度增强的图像特征输入初步解析模块后,即可得到初步场景解析结果;
所述区域内关系模块包括依次连接的一个区域划分子模块和一个区域内关系学习子模块;所述区域划分子模块为一个自适应池化层,区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3×3卷积-批量归一化-ReLU层和一个sigmoid层;所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,然后通过动态卷积层自适应地对不同区域特征进行变换,再通过四个连续的3×3卷积-批量归一化-ReLU层将变换后的区域特征处理得到区域内关系增强特征,通过sigmoid层得到预测的区域内关系;
所述区域间关系模块包括依次连接的区域划分子模块和有监督的Non-Local子模块,其中,区域划分子模块为一个自适应池化层,有监督的Non-Local子模块包括三个1×1卷积层;区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,通过第一个1×1卷积层和第二个1×1卷积层将不同区域的图像特征进行特征变换、再进行维度重组,将这个1x1卷积层维度重整后的结果进行矩阵乘法处理,得到预测的区域间关系,预测的区域间关系与第三个1×1卷积层进行矩阵乘法,得到区域间关系增强特征;
所述修正解析模块包括依次连接的一个3×3卷积-批量归一化-ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层,1x1卷积层的输出维度为数据集场景类别标签数量;修正解析模块通过3×3卷积-批量归一化-ReLU层将区域内关系增强特征和区域间关系增强特征进行特征融合,通过Dropout层和1x1卷积层将融合后的特征进行修正,修正后的结果与初步场景解析结果线性加权得到修正后的解析结果,通过线性插值上采样层将修正后的解析结果上采样到原图分辨率,得到最终场景解析结果。
3.如权利要求1所述的基于显式监督区域关系的场景解析模型,其特征在于,所述深度扩张卷积特征提取模块为Dilated-ResNet101网络,该网络包括一个STEM模块和四组残差子网络;STEM模块包括连续三个3×3卷积-批量归一化-ReLU层和一个步长为2的最大池化层,四组残差子网络分别包括3、4、23、3个残差模块;其中,第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积;
所述扩张卷积空间池化金字塔模块包括四个不同尺度的扩张卷积分支,一个全局分支和一个特征融合分支;扩张卷积分支包括一个3×3卷积层、一个批量归一化层和一个ReLU层,四个分支的扩张卷积系数为1、12、24和36,全局分支包括一个全局池化层和一个3×3卷积-批量归一化-ReLU层,特征融合分支包括一个特征级联层和一个3×3卷积-批量归一化-ReLU层。
4.一种构建场景解析模型的构建方法,其特征在于,包括以下步骤:
步骤1.选择训练数据集;
步骤2.构建如权利要求1~3任一权利要求所述的基于显式监督区域关系的场景解析模型的网络结构;
步骤3. 训练场景解析模型的网络结构,并在训练过程中对区域内关系模块和区域间关系模块增加显式监督,直至模型网络收敛,网络参数固定;
步骤4. 在测试集上验证具有网络结构参数的场景解析模型,得到所需的场景解析模型。
5.如权利要求4所述的构建方法,其特征在于,步骤3中训练网络结构时,区域内关系模块得到的预测的区域内关系,在训练时与真实的区域内类别分布计算损失,在其监督下学习;区域间关系模块得到的预测的区域间关系,在训练时与真实的区域间类别相似度矩阵计算损失,在其监督下学习;两种监督信息直接从场景解析类别标签中计算得出。
6.如权利要求4所述的构建方法,其特征在于,步骤3中网络结构超参数包括:选择梯度下降方法,并设置学习率的更新方式、最大训练迭代次数和损失函数。
7.一种基于显示监督区域关系的场景解析方法,其特征在于,包括以下步骤:
步骤1.采集训练数据集,并对数据集中的训练数据进行图像预处理,生成得到所需场景图像;预处理包括对图像进行归一化处理、多尺度随机放缩、随机翻转;
步骤2.如权利要求4所述的构建方法构建场景解析模型,并基于所需场景图像对场景解析模型进行网络训练,当网络训练满足预设的精度要求时,保存训练好的场景解析模型作为场景解析器;
步骤3.将待解析的图像进行图像数据预处理,然后输入步骤2得到的场景解析器,即可得到场景解析图像结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111635864.7A CN114494284B (zh) | 2021-12-29 | 2021-12-29 | 一种基于显式监督区域关系的场景解析模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111635864.7A CN114494284B (zh) | 2021-12-29 | 2021-12-29 | 一种基于显式监督区域关系的场景解析模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494284A CN114494284A (zh) | 2022-05-13 |
CN114494284B true CN114494284B (zh) | 2023-04-18 |
Family
ID=81507834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111635864.7A Active CN114494284B (zh) | 2021-12-29 | 2021-12-29 | 一种基于显式监督区域关系的场景解析模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494284B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423020B (zh) * | 2023-12-19 | 2024-02-27 | 临沂大学 | 一种检测无人机小目标的动态特征和上下文增强方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062441A (zh) * | 2019-12-18 | 2020-04-24 | 武汉大学 | 基于自监督机制和区域建议网络的场景分类方法及装置 |
CN113160246A (zh) * | 2021-04-14 | 2021-07-23 | 中国科学院光电技术研究所 | 一种基于深度监督的图像语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023516674A (ja) * | 2020-03-04 | 2023-04-20 | マジック リープ, インコーポレイテッド | 屋内場面の3d走査からの効率的間取図生成のためのシステムおよび方法 |
-
2021
- 2021-12-29 CN CN202111635864.7A patent/CN114494284B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062441A (zh) * | 2019-12-18 | 2020-04-24 | 武汉大学 | 基于自监督机制和区域建议网络的场景分类方法及装置 |
CN113160246A (zh) * | 2021-04-14 | 2021-07-23 | 中国科学院光电技术研究所 | 一种基于深度监督的图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
Qingbo Wu 等.Subjective and Objective De-Raining Quality Assessment Towards Authentic Rain Image.IEEE Transactions on Circuits and Systems for Video Technology.2020,全文. * |
张晋."基于局部感知的场景图像识别 ".中国优秀硕士学位论文全文数据库 (信息科技辑).2020,I138-1442. * |
曹玉红 等.基于深度学习的医学影像分割研究综述 .计算机应用.2021,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114494284A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN113313164B (zh) | 一种基于超像素分割与图卷积的数字病理图像分类方法及系统 | |
CN111626300A (zh) | 基于上下文感知的图像语义分割模型及建模方法 | |
CN113807355A (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN112329780B (zh) | 一种基于深度学习的深度图像语义分割方法 | |
CN113362242B (zh) | 基于多特征融合网络的图像修复方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN117557779A (zh) | 一种基于yolo的多尺度目标检测方法 | |
CN115545166A (zh) | 一种改进的ConvNeXt卷积神经网络及其遥感图像的分类方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN113870160A (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN117975002A (zh) | 一种基于多尺度伪标签融合的弱监督图像分割方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN118212415A (zh) | 一种基于混合卷积和多尺度注意力门的图像分割方法 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |