CN111563909B

CN111563909B - 一种复杂街景图像语义分割方法

Info

Publication number: CN111563909B
Application number: CN202010389518.4A
Authority: CN
Inventors: 张丹; 刘京; 余义德; 孙杰; 王红萍; 时光; 张志伟; 裴立冠
Original assignee: Unite 91550 Of Pla
Current assignee: Unite 91550 Of Pla
Priority date: 2020-05-10
Filing date: 2020-05-10
Publication date: 2023-05-05
Anticipated expiration: 2040-05-10
Also published as: CN111563909A

Abstract

一种复杂街景图像语义分割方法。本发明基于深度学习方法在包含图像语义分割的计算机视觉领域的成功应用，提出一种采用全局卷积神经网络进行复杂街景图像语义分割的新方法，旨在有效解决在复杂街景图像分割过程中，出现的欠分割和过分割问题，显著提升图像分割的精度和速度。具体主要包括信息输入、编码器、解码器和信息输出四阶段方法流程。编码模块中主要包括DCNN部分和R‑ASPP部分，解码模块中主要包括AT‑Decoder部分。DCNN可以有效提取到包含位置信息的低级特征，R‑ASPP可以最大程度上提取到包含几何和纹理信息的高级语义特征，AT‑Decoder可以有效融合低级细节特征和高级语义特征。

Description

一种复杂街景图像语义分割方法

技术领域

本发明属于计算机视觉技术和数字图像处理技术领域，具体涉及一种复杂街景图像语义分割的方法。

背景技术

图像语义分割是图像理解的基础性技术，目前已被应用于真三维显示、无人驾驶以及辅助医疗等领域，也是计算机视觉方向中的研究热点之一。其主要任务是将图像中的每一个像素点进行分类，确定每个点的类别，从而进行区域划分，标注出图像中每个像素所属的对象类别。当前深度学习理论已被广泛应用于该领域，尤其是该理论中的卷积神经网络(Convolutional Neural Network，CNN)方法，已被众多研究者成功用于多种语义分割神经网络模型的构建中。

专利【申请号：CN109101975A】公开了一种采用全卷积神经网络处理图像语义分割问题的方法。主要特征为：前端网络基于细节保留池化层将每个块输出的特征图降采样成统一大小，并对四个输出特征图进行串联处理，进一步应用特征重校正模块对特征图进行重新校正后，传入后端网络；后端网络在经过对主要负责图像采样后，经过一个变权重的全局池化，最后与训练数据集的语义标注图像计算交叉熵，进行误差反向传播。

专利【申请号：CN110263833A】公开了一种基于编码-解码结构的图像语义分割方法。该方法是针对网络中的多层最大池化和下采样操作时容易导致特征图分辨率和空间信息损失问题提出的。通过对网络中获取的深层信息和浅层的空间信息进行有效融合，利用一个多核卷积块对融合后的特征图进行细化，最终，通过数据依赖的逐步上采样操作得到分割结果。

专利【申请号：CN110782462AFu】公开了一种通过双流特征融合进行语义分割的方法。为精确得到图像语义分割结果，该方法在训练阶段的卷积神经网络包含输入层、隐藏层和输出层三层结构，并且在隐藏层中构建了RGB图处理模块、深度图处理模块、融合模块和第一个反卷积层；当将原始图像输入到该网络中执行训练操作时，可获取相应的语义分割预测图；建立损失函数，用于定量化原始图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像构成的集合之间的损失值，并基于此获取卷积神经网络分类训练模型所需要的最优权值矢量和偏置项。

专利【申请号：CN110245665A】公开了一种基于注意力机制的图像语义分割方法。为有效提取图像特征，该专利将深度卷积神经网络应用于选取语义分割网络的主干网络。构建改进的注意力机制计算模块，将其与主干网络串联。采取位置注意力模块，通过数据训练提取数据特征之间的依赖性关系，并设计通道注意力模块来模拟通道相互依赖性。该专利通过在局部特征上建模丰富的上下文依赖关系，显著改善了分割结果。

专利【申请号：CN110210485A】公开了一种基于注意力机制指导特征融合的图像语义分割方法，网络采用编码-解码结构。其中，编码器使用改进后的ResNet-101生成一系列由高分辨率低语义到低分辨率高语义变化的特征；解码器采用基于三层卷积操作的金字塔结构模块，提取强一致性约束的高层语义，再向低层阶段特征逐层加权融合，得到初步分割热图；此外，该专利向解码阶段的每个融合输出追加辅助监督，再与热图上采样后的主监督损失叠加，强化模型的分层训练，最终得到语义分割图像。

由此可见，基于深度学习理论构建的图像语义分割方法，能够有效的应用于分割任务中，但由于分割场景复杂多样，当前提出的方法尚不能达到全场景高精度效果，仍然存在由于受周围环境的影响，图像中所属一类物体像素值差异过大，以及图像中不同类别之间的像素值差异过小，将不同类别的物体分割成同一类别物体等原因，造成现有分割方法进行复杂街景图像的分割时容易出现几何特征缺失、纹理特征不明显等问题，因此有必要对深度学习理论在图像语义分割领域中的应用做进一步探索，以有效拓展其适用领域，提高其分割精度。

发明内容

本发明目的是解决现有分割方法进行复杂街景图像的分割时容易出现几何特征缺失、纹理特征不明显而影响图像分割的问题，提供一种复杂街景图像语义分割的方法。

本发明基于深度学习方法在包含图像语义分割的计算机视觉领域的成功应用，提出一种采用全局卷积神经网络进行复杂街景图像语义分割的新方法，旨在有效解决在复杂街景图像分割过程中，出现的欠分割和过分割问题，显著提升图像分割的精度和速度。

本发明的技术方案

一种复杂街景图像语义分割方法，本发明的具体方法流程主要包括信息输入、编码器、解码器和信息输出。网络整体为编码-解码框架，其中编码模块中主要包括DCNN部分和R-ASPP部分，解码模块中主要包括AT-Decoder部分；该方法主要包括：

第1步、获得待处理图像；

第2步、采用DCNN提取到包含位置信息的低级特征；

第3步、采用R-ASPP方法最大程度上提取到图像的包含高级语义几何和纹理信息；

第4步、采用AT-Decoder模块不同网络结构各部分的特征进行处理和融合，可以有效融合低级细节特征和高级语义特征；

第5步、最后需要双线性插值上采样操作得到最终的分割结果图像(进行4倍上采样还原为原输入图像大小)。

进一步，在第3步操作中，考虑多尺度图像特征可以包含更多的特征信息，将第2步操作得到的DCNN输出图像特征经空间金字塔池化模块转换为五个分支。并且将除全局池化分支外的其余分支经过3×3的普通卷积进一步学习特征图中重要的内容信息，此外，采用跳远连接的方式将R-ASPP的原始输入传递到此处与之前由进一步3×3普通卷积获取到的图像特征进行融合，将五个分支的输出按照通道维度拼接起来作为R-ASPP部分的输出。

进一步，在第4步操作中，采用AT-Decoder模块的DF分支、DC分支和DD分支三种不同网络结构对各部分的特征分别进行处理，最后将各分支得到的结果依次在通道维度上融合；首先，将DF分支的输出与DC分支的输出进行相乘运算得到B2，之后，将B2与DC分支的输出进行相加运算，得到特征图B3，最后使用3×3卷积对融合后的特征图进一步学习特征，得到特征图B4。

其中，采用DF分支处理DCNN学到的包含细节信息在内的低层级特征，设计一个简单的空间注意力模型，使用3×3卷积操作进一步学习主要特征，并采用softmax函数对于特征进行分类。采用DC分支对DCNN的输出特征图和R-ASPP的输出特征图在通道维度的拼接，使用3×3卷积直接提取包含准确位置信息和完整几何、纹理信息特征。采用DD分支对编码器模块输出的高层语义特征进行处理，包括设计基于通道的注意力模块关注特征图通道之间的关系，所述注意力模块由两个子分支构成，分别为最大池化和平均池化子分支；随后，加入全连接层，对于各通道之间的特征图进行融合；最后，将最大池化和平均池化两个子分支得到的结果特征图进行融合，以得到包含更多图像信息的通道特征。

进一步，采用双线性插值上采样操作，在保留更多图像特征内容的同时，将图像还原为原图像分辨率大小，得到最终的分割结果图像B5。

本发明的优点和有益效果：

本发明可以在复杂的街景分割任务中实现较高精度的分割结果，尤其在存在不同光照强度以及类别多样性现象的图像中，总体分割表现优异。在真三维显示、无人驾驶和辅助医疗等领域都有着广泛的应用。

附图说明

图1整体网络示意图。

图2空洞卷积出现的网格效应。

图3 R-ASPP模块结构。

图4 AT-Decoder模块结构，(a)为AT-Decoder的总体结构，(b)为基于高级语义特征的通道注意力模块(Channel Attention)结构。

图5实验采用的两种场景图像示例,(a)为白天场景图像，(b)为黄昏场景图像。

图6在Camvid测试集中的可视化分割结果对比；(a)组为过分割效果示意图；(b)组欠分割效果示意图；且两组图像都按从左至右的顺序，第一列表示为原图像，第二列为真值，第三列图像为ENet方法得到的分割结果图，第四列为SegNet得到的分割结果图，第五列为Deeplabv3-plus方法得到的分割结果图，第六列为本发明的分割结果图。

图7在Cityscapes测试集中的可视化分割结果对比；(a)组为过分割效果示意图；(b)组为欠分割效果示意图；且两组图像都按从左至右的顺序，第一列表示为原图像，第二列为真值，第三列为PSPNet方法得到的分割结果图，第四列为Deeplabv3-plus方法得到的分割结果图，第五列为本发明的分割结果图。

图8发明实施流程图。

具体实施方式

以下结合附图在具体实施方式中详细叙述本发明的详细特征以及优点，其内容足以使本领域技术人员了解本发明的技术内容并据以实施，图1展示了本发明整体网络结构，本发明的方法流程如图8所示。

本发明提供的复杂街景图像语义分割的方法，具体操作步骤如下：

步骤101、获得彩色的待处理图像。

本发明的实验数据均为复杂街道场景图像，涵盖不同的时间以及不同的天气情况，其由一个安装在汽车仪表盘上的摄相机拍摄而来。

步骤201、DCNN深度卷积神经网络获取图像低级特征。

本发明采用65层的Xception网络作为深度卷积神经网络，用以获取包含更多细节信息的图像低层级特征。

步骤301、R-ASPP模块获取图像足够的高级语义几何和纹理信息。

根据图像语义分割网络思想，输出图像与输入图像在大小上保持一致，通过网络中的池化操作可以达到感受野增大的效果，但同时会衍生出图像分辨率降低的弊端。研究者进一步研究出空洞卷积来避免该弊端，但所产生的新问题为网格效应，如图2所示。该效应也是当前基于像素级进行语义分割任务的一大难点。Goolge团队针对上述网格效应，提出采取Deeplabv3+方法中ASPP模块解决。ASPP在特征顶部到底部映射过程中包含五个分支，其中包括四种不同采样率的空洞卷积，和一个全局平均池化分支。不同采样率的空洞卷积可以有效捕获多尺度信息，并利用全局平均池化获取全局信息。通常，图像语义分割网络的编码器端能够得到图像几何和纹理等高级语义信息，从而为后续进行精确图像分割操作提供有效帮助。因此，在网络的初始端输入一张待分割图像，并使用DCNN有效提取到包含位置信息的图像低级特征。此外，为达到高级语义几何和纹理信息最大化效果，本发明针对ASPP模块提出R-ASPP方法，基本原理为在除全局平均池化分支外的四个空洞卷积分支设置残差块，其由普通的3×3卷积和跳远连接构成，具体如图3所示。R-ASPP模块的基本计算过程组成如下：输入为DCNN模块输出结果，其中D_fm，fm₁₁、fm₂₁、fm₃₁、fm₄₁、fm₅₁为五个分支经过第一次卷积得到的特征图；之后，将除全局池化分支外的其余分支经过3×3的普通卷积进一步学习特征图中重要的内容信息得到fm₁₂、fm₂₂、fm₃₂、fm₄₂，为使R-ASPP的原始输入传递到此处与获取到的更深层次特征得到有效融合，采用跳远连接方式，得到各分支特征图的输出fm₁、fm₂、fm₃、fm₄、fm₅。令n表示每个分支，n的取值范围为{1,…4}，则除全局平均池化外的各分支输出可表示为：

fm_n＝fm_n2+D_fm

最后，将五个分支的输出按照通道维度拼接起来，令Fa为R-ASPP部分的输出，则Fa满足公式：

F_a＝fm₁+fm₂+fm₃+fm₄+fm₅

以此来融合各个分支中所获取到的图像特征，为解码器提供包含丰富高级语义信息的输入。

步骤401、AT-Decoder模块将不同网络结构各部分的特征进行处理和融合。

AT-Decoder模块主要包含DF、DC和DD分支三部分，分别对应网络解码器中的DCNN部分的输出DF_a、R-ASPP模块的输出DD_fm以及二者在通道维度上的拼接特征DC₁。AT-Decoder的具体网络结构如图4中所示，图(a)为AT-Decoder的总体结构，其中基于高级语义特征的通道注意力模块(Channel Attention)结构如图4(b)所示。易见，在每个分支中采用不同的网络结构对每部分的特征进行处理，之后再进行融合。网络最后采用双线性插值将图像还原为原图像分辨率，从而得到最终的分割结果。

步骤401-1、DF分支处理。

如图4(a)中所示，AT-Decoder中第一个分支DF的输入为DCNN学到的包含细节信息在内的低层级特征DF_a。在卷积神经网络中，由卷积层获取到的低层级特征中虽然包含图像的边缘和细节信息，但也存在着大量的背景信息，这些背景信息对于分割网络的性能会造成干扰。因此，为保留更多有效的图像信息特征，在该分支中设计了一个简单的空间注意力模型，其中使用3×3卷积操作进一步学习主要特征，并采用softmax函数对于特征进行分类，从而突出重要的细节位置特征，该分支的输出为DF₂。

步骤401-2、DC分支处理。

如图4(a)中所示，AT-Decoder中第二个分支DC的输入为解码器DCNN的输出特征图DF_a和R-ASPP的输出特征图DD_fm在通道维度的拼接，该分支考虑如何有效融合低层细节信息和高层语义信息。为了不损失在网络中学习到的图像特征，在两者通道维度拼接的基础上，使用3×3卷积直接提取包含准确位置信息和完整几何、纹理信息特征，为得到精确分割结果提供有效帮助，该分支的输出为DC₂。

步骤401-3、DD分支处理。

如图4(a)中所示，AT-Decoder中第三个分支DD的输入为编码器模块的输出，即高层语义特征DD_fm。DD_fm中包含了更多的通道维度，为了保留更多的语义信息，首先在该分支中设计了基于通道的注意力模块，目的在于关注特征图通道之间的关系，具体结构如图4中(b)所示。该模块由两个子分支构成，分别为最大池化和平均池化分支。平均池化可以通过全局描述特征，对特征图中的每一个像素点都有反馈，而最大池化在进行梯度反向传播计算时，只有特征图中响应最大的像素点有梯度的反馈，从而可以作为一个补充，平均池化后的特征为DD_fm1，最大池化后的特征为DD_fm3，公式可以表示为：

其中，H×W表示输入待处理特征图的大小，(i，j)表示第i行第j列的像素，i的取值为{1,…H}，j的取值范围为{1,…W}。随后，在最大池化和平均池化层后边分别加入全连接层，对于各通道之间的特征图进行融合，分别得到DD_fm2和DD_fm4。最后，两个子分支进行融合，从而得到包含更多图像信息的通道特征，即通道注意力模块的输出DD₁：

DD₁＝w₁DD_fm1+w₂DD_fm3

其中，wDD_fm表示全连接。

在DD分支中，得到包含更多通道特征信息的DD₁之后，采用softmax函数对其进行分类，以得到众多信息中最重要的特征信息DD₂，为得到最终精确的分割结果提供帮助。

步骤401-4、特征融合。

在AT-Decoder中的三个分支都进行特征增强之后，下一步将考虑如何更好的融合这些信息，从而使融合后的特征既包含足够多的低层级细节信息，又包含足够丰富的高层级语义信息。因此，在该模块中，采用逐步融合的方式将三个分支进行融合，如图4(a)中最右列所示。首先，将DF分支的输出DF₂与DC分支的输出DC₂进行相乘运算，得到同时包含低层级和高层级信息在内的特征图B1：

B₁＝DF₂×DC₂

将B₁与DD分支的输出DD₂进行相乘运算，进一步融合高层级和低层级信息，得到特征图B₂：

B₂＝B₁×DD₂

之后，将B₂与DC分支的输出进行相加运算，得到特征图B3，至此，三个分支的特征图已充分融合，得到融合后的特征图B₃。

B₃＝B₂+B₁

最后使用3×3卷积对融合后的特征图进一步学习特征，得到特征图B₄。此时，特征图B₄中包含着大量的图像特征信息。

步骤501、双线性插值上采样处理。

在充分融合网络中的低层级细节特征信息以及高层级的语义信息之后，要将所获取图像特征上采样到与原输入图像同样的尺寸。通常，在卷积神经网络中，上采样的方式有双线性插值、反卷积和反池化。双线性插值方法指在有两个变量的函数基础上，分别在两个方向进行线性插值，在图像领域被广泛使用。反卷积也被称为转置卷积，其可以被理解为一个特殊的卷积方式，首先按照一定的比例以补0的方式扩大图像尺寸，然后将卷积核进行旋转，再进行与正向卷积相同的操作。而反池化的上采样方式通常指的是最大池化的逆操作，在特征图中进行最大池化后保留池化区域中最大值的位置。随后，反池化将利用最大值信息，如果在图像中该位置不存在最大值信息，则全部补0，以扩充特征图，达到上采样的目的，其对于图像特征中主要内容的恢复仍存在着信息损失问题。

本发明分析了三种上采样方法后，在网络中采用双线性插值的方式。由于网络中融合低层和高层信息之后的输出B4尺寸为原输入图像的1/4，故需要双线性插值上采样操作，在保留更多图像特征内容的同时，将图像还原为原图像分辨率大小，得到最终的分割结果图像B5。

本发明的具体训练细节为采用公开的街景数据为基础实验数据，主要包含Camvid数据集和Cityscapes数据集两类。Camvid数据集由剑桥大学标注，具体主要包含道路、建筑物、汽车、行人等11个类别在内的600张图像，在此设置其中367张为训练图像，设置另外233张为测试图像。同时为保证对本发明检验的有效性，有意选取白天和黄昏两种场景下拍摄的图像，如图5中所示。Cityscapes数据集在2015年由奔驰公司推动发布，是目前公认的计算机视觉领域内最具权威性和专业性的图像语义分割评测数据集之一。Cityscapes关注于真实场景下的城区道路环境理解，任务难度更高且更适合于评估视觉算法在复杂街景语义理解方面的性能。Cityscapes数据集包含50个城市不同场景、不同背景、不同季节的街景，其提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。Cityscapes数据集共有fine和coarse两套评测标准，前者提供5000张精细标注的图像，后者提供5000张精细标注外加20000张粗糙标注的图像，该专利中采用fine评测标准。

语义分割中的最重要的评价指标为平均交并比(Mean Intersection OverUnion，MIoU)，其通过计算真实值(Ground Truth，GT)与预测分割结果之间的交并比对本发明的网络模型进行评估。交并比IoU基于每个类别计算，所有类别的IoU求均值即为MIoU，公式如下：

其中，k表示类别数量，m表示真实值，q表示预测值，p_mq表示将m预测为q。

为验证本发明提出的复杂街景图像语义分割方法的有效性，分别以Camvid数据集、Cityscapes数据集为基础，将本方法与其他方法进行实际计算分析，并比较分析结果。

1.Camvid数据集对比分析

以Camvid数据集为基础的对比分析结果如下表1所示，从表1中可以看到本发明较其他方法Deeplabv3+精度提高1.2％。

表1

2.Cityscapes数据集对比分析

以下表2为以Cityscapes数据集为基础的方法对比分析结果，从表2中数据可以看出，本发明方法对比于当前主流方法Deeplabv3+精度提高1.3％。

表2

3.Camvid数据集可视化对比分析

如图6所示，展示了两组在Camvid复杂街景图像中的分割结果。第一列为Camvid测试数据中的原图，第二列为Ground Truth，第三列为ENet方法得到的结果图，第四列为SegNet得到的分割结果图，第五列为Deeplabv3+方法得到的分割结果图，最后一列为本发明的分割结果图。为了便于观察，图中分别加入了红色、黄色和白色框表示在该位置对比于本发明的分割效果有明显改善。(a)组分割图像为过分割效果示意图。其中，每个图像中颜色框中物体本所属一类或多类物体，但由于物体本身的像素值与周围物体的像素值差异过大，出现过分割为两类或多类物体的现象。比如第一张图像中红色框的行人，和黄色框中的建筑物等，都出现了多分、错分现象；(b)组分割图像为欠分割效果示意图。其中，每个图像中的颜色框内物体由于与周围物体的像素值差异过小，将不同类别的物体欠分割成同一类别物体，造成少分现象。比如(b)组第一张图中的红色框所示的建筑物，以及黄色框所示的车辆等，都出现了少分、错分现象。从图6可视化结果中可看出，本发明针对复杂街景图像分割过程中出现的欠分割和过分割问题有明显改善。

4.Cityscapes数据集可视化对比分析

如图7所示，第一列为Cityscapes测试数据中的原图，第二列为Ground Truth，第三列为PSPNet方法得到的分割结果图，第四列为Deeplabv3+方法得到的分割结果图，第五列为本发明得到的分割结果图，其中红色和白色框中为明显改进部分。图7中(a)组图像展示的是过分割结果，每个图像中的白色框内物体如遮挡在建筑物前的树木、汽车旁边的垃圾桶等，所分割物体受周围环境的影响，其与周围物体的像素值差异较大，造成过分割现象；(b)组图像展示的为欠分割结果，如第一张图像中白色框内的路灯和第二章图像中白色框内的标志牌等，在整副的街景图像中，路灯在图像中为远景物体，离天空较近，在分割过程中极易被忽略。类似地，由于路边标志牌和杆之间像素值差异较小，因此易导致少分、欠分。图7中可视化结果表明本发明对改善欠分割和过分割问题有显著作用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此。任何采用全局卷积神经网络进行复杂街景图像语义分割的新方法，均应属于本发明所阐明的技术构思的保护范围，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，或者与现有公知技术的显而易见的结合，都应涵盖在本发明的保护范围之内。

Claims

1.一种复杂街景图像语义分割方法，包括：

第1步、获得待处理图像；

第2步、采用DCNN提取包含位置信息的低级特征；

第3步、采用R-ASPP方法，获取图像足够的高级语义几何和纹理信息；具体操作包括：

考虑多尺度图像特征可以包含更多的特征信息，将第2步操作得到的DCNN输出图像特征经空间金字塔池化模块转换为五个分支；将除全局池化分支外的其余分支经过3×3的普通卷积进一步学习特征图中重要的内容信息，并且采用跳远连接的方式将R-ASPP的原始输入传递到此处与由进一步3×3的普通卷积获取到的图像特征进行融合，将五个分支的输出按照通道维度拼接起来作为R-ASPP部分的输出；

第4步、采用AT-Decoder模块将不同网络结构各部分的特征进行处理和融合；具体操作包括：

采用AT-Decoder模块的DF分支、DC分支和DD分支三种不同网络结构对各部分的特征分别进行处理，最后将各分支得到的结果依次在通道维度上融合；首先，将DF分支的输出与DC分支的输出进行相乘运算得到B2，之后，将B2与DC分支的输出进行相加运算，得到特征图B3，最后使用3×3卷积对融合后的特征图进一步学习特征，得到特征图B4；其中，

采用DF分支处理DCNN学到的包含细节信息在内的低层级特征，设计一个简单的空间注意力模型，使用3×3卷积操作进一步学习主要特征，并采用softmax函数对于特征进行分类；

采用DC分支对DCNN的输出特征图和R-ASPP的输出特征图在通道维度的拼接，使用3×3卷积直接提取包含准确位置信息和完整几何、纹理信息特征；

采用DD分支对编码器模块输出的高层语义特征进行处理，包括设计基于通道的注意力模块关注特征图通道之间的关系，所述注意力模块由两个子分支构成，分别为最大池化和平均池化子分支；随后，加入全连接层，对于各通道之间的特征图进行融合；最后，将最大池化和平均池化两个子分支得到的结果特征图进行融合，以得到包含更多图像信息的通道特征；

第5步、采用双线性插值上采样操作得到最终的分割结果图像。

2.如权利要求1所述复杂街景图像语义分割方法，其特征在于：

所述平均池化子分支能够通过全局描述特征，对特征图中的每一个像素点都有反馈，而最大池化子分支在进行梯度反向传播计算时，只有特征图中响应最大的像素点有梯度的反馈，从而能够作为一个补充。

3.如权利要求1或2所述复杂街景图像语义分割方法，其特征在于，所述第5步的操作包括：

采用双线性插值上采样操作，在保留更多图像特征内容的同时，将图像还原为原图像分辨率大小，得到最终的分割结果图像B5。