CN113902915B

CN113902915B - 一种基于低光照复杂道路场景下的语义分割方法及系统

Info

Publication number: CN113902915B
Application number: CN202111190065.3A
Authority: CN
Inventors: 王海; 陈妍妍; 蔡英凤; 陈龙; 李祎承; 刘擎超; 孙晓强
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2024-06-11
Anticipated expiration: 2041-10-12
Also published as: CN113902915A

Abstract

本发明公开了一种基于低光照复杂道路场景下的语义分割方法及系统，本发明通过自动驾驶仿真平台和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移工作，从而构建了不同的低光照数据集；本发明在SFNet网络的基础上,提出了一种新的语义分割算法来改善低光照场景下的分割性能，主要通过改进的Resnet50+结构作为骨干网络进行特征提取，在每一个Resnet block引入通道‑空间注意力机制增强像素的表征能力并在上采样时，考虑到分辨率不同造成的差异引入特征对齐模块FAM，该模块可以学习高层低分辨率特征到浅层高分辨率的像素偏移从而实现像素的精准变化，从而最大可能避免细节丢失问题，最后通过引入多尺度注意力模块来进一步提高分割性能。本发明采用离线方法预训练语义分割网络从而提高系统的安全性。

Description

一种基于低光照复杂道路场景下的语义分割方法及系统

技术领域

本发明涉及智能汽车自动驾驶技术领域，尤其涉及一种基于低光照复杂道路场景下的语义分割方法及系统。

背景技术

得益于深度神经网络的快速发展，语义分割在无人机自主着落，医学影像，自动驾驶等领域都取得了巨大的进步，尤其是无人驾驶汽车的感知能力呈现了指数级别的增长。就智能车辆环境感知而言，语义分割以一种高效的方式统一不同的检测任务，从而避免了多传感器融合这一复杂课题。图像分割本质上是一种精细的逐像素回归任务，主要是将图片中的每一个像素进行分类，比如将背景映射为0，前景映射为其他N-1类别。

目前的CNN算法(如Deeplab系列或HRNet-OCR)能够以较高的准确度执行分割任务，同时还能兼顾一定的实时性要求，但是这些算法大多都是在良好的光照和天气条件由可见光相机拍摄的图片上运行的，在低光照，雨雾等不利条件中，由于图像整体对比度下降、物体语义边界模糊等原因，分割性能会显著下降。然而实际场景几乎无法摆脱这样的恶劣工况，因此，扩大场景的应用范围，是无人驾驶汽车可以早日应用的亟待解决的问题。本方法主要专注于解决低光照场景下的语义分割问题。

由于低光照场景下，可见光相机拍摄的图片可能存在曝光不足、噪声以及运动模糊等特点，此时卷积从该图和良好光照条件采集的图中所提取的特征在结构和纹理上有较大的差异性。因此在白天的权威数据集(如CityScapes)上训练的模型不能直接适用于低光照场景。深度学习本质上基于数据驱动的方法，当前获得高性能语义分割的标准策略是训练大量有标签的低光照真实场景图片的神经网络。然而采集这样的低光照数据集并加以注释，这将导致极高的人工成本。使用合成数据似乎是一种解决方法，因此我们利用自动驾驶仿真平台模拟不同城市、不同天气条件下的低光照场景并利用模拟器的车载可见光摄像头采集相应的合成数据。事实上，合成数据和实际场景数据在结构，颜色等特征上还是有一定差距的。考虑到这一点，我们还利用生成对抗网络对现有的良好光照的公开数据集进行风格转换，在充分保留真实场景特征的前提下渲染低光照样式。

在光照不足和人造光源的干涉下，低光照数据集的各个类别之间的特征不具有明显的差异性，因此设计的神经网络需要有着更强的特征提取能力。一种可行的方法是充分利用该像素的上下文信息以提高其像素表征能力。因此我们在提取特征的骨干网络中引入关系上下文，分别从特征的空间维度和通道维度方面充分考虑像素之间的关系并学习相应的注意力得到增强后的密集特征图。通常，叠加多个卷积得到强有力的特征的同时会伴随着分辨率的降低，这将造成图像细节的丢失，这对于特征较少的夜间图像来说是不可接受的。良好光照下的语义分割算法会通过解码器对图像进行上采样从而恢复分辨率大小，但丢失的细节信息无法通过上采样弥补。一种可行的方法是在高层解码器中引入编码器中的浅层高分辨率特征图并通过特征对齐模块高效的学习上采样像素的偏移量。该特征对齐模块和SFNet中的流对齐模块具有很大的相似性。一般分割算法还会在推理时使用多尺度方法来提高分割性能。同样的，我们使用多尺度推理方法，但我们的多尺度方法可以通过学习相邻尺度间的权重从而实现推理时的灵活添加尺度。

发明内容

为解决上述技术问题，本发明提供一种基于低光照复杂道路场景下的语义分割方法及系统，针对低光照场景的数据缺失问题，通过自动驾驶仿真平台和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移工作，从而构建了不同的低光照数据集。此外，针对低光照图像语义对比度低造成的边界模糊难题，我们设计了一种基于SFNet的改进算法，通过引入双重注意力机制增强像素表征能力，并在解码器的上采样阶段引入特征对齐模块，避免像素的细节丢失问题。然后，我们在网络的末端部分引入多尺度注意力机制，以高效的学习相邻尺度间的相对权重来进一步改善分割性能。最后我们对该低光照场景下的分割网络进行端对端训练，得到一个训练的权重，最后根据车载摄像头获取实时道路场景图片，并将其作为神经网络的输入并获取分割结果。

本发明基于低光照复杂道路场景下的语义分割系统的技术方案是：包括低光照数据集构建模块，语义分割改进算法SFNet-N，离线端对端训练和车载摄像头实时分割模块。

所述的低光照数据集构建模块用于获取复杂的低光照道路场景图片，该模块提供了两种构建方法，包括基于仿真平台合成虚拟数据和真实场景数据的风格转化，从数据的不同角度方面构建相应的数据集。考虑到构建一个准确且有效的真实场景下的低光照数据集所需的时间和巨大的标签成本以及本实验室硬件资源的限制，利用仿真平台CRALA采集本实验所需的低光照数据集。同时，保证数据集的多样性，我们还使用CycleaGAN算法对现有的权威白天数据集CitySacpes低光照风格转换。

所述的语义分割改进算法SFNet-N模块用于获取最后的标签图，即按照像素所属类别赋予其相应的类别标签，得到像素级别的分割结果。该模块直接采用改进的Resnet50+作为骨干特征提取网络，并在后面上采样时加入特征对齐模块(FAM)，从而学习每个像素点的运动方向，在尽可能保留细节的同时逐层恢复图像的高分辨率避免像素的细节丢失问题，最后通过多尺度注意力模块进一步改善语义分割结果。

所述的离线端对端训练模块用于根据像素级标注图片，对搭建的语义分割网络进行训练，使得损失函数最小，得到最佳的分割权重。

所述的车载摄像头实时分割模块，就是通过车载摄像头获取实时的道路场景图片，并将其送入已经训练好的神经网络中，获取实时的低光照道路场景分割结果。

本发明基于低光照复杂道路场景下的图片语义分割方法采用的技术方案是依次包括如下步骤：

步骤1)通过自动驾驶仿真平台和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移工作，从而构建了两个不同的低光照数据集。

步骤2)搭建语义分割的神经网络结构，低光照数据集图像作为输入部分，输出为像素级别的标签图像，即根据给定的像素类别标签图，预测出像素的所属类别。

步骤3)使用Pytorch深度学习框架搭建神经网络算法结构。

步骤4)利用得到的低光照数据集对搭建的语义分割深度学习算法网络框架进行端对端的训练，获取使损失函数最小时的权重值。

该步骤中的训练方法利用多GPU的小批量梯度下降的反向传播方法。

步骤5)使用车载摄像头获取低光照道路场景实时图像，车载摄像头可以为网络摄像头或USB摄像头或go-pro。

步骤6)用预训练好的权重对实时获取的低光照道路场景图像进行分类并定位不同类别，形成分割结果图。

针对步骤1)中低光照场景的数据缺失问题，因此需要通过自动驾驶仿真平台CRALA和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移工作，构建不同的低光照数据集。

本发明通过构建数据集和语义分割深度学习算法改进框架，提供了一种基于低光照复杂道路场景下的图片语义分割方法，扩大了语义分割场景的应用范围。

本发明的有益效果：

1、本发明针对低光照场景的数据缺失问题，通过自动驾驶仿真平台和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移，构建了两个低光照自动驾驶道路场景数据集：Synthesiscarla和CycleCitySacpes。

2、本发明基于SFNet提出了一种改进的低光照图像语义分割模型SFNet-N，通过引入双重注意力机制增强像素表征能力，引入特征对齐模块解决低光照图像像素的细节丢失难题、设计多尺度注意力模块进一步改善分割性能。

3、本发明采用离线方法训练语义分割网络，提高了系统的安全性。

附图说明

图1是构建的两个低光照数据集样本示例图。

图2基于低光照场景下的语义分割网络总体框架图。

图3改进的编码器网络框架图。

图4Residual block+的具体网络图。

图5特征对齐模块。

图6低光照场景下语义分割流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，(a)为经过仿真平台CRALA 0.9.9软件所采集的不同道路场景和不同天气状况下的示例图，(b)为使用CycleGAN算法对CitySacpes风格转换后的示例图。

如图2所示，语义分割神经网络总体框架图，编码器部分由改进的骨干网络(Resnet50+)和金字塔池化(PPM)组成，在逐层降低图片分辨率的同时获得更高层的特征图，并通过PPM扩大感受野得到全局的上下文信息；解码器部分由4个带有特征对齐(FAM)模块的解码器(Dec)组成，根据给定的高维特征图和低维特征图，网络通过特征对齐模块学习每个像素点的运动方向，在尽可能保留细节的同时逐层恢复图像的高分辨率；图中编码器和解码器部分统称之为Trunk，即图中的灰色区域。原始图片作为该网络输入，经过Trunk，最后通过由多个卷积层组成的且最后一层卷积通道数为类别数的分割头部分得到初始的分割结果。为了避免分割结果中常见的类别混淆和细节丢失问题，我们在训练时引入另外一个尺度图片作为网络的原始输入部分，并通过注意力机制允许网络学习相邻尺度间的相对注意力权重，然后将多个尺度的分割结果进行最佳融合。值得注意的是，由于该模块采取分层操作，训练时只需要单独训练一个额外尺寸，额外尺寸选取为r＝0.5，训练过程数学上可以表示为：

L”(r＝1)＝U_p(L(r＝0.5))×A(r＝0.5)+(1-A(r＝0.5))×L(r＝1) (1)

由于训练学习的是相邻尺度间的相对权重，模型的推理可以灵活的添加多个尺度并不仅局限于这一额外尺寸，推理过程数学上可以表示为：

其中r是缩放因子，r＝0.5表示缩小2倍，r＝2表示放大两倍；U_p(·)表示上采样，D_o(·)表示下采样；Attn(α)，Attn(β)为学习到的注意力图；A(·)表示某尺度下的注意力图，为Attn(·)的某一维度；Norm(Z)表示Z对于Attn(β)的相对权重；L”(·)和L”'(·)分别表示两个尺度和三个尺度下位于Softmax函数前的logit概率值；X(·)表示某尺度下语义头之前的特征图；F_3×3(·)、F_1×1(·)分别表示3×3和1×1卷积。

如图3所示，编码器部分主要是由通过多次卷积操作提取图像高层次特征的骨干网络和进一步优化高层次特征的PPM组成。详细来看，主要包括浅层特征提取(stem)，使图片分辨率降到原图的1/4，再经过4个阶段使得在提取高层语义特征的同时分辨率降低到原图1/32，最后为了获得更抽象的语义特征，使用PPM将上下文信息进行融合。

为了在参数量和提取特征性能间获得较好的平衡结果，我们选取Resnet50作为骨干网络。Resnet50网络一共有50层结构，包括49个卷积层和最后的全连接层。去掉最后的全连接层，我们仅使用前面的卷积层。该网络的卷积层由一个Stem和4个阶段组成，每个阶段分别包含3,4,6,3个残差块(block)，每一个block均采取残差结构。为了减少卷积层的参数量，提高计算效率，我们使用3个尺寸为3×3的小卷积核取代1个7×7的大卷积核。使用多个小卷积核堆叠还可以在保持感受野大小不变的情况下捕获更多的上下文信息，同时卷积核的增多意味着具有更多的激活函数，更多的非线性和更强的辨别能力。为了进一步提升骨干网络对于复杂城市交通系统的特征提取能力，我们还在阶段中使用双重注意力模块来改进block进而优化骨干网络，该模块和CBAM相似，改进后的block称之为Residual block+，改进后的总骨干网络称之为Resnet50+。

如图4所示，Residual block+的具体网络框架图，其中(a)为原始残差块，(b)为改进后的残差Residual block+，(c)为通道-空间注意力。

残差块的核心思想主要是通过跳跃连接实现特征由输入到输出的恒等映射，如(a)所示。X代表输入的特征，Weight layer表示权重层，主要包括卷积层和批量归一化层。为了减少计算量增加非线性变换，残差块采取瓶颈模块，因此第一个权重层使用1×1卷积核对通道进行降维，然后使用3×3的卷积核提取特征，最后在第三个权重层中进行升维操作。relu表示采取的激活函数，F(X)表示网络需要学习的残差函数。假设H(X)是由输入X到求和后的最终网络映射，那么所需要学习的残差函数就变为了F(X)＝H(X)-X。由于残差函数更侧重于学习微小变化，因此相比于直接学习恒等映射更易优化和缓解网络层数增多所带来的梯度消失问题。改进的Residual block+(b)主要是在第三个权重层之后顺序引入通道注意力和空间注意力。

通道-空间注意力结构具体描述如下：中间特征作为输入,经过纯通道注意力模块学习通道注意力图/>并与原特征图相乘得到特征/>通道注意力图/>的详细结构可以表示如下：

A_C＝σ(F(f_avg(X)+F(f_max(X)) (6)

经过通道注意力机制优化的特征Z再作为输入，送入到空间注意力机制中学习空间注意力图并与优化后的特征Z相乘得到最后的输出/>空间注意力图/>的详细结构可以表示如下：

其中f_avg(·)表示对输入X在空间上进行平均池化，池化后的f_max(·)表示对输入X在空间上进行最大池化，池化后的/>F(·)表示池化后送入的网络，由两个卷积核大小为1×1的二维卷积组成；f”_avg(·)表示对输入Z在通道上进行平均池化，池化后的/>；f”_max(·)表示对输入Z在通道上上进行最大池化，池化后的/>F”(·)由1个卷积核大小为7×7的二维卷积组成；σ(·)表示sigmoid激活函数，/>表示逐元素相乘，/>表示为将特征按照通道进行拼接。

如图5所示，特征对齐模块学习相邻层级不同分辨率的特征图之间的像素变换偏移，通过像素点间的坐标变换以上下文信息对齐上采样的高层特征并融合浅层特征进而获得具有丰富语义和空间信息的特征图。

给定相邻层级不同分辨率大小的特征图和/>并分别将X_l-1进行1×1卷积，X_l进行上采样操作。然后将这两个通道数和分辨率大小均一致的特征图拼接，并通过3×3卷积学习偏移场/>其中B为批量数目，C和C”分别表示不同大小特征图的通道数，H、W分别为特征图的高度和宽度。数学上可以表示为

其中表示将特征按照通道进行拼接,F_3×3(·)表示3×3卷积，F_1×1(·)表示1×1卷积，U_p(·)表示上采样。

X_l-1上的空间网格的每个位置P_l-1根据Off_l-1的偏移量映射到X_l的空间网格/>的位置P_l处。数学上可以表示为

最后通过对位置P_l进行双线性差值近似得到P_l-1的像素值，并与原始的X_l-1相加得到最终的输出数学上可以表示为：

其中N(p_l)表示P_l的四个近邻上下文值，W_p为点p和近邻位置间距离所估计的权重值。

如图6所示，低光照场景下语义分割流程图，包括低光照数据集构建，改进的SFNet-N分割网络模块，离线端对端训练模块，车载摄像头实时分割模块。

一种基于低光照复杂道路场景下的图片语义分割方法，包括以下步骤：

步骤1)低光照数据集构建：我们利用仿真平台CRALA采集本实验所需的低光照数据集，并将之命名为Synthesiscarla。该数据集是基于渲染方法所合成的，其像素级标签可以通过部分自动化的方法完成，因此数据收集的成本较低。同时为了保证数据的多样性，在CRALA0.9.9软件中的7个不同的城镇和农村场景中采集数据，包含不同类型的城镇街道，高速公路，隧道和道路狭窄的农村道路等。为了更逼真的模拟现实场景，采集数据时还考虑到晴天、雨天、雾天和阴天这四种天气。我们还使用CycleaGAN算法对现有的权威白天数据集CitySacpes低光照处理，新数据集命名为CycleCityScapes。

Synthesiscarla：该数据集被简单的分为训练集和验证集。训练集包含3338幅图像，验证集包含371张图片，分辨率均为1024x2048个像素。按照CitySacpes的数据集格式对3k多幅图片进行高质量的像素级标签，将低光照场景大致分为8个种类，13个类别，类别分别为行人，交通标注，其他，车道线，柱子，车辆，栅栏，墙，人行道，建筑物，植被，道路和未标注的背景。

CycleCitySacpes：该数据集使用CycleaGAN算法对基于白天良好光照下采集的CitySacpes数据集图片进行样式转换以利用其精确的语义分割标签。CitySacpes数据集是一个大型城市场景数据集，包含5k幅图像的高质量像素级标签图和20k的粗略标签图。其中经过精细标注的5k幅图像又分为训练集、验证集和测试集。训练集包含2975张图片，验证集包含500张图片，测试集包含1525张测试图片，分辨率均为1024x2048个像素。总共包含30个类别，其中19个类别用于训练和验证处理。

步骤2)使用SFNet-N算法分割对采集的低光照图片进行训练。该方法主要由改进的Resnet50+、FAM和多尺度模块(Multi-Scale)组成。我们采用经典的Resnet50作为编码器中的特征提取模块，然后在每一个残差块中引入空间维度和通道维度的注意力机制以最大限度的融合上下文信息进而增强像素的表征能力。同时为了尽可能的避免解码器中粗暴上采样所带来的细节丢失问题，在编码器中引入特征对齐模块从而高效学习像素偏移实现高分辨率特征。最后为了最大限度的改进分割性能，训练时引入多尺度机制，通过学习相邻尺度间的相对权重保证推理时的最大性能。改进后的SFNet-N主要包括数据导入模块，数据预处理模块，前向传播模块，激活函数，损失函数，反向传播模块和优化模块。

其中，损失函数采用softmax+交叉熵损失函数：

(1)softmax函数：将经过神经网络预测的长度为k的输出向量映射为另一个向量并将之归一化为概率值，且该向量中每一个元素取值均在(0,1)区间且和为1。则第j个神经元的输出函数，即该样本属于第j个类别的概率可以表示为：

其中K为进入Softmax函数之前所预测的类别数量，Z_i为第i个神经元节点的预测值。

(2)交叉熵损失函数：L＝-∑p(x)logq(x)(14)其中p(x)为真实值，q(x)为预测值，即经过上述Softmax函数求出的数值。

把构建好的数据集送入搭建好的神经网络模型进行端对端的训练，训练好的模型通过ROS软件移植到智能车辆中。

步骤3)通过车载摄像头获取实时低光照道路场景图片，并且输入到已经在智能车辆上集成的训练好的分割模型中，获取实时场景的分割结果。且为了保证车载摄像头不受环境影响从而降低采集图片的质量，摄像头安装在车内挡风玻璃处。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于低光照复杂道路场景下的语义分割系统，其特征在于，包括低光照数据集构建模块，语义分割网络模块，离线端对端训练模块和车载摄像头实时分割模块；

所述的低光照数据集构建模块，用于获取复杂的低光照道路场景图片，该模块构建的低光照数据集包括基于仿真平台合成虚拟数据和真实场景数据风格转化后的数据，其中，基于仿真平台合成虚拟数据是利用仿真平台CRALA所采集的低光照数据，所述真实场景数据风格转化后的数据是使用CycleaGAN算法对现有的白天数据集CitySacpes进行低光照风格转换得到；

所述的语义分割网络模块用于获取最后的标签图，即按照像素所属类别赋予其相应的类别标签，得到像素级别的分割结果；该模块采用改进的Resnet50+作为骨干特征提取网络，并在后面上采样时加入特征对齐模块，学习每个像素点的运动方向，在保留细节的同时逐层恢复图像的高分辨率避免像素的细节丢失问题，最后通过多尺度注意力模块进一步改善语义分割结果；

所述的离线端对端训练模块用于根据像素级标注图片，对搭建的语义分割网络进行训练，使得损失函数最小，得到最佳的分割权重；

所述的车载摄像头实时分割模块，通过车载摄像头获取实时的道路场景图片，并将其送入已经训练好的语义分割神经网络中，获取实时的低光照道路场景分割结果；

所述语义分割网络模块中：编码器部分包括改进的骨干网络部分和金字塔池化部分，在逐层降低图片分辨率的同时获得更高层的特征图，并通过PPM扩大感受野得到全局的上下文信息；解码器部分包括4个带有特征对齐模块的解码器模块，根据给定的高维特征图和低维特征图，网络通过特征对齐模块学习每个像素点的运动方向，在尽可能保留细节的同时逐层恢复图像的高分辨率；

原始图片经过该语义分割网络模块的编码器和解码器之后，通过由多个卷积层组成的且最后一层卷积通道数为类别数的分割头部分得到初始的分割结果；

所述多尺度语义分割网络的注意力模块在训练时引入另外一个尺度图片作为网络模块的原始输入部分，并通过注意力机制允许网络学习相邻尺度间的相对注意力权重，然后将多个尺度的分割结果进行最佳融合；

其中，针对该模块采取的分层操作，训练时只需要单独训练一个额外尺寸，额外尺寸选取为r＝0.5，训练过程表示为：

L”(r＝1)＝U_p(L(r＝0.5))×A(r＝0.5)+(1-A(r＝0.5))×L(r＝1) (1)

由于训练学习的是相邻尺度间的相对权重，模型的推理过程表示为：

2.根据权利要求1所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述编码器结构组成如下：浅层特征提取部分(Stem)使图片分辨率降到原图的1/4，再经过4个阶段使得在提取高层语义特征的同时分辨率降低到原图1/32，最后为了获得更抽象的语义特征，使用PPM将上下文信息进行融合；

编码器的网络结构选取Resnet50作为骨干网络，并仅使用Resnet50前面的卷积层，卷积层由一个Stem和4个阶段组成，每个阶段分别包含3,4,6,3个block，每一个block均采取残差结构，使用3个尺寸为3×3的小卷积核取代1个7×7的大卷积核；在阶段中使用双重注意力模块来改进block进而优化骨干网络，改进后的block称之为Residual block+，改进后的总骨干网络称之为Resnet50+。

3.根据权利要求2所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述Residual block+主要是在原始残差块的第三个权重层后引入通道注意力和空间注意力模块；其中权重层包括卷积层和批量归一化层；为了增加网络的非线性能力，该残差块采取瓶颈模块，即在第一个权重层中使用1×1卷积核对通道进行降维，然后通过3×3的卷积核提取特征，最后在第三个权重层中进行相应的升维；

通道注意力和空间注意力模块具体设计如下：中间特征作为输入,经过纯通道注意力模块学习通道注意力图/>并与原特征图相乘得到特征/>通道注意力图/>的表示如下：

A_C＝σ(F(f_avg(X)+F(f_max(X)) (6)

经过通道注意力机制优化的特征Z再作为输入，送入到空间注意力机制中学习空间注意力图并与优化后的特征Z相乘得到最后的输出/>空间注意力图表示如下：

其中f_avg(·)表示对输入X在空间上进行平均池化，池化后的f_max(·)表示对输入X在空间上进行最大池化，池化后的/>F(·)表示池化后送入的网络，由两个卷积核大小为1×1的二维卷积组成；f”_avg(·)表示对输入Z在通道上进行平均池化，池化后的/>f”_max(·)表示对输入Z在通道上上进行最大池化，池化后的/>F”(·)由1个卷积核大小为7×7的二维卷积组成；σ(·)表示sigmoid激活函数，/>表示逐元素相乘，/>表示为将特征按照通道进行拼接。

4.根据权利要求1所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述特征对齐模块学习相邻层级不同分辨率的特征图之间的像素变换偏移，通过像素点间的坐标变换以上下文信息对齐上采样的高层特征并融合浅层特征进而获得具有丰富语义和空间信息的特征图，具体设计如下：

给定相邻层级不同分辨率大小的特征图和/>并分别将X_l-1进行1×1卷积，X_l进行上采样操作；然后将这两个通道数和分辨率大小均一致的特征图拼接，并通过3×3卷积学习偏移场/>其中B为批量数目，C和C”分别表示不同大小特征图的通道数，H、W分别为特征图的高度和宽度，表达式为

其中表示将特征按照通道进行拼接,F_3×3(·)表示3×3卷积，F_1×1(·)表示1×1卷积，U_p(·)表示上采样；

X_l-1上的空间网格的每个位置P_l-1根据Off_l-1的偏移量映射到X_l的空间网格/>的位置P_l处，表示为：

最后通过对位置P_l进行双线性差值近似得到P_l-1的像素值，并与原始的X_l-1相加得到最终的输出表示为：

5.一种基于低光照复杂道路场景下的语义分割方法，其特征在于，包括如下步骤：

S1通过自动驾驶仿真平台和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移工作，从而构建了两个不同的低光照数据集；

S2使用Pytorch深度学习框架搭建语义分割的神经网络结构，低光照数据集图像作为输入部分，输出为像素级别的标签图像，即根据给定的像素类别标签图，预测出像素的所属类别；并利用得到的低光照数据集对搭建的语义分割深度学习算法网络框架进行端对端的训练，获取使损失函数最小时的权重值；

该步骤中的训练方法利用多GPU的小批量梯度下降的反向传播方法；

所述S2中，语义分割的神经网络模型采用改进的SFNet-N算法实现，包括改进的Resnet50+、FAM和多尺度模块；将Resnet50作为编码器中的特征提取模块，然后在每一个残差块中引入空间维度和通道维度的注意力机制以最大限度的融合上下文信息进而增强像素的表征能力，同时为了尽可能的避免解码器中粗暴上采样所带来的细节丢失问题，在编码器中引入特征对齐模块从而高效学习像素偏移实现高分辨率特征；最后为了最大限度的改进分割性能，训练时引入多尺度机制，通过学习相邻尺度间的相对权重保证推理时的最大性能，其中，损失函数采用softmax+交叉熵损失函数：

(1)softmax函数：将经过神经网络预测的长度为k的输出向量映射为另一个向量并将之归一化为概率值，且该向量中每一个元素取值均在(0,1)区间且和为1；则第j个神经元的输出函数，即样本属于第j个类别的概率可以表示为：

其中K为进入Softmax函数之前所预测的类别数量，Z_i为第i个神经元节点的预测值；

(2)交叉熵损失函数：L＝-∑p(x)logq(x)(14)其中p(x)为真实值，q(x)为预测值，即经过上述Softmax函数求出的数值；

将S1构建好的数据集送入S2搭建好的神经网络模型进行端对端的训练，训练好的模型通过ROS软件移植到智能车辆中；

S3使用车载摄像头获取低光照道路场景实时图像，用预训练好的语义分割神经网络模型对实时获取的低光照道路场景图像进行分类并定位不同类别，形成分割结果图。

6.根据权利要求5所述的一种基于低光照复杂道路场景下的语义分割方法，其特征在于，所述S1的具体实现包括：

利用仿真平台CRALA采集低光照数据集，并命名为Synthesiscarla，该数据集是基于渲染方法所合成的，其像素级标签可以通过部分自动化的方法完成，同时为了保证数据的多样性，采集7个不同的城镇和农村场景中采集数据，包含不同类型的城镇街道，高速公路，隧道和道路狭窄的农村道路；为了更逼真的模拟现实场景，采集数据时还考虑到晴天、雨天、雾天和阴天这四种天气；使用CycleaGAN算法对现有的白天数据集CitySacpes低光照处理，新数据集命名为CycleCityScapes；

Synthesiscarla：该数据集分为训练集和验证集，训练集包含3338幅图像，验证集包含371张图片，分辨率均为1024x2048个像素；按照CitySacpes的数据集格式对3k多幅图片进行高质量的像素级标签，将低光照场景大致分为8个种类，13个类别，类别分别为行人，交通标注，其他，车道线，柱子，车辆，栅栏，墙，人行道，建筑物，植被，道路和未标注的背景；

CycleCitySacpes：该数据集使用CycleaGAN算法对基于白天良好光照下采集的CitySacpes数据集图片进行样式转换以利用其精确的语义分割标签；CitySacpes数据集是大型城市场景数据集，包含5k幅图像的高质量像素级标签图和20k的粗略标签图，其中经过精细标注的5k幅图像又分为训练集、验证集和测试集，训练集包含2975张图片，验证集包含500张图片，测试集包含1525张测试图片，分辨率均为1024x2048个像素。

7.根据权利要求5所述的一种基于低光照复杂道路场景下的语义分割方法，其特征在于，所述S3中，所述车载摄像头安装在车内挡风玻璃处，车载摄像头可以为网络摄像头或USB摄像头或go-pro。