CN114782949B

CN114782949B - 一种边界引导上下文聚合的交通场景语义分割方法

Info

Publication number: CN114782949B
Application number: CN202210464104.2A
Authority: CN
Inventors: 赵于前; 肖晓阳; 张帆; 阳春华; 桂卫华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2024-04-16
Anticipated expiration: 2042-04-29
Also published as: CN114782949A

Abstract

本发明公开了一种边界引导上下文聚合的交通场景语义分割方法，其实施方案为：1)获取数据集与分割标签；2)数据处理；3)构建分割模型；4)构建损失函数；5)训练分割模型；6)交通场景图像分割。本发明构建的具有边界细化模块的交通场景分割模型，在去除低层次的轮廓纹理信息的同时保留了高级的语义边界信息，能够有效检测对象的边界，并沿着目标边界聚合上下文信息，增强同类像素的一致性，从而有效利用边界信息对交通场景图像进行语义分割。本发明方法能够捕获边界区域像素与对象内部像素之间的依赖关系，有效提高分割准确性和鲁棒性。

Description

一种边界引导上下文聚合的交通场景语义分割方法

技术领域

本发明属于图像处理技术领域，涉及交通场景图像自动分割，可用于自动驾驶。

背景技术

语义分割的目的是对给定图像中每个像素指定类别标签，实现同类像素的归类，提供图像丰富的细节信息，具有广泛的应用空间和发展前景。例如在自动驾驶场景中，通过对场景分割，算法可以提供有关道路上自由空间的信息，以及车辆附近的行人和交通标志等信息。

现有的分割方法主要通过卷积运算来扩大感受视野进而捕获全局上下文信息，这种方法忽略了对象内部与边界之间的关系，从而导致边界信息的丢失。为了利用边界信息，有些方法直接将浅层的边界特征信息与深层语义特征融合。由于浅层的特征不仅包含边界信息，也包含对象内部的纹理噪声，这对语义分割会产生负面的影响。还有一些工作使用边界信息对预测的结果进行细化，由于语义分割与图像边界分割两个任务彼此之间非正交，错误的边界估计可能会给语义分割任务带来困难。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出一种边界引导上下文聚合的交通场景语义分割方法，该方法通过语义分割模块和边界细化模块分别提取语义信息和边界信息，并利用边界来聚合上下文信息，使得同一类别的像素获得相似的增益，从而有效利用边界信息与语义信息，提高模型的分割准确性。

为实现上述目的，本发明提供以下技术方案：

一种边界引导上下文聚合的交通场景的语义分割方法，包括以下步骤：

(1)获取数据集与分割标签

获取交通场景公开数据集与对应的分割标签；

(2)数据处理，具体包括以下步骤：

(2-a)对步骤(1)获取的数据集中的图像与对应的分割标签同步水平翻转；

(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m₁×m₂像素大小，其中m₁和m₂分别为缩放后图像的宽和高，m₁、m₂都为正整数；

(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作，组成处理后的样本数据集；

(3)构建分割模型，具体包括以下步骤：

(3-a)构建语义分割模块，该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块，即ASPP模块；输入图像依次经过这五组下采样层，分别得到特征图F₁、F₂、F₃、F₄和F₅，F₅经过ASPP模块后，得到特征图F_f；第一组下采样层由一个残差卷积块与一个池化层组成，第二、三、四、五组下采样层都由一个残差卷积块组成；

(3-b)构建边界细化模块，将步骤(3-a)得到的特征图F₂、F₃、F₄和F₅分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F₂′、F₃′、F₄′和F₅′；利用边缘检测算子对输入图像进行边缘检测得到特征图B₁，将B₁经过一个卷积核大小为1×1的卷积层后得到特征图B₁₁，B₁₁与F₂′共同输入到第一个注意力门控模块AG₁，得到特征图B₂；将B₁₁经过一个卷积核大小为1×1的卷积层后得到特征图B₁₂，B₁₂与F₃′共同输入到第二个注意力门控模块AG₂后得到特征图B₃；将B₁₂经过一个卷积核大小为1×1的卷积层后得到特征图B₁₃，B₁₃与F₄′共同输入到第三个注意力门控模块AG₃后得到特征图B₄；将B₁₃经过一个卷积核大小为1×1的卷积层后得到特征图B₁₄，B₁₄与F₅′共同输入到第四个注意力门控模块AG₄后得到特征图B₅；最后将特征图B₂、B₃、B₄和B₅拼接后得到特征图B_s，B_s经过一个卷积核大小为1×1的卷积层降维后得到特征图B_f；

(3-c)将步骤(3-a)得到的特征图F_f与步骤(3-b)得到的特征图B_f共同输入到上下文聚合模块，即CAM模块，得到特征图F_p，F_p经过一个卷积核大小为3×3的卷积层后得到特征图F′_p，将F′_p上采样至原始图像大小，得到交通场景语义分割结果；将步骤(3-b)得到的特征图B_f经过一个卷积核大小为3×3的卷积层后得到特征图B_p，将B_p上采样至原始图像大小，得到交通场景边界的二值分割结果；

(4)构建损失函数：

构建以下联合损失函数：

L＝λ₁L_body+λ₂L_boun+λ₃L_aux

其中，L_body表示语义分割的交叉熵损失，L_boun表示边界分割的二项式交叉熵损失，L_aux表示辅助的交叉熵损失，y_i ^k∈[0,1]表示像素i为第k类标签的真值，y_i∈[0,1]表示像素i为边界的真值，λ₁,λ₂,λ₃为超参数，其中λ₁∈(0,1]，λ₂∈(0,1]，λ₃∈(0,20]，I代表输入图像，k取正整数且k∈[1,K]，K为分割结果的类别数，取正整数且K∈[2,160]，表示像素i为第k类的预测结果，p_i∈(0,1)表示像素i为边界的预测结果，log为自然对数；

(5)训练分割模型：

利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型，根据步骤(4)构建的损失函数得到损失值，并使用随机梯度下降法更新模型内的参数，直至损失值不再下降，得到训练好的分割模型；

(6)交通场景分割：

获取待分割的交通场景图像，按照步骤(2)对它们进行数据处理后，输入步骤(5)得到的训练好的分割模型中，得到最终分割结果。

所述步骤(3-a)中的空洞空间卷积池化金字塔模块，即ASPP模块，该模块并行包含四个不同的卷积层和一个池化层：一个卷积核大小为1×1的卷积层，一个卷积核大小为3×3、填充率为6、采样率为6的卷积层，一个卷积核大小为3×3、填充率为12、采样率为12的卷积层，一个卷积核大小为3×3、填充率为18、采样率为18的卷积层，以及一个由最大池化和上采样构成的池化层；该模块以步骤(3-a)得到的特征图F₅作为输入，分别经过上述并行的四个不同的卷积层和一个池化层后，得到5个不同的特征图，将这些特征图拼接后得到特征图A_f，A_f经过一个卷积核大小为1×1的卷积层后得到特征图F_f。

所述步骤(3-b)中的注意力门控模块AG_i，该模块以步骤(3-b)得到的特征图B_1i与F′_i+1作为输入，i＝1,2,3,4；特征图B_1i和F′_i+1分别经过一个卷积核大小为1×1的卷积层后，将它们得到的结果逐像素相加，再经过ReLu激活函数后得到中间特征图M_att，M_att依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B_1i进行矩阵相乘，得到AG模块的输出特征图B_i+1，该过程可表示为：

M_att＝σ₁(w_bB_1i+w_fF′_i+1)

其中，w_b、w_f和w_att分别代表与特征图B_1i、F′_i+1和M_att进行卷积运算时所对应卷积核的线性变换系数，表示矩阵相乘，σ₁(·)和σ₂(·)分别代表ReLu与Sigmoid激活函数。

所述步骤(3-b)中的边界聚合模块，即CAM模块，该模块以步骤(3-a)得到的特征图F_f和步骤(3-b)得到的特征图B_f作为输入；F_f经过一个卷积核大小为1×1的卷积层后得到特征图Q，F_f经过另外一个卷积核大小为1×1的卷积层后得到特征图K，B_f经过一个卷积核大小为1×1的卷积层后得到特征图V；特征图K经Softmax函数后与特征图Q矩阵相乘，得到中间特征图G，G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘，得到的结果再与特征图F_f逐像素相加，得到上下文聚合模块CAM的输出特征图F_p，它们的计算过程为：

Q＝w_qF_f

K＝w_kF_f

V＝w_vB_f

上式中，w_q、w_k、w_v和w_g分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数，表示矩阵相乘，/>表示逐像素相加，Softmax(·)代表Softmax函数。

在步骤(2-b)中，m₁、m₂范围均在[520，1024]之间，优选769；

在步骤(3-b)中，优选边缘检测算子为Canny算子；

在步骤(3)中，所有卷积层都包含一个卷积、一个批归一化层和一个激活层。

本发明与现有技术相比，有以下优点：

(1)本发明提出的边界细化模块，能够有效提取物体的边界信息，在去除低层次的轮廓纹理信息的同时保留了高级的语义边界信息，其生成的边界信息可以用于引导上下文聚合。

(2)本发明构建的边界引导上下文聚合的交通场景语义分割网络，利用边界信息引导上下文聚合，并捕获边界区域像素与对象内部像素之间的长距离依赖关系，从而提升分割性能，且鲁棒性强。

附图说明

图1本发明实施方式的一种边界引导上下文聚合的交通场景语义分割方法流程图；

图2本发明实施方式的分割模型网络结构图；

图3本发明实施方式的ASPP模块结构图；

图4本发明实施方式的AG模块结构图；

图5本发明实施方式的CAM模块结构图；

图6本发明实施方式对交通场景语义分割结果与其他方法分割结果对比图。

具体实施方式

下面说明本发明的具体实施方式：

实施例1

图1所示为本发明实施方式的一种边界引导上下文聚合的交通场景语义分割方法流程图，具体步骤如下：

步骤1，获取交通场景图像。

获取交通场景公开数据集与对应的分割标签。

步骤2，对交通场景图像进行数据处理。

(2-a)对原始样本数据中的图像与对应的分割标签同步水平翻转；

(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m₁×m₂像素大小，其中m₁和m₂分别为缩放后图像的宽和高，本实施例优选m₁为769，m₂为769；

(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作，组成处理后的样本数据集。

步骤3，构建分割模型。

图2所示为本发明实施方式的分割模型网络结构图，具体步骤如下：

(3-a)构建语义分割模块，该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块，即ASPP模块；输入图像依次经过这五组下采样层，分别得到特征图F₁、F₂、F₃、F₄和F₅，F₅经过ASPP模块后，得到特征图F_f；第一组下采样层由一个残差卷积块与一个池化层组成，第二、三、四、五组下采样层都由一个残差卷积块组成。

图3所示为本发明实施方式的ASPP模块结构图。该模块并行包含四个不同的卷积层和一个池化层：一个卷积核大小为1×1的卷积层，一个卷积核大小为3×3、填充率为6、采样率为6的卷积层，一个卷积核大小为3×3、填充率为12、采样率为12的卷积层，一个卷积核大小为3×3、填充率为18、采样率为18的卷积层，以及一个由最大池化和上采样构成的池化层；该模块以步骤(3-a)得到的特征图F₅作为输入，分别经过上述并行的四个不同的卷积层和一个池化层后，得到5个不同的特征图，将这些特征图拼接后得到特征图A_f，A_f经过一个卷积核大小为1×1的卷积层后得到特征图F_f。

(3-b)构建边界细化模块，将步骤(3-a)得到的特征图F₂、F₃、F₄和F₅分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F₂′、F₃′、F₄′和F₅′；利用Canny算子对输入图像进行边缘检测得到特征图B₁，将B₁经过一个卷积核大小为1×1的卷积层后得到特征图B₁₁，B₁₁与F₂′共同输入第一个注意力门控模块AG₁，得到特征图B₂；将B₁₁经过一个卷积核大小为1×1的卷积层后得到特征图B₁₂，B₁₂与F₃′共同输入到第二个注意力门控模块AG₂后得到特征图B₃；将B₁₂经过一个卷积核大小为1×1的卷积层后得到特征图B₁₃，B₁₃与F₄′共同输入到第三个注意力门控模块AG₃后得到特征图B₄；将B₁₃经过一个卷积核大小为1×1的卷积层后得到特征图B₁₄，B₁₄与F₅′共同输入到第四个注意力门控模块AG₄后得到特征图B₅；最后将特征图B₂、B₃、B₄和B₅拼接后得到特征图B_s，B_s经过一个卷积核大小为1×1的卷积层降维后得到特征图B_f。

图4所示为本发明实施方式的AG模块结构图。该模块以步骤(3-b)得到的特征图B_1i与F′_i+1作为输入，i＝1,2,3,4；特征图B_1i和F′_i+1分别经过一个卷积核大小为1×1的卷积层后，将它们得到的结果逐像素相加，再经过ReLu激活函数后得到中间特征图M_att，M_att依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B_1i进行矩阵相乘，得到AG模块的输出特征图B_i+1，该过程可表示为：

M_att＝σ₁(w_bB_1i+w_fF′_i+1)

(3-c)将步骤(3-a)得到的特征图F_f与步骤(3-b)得到的特征图B_f共同输入到上下文聚合模块，即CAM模块，得到特征图F_p，F_p经过一个卷积核大小为3×3的卷积层后得到特征图F′_p，将F′_p上采样至原始图像大小，得到交通场景语义分割结果；将步骤(3-b)得到的特征图B_f经过一个卷积核大小为3×3的卷积层后得到特征图B_p，将B_p上采样至原始图像大小，得到交通场景边界的二值分割结果。

图5所示为本发明实施方式的CAM结构图。该模块以步骤(3-a)得到的特征图F_f和步骤(3-b)得到的特征图B_f作为输入；F_f经过一个卷积核大小为1×1的卷积层后得到特征图Q，F_f经过另外一个卷积核大小为1×1的卷积层后得到特征图K，B_f经过一个卷积核大小为1×1的卷积层后得到特征图V；特征图K经Softmax函数后与特征图Q矩阵相乘，得到中间特征图G，G经过一个卷积核大小为1×1的卷积层后得到的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘，得到的结果与特征图F_f逐像素相加，得到上下文聚合模块CAM的输出特征图F_p，它们的计算过程为：

Q＝w_qF_f

K＝w_kF_f

V＝w_vB_f

步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。

步骤4，构建损失函数。

根据模型特点，构建如下联合损失函数：

L＝λ₁L_body+λ₂L_boun+λ₃L_aux

其中，L_body表示语义分割的交叉熵损失，L_boun表示边界分割的二项式交叉熵损失，L_aux表示辅助的交叉熵损失，表示像素i为第k类标签的真值，y_i∈[0,1]表示像素i为边界的真值，λ₁,λ₂,λ₃为超参数，其中λ₁∈(0,1]，λ₂∈(0,1]，λ₃∈(0,20]，I代表输入图像，k取正整数且k∈[1,K]，K为分割结果的类别数，取正整数且K∈[2,160]，/>表示像素i为第k类的预测结果，p_i∈(0,1)表示像素i为边界的预测结果，log为自然对数。

步骤5，训练分割模型。

利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型，根据步骤(4)构建的损失函数得到损失值，并使用随机梯度下降法更新模型内的参数，直至损失值不再下降，得到训练好的分割模型。

步骤6，交通场景图像分割。

实施例2

采用实施例1中的方法对公开数据集进行交通场景图像语义分割实验。数据集中一共有19个类别，分别是道路(road)、人行道(sidewalk)，建筑物(building)、墙壁(wall)、栅栏(fence)、电线杆(pole)、交通灯(traffic light)、交通信号(traffic sign)、植被(vegetation)、地形(terrain)、天空(sky)、行人(person)、骑手(rider)、汽车(car)、卡车(truck)、公交车(bus)、火车(train)、摩托车(motorcycle)和自行车(bicycle)。本实验操作系统为Linux，基于CUDA10.0和cuDNN7.6.0的PyTorch1.6.0框架实现，使用了4张NVIDIAGeForce RTX 2080Ti(11GB)硬件。

本实施例采用交并比(IoU)指标对RefineNet、PSPNet、AAF、PSANet、AttaNet、DenseASPP等6种方法与本发明在测试集上进行对比，该指标在所有类别上的平均结果用mIoU表示，计算公式如下：

K+1表示包含背景的类别总数，本实施例中K为19，p_ij代表类别为i的像素被预测为类别j的像素数目。

对比结果如表1所示，可以发现，本发明对交通场景分割结果的mIoU值为81.2，比其它方法分割结果的mIoU值都高，从而表明本发明相比于其他方法分割结果更准确。

图6所示为本发明实施方式对交通场景语义分割结果与其他方法分割结果对比图，其中第(a)列为交通场景测试图像，第(b)列为对应的分割标签，第(c)列和第(d)列分别为PSANet和PSPNet网络的分割结果，第(e)列为本发明分割结果。图6中不同的行代表不同的测试图像及其对应方法的分割结果。可以看出，本发明相较于PSANet和PSPNet网络，对目标的判别更加准确，如第一行中电线杆和第三行中卡车的分割结果；同时，本发明对边界细节的处理效果也更好，如图中的人行道。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之结构、原理所作的变化，均应涵盖在本发明的保护范围之内。

表1

(注：表中数字1到19为分割类别的标号，分别表示1：道路，2：人行道，3：建筑物，4：墙壁，5：栅栏，6：电线杆，7：交通灯，8：交通信号，9：植被，10：地形，11：天空，12：行人，13：骑手，14：汽车，15：卡车，16：公交车，17：火车，18：摩托车，19：自行车。)

Claims

1.一种边界引导上下文聚合的交通场景语义分割方法，其特征在于包括以下步骤：

(1)获取数据集与分割标签：

获取交通场景公开数据集与对应的分割标签；

(2)数据处理，具体包括以下步骤：

(3)构建分割模型，具体包括以下步骤：

(4)构建损失函数：

构建以下联合损失函数：

L＝λ₁L_body+λ₂L_boun+λ₃L_aux

其中，L_body表示语义分割的交叉熵损失，L_boun表示边界分割的二项式交叉熵损失，L_aux表示辅助的交叉熵损失，表示像素i为第k类标签的真值，y_i∈[0,1]表示像素i为边界的真值，λ₁,λ₂,λ₃为超参数，其中λ₁∈(0,1]，λ₂∈(0,1]，λ₃∈(0,20]，I代表输入图像，k取正整数且k∈[1,K]，K为分割结果的类别数，取正整数且K∈[2,160]，/>表示像素i为第k类的预测结果，p_i∈(0,1)表示像素i为边界的预测结果，log为自然对数；

(5)训练分割模型：

(6)交通场景图像分割：

2.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法，其特征在于，所述步骤(3-a)中的空洞空间卷积池化金字塔模块ASPP，该模块并行包含四个不同的卷积层和一个池化层：一个卷积核大小为1×1的卷积层，一个卷积核大小为3×3、填充率为6、采样率为6的卷积层，一个卷积核大小为3×3、填充率为12、采样率为12的卷积层，一个卷积核大小为3×3、填充率为18、采样率为18的卷积层，以及一个由最大池化和上采样构成的池化层；该模块以步骤(3-a)得到的特征图F₅作为输入，分别经过上述并行的四个不同的卷积层和一个池化层后，得到5个不同的特征图，将这些特征图拼接后得到特征图A_f，A_f经过一个卷积核大小为1×1的卷积层后得到特征图F_f。

3.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法，其特征在于，所述步骤(3-b)的注意力门控模块AG_i，该模块以步骤(3-b)得到的特征图B_1i与F′_i+1作为输入，i＝1,2,3,4；特征图B_1i和F′_i+1分别经过一个卷积核大小为1×1的卷积层后，将它们得到的结果逐像素相加，再经过ReLu激活函数后得到中间特征图M_att，M_att依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B_1i进行矩阵相乘，得到AG模块的输出特征图B_i+1，该过程可表示为：

M_att＝σ₁(w_bB_1i+w_fF′_i+1)

4.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法，其特征在于，所述步骤(3-c)中的上下文聚合模块CAM，该模块以步骤(3-a)得到的特征图F_f和步骤(3-b)得到的特征图B_f作为输入；F_f经过一个卷积核大小为1×1的卷积层后得到特征图Q，F_f经过另外一个卷积核大小为1×1的卷积层后得到特征图K，B_f经过一个卷积核大小为1×1的卷积层后得到特征图V；特征图K经Softmax函数后与特征图Q矩阵相乘，得到中间特征图G，G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘，得到的结果再与特征图F_f逐像素相加，得到上下文聚合模块CAM的输出特征图F_p，它们的计算过程为：

Q＝w_qF_f

K＝w_kF_f

V＝w_vB_f

上式中，w_q、w_k、w_v和w_g分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数，表示矩阵相乘，⊕表示逐像素相加，Softmax(·)代表Softmax函数。

5.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法，其特征在于，所述步骤(2-b)中，正整数m₁、m₂的取值范围均在[520，1024]之间。

6.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法，其特征在于，所述步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。