CN114782949B - 一种边界引导上下文聚合的交通场景语义分割方法 - Google Patents
一种边界引导上下文聚合的交通场景语义分割方法 Download PDFInfo
- Publication number
- CN114782949B CN114782949B CN202210464104.2A CN202210464104A CN114782949B CN 114782949 B CN114782949 B CN 114782949B CN 202210464104 A CN202210464104 A CN 202210464104A CN 114782949 B CN114782949 B CN 114782949B
- Authority
- CN
- China
- Prior art keywords
- feature map
- convolution
- segmentation
- kernel size
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002776 aggregation Effects 0.000 title claims abstract description 17
- 238000004220 aggregation Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000003709 image segmentation Methods 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 12
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000003708 edge detection Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 1
- 125000002619 bicyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种边界引导上下文聚合的交通场景语义分割方法,其实施方案为:1)获取数据集与分割标签;2)数据处理;3)构建分割模型;4)构建损失函数;5)训练分割模型;6)交通场景图像分割。本发明构建的具有边界细化模块的交通场景分割模型,在去除低层次的轮廓纹理信息的同时保留了高级的语义边界信息,能够有效检测对象的边界,并沿着目标边界聚合上下文信息,增强同类像素的一致性,从而有效利用边界信息对交通场景图像进行语义分割。本发明方法能够捕获边界区域像素与对象内部像素之间的依赖关系,有效提高分割准确性和鲁棒性。
Description
技术领域
本发明属于图像处理技术领域,涉及交通场景图像自动分割,可用于自动驾驶。
背景技术
语义分割的目的是对给定图像中每个像素指定类别标签,实现同类像素的归类,提供图像丰富的细节信息,具有广泛的应用空间和发展前景。例如在自动驾驶场景中,通过对场景分割,算法可以提供有关道路上自由空间的信息,以及车辆附近的行人和交通标志等信息。
现有的分割方法主要通过卷积运算来扩大感受视野进而捕获全局上下文信息,这种方法忽略了对象内部与边界之间的关系,从而导致边界信息的丢失。为了利用边界信息,有些方法直接将浅层的边界特征信息与深层语义特征融合。由于浅层的特征不仅包含边界信息,也包含对象内部的纹理噪声,这对语义分割会产生负面的影响。还有一些工作使用边界信息对预测的结果进行细化,由于语义分割与图像边界分割两个任务彼此之间非正交,错误的边界估计可能会给语义分割任务带来困难。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种边界引导上下文聚合的交通场景语义分割方法,该方法通过语义分割模块和边界细化模块分别提取语义信息和边界信息,并利用边界来聚合上下文信息,使得同一类别的像素获得相似的增益,从而有效利用边界信息与语义信息,提高模型的分割准确性。
为实现上述目的,本发明提供以下技术方案:
一种边界引导上下文聚合的交通场景的语义分割方法,包括以下步骤:
(1)获取数据集与分割标签
获取交通场景公开数据集与对应的分割标签;
(2)数据处理,具体包括以下步骤:
(2-a)对步骤(1)获取的数据集中的图像与对应的分割标签同步水平翻转;
(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,m1、m2都为正整数;
(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集;
(3)构建分割模型,具体包括以下步骤:
(3-a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成;
(3-b)构建边界细化模块,将步骤(3-a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用边缘检测算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入到第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf;
(3-c)将步骤(3-a)得到的特征图Ff与步骤(3-b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3-b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果;
(4)构建损失函数:
构建以下联合损失函数:
L=λ1Lbody+λ2Lboun+λ3Laux
其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失,yi k∈[0,1]表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ1,λ2,λ3为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160],表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数;
(5)训练分割模型:
利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型;
(6)交通场景分割:
获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。
所述步骤(3-a)中的空洞空间卷积池化金字塔模块,即ASPP模块,该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3-a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff。
所述步骤(3-b)中的注意力门控模块AGi,该模块以步骤(3-b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:
Matt=σ1(wbB1i+wfF′i+1)
其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。
所述步骤(3-b)中的边界聚合模块,即CAM模块,该模块以步骤(3-a)得到的特征图Ff和步骤(3-b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果再与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:
Q=wqFf
K=wkFf
V=wvBf
上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,/>表示逐像素相加,Softmax(·)代表Softmax函数。
在步骤(2-b)中,m1、m2范围均在[520,1024]之间,优选769;
在步骤(3-b)中,优选边缘检测算子为Canny算子;
在步骤(3)中,所有卷积层都包含一个卷积、一个批归一化层和一个激活层。
本发明与现有技术相比,有以下优点:
(1)本发明提出的边界细化模块,能够有效提取物体的边界信息,在去除低层次的轮廓纹理信息的同时保留了高级的语义边界信息,其生成的边界信息可以用于引导上下文聚合。
(2)本发明构建的边界引导上下文聚合的交通场景语义分割网络,利用边界信息引导上下文聚合,并捕获边界区域像素与对象内部像素之间的长距离依赖关系,从而提升分割性能,且鲁棒性强。
附图说明
图1本发明实施方式的一种边界引导上下文聚合的交通场景语义分割方法流程图;
图2本发明实施方式的分割模型网络结构图;
图3本发明实施方式的ASPP模块结构图;
图4本发明实施方式的AG模块结构图;
图5本发明实施方式的CAM模块结构图;
图6本发明实施方式对交通场景语义分割结果与其他方法分割结果对比图。
具体实施方式
下面说明本发明的具体实施方式:
实施例1
图1所示为本发明实施方式的一种边界引导上下文聚合的交通场景语义分割方法流程图,具体步骤如下:
步骤1,获取交通场景图像。
获取交通场景公开数据集与对应的分割标签。
步骤2,对交通场景图像进行数据处理。
(2-a)对原始样本数据中的图像与对应的分割标签同步水平翻转;
(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,本实施例优选m1为769,m2为769;
(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集。
步骤3,构建分割模型。
图2所示为本发明实施方式的分割模型网络结构图,具体步骤如下:
(3-a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成。
图3所示为本发明实施方式的ASPP模块结构图。该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3-a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff。
(3-b)构建边界细化模块,将步骤(3-a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用Canny算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf。
图4所示为本发明实施方式的AG模块结构图。该模块以步骤(3-b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:
Matt=σ1(wbB1i+wfF′i+1)
其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。
(3-c)将步骤(3-a)得到的特征图Ff与步骤(3-b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3-b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果。
图5所示为本发明实施方式的CAM结构图。该模块以步骤(3-a)得到的特征图Ff和步骤(3-b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后得到的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:
Q=wqFf
K=wkFf
V=wvBf
上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,/>表示逐像素相加,Softmax(·)代表Softmax函数。
步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。
步骤4,构建损失函数。
根据模型特点,构建如下联合损失函数:
L=λ1Lbody+λ2Lboun+λ3Laux
其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失,表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ1,λ2,λ3为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160],/>表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数。
步骤5,训练分割模型。
利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型。
步骤6,交通场景图像分割。
获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。
实施例2
采用实施例1中的方法对公开数据集进行交通场景图像语义分割实验。数据集中一共有19个类别,分别是道路(road)、人行道(sidewalk),建筑物(building)、墙壁(wall)、栅栏(fence)、电线杆(pole)、交通灯(traffic light)、交通信号(traffic sign)、植被(vegetation)、地形(terrain)、天空(sky)、行人(person)、骑手(rider)、汽车(car)、卡车(truck)、公交车(bus)、火车(train)、摩托车(motorcycle)和自行车(bicycle)。本实验操作系统为Linux,基于CUDA10.0和cuDNN7.6.0的PyTorch1.6.0框架实现,使用了4张NVIDIAGeForce RTX 2080Ti(11GB)硬件。
本实施例采用交并比(IoU)指标对RefineNet、PSPNet、AAF、PSANet、AttaNet、DenseASPP等6种方法与本发明在测试集上进行对比,该指标在所有类别上的平均结果用mIoU表示,计算公式如下:
K+1表示包含背景的类别总数,本实施例中K为19,pij代表类别为i的像素被预测为类别j的像素数目。
对比结果如表1所示,可以发现,本发明对交通场景分割结果的mIoU值为81.2,比其它方法分割结果的mIoU值都高,从而表明本发明相比于其他方法分割结果更准确。
图6所示为本发明实施方式对交通场景语义分割结果与其他方法分割结果对比图,其中第(a)列为交通场景测试图像,第(b)列为对应的分割标签,第(c)列和第(d)列分别为PSANet和PSPNet网络的分割结果,第(e)列为本发明分割结果。图6中不同的行代表不同的测试图像及其对应方法的分割结果。可以看出,本发明相较于PSANet和PSPNet网络,对目标的判别更加准确,如第一行中电线杆和第三行中卡车的分割结果;同时,本发明对边界细节的处理效果也更好,如图中的人行道。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之结构、原理所作的变化,均应涵盖在本发明的保护范围之内。
表1
(注:表中数字1到19为分割类别的标号,分别表示1:道路,2:人行道,3:建筑物,4:墙壁,5:栅栏,6:电线杆,7:交通灯,8:交通信号,9:植被,10:地形,11:天空,12:行人,13:骑手,14:汽车,15:卡车,16:公交车,17:火车,18:摩托车,19:自行车。)
Claims (6)
1.一种边界引导上下文聚合的交通场景语义分割方法,其特征在于包括以下步骤:
(1)获取数据集与分割标签:
获取交通场景公开数据集与对应的分割标签;
(2)数据处理,具体包括以下步骤:
(2-a)对步骤(1)获取的数据集中的图像与对应的分割标签同步水平翻转;
(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,m1、m2都为正整数;
(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集;
(3)构建分割模型,具体包括以下步骤:
(3-a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成;
(3-b)构建边界细化模块,将步骤(3-a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用边缘检测算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入到第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf;
(3-c)将步骤(3-a)得到的特征图Ff与步骤(3-b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3-b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果;
(4)构建损失函数:
构建以下联合损失函数:
L=λ1Lbody+λ2Lboun+λ3Laux
其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失,表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ1,λ2,λ3为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160],/>表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数;
(5)训练分割模型:
利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型;
(6)交通场景图像分割:
获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。
2.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3-a)中的空洞空间卷积池化金字塔模块ASPP,该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3-a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff。
3.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3-b)的注意力门控模块AGi,该模块以步骤(3-b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:
Matt=σ1(wbB1i+wfF′i+1)
其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。
4.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3-c)中的上下文聚合模块CAM,该模块以步骤(3-a)得到的特征图Ff和步骤(3-b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果再与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:
Q=wqFf
K=wkFf
V=wvBf
上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,⊕表示逐像素相加,Softmax(·)代表Softmax函数。
5.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(2-b)中,正整数m1、m2的取值范围均在[520,1024]之间。
6.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210464104.2A CN114782949B (zh) | 2022-04-29 | 2022-04-29 | 一种边界引导上下文聚合的交通场景语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210464104.2A CN114782949B (zh) | 2022-04-29 | 2022-04-29 | 一种边界引导上下文聚合的交通场景语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782949A CN114782949A (zh) | 2022-07-22 |
CN114782949B true CN114782949B (zh) | 2024-04-16 |
Family
ID=82434410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210464104.2A Active CN114782949B (zh) | 2022-04-29 | 2022-04-29 | 一种边界引导上下文聚合的交通场景语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782949B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937742B (zh) * | 2022-11-28 | 2024-04-12 | 北京百度网讯科技有限公司 | 视频场景分割、视觉任务处理方法、装置、设备以及介质 |
CN117690107B (zh) * | 2023-12-15 | 2024-04-26 | 上海保隆汽车科技(武汉)有限公司 | 一种车道边线识别方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
US11164014B1 (en) * | 2020-11-09 | 2021-11-02 | Hayden Ai Technologies, Inc. | Lane violation detection using convolutional neural networks |
CN113781504A (zh) * | 2021-09-15 | 2021-12-10 | 浙江科技学院 | 一种基于边界引导的道路场景语义分割方法 |
CN114373073A (zh) * | 2021-12-06 | 2022-04-19 | 山东师范大学 | 一种用于道路场景语义分割的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11157774B2 (en) * | 2019-11-14 | 2021-10-26 | Zoox, Inc. | Depth data model training with upsampling, losses, and loss balancing |
-
2022
- 2022-04-29 CN CN202210464104.2A patent/CN114782949B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11164014B1 (en) * | 2020-11-09 | 2021-11-02 | Hayden Ai Technologies, Inc. | Lane violation detection using convolutional neural networks |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113781504A (zh) * | 2021-09-15 | 2021-12-10 | 浙江科技学院 | 一种基于边界引导的道路场景语义分割方法 |
CN114373073A (zh) * | 2021-12-06 | 2022-04-19 | 山东师范大学 | 一种用于道路场景语义分割的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114782949A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mehra et al. | ReViewNet: A fast and resource optimized network for enabling safe autonomous driving in hazy weather conditions | |
CN109389046B (zh) | 用于自动驾驶的全天候物体识别与车道线检测方法 | |
CN111695448B (zh) | 一种基于视觉传感器的路侧车辆识别方法 | |
CN114782949B (zh) | 一种边界引导上下文聚合的交通场景语义分割方法 | |
CN111563909A (zh) | 一种复杂街景图像语义分割方法 | |
CN112949633A (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
CN113920499A (zh) | 一种面向复杂交通场景的激光点云三维目标检测模型及方法 | |
CN111582029A (zh) | 一种基于密集连接与注意力机制的交通标志识别方法 | |
CN114677507A (zh) | 一种基于双向注意力网络的街景图像分割方法及系统 | |
CN112819000A (zh) | 街景图像语义分割系统及分割方法、电子设备及计算机可读介质 | |
CN116630702A (zh) | 一种基于语义分割网络的路面附着系数预测方法 | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
Wu et al. | Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images | |
CN115861951B (zh) | 一种基于双特征提取网络的复杂环境车道线精准检测方法 | |
CN112634289B (zh) | 一种基于非对称空洞卷积的快速可行域分割方法 | |
CN118397485A (zh) | 一种轻量化无人机图像目标检测方法及系统 | |
CN112733934B (zh) | 复杂环境下的多模态特征融合道路场景语义分割方法 | |
CN117237900A (zh) | 一种基于ssc-yolov5的自动驾驶目标检测算法 | |
CN116363072A (zh) | 一种轻型航拍图像检测方法及系统 | |
CN117079277A (zh) | 一种基于深度学习的交通场景实时语义分割方法 | |
CN116433900A (zh) | 一种基于双支路特征提取的语义分割方法 | |
Kim | MPNet: Multiscale predictions based on feature pyramid network for semantic segmentation | |
CN115170803A (zh) | 一种基于e-solo的城市街景实例分割方法 | |
CN114882205A (zh) | 基于注意力机制的目标检测方法 | |
CN112700371A (zh) | 一种融合可见光与红外热图像特征的复杂场景分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |