[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114782949A - 一种边界引导上下文聚合的交通场景语义分割方法 - Google Patents

一种边界引导上下文聚合的交通场景语义分割方法 Download PDF

Info

Publication number
CN114782949A
CN114782949A CN202210464104.2A CN202210464104A CN114782949A CN 114782949 A CN114782949 A CN 114782949A CN 202210464104 A CN202210464104 A CN 202210464104A CN 114782949 A CN114782949 A CN 114782949A
Authority
CN
China
Prior art keywords
characteristic diagram
convolution
segmentation
obtaining
passing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210464104.2A
Other languages
English (en)
Other versions
CN114782949B (zh
Inventor
赵于前
肖晓阳
张帆
阳春华
桂卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210464104.2A priority Critical patent/CN114782949B/zh
Publication of CN114782949A publication Critical patent/CN114782949A/zh
Application granted granted Critical
Publication of CN114782949B publication Critical patent/CN114782949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种边界引导上下文聚合的交通场景语义分割方法,其实施方案为:1)获取数据集与分割标签;2)数据处理;3)构建分割模型;4)构建损失函数;5)训练分割模型;6)交通场景图像分割。本发明构建的具有边界细化模块的交通场景分割模型,在去除低层次的轮廓纹理信息的同时保留了高级的语义边界信息,能够有效检测对象的边界,并沿着目标边界聚合上下文信息,增强同类像素的一致性,从而有效利用边界信息对交通场景图像进行语义分割。本发明方法能够捕获边界区域像素与对象内部像素之间的依赖关系,有效提高分割准确性和鲁棒性。

Description

一种边界引导上下文聚合的交通场景语义分割方法
技术领域
本发明属于图像处理技术领域,涉及交通场景图像自动分割,可用于自动驾驶。
背景技术
语义分割的目的是对给定图像中每个像素指定类别标签,实现同类像素的归类,提供图像丰富的细节信息,具有广泛的应用空间和发展前景。例如在自动驾驶场景中,通过对场景分割,算法可以提供有关道路上自由空间的信息,以及车辆附近的行人和交通标志等信息。
现有的分割方法主要通过卷积运算来扩大感受视野进而捕获全局上下文信息,这种方法忽略了对象内部与边界之间的关系,从而导致边界信息的丢失。为了利用边界信息,有些方法直接将浅层的边界特征信息与深层语义特征融合。由于浅层的特征不仅包含边界信息,也包含对象内部的纹理噪声,这对语义分割会产生负面的影响。还有一些工作使用边界信息对预测的结果进行细化,由于语义分割与图像边界分割两个任务彼此之间非正交,错误的边界估计可能会给语义分割任务带来困难。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种边界引导上下文聚合的交通场景语义分割方法,该方法通过语义分割模块和边界细化模块分别提取语义信息和边界信息,并利用边界来聚合上下文信息,使得同一类别的像素获得相似的增益,从而有效利用边界信息与语义信息,提高模型的分割准确性。
为实现上述目的,本发明提供以下技术方案:
一种边界引导上下文聚合的交通场景的语义分割方法,包括以下步骤:
(1)获取数据集与分割标签
获取交通场景公开数据集与对应的分割标签;
(2)数据处理,具体包括以下步骤:
(2-a)对步骤(1)获取的数据集中的图像与对应的分割标签同步水平翻转;
(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,m1、m2都为正整数;
(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集;
(3)构建分割模型,具体包括以下步骤:
(3-a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成;
(3-b)构建边界细化模块,将步骤(3-a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用边缘检测算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入到第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf
(3-c)将步骤(3-a)得到的特征图Ff与步骤(3-b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3-b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果;
(4)构建损失函数:
构建以下联合损失函数:
L=λ1Lbody2Lboun3Laux
Figure BDA0003622951370000031
Figure BDA0003622951370000032
Figure BDA0003622951370000033
其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失,yi k∈[0,1]表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ123为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160],
Figure BDA0003622951370000034
表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数;
(5)训练分割模型:
利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型;
(6)交通场景分割:
获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。
所述步骤(3-a)中的空洞空间卷积池化金字塔模块,即ASPP模块,该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3-a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff
所述步骤(3-b)中的注意力门控模块AGi,该模块以步骤(3-b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:
Matt=σ1(wbB1i+wfF′i+1)
Figure BDA0003622951370000041
其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数,
Figure BDA0003622951370000042
Figure BDA0003622951370000043
表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。
所述步骤(3-b)中的边界聚合模块,即CAM模块,该模块以步骤(3-a)得到的特征图Ff和步骤(3-b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果再与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:
Q=wqFf
K=wkFf
V=wvBf
Figure BDA0003622951370000051
Figure BDA0003622951370000052
上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数,
Figure BDA0003622951370000053
Figure BDA0003622951370000054
表示矩阵相乘,
Figure BDA0003622951370000055
表示逐像素相加,Softmax(·)代表Softmax函数。
在步骤(2-b)中,m1、m2范围均在[520,1024]之间,优选769;
在步骤(3-b)中,优选边缘检测算子为Canny算子;
在步骤(3)中,所有卷积层都包含一个卷积、一个批归一化层和一个激活层。
本发明与现有技术相比,有以下优点:
(1)本发明提出的边界细化模块,能够有效提取物体的边界信息,在去除低层次的轮廓纹理信息的同时保留了高级的语义边界信息,其生成的边界信息可以用于引导上下文聚合。
(2)本发明构建的边界引导上下文聚合的交通场景语义分割网络,利用边界信息引导上下文聚合,并捕获边界区域像素与对象内部像素之间的长距离依赖关系,从而提升分割性能,且鲁棒性强。
附图说明
图1本发明实施方式的一种边界引导上下文聚合的交通场景语义分割方法流程图;
图2本发明实施方式的分割模型网络结构图;
图3本发明实施方式的ASPP模块结构图;
图4本发明实施方式的AG模块结构图;
图5本发明实施方式的CAM模块结构图;
图6本发明实施方式对交通场景语义分割结果与其他方法分割结果对比图。
具体实施方式
下面说明本发明的具体实施方式:
实施例1
图1所示为本发明实施方式的一种边界引导上下文聚合的交通场景语义分割方法流程图,具体步骤如下:
步骤1,获取交通场景图像。
获取交通场景公开数据集与对应的分割标签。
步骤2,对交通场景图像进行数据处理。
(2-a)对原始样本数据中的图像与对应的分割标签同步水平翻转;
(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,本实施例优选m1为769,m2为769;
(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集。
步骤3,构建分割模型。
图2所示为本发明实施方式的分割模型网络结构图,具体步骤如下:
(3-a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成。
图3所示为本发明实施方式的ASPP模块结构图。该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3-a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff
(3-b)构建边界细化模块,将步骤(3-a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用Canny算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf
图4所示为本发明实施方式的AG模块结构图。该模块以步骤(3-b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:
Matt=σ1(wbB1i+wfF′i+1)
Figure BDA0003622951370000081
其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数,
Figure BDA0003622951370000082
Figure BDA0003622951370000083
表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。
(3-c)将步骤(3-a)得到的特征图Ff与步骤(3-b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3-b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果。
图5所示为本发明实施方式的CAM结构图。该模块以步骤(3-a)得到的特征图Ff和步骤(3-b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后得到的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:
Q=wqFf
K=wkFf
V=wvBf
Figure BDA0003622951370000084
Figure BDA0003622951370000085
上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数,
Figure BDA0003622951370000091
Figure BDA0003622951370000092
表示矩阵相乘,
Figure BDA0003622951370000093
表示逐像素相加,Softmax(·)代表Softmax函数。
步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。
步骤4,构建损失函数。
根据模型特点,构建如下联合损失函数:
L=λ1Lbody2Lboun3Laux
Figure BDA0003622951370000094
Figure BDA0003622951370000095
Figure BDA0003622951370000096
其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失,
Figure BDA0003622951370000097
表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ123为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160],
Figure BDA0003622951370000098
表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数。
步骤5,训练分割模型。
利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型。
步骤6,交通场景图像分割。
获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。
实施例2
采用实施例1中的方法对公开数据集进行交通场景图像语义分割实验。数据集中一共有19个类别,分别是道路(road)、人行道(sidewalk),建筑物(building)、墙壁(wall)、栅栏(fence)、电线杆(pole)、交通灯(traffic light)、交通信号(traffic sign)、植被(vegetation)、地形(terrain)、天空(sky)、行人(person)、骑手(rider)、汽车(car)、卡车(truck)、公交车(bus)、火车(train)、摩托车(motorcycle)和自行车(bicycle)。本实验操作系统为Linux,基于CUDA10.0和cuDNN7.6.0的PyTorch1.6.0框架实现,使用了4张NVIDIAGeForce RTX 2080Ti(11GB)硬件。
本实施例采用交并比(IoU)指标对RefineNet、PSPNet、AAF、PSANet、AttaNet、DenseASPP等6种方法与本发明在测试集上进行对比,该指标在所有类别上的平均结果用mIoU表示,计算公式如下:
Figure BDA0003622951370000101
K+1表示包含背景的类别总数,本实施例中K为19,pij代表类别为i的像素被预测为类别j的像素数目。
对比结果如表1所示,可以发现,本发明对交通场景分割结果的mIoU值为81.2,比其它方法分割结果的mIoU值都高,从而表明本发明相比于其他方法分割结果更准确。
图6所示为本发明实施方式对交通场景语义分割结果与其他方法分割结果对比图,其中第(a)列为交通场景测试图像,第(b)列为对应的分割标签,第(c)列和第(d)列分别为PSANet和PSPNet网络的分割结果,第(e)列为本发明分割结果。图6中不同的行代表不同的测试图像及其对应方法的分割结果。可以看出,本发明相较于PSANet和PSPNet网络,对目标的判别更加准确,如第一行中电线杆和第三行中卡车的分割结果;同时,本发明对边界细节的处理效果也更好,如图中的人行道。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之结构、原理所作的变化,均应涵盖在本发明的保护范围之内。
表1
Figure BDA0003622951370000111
(注:表中数字1到19为分割类别的标号,分别表示1:道路,2:人行道,3:建筑物,4:墙壁,5:栅栏,6:电线杆,7:交通灯,8:交通信号,9:植被,10:地形,11:天空,12:行人,13:骑手,14:汽车,15:卡车,16:公交车,17:火车,18:摩托车,19:自行车。)

Claims (6)

1.一种边界引导上下文聚合的交通场景语义分割方法,其特征在于包括以下步骤:
(1)获取数据集与分割标签:
获取交通场景公开数据集与对应的分割标签;
(2)数据处理,具体包括以下步骤:
(2-a)对步骤(1)获取的数据集中的图像与对应的分割标签同步水平翻转;
(2-b)将步骤(2-a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,m1、m2都为正整数;
(2-c)将步骤(2-b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集;
(3)构建分割模型,具体包括以下步骤:
(3-a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成;
(3-b)构建边界细化模块,将步骤(3-a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用边缘检测算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入到第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf
(3-c)将步骤(3-a)得到的特征图Ff与步骤(3-b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3-b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果;
(4)构建损失函数:
构建以下联合损失函数:
L=λ1Lbody2Lboun3Laux
Figure FDA0003622951360000021
Figure FDA0003622951360000022
Figure FDA0003622951360000023
其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失,
Figure FDA0003622951360000024
表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ123为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160],
Figure FDA0003622951360000025
表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数;
(5)训练分割模型:
利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型;
(6)交通场景图像分割:
获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。
2.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3-a)中的空洞空间卷积池化金字塔模块ASPP,该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3-a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff
3.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3-b)的注意力门控模块AGi,该模块以步骤(3-b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:
Matt=σ1(wbB1i+wfF′i+1)
Figure FDA0003622951360000031
其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数,
Figure FDA0003622951360000032
Figure FDA0003622951360000033
表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。
4.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3-c)中的上下文聚合模块CAM,该模块以步骤(3-a)得到的特征图Ff和步骤(3-b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果再与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:
Q=wqFf
K=wkFf
V=wvBf
Figure FDA0003622951360000041
Figure FDA0003622951360000042
上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数,
Figure FDA0003622951360000043
Figure FDA0003622951360000044
表示矩阵相乘,⊕表示逐像素相加,Softmax(·)代表Softmax函数。
5.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(2-b)中,正整数m1、m2的取值范围均在[520,1024]之间。
6.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。
CN202210464104.2A 2022-04-29 2022-04-29 一种边界引导上下文聚合的交通场景语义分割方法 Active CN114782949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210464104.2A CN114782949B (zh) 2022-04-29 2022-04-29 一种边界引导上下文聚合的交通场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210464104.2A CN114782949B (zh) 2022-04-29 2022-04-29 一种边界引导上下文聚合的交通场景语义分割方法

Publications (2)

Publication Number Publication Date
CN114782949A true CN114782949A (zh) 2022-07-22
CN114782949B CN114782949B (zh) 2024-04-16

Family

ID=82434410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210464104.2A Active CN114782949B (zh) 2022-04-29 2022-04-29 一种边界引导上下文聚合的交通场景语义分割方法

Country Status (1)

Country Link
CN (1) CN114782949B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937742A (zh) * 2022-11-28 2023-04-07 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN117690107A (zh) * 2023-12-15 2024-03-12 上海保隆汽车科技(武汉)有限公司 一种车道边线识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
US20210150279A1 (en) * 2019-11-14 2021-05-20 Zoox, Inc. Depth data model training with upsampling, losses, and loss balancing
US11164014B1 (en) * 2020-11-09 2021-11-02 Hayden Ai Technologies, Inc. Lane violation detection using convolutional neural networks
CN113781504A (zh) * 2021-09-15 2021-12-10 浙江科技学院 一种基于边界引导的道路场景语义分割方法
CN114373073A (zh) * 2021-12-06 2022-04-19 山东师范大学 一种用于道路场景语义分割的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150279A1 (en) * 2019-11-14 2021-05-20 Zoox, Inc. Depth data model training with upsampling, losses, and loss balancing
US11164014B1 (en) * 2020-11-09 2021-11-02 Hayden Ai Technologies, Inc. Lane violation detection using convolutional neural networks
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113781504A (zh) * 2021-09-15 2021-12-10 浙江科技学院 一种基于边界引导的道路场景语义分割方法
CN114373073A (zh) * 2021-12-06 2022-04-19 山东师范大学 一种用于道路场景语义分割的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937742A (zh) * 2022-11-28 2023-04-07 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN115937742B (zh) * 2022-11-28 2024-04-12 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN117690107A (zh) * 2023-12-15 2024-03-12 上海保隆汽车科技(武汉)有限公司 一种车道边线识别方法和装置
CN117690107B (zh) * 2023-12-15 2024-04-26 上海保隆汽车科技(武汉)有限公司 一种车道边线识别方法和装置

Also Published As

Publication number Publication date
CN114782949B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN111915592B (zh) 基于深度学习的遥感图像云检测方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN111932553A (zh) 基于区域描述自注意力机制的遥感图像语义分割方法
CN111563909A (zh) 一种复杂街景图像语义分割方法
CN112508977A (zh) 一种面向自动驾驶场景的基于深度学习的语义分割方法
CN113920499A (zh) 一种面向复杂交通场景的激光点云三维目标检测模型及方法
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN113688836A (zh) 一种基于深度学习的实时性道路图像语义分割方法及系统
CN114092917B (zh) 一种基于mr-ssd的被遮挡交通标志检测方法及系统
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114677507A (zh) 一种基于双向注意力网络的街景图像分割方法及系统
CN114782949B (zh) 一种边界引导上下文聚合的交通场景语义分割方法
CN113723377A (zh) 一种基于ld-ssd网络的交通标志检测方法
CN112819000A (zh) 街景图像语义分割系统及分割方法、电子设备及计算机可读介质
CN114359873B (zh) 一种融合道路空间先验和区域级特征的弱监督车辆可行域分割方法
CN113762267B (zh) 一种基于语义关联的多尺度双目立体匹配方法及装置
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN116630702A (zh) 一种基于语义分割网络的路面附着系数预测方法
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN115346071A (zh) 高置信局部特征与全局特征学习的图片分类方法及系统
CN112115871B (zh) 适用于行人目标检测的高低频交织边缘特征增强方法
Zhang et al. Semantic segmentation of traffic scene based on DeepLabv3+ and attention mechanism
CN117237900A (zh) 一种基于ssc-yolov5的自动驾驶目标检测算法
CN116433900A (zh) 一种基于双支路特征提取的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant