CN110084274B - 实时图像语义分割方法及系统、可读存储介质和终端 - Google Patents
实时图像语义分割方法及系统、可读存储介质和终端 Download PDFInfo
- Publication number
- CN110084274B CN110084274B CN201910247530.9A CN201910247530A CN110084274B CN 110084274 B CN110084274 B CN 110084274B CN 201910247530 A CN201910247530 A CN 201910247530A CN 110084274 B CN110084274 B CN 110084274B
- Authority
- CN
- China
- Prior art keywords
- image
- characteristic
- feature
- characteristic image
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种实时图像语义分割方法及系统、可读存储介质和终端,所述方法包括:编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器;所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。上述的方案,在使用有限的计算资源进行实时图像语义分割时,提高分割的准确性。
Description
技术领域
本发明属于图像处理技术领域,特别是涉及一种实时图像语义分割方法及系统、可读存储介质和终端。
背景技术
最近,构建更大更深的卷积神经网络(CNNs,Convolutional Neural Networks)成为解决场景理解任务的主要趋势。最准确的CNNs通常具有数百个卷积层和数千个特征通道,尽管取得了更高的性能,但这些进步还是牺牲了模型的运行时间和速度。特别是在诸如增强现实,机器人和自动驾驶汽车等许多现实场景的背景下,通常需要在资源受限的条件下对网络进行实时预测与评估。因此,那些需要大量资源的精确网络,不适用于计算能力、存储容量、能量开销等资源有限的移动平台(例如,无人机,机器人和智能手机)。而这种限制在计算繁重的图像语义分割任务中特别突出,其目标是为图像中的每个像素分配语义类别标签。
为了克服这个问题,许多轻量级网络被设计用来平衡分割准确性和实现效率,大致可以分为两类:网络压缩和卷积分解。尽管这些工作已经对轻量级网络架构进行了初步研究,但在非常有限的计算预算中追求最佳准确性仍然是实时语义分割任务的一个开放性研究问题,这也是当前CNNs在解决图像语义分割问题时亟待解决的问题。
发明内容
本发明解决的技术问题是如何在使用有限的计算资源进行实时图像语义分割时,提高分割的准确性。
为了达到上述目的,本发明提供一种实时图像语义分割方法,所述方法包括:
编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器;
所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。
可选地,所述对输入的原始特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征,包括:
获取分辨率为所述原始特征图像一半的下采样图像;
采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作,并将两并行分支得到的特征图进行通道叠加,得到对应的第一特征图像;所述并行分支中的第一分支采用的卷积核大小为3×3,卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数,卷积核步长为2的卷积层对所述下采样图像进行下采样操作;第二分支对所述下采样图像进行最大池化操作;
对所述第一特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,得到第二特征图像;所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同;
对所述第二特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第三特征图像;所述第三特征图像的特征通道数为所述第二特征图像的两倍;
对所述第三特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次,得到第四特征图像;所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同;
对所述第四特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第五特征图像;所述第五特征图像的特征通道数为所述第四特征图像的两倍;
对所述第五特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次,且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17,输出分辨率不变,卷积核个数为128,最后得到特征通道数为128的特征图像,作为所述编码器的输出。
可选地,所述基于特征通道的拆分和重排的卷积单元,包括:
对输入的特征图像进行通道拆分,得到对应的第一分支特征图像和第二分支特征图像;
采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作,得到第三分支特征图像;所述第一级联结构中第三级采用带孔或扩张的卷积操作;
采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作,得到第四分支特征图像;所述第二级联结构中的第三级采用带孔或扩张的卷积操作;
将所述第三分支特征图像与所述第四分支特征图像进行通道叠加,得到第五分支特征图像;
将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排,得到对应的输出特征图像。
所述解码器采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取,包括:
采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样,分别得到第六特征图像、第七特征图像和第八特征图像;采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作,分别得到第九特征图像、第十特征图像和第十一特征图像;对所述第十一特征图像进行两倍上采样,得到第十二特征图像,并将所述第十二特征图像与所述第十特征图像进行逐像素点相加,得到第十三特征图像;对所述第十三特征图像进行两倍上采样,得到第十四特征图像,并将所述第十四特征图像与所述第九特征图像进行逐像素点相加,得到第十五特征图像;对所述第十五特征图像进行两倍上采样,得到第十六特征图像,即为生成的像素注意力掩码;
采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积,得到第十七特征图像,将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘,得到第十八特征图像,即为生成的带有上下文先验的像素注意力特征图像;
对所述编码器输出的特征图像执行平均池化,得到第十九特征图像;采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像;将所述第二十特征图像进行2倍上采样得到第二十一特征图像,将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加,生成第二十二特征图像,作为对所述编码器的输出图像进行密集的特征提取后的结果;然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小,即解码器的输出。
本发明实施例还提供了一种实时图像语义分割系统,所述系统包括相互耦接的编码器和解码器;
所述编码器,适于对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器;
所述解码器,适于采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。
可选地,所述编码器适于获取分辨率为所述原始特征图像一半的下采样图像;采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作并进行通道叠加,得到对应的第一特征图像;所述并行分支中的第一分支采用的卷积核为大小3×3,卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数,卷积核步长为2的卷积层对所述下采样图像进行下采样操作;第二分支对所述下采样图像进行最大池化操作;对所述第一特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,得到第二特征图像;所述第二特征图像的分辨率与特征通道数均所述第一特征图像相同;对所述第二特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第三特征图像;所述第三特征图像的特征通道数为所述第二特征图像的两倍;对所述第三特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次,得到第四特征图像;所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同;对所述第四特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第五特征图像;所述第五特征图像的特征通道数为所述第四特征图像的两倍;对所述第五特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次,且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17,输出分辨率不变,卷积核个数为128,最后得到特征通道数为128的特征图像,作为所述编码器的输出。
可选地,所述编码器适于对输入的特征图像进行通道拆分,得到对应的第一分支特征图像和第二分支特征图像;采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作,得到第三分支特征图像;所述第一级联结构中第三级采用带孔或扩张的卷积操作;采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作,得到第四分支特征图像;所述第二级联结构中的第三级采用带孔或扩张的卷积操作;将所述第三分支特征图像与所述第四分支特征图像进行通道叠加,得到第五分支特征图像;将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排,得到对应的输出特征图像。
所述解码器适于采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样,分别得到第六特征图像、第七特征图像和第八特征图像;采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作,分别得到第九特征图像、第十特征图像和第十一特征图像;对所述第十一特征图像进行两倍上采样,得到第十二特征图像,并将所述第十二特征图像与所述第十特征图像进行逐像素点相加,得到第十三特征图像;对所述第十三特征图像进行两倍上采样,得到第十四特征图像,并将所述第十四特征图像与所述第九特征图像进行逐像素点相加,得到第十五特征图像;对所述第十五特征图像进行两倍上采样,得到第十六特征图像,即为生成的像素注意力掩码;采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积,得到第十七特征图像,将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘,得到第十八特征图像,即为生成的带有上下文先验的像素注意力特征图像;对所述编码器输出的特征图像执行平均池化,得到第十九特征图像;采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像;将所述第二十特征图像进行2倍上采样得到第二十一特征图像,将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加,生成第二十二特征图像,作为对所述编码器的输出图像进行密集的特征提取后的结果;然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小,即解码器的输出。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的实时语义图像分割方法的步骤。
本发明实施例还提供了一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的实时语义图像分割方法的步骤。
与现有技术相比,本发明的有益效果为:
上述的方案,采用编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器,并由解码器采用注意力金字塔网络模型对编码器的输出特征图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。通过引入特征通道的拆分和重排两新的操作,可以以一种特征重用的方式增强了特征通道间的信息交互,故可以在使用有限的计算资源进行实时图像语义分割时,提高分割的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种实时图像语义分割系统的结构示意图;
图2是本发明实施例中的一种实时图像语义分割方法的流程示意图;
图3是本发明实施例中的采用注意力金字塔网络模型对所述编码器的输出图像进行特征提取的方法的示意图;
图4是本发明实施例中的一种编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征的方法的流程示意图;
图5是本发明实施例中的基于特征通道的拆分和重排的卷积单元进行卷积操作的流程示意图;
图6是本发明实施例中的一种实时图像语义分割方法的应用实例示意图;
图7是本发明实施例中的一种实时图像语义分割方法与现有的其他方法的性能比较示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如背景技术所述,现有技术中许多轻量级网络被设计用来平衡分割准确性和实现效率,大致分为两类:网络压缩和卷积分解。第一类方法主要是通过压缩预训练模型来减少冗余,加快模型推理速度,包括哈希,减枝和量化。为了进一步降低卷积神经网络的冗余,还有一些基于稀疏编码理论的方法。相反,基于卷积分解原理(CFP,ConvolutionFactorization Principle),即将标准卷积分解为组卷积和深度可分离卷积,第二类方法主要是直接训练较小尺寸的网络。例如,ENet(Efficient Neural Network)使用ResNet(Residual Neural Network)作为骨干来执行有效的推理;ICNet(Image CascadeNetwork)提出图像级联框架来逐步细化分割预测;还有一些采用对称编码器-解码器网络(Encoder-Decoder Network)架构等。
尽管目前已经对轻量级网络架构进行了初步研究,但是,如何在非常有限的计算预算中追求最佳准确性,仍然是实时语义分割任务的一个开放性研究问题,这也是当前CNNs在解决图像语义分割问题时亟待解决的问题。
本发明的技术方案通过采用编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器,并由解码器采用注意力金字塔网络模型对编码器的输出特征图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。通过引入特征通道的拆分和重排两个新的操作,以一种特征重用的方式增强了特征通道间的信息交互,故可以在使用有限的计算资源进行实时图像语义分割时,提高分割的准确性。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
为了便于理解,下面首先对本发明实施例中的实时图像语义分割系统进行介绍。
图1是本发明实施例的一种实时图像语义分割系统的结构示意图。参见图1,一种实时图像语义分割系统,可以包括编码器101和解码器102。其中,编码器101与解码器102相互耦接。
下面将对图1所示的实时图像语义分割系统的工作原理进行介绍。
图2是本发明实施例的一种实时图像语义分割方法的流程示意图。参见图2,一种实时图像语义分割方法,具体可以包括如下的步骤:
步骤S201:编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器。
在具体实施中,所述编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积时,采用了和全卷积网络(Fully Convolutional Networks,FCN)类似的网络结构,其核心是一个新颖的残差模块,称为拆分-重排-瓶颈模块(SS-bt,Split-Shuffle-bottleneck),引入了特征通道的拆分和重排(Channel Split and ChannelShuffle)两个新的操作,以一种特征重用的方式增强了特征信道间的信息交互,具体请参见图4中的详细介绍。
步骤S202:所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。
在具体实施中,解码器通过设计的注意力金字塔网络(APN,Attention PyramidNetwork)模块,以提取密集的特征,由于注意力金字塔网络模块所采用的空间金字塔结构可以扩大感受野且不会显着增加计算消耗,再将由APN模块提取的特征向分割类别进行映射,最后将分割结果直接上采样到输入图像分辨率大小,可以进一步降低整个网络的复杂度。
参见图3,在本发明实施例中,在采用注意力金字塔网络模型对所述编码器的输出图像进行特征提取时,首先,采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样,分别得到第六特征图像⑥、第七特征图像⑦和第八特征图像⑧;采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像⑥、第七特征图像⑦和第八特征图像⑧执行卷积操作,分别得到第九特征图像⑨、第十特征图像和第十一特征图像对所述第十一特征图像进行两倍上采样,得到第十二特征图像并将所述第十二特征图像与所述第十特征图像进行逐像素点相加,得到第十三特征图像对所述第十三特征图像进行2倍上采样,得到第十四特征图像并将所述第十四特征图像与所述第九特征图像⑨进行逐像素点相加,得到第十五特征图像对所述第十五特征图像进行2倍上采样,得到第十六特征图像即为生成的像素注意力掩码。
采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积,得到第十七特征图像将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘,得到第十八特征图像即为生成的带有上下文先验的像素注意力特征图像。
对所述编码器输出的特征图像执行平均池化,得到第十九特征图像采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像将所述第二十特征图像进行2倍上采样得到第二十一特征图像将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像X做逐像素点相加,生成第二十二特征图像作为对所述编码器的输出图像进行密集的特征提取后的结果;然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小即解码器的输出。
图4是本发明实施例的一种编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征的方法的流程示意图。参见图4,一种编码器通过对输入的原始特征图像进行特征通道的拆分和重排进行卷积提取图像特征的方法,具体可以包括如下的步骤:
步骤S401:获取分辨率为所述原始特征图像一半的下采样图像。
在具体实施中,通过对所述原始图像进行两倍的下采样可以得到分辨率为所述原始特征图像一半的下采样图像。
步骤S402:采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作,并将两并行分支得到的特征图进行通道叠加,得到对应的第一特征图像。
在具体实施中,所述并行分支中的第一分支采用的卷积核大小为3×3,卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数,卷积核步长为2的卷积层对所述下采样图像进行下采样操作;第二分支采用最大池化(max pooling)对所述下采样图像进行下采样操作。
步骤S403:对所述第一特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,得到第二特征图像。
参见图5,在具体实施中,所述基于特征通道的拆分和重排的卷积单元进行卷积操作具体可以包括:
首先,对输入的特征图像进行通道拆分(Channel Split),得到对应的第一分支特征图像和第二分支特征图像。对于输入的第一特征图像引入特征通道的拆分操作,将特征通道一分为二,如图中所示,且通道拆分操作并不引入任何参数。
接着,采用卷积核分别为3x1(3x1Cov)、1x3(1x3Cov)、3x1(3x1Cov)和1x3(1x3Cov)的第一级联结构对所述第一分支特征图像执行卷积操作,得到第三分支特征图像;所述第一级联结构中第三级采用带孔或扩张的卷积操作,且采用卷积核分别为1x3(1x3Cov)、3x1(3x1Cov)、1x3(1x3Cov)和3x1(3x1Cov)的第二级联结构对所述第二分支特征图像执行卷积操作,得到第四分支特征图像;所述第二级联结构中的第三级采用带孔或扩张的卷积操作。拆分后的第一分支特征图像和第二分支特征图像前馈分别进入主分支的两条支路,两条支路设置基本保持相同,由于引入了分解卷积的操作方式,即将普通的两层3x3卷积拆分成了3x1、1x3的级联结构,降低了参数量,并且在层与层之间设置有对应的激活函数(如,修正线性单元ReLU,Rectified Linear Unit)和批量归一化(BN,Batch Normalization)。同时,这里由普通的3x3卷积拆分出来的一对3x1、1x3卷积使用的是带孔的或者是扩张卷积(dilated convolution,or atrous convolution),扩大了神经元的感受野(receptivefield,即卷积神经网络每一层输出的特征图上每个像素点在原始图像上映射的区域大小)。值得注意的是,当扩张率dilation rate=1时,扩张卷积方式和普通卷积没有区别,当扩张率dilation rate>1时,扩张卷积是在普通卷积的卷积核的每个值(神经元)之间引入了间隔,即相邻两个神经元之间插入(dilation rate–1)个零值,在相同的计算条件下,扩张卷积提供了更大的感受野。本发明实施例中的扩张卷积的扩张率dilation rate如不做特殊说明时,默认设置为1,即与普通卷积相同。
最后,将所述第三分支特征图像与所述第四分支特征图像进行通道叠加,得到第五分支特征图像,并将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排,得到对应的输出特征图像。主支路两个分支输出的特征图在通道上做连接(Concat,Concatenate),保持与整个结构单元输入的通道数相一致。由于主分支的两个支路将卷积运算限定在了支路内,所以在结构单元中引入了特征通道重排(Channel Shuffle)操作,使得两条支路之间的信息得以交互。同时,引入了捷径连接(shortcut connection),可以加速网络的训练过程。
直观上看,基于特征通道的拆分和重排的卷积单元中有两个分支,相比单个分支会大大增加计算量,但由于将主分支特征信道拆成两半,并在每个分支中均采用分解卷积方式,故可以进一步减少了计算量。并且,由于卷积网络中前一层卷积得到的特征图,经过一次上述的基于特征通道的拆分和重排的卷积操作后就流入执行下一次的基于特征通道的拆分和重排的卷积操作,以及双分支结构、通道重排操作,从该角度看,这些操作以一种特征重用的方式加强了信息之间的交互,且没有引入较多的参数,进一步增强了网络的特征表达能力。
在具体实施中,对所述第一特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,生成的所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同。
步骤S404:对所述第二特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第三特征图像。
在具体实施中,所述第三特征图像的特征通道数为所述第二特征图像的两倍。例如,当第二特征图像的通道数为32时,生成的第三特征图像的特征通道数64。
步骤S405:对所述第三特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次,得到第四特征图像。
在具体实施中,所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同。
该步骤中的基于特征通道的拆分和重排的卷积单元具体操作请参见图4中的详细介绍,不再赘述。
步骤S406:对所述第四特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第五特征图像。
在具体实施中,所述第五特征图像的特征通道数为所述第四特征图像的两倍。
步骤S407:对所述第五特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次,且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17,输出分辨率不变,卷积核个数为128,最后得到特征通道数为128的特征图像,作为所述编码器的输出。
例如,参见图6,当所述大小为原始特征图像一半的下采样图像的特征通道数为3,所需得到的第一特征图像的特征通道数为32时,并行分支中的一支所采用的卷积核大小为3×3,卷积核个数为32-3=29,步长为2,输出图像的特征通道数为32-3=29;另一支采用最大池化Max-pooling,该分支的输出信道数保持为输入通道数,即为3,然后将两个分支得到的特征图(feature map)在通道上做连接,即通道叠加,输出通道数为32的特征图,即为对应的第一特征图像601。
接着,对特征通道数为32的第一特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,得到通道数为32的第二特征图像602。
随之,对所述通道数为32的第二特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到特征通道数为64的第三特征图像603。
之后,对所述征通道数为64第三特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次,得到特征通道数为64的第四特征图像604。
然后,对所述特征通道数为64的第四特征图像采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到特征通道数为128第五特征图像605。
最后,对所述第五特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次,且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17,输出分辨率不变,卷积核个数为128,最后得到特征通道数为128的特征图像606,作为所述编码器的输出。
图7是本发明设计的网络模型在Cityscapes数据集(它包含一个带有精细标注(gtFine,ground truth Fine annotation)的数据集,其训练集/验证集/测试集分别包含图像数目为2975/500/1525张,它还包含一个带有粗略标注(gtCoarse,ground truthCoarse annotation)的数据集,其包含20k张粗略标注的图像。在训练时设定分割类别数为20,即19个目标类别附加1个背景类别)上训练后,与其它模型输出的分割结果定性比较。本发明设计的模型LEDNet(在Cityscapes Fine Annotation训练集上进行训练)在测试集上的IoUclass和IoUcategory分别为69.2%、86.8%;在同时使用Fine和Coarse的Cityscapes标注数据条件下,所设计的LEDNet在测试集上的IoUclass和IoUcategory分别为70.6%、87.1%,在很大程度上已经超过了很多先进的模型。为了评估分割性能,评估指标采用标准的杰卡德系数(Jaccard Index),通常也被称为PASCAL VOC交叉联合(或交并比)度量,下面为IoU(Intersection-over-Union)的计算公式:
其中,TP、FP、FN分别代表在整个Cityscapes测试集上确定的真正类(TruePositive)、假正类(False Positive)、假负类(False Negative)像素点的个数。
从图中可以看出LEDNet相比于SegNet,ENet,ERFNet(Efficient ResidualFactorized Network),ESPNet(Efficient Spatial Pyramid Network),ICNet及CGNet(Context Guided Network)的分割结果,前者在分割的准确性和效率之间实现了最优折中。在效率方面,LEDNet模型大小比SegNet小30倍多且速度快5倍多,在分割精度方面,尽管ENet是比较高效的网络,但精度比我们低10%。实验结果表明,与多个基准网络相比,本发明设计的LEDNet不仅可以正确地对不同尺度的物体进行分类,而且可以为所有类别生成一致的定性结果。无论从定量还定性的比较,充分说明了本发明在实时图像语义分割任务中的优越性。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的实时语义图像分割方法的步骤。其中,所述实时语义图像分割方法请参见前述部分的详细介绍,不再赘述。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的实时语义图像分割方法的步骤。其中,所述实时语义图像分割方法请参见前述部分的详细介绍,不再赘述。
采用本发明实施例中的上述方案,编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器,并由解码器采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取,将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。由于引入了特征通道的拆分和重排两个新的操作,以一种特征重用的方式增强了特征通道间的信息交互,故可以在使用有限的计算资源进行实时图像语义分割时,提高分割的准确性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。
Claims (8)
1.一种实时图像语义分割方法,其特征在于,包括:
编码器对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器;其中,对输入的原始特征图像利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征,包括:获取分辨率为所述原始特征图像一半的下采样图像;采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作,并将两并行分支得到的特征图进行通道叠加,得到对应的第一特征图像;所述并行分支中的第一分支采用的卷积核大小为3×3,卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数,卷积核步长为2的卷积层对所述下采样图像进行下采样操作;第二分支对所述下采样图像进行最大池化操作;对所述第一特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,得到第二特征图像;所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同;对所述第二特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第三特征图像;所述第三特征图像的特征通道数为所述第二特征图像的两倍;对所述第三特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次,得到第四特征图像;所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同;对所述第四特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第五特征图像;所述第五特征图像的特征通道数为所述第四特征图像的两倍;对所述第五特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次,且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17,输出分辨率不变,卷积核个数为128,最后得到特征通道数为128的特征图像,作为所述编码器的输出;
所述解码器采用注意力金字塔网络模型对所述编码器的输出特征图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。
2.根据权利要求1所述的实时图像语义分割方法,其特征在于,所述基于特征通道的拆分和重排的卷积单元,包括:
对输入的特征图像进行通道拆分,得到对应的第一分支特征图像和第二分支特征图像;
采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作,得到第三分支特征图像;所述第一级联结构中第三级采用带孔或扩张的卷积操作;
采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作,得到第四分支特征图像;所述第二级联结构中的第三级采用带孔或扩张的卷积操作;
将所述第三分支特征图像与所述第四分支特征图像进行通道叠加,得到第五分支特征图像;
将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排,得到对应的输出特征图像。
3.根据权利要求1所述的实时图像语义分割方法,其特征在于,所述解码器采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取,包括:
采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样,分别得到第六特征图像、第七特征图像和第八特征图像;采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作,分别得到第九特征图像、第十特征图像和第十一特征图像;对所述第十一特征图像进行两倍上采样,得到第十二特征图像,并将所述第十二特征图像与所述第十特征图像进行逐像素点相加,得到第十三特征图像;对所述第十三特征图像进行两倍上采样,得到第十四特征图像,并将所述第十四特征图像与所述第九特征图像进行逐像素点相加,得到第十五特征图像;对所述第十五特征图像进行两倍上采样,得到第十六特征图像,即为生成的像素注意力掩码;采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积,得到第十七特征图像,将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘,得到第十八特征图像,即为生成的带有上下文先验的像素注意力特征图像;
对所述编码器输出的特征图像执行平均池化,得到第十九特征图像;采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像;将所述第二十特征图像进行2倍上采样得到第二十一特征图像,将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加,生成第二十二特征图像,作为对所述编码器的输出图像进行密集的特征提取后的结果;然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小,即解码器的输出。
4.一种实时图像语义分割系统,其特征在于,包括相互耦接的编码器和解码器;
所述编码器,适于对输入的原始特征图像利用基于特征通道的拆分和重排的卷积单元进行卷积操作以提取图像特征并输出至解码器;其中,所述编码器适于获取分辨率为所述原始特征图像一半的下采样图像;采用由两个并行分支组成的下采样单元对所述下采样图像进行两倍下采样操作并进行通道叠加,得到对应的第一特征图像;所述并行分支中的第一分支采用的卷积核为大小3×3,卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数,卷积核步长为2的卷积层对所述下采样图像进行下采样操作;第二分支对所述下采样图像进行最大池化操作;对所述第一特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作三次,得到第二特征图像;所述第二特征图像的分辨率与特征通道数均所述第一特征图像相同;对所述第二特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第三特征图像;所述第三特征图像的特征通道数为所述第二特征图像的两倍;对所述第三特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作两次,得到第四特征图像;所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同;对所述第四特征图像,再次采用由两个并行分支组成的下采样单元以执行两倍下采样操作,得到第五特征图像;所述第五特征图像的特征通道数为所述第四特征图像的两倍;对所述第五特征图像,利用所述基于特征通道的拆分和重排的卷积单元进行卷积操作并重复该基于特征通道的拆分和重排的卷积操作八次,且八次基于特征通道的拆分和重排的卷积操作中的扩张系数依次为1-2-5-9、2-5-9-17,输出分辨率不变,卷积核个数为128,最后得到特征通道数为128的特征图像,作为所述编码器的输出;
所述解码器,适于采用注意力金字塔网络模型对所述编码器的输出图像进行密集的特征提取,并将所提取的特征向分割类别进行映射,最后将分割结果上采样到输入的原始特征图像分辨率。
5.根据权利要求4所述的实时图像语义分割系统,其特征在于,所述编码器适于对输入的特征图像进行通道拆分,得到对应的第一分支特征图像和第二分支特征图像;采用卷积核分别为3x1、1x3、3x1和1x3的第一级联结构对所述第一分支特征图像执行卷积操作,得到第三分支特征图像;所述第一级联结构中第三级采用带孔或扩张的卷积操作;采用卷积核分别为1x3、3x1、1x3和3x1的第二级联结构对所述第二分支特征图像执行卷积操作,得到第四分支特征图像;所述第二级联结构中的第三级采用带孔或扩张的卷积操作;将所述第三分支特征图像与所述第四分支特征图像进行通道叠加,得到第五分支特征图像;将所述第五分支特征图像与所述输入的特征图像进行相加并执行特征重排,得到对应的输出特征图像。
6.根据权利要求4所述的实时图像语义分割系统,其特征在于,所述解码器适于采用大小分别为7x7、5x5、3x3且步长为2的卷积核对所述编码器输出的特征图像执行逐层下采样,分别得到第六特征图像、第七特征图像和第八特征图像;采用大小分别为7x7、5x5、3x3且步长为1的卷积核对第六特征图像、第七特征图像和第八特征图像执行卷积操作,分别得到第九特征图像、第十特征图像和第十一特征图像;对所述第十一特征图像进行两倍上采样,得到第十二特征图像,并将所述第十二特征图像与所述第十特征图像进行逐像素点相加,得到第十三特征图像;对所述第十三特征图像进行两倍上采样,得到第十四特征图像,并将所述第十四特征图像与所述第九特征图像进行逐像素点相加,得到第十五特征图像;对所述第十五特征图像进行两倍上采样,得到第十六特征图像,即为生成的像素注意力掩码;采用大小为1x1、步长为1、通道数为20的卷积核对编码器输出的特征图像进行卷积,得到第十七特征图像,将所述第十七特征图像与生成的所述像素注意力掩码进行逐像素点相乘,得到第十八特征图像,即为生成的带有上下文先验的像素注意力特征图像;对所述编码器输出的特征图像执行平均池化,得到第十九特征图像;采用大小为1x1、步长为1且通道数为20的卷积核对第十九特征图像执行卷积操作得到第二十特征图像;将所述第二十特征图像进行2倍上采样得到第二十一特征图像,将所述第二十一特征图像与所述带有上下文先验的像素注意力特征图像做逐像素点相加,生成第二十二特征图像,作为对所述编码器的输出图像进行密集的特征提取后的结果;然后将第二十二特征图像上采样到与编码器输入图像分辨率相同大小,即解码器的输出。
7.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至3任一项所述的实时图像语义分割方法的步骤。
8.一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求1至3任一项所述的实时图像语义分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910247530.9A CN110084274B (zh) | 2019-03-29 | 2019-03-29 | 实时图像语义分割方法及系统、可读存储介质和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910247530.9A CN110084274B (zh) | 2019-03-29 | 2019-03-29 | 实时图像语义分割方法及系统、可读存储介质和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084274A CN110084274A (zh) | 2019-08-02 |
CN110084274B true CN110084274B (zh) | 2022-09-06 |
Family
ID=67413892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910247530.9A Active CN110084274B (zh) | 2019-03-29 | 2019-03-29 | 实时图像语义分割方法及系统、可读存储介质和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084274B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458173A (zh) * | 2019-08-16 | 2019-11-15 | 京东数字科技控股有限公司 | 用于生成物品颜色值的方法和装置 |
CN110633700B (zh) * | 2019-10-21 | 2022-03-25 | 深圳市商汤科技有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN110991617B (zh) * | 2019-12-02 | 2020-12-01 | 华东师范大学 | 万花筒卷积网络的构建方法 |
CN112927174B (zh) * | 2019-12-06 | 2024-05-03 | 阿里巴巴集团控股有限公司 | 一种图像处理,图像训练以通道混洗方法和装置 |
CN111311609B (zh) * | 2020-02-14 | 2021-07-02 | 推想医疗科技股份有限公司 | 一种图像分割方法、装置、电子设备及存储介质 |
CN111402258A (zh) * | 2020-03-12 | 2020-07-10 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111626298B (zh) * | 2020-04-17 | 2023-08-18 | 中国科学院声学研究所 | 一种实时图像语义分割装置及分割方法 |
CN111404274B (zh) * | 2020-04-29 | 2023-06-06 | 平顶山天安煤业股份有限公司 | 一种输电系统位移在线监控及预警系统 |
CN112418229A (zh) * | 2020-11-03 | 2021-02-26 | 上海交通大学 | 一种基于深度学习的无人船海上场景图像实时分割方法 |
CN112465801B (zh) * | 2020-12-09 | 2022-11-29 | 北京航空航天大学 | 一种分尺度提取掩码特征的实例分割方法 |
CN113537004B (zh) * | 2021-07-01 | 2023-09-01 | 大连民族大学 | 图像的双金字塔多元特征提取网络、图像分割方法、系统和介质 |
CN117710711B (zh) * | 2024-02-06 | 2024-05-10 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN109034162A (zh) * | 2018-07-13 | 2018-12-18 | 南京邮电大学 | 一种图像语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10685446B2 (en) * | 2018-01-12 | 2020-06-16 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
-
2019
- 2019-03-29 CN CN201910247530.9A patent/CN110084274B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN109034162A (zh) * | 2018-07-13 | 2018-12-18 | 南京邮电大学 | 一种图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110084274A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084274B (zh) | 实时图像语义分割方法及系统、可读存储介质和终端 | |
CN110188768B (zh) | 实时图像语义分割方法及系统 | |
WO2022017025A1 (zh) | 图像处理方法、装置、存储介质以及电子设备 | |
Liu et al. | FDDWNet: a lightweight convolutional neural network for real-time semantic segmentation | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN111488985B (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
CN111091130A (zh) | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 | |
CN111626300A (zh) | 基于上下文感知的图像语义分割模型及建模方法 | |
CN115147598B (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN114677412B (zh) | 一种光流估计的方法、装置以及设备 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
WO2016036565A1 (en) | Event-driven temporal convolution for asynchronous pulse-modulated sampled signals | |
CN114973049A (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN110782430A (zh) | 一种小目标的检测方法、装置、电子设备及存储介质 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
CN113705575B (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN114359554A (zh) | 一种基于多感受野上下文语义信息的图像语义分割方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN113255675A (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN113762241A (zh) | 场景文字识别模型的训练方法与识别方法及装置 | |
CN113313162A (zh) | 一种多尺度特征融合目标检测的方法及系统 | |
CN114298289A (zh) | 一种数据处理的方法、数据处理设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |